Teoria e prassi della codifica dei manoscritti.
[To be published in the Acts of the International Seminar: Gli Zibaldoni di Boccaccio: Memoria, scrittura, riscrittura (Firenze 26-28 aprile 1996).] - Last revised: June 10, 1996.
Abstract: In Decembre 1995 Sperberg-McQueen, Lancashire, Durusau, Burnard, Müller, and DeRose discussed some important features of the problems concerning the encoding of texts and the use of SGML and TEI standards: interpretations necessary for each encoding; correct represenation of grapheme in electronic environment; relations between encoding and editorial practices; purposes of the author in graphically organizing the text; distinction of types of markup; materiality of the text and representation of connotations; allography and orthography. This contribution is an effort to trace a theoretical structure which may include all such problems and help to solve them. Such theoretical structure depends on clearing the semiotic passages through which a text (message) goes from the author to the (last) reader. To clarify such passages some concepts are taken into consideration: the competence of the author and of the encoder; the different levels of a text: physical, "virtual", ideal; meaning of features of the text outside the pure sequence of graphemes; specific features of the electronic representation of the text; representation vs. substitution. Encoding cannot be based on the physical appearence of the text, but on the "virtual" text in the mind of those who have written it, and should be able to represent each element in the text contributing to its meaning. The encoder should therefore propose a complete table of correspondences.
Il taglio di questa relazione sarà prevalentemente teorico, e tuttavia nel redigerla ho sempre avuto presente l'esigenza pratica di fornire, per quanto mi è possibile, un contributo fattivo al problema della memorizzazione su supporto magnetico dei manoscritti del Boccaccio. E vorrei sottolineare a questo proposito che il passaggio al supporto magnetico non nasce da moda o capriccio, ma dalle interessanti possibilità di analisi del testo che tale passaggio consente, e anche - occorre dirlo - dal fatto che, potendosi prevedere che in un futuro non lontano i testi verranno preferibilmente fruiti da supporto magnetico, prima si comincia ad operare seriamente quel passaggio, e meglio sarà.
Per dare un'idea concreta dei problemi teorici sollevati dal passaggio su memoria magnetica di testi scritti, vale la pena di riassumere una discussione, a mio parere illuminante, condotta nel dicembre 1995 nell'ambito di un importante "bollettino elettronico" chiamato Humanist, coordinato da Willard McCarty dell'Università di Toronto. (1) L'occasione venne data da un'osservazione di Russon Wooldridge (un francesista di Toronto), che affermava di preferire la codifica senza segni diacritici (accenti etc.) del francese ad una codifica mediante simboli che potevano essere interpretati in maniera ambigua dai software correnti di analisi testuale (cosí academie piuttosto che acad\emie) (9.321.1).
L'osservazione suscitò il disappunto di C. M. Sperberg-McQueen, (germanista ora programmatore a tempo pieno presso l'Università di Illinois), che affermò al contrario:
Tipi di markup: Prof. Lancashire is here falling prey, I think, to a
common confusion of two distinct sets of polar opposites -- a confusion
encouraged by many careless writers on markup. He opposes procedural markup and
descriptive markup, when it would be better (in my opinion) to distinguish first
procedural from declarative markup, and separately to distinguish presentational
from analytic markup. (...) Procedural markup can be interpreted only as
instructions to a program or device of some kind to perform this or that action.
Declarative markup can be interpreted, by contrast, not as instructions to do
something, but simply as a claim that something or other is true of a particular
passage or location in a text. (...) The distinction between presentational
markup and what I call analytic markup is different. Presentational markup
describes, or imposes, the typographic presentation of the text, while analytic
markup identifies the features of the text which are signaled by the typographic
conventions. Italics, says the University of Chicago Manual of Style, may be
used to signal rhetorical emphasis, or the title of a book, or the mention (not
the use) of a word, e.g. in a linguistic discussion. To identify italics as
italics one may use presentational markup; to identify italics as signaling the
title of a book, or the mention of a word, one may use analytic markup.
(9.349.1)
Martin Müller (9.362.3): Some deep belief in 'transcription without loss'
underlies SGML/TEI. Texts are, in Nelson Goodman's terms, infinitely
"allographic." and Michael Sperberg McQueen is an "allographer," who would
unflinchingly accept a spelling of his name as a string of entity references if
it had to come to that. On the other hand when Ian Lancashire argues for the
irreducible elements of presentation, I think he is at some level arguing for
the "autographic" aspects of the typesetter's art. Alphabets and derived codes
are allographs that never quite free themselves from an autographic lure.
Whether SMGL/TEI should be blessed or cursed for resisting the temptations of
autography is a matter that should perhaps be left to theologians.
Steve DeRose (9.365.1): [To read something,] we turn an abstract orthographic
notion of 'letter' into the press of a key, then into a bunch of bits, then into
sound waves to go through the phone line, then back to bits, then to pixels on a
screen, then to photons that strike the retina, then to patterns of neural
activity that the reader classifies as the letter again. There is a legitimate
(essentially allographic) sense in which the information is "the same"
throughout, and a legitimate sense in which it is not. As Pike has often said,
no matter what level of analysis you start at, there are more etic and emic
levels above and below it that you cannot simultaneously analyze. Nothing new
here. Does any of us know what signal our keyboard literally sends when we type
Michael's name? It *could* be sending that "string of entity references":
&cap.m;&i;... and we'd never know it. If some change in technology made
that the most efficient way for computer- makers to do it, would we care?
Mailers don't display 'Michael' as 01001101 01101001 01100011 01101000 01100001
01100101 01101100 -- this is interpretive too: We have a social convention
against expressing information in a way that would be lost by the
transformations/ interpretations just described (sometimes the convention is
troublesome, as for those needing non-Latin-based writing systems, or concrete
poets). Similar but not identical conventions have always been with us, perhaps
due to the nature of human cognitive and pattern-extraction capabilities.
Riassiumiamo ora, senza particolare ordine, i problemi emersi in questa
discussione: ogni passaggio materiale del testo è interpretativo;
rappresentazione corretta dei grafemi in ambiente elettronico; rapporto fra
codifica e analisi editoriali; rapporto fra le intenzioni dell'autore e
l'organizzazione grafica; distinzione di vari tipi di markup, cioè di
codifica in senso lato; rapporto fra la materialità del testo e la
rappresentazione di connotazioni (vs. Questo solo elenco sintetico mostra come ciascuno dei problemi, pur riferito
ad una procedura unitaria, abbia implicazioni diversificate, e richiami ambiti
teorici e relative discussioni che portano in molte diverse direzioni. Il mio
tentativo vorrebbe essere quello di trovare una struttura teorica che possa
coinvolgere tutti quei problemi singoli, dar conto della loro posizione
reciproca, e aiutare a proporre soluzioni che mantengano una coerenza di base.
A tal fine penso che possano costituire un punto di partenza le osservazioni
relative alla soggettività di ogni procedimento di codifica, che rimandano
all'utilizzazione della competenza del lettore(-[ri-]codificatore) nel valutare
il precedente stato di codifica, cosa che a sua volta rimanda ad un'osservazione
di cui raramente si fa menzione, o tanto meno si tiene conto, a proposito di
codifica elettronica di testi. Si tratta del fatto che l'azione della codifica
elettronica viene ad inserirsi all'interno (e non dopo!) del processo semiotico
di comunicazione fra autore e fruitore di un testo. Questo comporta che l'azione
della codifica sia sottoposta a tutti i problemi (studiati soprattutto dalla
semiotica, ma non solo...) relativi al processo sopra evocato, che, come oggi
ognun sa, è assai complicato e richiama un gran numero di problemi.
Ma questo comporta anche (e soprattutto) che la codifica per supporto
elettronico non è un procedimento che rimane parallelo ad una parte del processo
semiotico di comunicazione, in modo da lasciare invariato nella sostanza tale
processo. Al contrario, essa potrà lasciare invariato il risultato di
tale processo (cioè l'esatta comprensione del contenuto del messaggio da parte
del ricevente, che è quello che si vuole, o comunque che piú importa) soltanto
se sarà perfettamente corretta proprio dal punto di vista del processo
semiotico.
Procediamo con ordine, chiarendo preliminarmente (poi ci si tornerà)
l'inserimento del concetto di competenza, e poi affrontando il processo
semiotico di comunicazione testuale. Introduco il concetto di competenza nel
procedimento di codifica sull'esempio della linguistica, ritenendo che vi sia un
parallelismo (pur in alcune essenziali diversità) fra lingua e codice, in
particolare codice per supporto elettronico. (2) Secondo le mie vedute, la competenza (per quanto attiene
all'informatica, dunque in ambito formalizzato), è l'insieme di regole
che hanno guidato un autore a produrre un determinato oggetto, nel senso di
oggetto semiotico: p.es. un "testo". Sotto un altro aspetto, la competenza è la
sintesi logica compiuta dell'autore sui singoli elementi di cui si compone un
testo per determinarne certe relazioni per cui appunto i singoli elementi
vengono a comporre quel testo, e non un altro. Per converso, la competenza di
chi esamina un testo è ciò che permette di riconoscere la relazione fra gli
elementi studiati, quando essi sono stati posti in determinate relazioni da una
competenza "originaria". Tenendo presente che l'informatica deve formalizzare,
cioè ridurre a simboli, la competenza rappresenta la padronanza teorica della
struttura di un codice, vuoi in sá, vuoi nei rapporti fra codice e realtà che
esso può essere chiamato a rappresentare.
Si può dire che la competenza dello studioso (del codificatore) deve essere
una meta-struttura che consente di poter rappresentare con i simboli a
disposizione le strutture che possono essere riconosciute negli oggetti che
verranno rappresentati da questi simboli.
Come si vede, è essenziale per la codifica prendere in considerazione anche
il concetto di testo. Ed in effetti uno dei principali motivi per cui, a
differenza di quanto si crede normalmente, il problema della codifica è molto
delicato consiste nel fatto che esso si innesta su quello della definizione di
testo. Non mette nemmeno conto di ricordare quanti abbiano sottolineato
l'ambiguità del concetto di testo; (3) quello che occorre fare in questa sede è individuare alcune
caratteristiche del testo, che servono a chiarire i problemi della codifica.
Prima di tutto, il testo può essere considerato da due punti di vista molto
differenti, quasi si potrebbe dire opposti. Il primo individua come testo la
materialità di ciò che è scritto. Il testo "è" le pagine di un manoscritto o di
un libro, o meglio ciò che vi risulta scritto. Il secondo individua come testo
un contenuto ideale che fa da tramite fra l'autore e il "fruitore". (4) L'approccio piú comune alla codifica, sia esso cosciente o
(come spesso accade) non cosciente, consiste nel prendere atto del testo (in
senso materiale) come esso si presenta, in un manoscritto o in un libro, e
inserire in memoria dei codici tali che, sottoposti ad un software scelto in
precedenza, per lo piú un pacchetto di video-scrittura, riproducano al meglio
sullo schermo e sulla stampante quel testo. Di là dalla considerazione
tecnologica che il mondo dei software è molto mutevole, l'obiezione principale a
questo modo di agire consiste nel fatto che esso perde di vista l'essenza del
mezzo di comunicazione elettronico. Infatti in questo modo non si fa che
riprodurre, sia pure in modo sofisticato, il consueto procedimento a stampa.
Esso ha delle implicazioni che vengono generalmente sottaciute, e che invece
farebbero emergere le caratteristiche vincenti dello strumento elettronico.
Quello che interessa, nel riprodurre il testo, non è in realtà il suo aspetto
fisico (che assume il massimo rilievo coi sistemi convenzionali), ma è il suo
significato. Per comprendere questo aspetto, basterà riflettere sui diversi
elementi del testo materiale, e mettere in evidenza il fatto che alcuni di essi
sono importanti, altri non lo sono, altri sono trattati in modo implicito. Ne
indichiamo alcuni, a mo' di esempio:
Aspetti importanti (da riprodurre comunque): sequenza dei grafemi.
In realtà molti degli aspetti non ritenuti importanti fanno parte del
significato del testo; ma soprattutto gli aspetti impliciti ci indicano che la
pura sequenza dei grafemi non è il solo elemento testuale da cui si possa
ricavare il significato del testo.
Ma v'è di piú. Gli aspetti non importanti ci dicono che ciò che vogliamo
riprodurre, anche nel sistema convenzionale, non è la pura apparenza fisica del
testo, ma qualcosa che va oltre essa, anche se non è ancora il significato del
testo nel suo senso piú generale. Il fatto che i grafemi possano essere di varia
forma e dimensione ci indica che non sono i grafemi in sá che noi consideriamo
(i glifi), ma un'idea astratta di ciascun grafema, che sta alla base delle sue
manifestazioni materiali. Quando un codificatore memorizza un simbolo di lettera
"a" senza specificare tipo di polizza, grandezza (point size), etc.,
implicitamente identifica un elemento ideale "lettera a" indipendente da ogni
resa materiale di tale elemento. (5) Noi dunque non riproduciamo qualcosa di materiale, ma pur
sempre un atto di comprensione spirituale, per individuare il quale si ricorre
alla competenza (cf. sopra).
Tornando all'organizzazione grafica della pagina, è evidente che una corretta
riproduzione del testo comporta che non si perdano le intenzioni dell'autore che
tramite essa modificava il significato della pura sequenza dei grafemi. Coi
sistemi convenzionali ciò era ottenuto riproducendo fisicamente i fenomeni
grafici ritenuti significativi. Ma il sistema elettronico deve essere usato
anche (e forse soprattutto) per analisi testuali che non comportano la
sua visualizzazione complessiva: si pensi alle concordanze etc. Dunque è
importante che la codifica elettronica includa dei segnali, oltre a quelli
relativi ai grafemi, che collochino i grafemi nel loro giusto contesto, cioè ne
indichi il significato in quel particolare momento.
Questo è il vero significato, dal punto di vista informatico,
dell'osservazione che ogni codifica comporta una interpretazione del testo.
Occorre un'indagine preliminare che stabilisca le intenzioni dell'autore
nell'utilizzare i mezzi tecnici, dalla grafia all'organizzazione della pagina,
per esprimere il suo messaggio. E, all'altro capo del procedimento, occorre
dichiarare esplicitamente e con grande precisione la corrispondenza di ciascun
segno del codice utilizzato con i singoli significati espressivi degli elementi
del messaggio. Quando diciamo "ciascun segno" non intendiamo qui singoli byte
(caratteri elettronici) ma anche gruppi di byte (p.es. i segnali SGML
<...>) che esprimono singoli fenomeni.
Passando ora ad un altro argomento correlato a quelli precedenti, e che in
certo modo ne forma la base, e cioè la specificità del mezzo elettronico,
occorre chiarire la funzione del simbolo nella computazione, per poter stabilire
quali valori possono essere associati con quel simbolo.
Esporrò su questo punto, brevemente, il mio punto di vista, che è stato
svolto ampiamente in altri contributi. (6) Per le sue particolari caratteristiche, lo strumento
informatico può essere utilizzato come il puro simulatore di uno strumento non
informatico (macchina da scrivere, macchina tipografica, calcolatore, macchina
fotografica, televisione, etc.). È soltanto quando si usa lo strumento
informatico in quanto tale, cioè in quanto motore di automazione in procedure
che normalmente vengono definite "intelligenti", che interviene la necessità di
rendersi ben conto di quale sia la sua natura, e quali i presupposti di una
buona utilizzazione.
Quello che è nuovo nell'uso di strumenti informatici (e per questo appunto
vengono chiamati informatici, per distinguerli da tutti gli altri strumenti, che
vengono implicitamente compresi in una medesima categoria, diciamo, di
"convenzionali" consiste nel fatto che i passaggi in cui si evita l'intervento
umano non sono passaggi di carattere puramente pratico e insomma
materiale, ma passaggi che si esplicavano finora per lo piú mediante operazioni
mentali. Questo presuppone che si accetti che l'informatica stessa non sia
semplicemente un insieme di tecnologie, ma piuttosto di metodologie, e dunque
una disciplina con un proprio fondamento teorico, che deve in qualche modo
interagire con le metodologie delle singole discipline umanistiche. L'uso
corretto del computer come macchina che realizza procedimenti logici sui dati, e
nello stesso tempo funge da mezzo di comunicazione non passivo fra gli studiosi,
richiede la consapevolezza dell'aspetto teorico che sta alla base dei vari tipi
di macchina fisica che lo studioso utilizza.
Il computer assume aspetti diversissimi e può essere costruito con materiali
diversissimi. Ciò che sta alla base di questa diversità è un meccanismo intimo,
che guida le procedure operative. Sarà dunque questo "meccanismo" che dovrà
fornire la chiave per intendere correttamente i rapporti fra il computer e le
discipline umanistiche alle quali viene applicato.
In realtà, come nota Bolter, (7) il computer, nemmeno quando le simula, è alcuna delle macchine
cui accennavo sopra, ma è lo strumento che "governa" quelle macchine. Per questo
motivo l'informatica correttamente intesa è la disciplina che studia i principi
di funzionamento del computer, ovverossia il modello formale (se si vuole
matematico, ma in senso logico) del funzionamento del computer (macchina di
Turing, algoritmi); quindi come metodologia del trattamento dei dati sottoposti
al computer. Esso è un modello che produce modelli, e qui si inserisce la
funzione del simbolo, come elemento costitutivo di un modello.
Occorre ora introdurre un ulteriore argomento, che chiarisce altri aspetti
della codifica: la distinzione fra rappresentazione e sostituzione.
La rappresentazione è il modello di una dato procedimento, nel quale le
singole parti corrispondono a quelle che costituiscono il procedimento, cosí
come i rapporti fra le singole parti. La sostituzione è volta invece ad ottenere
lo stesso effetto di un dato procedimento, mediante elementi e rapporti che non
corrispondono, in tutto o in parte, a quelli del procedimento. La scrittura
rispetto alla voce è da considerare una sostituzione, non una rappresentazione;
essa è invece una rappresentazione del testo virtuale (cf. sotto), ma come
codifica essa è imperfetta, perchá obbedisce a piú scopi differenti, e non segue
la regola della biunivocità.
Nella tradizione manoscritta, una copia è la sostituzione del suo modello,
mentre è la rappresentazione del testo virtuale come concepito dallo scriba.
Questo testo virtuale è la sintesi fra la manifestazione materiale del modello e
la competenza dello scriba. Allo stesso modo, un testo elettronico è la
sostituzione del corrispondente testo cartaceo, oltretutto con le sostanziali
differenze che il supporto elettronico presenta rispetto al supporto cartaceo.
Viceversa, il testo elettronico è la rappresentazione del testo virtuale,
analogamente ad un manoscritto o ad un libro. L'essenziale differenza qui è che
la rappresentazione elettronica in sá è invisibile, e viene resa visibile
attraverso determinati programmi e macchine (schermo, stampante).
Dalle osservazioni esposte sopra, deriva che la codifica di un testo
presuppone la consapevolezza dei diversi livelli che il testo stesso assume nel
corso della sua trasmissione semiotica. Dobbiamo cioè distinguere:
(a) un "testo ideale", che consiste nella rappresentazione pre-linguistica
della realtà oggetto del messaggio; dunque il significato del testo, o in parole
povere l'idea pre-linguistica da cui l'autore trae il messaggio che vuole
comunicare.
(b) Un "testo virtuale", che consiste nella rappresentazione linguistica del
testo ideale, tuttavia non ancora materializzata in onde sonore o in una
scrittura. Si tratta di una sequenza di lettere ideali, che formano le strutture
sintattiche (morfemi, sintagmi, proposizioni, periodi), accompagnata dagli
elementi connotativi che verranno espressi in modo piú o meno adeguato
adattandosi al mezzo di comunicazione materiale scelto.
(c) Un "testo materiale", che consiste nella rappresentazione materiale del
testo virtuale, nella fattispecie una scrittura. Essa è una sequenza di glifi,
opportunamente scelti per rappresentare le lettere ideali, ed alcune
connotazioni (maiuscole per riverenza, corsivi per enfatizzazione, etc.) ed
opportunamente organizzati per rappresentare ulteriori connotazioni, ovvero
semplicemente per gusto estetico di composizione, o esigenze pratiche.
Il testo materiale è una codifica, generalmente imperfetta, del testo
virtuale, attuata mediante la competenza di chi lo produce, che può essere
l'autore stesso, o uno scriba, o un tipografo. Rispettivamente, si risale,
tramite il testo materiale, al testo virtuale che stava nella mente dell'autore,
oppure dello scriba, oppure del tipografo. In questi ultimi due casi, se si
vuole risalire al testo virtuale dell'autore, occorre mettere in atto tutte
quelle metodologie che permettono di risalire dall'uno all'altro.
Tuttavia, quale che sia lo scopo che ci si propone, la codifica su supporto
magnetico non è la codifica del testo materiale, ma quella del testo virtuale,
che si ottiene esaminando il testo materiale alla luce della competenza di chi
lo ha prodotto. Solo questo permetterà di identificare tutti gli elementi
singoli, atomici, che formeranno l'oggetto della codifica, e di formulare una
tabella convenzionale di corrispondenza fra i codici, cioè i simboli della
codifica, e quegli elementi.
(1) Notizie complete su Humanist si trovano nella pagina
web: http://www.princeton.edu/~mccarty/humanist/humanist.html
(2) J. Fodor, M. Garrett, Some Reflections on Competence and
Performance, in: Psycholinguistc Papers (eds. J. Lyon, R. J. Wales),
Edinburgh, 1966. R. Raggiunti, Presupposti filosofici della linguistica di
Chomsky, Milano, 1983 (cf. cap. 4). T. Winograd, Language as a Cognitive
Process. Vol. I: Syntax, Addison-Wesley, 1983, p. 149-153.
(3) Rimandiamo a Segre, L'analisi del testo letterario,
in: Avviamento all'analisi del testo letterario, p. 5-10 e 28-55 e W.
Nöth, Handbook of Semiotics, Indiana U.P., 1990, p. 331-333.
(4) Cf. Burnard 349.2, quando nota che la codifica bene eseguita
"allows you to make explicit your inferences. It's in the nature of things that
those inferences should cover a very wide range -- from "compositor intended to
use an italic typeface" at the one extreme to "author was thinking of his mother
at this point" at the other." Burnard mette qui in evidenza l'opposizione fra
testo come apparenza materiale e come contenuto, significato, mentale.
(5) Rimane poi da vedere se l'elemento ideale "a" sia il medesimo
in diverse lingue. Qui il problema si complica terribilmente.
(6) Informatica Umanistica (7) Turing's Man, Chapel Hill, 1984. Tr. it. L'uomo di
Turing, Parma, Pratiche, 1985, p. 15 e 47-52.
Aspetti non importanti (da non riprodurre come tali, possono venire
rifatti): organizzazione puramente estetica della pagina. Divisione in linee,
divisione delle parole negli a capo, grandezza del corpo di scrittura, tipo
delle polizze organizzazione pratica: titoli correnti, numerazione delle pagine,
frontespizio, indice.
Aspetti di significati impliciti: alternanza di
maiuscole e minuscole, corsivi, evidenziazioni di vario genere, virgolette,
trattini, varianti ortografiche, etc.