4

Il livello minimo di codifica di un testo elettronico è costituito dalla semplice sequenza dei caratteri alfabetici così come appaiono nel testo originale,[1] corrispondente al formato "solo testo" o ASCII. Un livello molto elevato di codifica è costituito da testi in cui la dimensione (in bites) delle annotazioni aggiunte (linguistiche o di altro tipo) supera di gran lunga il testo originale stesso. Il formato in cui il testo "arricchito" si presenta può variare, anche se vi è la tendenza ad andare verso una sempre maggiore standardizzazione a seguito della globalizzazione dell'informazione e delle necessità dettate dall'interscambio e dalla condivisione delle risorse testuali. Accanto ai formati specifici ai prodotti delle diverse case di software si stanno affermando formati basati su standard internazionali. Il riferimento principale è dato dallo SGML (norma ISO 8879: 1986, Information Processing--Text and Office Systems--Standard Generalized Markup Language), che costituisce la "grammatica generale" per la codifica di testi elettronici. Una codifica SGML prevede ad esempio che qualsiasi informazione aggiunta al "solo testo" sia inserita tra i segni di < e >, e che le codifiche vengano presentate in modo gerarchicamente strutturato. All'interno del "metalinguaggio" SGML sono stati inoltre elaborati dei criteri e delle linee guida per tipi diversi di testi elettronici. Tre tra le più importanti implementazioni della sintassi SGML sono il linguaggio HTML (Hyper Text Markup Language), in cui sono codificati i documenti ipertestuali che compongono il World Wide Web, lo standard TEI, il formato elaborato in ambito scientifico-accademico dalla Text Encoding Iniziative, e lo standard XML (eXchange Markup Language) che si sta imponendo come principale formato di codifica a livello internazionale.[2] Così come per quanto riguarda la tipologia e i criteri di progettazione, anche per quanto riguarda la codifica vi sono differenze notevoli tra i diversi progetti di corpora "traduttivi" esaminati, a seconda degli scopi del progetto, delle applicazioni ipotizzate e degli strumenti utilizzati. In alcuni casi il corpus è codificato secondo criteri minimi (puro testo o formati commerciali), mentre in altri vengono utilizzati complessi sistemi di codifica aderenti a standard appositamente elaborati.

Tra i progetti di maggiore rilevanza a questo riguardo va senz'altro annoverato il MULTEXT Project, una delle cui principali finalità consiste nell'elaborazione di standard generali di codifica per testi appartenenti a lingue diverse. In collaborazione con altri progetti internazionali, tra cui EAGLES (Expert Advisory Group on Language Engineering Standards), sono stati elaborati dei criteri per la codifica di corpora multilingui che si propongono come standard internazionali (CES, Corpus Encoding Standard). Il CES è un'applicazione del linguaggio SGML elaborata in conformità alle linee guida elaborate nell'ambito della Text Encoding Initiative (Sperberg-McQueen e Burnard 1994), che specifica dei livelli minimi di codifica che un corpus deve possedere per aderire allo standard proposto, fornendo istruzioni riguardanti l'annotazione linguistica e l'architettura dei corpora (Ide, Priest-Dorman e Véronis 1995). Le linee guida elaborate dalla TEI riguardano criteri generali per la creazione di testi elettronici, e proprio per permettere la massima flessibilità individuano una strutturazione modulare che può essere manipolata a seconda delle necessità di specifici progetti. Il CES da un lato compie una selezione tra le diverse opzioni indicate nelle linee guida TEI, specificando un insieme più ristretto di criteri da utilizzare nella codifica di testi appartenenti a un corpus; da un altro lato espande le linee guida TEI elaborando criteri specifici alla codifica di corpora. In particolare, il CES identifica criteri per la creazione di corpora paralleli allineati (CESALIGN), un'area non sviluppata dalla TEI. I criteri elaborati nel CES sono intesi per corpora destinati ad essere utilizzati come risorsa in applicazioni lessicografiche, terminologiche e per la traduzione automatica, e più in generale in tutto il campo del NLP (Natural Language Processing). I criteri identificati nel CES sono utilizzati, oltre che nel MULTEXT EAST Project, anche nel TRIAL Project canadese.

Anche i progetti PEDANT, CRATER e ENPC seguono le linee guida TEI, pur senza rientrare nelle specifiche CES e CESALIGN. Le differenze tra questi schemi di codifica riguardano aspetti relativamente secondari, e sono documentate in apposite DTD (Document Type Definition, la "certificazione elettronica" di un documento TEI).[3] Maggiori dettagli sullo schema di codifica TEI vengono forniti in la codifica del Corpus Parallelo Rushdie; per il momento è sufficiente osservare come i cinque progetti menzionati riguardino corpora paralleli allineati e riccamente annotati, ovvero in cui ad ogni parola del corpus viene assegnata un'"etichetta" contenente informazioni linguistiche semantiche, sintattiche e grammaticali, e di cui viene identificata la posizione all'interno di un testo particolare.

Un livello minore di annotazione hanno invece i corpora utilizzati nei progetti ECC e LINGUA. Entrambi utilizzano una codifica di tipo SGML, ma non le più specifiche linee guida TEI. In entrambi i progetti, nei corpora utilizzati vengono inserite codifiche relative alla segmentazione in paragrafi e frasi e viene identificato il corpo del testo. Al corpo del testo nell'EEC (o meglio, nella componente TEC dell'ECC) viene associato un "frontespizio elettronico" (o header), che fornisce informazioni bibliografiche ed extratestuali. In particolare, vengono fornite informazioni sulla traduzione, sui traduttori e sul processo traduttivo non esplicitamente previsti nello header CES.

Il livello minimo di codifica, il formato solo testo, è utilizzato in un gran numero di progetti di piccole dimensioni, che sfruttano i più diffusi programmi commerciali per l'analisi di corpora di testi elettronici.

[1] Ci si riferisce naturalmente a testi scritti.

[2] Sono in atto notevoli sforzi per giungere ad una sempre maggiore standardizzazione, da un lato attraverso la creazione da parte della comunità scientifica di prodotti "multipiattaforma", in grado cioè di funzionare su diversi sistemi operativi, dall'altro attraverso la progressiva adozione per i prodotti commerciali di standard di codifica elaborati dalla comunità scientifica internazionale. La diffusione della rete Internet permette inoltre la consultazione di corpora mono o bilingui a prescindere dalle risorse tecnologiche a disposizione dell'utente finale, dato che spesso l'elaborazione dei dati avviene tramite programmi non situati sul computer dell'utente. È questo il caso del progetto ECC, la cui componente TEC è consultabile via Internet, di TRANSEARCH, che mette a disposizione un'interfaccia per la creazione di concordanze parallele del corpus Hansard canadese, dell'ENPC e più in generale di un numero sempre maggiore di corpora specializzati, ad esempio concordanze multilingui sul testo della Bibbia o del Mago di Oz in versione bilingue inglese-tailandese (il Thai Internet Education Project).

[3] "Il concetto di Document Type Definition è il cuore dello SGML. Lo standard non fornisce alcuna prescrizione riguardo la tipologica, la quantità e il nome dei marcatori, ma esclusivamente precise regole sintattiche su come definire un insieme di marcatori all'interno di una DTD: attraverso queste regole formali, è possibile definire un linguaggio di codifica adeguato per una certa classe di documenti e rispondente ad esigenze particolari di rappresentazione. La portabilità ed universalità della codifica è garantita dalla diffusione della DTD insieme al testo stesso" (Ciotti [s.d.] online).