Un esperimento nella creazione di un testo elettronico parallelo

Codifica e allineamento di A Brief History of Time di Stephen Hawking

By Federica Comastri (Università di Modena e Reggio Emilia, Italy)

Abstract & Keywords

English:

This article describes an experiment that involved the alignment of a text in English (A Brief History of Time by Stephen Hawking) with its translation into Italian. Alignment is the process of linking the sentences in the English text to those in the Italian one. This experiment is based on the English-Norwegian Parallel Corpus, a project developed in Norway at the universities of Oslo and Bergen. Within the ENPC two programs were developed: the Translation Corpus Aligner (TCA), which performs the text alignment, and the Translation Corpus Explorer, a browser for parallel texts. The functioning of TCA and TCE is described, as well as what needs to be done to prepare the texts in electronic format and encode them in XML using TEI, before the alignment with TCA and the “exploration” with TCE can take place. Some searches performed with TCE are described, in order to show how parallel texts and corpus tools can be employed for translation analysis. In particular, a study was carried out of how personal and possessive pronouns and possessive adjective of the source text have been translated. The information obtained with this investigation, together with other data generated during the alignment process regarding the number of words and sentences in both texts, was used to show a method that, if carried out with more texts, allows answering questions regarding the theory and analysis of translation. Moreover, it was explained how the employment of TCE together with WordSmith Tools (Scott 1996), allows one to check whether the terminology of a source text has been rendered in a consistent way throughout the target text.

Italian:

Oggetto del presente articolo è un esperimento che ha comportato l’allineamento di un testo in inglese (A Brief History of Time di Stephen Hawking) alla sua traduzione in italiano. Tale esperimento si è basato su un progetto sviluppato in Norvegia, l’English-Norwegian Parallel Corpus (ENPC), utilizzando programmi sviluppati all’interno di esso: il Translation Corpus Aligner (TCA), che esegue appunto l’allineamento dei due testi, e il Translation Corpus Explorer (TCE), un browser per testi paralleli. Si descrive in dettaglio il funzionamento dei programmi utilizzati, la preparazione dei testi in formato elettronico, che sono stati prima codificati nel linguaggio XML TEI, poi allineati con TCA ed “esplorati” con TCE. Si espongono a titolo esemplificativo alcune ricerche eseguite con TCE, con lo scopo di dimostrare il modo in cui i testi paralleli, interrogati con appositi strumenti informatici, possono essere utilizzati nell’analisi della traduzione. In particolare, si è analizzato come sono stati tradotti i pronomi personali e possessivi e gli aggettivi possessivi presenti nella versione inglese del libro. Le informazioni così ottenute, assieme ad altri dati generati durante l’allineamento e riguardanti il numero di parole e frasi, illustrano un tipo di indagine possibile che, se condotto su un numero maggiore di testi, consentirebbe di rispondere a domande riguardanti la teoria e l’analisi della traduzione. Si dimostra inoltre come l’impiego congiunto di TCE e di WordSmith Tools (Scott 1996) permette di controllare se la terminologia presente nel testo di origine è stata resa in modo coerente nella traduzione.

Keywords: linguistica dei corpora, corpus linguistics, corpus-based translation studies, parallel corpora, corpora paralleli, allineamento

©inTRAlinea & Federica Comastri (2002).
"Un esperimento nella creazione di un testo elettronico parallelo", inTRAlinea Vol. 5.
This article can be freely reproduced under Creative Commons License.
Stable URL: http://www.intralinea.org/archive/article/1619

1. Introduzione

Un corpus parallelo, cioè una raccolta di testi in una lingua A e delle corrispondenti traduzioni in una lingua B, consente non solo di rispondere a un’ampia gamma di domande riguardanti l’analisi e la teoria della traduzione, ma anche di studiare caratteristiche linguistiche tipiche sia dei testi tradotti, sia di quelli originali.

Il presente articolo descrive la creazione e l’analisi di una coppia di testi paralleli allineati, un originale inglese e la sua traduzione in italiano. L’oggetto dello studio è presentare un modello per la creazione di un corpus di testi paralleli partendo da libri in formato cartaceo e mostrare esempi di analisi che è possibile svolgere su tale corpus. Le procedure di analisi portate ad esempio riguardano le occorrenze dei pronomi nel testo di partenza e in quello di arrivo, confronto statistici (numero di parole, numero e lunghezza delle frasi), e analisi di cluster di parole. I dati raccolti sono certamente troppo limitati per consentire qualsiasi generalizzazione; tuttavia si è ritenuto interessante illustrare un tipo di indagine possibile che, se condotto su un numero maggiore di testi, consentirebbe di rispondere a domande riguardanti la teoria e l’analisi della traduzione.

2. La preparazione dei testi paralleli

Per questo progetto si è scelto di utilizzare il libro intitolato A Brief History of Time: From Big Bang to Black Holes (d’ora in poi “l’originale"), di Stephen Hawking, pubblicato per la prima volta da Bantam Press nel 1988, e la sua traduzione in italiano Dal big bang ai buchi neri: Breve storia del tempo (d’ora in poi “la traduzione"), di Libero Sosio, pubblicata dalla casa editrice Rizzoli nel 1988.

Questa coppia di testi può fornire una buona base di partenza per mostrare come si può utilizzare un testo parallelo per l’analisi della traduzione. Inoltre, trattando di un argomento tecnico, i testi scelti consentono di verificare se determinati termini specialistici sono stati tradotti coerentemente.

Dopo avere ottenuto il permesso dalle case editrici e dai detentori dei diritti d’autore di creare versioni elettroniche dei due libri a fini di ricerca, questi sono stati trasferiti in formato elettronico mediante uno scanner e il software OmniPage Limited Edition 5.0 di Caere Corporation. Dopo la scansionatura sono stati corretti eventuali errori commessi dal software nel riconoscimento dei caratteri. Si è quindi proceduto alla codifica e infine all’allineamento dei testi.

2.1. La codifica

Il linguaggio di codifica, o marcatura, adottato è un tipo di SGML [2] , più specificamente quello sviluppato all’interno della Text Encoding Initiative (TEI), un progetto nato nel 1987 dalla necessità di definire uno standard comune che tutti i ricercatori potessero impiegare nella creazione di testi elettronici da utilizzare per analisi linguistiche. La TEI è finanziata dalla Association for Computational Linguistics (ACL), dalla Association for Literary and Linguistic Computing (ALLC) e dalla Association for Computers and the Humanities (ACH) (Sperberg-McQueen e Burnard, 1999). L’utilizzo di un linguaggio standard internazionale consente una facile condivisione dei file tra vari utenti e di utilizzare tutti quei testi già disponibili in formato elettronico.

Una prima versione dei file è stata prodotta con Microsoft Word 2000 e poi salvata in formato “solo testo” (.txt). Sono state quindi create alcune macro per inserire un primo gruppo di tag basilari aventi la funzione di indicare la struttura del testo elettronico e la sua suddivisione in paragrafi (<p> </p>) e frasi (<s> </s>). Inoltre le parti in enfasi, sempre rese in corsivo, sono state trasformate in testo normale e codificate con la tag <hi rend="italic"> </hi>, la quale indica appunto la presenza di testo evidenziato ("hi” sta per “highlighted") reso in corsivo.

Un documento codificato in SGML può essere visto come una gerarchia di elementi in cui il testo intero contiene tutti i suoi sotto-elementi: nel caso di un libro, ad esempio, capitoli, paragrafi, frasi e così via. Le parti costituenti del linguaggio SGML sono gli elementi, gli attributi e le entità. Un elemento è la parte di testo che si vuole codificare (un capitolo, una frase o una parola) e che può essere ulteriormente definito da un attributo, in alcuni casi obbligatorio e in altri facoltativo, e dal suo valore. Ad esempio l’elemento “frase” può avere l’attributo n, il cui valore potrebbe essere il numero della frase stessa all’interno del testo. Gli elementi e gli attributi sono codificati per mezzo di tag, distinte dal resto del testo grazie a parentesi ad angolo (< e >).

L’inizio dell’elemento è identificato da una tag contenente il nome dell’elemento e i suoi attributi, mentre la fine è identificata da una tag contenente il nome dell’elemento preceduto da una barra (/). Ogni tag può contenere un unico nome di un elemento, ma più di un attributo. Ad esempio, secondo le direttive della TEI, un capitolo può essere identificato nel seguente modo: <div1 type="chapter” id="1">, in cui “div1” è il nome dell’elemento, in questo caso una divisione di primo livello del testo, “type” e “id” sono gli attributi, e “chapter” e “1” i valori di tali attributi. La tag corrispondente da inserire nel punto in cui il capitolo finisce è </div1>.

Per identificare quei caratteri che non rientrano tra i primi 128 dell’alfabeto ASCII, come ad esempio lettere con diacritici o altri simboli particolari si utilizzano invece le “entità”, delimitate dai simboli “and” e “;”: la lettera maiuscola E con l’accento grave (È), ad esempio, è quindi codificata con l’entità “andEgrave;”. Gli elementi ammessi all’interno di un testo in SGML sono definiti dalla Document Type Declaration (DTD), un file a parte che specifica appunto quali elementi, attributi e entità possono essere inseriti in un testo e la loro sintassi, cioè il modo in cui devono essere combinati. I file DTD sono utilizzati da appositi programmi per interpretare e convalidare i documenti SGML.

La codifica dei testi è stata quindi portata a termine con XMetal 2.0 di Softquad, un editor per creare documenti XML e SGML, in cui specificando una DTD (nel nostro caso teixlite.dtd, un prodotto del consorzio TEI) si è guidati nella marcatura corretta del testo. Il software specifica infatti quali tag sono ammesse in una determinata parte del documento e grazie al parser interno, un programma che analizza il testo elettronico, permette di verificare se esso è stato codificato correttamente rispetto alla DTD scelta.

2.2. L’allineamento

Per allineare i due testi sono stati utilizzati i programmi e i criteri di codifica utilizzati per l’English Norwegian Parallel Corpus (ENPC), un progetto iniziato nel 1993 presso le università di Oslo e Bergen [3]. L’ENPC, e i programmi ad esso associati, era stato originariamente pensato come un corpus contenente testi originali inglesi con la loro traduzione in norvegese e testi originali in norvegese con la loro traduzione in inglese, ed è stato successivamente esteso anche ad altre lingue europee, come francese, tedesco, olandese e portoghese. Oltre a ciò presso le università di Lund e Göteborg in Svezia e presso l’Università di Jyväskylä in Finlandia esistono altri due progetti sviluppati secondo gli stessi criteri e utilizzando gli stessi software: l’English-Swedish Parallel Corpus (Altenberg, Aijmer e Svensson, 1999) e il Finnish-English Contrastive Corpus Studies. In seguito a queste estensioni l’ENPC è stato quindi rinominato Oslo Multilingual Corpus (OMC).

L’utilizzo dei programmi associati all’ENPC per l’italiano permette dunque di verificarne l’efficacia per una lingua non ancora inclusa all’interno dell’OMC, che potrebbe ad esempio ampliarsi mediante l’inserimento di un corpus italiano-inglese bidirezionale (cfr. Bernardini 2002 e Zanettin, 2002).

In passato sono stati sviluppati altri progetti per la costruzione di corpora paralleli con testi italiani e inglesi, come ad esempio il progetto LINGUA, finanziato dall’Unione Europea (King, 1997; e Ulrych, 1997) e che comprende un programma per concordanze parallele, Multiconcord, il quale permette di confrontare automaticamente testi originali e la loro traduzione in dieci lingue europee (Ulrych, 1997: 428). Tuttavia, l’impiego dei programmi dell’ENPC nella creazione di un testo parallelo presenta vantaggi non offerti da tali progetti. Ad esempio, Multiconcord produce l’allineamento sul momento, portando a percentuali d’errore del 10%, soprattutto nei casi in cui i testi contengono paragrafi molto lunghi (King e Wools, 1996). Al contrario, la produzione del corpus parallelo secondo il metodo adottato nell’ENPC si svolge in più stadi: durante la fase di allineamento il programma Translation Corpus Aligner (TCA) produce alcuni file che possono essere facilmente corretti in un secondo momento se si verificano casi di frasi abbinate scorrettamente. Solo quando le coppie di frasi sono state allineate correttamente, i file vengono indicizzati in un database che verrà poi utilizzato dal programma Translation Corpus Explorer (TCE) per trovare le parole o le espressioni che si stanno cercando all’interno dei testi. Perciò il risultato finale prodotto dal browser è sempre corretto. Inoltre prima di poter utilizzare i testi con Multiconcord, questi devono essere allineati al livello dei paragrafi, che devono essere nello stesso numero sia nel testo originale, sia in quello tradotto (Johns, 1997). TCA invece non prevede costrizioni di questo tipo, tenendo dunque in considerazione il fatto che spesso le traduzioni presentano una suddivisione in paragrafi diversa rispetto a quella dei testi di partenza. Altri limiti di Multiconcord sono rappresentati dal fatto che esso non è in grado di gestire traduzioni molto diverse dall’originale, causando quindi allineamenti scorretti, e che non è possibile visualizzare né l’organizzazione dei paragrafi nel testo, né il paragrafo che precede o segue quello contenente l’espressione cercata (Ulrych, 1997: 430). Al contrario TCE permette di visualizzare fino a venticinque frasi precedenti o seguenti quella contenente la sequenza di ricerca.

2.2.1. Il Translation Corpus Aligner (TCA)

Dall’inizio degli anni novanta, quando gli studiosi hanno cominciato ad occuparsi della creazione di corpora paralleli, sono stati sviluppati diversi algoritmi per eseguire l’allineamento di testi, cioè per far corrispondere le frasi di un testo A alle loro rispettive traduzioni nel testo B, alcuni basati su valori statistici calcolati partendo dalla lunghezza delle frasi misurati in parole o caratteri (cfr. Brown, Lai e Mercer, 1991; e Gale e Church, 1991a, 1991b e 1993), e altri che utilizzano le informazioni linguistiche presenti nei testi da allineare (cfr. Simard, Foster e Isabelle, 1992; McEnery e Oakes, 1995 e 1996; e Church, 1993).

Il Translation Corpus Aligner (TCA), un programma MS-DOS sviluppato da Knut Hofland, utilizza tecniche efficaci impiegate in precedenti programmi di allineamento per produrre un algoritmo robusto ed affidabile, basato sia sulla lunghezza delle frasi misurata in caratteri, sia sulle informazioni linguistiche che si possono ricavare dai testi da allineare. L’uso congiunto di queste due metodologie ha infatti permesso di ottenere allineamenti molto più attendibili rispetto a quelli degli algoritmi che sfruttavano solamente la misura delle frasi utilizzata singolarmente, che impediva ai programmi d’allineamento di ricominciare l’elaborazione dei testi dopo aver commesso un errore.

Tuttavia la caratteristica innovativa di TCA riguarda l’estrazione automatica delle parole affini (Hofland e Johansson, 1998: 91), basata sugli stessi principi sviluppati all’interno del progetto CRATER (cfr. McEnery e Oakes, 1995), e l’impiego di un semplice lessico bilingue sotto forma di una lista di parole equivalenti nelle due lingue. TCA utilizza tale elenco, denominato anchor list (di cui si tratterà più dettagliatamente nella prossima sezione), per trovare all’interno dei testi i cosiddetti “punti di ancoraggio”, che il programma tratta come punti di riferimento per allineare una frase in una lingua alla corrispondente traduzione nell’altra lingua.

Per ovviare a un problema già riscontrato in passato, vale a dire il fatto che gli algoritmi per l’allineamento non riescono a gestire coppie di testi con diversi numeri di paragrafi, come nel caso del progetto LINGUA (cfr. Johns, 1997), TCA si “muove” all’interno dei file spostando una finestra di quindici frasi con una sovrapposizione di cinque frasi tra una finestra e l’altra, invece di leggere la coppia di testi paragrafo per paragrafo. Durante questa fase TCA legge blocchi di quindici frasi per volta e crea degli elenchi in cui registra le “parole àncora” trovate nelle frasi, i “numeri àncora” (cioè il numero della linea nell’anchor list in cui si trova una determinata coppia di parole [4]), le parole che iniziano con la lettera maiuscola (probabilmente nomi propri che pertanto compaiono uguali sia nel testo originale sia nella traduzione), caratteri speciali, come ad esempio i segni di punteggiatura, e il numero di caratteri contenuti in ogni frase.

Dopo aver letto la sequenza di quindici frasi, TCA costruisce una matrice che mostra come il testo è stato allineato (cfr. esempio 1). Ogni volta che il programma trova un punto in comune tra le coppie di frasi, secondo i parametri menzionati precedentemente, i valori all’interno delle celle della matrice vengono aumentati di un punto. La prima riga orizzontale esterna al grafico indica il numero di caratteri contenuti in ogni frase italiana, mentre la seconda riga orizzontale mostra il numero della frase all’interno del testo italiano. Allo stesso modo, la colonna all’estrema sinistra indica il numero della frase presa in considerazione all’interno del testo inglese, mentre quella a fianco mostra il numero di caratteri contenuti in ogni frase inglese. Le coppie di numeri sotto alla matrice indicano, in questo caso, che tutte le frasi sono state allineate con corrispondenza 1:1, cioè che ad ogni frase inglese corrisponde una sola frase italiana.

Esempio 1. Matrice creata durante l’allineamento delle sezioni “Acknowledgements” e “Introduction” ai corrispondenti file con le traduzioni italiane “Ringraziamenti” e “Introduzione”:

    94 50 82 62 122 209 136 66 74 153 99 110
    1 2 3 4 5 6 7 8 9 10 11 12
1 79 4 0 0 0 1 0 1 0 0 0 0 2
2 53 1 2 1 1 0 1 1 3 1 0 1 0
3 81 0 0 3 0 0 0 0 2 0 0 0 0
4 64 0 1 0 5 1 1 1 2 1 1 0 1
5 118 2 1 1 0 6 3 3 1 1 0 1 1
6 177 1 2 3 1 1 16 2 2 3 3 4 3
7 89 0 0 0 0 1 0 4 0 0 0 0 1
8 48 1 2 1 2 3 2 2 4 2 1 1 0
9 65 1 1 1 1 2 3 3 2 5 1 2 0
10 148 0 0 0 1 1 3 0 1 1 14 0 3
11 79 0 1 2 0 0 1 2 0 1 0 7 1
12 108 2 0 0 0 0 0 0 1 0 2 0 12

Sum=125/1.08: 1,1 2,2 3,3 4,4 5,5 6,6 7,7 8,8 9,9 10,10

Se accade che in uno dei due testi mancano alcune frasi (la traduzione, cioè, non è letterale) o se non ci sono abbastanza punti in comune tra una coppia di frasi, TCA interrompe la lettura dei file e costruisce una matrice per le frasi analizzate fino a quel punto, per poi riprendere nuovamente l’allineamento.

2.2.2. La creazione dell’anchor list

Nonostante TCA sia in grado di eseguire l’allineamento anche senza specificare un’anchor list, è stato provato che il suo impiego riduce significativamente il numero degli errori (Santos e Oksefjell, 2000).

Considerando il livello tecnico dei nostri testi, in un primo momento era sembrato più utile preparare un’anchor list contenente le parole specialistiche contenute nei due libri, piuttosto che tradurre in italiano le anchor list inglese-tedesco e inglese-francese preparate all’interno dell’ENPC e che ci erano state fornite insieme ai software utilizzati nella nostra ricerca. Tuttavia, un programma che consente di determinare la frequenza con cui le parole compaiono nel testo (Hofland e Johansson, 1998: 98-99) ha rivelato che tali termini si ripetevano troppo spesso e quindi non erano adatti a essere utilizzati come punti àncora. Infatti se una parola compare ripetutamente in più di una frase di seguito, TCA si “confonde” e non è in grado di riconoscere il corretto allineamento delle frasi.

L’anchor list finale, di 1203 righe, è stata dunque preparata tenendo in considerazione l’elenco di frequenza delle parole nel testo inglese, eliminando le prime 15 della lista perché troppo frequenti, e aggiungendovi quelle già presenti nell’anchor list tedesca e francese. Oltre a ciò, quando si identificavano coppie di frasi allineate scorrettamente, si estraeva una parola chiave per ogni lingua da ognuna di tali frasi per inserirla nell’anchor list, nel caso tali termini non fossero già presenti.

2.2.3. I testi allineati

Durante il processo di allineamento TCA produce alcuni file identificati da diverse estensioni. Quello con l’estensione “.ut” si utilizza per verificare se l’allineamento è stato eseguito correttamente: mostra infatti le matrici per le varie serie di frasi analizzate e le coppie di frasi così come sono state allineate. I due file con estensione “.byb” sono nel formato per i software WordCruncher e ParaConc, da impiegare nel caso in cui si desideri utilizzare i testi allineati per svolgere analisi con tali programmi. Infine i due file con estensione “.ali” sono documenti leggibili con qualsiasi word processor, codificati in TEI ed allineati. In essi TCA ha aggiunto gli attributi “id” e “corresp” in ogni tag <head> (che indica un header, cioè il titolo di una sezione del documento) e <s>, i quali rimandano all’elemento a loro corrispondente nel testo nell’altra lingua (cfr. esempio 2a e 2b). Questi attributi, congiuntamente alla lettera T (che sta per “traduzione”; compare sottolineata nell’esempio) presente nel valore degli attributi del testo in italiano, servono a distinguere le frasi del testo originale da quelle della traduzione.

Esempio 2.

2a. Parte di testo inglese allineato a quello italiano:

<div1 type=front id=SH0.1>

<head id=SH0.1.h1 corresp=SH0T.1.h1>Acknowledgments

</head>

<p id=SH0.1.p1>

<s id=SH0.1.s1 corresp=SH0T.1.s1>I decided to try and write a popular book about space and time after I gave the Loeb lectures at Harvard in 1982.</s>

<s id=SH0.1.s2 corresp=SH0T.1.s2>There were already a considerable number of books about the early universe and black holes, ranging from the very good, such as Steven Weinberg’s book, <title rend="italic">The First Three Minutes </title>, to the very bad, which I will not identify.</s>

<s id=SH0.1.s3 corresp=SH0T.1.s3>However, I felt that none of them really addressed the questions that had led me to do research in cosmology and quantum theory: Where did the universe come from?</s>

<s id=SH0.1.s4 corresp=SH0T.1.s4>How and why did it begin?</s>

<s id=SH0.1.s5 corresp=SH0T.1.s5>Will it come to an end, and if so, how?</s>

<s id=SH0.1.s6 corresp=SH0T.1.s6>These are questions that are of interest to us all.</s>

<s id=SH0.1.s7 corresp=SH0T.1.s7>But modern science has become so technical that only a very small number of specialists are able to master the mathematics used to describe them.</s>

<s id=SH0.1.s8 corresp=SH0T.1.s8>Yet the basic ideas about the origin and fate of the universe can be stated without mathematics in a form that people without a scientific education can understand.</s>

<s id=SH0.1.s9 corresp=SH0T.1.p1>This is what I have attempted to do in this book.</s>

<s id=SH0.1.s10 corresp=SH0T.1.s9>The reader must judge whether I have succeeded.</s></p>

2b. Corrispondente parte di testo italiano allineato a quello inglese:

<div1 type=front id=SH0T.1>

<head id=SH0T.1.h1 corresp=SH0.1.h1>Ringraziamenti

</head>

<p id=SH0T.1.p1>

<s id=SH0T.1.s1 corresp=SH0.1.s1>Presi la decisione di cimentarmi in un libro di divulgazione sullo spazio e sul tempo dopo aver tenuto il ciclo delle <title rend="italic">Loeb lectures </title> a Harvard nel 1982.</s>

<s id=SH0T.1.s2 corresp=SH0.1.s2>Esisteva già un numero considerevole di libri sugli inizi dell’[5]universo e sui buchi neri, da quelli ottimi, come <title rend="italic">I primi tre minuti </title> di Steven Weinberg, a quelli pessimi, che lascerò nell’ anonimato.</s>

<s id=SH0T.1.s3 corresp=SH0.1.s3>Pensavo però che nessuno di essi avesse affrontato veramente i problemi che mi avevano condotto a compiere ricerche nei campi della cosmologia e della teoria quantistica: da dove ebbe origine l’ universo?</s>

<s id=SH0T.1.s4 corresp=SH0.1.s4>Come e perché ebbe inizio?</s>

<s id=SH0T.1.s5 corresp=SH0.1.s5>Avrà mai fine, e in tal caso come?</s>

<s id=SH0T.1.s6 corresp=SH0.1.s6>Queste sono domande che interessano a tutti noi.</s>

<s id=SH0T.1.s7 corresp=SH0.1.s7>Ma la scienza moderna è diventata così tecnica che solo un numero piccolissimo di specialisti è in grado di padroneggiare la matematica usata per descriverla.</s>

<s id=SH0T.1.s8 corresp=SH0.1.s8>Le idee fondamentali sull’ origine e la sorte dell’ universo possono però essere espresse senza bisogno di far ricorso alla matematica, in un modo comprensibile anche da chi non abbia una formazione scientifica.</s>

<s id=SH0T.1.s9 corresp=SH0.1.s10>Sarà il

lettore a giudicare se io sia o no riuscito nel mio intento.</s></p>

Al termine del processo di allineamento i due file con estensione “.ali” sono stati controllati nuovamente con un parser in grado di leggere i testi allineati, per verificare che le tag inserite da TCA contenessero i giusti elementi e attributi.

2.3. Il Translation Corpus Explorer (TCE)

Oltre al programma di allineamento, all’interno dell’ENPC è stato sviluppato anche il Translation Corpus Explorer (TCE), un browser per testi paralleli attraverso il quale, cercando un’espressione in una lingua, è possibile trovare non solo tutte le frasi in cui è presente tale espressione nel testo nella lingua della parola ricercata, ma anche le frasi corrispondenti del testo nell’altra lingua.

Nel corso degli anni sono state create quattro diverse versioni del browser TCE, due per Microsoft Windows, locali, cioè da installare sul proprio computer, una a 16 bit (TCE) e l’altra a 32 (Tce32) e due versioni per Internet, WebTCE e la più recente PerlTCE. All’interno dell’ENPC sono stati sviluppati anche i programmi per indicizzare i file che compongono il database utilizzato dal browser, uno per TCE, denominato Tceshell, e gli altri, Newprep e Newt, che creano un database in formato Microsoft Acces, per le altre tre versioni del browser.

Nonostante le loro interfacce siano leggermente diverse l’una dall’altra, le quattro versioni operano tutte circa allo stesso modo e dispongono delle stesse funzionalità. La ricerca base è quella per parole singole, in una lingua o nell’altra: nella finestra superiore del browser vengono visualizzate una per volta le frasi in cui tale termine si trova, mentre in quella inferiore si hanno le frasi corrispondenti nell’altra lingua. TCE permette inoltre di ricercare sequenze di parole o termini che iniziano o finiscono in un certo modo oppure combinazioni di parole che si trovano a una certa distanza, impostabile dall’utente, l’una dall’altra. Anche la punteggiatura può essere utilizzata come criterio di ricerca. L’opzione “AND” permette di ricercare tutte le frasi in cui una parola è presente nel testo originale in tutti i casi in cui è stata tradotta in un certo modo. Al contrario l’opzione “NOT” consente di ricercare tutte le frasi in cui una parola è presente nel testo originale in tutti i casi in cui non è stata tradotta in un certo modo (e viceversa, ossia partendo dalla traduzione invece che dall’originale). Ad esempio una ricerca per mind* AND ment*[6]dà come risultato tutte le frasi in cui MIND (o MINDS) è stato tradotto con MENTE (o MENTI); una ricerca per mind* NOT ment* dà come risultato tutte le frasi in cui MIND non è stato tradotto con MENTE (è questo il caso della locuzione to change one’s mind, in cui MIND all’interno della traduzione è stato tradotto con PARERE o IDEA) [7]

3. L’interrogazione del testo elettronico parallelo

Una primo tipo di ricerca sul testo allineato ha preso spunto da Baker (1993: 244) che nel formulare l’ipotesi di universali traduttivi cita lo studio di Vanderauwera (1985: 97-8), dal quale risulta che in un corpus di romanzi olandesi tradotti in inglese i pronomi ambigui nell’originale erano stati sostituiti nella traduzione con forme più precise, e che nei casi in cui la sintassi della lingua di partenza fosse complicata, questa era stata semplificata.

Per verificare se questo avvenisse nella nostra coppia di testi, sono state analizzate le occorrenze dei pronomi all’interno dell’originale e il modo in cui sono state rese nella traduzione in italiano, così come le cifre riguardanti il numero di frasi, parole e lemmi contenuti nei due libri.

3.1. I pronomi

L’indagine è stata portata a termine ricercando uno per volta i pronomi personali e possessivi e gli aggettivi possessivi presenti nel testo inglese, per poi suddividere i risultati trovati in base al modo in cui erano stati tradotti. Da una prima analisi risulta che il traduttore non ha tentato di disambiguare o semplificare il testo di arrivo nel caso dei pronomi e dei possessivi di prima persona singolare, del possessivo YOUR (non si hanno occorrenze di YOURSELVES e YOURS), dei pronomi WE, US e OURSELVES e del possessivo OUR. Al contrario, il testo di arrivo è stato modificato rispetto a quello di partenza quando si è trattato di tradurre il pronome YOU (uno dei pronomi che ha subito più cambiamenti, necessari per chiarire la traduzione, poiché in inglese YOU si riferisce alla seconda persona sia singolare sia plurale, mentre in italiano sono presenti due pronomi diversi), nel caso dei pronomi HE e HIM e del possessivo HIS, del pronome IT e del possessivo ITS, del pronome OURS e dei pronomi e possessivi di terza persona plurale [8].

Un conteggio più dettagliato di tutti i pronomi e possessivi nell’originale ha mostrato quanto segue:

- 1028 pronomi e possessivi inglesi sono stati resi letteralmente con le corrispondenti forme italiane e di questi 362 sono soggetti (quindi in italiano sarebbero potuti essere sottintesi);

- 644 pronomi e possessivi inglesi occorrono in frasi la cui sintassi nel testo d’arrivo è stata modificata rispetto a quello di partenza e di questi 422 sono soggetti;

- 577 pronomi con funzione di soggetto sia nel testo di partenza sia in quello d’arrivo sono stati sottintesi nella traduzione, probabilmente perché il soggetto in italiano può essere comunque inferito dalla coniugazione del verbo;

- 94 pronomi o possessivi sono stati sostituiti nella traduzione dal nome a cui si riferiscono nel testo originale e di questi 38 sono soggetti.

Nonostante nel testo d’arrivo molti soggetti siano stati sottintesi, questo è un fenomeno comune in italiano e non può essere quindi portato a riprova contro il secondo universale, poiché, anche se il soggetto non è esplicitato nella frase, ciò non rende la traduzione meno comprensibile dell’originale. D’altro canto accade invece, 94 volte su 2343, cioè nel 4% dei casi, che il traduttore ha sostituito un pronome con un’espressione più precisa; non sempre tuttavia ciò era necessario per rendere meno ambigui un pronome o un possessivo inglese. Sebbene la percentuale del 4% rappresenti un valore ridotto, è comunque rappresentativo del fatto che il traduttore abbia tentato di chiarire il testo di arrivo.

Tenendo conto di queste considerazioni, si può quindi concludere che, nonostante la nostra ricerca si sia basata su un numero limitato di testi, per quanto riguarda i pronomi e i possessivi l’ipotesi del secondo universale della traduzione è valida nel caso dei nostri testi, in linea dunque con i risultati di Vanderauwera (1985). Se la stessa analisi fosse condotta su un corpus allineato, tale ipotesi riceverebbe un’ulteriore conferma.

Abbiamo visto che un programma per eseguire concordanze parallele come TCE, utilizzato dopo aver creato un testo elettronico parallelo con un programma per l’allineamento come TCA, può essere impiegato per dimostrare la veridicità di ipotesi sviluppate nell’ambito della teoria della traduzione. In particolare abbiamo analizzato come sono stati tradotti dall’inglese all’italiano i pronomi personali e possessivi e gli aggettivi possessivi contenuti nei testi in esame.

Sarebbe interessante approfondire l’analisi svolta ricercando i pronomi e i possessivi all’interno del testo italiano per trovare i loro corrispondenti nel testo di partenza. Tuttavia ricerche di questo tipo sono estremamente difficili da portare a termine senza codificare le parti del discorso (cioè senza l’impiego di tag che identifichino esplicitamente la categoria grammaticale a cui appartiene una determinata parola), dal momento che i pronomi e i possessivi italiani presentano più forme flesse che in inglese.

3.2. La struttura delle frasi

È opinione diffusa che le frasi in italiano siano solitamente più complesse rispetto a quelle inglesi e di conseguenza più lunghe. I dati numerici mostrano che mentre nella versione italiana del libro ci sono meno frasi che in quella inglese (2747 rispetto a 2761, in linea con le nostre supposizioni), il numero di parole è superiore (67.795 nella traduzione contro 64.271 nell’originale). Tali valori potrebbero sembrare in contraddizione, tuttavia non è così se si considera che probabilmente al minor numero di frasi corrisponde un maggior numero di parole, quindi una lunghezza maggiore, per ogni singola frase. Infatti grazie a un’analisi più dettagliata dei casi in cui non si ha corrispondenza 1:1 tra le frasi del testo di partenza e quelle del testo d’arrivo, si è potuto verificare che le frasi italiane sono spesso più lunghe di quelle inglesi e che le differenze sintattiche tra i due testi non sono dovute unicamente alla diversa grammatica delle due lingue, ma anche a scelte arbitrarie da parte del traduttore.

La frase più lunga in italiano contiene 597 caratteri e quella più breve ne contiene 17, mentre quella più lunga in inglese ne contiene 493 e quella più corta 16. Quindi, mentre nelle frasi brevi il numero di caratteri è circa lo stesso sia in italiano sia in inglese, in quelle più lunghe si ha invece una notevole differenza. Una ragione di ciò si può trovare nel fatto che sono presenti ventitre esempi di allineamenti 2:1, quelli cioè in cui due frasi inglesi abbastanza brevi sono state tradotte con un unica frase italiana, di conseguenza più lunga di quelle originali. Oppure potrebbe essere dovuto alla possibilità che il traduttore abbia utilizzato più parole di quelle contenute nel testo di partenza, perché ha aggiunto delle parti non contenute nell’originale o perché per esprimere lo stesso concetto l’italiano richiede più parole rispetto all’inglese. Oppure ancora potrebbe essere semplicemente causato dal fatto che le parole italiane sono solitamente più lunghe di quelle inglesi. Un conteggio delle parole e dei lemmi potrà fornire ulteriori dettagli riguardo alla lunghezza delle frasi.

In generale le frasi italiane tendono ad essere leggermente più lunghe e apparentemente più complesse dal punto di vista sintattico di quelle inglesi, a causa dell’elevato numero di subordinate e coordinate nel testo italiano negli allineamenti 2:1. Questi risultati sono in contrasto con quanto affermato da Baker (1993), cioè che i testi tradotti sono strutturalmente più semplici degli originali: nel nostro caso sembra infatti accadere il contrario. Questo può essere dovuto al fatto che, come suggerisce l’esperienza comune, i periodi italiani contengono solitamente più coordinate e subordinate di quelli inglesi. In questo caso, dunque, le caratteristiche distintive della lingua d’arrivo, l’italiano, sembrano prevalere su quelle dei testi tradotti.

3.3. Types, tokens e lemmi

Come accennato, l’originale inglese contiene 64.271 parole e la traduzione italiana 67.795. Queste cifre si riferiscono tuttavia al numero di token, cioè al numero di tutte le parole contenute nel testo prese una ad una. Se invece si considera il numero di type, cioè il numero di parole diverse contenute nei due libri, senza contare lo stesso termine due volte, l’originale contiene 4322 type e la traduzione 6458 [9].

Ciò nonostante è ancora necessaria qualche precisazione, poiché le cifre riguardanti i type si riferiscono al numero di parole intese come sequenze di caratteri separate l’una dall’altra da uno spazio (Sinclair, 1991: 176), ma che possono essere morfologicamente correlate tra loro, formando un lemma che consiste in una radice e dai suoi derivati.

Si è quindi proceduto alla lemmatizzazione della lista di parole contenute nei due testi, e il risultato finale ha portato un conteggio di 2767 lemmi nella traduzione e 2564 nell’originale. La differenza relativamente cospicua nel numero di type (6458 in italiano e 4322 in inglese) e quella più ridotta nel numero di lemmi (2767 in italiano e 2564 in inglese) riflette probabilmente il fatto che in italiano esistono più forme flesse che in inglese o, in altri termini, che un lemma verbale italiano, ad esempio, contiene più derivati che lo stesso lemma in inglese.

Queste cifre mostrano che nella versione italiana del libro in questione sono presenti più token, più type e più lemmi che in inglese. Il rapporto type/token permette di misurare la variazione lessicale: più alta è la percentuale, più vario è il vocabolario utilizzato (Munday, 1998). Per l’italiano tale rapporto dà un valore di 9,526% e per l’inglese di 6,724%, mentre il rapporto lemma/token dà un valore di 4,081% per l’italiano e di 3,989% per l’inglese. Inoltre i valori per le due lingue sono molto più simili considerando la lista di parole lemmatizzata che non quando si considera quella non lemmatizzata.

Dai valori del rapporto type/token si deduce che il traduttore deve aver utilizzato un vocabolario più ampio rispetto a quello impiegato nel testo di partenza. Ciò potrebbe essere dovuto al fatto che le ripetizioni sono solitamente meno tollerate in italiano che in inglese e perché il traduttore impiega più termini diversi come equivalenti di un’unica parola dell’originale. Tuttavia, un confronto tra la frequenza delle parole tecniche contenute in entrambi i testi, più in particolare quei termini che riflettono l’argomento del testo (ad esempio, BUCO NERO, SPAZIO, TEMPO, PARTICELLA e QUARK), danno risultati simili sia per l’italiano sia per l’inglese. In altre parole, il traduttore ripete un determinato termine più o meno con la stessa frequenza dell’autore del testo di partenza (cfr. Appendice).

Questi risultati sembrerebbero in accordo con Baker (1993), secondo cui i testi tradotti tendono a evitare le ripetizioni contenute nel testo di partenza, omettendole o parafrasandole. Sarebbe interessante verificare se ciò accade perché scrivendo in italiano le ripetizioni andrebbero evitate il più possibile, come detto in precedenza, o perché si tratta di un testo tradotto. Uno studio delle frequenze di tutte le parole tecniche contenute nei due libri potrebbe fornire qualche suggerimento riguardo alla risposta a questa domanda. Se risultasse che un numero elevato di termini sono stati parafrasati con espressioni più lunghe per evitare di ripetere una parola che compare vicino, allora potrebbe darsi che in italiano si utilizzi un vocabolario più ampio appunto per evitare le ripetizioni.

Johansson e Ebeling (1996) hanno notato che all’interno dei testi dell’ENPC, sia nelle traduzioni verso l’inglese degli originali in norvegese, sia nelle traduzioni verso il norvegese degli originali in inglese, si ha un aumento medio del numero di parole. Sostengono inoltre che tale aumento è dovuto a una tendenza generale dei testi tradotti a essere più lunghi degli originali (1996: 9), e quindi più espliciti, di quelli di partenza. I valori relativi ai token nella nostra coppia di testi sono in linea con questi risultati, e mostrano un aumento nel numero di parole nel testo d’arrivo di quasi il 3%.

Tale aspetto andrebbe comunque investigato ulteriormente, per cercare di capire il motivo per cui ciò accade: perché si tratta di una traduzione o a causa delle diverse caratteristiche sintattiche delle due lingue in questione? In altri termini, la traduzione contiene più parole perché il traduttore tende a spiegare meglio e più dettagliatamente quelle parti che ritiene non essere sufficientemente chiare per il lettore d’arrivo, o perché, come suggerisce l’esperienza comune, l’inglese è più sintetico dell’italiano, lingua nella quale per esprimere lo stesso concetto sono dunque necessarie più parole?

Se il numero delle parole che sono state aggiunte perché il traduttore ha inserito dettagli o spiegazioni che non erano presenti nel testo di partenza è più elevato di quello dei termini che sono stati inseriti perché nel testo d’arrivo è necessario espandere alcuni gruppi di parole (come ad esempio MICROWAVE BACKGROUND RADIATION tradotto come RADIAZIONE DI FONDO A MICROONDE, o EVENT HORIZON tradotto come ORIZZONTE DEGLI EVENTI), allora la risposta alla nostra domanda potrebbe essere che il testo italiano contiene più parole perché è un testo tradotto e non a causa delle sue caratteristiche sintattiche.

Tuttavia ciò che emerge analizzando gli esempi di allineamento 1:2, è che il traduttore spesso modifica la struttura originale della frase, non solo parafrasandola ma anche aggiungendo dettagli non presenti nell’originale, contribuendo così ad aumentare il numero di parole nella traduzione.

3.4. Un metodo per verificare la coerenza di una traduzione

Leggendo la traduzione si può notare che alcuni cluster, cioè gruppi di parole che occorrono nello stesso ordine all’interno del testo e identificati automaticamente dal programma WordList di WordSmith Tools (Scott 1999), non sempre sono stati tradotti allo stesso modo; due esempi significativi di ciò sono le occorrenze di SUM OVER HISTORIES (d’ora in poi SOH) e NO BOUNDARY CONDITION (d’ora in poi NBC). La lista di parole per cluster (con 3 come valore specificato per il numero di parole contenuto in ogni cluster) mostra che SOH compare undici volte nell’originale, mentre NBC appare tredici volte. Tuttavia la traduzione di SOH, SOMMA SULLE STORIE, compare solo sette volte nella traduzione, mentre quella di NBC, CONDIZIONE DELL’ASSENZA DI CONFINI, appare solo quattro volte. Ciò significa dunque che questi cluster devono essere stati tradotti in modi diversi. Poiché nella lista di parole non sono state trovate altre possibili traduzioni (tranne che due occorrenze di CONDIZIONE DELL’ASSENZA DI OGNI, immediatamente dopo CONDIZIONE DELL’ASSENZA DI CONFINI nella lista in ordine alfabetico, ma che non è inclusa nella lista di parole con 6 come valore impostato per le dimensioni del cluster), è in questo caso più utile fare una ricerca con TCE per SOH e NBC.

Per ricercare un’espressione contenente più termini distanziati da una parola, la sequenza da inserire nel caso di SOH è “sum histories/f2”. Il risultato della ricerca si è rivelato essere linea con le nostre predizioni e ha mostrato che SOH è stato tradotto nove volte con SOMMA SULLE STORIE, è stato eliminato una volta dalla frase (cfr. esempio 3), ed è stato tradotto una volta come SOMME PER STORIE (cfr. esempio 4):

Esempio 3:

<s id=SH4.1.s90 corresp=SH4T.1.s89>A nice way of visualizing the wave/particle duality is the so-called <b>sum</b> over <b>histories</b> introduced by the American scientist Richard Feynman.</s>

------------------------------

<s id=SH4T.1.s89 corresp=SH4.1.s90>Un bel modo per visualizzare la dualità onda-particella è quello escogitato dal fisico americano Richard Feynman.</s>

Esempio 4:

<s id=SH8.1.s299 corresp=SH8T.1.s298>To avoid the technical difficulties with Feynman’s <b>sum</b> over <b>histories</b>, one must use imaginary time.</s>

------------------------------

<s id=SH8T.1.s298 corresp=SH8.1.s299>Per evitare le difficoltà tecniche implicite nelle somme per storie di Feynman, si deve usare il tempo immaginario.</s>

Per quanto riguarda invece NBC, la sequenza da inserire è “no boundary/f2”; ne è risultato che il traduttore non ha seguito uno schema coerente nella resa di questa espressione. Oltre ai quattro casi già identificati, è stato trovata un’altra traduzione con CONDIZIONE DELL’ASSENZA DI CONFINI che non era stata trovata precedentemente a causa di una parola in più all’interno del cluster [10]:

Esempio 5:

<s id=SH8.1.s374 corresp=SH8T.1.s374>In the simplified models that have been examined so far, this probability turns out to be high; that is, the proposed <b>no</b> boundary <b>condition</b> leads to the prediction that it is extremely probable that the present rate of expansion of the universe is almost the same in each direction.</s>

------------------------------

<s id=SH8T.1.s374 corresp=SH8.1.s374>Nei modelli semplificati che sono stati esaminati finora questa risulta essere elevata: ossia, la condizione proposta dell’ assenza di confini conduce alla predizione che la presente velocità di espansione dell’ universo sia con ogni probabilità quasi la stessa in ogni direzione.</s>

In cinque casi il traduttore ha utilizzato espressioni simili alla precedente (cfr. esempio 6), mentre in un caso ha modificato la frase originale inserendo UNIVERSO come soggetto di una frase subordinata (cfr. esempio 7).

Esempio 6:

<s id=SH9.1.s42 corresp=SH9T.1.s38>If one assumes the <b>no</b> boundary <b>condition</b> for the universe, we shall see that there must be well-defined thermodynamic and cosmological arrows of time, but they will not point in the same direction for the whole history of the universe.</s>

------------------------------

<s id=SH9T.1.s38 corresp=SH9.1.s42>Se si suppone la condizione dell’ inesistenza di confini per l’ universo, vedremo che devono esistere una freccia del tempo termodinamica e una cosmologica ben definite, ma che esse non punteranno nella stessa direzione per l’ intera storia dell’ universo.</s>

==============================

<s id=SH9.1.s105 corresp=SH9T.1.s101>One could avoid this difficulty of having to describe what we do not and cannot know only if the histories satisfy the <b>no</b> boundary <b>condition</b>: they are finite in extent but have no boundaries, edges, or singularities.</s>

------------------------------

<s id=SH9T.1.s101 corresp=SH9.1.s105>Si potrebbe evitare questa difficoltà di dover descrivere quel che non sappiamo e non possiamo sapere solo se le storie soddisfano la condizione dell’ inesistenza di ogni confine: se hanno un’ estensione finita, ma non hanno confini, margini o singolarità.</s>

==============================

<s id=SH9.1.s109 corresp=SH9T.1.s105>The <b>no</b> boundary <b>condition</b>, however, implied that these fluctuations were as small as they could be, consistent with the uncertainty principle.</s>

------------------------------

<s id=SH9T.1.s105 corresp=SH9.1.s109>La condizione dell’ assenza di confine implicava però che queste fluttuazioni fossero il più possibile piccole, in accordo col principio di indeterminazione di Heisenberg.</s>

==============================


<s id=SH9.1.s141 corresp=SH9T.1.s137>However, a colleague of mine, Don Page, of Penn State University, pointed out that the <b>no</b> boundary <b>condition</b> did not require the contracting phase necessarily to be the time reverse of the expanding phase.</s>

------------------------------

<s id=SH9T.1.s137 corresp=SH9.1.s141>Un mio collega, Don Page, della Penn State University, sottolineò però che la condizione dell’ assenza di ogni confine non richiedeva che la fase di contrazione dovesse essere necessariamente l’ inversione temporale della fase di espansione.</s>

==============================

<s id=SH9.1.s143 corresp=SH9T.1.s139>I realized that I had made a mistake: the <b>no</b> boundary <b>condition</b> implied that disorder would in fact continue to increase during the contraction.</s>

------------------------------

<s id=SH9T.1.s139 corresp=SH9.1.s143>Mi resi conto di aver commesso un errore: la condizione dell’ assenza di ogni limite implicava che il disordine sarebbe in effetti continuato ad aumentare anche durante la contrazione.</s>

Esempio 7:

<s id=SH9.1.s134 corresp=SH9T.1.s130>The question is: Is it implied by the <b>no</b> boundary <b>condition</b>, or is it inconsistent with that condition?</s>

------------------------------

<s id=SH9T.1.s130 corresp=SH9.1.s134>La domanda è: essa è implicita nella condizione che l’ universo sia illimitato o è in contraddizione con tale condizione?</s>

==============================

<s id=SH9.1.s135 corresp=SH9T.1.s131>As I said, I thought at first that the <b>no</b> boundary <b>condition</b> did indeed imply that disorder would decrease in the contracting phase.</s>

------------------------------

<s id=SH9T.1.s131 corresp=SH9.1.s135>Come ho già detto, in principio pensavo che la condizione che l’ universo non avesse alcun limite implicasse effettivamente che nella fase di contrazione il disordine sarebbe diminuito.</s>

Per quanto riguarda invece la rimanente traduzione di NBC, si può vedere che il testo d’arrivo afferma il contrario di quello di partenza, probabilmente perché il traduttore non ha notato l’articolo THE prima di NBC:

Esempio 8:

<s id=SH9.1.s40 corresp=SH9T.1.s36>In this chapter I shall argue that the <b>no</b> boundary <b>condition</b> for the universe, together with the weak anthropic principle, can explain why all three arrows point in the same direction andmdash; and moreover, why a well-defined arrow of time should exist at all.</s>

------------------------------

<s id=SH9T.1.s36 corresp=SH9.1.s40>In questo capitolo sosterrò che nessuna condizione al contorno per l’ universo, congiuntamente al principio antropico debole, può spiegare perché tutt’ e tre le frecce puntino nella stessa direzione, e inoltre perché debba esistere in generale una freccia del tempo ben definita.</s>

Come si è visto, l’utilizzo di WordList da solo non è in grado di mostrare tutte le traduzioni di un gruppo di parole, e per eseguire una ricerca con TCE è necessario sapere cosa cercare. Si può quindi utilizzare una lista di parole del testo di partenza per identificare velocemente termini o espressioni di cui esaminare la traduzione all’interno di un testo; fatto ciò, una ricerca di tali parole o espressioni con TCE permette di trovarne tutte le traduzioni altrettanto velocemente. L’impiego congiunto di questi due software è dunque un utile metodo per verificare la coerenza e l’esattezza di una traduzione.

4. Conclusioni

Le metodologie di analisi descritte potranno essere proficuamente utilizzate quando sarà disponibile un corpus simile all’ENPC, contenente testi originali inglesi con la loro traduzione in italiano e viceversa (Bernardini 2002, Zanettin, 2002).

Si può comunque certamente affermare che, nonostante questo esperimento dia qualche suggerimento riguardo alle domande alla base delle ricerche svolte con TCE, anche congiuntamente ad altri strumenti informatici per analisi linguistiche come WordSmith Tools, è necessario fare ancora molto affinché un lavoro di questo tipo sia veramente utile per lo svolgimento di analisi linguistiche o traduttologiche. Oltre ad aumentare il numero di testi e inserire la codifica per le varie parti del discorso, come soggetto, verbo, complementi e avverbi, si possono apportare ulteriori miglioramenti aggiornando TCE, ad esempio implementando il riconoscimento del linguaggio XML. Inoltre per il momento TCA e TCE sono in grado di riconoscere solo un numero limitato di tag tra quelle contemplate dalla TEI per la prosa (cfr. Sperberg-McQueen e Burnard, 1999). Sarebbe dunque utile sviluppare sia TCA sia TCE in modo che anche altre parti di testo, come liste, glossari ed elementi che richiedono tag contenenti un numero elevato di caratteri, possano essere allineate ed indicizzate all’interno dei database.

Ad ogni modo TCE, utilizzato assieme ad altri software per analisi linguistiche come WordSmith Tools, si è dimostrato un valido strumento per esaminare la coerenza di una traduzione. Di recente è stata pubblicata una nuova edizione di A Brief History of Time, con un capitolo aggiunto che espone le nuove teorie sulle origini e lo stato dell’universo. Per quanto ne sappiamo, non è ancora stato tradotto in italiano; sarebbe interessante verificare se l’impiego dei testi allineati può essere d’aiuto non solo nella revisione della prima edizione italiana, ma anche nella traduzione del capitolo aggiunto alla nuova edizione in lingua inglese.

Il presente esperimento ha comunque dimostrato che TCA e TCE possono essere impiegati anche per la coppia di lingue italiano e inglese. Una volta compreso il corretto funzionamento dei software, essi non richiedono particolari conoscenze, né pongono alcun problema per quanto riguarda il loro utilizzo, e la correzione dei pochi errori commessi nell’allineamento è una procedura semplice e veloce. Perciò TCA e TCE sono strumenti utili e affidabili per la creazione di un corpus parallelo inglese-italiano. Quando più testi saranno disponibili in entrambe le lingue, un’ulteriore combinazione linguistica potrà essere aggiunta a quelle che già compongono l’Oslo Multilingual Corpus.

Bibliografia

Altenberg, B., K. Aijmer and M. Svensson (1999). The English-Swedish Parallel Corpus (ESPC): Manual.  Lund : Department of English, University of Lund (online: [url=http://www.englund.lu.se/research/corpus/corpus/espc.html)]http://www.englund.lu.se/research/corpus/corpus/espc.html[/url])[/url]

Baker, M. (1993). “Corpus Linguistics and Translation Studies: Implications and Applications”. In M. Baker, G. Francis, and E. Tognini-Bonelli eds., Text and Technology: In Honour of John Sinclair. Philadelphia and Amsterdam : John Benjamins, 233-250.

Bernardini, S. (2002). “Educating Translators for the Challenges of the New Millennium: The Potential of Parallel Bi-Directional Corpora”. In B. Maia, J. Heller and M. Ulrych, eds. Training the Language Services Provider for the New Millennium, Porto : Faculdade de Letras Universidade do Porto , 173-186.

lang=FR>Brown, P., J. Lai and R. Mercer (1991). “Aligning Sentences in Parallel Corpora”. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics. Berkeley , CA., Morristown , NJ , 169-176.

Church, K. W. (1993). “Char_align: A Program for Aligning Parallel Texts at the Character Level”. In Proceedings of 31st Annual Meeting of the Association for Computational Linguistics. Columbus , OH , 1-8.

Ebeling, J. (1998). “The Translation Corpus Explorer: A Browser for Parallel Texts”. In S. Johansson and S. Oksefjell eds. lang=DE>(1998), 101-112.

Gale, W. and K. W. Church (1991a). “A Program for Aligning Sentences in Bilingual Corpora”. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics. Berkeley , CA., Morristown , NJ , 177-184.

Gale, W. and K. W. Church (1991b). “Identifying Word Correspondences in Parallel Texts”. In Fourth DARPA Workshop on Speech and Natural Languages, San Mateo: Morgan Kaufmann, 152-157 (online: http://citeseer.nj.nec.com/gale91identifying.html)

Gale, W. and K. W. Church (1993). “A Program for Aligning Sentences in Bilingual Corpora”. Computational Linguistics, IXX, 1: 75-102.

Gallippi, A. (2000). Dizionario di Informatica e Multimedialità. Milano: Tecniche Nuove.

Hawking, S. (1988). A Brief History of Time: From Big Bang to Black Holes. London : Bantam Press.

Hawking, S. (1988). Dal big bang ai buchi neri: Breve storia del tempo (traduzione di Libero Sosio). Milano: Rizzoli.

Hofland, K. (1995). “A Program for Aligning English and Norwegian Sentences”. In Hockey, S., N. Ide and G. Perissinotto eds., Research in Humanities Computing. Oxford : Oxford University Press, 165-178 (online: http://citeseer.nj.nec.com/hofland95program.html)

Hofland, K. and S. Johansson (1998). “The Translation Corpus Aligner: A Program for Automatic Alignment of Parallel Texts”. In Johansson, S. and S. Oksefjell, eds., Corpora and Crosslinguistic Research: Theory, Method, and Case Studies. Amsterdam and Atlanta , GA : Rodopi, 87-100.

Johansson, S. (1997). “Using the English-Norwegian Parallel Corpus - a Corpus for Contrastive Analysis and Translation Studies”. In B. Lewandoska-Tomaszczyk and P.J. Melia eds. (1987), 282-296.

Johansson, S. (1998). “On the Role of Corpora in Cross-linguistic Research”. In Johansson, S. and S. Oksefjell, eds., Corpora and Crosslinguistic Research: Theory, Method, and Case Studies. Amsterdam and Atlanta , GA : Rodopi, 3-24.

Johansson, S. and J. Ebeling (1996). “Exploring the English-Norwegian Parallel Corpus”. In Percy, C. E., C. F. Meyer and I.  Lancashire eds. (1996). Synchronic Corpus Linguistics. Papers from the Sixteenth International Conference on English Language Research on Computerized Corpora (ICAME 16). Amsterdam and Atlanta , GA : Rodopi.

Johansson, S., J. Ebeling and K. Hofland (1996). “Coding and Aligning the English-Norwegian Parallel Corpus”. In Aijmer, K., B. Altenberg and M. Johansson eds. Languages in Contrast: Papers from a Symposium on Text-based Cross-linguistic Studies. Lund  4-5 March 1994 . Lund : Lund University Press, 87-112.

Johansson, S., J. Ebeling and S. Oksefjell. (1999). English-Norwegian Parallel Corpus: Manual. Oslo : Department of British and American Studies, University of Oslo (online: http://www.hf.uio.no/prosjekt/ENPCmanual).

Johansson, S. and K. Hofland (1994). “Towards an English-Norwegian Parallel Corpus”. In Fries, U., G. Tottie and P. Schneider eds., Creating and Using English Language Corpora. Papers from the Fourteenth International Conference on English Language Research on Computerized Corpora, Zurich  1993 . Amsterdam and Atlanta , GA : Rodopi, 25-37.

Johansson, S. and K. Hofland (1999). “The English-Norwegian Parallel Corpus: Current Work and New Directions”. In Botley, S. P., A. M. McEnery and A. Wilson eds., Multilingual Corpora in Teaching and Research. Amsterdam and Atlanta , GA : Rodopi, 134-147.

Johns, T. F. (1997). Multiconcord: the Lingua Multilingual Parallel Concordancer for Windows, online: http://web.bham.ac.uk/johnstf/1_text.htm

King, P. (1997). “Parallel Corpora for Translation Training”. In Lewandoska-Tomaszczyk, B. and P. J. Melia eds., Practical Applications in Language Corpora. Lodz : Lodz University , 393-402.

King, P. and D. Wools (1996). “Creating and Using a Multilingual Parallel Concordancer”. In Lewandowska-Tomaszczyk and M. Thelen, eds. (1996). Translation and Meaning, Part 4, Proceedings of the Lodz  Session of the 2nd International Maastricht-Lodz Duo Colloquium on Translation and Meaning. Lodz  22-24 September 1995.  Amsterdam : John Benjamins, 459-466 (online: http://sun1.bham.ac.uk/johnstf/paracon.htm).

McEnery, A. M. and M. P. Oakes (1995). “Cognate Extraction in the CRATER Project: Methods and Assessment”. In Armstrong-Warwick, S. and E. Tzoukerman, eds. Proceedings of the EACL-SIGDAT Workshop. Dublin , 77-86.

McEnery, A. M. and M. P. Oakes (1996). “Sentence and Word Alignment in the CRATER Project: Methods and Assessment”. In Thomas, J. and M. Short, eds. Using Corpora for Language Research. London : Longman, 211-231.

Munday, J. (1998). “A Computer-assisted Approach to the Analysis of Translation Shifts”. Meta, XLIII, 4: 542-556.

Santos, D. and S. Oksefjell (2000). “An Evaluation of the Translation Corpus Aligner with Special Reference to the Language Pair English-Portuguese”. In T Nordgård, T. ed., NODALIDA’99, Proceedings from the 12th “Nordisk Datalingvistikkdager”. Trondheim , 9-10 December 1999 . Trondheim : Department of Linguistics, NTNU, 191-205 (online: http://www.portugues.mct.pt/Diana/download)

Scott, M. (1999). WordSmith Tools. Oxford : Oxford University Press.

Simard, M., G. Foster and P. Isabelle (1992). “Using Cognates to Align Sentences in Bilingual Corpora”. In Proceedings of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation (TMI92). Montreal , 67-81.

Sinclair, J. M. (1991). Corpus, Concordance, Collocation. Oxford : Oxford University Press.

Sperberg-McQueen, C. M. and L. Burnard eds. (1999). Guidelines for Electronic Text Encoding and Interchange. Oxford : TEI P3 Text Encoding Initiative (online: http://www.hcu.ox.ac.uk/TEI/Guidelines/)

Ulrych, M. (1997). “The Impact of Multilingual Parallel Concordancing on Translation”. In Lewandoska-Tomaszczyk, B. and P. J. Melia eds., Practical Applications in Language Corpora. Lodz: Lodz University, 420-435.

Vanderauwera, R. (1985). Dutch Novels Translated into English: The Transformation of a “Minority” Literature. Amsterdam : Rodopi.

Zanettin, F. (2002). “CEXI. Designing an English Italian Translational Corpus”. In Ketteman, B. and G. Marko, eds., Teaching and Learning by Doing Corpus Analysis. Amsterdam: Rodopi, 329-343.

Note

Questo articolo è tratto dalla tesi di laurea dal titolo Aligning “A Brief History of Time”: An Experiment in the Production and Interrogation of Parallel Electronic Texts, discussa il 5/12/2001 presso la S.S.Li.M.I.T. di Forlì.

[1]L’SGML (Standard Generalized Markup Language) è un linguaggio “che consente di trasferire un documento tra computer di costruttori diversi in modo tale che si possa recuperare, visualizzare e stampare la formattazione che identifica le sue diverse parti, quali il riassunto o il titolo” (Gallippi, 2000: 473). L’XML (eXtensible Markup Language) è una “versione ridotta del linguaggio SGML, progettata espressamente per documenti diffusi via World Wide Web [che fornisce] funzionalità non disponibili con HTML” (Gallippi, 2000: 577). L’HTML (HyperText Markup Language) viene utilizzato principalmente per i documenti da pubblicare in Internet e, come l’SGML, serve per indicare la formattazione e la grafica di un testo, nonché i collegamenti ad altri documenti; contiene però un minor numero di comandi rispetto al linguaggio SGML ed è perciò di più facile apprendimento e utilizzo.

[2]L’ENPC e i programmi sviluppati al suo interno sono stati descritti in Johansson e Hofland (1994), Hofland (1995), Johansson, Ebeling e Hofland (1996), Johansson (1997), Ebeling (1998), Hofland e Johansson (1998), Johansson (1998), Johansson, Ebeling e Oksefjell (1999), e Johansson e Hofland (1999).

[3]Ad esempio nel nostro caso il numero àncora di ELECTROWEAK e ELETTRODEBOLE è 401.

[4]Lo spazio viene mantenuto perché nei nostri testi elettronici gli articoli e le particelle seguite dall’apostrofo sono separate dalla parola che li segue, cosicché possano poi essere ricercati come termini separati.

[5]L’asterisco consente di cercare tutte le parole che iniziano nello stesso modo. Nel nostro caso, dunque vengono ricercate le occorrenze sia singolari sia plurali di MIND e MENTE.

[6]Ulteriori dettagli riguardo alle opzioni di ricerca e alle funzionalità del programma si trovano nelle istruzioni di TCE e delle due versioni per Internet (il database con il testo parallelo di cui si tratta qui, consultabile con WebTCE, si trova all’indirizzo http://khnt.hit.uib.no/sh.htm, mentre l’OMC, consultabile con PerlTCE (situato sul server del dipartimento di anglistica e americanistica dell’Università di Oslo, si trova all’indirizzo http://www.tekstlab.uio.no/cgi-bin/omc, ma per accedervi è necessaria una password).

[7]Le analisi complete dei valori risultanti dalle ricerche svolte con TCE sui pronomi e sui possessivi e le relative tabelle sono riportate nella tesi di laurea dalla quale è tratto l’articolo.

[8]Queste cifre sono state calcolate creando liste di parole con WordSmith Tools.

[9]WordList è in grado di identificare solo i gruppi di parole che compaiono due o più volte.

About the author(s)

Federica Comastri è laureata in Traduzione e Interpretazione presso la SSLiMIT di Forlì (Università di Bologna). E’ traduttrice free-lance in ambito informatico e svolge attività di interpretariato per il Tribunale di Modena, oltre a collaborare a progetti di creazione di corpora elettronici presso l’Università di Bologna e l’Università di Modena e Reggio Emilia.

Email: [please login or register to view author's email address]

©inTRAlinea & Federica Comastri (2002).
"Un esperimento nella creazione di un testo elettronico parallelo", inTRAlinea Vol. 5.
This article can be freely reproduced under Creative Commons License.
Stable URL: http://www.intralinea.org/archive/article/1619

Go to top of page