Una panoramica sugli strumenti di traduzione assistita disponibili come software libero

1.1 La traduzione assistita

1.1.1 Una definizione generale

Per un fornitore di servizi linguistici, quale è il traduttore, il ricorso alla tecnologia potrebbe essere pensato, in una prima approssimazione, come l'impiego di software applicato al linguaggio umano. Una tale definizione si rivela però fin da subito generica e poco soddisfacente. I modi e le forme, infatti, in cui la tecnologia può essere applicata ai linguaggi naturali sono numerosi: dall'OCR, al riconoscimento e alla sintesi vocale o agli strumenti di ricerca semantica e di text mining e, in altre parole, tutto quello che ricade sotto la denominazione generica di Language Engineering [Esselink, 2000, p. 5]. Più semplicemente, è sufficiente pensare anche ai programmi di composizione tipografica e ai numerosi editor testo che fanno parte dell'utilizzo quotidiano di ogni utente di computer per rendersi conto delle molteplici applicazioni possibili del software alle lingue, con cui la traduzione assistita ha poco a che vedere.

Una definizione più precisa di sistemi informatici per la traduzione può essere quella che si ritrova in [Muzzi, 2004, s.p.]:

«sistemi progettati appositamente per l'ambito traduttivo: da quelli che pretendono di sostituire il traduttore (…) a quelli che forniscono al traduttore strumenti per lo svolgimento di attività tradizionalmente svolte manualmente, quali vari tipi di analisi sul testo di partenza e/o di arrivo, la creazione, gestione e consultazione di glossari, le ricerche in corpora linguistici e la produzione del testo di arrivo.»

Tuttavia quest'ultima affermazione introdurrebbe un nuovo problema, dal momento che non è precisato il ruolo rivestito nel processo dal traduttore umano, né tanto meno il grado di interazione uomo-macchina.

A questo proposito, fin da Cole et al. [1997, pp. 245 e succ.], infatti, è comunemente accettata la distinzione fra Human-Aided Machine Translation (HAMT) e Machine-Aided Human Translation (MAHT). Nel primo caso l'intervento umano è limitato alle fasi di (pre- e) post-editing, mentre la traduzione in senso stretto viene svolta in maniera automatica dalla macchina senza più alcuna interazione con il traduttore.

Nel secondo caso, al contrario, è l'essere umano a occuparsi della traduzione (in modalità interattiva o meno) attraverso l'ausilio del supporto informatico. Esistono quindi, da un lato, la traduzione automatica (MT), eventualmente assistita dall'intervento umano (in questo caso, quindi, HAMT) e dall'altro la traduzione umana assistita da computer in genere identificata con il termine CAT (Computer-Aided/Assisted Translation) o, più propriamente, MAHT [Muzzi, 2004, op. cit].

In realtà, oggi, la situazione non prevede una dicotomia così netta. È molto frequente il caso, ad esempio, in cui strumenti CAT integrano, accanto alle memorie di traduzione, anche funzionalità di pre-traduzione automatica da applicare alle parti di testo per cui non sia stato possibile trovare corrispondenze totali o parziali nel database dei segmenti, oppure consentono al traduttore umano di visualizzare su richiesta dell'utente la MT di alcuni segmenti appoggiandosi a servizi esterni. D'altra parte, esistono strumenti di traduzione automatica (uno per tutti Google Translate) che richiedono un feedback da parte dell'utente umano e sono in grado di riutilizzare le correzioni per le traduzioni future, ‘imparando’ così dai propri errori e andando ben oltre il concetto di post-editing tradizionale.

Tuttavia, nonostante questo, la distinzione concettuale di base fra i due paradigmi (MAHT e HAMT) rimane valida e, viste le sue interessanti potenzialità, l'integrazione fra gli strumenti CAT e la MT verrà presa in considerazione nel capitolo 3 fra le funzionalità offerte dalle applicazioni descritte.

La traduzione assistita si configura, quindi, come un processo complesso che coinvolge diversi strumenti specifici per le esigenze del traduttore umano e in cui quest'ultimo è coinvolto in ogni fase e non soltanto in occasione della revisione finale. Attraverso la postazione di lavoro, al traduttore è possibile accedere a risorse quali testi comparabili e/o testi già tradotti, banche dati terminologiche o dizionari mono- e bilingui.

La finalità principale della traduzione assistita è, pertanto, di consentire l'accesso a un maggior numero di informazioni nel minor tempo possibile ed evitare all'essere umano di compiere azioni ripetitive concentrando l'attenzione sul testo di partenza e arrivando a ridurre, a seconda della tipologia testuale, fino al 70% l'uso della tastiera [Craciunescu et al., 2004, s.p.].

L'altro grande vantaggio dell'impiego della traduzione assistita — per certi versi implicito nello scopo di evitare la ripetizione di un medesimo compito — è il riutilizzo sistematico delle porzioni di testo già tradotte nello stesso progetto o in progetti precedenti, grazie alla tecnologia delle memorie di traduzione (TM), immagazzinando e ordinando i contenuti già tradotti (non necessariamente in un database) in modo da permettere di recuperare in un secondo momento il maggior numero di informazioni possibile su richiesta dell'utente [Lagoudaki, 2006, p. 4].

La diretta conseguenza di questo procedimento è un'ultima considerazione, già nota ai più, in merito all'ambito di utilizzo della tecnologia basata sulle TM. Nella loro forma più semplice gli strumenti CAT/TM, infatti, sono in grado di —vedere— il testo come una serie di unità giustapposte (segmenti) e il loro compito principale è leggere una serie di informazioni in entrata e confrontarle statisticamente con una grande quantità di dati presenti in memoria.

Ne deriva che il loro utilizzo con il massimo profitto, al contrario di quanto può avvenire ad esempio per la terminologia, si restringe a determinati tipi di documenti caratterizzati da un elevato tasso di ripetizioni di porzioni di testo (anche interne) come i manuali tecnici o la documentazione di software oppure documenti con variazioni di natura incrementale di lieve entità. Un esempio frequente di questa situazione nell'ambito della localizzazione è rappresentato dagli aggiornamenti, in cui si dispone di una versione precedente del testo [Prudêncio, 2006, p. 36].

1.1.2 La classificazione degli strumenti CAT

Da un'analisi sia pur a livello superficiale, come quella sopra esposta, emerge che gli aspetti della tecnologia della traduzione sono molteplici, così come sono molte le forme di ‘assistenza’ che il software — sia esso libero o proprietario — può svolgere nel processo di traduzione. A tale proposito, può essere utile adottare la classificazione su otto livelli di applicazione come proposta in Melby [1998] in modo da ricostruire i diversi compiti ‘atomici’ che è possibile realizzare attraverso i programmi all'interno del flusso di lavoro (cfr. tabella 1).

Tabella 1: Gli otto tipi di tecnologia per la traduzione secondo Melby.
1. Infrastruttura Digitale
Livello di termine Livello di segmento
Pre-Traduzione 2. estrazione candidati termini 5. allineamento testi tradotti,
    segmentazione testo di partenza
Traduzione 3. consultazione automatica DB 6. leverage segmenti della TM,
    integrazione con MT
Post-Traduzione 4. controllo coerenza terminologica
    QA (es. blacklisting, …)
7. controllo segmenti non tradotti,
    sintassi di formato, ortografia
8. Gestione del Processo di Traduzione

Sulla scorta di questa classificazione, per prima cosa le funzioni realizzate dalla tecnologia possono essere suddivise in tre macro-aree: l'infrastruttura digitale, l'area specifica della traduzione e il supporto alla gestione e all'organizzazione di progetti complessi. All'interno dell'area più specificatamente relativa alla traduzione, quindi, è possibile individuare tre distinti momenti: una fase pre-traduzione, la traduzione propriamente detta (nel senso di ‘trasposizione’ dalla lingua di partenza alla lingua d'arrivo) e una fase post-traduzione. In quest'area centrale, inoltre, l'intervento del software viene considerato su due piani distinti: quello delle singole parole (livello di termine) e quello della porzione di testo, sia essa frase o paragrafo, elaborata dal sistema di traduzione assistita (livello di segmento).

Nei paragrafi successivi saranno presentate brevemente le funzionalità che la tecnologia è in grado di offrire per ognuno dei passaggi logici sopra elencati.

A livello di infrastruttura digitale, il software rappresenta l'insieme degli strumenti, non correlati alla traduzione in senso stretto,che però costituiscono l'ambiente di lavoro necessario all'utente di computer tenuto a manipolare testi in due o più lingue. Fanno parte di questa categoria un sistema di creazione e gestione di documenti (es. una suite di produttività individuale), gli strumenti di amministrazione di base (es. un gestore di file), un sistema di codifica caratteri con supporto multilingue, ecc… Per una trattazione di carattere generale sull'argomento e per alcuni esempi pratici si rimanda al capitolo 3.

A livello di termine le tecnologie per la traduzione assistita consentono la creazione e gestione di banche dati terminologiche (TDB, dall'inglese ‘Terminological DataBase’ o semplicemente TB, ‘TermBase’) nonché la loro implementazione e integrazione in modalità interattiva durante la traduzione, in parallelo all'implementazione e all'arricchimento delle memorie di traduzione a livello di segmento.

Nella fase preliminare, si collocano gli strumenti che permettono di estrarre terminologia monolingue a partire dal testo di partenza o da un corpus comparabile monolingue e terminologia bilingue da un corpus parallelo (sotto forma di TM, bitext, ecc…). Rientra in questa fase del lavoro anche la ricerca volta ad affiancare a estrazione di terminologia monolingue ultimata, gli equivalenti in lingua di arrivo dei termini candidati in vista di un possibile inserimento nel TB.

Durante la fase di traduzione, gli strumenti CAT hanno la funzione di portare all'attenzione del traduttore in maniera automatica le equivalenze in lingua d'arrivo presenti nel TB, eventualmente facilitando l'inserimento del testo al fine di evitare errori di battitura. In tal modo è possibile risparmiare tempo, evitando la consultazione manuale delle risorse e garantire al massimo grado la coerenza terminologica, escludendo la possibilità di compiere ricerche non necessarie. Alcuni software, inoltre, permettono di integrare la terminologia salvata nei TB locali con sistemi di gestione terminologica online configurabili dall'utente (come, ad esempio, www.open-tran.eu).

Una volta terminata la traduzione, la tecnologia può essere impiegata in modo proficuo allo scopo di verificare l'utilizzo di una terminologia coerente (equivalenza 1:1 per ciascuna occorrenza del termine). Gli strumenti per il controllo qualità (4) permettono anche di confrontare il testo di arrivo con liste di eventuali blacklist (termini ‘proibiti’) o da non tradurre (es. termini da lasciare in lingua di partenza su richiesta del cliente) sottoponendo all'attenzione del traduttore i problemi riscontrati.

A livello di segmento è possibile riproporre i passaggi visti in precedenza (creazione, gestione, consultazione, arricchimento, controllo qualità) sull'unità di grado superiore dal punto di vista logico, il segmento, piuttosto che sui singoli termini. Nella quasi totalità dei casi, le funzionalità che riguardano la fase di traduzione si trovano integrate nella stessa applicazione sia per quanto riguarda il termine che i segmenti.

In una fase preliminare, possono essere classificati tutti gli strumenti utili a produrre le risorse bilingui (bitext o TM) a partire da testi precedentemente tradotti, in vista di una futura implementazione in fase di traduzione o, eventualmente, dell'estrazione di terminologia bilingue o di ricerca terminologica. Rientrano in questa fase anche gli strumenti che permettono la segmentazione del nuovo testo da tradurre in modo da consentire di realizzare delle statistiche attraverso il confronto con una o più TM esistenti.

A livello di segmento, in fase di traduzione, si collocano tutti gli strumenti CAT/TM in senso stretto i quali hanno una funzione di interfaccia fra l'utente e la memoria di traduzione, confrontando i segmenti del testo di partenza da tradurre con le unità presenti in memoria in modo da consentire il riutilizzo sistematico (leverage) delle traduzioni svolte in precedenza, aggiungendo alla TM le nuove unità man mano che vengono prodotte o validate e permettendo anche di effettuare ricerche di testo nella memoria.

Altra caratteristica distintiva di questi programmi è la funzionalità di fuzzy matching, grazie alla quale vengono presentate le unità di traduzione presenti in memoria anche qualora la corrispondenza fra il segmento da tradurre e la voce del database sia soltanto parziale (evidenziando le differenze), permettendo in tal modo di utilizzare il materiale a disposizione nel modo più efficace possibile. Alcuni programmi, infine, permettono l'integrazione fra la traduzione assistita da computer e la MT, utile nel caso in cui non sia possibile trovare alcuna corrispondenza fra il segmento da tradurre e le unità in memoria.

Infine, a traduzione ultimata, esistono una serie di strumenti di QA (Quality Assurance) in grado di verificare che tutti i segmenti siano stati effettivamente tradotti, che sia stata conservata la formattazione tipografica o la sintassi dello specifico formato e che siano state rispettate le regole ortografiche e sintattiche della lingua d'arrivo, sottoponendo all'attenzione del traduttore umano gli eventuali problemi riscontrati.

La tecnologia, da ultimo, può anche essere sfruttata al fine di facilitare la pianificazione del progetto di traduzione,in particolar modo quando è coinvolto un gran numero di persone: distribuendo le attività nei tempi disponibili, calcolando l'utilizzo e i costi delle risorse e, infine, controllando il reale e puntuale svolgimento del progetto in modo da permettere di attuare strategie correttive. Anche per questi strumenti, non direttamente implicati nel processo di traduzione ma tuttavia di indubbia utilità per ottimizzare lo stesso, si rimanda al capitolo 3, in cui verranno elencati alcuni esempi disponibili come software libero.

 

©inTRAlinea & Diego Beraldin (2013).
Una panoramica sugli strumenti di traduzione assistita
disponibili come software libero
, inTRAlinea Monographs
This work can be freely reproduced under Creative Commons License.
Permalink: http://www.intralinea.org/monographs/beraldin/

Go to top of page