3.2 Strumenti di allineamento

3.2.1 Bitext2tmx

Autori:	Susana Santos Antón, Sergio Ortiz Rojas et al.
Licenza:	GNU GPL v2
Pagina web:	http://bitext2tmx.sourceforge.net
Versione:	1.0M0 (marzo 2008)

Bitext2tmx nasce come strumento per l'allineamento sviluppato presso il Departamento de Lenguajes y Sistemas Informáticos dell'università di Alicante (Spagna).

Si tratta di un'applicazione scritta in Java e, per questo motivo, altamente portabile: può dunque essere eseguita su qualsiasi sistema operativo e su qualsiasi piattaforma a condizione che vi sia installato un JRE (Java Runtime Environment). Garantiscono il perfetto funzionamento del programma anche le implementazioni libere della tecnologia Java come la piattaforma OpenJDK, disponibili come scelta predefinita per questioni di licenza in molte distribuzioni GNU/Linux.57

Essendo realizzato in Java, il programma non necessita di una compilazione in senso tradizionale per essere eseguito: è sufficiente procurarsi i file sorgenti ed eseguire l'archivio con il comando java -jar. Assieme ai sorgenti, inoltre, sono resi disponibili degli script bash che rendono più semplice l'avvio del programma. In alternativa, se si utilizza una distribuzione GNU/Linux basata su RPM (RedHat Package Manager), dalla pagina principale del progetto è possibile scaricare anche il relativo pacchetto software e installarlo con il proprio gestore di pacchetti.

All'apertura dell'applicazione, la prima operazione da effettuare è il caricamento dei file su cui si andrà a lavorare. Bitext2tmx accetta in ingresso esclusivamente file di testo semplice e non più di due alla volta: non possono infatti essere caricate più coppie di file contemporaneamente per creare progetti di medie e grandi dimensioni.

Nella finestra di caricamento dei file, oltre alla posizione su disco è necessario specificare la codifica caratteri utilizzata nei documenti (sono supportate esclusivamente UTF-8 e ISO-8859-1) nonché la lingua di questi ultimi, informazioni necessarie per generare correttamente la memoria in formato TMX. Le lingue selezionabili mediante l'interfaccia sono in tutto 21 e comprendono le più diffuse lingue europee e asiatiche (al fine di poter lavorare con altre lingue è necessario intervenire manualmente sul file TMX una volta generato, modificando l'attributo xml:lang all'interno delle relative TU).

L'interfaccia grafica (localizzata in inglese, francese, spagnolo e catalano) è basata sulla divisione in due colonne verticali che mostrano rispettivamente il testo di partenza e il testo d'arrivo, come nella maggior parte degli allineatori proprietari. Ciascuna riga delle colonne è associata a un numero e corrisponde a una TU, il che rende possibile in via esclusiva una struttura allineata a mappatura biunivoca (1:1). Di ogni unità viene visualizzato solo l'inizio a titolo di anteprima, in modo da permettere di verificare l'allineamento.

Il testo completo non è visibile per esteso per tutte le TU allo stesso tempo, forse per evitare di presentare troppi dettagli nell'interfaccia principale del programma. È soltanto selezionando le TU una per una che si ha accesso all'intero contenuto, nell'area di testo sottostante le due colonne. La modifica dei segmenti avviene contestualmente alla visualizzazione nella parte bassa della finestra.

Figura 25: L'interfaccia grafica di Bitext2tmx.

La segmentazione del testo è realizzata in maniera automatica, considerando alcuni segni di interpunzione e l'eventuale presenza di righe vuote come delimitatori.

La sola possibilità di personalizzazione lasciata all'utente consiste nella scelta di considerare anche le semplici interruzioni di riga alla stregua di delimitatori oppure no (l'opzione è disattivata in maniera predefinita), ma le altre regole di segmentazione non sono configurabili e, a questo proposito, manca il supporto allo standard SRX (cfr. appendice A.3).

Le operazioni sulle TU per correggere l'allineamento automatico sono controllate da una serie di pulsanti posizionati al di sotto dell'area di testo modificabile.

In particolare, attraverso i pulsanti Join, Delete e Split è possibile rispettivamente unire una TU con quella immediatamente successiva, eliminare la TU selezionata o dividerla in due a partire da un punto di interruzione selezionato nell'area di testo, dall'inizio (cioè creare una TU vuota prima di quella selezionata) se il cursore non è posizionato in alcun punto dell'area di testo.

Questi tre pulsanti appaiono ripetuti sia nella colonna del testo di partenza che nel testo di arrivo e si applicano all'uno o all'altro indipendentemente da quale sia il segmento della TU selezionato. Pertanto, se anche viene selezionato l'originale ma si preme il pulsante di eliminazione relativo al testo tradotto, verrà eliminato il segmento presente alla stessa altezza di quello selezionato ma nella colonna del testo d'arrivo.

Tre ulteriori pulsanti permettono di annullare l'ultima azione dell'utente, di eliminare tutte le righe vuote (cioè in cui entrambi i segmenti sono vuoti allo stesso tempo) e, facendo clic su Split TU, di cancellare la ‘connessione’ fra i due segmenti della TU selezionata allineando sia l'originale che la traduzione a un segmento vuoto. Le corrispondenze 1:0 oppure 0:1 di questo tipo, però, vengono ignorate ai fini della costruzione della TM.

Va segnalato inoltre che tutti gli interventi sulla struttura allineata, come la fusione, l'eliminazione e la divisione dei segmenti in un punto del documento provocano automaticamente la modifica della struttura 1:1 in tutta la parte successiva perché non è possibile associare in maniera ‘permanente’ i segmenti delle TU verificati dall'utente quando si trovano al di sotto del punto di modifica: un intervento in un punto qualsiasi del documento comporta il mismatch di tutte le TU sottostanti, e questo rappresenta un indubbio limite all'usabilità del programma.

Una volta terminato l'allineamento è possibile salvare il risultato in una TMX (versione 1.1). In alternativa, è possibile salvare il progetto (ancora una volta in formato TMX) per continuare l'allineamento in una successiva sessione. Caricando la memoria come file sorgente, l'applicazione è in grado di riconoscere che si tratta di un allineamento parziale e consentirà di riprendere il lavoro dal punto in cui lo si era interrotto. Per ulteriori informazioni, si rimanda alla documentazione del programma disponibile in catalano, inglese e spagnolo accessibile dall'interno del programma stesso attraverso il menu di aiuto.

Il design dell'interfaccia in cui i tre pulsanti fondamentali sono replicati senza apparente motivo e la scelta di separare la struttura allineata dalla visualizzazione per intero del testo contenuto nelle TU sono due elementi a scapito dell'intuitività del programma, che pure è rivolto a un bacino d'utenza non specializzato.

Inoltre, laddove sono fornite scorciatoie da tastiera per le operazioni di apertura, chiusura e salvataggio dei file, non è disponibile alcuna combinazione di scelta rapida per le operazioni che più frequentemente ci si aspetta di effettuare da un allineatore (inserimento, cancellazione, fusione e separazione delle TU) né per annullare l'ultima azione. Alla lunga questo costringe l'utente a spostare continuamente l'attenzione dalla colonna delle TU ai pulsanti e viceversa il che, unito al fatto che la TU selezionata non viene ‘evidenziata’ in alcun modo va a scapito della leggibilità e rende difficile proseguire il lavoro in maniera spedita.

Un ultimo aspetto degno di nota è la mancata possibilità di personalizzare le regole di segmentazione mentre l'unico criterio sfruttato ai fini dell'allineamento è la posizione delle righe nei documenti. Questo rende inevitabile la necessità di effettuare ricerche e sostituzioni all'interno dei testi per correggere la struttura allineata, ma ciò può essere fatto solo intervenendo manualmente sui segmenti una coppia per volta e scorrendo ripetutamente il documento qualora il segmento di partenza e quello di destinazione fossero molto distanti fra loro e non possano quindi essere contenuti nella stessa videata.

Una soluzione a questo genere di problemi potrebbe essere la modifica preventiva dei file di testo con un editor come Gedit o Kate prima di passare all'allineamento. In tal modo però perde di significato l'impiego di un allineatore, in quanto testi in cui a riga uguale corrisponde segmento uguale possono essere convertiti in memorie di traduzione anche con metodi molto più semplici (cfr. sez. 3.2.2).

Concludendo, Bitext2tmx è un programma valido per progetti di dimensioni ridotte e di utilizzo relativamente facile grazie all'interfaccia grafica ma non è ancora completo, né può essere comparato alle soluzioni attualmente offerte dal software proprietario.

Molte delle evidenti mancanze qui segnalate sono da imputare al fatto che purtroppo lo sviluppo del progetto è fermo dal 2008 e non è chiaro se ci saranno versioni future in cui integrare le eventuali migliorie necessarie.

3.2.2 Aligner

Autore:	Dmitri Gabinski
Licenza:	n/d
Pagina web:	http://www.omegat.org/it/resources.html
Versione:	(gennaio 2005)

Aligner è uno script Python in grado di trasformare due file di testo semplice in una memoria di traduzione in formato TMX. Il suo scopo principale è quello di produrre delle TM compatibili con OmegaT in modo da rendere questo programma quanto più simile agli ambienti di traduzione tradizionali.

Per eseguire lo script non è necessaria alcuna compilazione: l'unico requisito è che nel sistema in uso sia installato un interprete Python (che in genere è incluso in maniera predefinita nella maggior parte delle distribuzioni GNU/Linux). Una volta installato Python, è necessario procurarsi il sorgente del programma dalla pagina principale del progetto e lanciare l'interprete con le istruzioni associate da riga di comando.58

Le istruzioni del codice Python sono eseguite in maniera non interattiva, senza alcuna interfaccia grafica. Lo script non accetta alcun argomento per cui la posizione dei file di partenza in quanto queste informazioni sono inserite direttamente (hard-coded) nel sorgente: le sigle dei locale utilizzati e il nome e la posizione del TMX finale devono essere specificati modificando il testo del programma attraverso un editor di testo.

Qualora fosse impossibile avere accesso alle posizioni o ai file specificati, verrà visualizzato un messaggio d'errore e il file TMX non sarà generato. In ogni caso, la documentazione, disponibile in esperanto e in inglese e scaricabile assieme ai sorgenti, fornisce istruzioni dettagliate sull'utilizzo e sulle modifiche da apportare allo script per il suo uso ottimale.

La procedura di allineamento è possibile quando nei file ogni riga corrisponde esattamente a un segmento e i segmenti di partenza e d'arrivo hanno lo stesso numero (indice) di riga.

Le righe vuote non sono prese in considerazione, quelle contenenti solo caratteri di spaziatura in entrambi i testi non danno luogo ad alcuna TU nella memoria così come le righe che contengono solo spazi nel testo di partenza (una riga contenente solo caratteri di spaziatura nel testo d'arrivo, invece, dà origine ad una TU contenente il testo di partenza ma con il segmento d'arrivo vuoto).

Infine, qualora nel testo di partenza e in quello d'arrivo righe aventi lo stesso indice fossero esattamente identiche (a eccezione degli eventuali spazi a inizio e fine riga), anche tali segmenti vengono ignorati e non saranno copiati in alcuna TU. Nel caso in cui il numero di righe (non vuote) del file di partenza e del file d'arrivo non coincidano, lo script visualizza un messaggio d'errore e non procede con la generazione della memoria.

Lo script aligner.py diventa quindi l'ultimo strumento da utilizzare all'interno di un flusso di lavoro più ampio che prevede la preparazione dei testi per l'allineamento.

A questo scopo è conveniente utilizzare un editor d testo che permetta di visualizzare contemporaneamente più file in colonne verticali, ricreando un ambiente di lavoro simile a quello di Bitext2tmx.59

La modifica del contenuto delle stringhe e della struttura allineata, le operazioni di ricerca e sostituzione attraverso espressioni regolari, la possibilità di lavorare su più coppie di file allo stesso tempo e il salvataggio della sessione per riprendere il lavoro in un momento successivo sono quindi funzionalità non presenti nell'allineatore che diventano però possibili nella misura in cui sono assicurate dall'editor di testo adottato.

In conclusione lo script aligner.py è molto snello, facile da usare e da installare e, se i testi sono preparati in modo adeguato, molto funzionale. I problemi più grandi che si riscontrano utilizzandolo sono due: da un lato, il lavoro di preparazione dei testi che può richiedere molto tempo e molta pazienza e, dall'altro, il difficoltoso ripristino della struttura allineata qualora si presentassero problemi.

Al contrario di soluzioni simili dal punto di vista operativo (come po4a-gettextize, anch'esso a riga di comando), il programma non fornisce infatti indicazioni di sorta sulla natura o sulla posizione dell'errore, lasciando all'utente il compito di procedere alla correzione ‘a mano’. Manca, inoltre, una qualsiasi forma di ottimizzazione dell'allineamento: l'unico criterio utilizzato è la posizione del segmento nel file (cioè l'indice di riga), mentre gli elementi placeable eventualmente presenti come tag (considerati invece da po4a-gettextize), numeri o quant'altro vengono completamente ignorati.

3.2.3 Bligner

Autore:	Didier Briel
Licenza:	n/d
Pagina web:	http://www.omegat.org/it/resources.html
Versione:	0.4.1 (settembre 2006)

Il programma nasce sulla base di aligner.py allo scopo di colmare alcune delle lacune di questo software viste in precedenza, fra cui la mancanza di un'interfaccia grafica, l'impossibilità di intervenire sui criteri di segmentazione o la difficoltà di risalire agli errori per le eventuali correzioni dell'allineamento. Fra le numerose integrazioni apportate dallo sviluppatore, una delle più evidenti è il port del programma in Perl,60 rendendolo così disponibile in due versioni distinte a seconda delle preferenze e della necessità dell'utente.

L'installazione del programma è molto semplice dal momento che, anche in questo caso, si ha a che fare con linguaggi interpretati e non è quindi necessaria alcuna compilazione. Inoltre, sia l'interprete Python che quello Perl sono facilmente reperibili (o addirittura già installati in maniera predefinita) nelle principali distribuzioni GNU/Linux. La versione in Perl e quella in Python del programma hanno un funzionamento molto simile dal punto di vista dell'utente e per tale motivo sono trattate congiuntamente in questa sezione.

Il programma accetta in ingresso file di testo semplice e produce, come il suo predecessore, memorie di traduzione in formato TMX. Può funzionare in modalità ‘interattiva’ o ‘non interattiva’: ciò significa che i file da allineare e la TM possono essere specificati dall'utente in fase di esecuzione, in alternativa verranno utilizzati file dal nome predefinito (source.txt, target.txt, ecc.) collocati nella stessa directory da cui viene lanciato il programma. Per abilitare o meno la modalità interattiva è necessario intervenire manualmente sul codice sorgente, modificando il valore della variabile interactive.

L'unica differenza ‘visibile’ fra le due versioni di Bligner si ritrova proprio nella modalità interattiva del programma, in quanto l'alternativa basata su Python presenta un primo abbozzo di interfaccia grafica realizzata tramite la libreria TkInter.61 Tuttavia, tale toolkit grafico non ha una funzione particolarmente rilevante, è impiegato infatti solo per la creazione di tre finestre di dialogo mediante le quali vengono selezionati i due file di partenza e il nome e la posizione del TMX d'arrivo. Nella versione Perl, invece, tali informazioni devono essere inserite manualmente dall'utente, rispondendo a una serie di domande poste dal programma a riga di comando. Per tutti gli altri aspetti, il funzionamento di bligner è pressoché identico.

Oltre alla scelta della modalità, il codice sorgente del programma deve essere modificato anche per impostare le lingue utilizzate dai documenti e le opzioni di segmentazione.

Quest'ultima può infatti essere basata su unità di paragrafo (separate da un carattere di fine riga) o di frase (separate dai delimitatori specificati nel sorgente). Inoltre, tramite una serie di espressioni regolari, l'utente ha la possibilità di definire tanto i delimitatori fra i segmenti quanto quali gruppi di caratteri, pur contenendo detti delimitatori, non devono costituire limiti di segmento.62

Durante la procedura di allineamento, qualora si verifichino degli errori, la memoria non viene generata e il programma salva un resoconto di quanto operato in un file di registro, senza dare la possibilità di intervenire modificando interattivamente i documenti. Se questi contengono una diversa quantità di paragrafi (cioè di righe) il messaggio d'errore si limita a riportare il numero di unità presenti nel testo di partenza e nel testo d'arrivo senza fornire ulteriori indicazioni sul punto in cui cercare l'errore. Per questo motivo conviene sempre preparare i file con un editor di testo prima di ricorrere a Bligner, in modo da disporre delle funzionalità di modifica avanzata, ricerca e sostituzione e, soprattutto, ottenere una struttura dei paragrafi perfettamente sovrapponibile.

Il file di registro si dimostra invece molto utile per la correzione della TM nel caso in cui, invece, vi siano problemi di entità più lieve. Un esempio abbastanza frequente di questo si ha quando si seleziona la frase come unità di segmentazione ma uno stesso paragrafo nelle due lingue contiene un numero diverso di frasi: in tale caso, nella memoria si ottengono due TU distinte in cui il segmento d'origine o di destinazione vengono ripetuti più volte, una per ogni frase contenuta nel paragrafo corrispondente dell'altro testo. Tale errore può essere corretto manualmente nella TM oppure, dopo aver apportato le dovute modifiche all'originale o alla traduzione, si può eseguire di nuovo il programma.

L'aspetto maggiormente innovativo di questo programma rispetto al progetto da cui ha avuto origine è senza dubbio la segmentazione avanzata, personalizzabile sulla base delle esigenze di ciascun utente e delle lingue di lavoro. Inoltre, la sintassi delle espressioni regolari utilizzata è molto simile a quella di OmegaT con cui il programma di sforza di mantenere la massima compatibilità. Pur non essendo alcuno di questi programmi è compatibile in modo diretto con l'SRX, una volta che un utente che abbia acquisito familiarità con uno potrà facilmente personalizzare anche l'altro a seconda delle proprie necessità. D'altra parte, come si vedrà, la sintassi delle regole di segmentazione di OmegaT è per molti versi simile all'SRX.

Venendo agli aspetti negativi, non è possibile non segnalare che manca un'ottimizzazione dell'allineamento sulla base di criteri diversi dalla semplice posizione dei paragrafi come, ad esempio, l'impiego di algoritmi che tengano conto della lunghezza degli stessi o della presenza di elementi placeable. Un ulteriore lacuna è rappresentata dalla documentazione praticamente nulla che accompagna il programma: le uniche istruzioni fornite dallo sviluppatore sono inserite sotto forma di commenti nei sorgenti del programma, per la cui personalizzazione e per comprendere appieno il funzionamento del quale sono però necessarie conoscenze di base di programmazione nei due linguaggi utilizzati.

Va anche ricordato, però, che numerosi fra gli aspetti negativi qui segnalati sono dovuti all'età relativamente giovane del progetto dal momento che lo sviluppo, dopo essere stato molto attivo dalla fine del 2005 e per tutto il 2006, registra da allora una fase di stallo.

3.2.4 PO4A-Gettextize

Autori:	Martin Quinson, Denis Barbier et al.
Licenza:	GNU GPLv2
Pagina web:	http://po4a.alioth.debian.org
Versione:	0.40.2 (novembre 2010)

Lo strumento po4a-gettextize è l'utilità di allineamento della suite PO4A: non si tratta quindi di un allineatore per scopi generici ma è stato concepito in maniera specifica per la documentazione di software. Si tratta di un progetto attivo e in costante sviluppo, ospitato sul server Alioth.debian.org dal 2004, da cui emerge lo stretto legame fra PO4A e il progetto Debian GNU/Linux.

Lo scopo di po4a-gettextize è creare un file PO bilingue a partire dall'originale e dalla traduzione di un documento, al fine di facilitare la manutenzione e l'aggiornamento della traduzione stessa in occasione del rilascio di nuove versioni del manuale inglese.

La documentazione (in inglese) è molto completa e facilmente accessibile in formato di pagine di manuale Unix dopo aver installato il programma, in particolare po4a-gettextize(1) e, per una spiegazione più generica sul procedimento di creazione di file bilingui, le sezioni How to begin a new translation e How to convert a pre-existing translation to po4a in po4a(7).

Come tutte le altre utilità della suite PO4A po4a-gettextize è interamente localizzato in italiano e non è dotato di interfaccia grafica. I formati accettati in entrata sono i principali utilizzati nella documentazione del SL: man (pagine manuale Unix), POD (documentazione Perl), SGML (DebianDoc e DocBook prima della migrazione a XML),63 TeX e LaTeX, Texinfo (pagine info GNU formattate attraverso groff), XML (principalmente DocBook ma anche diagrammi realizzati con programmi come Dia), XHTML nonché testo semplice. I file bilingui di output sono invece in formato PO, la conversione in formato TMX può essere realizzata attraverso lo strumento po2tmx del TTK (cfr. 4.3.3). Il gran numero di formati supportati e la possibilità di ottenere TM standard garantiscono una grande flessibilità e permettono l'uso del programma per scopi generici, anche al di là della sola documentazione di SL.

Il vantaggio principale di po4a-gettextize deriva dal fatto di essere stato pensato appositamente per la documentazione di software, il che lo rende capace di riconoscere in maniera intelligente le specificità dei formati di documentazione e di sfruttarli ai fini dell'allineamento. Nel caso di linguaggi di markup come il DocBook, in cui la struttura logico-formale del documento è esplicitata attraverso i tag, è quest'ultima a determinare i confini di segmento e non tanto il numero di riga su cui è posizionata la stringa.

L'aspetto forse più problematico per il traduttore comune deriva proprio da questo: nel caso in cui vi fossero dei punti in cui la struttura del documento di partenza e di quello d'arrivo non dovessero combaciare, diventa difficile interpretare i messaggi d'errore e risalire all'origine del problema. Per portare a termine la conversione a Gettext con successo è necessario quindi intervenire manualmente sui file con un editor di testo e, una volta apportate le dovute modifiche, richiamare il comando e ripetere la procedura.

Il programma non permette infatti di modificare la struttura allineata in modo interattivo, né di eseguire ricerche, modifiche o sostituzioni all'interno delle stringhe: tali operazioni devono essere eseguite con un editor di testo modificando i file di partenza. Ne consegue che non è possibile creare progetti di allineamento che comprendano più coppie di file al medesimo tempo, né salvare il lavoro svolto in maniera da riprendere con facilità in un momento successivo dal punto in cui si era interrotto il lavoro a meno che non si usino marcatori/segnalibri o simili funzionalità integrate nell'editor di testo utilizzato.

Volendo formulare un giudizio complessivo, po4a-gettextize è un programma molto potente che però in molti aspetti risente del fatto di essere nato per uno scopo molto specifico (la documentazione software) nonché di essere indirizzato a sviluppatori e manutentori di software che abbiano molta confidenza con l'utilizzo del terminale e di strumenti di manipolazione avanzata testi come Perl o Awk e delle espressioni regolari.

3.2.5 Considerazioni finali

La creazione di risorse per la traduzione assistita a partire da materiali preesistenti, sia a livello di termine che di segmento,64 è purtroppo uno degli aspetti dove gli strumenti offerti dal SL si dimostrano meno all'altezza delle necessità del traduttore.

Bitext2tmx, ad esempio, pur essendo dotato di interfaccia grafica, presenta limiti non indifferenti fra cui la mancanza di ottimizzazione dell'allineamento, il supporto ai soli file di testo semplice e l'impossibilità di salvare le corrispondenze fra segmenti approvate dal traduttore per cui la modifica di una TU comporta lo ‘sfasamento’ anche di tutte quelle successive.

D'altra parte, l'interfaccia utente rivela problemi di usabilità e leggibilità che rendono il programma poco adatto a lavori di allineamento di medie e grandi dimensioni. Infine, non va dimenticato che il progetto è stazionario da oltre due anni e purtroppo non ci sono segnali che lasciano al momento prevedere che lo sviluppo verrà ripreso.

Bligner e aligner, dal canto loro, restano molto indietro rispetto alle soluzioni più conosciute e da un punto di vista concettuale non è nemmeno possibile considerarli a tutti gli effetti degli allineatori visti i consistenti interventi di preparazione dei testi che richiedono da parte dell'utente, che in sostanza si deve far carico con le proprie risorse dell'allineamento mentre le applicazioni citate producono il TMX.

Ciononostante, vista l'esiguità delle soluzioni disponibili come SL, si è ritenuto opportuno presentare comunque questi due programmi per esigenza di completezza. Anche in questo caso inoltre si tratta di progetti fermi da diversi anni, nonostante possano contare sulla vasta comunità di utenti che fa riferimento a OmegaT.

Infine, po4a-gettextize, seppur non dotato di interfaccia grafica, si dimostra un programma molto promettente. L'aspetto più interessante a questo proposito è senza dubbio la possibilità di sfruttare gli elementi del markup strutturale ai fini del riconoscimento delle corrispondenze fra originale e traduzione. Inoltre l'ampia gamma di formati supportati unita al fatto che i PO bilingui possono essere facilmente convertiti in TM standard permettono l'utilizzo del programma anche per scopi diversi da quelli per cui è stato inizialmente concepito.

Anche in questo caso, tuttavia, non è possibile parlare di un allineatore in senso stretto, dal momento che all'utente non è consentito intervenire direttamente sulla struttura allineata e per modificare i documenti di partenza è necessario ricorrere a editor esterni per la preparazione del materiale.

Come si vedrà con maggiori dettagli nella sezione 4.4.1 anche l'infrastruttura Okapi mette a disposizione alcune soluzioni per l'allineamento, in particolare lo step ‘Sentence-Based Alignment’ e l'utilità ‘ID-Based Alignment’.

Nel primo caso, tuttavia, i problemi sono gli stessi messi in luce finora, dal momento che è richiesto comunque l'intervento dell'utente per portare a termine l'allineamento con l'unico vantaggio di poter pre-segmentare i documenti sulla base di regole SRX.

Nel secondo caso, invece, lo strumento è leggermente più avanzato perché è possibile verificare il lavoro svolto e intervenire interattivamente sulla struttura allineata. La soluzione è però applicabile solo nel caso in cui si disponga di documenti in cui i segmenti contengono già degli ‘identificatori’ e quindi in sostanza in cui una forma di allineamento sia già preesistente.

[Vai al menù del volume]

©inTRAlinea & Diego Beraldin (2013).
Una panoramica sugli strumenti di traduzione assistita
disponibili come software libero, inTRAlinea Monographs
This work can be freely reproduced under Creative Commons License.
Permalink: http://www.intralinea.org/monographs/beraldin/