Respeaking e localizzazione

By Luigi Muzii (Gruppo L10N)

Abstract

English:

While voicing and typing are basic skills for interpreters and translators, respeaking is a sort of simultaneous interpretation in the same language, which requires strong linguistic skills as well as the ability to understand and analyze complex issues and ideas and to translate them clearly, using an informative and faithful wording to create coherent, clear captioning with the appropriate level of accuracy. The language market is evolving and conference interpreting is shrinking; conversely, the audiovisual market is characterized by an upward trend, and respeaking can offer new job opportunities for interpreters with interlinguistic subtitling abilities. New skills must be acquired for re-voicing and instant subtitling, such as: voice control, stress management, ability to summarize, typing, and possibly stenography. This paper will focus on the application of respeaking techniques in localization practice, taking a view at multimedia and automatic speech recognition technology. It will also consider the introduction of respeaking techniques in academic courses for translators and interpreters, and how the experience in teaching localization can help with training in real-time subtitling techniques.

English:

Controllo della voce e abilità dattilografica costituiscono alcune delle fondamentali competenze di interpreti e traduttori che, nel respeaking, devono combinarsi con solide basi linguistiche che permettano di comprendere, analizzare e sintetizzare, talvolta, temi complessi. Il respeaker è, infatti, una sorta di interprete intralinguistico alle cui capacità ci si affida per ottenere un testo corretto, fedele e coeso con cui comporre sottotitoli chiari e accurati. L’evoluzione che caratterizza l’industria delle lingue conduce alla progressiva, incessante riduzione della quota di mercato relativa all’interpretazione di conferenza. Viceversa, il mercato dell’audiovisivo vive una persistente tendenza al rialzo che gli interpreti possono sfruttare eventuali competenze nel sottotitolaggio per proporsi proprio nel settore del respeaking. In questo caso occorre, però, acquisire capacità di controllo della voce, di gestione dello stress, di sintesi, dattilografiche e, magari, stenografiche. Questo contributo prende in esame l’applicazione delle tecniche di respeaking nel settore della localizzazione, soprattutto per quanto attiene alle tecnologie multimediali e di riconoscimento vocale e ne propone l’introduzione nei corsi universitari per traduttori e interpreti, traendo insegnamento dalla pratica dell’insegnamento della localizzazione.

Keywords: respeaking, respeakeraggio, localization, localizzazione, mercato audiovisivo, audiovisual translation, traduzione audiovisiva, audiovisual market, sottotilazione interlinguistica, multimedia, riconoscimento vocale automatico, interlinguistic subtitling, automatic speech recognition

©inTRAlinea & Luigi Muzii (2006).
"Respeaking e localizzazione"
inTRAlinea Special Issue: Respeaking
Edited by: Carlo Eugeni & Gabriele Mack
This article can be freely reproduced under Creative Commons License.
Stable URL: https://www.intralinea.org/specials/article/1688

1. Respeaking e localizzazione

Cosa lega il respeaking alla localizzazione? Niente, assolutamente niente, almeno in apparenza. In realtà, un legame, benché sottile, esiste. Vocalità e dattilografia infatti sono alla base delle capacità professionali di un interprete, di un dialoghista, di un adattatore o di un sottotitolare, e, benché spesso trascurate, anche di un traduttore e di un localizzatore. Le abilità linguistiche richieste a un respeaker sono, di fatto, le stesse che si richiedono a un simultaneista, oltre quelle di saper comprendere e analizzare temi e concetti complessi in modo da renderne possibile la trasposizione in una sintesi informativa ma fedele.

2. Comunicare nell’era della globalizzazione - esigenze nuove, modelli di formazione vecchi

Per questo oggi si vuole che i corsi di studi di impianto linguistico siano in grado di far emergere e perfezionare queste capacità laddove risultino connaturate, se non addirittura di svilupparle. È quanto meno curioso, però, che i programmi universitari di area linguistica nel settore multimediale contemplino ancora esclusivamente gli aspetti puramente testuali, quando la componente audiovisiva nella comunicazione multimediale è ormai ampiamente dominante. Purtroppo, così facendo, i mezzi culturali necessari per affrontare quello che pure è un aspetto essenziale della comunicazione, risultano insufficienti perché ad essi non si accompagnano abilità tecnico-metodologiche.

Il mercato delle lingue è in fase evolutiva, anche se questa dura ormai da quasi un decennio, vale a dire dall’affermazione della Rete come strumento di autentica globalizzazione. Nel quadro che si è andato formando, l’interpretazione occupa spazi progressivamente minori occupati via via da pratiche emergenti che interessano soprattutto piattaforme e applicazioni multimediali. La formazione accademica, però, non ha preso atto fino in fondo di questi mutamenti. La situazione della formazione di alto livello in materia di localizzazione e, più in generale, linguistica o afferente l’industria della comunicazione multilingue e multidisciplinare nel nostro paese è sconsolante.

Questa situazione trae origine, oltre che da radicati orientamenti politici e culturali, dalla natura del sistema economico nazionale, imperniato sulla piccola e media impresa e, nel caso specifico dell’industria delle lingue, addirittura sulla microimpresa. Ciò nonostante, si rileva una sovrabbondanza di offerta formativa le cui cause sono state ricondotte a inadeguatezza dei corsi universitari nei confronti della domanda di competenze proveniente dal mercato del lavoro e a una generale arretratezza del sistema accademico. Quest’ultimo aspetto potrebbe spiegarsi con una certa fossilizzazione su temi ritenuti “alti” sui quali si articola la preparazione di gran parte del corpo docente, che il mercato tuttavia non propone e non cerca, oltre a un sussiegoso distacco con cui viene affrontata la materia tecnologica. Così, malgrado la componente editoriale e cinetelevisiva componga, complessivamente, poco più del 5% del mercato[1], è ancora lì che si concentra il grosso degli sforzi formativi, senza particolare attenzione agli aspetti tecnologici. Peraltro, la pletorica offerta formativa in traduzione, e in redazione, si basa praticamente tutta sull’assunto che l’editoria italiana abbia significative esigenze. In realtà l’“esigenza” del mondo editoriale è generalmente modesta e, comprendendo anche gli editori cinetelevisivi e ipermultimediali, quando c’è, è rivolta a professionisti di elevato profilo tecnologico per i quali, invece, la formazione è purtroppo insufficiente e inadeguata. Nondimeno è insolito che i principali corsi per operatori del settore cinetelevisivo e multimediale si tengano lontano dalle sedi in cui si svolgono le relative attività produttive.

3. Le competenze del localizzatore

Le competenze necessarie e l’applicazione alla pratica della localizzazione presentano elementi utili a questo tipo di riqualificazione che meglio si applicano al fenomeno multimediale degli ultimi dieci anni, il Web. Il Web è, infatti, innanzitutto ambiente sociale dal quale attualmente è di fatto tagliata fuori una grossa fetta di pubblico a causa della mancanza di strumenti che permettano una reale integrazione con i modelli di fruizione multimediale fin qui sviluppati.

L’affermazione di una lingua veicolare, poi, ha portato anche alla ridefinizione delle strategie traduttive che oggi prevedono la possibilità di rendere un prodotto o un servizio direttamente in versione originale, e il concetto di localizzazione, rispetto alla prima formulazione, risalente ormai a più di quindici anni fa, è stato così ripensato e oggi interessa tutti i media anziché solo il software. Per far fronte alla crescente domanda da parte delle istituzioni e delle parti sociali di servizi volti in particolare a rendere accessibile il mondo dell’audiovisivo a disabili di vario genere si sono venuti a creare nuovi spazi.

4. Convergenza dei media e richiesta di traduzione in tempo reale

La convergenza dei media ha aiutato a estendere il processo di localizzazione, aprendo nuove sfide. La ricchezza di contenuti odierna, infatti, come diretta conseguenza della facilità di manipolazione, ha imposto nuove competenze da impiegare in nuove attività e nuovi processi e ha accresciuto, evidenziandolo, il problema del contenimento dei costi per mantenere elevati profitti altrimenti in calo a causa della massificazione del fenomeno. La stessa convergenza ha suscitato inoltre esigenze di integrazione, a livello infrastrutturale e di processo: ambiti in precedenza rigorosamente distinti presentano adesso ampie zone comuni di intervento. Lo dimostra l’interesse della DARPA (Defense Advanced Research Projects Agency)[2] con il progetto GALE (Global Autonomous Language Exploitation) per la traduzione in tempo reale di programmi televisivi, contenuti Web e conversazioni telefoniche con livelli di attendibilità tra il 90% e il 95% che andrà in scadenza nel 2010. Sembrano in diversi a crederci, tra cui Aculab e LumenVox che stanno collaborando alla definizione di tecnologie di riconoscimento vocale che garantiscano interoperabilità per un ampio pannello di applicazioni. In quasi tutti i casi, comunque, i processi di lavorazione del materiale multimediale mantengono specifiche caratteristiche di non linearità. La componente audio, infatti, è solo una di cinque che si influenzano reciprocamente e la cui localizzazione si svolge in parallelo in base a esigenze temporali, funzionali e a vincoli produttivi pre-esistenti.

5. La sottotitolazione nel Web

Anche per questo, malgrado il Web sia sempre più ricco di contenuti multimediali, la sottotitolazione è piuttosto rara. Bisogna tuttavia considerare anche le modeste disponibilità economiche a fronte di impegni che, al contrario, sono decisamente onerosi, soprattutto in termini di risorse umane e tecnologiche. Non a caso la sottotitolazione è pratica condotta prevalentemente in ambito televisivo in cui non si richiede l’immediata redditività dell’investimento. Un cambiamento sta intervenendo con le iniziative volte a migliorare l’accessibilità di siti e contenuti Web, anche se, pure in questo caso, sono le scelte economiche a dominare quelle politiche e sociali. Anche l’applicazione della recente normativa italiana riguardante i servizi delle Pubbliche Amministrazioni sul Web e il Codice per l’Amministrazione Digitale, infatti, e stata frenata dai costi della transizione soprattutto perché si prevede che questa debba avvenire nell’ambito delle ordinarie disponibilità di bilancio. Tuttavia, la sottotitolazione rimane la soluzione più conveniente soprattutto perché l’accoppiamento a formati descrittivi (SMIL/MPEG-7) può agevolare il reperimento dei contenuti multimediali, al pari di quelli testuali, e questo tipo di applicazioni presenta ricadute favorevoli soprattutto in ambito archiving.

5.1 Sottotitolaggio collaborativo

La prospettiva più interessante, a breve termine, sembra legata al sottotitolaggio collaborativo, anche se, attualmente, sono diversi i vincoli che ne limitano l’applicazione a circa l’1% della pratica totale[3]. È comunque necessario intervenire sull’intero processo di sviluppo e gestione, spostando maggiormente l’attenzione sugli utenti. Non sorprende, quindi, che, più che i circuiti audiovisivi tradizionali, il Web rappresenti in moltissimi casi una “zona d’ombra”, inopinatamente trascurata. E non è un caso se, generalmente, nel migliore dei casi, il Web sia visto come una “riserva” di replica, anziché un mezzo primario.

È vero anche, però, che la tecnologia di trasmissione multimediale in tempo reale ancora non prevede, di fatto (Real è, per ora, l’unica piattaforma a farlo), alcun supporto per la sottotitolazione. Sembra quindi che eventuali sviluppi si debbano attendere solo dalle applicazioni CART, giacché la pervasività raggiunta dal Web nella società americana come veicolo di diffusione dovrebbe rapidamente portare al superamento di vincoli tecnici importanti quali, per esempio, il ritardo di trasmissione, anche se, ovviamente, con qualche artificio. In tempi altrettanto brevi si può ragionevolmente prevedere di assistere all’affermazione di sistemi economici di generazione automatica dei modelli di sottotitolaggio anche per le trasmissioni in tempo reale. In questo caso, infatti, il ritardo può essere sfruttato come un vantaggio per l’individuazione dei punti di inizio e fine dei sottotitoli.

5.2 Sottotitolaggio e riconoscimento vocale

Ma se è vero, che c’è vero progresso quando una tecnologia è messa a disposizione di tutti, i maggiori avanzamenti che dobbiamo attenderci sono nel campo del riconoscimento vocale.

Un primo segno di progresso potrebbe essere dotSUB, ma, come in una puntata di Star Trek, tra non molto potrebbe essere disponibile anche il traduttore vocale. Voxonic, infatti, ha già messo a punto un programma di “replicazione”, mentre il riconoscimento vocale, grazie alle applicazioni in ambito sanitario procede rapidamente verso costi irrisori, e alla Carnegie Mellon University è nato Tower of Babel, di cui ha dato conto di recente la rivista New Scientist[4], grazie al quale è possibile articolare in silenzio una parola per vederla tradotta in un’altra; si potrà cioè doppiare o sottotitolare un oratore semplicemente servendosi di sensori che rilevano il movimento del collo e del viso.

Il passo successivo sarà, però, la generazione automatica di sottotitoli. Il vincolo principale, finora, è costituito dal tempo necessario ad organizzare il testo prodotto dalla trascrizione o dalla sintesi vocale, ma dato il rapido procedere dell’integrazione di queste due tecnologie, si tratterà solo di estendere il processo, ovvero di aggiornare il workflow che dovrà così prevedere prima una fase di riconoscimento e sintesi vocale per la trascrizione del flusso audio, quindi la sottotitolazione a partire dal testo generato e, infine, eventualmente, la traduzione automatica del testo in una o più lingue e la relativa costituzione o integrazione del corpus di riferimento. Ovvia, quasi, l’impossibilità di ricorrere alla titolazione aperta e, viceversa, la necessità di costituire grandi corpora cui attingere per poter lavorare con tecnologie LVCSR (Large Vocabulary Continuous Speech Recognition).

Su questo fronte sono di buon auspicio le dichiarazioni fatte dal CEO di IBM Samuel Palmisano[5] secondo il quale, nel biennio 2007-2008, la compagnia investirà 100 milioni di dollari in nuovi progetti, compreso uno sulla traduzione in tempo reale a partire dalle oltre 46.000 idee scaturite da InnovationJam[6], un concorso internazionale al quale hanno preso parte 150.000 persone di 104 paesi. Per questo workflow si dovrà prevedere l’inserimento automatico di attività che richiedano la sottotitolazione e il rilevamento di ciascuna di esse in modo da poterle preparare e assegnare in modo efficiente, nonché accertarne lo stato; sarà inoltre necessario predisporre un database per la gestione di questi nuovi asset in modo da permetterne il riutilizzo esattamente come accade con le memorie di traduzione. Il re-speaking potrà porsi come una valida soluzione di transito che potrà essere consolidata quando il tasso di errore scenderà almeno sotto il 3%, così da estenderne l’impiego anche alle news.

6. Ripensare la formazione

Il maggior limite al progresso nel nostro paese, però, è lo scetticismo nei confronti dell’innovazione, in tutti i settori, e il ritardo che, per conseguenza, accumuliamo. L’ostilità che tanti, troppi italiani manifestano, ostentano addirittura talvolta, nei confronti della tecnologia, anche la più semplice e diffusa, non è indice di snobismo e di pretesa superiorità, ma di pericolosa ottusità. Il secondo posto nell’uso dei cellulari con il 96% di penetrazione non è indice di sapere tecnologico. Così, continuiamo a perdere posizioni in tutte le graduatorie che riguardano predisposizione tecnologica e formazione universitaria: nella prima l’Italia è buon ultima tra i paesi occidentali dopo Estonia, Tunisia, Cile, Lituania e Giordania, anche se precede Giamaica e Botswana; nella seconda tra le prime 100 si trova solo l’Università “La Sapienza” di Roma[7].

Se è vero che obiettivo di qualunque intervento formativo è l’innalzamento del grado di conoscenza dei destinatari, la difficoltà principale nel disegnare i nuovi percorsi formativi in ambito linguistico, allora, sta proprio nel loro ricollocamento in prospettiva tecnologica. D’altronde, la generazione che domina oggi il mondo della formazione universitaria è quella che quarant’anni fa reclamava la fantasia al potere e oggi ha sostituito le vecchie baronie con altre che ne clonano metodi e, purtroppo, anche atteggiamenti. È quindi necessario arrestare lo sviluppo di competenze che non troveranno inserimento per via del regresso patito e offrire invece la possibilità di reale impiego a quelle che si è comunque in grado di produrre arricchendole di capacità pratiche e tecnologiche, anche se questo comporterà la rinuncia a rendite di posizione ormai in esaurimento.

Nel settore audiovisivo, in forte crescita, proprio il respeaking può rappresentare un’interessante opportunità per gli interpreti che devono tuttavia acquisire nuove abilità o migliorarne altre fin qui ritenute minori. Occorre, tuttavia, fare i conti con ridotte disponibilità di fondi e redditività dell’investimento che condizionano le scelte, come quella, per esempio, delle reti generaliste di (non) estendere il servizio di sottotitolazione interlinguistica all’intero palinsesto televisivo.

L’esperienza BBC dimostra poi che è necessario formare specifiche competenze. In particolare, sembra necessario formare i re-speaker ad attenersi a precise regole di condotta. Purtroppo, per mancanza di ricerca in materia, tecnologica quanto economica, metodologica quanto operativa, questa soluzione non viene ancora presa sufficientemente in considerazione.

Anziché, quindi, definire “inquietante” la carenza della figura dell’interprete nel mondo dell’informazione e dell’intrattenimento televisivo, replicando logiche corporative pericolose quanto sterili, occorre ripensare la formazione dell’interprete in funzione dei nuovi sbocchi professionali cui è, o potrebbe essere, destinato, rinunciando a insistere sullo sviluppo di capacità che premiano solo una visione superata del profilo.

Note

[1] Dati tratti dal Language translation, Localization and Globalization. Allied Business Intelligence Report 2002.

[2] [url=http://www.darpa.mil/]http://www.darpa.mil/[/url]

[3] Language translation, Localization and Globalization. Allied Business Intelligence Report 2002.

[4] New Scientist Magazine 2575 (26 October 2006), 32.

[5] [url=http://www-03.ibm.com/press/us/en/pressrelease/20605.wss]http://www-03.ibm.com/press/us/en/pressrelease/20605.wss[/url]

[6] [url=https://www.globalinnovationjam.com/]https://www.globalinnovationjam.com/[/url]

[7] Dati OCSE, World Economic Forum e Istituto Superiore di Shanghai.

About the author(s)

Nota biografica
Luigi Muzii lavora nell'industria delle lingue da 24 anni come traduttore, localizzatore, redattore tecnico e consulente. Ha lavorato per 12 anni con mansioni diverse per la principale azienda italiana di telecomunicazioni, e per due anni come education manager in una società di servizi radiotelevisivi, ha avviato un proprio studio di consulenza nel campo dell'organizzazione, la gestione e l'uso delle informazioni e delle conoscenze. È docente a contratto di localizzazione per la Libera Università degli Studi "S. Pio V" di Roma e uno dei fondatori e il team leader del Gruppo L10N, pool di professionisti dell’industria delle lingue che opera nel campo dei servizi didattici per integrare la formazione universitaria nel settore, favorire lo sviluppo di figure di alto profilo che soddisfino la domanda di risorse professionali e offrire occasioni di incontro e aggregazione. È autore del libro La redazione dei documenti tecnici, dalla progettazione alla realizzazione, per Franco Angeli e di una ventina di pubblicazioni, su documentazione, traduzione e terminologia e relative tecnologie; tiene regolarmente conferenze e seminari sull’argomento.
Biographical note
Luigi Muzii has been working in the language industry for 24 years as a translator, localizer, technical writer and consultant. He spent 12 years in several departments of a major Italian telecommunications company, and two in a broadcasting service company, then started a consulting firm on his own to act as an information design and delivery consultant. He is also a visiting professor of localization at the Libera Università degli Studi “S. Pio V” in Rome, and is one of the founders and the team leader of Gruppo L10N a group of GILT (Globalization, Internationalization, Localization and Translation) professionals 'volunteering' in localization educational programs to help universities forge highly specialized skills that will meet the industry’s demand for professional resources and build a common platform for networking. He has published a book on technical writing, and more than fifteen papers and articles, speaks regularly at conferences, and holds seminars and workshops.

Email: [please login or register to view author's email address]