Introduzione al rispeakeraggio televisivo

By Carlo Eugeni (Università di Bologna, Italy)

Abstract & Keywords

English:

Respeaking is a very recent technique thanks to which, an operator (the respeaker) listens to the source text and repeats it, reformulates it, or translates it. The vocal input is processed by a speech recognition software which transcribes it, thus producing a written text. However, some questions remain open: what is the raison d’être of respeaking? What is it used for? What competencies must a respeaker possess? For whom does s/he works, and in which contexts? After an introduction to the practice, the article will try to provide an answer to these questions, and will offer what the author hopes is a comprehensive overview of respeaking, focussing particularly on real-time TV subtitling.

Italian:

Il rispeakeraggio è una recente tecnica tramite la quale un operatore (il rispeaker), mentre ascolta il testo di partenza, lo ripete, riformula o traduce dettandolo a un software di riconoscimento del parlato che elabora l’input vocale e lo trasforma in testo scritto. Ma qual è, nella realtà, la ragion d’essere del rispeakeraggio? Quali sono le sue applicazioni? Quali competenze deve avere il rispeaker? Per chi lavora e in quali contesti? Dopo un’introduzione lessicologica in cui si spiegano i motivi che hanno portato alla coniazione del termine rispeakeraggio seguita da una definizione dello stesso, il presente articolo tenterà di dare una risposta a tutte queste domande offrendo così una panoramica il più possibile esaustiva della tecnica in oggetto, concentrandosi, in particolar modo, sulla produzione di sottotitoli in tempo reale per la televisione.

Keywords: rispeakeraggio, respeaking, sottotitoli televisivi per i sordi, riconoscimento del parlato, sottotitolaggio, dubbing, programmi live, programmi semi-live, subtitling for deaf and hard-of-hearing, speech recognition, real time subtitling, live programs, semi-live programs

©inTRAlinea & Carlo Eugeni (2006).
"Introduzione al rispeakeraggio televisivo"
inTRAlinea Special Issue: Respeaking
Edited by: Carlo Eugeni & Gabriele Mack
This article can be freely reproduced under Creative Commons License.
Permanent URL: http://www.intralinea.org/specials/article/1683

1. Introduzione

Il termine rispeakeraggio, qui proposto per la prima volta in un testo scientifico in lingua italiana, deriva dal più fortunato lemma inglese respeaking, che letteralmente significa riparlare e che indica, tra l’altro, proprio la tecnica che sarà qui di seguito discussa[1]. Purtroppo la lingua italiana non è così immediata e morfologicamente flessibile come l’inglese, ma si è voluto comunque tentare di approdare a una soluzione che evitasse l’ennesimo prestito integrale adattandosi il più possibile alle regole morfo-sintattiche della nostra grammatica e cercando di non chiamare in causa lessemi ambigui già in uso per identificare attività affini o più generiche, come ripetizione o riformulazione. Ecco, quindi, che partendo dall’ormai parzialmente acclimatato speaker, che identifica una persona che parla in un contesto ben definito, declinato nella forma speakeraggio, già in uso, si giunge, tramite il suffisso ri-, alla forma proposta. Rispeakeraggio si ripropone, quindi, di essere il termine che sostituisce il già in uso (in italiano) respeaking per identificare esclusivamente la tecnica in esame.

Ora che si è chiarita la questione lessicale, ci si può addentrare nel cuore della questione. Prima di definire il rispeakeraggio, però, è forse necessario introdurre il concetto di riconoscimento vocale (o del parlato), vale a dire la tecnologia che sta alla base del processo che si intende delineare. Grazie a una serie di ausili sintattici, lessicali e morfologici, oltre che fonetico-fonologici, i software che si occupano di riconoscere il parlato elaborano l’input vocale (un testo orale o scritto pronunciato o letto ad alta voce) ricevuto tramite microfono. Queste informazioni vengono quindi ‘riconosciute’ e trasformate in testo scritto, visualizzato sotto le più svariate forme, a seconda dell’uso che se ne intende fare.

A tal proposito è forse corretto sottolineare che gli ambiti di applicazione dei sistemi di riconoscimento del parlato sono attualmente molteplici e giungono a ricoprire perfino la sfera quotidiana, in cui vengono utilizzati al posto della tastiera per scrivere mail o altri documenti. In realtà, questa tecnologia era stata inizialmente ideata per i settori medico, politico, giuridico, meccanico, ecc., vale a dire al servizio di persone che hanno bisogno di trascrivere un determinato testo orale, ma che per motivi professionali (l’esigenza di avere il testo in tempi strettissimi, non poter utilizzare le mani, ecc.) non possono utilizzare le altre tecniche esistenti. Più recentemente, la tecnologia in materia è stata adottata anche in televisione dove viene utilizzata per la produzione di sottotitoli in diretta. In Gran Bretagna, il paese che ne fa maggiore uso, viene impiegata sia dalla televisione pubblica (BBC), dove il rispeakeraggio ha visto i suoi natali nel 2001, che da quella privata (via cavo e satellitare).

Il successo ottenuto dall’emittente di Stato britannica ha contagiato anche altre realtà in tutto il mondo che hanno adottato, o stanno per farlo, il rispeakeraggio per sottotitolare i più svariati tipi di programmi. Tuttavia, la disamina di tutte queste televisioni sarebbe lunga e poco produttiva visto che le migliori prassi, in termini quantitativi e soprattutto qualitativi, restano, almeno in questo momento, appannaggio della più celebre emittente di lingua inglese al mondo, la British Broadcasting Corporation. È per questo motivo che la descrizione della tecnica del rispeakeraggio, facendo astrazione dalle peculiarità precipue della lingua inglese, verrà esposta in base all’esperienza e al materiale usato proprio dalla BBC.

2. Definizione

Così come si legge nei Libri Bianchi del Research and Development Department della BBC, “the subtitler ‘respeaks’ the live programme’s dialogue, condensing and rephrasing the text” (Evans 2003: 9). E ancora:

Speech subtitlers will listen to the programme on headphones and will respeak the words, précising if necessary. […] Recognised words [are] released at a preset word rate to be formatted into “snake” subtitles. (Marks 2003: 10).

Dal punto di vista della teoria della traduzione, il rispeakeraggio rientra nel dominio della traduzione audiovisiva. Ora, è necessario precisare che ogni tecnica traduttiva è costituita da due aspetti che lo contraddistinguono:

- il processo: in cui viene prodotto il testo di arrivo e comprende i percorsi operativi e psico-cognitivi del ‘traduttore’;
- il prodotto: il risultato finale del processo traduttivo, il testo di arrivo di cui usufruisce il pubblico.

Alla luce di questa distinzione e facendo appello alla tassonomia proposta da Gottlieb (in stampa), possiamo dire che il rispeakeraggio, come processo, è una traduzione simultanea (intra-) inter-linguistica e isosemiotica appartenente alla sottocategoria della inspirational translation in quanto non ancora codificata da regole ben precise. Secondo Gottlieb, che riprende la categorizzazione di Roman Jakobson (1959), il termine ‘inter-/intra-linguistico’ riferito alla traduzione sta a identificare la lingua del testo di arrivo rispetto a quella dell’originale (il rispeakeraggio audiovisivo nasce come ausilio per il pubblico audioleso e quindi come traduzione intra-linguistica, nella stessa lingua del testo sottotitolato), mentre il termine ‘isosemiotico’ categorizza un utilizzo del medesimo canale di produzione (in questo caso quello orale). Per finire, il già in uso ‘simultaneo’ etichetta il rispeakeraggio come traduzione prodotta contemporaneamente alla produzione del testo di partenza, differenziandolo così dalla sottotitolazione per sordi di programmi pre-registrati.

Quanto al rispeakeraggio come prodotto finito, ossia come testo audiovisivo per se, può essere definito come traduzione non sincronica, inter-/intra-linguistica e diasemiotica. Eccezion fatta per gli aspetti linguistico e ispirazionale della traduzione, che rimangono immutati rispetto al rispeakeraggio come processo, il testo d’arrivo in questo caso è costituito da caratteristiche diverse rispetto al processo traduttivo dal quale deriva. I sottotitoli sono infatti percepiti tramite canali diversi -testo (tra)scritto sovrapposto alle immagini- rispetto all’interazione delle componenti audio e video dell’originale. Inoltre, la comparsa dei sottotitoli sullo schermo avviene in maniera non sincronica rispetto alla produzione del testo originale, ma con qualche secondo di ritardo.

Da queste brevi descrizioni, si evince che il rispeakeraggio è una riformulazione, una traduzione o una trascrizione di un testo, in questo caso audiovisivo (telegiornale, telecronache, ecc.), prodotta dal rispeaker ed elaborata dal computer in contemporanea con la produzione del testo di partenza, in questo caso con la messa in onda del programma che si intende sottotitolare. Il software di riconoscimento del parlato procede alla trasformazione dell’input orale in testo scritto. A seconda dell’interfaccia, il testo prodotto viene visualizzato sotto le più varie forme, in questo caso in sottotitoli inter-/intra-linguistici.

Passando al pubblico a cui questi sottotitoli sono rivolti, come si può leggere nella nota pubblicata nel sito della BBC in materia di rispeakeraggio[2], l’obiettivo principale della produzione dei sottotitoli è l’accessibilità e l’inclusione di persone con problemi di udito: “BBC subtitles provide a transcript of the TV soundtrack, helping deaf and hard-of-hearing viewers to follow programmes”. Tuttavia, dal già citato Libro Bianco del Research and Development Department della BBC (Marks 2003: 5), si desume che il ricorso al rispeakeraggio viene effettuato per raggiungere l’obiettivo di sottotitolare la totalità dei programmi entro il 2008, ottemperando così alla legislazione in vigore nel paese, “whilst minimising the additional costs involved”. È infatti da sottolineare che la maggiore flessibilità del rispeakeraggio nei confronti dell’altro sistema utilizzato per produrre sottotitoli in diretta, la stenotipia, comporta anche un abbattimento dei costi in materia di reclutamento, formazione e remunerazione del personale.

In sintesi, riprendendo le parole dell’attuale responsabile del re-speaking department di Red Bee Media (che produce sottotitoli per la BBC), le tre ragioni principali per cui la BBC ha iniziato a fare ricorso al rispeakeraggio non sono soltanto di natura sociale o tecnologica, ma anche e soprattutto di natura legislativa ed economica:

Respeaking came into being for three main reasons. Firstly, there was a growing demand from deaf and hard of hearing audiences for a greater proportion of television broadcasts to be subtitled.

Secondly, and perhaps consequently, the Broadcasting Act of 1990 stipulated that, from 1998, 50% of all television channels’ output should be subtitled. That target rose to 90% by 2010, but the BBC’s own target is to subtitle 100% of output by 2008.

Thirdly, stenography is a highly specialised skill that takes years to master; therefore, stenographers are not only thin on the ground but also able to demand high salaries. To meet its subtitling targets, the BBC had to find an alternative method of subtitling live programmes that was both practical and cost-effective. (Marsh 2004: 22)

3. I programmi

Per quanto riguarda i programmi per i quali il rispeakeraggio può essere utilizzato, il Libro Bianco del Reasearch and Development Department (Evans 2003: 9) precisa che si tratta di trasmissioni “for which no pre-recording or transcripts exists, i.e. live programmes or programmes edited very close to the time of transmission”.

Per la precisione, il rispeakeraggio viene utilizzato per quattro macrogeneri televisivi: gli eventi sportivi, le sessioni parlamentari, il telegiornale e quelli che vengono definiti special events, come i funerali della Regina Madre, i matrimoni reali, ma anche concerti di grande importanza o altri eventi simili. A loro volta, questi macrogeneri possono essere raggruppati in due categorie, a seconda della modalità impiegata per la produzione del testo audiovisivo, i programmi live e quelli semi-live. I programmi live (o in diretta) sono quei programmi il cui testo viene pensato e prodotto esclusivamente in diretta, in quanto gli eventi a cui si riferisce avvengono contemporaneamente alla produzione dello stesso (telecronache, servizi in diretta, dibattiti parlamentari, ecc.). I programmi semi-live (o in semi-diretta) sono quelli che vengono proiettati in diretta, ma di cui il sottotitolatore riceve una traccia scritta o audio a ridosso della messa in onda. In particolare, il riferimento più immediato è al telegiornale, composto dal testo che il presentatore legge dal tele-suggeritore e da quello dei servizi già montati; o ai grandi eventi di spettacolo, come la notte degli Annual Academy Awards, in occasione dei quali anche i dialoghi per i presentatori ed eventuali ospiti, apparentemente spontanei, sono preparati precedentemente e letti durante lo svolgimento del programma.

In entrambi i casi, le ripercussioni sul lavoro del rispeaker sono sostanziali per due ragioni essenziali che riguardano entrambe l’accuratezza del testo di arrivo. Nel primo caso, il rispeaker non ha modo di conoscere il testo da sottotitolare, anche se potrà addestrare il software di rispeakeraggio a nomi propri, toponimi, termini tecnici o quant’altro sarà probabile che verrà menzionato (i nomi dei calciatori che saranno menzionati durante una telecronaca sportiva; i nomi dei politici che parleranno durante una seduta parlamentare; i nomi dei luoghi o delle istituzioni nel caso di special events, ecc.); nel secondo caso invece il rispeaker può prepararsi a quelli che sarà il testo da sottotitolare, introducendo nel software tutto ciò che, per certo, verrà menzionato in un momento ben definito, assicurandosi così non soltanto una preparazione psicologica all’evento ma anche una maggiore garanzia di accuratezza dei suoi sottotitoli. Nel secondo caso, indipendentemente dalla professionalità dello speaker del programma, il testo dell’evento real time sarà costituito maggiormente dalle peculiarità della lingua orale (pause piene, riformulazioni, frasi incomplete, false partenze, ecc.) rispetto a un testo costruito all’uopo che, anche se preparato per essere letto, non avrà le ‘imperfezioni’ del testo spontaneo di cui sopra. Un testo orale prodotto e ideato in tempo reale, invece, sarà più impegnativo di un programma in semi-diretta in quanto il rispeaker dovrà fare lo sforzo aggiuntivo di rendere il testo leggibile al pubblico oltre che riformularlo.

4. L’utenza finale

Come si è visto precedentemente, i sottotitoli intra-linguistici sono stati inizialmente pensati per i sordi e per le varie categorie di telespettatori con problemi di udito, in maniera tale da offrire loro piena accessibilità a un servizio a disposizione dei normoudenti. Si tratta di una fetta molto consistente della popolazione tanto che, secondo le statistiche effettuate per conto della BBC[3], nel solo Regno Unito, il 55% delle persone sopra i sessant’anni di età e il 2% dei giovani soffrirebbero di problemi d’udito tali da impedire loro una normale fruizione del testo audiovisivo. Su un totale di circa 60 milioni di persone, si parla pertanto di circa nove milioni di persone, cioè a dire una persona su sette. Inoltre, stando al supplemento Salute de La Repubblica del 6 febbraio 2006, sono a rischio ipoacusia sei europei su cento. In altre parole, un normoudente ogni diciassette, per motivi legati a fattori esterni, come l’inquinamento acustico dell’ambiente, un’eccessiva esposizione al rumore in discoteca o sul posto lavoro, farmaci ototossici (tra cui alcuni antibiotici, metalli pesanti, diuretici, anti-infiammatori e anti-ipertensivi), apparecchiature acustiche (cellulari, cuffie, auricolari, ecc.), perde gradualmente l’udito in maniera irreversibile fino a superare la soglia critica della sordità grave. L’unica soluzione a disposizione di persone sorde è l’ausilio protesico, che per motivi culturali legati all’imbarazzo sociale, viene però utilizzato soltanto da nove milioni di europei su ventidue.

Alla categoria dei possibili utenti dei sottotitoli intra-linguistici, si aggiunge tutta una schiera di persone che, per motivi sia linguistici che percettivi, non riescono ad avere un accesso totale al testo audiovisivo. Secondo i dati in possesso della BBC[4], infatti, una parte non marginale del pubblico che usufruisce dei sottotitoli è composto anche da turisti, persone disagiate (per lo più emarginati e immigrati di prima generazione) e persone che abitano, lavorano o frequentano ambienti rumorosi (casalinghe con bambini piccoli, gestori o clienti di pub, bar o altro, ecc.).

Per concludere quest’aspetto, va inoltre sottolineato che i programmi della BBC sono trasmessi anche in altri paesi e, con essi, i sottotitoli che accompagnano le varie trasmissioni per cui sono stati prodotti. Completano quindi la lista degli utenti anche coloro che ricevono, in streaming o direttamente dal ricevitore satellitare o via cavo, i programmi dall’estero. Per la maggior parte di queste persone i sottotitoli intra-linguistici sono uno strumento preziosissimo per imparare, consolidare o approfondire le competenze in una lingua straniera o nella propria lingua madre, qualora si tratti di emigrati con poche possibilità di praticarla.

5. Aspetti professionali

Dal punto di vista organizzativo, i rispeaker lavorano, come gli interpreti di conferenza, in cabine insonorizzate generalmente in due in modo da potersi dare il cambio nel caso il programma da sottotitolare duri più di un turno di lavoro. La durata di ogni turno varia dai 15 ai 40 minuti a seconda dell’esperienza del rispeaker e soprattutto del genere del programma in questione. Ogni emissione richiede infatti competenze diverse, in ragione soprattutto della velocità di produzione del testo di partenza e dal livello di tecnicità dello stesso. Alla BBC, i notiziari e le riunioni parlamentari sono considerati i più difficili da sottotitolare visto che, in entrambi i casi, gli argomenti che possono essere affrontati all’interno del programma sono tra i più vari e il salto da un contesto a un altro può essere repentino e inatteso. Inoltre, l’alta presenza di termini tecnici e soprattutto la velocità di eloquio degli oratori aumentano le difficoltà per i rispeaker. Le sessioni parlamentari, infine, pongono il grosso problema dell’oratore. Mentre nel caso dei notiziari, chi parla è quasi sempre la stessa persona, l’inviato o il presentatore del notiziario, nel caso dei dibattiti in Parlamento ci sono molti oratori che parlano senza un testo di riferimento e con un uso talvolta improprio della lingua. Di più: i parlamentari non hanno seguito corsi di dizione, come i giornalisti, e la loro pronuncia potrebbe costituire un ostacolo ulteriore alla comprensione del testo da parte del rispeaker. Altri programmi, invece, come gli eventi sportivi, richiedono un minore sforzo intellettuale visto che, nonostante si debba effettuare una maggiore compressione sintattica (l’utilità del sottotitolo, in questi casi, è identificare chi fa l’azione, visto che quest’ultima è ben intuibile dalle immagini), i tecnicismi hanno un tasso di frequenza più basso e soprattutto sono maggiormente circoscritti all’interno di un campo semantico ben preciso. Sport particolarmente lenti, poi, come il biliardo o le freccette, non richiedono sforzi eccessivi, tanto da essere utilizzati come banco di prova per i rispeaker principianti. In questi casi un rispeaker può anche lavorare per un turno di 40 minuti[5].

Per completare il quadro, è forse utile sapere che gli addetti al rispeakeraggio di uno stesso programma possono non trovarsi fisicamente nello stesso luogo. Nel caso della BBC, infatti, esistono delle postazioni dislocate nelle varie aree geografiche del paese in modo tale da garantire non soltanto una copertura che include perfino i programmi regionali, ma anche la possibilità per i rispeaker di lavorare da casa. Una semplice rete interna permette di collegare tutte le postazioni operanti sullo stesso programma; il cambio di turno viene effettuato tramite un segnale standardizzato che avverte chi deve subentrare o chi deve essere sostituito dell’imminente cambio o dell’avvenuto avvicendamento.

6. La tecnologia

Sotto il profilo della tecnologia, gli strumenti che vengono utilizzati per la produzione di sottotitoli si basano essenzialmente su uno dei due programmi di riconoscimento vocale:

- ViaVoice;
- Dragon NaturallySpeaking.

Per quanto riguarda il mero riconoscimento del parlato, le differenze tra i due software sono sostanzialmente inesistenti. Tuttavia, nel passato, ViaVoice necessitava di un input monotono onde evitare errori nel riconoscimento della voce, mentre Dragon NaturallySpeaking, come suggerisce il nome stesso, ha da sempre permesso al rispeaker di parlare in maniera naturale, grazie agli ausili fonetico-fonologici di cui dispone il programma. Un’altra differenza era la modalità di visualizzazione dei sottotitoli. Benché nessuno dei due fosse stato progettato espressamente per la produzione di sottotitoli per la televisione, la maggiore differenza consisteva nella maniera in cui veniva rilasciato il testo frutto del riconoscimento vocale. Inizialmente, dopo aver elaborato le parole, ViaVoice le rilasciava una per una secondo la modalità roll-up (ogni riga sfila su due o tre righe dal basso verso l’alto sospinta dalla riga successiva). Dragon NaturallySpeaking invece preferiva proiettare l’intero testo in modalità pop-on (ogni didascalia scompare dallo schermo sostituita dalla didascalia successiva) solo quando riconosceva nell’eloquio del sottotitolatore una pausa naturale. Oggi, le due tecnologie permettono entrambe di visualizzare i sottotitoli nelle due modalità e al rispeaker di parlare in maniera naturale.

Quanto alla modalità di elaborazione dell’input vocale, ViaVoice, riconoscendo solo le singole parole, obbligava il rispeaker ad accentuarle tutte, come fossero una stringa di parole non correlate tra di loro. Questo era sicuramente uno svantaggio per l’operatore che non poteva usare la prosodia per dare coesione al testo che andava pronunciando, ma doveva fare affidamento esclusivamente sulla sua memoria. Per quanto riguarda la proiezione dei sottotitoli, invece, l’utente finale ha un approccio diverso a seconda di come riceve il testo di arrivo. Nel caso del roll-up (con parole rilasciate una a una), avrà l’impressione di assistere a un processo in corso, a discapito però della visione d’insieme. A livello grafico, quindi, non si avranno i consueti blocchi di sottotitoli, quanto un testo in continua evoluzione. Il vantaggio di questa tecnica di proiezione dei sottotitoli sta nel fatto che viene garantita una maggiore sincronia tra il testo sottotitolato e quello enunciato.

Il pop-on (con blocchi di parole rilasciati uno per volta), invece, permette di proiettare le stringhe di testo riunite in blocchi segmentati secondo le pause naturali prodotte dal rispeaker. Se da un lato questo ha il vantaggio di garantire una migliore visione dei sottotitoli, la sfida per il rispeaker sta nel saper intervallare pause naturali e frasi di senso compiuto nel rispetto di quelli che sono forse i due principi base di ogni sottotitolatore di programmi pre-registrati: evitare di interrompere un sintagma a metà e garantire una certa permanenza della didascalia sullo schermo.

7. Competenze

Nonostante i grandi passi in avanti fatti dalla tecnologia, molte sono ancora le costrizioni alle quali il rispeaker dovrà sottostare per ottenere buoni risultati nella sottotitolazione in diretta. Innanzitutto, il microfono deve essere calibrato, cioè adattato all’ambiente circostante, perché la voce del rispeaker venga riconosciuta nella maniera migliore. È poi necessario che il rispeaker crei il proprio profilo vocale in modo tale che il software si adatti alla sua voce che, per tonalità, intensità, volume e prosodia, sarà per forza di cose diversa da quella di ogni altro oratore. Dopo questa operazione, sarà possibile iniziare la fase centrale del rispeakeraggio, che in entrambi i software, può contare su un livello di accuratezza nel riconoscimento vocale potenzialmente molto elevato. Per raggiungere tali livelli però la tecnologia necessita di essere supportata da un’ottima preparazione da parte del rispeaker. Quest’ultimo dovrà possedere tre tipi di competenze: fonetica, sintetica e psico-cognitiva. Dal punto di vista fonetico, il rispeaker deve poter essere in grado di pronunciare ogni singola parola nella maniera più chiara possibile evitando quelle che Savino et al. (1999: 2) chiamano ‘eventi non-lessicali’, cioè, sia

quelli che sono espressione di intenzionalità comunicativa (grounding, feedback, ecc). A questa categoria vengono solitamente attribuiti fenomeni quali gli allungamenti in finale di parola, le pause piene con vocalizzazione e con nasalizzazione, le nasalizzazioni e vocalizzazioni caratterizzate da particolari andamenti melodici; [sia] quelli non esprimenti intenzionalità comunicative, a cui appartengono fenomeni come la tosse, lo starnuto, lo schiocco di lingua, il raschiamento, ecc. (un colpo di tosse o uno starnuto non implicano necessariamente che il parlante intenda comunicare che è raffreddato).

Benché entrambi i programmi siano dotati di ausili linguistici che permettono loro di selezionare coppie minime in base al contesto, in alcuni casi l’omofonia può comportare un’erronea trascrizione. Sarà allora compito del rispeaker agevolare il software, laddove possibile, scandendo bene i confini tra le varie parole. Nel caso di ‘ha fatto’, il rispeaker dovrà pronunciare separatamente le due parole di modo che il programma non lo confonda con ‘affatto’.

Quanto all’aspetto sintetico, visto che generalmente il sottotitolo è di più lenta decodifica rispetto all’ascolto di un testo orale e considerato che i sordi hanno mediamente competenze linguistiche più deboli rispetto ai normoudenti[6], il rispeaker dovrà agevolare la comprensione del testo di arrivo tramite due espedienti: a) riordinando sintatticamente la sequenza di base più tipica dell’italiano, evitando il più possibile la subordinazione; ed eliminando molte delle figure di stile tipiche dell’italiano senza pertanto sconvolgere il contenuto del testo di partenza.

Dal punto di vista psico-cognitivo, infine, per la buona applicazione delle due competenze appena elencate, il rispeaker deve anche avere un’ottima gestione del carico cognitivo, dovendo ascoltare, ideare il testo di arrivo e pronunciarlo allo stesso tempo, nel pieno rispetto dei vincoli tecnologico e linguistico imposti dal contesto comunicativo. Infine, come nel caso dell’interprete di simultanea con cui le analogie sono peraltro notevoli, il rispeaker, mentre lavora, deve non solo controllare il flusso della sua stessa voce, ma anche cercare di non demoralizzarsi a causa della presenza di eventuali errori presenti nei sottotitoli, risultanti non solo da imperfezioni nell’input vocale, ma anche dal non perfetto funzionamento del software stesso.

Un’altra competenza che influenza il risultato finale è la familiarità del rispeaker con il genere audiovisivo da sottotitolare. Meno un rispeaker conoscerà un dato argomento, più difficile gli risulterà dare coesione e leggibilità ai sottotitoli. Questo è particolarmente vero per tutti i generi contenenti molti tecnicismi, per due ragioni fondamentali: a) il rispeaker farà molta più fatica sia nella fase di comprensione che in quella di produzione del testo d’arrivo rispetto al rispeakeraggio di un genere che invece conosce bene. Così facendo, aumenta lo sforzo che il rispeaker deve mettere in atto per produrre dei sottotitoli di qualità[7]; b) il software potrebbe risentirne in termini di accuratezza, in quanto il processo di riconoscimento del parlato viene rallentato dalla ricerca, da parte del software, di un termine che non è presente nel suo vocabolario. In questo caso, verrà scelto un termine foneticamente simile a quello dettato, ma semanticamente del tutto diverso. A tal proposito, Marsh (2005: 28) sottolinea che:

However well prepared a respeaker is before going on air, all manner of unexpected content can arise. If a respeaker doesn’t have the necessary vocabulary trained into his or her dictionary in advance, it is impossible to use it in the subtitles. For example, if a speaker is talking about the ‘Kyoto Treaty’ and ViaVoice’s dictionary does not contain it, it will produce something similar-sounding in its place, such as the ‘key auto treaty’. A respeaker, therefore, has to find a way of communicating the message without mentioning the problematic word itself. Unfortunately, each individual respeaker has to train in each individual word into his or her dictionary – there is no way of sharing vocabulary to reduce the workload.

La tecnologia consente un risparmio notevole in termini di tempo e costi di produzione dei sottotitoli. Il lavoro che un rispeaker deve svolgere, però, non si limita alla diretta. Ogni rispeaker infatti mira ad aumentare l’accuratezza del programma di riconoscimento del parlato che usa. Per fare ciò, quando non è in onda, il rispeaker fa uso di una serie di soluzioni tecnologiche volte proprio a esporre preventivamente il software alle possibili situazioni in cui si troverà in modalità real-time.

8. Conclusioni

Il rispeakeraggio è una recentissima tecnica di traduzione audiovisiva che si basa su una tecnologia non nuova, la cui applicazione dà vita alla produzione di sottotitoli in tempo reale, comportando vantaggi in termini di tempo e di costi per la formazione e il reperimento del personale. Nel tentativo di offrire una panoramica esaustiva sulla materia, sono state delineate le varie componenti: i generi testuali per cui viene utilizzato il rispeakeraggio, il potenziale pubblico dei sottotitoli in tempo reale, gli aspetti professionali che questo comporta, gli ausili informatici a disposizione del rispeaker e infine le competenze che quest’ultimo deve avere per poter soddisfare tutte le esigenze che questa tecnica richiede. Con queste brevi indicazioni, si è voluta proporre un’introduzione al rispeakeraggio, nel tentativo di gettare le basi per uno studio più approfondito di questa tecnica, che sta entrando sempre più insistentemente nell’interesse della comunità scientifica e accademica, oltre che delle emittenti televisive e della comunità sorda, tra le altre.

Riferimenti bibliografici

Caselli, M. C. Maragna, S. Pagliari Rampelli, L. Volterra, V. (1994). Linguaggio e sordità. Firenze: La Nuova Italia.

Eugeni, C. (in corso di stampa a). “Respeaking the TV for the deaf: for a real special needs-oriented subtitling”. Atti del Convegno della conferenza “Multidimensional translation: audiovisual translation scenarios”. Copenhagen, 1-5 maggio 2006, Gerzymisch-Arbogast, H. (ed.). Manchester: St. Jerome Publishing.

Eugeni, C. (in corso di stampa b). “Respeaking political debate for the deaf: the Italian case”. Baldry, A. Montagna, E. (eds.) Interdisciplinary perspectives on multimodality: theory and practice. Proceedings of the third international conference on multimodality. Campobasso: Palladino.

Evans, M. J. (2003). “Speech recognition in assisted live subtitling for television”. BBC R&D White Papers, WHP 065, London. http://www.bbc.co.uk/rd/pubs/whp/whp-pdf-files/whp065.pdf

Gile, D. (2003). “Justifying the deverbalization approach in the interpreting and translation classroom”. Forum 1:2. http://www.aiic.net/ViewPage.cfm/page1005.htm

Gottlieb, H. (in corso di stampa). “Multidimensional translation: semantics turned semiotics”. Atti del convegno della conferenza “Challenges of multidimensional translation”. Saarbrücken, 2-6 maggio, 2005, Gerzymisch-Arbogast, H. (ed.), Manchester: St. Jerome Publishing.

Jakobson, R. (1959). “On Linguistic aspects of translation”. On translation. Brower Reuben (ed.). Cambridge, Massachusetts: Harvard University Press.

Marks, M. (2003). “A distributed live subtitling system”. BBC R&D White Papers, WHP 070, London. http://www.bbc.co.uk/rd/pubs/whp/whp-pdf-files/whp070.pdf

Marsh, A. (2004). Simultaneous interpreting and respeaking: A comparison. Tesi di Master of Arts non pubblicata, University of Westminster.

Marsh, A. (2005). Interview with Alison Marsh. www.subtitleproject.net

Murry, A. (2005). Interview with Alannah Murry. www.subtitleproject.net

Ofcom, (1999). ITC Guidance on standards for subtitling, http://www.ofcom.org.uk

Savino, M. Refice, M. Cerrato, L. (1999). “Individuazione di correlati acustici per la classificazione di intenzioni comunicative nell’interazione uomo-macchina”. Atti del convegno AI*IA. Genova. http://ia.di.uniba.it

Note

[1] In realtà, a conoscenza dell’autore, nessun dizionario di lingua inglese menziona il termine ‘respeaking’, che è entrato, però, nel lessico quotidiano degli addetti ai lavori, dall’introduzione della tecnica a cui fa riferimento, nel 2001.

[2] http://www.bbc.co.uk/info/policies/subtitles.shtml (ultima visita 31 dicembre 2006).

[3] Sondaggio condotto dalla BBC dal 9 novembre al 3 dicembre 2004 su tutti gli utenti entrati in contatto con l’emittente per fornire feedback positivo o negativo in materia di sottotitoli intra-linguistici. Il documento è riservato e ad uso esclusivamente interno. L’autore del presente articolo è stato autorizzato a diffondere il dato in questione.

[4] Sondaggio condotto dalla BBC dal 9 novembre al 3 dicembre 2004 su tutti gli utenti entrati in contatto con l’emittente per fornire feedback positivo o negativo in materia di sottotitoli intra-linguistici. Il documento è riservato e ad uso esclusivamente interno. L’autore del presente articolo è stato autorizzato a diffondere il dato in questione.

[5] Informazioni tratte dall’intervista ad Alannah Murry, del subtitling department della BBC, in corso di stampa su www.subtitleproject.net

[6] Il rapporto tra le competenze dei sordi e quelle della popolazione udente varia a seconda dei paesi. Nel Regno Unito, il Royal National Institute of the Deaf sostiene che non vi sono grosse differenze e chiede quindi che il testo di partenza non venga troppo manipolato. L’ente britannico regolatore delle telecomunicazioni, Ofcom, chiede invece che vengano almeno rispettate le unità concettuali (cfr. Ofcom, 1999). In Italia, stando agli studi del Centro Nazionale delle Ricerche (cfr. Caselli et al., 1994) e alle recenti indagini sul campo svolte dalle università di Napoli Federico II e Bologna (cfr. Eugeni, a e b, in stampa), le competenze medie dei sordi italiani, sia in termini di comprensione del testo scritto che di velocità di lettura, sono notevolmente più basse rispetto a quelle medie dei loro coetanei.

[7] Cfr. Gile, 2003.

About the author(s)

English
Carlo Eugeni graduated at the Advanced School for Interpreters and Translators of the University of Bologna at Forlì (SSLMIT), in 2003. He has worked as a translator for FAO in Geneva and as a stagiaire and professional interpreter at the European Union, NATO, and on the Belgian and Italian free markets. He is now a PhD student in English for Special Purposes at the University of Naples Federico II and “expert in audiovisual translation” at SSLMIT. He teaches Multimedia Translation at the University of Macerata. As part of his PhD studies, he is participating in several projects relating to deafness and to the promotion and production of live subtitles by means of voice-to-text recognition technology. 

Italiano
Carlo Eugeni si è laureato alla Scuola Superiore di Lingue Moderne per Interpreti e Traduttori (SSLMIT) dell’Università di Bologna, sede di Forlì, nel 2003. Ha lavorato come traduttore per la FAO di Ginevra e ha svolto attività di stage e professionali come interprete presso l’Unione Europea, la NATO e il libero mercato belga e italiano. Attualmente, è dottorando in Inglese per Scopi Speciali presso l’Università di Napoli Federico II ed esperto della materia presso la SSLMIT. Insegna traduzione multimediale e audiovisiva presso l’Università di Macerata. Nel quadro delle sue attività di ricerca, è coinvolto in numerosi progetti sulla sordità e la promozione e la produzione di sottotitoli in diretta tramite riconoscimento del parlato.

Email: [please login or register to view author's email address]

©inTRAlinea & Carlo Eugeni (2006).
"Introduzione al rispeakeraggio televisivo"
inTRAlinea Special Issue: Respeaking
Edited by: Carlo Eugeni & Gabriele Mack
This article can be freely reproduced under Creative Commons License.
Permanent URL: http://www.intralinea.org/specials/article/1683

Go to top of page