Natura non facit saltus

By Gian Paolo Trivulzio (Intersteno)

Abstract & Keywords

English:

Information tecnology has strongly influenced speech reporting techniques, especially with respect to stenotyping for real-time reporting. During the last 20 years high standards have been set, and qualified operators have been trained. A similar trend is now under way for speech recognition, mainly in Italy, Great Britain and the USA. Intersteno is intending to offer certification for this “new technology” too. With this purpose in mind Italy has proposed a first-ever real-time competition which will be held at the 2007 World Congress in Prague.

English:

L’informatica ha fortemente inciso sull’evoluzione delle tecniche di ripresa del parlato, particolarmente per quanto riguarda la stenotipia permettendo di ottenere in tempo reale la trascrizione di quanto viene detto. Per ottenere questo risultato sono stati necessari due decenni, stabilendo alti standard di riferimento e creando gli operatori necessari. Con questa realtà deve fronteggiarsi il riconoscimento del parlato, che sta subendo analoga evoluzione, come dimostrano le esperienze realizzate principalmente in Italia, Inghilterra e Stati Uniti. L’Intersteno costituisce il banco di prova e di certificazione anche per questa ‘nuova’ tecnologia: a questo scopo l’Italia ha proposto e gestirà una gara di ripresa del parlato in tempo reale, che si svolgerà per la prima volta al Congresso di Praga nel luglio 2007.

Keywords: resocontazione, resocontazione in tempo reale, intersensorial translation, intersteno, formazione degli interpreti, stenomask, scrittura alla tastiera, real time reporting, stenotyping, shorthand, keyboarding

©inTRAlinea & Gian Paolo Trivulzio (2006).
"Natura non facit saltus"
inTRAlinea Special Issue: Respeaking
Edited by: Carlo Eugeni & Gabriele Mack
This article can be freely reproduced under Creative Commons License.
Permanent URL: http://www.intralinea.org/specials/article/1690

1. L’evoluzione dell’arte della resocontazione

Negli ultimi dieci anni si sono moltiplicate le iniziative tese a capire, utilizzare e divulgare l’uso del riconoscimento del parlato. Questi sforzi sono stati particolarmente ardui in un settore specialistico qual è quello della resocontazione, ossia della produzione di atti (principalmente testi scritti) che si riferiscono ai lavori, svolti principalmente nella modalità orale, da assemblee quali i parlamenti nazionali, ragionali o comunali, da organismi giudiziari o ancora da associazioni e dai gruppi di persone più svariati riuniti in convegni, comitati e simili.

Fino all’avvento delle tecnologie di riconoscimento del parlato, le tecniche usate per il passaggio dal parlato allo scritto erano sostanzialmente due: la stenografia manuale (o grafica), e la stenotipia (ossia la scrittura abbreviata su una tastiera che permette di digitare sillabe anziché lettere isolate)[1]. Entrambi questi mezzi avevano comuni radici storiche e di esperienze, via via affinate nel tempo; entrambi, fino all’avvento del computer, necessitavano di un successivo passaggio di trascrizione delle note prese durante l’ascolto per ricavarne un testo scritto in caratteri ordinari.

E’ solo verso la metà degli anni settanta che si fece strada la decifrazione automatica delle note stenotipiche[2] che consentiva di saltare (o quanto meno notevolmente accorciare) la fase di trascrizione, fino a produrre una versione scritta del parlato praticamente in tempo reale. Oggi, con l’intervento di operatori adeguatamente allenati in termini di velocità e precisione di scrittura (oltre che dotati della necessaria cultura), è possibile ottenere la trascrizione pressoché immediata del parlato e, su questa base, anche la sottotitolazione in tempo reale ad uso di persone con problemi di udito o stranieri.

L’ottenimento di questo risultato non è avvenuto da un giorno all’altro, ma è stata la conseguenza di una serie di ‘messe a punto’ che sinteticamente possono essere riassunte come segue:

1 - adattamento e modifica dei vari codici di scrittura per evitare errori nei processi di riconoscimento del codice e della conseguente trascrizione (errori di questo tipo sono riconoscibili da chi conosce il sistema stenotipico utilizzato, ma sono altresì capaci di generare equivoco in chi legge);

2 - studio e miglioramento dei software di decrittazione delle battute stenotipiche, utilizzando sofisticati controlli linguistici (anche definiti di ‘intelligenza artificiale’) per assicurare una ricostruzione precisa[3];

3 - perfezionamento dei percorsi formativi per l’insegnamento della tecnica stenotipica per rendere l’addestramento più efficace e rispondente alle esigenze di rapidità ed economicità conseguenti alle evoluzioni nella diffusione dell’informazione radio-televisiva e successivamente elettronica.

Come si è visto, circa trent’anni sono stati necessari dalla primitiva idea di avere le note stenotipiche trascritte perché l’applicazione della tecnologia diventasse uno standard di fatto. Gli studi sul riconoscimento del parlato muovono i primi passi all’inizio degli anni novanta, quando la trasformazione del suono in digitale ne permette l’elaborazione, in varie forme, da parte del computer. E’ comunque soltanto intorno alla metà dello stesso decennio che il riconoscimento del parlato non richiede più che le single parole siano pronunciate in modo staccato (tecnicamente definito discreto) per essere riconosciute dal software, ed ha inizio il riconoscimento del parlato naturale che ha contraddistinto e dato fortuna per primo al ben noto programma Dragon NaturallySpeaking.

2. L’esperienza italiana

Tralasciando in questa sede sofisticate analisi storiche e rivendicazioni di priorità nello sviluppo delle idee, il mondo della resocontazione italiana è entrata in contatto con la nuova tecnologia nel 1995, quando Gianni Lazzari, in un intervento all’Accademia Aliprandi di Firenze, delineò lo stato dell’arte e le possibili implicazioni pratiche in base agli studi ed ai risultati pratici di un software messo a punto dall’Istituto Trentino di Ricerca ed orientato ad un riconoscimento indipendente dal parlatore. Lo stesso Lazzari presentò analoga relazione al Congresso Intersteno di Amsterdam, nel luglio 1995.

Fu grazie a queste presentazioni che l’autore e alcuni altri studiosi decisero di studiare come la tecnologia del riconoscimento del parlato potesse essere utilizzata nel settore della resocontazione, anche con l’aiuto di una società attiva in questo settore[4] le cui operatrici utilizzavano tutte e tre le tecnologie stenotipiche esistenti in Italia e per le quali erano stati messi a punto anche percorsi formativi e aggiornamenti sulle procedure informatiche.

All’epoca, molte erano le limitazioni dell’hardware, prima ancora che del software[5], con un impatto notevole sulla facilità e la sicurezza di utilizzo della tecnologia di riconoscimento del parlato e risultati che spesso smentivano i tranquillizzanti messaggi pubblicitari riportati sulle confezioni dei primi programmi in commercio.

Queste asperità, diminuite nel tempo principalmente grazie all’evoluzione delle prestazioni dei computer (anche portatili), non hanno tuttavia impedito di dimostrare (nel 2001 anche presso il Senato della Repubblica) che il riconoscimento del parlato, anche in un settore specialistico quale quello della resocontazione, può dare un suo notevole valore aggiunto, oltre che trasferire nella fase della formazione le esperienze conseguite dal gruppo di studiosi già menzionato nell’intento di evitare ad altri inutili perdite di tempo o di motivazione[6].

I risultati di queste esperienze sono stati diffusi sia in Italia[7] che in incontri all’estero[8]. Nel 2000 l’autore, in una competizione in Svizzera, ha ripreso e consegnato la trascrizione di un testo orale a 320 sillabe al minuto (mediamente pari a 135 parole italiane al minuto[9]) con l’aiuto di un computer portatile la cui memoria limitata (pur essendo stata portata a 128 Mb e quindi raddoppiata rispetto a quanto suggerito dalla casa produttrice del software) richiese un’attesa di quasi un minuto dopo il termine della dettatura prima di riuscire a visualizzare l’intera trascrizione.

Nel 2001 la Camera dei Deputati, dopo un periodo di sperimentazione, decise di sostituire gli stenografi in aula con documentariste. Esse producono il resoconto trascrivendo con il riconoscimento del parlato le registrazioni audio di tipo analogico, e completandolo con gli appunti realizzati assistendo alla seduta in Aula. Gli stenografi effettuano poi la revisione del resoconto così realizzato [10]. Esperimenti analoghi furono pure svolti dal Senato Italiano per l’uso della tecnologia di riconoscimento del parlato in abbinamento alla registrazione digitale. Sempre con il riconoscimento del parlato, vengono ormai svolti servizi di resocontazione in out-sourcing per diverse amministrazioni romane.

3. L’esperienza in altri paesi europei e negli Stati Uniti

Purtroppo il mondo della resocontazione rappresenta un settore di nicchia e quindi riveste solo un limitato interesse economico per le grandi multinazionali del settore del riconoscimento del parlato. E’ questo uno dei fattori che spiegano il ritardo con cui, in diversi paesi europei, si è scoperto che il riconoscimento del parlato poteva essere, quanto meno, una valida alternativa ad altri sistemi tradizionali di trascrizione.

Occorre anche considerare che, all’infuori della Francia (metodo Grandjean), dell’Italia (metodi Michela, Melani, Mael-Gornati e di qualche limitato utilizzo in Olanda e Belgio con Velotype/Veyboard[11] e di altre piccole eccezioni, in Europa la tecnologia stenotipica era ed è praticamente assente nella resocontazione professionale dei parlamenti e delle aule di giustizia. Come appena accennato, le uniche eccezioni riguardano Germania e Svizzera. L’esperienza della Pretura di Mendrisio (Ticino), ormai conclusa, è rimasta un fatto isolato. Al Parlamento della Bassa Sassonia con sede ad Hannover[12] pochi operatori usano un adattamento tedesco della macchina Stenotype collegata al computer. In questo caso, il riconoscimento del parlato viene comunque utilizzato in sostituzione della scrittura al computer per la stesura definitiva, in quanto la ripresa avviene con la stenografia tradizionale. Recentemente, in Germania è stata inoltre introdotta la tecnologia Dragon NaturallySpeaking su una rete di circa 3000 computer nei tribunali per migliorare la produttività nella preparazione di documenti giudiziari, senza tuttavia addestrare resocontisti per il resoconto in tempo reale.

Diversa, ma per altri aspetti analoga, è la situazione negli Stati Uniti dove, grazie alle evoluzioni già accennate, il mercato è stato ed è ancora dominato dalla tecnologia stenotipica. Vi operano oltre 60.000 resocontisti ed esiste una forte richiesta di servizi in tempo reale sia per la resocontazione giudiziaria (che costituisce la parte più rilevante del mercato), sia per la televisione, per la quale la legge prescrive livelli minimi di sottotitolazione. Questo predominio della stenotipia spiega il relativo ritardo nell’affermazione del riconoscimento del parlato, utilizzato negli USA solo dal 1998, soprattutto fra i resocontisti dei tribunali militari. Soprattutto in quella sede si utilizza una speciale forma di resocontazione mediante dettatura ad un registratore, la stenomask[13], inventata proprio per soddisfare questa specifica esigenza. La competizione fra le due tecnologie è ancora fortissima.

Tenuto anche conto delle previsioni secondo cui circa il 50 % degli stenotipisti oggi attivi negli USA abbandonerà l’attività entro il 2010 per motivi di età, il riconoscimento del parlato sta sempre più prendendo piede, anche se la competizione tra stenotipisti e voice writer è ancora agguerrita. Si tratta di superare non soltanto situazioni storiche ma anche disposizioni legislative che nel tempo sono state create dai vari stati federali, sotto la spinta della tenace attività della potente NCRA (National Court Reporters Association), l’associazione che rilascia le certificazioni necessarie per svolgere attività professionale, principalmente per i free-lance nel settore della resocontazione giudiziaria. Grazie alle evoluzioni tecnologiche e didattiche, queste certificazioni includono oggi anche la resocontazione in tempo reale.

4. La resocontazione in tempo reale e la formazione degli operatori

La resocontazione in tempo reale, intesa come capacità di riprodurre fedelmente il discorso di un oratore a qualsiasi velocità di eloquio è sempre stata l’obiettivo dichiarato di tutte le tecnologie sperimentate. I risultati delle competizioni ai campionati mondiali Intersteno documentano questo impegno da almeno cinquant’anni. Prestazioni di spicco (fino a 200 parole italiane al minuto) sono state raggiunte con tutte le tecnologie, stenografia compresa[14], qualora utilizzate da abili operatori. Va da sé che non tutti i resocontisti, pur disponendo di strumenti avanzati, ambiscono a svolgere l’attività in tempo reale, così come non tutti i traduttori vogliono fare gli interpreti di simultanea.

E’ in ogni caso indubbio che le esigenze di rapida diffusione delle informazioni a mezzo radio, televisione ed oggi Internet stimolano e condizionano il settore della resocontazione che, per rimanere al passo coi tempi, deve sempre di più tendere a una produzione in tempo reale. E’ questa la grande scommessa, ma anche l’opportunità offerta al riconoscimento del parlato, sia esso utilizzato tramite l’intermediario di un resocontista, sia per trascrivere direttamente il parlato di un oratore.

Tralasciando per il momento il grande ed affascinante sogno della trascrizione automatica, è indubbio che il successo in questa ambiziosa gara è oggi basato su tre importanti fattori:

1. la capacità di raggiungere in termini di velocità e precisione almeno gli stessi risultati delle altre tecniche (stenotipia in particolare);

2. il miglioramento ed aggiornamento dei software per affrontare le varie situazioni operative (ad esempio tele-lavoro) [15];

3. l’individuazione di percorsi specifici per formare gli operatori in tempi ragionevoli[16].

Per quanto riguarda tecniche non strettamente volte alla produzione di un testo scritto in tempo reale, sia esso un sottotitolo o una trascrizione, il resocontista tradizionale è in grado di far fronte alle più svariate situazioni senza particolari difficoltà tecniche. Ciò riguarda in particolare la creazione di testi da utilizzare immediatamente dopo la loro produzione, senza contemporanea visualizzazione a beneficio di terzi (promemoria per redigere sentenze, informazioni per la stampa, resoconti assembleari da rendere disponibili direttamente a fine seduta e simili). Un’altra applicazione è la modalità CART (Communication Access Real-Time Transcription). Tale modalità (quale sussidio, tra l’altro, agli studenti con problemi di udito) prevede la presenza di un operatore in aula che trascrive la lezione, prodotta con l’aiuto della stenomask. Il risultato di questo processo di trascrizione può essere visualizzato direttamente su un computer portatile (se gli utenti sono solo uno o due) oppure essere proiettata su uno schermo più grande, a beneficio di un’intera platea. Il sistema consente, tra l’altro, di visualizzare sullo schermo a scelta singole righe o interi paragrafi, diminuendo nel secondo caso la necessità per l’utente di concentrarsi ininterrottamente sulle parole che si avvicendano velocemente sullo schermo, come con la sottotitolazione tradizionale. La trascrizione così prodotta ovviamente può essere anche stampata come pro memoria o costituire la bozza per un’ulteriore elaborazione.

Le qualità richieste al resocontista che opera in queste varie modalità di trascrizione sono elevate e sostanzialmente analoghe a quelle necessarie per la sottotitolazione in tempo reale, dalla scontata capacità di comprensione di quanto pronunciato dall’oratore, alla sua corretta trascrizione (gli standard americani per un resocontista in real-time richiedono una precisione superiore al 95%) alla capacità di sfruttare al meglio il software utilizzato. A tal proposito è anche possibile che venga richiesto all’operatore di correggere, se necessario, la trascrizione in tempo reale per quanto concerne ad esempio termini non contenuti nel dizionario o nomi propri.

L’abilità di effettuare resoconti in tempo reale (non importa se con stenotipia o riconoscimento del parlato) non si acquisisce in pochi minuti, ma va costruita con pazienza e dedizione, così come non si diventa in poche ore interpreti di simultanea, pur partendo in entrambi i casi da un’ottima conoscenza delle lingue di lavoro. La professionalità, nell’una e nell’altra modalità, richiede tempi molto più lunghi di quelli necessari per imparare a usare l’una o l’altra tecnica. Messaggi pubblicitari secondo cui, nel caso del riconoscimento del parlato, dopo dieci minuti di addestramento (o addirittura senza averne alcun bisogno), il computer sarebbe in grado di riprodurre la voce umana con una precisione anche del 97/98% rischiano di ingenerare, in chi vuol servirsi di questa tecnica per la resocontazione, l’erronea idea che dopo le poche ore necessarie ad impadronirsi delle principali funzionalità del software, un resocontista improvvisato possa andare in un’aula di tribunale, università o assemblea e ottenere lo stesso risultato dei professionisti.

Molti stanno cercando di spiegare che non è proprio così: Linda Drake, presidente della National Verbatim Reporters Association (NVRA)[17], associazione che raggruppa i professionisti del riconoscimento del parlato (o voice writer) statunitensi, mette in guardia da facili entusiasmi e ricorda che gli innegabili progressi in questo campo sono dovuti sì all’informatica, ma anche e soprattutto alla professionalità di chi, grazie alle propria esperienza e alle conoscenze maturate nel corso degli anni, insegna ai futuri professionisti come ottenere tali risultati. In effetti, questa esperienza ha già generato numerosi percorsi formativi[18]: per l’inglese americano ad esempio quelli resi disponibili on-line da Audioscribe[19] e da Voice-ed[20]. E’ significativo ricordare che Stenograph, la più importante ditta americana produttrice di hardware e software per la stenotipia e relativi programmi di apprendimento, ha aperto la sua banca di registrazioni digitali per esercitazioni (la Stenograph University Online) anche a chi pratica il riconoscimento del parlato[21].

L’ultimo strumento formativo in ordine di tempo, distribuito dalla NVRA, è stato messo a punto da Bettye Keyes, esperta voice writer. Il tempo dichiarato per raggiungere i primi risultati professionali in real-time è di 90 giorni, equivalenti secondo gli standard americani a 720 ore di formazione. L’addestramento all’uso di Voice-ed viene invece descritto da Kaufman (2005)come segue:

It’s not difficult, but it’s not magic either. You will have to put in some effort. How long it takes to complete a realtime voicewriting course of study depends on many factors. A few motivated individuals may be able to become proficient in six months. The average time for most individuals to become average speech recognition voicewriters is estimated to be about a year. To become highly skilled and knowledgeable in all aspects of a career like broadcast captioning is likely to take somewhat longer. Factors that influence the length of time to course completion and development of competency include:

  •  A person’s existing level of competency with computers
  •  A person’s existing speech and language skills
  •  The structure of the program followed and the material studied
  •  The motivation and discipline of the student
  •  The amount of time the student dedicates to study and practice on a daily basis
  •  The guidance of competent instructors or assistance of knowledgeable mentors.

Senza entrare in valutazioni di ordine filosofico o pedagogico, si può certamente concludere che, come in ogni altro settore, anche nella resocontazione in tempo reale la professionalità non si acquisisce in breve tempo. Di sicuro interesse sarebbe la condivisione di esperienze, di modo da poter superare le problematiche ancora irrisolte e razionalizzare il processo di apprendimento.

Questo scambio di idee potrebbe utilmente coinvolgere anche esperti di altre discipline, come ad esempio chi insegna le tecniche di traduzione simultanea, agevolando così lo scambio di osservazioni e stimolando la ricerca. Basti un esempio per illustrare punti di contatto potenzialmente molto interessanti. In un articolo sulle premesse neurolinguistiche dell’interpretazione simultanea si legge che:

In compiti verbali di attenzione divisa, in particolare nell’interpretazione simultanea, soggetti non allenati tendono a spostare l’attenzione, alternandola tra il messaggio in LS [lingua sorgente; n.d.r.] e quello in LA [lingua d’arrivo; n.d.r.], nonché ad aumentare l’intensità vocale. (Gran 1999: 224)

Colpisce il fatto che un analogo fenomeno di aumento dell’intensità vocale è riscontrabile, quasi senza eccezioni, anche nell’addestramento ad una rapida comprensione e riproduzione del parlato, presumibilmente in quanto l’allievo tende a concentrarsi più su quanto sta dicendo che su quanto sta ascoltando, aumentando di conseguenza il volume della propria voce. Questo aumento, tra l’altro, è in contrasto con l’esigenza (in particolare quando si utilizza la stenomask) di mantenere un tono di voce omogeneo e praticamente inudibile anche da chi sta vicino al resocontista. Da qui nasce l’esigenza per la didattica di ideare opportuni suggerimenti ed esercizi correttivi.

Un altro campo di ricerca interdisciplinare è quello della riformulazione del pensiero espresso, non sempre in modo chiaro, dall’oratore. Adeguati esercizi, potenzialmente analoghi a quelli proposti nell’insegnamento delle lingue o dell’interpretazione, sono anche qui necessari ed auspicabili, specie quando si devono produrre testi destinati a persone con problemi di udito.

Come si vede, il dibattito potrebbe abbracciare molti aspetti cruciali sia per la qualità della formazione che per il risultato pratico finale.

5. Gli standard di riferimento

Mentre negli USA esistono organismi professionali che hanno da tempo stabilito standard di riferimento per valutare la professionalità degli operatori[22], in Europa tali valutazioni hanno tradizionalmente fatto riferimento ai campionati Intersteno. La Federazione Intersteno, nata a Londra nel 1887, si è sempre mantenuta al passo coi tempi, migliorando le formule di gara e valutando attentamente i risultati conseguiti. Da anni prendono parte a queste competizioni anche resocontisti americani, australiani, argentini.

Forti delle esperienze realizzate in Italia nel riconoscimento del parlato, il Comitato Organizzatore del 44° Congresso Intersteno tenutosi a Roma nel luglio 2003[23] propose al Comitato Centrale di ammettere alla gara di ripresa del parlato anche il riconoscimento del parlato, a pari dignità con le altre tecnologie[24].

La proposta suscitò molte obiezioni, ma grazie all’energica azione di Fausto Ramondelli, all’epoca Presidente di Intersteno, si riuscì ad abbattere il muro di paura e incomprensioni. Già nella seduta inaugurale di quel congresso ci fu una dimostrazione pratica, con proiezione su grande schermo della ripresa in tempo reale di un intervento ad opera di una resocontista presenta in sala provvista di stenomask. Al termine fu presentato, per migliore comprensione degli italiani, anche la ripresa dello stralcio di un discorso al Senato[25].

Per la prima volta si tenne anche una competizione con l’uso del riconoscimento del parlato, vinta da Verruso con il risultato di 380 sillabe (oltre 160 parole italiane al minuto). Lo stesso Verruso avrebbe poi ripetuto questo successo a Vienna nel 2005, conseguendo il titolo di campione mondiale e riuscendo a seguire la dettatura fino alla velocità di 393 sillabe (pari a circa 180 parole italiane al minuto).

Ancora nel 2003 a Roma i produttori di software CAT per la decrittazione delle note stenotipiche (tutti americani) non prendevano in seria considerazione il riconoscimento del parlato, per il quale era, ed è in atto, negli Stati Uniti una notevole battaglia (come accennato sopra). Al Congresso di Vienna del 2005 (quindi soltanto due anni dopo) invece, le stesse aziende hanno tutte esposto e dimostrato soluzioni che integrano questa tecnologia, usufruendo in tal modo dell’esperienza stenotipica, in particolare per quanto riguarda la razionalizzazione del processo di produzione del resoconto.

A Roma Intersteno confermava così, nei fatti, che i campionati mondiali costituiscono il banco di prova per una realistica ed indipendente valutazione sia delle tecniche adottate, sia delle capacità individuali e che i sogni vagheggiati otto anni prima da pochi pionieri erano diventati realtà tangibile. Sulla base di queste certezze, maturate nel tempo, il gruppo italiano ha recentemente proposto di trasformare la competizione di trascrizione rapida (che prevedeva la consegna del risultato entro un lasso di tempo pari a tre volte quello del discorso trascritto) in trascrizione in real-time. La prima edizione di questa competizione si terrà in occasione del Congresso Intersteno di Praga del 2007. Il regolamento prevede che al termine della ripresa il partecipante consegni immediatamente (in formato elettronico) il testo realizzato con la tecnologia di sua scelta. La classifica, come già a Vienna nel 2005, sarà unica per tutte le tecnologie (riconoscimento del parlato, stenotipia, tastiera veloce ecc.) per meglio confrontarne le caratteristiche.

La formula proposta prevede una dettatura a velocità progressiva per otto minuti, al termine dei quali si raggiunge per la lingua italiana una velocità pari a 130 parole al minuto nonché l’obbligo di rimanere all’interno di penalità che mediamente si aggirano intorno al 3% riferite a gruppi di tre minuti di gara (per impedire che un risultato di massima precisione nei minuti iniziali possa consentire una minore precisione nei minuti a velocità più elevata; cfr. la tabella nell’allegato).

Sarà questa una grande opportunità per dimostrare ancora una volta la possibilità non solo teorica di raggiungere una velocità di trascrizione immediata di 130 parole al minuto con precisione superiore al 97% senza alcuna correzione successiva. Per la squadra italiana è una scommessa ed un auspicio, con un pensiero già al 2009, quando a Pechino entreranno nell’agone della resocontazione in tempo reale anche il riconoscimento vocale e la stenotipia cinesi.

Riferimenti bibliografici

Aliprandi, C. (2003). “Soluzioni basate su tecnologie del linguaggio naturale per la trascrizione posticipata e in tempo reale”. Atti del 44° Congresso Intersteno, Roma 15-19 luglio 2003. Firenze: Fondazione Giulietti, 82.

Corti Crippa, M. L. (2000). “Dalla voce allo scritto con la voce”. Atti del Convegno di Bellinzona, 19:1 (aprile). Il Punto. Rivista dell’Associazione ticinese docenti di stenografia, dattilografia e buromatica.

Corti Crippa, M. L. (2001). “Esperienze didattiche nell’insegnamento del riconoscimento del parlato”. Relazione al congresso Intersteno, Hannover 2001.
http://www.intersteno.it/materiale/relazitalhann/crippa_it.pdf (ultimo accesso 28.12.2006).

Fabi, F. (2001). “Old and new blended: Shorthand and speech recognition software”. Rapport Final du 42e Congrès mondial Intersteno. Lausanne, 14-17 juillet 1998, 48.

Gran, L. (1999). “L’interpretazione simultanea: premesse di neuro-linguistica”. Falbo, C. Russo, M. Straniero Sergio, F. (a cura di) Interpretazione simultanea e consecutiva - Problemi teorici e metodologie didattiche. Milano: Hoepli, 207-227.

Kaufman, P. A. (2005). “Realtime voicewriting education”. Relazione al 45°. Congresso Intersteno , Vienna 2005. http:/org.intersteno.it/materiale/ConferencesVienna2005/Kaufman2005.ppt (ultimo accesso 28.12.2006).

Kistler, W. Spencer, V. (2004). “Newrite: The Ultimate Steno. Writing at the Speed of Thought”. http://www.stenotrust.org/PDFs/Newrite%20Workbook.pdf (ultimo accesso 28.12.2006).

Lazzari, G. (1995). “Final report of the Intersteno Congress - Amsterdam 1995”. (Versione elettronica su dischetto in possesso dell’autore).

Patrizi, G. (1998). “On Line recognition in machine readable form of stenographic transcripts”. Rapport Final du 42e Congrès mondial Intersteno. Lausanne, 14-17 juillet 1998, 50.

Raffaelli, R. (2003). “Trattamento automatico della lingua e disabilità”. Quaderno di Telèma Le macchine che capiscono. Media 2000 n.208, XXI-6, 13, 2003, 103-106. Roma: Fondazione Bordoni. http://www.fub.it/repository/telema/testi/n_208.pdf (ultimo accesso 28.12.2006).

Stehling, J. (2003). “Stenografie und Spracherkennung bei der parlamentarischen Berichterstattung”. Atti del 44° Congresso Intersteno, Roma 15-19 luglio 2003. Firenze: Fondazione Giulietti, 98.

Trivulzio, G. P. (2001). L’evoluzione tecnica da Tirone al riconoscimento del parlato. Accademia Aliprandi, 24 marzo 2001; http://www.accademia-aliprandi.it/ > Rivista “Specializzazione” > Articoli pubblicati on-line (ultimo accesso 28.12.2006).

Trivulzio, G. P. (2003). “La stenotipia e l’elaborazione elettronica”. Quaderno di Telèma La rendicontazione? Automatica, ma…. Media 2000 n.210, XXI-8, 10, 2003, 70-72. Roma: Fondazione Bordoni. http://www.fub.it/repository/telema/testi/n_210.pdf (ultimo accesso 28.12.2006).

Trivulzio, G. P. (2006). “Kurzschrift auf der Tastatur”. Archiv für Kurzschrift, Textverarbeitung, Bürotechnik. Bayreuth (Germania): Forschungs- und Ausbildungstätte für Kurzschrift und Textverarbeitung (September), 6. Versione inglese: “Steno, typewriting and keyboarding”. (ultimo accesso: 28.12.2006).

Zorzi, S. (2001). “Relazione sull’utilizzo della tecnica del riconoscimento vocale nella redazione dei resoconti integrali di base dei lavori della Camera dei deputati”. Relazione al Congresso Intersteno, Hannover 2001. http://www.intersteno.it/materiale/relazitalhann/zorzi_it.pdf (ultimo accesso: 28.12.2006).

Note

[1] Per maggiori dettagli sui numerosi studi relativi all’utilizzo della tastiera della macchina da scrivere per la stenotipia, campo in cui gli italiani sono stati all’avanguardia, si veda Trivulzio (2006).

[2] Cfr. Trivulzio (2003).

[3] I due miglioramenti sono il frutto delle esperienze pratiche e della loro codificazione e divulgazione. In Italia, il prof. Marcello Melani realizzò intorno agli anni settanta una tecnica stenotipica che, utilizzando speciali combinazioni per indicare le vocali finali di parola, consentiva una più semplice decrittazione da parte del computer, senza necessità di dizionari. Il prof Graziano Gornati ideò nello stesso periodo, una teoria per lo stenoterminale Mael, con tastiera ergonomica ed ampio dizionario. L’esatta decrittazione delle parole, anche se notevolmente abbreviate, era basata su sofisticate logiche linguistico-stenografiche.

[4] Dettoscritto s.r.l. era all’epoca un’impresa con 20 operatori, ognuno dei quali disponeva di una postazione di lavoro in sede, collegate in rete. Gli operatori utilizzavano prevalentemente la tecnica Michela (tuttora in uso al Senato della Repubblica) associata ad un programma CAT (Computer Aided Transcription) realizzato dalla Koinè Sistemi di Torino, testato ed implementato dalla stessa Dettoscritto. All’organico originario si sono poi aggiunte operatrici in grado di servirsi della tecnica stenotipica Melani e di quella Mael-Gornati, per la quale sono stati realizzati anche alcuni adattamenti per un uso più pratico in collegamento con il computer.

[5] Un computer con processore 386 aveva una memoria di 16 Mb, e l’inserimento di una scheda sonora era considerato all’epoca ancora un optional.

[6] Sono stati organizzati corsi di formazione dalla A.S.For di Milano - l’ultimo, nel 2003, con particolare attenzione alla produzione di sottotitoli.

[7] Cfr. Trivulzio (2001).

[8] Cfr. Corti Crippa (2000) e (2001).

[9] La precisazione ‘parole italiane’ è d’obbligo in quanto i parametri americani sono riferiti a parole in lingua inglese, in media composte da 1,5 sillabe, mentre le parole italiane mediamente ne contengono 2,25. Di conseguenza il numero di fonemi pronunciati in un minuto in presenza del medesimo numero di parole è diverso da lingua a lingua: a 160 parole inglesi corrispondono all’incirca 240 sillabe, a 130 parole italiane invece ben 292,5 sillabe.

[10] Cfr. Zorzi (2001) e Fabi (2001).

[11] La macchina Velotype (oggi Veyboard) fu concepita una ventina di anni fa: collegata al computer, velocizza la scrittura utilizzando una tastiera che consente di scrivere sillabe ortografiche mediante la pressione di più tasti. Per ulteriori informazioni (in neerlandese) si veda http://www.veyboard.nl/

[12] Cfr. Stehling (2003).

[13] La stenomask è una maschera a bocca con microfono incorporato utile per la registrazione sotto dettatura in ambienti non insonorizzati. Per maggiori informazioni si veda
http://www.nvra.org/displaycommon.cfm?an=1&subarticlenbr=9

[14] Gli studi sulla trascrizione dei segni stenografici fino a questo momento non hanno però conseguito risultati pratici. Un rapporto in tal senso è stato presentato al Congresso Intersteno di Losanna nel 1998 da Giacomo Patrizi dell’Università di Roma La Sapienza (Patrizi 1998) Per il prossimo Congresso Intersteno è stata annunciata la presentazione, ad opera dello svizzero-americano Walter Kistler, di un sistema stenografico, utilizzato in India, per il quale è stata realizzata un’apposita tastiera e che dovrebbe consentire la trascrizione in tempo reale (Kistler & Spencer 2004).

[15] Le problematiche tecniche e manageriali sono state approfondite in un progetto internazionale a cui hanno partecipato Spagna, Portogallo, Grecia, Svizzera ed Italia. Si veda anche http://www.evirtualwork.net/in/default_in.htm

[16] Un percorso formativo studiato per la Regione Lombardia è documentato all’indirizzo http://www.telelavoro-lombardia.com/

[17] http://www.nvra.org/

[18] Cfr. Kaufman (2005). Si veda anche http://www.nvra.org/

[19] http://www.audioscribe.com/

[20] http://www.voice-ed.com/

[21] http://www.stenographu.com/

[22] La NVRA prevede per la azione real-time una prestazione su 5 minuti di testo a 180/200 parole inglesi al minuto, con il 96% di precisione.

[23] Negli atti del Congresso Intersteno di Roma 2003 si segnalano per la pertinenza con il tema trattato le relazioni di Aliprandi e di Stehling.

[24] E’ da rilevare che nel frattempo si veniva attenuando la tradizionale ripartizione tra la stenografia/stenotipia per la ripresa del parlato e della dattilografia (scrittura alla tastiera) per la sola produzione di testi. Infatti, grazie all’avvento dei programmi di elaborazioni testi, diversi esperti ed operatori hanno reso ancora più veloce la scrittura alla tastiera, riducendo (con varie tecniche) il numero di digitazioni necessarie. Operatori particolarmente abili riescono così a raggiungere risultati simili a quelli delle altre tecnologie, senza necessità di utilizzare specifiche tastiere (cfr. Trivulzio 2006). Un progetto che utilizza logiche similari, anche se con un obiettivo focalizzato soprattutto a facilitare i disabili è stato sviluppato dalla Synthema di Pisa (cfr. Raffaelli 2003), in collaborazione con il Politecnico di Milano.

[25] I resocontisti impegnati in questa dimostrazione erano Suzette Magee (USA) e Attilio di Nepi, il relatore Chad Theriod della Audioscribe (USA).

Allegato

Proposta di regolamento per la gara in tempo reale al Congresso Intersteno, Praga 2007

17.1 Kind of competition
Participation at this competition is possible with shorthand, steno machines, fast PC keyboarding or stenomask.

No split between technologies will be made for the classification list therefore in the general classification list there will be only an indication of the technology used by the competitor.

The Real time competition consists of taking an eight-minute dictation with increasing speed and delivering the text immediately after the end of dictation, without any additional correction.
The speed of the minutes will be according the following table. The columns are related to the translation of the basic texts as per point 15.1.                                                                               

Columns I II III IV V VI
Increase per minute 16 17 18 19 20 21
1.Minute 148 151 154 157 160 163
2.Minute 164 168 172 176 180 184
3.Minute 180 185 190 195 200 205
4.Minute 196 202 208 214 220 226
5.Minute 212 219 226 233 240 247
6.Minute 228 236 244 252 260 268
7.Minute 244 253 262 271 280 289
8.Minute 260 270 280 290 300 310
Total 1632 1684 1736 1788 1840 189

Participants must deliver their transcript on a diskette, cd-rom, or flash memory, according to the procedure indicated in article 4 above.

La tabella qui sopra indica la velocità progressiva degli otto minuti di gara, le colonne si riferiscono al numero di sillabe risultanti dalla traduzione del testo base (in lingua inglese - colonna uno) nelle lingue dei concorrenti.

L’italiano di solito si colloca in una delle colonne 5 o 6, con una velocità all’ottavo minuto di circa 130 parole.

La precisione richiesta è superiore al 95% e viene calcolata per ogni tranche di 3 minuti, in modo che non sia possibile trarre vantaggio da un limitato numero di errori nei minuti di gara a velocità inferiore.

E’ anche possibile classificarsi ad una velocità inferiore, ma non è comunque consentito trarre vantaggio da questo anticipato arresto per apportare correzioni al testo trascritto.

About the author(s)

Nota biografica
Gian Paolo Trivulzio ha partecipato a numerosi progetti sul riconoscimento del parlato finanziati dal Fondo Sociale Europeo e dalla Regione Lombardia. È membro del comitato scientifico di Intersteno e Vice Presidente dell’Accademia “Giuseppe Aliprandi”.
Biographical note
Gian Paolo Trivulzio has participated in several projects on speech recognition sponsored by the European Social Fund and by the regional government of Lombardy (Italy). He is a member of the Intersteno scientific committee and vice president of the Academy “Giuseppe Aliprandi”.

Email: [please login or register to view author's email address]

©inTRAlinea & Gian Paolo Trivulzio (2006).
"Natura non facit saltus"
inTRAlinea Special Issue: Respeaking
Edited by: Carlo Eugeni & Gabriele Mack
This article can be freely reproduced under Creative Commons License.
Permanent URL: http://www.intralinea.org/specials/article/1690

Go to top of page