I computer fanno oramai parte della vita quotidiana di tutti o quasi tutti noi, e non solamente nella loro accezione più classica. Dai telefoni cellulari fino alle plance di comando delle automobili, dagli elettrodomestici ai bancomat, ogni giorno ci troviamo a utilizzare strumenti basati sulla tecnologia informatica. Di fronte a questa dinamica, che non accenna certo a rallentare, l’esigenza principale è quella di disporre di interfacce semplici, di utilizzo immediato. La principale sfida di innovazione è allora quella di saper coniugare tecnologie emergenti con prodotti di uso quotidiano.
Ad oggi, diverse tecnologie hanno raggiunto un livello di maturità tale da poter semplificare, e di molto, l’utilizzo di dispositivi informatici diffusi. Tecnologie come quelle vocali e multimodali, che permettono cioè l’interazione mediante strumenti diversi, se adattate ai singoli bisogni e applicate su larga scala sono in grado di modificare il paradigma di relazione uomo-computer. Partendo dalle tecnologie text-to-speech, sistemi che permettono di convertire un documento di testo in parlato, raggiungendo livelli di prosodia assimilabili a quelli umani, fino ai sistemi di automatic speech recognition, mediante i quali un computer è in grado di decifrare direttive impartite da un essere umano, ricostruendone anche semantica e consecutio logica, la gamma delle soluzioni è piuttosto vasta. Sono tecnologie, queste, attualmente utilizzate in alcuni help desk pubblici, e che si auspica possano presto sostituire i risponditori automatici. Infine, i sistemi di speaker verification, che consentono l’identificazione univoca di una persona mediante lettura e analisi delle onde emesse dalla voce.
Certo, la penetrazione di tali tecnologie nell’uso comune pare piuttosto lenta, innanzitutto perché sconta una quota di diffidenza dovuta al parziale fallimento, negli anni ’90, dell’esperienza di alcuni portali di interfaccia con l’utenza allestiti dalle compagnie telefoniche. In secondo luogo, per la difficoltà di ingresso nel mercato a causa di costi tecnologici tuttora piuttosto elevati.
L’idea di DotVocal, nata nel 2004, è quella di soddisfare bisogni reali mediante l’utilizzo di sistemi tecnologici avanzati. Dimostrando che i campi di applicazione delle tecnologie vocali e multimodali sono davvero molti. Significativa è stata, in questo senso, la realizzazione di un sistema integrato audio-video per la gestione delle emergenze sanitarie. Il progetto, sviluppato in collaborazione con Technoaware, e che ha già visto conclusa la sua prima fase con una dimostrazione realizzata nel centro storico di Genova, nasce dalla necessità di ovviare alla scarsità di personale medico a disposizione sui mezzi di soccorso, con le conseguenti difficoltà di gestione degli interventi. Per questo prevede l’installazione sulle ambulanze di un computer che funga da ponte audio e video tra queste e la centrale operativa. Una piccola telecamera in dotazione al casco del personale paramedico di soccorso trasmette in tempo reale immagini relative alla situazione clinica dei feriti, in modo da consentire un intervento medico a distanza. Con la possibilità, nel prossimo futuro, di trasmettere anche i dati vitali dei pazienti, incrementando sensibilmente le probabilità di esito positivo del soccorso.
Un altro esempio è stata la realizzazione delle applicazioni vocali della prima Community Car al mondo, ideata e realizzata da Testawebedv del Gruppo Armando Testa, un vero e proprio portale vocale per tutti gli acquirenti della Lancia Ypsilon Blue & Me, attraverso il quale è possibile accedere ad informazioni sugli eventi delle principali città, scambiarsi messaggi vocali pubblici o privati, fare nuove amicizie, giocare a quiz con premi e accedere al proprio oroscopo quotidiano.
Anche per ciò che concerne l’interazione con i software più utilizzati, la tecnologia vocale offre diverse possibilità di semplificazione. È il caso ad esempio di un software per la lettura di testi realizzato per persone ipovedenti da DotVocal, una soluzione che sfrutta tecnologie quali il text-to-speech, consentendo la fruizione di documenti di testo nei formati più diffusi anche a persone inabili alla visione. Una seconda parte del progetto, in collaborazione con il CNR di Pisa, prevede la creazione di un plug-in che permetta la navigazione mediante i principali browser impartendo comandi esclusivamente vocali.
La vera sfida è dunque quella di rendere l’utilizzo dei dispositivi informatici sempre più intuitivo e immediato, progettando soluzioni che permettano agli utenti la più grande libertà di utilizzo possibile. Affinché siano i computer a doversi adattare al paradigma umano, e non il contrario.

Fabrizio Gramuglio, Programmatore in applicazioni vocali per DotVocal S.r.l.

scarica pdf