Cos’è il Text to speech TTS

Text to speech (dal testo al parlato in inglese, spesso abbreviato in TTS) è il nome generico dato ad una serie tecnologie di sintesi vocale ovvero capaci di leggere con una voce umana sintetizzata un testo scritto, riproducendo i suoni corrispondenti al testo. Le parole sintetizzate vengono create mediante la concatenazione di parole base registrate e salvate in un database. Naturalmente questi database devono contenere tantissimi dati, e quindi hanno dimensioni notevoli, anche arrivando nell’ ordine dei Gigabytes, ovvero circa 12 ore di parole sintetizzate.
I software TTS possono in genere usare diverse voci fittizie, maschili o femminili, e leggere il testo a diverse velocità, secondo i desideri dell’utente. In base alla punteggiatura o agli accenti, l’ intonazione e la pronuncia della singola parola varia; ad esempio se dopo una parola si mette un punto, questa viene interpretata come l’ultima parola di una frase e la pronuncia cambia di conseguenza, inserendo anche una piccola pausa dopo la lettura.
La qualità dei sintetizzatori vocali dipende da quanto la voce riprodotta si avvicini a quella umana e dalla facilità di essere capita. La qualità risulta essere una caratteristica fondamentale in quanto questi software vengono spesso utilizzati da persone disabili, solitamente da ipo-vedenti e non-vedenti per “leggere” un testo scritto o una pagina web e quindi per entrare nell’ era dell’ informazione nata grazie ad internet.
Un software TTS è composto da due parti: una front-end e una back-end.
La parte front-end prende il testo e lo converte in simboli fonetici. La parte back-end trasforma i simboli fonetici e li “legge”, trasformandoli così in voce artificiale.
La parte front-end ha due grandi compiti: prima prende il testo così come è scritto e converte numeri e abbreviazioni in parole intere. Questo processo è spesso chiamato normalizzazione del testo. Poi trasforma ogni parola in simboli fonetici e divide il testo in varie unità. Il processo di assegnazione della pronuncia alle parole è chiamato text-to-phoneme (TTP) . Dopo tutti questi processi si ottiene una rappresentazione linguistica in simboli, che verrà passata alla parte back-end.
La parte back-end, prende appunto questi simboli fonetici e li converte in suono.
I sistemi di sinterizzazione vocale utilizzano due approcci per compiere il processo TTP: quello più semplice è basato sull’ utilizzo di un dizionario che contiene tutte le parole di una lingua e la loro corretta pronuncia viene salvata dal programma. Determinando la corretta pronuncia di ciascuna parola, si sostituisce lo spelling della parola con la sua pronuncia specificata nel dizionario. La pronuncia delle parole non presenti nel dizionario viene ricavata attraverso regole di pronuncia; l’altro approccio è basato sulle regole di pronuncia, dove queste sono applicate alle parole per determinare la loro pronuncia basata sul loro spelling; quest’ ultimo metodo è molto simile a quello utilizzato per imparare a leggere.
VUOI CREARE IL TUO SITO O BLOG WORDPRESS?
EMAIL NEWSLETTER
Vuoi ricevere i miei ultimi articolicomodamente nella tua email? È gratis!
Ben 741 persone lo stanno già facendo!





27/04/2011 alle 10:28
Ciao Roberto,
ho apprezzato davvero molto la tua spiegazione molto dettagliata del TTS.
Questo, si può considerare un TTS? http://www.passionegeek.it/2010/10/01/oddcast-il-sintetizzatore-vocale-online/
Buona giornata.
27/04/2011 alle 14:22
Grazie,
ovviamente sì, sembra anche un ottimo servizio!
Buona giornata pure a te!
27/04/2011 alle 23:06
Bè anche a me concordo, ciao.
20/05/2011 alle 12:12
Ho provato diversi servizi TTS, speriamo che ne vengano sviluppati anche per l’ italiano