Piccola guida alla sintesi vocale su linux

Gianluca Moro

In questo documento intendo riportare i passi seguiti per installare un sistema di sintesi vocale su linux: le operazioni sono state eseguite su un sistema Linux Fedora Core 3; per osservazioni contattate l'autore giammy@giammy.com

1   Mbrola

Mbrola rappresenta un sistema di sintesi vocale a partire da fonemi base: non si tratta dunque di un sistema TTS (Text To Speech), in grado cioè di avere un testo come input e leggerlo a voce alta. L'approccio scelto è molto più flessibile: il sistema consente di definire un dizionario di fonemi, descrivendone la pronuncia. La potenza del sistema sta proprio nel fatto che sono diponibili molti dizionari diversi, sia per lingua, che, all'interno della stessa lingua, per tipo di voce.

Sono al momento in cui scrivo disponibili una trentina di dizionari diversi, tra cui inglese e italiano: la possibilità di gestire più lingue diverse era uno degli obiettivi del progetto: gli autori sono: ``TCTS Lab of the Faculté Polytechnique de Mons (Belgium)'', come licenza, l'utilizzo è libero ``non-commercial, non-military purposes''

1.1   Installazione

2   Festival

Una volta che mbrola è funzionante si tratta di installare un sistema per la traduzione del testo in fonemi: Festival http://www.cstr.ed.ac.uk/projects/festival/ è un sistema di questo tipo, per cui sono state sviluppate le voci italiani, compatibili con mbrola (da parte di un gruppo dell'Università di Padova e del CNR).

2.1   Installazione

3   Emacspeak

Si tratta ora di integrare questo sistema in modo da usarlo negli applicativi: per ora ho testato solo Emacspeak, una estensione di Emacs, che consente di far leggere al computer quanto mostrato a video.

Ho provato EMacspeak con un server per comunicare con Festival, scaricato da CVS con i seguenti comandi:
cvs -d:pserver:anonymous@cvs.espeakf.sourceforge.net:/cvsroot/espeakf login
cvs -z3 -d:pserver:anonymous@cvs.espeakf.sourceforge.net:/cvsroot/espeakf co espeakf
ed installato, settando anche le 2 variabili DTK*:

make install
export DTK_TCL=perl
export DTK_PROGRAM=espeakf.pl
per testarlo ho lanciato il programma (che era già installato nella Fedora)

# emacspeak
Il programma legge quanto viene mostrato nella finestra dell'editor.

4   Da fare

Testare KDE 3.4, che dovrebbe integrare sintesi e riconoscimento vocale nel desktop.

5   Riferimenti

Ho trovato alcuni riferimenti ad altro software, che devo ancora provare:


This document was translated from LATEX by HEVEA.