Prosody generation for German CTS/TTS systems (from theoretical intonation patterns to practical realisation)
1997; Elsevier BV; Volume: 21; Issue: 1-2 Linguagem: Francês
10.1016/s0167-6393(96)00071-4
ISSN1872-7182
Autores Tópico(s)Lexicography and Language Studies
ResumoThe work described in the paper was carried out in the SPEAK! project (Speech Generation in Multimodal Information Systems). The aim of the project was to improve the quality of synthesised speech output to be used in dialogue systems as an additional element of multimodal man-machine interfaces. German text and dialogue interaction analysis (theoretical research) has been carried out to predict the tone groups (TGs), the phrase boundaries in sentences and the place of the focus in the phrase. Tone groups represent the general intonation structure of the phrase not taking into account word level intonation. The results of this research are the intonation markers described in (Teich et al., 1997). The CTS synthesiser constructs the main intonation patterns from texts containing these additional markers. This paper describes the research results on German intonation, including the construction of intonation rules, combined with the study on timing adjustments, pause generation for rhythm (both for segmental and suprasegmental levels) for the MULTIVOX-SPEAK! system. Detailed rules and a new tone-group based prosody generation module are also introduced: these have been integrated into the MULTIVOX TTS system. Preliminary evaluation results are also given. Die im Artikel beschriebene Arbeit wurde innerhalb das SPEAK! Projekts (Sprachproduktion in multimodalen Informationssystemen) verwirklicht. Ziel das Projekts war es, die Qualität der Sprachausgabe zu verbessern, die als zusätzliches Element von multimodalen Mensch-Maschine Schnittstellen in Dialogsystemen verwendet wird. Um die Akzentgruppen (Tone Groups, TGs), die Phrasengrenzen im Satz und die Stelle des Hauptakzentes in der Phrase bestimmen zu können, wurde eine Dialoginteraktions- und Textanalyse durchgeführt (theoretische Forschung). Die TGs stellen die allgemeine Intonationsstruktur der Phrase — ohne die Wortintonation — dar. Die Ergebnisse dieser Forschung sind die in (Teich et al., 1997) beschriebenen Intonationszeichen. Der CTS Synthesizer konstruiert die wichtigsten Intonationsmuster aus dem mit Zusatzzeichen versehenen Text. Im Artikel werden Forschungsergebnisse zur Intonation des Deutschen und zur Herleitung von Intonationsregeln vorgestellt. Auβerdem werden Untersuchungen zur zeitlichen Steuerung (auf segmentaler als auch auf suprasegmentaler Ebene) des MULTIVOX-SPEAK! Systems präsentiert. Schlieβlich werden ausführliche Regeln und ein neues auf Akzentgruppen basierendes Modul für die Prosodieerzeugung beschrieben, die in das MULTIVOX TTS System integriert wurden. Erste Auswertungsergebnisse werden vorgestellt. Le travail décrit dans cet article a été réalisé au sein du projet SPEAK! (génération de la parole dans les systèmes informatiques multimodaux). Le projet avait pour but l'amélioration de la qualité de la parole synthétique devant être utilisée, dans des systèmes de dialogue homme-machine, comme un module additionnel d'interface multimodale. L'analyse de l'interaction du texte et du dialogue en allemand (partie théorique de cette recherche) a permis d'établir la prédiction du groupe tonal (TG), des frontières du syntagme à l'intérieur de la phrase et de la place du focus dans le syntagme. Les groupes tonaux représentent la structure générale de l'intonation du syntagme lorsque le niveau de l'intonation du mot n'est pas pris en compte. Les résultats de cette étude sont les marqueurs de l'intonation décrits dans (Teich et al., 1997). Le synthétiseur CTS construit les principaux patrons intonatifs à partir du texte étiqueté par ces marqueurs additionnels. Cet article décrit, pour le système MULTIVOX-SPEAK!, les résultats des travaux sur l'intonation de l'allemand et l'établissement des règles intonatives ainsi que sur l'organisation temporelle et de la génération des pauses (aux niveaux segmentai et suprasegmental), importantes pour le rythme. Nous présentons également les règles détaillées ainsi qu'un nouveau module de génération de la prosodie (basé sur le groupe tonal) qui ont été intégrés au système MULTIVOX TTS. Les résultats préliminaires de l'évaluation sont présentés.
Referência(s)