Artigo Revisado por pares

Prosodic modelling in Swedish speech synthesis

1993; Elsevier BV; Volume: 13; Issue: 1-2 Linguagem: Inglês

10.1016/0167-6393(93)90060-x

ISSN

1872-7182

Autores

Gösta Bruce, Björn Granström,

Tópico(s)

Speech and dialogue systems

Resumo

Our present work concerns Swedish prosody in a speech synthesis framework. Two main problem areas are examined: prominence and phrasing. In a model for Swedish prosody, prominence levels (stress, accent, focus) are represented as layered and multidimensional for different domains (syllable, foot, word). Phrasing involves both coherence in the form of specific combinations of existing accentual gestures and separate boundary gestures. The main features of the intonation model are given in outline. Experiments on prominence include modelling of durations in a combined speech data base and rule synthesis framework, where the stressed-unstressed alternation appears to be the most important duration factor. Other experimentation concerns typical differences in the timing characteristics of the tonal gesture for focal accent between compound words and simplex accent II words. Experiments on phrasing include both production data from a varied speech material as well as synthesis and perception. Our experiments demonstrate that both coherence and boundary cues are effective as phrasing signals and that a combination of F0 and duration is typically used to signal phrasing. Our future plans include working with prosodic modelling of Swedish in a dialogue context and in a concept-to-speech framework. Diese Arbeit betrifft die Prosodie im Schwedischen für die Sprachsynthese. Es werden zwei Probleme untersucht: die Prominenz und die Phrasenbildung. In diesem Modell der Prosodie im Schwedischen, werden die Prominenzebenen (sprachlicher Akzent, Satzbetonung, Fokus) hierarchisch und in mehreren Dimensionen für verschiedene Attribute (Silben, Takt, Wort) dargestellt. Die Phrasenbildung erfordert sowohl eine Kohärenz in der Form der spezifischen Kombinationen der existierenden prosodischen Elemente als auch der getrennten Grenzsignale. Es werden die wichtigsten Merkmale dieses Modells der Prosodie beschrieben. Die Versuche über die Prominenz beeinhalten die Darstellung der Dauer eines Korpus als Rechenmodell, das eine Datenbank der Sprache und der Synthese durch Regeln kombiniert, wobei die Abwechslung betont-unbetont als das bedeutendster Faktor für die Dauer hervorgeht. Ein anderer Versuch behandelt die Untersuchung der wichtigsten Unterschiede in den zeitlichen Daten der betonenden Gesten für die Zielbetonung zwischen zusammengesetzten Worten und Worten mit nur einer Betonung. Die Versuche zur Phrasenbildung behandeln die Daten zur Erzeugung, die aus verschiedenen Sprachgruppen herausgenommen wurden, sowie deren Synthese und deren Erkennung. Unsere Erfahrungen zeigen, daß die Indizien der Kohärenz und die Indizien der Grenzsignale gemeinsam zur Hervorhebung der Bestandteile beitragen, die typisch durch eine Kombination der Indizien von F0 und der Dauer gezeigt werden. Wir beabsichtigen diese Arbeit fortzusetzen, indem wir ein Rechenmodell für die Prosodie im Schwedischen bei einem Dialog und für die Synthese anhand von Konzepten erstellen. Ce travail concerne la prosodie du suédois dans le cadre de la synthèse de la parole. On examine deux problèmes principaux: la prominence et la formation des groupes prosodiques. Dans ce modèle de la prosodie du suédois, les niveaux de prominence (accent tonique, accent mélodique, focus) sont représentés hiérarchiquement et de façon multidimensionelle pour différents domaines (syllabe, pied, mot). La formation des groupes prosodiques implique à la fois une cohérence dans la forme des combinaisons spécifiques des gestes accentuels existants et un marquage des gestes de frontières. On décrit les principales caractéristiques de ce modèle d'intonation. Les éxperiences sur la prominence incluent la modélisation des durées dans le cadre d'une base de données de parole et d'un système de synthèse par règles ou l'alternance accentué-non accentué apparait être le facteur le plus important pour la durée. Une autre expérience concerne l'étude des principales différences dans les caractéristiques temporelles des gestes intonatifs pour l'accent focal entre les mots composés et les mots simples à accent II. Les expériences sur la formation des constituants portent sur des données de production extraites de divers corpus de parole ainsi que sur leur synthèse et leur perception. Nos expériences montrent que les indices de cohérence et les indices de frontière contribuent ensemble à la mise en évidence de constituants qui sont typiquement signalés par une combinaison d'indices de F0 et de durée. Nour prévoyons de poursuivre ce travail en modélisant la prosodie du suédois dans un contexte de dialogue et pour la synthèse à partir de concepts.

Referência(s)
Altmetric
PlumX