Artigo Revisado por pares

A hierarchical method of automatic speech segmentation for synthesis applications

1996; Elsevier BV; Volume: 19; Issue: 3 Linguagem: Francês

10.1016/0167-6393(96)00031-3

ISSN

1872-7182

Autores

Steffen Pauws, Y. Kamp, L. F. Willems,

Tópico(s)

Speech and Audio Processing

Resumo

The paper describes a method for automatically segmenting a database of isolated words as required for the purpose of speech synthesis. The phoneme-like units in the phonetic transcription of the utterances are represented by dedicated hidden Markov models (HMMs) and segmentation is performed by aligning the speech signal against the sequence of HMMs representing the words. The specific advantage of the method presented here is that it does not need manually segmented speech material to initialize the training of the HMMs. Therefore, it can be regarded as an improved variant of established techniques for automatic segmentation. The problem of proper initialization of the HMMs without resorting to manually segmented material is solved by a hierarchical approach consisting of three successive steps. In the first step a segmentation in broad phonetic classes is realized that provides anchor points for the second stage, consisting of a sequence-constrained vector quantization. In this stage each broad phonetic class is further segmented into its constituent phonemes. The result is a crude phonetic segmentation which is then used as initialization of the HMMs in the last stage. Fine-tuning of the models is realized via Baum-Welch estimation. The final segmentation is obtained by Viterbi alignment of the utterances against the HMMs. This hierarchical approach was used to segment a database of isolated words recorded from a male speaker. An accuracy of 89.51% was obtained in the location of the phoneme boundaries with a tolerance of 20 ms. Dieser Artikel beschreibt eine Methode zur automatischen Segmentierung von einzelnen Worten in einer Datenbank, wie sie zur Sprachsynthese benötigt wird. Die Phonem-ähnlichen Einheiten der Transskription werden durch spezifische Hidden Markov Modelle (HMM) dargestellt. Die Segmentierung wird durch die Zuordnung des Sprachsignals zur Abfolge der HMMs erreicht, die die phonetische Umsetzung des Sprachsignals darstellen. Die hier vorgestellte Methode hat den Vorteil, daβ sie kein manuell segmentiertes Sprachmaterial benötigt, um die HMMs zu trainieren. Deshalb kann sie als verbesserte Variante von bewährten Verfahren zur automatischen Segmentierung betrachtet werden. Das Problem der Initialisierung der HMMs ohne eine manuell vorbearbeitete Datenbasis wird durch einen hierarchischen Aufbau umgangen, der aus drei aufeinanderfolgenden Stufen besteht. Die erste Stufe realisiert eine Aufteilung in umfassende Phonemklassen und liefert Ankerpunkte für die zweite Stufe, die aus einer Vektorquantisierung besteht. Diese Stufe führt eine weitergehende Aufteilung der umfassenden Phonemklassen in die einzelnen Phoneme durch. Das Resultat ist eine grobe phonemische Aufteilung, die ihrerseits zur Initialisierung der HMMs benutzt wird. Eine abschlieβende Anpassung der HMMs wird durch eine Baum-Welch-Näherung erreicht. Die endgültige Segmentierung wird durch eine Viterbi-Ausrichtung der Äuβerungen gegen die HMMs erreicht. Dieser hierarchische Ansatz wurde benutzt, um eine Datenbank von isolierten Worten eines männlichen Sprechers zu segmentieren. Es wurde eine Genauigkeit von 89.51% in der Zuordnung der Phonemgrenzen mit einer Toleranz von 20 ms erreicht. Cet article décrit une procédure de segmentation automatique de bases de données de mots isolés, du type de celles utilisées classiquement pour la synthèse de la parole. Les unités phonémiques issues de la transcription sont représentées par des modèles de Markov spécifiques et la segmentation est obtenue en alignant le signal de parole avec la séquence des modèles de Markov représentant la transcription phonétique des mots. L'avantage spécifique de la méthode présentée ici est qu'elle ne doit pas recourir à une base de donnée segmentée manuellement pour initialiser l'apprentissage des modèles de Markov. Dès lors, cette procédure peut être considérée comme une amélioration d'une technique connue pour la segmentation automatique. Le problème de l'initialisation des modèles de Markov en l'absence de matériel acoustique préalablement segmenté à la main est résolu ici par une approche hiérarchique en trois étapes. La première réalise une segmentation en grandes classes phonétiques, de façon à obtenir des points d'ancrage pour la deuxième étape qui consiste en une quantification vectorielle avec contrainte de séquence. Cette deuxième étape poursuit le travail en segmentant chaque grande classe phonétique suivant les phonèmes qui la composent. Le résultat est une segmentation phonétique grossière qui est à son tour utilisée pour initialiser les modèles de Markov. Le réglage fin des modèles de Markov est achevé au moyen d'estimations Baum-Welch. La segmentation définitive est obtenue au moyen d'un alignement Viterbi des signaux de parole avec les modèles de Markov. En appliquant cette approche hiérarchique à une base de données de mots isolés enregistrés pour un locuteur masculin, on a obtenu une précision de 89.51% dans le positionnement des frontières entre phonèmes avec une tolérance de 20 ms.

Referência(s)
Altmetric
PlumX