Artigo Revisado por pares

Adaptable phoneme-based models for large-vocabulary speech recognition

1991; Elsevier BV; Volume: 10; Issue: 5-6 Linguagem: Inglês

10.1016/0167-6393(91)90047-w

ISSN

1872-7182

Autores

Paul Bamberg, Mark A. Mandel,

Tópico(s)

Speech and dialogue systems

Resumo

For a large-vocabulary speech-recognition system, such as Dragon Systems' 30,000 word DragonDictate recognizer, an efficient approach to training is to use “phonemes-in-context” (PICs) which are triphones supplemented by a code to describe prepausal lengthening. Each PIC is in turn represented by a sequence of one to six “phonetic elements” (PELs). For each phoneme, there may be thousands of different PICs, but there are no more than 63 PELs. Initially all PICs and PELs are trained from a database of about 16,000 tokens recorded by a reference speaker. When the recognizer is used by a new speaker, each word that is recognized is immediately used to adapt the PELs in its Markov models. After about a thousand words have been recognized, most PELs have been adapted to the new speaker, so that even models for words that have not yet been spoken are appropriate for the new speaker. The recognizer was tested with two texts that differed greatly in vocabulary and style. Three speakers dictated each text: the reference speaker, a new male speaker and a new female speaker. After adaptation on 1,500 words, performance for all three speakers was better than the performance for the reference speaker on unadapted models. With an active vocabulary of 25,000 words, the fraction of words recognized correctly was 86%, with an additional 8% on a “choice list” of eight words. Für ein Spracherkennungssystem mit einem groβen Wortschatz wie das 30.000-Wörter-System von Dragon Systems, hat sich der Gebrauch von “phonemes-in-context” (gennant “PICs”), d.h. Triphonen, versehen mit einem Code, der die Verlängerung der Lautdauer von einer Sprechpause angibt, als wirksame Methode zum Training erwiesen. Jedes PIC wird als Folge von eins bis zu sechs “phonetic elements” (genannt “PELs”) dargestellt. Für jedes Phonem können Tausende von verschiedenen PICs existieren aber nicht mehr als 63 PELs. Am Anfang werden alle PICs und PELs anhand einer Datenbasis von ungefähr 16.000 etikettierten akustischen Wortexemplaren trainiert, die von einem Referenzsprecher aufgenommen worden sind. Word das System von einem neuen Sprecher gebraucht, wiord jedes richtig erkannte Wort gleich zur Anpassung der PELs im jeweiligen Hidden-Markov-Modell eingesetzt. Nach dan ca. ersten tausend richtig erkannten Wörtern haben sich die meisten PELs schon an den neuen Sprecher angeglichen, sodaβ sogar Wortmodelle, die noch nicht von dem neuen Sprecher gesprochen worden sind, auf den neuen Sprecher eingelstellt sind. Das Spracherkennungssystem wurde anhand zweier Texte, die sich sehr vom Wortschatz und Stil her unterschieden, und an drei Sprechern, dem Referenzsprecher, einem neuen männlichen und weiblichen Sprecher, getestet. Nach der Anpassung von 1.500 Wörten war die Leistung des Spracherkennungssystems für alle Sprecher besser als die für den Referenzsprecher mit den nicht-adaptierten Wortmodellen. Mit einem aktiven Wortschatz von 25.000 Wörten betrug der Anteil der richtig erkannten Wörten 86%, zusätzlich der 8% einer Auswahl von acht Wörtern (“choice list”). DragonDictate est un système de reconnaissance de la parole développé par Dragon Systems. Pour l'entraînement d'un tel système, une approche efficace consiste à utiliser des “phonèmes-en-contexte”, c.à.d. des triphones accompagnés d'un code concernant leur allongement éventuel devant une pause (PIC). A son tour, chaque PIC est représenté comme une suite de 1 à 6 élément phonétiques (PEL). Pour chaque phonème, il peut y avoir des milliers de PIC différent, mais les PEL sont tout au plus au nombre de 63. Initialement, tous les PIC et PEL sont entraînés à partir d'une base de données d'environ 16.000 mots enregistrés. Ces mots, prononcés par un locuteur de références, ont d'abord été analysés comme des suites de PEL. Quand un nouveau locuteur utilise le système de reconnaissance, chaque mot reconnu sert immédiatement à adapter les PEL dans sa chaîne de Markov cachée. Après la reconnaissance d'environ 1.000 mots, la plupart des PEL se trouvent adaptés au nouveau locuteur. Ainsi, même les modèles de mots qu'il n'a jamais prononcés sont adaptés au locuteur. Nous avons essayé le système de reconnaissance avec 2 textes, qui diffèrent beaucoup sur le plan du vocabulaire et du style. Ils ont été lus par 3 locuteurs: un locuteur de référence, un nouveau locuteur masculin et un nouveau locuteur féminin. Après une phase d'adaptation d'approximativement 1.500 mots, le rendement pour les trois était meilleur que celui obtenu par le locuteur de référence avec des modèles non adaptés. Avec un vocabulaire actif de 25.000 mots, 86% des mots étaient reconnus correctement; en plus 8% des mots figurant sur une liste de choix de 8 mots.

Referência(s)
Altmetric
PlumX