Artigo Revisado por pares

Phoneme-based continuous speech recognition results for different language models in the 1000-word spicos system

1988; Elsevier BV; Volume: 7; Issue: 4 Linguagem: Inglês

10.1016/0167-6393(88)90052-0

ISSN

1872-7182

Autores

Hermann Ney, Annedore Paeseler,

Tópico(s)

Phonetics and Phonology Research

Resumo

This paper gives an overview of a system for phoneme-based large-vocabulary continuous-speech recognition. The system provides the speaker dependent recognition component in the speech understanding system spicos that is designed to recognize and understand database queries spoken in natural German language. The recognition technique used in the spicos project is based on an integrated approach that combines the various knowledge sources, such as inventory of subword units, pronunciation lexicon and language model, during the process of decision making in order to improve the reliability of the acoustic recognition. The recognition problem then amounts to an efficient search through a huge state space such that purely local decisions can be avoided and globally optimal decisions can be taken. The size of this state space depends primarily on the type of language model being used. Three types of language models are studied: no language constraints, finite state network, stochastic trigram model based on word categories. For each of the three language models, recognition experiments have been carried out on a 917-word task and 4 speakers. For each speaker, 200 sentences totalling 1391 words had to be recognized. Dieser Artikel gibt einen Ueberblick ueber ein auf Phonemen basierendes System fuer die automatische Erkennung fliessender Sprache und eines grossen Vokabulars. Das System ist Teil des sprachverstehenden Systems spicos, das in natuerlicher fliessender Sprache formulierte Datenbankanfragen erkennt, versteht und beantwortet. Waehrend des Erkennungsprozesses wird zurueckgegriffen auf die verschiedene im System enthaltenen Wissensquellen: das Inventar der Wortuntereinheiten, das Aussprachelexikon und das Sprachmodell (“language model”), das die syntaktischen, semantischen und pragmetischen Einschraenkungen der gegebenen Anwendung modelliert. Durch die Integration dieser Wissenquellen in die akustische Erkennung wird die im Sprachsignal vorhandene Redundanz optimal ausgenutzt, um die Sicherheit der akustischen Erkennung zu verbessern. Als Folge davon laeuft der eigenliche Enstscheidungzprozes in der Erkennung auf die Suche in einem riesigen Zustandsraum hinaus, so dass rein lokale Entscheidungen vermieden und global optimale Entscheidungen getroffen werden koennen. Die Groesse des Zustandsraumes haengt hauptsaechlich von der Art des verwendeten Sprachmodells ab. Drei Arten von Sprachmodellen werden hier untersucht: ein Modell ganz ohne Einschraenkunge, ein endliches Netzwerk (regulaere Grammatik) und ein stochastisches Trigramm-Modell, das auf den Wahrscheinlichkeiten von Wortkategorien aufgebaut ist. Fuer jedes drei Modelle wirden Erkennungs durchgefuerts fuer ein Vokabular von 917 Woertern und fuer 4 Sprecher. Feur jeden der Sprecher waren pro Test 200 Saetze mit insgesamt 1391 Woertern zu erkenuen. Cet article donne une vue d'ensemble d'un système à large vocabulaire et basé sur le phonème pour la reconnaisssance de la parole continue. Il constitue le module de reconnaissance, dépendant du locuteur, du système spicos conçu pour reconnaître, compredre et répondre à des questions d'une bangue de données formulées en allemand. Pendant le processus de reconnaissance, diverse sources de cinnaissance sont mises à contributition: un inventaire des unités infra-lexicalesm un lexique de prononciation et un modéle de langage qui modélise les contraintes syntaxiques, sémantiques et pragmatiques imposées par une application donnée. L'intégration de ces sources de connaissance permet d'améliorer la fiabilité de la reconnaissance acoustique en utilisant d'une manière optimale la redondance présente dans le signal de parole. Il s'ensuit que le problème de la reconnaissance se transforme en une recherche efficiente dans un très grand espace des phases de manière à ce que les décisions purement locales puissent être évitées au profit de décisions globalement optimales. La taille de cet espace des phases dépend principalement du modèle de langage employé. Trois types de modèles sont étudiés ici: un modèle sans aucune contrainte, un réseau à nombre d'états fini et un modéle stochastique trigramme basé sur les probabilités des différentes catégories de mots. Pour chacun de ces trois modèles, des expériences de reconnaissance ont été menées pour 4 locuteurs sur un vocabulaire de 917 mots. Pour chaque locuteur, 200 phrases totalisant 1391 mots devaient être reconnues.

Referência(s)
Altmetric
PlumX