Artigo Revisado por pares

Use of dialogue, pragmatics and sematics to enhance speech recognition

1990; Elsevier BV; Volume: 9; Issue: 5-6 Linguagem: Inglês

10.1016/0167-6393(90)90030-d

ISSN

1872-7182

Autores

Sheryl R. Young,

Tópico(s)

Multi-Agent Systems and Negotiation

Resumo

Current, state-of-the-art speaker-independent continuous-speech recognizers are able to achieve word recognition rates in excess of 94 percent using lexicons of 1000 words or less and grammars or language models with perplexity 60 or less. Performance of these systems decreases rapidly as the perplexity of the grammar increases. As we allow users the flexibility to speak naturally, using constructions of their own choosing, perplexities increase more than an order of magnitude. Fortunately, knowledge of the domain and of communicative and problem solving behaviors can be used to dynamically decrease perplexity and allow more natural interaction given the current state of speech recognition technology. The perplexity reduction from knowledge results in speech performance equal to that demonstrated by speech recognizers using an equivalently low perplexity language model in the same or different domains. This paper addresses how knowledge of domain semantics, dialog, communication conventions and problem solving behavior are used to enhance automatic speech recognition and understanding. Included is a discussion of the system's basic principles and descriptions of the important knowledge sources and heuristics employed by the minds system. Prior perplexity reduction results are reviewed, demonstrating the system's ability to dynamically reduce perplexity and enhance recognition performance. This is followed by a brief analysis of some of the heuristics which do not have to be reimplemented across domains. Specifically addressed are why the heuristics are effective, and how much each can be expected to reduce entropy and average branching factor in any possible application domain. Die derzeit in der Entwicklung befindlichen sprecherunbhängigen Spracherkennungssysteme für kontinuierliche Sprache sind in der Lage, Worterkennungsraten von mehr als 94% zu erzielen, wenn ein Lexikon von 1000 Wörtern oder weniger sowie Grammatiken oder Sprachmodelle mit einer Perplexität von weniger als 60 eingesetzt werden. Die Leistungsfähigkeit dieser Systeme nimmt rapide ab, wenn die Perplexität der Grammatik zunimmt. Da wir es den Benutzern gestatten möchten, sich in natürlicher Sprache auszudrücken und dabei beliebige Satzkonstruktionen eigener Wahl zu verwenden, steigt die Perplexität notwendigerweise um mehr als eine Größenordnung. Glücklicherweise können Weltwissen, Wissen über kommunikatives Verhalten sowie Wissen über Strategien zur Lösung von Aufgaben dazu verwendet werden, die Perplexität dynamisch zu vermindern und somit unter Zugrundelegung des heutigen Standes der Spracherkennung eine natürlichere Mensch-Maschine-Interaktion zu ermöglichen. Dieser Beitrag thematisiert, in welcher Weise Wissen über die Situationssemantik, über den Dialog, über kommunikative Konventionen sowie Wissen über Strategien bei der Lösung von Aufgaben dazu verwendet werden können, die Leistungsfähigkeit des Spracherkennungs- bzw. Sprachverstehenssystems zu verbessern. Ebenfalls diskutiert und beschrieben werden die Grundeigenschaften des minds-Systems sowie die wichtigsten Wissensquellen und heuristischen Strategien, die diesses System einsetzt. Weiterhin werden Ergebnisse zur Reduzierung der Perplexität untersucht, die die Fähigkeit des Systems demonstrieren, die Perplexität dynamisch zu reduzieren und die Leistungsfähigkeit zu erhöhen. Die Diskussion wird abgerundet durch eine kurze Analyse der Ursachen, warum die eingebaute Heuristik funktionsfähig ist, und was von ihr erwartet werden kann, um die Entropie und den mittleren Verzweigungsfaktor in einem beliebigen Applikationsbereich zu reduzieren. Les systèmes actuellement les plus performants en reconnaissance de la parole continue, indépendants du locuteur, atteignent un taux de reconnaissance de mots qui dépasse 94% en utilisant un lexique de 1000 mots maximum et une grammaire ou un modèle de langage d'une perplexité d'au maximum 60. Ces performances décroissent rapidement lorsque la perplexité de la grammaire augmente. Si l'on permet à l'usager de parler naturellement et d'utiliser des constructions de son choix, les perplexités augmentent de plus d'un ordre de grandeur. Heureusement, grâce à la technologie actuelle, la connaissance d'un domaine et celle des comportements de communication et de résolution de problème peuvent être utilisées pour faire décroître dynamiquement la perplexité et obtenir une interaction plus naturelle. La réduction de la perplexité à partir de ces connaissances aboutit à des performances égales à celles de systèmes usant d'un modèle de langage de basse perplexité dans le même ou dans des domaines différents. Dans cet article, nous abordons les problèmes liés à l'utilisation de connaissances sur la sémantique du domaine, sur le dialogue, les conventions de communication et le comportement de résolution de problème pour améliorer la reconnaissance et la compréhension automatique de la parole. Nous expliquons également les principles de base du système minds et en décrivons les sources de connaissance importantes et les heuristiques. Nous passons en revue les réductions de la perplexité obtenues. Ces résultats démontrent la capacité du système à réduire dynamiquement la perplexité et à améliorer le taux de reconnaissance. Suit une brève analyse de certaines heuristiques qui ne doivent pas être réimplantées pour différents domaines. Nous abordons plus spécifiquement le fait de savoir pourquoi les heuristiques sont efficaces et de combien chacune d'elles pourra diminuer l'entropie et le facteur de branchement moyen pour tout domaine d'application possible.

Referência(s)
Altmetric
PlumX