Artigo Revisado por pares

Large vocabulary continuous speech recognition of Broadcast News – The Philips/RWTH approach

2002; Elsevier BV; Volume: 37; Issue: 1-2 Linguagem: Francês

10.1016/s0167-6393(01)00062-0

ISSN

1872-7182

Autores

Peter Beyerlein, Xavier Aubert, Reinhold Haeb‐Umbach, Matthew Harris, Dietrich Klakow, Andreas Wendemuth, Sirko Molau, Hermann Ney, Michael Pitz, Achim Sixtus,

Tópico(s)

Speech and Audio Processing

Resumo

Automatic speech recognition of real-live broadcast news (BN) data (Hub-4) has become a challenging research topic in recent years. This paper summarizes our key efforts to build a large vocabulary continuous speech recognition system for the heterogenous BN task without inducing undesired complexity and computational resources. These key efforts included: automatic segmentation of the audio signal into speech utterances; efficient one-pass trigram decoding using look-ahead techniques; optimal log-linear interpolation of a variety of acoustic and language models using discriminative model combination (DMC); handling short-range and weak longer-range correlations in natural speech and language by the use of phrases and of distance-language models; improving the acoustic modeling by a robust feature extraction, channel normalization, adaptation techniques as well as automatic script selection and verification. Die automatische Spracherkennung von aktuellen Nachrichtensendungen (“Hub-4” Aufgabe, Broadcast-News Aufgabe) ist in den vergangenen Jahren zu einem wichtigen Forschungsthema geworden. Diese Publikation faßt die Schwerpunkte unserer Arbeit beim Aufbau eines Systems zur Erkennung kontinuierlicher Sprache mit großem Vokabular für die heterogene Broadcast-News-Aufgabe zusammen, wobei wir versucht haben, die Komplexität und den Rechenaufwand des Systems so gering wie möglich zu halten. Unter anderem haben wir uns auf folgende Ziele fokussiert: Automatische Segmentierung des Audio-Signals in sprachliche Äußerungen; Effiziente einstufige Trigramm-Suche mit Look-Ahead-Techniken; Optimale log-lineare Interpolation einer Anzahl von akustischen Modellen und Sprachmodellen mit Hilfe der Diskriminativen Modellkombination (DMC); Behandlung von Kurzzeit- und schwachen Langzeitkorrelationen in natürlicher Sprache durch den Einsatz von Phrasen und von Abstands-Sprachmodellen; Verbesserung der akustischen Modellierung durch eine robuste Merkmalsextraktion, Kanalnormierung, Adaptionstechniken, wie auch durch automatische Skriptselektion und Skriptverifikation. La transcription automatique d'émissions parlées d'informations radio-télévisées (tâche désignée par “Hub-4”) a été l'objet d'intenses travaux de recherche ces dernières années. Ce papier présente les lignes principales de nos efforts d'élaboration d'un système de reconnaissance de parole continue qui soit à même de traiter le signal hétérogène provenant d'émissions d'information sans entraı̂ner une trop grande complexité ou le recours à des ressources de calculs excessives. L'essentiel de nos efforts a porté sur les points suivants: La segmentation automatique du signal audio en une suite de passages parlés; Le décodage rapide en une passe intégrant un modèle de trigrammes avec une technique d'anticipation; L'interpolation log-linéaire optimale d'une variété de modèles acoustiques et grammaticaux au moyen d'une technique de combinaison discriminative de modèles (DMC); La prise en compte de corrélations linguistiques à court terme et, plus faiblement, à long terme au moyen de groupements de mots (phrases) et de modèles de languages dits “à distance”; L'amélioration de la modélisation acoustique à l'aide d'une extraction robuste du contenu du signal combinée à la normalisation des canaux, l'adaptation des modèles phonétiques ainsi que la sélection et la vérification des scripts du corpus d'entraînement.

Referência(s)
Altmetric
PlumX