Artigo Revisado por pares

Improved modeling and efficiency for automatic transcription of Broadcast News

2002; Elsevier BV; Volume: 37; Issue: 1-2 Linguagem: Inglês

10.1016/s0167-6393(01)00063-2

ISSN

1872-7182

Autores

Ananth Sankar, Venkata Ramana Rao Gadde, Andreas Stolcke, Fuliang Weng,

Tópico(s)

Music and Audio Processing

Resumo

Over the last few years, the DARPA-sponsored Hub-4 continuous speech recognition evaluations have advanced speech recognition technology for automatic transcription of broadcast news. In this paper, we report on our research and progress in this domain, with an emphasis on efficient modeling with significantly fewer parameters for faster and more accurate recognition. In the acoustic modeling area, this was achieved through new parameter tying, Gaussian clustering, and mixture weight thresholding schemes. The effectiveness of acoustic adaptation is greatly increased through unsupervised clustering of test data. In language modeling, we explored the use of non-broadcast-news training data as well as the adaptation to topic and speaking styles. We developed an effective and efficient parameter pruning technique for backoff language models that allowed us to cope with ever increasing amounts of training data and expanded N-gram scopes. Finally, we improved our progressive search architecture with more efficient algorithms for lattice generation, compaction, and incorporation of higher-order language models. In jüngster Zeit wurde die automatische Transkription von Rundfunknachrichten durch die von der amerikanischen DARPA geförderten Hub-4-Spracherkennungswettbewerbe vorangetrieben. In diesem Artikel berichten wir über Fortschritte auf diesem Gebiet, mit einem Schwerpunkt auf effizienter Modellierung mit weniger Parametern zwecks beschleunigter und genauerer Spracherkennung. In der akustischen Modellierung wurde dies erreicht durch neue Verfahren zur Parameterbindung, zum Clustern von gaußschen Verteilungen und zum Komprimieren von Gewichten in Mischverteilungen. Die Effektivität von akustischer Adaptierung wurde durch automatisches Clustern der Testdaten erheblich verbessert. In der Sprachmodellierung untersuchten wir die Benutzung von Trainingsdaten außerhalb der Rundfunknachrichten-Domäne sowie die Anpassung an Themen und Sprechstil. Wir haben ein effektives und effizientes Verfahren zum Parameter-Pruning in Backoff-Sprachmodellen entwickelt, das es uns ermöglicht, stetig wachsende Trainingskorpora und längere N-gramme zu verwenden. Abschließend beschreiben wir Verbesserungen in der progressiven Sucharchitektur unseres Erkenners, mit effizienteren Algorithmen zur Erzeugung, Komprimierung und Expandierung von Wortgraphen. Durant ces dernières années, les évaluations Hub-4 des systèmes de reconnaissance de la parole continue sponsorisées par DARPA ont fait progresser les techniques de reconnaissance de la parole pour la transcription de nouvelles audio-diffusées (“broadcast news”). Dans cet article, nous présentons notre recherche et nos progrès dans ce domaine, en nous concentrant plus particulièrement sur une modélisation efficace utilisant sensiblement moins de paramètres, permettant ainsi d'améliorer la vitesse et les performances de la reconnaissance vocale. En termes de modélisation acoustique, les améliorations ont été obtenues en utilisant une nouvelle méthode pour l'ajustement des paramètres, l'agrégation des Gaussiennes, et le seuillage des poids des mélanges de Gaussiennes. L'efficacité de l'adaptation acoustique est grandement améliorée par l'agrégation non supervisée des données de test. En modélisation du langage, nous avons étudié le résultat de l'utilization de données d'entraı̂nement ne provenant pas de “broadcast news”, ainsi que de l'effet de l'adaptation au sujet et au style de parole. Nous avons développé une technique efficace d'élagage des paramètres pour des modèles de langage avec repli (“backoff”) ce qui nous a permis de supporter l'accroissement continuel de la quantité de données d'entraı̂nement et l'extension de la portée des N-grammes. Enfin, nous avons amélioré notre architecture de recherche progressive en utilisant des algorithmes plus efficaces pour la génération et la compaction de treillis, ainsi qu'en y incorporant des modèles de langage d'ordre supérieur.

Referência(s)
Altmetric
PlumX