Artigo Revisado por pares

The development of the HTK Broadcast News transcription system: An overview

2002; Elsevier BV; Volume: 37; Issue: 1-2 Linguagem: Alemão

10.1016/s0167-6393(01)00059-0

ISSN

1872-7182

Autores

Philip C. Woodland,

Tópico(s)

Speech and Audio Processing

Resumo

This paper describes in detail the development of the HTK Broadcast News (BN) transcription system and presents full evaluation results from the 1996, 1997 and 1998 DARPA BN evaluations. It starts with a description of the underlying HTK large vocabulary recognition system and presents the modifications used in successive generations of the HTK BN system. Initially acoustic models that relied on fairly precise manual audio-type classification were used. To enable the use of automatic segmentation and classification systems, acoustic models were developed that were independent of fine audio classifications. The basic structure of the current HTK BN system includes a high-quality segmentation stage, multiple decoding passes which initially use triphones and trigrams, and then quinphone acoustic models along with word 4-gram and category language models applied in the final pass. This system gave the lowest error rate in the 1997 BN evaluation by a statistically significant margin. Refinements to the system are then described that examine the use of a larger acoustic training set, vocal tract length normalisation, full variance transforms and improved language modelling. Furthermore a version of the system was developed that ran in less than 10 times real time with only a small increase in error rate which has been used for the bulk transcription of broadcast news for information retrieval from audio data. Dieser Bericht bietet eine detailierte Beschreibung der Entwicklung des HTK Broadcast News (BN) Transkriptionssystems und präsentiert die Ergebnisse der 1996, 1997 und 1998 DARPA BN Evaluationen. Zuerst wird eine Beschreibung des zugrundeliegenden HTK Spracherkennungssytems für große Wortschätze gegeben und dann werden die Veränderungen präsentiert, die an dem HTK BN System vorgenommen wurden. Die akustischen Modelle, die anfänglich eingesetzt wurden, erforderten ein relativ genaue manuelle Klassifikation der Audiodaten in verschiedene Datentypen. Neue akustische Modelle, die in Verbindung mit einer automatisierten Segmentierung und Klassifikation der Audiodaten verwendet werden können, wurden entwickelt. Das HTK BN System enthält ein sehr zuverlässiges Segmentierungsmodul und benutzt mehrere Dekodierungsphasen. Zunächst werden akustische Modelle mit Triphon-Kontext und Trigramm Sprachmodelle eingesetzt und in der letzten Dekodierungsphase werden Quinphone, Wort 4-gramme und klassenbasierte Sprachmodelle verwendet. In der 1997 BN Evaluation erreichte dieses System die beste Fehlerrate mit einem statistisch signifikantem Abstand zu den anderen Systemen. Anschließend werden Verbesserungen an diesem System beschrieben. Betrachtet werden die Verwendung eines größeren akustischen Trainingskorpus, Vokaltraktlängen Normalisierung, full-variance Transformationen und verbesserte Sprachmodellierung. Außerdem wurde eine Version des Systems entwickelt, das in weniger als zehnfacher Echtzeit arbeitet aber trotzdem nur eine leichte Verschlechterung der Fehlerrate aufweist. Dieses System wurden benutzt, um im Rahmen eines Audio Information Retrieval Systems große Mengen von Rundfunk Daten zu transkribieren.

Referência(s)
Altmetric
PlumX