Artigo Acesso aberto Revisado por pares

Indexing and retrieval of broadcast news

2000; Elsevier BV; Volume: 32; Issue: 1-2 Linguagem: Inglês

10.1016/s0167-6393(00)00020-0

ISSN

1872-7182

Autores

Steve Renals, Dave Abberley, David A. Kirby, Tony Robinson,

Tópico(s)

Text and Document Classification Technologies

Resumo

This paper describes a spoken document retrieval (SDR) system for British and North American Broadcast News. The system is based on a connectionist large vocabulary speech recognizer and a probabilistic information retrieval (IR) system. We discuss the development of a real-time Broadcast News speech recognizer, and its integration into an SDR system. Two advances were made for this task: automatic segmentation and statistical query expansion using a secondary corpus. Precision and recall results using the Text Retrieval Conference (TREC) SDR evaluation infrastructure are reported throughout the paper, and we discuss the application of these developments to a large scale SDR task based on an archive of British English broadcast news. Dieser Artikel beschreibt ein Fernabfragesystem von gesprochenen Dokumenten (SDR) für englische und nordamericanische Broadcast News. Das System ist auf einem konnektionistischen Spracherkenner mit großem Wortschatz und einem probabilistischen Informationsfernabfragesystem gegründet. Wir besprechen die Entwicklung eines Broadcast News Spracherkenners in Echtzeit und seine Integration mit einem SDR-System. Zwei Fortschritte wurden für diese Aufgabe gemacht: automatische Segmentation und statistische Abfrageerweiterung mit einem nebensächlichen Korpus. Auf die vorliegende Arbeit berichten wir Genauigkeits- und Rückrufsergebnisse mit der Text Retrieval Conference (TREC) SDR Auswertungsinfrastruktur. Wir diskutieren die Anwendung dieser Entwicklungen an eine große SDR Aufgabe, die auf einem Archiv englisches Broadcast News gegründet ist. Cet article décrit un système de récupération de documents oraux (Spoken Document Retrieval, SDR) pour des Emissions d'Informations (télévisées ou radio) britanniques et nord-américaines. Le système est basé sur un reconnaisseur de la parole à large vocabulaire connecté à un système de recherche probabiliste. Nous discutons le développement d'un reconnaisseur vocal en temps réel des Emissions d'Informations télévisées ou radio ainsi que son intégration au sein du système SDR. Pour cela, nous avons améliore deux approches a ce problème: la segmentation automatique et l'expansion statistique de la récupération des données en utilisant un corpus secondaire. Dans ce travail, nous présentons nos résultats concernant la fiabilité et le taux de récupération des données obtenus par le système d'évaluation TREC (Text Retrieval Conference)/SDR. Nous discutons également l'utilisation de ces méthodes dans un contextes à plus grande échelle, basée sur une archive d'Emissions d'Informations anglaises.

Referência(s)