Artigo Revisado por pares

Speech database development at MIT: Timit and beyond

1990; Elsevier BV; Volume: 9; Issue: 4 Linguagem: Inglês

10.1016/0167-6393(90)90010-7

ISSN

1872-7182

Autores

Victor W. Zue, Stephanie Seneff, James Glass,

Tópico(s)

Speech and Audio Processing

Resumo

Automatic speech recognition by computers can provide the most natural and efficient method of communication between humans and computers. While in recent years high performance speech recognition systems are beginning to emerge from research institutions, scientists unequivocally agree that the deployment of speech recognition systems into realistic operating environments will require many hours of speech data to help us model the inherent variability in the speech signal. This paper describes the experiences of researchers at MIT in the collection of two large speech databases which have somewhat complementary objectives. The timit database was designed to be task and speaker-independent, and is suitable for general acoustic-phonetic research. The voyager database, on the other hand, was intended for development and evaluation of a system which incorporates both speech and natural language processing. This database is particularly valuable as a source of spontaneous utterances elicited in a realistic goal-oriented environment. Die automatische Spracherkennung mit Hilfe von Rechnern wird in der Lage sein, uns die natürlichste und effizienteste Methode der Mensch-Maschine-Kommunikation zur Verfügung zu stellen. Nachdem seit einigen Jahren hochwertige Spracherkennungssysteme aus den Forschungsinstituten hervorzugehen beginnen, sind sich die Wissenschaftler mehr oder weniger darüber einig, daß die Anpassung der Spracherkennungssysteme an eine realistische Betriebsumgebung zahlreiche Stunden akustischen Sprachmaterials benötigt, um die gesamte Variationsbreite des Sprachsignals in den Griff zu bekommen. Der vorliegende Beitrag beschreibt die Erfahrungen der Wissenschaftler am MIT mit der Erstellung zweier großer akustischer Sprachdatenbanken, die in gewisser Weise komplementären Zwecken dienen. Die timit-Datenbank wurde als aufgaben- und sprecherunabhängige Datenbasis entwickelt und ist für allgemeine akustisch-phonetische Untersuchungen geeignet. Auf der anderen Seite ist die voyager-Datenbank zur Entwicklung und Evaluierung eines Systems gedacht, das die Verarbeitung natürlicher Sprache sowohl auf der akustischen als auch auf der textlichen Ebene umfaßt. Diese Datenbank ist besonders wertvoll als Sammlung spontaner Äußerungen, die unter realistischen, zielorientierten Umgebungsbedingungen entstanden sind. La reconnaissance automatique de la parole par des ordinateurs peut fournir le moyen de communication homme — machine le plus naturel et le plus efficace. Bien que ces dernières années des systèmes de reconnaissance très performants aient déjà émergé des centres de recherche, les scientifiques s'accordent unanimement à dire que le déploiement de systèmes de reconnaissance de la parole dans un environnement de travail réel va nécessiter de nombreuses heures de données de parole pour pouvoir modéliser la variabilité inhérente au signal de parole. Nous décrivons les expériences des chercheurs du MIT en ce qui concerne la création de deux grandes bases de données de parole ayant des objectifs quelque peu complémentaires: d'une part, la base de données timit créée de manière à être indépendante de la tâche et du locuteur et adaptée à des recherches générales dans le domaine acoustico-phonétique, et d'autre part, la base de données voyager, destinée au développement et à l'évaluation d'un système incorporant à la fois le traitement de la parole et du langage natural. Cette dernière base de données est particulièrement utile comme source de phrases spontanées induites dans un environnement réaliste et ciblé.

Referência(s)
Altmetric
PlumX