Artigo Revisado por pares

Parametric subspace modeling of speech transitions

1999; Elsevier BV; Volume: 27; Issue: 1 Linguagem: Inglês

10.1016/s0167-6393(98)00067-3

ISSN

1872-7182

Autores

K. Reinhard, Mahesan Niranjan,

Tópico(s)

Speech and Audio Processing

Resumo

This paper describes an attempt at capturing segmental transition information for speech recognition tasks. The slowly varying dynamics of spectral trajectories carries much discriminant information that is very crudely modelled by traditional approaches such as HMMs. In approaches such as recurrent neural networks there is the hope, but not the convincing demonstration, that such transitional information could be captured. The method presented here starts from the very different position of explicitly capturing the trajectory of short time spectral parameter vectors on a subspace in which the temporal sequence information is preserved. This was approached by introducing a temporal constraint into the well known technique of Principal Component Analysis (PCA). On this subspace, an attempt of parametric modelling the trajectory was made, and a distance metric was computed to perform classification of diphones. Using the Principal Curves method of Hastie and Stuetzle and the Generative Topographic map (GTM) technique of Bishop, Svensen and Williams as description of the temporal evolution in terms of latent variables was performed. On the difficult problem of /bee/, /dee/, /gee/ it was possible to retain discriminatory information with a small number of parameters. Experimental illustrations present results on ISOLET and TIMIT database. Dieser Bericht beschreibt den Versuch Informationen über dynamische Transitionen in phonetischen Sprachsegmenten zu erfassen, um sie für die Spracherkennung nutzbar zu machen. Gerade die dynamischen Prozesse der spektralen Trajektoren repräsentieren charakteristische Unterscheidungsmerkmale, welche durch die traditionellen statistischen Mustererkenner, wie z.B. Hidden Markov Model, ungenügend berücksichtigt werden. Man hoffte, durch die Anwendung von rekursiven neuronalen Netzen (RNNs) diese dynamischen Informationen besser in Systeme integrieren zu können, welches aber nicht überzeugend belegt werden konnte. In diesem Bericht wird von einem unterschiedlichen Blickwinkel aus gezeigt, wie Trajektoren, die aus spektralen Parametervektoren gebildet werden, explizit modelliert werden können. Diese Modellierung erfolgt in einem Unterraum, der zeitlich-sequenzielle Informationen erhält. Dies wird durch die Integrierung einer zeitbezogenen Nebenbedingung in die Standardmethode Principal Component Analysis realisiert. In diesem Unterraum erfolgt eine parametrische Modellierung der Trajektoren. Mittels einer Abstandsmetrik wird eine Klassifizierung von Diphonen vorgenommen. Mit den Methoden Principal Curves von Hastie und Stuetzle und der Generative Topographic Map (GTM) von Bishop, Svenson und Williams wird die zeitliche Entwicklung der Vektoren mit Hilfe von latenten Variablen beschrieben. An der Problematik zur Unterscheidung der Diphone /bee/, /dee/ und /gee/ mit Hilfe von charakteristischen Trajektoren wird gezeigt, daß eine hohe Klassifizierungsrate erreichbar ist, wobei eine sehr geringe Anzahl von Parametern benötigt wird. Die Ergebnisse werden mit Hilfe der Datenbanken ISOLET und TIMIT experimentell illustriert, die in den Bericht integriert sind. Ce papier décrit une méthode tentant d'extraire l'information de transition entre segments pour les tâches de reconnaissance de la parole. Les caractéristiques dynamiques (variant lentement) des trajectories spectrales contiennent beaucoup d'information discriminante qui est mal modélisée dans les approaches HMM traditionnelles. Dans les approches telles que les réseaux de neurones récurrents, il y a l'espoir, mais pas de démonstration convainquante, que cette information de transition pourrait être utilisée. La méthode présentée ici se base sur un principe assez différent et consistant à modéliser explicitement la trajectoire des paramètres spectaux à court terme dans un sous-espace où l'information temporelle est préservée. Ceci est réalisé en introduisant une contrainte temporelle dans la technique bien connue de l'Analyse en composantes Principales. Dans ce sous-espace, on a alors défini un modèle paramétrique de la trajectoire, et une measure de distances a été utilisée pour effectuer la classification en diphones. En utilisant la méthode de "Principal Curves" de Hastie et Stuetzle et la "Generative Topographic Map" de Bishop, Svensen et Williams une description de l'évolution temporelle en termes de variables latentes a été effectuée. Sur le problème difficile de /bee/, /dee/ et /gee/, il a été possible de conserver l'information discriminante avec un ensemble réduit de paramètres. Des illustrations expérimentales sont présentées sur les bases de données ISOLET et TIMIT.

Referência(s)
Altmetric
PlumX