Artigo Revisado por pares

Comparative study of several distortion measures for speech recognition

1985; Elsevier BV; Volume: 4; Issue: 4 Linguagem: Inglês

10.1016/0167-6393(85)90057-3

ISSN

1872-7182

Autores

N. Nocerino, Frank K. Soong, L. R. Rabiner, Dennis H. Klatt,

Tópico(s)

Speech and Audio Processing

Resumo

Local spectral distortion measures are commonly used to measure the similarity (or spectral distance) between two given short-time spectra. In this study we compared several different spectral distortion measures including the Itakura-Saito distortion measure, the log likelihood ratio (LLR) distortion measure, the likelihood ratio (LR) distortion measure, the cepstral (CEP) distortion measure, and two proposed perceptually based distortion measures, the weighted likelihood ratio (WLR) and the weighted slope metric (WSM) distortion measures, in terms of their effects on the performance of standard dynamic time warping (DTW) based, isolated word, speech recognizer. Two modifications of the basic forms of each measure were also investigated, namely a Bark-scale frequency warping and the incorporation of suprasegemental energy information. All distortion measures and their modifications were tested on an alpha-digit vocabulary, 4-talker, telephone recording data base. The results can be summarized as: (1) All LPC-based distortion measures performed reasonably well. The log likelihood ratio and weighted slope metric distortion measures gave the highest recognition accuracy, while the Itakura-Saito distortion measure gave the lowest score; (2) Whereas the addition of suprasegmental energy information helped the recognition performance, the use of gain and absolute loudness degraded the performance; (3) Bark-scale frequency warping did not, at least for the highly bandlimited telephone data base we tested, performed as well as its unwarped counterpart; (4) The weighted likelihood ratio distortion measure did not perform as well as its unweighted counterpart. Ein lokales Mass der spektralen Verzerrung wird oft angewandt, um die Ähnlichkeit (oder Distanz) zwischen zwei Kurzzeitspektren zu bestimmen. In dieser Studie vergleichen wir verschiedene spektrale Verzerrungsmasse, nämlich das Itakura-Saito Verzerrungsmass (IS), den Logarithmus des Wahrscheinlichkeitsquotienten (LR), des Cepstrale Verzerrungsmass (CEP) sowie zwei Verzerrungsmasse mit perzeptivem Hintergrund—den gewichteten Wahrscheinlichkeitsquotienten (WLR) und die Metrik mit gewichtetem Richtungskoeffizienten (WSM). Unser Ziel war, diese Verzerrungsmasse auf ihren Einfluss auf die Leistung eines Einzelworterkennungssystems zu untersuchen, welches auf einer dynamischen Verzerrungsmethode beruht. Zwei Modifikationen jedes Masses wurden ebenfalls untersucht, nämlich eine Frequenzverzerrung entlang einer Barksala sowie die Eingliederung suprasegmentaler Information. Alle Verzerrungsmasse sowie ihre Modifikationen wurden mit Hilfe eines Datenträgers getestet. welcher vier über Telephon aufgenommene Sprecher umfasste. Die Resultate können wie folgt zusammengefasst werden: (1) die Leistung aller auf der linearen prädiktiven Kodierung beruhenden Verzerrungsmasse war annehmbar. Der Logarithmus des Wahrscheinlichkeitsquotienten und die Metrik mit gewichtenem Richtungskoeffizienten hatten die beste Erkennungsleistung, wohingegen das Itakura-Saito Verzerrungsmass eher schlecht abschnitt; (2) die Ausnutzung suprasegmentaler Information erwies sich als nützlich, während sich die Benutzung des Verstärkungskoeffizienten sowie der absoluten Lautstärke als schädlich herausstellte; (3) die Frequenzverzerrung entlang einer Barksala erwies sich als weniger erfolgreich als die unverzerrte Form, wenigstens im Zusammenhang unserer durch einen begrenzten Frequenzgang gekennzeichneten Daten; (4) der gewichtete Wahrscheinlichkeitsquotient erwies sich als weniger leistungsfähig als seine ungewichtete Alternative. Des mesures locales de distortions spectrales sont souvent utilisées pour évaluer la similitude (ou la distance) entre deux spectres à court terme. Dans cette étude, nous comparons différences mesures de distortion spectrale, entre autres la mesure de distorsion d'Itakura-Saito (IS), celle par quotient de vraisemblance logarithmique, la mesure de distortion par quotient de vraisemblance (LR), la mesure de distorsion cepstrale (CEP) et deux mesures de distortion basées sur la perception—le quotient de vraisemblance pondéré (WLR) et la métrique à pente pondérée. (WSM). On souhaite déterminer leur effet sur les performances d'un système de reconnaissance de mots isolés par programmation dynamique (DTW). Deux modifications de la version de base de chaque mesure ont été également examinées—une distortion en fréquences selon une échelle en Bark et l'incorporation d'une information suprasegmentale—. Toutes ces mesures et leurs mldifications ont été testées sur une base de données multi-locuteurs (4) enregistrés par téléphone. Les résultats peuvent être résumés ainsi: (1) toutes les mesures de distorsion sur base LPC ont fourni des résultats satisfaisants. Les mesures de distorsion par quotient de vraisemblance logarithmique et par métrique à pente pondérée ont donné lieu aux meilleures performances de reconnaissance, tandis que la mesure d'Itakura-Saito a réalisé les performances les plus faibles; (2) l'utilisation d'une information suprasegmentale a amélioré la reconnaissance, tandis que l'utilisation du grain et de la force sonore a dégradé les performances; (3) la distorsion spectrale sur une échelle en Bark s'est révélée moins performante que son équivalent libre de toute distorsion, du moins sur notre base de données caractérisée par une largeur de bande limitée; (4) la puissance du quotient de vraisemblance logarithmique pondérée est apparue réduite par rapport à son équivalent non pondéré.

Referência(s)
Altmetric
PlumX