Artigo Revisado por pares

Combining speech enhancement and auditory feature extraction for robust speech recognition

2001; Elsevier BV; Volume: 34; Issue: 1-2 Linguagem: Inglês

10.1016/s0167-6393(00)00047-9

ISSN

1872-7182

Autores

Michael Kleinschmidt, Jürgen Tchorz, Birger Kollmeier,

Tópico(s)

Advanced Adaptive Filtering Techniques

Resumo

A major deficiency in state-of-the-art automatic speech recognition (ASR) systems is the lack of robustness in additive and convolutional noise. The model of auditory perception (PEMO), developed by Dau et al. (T. Dau, D. Püschel, A. Kohlrausch, J. Acoust. Soc. Am. 99 (6) (1996) 3615–3622) for psychoacoustical purposes, partly overcomes these difficulties when used as a front end for automatic speech recognition. To further improve the performance of this auditory-based recognition system in background noise, different speech enhancement methods were examined, which have been evaluated in earlier studies as components of digital hearing aids. Monaural noise reduction, as proposed by Ephraim and Malah (Y. Ephraim, D. Malah, IEEE Trans. Acoust. Speech Signal Process. ASSP-32 (6) (1984) 1109–1121) was compared to a binaural filter and dereverberation algorithm after Wittkop et al. (T. Wittkop, S. Albani, V. Hohmann, J. Peissig, W. Woods, B. Kollmeier, Acustica United with Acta Acustica 83 (4) (1997) 684–699). Both noise reduction algorithms yield improvements in recognition performance equivalent to up to 10 dB SNR in non-reverberant conditions for all types of noise, while the performance in clean speech is not significantly affected. Even in real-world reverberant conditions the speech enhancement schemes lead to improvements in recognition performance comparable to an SNR gain of up to 5 dB. This effect exceeds the expectations as earlier studies found no increase in speech intelligibility for hearing-impaired human subjects. Die mangelnde Robustheit moderner Systeme zur automatischen Spracherkennung gegenüber additiven und konvolutiven Störungen ist eines der drängensten Probleme aktueller Forschung. Das Perzeptionsmodell nach Dau et al. (T. Dau, D. Püschel, A. Kohlrausch, J. Acoust. Soc. Am. 99 (6) (1996) 3615–3622), welches ursprünglich für psychoakustische Anwendungen konzipiert wurde, kann als auditorische Vorverarbeitung zu einer robusteren Erkennungsleistung beitragen. Um die Klassifikationsleistung dieses gehörbasierten Erkennungssystems weiter zu erhöhen, wurden verschiedene Methoden zu Störgeräuschunterdrückung untersucht, welche in der Vergangenheit als Komponenten digitaler Hörgeräte evaluiert wurden. Verglichen wurde das monaurale Verfahren zur Störgeräuschreduktion nach Ephraim and Malah (Y. Ephraim, D. Malah, IEEE Trans. Acoust. Speech Signal Process. ASSP-32 (6) (1984) 1109–1121) mit dem binauralen Filter und Enthallungsalgorithmus nach Wittkop et al. (T. Wittkop, S. Albani, V. Hohmann, J. Peissig, W. Woods, B. Kollmeier, Acustica United with Acta Acustica 83 (4) (1997) 684–699). In reflexionsarmer Umgebung bewirkten beide Algorithmen eine Erhöhung der Erkennungsleistung, entsprechend einer Verbesserung des Signal-Rausch-Abstands um bis zu 10 dB für alle untersuchten Störgeräusche, während die Ergebnisse in Ruhe nicht beeinträchtigt wurden. Selbst in realer, verhallter Umgebung erreichten die Störunterdrückungsverfahren Verbesserungen der Erkennungsleistung vergleichbar einem um bis zu 5 dB günstigeren SNR. Diese Ergebnisse übertreffen die Erwartungen, da in früheren Untersuchungen für schwerhörige Versuchspersonen mit digitalen Hörgeräten keine Erhöhung der Sprachverständlichkeit gefunden werden konnte. Un des problèmes les plus urgents de la recherche actuelle des systèmes de reconnaissance de la parole automatique est leur robustesse déficiente envers du bruit additif et la réverbération. Le modèle de perception auditive (PEMO) réalisé par Dau et al. (T. Dau, D. Püschel, A. Kohlrausch, J. Acoust. Soc. Am. 99 (6) (1996) 3615–3622) pour une application dans le domaine psychoacoustique peut partiellement surmonter ces difficultés, s'il est appliqué comme prétraitement pour la reconnaissance de la parole automatique. Afin de perfectionner la performance de ce système auditif de reconnaissance de la parole automatique en bruit d'environnement, plusieurs méthodes de débruitage de la parole furent examinées, qui étaient évaluées comme composants des prothéses auditives dans le passé. La réduction monaurale de bruit comme proposée par Ephraim and Malah (Y. Ephraim, D. Malah, IEEE Trans. Acoust. Speech Signal Process. ASSP-32 (6) (1984) 1109–1121) fut comparée avec le filtre binaural et l'algorithme de réverbération d'après Wittkop et al. (T. Wittkop, S. Albani, V. Hohmann, J. Peissig, W. Woods, B. Kollmeier, Acustica United with Acta Acustica 83 (4) (1997) 684–699). Tous les deux algorithmes de réduction de bruit améliorent la performance de reconnaissance correspondant à une amélioration de jusqu'à 10 dB de rapport signal/bruit pour tous les bruits d' environnement étudiés, pendant que les résultats obtenus pour la parole présentée sans bruit ne furent pas diminués considérablement. Même dans un environnement réel sans réverbération ces méthodes de réduction de bruit améliorent la performance de reconnaissance correspondant à une amélioration de jusqu'à 5 dB de rapport signal/bruit. Ces résultats dépassent les prévisions, parce que dans des anciennes études on n'avait pas obtenu une augmentation de l'intelligibilité de la parole pour des patients avec des déficiences auditives.

Referência(s)
Altmetric
PlumX