A pitch determination and voiced/unvoiced decision algorithm for noisy speech

Artigo Revisado por pares

A pitch determination and voiced/unvoiced decision algorithm for noisy speech

1997; Elsevier BV; Volume: 21; Issue: 3 Linguagem: Francês

10.1016/s0167-6393(97)00002-2

ISSN

1872-7182

Autores

Jean Rouat, Yong Chun Liu, Daniel Morissette,

Tópico(s)

Hearing Loss and Rehabilitation

Resumo

The design of a pitch tracking system for noisy speech is a challenging and yet unsolved issue due to the association of "traditional" pitch determination problems with those of noise processing. We have developed a multi-channel pitch determination algorithm (PDA) that has been tested on three speech databases (0 dB SNR telephone speech, speech recorded in a car and clean speech) involving fifty-eight speakers. Our system has been compared to a multi-channel PDA based on auditory modelling (AMPEX), to hand-labelled and to laryngograph pitch contours. Our PDA is comprised of an automatic channel selection module and a pitch extraction module that relies on a pseudo-periodic histogram (combination of normalised scalar products for the less corrupted channels) in order to find pitch. Our PDA excelled in performance over the reference system on 0 dB telephone and car speech. The automatic selection of channels was effective on the very noisy telephone speech (0 dB) but performed less significantly on car speech where the robustness of the system is mainly due to the pitch extraction module in comparison to AMPEX. This paper reports in details the voiced/unvoiced, unvoiced/voiced performance and pitch estimation errors for the proposed PDA and the reference system while utilising three speech databases. Der Entwurf eines Systems zur Grundfrequenzanalyse von verrauschter Sprache ist eine anspruchsvolle und bisher noch nicht zufriedenstellend gelöste Aufgabe, da hierbei "traditionelle" Probleme bei der Grundfrequenzextraktion mit Problemen bei der Verarbeitung verrauschter Signale zusammentreffen. Wir stellen einen Mehrkanal-Grundfrequenzalgorithmus (PDA) vor, der mit drei Sprachdatensammlungen mit ingesamt 58 Sprechern getestet worden ist (Telefonsprache mit 0 dB SNR, Sprachsignale, die im Auto aufgezeichnet wurden, sowie unverrauschte Sprachsignale). Das System wurde verglichen mit dem AMPEX System so wie mit manuell erstellten Referenzkonturen und Grundfrequenzkonturen, welche aufgrund des Laryngosignals erstellt wurden. AMPEX ist ein Mehrkanal-PDA, der auf einem Modell des menschlichen Gehörs beruht. Unser PDA besteht aus einem Modul zur automatischen Kanalauswahl und einem Grundfrequenzextraktionsmodul, das zur Extraktion ein pseudoperiodisches Histogramm benutzt (Kombination der normalisierten Skalarprodukte der ausgewählten Kanäle). Das System erwies sich gegenüber dem Referenzsystem bei den 0 dB Telefonsignalen und bei den im Auto aufgenommenen Signalen überlegen. Bei den stark verrauschten Telefonsignalen (0 dB) führte die automatische Kanalauswahl zur Verbesserung, während bei den im Auto aufgezeichneten Signalen die Robustheit des Gesamtsystems hauptsächlich auf ein — im Vergleich zum AMPEX-System — besseres Verhalten des Grundfrequenzextraktionsmoduls zurückzuführen ist. Ausführlich geht der Artikel ein auf die Performanz des Systems und des Referenzsystems für die drei Sprachsammlungen in bezug auf Stimmhaft/Stimmlos-Fehler, Stimmlos/Stimmhaft-Fehler und Grundfrequenzfehler. La conception d'un système de suivi de fréquence glottale, pour de la parole bruitée, est complexe et constitue un problème qui est loin d'être résolu. En effet, le traitement en milieu bruité est une difficulté supplémentaire qui s'ajoute à celle du suivi de la fréquence glottale. On propose ici un algorithme de détermination de fréquence glottale qui est basé sur une analyse multicanaux. Cet algorithme a été testé sur 3 bases de données (parole téléphonique bruitée artificiellement à 0 dB, enregistrement dans une automobile et parole "propre") regroupant cinquante-huit locuteurs. Le système a été comparé, à AMPEX (modèle auditif) et à des contours de fréquence glottale obtenus de façon manuelle ou par laryngogrammes. Notre algorithme inclut un module de sélection automatique des canaux significatifs ainsi qu'un module d'extraction de fréquence glottale basé sur un pseudo-histogramme périodique (obtenu par combinaison de produits scalaires normalisés des signaux provenant des canaux sélectionnés). Sur les enregistrements bruités (voiture et parole téléphonique à 0 dB), le système proposé dépasse AMPEX. Il a été observé que la sélection automatique des canaux améliore les performances sur la parole à 0 dB mais pas sur les enregistrements en véhicule automobile. L'article décrit le système proposé ainsi que les performances en termes de décisions voisé/non voisé, d'erreur fine et grossière.

Ver no editor

Altmetric

PlumX

Entrar

Lembrar minha senha

Receber meu e-mail de confirmação

A pitch determination and voiced/unvoiced decision algorithm for noisy speech