Artigo Revisado por pares

Voice transformation using PSOLA technique

1992; Elsevier BV; Volume: 11; Issue: 2-3 Linguagem: Inglês

10.1016/0167-6393(92)90012-v

ISSN

1872-7182

Autores

H. Valbret, Éric Moulines, Jean-Pierre Tubach,

Tópico(s)

Speech Recognition and Synthesis

Resumo

In this contribution, a new system for voice conversion is described. The proposed architecture combines a PSOLA (Pitch Synchronous Overlap and Add)-derived synthesizer and a module for spectral transformation. The synthesizer based on the classical source-filter decomposition allows prosodic and spectral transformations to be performed independently. Prosodic modifications are applied on the excitation signal using the TD-PSOLA scheme; converted speech is then synthesized using the transformed spectral parameters. Two different approaches to derive spectral transformations, borrowed from the speech-recognition domain, are compared: Linear Multivariate Regression (LMR) and Dynamic Frequency Warping (DFW). Vector-quantization is carried out as a preliminary stage to render the spectral transformations dependent of the acoustical realization of sounds. A formal listening test shows that the synthesizer produces a satisfyingly natural “transformed” voice. LMR proves yet to allow a slightly better conversion than DFW. Still there is room for improvement in the spectral transformation stage. In diesem Artikel stellen wir eine neue Technik zur Sprachtransformation vor. Die vorgeschlagene Struktur verbindet einen, von der Methode PSOLA (Pitch-Synchronous Overlap and Add) abgeleiteten, Synthesizer mit einem Modul zur Transformation der Spektralparameter. Der Synthesizer besteht aus einer klassischen Quell-Filter Zerlegung und einer prosodischen Modifikation des Erregungsignals mit Hilfe des TD-PSOLA (Time Domain PSOLA) Schemas. Zwei Wege der spektralen Transformation werden verglichen, die aus der Anwendung in der Spracherkennung entliehen sind: LMR (Linear Multivariate Regression) und DFW (dynamische Frequenzanpassung, Dynamic Frequency Warping). Eine einleitende Vektor-quantisierung erlaubt, daβ die Transformation von der akustischen Umsetzung der Töne abhängig wird. Ein formeller Hörtest zeigt, daβ der Synthesizer eine zufriedenstellende Qualität der “transformierten” Sprache liefert. Zur Zeit ist die LMR Methode leistungsfähiger als die DFW, aber in der Transformation der Spektralparameter ist noch Verbesserungsspielraum vorhanden. Nous présentons dans cet article une nouvelle technique de transformation de timbre de la voix. Cette technique s'articule autour d'un synthétiseur dérive de l'approche PSOLA (Pitch-Synchronous Overlap and Add) et d'un module de transformation des paramètres spectraux. Le synthétiseur allie décomposition source-filtre et modification prosodique du signal d'excitation par application de TD-PSOLA (Time Domain PSOLA). Deux approches de transformation spectrale, dérivées de techniques d'adaptation en reconnaissance de parole, sont comparées: la Régression Linéaire Multiple (LMR) et l'Alignement Dynamique en Fréquence (DFW). Une étape préliminaire de quantification vectorielle permet de rendre ces transformations dépendantes des réalisations acoustiques des sons. Un test d'écoute formel démontre que le synthétiseur permet d'obtenir une voix “transformée” d'un naturel satisfaisant. L'étape de transformation des paramètres spectraux est perfectible, la LMR donnant pour l'instant des résultats plus probants que la DFW.

Referência(s)
Altmetric
PlumX