A new cepstral prefiltering technique for estimating time delay under reverberant conditions
1997; Elsevier BV; Volume: 59; Issue: 3 Linguagem: Francês
10.1016/s0165-1684(97)00051-0
ISSN1872-7557
AutoresAlex Stéphenne, Benoı̂t Champagne,
Tópico(s)Hearing Loss and Rehabilitation
ResumoA microphone array can be used for hands-free acquisition of speech under reverberant conditions. This requires knowledge about the desired talker location, which can be obtained by estimating the time delays between the signals received by one or more pairs of spatially separated microphones. However, in a typical audio-conference room, strong reverberation is usually present and can have disastrous effects on the performance of conventional time delay estimation (TDE) methods. In this article, we present and evaluate a new cepstral prefiltering technique which can be applied on the received signals before the actual TDE in order to obtain a more accurate estimate of the delay in a typical reverberant environment. The technique is based on the estimation and the subtraction of the minimum-phase component (MPC) of the channel cepstrum from the total cepstrum of each microphone signal. So, in the same way that it is necessary in certain TDE methods to estimate the power spectral densities of the signals of interest from the received data, the new method requires the estimation of the channel MPC in the cepstral domain. The performances of a TDE system with and without cepstral prefiltering are compared via Monte-Carlo simulations for fixed random and speech sources as well as for a moving random source. The results clearly demonstrate the beneficial effects of the new cepstral prefiltering technique on TDE performance when the source is fixed or slowly moving. Ein Mikrofonarray kann für die Aufnahme von Sprache mit Freisprecheinrichtungen unter verhallten Bedingungen eingesetzt werden. Dies setzt Kenntnisse über die gewünschte Sprecherposition voraus, die durch eine Schätzung der Zeitverzögerungen zwischen den empfangenen Signalen von einem oder mehreren räumlich getrennten Mikrofonpaaren erhalten werden kann. In einem typischen Audiokonferenz-Raum ist jedoch gewöhnlich groβer Nachhall zu erwarten, der katastrophale Auswirkungen auf die Arbeitsweise einer konventionellen Zeitverzögerungsschätzung (TDE) hat. In diesem Artikel zeigen und entwickeln wir ein neues Cepstrum-Vorfilterungsverfahren, das auf die empfangenen Signale vor der eigentlichen TDE angewandt werden kann, um eine genauere Schätzung der Zeitverzögerung in einer typischen verhallten Umgebung zu erhalten. Das Verfahren basiert auf der Schätzung und Subtraktion des minimalphasigen Anteils (MPC) des Kanalcepstrums vom Gesamtcepstrum jedes einzelnen Mikrofonsignals. Ebenso wie es bei verschiedenen TDE-Methoden nötig ist, das Leistungsdichtespektrum des interessanten Signals zu schätzen, benötigt diese neue Methode eine Schätzung der Minimalphasenkomponente des Kanals im Cepstral-Bereich. Die Güte eines TDE-Systems mit und ohne cepstraler Vorfilterung werden mit Monte-Carlo Simulationen sowohl für feste Zufalls- und Sprachquellen, als auch für eine bewegliche Zufallsquelle verglichen. Die Ergebnisse zeigen deutlich die vorteilhaften Effekte der neuen cepstralen Vorfilterungsmethode auf die TDE Genauigkeit, wenn die Quell fest ist oder sich langsam bewegt. Un réseau de microphones peut être utilisé lors de la réception mains-libres de signaux de parole en milieu réverbérant. Ceci nécessite la connaissance de la position du locuteur, qui peut être obtenue en estimant les délais de propagation entre les signaux reçus par plusieurs paires de microphones. Cependant, dans une salle de télé-conférence typique, un fort niveau de réverbération est habituellement présent et peut avoir des effets désastreux sur la performance des méthodes d'estimation de délai (ED) conventionnelles. Dans cet article, nous présentons et évaluons une nouvelle technique de préfiltrage cepstral pouvant être appliquée aux signaux reçus avant l'ED de façon à obtenir des estimés de délai plus précis en milieu réverbérant. Cette technique est basée sur l'estimation de la composante en phase minimale (CPM) du cepstre du canal de transmission, que l'on soustrait ensuite du cepstre du signal reçu à chaque microphone. Donc, de la même façon qu'il est nécessaire, pour certaines méthodes d'ED, d'estimer la densité spectrale de puissance des signaux d'intérêt à partir des signaux reçus, la nouvelle technique nécessite l'estimation de la CPM du canal de transmission dans le domaine cepstral. Les performances d'un système d'ED avec et sans préfiltrage cepstral sont comparées à l'aide de simulations Monte-Carlo pour une source aléatoire fixe ou en mouvement, ainsi que pour une source fixe de parole. Les résultats démontrent clairement les effets bénéfiques de la technique de préfiltrage cepstral sur la performance du système d'ED lorsque la source est fixe ou bouge lentement.
Referência(s)