JP4396449B2 - Reverberation removal method and apparatus - Google Patents

Reverberation removal method and apparatus Download PDF

Info

Publication number
JP4396449B2
JP4396449B2 JP2004245778A JP2004245778A JP4396449B2 JP 4396449 B2 JP4396449 B2 JP 4396449B2 JP 2004245778 A JP2004245778 A JP 2004245778A JP 2004245778 A JP2004245778 A JP 2004245778A JP 4396449 B2 JP4396449 B2 JP 4396449B2
Authority
JP
Japan
Prior art keywords
signal
reverberation
filter
filter coefficient
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004245778A
Other languages
Japanese (ja)
Other versions
JP2006067127A (en
Inventor
恵一 ▲吉▼田
博昭 竹山
靖久 井平
実 福島
彰洋 菊池
敏 杉本
章 寺澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Electric Works Co Ltd
Original Assignee
Panasonic Corp
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Works Ltd filed Critical Panasonic Corp
Priority to JP2004245778A priority Critical patent/JP4396449B2/en
Publication of JP2006067127A publication Critical patent/JP2006067127A/en
Application granted granted Critical
Publication of JP4396449B2 publication Critical patent/JP4396449B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Description

本発明は、浴室などの残響のある場所で音声を明瞭に集音するために用いる残響除去方法及びその装置に関するものである。   The present invention relates to a reverberation removal method and apparatus used for clearly collecting sound in a reverberant place such as a bathroom.

近年、インターホンシステムなどにおいてマイクロホンとスピーカを利用して拡声通話を行う拡声通話装置が普及してきているが、この種の拡声通話装置を残響のある場所(例えば、浴室など)に設置した場合、話者の音声の残響がマイクロホンで集音されるために音声が不明瞭になってしまう虞があった。これに対してマイクロホンで集音される音声から残響を除去する方法(残響除去方法)及び残響除去装置が種々提案されている。   In recent years, loudspeaker devices that perform loudspeaker calls using a microphone and speaker have become widespread in intercom systems, etc., but if this type of loudspeaker device is installed in a reverberant place (for example, a bathroom) Since the reverberation of the person's voice is collected by the microphone, the voice may become unclear. On the other hand, various methods (reverberation removal methods) and reverberation removal devices for removing reverberation from sound collected by a microphone have been proposed.

例えば、非特許文献1には、単一マイクロホンで集音された信号から室内伝達特性の最小位相成分のみを取り除いて回復させる方法が提案されている。しかし、この方法は室内音場が最小位相特性をもつときのみしか有効でない。また、非特許文献2には、音源の数に対しマイクロホンを一つ以上多く配置することで、音源とマイクロホン間の伝達特性の零点が重複しない場合、系が最小位相特性を有していなくても音源波形そのものを正確に復元できる音場逆フィルタ理論が提唱されている。これらの伝達特性の逆特性を逆フィルタ手段で実現する方法では、逆フィルタを決定する上であらかじめ逆フィルタ用パラメータ(残響のインパルス応答)を測定しておかなければならない。しかし、室内伝達系は、室内環境の様々な変動に伴い時間と共に変動するため、高い回復精度を保持するために、その都度、伝達系を測定し、適応的に処理しなければならない。さらに、非特許文献3には、残響特性がスペクトル歪だけでなく信号波形のエンベロープに影響を与えることに着目し、室内伝達特性の測定を必要としない方法が提案されている。これは、変調伝達関数(MTF:Modulation Transfer Function)に基づいて音源信号と伝達系をモデル化し、信号波形そのものではなく、パワーエンベロープの回復を目的としたパワーエンベロープ逆フィルタ処理として実現されている。
特開平9−321860号公報 Stephen T. Neely and Jont B. Allen 「Invertibility of a room impulse response」,J.Acoust.Soc.Am.Vol.66,No.1,July 1979 Miyoshi,M. and Kaneda,Y.,「Inverse filtering of room acoustics,」 IEEE Trans.ASSP,Vol.36,No.2,pp.145-152,Feb.1988 広林茂樹、野村博昭、東山三樹夫「パワーエンベローブ伝達関数の逆フィルタ処理による残響音声の回復」電子情報通信学会論文誌A,Vol.J81-A,No.10,pp.1323-1330,2000 古川正和,鵜木祐史,赤木正人,「MTFに基づいた残響音声パワーエンベローブの回復方法」電子情報通信学会 信学技法,EA2002-15,SP2002-15(2002-04)
For example, Non-Patent Document 1 proposes a method of removing only the minimum phase component of room transfer characteristics from a signal collected by a single microphone and recovering it. However, this method is effective only when the room sound field has a minimum phase characteristic. Further, in Non-Patent Document 2, when one or more microphones are arranged with respect to the number of sound sources and the zeros of the transfer characteristics between the sound sources and the microphones do not overlap, the system does not have the minimum phase characteristics. The sound field inverse filter theory that can accurately restore the sound source waveform itself has been proposed. In the method of realizing the inverse characteristics of these transfer characteristics with the inverse filter means, the inverse filter parameters (reverberation impulse response) must be measured in advance to determine the inverse filter. However, since the indoor transmission system changes with time according to various changes in the indoor environment, the transmission system must be measured and adaptively processed each time in order to maintain high recovery accuracy. Further, Non-Patent Document 3 proposes a method that does not require measurement of indoor transfer characteristics, focusing on the fact that reverberation characteristics affect not only spectral distortion but also the envelope of the signal waveform. This is realized as a power envelope inverse filter process for the purpose of recovering the power envelope, not the signal waveform itself, by modeling the sound source signal and the transmission system based on the modulation transfer function (MTF).
JP-A-9-321860 Stephen T. Neely and Jont B. Allen "Invertibility of a room impulse response", J.Acoust.Soc.Am.Vol.66, No.1, July 1979 Miyoshi, M. and Kaneda, Y., "Inverse filtering of room acoustics," IEEE Trans.ASSP, Vol.36, No.2, pp.145-152, Feb.1988 Shigeki Hirobayashi, Hiroaki Nomura, Mikio Higashiyama "Recovery of reverberant speech by inverse filtering of power envelope transfer function" IEICE Transactions A, Vol. J81-A, No. 10, pp. 1323-1330, 2000 Masakazu Furukawa, Yuji Kashiwagi, Masato Akagi, "Recovery method of reverberant voice power envelope based on MTF" IEICE Technical Report, EA2002-15, SP2002-15 (2002-04)

しかしながら、非特許文献3に開示されたパワーエンベロープ回復方法では、モデル化された室内伝達特性のパラメータ(振幅と残響時間)の決定法が不明確であり、一般的なパラメータ決定法であるTSP法やM系列法といったインパルス応答測定方法では、測定時に可聴領域音をスピーカから出力せねばならず、これが現実的な応用問題への発展を制限しているという問題があった。   However, in the power envelope recovery method disclosed in Non-Patent Document 3, the method for determining the parameters (amplitude and reverberation time) of the modeled room transfer characteristic is unclear, and the TSP method is a general parameter determination method. In an impulse response measurement method such as the M-sequence method, an audible range sound must be output from a speaker at the time of measurement, which limits the development of a practical application problem.

これに対して非特許文献4では、非特許文献3のパワーエンベローブ逆フィルタ処理をベースに(1)パワーエンベローブの抽出法,(2)室内インパルス応答のパラメータ(振幅項と残響時間)の決定法といった原理上の問題点の改善を提案している。しかしながら、非特許文献4に開示された方法においては、音声信号のキャリア信号をホワイトノイズで近似しており、キャリア信号が受ける残響音場の影響を考慮していないため、不十分な音源信号しか復元されないという問題がある。特に、かかる方法を浴室に設置されるインターホンの通話端末に適用した場合、来訪者からは話者が浴室内で通話していることが判ってしまい、居住者のプライバシーを侵害してしまうという問題があった。   On the other hand, in Non-Patent Document 4, based on the power envelope inverse filter processing of Non-Patent Document 3, (1) a method for extracting power envelopes, and (2) a method for determining parameters of an indoor impulse response (amplitude term and reverberation time) It proposes the improvement of the problems in principle. However, in the method disclosed in Non-Patent Document 4, the carrier signal of the audio signal is approximated by white noise, and the influence of the reverberant sound field that the carrier signal receives is not taken into consideration. There is a problem that it is not restored. In particular, when such a method is applied to an intercom telephone terminal installed in a bathroom, the visitor knows that the speaker is talking in the bathroom, which violates the privacy of the resident. was there.

一方、特許文献1には、事前に可聴領域音を測定できない場合や伝達関数が時々刻々変化する場合でも適用可能な残響除去装置及び方法が開示されている。この残響除去装置は、少なくとも2つのマイクロホンと、これら2つのマイクロホンに対応した逆フィルタ部及び伝達関数模擬フィルタ部をそれぞれ構成要件としているが、インターホン等の拡声通話装置にこの方法及び装置を適用しようとすると、マイクロホンと演算用メモリ領域を増設し且つ高性能の信号処理演算器を用いる必要があるため、利用者への提供価格が高くなってしまい、これが一般家庭への普及の障壁になっているという問題があった。   On the other hand, Patent Document 1 discloses a dereverberation apparatus and method applicable even when an audible area sound cannot be measured in advance or when the transfer function changes from moment to moment. This dereverberation apparatus has at least two microphones, and an inverse filter unit and a transfer function simulation filter unit corresponding to these two microphones, respectively. However, this method and apparatus will be applied to a loudspeaker device such as an interphone. Then, since it is necessary to add a microphone and a memory area for calculation and use a high-performance signal processing arithmetic unit, the price to provide to the user becomes high, which becomes a barrier to the spread to general households. There was a problem of being.

本発明は、上記事情に鑑みてなされたものであり、その目的は、可聴領域音を鳴らさなくとも残響音を除去することができる残響除去方法及びその装置を提供することにある。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a reverberation removing method and apparatus capable of removing reverberant sound without sounding an audible area sound.

請求項1の発明は、上記目的を達成するために、残響空間においてマイクロホンで集音する残響音声信号から残響成分を除去して元の音源信号を復元する残響除去方法であって、残響空間に存在するスピーカとマイクロホンとの音響結合によって形成される帰還経路のインパルス応答をFIR型フィルタからなる適応フィルタにより適応的に同定してマイクロホンで集音した残響音声信号から帰還経路のエコー成分を推定する第1のステップと、第1のステップにおいて適応フィルタで推定されたエコー成分を帰還経路の出力信号より減算する第2のステップと、第2のステップにおける減算結果に含まれたエコー成分推定値の推定誤差が最小となるように適応フィルタのフィルタ係数を更新する第3のステップと、第3のステップにおいてエコー成分推定値の推定誤差が最小となったときのフィルタ係数を残響空間のインパルス応答に代用し該フィルタ係数から残響空間の伝達関数を求める第4のステップと、第4のステップで求めた残響空間の伝達関数とマイクロホンで集音した残響音声信号との演算から元の音声信号を求める第5のステップとを有し、第3のステップにおいて、最小自乗平均アルゴリズムにより適応フィルタのフィルタ係数を更新するとともに、残響音声信号に音声が含まれているか否かを判定し、音声が含まれている場合にだけ適応フィルタのフィルタ係数を更新し、さらに、スピーカから出力する音声信号の瞬時パワーに対する残響音声信号の瞬時パワー比が所定のしきい値よりも大きい場合に適応フィルタにおけるステップゲインを相対的に小さい値に設定するとともに、マイクロホンで集音された信号とスピーカから出力される信号の双方に音声が含まれているか否かを判定し、双方に音声が含まれている場合には適応フィルタのフィルタ係数を更新しないことを特徴とする。 In order to achieve the above object, the invention of claim 1 is a dereverberation method for removing a reverberation component from a reverberant speech signal collected by a microphone in a reverberation space and restoring an original sound source signal. The impulse response of the feedback path formed by the acoustic coupling between the existing speaker and the microphone is adaptively identified by the adaptive filter composed of the FIR filter, and the echo component of the feedback path is estimated from the reverberant speech signal collected by the microphone. A first step, a second step of subtracting the echo component estimated by the adaptive filter in the first step from the output signal of the feedback path, and an echo component estimated value included in the subtraction result in the second step In a third step of updating the filter coefficient of the adaptive filter so that the estimation error is minimized, A fourth step of substituting the filter coefficient when the estimation error of the co-component estimation value is minimized to the impulse response of the reverberation space to obtain a transfer function of the reverberation space from the filter coefficient, and the reverberation obtained in the fourth step possess a fifth step of obtaining the original audio signal from the calculation of the reverberant audio signal collected by the transfer function and a microphone space, in a third step, the filter coefficients of the adaptive filter by the minimum mean square algorithm updates At the same time, it is determined whether or not sound is included in the reverberant sound signal, the filter coefficient of the adaptive filter is updated only when sound is included, and reverberation with respect to the instantaneous power of the sound signal output from the speaker. A relatively small step gain in the adaptive filter when the instantaneous power ratio of the audio signal is greater than a predetermined threshold In addition, it is determined whether or not both the signal collected by the microphone and the signal output from the speaker include sound. If both include sound, the filter coefficient of the adaptive filter is set. It is characterized by not being updated .

請求項2の発明は、請求項1の発明において、第4のステップにおいて、フィルタ係数をフーリエ変換することにより周波数領域における伝達関数を求め、第5のステップにおいては残響音声信号をフーリエ変換するとともに第4のステップで求めた周波数領域の伝達関数の大きさで除算した後に逆フーリエ変換することを特徴とする。   In the invention of claim 2, in the invention of claim 1, in the fourth step, a transfer function in the frequency domain is obtained by Fourier transforming the filter coefficient, and in the fifth step, the reverberant speech signal is Fourier transformed. The inverse Fourier transform is performed after dividing by the magnitude of the transfer function in the frequency domain obtained in the fourth step.

請求項の発明は、請求項の発明において、第3のステップにおいて、フィルタ係数が発散した場合にフィルタ係数を初期化することを特徴とする。 The invention of claim 3 is characterized in that, in the invention of claim 1 , in the third step, the filter coefficient is initialized when the filter coefficient diverges.

請求項の発明は、請求項の発明において、第3のステップにおいて、マイクロホンで集音された信号とスピーカから出力される信号の双方に音声が含まれている場合であっても帰還経路が変動したときにはフィルタ係数の更新を継続することを特徴とする。 According to a fourth aspect of the present invention, in the first aspect of the present invention, in the third step, even in the case where both the signal collected by the microphone and the signal output from the speaker include sound, the feedback path. When the value fluctuates, the filter coefficient is continuously updated.

請求項の発明は、請求項1又は2の発明において、第5のステップにおいて、マイクロホンで集音された信号とスピーカから出力される信号の双方に音声が含まれているか否かを判定し、マイクロホンで集音された信号とスピーカから出力される信号の少なくとも何れか一方に音声が含まれておらず、且つエコー成分推定値の推定誤差が所定のしきい値より小さい場合に残響音声信号をゼロとすることを特徴とする。 According to a fifth aspect of the present invention, in the first or second aspect of the present invention, in the fifth step, it is determined whether or not sound is included in both the signal collected by the microphone and the signal output from the speaker. A reverberant audio signal when no audio is included in at least one of the signal collected by the microphone and the signal output from the speaker, and the estimation error of the echo component estimation value is smaller than a predetermined threshold value Is set to zero.

請求項の発明は、上記目的を達成するために、残響空間においてマイクロホンで集音する残響音声信号から残響成分を除去して元の音源信号を復元する残響除去装置であって、FIR型フィルタからなり、残響空間に存在するスピーカとマイクロホンとの音響結合によって形成される帰還経路のインパルス応答を適応的に同定してマイクロホンで集音した残響音声信号から帰還経路のエコー成分を推定する適応フィルタと、適応フィルタで推定されたエコー成分を帰還経路の出力信号より減算する減算手段と、減算手段による減算結果に含まれたエコー成分推定値の推定誤差が最小となるように適応フィルタのフィルタ係数を更新するフィルタ係数更新手段と、フィルタ係数更新手段においてエコー成分推定値の推定誤差が最小となったときのフィルタ係数を残響空間のインパルス応答に代用し該フィルタ係数から残響空間の伝達関数を求める伝達関数演算手段と、伝達関数演算手段で求めた残響空間の伝達関数とマイクロホンで集音した残響音声信号との演算から元の音声信号を求める残響演算手段とを備え、フィルタ係数更新手段は、最小自乗平均アルゴリズムにより適応フィルタのフィルタ係数を更新し、さらに残響音声信号に音声が含まれているか否かを判定し、音声が含まれている場合にだけ適応フィルタのフィルタ係数を更新する有音/無音判定部と、スピーカから出力する音声信号の瞬時パワーに対する残響音声信号の瞬時パワー比が所定のしきい値よりも大きい場合に適応フィルタにおけるステップゲインを相対的に小さい値に設定するステップゲイン切替部と、マイクロホンで集音された信号とスピーカから出力される信号の双方に音声が含まれているか否かを判定する判定部とを具備し、判定部によって双方に音声が含まれている場合には適応フィルタのフィルタ係数を更新しないことを特徴とする。 The invention of claim 6, in order to achieve the above object, a dereverberation apparatus to restore the original sound source signal by removing the reverberation component from reverberation sound signal collected by the microphone in reverberant space, FIR filter An adaptive filter that adaptively identifies the impulse response of the feedback path formed by the acoustic coupling between the speaker and the microphone in the reverberation space and estimates the echo component of the feedback path from the reverberant speech signal collected by the microphone Subtracting means for subtracting the echo component estimated by the adaptive filter from the output signal of the feedback path, and the filter coefficient of the adaptive filter so that the estimation error of the echo component estimated value included in the subtraction result by the subtracting means is minimized. Filter coefficient updating means for updating the filter component, and the estimation error of the echo component estimated value in the filter coefficient updating means is minimized. Transfer function calculating means for substituting the filter coefficient for the impulse response of the reverberant space to obtain a transfer function of the reverberant space from the filter coefficient, and the reverberant sound collected by the microphone and the transfer function of the reverberant space obtained by the transfer function calculating means Reverberation calculation means for obtaining the original speech signal from the calculation with the signal, and the filter coefficient updating means updates the filter coefficient of the adaptive filter by a least mean square algorithm, and whether or not the sound is included in the reverberation voice signal. The voice / silence determination unit that updates the filter coefficient of the adaptive filter only when the voice is included, and the instantaneous power ratio of the reverberant voice signal to the instantaneous power of the voice signal output from the speaker is predetermined. A step gain switching unit for setting the step gain in the adaptive filter to a relatively small value when the threshold is larger than the threshold; A determination unit that determines whether or not both the signal collected by the microphone and the signal output from the speaker include sound, and is adapted to the case where both are included by the determination unit The filter coefficient of the filter is not updated .

請求項の発明は、請求項の発明において、伝達関数演算手段は、フィルタ係数をフーリエ変換することにより周波数領域における伝達関数を求め、残響演算手段は、残響音声信号をフーリエ変換するとともに該残響信号を周波数領域の伝達関数の大きさで除算した後に逆フーリエ変換することを特徴とする。 According to a seventh aspect of the present invention, in the sixth aspect of the present invention, the transfer function calculating means obtains a transfer function in the frequency domain by performing Fourier transform on the filter coefficient, and the reverberation calculating means performs Fourier transform on the reverberant speech signal and The inverse Fourier transform is performed after the reverberation signal is divided by the magnitude of the transfer function in the frequency domain.

請求項の発明は、請求項の発明において、フィルタ係数更新手段は、フィルタ係数の発散を検出するとともに発散検出時にフィルタ係数を初期化する発散検出部を具備することを特徴とする。 The invention of claim 8 is characterized in that, in the invention of claim 6 , the filter coefficient updating means includes a divergence detector for detecting the divergence of the filter coefficient and initializing the filter coefficient when detecting the divergence.

請求項の発明は、請求項の発明において、フィルタ係数更新手段は、帰還経路の変動を検出する帰還経路変動検出部を具備し、判定部によって双方に音声が含まれていると判定された場合であっても帰還経路変動検出手段が帰還経路の変動を検出したときにはフィルタ係数の更新を継続することを特徴とする。 According to a ninth aspect of the present invention, in the sixth aspect of the present invention, the filter coefficient updating means includes a feedback path fluctuation detecting unit that detects a fluctuation of the feedback path, and it is determined by the determining unit that the sound is included in both. Even in this case, when the feedback path fluctuation detecting means detects the fluctuation of the feedback path, the filter coefficient is continuously updated.

請求項10の発明は、請求項6又は7の発明において、減算手段の出力信号とスピーカから出力される信号に音声が含まれているか否かを検出するとともにエコー成分推定値の推定誤差を所定のしきい値と比較し、少なくとも何れか一方の信号に音声が含まれておらず、且つ推定誤差がしきい値より小さい場合に残響音声信号に非線形のエコー成分が含まれていると判断して当該残響音声信号をゼロとする非線形エコー抑圧手段を備えたことを特徴とする。 According to a tenth aspect of the present invention, in the sixth or seventh aspect of the invention, it is detected whether or not sound is included in the output signal of the subtracting means and the signal output from the speaker, and the estimation error of the echo component estimation value is predetermined. If at least one of the signals does not contain speech and the estimation error is smaller than the threshold, it is judged that the reverberant speech signal contains a nonlinear echo component. And non-linear echo suppression means for setting the reverberant speech signal to zero.

本発明によれば、残響空間に存在するスピーカとマイクロホンとの音響結合によって形成される帰還経路のインパルス応答を適応フィルタのフィルタ係数で代用し、そのフィルタ係数を用いて残響成分を除去するため、単一のマイクロホンのみを用い、従来例のように可聴領域音を鳴らさなくとも残響音を除去することができるという効果がある。   According to the present invention, the impulse response of the feedback path formed by the acoustic coupling between the speaker and the microphone existing in the reverberation space is substituted with the filter coefficient of the adaptive filter, and the reverberation component is removed using the filter coefficient. Using only a single microphone, there is an effect that reverberant sound can be removed without sounding an audible area sound as in the conventional example.

以下、本発明の残響除去方法を実現する残響除去装置の実施形態について説明する。なお、本実施形態ではインターホンシステムを構成し浴室内に設置される拡声通話装置に残響除去装置を搭載した場合について例示しているが、これに限定する主旨ではなく、マイクロホンとスピーカを用いて音声を拡声する拡声装置全般に本発明の残響除去方法及び残響除去装置が適用可能である。   Hereinafter, an embodiment of a dereverberation apparatus that realizes the dereverberation method of the present invention will be described. In this embodiment, the case where the dereverberation device is installed in the loudspeaker device that is configured in the interphone system and installed in the bathroom is illustrated. However, the present invention is not limited to this, and the sound is heard using a microphone and a speaker. The dereverberation method and the dereverberation apparatus of the present invention can be applied to all loudspeakers that amplify sound.

図2に拡声通話装置としてのインターホン親機(以下、「親機」と略す)M、相手側通話端末としてのドアホン子器Sのブロック図を示す。親機Mは、マイクロホン1、スピーカ2、2線−4線変換回路3、マイクロホンアンプG1、回線(2線の伝送路)への送話信号を増幅する回線出力アンプG2、回線からの受話信号を増幅する回線入力アンプG3、スピーカアンプG4、送話音量調整用増幅器G5、受話音量調整用増幅器G6、並びに第1及び第2のエコーキャンセラ30A,30Bで構成される。また、ドアホン子器Sはマイクロホン1′、スピーカ2′、2線−4線変換回路3′、マイクロホンアンプG1′並びにスピーカアンプG4′で構成される。   FIG. 2 shows a block diagram of an interphone master unit (hereinafter abbreviated as “master unit”) M as a loudspeaker device, and a door phone slave unit S as a counterpart call terminal. The base unit M includes a microphone 1, a speaker 2, a 2-wire to 4-wire conversion circuit 3, a microphone amplifier G1, a line output amplifier G2 for amplifying a transmission signal to a line (two-wire transmission line), and a reception signal from the line. Is composed of a line input amplifier G3, a speaker amplifier G4, a transmission volume adjustment amplifier G5, a reception volume adjustment amplifier G6, and first and second echo cancellers 30A and 30B. The doorphone slave unit S includes a microphone 1 ', a speaker 2', a two-wire / four-wire conversion circuit 3 ', a microphone amplifier G1', and a speaker amplifier G4 '.

第1のエコーキャンセラ30Aは適応フィルタ31Aと減算器32Aからなり、スピーカ2−マイクロホン1間の音響結合により形成される帰還経路(音響エコー経路)HACのインパルス応答を適応フィルタ31Aにより適応的に同定し、参照信号(スピーカアンプG4への入力信号)X(j)から推定したエコー成分(音響エコー)G^(j)を減算器32AによりマイクロホンアンプG1の出力信号Y(j)から減算することでエコー成分を相殺して消去するものである。また、第2のエコーキャンセラ30Bも適応フィルタ31Bと減算器32Bからなり、2線−4線変換回路3と伝送路との間のインピーダンスの不整合による反射およびドアホン子器Sにおけるスピーカ2’−マイクロホン1’間の音響結合とにより形成される帰還経路(回線エコー経路)HLINのインパルス応答を適応フィルタ31Bにより適応的に同定し、参照信号(回線出力アンプG2への入力信号、すなわち送話信号)から推定したエコー成分(回線エコー)を減算器32Bにより受話信号から減算することでエコー成分を相殺して消去するものである。 The first echo canceller 30A is made adaptive filter 31A and a subtractor 32A, adaptively the impulse response of the feedback path (acoustic echo path) H AC formed by the acoustic coupling between the speaker 2 microphone 1 by the adaptive filter 31A The subtractor 32A subtracts the echo component (acoustic echo) G ^ (j) identified and estimated from the reference signal (input signal to the speaker amplifier G4) X (j) from the output signal Y (j) of the microphone amplifier G1. Thus, the echo component is canceled and erased. The second echo canceller 30B also includes an adaptive filter 31B and a subtractor 32B. Reflection due to impedance mismatch between the two-wire / four-wire conversion circuit 3 and the transmission line, and the speaker 2′− in the doorphone slave unit S. The impulse response of the feedback path (line echo path) H LIN formed by the acoustic coupling between the microphones 1 'is adaptively identified by the adaptive filter 31B, and the reference signal (input signal to the line output amplifier G2, that is, transmission) The echo component (line echo) estimated from the signal) is subtracted from the received signal by the subtractor 32B to cancel and cancel the echo component.

而して、第1及び第2のエコーキャンセラ30A,30Bにより帰還経路HACおよびHLINのエコー成分を相殺して閉ループを断ち切るため、不快なエコーおよびハウリングを抑制することができる。また、マイクロホンアンプG1の出力信号に含まれるエコー以外の成分、すなわち、親機Mに対して通話者が発声した音声信号および親機Mの周囲の騒音については全く損失を与えずにドアホン子器S側へ伝送することができ、同様に受話信号に含まれるエコー以外の成分、すなわち、ドアホン子器Sに対して通話者が発声した音声信号およびドアホン子器Sの周囲の騒音については全く損失を与えずに親機M側へ伝送することができる。したがって、双方向の同時通話を実現することができる。 Thus, since the first and second echo cancelers 30A and 30B cancel the closed loop by canceling the echo components of the feedback paths H AC and H LIN , unpleasant echoes and howling can be suppressed. Further, a component other than an echo included in the output signal of the microphone amplifier G1, that is, a voice signal uttered by the caller to the base unit M and a noise around the base unit M do not give any loss, and the door phone slave unit is not lost. Similarly, components other than the echo included in the received signal, that is, the voice signal uttered by the caller to the doorphone slave unit S and the noise around the doorphone slave unit S are completely lost. Can be transmitted to the base unit M side without giving. Therefore, two-way simultaneous calls can be realized.

次に本発明の要旨である残響除去装置Aについて説明する。本実施形態における残響除去装置Aは、図1に示すようにマイクロホン1、スピーカ2、第1のエコーキャンセラ30A、並びに親機Mの送話側の信号経路における第1のエコーキャンセラ30Aと送話音量調整用増幅器G5との間に設けられた逆フィルタ処理部10によって構成されている。但し、第1のエコーキャンセラ30Aと逆フィルタ処理部10はDSP(Digital Signal Proccesser)のハードウェアを専用のソフトウェアで制御することによって実現されるものであり、アナログの音声信号をディジタル信号に変換するA/D変換器37とディジタルの音声信号をアナログ信号に変換するD/A変換器38を備えている。   Next, the dereverberation apparatus A which is the gist of the present invention will be described. As shown in FIG. 1, the dereverberation apparatus A according to the present embodiment transmits the microphone 1, the speaker 2, the first echo canceller 30A, and the first echo canceller 30A in the signal path on the transmission side of the base unit M and the speech. The inverse filter processing unit 10 is provided between the volume adjusting amplifier G5. However, the first echo canceler 30A and the inverse filter processing unit 10 are realized by controlling DSP (Digital Signal Processor) hardware with dedicated software, and convert an analog audio signal into a digital signal. An A / D converter 37 and a D / A converter 38 for converting a digital audio signal into an analog signal are provided.

適応フィルタ31Aは、FIR型、IIR型、ラティス型などの種々の構造のうちで最も安定的で且つ入力信号の特性変化にも強いFIR型であって、可変のフィルタ係数を適応更新することによって帰還経路のエコー成分(帰還経路を介した受話信号の回り込み成分)を推定するアルゴリズムとして、減算器32Aの出力信号の自乗平均値を最小化する最小自乗平均(LMS:Least-Mean-Square)アルゴリズムを用いている。   The adaptive filter 31A is an FIR type that is the most stable among various structures such as FIR type, IIR type, and lattice type, and that is resistant to changes in the characteristics of the input signal, and adaptively updates variable filter coefficients. As an algorithm for estimating the echo component of the feedback path (the wraparound component of the received signal via the feedback path), the least mean square (LMS) algorithm that minimizes the mean square value of the output signal of the subtractor 32A Is used.

適応フィルタ31Aの動作をさらに詳しく説明すると、LMSアルゴリズムにおいては次式によってフィルタ係数(「タップ重み」ともいう)h^i(j)を再帰的に更新していく。 The operation of the adaptive filter 31A will be described in more detail. In the LMS algorithm, the filter coefficient (also referred to as “tap weight”) h ^ i (j) is recursively updated by the following equation.

h^i(j+1)=h^i(j)+μE(j)・X(j−i)
但し、iはタップ番号、jはサンプル時間を示す。
h ^ i (j + 1) = h ^ i (j) + μE (j) · X (j−i)
However, i is a tap number and j is a sample time.

ここで、E(j)は、遠端側(ドアホン子器S)からのみ発声が行われて近端側(親機M)では発声が行われていない、いわゆるシングルトークの状態である場合にエコー成分をG(j)とするとE(j)=G(j)−G^(j)となり、サンプル時間jにおけるエコー成分G(j)の推定誤差(瞬時誤差)を表し、μは毎回の繰り返しにおける補正量の大きさ(すなわち、収束の速さ)を制御するための定数であるステップゲイン(あるいは「ステップサイズパラメータ」ともいう)を表す。なお、エコー成分G(j)の推定値G^(j)は上記フィルタ係数h^i(j)と受話信号X(j)とから下記式(1)によって求められる。 Here, E (j) is in a so-called single talk state in which speech is made only from the far end side (doorphone slave unit S) and no speech is made on the near end side (base unit M). If the echo component is G (j), E (j) = G (j) −G ^ (j), which represents the estimation error (instantaneous error) of the echo component G (j) at the sample time j, and μ is It represents a step gain (also referred to as a “step size parameter”) that is a constant for controlling the magnitude of the correction amount in repetition (that is, the speed of convergence). The estimated value G ^ (j) of the echo component G (j) is obtained by the following equation (1) from the filter coefficient h ^ i (j) and the received signal X (j).

Figure 0004396449
Figure 0004396449

ここで、Iはフィルタタップ数、iはタップ番号である。 Here, I is the number of filter taps, and i is the tap number.

そして、フィルタ係数h^i(j)を再帰的に更新することで上記推定誤差E(j)の平均自乗誤差を最小とする最適解に到達する(収束する)と、その最適解のフィルタ係数h^i(j)から求められるエコー成分の推定値G^(j)を送話信号Y(j)から減算することでエコー成分を相殺した出力信号E(j)が得られることになる。 When the optimal solution that minimizes the mean square error of the estimation error E (j) is reached (converged) by recursively updating the filter coefficient h ^ i (j), the filter coefficient of the optimal solution By subtracting the estimated value G ^ (j) of the echo component obtained from h ^ i (j) from the transmission signal Y (j), an output signal E (j) in which the echo component is canceled is obtained.

よって、第1のエコーキャンセラ30Aにより音響側帰還経路HACのエコー成分を相殺して閉ループを断ち切るため、不快なエコーを抑制することができる。また、マイクロホンアンプG1の出力信号に含まれるエコー以外の成分、すなわち、親機Mに対して通話者が発声した音声信号および親機Mの周囲の騒音については全く損失を与えずにドアホン子器S側へ伝送することができ、同様に受話信号に含まれるエコー以外の成分、すなわち、ドアホン子器Sに対して通話者が発声した音声信号およびドアホン子器Sの周囲の騒音については全く損失を与えずに親機M側へ伝送することができる。 Therefore, to break the closed loop by the first echo canceller 30A cancels the echo component of the acoustic side feedback path H AC, it is possible to suppress an unpleasant echo. Further, a component other than an echo included in the output signal of the microphone amplifier G1, that is, a voice signal uttered by the caller to the base unit M and a noise around the base unit M do not give any loss, and the door phone slave unit is not lost. Similarly, components other than the echo included in the received signal, that is, the voice signal uttered by the caller to the doorphone slave unit S and the noise around the doorphone slave unit S are completely lost. Can be transmitted to the base unit M side without giving.

ところで、親機Mとドアホン子器Sで同時に発声が行われる、いわゆるダブルトークの状態においてエコーキャンセラ30A,30Bの適応フィルタ31A,31Bがフィルタ係数h^i(j)の更新を継続すると、フィルタ係数h^i(j)が収束せずに発散してしまう虞がある。例えば第1のエコーキャンセラ30Aにおいて、マイクロホン1から入力するダブルトーク成分N(j)が存在する場合、送話信号Y(j)はY(j)=N(j)+G(j)となり、推定誤差E(j)はE(j)=N(j)+(G(j)−G^(j))と表される。このとき、フィルタ係数h^i(j)を再帰的に更新することで推定誤差E(j)の平均自乗誤差を最小とする最適解を求めようとすると、参照信号(受話信号X(j))と相関のないダブルトーク成分N(j)の項が推定誤差E(j)に含まれているためにフィルタ係数h^i(j)が収束せず、逆に発散する虞がある。すなわち、ダブルトーク成分N(j)は適応フィルタ31Aの動作においては外乱成分となる。 By the way, when the adaptive filters 31A and 31B of the echo cancellers 30A and 30B continue to update the filter coefficient h ^ i (j) in a so-called double talk state in which the base unit M and the intercom unit S are simultaneously uttered, the filter The coefficient h ^ i (j) may diverge without converging. For example, in the first echo canceller 30A, when the double talk component N (j) input from the microphone 1 exists, the transmission signal Y (j) is Y (j) = N (j) + G (j), and is estimated. The error E (j) is expressed as E (j) = N (j) + (G (j) −G ^ (j)). At this time, if the filter coefficient h ^ i (j) is recursively updated to obtain an optimal solution that minimizes the mean square error of the estimation error E (j), the reference signal (received signal X (j) ) Includes a term of the double talk component N (j) that is not correlated with the estimation error E (j), the filter coefficient h ^ i (j) may not converge and may diverge. That is, the double talk component N (j) becomes a disturbance component in the operation of the adaptive filter 31A.

そこで本実施形態のエコーキャンセラ30Aでは、遠端側からの入力信号X(j)に音声成分が含まれるかどうかを判別する有音/無音判定部13を適応フィルタ31Aに具備するとともにダブルトークを検出するダブルトーク検出部14を具備し、後述するように有音/無音判定部13で音声が含まれると判定され、かつダブルトーク検出部14によりダブルトークが検出されない状態でのみフィルタ係数h^i(j)を更新するとともに、その他の状態ではフィルタ係数h^i(j)を更新せずにそれ以前の値に固定するようにして、フィルタ係数h^i(j)の発散を防止している。 Therefore, in the echo canceller 30A of the present embodiment, the adaptive filter 31A includes the voice / silence determination unit 13 that determines whether or not the speech signal is included in the input signal X (j) from the far end side, and double talk is performed. A double-talk detection unit 14 is provided for detection, and as will be described later, the sound coefficient / no-sound determination unit 13 determines that the voice is included, and the filter coefficient h ^ only when double-talk is not detected by the double-talk detection unit 14. In addition to updating i (j), the filter coefficient h ^ i (j) is not updated but fixed to the previous value in other states to prevent divergence of the filter coefficient h ^ i (j). ing.

さらに本実施形態のエコーキャンセラ30Aでは、遠端側の信号の瞬時パワーに対する近端側の信号の瞬時パワー比が所定のしきい値よりも大きい場合に適応フィルタ31Aにおけるステップゲインμを相対的に小さい値に設定するステップゲイン切替部15を具備しており、これにより上記比が所定のしきい値よりも大きいか否かを判定し、しきい値よりも大きいと判定した場合に適応フィルタ31Aにおけるステップゲインμを相対的に小さい値に設定するため、ダブルトークか否かにかかわらず、上記比がしきい値よりも大きければ適応フィルタ31Aにおけるフィルタ係数h^i(j)の収束の速さを相対的に遅くすることで発散を未然に防止して抑制することができるようになっている。 Furthermore, in the echo canceller 30A of the present embodiment, when the instantaneous power ratio of the near-end side signal to the instantaneous power of the far-end side signal is larger than a predetermined threshold, the step gain μ in the adaptive filter 31A is relatively set. A step gain switching unit 15 for setting to a small value is provided, whereby it is determined whether or not the ratio is greater than a predetermined threshold, and if it is determined that the ratio is greater than the threshold, the adaptive filter 31A In order to set the step gain μ at a relatively small value, regardless of whether or not double talk, the speed of convergence of the filter coefficient h ^ i (j) in the adaptive filter 31A if the ratio is larger than the threshold value. By relatively slowing down, it is possible to prevent and suppress divergence.

ところで、インターホンシステムの親機Mのように、マイクロホン1やスピーカ2の前に手をかざしたり顔を近づけたりすることでエコー経路の利得が頻繁に変動する系では、ダブルトークの状態とエコー経路の利得が変動した状態とを判別することができず、エコー経路の利得の変動に伴って本来更新すべきフィルタ係数h^i(j)が更新されない虞がある。そこで本実施形態では、音響エコー経路変動検出部16をエコーキャンセラ30Aに具備しており、音響エコー経路HACの変動を検出した場合、フィルタ係数h^i(j)の更新を継続するようにしている。このため、フィルタ係数h^i(j)を速く収束させることが可能となり、エコー成分のみを早期に精度よく抑圧できるようになっている。 By the way, in a system in which the gain of the echo path frequently fluctuates by holding the hand in front of the microphone 1 or the speaker 2 or bringing the face close to it like the base unit M of the interphone system, the double talk state and the echo path There is a possibility that the state in which the gain has fluctuated cannot be determined, and the filter coefficient h ^ i (j) that should be updated may not be updated in accordance with the fluctuation in the gain of the echo path. Therefore, in the present embodiment, the acoustic echo path change detector 16 is provided to the echo canceller 30A, when detecting a variation in the acoustic echo path H AC, so as to continue updating the filter coefficients h ^ i (j) ing. Therefore, it is possible to quickly converge the filter coefficient h ^ i (j), and it is possible to suppress only the echo component early and accurately.

また本実施形態では、適応フィルタ31Aにおいてフィルタ係数h^i(j)が発散したことを検出する音響エコー発散検出部17をエコーキャンセラ30Aに具備しており、音響エコー発散検出部17でフィルタ係数h^i(j)の発散が検出された場合、そのままフィルタ係数h^i(j)の更新を継続しても再度収束させることは困難であるため、フィルタ係数h^i(j)を初期化するようになっている。このため、フィルタ係数h^i(j)を速く収束させることが可能になり、エコー成分のみを早期に精度よく抑圧できるようになっている。 In the present embodiment, the echo canceller 30A includes the acoustic echo divergence detection unit 17 that detects that the filter coefficient h ^ i (j) diverges in the adaptive filter 31A. If divergence of h ^ i (j) is detected, since it is difficult to converge as it again be continued updating of the filter coefficients h ^ i (j), the initial filter coefficients h ^ i (j) It has come to become. For this reason, the filter coefficient h ^ i (j) can be quickly converged, and only the echo component can be suppressed quickly and accurately.

ところで本実施形態のエコーキャンセラ30Aは、上述した様々な方法でも抑圧しきれない残留エコー成分を除去するために非線形エコー抑圧部18を具備している。この非線形エコー抑圧部18は、後述するように近端側からの入力信号(送話信号)Y(j)に伝送すべき音声信号が含まれていない場合にのみ残留エコーを抑圧するものであって、通話の安定性向上が可能となる。   By the way, the echo canceller 30A of the present embodiment includes a nonlinear echo suppression unit 18 in order to remove residual echo components that cannot be suppressed even by the various methods described above. As will be described later, the nonlinear echo suppressor 18 suppresses the residual echo only when the input signal (transmission signal) Y (j) from the near-end side does not include a voice signal to be transmitted. Thus, the stability of the call can be improved.

次に本発明の要旨である残響除去装置について説明する。一般に音源信号をx(t)(tは時間をあらわすインデックス)、室内インパルス応答をh(t)とすると、残響信号(観測信号)は下記の式(2)で表される(非特許文献3参照)。   Next, the dereverberation apparatus that is the gist of the present invention will be described. In general, when a sound source signal is x (t) (t is an index representing time) and an indoor impulse response is h (t), a reverberation signal (observation signal) is expressed by the following equation (2) (Non-patent Document 3). reference).

y(t)=x(t)*h(t) (2)
但し、*はコンボリューション(畳み込み)演算を示す演算子である。
式(2)は周波数領域で下記の式(3)で表される(非特許文献3参照)。
y (t) = x (t) * h (t) (2)
Note that * is an operator indicating a convolution operation.
Expression (2) is expressed by the following expression (3) in the frequency domain (see Non-Patent Document 3).

Y(k)=X(k)H(k) (3)
但し、kは周波数領域をあらわすインデックスである。
従って音源信号X(k)は、下記の式(4)から求められる。
Y (k) = X (k) H (k) (3)
Here, k is an index representing the frequency domain.
Accordingly, the sound source signal X (k) is obtained from the following equation (4).

X(k)=Y(k)H-1 (k) (4)
ここで、線形システムにおいて観測信号から音源信号を推定するためには伝達系の推定が必要である。しかし、伝達関数H(k)は一般に時変系であるために適応的な推定を必要とする。
X (k) = Y (k) H −1 (k) (4)
Here, in order to estimate the sound source signal from the observation signal in the linear system, it is necessary to estimate the transmission system. However, since the transfer function H (k) is generally a time-varying system, adaptive estimation is required.

一方、エコーキャンセラ30Aにおいてフィルタ係数h^i(j)が十分に収束している、すなわち、推定誤差E(j)の平均自乗誤差を最小とする最適解に到達しているときは、そのフィルタ係数h^i(j)が音響側帰還経路HACのインパルス応答をよく近似している。そして、上記式(2)における室内インパルス応答h(t)を音響側帰還経路HACのインパルス応答で代用すれば、フィルタ係数h^i(j)を用いて伝達関数H(k)を演算し、残響信号(参照信号)から音源信号を復元することができるものであり、かかる演算処理を逆フィルタ処理部10で実行している。すなわち、本実施形態では逆フィルタ処理部10が伝達関数演算手段並びに残響演算手段となる。 On the other hand, when the filter coefficient h ^ i (j) is sufficiently converged in the echo canceller 30A, that is, when the optimum solution that minimizes the mean square error of the estimation error E (j) has been reached, the filter coefficients h ^ i (j) is a good approximation of the impulse response of the acoustic side feedback path H AC. If the room impulse response h (t) in the above equation (2) is substituted with the impulse response of the acoustic side feedback path H AC , the transfer function H (k) is calculated using the filter coefficient h ^ i (j). The sound source signal can be restored from the reverberation signal (reference signal), and the inverse filter processing unit 10 executes such calculation processing. That is, in this embodiment, the inverse filter processing unit 10 serves as a transfer function calculation unit and a reverberation calculation unit.

親機Mが浴室のような残響のある場所に設置されている場合、マイクロホン1で集音する音声信号Z(j)には音源信号(通話者が発した音声信号)だけでなく残響信号が含まれており、第1のエコーキャンセラ30Aによってエコー成分のみが抑圧された音声信号Z’(j)には残響成分がそのまま残っているため、この残響成分を逆フィルタ処理部10で除去することにより残響成分を含まない音声信号(音源信号)Z”(j)が復元される。具体的には逆フィルタ処理部10では、次の5つのステップ1〜5の演算処理を行っている。
<ステップ1:室内インパルス応答h(t)を高速フーリエ変換演算するステップ>
室内インパルス応答h(t)を代用するフィルタ係数h^i(j)を第1のエコーキャンセラ30Aから取得し、このフィルタ係数h^i(j)を高速フーリエ変換して伝達関数H(k)を求める。この伝達関数H(k)は下式のように複素形式で表される。但し、Aは振幅を調整するパラメータであり、iは虚数単位である。
When the main unit M is installed in a reverberant place such as a bathroom, the sound signal Z (j) collected by the microphone 1 includes not only the sound source signal (the sound signal emitted by the caller) but also the reverberation signal. The reverberation component remains as it is in the audio signal Z ′ (j) that is included and the echo component only is suppressed by the first echo canceller 30A. Therefore, the reverberation component is removed by the inverse filter processing unit 10. Thus, an audio signal (sound source signal) Z ″ (j) that does not include a reverberation component is restored. Specifically, the inverse filter processing unit 10 performs the following five steps 1 to 5 arithmetic processing.
<Step 1: Step of fast Fourier transform of room impulse response h (t)>
A filter coefficient h ^ i (j) substituting the indoor impulse response h (t) is acquired from the first echo canceller 30A, and this filter coefficient h ^ i (j) is subjected to fast Fourier transform to transfer function H (k). Ask for. This transfer function H (k) is expressed in a complex form as shown in the following equation. However, A is a parameter for adjusting the amplitude, and i is an imaginary unit.

H(k)=A{h_real(k)+i・h_img(k)}
<ステップ2:残響音声信号Z’(j)を高速フーリエ変換演算するステップ>
第1のエコーキャンセラ30Aから出力される残響成分を含んだ音声信号(残響音声信号)Z’(j)を高速フーリエ変換して周波数領域の残響音声信号Z’(k)を求める。この残響音声信号Z’(k)も下式のように複素形式で表される。
H (k) = A {h_real (k) + i · h_img (k)}
<Step 2: Step of fast Fourier transform calculation of reverberant speech signal Z ′ (j)>
A speech signal (reverberation speech signal) Z ′ (j) including a reverberation component output from the first echo canceller 30A is subjected to fast Fourier transform to obtain a reverberation speech signal Z ′ (k) in the frequency domain. This reverberant speech signal Z ′ (k) is also expressed in a complex form as shown in the following equation.

Z’(k)=z’_real(k)+i・z’_img(k)
<ステップ3:伝達関数H(k)の大きさ|H(k)|を演算するステップ>
下式により伝達関数H(k)の大きさ|H(k)|を求める。
Z ′ (k) = z′_real (k) + i · z′_img (k)
<Step 3: Step of calculating magnitude | H (k) | of transfer function H (k)>
The magnitude | H (k) | of the transfer function H (k) is obtained by the following equation.

|H(k)|={h_real2(k)+h_img2(k)}1/2
<ステップ4:音源信号Z”(k)を回復する演算を行うステップ>
ステップ1〜3でそれぞれ求めたH(k)、|H(k)|、Z’(k)を用いて音源信号、すなわち、残響成分が除去された音声信号Z”(k)を求める。式(4)より、
Z”(k)=Z’(k)/H(k)=z”_real(k)+i・z”_img(k)
但し、
z”_real(k)={z’_real(k)・h_real(k)+z’_img(k)・h_img(k)}/|H(k)|2
z”_img(k)={z’_img(k)・h_real(k)−z’_real(k)・h_img(k)}/|H(k)|2
<ステップ5:音源信号Z”(k)を逆高速フーリエ変換演算するステップ>
周波数領域の音源信号Z”(k)を逆高速フーリエ変換して時間領域の音源信号Z”(j)を求める。
| H (k) | = {h_real 2 (k) + h_img 2 (k)} 1/2
<Step 4: Step of performing calculation to recover sound source signal Z ″ (k)>
Using H (k), | H (k) |, Z ′ (k) obtained in Steps 1 to 3 respectively, a sound source signal, that is, a speech signal Z ″ (k) from which a reverberation component is removed is obtained. From (4)
Z ″ (k) = Z ′ (k) / H (k) = z ″ _real (k) + i · z ″ _img (k)
However,
z ″ _real (k) = {z′_real (k) · h_real (k) + z′_img (k) · h_img (k)} / | H (k) | 2
z ”_img (k) = {z′_img (k) · h_real (k) −z′_real (k) · h_img (k)} / | H (k) | 2
<Step 5: Inverse Fast Fourier Transform Calculation of Sound Source Signal Z ″ (k)>
The frequency domain sound source signal Z ″ (k) is subjected to inverse fast Fourier transform to obtain the time domain sound source signal Z ″ (j).

上記ステップ1〜5の演算処理により、残響音声信号Z’(j)から残響成分を除去した音声信号(音源信号)Z”(j)が逆フィルタ処理部10から遠端側に出力される。   Through the arithmetic processing in steps 1 to 5, a speech signal (sound source signal) Z ″ (j) obtained by removing the reverberation component from the reverberant speech signal Z ′ (j) is output from the inverse filter processing unit 10 to the far end side.

ここで、親機Mが相手の通話機器(ドアホン子器Sなど)と通話を行う際に第1のエコーキャンセラ30A及び逆フィルタ処理部10が行う処理について、図3及び図4のフローチャートを参照して説明する。   Here, regarding the processing performed by the first echo canceller 30A and the inverse filter processing unit 10 when the base unit M makes a call with the other party's telephone device (such as the door phone slave unit S), refer to the flowcharts of FIG. 3 and FIG. To explain.

例えば、ドアホン子器Sからの呼出に対して親機Mの応答釦が操作されると、親機Mとドアホン子器Sとの間に通話路が確立されて親機Mが通話状態に移行すると同時にDSPがエコーキャンセラ30A,30Bや逆フィルタ処理部10を実現するプログラム(ソフトウェア)を実行する。   For example, when the response button of the master unit M is operated in response to a call from the door phone slave unit S, a communication path is established between the master unit M and the door phone slave unit S, and the master unit M shifts to a call state. At the same time, the DSP executes a program (software) for realizing the echo cancellers 30A, 30B and the inverse filter processing unit 10.

図3に示すように、まず最初に変数の初期化処理(フィルタ係数h^i(0)=0、ステップゲインμ=μMAX、推定誤差E(0)=1)39が行われ、続いて遠端側(ドアホン子器S側)の入力信号X(j+1)と近端側(マイクロホン1側)の入力信号Y(j+1)の取得処理40,41が行われ、取得した入力信号X(j+1),Y(j+1)はFIFO型のメモリ(図示せず)に最新データとして蓄積される。 As shown in FIG. 3, first, a variable initialization process (filter coefficient ^ i (0) = 0, step gain μ = μ MAX , estimation error E (0) = 1) 39 is performed, and then Acquisition processing 40 and 41 of the input signal X (j + 1) on the far end side (door phone slave unit S side) and the input signal Y (j + 1) on the near end side (microphone 1 side) is performed, and the acquired input signal X (j + 1) ), Y (j + 1) are stored as the latest data in a FIFO type memory (not shown).

次にフィルタ係数h^i(j)を更新するか、更新を停止する(更新しない)か、変数初期化処理39から処理をやり直すかの判別処理(係数更新判別処理42)が行われる。このフィルタ係数更新判別処理42では、図4のフローチャートに示すように発散判定処理、有音/無音判定処理、ダブルトーク判定処理が行われる。音響エコー発散検出部17による発散判定処理では、まず近端側入力信号Y(j)とエコー成分推定値G^(j)の積に基づいて両者の符号を判別し、両者の符号が異符号であるときにのみカウント値divcountをインクリメントする処理51が行われた後、発散判定時間未経過判別処理52において発散検出の判定を行なう時間(例えば、200ミリ秒)が経過したかどうかが判別され、経過していなければ有音/無音判定処理が実行され、経過していれば上記時間のカウントを0に初期化するとともに、カウント値divcountつまり異符号の割合が発散判定閾値divsliceを超えているか否かが判断される。そして、カウント値divcountが発散判定閾値divsliceを越えていれば発散状態と判定し、カウント値divcountを0に初期化する処理54が行われた後、変数初期化処理39が行われる。一方、カウント値divcountが発散判定閾値divsliceを越えていなければ非発散状態と判定し、カウント値divcountを0に初期化する処理56が行われた後、有音/無音判定部13による有音/無音判定処理が実行される。 Next, a determination process (coefficient update determination process 42) of whether to update the filter coefficient ^ i (j), stop the update (do not update), or restart the process from the variable initialization process 39 is performed. In the filter coefficient update determination process 42, a divergence determination process, a sound / silence determination process, and a double talk determination process are performed as shown in the flowchart of FIG. In the divergence determination process by the acoustic echo divergence detection unit 17, first, the code of both is determined based on the product of the near-end side input signal Y (j) and the echo component estimated value G ^ (j). After the processing 51 for incrementing the count value divcount is performed only when the time is divergence, it is determined in the divergence determination time non-elapsed determination processing 52 whether or not the time for performing divergence detection determination (for example, 200 milliseconds) has elapsed. If it has not elapsed, the voice / silence determination processing is executed. If it has elapsed, the time count is initialized to 0, and the count value divcount, that is, the ratio of the different sign exceeds the divergence determination threshold div slice. It is determined whether or not. Then, if the count value divcount exceeds the divergence determination threshold div slice , it is determined as a divergence state, and after a process 54 for initializing the count value divcount to 0 is performed, a variable initialization process 39 is performed. On the other hand, if the count value divcount does not exceed the divergence determination threshold div slice , it is determined as a non-divergence state, and after the process 56 for initializing the count value divcount to 0 is performed, the sound / silence determination unit 13 performs sound. / Silence determination processing is executed.

有音/無音判定処理では、蓄積された入力信号X(j+1)の絶対値平均LX(j+1)が有音/無音判定閾値LXSLICEを超えているか否かが判断され、絶対値平均LX(j+1)が有音/無音判定閾値LXSLICEを越えていなければ無音状態と判定し、フィルタ係数h^i(j)の更新が停止される。一方、絶対値平均LX(j+1)が有音/無音判定閾値LXSLICEを越えていれば有音状態と判定し、ダブルトーク判定処理が実行される。さらにダブルトーク判定処理では、蓄積された入力信号Y(j+1)の絶対値平均LY(j+1)がダブルトーク判定閾値LYSLICEを越えているか否かが判断され、絶対値平均LY(j+1)がダブルトーク判定閾値LYSLICEを越えていればダブルトーク状態と判定し、フィルタ係数h^i(j)の更新が停止される。一方、絶対値平均LY(j+1)がダブルトーク判定閾値LYSLICEを越えていなければダブルトーク状態でないと判定し、適応フィルタ31Aにおけるフィルタ係数h^i(j)の更新処理が実行される。 In the sound / silence determination processing, it is determined whether or not the absolute value average LX (j + 1) of the accumulated input signal X (j + 1) exceeds the sound / silence determination threshold LX SLICE , and the absolute value average LX (j + 1) ) Does not exceed the sound / silence determination threshold LX SLICE , it is determined that there is a silence, and the update of the filter coefficient h ^ i (j) is stopped. On the other hand, if the absolute value average LX (j + 1) exceeds the sound / silence determination threshold LX SLICE , it is determined that the sound is present, and the double talk determination process is executed. Further, in the double talk determination process, it is determined whether or not the absolute value average LY (j + 1) of the accumulated input signal Y (j + 1) exceeds the double talk determination threshold LY SLICE , and the absolute value average LY (j + 1) is doubled. If the talk determination threshold value LY SLICE is exceeded , it is determined that the state is a double talk state, and the update of the filter coefficient h ^ i (j) is stopped. On the other hand, if the absolute value average LY (j + 1) does not exceed the double talk determination threshold LY SLICE , it is determined that the double talk state is not established, and the filter coefficient h ^ i (j) is updated in the adaptive filter 31A.

そして、図3に示すように、フィルタ係数h^i(j)を更新する場合はステップゲイン切替部15においてステップゲイン切替処理43が実行され、フィルタ係数h^i(j)の更新を停止する場合は前回のフィルタ係数h^i(j)を今回のフィルタ係数h^i(j)に代入する処理44’が行われた後にエコー成分推定値G^(j+1)の演算処理45が行われる。 As shown in FIG. 3, when the filter coefficient h ^ i (j) is updated, the step gain switching unit 43 executes the step gain switching process 43 to stop the update of the filter coefficient h ^ i (j). In this case, the processing 44 ′ for substituting the previous filter coefficient h ^ i (j) for the current filter coefficient h ^ i (j) is performed, and then the calculation process 45 of the echo component estimated value G ^ (j + 1) is performed. .

ステップゲイン切替処理43では、入力信号X(j),Y(j)を最新のものから所定時間(例えば、2ミリ秒)前まで平均して求めた瞬時値(X瞬時値、Y瞬時値)の比(=X瞬時値/Y瞬時値)を所定の閾値αsliceと比較し、上記比が閾値αsliceを越えていなければフィルタ係数更新処理44で用いるステップゲインμを最小値μMINに設定し、瞬時値の比が閾値αslice以上であればステップゲインμを最大値μMAXに設定することでフィルタ係数h^i(j)の発散を防止している。 In the step gain switching process 43, instantaneous values (X instantaneous value, Y instantaneous value) obtained by averaging the input signals X (j) and Y (j) from the latest to a predetermined time (for example, 2 milliseconds). (= X instantaneous value / Y instantaneous value) is compared with a predetermined threshold value α slice, and if the ratio does not exceed the threshold value α slice , the step gain μ used in the filter coefficient update processing 44 is set to the minimum value μ MIN . If the instantaneous value ratio is equal to or greater than the threshold α slice , the step gain μ is set to the maximum value μ MAX to prevent the filter coefficient h ^ i (j) from diverging.

フィルタ係数更新処理44では、蓄積されているエコー成分の推定誤差E(j)と入力信号X(j)を取得してフィルタ係数h^i(j)がタップ番号ごとに更新される。続いて式(1)によりエコー成分推定値G^(j+1)を演算する処理45が行われた後、入力信号Y(j+1)からエコー成分推定値G^(j+1)を減算してエコー成分の推定誤差E(j+1)を演算する処理46が行われ、さらに非線形エコー除去処理47が行われる。この非線形エコー除去処理47においては、メモリに蓄積された入力信号Y(j+1)の絶対値平均LY(j+1)がシングルトークとダブルトークを判定する閾値LYsliceより小さい、つまりシングルトークの状態にあり、かつエコー成分の推定誤差E(j+1)がクリッピング閾値Eclipより小さければ、これを非線形エコー成分と判定し、出力信号(残響音声信号)Z’(j+1)を0とすることで除去する。それ以外の場合はエコー成分の推定誤差E(j+1)がそのまま出力信号Z’(j+1)とされる。 In the filter coefficient updating process 44, the accumulated echo component estimation error E (j) and the input signal X (j) are acquired, and the filter coefficient ^ i (j) is updated for each tap number. Subsequently, the processing 45 for calculating the echo component estimated value G ^ (j + 1) is performed according to the equation (1), and then the echo component estimated value G ^ (j + 1) is subtracted from the input signal Y (j + 1). A process 46 for calculating the estimation error E (j + 1) is performed, and a nonlinear echo removal process 47 is further performed. In this nonlinear echo cancellation processing 47, the absolute value average LY (j + 1) of the input signal Y (j + 1) stored in the memory is smaller than the threshold LY slice for determining single talk and double talk, that is, in a single talk state. If the estimated error E (j + 1) of the echo component is smaller than the clipping threshold Eclip, it is determined as a non-linear echo component, and the output signal (reverberant speech signal) Z ′ (j + 1) is set to 0 and removed. In other cases, the echo component estimation error E (j + 1) is directly used as the output signal Z ′ (j + 1).

逆フィルタ処理部10による逆フィルタ処理48では、既に説明したように5つのステップ1〜5により残響音声信号Z’(j)から残響成分を除去した音声信号(音源信号)Z”(j)を復元しており、復元された音声信号Z”(j)を送話側の信号経路に出力する処理49,50が行われた後、再び入力信号X(j+1),Y(j+1)を取得する処理40に戻って上述の処理が繰り返されることになる。尚、逆フィルタ処理48で用いられるフィルタ係数h^i(j)が、係数更新判別処理42、ステップゲイン切替処理43、非線形エコー除去処理47によって時変系である空間(例えば、浴室)のインパルス応答を精度よく近似することができるため、残響成分を高い精度で除去できるものである。 In the inverse filter processing 48 by the inverse filter processing unit 10, the sound signal (sound source signal) Z ″ (j) obtained by removing the reverberation component from the reverberation sound signal Z ′ (j) in the five steps 1 to 5 as described above. After the processing 49 and 50 for outputting the restored voice signal Z ″ (j) to the signal path on the transmission side is performed, the input signals X (j + 1) and Y (j + 1) are acquired again. It returns to the process 40 and the above-mentioned process is repeated. Note that the filter coefficient 空間i (j) used in the inverse filter process 48 is an impulse in a space (for example, a bathroom) that is a time-varying system by the coefficient update determination process 42, the step gain switching process 43, and the nonlinear echo removal process 47. Since the response can be approximated with high accuracy, the reverberation component can be removed with high accuracy.

また本実施形態においては、第1のエコーキャンセラ30Aにおけるエコー抑圧量が所定の基準値を超えているか否かを判断して基準値を超えている場合はフィルタ係数h^i(j)が室内インパルス応答h(j)をよく近似しているとみなして逆フィルタ処理部10にフィルタ係数h^i(j)を出力し、逆フィルタ処理部10が上述の逆フィルタ処理48を実行して残響音声信号Z’(j)から残響成分を除去した音声信号Z”(j)を出力し、反対に基準値を超えていない場合はフィルタ係数h^i(j)が室内インパルス応答h(j)を近似していないとみなして逆フィルタ処理部10にフィルタ係数h^i(j)を出力せず、残響音声信号Z’(j)が逆フィルタ処理部10を通過してそのまま音声信号Z”(j)として出力されるようにしている。 Further, in this embodiment, it is determined whether or not the echo suppression amount in the first echo canceller 30A exceeds a predetermined reference value. If the echo suppression amount exceeds the reference value, the filter coefficient h i (j) is Assuming that the impulse response h (j) is a good approximation, the filter coefficient h ^ i (j) is output to the inverse filter processing unit 10, and the inverse filter processing unit 10 executes the above-described inverse filter processing 48 to generate reverberation. When the audio signal Z ″ (j) is obtained by removing the reverberation component from the audio signal Z ′ (j), and the reference value is not exceeded, the filter coefficient h ^ i (j) is the room impulse response h (j). Is not output to the inverse filter processing unit 10 and the reverberant speech signal Z ′ (j) passes through the inverse filter processing unit 10 as it is and does not output the filter coefficient h ^ i (j). This is output as (j).

例えば、A/D変換器37のサンプリング周波数を8kHz、インパルス応答長を256ミリ秒とした場合、式(1)のフィルタタップ数Iは2048個となり、逆フィルタ処理部10が逆フィルタ処理48を行うか否かの判断は、エコー抑圧量をエコー成分の推定誤差E(j)とエコー成分推定値G^(j)との比E(j)/G^(j)と定義したときに20log{E(j)/G^(j)}(エコー抑圧量)の値が基準値−8dBを越えているか否かで行われる。すなわち、上記エコー抑圧量が−8dB未満となったときに第1のエコーキャンセラ30Aが音響側帰還経路HACを回り込んでくる音響エコーを十分抑圧している、つまりフィルタ係数h^i(j)が帰還経路HACの室内インパルス応答h(j)をよく近似していると判断して、第1のエコーキャンセラ30Aから逆フィルタ処理部10にフィルタ係数h^i(j)が渡されて逆フィルタ処理部10が逆フィルタ処理48を行い、エコー抑圧量が−8dB以上のときは音響エコーが十分に抑圧されていない、つまりフィルタ係数h^i(j)が帰還経路HACの室内インパルス応答h(j)を近似していないと判断して、第1のエコーキャンセラ30Aから逆フィルタ処理部10にフィルタ係数h^i(j)が渡されずに逆フィルタ処理部10は逆フィルタ処理48を行わず、残響音声信号Z’(j)がそのまま出力される。ここで、「省エネルギーは心がけ次第です。」というフレーズを浴室(室内寸法:2.0m×1.7m×2.2m)内で男性が発したときの残響音声信号の波形を図5に、逆フィルタ処理部10が逆フィルタ処理48を行うことで残響成分を除去した後の音声信号の波形を図6に、第1のエコーキャンセラ30Aが収束したときの2048個のフィルタ係数h^i(j)を図7にそれぞれ示す。図5と図6を比較すれば明らかなように、本実施形態の残響除去装置Aにより音声信号に含まれる残響成分が除去されて音声信号が聞き取りやすくなっていることが判る。 For example, when the sampling frequency of the A / D converter 37 is 8 kHz and the impulse response length is 256 milliseconds, the number of filter taps I in the equation (1) is 2048, and the inverse filter processing unit 10 performs the inverse filter processing 48. The determination as to whether or not to perform is 20 log when the echo suppression amount is defined as the ratio E (j) / G ^ (j) between the echo component estimation error E (j) and the echo component estimated value G ^ (j). This is performed depending on whether the value of {E (j) / G ^ (j)} (echo suppression amount) exceeds the reference value −8 dB. That is, the first echo canceller 30A when the echo suppression amount is less than -8dB are sufficiently suppress acoustic echoes goes around the acoustic side feedback path H AC, i.e. the filter coefficients h ^ i (j ) Is sufficiently approximated to the indoor impulse response h (j) of the feedback path H AC , and the filter coefficient h i (j) is passed from the first echo canceller 30A to the inverse filter processing unit 10. When the inverse filter processing unit 10 performs the inverse filter processing 48 and the echo suppression amount is −8 dB or more, the acoustic echo is not sufficiently suppressed, that is, the filter coefficient h ^ i (j) is the room impulse of the feedback path H AC . it is determined that no similar response h a (j), the inverse filtering unit 10 to the inverse filtering unit 10 from the first echo canceller 30A to not passed the filter coefficients h ^ i (j) is the inverse filtering 8 without reverberation sound signal Z '(j) is output as it is. Here, the waveform of the reverberant audio signal when a man utters the phrase “energy saving is up to you” in the bathroom (room dimensions: 2.0 m × 1.7 m × 2.2 m) The waveform of the audio signal after the reverberation component is removed by the filter processing unit 10 performing the inverse filter processing 48 is shown in FIG. 6, and 2048 filter coefficients h i (j when the first echo canceller 30A converges. ) Are shown in FIG. As is clear from comparison between FIG. 5 and FIG. 6, it can be seen that the reverberation component included in the audio signal is removed by the dereverberation apparatus A of the present embodiment, and the audio signal is easy to hear.

而して、残響のある浴室内に設置された親機Mと玄関先に設置されたドアホン子器Sとの間で拡声通話を行う場合、浴室内の残響成分が付加された音声信号が親機Mのマイクロホン1に集音されるために残響成分が音源信号(通話者の音声信号)をマスクしてしまい、ドアホン子器Sのスピーカから出力される音声が聞き取りにくくなっていたが、上述のように本発明に係る残響除去装置Aを親機Mに搭載することにより、親機Mからドアホン子器Sへは残響成分が除去された音声信号が伝送されるため、ドアホン子器Sのスピーカから出力される音声が聞き取り易くなって快適な通話環境が実現できる。また、ドアホン子器Sのスピーカから聞こえる音声に残響成分が含まれていると相手の通話者に浴室内にいることが判ってしまうことからプライバシーが侵害される虞があり、しかも、入浴中であればそのことが相手の通話者に判ってしまうことで住居に侵入されたり盗難の被害に遭いかねないという防犯上の問題もあったが、ドアホン子器Sのスピーカから聞こえる音声に残響成分がなければ相手の通話者に浴室内に居ることが判らないため、居住者のプライバシー保護と防犯性の向上とが図れるものである。   Thus, when making a loudspeaking call between the main unit M installed in a bathroom with reverberation and the doorphone slave unit S installed at the entrance, the audio signal with the reverberation component in the bathroom is the parent signal. Since the sound is collected by the microphone 1 of the machine M, the reverberation component masks the sound source signal (caller's voice signal), making it difficult to hear the sound output from the speaker of the doorphone slave unit S. Since the dereverberation apparatus A according to the present invention is installed in the master unit M as described above, an audio signal from which the reverberation component is removed is transmitted from the master unit M to the door phone slave unit S. The voice output from the speaker is easy to hear and a comfortable telephone call environment can be realized. In addition, if the sound heard from the speaker of the door phone slave unit S contains a reverberation component, it may be known that the other party is in the bathroom, and privacy may be infringed. If there is a crime prevention problem that the other party's caller may know that it may be invaded into the residence or may be damaged by theft, but the reverberation component is present in the sound heard from the speaker of the doorphone slave unit S Otherwise, the other party's caller will not know that he is in the bathroom, so the privacy of the resident can be protected and crime prevention can be improved.

尚、コンサートホールや講堂に設置された拡声システムにおいても講演者の音声が空間から反射してくる残響成分によってマスクされて聴講者が内容を聞き取りにくくなることがあるが、かかる拡声システムに本発明の残響除去方法及び装置を適用すれば、インターホンシステムの親機Mを浴室に設置した場合と同様の効果を奏し、コンサートホールや講堂内でTSP方やM系列法などに基づく基準音を出力せずとも逆フィルタ処理によって残響成分を除去することが可能である。   Even in a loudspeaker system installed in a concert hall or auditorium, the speaker's voice may be masked by reverberant components reflected from the space, making it difficult for the listener to hear the content. If the dereverberation method and device are applied, the same effect as when the main unit M of the intercom system is installed in the bathroom is produced, and the reference sound based on the TSP method or M-sequence method is output in the concert hall or auditorium. It is possible to remove the reverberation component at least by inverse filtering.

本発明の実施形態を示すブロック図である。It is a block diagram which shows embodiment of this invention. 同上を搭載した親機と、親機とともにインターホンシステムを構成するドアホン子器のブロック図である。It is a block diagram of the door phone cordless handset which comprises a main phone carrying the same as above and an intercom system with the main phone. 同上の動作説明用のフローチャートである。It is a flowchart for operation | movement description same as the above. 同上の動作説明用のフローチャートである。It is a flowchart for operation | movement description same as the above. 残響音声信号の波形図である。It is a wave form diagram of a reverberant voice signal. 同上を用いて残響成分が除去された音声信号の波形図である。It is a wave form diagram of an audio signal from which a reverberation component was removed using the same as above. 同上におけるフィルタ係数を示す図である。It is a figure which shows the filter coefficient in the same as the above.

符号の説明Explanation of symbols

A 残響除去装置
1 マイクロホン
2 スピーカ
10 逆フィルタ処理部
30A 第1のエコーキャンセラ
31A 適応フィルタ
32A 減算器
A dereverberation device 1 microphone 2 speaker 10 inverse filter processing unit 30A first echo canceller 31A adaptive filter 32A subtractor

Claims (10)

残響空間においてマイクロホンで集音する残響音声信号から残響成分を除去して元の音源信号を復元する残響除去方法であって、残響空間に存在するスピーカとマイクロホンとの音響結合によって形成される帰還経路のインパルス応答をFIR型フィルタからなる適応フィルタにより適応的に同定してマイクロホンで集音した残響音声信号から帰還経路のエコー成分を推定する第1のステップと、第1のステップにおいて適応フィルタで推定されたエコー成分を帰還経路の出力信号より減算する第2のステップと、第2のステップにおける減算結果に含まれたエコー成分推定値の推定誤差が最小となるように適応フィルタのフィルタ係数を更新する第3のステップと、第3のステップにおいてエコー成分推定値の推定誤差が最小となったときのフィルタ係数を残響空間のインパルス応答に代用し該フィルタ係数から残響空間の伝達関数を求める第4のステップと、第4のステップで求めた残響空間の伝達関数とマイクロホンで集音した残響音声信号との演算から元の音声信号を求める第5のステップとを有し、第3のステップにおいて、最小自乗平均アルゴリズムにより適応フィルタのフィルタ係数を更新するとともに、残響音声信号に音声が含まれているか否かを判定し、音声が含まれている場合にだけ適応フィルタのフィルタ係数を更新し、さらに、スピーカから出力する音声信号の瞬時パワーに対する残響音声信号の瞬時パワー比が所定のしきい値よりも大きい場合に適応フィルタにおけるステップゲインを相対的に小さい値に設定するとともに、マイクロホンで集音された信号とスピーカから出力される信号の双方に音声が含まれているか否かを判定し、双方に音声が含まれている場合には適応フィルタのフィルタ係数を更新しないことを特徴とする残響除去方法。 A reverberation removal method for restoring an original sound source signal by removing a reverberation component from a reverberant speech signal collected by a microphone in a reverberation space, and a feedback path formed by acoustic coupling between a speaker and a microphone existing in the reverberation space The first step of estimating the echo component of the feedback path from the reverberant speech signal collected by the microphone by adaptively identifying the impulse response of the signal with the adaptive filter comprising the FIR type filter, and estimating with the adaptive filter in the first step The second step of subtracting the echo component from the output signal of the feedback path, and updating the filter coefficient of the adaptive filter so that the estimation error of the echo component estimation value included in the subtraction result in the second step is minimized When the estimation error of the echo component estimation value is minimized in the third step and the third step A fourth step of substituting the filter coefficient for the impulse response of the reverberation space to obtain a transfer function of the reverberation space from the filter coefficient, a reverberation space transfer function obtained in the fourth step, a reverberant speech signal collected by the microphone, possess a fifth step of obtaining the original audio signal from the operation, whether or not in the third step, updates the filter coefficient of the adaptive filter by the minimum mean square algorithm, it contains audio reverberation sound signal The filter coefficient of the adaptive filter is updated only when audio is included, and the instantaneous power ratio of the reverberant audio signal to the instantaneous power of the audio signal output from the speaker is lower than a predetermined threshold value. If it is large, the step gain in the adaptive filter is set to a relatively small value and the sound is collected by the microphone. No. and it determines whether or not contain speech in both the signal output from the speaker, if it contains speech in both dereverberation method characterized by not updating the filter coefficients of the adaptive filter . 第4のステップにおいて、フィルタ係数をフーリエ変換することにより周波数領域における伝達関数を求め、第5のステップにおいては残響音声信号をフーリエ変換するとともに第4のステップで求めた周波数領域の伝達関数の大きさで除算した後に逆フーリエ変換することを特徴とする請求項1記載の残響除去方法。   In the fourth step, a transfer function in the frequency domain is obtained by Fourier transforming the filter coefficients, and in the fifth step, the reverberant speech signal is Fourier transformed and the magnitude of the transfer function in the frequency domain obtained in the fourth step is obtained. The dereverberation method according to claim 1, wherein an inverse Fourier transform is performed after dividing by the above. 第3のステップにおいて、フィルタ係数が発散した場合にフィルタ係数を初期化することを特徴とする請求項記載の残響除去方法。 In a third step, dereverberation method according to claim 1, wherein the filter coefficients are initialized to filter coefficients when divergence. 第3のステップにおいて、マイクロホンで集音された信号とスピーカから出力される信号の双方に音声が含まれている場合であっても帰還経路が変動したときにはフィルタ係数の更新を継続することを特徴とする請求項記載の残響除去方法。 In the third step, the filter coefficient is continuously updated when the feedback path fluctuates even when both the signal collected by the microphone and the signal output from the speaker include sound. The dereverberation method according to claim 1 . 第5のステップにおいて、マイクロホンで集音された信号とスピーカから出力される信号の双方に音声が含まれているか否かを判定し、マイクロホンで集音された信号とスピーカから出力される信号の少なくとも何れか一方に音声が含まれておらず、且つエコー成分推定値の推定誤差が所定のしきい値より小さい場合に残響音声信号をゼロとすることを特徴とする請求項1又は2記載の残響除去方法。 In the fifth step, it is determined whether or not both the signal collected by the microphone and the signal output from the speaker include sound, and the signal collected by the microphone and the signal output from the speaker are 3. The reverberant speech signal is set to zero when at least one of them does not include speech and the estimation error of the echo component estimated value is smaller than a predetermined threshold value . Reverberation removal method. 残響空間においてマイクロホンで集音する残響音声信号から残響成分を除去して元の音源信号を復元する残響除去装置であって、FIR型フィルタからなり、残響空間に存在するスピーカとマイクロホンとの音響結合によって形成される帰還経路のインパルス応答を適応的に同定してマイクロホンで集音した残響音声信号から帰還経路のエコー成分を推定する適応フィルタと、適応フィルタで推定されたエコー成分を帰還経路の出力信号より減算する減算手段と、減算手段による減算結果に含まれたエコー成分推定値の推定誤差が最小となるように適応フィルタのフィルタ係数を更新するフィルタ係数更新手段と、フィルタ係数更新手段においてエコー成分推定値の推定誤差が最小となったときのフィルタ係数を残響空間のインパルス応答に代用し該フィルタ係数から残響空間の伝達関数を求める伝達関数演算手段と、伝達関数演算手段で求めた残響空間の伝達関数とマイクロホンで集音した残響音声信号との演算から元の音声信号を求める残響演算手段とを備え、フィルタ係数更新手段は、最小自乗平均アルゴリズムにより適応フィルタのフィルタ係数を更新し、さらに残響音声信号に音声が含まれているか否かを判定し、音声が含まれている場合にだけ適応フィルタのフィルタ係数を更新する有音/無音判定部と、スピーカから出力する音声信号の瞬時パワーに対する残響音声信号の瞬時パワー比が所定のしきい値よりも大きい場合に適応フィルタにおけるステップゲインを相対的に小さい値に設定するステップゲイン切替部と、マイクロホンで集音された信号とスピーカから出力される信号の双方に音声が含まれているか否かを判定する判定部とを具備し、判定部によって双方に音声が含まれている場合には適応フィルタのフィルタ係数を更新しないことを特徴とする響除去装置 A reverberation removing apparatus that removes a reverberation component from a reverberant speech signal collected by a microphone in a reverberant space and restores the original sound source signal, and includes an FIR filter, and an acoustic coupling between a speaker and a microphone that exist in the reverberant space An adaptive filter that adaptively identifies the impulse response of the feedback path formed by, and estimates the echo component of the feedback path from the reverberant speech signal collected by the microphone, and outputs the echo component estimated by the adaptive filter to the feedback path Subtracting means for subtracting from the signal, filter coefficient updating means for updating the filter coefficient of the adaptive filter so that the estimation error of the echo component estimated value included in the subtraction result by the subtracting means is minimized, and echo in the filter coefficient updating means The filter coefficient when the estimation error of the component estimate is minimized is used as the impulse response in the reverberation space. The transfer function calculation means for obtaining the transfer function of the reverberation space from the filter coefficient, and the original sound signal is obtained from the calculation of the transfer function of the reverberation space obtained by the transfer function calculation means and the reverberation sound signal collected by the microphone. Reverberation calculation means, and the filter coefficient update means updates the filter coefficient of the adaptive filter by the least mean square algorithm, determines whether or not the reverberant sound signal includes sound, and includes sound. A voice / silence determination unit that updates the filter coefficient of the adaptive filter only in the case where the instantaneous power ratio of the reverberant voice signal to the instantaneous power of the voice signal output from the speaker is larger than a predetermined threshold value. From the step gain switching unit that sets the step gain to a relatively small value, the signal collected by the microphone, and the speaker ; And a determination unit for determining whether or not contain speech in both force the signal, characterized in that it does not update the filter coefficients of the adaptive filter if it contains speech in both the determination unit reverberation remover to. 伝達関数演算手段は、フィルタ係数をフーリエ変換することにより周波数領域における伝達関数を求め、残響演算手段は、残響音声信号をフーリエ変換するとともに該残響信号を周波数領域の伝達関数の大きさで除算した後に逆フーリエ変換することを特徴とする請求項記載の残響除去装置 The transfer function calculation means obtains a transfer function in the frequency domain by performing Fourier transform on the filter coefficient, and the reverberation calculation means performs Fourier transform on the reverberant speech signal and divides the reverberation signal by the size of the transfer function in the frequency domain. The dereverberation apparatus according to claim 6 , wherein an inverse Fourier transform is performed later . フィルタ係数更新手段は、フィルタ係数の発散を検出するとともに発散検出時にフィルタ係数を初期化する発散検出部を具備することを特徴とする請求項記載の残響除去装置7. The dereverberation apparatus according to claim 6 , wherein the filter coefficient update means includes a divergence detection unit that detects the divergence of the filter coefficient and initializes the filter coefficient when the divergence is detected . フィルタ係数更新手段は、帰還経路の変動を検出する帰還経路変動検出部を具備し、判定部によって双方に音声が含まれていると判定された場合であっても帰還経路変動検出手段が帰還経路の変動を検出したときにはフィルタ係数の更新を継続することを特徴とする請求項記載の残響除去装置 The filter coefficient updating means includes a feedback path fluctuation detecting unit that detects fluctuations in the feedback path, and the feedback path fluctuation detecting means is used even if it is determined by the determining unit that the voice is included in both. 7. The dereverberation apparatus according to claim 6, wherein the update of the filter coefficient is continued when a change in the frequency is detected . 減算手段の出力信号とスピーカから出力される信号に音声が含まれているか否かを検出するとともにエコー成分推定値の推定誤差を所定のしきい値と比較し、少なくとも何れか一方の信号に音声が含まれておらず、且つ推定誤差がしきい値より小さい場合に残響音声信号に非線形のエコー成分が含まれていると判断して当該残響音声信号をゼロとする非線形エコー抑圧手段を備えたことを特徴とする請求項6又は7記載の残響除去装置。 It detects whether or not the output signal of the subtracting means and the signal output from the speaker contain sound, compares the estimated error of the echo component estimated value with a predetermined threshold value, and outputs sound to at least one of the signals. Is included, and when the estimation error is smaller than the threshold, it is determined that the reverberant speech signal includes a non-linear echo component, and non-linear echo suppression means for setting the reverberant speech signal to zero is provided. The dereverberation apparatus according to claim 6 or 7, wherein
JP2004245778A 2004-08-25 2004-08-25 Reverberation removal method and apparatus Expired - Fee Related JP4396449B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004245778A JP4396449B2 (en) 2004-08-25 2004-08-25 Reverberation removal method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004245778A JP4396449B2 (en) 2004-08-25 2004-08-25 Reverberation removal method and apparatus

Publications (2)

Publication Number Publication Date
JP2006067127A JP2006067127A (en) 2006-03-09
JP4396449B2 true JP4396449B2 (en) 2010-01-13

Family

ID=36113226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004245778A Expired - Fee Related JP4396449B2 (en) 2004-08-25 2004-08-25 Reverberation removal method and apparatus

Country Status (1)

Country Link
JP (1) JP4396449B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9478230B2 (en) 2013-09-26 2016-10-25 Honda Motor Co., Ltd. Speech processing apparatus, method, and program of reducing reverberation of speech signals
US9646627B2 (en) 2013-07-08 2017-05-09 Honda Motor Co., Ltd. Speech processing device, method, and program for correction of reverberation

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008294576A (en) * 2007-05-22 2008-12-04 Panasonic Electric Works Co Ltd Intercom device
JP5227123B2 (en) * 2008-09-18 2013-07-03 パナソニック株式会社 Intercom device
JP5834948B2 (en) 2012-01-24 2015-12-24 富士通株式会社 Reverberation suppression apparatus, reverberation suppression method, and computer program for reverberation suppression
JP6532019B2 (en) * 2015-06-22 2019-06-19 パナソニックIpマネジメント株式会社 Equipment control system
US10367948B2 (en) * 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646627B2 (en) 2013-07-08 2017-05-09 Honda Motor Co., Ltd. Speech processing device, method, and program for correction of reverberation
US9478230B2 (en) 2013-09-26 2016-10-25 Honda Motor Co., Ltd. Speech processing apparatus, method, and program of reducing reverberation of speech signals

Also Published As

Publication number Publication date
JP2006067127A (en) 2006-03-09

Similar Documents

Publication Publication Date Title
CN110838300B (en) Echo cancellation processing method and processing system
KR101089481B1 (en) Double talk detection method based on spectral acoustic properties
JP4257113B2 (en) Gain control method for performing acoustic echo cancellation and suppression
JP5049277B2 (en) Method and system for clear signal acquisition
JP3351532B2 (en) Variable block size adaptation algorithm for noise-resistant echo canceller
US5796819A (en) Echo canceller for non-linear circuits
JP4104659B2 (en) Device for suppressing disturbing components of input signals
US8111833B2 (en) Method of reducing residual acoustic echo after echo suppression in a “hands free” device
JP5493817B2 (en) Echo canceller
US7203308B2 (en) Echo canceller ensuring further reduction in residual echo
US8160239B2 (en) Echo canceller and speech processing apparatus
US8934620B2 (en) Acoustic echo cancellation for high noise and excessive double talk
IL112797A (en) Doubletalk detection by means of spectral content
CN110956975B (en) Echo cancellation method and device
KR20050074503A (en) A method for enhancing the acoustic echo cancellation system using residual echo filter
JP3607625B2 (en) Multi-channel echo suppression method, apparatus thereof, program thereof and recording medium thereof
JP3787088B2 (en) Acoustic echo cancellation method, apparatus, and acoustic echo cancellation program
JP4396449B2 (en) Reverberation removal method and apparatus
JP3756839B2 (en) Reverberation reduction method, Reverberation reduction device, Reverberation reduction program
JP4600423B2 (en) Echo canceller
WO2021016001A1 (en) Input signal-based frequency domain adaptive filter stability control
JP2005533427A (en) Echo canceller with model mismatch compensation
Hamidia et al. Improving acoustic echo cancellation in hands-free communication systems
JP2002223182A (en) Echo canceling method, its device, its program and its recording medium
Kothandaraman et al. Acoustic Echo Cancellation Using PEVD Based Adaptive Kalman Filter.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090929

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091012

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131030

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees