JP4920511B2 - Multichannel echo canceller - Google Patents
Multichannel echo canceller Download PDFInfo
- Publication number
- JP4920511B2 JP4920511B2 JP2007175430A JP2007175430A JP4920511B2 JP 4920511 B2 JP4920511 B2 JP 4920511B2 JP 2007175430 A JP2007175430 A JP 2007175430A JP 2007175430 A JP2007175430 A JP 2007175430A JP 4920511 B2 JP4920511 B2 JP 4920511B2
- Authority
- JP
- Japan
- Prior art keywords
- location
- acoustic signal
- matrix
- signal
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、マルチチャンネルエコーキャンセラに関し、より特定的には、会議システムやハンズフリー電話などに用いられるマルチチャンネルエコーキャンセラに関するものである。 The present invention relates to a multi-channel echo canceller, and more particularly to a multi-channel echo canceller used for a conference system, a hands-free telephone or the like.
近年、離れた場所に存在する話者同士の音声である音響信号を相互伝送する会議システムやハンズフリー電話などのマルチチャンネルの音響システムが実現されている。この音響システムを例えば第1および第2の場所間で実現する場合、第1および第2の場所それぞれに、話者自身の音声を検出するための複数のマイクロホンと、離れた場所に存在する話者の音声を聞くための複数のスピーカとが設けられる。第1の場所の各スピーカは第2の場所の各マイクロホンと接続され、第1の場所の各マイクロホンは第2の場所の各スピーカと接続される。これにより、例えば第1の場所に存在する話者S1は、第1の場所の各スピーカを通して第2の場所に存在する話者S2の音声を聞くことができる。また、第1の場所の各マイクロホンを通して話者S1の音声を話者S2に聞かすことができる。 In recent years, multi-channel acoustic systems such as conference systems and hands-free telephones that mutually transmit acoustic signals, which are voices between speakers in remote locations, have been realized. When this acoustic system is realized between, for example, a first location and a second location, a plurality of microphones for detecting the voice of the speaker itself and a story existing at a remote location are provided in each of the first and second locations. And a plurality of speakers for listening to a person's voice. Each speaker at the first location is connected to each microphone at the second location, and each microphone at the first location is connected to each speaker at the second location. Thereby, for example, the speaker S1 existing in the first location can hear the voice of the speaker S2 existing in the second location through each speaker in the first location. Also, the voice of the speaker S1 can be heard by the speaker S2 through each microphone at the first location.
しかしながら、このような音響システムでは、エコーをキャンセルしなければならないという課題がある。例えば話者S2が音声を発したとき、その音声は第2の場所の各マイクロホンを通して第1の場所の各スピーカで拡声される。ここで、第1の場所には各マイクロホンが設けられている。このため、第1の場所の各スピーカで拡声された話者S2の音声は、第1の場所の各マイクロホンで検出されることになる。その結果、話者S2は、話者S1の音声以外に、自分自身が発した音声を第2の場所の各スピーカを通して聞くことになる。このように、離れた場所に存在する話者の音声を聞くためのスピーカで拡声される自分自身の音声は、話者にとって不要なエコーとなる。 However, such an acoustic system has a problem that the echo must be canceled. For example, when the speaker S2 utters a sound, the sound is amplified by each speaker at the first location through each microphone at the second location. Here, each microphone is provided in the first location. For this reason, the voice of the speaker S2 amplified by each speaker at the first location is detected by each microphone at the first location. As a result, the speaker S2 listens to the sound generated by himself / herself through each speaker in the second place in addition to the sound of the speaker S1. As described above, the sound of the user himself / herself that is amplified by the speaker for listening to the sound of the speaker existing at a distant place becomes an unnecessary echo for the speaker.
そこで従来において、このようなエコーをキャンセルするマルチチャンネルエコーキャンセラとして、適応フィルタを用いたマルチチャンネルエコーキャンセラが提案されている。図8は、音響システムに用いられる従来の適応フィルタを用いたマルチチャンネルエコーキャンセラ9の構成を示す図である。図8に示す音響システムでは、チャンネルが2つの場合を示している。また図8に示す音響システムでは、近端側には、話者S1が音源(近端音源)として存在しており、遠端側には、話者S2が音源(遠端音源)として存在しているとする。近端側には、遠端側の話者S2の音声からなる遠端音響信号をステレオで拡声するためのスピーカ10および20と、近端側の話者S1の音声からなる近端音響信号を検出するためのマイクロホン11および21とが設けられている。遠端側には、近端音響信号をステレオで拡声するためのスピーカ30および40と、遠端音響信号を検出するためのマイクロホン31および41とが設けられている。また図8に示す音響システムでは、一例として、マルチチャンネルエコーキャンセラ9が近端側にのみ設けられているとする。
Therefore, conventionally, a multichannel echo canceller using an adaptive filter has been proposed as a multichannel echo canceller for canceling such echo. FIG. 8 is a diagram showing a configuration of a
図8において、マルチチャンネルエコーキャンセラ9は、適応フィルタ91〜94、加算器95および97、減算器96および98により構成される。適応フィルタ91は、減算器96からの出力信号に基づいて、スピーカ10からマイクロホン11への伝達特性h11(ω)を推定する。ωは周波数である。適応フィルタ91は、スピーカ10に入力されるべきスピーカ入力信号sp1に推定結果eh11(ω)を畳み込んで出力する。適応フィルタ92は、減算器96からの出力信号に基づいて、スピーカ20からマイクロホン11への伝達特性h21(ω)を推定する。適応フィルタ92は、スピーカ20に入力されるべきスピーカ入力信号sp2に推定結果eh21(ω)を畳み込んで出力する。適応フィルタ93は、減算器98からの出力信号に基づいて、スピーカ10からマイクロホン21への伝達特性h12(ω)を推定する。適応フィルタ93は、スピーカ10に入力されるべきスピーカ入力信号sp1に推定結果eh12(ω)を畳み込んで出力する。適応フィルタ94は、減算器98からの出力信号に基づいて、スピーカ20からマイクロホン21への伝達特性h22(ω)を推定する。適応フィルタ94は、スピーカ20に入力されるべきスピーカ入力信号sp2に推定結果eh22(ω)を畳み込んで出力する。
In FIG. 8, the
加算器95は、適応フィルタ91からの出力信号と適応フィルタ92からの出力信号とを入力とし、これらの出力信号を加算する。減算器96は、マイクロホン11で検出された検出信号m1と加算器95からの出力信号とを入力とし、検出信号m1から加算器95からの出力信号を減算する。これにより、減算器96からの出力信号y1は、エコーである遠端側の話者S2の音声がキャンセルされた信号となる。減算器96からの出力信号y1は、遠端側に伝送され、遠端側のスピーカ30で拡声される。加算器97は、適応フィルタ93からの出力信号と適応フィルタ94からの出力信号とを入力とし、これらの出力信号を加算する。減算器98は、マイクロホン21で検出された検出信号m2と加算器97からの出力信号とを入力とし、検出信号m2から加算器97からの出力信号を減算する。これにより、減算器98からの出力信号y2は、エコーである遠端側の話者S2の音声がキャンセルされた信号となる。減算器98からの出力信号y2は、遠端側に伝送され、遠端側のスピーカ40で拡声される。
The
ここで、適応フィルタ91〜94で行われる伝達特性の推定には、適応フィルタの学習方法として一般に用いられる学習同定法(LMS)などが利用される。具体的には、適応フィルタ91および92は、減算器96からの出力信号y1のパワーが最小となるように、伝達特性を推定する。適応フィルタ93および94は、減算器98からの出力信号y2のパワーが最小となるように、伝達特性を推定する。
Here, for the estimation of transfer characteristics performed by the
以下、従来のマルチチャンネルエコーキャンセラ9の問題点について説明する。図8においてエコーキャンセル効果を得るには、適応フィルタ91〜94それぞれにおいて正しい伝達特性が推定されなければならない。例えば適応フィルタ91で言えば、推定結果eh11(ω)が伝達特性h11(ω)と一致する必要がある。しかしながら、従来のマルチチャンネルエコーキャンセラ9では、スピーカ入力信号sp1またはスピーカ入力信号sp2のいずれか一方の信号のみが拡声されている状態でなければ、正しい伝達特性を推定することができない。つまり、スピーカ10またはスピーカ20のいずれか一方のみが動作しているモノラル再生の状態でなければ、正しい伝達特性を推定することができない。
Hereinafter, problems of the conventional
マルチチャンネル再生時(ここではステレオ再生時)、大抵はスピーカ10またはスピーカ20の両方が動作し、スピーカ10および20には相関をもつ信号が入力される。例えば図8に示す遠端側のマイクロホン31および41において、話者S2の音声がステレオ検出されるとする。また、話者S2の音声をs2(ω)とし、話者S2からマイクロホン31への伝達特性をa21(ω)、話者S2からマイクロホン41への伝達特性をa22(ω)とする。このとき、スピーカ10に入力されるスピーカ入力信号sp1はs2(ω)・a21(ω)となり、スピーカ20に入力されるスピーカ入力信号sp2はs2(ω)・a22(ω)となる。スピーカ入力信号sp1およびsp2は、ともにs2(ω)を含むので、相関をもつことになる。また、マイクロホン11で検出される検出信号m1(ω)は、式(1)のようになる。
しかしながら、式(1)で表されたm1(ω)は、s2(ω)に対して所定の伝達特性が乗算されたものを含んでおり、スピーカ入力信号sp1およびsp2もs2(ω)に対して所定の伝達特性が乗算されたものを含んでいる。これは、スピーカ入力信号sp1またはスピーカ入力信号sp2のいずれか一方を用いることにより、式(1)で表されたs2(ω)成分を再現できることを意味するものである。したがって、適応フィルタ91で推定される伝達特性eh11(ω)と、適応フィルタ92で推定される伝達特性eh21(ω)とに複数の解(例えば、式(2)または式(3))が存在することになる。
このように、従来のマルチチャンネルエコーキャンセラ9では、マルチチャンネル再生時、解の不定性によって正しい伝達特性を推定することができず、エコーキャンセル効果が安定して得られないという問題があった。
As described above, the conventional
そこで従来では、各チャンネルの信号レベルの大小を判定して推定処理を行うチャンネルを1つ選択する技術(例えば特許文献1など)が提案されている。また、スピーカ入力信号sp1およびスピーカ入力信号sp2に付加信号を加えることによって正しい伝達特性を推定する技術(例えば特許文献2など)も提案されている。従来では、これらの技術を採用することにより、従来のマルチチャンネルエコーキャンセラ9における解の不定性への対策が行われている。
しかしながら、特許文献1に開示された技術では、チャンネル間の信号レベル差が小さい場合、各チャンネルの信号レベルの大小を正しく判定することができず、正しい伝達特性を推定することはできない。このため、特許文献1に開示された技術では、エコーキャンセルを常に安定して行うことはできなかった。また、特許文献2に開示された技術では、正しい伝達特性を推定するために付加信号をスピーカ入力信号sp1およびスピーカ入力信号sp2に加えていた。このため、スピーカでは話者の音声以外に付加信号も拡声されてしまい、付加信号による音質劣化が生じるという問題があった。このように、解の不定性への対策として提案された特許文献1および2に開示された技術では、常に安定したエコーキャンセルを行うことができなかったり、音質劣化が生じたりしていた。
However, in the technique disclosed in
それ故、本発明は、マルチチャンネル再生時において音質劣化が生じることなく常に安定したエコーキャンセルを行うことができ、ダブルトーク時やシングルトーク時に関係なく安定したエコーキャンセルを行うことが可能なマルチチャンネルエコーキャンセラを提供することを目的とする。 Therefore, the present invention can always perform stable echo cancellation without causing deterioration in sound quality during multi-channel playback, and can perform stable echo cancellation regardless of double talk or single talk. An object is to provide an echo canceller.
本発明に係るマルチチャンネルエコーキャンセラは、上記課題を解決するものであり、本発明に係るマルチチャンネルエコーキャンセラは、第1の場所に設けられた複数のマイクロホンで検出される当該第1の場所に存在する1つ以上の音源からの第1の音響信号と、第2の場所に設けられた複数のマイクロホンで検出される当該第2の場所に存在する1つ以上の音源からの第2の音響信号とを、第1および第2の場所それぞれに設けられた複数のスピーカを用いることによって、第1および第2の場所間で相互伝送する音響システムに用いられるマルチチャンネルエコーキャンセラであって、第1の場所に設けられた複数のマイクロホンは、第1の音響信号に加えてさらに、第1の場所に設けられた複数のスピーカで拡声された第2の音響信号を検出しており、マルチチャンネルエコーキャンセラは、第1の場所に設けられた複数のスピーカそれぞれに入力されるべき第2の音響信号を含むスピーカ入力信号と、第1の場所に設けられた複数のマイクロホンの検出信号とを入力とし、独立成分分析に基づく信号処理を施して各検出信号に含まれる第1の音響信号と第2の音響信号とを分離し、当該分離した第1の音響信号のみを第2の場所に設けられた複数のスピーカへ出力することによって、各検出信号に含まれる第2の音響信号をエコーとしてキャンセルするエコーキャンセル部を備える。 The multi-channel echo canceller according to the present invention solves the above problems, and the multi-channel echo canceller according to the present invention is located at the first location detected by a plurality of microphones provided at the first location. First acoustic signal from one or more sound sources present and second sound from one or more sound sources present at the second location detected by a plurality of microphones provided at the second location. A multi-channel echo canceller for use in an acoustic system for transmitting signals to and from each other by using a plurality of speakers provided at each of the first and second locations, In addition to the first acoustic signal, the plurality of microphones provided at one location further includes a second sound that is amplified by a plurality of speakers provided at the first location. The multi-channel echo canceller is provided at the first location and the speaker input signal including the second acoustic signal to be input to each of the plurality of speakers provided at the first location. The detection signals of the plurality of microphones are input, signal processing based on independent component analysis is performed to separate the first acoustic signal and the second acoustic signal included in each detection signal, and the separated first acoustic signal An echo cancellation unit is provided that cancels the second acoustic signal included in each detection signal as an echo by outputting only the signal to a plurality of speakers provided at the second location.
独立成分分析に基づく信号処理が施されることにより、各スピーカ入力信号に相関をもつ第2の音響信号が含まれていても、各検出信号に含まれる第1の音響信号と第2の音響信号とを分離することができる。これにより、マルチチャンネル再生時における解の不定性の問題を解消しつつ、音質劣化が生じることなく常に安定したエコーキャンセルを行うことができる。さらに、ダブルトーク時やシングルトーク時に関係なく安定したエコーキャンセルを行うことができる。 By performing signal processing based on independent component analysis, even if a second acoustic signal having a correlation is included in each speaker input signal, the first acoustic signal and the second acoustic signal included in each detection signal are included. The signal can be separated. Thereby, it is possible to always perform stable echo cancellation without causing deterioration of sound quality while solving the problem of indefiniteness of the solution during multi-channel reproduction. Furthermore, stable echo cancellation can be performed regardless of double talk or single talk.
なお、上記第1の場所は、例えば、後述する実施形態における、近端側の場所に相当するものである。また、上記第1の音響信号は、後述する実施形態における、近端音響信号に相当するものである。また、上記第2の場所は、例えば、後述する実施形態における、遠端側の場所に相当するものである。また、上記第2の音響信号は、後述する実施形態における、遠端音響信号に相当するものである。 The first location corresponds to, for example, a location on the near end side in an embodiment described later. The first acoustic signal corresponds to a near-end acoustic signal in an embodiment described later. The second location corresponds to, for example, a far-end location in an embodiment described later. The second acoustic signal corresponds to a far-end acoustic signal in an embodiment described later.
より好ましくは、エコーキャンセル部は、各スピーカ入力信号および各検出信号を入力とし、独立成分分析に基づく信号処理を施して、各検出信号に含まれる第1の音響信号と第2の音響信号とを分離するとともに当該第1の音響信号に含まれる互いに相関の低い信号を検出信号の数の分だけ分離し、当該分離した互いに相関の低い信号のみを第2の場所に設けられた複数のスピーカへ出力する音源分離部を有するとよい。 More preferably, the echo cancellation unit receives each speaker input signal and each detection signal as input, performs signal processing based on independent component analysis, and includes a first acoustic signal and a second acoustic signal included in each detection signal, A plurality of loudspeakers provided in the second place, the signals having a low correlation included in the first acoustic signal are separated by the number of detection signals, and only the separated signals having a low correlation are provided in the second location. A sound source separation unit that outputs to
より好ましくは、エコーキャンセル部は、第1の場所に設けられた複数のマイクロホンそれぞれに対応して設けられ、対応するマイクロホンの検出信号および各スピーカ入力信号を入力とし、独立成分分析に基づく信号処理を施して対応するマイクロホンの検出信号に含まれる第1の音響信号と第2の音響信号とを分離し、当該分離した第1の音響信号のみを第2の場所に設けられたいずれか1つのスピーカへ出力する複数の音源分離部を有するとよい。 More preferably, the echo cancellation unit is provided corresponding to each of the plurality of microphones provided in the first place, and receives the detection signal of the corresponding microphone and each speaker input signal as input, and performs signal processing based on independent component analysis The first acoustic signal and the second acoustic signal included in the detection signal of the corresponding microphone are separated, and only the separated first acoustic signal is provided at the second location. It is preferable to have a plurality of sound source separation units that output to a speaker.
より好ましくは、エコーキャンセル部には、各検出信号に含まれる第1の音響信号と第2の音響信号とを分離するための分離行列が予め設定されており、分離行列は、第1の場所に設けられた複数のスピーカから当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の第1の行列要素であって、独立成分分析に従って学習された複数の第1の行列要素を含み、エコーキャンセル部は、各スピーカ入力信号および各検出信号により構成される入力ベクトルを分離行列に対して乗算して各検出信号に含まれる第2の音響信号を各検出信号から減算することにより、各検出信号に含まれる第1の音響信号と第2の音響信号とを分離するとよい。 More preferably, a separation matrix for separating the first acoustic signal and the second acoustic signal included in each detection signal is preset in the echo cancellation unit, and the separation matrix is the first location. A plurality of first matrix elements relating to respective transfer characteristics from a plurality of speakers provided in the first location to a plurality of microphones provided in the first location, the plurality of first matrices being learned according to independent component analysis The echo cancellation unit includes an element, and multiplies the separation matrix by an input vector constituted by each speaker input signal and each detection signal, and subtracts a second acoustic signal included in each detection signal from each detection signal. Thus, the first acoustic signal and the second acoustic signal included in each detection signal may be separated.
より好ましくは、分離行列は、第2の場所に存在する1以上の音源から当該第2の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の第2の行列要素をさらに含み、各第2の行列要素のうち、分離行列の対角以外を構成する行列要素が0であるとよい。 More preferably, the separation matrix further includes a plurality of second matrix elements for each transfer characteristic from one or more sound sources present at the second location to a plurality of microphones provided at the second location, Of the second matrix elements, the matrix elements other than the diagonal of the separation matrix may be zero.
より好ましくは、分離行列は、各検出信号を用いて、各スピーカ入力信号における第2の音響信号に含まれる互いに相関の低い信号をスピーカ入力信号の数の分だけ分離するための複数の第2の行列要素をさらに含み、各第2の行列要素は、全て0であるとよい。 More preferably, the separation matrix uses a plurality of second signals for separating signals having low correlation included in the second acoustic signal in each speaker input signal by the number of speaker input signals using each detection signal. The second matrix elements may be all zero.
より好ましくは、分離行列は、第2の場所に存在する1以上の音源から当該第2の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の第2の行列要素と、各検出信号を用いて、各スピーカ入力信号における第2の音響信号に含まれる互いに相関の低い信号をスピーカ入力信号の数の分だけ分離するための複数の第3の行列要素とをさらに含み、各第2の行列要素のうち、分離行列の対角以外を構成する行列要素が0であり、各第3の行列要素が全て0であるとよい。 More preferably, the separation matrix includes a plurality of second matrix elements relating to each transfer characteristic from one or more sound sources present at the second location to a plurality of microphones provided at the second location, and each detection signal. And a plurality of third matrix elements for separating signals having a low correlation included in the second acoustic signal in each speaker input signal by the number of speaker input signals. Of the matrix elements, the matrix elements other than the diagonal of the separation matrix are 0, and all the third matrix elements are all 0.
より好ましくは、分離行列は、第1の場所に存在する1以上の音源から当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の第2の行列要素をさらに含み、各第2の行列要素のうち、分離行列の対角以外を構成する行列要素が0であるとよい。 More preferably, the separation matrix further includes a plurality of second matrix elements for each transfer characteristic from one or more sound sources present at the first location to a plurality of microphones provided at the first location, Of the second matrix elements, the matrix elements other than the diagonal of the separation matrix may be zero.
また本発明は、マルチチャンネルエコーキャンセル方法にも向けられており、本発明に係るマルチチャンネルエコーキャンセル方法は、第1の場所に設けられた複数のマイクロホンで検出される当該第1の場所に存在する1つ以上の音源からの第1の音響信号と、第2の場所に設けられた複数のマイクロホンで検出される当該第2の場所に存在する1つ以上の音源からの第2の音響信号とを、第1および第2の場所それぞれに設けられた複数のスピーカを用いることによって、第1および第2の場所間で相互伝送する音響システムに用いられるマルチチャンネルエコーキャンセル方法であって、第1の場所に設けられた複数のマイクロホンは、第1の音響信号に加えてさらに、第1の場所に設けられた複数のスピーカで拡声された第2の音響信号を検出しており、マルチチャンネルエコーキャンセル方法は、第1の場所に設けられた複数のスピーカそれぞれに入力されるべき第2の音響信号を含むスピーカ入力信号と、第1の場所に設けられた複数のマイクロホンの検出信号とを入力する入力ステップと、入力ステップにおいて入力された各スピーカ入力信号および各検出信号に対して独立成分分析に基づく信号処理を施すことによって、各検出信号に含まれる第1の音響信号と第2の音響信号とを分離する分離ステップと、分離ステップにおいて分離された第1の音響信号のみを第2の場所に設けられた複数のスピーカへ出力することによって、各検出信号に含まれる第2の音響信号をエコーとしてキャンセルするキャンセルステップとを有する。 The present invention is also directed to a multi-channel echo cancellation method, and the multi-channel echo cancellation method according to the present invention is present at the first location detected by a plurality of microphones provided at the first location. A first acoustic signal from one or more sound sources to be detected, and a second acoustic signal from one or more sound sources present at the second location detected by a plurality of microphones provided at the second location Is a multi-channel echo cancellation method used in an acoustic system that mutually transmits between the first and second locations by using a plurality of speakers provided in the first and second locations, respectively. In addition to the first acoustic signal, the plurality of microphones provided at one location further includes a second sound that is amplified by a plurality of speakers provided at the first location. The multi-channel echo canceling method is provided in the first location, including a speaker input signal including a second acoustic signal to be input to each of the plurality of speakers provided in the first location. Included in each detection signal by performing input processing for inputting detection signals of a plurality of microphones, and performing signal processing based on independent component analysis on each speaker input signal and each detection signal input in the input step. A separation step for separating the first acoustic signal and the second acoustic signal, and outputting only the first acoustic signal separated in the separation step to a plurality of speakers provided in the second location, A cancellation step of canceling the second acoustic signal included in the detection signal as an echo.
より好ましくは、分離ステップは、入力ステップにおいて入力された各スピーカ入力信号および各検出信号で構成される入力ベクトルに対して、各検出信号に含まれる第1の音響信号と第2の音響信号とを分離するための分離行列であって、第1の場所に設けられた複数のスピーカから当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素を含む分離行列を乗算することにより、当該乗算した結果である出力ベクトルを構成する複数の出力信号を算出する第1の信号算出ステップと、第1の信号算出ステップにおいて算出された出力信号間についての高次の相関を行列要素にもつ相関行列を算出する行列算出ステップと、行列算出ステップにおいて算出された相関行列を用いて、更新すべき分離行列に含まれる各行列要素を学習する学習ステップと、第1の信号算出ステップにおいて用いられた分離行列に含まれる各行列要素を、学習ステップにおいて学習された各行列要素に更新する更新ステップと、入力ステップにおいて入力された各スピーカ入力信号および各検出信号で構成される入力ベクトルに対して、更新ステップにおいて各行列要素が更新された分離行列を乗算することにより、各検出信号に含まれる第1の音響信号と第2の音響信号とが分離した出力ベクトルを構成する複数の出力信号を算出する第2の信号算出ステップとを有し、キャンセルステップは、第2の信号算出ステップにおいて算出された各出力信号のうち、第1の音響信号のみを含む出力信号を第2の場所に設けられた複数のスピーカへ出力するとよい。 More preferably, the separation step includes a first acoustic signal and a second acoustic signal included in each detection signal with respect to an input vector composed of each speaker input signal and each detection signal input in the input step. A separation matrix including a plurality of matrix elements relating to respective transfer characteristics from a plurality of speakers provided at the first location to a plurality of microphones provided at the first location. A first signal calculation step for calculating a plurality of output signals constituting an output vector as a result of the multiplication by multiplication, and a higher-order correlation between the output signals calculated in the first signal calculation step A matrix calculation step for calculating a correlation matrix having matrix elements in the matrix element, and a correlation matrix calculated in the matrix calculation step. A learning step for learning each matrix element, an update step for updating each matrix element included in the separation matrix used in the first signal calculation step to each matrix element learned in the learning step, and an input step A first acoustic signal included in each detection signal is obtained by multiplying an input vector composed of each input speaker input signal and each detection signal by a separation matrix in which each matrix element is updated in the update step. And a second signal calculation step for calculating a plurality of output signals constituting an output vector from which the second acoustic signal is separated, and the cancellation step includes the output signals calculated in the second signal calculation step. Among them, an output signal including only the first acoustic signal may be output to a plurality of speakers provided at the second location.
また本発明は、プログラムにも向けられており、本発明に係るプログラムは、第1の場所に設けられた複数のマイクロホンで検出される当該第1の場所に存在する1つ以上の音源からの第1の音響信号と、第2の場所に設けられた複数のマイクロホンで検出される当該第2の場所に存在する1つ以上の音源からの第2の音響信号とを、第1および第2の場所それぞれに設けられた複数のスピーカを用いることによって、第1および第2の場所間で相互伝送する音響システムに用いられるコンピュータに実行させるプログラムであって、第1の場所に設けられた複数のマイクロホンは、第1の音響信号に加えてさらに、第1の場所に設けられた複数のスピーカで拡声された第2の音響信号を検出しており、コンピュータに、第1の場所に設けられた複数のスピーカそれぞれに入力されるべき第2の音響信号を含むスピーカ入力信号と、第1の場所に設けられた複数のマイクロホンの検出信号とを入力する入力ステップと、入力ステップにおいて入力された各スピーカ入力信号および各検出信号に対して独立成分分析に基づく信号処理を施すことによって、各検出信号に含まれる第1の音響信号と第2の音響信号とを分離する分離ステップと、分離ステップにおいて分離された第1の音響信号のみを第2の場所に設けられた複数のスピーカへ出力することによって、各検出信号に含まれる第2の音響信号をエコーとしてキャンセルするキャンセルステップとを実行させるプログラムである。
The present invention is also directed to a program, the program according to the present invention from one or more sound sources present at the first location detected by a plurality of microphones provided at the first location. A first acoustic signal and a second acoustic signal from one or more sound sources present at the second location detected by a plurality of microphones provided at the second location are first and second. A program to be executed by a computer used in an acoustic system for mutual transmission between the first and second locations by using a plurality of speakers provided at each location, and a plurality of speakers provided at the first location In addition to the first acoustic signal, the microphone detects a second acoustic signal amplified by a plurality of speakers provided at the first location, and is provided to the computer at the first location. An input step for inputting a speaker input signal including a second acoustic signal to be input to each of the plurality of speakers, and detection signals of a plurality of microphones provided at the first location, and input in the input step A separation step for separating the first acoustic signal and the second acoustic signal included in each detection signal by performing signal processing based on independent component analysis on each speaker input signal and each detection signal, and a separation step A cancellation step of canceling the second acoustic signal included in each detection signal as an echo is executed by outputting only the first acoustic signal separated in
また本発明は、集積回路にも向けられており、本発明に係る集積回路は、第1の場所に設けられた複数のマイクロホンで検出される当該第1の場所に存在する1つ以上の音源からの第1の音響信号と、第2の場所に設けられた複数のマイクロホンで検出される当該第2の場所に存在する1つ以上の音源からの第2の音響信号とを、第1および第2の場所それぞれに設けられた複数のスピーカを用いることによって、第1および第2の場所間で相互伝送する音響システムに用いられる集積回路であって、第1の場所に設けられた複数のマイクロホンは、第1の音響信号に加えてさらに、第1の場所に設けられた複数のスピーカで拡声された第2の音響信号を検出しており、集積回路は、第1の場所に設けられた複数のスピーカそれぞれに入力されるべき第2の音響信号を含むスピーカ入力信号と、第1の場所に設けられた複数のマイクロホンの検出信号とを入力とし、独立成分分析に基づく信号処理を施して各検出信号に含まれる第1の音響信号と第2の音響信号とを分離し、当該分離した第1の音響信号のみを第2の場所に設けられた複数のスピーカへ出力することによって、各検出信号に含まれる第2の音響信号をエコーとしてキャンセルするエコーキャンセル部を備える。 The present invention is also directed to an integrated circuit, and the integrated circuit according to the present invention includes one or more sound sources existing at the first location detected by a plurality of microphones provided at the first location. And a second acoustic signal from one or more sound sources present at the second location detected by a plurality of microphones provided at the second location, and An integrated circuit used in an acoustic system for mutual transmission between the first and second locations by using a plurality of speakers provided at each of the second locations, the plurality of speakers provided at the first location In addition to the first acoustic signal, the microphone detects a second acoustic signal amplified by a plurality of speakers provided at the first location, and the integrated circuit is provided at the first location. Input to multiple speakers. The speaker input signal including the second acoustic signal to be input and the detection signals of the plurality of microphones provided at the first location are input, and signal processing based on independent component analysis is performed to include the first signal included in each detection signal. The first acoustic signal and the second acoustic signal are separated, and only the separated first acoustic signal is output to a plurality of speakers provided at the second location, whereby the second included in each detection signal. An echo canceling unit for canceling the acoustic signal as an echo.
また、本発明に係るマルチチャンネルエコーキャンセラは、検出すべき近端音源の音響信号に加えてさらに、複数のスピーカで拡声された音響信号が含まれる1つ以上のマイクロホンの検出信号に対して、当該複数のスピーカで拡声された音響信号をエコーとしてキャンセルして近端音源の音響信号のみを出力するマルチチャンネルエコーキャンセラであって、近端音源の音響信号と各スピーカで拡声された音響信号とを含む1つ以上のマイクロホンの検出信号と、音の方向感を有する各スピーカに入力されるべきスピーカ入力信号とを入力とし、近端音源の音響信号と各スピーカで拡声された音響信号とが同時に発生する所定時間において、出力すべき信号が近端音源の音響信号の音質を保持した信号となるように、かつ、出力すべき信号が各スピーカから拡声された音響信号をキャンセルした信号となるように適応動作することによって、1つ以上のマイクロホンの検出信号に含まれる近端音源の音響信号と各スピーカで拡声された音響信号とを分離し、分離した近端音源の音響信号のみを出力する音源分離部を備える。 Further, the multi-channel echo canceller according to the present invention, in addition to the acoustic signal of the near-end sound source to be detected, further detects a detection signal of one or more microphones including an acoustic signal amplified by a plurality of speakers. A multi-channel echo canceller that cancels the sound signals amplified by the plurality of speakers as echoes and outputs only the sound signal of the near-end sound source, and the sound signal of the near-end sound source and the sound signal amplified by each speaker The detection signal of one or more microphones including a speaker input signal to be input to each speaker having a sense of direction of sound, and an acoustic signal of a near-end sound source and an acoustic signal amplified by each speaker The signal to be output so that the signal to be output becomes a signal that retains the sound quality of the sound signal of the near-end sound source at the same time that is generated simultaneously. By performing an adaptive operation so that the sound signal amplified by each speaker is canceled, the sound signal of the near-end sound source included in the detection signal of one or more microphones and the sound signal amplified by each speaker are obtained. A sound source separation unit that separates and outputs only the acoustic signal of the separated near-end sound source is provided.
なお、近端音源の音響信号は、1つ以上のマイクロホンが設けられた場所に存在する1つ以上の音源から発生した音や、当該音の特徴を有する統計量などを示す信号であり、1つ以上のマイクロホンの検出信号に対して複数のスピーカで拡声された音響信号をキャンセルした信号である。また、音の方向感を有するスピーカ入力信号とは、例えば遠端側のマイクロホンで検出される音響信号の複数の特性(レベル比や時間遅延など)を、近端側の複数のスピーカを用いて再現することができる信号を意味する。また、音質を保持した信号とは、音源分離部に入力される近端音源の音響信号がもつ周波数特性(振幅周波数特性や振幅位相周波数特性など)を保持した信号を意味する。 The acoustic signal of the near-end sound source is a signal indicating a sound generated from one or more sound sources existing at a place where one or more microphones are provided, a statistic having characteristics of the sound, and the like. This is a signal obtained by canceling an acoustic signal amplified by a plurality of speakers with respect to detection signals of two or more microphones. In addition, a speaker input signal having a sense of direction of sound refers to, for example, a plurality of characteristics (level ratio, time delay, etc.) of an acoustic signal detected by a far-end microphone using a plurality of near-end speakers. A signal that can be reproduced. The signal retaining the sound quality means a signal retaining the frequency characteristics (amplitude frequency characteristics, amplitude phase frequency characteristics, etc.) of the acoustic signal of the near-end sound source input to the sound source separation unit.
より好ましくは、音源分離部は、各スピーカから1つ以上のマイクロホンまでの各伝達特性を推定し、各スピーカで拡声されて1つ以上のマイクロホンで検出された音響信号を推定した各伝達特性を用いて算出し、算出した音響信号を1つ以上のマイクロホンの検出信号から減算するように適応動作するとよい。 More preferably, the sound source separation unit estimates each transfer characteristic from each speaker to one or more microphones, and determines each transfer characteristic obtained by estimating an acoustic signal amplified by each speaker and detected by one or more microphones. The adaptive operation may be performed so that the calculated acoustic signal is subtracted from the detection signal of one or more microphones.
本発明によれば、マルチチャンネル再生時において音質劣化が生じることなく常に安定したエコーキャンセルを行うことができ、ダブルトーク時やシングルトーク時に関係なく安定したエコーキャンセルを行うことが可能なマルチチャンネルエコーキャンセラを提供することができる。 According to the present invention, multi-channel echo that can always perform stable echo cancellation without causing deterioration in sound quality during multi-channel playback, and can perform stable echo cancellation regardless of double talk or single talk. A canceller can be provided.
以下、本発明の実施形態について、図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第1の実施形態)
図1を参照して、本発明の第1の実施形態に係るマルチチャンネルエコーキャンセラの構成について説明する。図1は、音響システムに用いられる第1の実施形態に係るマルチチャンネルエコーキャンセラの構成例を示す図である。音響システムは、近端側および遠端側の場所間で音響信号を相互伝送するシステムである。図1に示す音響システムでは、近端側には、話者S1およびS2が互いに異なる複数の音源(近端音源)として存在しており、遠端側には、話者S3およびS4が互いに異なる複数の音源(遠端音源)として存在しているとする。近端側には、遠端側の話者S3およびS4の音声からなる遠端音響信号を拡声するためのスピーカ10および20と、近端側の話者S1およびS2の音声からなる近端音響信号を検出するためのマイクロホン11および21とが設けられている。遠端側には、近端音響信号を拡声するためのスピーカ30および40と、遠端音響信号を検出するためのマイクロホン31および41とが設けられている。スピーカ(10、20、30、40)とマイクロホン(11、21、31、41)は、図8で説明したそれらと同様であり、同じ符号を付している。また図1に示す音響システムでは、一例として、本実施形態に係るマルチチャンネルエコーキャンセラが近端側にのみ設けられているとする。また図1に示す音響システムでは、一例として、近端側の話者S1およびS2と、遠端側の話者S3およびS4とが同時に会話をしている、いわゆるダブルトークが行われている状態であるとする。
(First embodiment)
With reference to FIG. 1, a configuration of a multi-channel echo canceller according to the first embodiment of the present invention will be described. FIG. 1 is a diagram illustrating a configuration example of a multichannel echo canceller according to a first embodiment used in an acoustic system. The acoustic system is a system that mutually transmits acoustic signals between locations on the near end side and the far end side. In the acoustic system shown in FIG. 1, speakers S1 and S2 exist as a plurality of different sound sources (near-end sound sources) on the near end side, and speakers S3 and S4 differ on the far end side. Assume that there are multiple sound sources (far-end sound sources). On the near end side,
図1において、本実施形態に係るマルチチャンネルエコーキャンセラは、エコーキャンセル部1により構成される。エコーキャンセル部1は、音源分離部100、変換部110〜113、逆変換部120および121により構成される。
In FIG. 1, the multi-channel echo canceller according to the present embodiment is configured by an
変換部110は、スピーカ20に入力されるべき遠端音響信号を含むスピーカ入力信号sp2(t)を入力とし、時間領域(t)の信号から周波数領域(ω)の信号に変換する。変換部110において変換されたスピーカ入力信号sp2(ω)は、音源分離部100へ出力される。変換部111は、スピーカ10に入力されるべき遠端音響信号を含むスピーカ入力信号sp1(t)を入力とし、時間領域の信号(t)から周波数領域の信号(ω)に変換する。変換部111において変換されたスピーカ入力信号sp1(ω)は、音源分離部100へ出力される。変換部112は、マイクロホン21で検出された、近端音響信号とスピーカ10および20で拡声された遠端音響信号とを含む検出信号m2(t)を入力とし、時間領域の信号(t)から周波数領域の信号(ω)に変換する。変換部112において変換された検出信号m2(ω)は、音源分離部100へ出力される。変換部113は、マイクロホン11で検出された、近端音響信号とスピーカ10および20で拡声された遠端音響信号とを含む検出信号m1(t)を入力とし、時間領域の信号(t)から周波数領域の信号(ω)に変換する。変換部113において変換された検出信号m1(ω)は、音源分離部100へ出力される。
The
音源分離部100は、検出信号(m1(ω)、m2(ω))とスピーカ入力信号(sp1(ω)、sp2(ω))とを入力とする。音源分離部100は、入力された信号に対し、独立成分分析に基づく音源分離処理を施す。この音源分離処理により、検出信号(m1(ω)、m2(ω))に含まれる近端音響信号と遠端音響信号とが分離される。独立成分分析に基づく音源分離処理については後述にて詳細に説明する。音源分離部100は、分離した近端音響信号のみを出力信号y1(ω)およびy2(ω)として出力する。ここで、遠端側の話者S3およびS4の音声からなる遠端音響信号は、話者S3およびS4にとって不要な信号、つまりエコーに相当する。したがって、音源分離部100から近端音響信号のみが出力されることで、検出信号(m1(ω)、m2(ω))に含まれる遠端音響信号をエコーとしてキャンセルすることができる。
The sound
逆変換部120は、音源分離部100からの出力信号y1(ω)を入力とし、周波数領域(ω)の信号から時間領域(t)の信号に変換する。逆変換部120において変換された音響信号y1(t)は、スピーカ30へ出力され、スピーカ30で拡声される。逆変換部121は、音源分離部100からの出力信号y2(ω)を入力とし、周波数領域(ω)の信号から時間領域(t)の信号に変換する。逆変換部121において変換された出力信号y2(t)は、スピーカ40へ出力され、スピーカ40で拡声される。
The
以下、音源分離部100で行われる独立成分分析に基づく音源分離処理について詳細に説明する。まず、音源分離部100に入力される検出信号(m1(ω)、m2(ω))とスピーカ入力信号(sp1(ω)、sp2(ω))について詳細に説明する。検出信号(m1(ω)、m2(ω))とスピーカ入力信号(sp1(ω)、sp2(ω))は、式(4)のように表される。
次に、図2を参照して、音源分離部100の詳細な構成について説明する。図2は、音源分離部100の詳細な構成を示す図である。図2において、音源分離部100は、分離部101および学習部102により構成される。
Next, a detailed configuration of the sound
分離部101には、行列要素wij(行数i、列数jは1〜4の整数)で構成される分離行列W(4、4)が設定されている。初期状態では、例えば単位行列が分離行列W(4、4)として設定されているとする。分離部101には、検出信号(m1(ω)、m2(ω))とスピーカ入力信号(sp1(ω)、sp2(ω))が入力される。分離部101は、設定された分離行列W(4、4)に基づく式(5)に従って、出力信号y1〜y4をそれぞれ算出し、算出した出力信号y1〜y4をそれぞれ出力する。具体的には、分離部101は、式(5)に示すように、検出信号(m1(ω)、m2(ω))およびスピーカ入力信号(sp1(ω)、sp2(ω))で構成される入力ベクトルと、設定された分離行列W(4、4)とを乗算することにより、出力信号y1(ω)〜y4(ω)で構成される出力ベクトルを算出する。
学習部102は、出力信号y1(ω)〜y4(ω)を入力とし、独立成分分析に従って分離行列W(4、4)を学習する。具体的には、学習部102は、出力信号y1(ω)〜y4(ω)が互いに独立した信号となるように、分離行列W(4、4)を学習する。ここで独立とは、相関がないこと、つまり相関が0(ゼロ)であることを意味する。学習部102は、分離部101に設定された分離行列W(4、4)を、学習した分離行列W(4、4)に更新する。
The
以下、学習部102の学習方法についてより具体的に説明する。勾配法を用いた周波数領域の独立成分分析に一般的に用いられる学習式は、式(6)のようになる。なお、独立成分分析に用いられる学習式は、式(6)に限定されるものではなく、他の学習式であってもよい。
ここで、話者S1〜S4はすべて異なる話者であり、互いに独立した音源である。よって、式(4)中のs1(ω)〜s4(ω)は互い独立しており、互いに相関のない音声になるといえる。また、検出信号(m1(ω)、m2(ω))は2つ入力され、この検出信号の数は近端側の話者(S1およびS2)の数と一致する。また、スピーカ入力信号(sp1(ω)、sp2(ω))は2つ入力され、このスピーカ入力信号の数は遠端側の話者(S3およびS4)の数と一致する。したがって、これらの条件で学習部102が分離行列W(4、4)を学習し、当該学習が収束した場合、分離行列W(4、4)は、検出信号(m1(ω)、m2(ω))とスピーカ入力信号(sp1(ω)、sp2(ω))から、s1(ω)〜s4(ω)それぞれを分離することができる行列となる。つまり、学習が収束した分離行列W(4、4)に基づいて分離部101が算出した出力信号y1には、検出信号(m1(ω)、m2(ω))に含まれていたs1(ω)のみが含まれ、出力信号y2には、検出信号(m1(ω)、m2(ω))に含まれていたs2(ω)のみが含まれることになる。同様に、出力信号y3には、スピーカ入力信号(sp1(ω)、sp2(ω))に含まれていたs3(ω)のみが含まれ、出力信号y4には、スピーカ入力信号(sp1(ω)、sp2(ω))に含まれていたs4(ω)のみが含まれることになる。
Here, the speakers S1 to S4 are all different speakers and are independent sound sources. Therefore, it can be said that s1 (ω) to s4 (ω) in the equation (4) are independent from each other and have uncorrelated sounds. Further, two detection signals (m1 (ω), m2 (ω)) are input, and the number of detection signals matches the number of speakers (S1 and S2) on the near end side. Also, two speaker input signals (sp1 (ω), sp2 (ω)) are input, and the number of speaker input signals matches the number of far-end speakers (S3 and S4). Therefore, when the
なお、実際には、近端側において話者S1およびS2以外の独立した音源からの音として、近端側の環境ノイズなどがある。遠端側についても、同様である。しかしながら、これらの環境ノイズは、一般的に話者の音声に比べてガウス分布に近い信号である。このため、式(6)による学習、つまり独立成分分析による学習では、非ガウス性の大きい話者の音声を優先的に処理することになる。つまり、学習部102では、s1(ω)〜s4(ω)を優先的な処理対象とするので、検出信号(m1(ω)、m2(ω))とスピーカ入力信号(sp1(ω)、sp2(ω))から、s1(ω)〜s4(ω)それぞれを分離することができる分離行列が学習されることになる。
Actually, as sounds from independent sound sources other than the speakers S1 and S2 on the near end side, there are environmental noises on the near end side. The same applies to the far end side. However, these environmental noises are generally signals closer to a Gaussian distribution than the speaker's voice. For this reason, in the learning based on the equation (6), that is, the learning based on the independent component analysis, the speech of a speaker having a large non-Gaussian property is preferentially processed. That is, since the
このように、学習部102が独立成分分析に従って分離行列W(4、4)を学習することで、分離部101は、検出信号(m1(ω)、m2(ω))から近端音響信号を出力信号y1およびy2として分離することができるとともに、スピーカ入力信号(sp1(ω)、sp2(ω))から遠端音響信号を出力信号y3およびy4として分離することができる。なお、遠端音響信号である出力信号y3およびy4は、音源分離部100からは出力されず、学習部102の学習にのみ用いられる。
In this manner, the
以下、出力信号y1〜y4がどのような信号になるかについて、式(7)を用いながら説明する。式(7)は、式(5)に式(4)を代入し、さらに、分離部101に入力される信号をより詳細に表したものである。なお、式(7)では、式(4)に示された(ω)の記載を省略している。
分離行列W(4、4)の学習が収束した状態では、分離部101から出力される出力信号y1において、検出信号m1に含まれる話者S3およびS4の音声(s3・a31、s3・a32、s4・a41、s4・a42)がエコーとしてキャンセルされ、検出信号m1に含まれる話者S2の音声(s2・a21)がキャンセルされ、検出信号m2に含まれる話者S1の音声(s1・a12)が加算されることとなる。そして最終的には、出力信号y1は、s1のみを含む信号となり、話者S1の音声しか含まない信号となる。同様に、出力信号y2は、s2のみを含む信号となり、話者S2の音声しか含まない信号となる。また、出力信号y3は、s3のみを含む信号となり、話者S3の音声しか含まない信号となる。また、出力信号y4は、s4のみを含む信号となり、話者S4の音声しか含まない信号となる。
In the state where learning of the separation matrix W (4, 4) has converged, in the output signal y1 output from the
ここで、例えば出力信号y1において、検出信号m1に含まれる話者S3およびS4の音声がエコーとしてキャンセルされるには、w13がスピーカ10からマイクロホン11までの伝達特性h11にマイナスを乗じたもの(−h11)となる必要がある。また、w14がスピーカ20からマイクロホン11までの伝達特性h21にマイナスを乗じたもの(−h21)となる必要がある。したがって、分離行列W(4、4)の学習が収束した状態では、スピーカ入力信号(sp1、sp2)に相関のある音声(s3、s4)が含まれていても、スピーカ10およびスピーカ20からマイクロホン11までの伝達特性h11およびh21が正しく推定できているといえる。
Here, for example, in the output signal y1, in order to cancel the voices of the speakers S3 and S4 included in the detection signal m1 as echoes, w13 is obtained by multiplying the transfer characteristic h11 from the
なお、分離行列W(4、4)を構成する各行列要素のうち、(w11、w12、w21、w22)は、近端側の話者S1およびS2からマイクロホン11および21までの各伝達特性に関するものである。(w11、w12、w21、w22)は、検出信号(m1、m2)に含まれる話者S1の音声と話者S2の音声とを、出力信号y1およびy2として分離するために用いられる。また、(w13、w14、w23、w24)は、近端側のスピーカ10および20からマイクロホン11および21までの各伝達特性に関するものである。(w13、w14、w23、w24)は、検出信号(m1、m2)からエコー成分である話者S3およびS4の音声をキャンセルするために用いられる。また、(w33、w34、w43、w44)は、遠端側の話者S3およびS4からマイクロホン31および41までの各伝達特性に関するものである。(w33、w34、w43、w44)は、スピーカ入力信号(sp1、sp2)に含まれる話者S3の音声と話者S4の音声とを、出力信号y3およびy4として分離するために用いられる。(w31、w32、w41、w42)は、検出信号(m1、m2)を用いて、スピーカ入力信号(sp1、sp2)に含まれる話者S3の音声と話者S4の音声とを、出力信号y3およびy4として分離するために用いられる。
Of the matrix elements constituting the separation matrix W (4, 4), (w11, w12, w21, w22) relate to the transfer characteristics from the speakers S1 and S2 on the near end side to the
以上のように、本実施形態では、音源分離部100は、検出信号(m1、m2)に含まれる遠端音響信号をキャンセルすることによって、検出信号(m1、m2)に含まれる近端音響信号と遠端音響信号とを分離する。そして、音源分離部100は、分離した近端音響信号のみを出力信号y1およびy2として出力する。これにより、スピーカ入力信号(sp1、sp2)に相関のある音声が含まれているか否かに関係なく、検出信号(m1、m2)に含まれる遠端音響信号をエコーとしてキャンセルすることができる。その結果、本実施形態では、マルチチャンネル再生時において、解の不定性を解決しつつ、音質劣化を生じさせることなく常に安定したエコーキャンセルを行うことができる。
As described above, in the present embodiment, the sound
また、本実施形態では、従来のような適応フィルタを用いていないので、ダブルトーク時やシングルトーク時に関係なく正しい伝達特性を推定することができる。 Further, in the present embodiment, since a conventional adaptive filter is not used, it is possible to estimate a correct transfer characteristic regardless of double talk or single talk.
なお、上述では、音源分離部100からの出力信号y1およびy2には、近端音響信号として、話者S1およびS2の音声そのものが含まれるとしたが、これに限定されない。出力信号y1およびy2には、近端音響信号として、話者S1およびS2の音声の特徴を示す統計量が含まれてもよい。つまり、近端音響信号は、話者S1およびS2の音声ではなく、話者S1およびS2の音声の特徴を示す統計量で構成される音響信号であってもよい。
In the above description, the output signals y1 and y2 from the sound
また、上述では、ダブルトーク時の処理について説明したが、シングルトーク時(話者S3およびS4のみが会話している時)においてもダブルトーク時と同様の処理を行うことによって、エコーがキャンセルされることは言うまでもない。但し、シングルトーク時においては、検出信号(m1、m2)には話者S1およびS2の音声が含まれないので、音源分離部100は、出力信号y1およびy2を無音信号として出力することになる。実際には、話者S3およびS4に対して独立した音源からの音である近端側の環境ノイズなどが無音信号として出力される。
In the above description, the processing at the time of double talk has been described. However, even at the time of single talk (when only the speakers S3 and S4 are talking), echo is canceled by performing the same processing as at the time of double talk. Needless to say. However, during single talk, since the detection signals (m1, m2) do not include the voices of the speakers S1 and S2, the sound
また、上述では、近端側に話者S1およびS2の2名が存在するとしたが、これに限定されない。近端側に存在する話者は1名であってもよいし、3名以上であってもよい。 In the above description, there are two speakers S1 and S2 on the near end side, but the present invention is not limited to this. There may be one speaker on the near end side or three or more speakers.
まず、近端側に存在する話者が1名である場合として例えば話者S1だけが存在する場合について説明する。音源分離部100は、近端音響信号に関しては、入力されるマイクロホンの検出信号の数分だけ分離する。本実施形態では、音源分離部100に入力されるマイクロホンの検出信号の数は、m1およびm2の2つである。よって、この場合、音源分離部100は、出力信号y1を話者S1の音声のみを含む信号として出力し、出力信号y2を近端側の環境ノイズのみを含む無音信号として出力することになる。なお、この場合、話者S1の音声と環境ノイズは互いに独立であるため、話者S1の音声のみを含む出力信号y1と、環境ノイズのみを含む出力信号y2との間は独立となる。また、出力信号y1およびy2と、出力信号y3およびy4との間も独立となる。したがって、この場合であっても、音源分離部100は、入力される信号から互いに独立な出力信号y1〜y4を分離することができ、検出信号(m1、m2)に含まれる近端音響信号と遠端音響信号とを分離することができる。
First, a case where only one speaker S1 exists will be described as a case where there is only one speaker on the near end side. The sound
次に、近端側に存在する話者が3名である場合として例えば話者S5がさらに存在する場合について説明する。この場合において例えば話者S5が話者S1に近い位置に存在するとすると、音源分離部100は、出力信号y1を話者S1およびS5の音声のみを含む信号として出力し、出力信号y2を話者S2の音声のみを含む信号として出力することになる。話者S5が話者S1に近い位置に存在する場合、話者S1からマイクロホン11までの伝達特性と、話者S5からマイクロホン11までの伝達特性とが近似し、話者S1からマイクロホン21までの伝達特性と、話者S5からマイクロホン21までの伝達特性とが近似する。このため、話者S5の音声は、伝達特性が近似する話者S1の音声を含む出力信号y1に含まれることになる。なお、この場合、話者S1、S2、S5の音声は互いに独立であるため、話者S1およびS5の音声のみを含む出力信号y1と、話者S2の音声のみを含む出力信号y2との間は独立となる。また、出力信号y1およびy2と、出力信号y3およびy4との間も独立となる。したがって、音源分離部100は、入力される信号から互いに独立な出力信号y1〜y4を分離することができ、検出信号(m1、m2)に含まれる近端音響信号と遠端音響信号とを分離することができる。
Next, as a case where there are three speakers on the near end side, for example, a case where speaker S5 further exists will be described. In this case, for example, if the speaker S5 is present at a position close to the speaker S1, the sound
また、上述では、遠端側に話者S3およびS4の2名が存在するとしたが、これに限定されない。遠端側に存在する話者は1名であってもよいし、3名以上であってもよい。 In the above description, there are two speakers S3 and S4 on the far end side, but the present invention is not limited to this. There may be one speaker on the far end side or three or more speakers.
まず、遠端側に存在する話者が1名である場合として例えば話者S3だけが存在する場合について説明する。音源分離部100は、遠端音響信号に関しては、入力されるスピーカ入力信号の数分だけ分離する。本実施形態では、音源分離部100に入力されるスピーカ入力信号の数は、sp1およびsp2の2つである。よって、この場合、音源分離部100は、出力信号y3を話者S3の音声のみを含む信号として出力し、出力信号y4を近端側の環境ノイズのみを含む無音信号として出力することになる。なお、この場合、話者S3の音声と環境ノイズは互いに独立であるため、話者S3の音声のみを含む出力信号y3と、環境ノイズのみを含む出力信号y4との間は独立となる。また、出力信号y1およびy2と、出力信号y3およびy4との間も独立となる。したがって、この場合であっても、音源分離部100は、入力される信号から互いに独立な出力信号y1〜y4を分離することができ、検出信号(m1、m2)に含まれる近端音響信号と遠端音響信号とを分離することができる。
First, a case where only one speaker S3 exists will be described as a case where there is one speaker on the far end side. The sound
次に、遠端側に存在する話者が3名である場合として例えば話者S6がさらに存在する場合について説明する。この場合において例えば話者S6が話者S3に近い位置に存在するとすると、音源分離部100は、出力信号y3を話者S3およびS6の音声のみを含む信号として出力し、出力信号y4を話者S4の音声のみを含む信号として出力することになる。話者S6が話者S3に近い位置に存在する場合、話者S3からマイクロホン31までの伝達特性と、話者S6からマイクロホン31までの伝達特性とが近似し、話者S3からマイクロホン41までの伝達特性と、話者S6からマイクロホン41までの伝達特性とが近似する。このため、話者S6の音声は、伝達特性が近似する話者S3の音声を含む出力信号y3に含まれることになる。なお、この場合、話者S3、S4、S6の音声は互いに独立であるため、話者S3およびS6の音声のみを含む出力信号y3と、話者S4の音声のみを含む音響信号y4との間は独立となる。また、出力信号y1およびy2と、出力信号y3およびy4との間も独立となる。したがって、音源分離部100は、入力される信号から互いに独立な出力信号y1〜y4を分離することができ、検出信号(m1、m2)に含まれる近端音響信号と遠端音響信号とを分離することができる。
Next, a case where there are three speakers S6 on the far end side, for example, will be described. In this case, for example, if the speaker S6 is present at a position close to the speaker S3, the sound
また、図1に示す音響システムでは、一例として、本実施形態に係るマルチチャンネルエコーキャンセラが近端側にのみ設けられているとしたが、遠端側にも設置してよいことは言うまでもない。 In the acoustic system shown in FIG. 1, as an example, the multi-channel echo canceller according to the present embodiment is provided only on the near end side, but it goes without saying that the multi-channel echo canceller may also be installed on the far end side.
(第2の実施形態)
図3を参照して、本発明の第2の実施形態に係るマルチチャンネルエコーキャンセラの構成について説明する。図3は、音響システムに用いられる第2の実施形態に係るマルチチャンネルエコーキャンセラの構成例を示す図である。図3に示す音響システムでは、近端側には、話者S1が音源(近端音源)として存在しており、遠端側には、話者S3およびS4が互いに異なる複数の音源(遠端音源)として存在しているとする。近端側には、遠端側の話者S3およびS4の音声からなる遠端音響信号を拡声するためのスピーカ10および20と、近端側の話者S1の音声からなる近端音響信号を検出するためのマイクロホン11および21とが設けられている。遠端側には、近端音響信号を拡声するためのスピーカ30および40と、遠端音響信号を検出するためのマイクロホン31および41とが設けられている。スピーカ(10、20、30、40)とマイクロホン(11、21、31、41)は、図8で説明したそれらと同様であり、同じ符号を付している。また図3に示す音響システムでは、一例として、本実施形態に係るマルチチャンネルエコーキャンセラが近端側にのみ設けられているとする。また図3に示す音響システムでは、一例として、近端側の話者S1と、遠端側の話者S3およびS4とが同時に会話をしている、いわゆるダブルトークが行われている状態であるとする。
(Second Embodiment)
With reference to FIG. 3, the configuration of a multi-channel echo canceller according to the second embodiment of the present invention will be described. FIG. 3 is a diagram illustrating a configuration example of the multi-channel echo canceller according to the second embodiment used in the acoustic system. In the acoustic system shown in FIG. 3, the speaker S1 exists as a sound source (near-end sound source) on the near end side, and a plurality of sound sources (far end) from which the speakers S3 and S4 are different from each other exist on the far end side. Suppose that it exists as a sound source. On the near-end side,
図3において、本実施形態に係るマルチチャンネルエコーキャンセラは、エコーキャンセル部2により構成される。エコーキャンセル部2は、第1の音源分離部210、第2の音源分離部220、変換部230〜235、逆変換部240および241により構成される。
In FIG. 3, the multi-channel echo canceller according to the present embodiment is configured by an
上述した第1の実施形態に係るエコーキャンセル部1では、マイクロホン11および21に対して1つの音源分離部100が設けられていた。これに対し、本実施形態に係るエコーキャンセル部2では、マイクロホン11および21それぞれに対応するように、第1の音源分離部210および第2の音源分離部220が設けられている。つまり、本実施形態では、近端側の1つのマイクロホンに対して1つの音源分離部を設けた構成となっている。なお、変換部230〜235は、エコーキャンセル部1の変換部110〜113と同じ動作を行うが、図3では便宜上、参照符号を変えている。また逆変換部240および241についても、エコーキャンセル部1の逆変換部120および121と同じ動作を行うが、便宜上、参照符号を変えている。以下、第1の実施形態と異なる点を中心に説明する。
In the
第1の音源分離部210は、変換部230において周波数領域(ω)に変換されたスピーカ入力信号sp2(ω)と、変換部231において周波数領域(ω)に変換されたスピーカ入力信号sp1(ω)と、変換部232において周波数領域(ω)に変換された検出信号m1(ω)とを入力とする。第1の音源分離部210は、入力された信号に対し、独立成分分析に基づく音源分離処理を施す。この音源分離処理により、検出信号m1(ω)に含まれる近端音響信号と遠端音響信号とが分離される。独立成分分析に基づく音源分離処理は、第1の実施形態の処理とほぼ同様の処理となるが、後述にて詳細に説明する。第1の音源分離部210は、分離した近端音響信号のみを出力信号y1a(ω)として出力する。ここで、遠端音響信号は、エコーに相当する。したがって、第1の音源分離部210から近端音響信号のみが出力されることで、検出信号m1(ω)に含まれる遠端音響信号をエコーとしてキャンセルすることができる。第1の音源分離部210から出力された出力信号y1a(ω)は、逆変換部240において時間領域(t)の信号に変換される。時間領域(t)に変換された出力信号y1a(t)は、スピーカ30へ出力され、スピーカ30で拡声される。
The first sound
第2の音源分離部220は、変換部233において周波数領域(ω)に変換されたスピーカ入力信号sp2(ω)と、変換部234において周波数領域(ω)に変換されたスピーカ入力信号sp1(ω)と、変換部235において周波数領域(ω)に変換された検出信号m2(ω)とを入力とする。第2の音源分離部220は、入力された信号に対し、独立成分分析に基づく音源分離処理を施す。この音源分離処理により、検出信号m2(ω)に含まれる近端音響信号と遠端音響信号とが分離される。独立成分分析に基づく音源分離処理は、第1の音源分離部210と同様の処理となる。第2の音源分離部220は、分離した近端音響信号のみを出力信号y1b(ω)として出力する。ここで、遠端音響信号は、エコーに相当する。したがって、第2の音源分離部220から近端音響信号のみが出力されることで、検出信号m2(ω)に含まれる遠端音響信号をエコーとしてキャンセルすることができる。第2の音源分離部220から出力された出力信号y1b(ω)は、逆変換部241において時間領域(t)の信号に変換される。時間領域(t)に変換された出力信号y1b(t)は、スピーカ40へ出力され、スピーカ40で拡声される。
The second sound
以下、第1および第2の音源分離部210および220で行われる独立成分分析に基づく音源分離処理について詳細に説明する。ここでは、一例として第1の音源分離部210を用いて説明する。まず、第1の音源分離部210に入力される検出信号m1(ω)とスピーカ入力信号(sp1(ω)、sp2(ω))について詳細に説明する。検出信号m1(ω)とスピーカ入力信号(sp1(ω)、sp2(ω))は、式(8)のように表される。
次に、図4を参照して、第1の音源分離部210の詳細な構成について説明する。図4は、第1の音源分離部210の詳細な構成を示す図である。図4において、第1の音源分離部210は、分離部211および学習部212により構成される。
Next, a detailed configuration of the first sound
分離部211には、行列要素wij(行数i、列数jは1〜3の整数)で構成される分離行列W(3、3)が設定されている。初期状態では、例えば単位行列が分離行列W(3、3)として設定されているとする。分離部211には、検出信号m1(ω)とスピーカ入力信号(sp1(ω)、sp2(ω))とが入力される。分離部211は、設定された分離行列W(3、3)に基づく式(9)に従って、出力信号y1a〜y3aをそれぞれ算出し、算出した出力信号y1a〜y3aをそれぞれ出力する。具体的には、分離部211は、式(9)に示すように、検出信号m1(ω)およびスピーカ入力信号(sp1(ω)、sp2(ω))で構成される入力ベクトルと、設定された分離行列W(3、3)とを乗算することにより、出力信号y1a(ω)〜y3a(ω)で構成される出力ベクトルを算出する。
学習部212は、出力信号y1a(ω)〜y3a(ω)を入力とし、独立成分分析に従って分離行列W(3、3)を学習する。具体的には、学習部212は、出力信号y1a(ω)〜y3a(ω)が互いに独立した信号となるように、分離行列W(3、3)を学習する。学習部212は、分離部211に設定された分離行列W(3、3)を、学習した分離行列W(3、3)に更新する。
The
以下、学習部212の学習方法についてより具体的に説明する。勾配法を用いた周波数領域の独立成分分析に一般的に用いられる学習式は、式(10)のようになる。なお、独立成分分析に用いられる学習式は、第1の実施形態と同様、式(10)に限定されるものではなく、他の学習式であってもよい。
ここで、話者S1、S3、S4はすべて異なる話者であり、互いに独立した音源である。よって、式(8)中のs1(ω)、s3(ω)、s4(ω)は互い独立しており、互いに相関のない音声になるといえる。また、検出信号m1(ω)は1つ入力され、この検出信号の数は近端側の話者S1の数と一致する。また、スピーカ入力信号(sp1(ω)、sp2(ω))は2つ入力され、このスピーカ入力信号の数は遠端側の話者(S3およびS4)の数と一致する。したがって、これらの条件で学習部212が分離行列W(3、3)を学習し、当該学習が収束した場合、分離行列W(3、3)は、検出信号m1(ω)とスピーカ入力信号(sp1(ω)、sp2(ω))から、s1(ω)、s3(ω)、s4(ω)それぞれを分離することができる行列となる。つまり、学習が収束した分離行列W(3、3)に基づいて分離部101が算出した出力信号y1aには、検出信号m1(ω)に含まれていたs1(ω)のみが含まれることになる。同様に、出力信号y2aには、スピーカ入力信号(sp1(ω)、sp2(ω))に含まれていたs3(ω)のみが含まれ、出力信号y3aには、スピーカ入力信号(sp1(ω)、sp2(ω))に含まれていたs4(ω)のみが含まれることになる。
Here, the speakers S1, S3, and S4 are all different speakers and are independent sound sources. Therefore, it can be said that s1 (ω), s3 (ω), and s4 (ω) in the equation (8) are independent from each other and the speech has no correlation with each other. One detection signal m1 (ω) is input, and the number of detection signals matches the number of near-end speakers S1. Also, two speaker input signals (sp1 (ω), sp2 (ω)) are input, and the number of speaker input signals matches the number of far-end speakers (S3 and S4). Therefore, when the
このように、学習部212が独立成分分析に従って分離行列W(3、3)を学習することで、分離部211は、検出信号m1(ω)から近端音響信号を出力信号y1aとして分離することができるとともに、スピーカ入力信号(sp1(ω)、sp2(ω))から遠端音響信号を出力信号y2aおよびy3aとして分離することができる。なお、遠端音響信号である出力信号y2aおよびy3aは、第1の音源分離部210からは出力されず、学習部212の学習にのみ用いられる。
Thus, the
なお、第2の音源分離部220においても、第1の音源分離部210と同様の音源分離処理が施される。これにより、第2の音源分離部220からは、検出信号m2(ω)に含まれていたs1(ω)のみを含む出力信号y1bが出力される。
Note that the second sound
以下、出力信号y1a〜y3aがどのような信号になるかについて、式(11)を用いながら説明する。式(11)は、式(9)に式(8)を代入し、さらに、分離部211に入力される信号をより詳細に表わしたものである。なお、式(11)では、式(8)に示された(ω)の記載を省略している。
分離行列W(3、3)の学習が収束した状態では、w11=γ(任意の実数)、w12=−h11γ、w13=−h21γとなり、最終的には出力信号y1aはy1a=s1・a11となる。つまり、出力信号y1aにおいて、検出信号m1に含まれる話者S3およびS4の音声(s3・a31、s3・a32、s4・a41、s4・a42)がエコーとしてキャンセルされることになる。また分離行列W(3、3)の学習が収束した状態では、w21およびw31はw21=w31=0となり、行列要素(w22、w23、w32、w33)は、s3(ω)とs4(ω)とを分離することが可能な伝達特性となる。これにより、出力信号y2aは、最終的にはs3のみを含む信号となり、出力信号y3aは、s4のみを含む信号となる。このように分離行列W(3、3)が収束した状態では、スピーカ入力信号(sp1、sp2)に相関のある音声(s3、s4)が含まれていても、スピーカ10およびスピーカ20からマイクロホン11までの伝達特性h11およびh21が正しく推定できているといえる。
In the state where learning of the separation matrix W (3, 3) has converged, w11 = γ (arbitrary real number), w12 = −h11γ, w13 = −h21γ, and finally the output signal y1a is y1a = s1 · a11. Become. That is, in the output signal y1a, the voices (s3 · a31, s3 · a32, s4 · a41, s4 · a42) of the speakers S3 and S4 included in the detection signal m1 are canceled as echoes. In the state where learning of the separation matrix W (3, 3) has converged, w21 and w31 are w21 = w31 = 0, and the matrix elements (w22, w23, w32, w33) are s3 (ω) and s4 (ω). And transfer characteristics that can be separated from each other. Thereby, the output signal y2a finally becomes a signal including only s3, and the output signal y3a becomes a signal including only s4. In this state where the separation matrix W (3, 3) is converged, even if the speaker input signals (sp1, sp2) include correlated sounds (s3, s4), the
なお、収束した分離行列W(3、3)を構成する各行列要素のうち、(w11)は、近端側の話者S1からマイクロホン11までの各伝達特性に関するものである。(w11)は、s1・a11の信号レベルを規定するために用いられる。(w12、w13)は、近端側のスピーカ10および20からマイクロホン11までの各伝達特性に関するものである。(w12、w13)は、検出信号m1からエコー成分である話者S3およびS4の音声をキャンセルするために用いられる。(w22、w23、w32、w33)は、遠端側の話者S3およびS4からマイクロホン31および41までの各伝達特性に関するものである。(w22、w23、w32、w33)は、スピーカ入力信号(sp1、sp2)に含まれる話者S3の音声と話者S4の音声とを、出力信号y2aおよびy3aとして分離するために用いられる。(w21、w31)は、検出信号m1を用いて、スピーカ入力信号(sp1、sp2)に含まれる話者S3の音声と話者S4の音声とを、出力信号y2aおよびy3aとして分離するために用いられる。
Of the matrix elements constituting the converged separation matrix W (3, 3), (w11) relates to the transfer characteristics from the near-end speaker S1 to the
以上のように、本実施形態では、第1の音源分離部210は、検出信号m1に含まれる近端音響信号と遠端音響信号とを分離し、分離した近端音響信号のみを出力信号y1aとして出力する。また、第2の音源分離部220は、検出信号m2に含まれる近端音響信号と遠端音響信号とを分離し、分離した近端音響信号のみを出力信号y1bとして出力する。これにより、スピーカ入力信号(sp1、sp2)に相関のある音声が含まれているか否かに関係なく、検出信号(m1、m2)に含まれる遠端音響信号をエコーとしてキャンセルすることができる。その結果、本実施形態では、マルチチャンネル再生時において、解の不定性を解決しつつ、音質劣化を生じさせることなく常に安定したエコーキャンセルを行うことができる。
As described above, in the present embodiment, the first sound
また、本実施形態では、従来のような適応フィルタを用いていないので、ダブルトーク時やシングルトーク時に関係なく正しい伝達特性を推定することができる。 Further, in the present embodiment, since a conventional adaptive filter is not used, it is possible to estimate a correct transfer characteristic regardless of double talk or single talk.
また、本実施形態では、マイクロホン11および21それぞれに対応するように、第1の音源分離部210および第2の音源分離部220が設けられている。このため、第1の音源分離部210からは、検出信号m1に含まれていた話者S1の音声s1のみを含む出力信号y1aが出力され、第2の音源分離部220からは、検出信号m2に含まれていた話者S1の音声s1のみを含む出力信号y1bが出力されることになる。出力信号y1aは、検出信号m1に含まれていた話者S1の音声s1のみを含むので、話者S1からマイクロホン11へ向かう方向感を有する信号となる。同様に、出力信号y1bは、検出信号m2に含まれていた話者S1の音声s1のみを含むので、話者S1からマイクロホン21へ向かう方向感を有する信号となる。したがって、これらの出力信号y1aおよびy1bが遠端側のスピーカ30および40で拡声されると、話者S3およびS4は、拡声される話者S1の音声に対して方向感を感じることができる。
In the present embodiment, a first sound
なお、上述では、ダブルトーク時の処理について説明したが、シングルトーク時(話者S3およびS4のみが会話している時)においてもダブルトーク時と同様の処理を行うことによって、エコーがキャンセルされることは言うまでもない。但し、シングルトーク時においては、検出信号m1には話者S1の音声が含まれないので、第1の音源分離部210は、出力信号y1aを無音信号として出力することになる。実際には、話者S3およびS4に対して独立した音源からの音である近端側の環境ノイズなどが無音信号として出力される。
Although the processing at the time of double talk has been described above, the echo is canceled by performing the same processing at the time of single talk (when only the speakers S3 and S4 are talking). Needless to say. However, during single talk, the detection signal m1 does not include the voice of the speaker S1, so the first sound
また、上述では、近端側に話者S1の1名が存在するとしたが、これに限定されない。近端側に存在する話者は2名以上であってもよい。 In the above description, it is assumed that there is one speaker S1 on the near end side, but the present invention is not limited to this. There may be two or more speakers on the near end.
近端側に存在する話者が2名である場合として例えば話者S2がさらに存在する場合について説明する。第1の音源分離部210および第2の音源分離部220は、近端音響信号に関しては、入力されるマイクロホンの検出信号の数分だけ分離する。本実施形態では、第1の音源分離部210に入力されるマイクロホンの検出信号の数は、m1の1つであり、第2の音源分離部220に入力されるマイクロホンの検出信号の数は、m2の1つである。よって、この場合、第1の音源分離部210からは、検出信号m1に含まれていた話者S1およびS2の音声のみを含む出力信号y1aが出力され、第2の音源分離部220からは、検出信号m2に含まれていた話者S1およびS2の音声のみを含む出力信号y1bが出力されることになる。なお、この場合、話者S1〜S4の音声は互いに独立であるため、話者S1およびS2の音声のみを含む出力信号y1aと、話者S3の音声のみを含む出力信号y2aと、話者S4の音声のみを含む出力信号y3aとの間も独立となる。したがって、第1の音源分離部210は、入力される信号から互いに独立な出力信号y1a〜y3aを分離することができ、検出信号m1に含まれる近端音響信号と遠端音響信号とを分離することができる。このことは、第2の音源分離部220についても同様である。
As an example in which there are two speakers on the near end side, for example, a case where a speaker S2 further exists will be described. The first sound
また、上述では、遠端側に話者S3およびS4の2名が存在するとしたが、これに限定されない。遠端側に存在する話者は1名であってもよいし、3名以上であってもよい。この場合については、上述した第1の実施形態と同様であるので、説明を省略する。 In the above description, there are two speakers S3 and S4 on the far end side, but the present invention is not limited to this. There may be one speaker on the far end side or three or more speakers. Since this case is the same as that of the first embodiment described above, a description thereof will be omitted.
また、上述では、変換部230〜235は、第1の音源分離部210および第2の音源分離部220に入力される信号それぞれに対して1つずつ設けられていた。しかしながら、図5に示すように、一部の変換部を共用してもよい。図5は、一部の変換部を共用した場合を示す図である。図5において、変換部233は、スピーカ入力信号sp2を周波数領域(ω)に変換し、第1の音源分離部210および第2の音源分離部220それぞれに出力する。変換部234は、スピーカ入力信号sp1を周波数領域(ω)に変換し、第1の音源分離部210および第2の音源分離部220それぞれに出力する。このように、図5では、第1の音源分離部210および第2の音源分離部220に対して、変換部233と234とを共用している。このように、変換部233と234を共用することで、マルチチャンネルエコーキャンセラ全体の処理量を削減することができる。
In the above description, one
また、図3に示す音響システムでは、一例として、本実施形態に係るマルチチャンネルエコーキャンセラが近端側にのみ設けられているとしたが、遠端側にも設置してよいことは言うまでもない。 In the acoustic system shown in FIG. 3, as an example, the multi-channel echo canceller according to the present embodiment is provided only on the near end side, but it goes without saying that the multi-channel echo canceller may also be installed on the far end side.
(第3の実施形態)
上述した第1の音源分離部210および第2の音源分離部220では、分離行列を構成する全ての行列要素を更新する構成であった。これに対し、分離行列を構成する各行列要素のうち、一部の行列要素を拘束する(一部の行列要素を0にする)ようにしてもよい。以下、図6を参照して、第1の音源分離部210および第2の音源分離部220分離行列の一部の行列要素を拘束する場合を第3の実施形態として説明する。図6は、第1の音源分離部210に設定された分離行列の一部を拘束した第1の音源分離部210aの構成を示す図である。
(Third embodiment)
The first sound
図6において、第1の音源分離部210aは、拘束型分離部211aおよび拘束型学習部212aにより構成される。拘束型分離部211aには、行列要素wij(行数i、列数jは1〜3の整数)で構成される分離行列Wa(3、3)が設定されている。初期状態では、例えば単位行列が分離行列Wa(3、3)として設定されているとする。拘束型分離部211aには、検出信号m1(ω)とスピーカ入力信号(sp1(ω)、sp2(ω))とが入力される。拘束型分離部211aは、設定された分離行列Wa(3、3)に基づく式(12)に従って、出力信号y1a〜y3aをそれぞれ算出し、算出した出力信号y1a〜y3aをそれぞれ出力する。具体的には、拘束型分離部211aは、式(12)に示すように、検出信号m1(ω)およびスピーカ入力信号(sp1(ω)、sp2(ω))で構成される入力ベクトルと、設定された分離行列Wa(3、3)とを乗算することにより、出力信号y1a(ω)〜y3a(ω)で構成される出力ベクトルを算出する。
拘束型学習部212aは、出力信号y1a(ω)〜y3a(ω)を入力とし、独立成分分析を行って拘束型分離部211aに設定された分離行列Wa(3、3)を学習する。具体的には、拘束型学習部212aは、式(13)に従って、分離行列Wa(3、3)を学習する。拘束型学習部212aは、拘束型分離部211aに設定された分離行列Wa(3、3)を、学習した分離行列Wa(3、3)に更新する。
以下、分離行列の一部の行列要素を拘束する目的、および、行列要素の一部を拘束しても近端音響信号と遠端音響信号とを分離することができる理由について説明する。まず、上述した第2の実施形態では、分離行列が一旦収束した状態において、遠端音源が移動した場合や、遠端音源の数が多い場合などについては、特に言及していなかった。しかしながら、遠端音源が移動した場合や、遠端音源の数が多い場合、実際の伝達特性(a31(ω)やa32(ω)など)が変動する。これにより、第2の実施形態のように分離行列の全係数を更新する構成では、エコーをキャンセルするために用いられる行列要素(w12、w13)が学習を介して一時的に変動することがある。行列要素(w12、w13)が一時的に変動した場合、近端音響信号と遠端音響信号との分離が不完全になり、エコーのキャンセル効果が一時的に劣化する。 Hereinafter, the purpose of constraining a part of the matrix elements of the separation matrix and the reason why the near-end acoustic signal and the far-end acoustic signal can be separated even if the part of the matrix element is constrained will be described. First, in the above-described second embodiment, no particular mention has been made of the case where the far-end sound source moves or the number of far-end sound sources is large when the separation matrix has once converged. However, when the far-end sound source moves or when the number of far-end sound sources is large, the actual transfer characteristics (a31 (ω), a32 (ω), etc.) vary. Thereby, in the configuration in which all the coefficients of the separation matrix are updated as in the second embodiment, the matrix elements (w12, w13) used for canceling the echo may temporarily change through learning. . When the matrix elements (w12, w13) are temporarily changed, the separation between the near-end acoustic signal and the far-end acoustic signal is incomplete, and the echo cancellation effect is temporarily deteriorated.
また、行列要素(w21、w31)は、検出信号m1を用いて、スピーカ入力信号(sp1、sp2)に含まれる話者S3の音声と話者S4の音声とを、出力信号y2aおよびy3aとして分離するために用いられる行列要素である。ここで、遠端音響信号である出力信号y2aおよびy3aは、第1の音源分離部210からは出力されず、学習部212の学習にのみ用いられる。このため、検出信号m1には、遠端音響信号である出力信号y2aおよびy3aの分離に寄与する信号は含まれることはない。したがって、分離行列の学習が収束した状態では、w21=w31=0となるはずである。しかしながら、第2の実施形態のように分離行列の全行列要素を更新する構成では、遠端音源が移動したりして実際の伝達特性(a31(ω)やa32(ω)など)が変動すると、学習を介して行列要素(w21、w31)も一時的に変動する。行列要素(w21、w31)が一時的に変動すると、行列要素(w11)も次の学習を介して一時的に変動することになる。これにより、近端音響信号と遠端音響信号との分離が不完全になり、エコーのキャンセル効果が一時的に劣化する。
The matrix elements (w21, w31) use the detection signal m1 to separate the speech of the speaker S3 and the speech of the speaker S4 included in the speaker input signals (sp1, sp2) as output signals y2a and y3a. Is a matrix element used to Here, the output signals y2a and y3a, which are far-end acoustic signals, are not output from the first sound
このようなエコーのキャンセル効果の一時的な劣化を防ぐため、本実施形態では、分離行列の一部の行列要素を拘束している。 In order to prevent such a temporary deterioration of the echo cancellation effect, in this embodiment, some matrix elements of the separation matrix are constrained.
以下、遠端音源の状態によってエコーのキャンセル効果が一時的に劣化するという現象を、数式上で説明する。式(14)は、式(10)の更新式のうち、右辺の第1項を展開したものである。
式(14)の右辺の第1項は、分離行列Wの学習における更新量ΔWを示している。行列要素ε{φ(yi)yj*}i≠jは、出力信号yi、yjが互いに独立になれば、ε{φ(yi)yj*}i≠j≒0となる。また、分離行列Wの学習が収束している状態では、更新量ΔWは0(ゼロ)近傍を振動する。つまり、更新量ΔWの全行列要素が0となる。 The first term on the right side of Equation (14) indicates the update amount ΔW in learning of the separation matrix W. The matrix element ε {φ (y i ) y j *} i ≠ j becomes ε {φ (y i ) y j *} i ≠ j ≈ 0 if the output signals y i and y j become independent from each other. In the state where learning of the separation matrix W has converged, the update amount ΔW oscillates in the vicinity of 0 (zero). That is, all matrix elements of the update amount ΔW are zero.
ここで、分離行列Wの学習が収束してエコーキャンセルが良好に行われている状態から遠端側の伝達特性(a31(ω)やa32(ω)など)が変動した場合を考える。この場合、収束した分離行列Wの行列要素(w22、w23、w32、w33)の推定値が、実際の伝達特性と一致しなくなる。これにより、遠端音響信号に関する出力信号y2aとy3aとの分離が不完全になる。すなわち、出力信号y2aとy3aとの間の独立性が低下し、互いに相関をもつようになる。式(14)でいえば、ε{φ(y2a)y3a*}、ε{φ(y3a)y2a*}が値を持つことになる。特に、遠端音源の数が多い場合、遠端側の伝達特性が常に変化するので、ε{φ(y2a)y3a*}、ε{φ(y3a)y2a*}が常に値を持つことになる。なお、式(14)の右辺の第1項の2行目と3行目の各行列要素には、ε{φ(y2a)y3a*}、ε{φ(y3a)y2a*}が含まれている。このため、ε{φ(y2a)y3a*}、ε{φ(y3a)y2a*}が変動するということは、式(14)の右辺の第1項の2行目と3行目の各行列要素が変動することを意味する。 Here, let us consider a case where the far-end transfer characteristics (a31 (ω), a32 (ω), etc.) have changed from the state where learning of the separation matrix W has converged and echo cancellation has been performed satisfactorily. In this case, the estimated values of the matrix elements (w22, w23, w32, w33) of the converged separation matrix W do not match the actual transfer characteristics. Thereby, the separation of the output signals y2a and y3a relating to the far-end acoustic signal becomes incomplete. In other words, the independence between the output signals y2a and y3a is reduced, and they are correlated with each other. In the expression (14), ε {φ (y 2a ) y 3a *} and ε {φ (y 3a ) y 2a *} have values. In particular, when the number of far-end sound sources is large, the transfer characteristics on the far-end side always change, so ε {φ (y 2a ) y 3a *} and ε {φ (y 3a ) y 2a *} always have values. Will have. It should be noted that ε {φ (y 2a ) y 3a *}, ε {φ (y 3a ) y 2a *} are included in the matrix elements in the second and third rows of the first term on the right side of Equation (14). It is included. For this reason, the fact that ε {φ (y 2a ) y 3a *} and ε {φ (y 3a ) y 2a *} fluctuate means that the second and third rows of the first term on the right side of equation (14) It means that each matrix element of the eye fluctuates.
式(14)の右辺の第1項の2行目と3行目の各行列要素が変動すると、その変動に基づいて学習された分離行列Wの2行目と3行目の各行列要素(w21〜w23、w31〜w33)も変動する。このうち、行列要素(w23、w32)の変動に基づいて次の学習がなされると、分離行列Wの行列要素(w12、w13)が変動することになる。また、行列要素(w21、w31)の変動に基づいて次の学習がなされると、分離行列Wの行列要素(w11)が変動することになる。このような分離行列Wの1行目の各行列要素の変動により、エコーのキャンセル効果が一時的に劣化してしまう。 When the matrix elements in the second and third rows of the first term on the right side of Equation (14) change, the matrix elements in the second and third rows of the separation matrix W learned based on the change ( w21-w23, w31-w33) also vary. Among these, when the next learning is performed based on the change of the matrix elements (w23, w32), the matrix elements (w12, w13) of the separation matrix W will change. In addition, when the next learning is performed based on the change of the matrix elements (w21, w31), the matrix element (w11) of the separation matrix W changes. Due to such a variation of each matrix element in the first row of the separation matrix W, the echo cancellation effect is temporarily deteriorated.
そこで、本実施形態では、分離行列の行列要素(w32、w23)と行列要素(w21、w31)をそれぞれ0に拘束する。これにより、遠端側の伝達特性が変動しても、学習を介した分離行列Wの1行目の各行列要素の変動を防ぐことができ、エコーのキャンセル効果の一時的な劣化を防ぐことができる。 Therefore, in this embodiment, the matrix elements (w32, w23) and the matrix elements (w21, w31) of the separation matrix are constrained to 0, respectively. As a result, even if the transfer characteristic on the far end side fluctuates, it is possible to prevent fluctuation of each matrix element in the first row of the separation matrix W through learning, and to prevent temporary deterioration of the echo cancellation effect. Can do.
次に、分離行列Waのように、行列要素(w32、w23)と行列要素(w21、w31)をそれぞれ0に拘束した場合の学習式を考える。単純に式(10)の学習式を式(12)の分離行列Waに適用させると、式(15)のようになる。
式(13)において、分離行列Waの学習が収束したとき、更新量ΔWは0行列になる。更新量ΔWが0行列になるということは、{φ(y1a)y2a*}={φ(y2a)y1a*}={φ(y1a)y3a*}={φ(y3a)y1a*}=0、および、1−ε{φ(y1a)y1a*}=1−ε{φ(y2a)y2a*}=1−ε{φ(y3a)y3a*}=0であることを意味する。このことから、分離行列Waの学習が収束したとき、近端音響信号である出力信号y1aと遠端音響信号である出力信号y2aとの間、近端音響信号である出力信号y1aと遠端音響信号である出力信号y3aとの間が独立になることがわかる。つまり、式(13)に基づく学習が収束したとき、近端音響信号と遠端音響信号とが分離されることがわかる。 In Expression (13), when the learning of the separation matrix Wa converges, the update amount ΔW becomes 0 matrix. The update amount ΔW becomes a zero matrix means that {φ (y 1a ) y 2a *} = {φ (y 2a ) y 1a *} = {φ (y 1a ) y 3a *} = {φ (y 3a ) Y 1a *} = 0 and 1−ε {φ (y 1a ) y 1a *} = 1−ε {φ (y 2a ) y 2a *} = 1−ε {φ (y 3a ) y 3a * } = 0. Therefore, when the learning of the separation matrix Wa converges, the output signal y1a that is the near-end acoustic signal and the output signal y1a that is the near-end acoustic signal and the output signal y1a that is the near-end acoustic signal and the far-end acoustic signal It can be seen that the output signal y3a which is a signal becomes independent. That is, it can be seen that when the learning based on Expression (13) converges, the near-end acoustic signal and the far-end acoustic signal are separated.
なお、更新量ΔWが0行列になることに関し、{φ(y2a)y3a*}、{φ(y3a)y2a*}の値は関係ない。このため、学習の収束時において、遠端音響信号である出力信号y2aと出力信号y3aの間の独立性はあってもなくてもどちらでもよいということになる。つまり、遠端音響信号については、必ずしも、互いに独立した出力信号y2aと出力信号y3aとが出力されないことになる。 Note that the values of {φ (y 2a ) y 3a *} and {φ (y 3a ) y 2a *} are irrelevant for the update amount ΔW to be a zero matrix. For this reason, at the time of convergence of learning, the output signal y2a and the output signal y3a, which are far-end acoustic signals, may or may not be independent. That is, for the far-end acoustic signal, the output signal y2a and the output signal y3a that are independent from each other are not necessarily output.
以上のように、分離行列の一部の行列要素を拘束することにより、遠端側の伝達特性が変動しても、学習を介した分離行列Wの1行目の各行列要素の変動を防ぐことができ、エコーのキャンセル効果の一時的な劣化を防ぐことができる。また、分離行列の一部の行列要素を拘束した場合、拘束していない場合と比べて演算量を削減することができる。 As described above, by constraining some matrix elements of the separation matrix, even if the transfer characteristic on the far end side varies, the variation of each matrix element in the first row of the separation matrix W through learning is prevented. And temporary deterioration of the echo canceling effect can be prevented. In addition, when a part of the matrix elements of the separation matrix is constrained, the amount of calculation can be reduced as compared with the case where it is not constrained.
なお、本実施形態における学習式として式(13)を用いるとしたが、式(16)を用いてもよい。式(16)を用いても、近端音響信号と遠端音響信号とを分離することができる。
また、本実施形態では、上述した第1の音源分離部210および第2の音源分離部220に設定された分離行列に関して説明したが、これに限定されない。上述した音源分離部100に設定された分離行列W(4、4)の一部の係数を拘束しても、本実施形態と同様の効果が得られる。以下、行数および列数が異なる分離行列に対して共通の拘束条件を式(17)〜式(19)に示す。なお、分離行列の行数及び列数は、それぞれ(M+K)であるとする。Mは、音源分離部に検出信号を入力する近端側のマイクロホンの数を示し、Kは、音源分離部にスピーカ入力信号を入力する近端側のスピーカの数を示している。また、分離行列に乗じられる入力ベクトルは、近端側のマイクロホンの検出信号が分離行列の1行目からM行目までに対応するように、スピーカ入力信号が分離行列のM+1行目からM+K行目までに対応するように構成されるとする。また、式(17)〜式(19)において、i(i=1〜M+K)は行数を示し、j(j=1〜M+K)は列数を示している。
In the present embodiment, the separation matrix set in the first sound
式(17)は、遠端側の話者(S3およびS4)から遠端側のマイクロホン(31および41)までの各伝達特性に関する行列要素(3×3行列ではw22、w23、w32、w33)についての拘束条件を示す式である。
式(18)は、近端側のマイクロホンの検出信号(m1、m2など)を用いて、スピーカ入力信号(sp1、sp2)に含まれる遠端側の話者の音声(S3およびS4)を、各出力信号(y3、y4など)として分離するために用いられる行列要素(3×3行列ではw21、w31)についての拘束条件を示す式である。
式(19)は、近端側の話者(S1およびS2など)から近端側のマイクロホン(11および21)までの各伝達特性に関する行列要素(3×3行列ではw11)についての拘束条件を示す式である。
(第4の実施形態)
第4の実施形態において、上述した音源分離部100における音源分離処理をコンピュータプログラムを用いてコンピュータシステム上で実現する場合について説明する。コンピュータシステムは、マイクロプロセッサ、ROM、RAMなどで構成される。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、音源分離部100の音源分離処理が実現される。なお、コンピュータプログラムは、音源分離部100の音源分離処理を実現するために、コンピュータシステムに対する指令を示す命令コードが複数個組み合わされて構成されたものである。また、第1の音源分離部210や第2の音源分離部220の音源分離処理を、コンピュータプログラムを用いてコンピュータシステム上で実現するようにしてもよい。
(Fourth embodiment)
In the fourth embodiment, a case will be described in which the sound source separation processing in the sound
図7を参照して、音源分離部100の音源分離処理を実現するプログラム処理フローについて説明する。図7は、音源分離部100の音源分離処理を実現するプログラム処理フローを示す図である。図7において、音源分離部100の分離部101に初期行列として例えば単位行列が設定される(ステップS1)。ステップS1の次に、分離部101は、検出信号(m1(ω)、m2(ω))とスピーカ入力信号(sp1(ω)、sp2(ω))とを入力ベクトルとして入力する(ステップS2)。ステップS2の次に、分離部101は、現在設定された分離行列Wに基づく式(5)に従って、出力ベクトルである出力信号y1〜y4をそれぞれ算出する(ステップS3)。ステップS3の次に、学習部102は、ステップS3で算出された出力信号y1〜y4に基づいて、式(6)に従って分離行列Wを学習する(ステップS4)。具体的には、学習部102は、出力信号y1〜y4間の高次の相関(例えば、{φ(y3)y2*}など)をそれぞれ算出することにより、高次の相関行列を算出する。そして、学習部102は、算出した高次の相関行列を用いて、更新すべき分離行列を学習する。ステップS4の次に、学習部102は、分離部101に現在設定された分離行列Wを、ステップS4で学習した分離行列Wに更新する(ステップS5)。ステップS5の次に、学習部102は、更新をN(1以上の整数)回行ったか否かを判断する(ステップS6)。更新がN回行われていない場合(ステップS6でNo)、処理はステップS2に戻る。更新がN回行われた場合(ステップS6でYes)、分離部101は、更新された分離行列Wに基づく式(5)に従って、出力ベクトルである出力信号y1〜y4をそれぞれ算出する(ステップS7)。このステップS7により、検出信号(m1(ω)、m2(ω))に含まれる近端音響信号と遠端音響信号とが分離される。ステップS7の次に、分離部101は、近端音響信号である出力信号y1およびy2のみを出力する(ステッS8)。このステップS8により、検出信号(m1(ω)、m2(ω))に含まれる遠端音響信号がエコーとしてキャンセルされる。
A program processing flow for realizing the sound source separation processing of the sound
図7に示すプログラム処理を行うことにより、上述した音源分離部100における音源分離処理をコンピュータシステム上で実現することができる。
By performing the program processing shown in FIG. 7, the sound source separation process in the sound
なお、行列要素を一部拘束した第1の音源分離部210aなどについても、コンピュータプログラムを用いてコンピュータシステム上で実現することができる。この場合のプログラム処理は、図7に示すプログラム処理に対し、式(17)〜式(19)に示した所定の行列要素については、0に拘束しながら処理をする点で異なる。つまり、ステップS4およびS5において、学習部102は、所定の行列要素以外の行列要素のみ処理を行い、所定の行列要素については0で拘束しながら処理を行う。
Note that the first sound
(その他変形例)
なお、上述した第1〜3の実施形態において本発明に係るマルチチャンネルエコーキャンセラを説明してきたが、本発明に係るエコーキャンセラは、上述した第1〜3の実施形態で説明した内容に限定されない。本発明に係るマルチチャンネルエコーキャンセラは、以下のような形態であってもよい。
(Other variations)
Although the multichannel echo canceller according to the present invention has been described in the first to third embodiments described above, the echo canceller according to the present invention is not limited to the contents described in the first to third embodiments. . The multi-channel echo canceller according to the present invention may have the following form.
(1)上述した第1〜3の実施形態に係るマルチチャンネルエコーキャンセラを構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)で構成されてもよい。なお、システムLSIは、複数の構成要素を1個のチップ上に集積して製造され得る超多機能LSIである。システムLSIにおいて、例えばマイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムを実現することもできる。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、システムLSIは、コンピュータシステムとしての機能を実現する。 (1) Some or all of the constituent elements of the multichannel echo canceller according to the first to third embodiments described above may be configured by one system LSI (Large Scale Integration). Good. The system LSI is a super multifunctional LSI that can be manufactured by integrating a plurality of components on a single chip. In the system LSI, for example, a computer system including a microprocessor, a ROM, a RAM, and the like can be realized. A computer program is stored in the RAM. As the microprocessor operates in accordance with the computer program, the system LSI realizes a function as a computer system.
(2)上述した第1〜3の実施形態に係るマルチチャンネルエコーキャンセラを構成する構成要素の一部または全部は、マルチチャンネルエコーキャンセラに脱着可能なICカード、または単体のモジュールで構成されていてもよい。なお、ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムを実現することもできる。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ICカードまたはモジュールは、コンピュータシステムとしての機能を実現する。また、ICカードまたはモジュールは、上記(1)の超多機能LSIを含むとしてもよい。また、ICカードまたはモジュールは、耐タンパ性を有するとしてもよい。 (2) Part or all of the components constituting the multichannel echo canceller according to the first to third embodiments described above are configured by an IC card that can be attached to and detached from the multichannel echo canceller, or a single module. Also good. Note that the IC card or module can also realize a computer system including a microprocessor, ROM, RAM, and the like. A computer program is stored in the RAM. The IC card or the module realizes a function as a computer system by the microprocessor operating according to the computer program. Further, the IC card or the module may include the super multifunctional LSI of the above (1). Further, the IC card or the module may have tamper resistance.
(3)本発明は、上述した第1〜第3の実施形態に基づくマルチチャンネルエコーキャンセル方法であってもよい。また、本発明は、マルチチャンネルエコーキャンセル方法をコンピュータ上で実現させるためのコンピュータプログラムであってもよいし、当該コンピュータプログラムからなるデジタル信号であってもよい。また、本発明は、上記コンピュータプログラムまたはデジタル信号を、コンピュータ読み取り可能な記録媒体(例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなど)に記録したものとしてもよい。また、本発明は、上記コンピュータプログラムまたはデジタル信号を、電気通信回線(無線通信回線、有線通信回線、インターネットを代表とするネットワーク回線、データ放送回線など)を経由して伝送されるものであってもよい。また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステム上で実現されるものであって、メモリに記憶されたコンピュータプログラムにしたがってマイクロプロセッサが動作することで実現されてもよい。また、本発明は、上記コンピュータプログラムまたはデジタル信号を記録媒体に記録して移送することにより(または、ネットワーク等を経由して移送することにより)、独立した他のコンピュータシステム上で実現されてもよい。 (3) The present invention may be a multi-channel echo cancellation method based on the first to third embodiments described above. The present invention may be a computer program for realizing the multi-channel echo cancellation method on a computer, or may be a digital signal composed of the computer program. The present invention also provides a computer-readable recording medium (for example, a flexible disk, a hard disk, a CD-ROM, an MO, a DVD, a DVD-ROM, a DVD-RAM, a BD (Blu-ray Disc). ), A semiconductor memory, etc.). In the present invention, the computer program or the digital signal is transmitted via an electric communication line (wireless communication line, wired communication line, network line represented by the Internet, data broadcasting line, etc.). Also good. The present invention is realized on a computer system including a microprocessor and a memory, and may be realized by the microprocessor operating in accordance with a computer program stored in the memory. Further, the present invention may be realized on another independent computer system by recording the computer program or the digital signal on a recording medium and transferring it (or by transferring it via a network or the like). Good.
(4)上述した第1〜第3の実施形態と上述した(1)〜(3)の変形例とを適宜組み合わせてもよい。 (4) You may combine suitably the 1st-3rd embodiment mentioned above and the modification of (1)-(3) mentioned above.
本発明に係るマルチチャンネルエコーキャンセラは、マルチチャンネル再生時において音質劣化が生じることなく常に安定したエコーキャンセルを行うことができ、ダブルトーク時やシングルトーク時に関係なく安定したエコーキャンセルを行うことを可能にするものであり、会議システムやハンズフリー電話の他、ガイドアナウンス再生時や音楽再生時における音声認識システム等にも適用される。 The multi-channel echo canceller according to the present invention can always perform stable echo cancellation without deterioration of sound quality during multi-channel playback, and can perform stable echo cancellation regardless of double talk or single talk. In addition to a conference system and a hands-free phone, it is applied to a voice recognition system at the time of guide announcement playback and music playback.
1、2 エコーキャンセル部
10、20、30、40 スピーカ
11、21、31、41 マイクロホン
100 音源分離部
101、211、211a 分離部
102、212、212a 学習部
110〜113、230〜235 変換部
120、121、240、241 逆変換部
210、210a 第1の音源分離部
220 第2の音源分離部
DESCRIPTION OF
Claims (13)
前記第2の場所から前記第1の場所へ伝送されたスピーカ入力信号が前記第1の場所に設けられた複数のスピーカで拡声された音響信号と、前記第1の音響信号とを検出する、前記第1の場所に設けられた複数のマイクロホンの検出信号と、前記スピーカ入力信号とを取得する取得部と、
各前記検出信号に含まれる第1の音響信号と、各前記検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号とを分離するための分離行列であって、前記第1の場所に設けられた複数のスピーカから当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第1の部分行列と、
前記第2の場所に存在する1以上の音源から当該第2の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第2の部分行列と、
各前記検出信号から当該検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号を分離する複数の行列要素で構成される第3の部分行列と、
前記第1の場所に存在する1以上の音源から当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第4の部分行列と
を含む分離行列に対して、
各前記検出信号および各前記スピーカ入力信号により構成される入力ベクトルを前記分離行列に対して乗算することにより、各前記検出信号に含まれる第1の音響信号と第2の音響信号とを分離し、当該分離した第1の音響信号を出力するエコーキャンセル部と
を備え、
前記分離行列は、
前記第2の部分行列を、対角以外の構成要素が0である対角行列として独立成分分析に従って学習される
ことを特徴するマルチチャンネルエコーキャンセラ。 An acoustic signal is transmitted between the first location and the second location, and the first acoustic signal emitted from one or more sound sources existing at the first location is provided at the first location. It is detected by a plurality of microphones for a second acoustic signal generated from one or more sound sources present in the second location is detected by a plurality of microphones provided in the second location, the first location acoustic signal transmitted to the second location from a loudspeaker of a plurality of speakers provided in the second location, an acoustic signal transmitted to said first location from the second location the first used in acoustic systems loudspeaker from a plurality of speakers provided in the first place, a multi-channel echo canceller that provided in the first location,
Detecting an acoustic signal in which a speaker input signal transmitted from the second location to the first location is amplified by a plurality of speakers provided in the first location, and the first acoustic signal ; An acquisition unit for acquiring detection signals of a plurality of microphones provided in the first location and the speaker input signal;
A separation matrix for separating a first acoustic signal included in each of the detection signals and a second acoustic signal included in the amplified acoustic signal included in each of the detection signals, A first submatrix composed of a plurality of matrix elements relating to respective transfer characteristics from a plurality of speakers provided at one place to a plurality of microphones provided at the first place;
A second sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the second location to a plurality of microphones provided at the second location;
A third sub-matrix composed of a plurality of matrix elements for separating the second acoustic signal included in the amplified acoustic signal included in the detection signal from each of the detection signals;
A fourth sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the first location to a plurality of microphones provided at the first location;
For a separation matrix containing
The first acoustic signal and the second acoustic signal included in each detection signal are separated by multiplying the separation matrix by an input vector constituted by each detection signal and each speaker input signal. An echo canceling unit for outputting the separated first acoustic signal;
With
The separation matrix is
The multi-channel echo canceller, wherein the second sub-matrix is learned according to independent component analysis as a diagonal matrix in which components other than the diagonal are zero .
前記第2の場所から前記第1の場所へ伝送されたスピーカ入力信号が前記第1の場所に設けられた複数のスピーカで拡声された音響信号と、前記第1の音響信号とを検出する、前記第1の場所に設けられた複数のマイクロホンと、Detecting an acoustic signal in which a speaker input signal transmitted from the second location to the first location is amplified by a plurality of speakers provided in the first location, and the first acoustic signal; A plurality of microphones provided in the first location;
前記第1の場所に設けられた複数のマイクロホンで検出された検出信号と、前記スピーカ入力信号とを取得する取得部と、An acquisition unit for acquiring detection signals detected by a plurality of microphones provided in the first place, and the speaker input signal;
各前記検出信号に含まれる第1の音響信号と、各前記検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号とを分離するための分離行列であって、A separation matrix for separating a first acoustic signal included in each of the detection signals and a second acoustic signal included in the amplified acoustic signal included in each of the detection signals,
前記第1の場所に設けられた複数のスピーカから当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成さる第1の部分行列と、A first submatrix composed of a plurality of matrix elements relating to respective transfer characteristics from a plurality of speakers provided at the first location to a plurality of microphones provided at the first location;
前記第2の場所に存在する1以上の音源から当該第2の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第2の部分行列と、A second sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the second location to a plurality of microphones provided at the second location;
各前記検出信号から当該検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号を分離する複数の行列要素で構成される第3の部分行列と、A third sub-matrix composed of a plurality of matrix elements for separating the second acoustic signal included in the amplified acoustic signal included in the detection signal from each of the detection signals;
前記第1の場所に存在する1以上の音源から当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第4の部分行列とA fourth sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the first location to a plurality of microphones provided at the first location;
を含む分離行列に対して、For a separation matrix containing
各前記検出信号および各前記スピーカ入力信号により構成される入力ベクトルを前記分離行列に対して乗算することにより、各前記検出信号に含まれる第1の音響信号と第2の音響信号とを分離するエコーキャンセル部と、The first acoustic signal and the second acoustic signal included in each detection signal are separated by multiplying the separation matrix by an input vector constituted by each detection signal and each speaker input signal. An echo canceling unit;
前記分離した第1の音響信号を出力する出力部とAn output unit for outputting the separated first acoustic signal;
を備え、With
前記分離行列は、前記第2の部分行列を、対角以外の構成要素が0である対角行列として独立成分分析に従って学習されることを特徴するマルチチャンネルエコーキャンセラ。The multi-channel echo canceller is characterized in that the separation matrix is learned according to an independent component analysis, with the second sub-matrix being a diagonal matrix whose components other than the diagonal are zero.
前記第2の場所から前記第1の場所へ伝送されたスピーカ入力信号を拡声する、前記第1の場所に設けられた複数のスピーカと、A plurality of speakers provided at the first location for amplifying speaker input signals transmitted from the second location to the first location;
前記第1の場所に設けられた複数のスピーカで拡声された音響信号と、前記第1の音響信号とを検出する、前記第1の場所に設けられた複数のマイクロホンと、A plurality of microphones provided at the first location for detecting an acoustic signal amplified by a plurality of speakers provided at the first location and the first acoustic signal;
前記第1の場所に設けられた複数のマイクロホンで検出された検出信号と、前記スピーカ入力信号とを取得する取得部と、An acquisition unit for acquiring detection signals detected by a plurality of microphones provided in the first place, and the speaker input signal;
各前記検出信号に含まれる第1の音響信号と、各前記検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号とを分離するための分離行列であって、A separation matrix for separating a first acoustic signal included in each of the detection signals and a second acoustic signal included in the amplified acoustic signal included in each of the detection signals,
前記第1の場所に設けられた複数のスピーカから当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成さる第1の部分行列と、A first submatrix composed of a plurality of matrix elements relating to respective transfer characteristics from a plurality of speakers provided at the first location to a plurality of microphones provided at the first location;
前記第2の場所に存在する1以上の音源から当該第2の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第2の部分行列と、A second sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the second location to a plurality of microphones provided at the second location;
各前記検出信号から当該検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号を分離する複数の行列要素で構成される第3の部分行列と、A third sub-matrix composed of a plurality of matrix elements for separating the second acoustic signal included in the amplified acoustic signal included in the detection signal from each of the detection signals;
前記第1の場所に存在する1以上の音源から当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第4の部分行列とA fourth sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the first location to a plurality of microphones provided at the first location;
を含む分離行列に対して、For a separation matrix containing
各前記検出信号および各前記スピーカ入力信号により構成される入力ベクトルを前記分離行列に対して乗算することにより、各前記検出信号に含まれる第1の音響信号と第2の音響信号とを分離するエコーキャンセル部と、The first acoustic signal and the second acoustic signal included in each detection signal are separated by multiplying the separation matrix by an input vector constituted by each detection signal and each speaker input signal. An echo canceling unit;
前記分離した第1の音響信号を出力する出力部とAn output unit for outputting the separated first acoustic signal;
を備え、With
前記分離行列は、前記第2の部分行列を、対角以外の構成要素が0である対角行列として独立成分分析に従って学習されることを特徴するマルチチャンネルエコーキャンセラ。The multi-channel echo canceller is characterized in that the separation matrix is learned according to an independent component analysis, with the second sub-matrix being a diagonal matrix whose components other than the diagonal are zero.
前記第3の部分行列を、各構成要素が全て0であるゼロ行列として独立成分分析に従って学習されることを特徴する、請求項1から請求項3までのいずれか1項に記載のマルチチャンネルエコーキャンセラ。 The separation matrix is
The multi-channel echo according to any one of claims 1 to 3, wherein the third sub-matrix is learned according to independent component analysis as a zero matrix in which each component is all zero. Canceller.
前記第4の部分行列を、対角以外の構成要素が0である対角行列として独立成分分析に従って学習されることを特徴する、請求項1から請求項4までのいずれか1項に記載のマルチチャンネルエコーキャンセラ。 The separation matrix is
The said 4th submatrix is learned according to an independent component analysis as a diagonal matrix whose components other than a diagonal are 0 , The any one of Claim 1- Claim 4 characterized by the above-mentioned. Multi channel echo canceller.
前記第2の場所から前記第1の場所へ伝送された2つのスピーカ入力信号sp1、sp2が前記第1の場所に設けられた2つのスピーカで拡声された音響信号と、前記第1の音響信号とを検出する、前記第1の場所に設けられた2つのマイクロホンの検出信号m1、m2と、An acoustic signal in which two speaker input signals sp1 and sp2 transmitted from the second location to the first location are amplified by two speakers provided in the first location, and the first acoustic signal Detecting signals m1, m2 of two microphones provided in the first place,
前記スピーカ入力信号とThe speaker input signal and
を取得する取得部と、An acquisition unit for acquiring
前記2つのマイクロホンの検出信号に含まれる第1の音響信号y1、y2と、前記2つのマイクロホンの検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号y3、y4とを分離するための分離行列Wであって、First acoustic signals y1 and y2 included in the detection signals of the two microphones, and second acoustic signals y3 and y4 included in the amplified acoustic signal included in the detection signals of the two microphones. A separation matrix W for separation,
前記2つのマイクロホンの検出信号および前記2つのスピーカ入力信号により構成される入力ベクトルIであって、An input vector I composed of detection signals of the two microphones and the two speaker input signals,
を備え、With
前記分離行列は、W34=W43=0として独立成分分析に従って学習されるThe separation matrix is learned according to independent component analysis with W34 = W43 = 0.
ことを特徴するマルチチャンネルエコーキャンセラ。Multi-channel echo canceller characterized by that.
前記第2の場所から前記第1の場所へ伝送されたスピーカ入力信号が前記第1の場所に設けられた複数のスピーカで拡声された音響信号と、前記第1の音響信号とを検出する、前記第1の場所に設けられた複数のマイクロホンの検出信号と、前記スピーカ入力信号とを取得する取得部と、Detecting an acoustic signal in which a speaker input signal transmitted from the second location to the first location is amplified by a plurality of speakers provided in the first location, and the first acoustic signal; An acquisition unit for acquiring detection signals of a plurality of microphones provided in the first location and the speaker input signal;
各前記検出信号に含まれる第1の音響信号と、各前記検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号とを分離するための分離行列であって、前記第1の場所に設けられた複数のスピーカから当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第1の部分行列と、A separation matrix for separating a first acoustic signal included in each of the detection signals and a second acoustic signal included in the amplified acoustic signal included in each of the detection signals, A first submatrix composed of a plurality of matrix elements relating to respective transfer characteristics from a plurality of speakers provided at one place to a plurality of microphones provided at the first place;
前記第2の場所に存在する1以上の音源から当該第2の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第2の部分行列と、A second sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the second location to a plurality of microphones provided at the second location;
各前記検出信号から当該検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号を分離する複数の行列要素で構成される第3の部分行列と、A third sub-matrix composed of a plurality of matrix elements for separating the second acoustic signal included in the amplified acoustic signal included in the detection signal from each of the detection signals;
前記第1の場所に存在する1以上の音源から当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第4の部分行列とA fourth sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the first location to a plurality of microphones provided at the first location;
を含む分離行列に対して、For a separation matrix containing
各前記検出信号および各前記スピーカ入力信号により構成される入力ベクトルを前記分離行列に対して乗算することにより、各前記検出信号に含まれる第1の音響信号と第2の音響信号とを分離し、当該分離した第1の音響信号を出力するエコーキャンセル部とThe first acoustic signal and the second acoustic signal included in each detection signal are separated by multiplying the separation matrix by an input vector constituted by each detection signal and each speaker input signal. An echo canceling unit for outputting the separated first acoustic signal;
を備え、With
前記分離行列は、The separation matrix is
前記第3の部分行列を、各構成要素が全て0であるゼロ行列として独立成分分析に従って学習されることを特徴するマルチチャンネルエコーキャンセラ。A multi-channel echo canceller, wherein the third sub-matrix is learned in accordance with independent component analysis as a zero matrix in which each component is all zero.
前記第2の場所から前記第1の場所へ伝送されたスピーカ入力信号が前記第1の場所に設けられた複数のスピーカで拡声された音響信号と、前記第1の音響信号とを検出する、前記第1の場所に設けられた複数のマイクロホンの検出信号と、前記スピーカ入力信号とを取得する取得部と、Detecting an acoustic signal in which a speaker input signal transmitted from the second location to the first location is amplified by a plurality of speakers provided in the first location, and the first acoustic signal; An acquisition unit for acquiring detection signals of a plurality of microphones provided in the first location and the speaker input signal;
各前記検出信号に含まれる第1の音響信号と、各前記検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号とを分離するための分離行列であって、前記第1の場所に設けられた複数のスピーカから当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第1の部分行列と、A separation matrix for separating a first acoustic signal included in each of the detection signals and a second acoustic signal included in the amplified acoustic signal included in each of the detection signals, A first submatrix composed of a plurality of matrix elements relating to respective transfer characteristics from a plurality of speakers provided at one place to a plurality of microphones provided at the first place;
前記第2の場所に存在する1以上の音源から当該第2の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第2の部分行列と、A second sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the second location to a plurality of microphones provided at the second location;
各前記検出信号から当該検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号を分離する複数の行列要素で構成される第3の部分行列と、A third sub-matrix composed of a plurality of matrix elements for separating the second acoustic signal included in the amplified acoustic signal included in the detection signal from each of the detection signals;
前記第1の場所に存在する1以上の音源から当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第4の部分行列とA fourth sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the first location to a plurality of microphones provided at the first location;
を含む分離行列に対して、For a separation matrix containing
各前記検出信号および各前記スピーカ入力信号により構成される入力ベクトルを前記分離行列に対して乗算することにより、各前記検出信号に含まれる第1の音響信号と第2の音響信号とを分離し、当該分離した第1の音響信号を出力するエコーキャンセル部とThe first acoustic signal and the second acoustic signal included in each detection signal are separated by multiplying the separation matrix by an input vector constituted by each detection signal and each speaker input signal. An echo canceling unit for outputting the separated first acoustic signal;
を備え、With
前記分離行列は、The separation matrix is
前記第4の部分行列を、対角以外の構成要素が0である対角行列として独立成分分析に従って学習されることを特徴するマルチチャンネルエコーキャンセラ。The multi-channel echo canceller, wherein the fourth sub-matrix is learned according to independent component analysis as a diagonal matrix in which components other than the diagonal are zero.
前記第2の場所から前記第1の場所へ伝送されたスピーカ入力信号が前記第1の場所に設けられた複数のスピーカで拡声された音響信号と、前記第1の音響信号とを検出する、前記第1の場所に設けられた複数のマイクロホンの検出信号と、前記スピーカ入力信号とを取得する取得ステップと、
各前記検出信号に含まれる第1の音響信号と、各前記検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号とを分離するための分離行列であって、前記第1の場所に設けられた複数のスピーカから当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第1の部分行列と、
前記第2の場所に存在する1以上の音源から当該第2の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第2の部分行列と、
各前記検出信号から当該検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号を分離する複数の行列要素で構成される第3の部分行列と、
前記第1の場所に存在する1以上の音源から当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第4の部分行列と
を含む分離行列に対して、
各前記検出信号および各前記スピーカ入力信号により構成される入力ベクトルを前記分離行列に対して乗算することにより、各前記検出信号に含まれる第1の音響信号と第2の音響信号とを分離するステップと、
当該分離した第1の音響信号を出力することによって、各前記検出信号に含まれる第2の音響信号をエコーとしてキャンセルするキャンセルステップと、
前記分離行列の前記第2の部分行列を、対角以外の構成要素が0である対角行列として独立成分分析に従って学習する学習ステップとを有することを特徴するマルチチャンネルエコーキャンセル方法。 An acoustic signal is transmitted between the first location and the second location, and the first acoustic signal emitted from one or more sound sources existing at the first location is provided at the first location. The second acoustic signal detected by the plurality of microphones and emitted from one or more sound sources existing at the second location is detected by the plurality of microphones provided at the second location, and the first location The acoustic signal transmitted from the second location to the second location is amplified from a plurality of speakers provided at the second location, and the acoustic signal transmitted from the second location to the first location is the first location. A multi-channel echo cancellation method for performing multi -channel echo cancellation for a first location, used in an acoustic system that is loudspeaked from a plurality of speakers provided at a location ,
Detecting an acoustic signal in which a speaker input signal transmitted from the second location to the first location is amplified by a plurality of speakers provided in the first location, and the first acoustic signal; An acquisition step of acquiring detection signals of a plurality of microphones provided in the first location and the speaker input signal;
A separation matrix for separating a first acoustic signal included in each of the detection signals and a second acoustic signal included in the amplified acoustic signal included in each of the detection signals, A first submatrix composed of a plurality of matrix elements relating to respective transfer characteristics from a plurality of speakers provided at one place to a plurality of microphones provided at the first place;
A second sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the second location to a plurality of microphones provided at the second location;
A third sub-matrix composed of a plurality of matrix elements for separating the second acoustic signal included in the amplified acoustic signal included in the detection signal from each of the detection signals;
A fourth sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the first location to a plurality of microphones provided at the first location;
For a separation matrix containing
The first acoustic signal and the second acoustic signal included in each detection signal are separated by multiplying the separation matrix by an input vector constituted by each detection signal and each speaker input signal. Steps,
Canceling the second acoustic signal included in each of the detection signals as an echo by outputting the separated first acoustic signal; and
A learning step of learning the second sub-matrix of the separation matrix as a diagonal matrix whose components other than the diagonal are 0 according to independent component analysis .
前記コンピュータに、
前記第2の場所から前記第1の場所へ伝送されたスピーカ入力信号が前記第1の場所に設けられた複数のスピーカで拡声された音響信号と、前記第1の音響信号とを検出する、前記第1の場所に設けられた複数のマイクロホンの検出信号と、前記スピーカ入力信号とを取得する取得ステップと、
各前記検出信号に含まれる第1の音響信号と、各前記検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号とを分離するための分離行列であって、前記第1の場所に設けられた複数のスピーカから当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第1の部分行列と、
前記第2の場所に存在する1以上の音源から当該第2の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第2の部分行列と、
各前記検出信号から当該検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号を分離する複数の行列要素で構成される第3の部分行列と、
前記第1の場所に存在する1以上の音源から当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第4の部分行列と
を含む分離行列に対して、
各前記検出信号および各前記スピーカ入力信号により構成される入力ベクトルを前記分離行列に対して乗算することにより、各前記検出信号に含まれる第1の音響信号と第2の音響信号とを分離するステップと、
当該分離した第1の音響信号を出力することによって、各前記検出信号に含まれる第2の音響信号をエコーとしてキャンセルするキャンセルステップと、
前記分離行列の前記第2の部分行列を、対角以外の構成要素が0である対角行列として独立成分分析に従って学習する学習ステップとを実行させるプログラム。 An acoustic signal is transmitted between the first location and the second location, and the first acoustic signal emitted from one or more sound sources existing at the first location is provided at the first location. The second acoustic signal detected by the plurality of microphones and emitted from one or more sound sources existing at the second location is detected by the plurality of microphones provided at the second location, and the first location The acoustic signal transmitted from the second location to the second location is amplified from a plurality of speakers provided at the second location, and the acoustic signal transmitted from the second location to the first location is the first location. A program for causing a computer to perform multi-channel echo cancellation for a first location, used in an acoustic system that is loudspeaked from a plurality of speakers provided at a location ,
In the computer,
Detecting an acoustic signal in which a speaker input signal transmitted from the second location to the first location is amplified by a plurality of speakers provided in the first location, and the first acoustic signal; An acquisition step of acquiring detection signals of a plurality of microphones provided in the first location and the speaker input signal;
A separation matrix for separating a first acoustic signal included in each of the detection signals and a second acoustic signal included in the amplified acoustic signal included in each of the detection signals, A first submatrix composed of a plurality of matrix elements relating to respective transfer characteristics from a plurality of speakers provided at one place to a plurality of microphones provided at the first place;
A second sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the second location to a plurality of microphones provided at the second location;
A third sub-matrix composed of a plurality of matrix elements for separating the second acoustic signal included in the amplified acoustic signal included in the detection signal from each of the detection signals;
A fourth sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the first location to a plurality of microphones provided at the first location;
For a separation matrix containing
The first acoustic signal and the second acoustic signal included in each detection signal are separated by multiplying the separation matrix by an input vector constituted by each detection signal and each speaker input signal. Steps,
Canceling the second acoustic signal included in each of the detection signals as an echo by outputting the separated first acoustic signal; and
A program for executing a learning step of learning the second sub-matrix of the separation matrix as a diagonal matrix in which components other than the diagonal are 0 according to independent component analysis .
前記第2の場所から前記第1の場所へ伝送されたスピーカ入力信号が前記第1の場所に設けられた複数のスピーカで拡声された音響信号と、前記第1の音響信号とを検出する、前記第1の場所に設けられた複数のマイクロホンの検出信号と、前記スピーカ入力信号とを取得する取得部と、
各前記検出信号に含まれる第1の音響信号と、各前記検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号とを分離するための分離行列であって、前記第1の場所に設けられた複数のスピーカから当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第1の部分行列と、
前記第2の場所に存在する1以上の音源から当該第2の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第2の部分行列と、
各前記検出信号から当該検出信号に含まれる前記拡声された音響信号に含まれる前記第2の音響信号を分離する複数の行列要素で構成される第3の部分行列と、
前記第1の場所に存在する1以上の音源から当該第1の場所に設けられた複数のマイクロホンまでの各伝達特性に関する複数の行列要素で構成される第4の部分行列と
を含む分離行列に対して、
各前記検出信号および各前記スピーカ入力信号により構成される入力ベクトルを前記分離行列に対して乗算することにより、各前記検出信号に含まれる第1の音響信号と第2の音響信号とを分離し、当該分離した第1の音響信号を出力するエコーキャンセル部と
を備え、
前記分離行列は、
前記第2の部分行列を、対角以外の構成要素が0である対角行列として独立成分分析に従って学習される、集積回路。 An acoustic signal is transmitted between the first location and the second location, and the first acoustic signal emitted from one or more sound sources existing at the first location is provided at the first location. The second acoustic signal detected by the plurality of microphones and emitted from one or more sound sources existing at the second location is detected by the plurality of microphones provided at the second location, and the first location The acoustic signal transmitted from the second location to the second location is amplified from a plurality of speakers provided at the second location, and the acoustic signal transmitted from the second location to the first location is the first location. An integrated circuit that performs multi-channel echo cancellation for a first location, used in an acoustic system that is loudspeaked from a plurality of speakers provided at the location ,
Detecting an acoustic signal in which a speaker input signal transmitted from the second location to the first location is amplified by a plurality of speakers provided in the first location, and the first acoustic signal; An acquisition unit for acquiring detection signals of a plurality of microphones provided in the first location and the speaker input signal;
A separation matrix for separating a first acoustic signal included in each of the detection signals and a second acoustic signal included in the amplified acoustic signal included in each of the detection signals, A first submatrix composed of a plurality of matrix elements relating to respective transfer characteristics from a plurality of speakers provided at one place to a plurality of microphones provided at the first place;
A second sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the second location to a plurality of microphones provided at the second location;
A third sub-matrix composed of a plurality of matrix elements for separating the second acoustic signal included in the amplified acoustic signal included in the detection signal from each of the detection signals;
A fourth sub-matrix composed of a plurality of matrix elements relating to each transfer characteristic from one or more sound sources present at the first location to a plurality of microphones provided at the first location;
For a separation matrix containing
The first acoustic signal and the second acoustic signal included in each detection signal are separated by multiplying the separation matrix by an input vector constituted by each detection signal and each speaker input signal. An echo canceling unit for outputting the separated first acoustic signal;
With
The separation matrix is
An integrated circuit in which the second sub-matrix is learned according to independent component analysis as a diagonal matrix in which components other than the diagonal are zero .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007175430A JP4920511B2 (en) | 2006-07-06 | 2007-07-03 | Multichannel echo canceller |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006186408 | 2006-07-06 | ||
JP2006186408 | 2006-07-06 | ||
JP2007175430A JP4920511B2 (en) | 2006-07-06 | 2007-07-03 | Multichannel echo canceller |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008033307A JP2008033307A (en) | 2008-02-14 |
JP2008033307A5 JP2008033307A5 (en) | 2010-05-06 |
JP4920511B2 true JP4920511B2 (en) | 2012-04-18 |
Family
ID=39122730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007175430A Active JP4920511B2 (en) | 2006-07-06 | 2007-07-03 | Multichannel echo canceller |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4920511B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5249633B2 (en) * | 2008-05-26 | 2013-07-31 | 日本電信電話株式会社 | Sound collecting / reproducing apparatus with characteristic difference function between channels and method thereof |
JP2011002535A (en) * | 2009-06-17 | 2011-01-06 | Toyota Motor Corp | Voice interaction system, voice interaction method, and program |
CN102457632B (en) * | 2011-12-29 | 2014-07-30 | 歌尔声学股份有限公司 | Echo cancellation method for multiple incoming sides |
JP6288561B2 (en) * | 2014-04-24 | 2018-03-07 | 晋哉 齋藤 | Blind signal separation method and apparatus |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3870861B2 (en) * | 2002-07-10 | 2007-01-24 | 株式会社デンソー | Echo canceller device and voice communication device |
JP4268146B2 (en) * | 2005-01-26 | 2009-05-27 | 株式会社日立製作所 | Abnormality diagnosis apparatus and method, and program |
-
2007
- 2007-07-03 JP JP2007175430A patent/JP4920511B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008033307A (en) | 2008-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8189765B2 (en) | Multichannel echo canceller | |
EP1848243B1 (en) | Multi-channel echo compensation system and method | |
JP3727258B2 (en) | Echo suppression processing system | |
EP3312839B1 (en) | Device for assisting two-way conversation and method for assisting two-way conversation | |
JP5166777B2 (en) | Method and system for compensating audio signal components in a vehicle communication system | |
EP1855457B1 (en) | Multi channel echo compensation using a decorrelation stage | |
US8958572B1 (en) | Adaptive noise cancellation for multi-microphone systems | |
US8175290B2 (en) | Feedback reduction system | |
US20170178663A1 (en) | Echo canceller device | |
JP2004349806A (en) | Multichannel acoustic echo canceling method, apparatus thereof, program thereof, and recording medium thereof | |
JP4920511B2 (en) | Multichannel echo canceller | |
Ruiz et al. | Distributed combined acoustic echo cancellation and noise reduction in wireless acoustic sensor and actuator networks | |
EP3833045B1 (en) | Conversation assistance system, method therefor, and program | |
JP2006262098A (en) | Howling canceller | |
Mahbub et al. | A single-channel acoustic echo cancellation scheme using gradient-based adaptive filtering | |
Schepker et al. | Acoustic feedback cancellation for a multi-microphone earpiece based on a null-steering beamformer | |
KR20110021306A (en) | Microphone signal compensation apparatus and method of the same | |
Rombouts et al. | Generalized sidelobe canceller based combined acoustic feedback-and noise cancellation | |
JP4879195B2 (en) | Noise reduction device | |
JP7259092B2 (en) | Modular echo cancellation unit | |
KR102045953B1 (en) | Method for cancellating mimo acoustic echo based on kalman filtering | |
JP4663630B2 (en) | Multi-channel system identification device | |
JP3628267B2 (en) | Multi-channel echo cancellation method, apparatus thereof, program thereof and recording medium thereof | |
Buchner et al. | An acoustic human-machine interface with multi-channel sound reproduction | |
JP2012205161A (en) | Voice communication device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100317 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100317 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120112 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4920511 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150210 Year of fee payment: 3 |