JP6094479B2

JP6094479B2 - 音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体

Info

Publication number: JP6094479B2
Application number: JP2013515245A
Authority: JP
Inventors: 宝珠山　治; 治宝珠山
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-05-19
Filing date: 2012-05-18
Publication date: 2017-03-15
Anticipated expiration: 2032-05-18
Also published as: JPWO2012157788A1; WO2012157788A1; US20140079232A1

Description

本発明は、音声中のエコーを抑圧する技術に関する。

上記技術分野において、特許文献１に示されているように、エコーを抑圧する技術が知られている。この技術は、適応フィルタを用いて出力音声信号（遠端信号）から擬似線形エコー信号を生成し、入力音声信号中の線形エコー成分を抑圧した上で、さらに非線形エコー成分を抑圧する技術である。特に、入力音声信号に混在する非線形エコー信号を、擬似線形エコー信号を用いて推定することにより、比較的クリアに入力音声信号から近端音声信号を抽出している。

再公表ＷＯ０９−０５１１９７号公報

しかしながら、特許文献１に記載の技術では、ステレオ音声出力で発生したエコーを適正に抑圧することはできなかった。
その理由は、特許文献１記載のエコー抑圧装置が、入力音声信号に対する出力音声信号（特許文献１では遠端信号）が、２以上ある場合を想定していないからである。
本発明の目的は、上述の課題を解決する技術を提供することにある。

本発明の一態様における装置は、
第１出力音声信号に基づいて第１音声を出力する第１音声出力手段と、
第２出力音声信号に基づいて第２音声を出力する第２音声出力手段と、
音声を入力して入力音声信号を出力する音声入力手段と、
前記音声入力手段に対する前記第１音声の回り込みにより発生したと推定される第１擬似線形エコー信号を、前記第１出力音声信号から生成し、出力する第１擬似線形エコー生成手段と、
前記音声入力手段に対する前記第２音声の回り込みにより発生したと推定される第２擬似線形エコー信号を、前記第２出力音声信号から生成し、出力する第２擬似線形エコー生成手段と、
前記第１擬似線形エコー生成手段および前記第２擬似線形エコー生成手段の出力に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成し、出力する線形エコー抑圧手段と、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定手段と、
前記非線形エコー推定手段によって推定された非線形エコー信号に基づいて、前記線形エコー抑圧手段が出力した信号を抑圧する非線形エコー抑圧手段と、
を備えたことを特徴とする。
本発明の一態様における方法は、
第１出力音声信号および第２出力音声信号に基づいて２つの音声出力手段から出力された第１音声および第２音声を音声入力手段で入力して、入力音声信号を出力する音声入力ステップと、
前記音声入力手段に対する前記第１音声の回り込みにより発生したと推定される第１擬似線形エコー信号を、前記第１出力音声信号から生成し、出力する第１擬似線形エコー生成ステップと、
前記音声入力手段に対する前記第２音声の回り込みにより発生したと推定される第２擬似線形エコー信号を、前記第２出力音声信号から生成し、出力する第２擬似線形エコー生成ステップと、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号の出力に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成し、出力する線形エコー抑圧ステップと、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定ステップと、
前記非線形エコー推定ステップにおいて推定された非線形エコー信号に基づいて、前記線形エコー抑圧ステップにおいて出力された信号を抑圧する非線形エコー抑圧ステップと、
を含むことを特徴とする。
本発明の一態様における不揮発性媒体に記録されたプログラムは、
第１出力音声信号および第２出力音声信号に基づいて２つの音声出力手段から出力された第１音声および第２音声を音声入力手段で入力して、入力音声信号を出力する音声入力ステップと、
前記音声入力手段に対する前記第１音声の回り込みにより発生したと推定される第１擬似線形エコー信号を、前記第１出力音声信号から生成し、出力する第１擬似線形エコー生成ステップと、
前記音声入力手段に対する前記第２音声の回り込みにより発生したと推定される第２擬似線形エコー信号を、前記第２出力音声信号から生成し、出力する第２擬似線形エコー生成ステップと、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成し、出力する線形エコー抑圧ステップと、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定ステップと、
前記非線形エコー推定ステップにおいて推定された非線形エコー信号に基づいて、前記線形エコー抑圧ステップにおいて出力された信号を抑圧する非線形エコー抑圧ステップと、
をコンピュータに実行させることを特徴とする。

本発明によれば、ステレオ音声出力で発生したエコーを適正に抑圧することができる。

図１は、本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。図２は、本発明の第２実施形態に係る音声処理装置の機能構成を示すブロック図である。図３は、本発明の第２実施形態に係る音声処理装置の回路構成を示すブロック図である。図４は、本発明の第３実施形態に係る音声処理装置の機能構成を示すブロック図である。図５は、本発明の第３実施形態に係る音声処理装置の回路構成を示すブロック図である。図６は、本発明の他の実施形態に係る情報処理装置の構成を示すブロック図である。図７は、本発明のプログラムを記録した記録媒体を示す図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
（第１実施形態）
本発明の第１実施形態としての音声処理装置１００について、図１を用いて説明する。音声処理装置１００は、２つの音声出力部から出力される音声に起因して、発生する非線形エコー信号を抑圧する装置である。
図１に示すように、音声処理装置１００は、第１音声出力部１０１と第２音声出力部１０２と音声入力部１０３とを含む。さらに、音声処理装置１００は、第１擬似線形エコー生成部１０４と第２擬似線形エコー生成部１０５と線形エコー抑圧部１０６と非線形エコー推定部１０７と非線形エコー抑圧部１０８とを含む。
これらのうち、第１音声出力部１０１および第２音声出力部１０２は、それぞれ第１出力音声信号および第２出力音声信号に応じた音声を出力する。
音声入力部１０３は、音声を入力する。
第１擬似線形エコー生成部１０４は、第１音声出力部１０１への第１出力音声信号に基づいて、第１擬似線形エコー信号を生成し、出力する。
第２擬似線形エコー生成部１０５は、第２音声出力部１０２への第２出力音声信号に基づいて、第２擬似線形エコー信号を生成し、出力する。
線形エコー抑圧部１０６は、第１擬似線形エコー信号および第２擬似線形エコー信号に基づいて、入力音声信号に混在する線形エコー信号を抑圧し、出力する。
非線形エコー推定部１０７は、第１擬似線形エコー信号および第２擬似線形エコー信号に基づいて、非線形エコー信号を推定し、出力する。
非線形エコー抑圧部１０８は、非線形エコー信号を推定した結果に基づいて、線形エコー信号が抑圧された入力音声信号に混在する、非線形エコー信号を抑圧し、出力する。
以上の構成により、２つの音声入力手段を有する装置、即ちステレオ音声出力、によって発生したエコーを、適正に抑圧できる。
その理由は、以下のような構成を含むからである。即ち、第一に、第１擬似線形エコー生成部１０４および第２擬似線形エコー生成部１０５それぞれが、第１出力音声信号および第２出力音声信号それぞれに基づいて、第１擬似線形エコー信号および第２擬似線形エコー信号を生成し、出力する。第二に、線形エコー抑圧部１０６が、第１擬似線形エコー信号および第２擬似線形エコー信号に基づいて、入力音声信号に混在する線形エコー信号を抑圧する。第三に、非線形エコー推定部１０７が、第１擬似線形エコー信号および第２擬似線形エコー信号に基づいて、非線形エコー信号を推定するし、非線形エコー抑圧部１０８が、非線形エコー信号を抑圧し、出力する。
（第２実施形態）
次に本発明の第２実施形態に係る音声処理装置２００について、図２を用いて説明する。図２は、本実施形態に係る音声処理装置２００の構成を説明するための図である。
図２に示すように、音声処理装置２００は、音声入力部としてのマイクロフォン２０３と、第１および第２音声出力部としてのスピーカ２０１および２０２と、を含む。スピーカ２０１および２０２は、それぞれ第１出力信号ｘＲ（ｋ）および第２出力信号ｘＬ（ｋ）に応じた音声を出力する。例えば、第１出力信号ｘＲ（ｋ）および第２出力信号ｘＬ（ｋ）は、ステレオ音声の信号である。この場合、スピーカ２０１および２０２は、ステレオ音声を出力する。
また、音声処理装置２００は、適応フィルタ２１４、適応フィルタ２２４および加算部２０５を含む。適応フィルタ２１４および２２４は、それぞれ第１出力信号ｘＲ（ｋ）および第２出力信号ｘＬ（ｋ）を入力して、擬似線形エコー信号を生成し、出力する。加算部２０５は、適応フィルタ２１４および適応フィルタ２２４それぞれから出力された擬似線形エコー信号を加算し、合成擬似線形エコー信号として出力する。
音声処理装置２００は、さらに、線形エコーキャンセラ２０６、非線形エコー推定部２０７、フロアリング部２０８、および非線形エコーサプレッサ２０９を備えている。加算部２０５で生成された合成擬似線形エコー信号は、線形エコーキャンセラ２０６と非線形エコー推定部２０７の両方に供給される。
これらのうち、線形エコーキャンセラ２０６は、加算部２０５で合成された擬似線形エコー信号を、混在信号Ｐ（ｋ）から減算し、出力する。一方、非線形エコー推定部２０７は、加算部２０５で合成された擬似線形エコー信号に基づいて、非線形エコー信号を推定する。そして、フロアリング部２０８は、非線形エコー推定部２０７が推定した非線形エコー信号を、フロアリングし、フロアリング結果を出力する。非線形エコーサプレッサ２０９は、フロアリング結果に基づいて、線形エコーキャンセラ２０６の出力信号から、利得制御によって非線形エコー信号を抑圧し、出力する。
以上の構成は、２つのスピーカによるエコーの影響を、１つのスピーカによる線形エコーからの影響と見なして抑圧を行うという新しい発想に基づくものであり、非常にシンプルな構成で、２つのスピーカによるエコーを抑圧することができる。
次に、図３を用いて音声処理装置２００の回路構成について説明する。図３は、音声処理装置２００のより具体的な回路構成を示す図である。
図２でも説明したように、適応フィルタ２１４および適応フィルタ２２４それぞれは、第１出力信号ｘＲ（ｋ）および第２出力信号ｘＬ（ｋ）を入力して、擬似線形エコー信号を生成する。適応フィルタについての詳しい説明は米国公開公報２０１０−０２６０３５２Ａ１号公報に開示されているので、ここでは省略する。
加算部２０５は、生成された擬似線形エコー信号を加算して合成擬似線形エコー信号を生成する。
線形エコーキャンセラ２０６として減算器は、マイクロフォン２０３によって出力された入力音声信号から合成擬似線形エコー信号を減算して、残差信号ｄ（ｋ）を生成し、出力する。
残差信号ｄ（ｋ）は、高速フーリエ変換部（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＦＦＴ）３０１に入力され、合成擬似線形エコー信号ｙ（ｋ）は、高速フーリエ変換部３０２に入力される。
音声処理装置２００は、高速フーリエ変換部３０１、高速フーリエ変換部３０２、非線形エコー推定部２０７と、フロアリング部２０８と、非線形エコーサプレッサ２０９と、逆高速フーリエ変換部（ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＩＦＦＴ）３０６と、を更に備える。
高速フーリエ変換部３０１および３０２それぞれは、残差信号ｄ（ｋ）および擬似線形エコー信号ｙ（ｋ）それぞれを周波数スペクトルに変換する。
非線形エコー推定部２０７と、フロアリング部２０８と、非線形エコーサプレッサ２０９とは周波数成分ごとに用意されている。
逆高速フーリエ変換部３０６は、周波数成分ごとに導き出された振幅スペクトルを対応する位相と統合して逆高速フーリエ変換し、時間領域の出力信号ｚｉ（ｋ）に再合成する。尚、時間領域の出力信号ｚｉ（ｋ）は、つまり、通話相手に送る音声波形の信号である。
線形エコー信号と非線形エコー信号とはまったく違う波形であるが、周波数ごとにスペクトル振幅を見ると、擬似線形エコー信号が大きい時は非線形エコー信号も大きくなる傾向、すなわち振幅の相関がある。つまり、擬似線形エコー信号に基づいて、非線形エコー信号の量を推定することができる。
そこで、非線形エコー推定部２０７は、推定した非線形エコー信号の量に基づいて、所望の音声信号のスペクトル振幅を推定する。推定された音声信号のスペクトル振幅には誤差があるが、その推定誤差が主観的に不快にならないようフロアリング部２０８でフロアリング処理を加えている。
例えば、音声信号の推定スペクトル振幅が過剰に小さく、背景雑音のスペクトル振幅を下回る場合、エコーの有無で信号レベルが変動し、違和感を生じさせる。その対策としてフロアリング部２０８では、背景雑音レベルを推定して、推定スペクトル振幅の下限とすることにより、レベル変動を低減する。
一方、推定誤差により推定スペクトル振幅にエコーが大きく残留してしまった場合、残留したエコーは断続的かつ急激に変化して、ミュージカルノイズと呼ばれる、人工的な付加音となる。その対策として非線形エコーサプレッサ２０９は、エコーを消去するために、推定した非線形エコー信号を減算するのではなく、減算された程度の振幅になるように利得を乗じるスペクトル利得計算部として機能する。利得の急激な変化を防止する平滑化を行うことにより、残留エコーの断続的変化を抑えることができる。
以下、非線形エコー推定部２０７、フロアリング部２０８、非線形エコーサプレッサ２０９の内部構成について数式を用いて説明する。
高速フーリエ変換部３０１に入力される残差信号ｄ（ｋ）は、近端信号ｓ（ｋ）と、残留非線形エコー信号ｑ（ｋ）の和である。
ｄ（ｋ）＝ｓ（ｋ）＋ｑ（ｋ）・・・（１）
適応フィルタ２１４、適応フィルタ２２４および減算器（線形エコーキャンセラ２０６）によって線形エコーがほぼ完全に除去されていると仮定して、非線形成分のみを周波数領域で考える。高速フーリエ変換部３０１および３０２によって、式（１）は周波数領域に変換され、以下の式となる。
Ｄ（ｍ）＝Ｓ（ｍ）＋Ｑ（ｍ）・・・（２）
ここでｍはフレーム番号、ベクトルＤ（ｍ）、Ｓ（ｍ）およびＱ（ｍ）それぞれは、ｄ（ｋ）、ｓ（ｋ）およびｑ（ｋ）それぞれを、周波数領域に変換した表現である。各周波数を独立に考えて式（２）を変形すると、ｉ番目の周波数では、以下の式となる。
Ｓｉ（ｍ）＝Ｄｉ（ｍ）−Ｑｉ（ｍ）・・・（３）
適応フィルタ２１４、適応フィルタ２２４および減算器（線形エコーキャンセラ２０６）は相関除去を行うため、Ｄｉ（ｍ）とＹｉ（ｍ）の間にはほとんど相関はない。したがって、減算器

の積として以下の様にモデル化できる。

そこで、絶対値化回路２７２と平均化回路２７４とが、Ｙｉ（ｍ）から平均エコーレプリカ

、｜Ｑｉ（ｍ）｜と｜Ｙｉ（ｍ）｜との相関を示す回帰係数である。このモデルは、｜Ｑｉ（ｍ）｜と｜Ｙｉ（ｍ）｜との間に有意な相関があるという実験結果に基づいている。
式（３）は、ノイズ抑圧において広く用いられている加法型のモデルである。図３のスペクトル整形では、ノイズ抑圧において、不快なミュージカルノイズを生じにくい、スペクトル乗算型の構成をとる。スペクトル乗算を用いて、出力信号の振幅｜Ｚｉ（ｍ）｜を、スペクトルゲインＧｉ（ｍ）と残差信号｜Ｄｉ（ｍ）｜の積として得る。

式（６）の平方根をとり、式（３）の二乗平均をとって式（４）の｜Ｑｉ（ｍ）｜^２にａｉ^２・｜Ｙｉ

にしてもよい。そのようにすることでより一層効果的に非線形エコー信号を抑圧することができる。

誤差が大きく、オーバーサブトラクションがおきると、近端信号において、高域成分の減少、あるいは変調感を生じることになる。特に、近端信号が空調音のように定常である場合、変調感は不快である。この変調感を主観的に低減するために、フロアリング部２０８でスペクトル上のフロアリングを用いる。
フロアリング部２０８では、まず、平均化回路２８１が、近端信号Ｄｉ（ｍ）の定常成分｜Ｎｉ（ｍ）｜を推定する。次に、最大値選択回路２８２が、定常成分｜Ｎｉ（ｍ）｜を下限と

最後に数式（５）に示したように、積算器２９３が、スペクトルゲインＧｉ（ｍ）と残差信号｜Ｄｉ（ｍ）｜の積を求める。こうすることで、振幅｜Ｚｉ（ｍ）｜を出力信号として得ることができる。逆高速フーリエ変換部３０６は、振幅｜Ｚｉ（ｍ）｜を逆フーリエ変換し、非線形のエコーが効果的に抑圧された音声信号ｚｉ（ｋ）を出力する。
回帰係数ａｉは、それぞれ、スピーカから音声を出力させた場合のマイクロフォン２０３の入力から推定することができる。再公表２００９／０５１１９７に開示されているように、状況に応じて回帰係数を更新させてもよい。
以上の構成によれば、２つのスピーカ２０１および２０２による線形エコー信号および非線形エコー信号を効果的に抑圧することが可能となる。
その理由は、適応フィルタ２１４および適応フィルタ２２４の出力を合成した、合成擬似線形エコー信号に基づいて、線形エコーキャンセラ２０６、高速フーリエ変換部３０１、高速フーリエ変換部３０２、非線形エコー推定部２０７、フロアリング部２０８、非線形エコーサプレッサ２０９および逆高速フーリエ変換部３０６が、エコーの抑圧を行うようにしたからである。
また、以上の構成によれば、より効率的な回路設計とすることができる。
その理由は、２つのスピーカへの第１出力信号ｘＲ（ｋ）および第２出力信号ｘＬ（ｋ）について、線形エコーキャンセラ２０６、高速フーリエ変換部３０１、高速フーリエ変換部３０２、非線形エコー推定部２０７、フロアリング部２０８、非線形エコーサプレッサ２０９および逆高速フーリエ変換部３０６を共有化しているため、
（第３実施形態）
次に本発明の第３実施形態に係る音声処理装置４００について、図４および図５を用いて説明する。図４は、本実施形態に係る音声処理装置４００の機能構成を説明するための図である。本実施形態に係る音声処理装置４００は、上記第２実施形態の音声処理装置２００と比べると、非線形エコー推定部２０７に替えて、非線形エコー推定部４１７と非線形エコー推定部４２７とを含む点で異なる。非線形エコー推定部４１７は、第１擬似線形エコー信号から第１非線形エコー信号を推定する第１非線形エコー推定手段としての機能し、非線形エコー推定部４２７は第２擬似線形エコー信号から第２非線形エコー信号を推定する第２非線形エコー推定手段として機能する。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
図５は、音声処理装置４００の回路構成を示す図である。
音声処理装置４００は、高速フーリエ変換部３０１、高速フーリエ変換部５０２および高速フーリエ変換部５０３を含む。また、音声処理装置４００は、非線形エコー推定部５０７および非線形エコー推定部５０８と、フロアリング部２０８と、非線形エコーサプレッサ２０９と、逆高速フーリエ変換部３０６とを含む。
高速フーリエ変換部３０１は、残差信号ｄ（ｋ）を周波数スペクトルＤｉ（ｍ）に変換する。高速フーリエ変換部５０２および高速フーリエ変換部５０３は、それぞれ２つの擬似線形エコー信号ｙ１（ｋ）、ｙ２（ｋ）を周波数スペクトルＹｉ１（ｍ）、Ｙｉ２（ｍ）に変換する。
非線形エコー推定部５０７と非線形エコー推定部５０８とフロアリング部２０８と非線形エコーサプレッサ２０９とは、周波数成分ごとに用意されている。
逆高速フーリエ変換部３０６は、周波数成分ごとに導き出された振幅スペクトルを対応する位相と統合して逆高速フーリエ変換し、時間領域の出力信号ｚｉ（ｋ）に再合成する。尚、時間領域の出力信号ｚｉ（ｋ）は、つまり、通話相手に送る音声波形の信号である。
非線形エコー推定部５０７および５０８は、それぞれ、推定した非線形エコー信号の量に基づいて、所望の音声信号のスペクトル振幅を推定する。
適応フィルタ２１４、適応フィルタ２２４および減算器（線形エコーキャンセラ２０６）は相関除去を行うため、Ｄｉ（ｍ）とＹｉ（ｍ）の間にはほとんど相関はない。したがって、減算器

非線形エコー信号｜Ｑｉ１（ｍ）｜、｜Ｑｉ２（ｍ）｜は、回帰係数ａｉ１およびａｓ２それぞれ

ようにモデル化できる。

そこで、絶対値化回路５７２と平均化回路５７４とが、Ｙｉ１（ｍ）から平均エコーレプリカ

、さらに積算部５８５が、回帰係数ａｉ２を乗算する。

とでより一層効果的に非線形エコー信号を抑圧することができる。

変調感を主観的に低減するために、フロアリング部２０８でスペクトル上のフロアリングを行う。積算器２９３が、スペクトルゲインＧｉ（ｍ）と残差信号｜Ｄｉ（ｍ）｜の積を求めることで、振幅｜Ｚｉ（ｍ）｜を出力信号として出力する。逆高速フーリエ変換部３０６は、振幅｜Ｚｉ（ｍ）｜を逆フーリエ変換し、非線形のエコーが効果的に抑圧された音声信号ｚｉ（ｋ）を出力する。
回帰係数ａｉ１およびａｉ２は、それぞれ、スピーカ２０１および２０２のいずれか一方からのみ音声を出力させた場合のマイクロフォン２０３の入力から別々に推定することができる。再公表２００９／０５１１９７に開示されているように、状況に応じてこれらの回帰係数を更新させてもよい。
以上の構成によれば、第二実施形態と同様の効果を得ることができる。
その理由は、非線形エコー推定部２０７に替えて、非線形エコー推定部４１７と非線形エコー推定部４２７とを含むようにしたからである。
（他の実施形態）
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。
したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）サーバも、本発明の範疇に含まれる。
以下、一例として、第２実施形態で説明した音声処理をソフトウェアで実現する場合に、コンピュータ６００に設けられたＣＰＵ（ＣｅｎｔｏｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０２で実行する処理の流れを、図６を用いて説明する。
まず、ＣＰＵ６０２は、第１出力音声信号および第２出力音声信号に基づいて２つのスピーカ２０１および２０２それぞれから出力された第１音声および第２音声を、マイクロフォン２０３から入力して、入力音声信号を出力する（Ｓ６０１）。
ＣＰＵ６０２は、マイクロフォン２０３に対する、スピーカ２０１からの音声の回り込みにより発生したと推定される第１擬似線形エコー信号を、第１出力音声信号から生成する（Ｓ６０３）。
ＣＰＵ６０２は、マイクロフォン２０３に対する、スピーカ２０２からの音声の回り込みにより発生したと推定される第２擬似線形エコー信号を、第２出力音声信号から生成する（Ｓ６０５）。
ＣＰＵ６０２は、第１擬似線形エコー信号および第２擬似線形エコー信号に基づいて、入力音声信号に混在する線形エコー信号を抑圧する（Ｓ６０７）。
ＣＰＵ６０２は、第１擬似線形エコー信号および第２擬似線形エコー信号に基づいて、非線形エコー信号を推定する（Ｓ６０９）。そして、推定された非線形エコー信号を抑圧する（Ｓ６１１）。
以上の処理により、第２実施形態と同様の効果を得ることができる。
尚、入力部６０１は、音声入力部１０３およびマイクロフォン２０３を含んでよい。出力部６０３は、第１音声出力部１０１、第２音声出力部１０２、スピーカ２０１およびスピーカ２０２を含んでよい。メモリ６０４は、情報を記憶する。ＣＰＵ６０２は、各ステップの動作を実行する場合に、メモリ６０４に必要な情報を書き込み、またメモリ６０４から必要な情報を読み出す。
図７は、プログラムを記録（記憶）する、記録媒体（記憶媒体）７０７の例を示す図である。記録媒体７０７は、情報を非一時的に記憶する不揮発性記録媒体である。尚、記録媒体７０７は、情報を一時的に記憶する記録媒体であってもよい。記録媒体７０７は、図６に示す動作をコンピュータ６００（ＣＰＵ６０２）に実行させるプログラム（ソフトウェア）を記録する。尚、記録媒体７０７は、さらに、任意のプログラムやデータを記録してよい。
上述のプログラム（ソフトウェア）のコードを記録した記録媒体７０７が、コンピュータ６００に供給され、ＣＰＵ６０２は、記録媒体７０７に格納されたプログラムのコードを読み出して実行するようにしてもよい。あるいは、ＣＰＵ６０２は、記録媒体７０７に格納されたプログラムのコードを、メモリ６０４に格納するようにしてもよい。すなわち、本実施形態は、コンピュータ６００（ＣＰＵ６０２）が実行するプログラムを、一時的にまたは非一時的に、記憶する記録媒体７０７の実施形態を含む。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、２０１１年５月１９日に出願された日本出願特願２０１１−１１２０７８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１００音声処理装置
１０１第１音声出力部
１０２第２音声出力部
１０３音声入力部
１０４第１擬似線形エコー生成部
１０５第２擬似線形エコー生成部
１０６線形エコー抑圧部
１０７非線形エコー推定部
１０８非線形エコー抑圧部
２００音声処理装置
２０１スピーカ
２０２スピーカ
２０３マイクロフォン
２０５加算部
２０６線形エコーキャンセラ
２０７非線形エコー推定部
２０８フロアリング部
２０９非線形エコーサプレッサ
２１４適応フィルタ
２２４適応フィルタ
２７１絶対値化回路
２７２絶対値化回路
２７３平均化回路
２７４平均化回路
２７５積算部
２７６減算器
２８１平均化回路
２８２最大値選択回路
２９１除算器
２９２平均化回路
２９３積算器
３０１高速フーリエ変換部
３０２高速フーリエ変換部
３０６逆高速フーリエ変換部
４００音声処理装置
４１７非線形エコー推定部
４２７非線形エコー推定部
５０２高速フーリエ変換部
５０３高速フーリエ変換部
５０７非線形エコー推定部
５０８非線形エコー推定部
５７２絶対値化回路
５７４平均化回路
５７５積算部
５８２絶対値化回路
５８４平均化回路
５８５積算部
６００コンピュータ
６０２ＣＰＵ
７０７記録媒体

Claims

第１出力音声信号に基づいて第１音声を出力する第１音声出力手段と、
第２出力音声信号に基づいて第２音声を出力する第２音声出力手段と、
音声を入力して入力音声信号を出力する音声入力手段と、
前記音声入力手段に対する前記第１音声の回り込みにより発生したと推定される第１擬似線形エコー信号を、前記第１出力音声信号から生成する第１擬似線形エコー生成手段と、
前記音声入力手段に対する前記第２音声の回り込みにより発生したと推定される第２擬似線形エコー信号を、前記第２出力音声信号から生成する第２擬似線形エコー生成手段と、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成する線形エコー抑圧手段と、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定手段と、
前記非線形エコー推定手段での推定結果にフロアリング処理を施すフロアリング手段と、
前記非線形エコー推定手段によって推定され、前記フロアリング処理が施された非線形エコー信号に基づいて、前記線形エコー抑圧手段が生成した信号を抑圧する非線形エコー抑圧手段と、
を備えたことを特徴とする音声処理装置。
前記第１擬似線形エコー信号と前記第２擬似線形エコー信号とを加算する加算手段をさらに有することを特徴とする請求項１に記載の音声処理装置。
前記加算手段での加算結果を、前記線形エコー抑圧手段と前記非線形エコー推定手段とに入力することを特徴とする請求項２に記載の音声処理装置。
前記非線形エコー抑圧手段は、
前記フロアリング手段でのフロアリング結果に基づいて前記非線形エコー信号を抑圧することを特徴とする請求項１から３のいずれか一項に記載の音声処理装置。
前記非線形エコー推定手段は、
前記第１擬似線形エコー信号から第１非線形エコー信号を推定する第１非線形エコー推定手段と、
前記第２擬似線形エコー信号から第２非線形エコー信号を推定する第２非線形エコー推定手段と、
を含むことを特徴とする請求項１から４のいずれか一項に記載の音声処理装置。
第１出力音声信号および第２出力音声信号に基づいて２つの音声出力手段から出力された第１音声および第２音声を音声入力手段で入力して、入力音声信号を出力する音声入力ステップと、
前記音声入力手段に対する前記第１音声の回り込みにより発生したと推定される第１擬似線形エコー信号を、前記第１出力音声信号から生成する第１擬似線形エコー生成ステップと、
前記音声入力手段に対する前記第２音声の回り込みにより発生したと推定される第２擬似線形エコー信号を、前記第２出力音声信号から生成する第２擬似線形エコー生成ステップと、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成する線形エコー抑圧ステップと、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定ステップと、
前記非線形エコー推定ステップでの推定結果にフロアリング処理を施すステップと、
前記非線形エコー推定ステップにおいて推定され、前記フロアリング処理が施された非線形エコー信号に基づいて、前記線形エコー抑圧ステップにおいて生成された信号を抑圧する非線形エコー抑圧ステップと、

を含むことを特徴とする音声処理方法。
第１出力音声信号および第２出力音声信号に基づいて２つの音声出力手段から出力された第１音声および第２音声を音声入力手段で入力して、入力音声信号を出力する音声入力ステップと、
前記音声入力手段に対する前記第１音声の回り込みにより発生したと推定される第１擬似線形エコー信号を、前記第１出力音声信号から生成する第１擬似線形エコー生成ステップと、
前記音声入力手段に対する前記第２音声の回り込みにより発生したと推定される第２擬似線形エコー信号を、前記第２出力音声信号から生成する第２擬似線形エコー生成ステップと、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成する線形エコー抑圧ステップと、
前記第１擬似線形エコー信号および前記第２擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定ステップと、
前記非線形エコー推定ステップでの推定結果にフロアリング処理を施すステップと、
前記非線形エコー推定ステップにおいて推定され、前記フロアリング処理が施されたた非線形エコー信号に基づいて、前記線形エコー抑圧ステップにおいて生成された信号を抑圧する非線形エコー抑圧ステップと、
をコンピュータに実行させることを特徴とする音声処理プログラム。