WO2009148049A1

WO2009148049A1 - 音響エコーキャンセラ及び音響エコーキャンセル方法

Info

Publication number: WO2009148049A1
Application number: PCT/JP2009/060055
Authority: WO
Inventors: 利晃石橋; 良田中
Original assignee: ヤマハ株式会社
Priority date: 2008-06-02
Filing date: 2009-06-02
Publication date: 2009-12-10
Also published as: EP2293595A1; US20110110526A1; JP2009290825A; CN102047689A

Abstract

　適応型フィルタは、放音用音声信号に基づいて擬似反響音信号を生成する。加算器は収音音声信号低域成分から擬似反響音信号を差分することで低域成分第１補正音声信号を生成する。エコースペクトル推定部は、今回の擬似反響音信号のスペクトルと前回の残響エコーの周波数スペクトルと音響環境に基づく更新係数とから、今回の残響エコーの周波数スペクトルを推定算出する。加算器は、低域成分第１補正音声信号のスペクトルから残響エコーの周波数スペクトルおよび定常ノイズの周波数スペクトルを差分する。

Description

音響エコーキャンセラ及び音響エコーキャンセル方法

　この発明は、設置環境等に基づく残響エコーや定常ノイズを含む音響エコーを、収音音声信号から除去する音響エコーキャンセラ及び音響エコーキャンセル方法に関するものである。

　従来、スピーカとマイクとが１つの筐体に設置される音声会議装置などでは、スピーカとマイクとが近接する等の理由により音響エコーが発生し易い。このため、このような音響エコーを除去するエコーキャンセル装置が各種考案されている。例えば、特許文献１では、適応型フィルタを有するエコーキャンセラと、周波数領域による演算でエコーを抑圧するエコー抑圧部とを備えたエコーキャンセル装置が開示されている。

日本国特許第３４２０７０５号公報

　しかしながら、特許文献１のエコーキャンセル装置では、適応型フィルタを用いたエコーキャンセラと、該エコーキャンセラが推定するそれぞれのタイミングでの擬似エコー信号の周波数スペクトルに基づいた周波数領域によるエコー抑圧処理を行うため、エコーキャンセラで元々対応しきれていない残響エコーや定常的なノイズに関しては効果的に除去することが難しかった。さらに、残響エコーの基本特性は、エコーキャンセル装置が搭載された会議装置の設置状況等により変化する。このため、その場に応じた適正なアルゴリズム（演算式等）を用いなければ、効果的にエコーを除去できない上に、さらに余分なエコーを発生してしまうこととなる。

　したがって、本発明の目的は、適応型フィルタを用いたエコーキャンセラのみでは除去しきれないエコーやノイズも効果的に除去でき、さらに設置環境に応じて適正に残響エコー除去を行うことができる音響エコーキャンセラおよび音響エコーキャンセル方法を実現することにある。

　この発明は、収音音声信号に含まれる目的音声以外の音を除去する音響エコーキャンセラ及び音響エコーキャンセル方法に関するものである。本発明の様態に係る音響エコーキャンセラは、適応型フィルタ、第１差分手段、外乱スペクトル推定手段、および第２差分手段を備える。適応型フィルタは、放音用音声信号に基づいて擬似反響音信号を生成する。第１差分手段は、収音音声信号から擬似反響音信号を差分して第１補正音声信号を生成する。外乱スペクトル推定手段は、第１補正音声信号に含まれる外乱スペクトルを、擬似反響音信号のスペクトルと設置環境に基づく音響環境パラメータとを用いて推定する。第２差分手段は、第１補正音声信号の周波数スペクトルに対して外乱スペクトルを差分して出力する。

　この構成では、適応型フィルタにより擬似反響音信号が生成されるとともに、適応型フィルタでは対応しきれない外乱エコーの周波数スペクトルが推定される。そして、この発明の音響エコーキャンセラは、収音手段による収音音声信号に対して、まず擬似反響音信号を差分することで線形成分の第一段のエコーキャンセルを行い、さらに、第一段のエコーキャンセルが行われた後の信号の周波数スペクトルに対して、外乱エコーの周波数スペクトルを差分することで更なる第二段のエコー除去を行う。この際、外乱エコーの周波数スペクトルは、擬似反響音信号のスペクトルと設置環境に基づく音響環境パラメータとを用いて推定される。このように擬似反響音信号と音響環境パラメータとを組み合わせることで、音響環境に応じて変化し、且つ擬似反響音信号では除去しきれない残響エコー成分が適切に推定される。

　また、この発明の音響エコーキャンセラは、さらに、音響環境パラメータ設定手段を備える。この音響環境パラメータ設定手段は、適応型フィルタを構成するフィルタ係数に基づいて音響環境パラメータを設定する。

　この構成では、適応型フィルタの時間領域における係数がスピーカとマイクとの間のインパルス応答に相当するので、そのエンベロープ特性を検出することで、反響音の長さやレベルが得られ、音響環境パラメータが得られる。すなわち、操作者が手入力することなく、設置位置に応じた音響環境パラメータが自動で設定される。

　また、この発明の音響エコーキャンセラは、さらに状態判定手段を備える。状態判定手段は、放音用音声信号と第１補正音声信号とに基づいて放収音の状態判定を行い、状態判定結果を音響環境パラメータ設定手段へ与える。そして、音響環境パラメータ設定手段は、状態判定結果として無音状態の判定を取得すると、音響環境パラメータの設定処理を行う。

　この構成では、状態判定手段で、無音状態、放音のみ状態、収音のみ状態、放収音あり状態（Ｗトーク状態）の識別が行われる。そして、無音状態の場合に上述のインパルス応答による音響環境パラメータの設定が行われる。これにより、インパルス応答による残響エコーが正確に取得される。

　また、この発明の音響エコーキャンセラは、帯域分割手段と減衰器とを備える。帯域分割手段は、収音音声信号を低域成分と高域成分とに分離し、収音音声信号低域成分を第１差分手段へ出力する。減衰器は、帯域分割手段から出力される収音音声信号高域成分を、状態判定の結果に応じて減衰する。

　この構成では、収音音声信号の低域成分と高域成分とを分離し、低域成分のみで上述の処理を行うことで、エコーキャンセル処理およびエコー除去処理の演算負荷が低減され、高速化も可能となる。この際、人間の発声する音声信号の高域成分のレベルは、低域成分のレベルに比べて小さい。さらに、元々反響してマイクに回り込んで収音される高域成分のレベルは、低域成分のレベルに対して小さい。したがって、高域成分を単なる減衰器による減衰処理のみとしても、音質への影響が少ない。すなわち、上述のような効果的なエコーキャンセルおよびエコー除去が、所定の音質を保ちながら、さらに効率的に行われる。

　また、この発明の音響エコーキャンセラの外乱スペクトル推定手段は、エコースペクトル推定手段とノイズスペクトル推定手段とを備える。エコースペクトル推定手段は、擬似反響音信号の周波数スペクトルと音響環境パラメータとに基づいて残響エコースペクトルを推定する。ノイズスペクトル推定手段は、第１補正音声信号の周波数スペクトルに基づいて定常ノイズスペクトルを推定する。

　この構成では、外乱スペクトルを、反響音（残響音）に依存するエコースペクトルと、反響音以外の暗騒音等の定常的なノイズに依存するノイズスペクトルとに分離して推定する。これにより、外乱スペクトルが要因に応じてより適切に推定されるので、より効果的にエコー除去が行われる。

　本発明の様態に係る収音音声信号に含まれる目的音声以外の音を除去する音響エコーキャンセル方法は、
　放音用音声信号に基づいて擬似反響音信号を生成する工程と、
　前記収音音声信号から前記擬似反響音信号を差分して第１補正音声信号を生成する工程と、
　前記第１補正音声信号に含まれる外乱スペクトルを、前記擬似反響音信号のスペクトルと設置環境に基づく音響環境パラメータとを用いて推定する工程と、
　前記第１補正音声信号の周波数スペクトルに対して前記外乱スペクトルを差分して出力する工程と、
　を含む。

　この発明によれば、適応型フィルタを用いたエコーキャンセラのみでは除去しきれない残響エコーを含む外乱エコーを正確に推定でき、当該外乱エコーを高精度に除去することができる。これにより、適応型フィルタによる第１の補正と、外乱エコー除去による第２の補正とを行い、自装置側の発話者の音声を、よりクリアに出力することができる。

第１の実施形態の音響エコーキャンセラの主要構成を示すブロック図である。図１に示した音響エコーキャンセラの状態判定および学習処理の判断概念を示した図である。更新係数βの設定概念を示す図である。スピーカからマイクまでのインパルス応答信号のエンベロープ特性を示した図である。エコーサプレッサ４０の減衰量を示す図である。他の構成からなる音響エコーキャンセラの主要構成を示すブロック図である。

　本発明の第１の実施形態に係る音響エコーキャンセラについて図を参照して説明する。なお、以下の説明では、時間領域の信号は末端の記号をｔで示し、周波数領域の信号は末端の記号をｎで示す。

　図１は本実施形態の音響エコーキャンセラの主要要素の概略構成を示すブロック図である。

　図１に示すように、音響エコーキャンセラ１は、スピーカＳＰ、マイクＭＩＣ、状態判定部１０、制御部１１、操作部１２、表示部１３、音響環境検出部１４、適応型フィルタ２０、外乱スペクトル推定部３０、エコーサプレッサ４０、帯域分割部５０、本発明の第１差分手段に相当する加算器６０、本発明の第２差分手段に相当する加算器７０、および加算器８０を備える。

　状態判定部１０は、放音用音声信号ＦＥｔ、収音音声信号低域成分ＮＬＥｔ、低域成分第１補正音声信号ＮＬＥ’ｔの信号レベルに基づいて、「放音、収音ともに有り状態（Ｗトーク状態）」、「放音用音声信号の放音のみ有り状態」、「放音が無く収音音声信号が有り状態」、「放音、収音ともに無し状態（無音状態）」のいずれかであることを検出して、検出状態を適応型フィルタ２０、外乱スペクトル推定部３０、エコーサプレッサ４０および音響環境検出部１４へ与える。図２は図１に示した状態判定部１０の状態判定および学習処理の判断概念を示した図である。

　具体的には、状態判定部１０は、放音用音声信号ＦＥｔ、収音音声信号低域成分ＮＬＥｔ、低域成分第１補正音声信号ＮＬＥ’ｔの全てが予め設定した閾値以上のレベルであることを検出すると、放音、話者発話の双方が行われていると判断し、「Ｗトーク」状態と判定する。また、状態判定部１０は、放音用音声信号ＦＥｔが前記閾値以上のレベルであり、低域成分第１補正音声信号ＮＬＥ’ｔが前記閾値未満であれば、「放音用音声信号の放音のみが有る」状態と判定する。また、状態判定部１０は、収音音声信号低域成分ＮＬＥｔおよび低域成分第１補正音声信号ＮＬＥ’ｔが前記閾値以上のレベルであり、放音用音声信号ＦＥｔが前記閾値未満であれば、「放音が無く収音音声信号が有る」状態と判定する。さらに、状態判定部１０は、放音用音声信号ＦＥｔ、収音音声信号低域成分ＮＬＥｔ、低域成分第１補正音声信号ＮＬＥ’ｔの全てが前記閾値未満であることを検出すると、「無音」状態と判定する。

　制御部１１は、当該音響エコーキャンセラ１の電源制御、操作入力制御、表示制御等を含む全体制御を行う。また、制御部１１は、操作部１２または音響環境検出部１４から音響環境パラメータ設定指示を受け付けると、指定された音響環境パラメータに対応した更新係数βを外乱スペクトル推定部３０のエコースペクトル推定部３０１へ与える。図３は、更新係数βの設定パラメータの概念の一例を示す図である。例えば、図３に示すように、制御部１１は、音響環境パラメータとして「反響極小」の情報を得るとエコースペクトル推定部３０１へβ＝１を与える。また、制御部１１は、音響環境パラメータとして「反響中」の情報を得るとエコースペクトル推定部３０１へβ＝０．６を与える。さらに、制御部１１は、音響環境パラメータとして「反響大」の情報を得るとエコースペクトル推定部３０１へβ＝０．２を与える。なお、ここに示す更新係数βの設定値は一例であり、装置仕様や環境により適宜設定するとよく、さらに多段で更新係数βを設定してもよい。

　操作部１２は、発話者を含む使用者とのユーザインタフェースであり、各種の操作子（図示せず）を有する。操作部１２は、使用者から音響環境設定の操作入力を受け付けると、制御部１１へ操作入力された音響環境に対応する音響環境パラメータ設定指示を出力する。

　表示部１３は、液晶ディスプレイ等の表示素子を備え、制御部１１からの表示制御に従い操作メニュー等を表示する。

　使用者は、これら操作部１２と表示部１３とにより、音響環境パラメータを手入力で設定する。すなわち、使用者により操作部１２から音響環境パラメータの設定変更指示を受けると、音響環境パラメータ設定用の画面、例えば、図３に示す「ルームサイズ」と、大きさを示す「大」、「中」、「小」が表示部１３に表示される。使用者は、この表示画面に従って、当該音響エコーキャンセラ１を有する装置の設置される部屋の大きさ等を入力する。操作部１２は、この操作入力結果に基づく音響環境パラメータ設定指示（例えば図３の「反響極小」、「反響中」、「反響大」）を制御部１１へ与える。制御部１１は、上述のように音響環境パラメータに応じた更新係数βをエコースペクトル推定部３０１へ与える。

　音響環境検出部１４は、状態判定部１０から無音状態判定結果を取得すると、擬似反響音信号推定部２０２の各タップ係数に応じたインパルス応答をＩＦＦＴ１４１で逆フーリエ変換してなるインパルス応答信号（図４のＳＲｉｍ）を取得し、エンベロープ特性（図４のＣＨｅｎ）を検出する。図４は、インパルス応答信号のエンベロープ特性を示した図であり、（Ａ）が反響極小の場合のエンベロープ特性（ＣＨｅｎ１）、（Ｂ）が反響中の場合のエンベロープ特性（ＣＨｅｎ２）、（Ｃ）が反響大の場合のエンベロープ特性（ＣＨｅｎ３）を示す。

　音響環境検出部１４は、エンベロープ波形ＣＨｅｎの振幅および減衰特性を検出することで残響エコー時間を取得し、当該残響エコー時間に基づいて音響環境パラメータ設定指示を制御部１１へ与える。例えば、図４（Ａ）の特性からなり図３に示すようにエコー時間が「略無し」であれば音響環境パラメータ「反響極小」を制御部１１へ与える。図４（Ｂ）の特性からなり図３に示すようにエコー時間が「短」であれば音響環境パラメータ「反響中」を制御部１１へ与える。図４（Ｃ）の特性からなり図３に示すようにエコー時間が「長」であれば音響環境パラメータ「反響大」を制御部１１へ与える。このような処理を行うことで、音響環境パラメータを手入力することなく自動で設定することができる。さらに、この処理を、無音状態の検出毎に行うことで、例えば使用者数が変化したり、使用者の位置が変化することによる音響環境変化をも加味して音響環境パラメータを動的に変化させることができる。

　スピーカＳＰは、外部から入力された放音用音声信号ＦＥｔに基づいて放音する。この放音用音声信号（遠端信号）ＦＥｔは、ＦＦＴ９１１へも入力される。

　ＦＦＴ９１１は、高速フーリエ変換回路であり、時間領域の関数である放音用音声信号ＦＥｔを周波数領域の関数である放音用音声信号ＦＥｎへ変換して、適応型フィルタ２０へ与える。

　適応型フィルタ２０は、擬似反響音信号生成部２０１と擬似反響音信号推定部２０２とを備える。擬似反響音信号生成部２０１は、例えば、所定のタップ数からなるＦＩＲフィルタであり、擬似反響音信号推定部２０２から与えられた係数により設定される。擬似反響音信号生成部２０１は、放音用音声信号ＦＥｎに基づいて擬似反響音信号ＦＥ’ｎを生成する。生成された擬似反響音信号ＦＥ’ｎは、ＩＦＦＴ９２１および外乱スペクトル推定部３０のエコースペクトル推定部３０１へ入力される。

　擬似反響音信号推定部２０２は、ＬＭＳ等の適応アルゴリズムを用いて、後述する低域成分第１補正信号ＮＬＥ’ｎの周波数スペクトルＳ（ＮＬＥ’ｎ）から、擬似反響音信号ＦＥ’ｎを推定する。擬似反響音信号推定部２０２は、当該擬似反響音信号ＦＥ’ｎを擬似反響音信号生成部２０１に生成させるための係数（各タップの係数、すなわちフィルタ係数）を推定して、これら係数を擬似反響音信号生成部２０１へ与える。この際、擬似反響音信号推定部２０２は、状態判定部１０から「放音用音声信号の放音のみ有り」状態の情報を取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、擬似反響音信号ＦＥ’ｎの生成、学習は、音響エコーキャンセラ１の動作中に繰り返し行われる。

　ＩＦＦＴ９２１は、逆高速フーリエ変換回路であり、周波数領域の関数である擬似反響音信号ＦＥ’ｎを時間領域の関数である擬似反響音信号ＦＥ’ｔに変換して、加算器６０へ出力する。

　マイクＭＩＣは、当該音響エコーキャンセラ１が設置された周囲から収音して、収音音声信号（近端信号）ＮＥｔを生成する。この収音音声信号ＮＥｔには、スピーカＳＰからの放音があれば、当該放音音声が設置環境に基づいて反響されてなる反響音の成分が含まれる。また、マイクＭＩＣ周囲の話者が発話すれば、収音音声信号ＮＥｔに話者音声の成分が含まれる。さらに、会議室等の設置環境によって当該環境に特有の定常的なノイズが存在すると、収音音声信号ＮＥｔには、この定常ノイズの成分も含まれる。

　帯域分割部５０は、マイクＭＩＣと加算器６０との間に設置されている。帯域分割部５０は、収音音声信号ＮＥｔを、低域成分ＮＬＥｔと高域成分ＮＨＥｔとに分離する。ここで、低域と高域とを区分する閾値周波数は、例えば８ｋＨｚに設定されており、人の音声の主たる成分となる８ｋＨｚ以下の低域成分ＮＬＥｔが、加算器６０へ与えられ、８ｋＨｚよりも高い高域成分ＮＨＥｔは、エコーサプレッサ４０へ与えられる。なお、残響エコーや定常ノイズは、低い周波数帯域が主成分であるので、低域成分ＮＬＥｔに殆ど含まれている。

　加算器６０は、収音音声信号低域成分ＮＬＥｔから擬似反響音信号ＦＥ’ｔを差分することで、低域成分第１補正音声信号ＮＬＥ’ｔを生成して出力する。これにより、第一段の補正として、擬似反響音信号による適応型のエコーキャンセル処理が実行される。

　ＦＦＴ９１２は、高速フーリエ変換回路であり、時間領域の関数である低域成分第１補正音声信号ＮＬＥ’ｔを周波数領域の関数である低域成分第１補正音声信号ＮＬＥ’ｎへ変換して出力する。低域成分第１補正音声信号ＮＬＥ’ｎの周波数スペクトルＳ（ＮＬＥ’ｎ）は、上述の擬似反響音信号推定部２０２および外乱スペクトル推定部３０のノイズスペクトル推定部３０２へ入力される。

　外乱スペクトル推定部３０は、エコースペクトル推定部３０１とノイズスペクトル推定部３０２とを備える。簡単には、エコースペクトル推定部３０１は、擬似反響音信号ＦＥ’ｎのみで除去しきれないエコー成分を推定する演算部であり、ノイズスペクトル推定部３０２は、定常ノイズを推定する演算部である。

　エコースペクトル推定部３０１は、擬似反響音信号ＦＥ’ｎの周波数スペクトルＳ（ＦＥ’ｎ）をサンプリングタイミング毎に順次取得するとともに、一時記憶する。エコースペクトル推定部３０１は、この取得および記憶した擬似反響音信号ＦＥ’ｎの周波数スペクトルＳ（ＦＥ’ｎ）と、前回推定した残響エコースペクトルＳ（ＦＥ”ｎ）と、制御部１１から与えられた更新係数βとに基づいて、今回の残響エコースペクトルＳ（ＦＥ”ｎ）を推定するとともに、この推定した残響エコースペクトルＳ（ＦＥ”ｎ）を記憶する。

　例えば、或るサンプリングタイミングＮでの残響エコースペクトルをＳ（ＦＥ”ｎ（Ｎ））とし、同サンプリングタイミングＮでの擬似反響音信号の周波数スペクトルをＳ（ＦＥ’ｎ（Ｎ））とし、直前のサンプリングタイミングＮ－１での残響エコースペクトルをＳ（ＦＥ”ｎ（Ｎ－１））とする。また、βを更新係数とする。

　そして、この設定において、残響エコースペクトルＳ（ＦＥ”ｎ（Ｎ））を次式で表し、算出する。

　Ｓ（ＦＥ”ｎ（Ｎ））＝（１－β）Ｓ（ＦＥ”ｎ（Ｎ－１））＋βＳ（ＦＥ’ｎ（Ｎ））
　　　　　　　　　　　　　　　　　　　　　　　　－－－演算式（１）
　このように、擬似反響音信号ＦＥ’ｎの周波数スペクトルＳ（ＦＥ’ｎ）に基づいて残響エコースペクトルＳ（ＦＥ”ｎ）を推定することで、適応型フィルタ２０で除去しきれない残響エコーの周波数スペクトルを取得することができる。すなわち、適応型フィルタ２０は、ＦＩＲフィルタ等からなり、タップ数等の仕様により表現可能な擬似反響音信号ＦＥ’ｎが制限される。これにより、時間軸上に復元した場合に擬似反響音信号ＦＥ’ｔと現実の回り込み音とで差が生じる。しかしながら、周波数領域で擬似反響音信号ＦＥ’ｎから残響エコーを推定することで、この時間軸上の制限を取り除くことができ、擬似反響音信号ＦＥ’ｔでは除去しきれない残響エコーを推定することができる。

　さらに、更新係数βを用いることで、当該音響エコーキャンセラ１が備えられた装置の設置環境に応じて推定アルゴリズム（上述の演算式（１））をより最適に調整することができる。具体的には、更新係数βを適宜設定することで、今回のサンプリングタイミングＮでの擬似反響音信号の周波数スペクトルＳ（ＦＥ’ｎ（Ｎ））と、前回のサンプリングタイミングＮ－１での残響エコーの周波数スペクトルＳ（ＦＥ”ｎ（Ｎ－１））との加算時のレベル比が調整される。ここで、更新係数βは、反響が小さいほど値が大きく、反響が大きいほど値が小さくなるように設定されている。これにより、反響が小さい場合には更新係数βが大きくなり、演算式（１）から、今回のサンプリングタイミングＮでの擬似反響音信号の周波数スペクトルＳ（ＦＥ’ｎ（Ｎ））が残響エコースペクトルＳ（ＦＥ”ｎ（Ｎ））の推定に大きな影響を与える。一方で、反響が大きい場合には更新係数βが小さくなり、前回のサンプリングタイミングＮ－１での残響エコーの周波数スペクトルＳ（ＦＥ”ｎ（Ｎ－１））が今回のサンプリングタイミングＮでの残響エコースペクトルＳ（ＦＥ”ｎ（Ｎ））に大きな影響を与える。これは、すなわち、反響が小さい場合には、残響エコーが殆ど残らないので、この極短時間の部分を今回のサンプリングタイミングＮでの擬似反響音信号の周波数スペクトルＳ（ＦＥ’ｎ（Ｎ））のみで推定できることを意味する。一方で、反響が大きい場合には、残響エコーが長時間存在しているので、この過去の部分を前回のサンプリングタイミングＮ－１での残響エコーの周波数スペクトルＳ（ＦＥ”ｎ（Ｎ－１））で推定できることを意味する。このように更新係数βを用いることで、音響環境に応じて残響エコースペクトルＳ（ＦＥ”ｎ（Ｎ））を精度良く推定することができる。

　ノイズスペクトル推定部３０２は、低域成分第１補正音声信号ＮＬＥ’ｎの周波数スペクトルＳ（ＮＬＥ’ｎ）を順次取得するとともに、一時記憶する。ノイズスペクトル推定部３０２は、この取得および記憶した複数回の低域成分第１補正音声信号ＮＬＥ’ｎの周波数スペクトルＳ（ＮＬＥ’ｎ）に基づいて、ノイズスペクトルＳ（ＮＬＥ”ｎ）を推定する。

　例えば、或るサンプリングタイミングＮでのノイズスペクトルをＳ（ＮＬＥ”ｎ（Ｎ））とし、同サンプリングタイミングＮでの低域成分第１補正音声信号の周波数スペクトルをＳ（ＮＬＥ’ｎ（Ｎ））とし、直前のサンプリングタイミングＮ－１での低域成分第１補正音声信号の周波数スペクトルをＳ（ＮＬＥ’ｎ（Ｎ－１））とする。また、α，γを定数とする。

　そして、この設定において、ノイズスペクトルＳ（ＮＬＥ”ｎ（Ｎ））を次式で表し、算出する。

　Ｓ（ＮＬＥ”ｎ（Ｎ））＝αＳ（ＮＬＥ’ｎ（Ｎ－１））＋γＳ（ＮＬＥ’ｎ（Ｎ））
　このように、エコーキャンセル後の信号である低域成分第１補正音声信号ＮＬＥ’ｎの周波数スペクトルに基づいてノイズスペクトルＳ（ＮＬＥ”ｎ）を推定することで、エコーとは別の暗騒音等の定常ノイズを推定することができる。この際、ノイズスペクトル推定部３０２は、状態判定部１０から「無音」状態の情報を取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、学習も、音響エコーキャンセラ１の動作中に繰り返し行われる。

　加算器７０は、周波数領域で演算を行う加算器であり、低域成分第１補正音声信号ＮＬＥ’ｎの周波数スペクトルＳ（ＮＬＥ’ｎ）から、残響エコースペクトルＳ（ＦＥ”ｎ）およびノイズスペクトルＳ（ＮＬＥ”ｎ）を減算することで、低域成分第２補正音声信号Ｓ（ＮＬＯｎ）を生成して出力する。なお、この処理は各スペクトルが同期するようにして行われる。すなわち、ここで言う同期とは、同じサンプリングタイミングに形成された各スペクトルを用いて演算することであり、例えば、サンプリングタイミングＮの場合、Ｓ（ＮＬＯｎ（Ｎ））＝Ｓ（ＮＬＥ’ｎ（Ｎ））－Ｓ（ＦＥ”ｎ（Ｎ））－Ｓ（ＮＬＥ”ｎ（Ｎ））の演算処理を行うことを意味する。これにより、第二段の補正として、適応型のエコーキャンセルとは別方式で、残響エコーや定常ノイズの除去が行われる。

　ＩＦＦＴ９２２は、逆高速フーリエ変換回路であり、周波数領域の関数である低域成分第２補正音声信号ＮＬＯｎを時間領域の関数である低域成分第２補正音声信号ＮＬＯｔへ変換して、加算器８０へ与える。

　エコーサプレッサ４０は、減衰器４０１とディレイ回路４０２とからなる。減衰器４０１は、状態判定部１０からの状態判定結果に基づいて、収音音声信号ＮＥｔの高域成分ＮＨＥｔの減衰量を調整し、減衰処理済高域成分ＮＨＥ’ｔを出力する。

　図５はエコーサプレッサ４０の減衰器４０１の減衰量を示す図である。

　減衰器４０１は、「放音用音声信号の放音のみ有り」状態または「無音」状態の判定結果を取得すると、減衰量を無限大、すなわち、高域成分ＮＨＥｔを遮断する（ＮＨＥ’ｔ＝０）。これは、放音用音声信号のみの場合や無音状態の場合、話者音声が含まれていないので、高域成分を遮断することで、高域成分として存在するエコーや定常ノイズをより確実に除去することができるからである。

　また、減衰器４０１は、「放音が無く収音音声信号が有り」状態の情報を取得すると、減衰量を「０」、すなわち、高域成分ＮＨＥｔを減衰することなく通過させる（ＮＨＥ’ｔ＝ＮＨＥｔ）。このように収音音声信号のみの場合、高域成分が話者音声に支配されるので、この高域成分を減衰させないことにより、話者音声をより正確に出力することができるからである。

　さらに、減衰器４０１は、「Ｗトーク」状態の情報を取得すると、減衰量を予め設定した所定値に設定する。これは、Ｗトーク時には、除去したい放音用音声信号ＦＥｔの成分と、話者音声成分とが混在しているために、或程度の減衰量に設定する。これにより、話者音声を若干犠牲にしながらも、放音用音声信号ＦＥｔによるエコー成分を減衰させることができる。

　減衰器４０１から出力された減衰処理済高域成分ＮＨＥ’ｔは、ディレイ回路４０２へ入力される。ディレイ回路４０２は、処理演算が容易で高速な高域成分ＮＨＥｔ（ＮＨＥ’ｔ）と、上述のエコーキャンセルおよびエコー除去処理を行った低域成分第２補正音声信号ＮＬＯｔとを時間同期して加算するためのディレイ処理を行う。このディレイ処理により、遅延減衰処理済高域成分ＮＨＥ”ｔが生成され、加算器８０へ与えられる。
　加算器８０は、低域成分第２補正音声信号ＮＬＯｔとこれに時間同期する遅延減衰処理済高域成分ＮＨＥ”ｔとを加算して、出力音声信号ＮＯ’ｔを生成し、外部へ出力する。

　以上のような構成および処理を行うことで、適応型フィルタのみで行われるエコーキャンセル処理では除去しきれない残響エコーや定常ノイズを精度良く効果的に除去することができる。この際、部屋等の設置環境の残響エコー等の音響環境を検出して、当該音響環境に応じた推定アルゴリズムを用いて残響エコースペクトルを得ることで、より高精度に残響エコーを除去することができる。

　さらに、低域成分のみをエコーキャンセルおよびエコー除去処理して、高域成分を減衰処理することで処理演算量を低減することができる。この際、高域成分に上述のエコーキャンセルおよびエコー除去処理を行わなくても、人の音声の主成分が低域成分側にあるとともに、高域成分は低域成分と比較して反射回り込み量が少ないので、音質の劣化を抑制することができる。さらに、上述のように放収音状態毎に減衰量を変化させることで、より確実にエコーを除去し、且つ話者音声の音質の劣化を抑制することができる。

　なお、上述の説明では、適応型フィルタを周波数領域演算で実現する例を示したが、時間領域による適応型フィルタを用いてもよい。

　また、上述の説明では、状態判定部１０において信号レベルのみで状態判定を行う例を示したが、各信号の相関に基づいて状態判定を行ってもよい。

　また、上述の説明では、スピーカとマイクとを備える音響エコーキャンセラを例に示したが、スピーカ等の放音素子への出力端子と、マイク等の収音素子からの入力端子とを備え、放音素子や収音素子を別体にしたものであってもよい。

　また、上述の説明では、状態判定部１０から各部へ状態判定結果を与える例を示したが、状態判定部１０が各部の学習タイミングの条件を記憶しておき、状態判定部１０から各部へ学習タイミングを与えてもよい。

　また、上述の説明では、収音音声信号を低域成分と高域成分とに分離する例を示したが、図６に示すように、これらを分離せずにエコーキャンセル処理およびエコー除去処理を行うようにしても、上述の作用効果を得ることができる。

　また、上述の説明では、外乱スペクトル推定部に、エコースペクトル推定部とノイズスペクトル推定部とを備えた例を示したが、エコースペクトル推定部のみであっても、残響エコーを高精度に除去することができる。

１－音響エコーキャンセラ、１０－状態判定部、１１－制御部、１２－操作部、１３－表示部、１４－音響環境検出部、２０－適応型フィルタ、２０１－擬似反響音信号生成部、２０２－擬似反響音信号推定部、３０－外乱スペクトル推定部、３０１－エコースペクトル推定部、３０２－ノイズスペクトル推定部、４０－エコーサプレッサ、４０１－減衰器、４０２－ディレイ回路、５０－帯域分割部、６０，７０，８０－加算器、９００－周波数領域演算部、９１１，９１２－ＦＦＴ演算部、９２１，９２２，１４１－ＩＦＦＴ演算部、ＳＰ－スピーカ、ＭＩＣ－マイク

Claims

　収音音声信号に含まれる目的音声以外の音を除去する音響エコーキャンセラであって、
　放音用音声信号に基づいて擬似反響音信号を生成する適応型フィルタと、
　前記収音音声信号から前記擬似反響音信号を差分して第１補正音声信号を生成する第１差分手段と、
　前記第１補正音声信号に含まれる外乱スペクトルを、前記擬似反響音信号のスペクトルと設置環境に基づく音響環境パラメータとを用いて推定する外乱スペクトル推定手段と、
　前記第１補正音声信号の周波数スペクトルに対して前記外乱スペクトルを差分して出力する第２差分手段と、
　を備えた音響エコーキャンセラ。
　前記適応型フィルタのフィルタ係数に基づいて前記音響環境パラメータを設定する音響環境パラメータ設定手段を備えた、請求項１に記載の音響エコーキャンセラ。
　前記放音用音声信号と前記第１補正音声信号とに基づいて放収音の状態判定を行い、前記音響環境パラメータ設定手段に対して状態判定結果を与える状態判定手段を備え、
　前記音響環境パラメータ設定手段は、前記状態判定手段から無音状態の判定を取得すると、前記音響環境パラメータの設定処理を行う、請求項２に記載の音響エコーキャンセラ。
　前記収音音声信号を低域成分と高域成分とに分離し、収音音声信号低域成分を前記第１差分手段へ出力する帯域分割手段と、
　該帯域分割手段から出力される収音音声信号高域成分を、前記状態判定の結果に応じて減衰する減衰器と、を備えた請求項３に記載の音響エコーキャンセラ。
　前記外乱スペクトル推定手段は、
　前記擬似反響音信号の周波数スペクトルと前記音響環境パラメータとに基づいて残響エコースペクトルを推定するエコースペクトル推定手段と、
　前記第１補正音声信号の周波数スペクトルに基づいて定常ノイズスペクトルを推定するノイズスペクトル推定手段と、を備える、請求項１～請求項４に記載の音響エコーキャンセラ。
　収音音声信号に含まれる目的音声以外の音を除去する音響エコーキャンセル方法は、
　放音用音声信号に基づいて擬似反響音信号を生成する工程と、
　前記収音音声信号から前記擬似反響音信号を差分して第１補正音声信号を生成する工程と、
　前記第１補正音声信号に含まれる外乱スペクトルを、前記擬似反響音信号のスペクトルと設置環境に基づく音響環境パラメータとを用いて推定する工程と、
　前記第１補正音声信号の周波数スペクトルに対して前記外乱スペクトルを差分して出力する工程と、
　を含む。