JP6644959B1

JP6644959B1 - ビームフォーミングを使用するオーディオキャプチャ

Info

Publication number: JP6644959B1
Application number: JP2019535885A
Authority: JP
Inventors: コルネリスピーターヤンス; ブライアンブランドアントニウスヨハネスブレーメンダール
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-01-03
Filing date: 2017-12-20
Publication date: 2020-02-12
Anticipated expiration: 2037-12-20
Also published as: RU2019124543A; EP3566463B1; WO2018127412A1; CN110249637A; EP3566463A1; BR112019013666A2; US20190349678A1; JP2020515106A; RU2759715C2; CN110249637B; RU2019124543A3; US10638224B2

Abstract

ビームフォーミングオーディオキャプチャ装置が、マイクロフォンアレイ３０１を備え、マイクロフォンアレイ３０１は、第１のビームフォーマ３０３及び第２のビームフォーマ３０５に結合される。ビームフォーマ３０３、３０５は、各々が適応インパルス応答を有する複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマである。差分プロセッサ３０９が、２つのビームフォーマ３０３、３０５の適応インパルス応答の比較に応答して第１のビームフォーマ３０３のビームと第２のビームフォーマ３０５のビームとの間の差分測度を決定する。差分測度は、たとえば、ビームフォーマ３０３、３０５の出力信号を合成するために使用される。たとえば拡散雑音に対する感度が低い差分測度の改善が与えられる。

Description

本発明は、ビームフォーミングを使用するオーディオキャプチャに関し、特に、限定はしないが、ビームフォーミングを使用するスピーチキャプチャに関する。

オーディオ、特にスピーチをキャプチャすることは、ここ数十年間でますます重要になった。実際、スピーチをキャプチャすることは、電気通信、遠隔会議、ゲーミング、オーディオユーザインターフェースなどを含む様々な適用例にとって、ますます重要になった。しかしながら、多くのシナリオ及び適用例における問題は、所望のスピーチソースが、一般に、環境における唯一のオーディオソースでないことである。むしろ、一般的なオーディオ環境において、マイクロフォンによってキャプチャされている多くの他のオーディオ／雑音ソースがある。多くのスピーチキャプチャ適用例が直面する重大な問題のうちの１つは、雑音の多い環境において、どのように最も良くスピーチを抽出するかの問題である。この問題に対処するために、雑音抑圧のためのいくつかの異なる手法が提案された。

実際、たとえばハンズフリースピーチ通信システムの研究は、数十年の間に多くの関心を受けた論題である。利用可能な最初の商業システムは、低い背景雑音及び低い残響時間をもつ環境におけるプロフェッショナル（ビデオ）会議システムに焦点を当てた。たとえば所望のスピーカーなど、所望のオーディオソースを識別し、抽出するための特に有利な手法は、マイクロフォンアレイからの信号に基づくビームフォーミングの使用であることがわかった。初めに、マイクロフォンアレイはしばしば集束固定ビームとともに使用されたが、後に、適応ビームの使用がより普及した。

１９９０年代後半には、モバイルのためのハンズフリーシステムが導入され始めた。これらは、残響室を含む多くの異なる環境において、及び（より）高い背景雑音レベルにおいて使用されることが意図された。そのようなオーディオ環境は、大幅により困難な課題を与え、特に、形成されたビームの適応を複雑にするか、又は劣化させる。

初めに、そのような環境のためのオーディオキャプチャの研究は、エコーキャンセルに、及び後に雑音抑圧に焦点を当てた。ビームフォーミングに基づくオーディオキャプチャシステムの一例が図１に示されている。本例では、複数のマイクロフォンのアレイ１０１がビームフォーマ１０３に結合され、ビームフォーマ１０３は、オーディオソース信号ｚ（ｎ）と１つ又は複数の雑音基準信号ｘ（ｎ）とを生成する。

マイクロフォンアレイ１０１は、いくつかの実施形態では２つのマイクロフォンのみを備えるが、一般に、より大きい数を備える。

ビームフォーマ１０３は、詳細には、好適な適応アルゴリズムを使用して１つのビームがスピーチソースのほうへ向けられ得る適応ビームフォーマである。

たとえば、米国特許第７１４６０１２号及び米国特許第７６０２９２６号は、スピーチに焦点を当てるが、スピーチを（ほとんど）含んでいない基準信号をも与える適応ビームフォーマの例を開示する。

ビームフォーマは、受信された信号をフォワードマッチングフィルタにおいてフィルタ処理し、フィルタ処理された出力を加算することによって、マイクロフォン信号の所望の部分をコヒーレントに加算することによって、拡張出力信号ｚ（ｎ）を作成する。また、出力信号は、（時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける）フォワードフィルタへの共役フィルタ応答を有するバックワード適応フィルタにおいてフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、オーディオビームが支配的な信号のほうへステアリングされることになる。生成された誤差信号ｘ（ｎ）は、拡張出力信号ｚ（ｎ）に対して追加の雑音低減を実行するのに特に適した雑音基準信号と見なされ得る。

１次信号ｚ（ｎ）と基準信号ｘ（ｎ）とは、一般に、両方とも雑音によって汚染される。２つの信号における雑音がコヒーレントである場合（たとえば、干渉するポイント雑音ソースがあるとき）、コヒーレント雑音を低減するために適応フィルタ１０５が使用され得る。

この目的で、雑音基準信号ｘ（ｎ）は適応フィルタ１０５の入力に結合され、その出力が、オーディオソース信号ｚ（ｎ）から減算されて、補償信号ｒ（ｎ）を生成する。適応フィルタ１０５は、一般に所望のオーディオソースがアクティブでないとき（たとえば、スピーチがないとき）、補償信号ｒ（ｎ）の電力を最小化するように適応され、これにより、コヒーレント雑音の抑圧が生じる。

補償信号はポストプロセッサ１０７に供給され、ポストプロセッサ１０７は、雑音基準信号ｘ（ｎ）に基づいて補償信号ｒ（ｎ）に対して雑音低減を実行する。詳細には、ポストプロセッサ１０７は、短時間フーリエ変換を使用して補償信号ｒ（ｎ）と雑音基準信号ｘ（ｎ）とを周波数ドメインに変換する。ポストプロセッサ１０７は、次いで、各周波数ビンについて、Ｘ（ω）の振幅スペクトルのスケーリングされたバージョンを減算することによってＲ（ω）の振幅を変更する。得られた複素スペクトルは時間ドメインに変換されて、雑音が抑圧された出力信号ｑ（ｎ）をもたらす。スペクトル減算のこの技法は、最初に、Ｓ．Ｆ．Ｂｏｌｌ、「ＳｕｐｐｒｅｓｓｉｏｎｏｆＡｃｏｕｓｔｉｃＮｏｉｓｅｉｎＳｐｅｅｃｈｕｓｉｎｇＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ」、ＩＥＥＥＴｒａｎｓ．Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２７、１１３〜１２０頁、１９７９年４月に記載された。

多くのオーディオキャプチャシステムでは、複数のビームフォーマが使用され、これらは、独立してオーディオソースに適応することが可能である。たとえば、オーディオ環境における２つの異なるスピーカーを追跡するために、オーディオキャプチャ装置は、２つの独立して適応できるビームフォーマを含む。

複数の独立して適応可能なビームフォーマを使用するシステムでは、異なるビームフォーマのビームが互いにどのくらい近いかを決定することが、しばしば有利である。たとえば、２つの別個のスピーカーを追跡するために２つのビームフォーマを使用するとき、それらが両方とも同じスピーカーを追跡するように適応しないことを保証することが、重要である。これは、たとえば、ビーム間の差分を示す差分測度を決定することによって達成される。差分がしきい値を下回ることを差分測度が示す場合、それは、ビームフォーマのうちの１つを再初期化して、異なるオーディオソースのほうへ向ける。

他のシステムでは、オーディオキャプチャ装置は、改善されたオーディオキャプチャを与えるために相互作用ビームフォーマを使用し、そのようなシステムでは、異なるビームが互いにどのくらい近いかを決定することが、有利である。

たとえば、図１のシステムは、多くのシナリオにおいて極めて効率的な動作及び有利な性能を与えるが、それは、すべてのシナリオにおいて最適であるとは限らない。実際、図１の例を含む多くの従来のシステムが、所望のオーディオソース／スピーカーがマイクロフォンアレイの残響半径内にあるとき、すなわち、所望のオーディオソースの直接エネルギーが所望のオーディオソースの反射のエネルギーよりも（好ましくは著しく）強い適用例について、極めて良好な性能を与えるが、そうでない場合は、最適でない結果を与える傾向がある。一般的な環境において、一般にマイクロフォンアレイの１〜１．５メートル内にスピーカーがあるべきであることがわかっている。

しかしながら、ユーザがマイクロフォンアレイからより離れた距離にある場合のオーディオベースハンズフリー解決策、適用例、及びシステムに対する強い要望がある。これは、たとえば、多くの通信システム及び適用例と、多くのボイス制御システム及び適用例の両方について望まれる。そのような状況のための残響除去及び雑音抑圧を含むスピーチ強調を与えるシステムは、スーパーハンズフリーシステムと呼ばれる分野にある。

より詳細には、追加の拡散雑音と残響半径外の所望のスピーカーとを扱うとき、以下の問題が生じる。
・ビームフォーマは、所望のスピーチのエコーと拡散背景雑音との区別の問題をしばしば有し、これがスピーチひずみを生じる。
・適応ビームフォーマは、所望のスピーカーのほうへ遅く収束する。適応ビームがまだ収束していない時間中に、基準信号においてスピーチ漏れがあり、この基準信号が非定常雑音抑圧及びキャンセルのために使用される場合、スピーチひずみを生じる。交互に話す、多くの所望のソースがあるとき、問題は増加する。

（背景雑音のため）遅く収束する適応フィルタを扱うための解決策は、図２に示されているように異なる方向に照準を定められているいくつかの固定ビームでこれを補うことである。ただし、この手法は、特に、所望のオーディオソースが残響半径内に存在するシナリオのために開発される。それは、残響半径外のオーディオソースについてあまり効率的でなく、そのような場合、特に音響拡散背景雑音もある場合、しばしば、非ロバストな解決策につながる。

特に、そのようなシステムを制御し、動作させるために、異なるビーム／ビームフォーマが互いにどのくらい近いかを測定することが可能であることが、一般に重要である。たとえば、出力オーディオを生成するためにどのビームを使用すべきかを選択するために集束ビームフォーマと非集束ビームフォーマとを互いに比較することが、重要である。

しかしながら、確実な差分測度を生成することは、特に所望のオーディオソースが残響半径外にあるときなど、多くのシナリオにおいて極めて困難である。一般的な差分測度は、たとえば信号レベルを比較することによって、又は出力を相関させることによってなど、ビームフォーマによって生成された信号出力を比較することに基づく傾向がある。別の手法は、信号の到来方向（ＤｏＡ）を決定し、これらを互いに比較することである。

ただし、そのような差分測度は多くの実施形態において許容できる性能を与えるが、それらは、多くの実際的シナリオにおいて準最適である傾向がある。特に、それらは、高レベルの雑音及び反射をもつシナリオにおいて、及び、特に所望のオーディオソースが残響半径外にある残響環境において、最適でない傾向がある。

これは、以下のように理解され得る。すなわち、所望のオーディオソースが残響半径外にある場合、直接音場のエネルギーは、反射から生み出された拡散音場のエネルギーと比較して小さい。拡散背景雑音もある場合、直接音場対拡散音場比はさらに劣化する。異なるビームのエネルギーはほぼ同じであり、これは、ビームの類似性の好適な指示を与えない。同じ理由で、ＤｏＡを測定することに基づくシステムはロバストでない。すなわち、直接場の低いエネルギーにより、信号を相互相関させることは、鋭い明確なピークを与えず、大きい誤差を生じる。同じ理由で、信号の直接相関は明瞭な指示を与える可能性が低い。検出器をよりロバストにすることは、しばしば、所望のオーディオソースの検出の欠落を生じ、非集束ビームにつながる。一般的な結果は、雑音基準におけるスピーチ漏れであり、雑音基準信号に基づいて１次信号における雑音を低減することが試みられた場合、深刻なひずみが生じる。

改善されたオーディオキャプチャ手法が有利であり、特に、異なるビーム間の改善された差分測度を与える手法が有利である。詳細には、複雑さの低減、フレキシビリティの増加、実施の容易さ、コストの低減、オーディオキャプチャの改善、残響半径外のオーディオをキャプチャすることに対する適合性の改善、雑音感度の低減、スピーチキャプチャの改善、差分測度の精度の改善、制御の改善、及び／又は性能の改善を可能にする手法が有利である。

本発明は、好ましくは、単独で又は任意の組合せで上述の欠点のうちの１つ又は複数を軽減するか、緩和するか、又はなくそうとするものである。

本発明の一態様によれば、マイクロフォンアレイと、マイクロフォンアレイに結合され、第１のビームフォーミングされたオーディオ出力を生成するように構成された第１のビームフォーマであって、各々が第１の適応インパルス応答を有する第１の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマである、第１のビームフォーマと、マイクロフォンアレイに結合され、第２のビームフォーミングされたオーディオ出力を生成するように構成された第２のビームフォーマであって、各々が第２の適応インパルス応答を有する第２の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマである、第２のビームフォーマと、第１の適応インパルス応答と第２の適応インパルス応答との比較に応答して、第１のビームフォーマのビームと第２のビームフォーマのビームとの間の差分測度を決定するための差分プロセッサとを備えるビームフォーミングオーディオキャプチャ装置が提供される。

本発明は、多くのシナリオ及び適用例において、２つのビームフォーマによって形成されたビーム間の差分／類似性の指示の改善を与える。特に、差分測度の改善は、ビームフォーマが適応するオーディオソースからの直接経路が支配的でないシナリオにおいて、しばしば与えられる。高度の拡散雑音、残響信号及び／又は後の反射を含むシナリオのための性能の改善が、しばしば達成され得る。

オーディオキャプチャ装置は、多くの実施形態では、第１のビームフォーミングされたオーディオ出力と、第２のビームフォーミングされたオーディオ出力と、差分測度とに応答してオーディオ出力信号を生成するための出力ユニットを備える。たとえば、出力ユニットは、差分測度に応答して第１のビームフォーミングされたオーディオ出力と第２のビームフォーミングされたオーディオ出力とを合成するための合成器を備える。ただし、差分測度は、たとえば、異なるビーム間で選択するために、ビームフォーマの適応を制御するためになど、他の適用例における多くの他の目的のために使用されることが理解されよう。

本手法は、（ビームフォーミングされたオーディオ出力なのかマイクロフォン信号なのかにかかわらず）オーディオ信号の特性の感度を低減し、たとえば雑音に対する感度が低い。多くのシナリオでは、差分測度は、より高速に、たとえば、いくつかのシナリオでは瞬時に生成される。特に、差分測度は、平均化することなしに現在のフィルタパラメータに基づいて生成される。

フィルタ合成ビームフォーマは、各マイクロフォンのためのビームフォームフィルタと、ビームフォーミングされたオーディオ出力信号を生成するためにビームフォームフィルタの出力を合成するための合成器とを備える。合成器は、詳細には、総和ユニットであり、フィルタ合成ビームフォーマは、フィルタ和ビームフォーマである。

ビームフォーマは、適応ビームフォーマであり、適応インパルス応答を適応させる（それにより、マイクロフォンアレイの有効な指向性を適応させる）ための適応機能を備える。

差分測度は、類似性測度と等価である。

フィルタ合成ビームフォーマは、詳細には、複数の係数を有する有限応答フィルタ（ＦＩＲ）の形態のビームフォームフィルタを備える。

本発明のオプションの特徴によれば、差分プロセッサは、マイクロフォンアレイの各マイクロフォンについて、マイクロフォンのための第１の適応インパルス応答と第２の適応インパルス応答との間の相関を決定し、マイクロフォンアレイの各マイクロフォンについての相関の合成に応答して差分測度を決定するように構成される。

これは、過度の複雑さを必要とすることなしに、特に有利な差分測度を与える。

本発明のオプションの特徴によれば、差分プロセッサは、第１の適応インパルス応答の周波数ドメイン表現と第２の適応インパルス応答の周波数ドメイン表現とを決定し、第１の適応インパルス応答の周波数ドメイン表現と第２の適応インパルス応答の周波数ドメイン表現とに応答して差分測度を決定するように構成される。

これは、さらに、性能を改善し、及び／又は動作を容易にする。それは、多くの実施形態では、差分測度の決定を容易にする。いくつかの実施形態では、適応インパルス応答は周波数ドメインにおいて与えられ、周波数ドメイン表現は容易に利用可能である。しかしながら、たいていの実施形態では、適応インパルス応答は、たとえばＦＩＲフィルタの係数によって、時間ドメインにおいて与えられ、差分プロセッサは、周波数表現を生成するために、たとえば離散フーリエ変換（ＤＦＴ）を時間ドメインインパルス応答に適用するように構成される。

本発明のオプションの特徴によれば、差分プロセッサは、周波数ドメイン表現の周波数についての周波数差分測度を決定し、周波数ドメイン表現の周波数についての周波数差分測度に応答して差分測度を決定するように構成され、差分プロセッサは、第１の周波数ドメイン係数と第２の周波数ドメイン係数とに応答して第１の周波数及びマイクロフォンアレイの第１のマイクロフォンについての周波数差分測度を決定するように構成され、第１の周波数ドメイン係数は、第１のマイクロフォンのための第１の適応インパルス応答についての第１の周波数についての周波数ドメイン係数であり、第２の周波数ドメイン係数は、第１のマイクロフォンのための第２の適応インパルス応答についての第１の周波数についての周波数ドメイン係数であり、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての周波数差分測度の合成に応答して第１の周波数についての周波数差分測度を決定するようにさらに構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。

周波数ω及びマイクロフォンｍについての第１の周波数成分及び第２の周波数成分を、それぞれＦ_１ｍ（ｅ^ｊω）及びＦ_２ｍ（ｅ^ｊω）として示すと、周波数ω及びマイクロフォンｍについての周波数差分測度は、次のように決定される。
Ｓ_ω，ｍ＝ｆ_１（Ｆ_１ｍ（ｅ^ｊω），Ｆ_２ｍ（ｅ^ｊω））

マイクロフォンアレイの複数のマイクロフォンについての周波数ωについての（合成された）周波数差分測度は、異なるマイクロフォンについての値を合成することによって決定される。たとえば、Ｍ個のマイクロフォンにわたる単純な総和の場合、以下の通りである。

次いで、全体的差分測度が、個々の周波数差分測度を合成することによって決定される。たとえば、周波数依存合成が適用される。

ここで、ｗ（ｅ^ｊω）は、好適な周波数重み付け関数である。

本発明のオプションの特徴によれば、差分プロセッサは、第１の周波数ドメイン係数と第２の周波数ドメイン係数の共役との乗算に応答して第１の周波数及び第１のマイクロフォンについての周波数差分測度を決定するように構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。いくつかの実施形態では、周波数ω及びマイクロフォンｍについての周波数差分測度は、次のように決定される。

本発明のオプションの特徴によれば、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数についての周波数差分測度の合成の実数部に応答して第１の周波数についての周波数差分測度を決定するように構成される。

本発明のオプションの特徴によれば、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数についての周波数差分測度の合成のノルムに応答して第１の周波数についての周波数差分測度を決定するように構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。ノルムは、詳細にはＬ１ノルムである。

本発明のオプションの特徴によれば、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数ドメイン係数の和についてのＬ２ノルムの関数と第２の周波数ドメイン係数の和についてのＬ２ノルムの関数との和に対する、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数についての周波数差分測度の合成の実数部及びノルムのうちの少なくとも一方に応答して第１の周波数についての周波数差分測度を決定するように構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。単調関数は、詳細には２乗関数である。

本発明のオプションの特徴によれば、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数ドメイン係数の和についてのＬ２ノルムの関数と第２の周波数ドメイン係数の和についてのＬ２ノルムの関数との積に対する、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数についての周波数差分測度の合成のノルムに応答して第１の周波数についての周波数差分測度を決定するように構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。単調関数は、詳細には絶対値関数である。

本発明のオプションの特徴によれば、差分プロセッサは、周波数差分測度の周波数選択性重み付き和として差分測度を決定するように構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。特に、それは、スピーチ周波数の強調など、特に知覚的に有意な周波数の強調を与える。

本発明のオプションの特徴によれば、第１の複数のビームフォームフィルタと第２の複数のビームフォームフィルタとは、複数の係数を有する有限インパルス応答フィルタである。

これは、多くの実施形態において効率的な動作及び実施を与える。

本発明のオプションの特徴によれば、ビームフォーミングオーディオキャプチャ装置は、マイクロフォンアレイに結合され、各々が制約付きのビームフォーミングされたオーディオ出力を生成するように構成された、複数の制約付きビームフォーマであって、複数の制約付きビームフォーマの各制約付きビームフォーマが、複数の制約付きビームフォーマからの他の制約付きビームフォーマの領域とは異なる領域においてビームを形成するように制約され、第２のビームフォーマが複数の制約付きビームフォーマのうちの制約付きビームフォーマである、複数の制約付きビームフォーマと、第１のビームフォーマのビームフォームパラメータを適応させるための第１の適応器と、複数の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるための第２の適応器とをさらに備え、第２の適応器は、類似性基準を満たす差分測度が決定された、複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。

本発明は、多くの実施形態においてオーディオキャプチャの改善を与える。特に、しばしば、残響環境における性能の改善、及び／又はより離れた距離にあるオーディオソースのための性能の改善が達成される。本手法は、特に、多くの難しいオーディオ環境におけるスピーチキャプチャの改善を与える。多くの実施形態では、本手法は、確実で正確なビームフォーミングを与えると同時に、新しい所望のオーディオソースへの高速適応を与える。本手法は、たとえば、雑音、残響、及び反射に対する感度が低減されたオーディオキャプチャ装置を与える。特に、しばしば、残響半径外のオーディオソースのキャプチャの改善が達成され得る。

いくつかの実施形態では、第１のビームフォーミングされたオーディオ出力及び／又は制約付きのビームフォーミングされたオーディオ出力に応答して、オーディオキャプチャ装置からの出力オーディオ信号が生成される。いくつかの実施形態では、出力オーディオ信号は、制約付きのビームフォーミングされたオーディオ出力の合成として生成され、詳細には、たとえば単一の制約付きのビームフォーミングされたオーディオ出力を選択する選択合成が使用される。

差分測度は、第１のビームフォーマの形成されたビームと、差分測度が生成された制約付きビームフォーマの形成されたビームとの間の差分を反映し、その差分は、たとえば、ビームの方向間の差分として測定される。いくつかの実施形態では、差分測度は、第１のビームフォーマのビームフォームフィルタと制約付きビームフォーマのビームフォームフィルタとの間の差分を示す。差分測度は、たとえば、第１のビームフォーマ及び制約付きビームフォーマのビームフォームフィルタの係数のベクトル間の距離として決定された測度など、距離測度である。

類似性測度は、２つの特徴間の類似性に関係する情報を与えることによる類似性測度が、本質的に、これらの間の差分に関係する情報をも与えるという点で差分測度と等価であり、その逆も同様であることが理解されよう。

類似性基準は、たとえば、差分が所与の測度を下回っていることを差分測度が示すという要件を含み、たとえば、増加する差分について増加する値を有する差分測度がしきい値を下回ることが必要とされる。

領域は、複数の経路のためのビームフォーミングに依存し、一般に、到来角度方向領域に限定されない。たとえば、領域は、マイクロフォンアレイまでの距離に基づいて差別化される。異なる領域においてビームを形成するための制約付きビームフォーマの制約は、フィルタパラメータの制約付き範囲（たとえばフィルタ係数のための範囲）が異なる制約付きビームフォーマについて異なるように、制約付きビームフォーマのビームフォームフィルタのフィルタパラメータを制約することによるものである。

ビームフォーマの適応は、特にフィルタ係数を適応させることによるなど、ビームフォーマのビームフォームフィルタのフィルタパラメータを適応させることによるものである。適応は、所与の適応パラメータを最適化（最大化又は最小化）しようとするもの、たとえば、オーディオソースが検出されるときに出力信号レベルを最大化すること、又は、雑音のみが検出されるときに出力信号レベルを最小化することなどである。適応は、測定されたパラメータを最適化するためにビームフォームフィルタを変更しようとする。

第２の適応器は、差分測度が類似性基準を満たす場合のみ、第２のビームフォーマの制約付きビームフォームパラメータを適応させるように構成される。

本発明のオプションの特徴によれば、ビームフォーミングオーディオキャプチャ装置は、第２のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するためのオーディオソース検出器をさらに備え、第２の適応器は、制約付きのビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在が検出された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。

これは、性能をさらに改善し、たとえばよりロバストな性能を与え、これにより、オーディオキャプチャが改善される。異なる実施形態においてポイントオーディオソースを検出するために異なる基準が使用される。ポイントオーディオソースは、詳細には、マイクロフォンアレイのマイクロフォンのための相関するオーディオソースである。たとえば、ポイントオーディオソースは、（たとえば制約付きビームフォーマのビームフォームフィルタによるフィルタ処理の後の）マイクロフォンアレイからのマイクロフォン信号間の相関が所与のしきい値を超える場合、検出されると考えられる。

本発明の一態様によれば、マイクロフォンアレイと、マイクロフォンアレイに結合された第１のビームフォーマであって、各々が第１の適応インパルス応答を有する第１の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマである、第１のビームフォーマと、マイクロフォンアレイに結合された第２のビームフォーマであって、各々が適応インパルス応答を有する第２の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマである、第２のビームフォーマとを備えるビームフォーミングオーディオキャプチャ装置のための動作の方法であって、上記方法は、第１のビームフォーマが第１のビームフォーミングされたオーディオ出力を生成するステップと、第２のビームフォーマが第２のビームフォーミングされたオーディオ出力を生成するステップと、第１の適応インパルス応答と第２の適応インパルス応答との比較に応答して、第１のビームフォーマのビームと第２のビームフォーマのビームとの間の差分測度を決定するステップとを有する、方法が提供される。

本発明のこれら及び他の態様、特徴及び利点は、以下で説明される（１つ又は複数の）実施形態から明らかになり、それらに関して解明されるであろう。

本発明の実施形態が、図面を参照しながら単に例として説明される。

ビームフォーミングオーディオキャプチャシステムの要素の一例を示す図である。オーディオキャプチャシステムによって形成された複数のビームの一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。フィルタ和ビームフォーマの要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の制約付きビームフォーマを適応させる手法のためのフローチャートの一例を示す図である。

以下の説明は、ビームフォーミングに基づくスピーチキャプチャオーディオシステムに適用可能な本発明の実施形態に焦点を当てるが、本手法はオーディオキャプチャのための多くの他のシステム及びシナリオに適用可能であることが理解されよう。

図３は、本発明のいくつかの実施形態による、オーディオキャプチャ装置のいくつかの要素の一例を示す。

オーディオキャプチャ装置は、環境においてオーディオをキャプチャするように構成された複数のマイクロフォンを備えるマイクロフォンアレイ３０１を備える。

マイクロフォンアレイ３０１は、（一般に、当業者によく知られるように、直接、又はエコーキャンセラ、増幅器、デジタルアナログ変換器などを介してのいずれかで）第１のビームフォーマ３０３に結合される。

第１のビームフォーマ３０３は、マイクロフォンアレイ３０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ３０１からの信号を合成するように構成される。第１のビームフォーマ３０３は、第１のビームフォーミングされたオーディオ出力と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。第１のビームフォーマ３０３は適応ビームフォーマであり、その指向性は、第１のビームフォーマ３０３のビームフォーム動作の、第１のビームフォームパラメータと呼ばれるパラメータを設定することによって、詳細には、ビームフォームフィルタのフィルタパラメータ（一般に係数）を設定することによって制御され得る。

マイクロフォンアレイ３０１は、（一般に、当業者によく知られるように、直接、又はエコーキャンセラ、増幅器、デジタルアナログ変換器などを介してのいずれかで）第２のビームフォーマ３０５にさらに結合される。

第２のビームフォーマ３０５は、同様に、マイクロフォンアレイ３０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ３０１からの信号を合成するように構成される。第２のビームフォーマ３０５は、第２のビームフォーミングされたオーディオ出力と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。第２のビームフォーマ３０５も適応ビームフォーマであり、その指向性は、第２のビームフォーマ３０５のビームフォーム動作の、第２のビームフォームパラメータと呼ばれるパラメータを設定することによって、詳細には、ビームフォームフィルタのフィルタパラメータ（一般に係数）を設定することによって制御され得る。

第１のビームフォーマ３０３と第２のビームフォーマ３０５とは、ビームフォーム動作のパラメータを適応させることによって指向性が制御され得る適応ビームフォーマである。

詳細には、ビームフォーマ３０３、３０５は、フィルタ合成（又は、詳細には、たいていの実施形態ではフィルタ和）ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。

たいていの実施形態では、ビームフォームフィルタの各々は、（単純な遅延、周波数ドメインにおける利得及び位相オフセットに対応する）単純なディラックパルスではない時間ドメインインパルス応答を有し、むしろ、一般に２ミリ秒、５ミリ秒、１０ミリ秒、さらには３０ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する。

インパルス応答は、しばしば、複数の係数をもつＦＩＲ（有限インパルス応答）フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、ビームフォーマ３０３、３０５は、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、ＦＩＲフィルタは、固定時間オフセット（一般にサンプル時間オフセット）に対応する係数を有し、適応は、係数値を適応させることによって達成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数（たとえば、２つ又は３つのみ）を有するが、これらのタイミングは（も）適応可能である。

単純な可変遅延（又は単純な周波数ドメイン利得／位相調整）であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、ビームフォーマ３０３、３０５が、最も強い、一般に直接の信号成分のみに適応することを可能にするわけではないことである。むしろ、ビームフォーマ３０３、３０５が、一般に反射に対応するさらなる信号経路を含むように適応することを可能にする。本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び／又は残響環境における性能の改善、並びに／或いは、マイクロフォンアレイ３０１から離れているオーディオソースのための性能の改善を可能にする。

異なる実施形態において異なる適応アルゴリズムが使用され、様々な最適化パラメータが当業者に知られることが理解されよう。たとえば、ビームフォーマ３０３、３０５は、ビームフォーマ３０３、３０５の出力信号値を最大化するようにビームフォームパラメータを適応させる。特定の例として、受信されたマイクロフォン信号がフォワードマッチングフィルタを用いてフィルタ処理され、フィルタ処理された出力が加算される、ビームフォーマを考慮する。出力信号は、（時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける）フォワードフィルタへの共役フィルタ応答を有する、バックワード適応フィルタによってフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、最大出力電力が生じる。そのような手法のさらなる詳細は、米国特許第７１４６０１２号及び米国特許第７６０２９２６号において見つけられ得る。

米国特許第７１４６０１２号及び米国特許第７６０２９２６号のものなどの手法では、ビームフォーマからのオーディオソース信号ｚ（ｎ）と（１つ又は複数の）雑音基準信号ｘ（ｎ）の両方に基づく適応に基づくことに留意されたい。同じ手法が図３のシステムのために使用されることが理解されよう。

ビームフォーマ３０３、３０５は、実際、詳細には、図１に示され、米国特許第７１４６０１２号及び米国特許第７６０２９２６号において開示されたビームフォーマに対応するビームフォーマである。

ビームフォーマ３０３、３０５は、本例では、（オプションの）出力プロセッサ３０７に結合され、出力プロセッサ３０７は、ビームフォーマ３０３、３０５から、ビームフォーミングされたオーディオ出力信号を受信する。オーディオキャプチャ装置から生成された厳密な出力は、個々の実施形態の特定の選好及び要件に依存する。実際、いくつかの実施形態では、オーディオキャプチャ装置からの出力は、単に、ビームフォーマ３０３、３０５からのオーディオ出力信号にある。

多くの実施形態では、出力プロセッサ３０７からの出力信号は、ビームフォーマ３０３、３０５からのオーディオ出力信号の合成として生成される。実際、いくつかの実施形態では、単純な選択合成、たとえば、信号対雑音比、又は単に信号レベルが最も高いオーディオ出力信号を選択することが実行される。

出力プロセッサ３０７の出力選択及び後処理は、特定用途向けであり、及び／又は、異なる実装形態／実施形態において異なる。たとえば、すべての可能な集束ビーム出力が与えられ得、ユーザによって定義された基準に基づいて選択が行われ得る（たとえば、最も強いスピーカーが選択される）などである。

ボイス制御適用例の場合、たとえば、すべての出力は、ボイス制御を初期化するために特定のワード又はフレーズを検出するように構成されたボイストリガ認識器にフォワーディングされる。そのような例では、トリガワード又はフレーズが検出されたオーディオ出力信号は、トリガフレーズに続いて、特定のコマンドを検出するためにボイス認識器によって使用される。

通信適用例の場合、たとえば、最も強く、たとえば特定のポイントオーディオソースの存在が見つけられたオーディオ出力信号を選択することが有利である。

いくつかの実施形態では、図１の雑音抑圧などの後処理が、（たとえば出力プロセッサ３０７によって）オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。

複数のビームフォーマを利用する多くのシステムでは、互いに近いビームをビームフォーマが形成したかどうかを決定することが可能であることが有利である。図３のシステムでは、オーディオキャプチャ装置は、差分プロセッサ３０９を備え、差分プロセッサ３０９は、第１のビームフォーマ３０３によって形成されたビームと第２のビームフォーマ３０５によって形成されたビームとの間の差分を示す差分測度を決定するように構成される。

そのような差分測度の使用は異なる適用例及び実装形態について異なり、その原理は特定の適用例に限定されないことが理解されよう。図３の特定の例では、差分プロセッサ３０９は、出力プロセッサ３０７に結合され、出力プロセッサ３０７からのオーディオ出力の生成において使用される。たとえば、２つのビームが互いに極めて近いことを差分測度が示す場合、出力オーディオ信号が、（たとえば周波数ドメインにおいて）出力信号を加算又は平均化することによって生成される。差分測度が大きい差分を示す（２つのビームが異なるオーディオソースに適応されることを示す）場合、出力プロセッサ３０７は、最も高いエネルギーレベルを有するビームフォーミングされたオーディオ出力信号を選択することによって、出力オーディオ信号を生成する。

ビームフォーマとビームとを比較するための従来の手法では、ビーム間の類似性は、生成されたオーディオ出力を比較することによって査定される。たとえば、オーディオ出力間の相互相関が生成され、相関の大きさによってその類似性が示される。いくつかのシステムでは、マイクロフォンペアについてのオーディオ信号を相互相関させ、ピークのタイミングに応答してＤｏＡを決定することによって、ＤｏＡが決定される。

図３のシステムでは、差分測度は、単に、ビームフォーマからのビームフォーミングされたオーディオ出力信号であるのか入力マイクロフォン信号であるのかにかかわらず、オーディオ信号の特性又は比較に基づいて決定されるだけでなく、むしろ、図３のオーディオキャプチャ装置の差分プロセッサ３０９は、第１のビームフォーマ３０３のビームフォームフィルタのインパルス応答と第２のビームフォーマ３０５のビームフォームフィルタのインパルス応答との比較に応答して差分測度を決定するように構成される。

図４は、２つのマイクロフォン４０１のみを備えるマイクロフォンアレイに基づくフィルタ和ビームフォーマの簡略化された例を示す。本例では、各マイクロフォン４０１はビームフォームフィルタ４０３、４０５に結合され、ビームフォームフィルタ４０３、４０５の出力は、ビームフォーミングされたオーディオ出力信号を生成するために加算器４０７において加算される。ビームフォームフィルタ４０３、４０５はインパルス応答ｆ１及びｆ２を有し、インパルス応答ｆ１及びｆ２は、所与の方向でビームを形成するように適応される。一般に、マイクロフォンアレイは３つ以上のマイクロフォンを備え、図４の原理は、各マイクロフォンのためのビームフォームフィルタをさらに含むことによってより多くのマイクロフォンに容易に拡張されることが理解されよう。

第１のビームフォーマ３０３と第２のビームフォーマ３０５とは、（たとえば、米国特許第７１４６０１２号及び米国特許第７６０２９２６号のビームフォーマの場合のように）ビームフォーミングのためのそのようなフィルタ和アーキテクチャを含む。ただし、多くの実施形態では、マイクロフォンアレイ３０１は３つ以上のマイクロフォンを備えることが理解されよう。さらに、ビームフォーマ３０３、３０５は、前に説明されたようにビームフォームフィルタを適応させるための機能を含むことが理解されよう。また、特定の例では、ビームフォーマ３０３、３０５は、ビームフォーミングされたオーディオ出力信号だけでなく雑音基準信号をも生成する。

図３のシステムでは、第１のビームフォーマ３０３のためのビームフォームフィルタのパラメータは、第２のビームフォーマ３０５のビームフォームフィルタのパラメータと比較される。次いで、これらのパラメータが互いにどのくらい近いかを反映するために差分測度が決定される。詳細には、各マイクロフォンについて、第１のビームフォーマ３０３の対応するビームフォームフィルタと第２のビームフォーマ３０５の対応するビームフォームフィルタとが互いに比較されて、中間差分測度が生成される。次いで、中間差分測度は単一の差分測度に合成され、差分プロセッサ３０９から出力される。

比較されているビームフォームパラメータは、一般に、フィルタ係数である。詳細には、ビームフォームフィルタは、ＦＩＲフィルタ係数のセットによって定義される時間ドメインインパルス応答を有するＦＩＲフィルタである。差分プロセッサ３０９は、フィルタ間の相関を決定することによって第１のビームフォーマ３０３の対応するフィルタと第２のビームフォーマ３０５の対応するフィルタとを比較するように構成される。相関値が最大相関として決定される（すなわち、相関を最大化する時間オフセットについての相関値）。

差分プロセッサ３０９は、次いで、たとえば、単にこれらを一緒に加算することによって、すべてのこれらの個々の相関値を単一の差分測度に合成する。他の実施形態では、たとえば、より大きい係数をより低い係数よりも高く重み付けすることによって、重み付き合成が実行される。

そのような差分測度がフィルタの増加する相関について増加する値を有し、より高い値が差分の増加ではなくビームの類似性の増加を示すことが理解されよう。しかしながら、増加する差分について差分測度が増加することが望まれる実施形態では、単調減少関数が、単に、合成された相関に適用され得る。

オーディオ信号（ビームフォーミングされたオーディオ出力信号又はマイクロフォン信号）に基づくのではなくビームフォームフィルタのインパルス応答の比較に基づく差分測度の決定は、多くのシステム及び適用例において有意な利点を与える。特に、本手法は、一般に、はるかに改善された性能を与え、実際、残響オーディオ環境において適用するのに適しており、特に残響半径外のオーディオソースを含む、より離れた距離にあるオーディオソースに適している。実際、本手法は、オーディオソースからの直接経路が支配的でなく、むしろ、直接経路、及び場合によっては早期反射が、たとえば拡散音場によって支配されるシナリオにおいて、はるかに改善された性能を与える。特に、そのようなシナリオでは、オーディオ信号に基づく差分推定は、音場の空間的及び時間的特性に大きく左右されるが、フィルタベース手法は、フィルタパラメータに基づくビームのより直接的な査定を可能にし、これは、直接音場／経路を反映するだけでなく、（早期反射を考慮に入れるために延長された持続時間を有するインパルス応答により）直接音場／経路及び早期反射も反映するように適応される。

実際、２つのビームフォーマの類似性を推定するための従来のＤｏＡ及びオーディオ信号相関メトリックは、無響環境に基づき、所望のユーザが（残響半径内の）マイクロフォンに近く、それにより拡散音場のエネルギーが支配する環境においてうまく動作するが、図３の手法は、そのような仮定に基づかず、多くの反射及び／又はかなりの拡散音響雑音の存在下でさえ優れた推定を与える。

他の利点は、差分測度が、現在のビームフォームパラメータに基づいて、詳細には現在のフィルタ係数に基づいて直ちに決定され得ることを含む。たいていの実施形態ではパラメータの平均化の必要がなく、むしろ、適応ビームフォーマの適応速度が追跡挙動を決定する。

特に有利な側面は、比較と差分測度とが、延長された持続時間を有するインパルス応答に基づき得ることである。これは、差分測度が、単に直接経路の遅延又はビームの角度方向を反映することを可能にするのではなく、むしろ、推定された音響室内インパルスの有意な部分、又は実際はすべてが考慮に入れられることを可能にする。差分測度は、従来の手法の場合のように、単に、マイクロフォン信号によって励起される部分空間に基づくのではない。

いくつかの実施形態では、差分測度は、詳細には、時間ドメインにおいてではなく周波数ドメインにおいてインパルス応答を比較するように構成される。詳細には、差分プロセッサ３０９は、第１のビームフォーマ３０３のフィルタの適応インパルス応答を周波数ドメインに変換するように構成される。同様に、差分プロセッサ３０９は、第２のビームフォーマ３０５のフィルタの適応インパルス応答を周波数ドメインに変換するように構成される。変換は、詳細には、たとえば高速フーリエ変換（ＦＦＴ）を、第１のビームフォーマ３０３と第２のビームフォーマ３０５の両方のビームフォームフィルタのインパルス応答に適用することによって実行される。

差分プロセッサ３０９は、第１のビームフォーマ３０３及び第２のビームフォーマ３０５の各フィルタについて、周波数ドメイン係数のセットを生成する。差分プロセッサ３０９は、続いて、周波数表現に基づいて差分測度を決定する。たとえば、マイクロフォンアレイ３０１の各マイクロフォンについて、差分プロセッサ３０９は、２つのビームフォームフィルタの周波数ドメイン係数を比較する。単純な例として、差分プロセッサ３０９は、単に、２つのフィルタについての周波数ドメイン係数ベクトル間の差分として計算された差分ベクトルの大きさを決定する。次いで、個々の周波数について生成された中間差分測度を合成することによって差分測度が決定される。

以下では、差分測度を決定するためのいくつかの特定の及び極めて有利な手法が説明される。本手法は、周波数ドメインにおける適応インパルス応答の比較に基づく。本手法では、差分プロセッサ３０９は、周波数ドメイン表現の周波数についての周波数差分測度を決定するように構成される。詳細には、周波数差分測度は、周波数表現における各周波数について決定される。次いで、これらの個々の周波数差分測度から出力差分測度が生成される。

詳細には、周波数差分測度は、ビームフォームフィルタの各フィルタペアの各周波数フィルタ係数について生成され、ここで、フィルタペアは、同じマイクロフォンのための第１のビームフォーマ３０３及び第２のビームフォーマ３０５それぞれのフィルタを表す。この周波数係数ペアについての周波数差分測度は、２つの係数の関数として生成される。実際、いくつかの実施形態では、係数ペアについての周波数差分測度は、係数間の絶対差分として決定される。

しかしながら、実数値時間ドメイン係数（すなわち、実数値インパルス応答）について、周波数係数は概して複素数値であり、多くの適用例において、係数のペアについての特に有利な周波数差分測度は、第１の周波数ドメイン係数と第２の周波数ドメイン係数の共役との乗算に応答して（すなわち、ペアの一方のフィルタの複素係数と他方のフィルタの複素係数の共役との乗算に応答して）決定される。

ビームフォームフィルタのインパルス応答の周波数ドメイン表現の各周波数ビンについて、周波数差分測度は、各マイクロフォン／フィルタペアについて生成される。次いで、すべてのマイクロフォンについてこれらのマイクロフォン固有周波数差分測度を合成することによって、たとえば単にそれらを加算することによって、周波数についての合成された周波数差分測度が生成される。

より詳細には、ビームフォーマ３０３、３０５は、各マイクロフォンについて、及び周波数ドメイン表現の各周波数について周波数ドメインフィルタ係数を含む。

第１のビームフォーマ３０３の場合、これらの係数はＦ_１１（ｅ^ｊω）．．．Ｆ_１Ｍ（ｅ^ｊω）と示され、第２のビームフォーマ３０５の場合、それらはＦ_２１（ｅ^ｊω）．．．Ｆ_２Ｍ（ｅ^ｊω）と示され、ここで、Ｍはマイクロフォンの数である。

ある周波数についての及びすべてのマイクロフォンについてのビームフォーム周波数ドメインフィルタ係数の全セットは、第１のビームフォーマ３０３及び第２のビームフォーマ３０５について、それぞれｆ^１及びｆ^２として示される。

この場合、所与の周波数についての周波数差分測度は、次のように決定される。
Ｓ（ω）＝ｆ（ｆ^１，ｆ^２）

同じマイクロフォンに属する複素数値フィルタ係数を乗算することによって、あらゆる周波数について、第１の形態の距離測度を取得し、

ここで、（・）^＊は複素共役を表す。これは、マイクロフォンｍについての周波数ωについての差分測度として使用される。すべてのマイクロフォンについての合成された周波数差分測度は、これらの和として生成され、すなわち、

２つのフィルタが関係しない場合、すなわち、フィルタの適応された状態、したがって、形成されたビームがまったく異なる場合、この和は０に近いことが予想され、周波数差分測度は０に近い。しかしながら、フィルタ係数が類似する場合、大きい正値が取得される。フィルタ係数が反対の符号を有する場合、大きい負値が取得される。生成された周波数差分測度は、この周波数についてのビームフォームフィルタの類似性を示す。

（共役を含む）２つの複素係数の乗算により、複素数値が生じ、多くの実施形態では、これをスカラー値に変換することが望ましい。

特に、多くの実施形態では、所与の周波数についての周波数差分測度は、その周波数についての異なるマイクロフォンについての周波数差分測度の合成の実数部に応答して決定される。

詳細には、合成された周波数差分測度は、次のように決定される。

この測度では、Ｒｅ（Ｓ）に基づく類似性測度は、フィルタ係数が同じであるときは、最大値が達成されることになるが、フィルタ係数が同じであるが反対の符号を有するときは、最小値が達成される。

別の手法は、マイクロフォンについての周波数差分測度の合成のノルムに応答して所与の周波数についての合成された周波数差分測度を決定することである。ノルムは、一般に、有利にはＬ１又はＬ２ノルムである。
たとえば、

いくつかの実施形態では、マイクロフォンアレイ３０１のすべてのマイクロフォンについての合成された周波数差分測度は、個々のマイクロフォンについての複素数値周波数差分測度の和の振幅又は絶対値として決定される。

多くの実施形態では、差分測度を正規化することが有利である。たとえば、差分測度が［０；１］の間隔内に入るように差分測度を正規化することが有利である。

いくつかの実施形態では、上記で説明された差分測度は、第１のビームフォーマ３０３についての周波数ドメイン係数の和のノルムの単調関数と、第２のビームフォーマ３０５についての周波数ドメイン係数の和についてのノルムの単調関数との和に応答して決定されることによって正規化され、ここで、それらの和は、マイクロフォンにわたるものである。ノルムは有利にはＬ２ノルムであり、単調関数は有利には２乗関数である。

差分測度は、以下の値に対して正規化される。

上記で説明された第１の手法と組み合わせると、これにより、次のように与えられる合成された周波数差分測度が生じる。

ここで、ｆ^１＝ｆ^２の場合、周波数差分測度が１の値を有し、ｆ^１＝−ｆ^２の場合、周波数差分測度が０の値を有するように、１／２のオフセットが導入される。０から１の間の差分測度が生成され、ここで、増加する値は低減する差分を示す。増加する差分について増加する値が望まれる場合、これは、単に、以下を決定することによって達成され得ることが理解されよう。

同様に、第２の手法の場合、以下の周波数差分測度が決定され得る。

この場合も、［０；１］の間隔内に入る周波数差分測度が生じる。

別の例として、正規化は、いくつかの実施形態では、周波数ドメイン係数の個々の総和のノルム、詳細にはＬ２ノルムの乗算に基づく。
Ｎ_２（ｆ^１，ｆ^２）＝｜｜ｆ^１｜｜_２・｜｜ｆ^２｜｜_２

これは、特に、多くの適用例において、差分測度の最後の例のための極めて有利な性能を与える（すなわち、係数についてのＬ１ノルムに基づく）。特に、以下の周波数差分測度が使用される。

特定の周波数差分測度は、次のように決定される。

ここで、〈ａ｜ｂ〉＝（（ａ）^Ｈｂ）^＊は内積であり、

はＬ^２ノルムである。

差分プロセッサ３０９は、次いで、周波数差分測度を第１のビームフォーマ３０３のビームと第２のビームフォーマ３０５のビームとがどのくらい類似しているかを示す単一の差分測度に合成することよって、これらの周波数差分測度から差分測度を生成する。

詳細には、差分測度は、周波数差分測度の周波数選択性重み付き和として決定される。周波数選択性手法は、詳細には、たとえば、オーディオ範囲又は主要なスピーチ周波数間隔などのような特定の周波数範囲が強調されることを可能にする好適な周波数ウィンドウを適用するために有用である。たとえば、ロバストな広帯域差分測度を生成するために（重み付き）平均化が適用される。

詳細には、差分測度は、次のように決定される。

ここで、ｗ（ｅ^ｊω）は、好適な重み付け関数である。

一例として、重み関数ｗ（ｅ^ｊω）は、スピーチがいくつかの周波数帯域において主にアクティブであること、及び／又は、マイクロフォンアレイが比較的低い周波数について低い方向性を有する傾向があることを考慮に入れるように設計される。

上式は連続周波数ドメインにおいて提示されるが、それらは容易に離散周波数ドメインに変換され得ることが理解されよう。

たとえば、離散時間ドメインフィルタは、最初に、離散フーリエ変換を適用することによって離散周波数ドメインフィルタに変換され、すなわち、０≦ｋ＜Ｋの場合、次のように計算することができる。

ここで、

は、ｍ番目のマイクロフォンのためのｊ番目のビームフォーマの離散時間フィルタ応答を表し、Ｎ_ｆは、時間ドメインフィルタの長さであり、

は、ｍ番目のマイクロフォンのためのｊ番目のビームフォーマの離散周波数ドメインフィルタを表し、Ｋは、一般にＫ＝２Ｎ_ｆとして選定された周波数ドメインビームフォームフィルタの長さである（しばしば時間ドメイン係数と同じ数であるが、これが必ずしも当てはまるとは限らない。たとえば、２^Ｎとは異なる時間ドメイン係数の数の場合、（たとえばＦＦＴを使用する）周波数ドメイン変換を容易にするためにゼロスタッフィングが使用される）。

ベクトルｆ^１及びｆ^２の離散周波数ドメインカウンターパートは、ベクトルＦ^１［ｋ］及びＦ^２［ｋ］であり、ベクトルＦ^１［ｋ］及びＦ^２［ｋ］は、すべてのマイクロフォンについての周波数インデックスｋについての周波数ドメインフィルタ係数を集めてベクトルにすることによって取得される。

その後、たとえば類似性測度ｓ_７（Ｆ^１，Ｆ^２）［ｋ］の計算が、次いで、以下のようにして実行される。

ここでは、

ここで、（・）^＊は複素共役を表す。

最後に、広帯域類似性測度Ｓ_７（Ｆ^１，Ｆ^２）は、重み付け関数ｗ［ｋ］に基づいて、以下のように計算される。

ｗ［ｋ］＝１／Ｋとして重み付け関数を選定することは、０から１の間で有界であり、すべての周波数を等しく重み付けする広帯域類似性測度につながる。

代替重み付け関数は、（たとえば、特定の周波数範囲がスピーチを含んでいる可能性があることにより）特定の周波数範囲に焦点を当てることができる。そのような場合、０から１の間で有界な類似性測度につながる重み付け関数は、次いで、たとえば次のように選定され得る。

ここで、ｋ_１及びｋ_２は、所望の周波数範囲の限界に対応する周波数インデックスである。

導出された差分測度は、異なる実施形態において望ましい異なる特性をもつ特に効率的な性能を与える。特に、決定された値はビーム差分の異なる特性に対する感度が高く、個々の実施形態の選好に応じて、異なる測度が選好される。

実際、差分／類似性測度ｓ_５（ｆ^１，ｆ^２）は、ビームフォーマ間の位相差分、減衰差分、及び方向差分を測定すると考えられ得、ｓ_６（ｆ^１，ｆ^２）は、利得差分及び方向差分のみを考慮に入れる。最後に、差分測度ｓ_７（ｆ^１，ｆ^２）は、方向差分のみを考慮に入れ、位相差分及び減衰差分を無視する。

これらの差分は、ビームフォーマの構造に関する。詳細には、ビームフォーマのフィルタ係数が、Ａ（ｅ^ｊω）として示す共通（周波数依存）因子をすべてのマイクロフォンにわたって共有すると仮定する。この場合、ビームフォーマフィルタ係数は、以下のように分解され得る。

簡略な表記法では、

とする。次に、共通因子Ａ（ｅ^ｊω）の２つのバージョンを考慮する。

第１の場合では、共通因子が、全域通過フィルタとしても知られる（周波数依存）位相シフトのみからなる、すなわち、

と仮定する。第２の場合では、共通因子が周波数ごとの任意の利得及び位相シフトを有すると仮定する。３つの提示された類似性測度は、これらの共通因子を別様に扱う。
・ｓ_５（ｆ^１，ｆ^２）は、ビームフォーマ間の共通振幅及び位相差分に対する感度が高い。
・ｓ_６（ｆ^１，ｆ^２）は、ビームフォーマ間の共通振幅差分に対する感度が高い
・ｓ_７（ｆ^１，ｆ^２）は、共通因子Ａ（ｅ^ｊω）に対する感度が低い

これは、以下の実施例からわかり得る。

この実施例では、ｆ^１＝Ａ（ｅ^ｊω）ｆ^２であるシナリオを考慮し、

は、周波数ごとの任意の位相、すなわち、全域通過フィルタである。

これにより、類似性測度についての以下の結果が生じる。

この実施例では、ｆ^１＝Ｂ（ｅ^ｊω）ｆ^２であるシナリオを考慮し、Ｂ（ｅ^ｊω）は、周波数ごとの任意の利得及び位相である。これにより、類似性測度についての以下の結果が生じる。

多くの実際的実施形態では、ビームフォーマ間の共通利得及び位相差分があり、差分測度ｓ_７（ｆ^１，ｆ^２）が、多くの実施形態において、特に魅力的な測度を与える。

以下では、特に有利なオーディオキャプチャシステムを与えるために、生成された差分測度が他の説明される要素と相互作用するオーディオキャプチャ装置が説明される。特に、本手法は、雑音の多い環境及び残響環境においてオーディオソースをキャプチャするのに極めて適している。本手法は、所望のオーディオソースが残響半径外にあり、マイクロフォンによってキャプチャされたオーディオが拡散雑音及び後の反射又は残響によって支配される適用例について、特に有利な性能を与える。

図５は、本発明のいくつかの実施形態による、そのようなオーディオキャプチャ装置の要素の一例を示す。図３のシステムの要素及び手法は、以下で提示されるように、図５のシステムに対応する。

オーディオキャプチャ装置は、図３のマイクロフォンアレイに直接対応するマイクロフォンアレイ５０１を備える。本例では、マイクロフォンアレイ５０１はオプションのエコーキャンセラ５０３に結合され、エコーキャンセラ５０３は、（１つ又は複数の）マイクロフォン信号におけるエコーに線形的に関係する（基準信号が利用可能である）音響ソースから発生するエコーをキャンセルする。このソースは、たとえばラウドスピーカーであり得る。適応フィルタが、入力としての基準信号を伴って適用され得、出力が、マイクロフォン信号から減算されて、エコー補償信号を作成する。これは、各個々のマイクロフォンについて繰り返され得る。

エコーキャンセラ５０３はオプションであり、多くの実施形態において簡単に省略されることが理解されよう。

マイクロフォンアレイ５０１は、一般に、直接、又はエコーキャンセラ５０３を介して（並びに場合によっては、当業者によく知られるように、増幅器、デジタルアナログ変換器などを介して）のいずれかで第１のビームフォーマ５０５に結合される。第１のビームフォーマ５０５は、図３の第１のビームフォーマ３０３に直接対応する。

第１のビームフォーマ５０５は、マイクロフォンアレイ５０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ５０１からの信号を合成するように構成される。第１のビームフォーマ５０５は、第１のビームフォーミングされたオーディオ出力と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。第１のビームフォーマ５０５は適応ビームフォーマであり、その指向性は、第１のビームフォーマ５０５のビームフォーム動作の、第１のビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る。

第１のビームフォーマ５０５は第１の適応器５０７に結合され、第１の適応器５０７は、第１のビームフォームパラメータを適応させるように構成される。第１の適応器５０７は、ビームがステアリングされ得るように第１のビームフォーマ５０５のパラメータを適応させるように構成される。

さらに、オーディオキャプチャ装置は、複数の制約付きビームフォーマ５０９、５１１を備え、制約付きビームフォーマ５０９、５１１の各々が、マイクロフォンアレイ５０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ５０１からの信号を合成するように構成される。制約付きビームフォーマ５０９、５１１の各々は、制約付きのビームフォーミングされたオーディオ出力と呼ばれるオーディオ出力を生成するように構成され、オーディオ出力は、環境におけるオーディオの選択的キャプチャに対応する。第１のビームフォーマ５０５と同様に、制約付きビームフォーマ５０９、５１１は、各制約付きビームフォーマ５０９、５１１の指向性が、制約付きビームフォーマ５０９、５１１の、制約付きビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る適応ビームフォーマである。

オーディオキャプチャ装置は、第２の適応器５１３を備え、第２の適応器５１３は、複数の制約付きビームフォーマの制約付きビームフォームパラメータを適応させることにより、これらビームフォーマによって形成されたビームを適応させるように構成される。

図３の第２のビームフォーマ３０５は、図５の第１の制約付きビームフォーマ５０９に直接対応する。また、残りの制約付きビームフォーマ５１１は、第１のビームフォーマ３０３に対応し、この具体例と考えられ得ることが理解されよう。

第１のビームフォーマ５０５及び制約付きビームフォーマ５０９、５１１の両方は、形成された実際のビームが動的に適応され得る適応ビームフォーマである。詳細には、ビームフォーマ５０５、５０９、５１１は、フィルタ合成（又は、詳細には、たいていの実施形態ではフィルタ和）ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。

第１のビームフォーマ３０３及び第２のビームフォーマ３０５に関して（たとえば、ビームフォームフィルタに関して）与えられたコメントは、図５のビームフォーマ５０５、５０９、５１１に等しく適用されることが理解されよう。

多くの実施形態では、第１のビームフォーマ５０５及び制約付きビームフォーマ５０９、５１１の構造及び実装形態は同じであり、たとえば、ビームフォームフィルタは同じ数の係数をもつ同等のＦＩＲフィルタ構造を有するなどである。

しかしながら、第１のビームフォーマ５０５及び制約付きビームフォーマ５０９、５１１の動作及びパラメータは異なり、特に、制約付きビームフォーマ５０９、５１１は、第１のビームフォーマ５０５が制約されないやり方で制約される。詳細には、制約付きビームフォーマ５０９、５１１の適応は、第１のビームフォーマ５０５の適応とは異なり、詳細には、いくつかの制約を受ける。

詳細には、制約付きビームフォーマ５０９、５１１は、基準が満たされるときの状況に適応（ビームフォームフィルタパラメータの更新）が制約されるという制約を受けるが、第１のビームフォーマ５０５は、そのような基準が満たされないときでも適応することを可能にされる。実際、多くの実施形態では、第１の適応器５０７は、ビームフォームフィルタを常に適応させることを可能にされ、これは、第１のビームフォーマ５０５によってキャプチャされたオーディオの（又は制約付きビームフォーマ５０９、５１１のいずれかの）特性によって制約されない。

制約付きビームフォーマ５０９、５１１を適応させるための基準は、後でより詳細に説明される。

多くの実施形態では、第１のビームフォーマ５０５についての適応レートは、制約付きビームフォーマ５０９、５１１についての適応レートよりも高い。したがって、多くの実施形態では、第１の適応器５０７は、第２の適応器５１３よりも高速に変動に適応するように構成され、したがって、第１のビームフォーマ５０５は、制約付きビームフォーマ５０９、５１１よりも高速に更新される。これは、たとえば、最大化又は最小化されている値（たとえば、出力信号の信号レベル又は誤差信号の大きさ）の低域フィルタ処理が、第１のビームフォーマ５０５について、制約付きビームフォーマ５０９、５１１についてのカットオフ周波数よりも高いカットオフ周波数を有することによって達成される。別の例として、ビームフォームパラメータ（詳細には、ビームフォームフィルタ係数）の更新ごとの最大変化は、第１のビームフォーマ５０５について、制約付きビームフォーマ５０９、５１１よりも高い。

したがって、本システムでは、低速に、及び特定の基準が満たされるときのみ適応する複数の集束（適応制約付き）ビームフォーマが、この制約を受けない、自走するより高速に適応するビームフォーマによって補われる。より低速の集束ビームフォーマは、一般に、自走するビームフォーマよりも低速であるが正確で確実な適応を特定のオーディオ環境に与えるが、自走するビームフォーマは、一般に、より大きいパラメータ間隔にわたって急速に適応することが可能である。

図５のシステムでは、これらのビームフォーマは、後でより詳細に説明されるように性能の改善を与えるために、一緒に、相乗的に使用される。

第１のビームフォーマ５０５と制約付きビームフォーマ５０９、５１１とは、出力プロセッサ５１５に結合され、出力プロセッサ５１５は、ビームフォーマ５０５、５０９、５１１から、ビームフォーミングされたオーディオ出力信号を受信する。オーディオキャプチャ装置から生成された厳密な出力は、個々の実施形態の特定の選好及び要件に依存する。実際、いくつかの実施形態では、オーディオキャプチャ装置からの出力は、単に、ビームフォーマ５０５、５０９、５１１からのオーディオ出力信号にある。

多くの実施形態では、出力プロセッサ５１５からの出力信号は、ビームフォーマ５０５、５０９、５１１からのオーディオ出力信号の合成として生成される。実際、いくつかの実施形態では、単純な選択合成、たとえば、信号対雑音比、又は単に信号レベルが最も高いオーディオ出力信号を選択することが実行される。

したがって、出力プロセッサ５１５の出力選択及び後処理は、特定用途向けであり、及び／又は、異なる実装形態／実施形態において異なる。たとえば、すべての可能な集束ビーム出力が与えられ得、ユーザによって定義された基準に基づいて選択が行われ得る（たとえば、最も強いスピーカーが選択される）などである。

いくつかの実施形態では、図１の雑音抑圧などの後処理が、（たとえば出力プロセッサ５１５によって）オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。

図５のシステムでは、第１のビームフォーマ５０５と制約付きビームフォーマ５０９、５１１との間の相乗的相互作用及び相互関係に基づいてオーディオをキャプチャするために、特に有利な手法がとられる。

この目的で、オーディオキャプチャ装置は、差分プロセッサ５１７を備え、差分プロセッサ５１７は、制約付きビームフォーマ５０９、５１１のうちの１つ又は複数と第１のビームフォーマ５０５との間の差分測度を決定するように構成される。差分測度は、第１のビームフォーマ５０５及び制約付きビームフォーマ５０９、５１１それぞれによって形成されたビーム間の差分を示す。第１の制約付きビームフォーマ５０９についての差分測度は、第１のビームフォーマ５０５によって形成されるビームと第１の制約付きビームフォーマ５０９によって形成されるビームとの間の差分を示す。このようにして、差分測度は、２つのビームフォーマ５０５、５０９がどのくらい密接に同じオーディオソースに適応されるかを示す。

差分プロセッサ５１７は、図３の差分プロセッサ３０９に直接対応し、これに関して説明された手法は、図５の差分プロセッサ５１７に直接適用可能である。図５のシステムは、第１のビームフォーマ５０５のビームフォームフィルタの適応インパルス応答と、制約付きビームフォーマ５０９、５１１のビームフォームフィルタの適応インパルス応答との比較に応答して、第１のビームフォーマ５０５のビームと制約付きビームフォーマ５０９、５１１のうちの１つのビームとの間の差分測度を決定するための説明された手法を使用する。多くの実施形態では、各制約付きビームフォーマ５０９、５１１についての差分測度が決定されることが理解されよう。

図５のシステムでは、第１のビームフォーマ５０５のビームフォームパラメータと第１の制約付きビームフォーマ５０９のビームフォームパラメータとの間の差分及び／又はこれらのビームフォーミングされたオーディオ出力間の差分を反映するために、差分測度が生成される。

差分測度を生成すること、決定すること、及び／又は使用することは、類似性測度を生成すること、決定すること、及び／又は使用することと直接等価であることが理解されよう。実際、一方は、一般に他方の単調減少関数であると考えられ、差分測度は類似性測度でもあり（その逆も同様）、一般に、一方は単に値を増加させることによって増加する差分を示し、他方は値を減少させることによってこれを行う。

差分プロセッサ５１７は、第２の適応器５１３に結合され、これに差分測度を与える。第２の適応器５１３は、差分測度に応答して制約付きビームフォーマ５０９、５１１を適応させるように構成される。詳細には、第２の適応器５１３は、類似性基準を満たす差分測度が決定された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。所与の制約付きビームフォーマ５０９、５１１についての差分測度が決定されていない場合、又は、所与の制約付きビームフォーマ５０９、５１１についての決定された差分測度が、第１のビームフォーマ５０５のビームと所与の制約付きビームフォーマ５０９、５１１のビームとが十分に類似していないことを示す場合、適応は実行されない。

図５のオーディオキャプチャ装置では、制約付きビームフォーマ５０９、５１１は、ビームの適応において制約される。詳細には、制約付きビームフォーマ５０９、５１１は、制約付きビームフォーマ５０９、５１１によって形成された現在のビームが、自走する第１のビームフォーマ５０５が形成しているビームに近い場合のみ適応するように制約され、すなわち、個々の制約付きビームフォーマ５０９、５１１は、第１のビームフォーマ５０５が個々の制約付きビームフォーマ５０９、５１１に十分に近くなるように現在適応されている場合のみ適応される。

これの結果は、制約付きビームフォーマ５０９、５１１の適応が第１のビームフォーマ５０５の動作によって制御され、それにより、効果的に、第１のビームフォーマ５０５によって形成されたビームが、制約付きビームフォーマ５０９、５１１のうちのどちらが最適化／適応されるかを制御することである。この手法により、詳細には、制約付きビームフォーマ５０９、５１１は、所望のオーディオソースが制約付きビームフォーマ５０９、５１１の現在の適応に近いときのみ適応される傾向がある。

適応を可能にするためにビーム間の類似性を必要とする手法は、実際には、所望のオーディオソース、この場合は所望のスピーカーが残響半径外にあるとき、大幅な性能の改善が生じることがわかった。実際、その手法は、特に、非支配的な直接経路オーディオ成分をもつ残響環境における弱いオーディオソースについて、極めて望ましい性能を与えることがわかった。

多くの実施形態では、適応の制約は、さらなる要件を条件とする。

たとえば、多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件である。個々の制約付きビームフォーマ５０９、５１１のための適応は、これが十分に適応され、適応がその基礎に基づく信号が所望のオーディオ信号を反映する、シナリオに制限される。

異なる実施形態では、信号対雑音比を決定するための異なる手法が使用されることが理解されよう。たとえば、マイクロフォン信号の雑音フロアが、平滑化された電力推定値の最小値を追跡することによって決定され得、各フレーム又は時間間隔について、瞬時電力がこの最小値と比較される。別の例として、ビームフォーマの出力の雑音フロアは、決定され、ビームフォーミングされた出力の瞬時出力電力と比較される。

いくつかの実施形態では、制約付きビームフォーマ５０９、５１１の適応は、制約付きビームフォーマ５０９、５１１の出力において、いつスピーチ成分が検出されたかに制限される。これは、スピーチキャプチャ適用例のための性能の改善を与える。オーディオ信号におけるスピーチを検出するための任意の好適なアルゴリズム又は手法が使用されることが理解されよう。

図３〜図７のシステムは、一般に、フレーム又はブロック処理を使用して動作することが理解されよう。連続する時間間隔又はフレームが定義され、説明された処理が各時間間隔内に実行される。たとえば、マイクロフォン信号は処理時間間隔に分割され、各処理時間間隔について、ビームフォーマ５０５、５０９、５１１は、その時間間隔のためのビームフォーミングされたオーディオ出力信号を生成し、差分測度を決定し、制約付きビームフォーマ５０９、５１１を選択し、この制約付きビームフォーマ５０９、５１１を更新する／適応させるなどである。処理時間間隔は、多くの実施形態において、有利には、５ミリ秒から５０ミリ秒の間の持続時間を有する。

いくつかの実施形態では、オーディオキャプチャ装置の異なる態様及び機能について異なる処理時間間隔が使用されることが理解されよう。たとえば、差分測度と、適応のための制約付きビームフォーマ５０９、５１１の選択とは、たとえばビームフォーミングのための処理時間間隔よりも低い頻度において実行される。

多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力におけるポイントオーディオソースの検出に依存する。多くの実施形態では、オーディオキャプチャ装置は、図６に示されているようにオーディオソース検出器６０１をさらに備える。

オーディオソース検出器６０１は、詳細には、多くの実施形態において、第２のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するように構成され、オーディオソース検出器６０１は、制約付きビームフォーマ５０９、５１１に結合され、オーディオソース検出器６０１は、これらから、ビームフォーミングされたオーディオ出力を受信する。

音響におけるオーディオポイントソースは、空間におけるポイントから発生する音である。オーディオソース検出器６０１は、所与の制約付きビームフォーマ５０９、５１１からのビームフォーミングされたオーディオ出力においてポイントオーディオソースが存在するかどうかを推定（検出）するために異なるアルゴリズム又は基準を使用し、当業者は様々なそのような手法に気づくことが理解されよう。

手法は、詳細には、マイクロフォンアレイ５０１のマイクロフォンによってキャプチャされた単一の又は支配的なポイントソースの特性を識別することに基づく。単一の又は支配的なポイントソースは、たとえば、マイクロフォン上の信号間の相関を調べることによって検出され得る。高い相関がある場合、支配的なポイントソースが存在すると考えられる。相関が低い場合、支配的なポイントソースがないが、キャプチャされた信号が多くの無相関ソースから発生すると考えられる。多くの実施形態では、ポイントオーディオソースは、空間的に相関するオーディオソースであると考えられ、ここで、空間的相関は、マイクロフォン信号の相関によって反映される。

この場合は、相関は、ビームフォームフィルタによるフィルタ処理の後に決定される。詳細には、制約付きビームフォーマ５０９、５１１のビームフォームフィルタの出力の相関が決定され、これが所与のしきい値を超える場合、ポイントオーディオソースが検出されたと考えられる。

他の実施形態では、ポイントソースは、ビームフォーミングされたオーディオ出力のコンテンツを評価することによって検出される。たとえば、オーディオソース検出器６０１は、ビームフォーミングされたオーディオ出力を分析し、十分な強度のスピーチ成分がビームフォーミングされたオーディオ出力において検出された場合、これはポイントオーディオソースに対応すると考えられ、したがって、強いスピーチ成分の検出はポイントオーディオソースの検出であると考えられる。

検出結果はオーディオソース検出器６０１から第２の適応器５１３に受け渡され、第２の適応器５１３は、これに応答して当該適応を適応させるように構成される。詳細には、第２の適応器５１３は、ポイントオーディオソースが検出されたことをオーディオソース検出器６０１が示す制約付きビームフォーマ５０９、５１１のみを適応させるように構成される。

オーディオキャプチャ装置は、形成されたビームにおいてポイントオーディオソースが存在する制約付きビームフォーマ５０９、５１１のみが適応され、その形成されたビームが第１のビームフォーマ５０５によって形成されたビームに近くなるように、制約付きビームフォーマ５０９、５１１の適応を制約するように構成される。適応は、一般に、すでに（所望の）ポイントオーディオソースに近い制約付きビームフォーマ５０９、５１１に制限される。本手法は、所望のオーディオソースが残響半径外にある環境において非常にうまく機能する極めてロバストで正確なビームフォーミングを可能にする。さらに、複数の制約付きビームフォーマ５０９、５１１を動作させ、選択的に更新することによって、このロバストネス及び精度は、比較的高速の反応時間によって補われ、高速に移動するか又は新たに生じる音ソースへの、全体としてのシステムの急速な適応を可能にする。

多くの実施形態では、オーディオキャプチャ装置は、一度に１つの制約付きビームフォーマ５０９、５１１のみを適応させるように構成される。第２の適応器５１３は、各適応時間間隔において、制約付きビームフォーマ５０９、５１１のうちの１つを選択し、ビームフォームパラメータを更新することによって、当該１つのみを適応させる。

単一の制約付きビームフォーマ５０９、５１１の選択は、一般に、形成された現在のビームが第１のビームフォーマ５０５によって形成されたビームに近い場合、及びポイントオーディオソースがビームにおいて検出された場合のみ適応のために制約付きビームフォーマ５０９、５１１を選択するとき、自動的に行われる。

しかしながら、いくつかの実施形態では、複数の制約付きビームフォーマ５０９、５１１が同時に基準を満たすことが可能である。たとえば、ポイントオーディオソースが、２つの異なる制約付きビームフォーマ５０９、５１１によってカバーされた領域の近くに配置される（又は、たとえば、ポイントオーディオソースがそれらの領域の重複するエリア中にある）場合、ポイントオーディオソースは両方のビームにおいて検出され、これらは両方とも、両方がポイントオーディオソースのほうへ適応されることによって、互いに近くなるように適応される。

そのような実施形態では、第２の適応器５１３は、２つの基準を満たす制約付きビームフォーマ５０９、５１１のうちの１つを選択し、この１つのみを適応させる。これは、２つのビームが同じポイントオーディオソースのほうへ適応される危険を低減し、これらの動作が互いに干渉する危険を低減する。

実際、対応する差分測度が十分に低くなければならないという制約の下で制約付きビームフォーマ５０９、５１１を適応させることと、（たとえば、各処理時間間隔／フレームにおける）適応のために単一の制約付きビームフォーマ５０９、５１１のみを選択することとにより、適応は、異なる制約付きビームフォーマ５０９、５１１間で差別化される。これにより、制約付きビームフォーマ５０９、５１１は異なる領域をカバーするように適応され、第１のビームフォーマ５０５によって検出されたオーディオソースを適応させ／それに従うように、最も近い制約付きビームフォーマ５０９、５１１が自動的に選択される傾向がある。しかしながら、たとえば図２の手法とは対照的に、領域は、固定及び所定ではなく、むしろ、動的に及び自動的に形成される。

また、領域は、複数の経路のためのビームフォーミングに依存し、一般に、到来角度方向領域に限定されないことに留意されたい。たとえば、領域は、マイクロフォンアレイまでの距離に基づいて差別化される。領域という用語は、差分測度についての類似性要件を満たす適応が生じるオーディオソースの空間における位置を指すと考えられる。それは、直接経路の考慮だけでなく、たとえば、反射が、ビームフォームパラメータにおいて考慮され、特に、空間的側面と時間的側面の両方に基づいて決定される（及び詳細には、ビームフォームフィルタの完全なインパルス応答に依存する）場合、反射についての考慮も含む。

単一の制約付きビームフォーマ５０９、５１１の選択は、詳細には、キャプチャされたオーディオレベルに応答したものである。たとえば、オーディオソース検出器６０１は、基準を満たす制約付きビームフォーマ５０９、５１１からのビームフォーミングされたオーディオ出力の各々のオーディオレベルを決定し、オーディオソース検出器６０１は、最も高いレベルを生じる制約付きビームフォーマ５０９、５１１を選択する。いくつかの実施形態では、オーディオソース検出器６０１は、ビームフォーミングされたオーディオ出力において検出されたポイントオーディオソースが最も高い値を有する制約付きビームフォーマ５０９、５１１を選択する。たとえば、オーディオソース検出器６０１は、２つの制約付きビームフォーマ５０９、５１１からのビームフォーミングされたオーディオ出力においてスピーチ成分を検出し、続いて、最も高いレベルのスピーチ成分を有する制約付きビームフォーマを選択する。

本手法では、制約付きビームフォーマ５０９、５１１の極めて選択的な適応が実行され、それは、これらが特定の状況においてのみ適応することにつながる。これは、制約付きビームフォーマ５０９、５１１による極めてロバストなビームフォーミングを与え、これにより、所望のオーディオソースのキャプチャの改善が生じる。しかしながら、多くのシナリオでは、また、ビームフォーミングにおける制約により、適応性がより低速になり、実際、多くの状況において、新しいオーディオソース（たとえば新しいスピーカー）が、検出されないか、又は極めて低速にのみ適応されることになる。

図７は図６のオーディオキャプチャ装置を示すが、第２の適応器５１３及びオーディオソース検出器６０１に結合されるビームフォーマコントローラ７０１が加えられている。ビームフォーマコントローラ７０１は、いくつかの状況において制約付きビームフォーマ５０９、５１１を初期化するように構成される。詳細には、ビームフォーマコントローラ７０１は、第１のビームフォーマ５０５に応答して制約付きビームフォーマ５０９、５１１を初期化することができ、詳細には、第１のビームフォーマ５０５のビームに対応するビームを形成するために制約付きビームフォーマ５０９、５１１のうちの１つを初期化することができる。

ビームフォーマコントローラ７０１は、詳細には、これ以降第１のビームフォームパラメータと呼ばれる、第１のビームフォーマ５０５のビームフォームパラメータに応答して、制約付きビームフォーマ５０９、５１１のうちの１つのビームフォームパラメータを設定する。いくつかの実施形態では、制約付きビームフォーマ５０９、５１１のフィルタと第１のビームフォーマ５０５のフィルタとは同等であり、たとえば、それらは同じアーキテクチャを有する。特定の例として、制約付きビームフォーマ５０９、５１１のフィルタと第１のビームフォーマ５０５のフィルタの両方は、同じ長さ（すなわち、所与の数の係数）をもつＦＩＲフィルタであり、第１のビームフォーマ５０５のフィルタからの現在適応されている係数値は、単に、制約付きビームフォーマ５０９、５１１にコピーされ、すなわち、制約付きビームフォーマ５０９、５１１の係数は第１のビームフォーマ５０５の値に設定される。このようにして、制約付きビームフォーマ５０９、５１１は、第１のビームフォーマ５０５によって現在適応されているものと同じビーム特性で初期化される。

いくつかの実施形態では、制約付きビームフォーマ５０９、５１１のフィルタの設定は、第１のビームフォーマ５０５のフィルタパラメータから決定されるが、これらを直接使用するのではなく、それらは、適用される前に適応される。たとえば、いくつかの実施形態では、ＦＩＲフィルタの係数は、第１のビームフォーマ５０５のビームよりも広くなる（ただし、たとえば同じ方向に形成される）ように制約付きビームフォーマ５０９、５１１のビームを初期化するために変更される。

ビームフォーマコントローラ７０１は、多くの実施形態において、いくつかの状況において、第１のビームフォーマ５０５のビームに対応する初期ビームで制約付きビームフォーマ５０９、５１１のうちの１つを初期化する。本システムは、続いて、前に説明されたように制約付きビームフォーマ５０９、５１１を扱い、詳細には、続いて、制約付きビームフォーマ５０９、５１１が前に説明された基準を満たすとき、それを適応させる。

制約付きビームフォーマ５０９、５１１を初期化するための基準は、異なる実施形態において異なる。

多くの実施形態では、ビームフォーマコントローラ７０１は、ポイントオーディオソースの存在が第１のビームフォーミングされたオーディオ出力において検出されるが、制約付きのビームフォーミングされたオーディオ出力において検出されない場合、制約付きビームフォーマ５０９、５１１を初期化するように構成される。

オーディオソース検出器６０１は、ポイントオーディオソースが、制約付きビームフォーマ５０９、５１１又は第１のビームフォーマ５０５のいずれかからのビームフォーミングされたオーディオ出力のいずれかにおいて存在するかどうかを決定する。各ビームフォーミングされたオーディオ出力についての検出／推定結果は、ビームフォーマコントローラ７０１にフォワーディングされ、ビームフォーマコントローラ７０１はこれを評価する。ポイントオーディオソースが、第１のビームフォーマ５０５についてのみ検出され、制約付きビームフォーマ５０９、５１１のいずれについても検出されない場合、これは、スピーカーなどのポイントオーディオソースが存在し、第１のビームフォーマ５０５によって検出されるが、制約付きビームフォーマ５０９、５１１のいずれもポイントオーディオソースを検出しなかったか、又はポイントオーディオソースに適応されなかった状況を反映する。この場合、制約付きビームフォーマ５０９、５１１は、ポイントオーディオソースに決して適応しない（又は極めて低速にのみ適応する）。制約付きビームフォーマ５０９、５１１のうちの１つは、ポイントオーディオソースに対応するビームを形成するために初期化される。その後、このビームは、ポイントオーディオソースに十分に近い可能性があり、それは、（一般に低速に、ただし確実に）この新しいポイントオーディオソースに適応する。

本手法は、高速の第１のビームフォーマ５０５と確実な制約付きビームフォーマ５０９、５１１の両方の有利な効果を合成し与える。

いくつかの実施形態では、ビームフォーマコントローラ７０１は、制約付きビームフォーマ５０９、５１１についての差分測度がしきい値を超える場合のみ、制約付きビームフォーマ５０９、５１１を初期化するように構成される。詳細には、制約付きビームフォーマ５０９、５１１についての最も低い決定された差分測度がしきい値を下回る場合、初期化は実行されない。そのような状況では、制約付きビームフォーマ５０９、５１１の適応が所望の状況により近いが、第１のビームフォーマ５０５のあまり確実でない適応があまり正確でなく、第１のビームフォーマ５０５により近くなるように適応することが可能である。差分測度が十分に低いそのようなシナリオでは、システムが自動的に適応することを試みることを可能にすることが有利である。

いくつかの実施形態では、ビームフォーマコントローラ７０１は、詳細には、ポイントオーディオソースが第１のビームフォーマ５０５と制約付きビームフォーマ５０９、５１１のうちの１つの両方について検出されたが、これらについての差分測度が類似性基準を満たすことができないとき、制約付きビームフォーマ５０９、５１１を初期化するように構成される。詳細には、ビームフォーマコントローラ７０１は、ポイントオーディオソースが第１のビームフォーマ５０５からのビームフォーミングされたオーディオ出力と制約付きビームフォーマ５０９、５１１からのビームフォーミングされたオーディオ出力の両方において検出され、これらについての差分測度がしきい値を超える場合、第１のビームフォーマ５０５のビームフォームパラメータに応答して第１の制約付きビームフォーマ５０９、５１１についてのビームフォームパラメータを設定するように構成される。

そのようなシナリオは、制約付きビームフォーマ５０９、５１１が場合によってはポイントオーディオソースに適応し、ポイントオーディオソースをキャプチャしたが、そのポイントオーディオソースは、第１のビームフォーマ５０５によってキャプチャされたポイントオーディオソースとは異なる状況を反映する。そのようなシナリオは、詳細には、制約付きビームフォーマ５０９、５１１が「間違った」ポイントオーディオソースをキャプチャしたことを反映する。制約付きビームフォーマ５０９、５１１は、所望のポイントオーディオソースのほうへビームを形成するために再初期化される。

いくつかの実施形態では、アクティブである制約付きビームフォーマ５０９、５１１の数は、変動している。たとえば、オーディオキャプチャ装置は、潜在的に比較的多数の制約付きビームフォーマ５０９、５１１を形成するための機能を備える。たとえば、オーディオキャプチャ装置は、最高で、たとえば、８つの同時の制約付きビームフォーマ５０９、５１１を実装する。しかしながら、たとえば電力消費及び計算負荷を低減するために、これらのすべてが同時にアクティブであるとは限らない。

いくつかの実施形態では、制約付きビームフォーマ５０９、５１１のアクティブセットが、ビームフォーマのより大きいプールから選択される。これは、詳細には、制約付きビームフォーマ５０９、５１１が初期化されるときに行われる。上記で与えられた例では、（たとえば、ポイントオーディオソースが、アクティブな制約付きビームフォーマ５０９、５１１において検出されない場合の）制約付きビームフォーマ５０９、５１１の初期化は、プールからのアクティブでない制約付きビームフォーマ５０９、５１１を初期化し、それにより、アクティブな制約付きビームフォーマ５０９、５１１の数を増加させることによって、達成される。

プール中のすべての制約付きビームフォーマ５０９、５１１が現在アクティブである場合、制約付きビームフォーマ５０９、５１１の初期化は、現在アクティブな制約付きビームフォーマ５０９、５１１を初期化することによって行われる。初期化されるべき制約付きビームフォーマ５０９、５１１は、任意の好適な基準に従って選択される。たとえば、最も大きい差分測度又は最も低い信号レベルを有する制約付きビームフォーマ５０９、５１１が選択される。

いくつかの実施形態では、制約付きビームフォーマ５０９、５１１は、好適な基準が満たされたことに応答して非アクティブ化される。たとえば、制約付きビームフォーマ５０９、５１１は、差分測度が所与のしきい値を上回って増加した場合、非アクティブ化される。

上記で説明された例の多くに従って制約付きビームフォーマ５０９、５１１の適応及び設定を制御するための特定の手法が、図８のフローチャートによって示されている。

本方法は、次の処理時間間隔を初期化すること（たとえば、次の処理時間間隔の開始を待つこと、処理時間間隔のためのサンプルのセットを集めることなど）によって、ステップ８０１において開始する。

ステップ８０１の後にステップ８０３が続き、制約付きビームフォーマ５０９、５１１のビームのいずれかにおいて検出されたポイントオーディオソースがあるかどうかが決定される。

制約付きビームフォーマ５０９、５１１のビームのいずれかにおいて検出されたポイントオーディオソースがある場合、本方法はステップ８０５において続き、差分測度が類似性基準を満たすかどうか、詳細には、差分測度がしきい値を下回るかどうかが決定される。

差分測度が類似性基準を満たす場合、本方法はステップ８０７において続き、ポイントオーディオソースが検出された（又は、ポイントオーディオソースが２つ以上の制約付きビームフォーマ５０９、５１１において検出された場合には最も大きい信号レベルを有する）制約付きビームフォーマ５０９、５１１が適応され、すなわち、ビームフォーム（フィルタ）パラメータが更新される。

差分測度が類似性基準を満たさない場合、本方法はステップ８０９において続き、制約付きビームフォーマ５０９、５１１が初期化され、制約付きビームフォーマ５０９、５１１のビームフォームパラメータは、第１のビームフォーマ５０５のビームフォームパラメータに応じて設定される。初期化されている制約付きビームフォーマ５０９、５１１は、新しい制約付きビームフォーマ５０９、５１１（すなわち、非アクティブなビームフォーマのプールからのビームフォーマ）であるか、又は、新しいビームフォームパラメータが与えられるすでにアクティブな制約付きビームフォーマ５０９、５１１である。

ステップ８０７及びステップ８０９のいずれかに続いて、本方法はステップ８０１に戻り、次の処理時間間隔を待つ。

ステップ８０３において、ポイントオーディオソースが制約付きビームフォーマ５０９、５１１のいずれかのビームフォーミングされたオーディオ出力において検出されなかったことが検出された場合、本方法はステップ８１１に進み、ポイントオーディオソースが第１のビームフォーマ５０５において検出されたかどうか、すなわち、現在のシナリオが、ポイントオーディオソースが第１のビームフォーマ５０５によってキャプチャされたが制約付きビームフォーマ５０９、５１１のいずれによってもキャプチャされていないことに対応するかどうかが決定される。

ポイントオーディオソースが第１のビームフォーマ５０５において検出されない場合、ポイントオーディオソースはまったく検出されず、本方法はステップ８０１に戻って、次の処理時間間隔を待つ。

他の場合、本方法はステップ８１３に進み、差分測度が類似性基準を満たすかどうか、詳細には、差分測度が（ステップ８０５において使用されるものと同じであるか、又は異なるしきい値／基準である）しきい値を下回るかどうかが決定される。

差分測度が類似性基準を満たす場合、本方法はステップ８１５に進み、差分測度がしきい値を下回る制約付きビームフォーマ５０９、５１１が適応される（又は、２つ以上の制約付きビームフォーマ５０９、５１１が基準を満たす場合、たとえば最も低い差分測度をもつものが選択される）。

他の場合、本方法はステップ８１７に進み、制約付きビームフォーマ５０９、５１１が初期化され、制約付きビームフォーマ５０９、５１１のビームフォームパラメータは、第１のビームフォーマ５０５のビームフォームパラメータに応じて設定される。初期化されている制約付きビームフォーマ５０９、５１１は、新しい制約付きビームフォーマ５０９、５１１（すなわち、非アクティブなビームフォーマのプールからのビームフォーマ）であるか、又は、新しいビームフォームパラメータが与えられるすでにアクティブな制約付きビームフォーマ５０９、５１１である。

ステップ８１５及びステップ８１７のいずれかに続いて、本方法はステップ８０１に戻り、次の処理時間間隔を待つ。

図５〜図７のオーディオキャプチャ装置の説明された手法は、多くのシナリオにおいて有利な性能を与え、特に、オーディオキャプチャ装置が、オーディオソースをキャプチャするために、集束された、ロバストで正確なビームを動的に形成することを可能にする傾向がある。ビームは、異なる領域をカバーするように適応される傾向があり、本手法は、たとえば、最も近い制約付きビームフォーマ５０９、５１１を自動的に選択し、適応させる。

たとえば図２の手法とは対照的に、ビーム方向又はフィルタ係数に関する特定の制約が直接課される必要がない。むしろ、支配的な単一のオーディオソースがあるとき、及びそれが制約付きビームフォーマ５０９、５１１のビームに十分に近いときのみ、制約付きビームフォーマ５０９、５１１を（条件付きで）適応させることによって、別個の領域が自動的に生成／形成され得る。これは、詳細には、直接場と（第１の）反射の両方を考慮に入れるフィルタ係数を考慮することによって決定され得る。

（単純な遅延フィルタ、すなわち、単一係数フィルタを使用することとは対照的に）拡張インパルス応答をもつフィルタを使用することは、直接場の後ある（特定の）時間が経って反射が到着することをも考慮に入れることに留意されたい。ビームは、空間的特性（直接場及び反射がどの方向から到着するか）によって決定されるだけでなく、時間的特性（直接場が到着した後のどの時間において反射が到着するか）によっても決定される。ビームへの言及は、単に空間的考慮事項に制限されるだけでなく、ビームフォームフィルタの時間成分をも反映する。同様に、領域への言及は、ビームフォームフィルタの純粋に空間的な効果と時間的な効果の両方を含む。

本手法は、第１のビームフォーマ５０５の自走するビームと制約付きビームフォーマ５０９、５１１のビームとの間の距離測度の差分によって決定される領域を形成すると考えられ得る。たとえば、制約付きビームフォーマ５０９、５１１が（空間的特性と時間的特性の両方をもつ）ソースに集束されたビームを有すると仮定する。そのソースが無音であり、新しいソースがアクティブになり、第１のビームフォーマ５０５がこれに集束するように適応すると仮定する。次いで、第１のビームフォーマ５０５のビームと制約付きビームフォーマ５０９、５１１のビームとの間の距離がしきい値を超えないような空間時間的特性をもつあらゆるソースが、制約付きビームフォーマ５０９、５１１の領域中にあると考えられ得る。このようにして、第１の制約付きビームフォーマ５０９に関する制約は、空間における制約に変換されると考えられ得る。

ビームを初期化する（たとえば、ビームフォームフィルタ係数をコピーする）手法とともに、制約付きビームフォーマの適応のための距離基準は、一般に、制約付きビームフォーマ５０９、５１１が異なる領域においてビームを形成することを可能にする。

本手法は、一般に、図２の手法のような所定の固定システムではなく、環境におけるオーディオソースの存在を反映する領域の自動形成を生じる。このフレキシブルな手法は、システムが、反射によって引き起こされるものなど、空間時間的特性に基づくことを可能にし、空間時間的特性は、（これらの特性が、部屋のサイズ、形状及び残響特性など、多くのパラメータに依存するので）所定及び固定システムにとって含むことが極めて困難で複雑である。

上記の説明では、明快のために、異なる機能回路、ユニット及びプロセッサに関して本発明の実施形態について説明したことが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット又はプロセッサ間の機能の任意の好適な分散が使用されることは明らかであろう。たとえば、別個のプロセッサ又はコントローラによって実行されるものとして示された機能は、同じプロセッサ又はコントローラによって実行される。特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造或いは編成を示すのではなく、説明された機能を提供するための好適な手段への言及としてのみ参照されるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含む任意の好適な形態で実装され得る。本発明は、少なくとも部分的に、１つ又は複数のデータプロセッサ及び／又はデジタル信号プロセッサ上で実行しているコンピュータソフトウェアとして、オプションで実装される。本発明の一実施形態の要素及び構成要素は、物理的に、機能的に及び論理的に、任意の好適なやり方で実装される。実際、機能は、単一のユニットにおいて、複数のユニットにおいて又は他の機能ユニットの一部として実装される。本発明は、単一のユニットにおいて実装されるか、又は、異なるユニット、回路及びプロセッサ間で物理的に及び機能的に分散される。

本発明はいくつかの実施形態に関して説明されたが、本発明は、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によって限定されるにすぎない。さらに、特徴は特定の実施形態に関して説明されるように見えるが、説明された実施形態の様々な特徴が本発明に従って組み合わせられることを、当業者は認識されよう。特許請求の範囲において、備える、含む、有するという用語は、他の要素又はステップが存在することを除外するものではない。

さらに、個々にリストされているが、複数の手段、要素、回路又は方法のステップは、たとえば単一の回路、ユニット又はプロセッサによって実施される。さらに、個々の特徴は異なる請求項に含まれるが、これらは、場合によっては、有利に組み合わせられ、異なる請求項に含むことは、特徴の組合せが実現可能及び／又は有利でないことを暗示するものではない。また、請求項の１つのカテゴリーに特徴を含むことは、このカテゴリーの限定を暗示するものではなく、むしろ、特徴が、適宜に、他の請求項のカテゴリーに等しく適用可能であることを示すものである。さらに、請求項における特徴の順序は、特徴が動作されなければならない特定の順序を暗示するものではなく、特に、方法クレームにおける個々のステップの順序は、ステップがこの順序で実行されなければならないことを暗示するものではない。むしろ、ステップは、任意の好適な順序で実行される。さらに、単数形の言及は、複数を除外しない。「ａ」、「ａｎ」、「第１の」、「第２の」などへの言及は、複数を排除しない。特許請求の範囲中の参照符号は、明快にする例として与えられたにすぎず、いかなる形でも、特許請求の範囲を限定するものと解釈されるべきでない。

Claims

マイクロフォンアレイと、
前記マイクロフォンアレイに結合され、第１のビームフォーミングされたオーディオ出力を生成する第１のビームフォーマであって、各々が第１の適応インパルス応答を有する第１の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマである、当該第１のビームフォーマと、
前記マイクロフォンアレイに結合され、第２のビームフォーミングされたオーディオ出力を生成する第２のビームフォーマであって、各々が第２の適応インパルス応答を有する第２の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマである、当該第２のビームフォーマと、
前記第１の適応インパルス応答と前記第２の適応インパルス応答との比較に応答して、前記第１のビームフォーマのビームと前記第２のビームフォーマのビームとの間の差分測度を決定するための差分プロセッサと
を備える、ビームフォーミングオーディオキャプチャ装置。
前記差分プロセッサは、前記マイクロフォンアレイの各マイクロフォンについて、当該マイクロフォンのための前記第１の適応インパルス応答と前記第２の適応インパルス応答との間の相関を決定し、前記マイクロフォンアレイの各マイクロフォンについての相関の合成に応答して前記差分測度を決定する、請求項１に記載のビームフォーミングオーディオキャプチャ装置。
前記差分プロセッサは、前記第１の適応インパルス応答の周波数ドメイン表現と前記第２の適応インパルス応答の周波数ドメイン表現とを決定し、前記第１の適応インパルス応答の前記周波数ドメイン表現と前記第２の適応インパルス応答の前記周波数ドメイン表現とに応答して前記差分測度を決定する、請求項１に記載のビームフォーミングオーディオキャプチャ装置。
前記差分プロセッサは、前記周波数ドメイン表現の周波数についての周波数差分測度を決定し、前記周波数ドメイン表現の周波数についての前記周波数差分測度に応答して前記差分測度を決定し、前記差分プロセッサは、第１の周波数ドメイン係数と第２の周波数ドメイン係数とに応答して第１の周波数及び前記マイクロフォンアレイの第１のマイクロフォンについての周波数差分測度を決定し、前記第１の周波数ドメイン係数は、前記第１のマイクロフォンのための前記第１の適応インパルス応答についての前記第１の周波数についての周波数ドメイン係数であり、第２の周波数ドメイン係数は、前記第１のマイクロフォンのための前記第２の適応インパルス応答についての前記第１の周波数についての周波数ドメイン係数であり、前記差分プロセッサはさらに、前記マイクロフォンアレイの複数のマイクロフォンについての周波数差分測度の合成に応答して前記第１の周波数についての前記周波数差分測度を決定する、請求項３に記載のビームフォーミングオーディオキャプチャ装置。
前記差分プロセッサは、前記第１の周波数ドメイン係数と前記第２の周波数ドメイン係数の共役との乗算に応答して前記第１の周波数及び前記第１のマイクロフォンについての前記周波数差分測度を決定する、請求項４に記載のビームフォーミングオーディオキャプチャ装置。
前記差分プロセッサは、前記マイクロフォンアレイの前記複数のマイクロフォンについての前記第１の周波数についての前記周波数差分測度の合成の実数部に応答して前記第１の周波数についての前記周波数差分測度を決定する、請求項５に記載のビームフォーミングオーディオキャプチャ装置。
前記差分プロセッサは、前記マイクロフォンアレイの前記複数のマイクロフォンについての前記第１の周波数についての前記周波数差分測度の合成のノルムに応答して前記第１の周波数についての前記周波数差分測度を決定する、請求項５に記載のビームフォーミングオーディオキャプチャ装置。
前記差分プロセッサは、前記マイクロフォンアレイの前記複数のマイクロフォンについての前記第１の周波数ドメイン係数の和についてのＬ２ノルムの関数と前記第２の周波数ドメイン係数の和についてのＬ２ノルムの関数との和に対する、前記マイクロフォンアレイの前記複数のマイクロフォンについての前記第１の周波数についての前記周波数差分測度の合成の実数部及びノルムのうちの少なくとも一方に応答して前記第１の周波数についての前記周波数差分測度を決定する、請求項６又は７に記載のビームフォーミングオーディオキャプチャ装置。
前記差分プロセッサは、前記マイクロフォンアレイの前記複数のマイクロフォンについての前記第１の周波数ドメイン係数の和についてのＬ２ノルムの関数と前記第２の周波数ドメイン係数の和についてのＬ２ノルムの関数との積に対する、前記マイクロフォンアレイの前記複数のマイクロフォンについての前記第１の周波数についての前記周波数差分測度の合成のノルムに応答して前記第１の周波数についての前記周波数差分測度を決定する、請求項６又は７に記載のビームフォーミングオーディオキャプチャ装置。
前記差分プロセッサは、前記周波数差分測度の周波数選択性重み付き和として前記差分測度を決定する、請求項４乃至９の何れか一項に記載のビームフォーミングオーディオキャプチャ装置。
前記第１の複数のビームフォームフィルタと前記第２の複数のビームフォームフィルタとは、複数の係数を有する有限インパルス応答フィルタである、請求項１乃至１０の何れか一項に記載のビームフォーミングオーディオキャプチャ装置。
前記ビームフォーミングオーディオキャプチャ装置は、
前記マイクロフォンアレイに結合され、各々が制約付きのビームフォーミングされたオーディオ出力を生成する、複数の制約付きビームフォーマであって、前記複数の制約付きビームフォーマの各制約付きビームフォーマが、前記複数の制約付きビームフォーマからの他の制約付きビームフォーマの領域とは異なる領域においてビームを形成するように制約され、前記第２のビームフォーマが前記複数の制約付きビームフォーマのうちの制約付きビームフォーマである、当該複数の制約付きビームフォーマと、
前記第１のビームフォーマのビームフォームパラメータを適応させるための第１の適応器と、
前記複数の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるための第２の適応器と
をさらに備え、
前記第２の適応器は、類似性基準を満たす差分測度が決定された、前記複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させる、
請求項１乃至１１の何れか一項に記載のビームフォーミングオーディオキャプチャ装置。
前記ビームフォーミングオーディオキャプチャ装置は、第２のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するためのオーディオソース検出器をさらに備え、前記第２の適応器は、前記制約付きのビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在が検出された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させる、請求項１２に記載のビームフォーミングオーディオキャプチャ装置。
マイクロフォンアレイと、
前記マイクロフォンアレイに結合された第１のビームフォーマであって、各々が第１の適応インパルス応答を有する第１の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマである、当該第１のビームフォーマと、
前記マイクロフォンアレイに結合された第２のビームフォーマであって、各々が適応インパルス応答を有する第２の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマである、当該第２のビームフォーマと
を備えるビームフォーミングオーディオキャプチャ装置のための動作の方法であって、前記方法は、
前記第１のビームフォーマが第１のビームフォーミングされたオーディオ出力を生成するステップと、
前記第２のビームフォーマが第２のビームフォーミングされたオーディオ出力を生成するステップと、
前記第１の適応インパルス応答と第２の適応インパルス応答との比較に応答して、前記第１のビームフォーマのビームと前記第２のビームフォーマのビームとの間の差分測度を決定するステップと
を有する、方法。
コンピュータ上で動作するときに、請求項１４に記載の方法の全てのステップを実行するコンピュータプログラムコード手段を含む、コンピュータプログラム。