JP5608678B2

JP5608678B2 - パーティクルフィルタリングを利用した音源位置の推定

Info

Publication number: JP5608678B2
Application number: JP2011541675A
Authority: JP
Inventors: ペーレー，ウェイ; エーサラウク，バハー; スタイフェンベルフ，レオンセーアーファン; ペーヤンセ，コルネリス
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-12-16
Filing date: 2009-12-11
Publication date: 2014-10-15
Anticipated expiration: 2029-12-11
Also published as: CN102257401A; EP2380033B1; KR20110102466A; US20110232989A1; US8403105B2; WO2010070556A3; JP2012512413A; CN102257401B; RU2011129602A; EP2380033A2; WO2010070556A2; RU2511672C2; KR101659712B1

Description

本発明は、パーティクルフィルタリング（ｐａｒｔｉｃｌｅｆｉｌｔｅｒｉｎｇ）を利用した音源位置の推定に関し、特に限定することなくマルチモーダルオーディオビジュアル通信アプリケーションのための音源位置の推定のためのものである。

音源の配置位置の検出は、多くのサービス及びアプリケーションにとって重要である。例えば、オーディオビジュアルテレビ会議アプリケーションでは、推定された発話者の位置を利用してビームを導くことによりスピーチ信号をビームフォーミング技術によりエンハンスするなどによって、発話者の位置を検出することによってパフォーマンスを向上させることが可能である。他の例として、ビデオが、推定される発話者の位置にズームインするなどによってエンハンスされてもよい。

従って、音源位置を推定するためのシステム及びアルゴリズムが開発されてきた。具体的には、パーティクルフィルタリング技術を用いて音源位置を推定及び追跡することが提案されてきた。パーティクルフィルタリングは、連続的な時点のシステムの現在状態を反映する状態変数の値を推定しようとするものである。例えば、パーティクルフィルタは、音源位置を表す状態変数の値を推定しようとするものである。しかしながら、単一の値や推定値を単に考慮するのでなく、パーティクルフィルタリングは、各時点における状態変数の確率密度を考慮する。パーティクルフィルタリングは、所与の（サンプル）時点の状態変数の値が以前の（サンプル）時点の状態変数の値に基づき決定されるシーケンシャルアプローチに基づく。ある時点の状態変数がそれの確率密度関数（従って、状態変数の値の知識／推定の不確実性を反映する）によって表されるとき、これは、原理的には以前の時点の確率密度関数から当該時点の確率密度関数を決定することを伴う。

しかしながら、多くのシナリオでは、これは解析的に実用的、実現可能又は可能でない。例えば、非ガウスノイズの非線形システムについて、以前の時点の確率密度関数に基づく所与の時点の確率密度関数の計算は、実現可能でない。パーティクルフィルタリングは、各パーティクルが状態変数の可能な値を表すパーティクルの集合により確率密度関数を表すことによって、上記問題を解決する。このとき、所与の時点における確率密度関数は、既知の状態変数更新関数に基づき以前の時点の各パーティクルの更新された状態変数値を計算することによって決定される。パーティクルの更新はさらに、適切なノイズプロファイルに従ってノイスを追加する。

さらに、各パーティクルは、当該パーティクルの可能性の指標を表す関連するウェイトを有する。パーティクルのウェイトは、システムの測定結果に基づきある時点から次の時点までの更新において変更される。従って、測定値が状態変数値から推定又は計算可能であることが仮定される（例えば、測定関数などによって）。この関係は、具体的には、既知の（又は仮定される）ノイズプロファイルに従うノイズの影響を含むものであってもよい。従って、パーティクルのウェイトは、更新の関数として変更されてもよい。特に、実際の測定結果が（測定関数を用いて評価される）更新された状態変数値から生じる相対的に高い確率を有する場合、パーティクルのウェイトは以前のウェイトに対して相対的に増加する。他方、実際の測定結果が更新された状態変数値から生じる相対的に低い確率を有する場合、パーティクルのウェイトは、以前のウェイトより相対的に減少する。

従って、ある時点から次の時点までのパーティクルの更新の一部として、パーティクルのウェイトは、与えられたパーティクルがどの程度の可能性で新たな測定を生じさせるか反映するよう変更される。従って、ウェイトは、各パーティクルが測定値を生じさせる実際の状態値に対応する確率を反映するよう連続的に更新される。

従って、パーティクルフィルタリングでは、各パーティクルは、状態変数の確率密度関数の離散的なサンプルとみなされてもよい。

ウェイトは、典型的には、状態変数の確率密度関数に対して収束する。しかしながら、パーティクルフィルタリングアプローチは、しばしば多数のウェイトが極めて小さな値を有することになる一方、他のものは大きな値を有するように、ウェイトの縮退を生じさせる可能性がある。すなわち、パーティクルフィルタリングは、情報をパーティクルの相対的に小さな割合に集中させる可能性がある。この問題を解決するため、サンプルパーティクルのより均等な分布を提供する新たなサンプルが生成されるリサンプリングが実行されてもよい。このアプローチは、重要サンプリングアプローチに対応し、確率密度関数が相対的に大きな値を有するエリアにより多くのパーティクルを集中させ、確率密度関数がより小さな値を有するエリアにはより少ないパーティクルを存在させる。

具体例として、リサンプリングは、パーティクル毎に平均ウェイトを計算し、当該ウェイトが各パーティクルに割り当てられることによって新たなパーティクルセットを生成することによって実行されてもよい。しかしながら、この新たなパーティクルセットは、パーティクルの以前のウェイトを反映するよう分散される。具体例として、各パーティクルは、新たなサンプルの個数が平均ウェイトにより除されたパーティクルのウェイトとして与えられることによって、（ほぼ）同じ状態変数値を有するいくつかのパーティクルに分割されてもよい。これはさらに、多数のパーティクルがパーティクルセットから削除される（及び上記平均ウェイトのパーティクルに対する複製パーティクルにより置換される）。

従って、所与の時点において、状態変数の確率密度関数はパーティクルにより表され、具体的にはパーティクルの分布（すなわち、状態変数値の重要性サンプリングなど）とそれらのウェイトとの組み合わせによって表される。

状態変数値の単一の推定は、各値がパーティクルのウェイトにより重み付けされることによって、パーティクル値の和によって決定することが可能である。従って、状態変数は、離散的なサンプリングされた確率密度関数の（各サンプルはパーティクルに対応する）の統合（加重和）から推定される。

パーティクルフィルタリングに関するさらなる情報は、例えば、Ｍ．ＳａｎｊｅｅｖＡｒｕｌａｍｐａｌａｍらによる“ＡＴｕｔｏｒｉａｌｏｎＰａｒｔｉｃｌｅＦｉｌｔｅｒｓｆｏｒＯｎｌｉｎｅＮｏｎｌｉｎｅａｒ／Ｎｏｎ−ＧａｕｓｓｉａｎＢａｙｅｓｉａｎＴｒａｃｋｉｎｇ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓＯｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．５０，ｎｐ．２，Ｆｅｂｒｕａｒｙ２００２などに見つけることができる。

しかしながら、パーティクルフィルタリングに関する問題は、パーティクルのウェイトの十分正確な更新が十分信頼できる結果を取得するため重要であることである。実際、音源位置に対して、パーティクルウェイト及び分布の適応化は、状態変数と実際の音源位置との間の関係を正確に反映する適切な測定結果と測定関数とに大きく依存する。しかしながら、現在適用される大部分の測定技術と関数とは、サブ最適な結果をもたらす傾向がある。

従って、パーティクルフィルタリングを利用した改良された音源位置推定が効果的であり、特にフレキシビリティを向上させ、コンプレクシティを低減し、精度を向上させ、及び／又はパフォーマンスを向上させることを可能にするアプローチが効果的であろう。

従って、本発明は、好ましくは上述した課題の１以上を単独で又は何れかの組み合わせにより軽減、解決又は解消することである。

本発明の一態様によると、パーティクルフィルタリングによる音源の音源位置を推定する方法であって、ある時点における前記音源位置を有する状態変数の確率密度関数を表すパーティクルセットを生成するステップを繰り返すステップを有し、
前記生成するステップは、前記パーティクルセットの各パーティクルに対して、以前の時点における前記パーティクルの状態値に応答して前記時点における前記パーティクルの状態値を生成するステップと、前記以前の時点における前記パーティクルのウェイトと前記時点における測定結果とに応答して、前記時点における前記パーティクルのウェイトを生成するステップとを含み、当該方法はさらに、第１時点における前記パーティクルセットの状態値の組み合わせに応答して、前記第１時点の音源位置推定を有する状態変数推定を生成するステップを有し、前記パーティクルセットの各パーティクルの貢献は、前記パーティクルのウェイトに依存し、前記時点における前記パーティクルのウェイトを生成するステップは、前記音源から前記第１時点の少なくとも２つの音声記録位置への推定された音響伝達関数の間の相関に応答して前記ウェイトを決定することを含む方法が提供される。

本発明は、音源位置の推定を向上させ、特に音源位置を推定するための効率的及び／又は正確なパーティクルフィルタリングアプローチを可能にする。さらに、実際的で複雑さの低いアプローチが利用されてもよい。特に、音響データ又は測定結果を推定し、パーティクルフィルタリングベースの音源位置の推定に組み込むための複雑さの低い、及び／又はリソース要求の低いアプローチが実現可能である。

状態変数は、具体的には、音源位置を表す１以上の変数（座標セットなど）から構成されてもよい。状態変数は、いくつかの実施例では、音源位置を表さない他の変数を有してもよい。状態変数は、複数の個別の変数又はパラメータを有してもよい。状態値は、複数の個別のパラメータ又は変数値を有してもよい。例えば、状態値は、スカラーた複素数などのベクトルであってもよい。

音響伝達関数は、具体的には、それらのインパルス応答により表されてもよい。

本発明の任意的特徴によると、前記ウェイトを生成するステップは、前記パーティクルの状態値に対応する遅延の前記相関の値に応答して、前記パーティクルのウェイトを決定することを含む。

これは、パーティクルフィルタリングに基づく音源位置の推定を向上及び／又は容易にする。特に、本発明は、パーティクルフィルタリングのためのウェイト更新を向上させる。特に、相関は、パーティクル確率に対する測定の影響の極めて効果的な反映を提供する。さらに、本発明者は、状態値により表される位置に対応する遅延の相関の値が、状態値により表される位置に実際の音源の位置が一致する確率の信頼できる指標を提供することを理解していた。

本発明の任意的特徴によると、前記ウェイトは、前記相関の値に対する決定的な関係を有する。

これは、パーティクルフィルタリングに基づく音源位置の推定を向上及び／又は容易にする。特に、本発明は、パーティクルフィルタリングのためのウェイト更新を向上させる。特に、相関は、パーティクル確率に対する測定の影響の極めて効果的な反映を提供する。さらに、本発明者は、状態値により表される位置に対応する遅延の相関の値が、状態値により表される位置に実際の音源の位置が一致する確率の信頼できる指標を提供することを理解していた。特に、本発明者は、ウェイト更新の測定関数に関する不確実性及び／又はノイズが異なる遅延の相関の変更によって表されることを理解していた。従って、ノイズ及び／又は不確実性は、他のノイズや確率的貢献が考慮されないとき、相関によって表されてもよい。

本発明の任意的特徴によると、前記決定的な関係は、非線形である。

当該特徴は、音源位置の推定を向上させ、特に相関による測定処理におけるノイズ及び不確実性の表現を向上させる。特に、このアプローチは、相関による測定関数の確率密度関数のより近い表現を可能にする。

本発明の任意的特徴によると、前記ウェイトを生成するステップは、前記以前の時点における前記パーティクルのウェイトに応答して、前記時点における前記パーティクルのウェイトに関するウェイト更新関数の擬似確率関数の指標として前記相関を利用することを含む。

本発明の任意的特徴によると、前記音源位置は、２次元平面の２次元位置により表される。

本発明は、テレビ会議などの合成されたオーディオビジュアルアプリケーションなどを含む多数のアプリケーションに特に適した２次元の効率的及び／又は正確な音源位置を提供する。

本発明の任意的特徴によると、前記音源を含む環境をカバーするカメラから少なくとも１つの画像を受信するステップをさらに有し、前記２次元位置は、前記少なくとも１つの画像における位置である。

本発明は、ビデオアプリケーションなどの音源位置推定及び画像アプリケーションの特に正確な統合を提供する。特に、本発明は、オーディオビジュアル処理の特に効果的な組み合わせを提供し、キャプチャされた画像における音源の特定を向上させる。

カメラはまた、第１及び第２音声記録位置における音声記録要素によりカバーされるエリアをキャプチャするよう配置されてもよい。例えば、カメラは、音声記録位置における２つのマイクロフォンの間に配置されてもよい。

本発明の任意的特徴によると、前記ウェイトを生成するステップは、前記パーティクルの画像領域測定に応答して第１ウェイトの貢献を生成するステップと、前記相関に応答して第２ウェイトの貢献を生成するステップと、前記第１ウェイトと前記第２ウェイトとの組み合わせとして前記ウェイトを生成するステップとを含む。

本発明は、マルチモーダルパーティクルフィルタリングアプローチに基づき音源位置を決定するのに特に効果的なアプローチを提供する。

本発明の任意的特徴によると、本方法は、前記相関に応答して前記第１ウェイトの貢献の信頼度の指標を生成するステップと、前記信頼度の指標に応答して、前記第２ウェイトの貢献に対する前記組み合わせにおける前記第１ウェイトの貢献の貢献を調整するステップとをさらに有する。

本発明は、マルチモーダルパーティクルフィルタリングアプローチに基づく音源の位置の推定を向上させ、特にオーディオ領域とビデオ／ビジュアル領域とからの貢献の統合を向上させる。

本発明の任意的特徴によると、前記音源位置に対してオーディオビームフォーミングを実行し、前記オーディオビームフォーミングに応答して前記伝達関数を推定するステップをさらに有する。

これは、適切な音響伝達関数を推定する特に適切な方法を提供し、パフォーマンスを向上させ、及び／又は複雑さを低減する。

本発明の任意的特徴によると、前記ウェイトを生成するステップは、前記音源から前記少なくとも２つの音声記録位置の１つまでの推定された音響伝達関数と、前記音源から前記第１時点の他の音声記録位置までの推定された音響伝達関数との間の第２相関に応答して、前記ウェイトを決定することを含み、前記他の音声記録位置は、前記少なくとも２つの音声記録位置の間のラインに対するオフセットである。

当該特徴は、音源位置の推定を向上させ、多くの実施例では、２次元の音源の特定を向上させる。

本発明の任意的特徴によると、前記ウェイトを生成するステップは、前記少なくとも２つの音声記録位置の第１位置における音声記録要素から第１信号を受信するステップと、前記少なくとも２つの音声記録位置の第２位置における音声記録要素から第２信号を受信するステップと、前記第１信号と前記第２信号とに応答して、前記音響伝達関数を推定するステップとを含む。

当該特徴は、音源位置の推定を向上させる。

本発明の任意的特徴によると、前記ウェイトを生成するステップは、第１フィルタリング信号を生成するため、第１適応的フィルタにおいて前記第１信号をフィルタリングするステップと、第２フィルタリング信号を生成するため、第２適応的フィルタにおいて前記第２信号をフィルタリングするステップと、合成された指向性信号を生成するため、前記第１フィルタリング信号と前記第２フィルタリング信号とを加算するステップと、前記合成された指向性信号の音源成分のパワー推定が最大化されるように前記合成された指向性信号を生成するため、前記第１適応的フィルタと前記第２適応的フィルタとの係数を設定するステップと、前記第１適応的フィルタと前記第２適応的フィルタとの係数に応答して、前記音響伝達関数を推定するステップとを有する。

当該特徴は、音源位置の推定を向上させ、特に適切な相関関数の特に効果的な決定を提供する。このアプローチは、特にパーティクルのウェイト更新を決定するのに適した相関関数の複雑さの低い正確な決定を可能にする。

本発明の任意的特徴によると、前記ウェイトを生成するステップは、第３フィルタリング信号を生成するため、第３適応的フィルタにおいて前記合成された指向性信号をフィルタリングするステップと、前記第１信号と前記第３フィルタリング信号との間の差分信号を決定するステップと、前記差分信号を低減するため、前記第１適応的フィルタの伝達関数を適応させるステップとを含み、前記第３適応的フィルタの伝達関数は、前記第１適応的フィルタの遅延補償された実質的に複素共役伝達関数に対応する。

本発明の一態様によると、パーティクルフィルタリングによる音源の音源位置を推定する装置であって、ある時点における前記音源位置を有する状態変数の確率密度関数を表すパーティクルセットを生成するステップを繰り返す手段を有し、前記生成するステップは、前記パーティクルセットの各パーティクルに対して、以前の時点における前記パーティクルの状態値に応答して前記時点における前記パーティクルの状態値を生成するステップと、前記以前の時点における前記パーティクルのウェイトと前記時点における測定結果とに応答して、前記時点における前記パーティクルのウェイトを生成するステップとを有し、当該装置はさらに、第１時点における前記パーティクルセットの状態値の組み合わせに応答して、前記第１時点の音源位置推定を有する状態変数推定を生成する手段を有し、前記パーティクルセットの各パーティクルの貢献は、前記パーティクルのウェイトに依存し、前記時点における前記パーティクルのウェイトを生成するステップは、前記音源から前記第１時点の少なくとも２つの音声記録位置への推定された音響伝達関数の間の相関に応答して前記ウェイトを決定することを含む装置が提供される。

本発明の上記及び他の態様、特徴及び効果は、後述される実施例を参照して明らかになるであろう。

図１は、本発明のいくつかの実施例によるテレビ会議システムの一例を示す。図２は、図１に示されるテレビ会議システムによりキャプチャされる画像の一例を示す。図３は、本発明のいくつかの実施例によるテレビ会議装置の一例を示す。図４は、本発明のいくつかの実施例による音源推定方法の一例を示す。図５は、本発明のいくつかの実施例による音源推定におけるウェイト決定方法の一例を示す。図６は、本発明のいくつかの実施例による音源推定のためのウェイト更新関数の一例を示す。図７は、本発明のいくつかの実施例による音源推定のためのウェイト更新関数の一例を示す。図８は、本発明のいくつかの実施例による音源推定におけるウェイト決定方法の一例を示す。図９は、本発明のいくつかの実施例によるテレビ会議装置の一例を示す。

以下の説明では、ビデオ入力を受信するテレビ会議システムのための音源位置推定に適用可能な本発明の実施例が着目される。しかしながら、本発明はこの用途に限定されるものでなく、他の多数の用途及びシステムに適用されてもよいことが理解されるであろう。

以下の説明は、特に図１に示されるようなテレビ会議システムに着目する。図１は、音声をキャプチャするための音声記録要素ペア（マイクロフォン１０５，１０７の形態による）とビデオをキャプチャするカメラ１０９との双方を用いて、テレビ会議に参加する１人のユーザ１０１がテレビ会議装置１０３によりキャプチャされるシナリオを示す。テレビ会議装置１０３は、通信システム（図示せず）に接続され、これにより、ユーザはリモートユーザとのテレビ会議セッションに参加することが可能となる。テレビ会議アプリケーションは、具体的にはビデオテレビ会議アプリケーションであってもよい。

システムでは、テレビ会議装置１０３は、マイクロフォン１０５，１０７とカメラ１０９とによりキャプチャされた信号から音声とビデオとの双方を有するオーディオビジュアル信号を生成する。その後、オーディオビジュアル信号は、通信システム（図示せず）を介しリモートユーザの通信されてもよい。

本例では、マイクロフォン１０５，１０７は、互いに相対的に近くの音声記録位置に配置される。多くの実施例では、この距離は、効果的には音源（本例では発話者１０１）への距離の１／１０未満であってもよく、及び／又は５１ｃｍ未満であってもよい。これは、多くのシナリオでは、マイクロフォンによりキャプチャされた音声が後述される処理を促進及び／又は向上させる平面音波からのものであるとみなしてもよい。特に、それは音源推定を促進及び／又は向上させるものであってもよい。

本例では、カメラ１０９が、２つのマイクロフォン１０５，１０７との間に配置され、具体的には、マイクロフォン１０５，１０７の実質的に中間であって、２つの音声記録位置により規定される軸状に実質的に配置される。

システムでは、テレビ会議装置１０３は、特定の例では発話者１０１の位置である音源位置を推定するよう構成される。従って、テレビ会議装置１０３は、発話者からの音声の位置を検出及び追跡しようとする。さらに、本例では、音源の位置は２次元平面において検出される。すなわち、３次元でなく２次元の音源位置推定が実行される。本例では、２次元平面は、カメラ１０９により撮影される画像により規定される平面に対応すると考えられる平面である。

図２は、カメラ１０９によりキャプチャされる画像の一例を示す。この画像は、例えば、ビデオ信号の単一の画像／フレームであってもよい。発話者１０１により構成される音源の画像における位置は、本ケースでは画像位置（ｘ，ｙ）として規定されてもよい。ただし、ｘは水平方向の画像位置を表し、ｙは垂直方向の画像位置を表す。

図１のテレビ会議装置１０３は、音源／発話者１０１の画像の位置（すなわち、座標（ｘ，ｙ））を決定しようとする。その後、推定された音源位置は、テレビ会議装置１０３の処理を最適化するのに利用され、具体的には音源（すなわち、発話者１０１）に音声ビームフォームを導き、又はズームインするのに利用されてもよい。

他の実施例では、開示された原理及びアプローチに従って、他の音源位置が推定されてもよいことが理解されるであろう。また、開示されるアプローチが他のリファレンスフレームワークを用いて音源位置を決定するのに利用されてもよく、特に他の２次元又は３次元リファレンス座標システムが利用されてもよいことが理解されるであろう。例えば、実際の空間上の２次元又は３次元位置が、他の例において決定されてもよい。

テレビ会議装置１０３は、具体的には、画像における発話者１０１の位置を継続的に推定及び追跡するパーティクルフィルタリング方法を利用する。図３は、テレビ会議装置１０３の要素をより詳細に示す。具体的には、テレビ会議装置１０３は、パーティクルフィルタアルゴリズムを実行するよう構成されるパーティクルフィルタプロセッサ３０１を有する。パーティクルフィルタプロセッサ３０１は、パーティクルフィルタプロセッサ３０１から受信したパーティクルデータに基づき発話者の位置の推定値を生成するよう構成される位置推定プロセッサ３０３に接続される。

テレビ会議装置１０３はさらに、２つのマイクロフォン１０５，１０７から信号を受信し、パーティクルフィルタプロセッサ３０１に接続されるオーディオプロセッサ３０５を有する。テレビ会議装置１０３はまた、カメラ１０９から信号を受信し、パーティクルフィルタプロセッサ３０１に接続されるビデオプロセッサ３０７を有する。パーティクルフィルタプロセッサ３０１により実行されるパーティクルフィルタリングは、マイクロフォン１０５，１０７により実行されるオーディオ測定と、任意的にカメラ１０９により実行されるビデオ測定とに基づく。

図４は、音源位置を決定するパーティクルフィルタリング方法の一例を示す。本方法は、具体的には、テレビ会議装置１０３により実現され、発話者１０１の画像位置を推定するのに利用される。

本方法は、ステップ４０１において、アルゴリズムが初期化されることにより開始される。具体的には、状態変数に対して、パーティクルセットが生成される。状態変数は、システムの基礎となる（正しい）状態を表し、具体例では、発話者の（正しい）画像位置（（ｘ，ｙ）座標など）から構成される。しかしながら、状態変数の単一の推定値（位置）を維持及び追跡するのでなく、パーティクルフィルタリングアプローチは、状態変数の確率密度関数の離散的表現を表すＮ個のパーティクルを維持する。各パーティクルは、当該パーティクルにより表される状態変数の値を表す状態値を有する（具体的ケースでは、状態値は画像における特定の位置に対応する）。さらに、パーティクルは、各パーティクルがすべてのパーティクルに基づき単一の推定状態値の決定に対してなすであろう貢献を示す関連するウェイトを有する。特に、状態値（具体例では、画像における位置）は、すべてのパーティクルの状態値の加重和により決定される。確率密度関数は、各パーティクルの各ウェイトと共に、（リサンプリングによって高い確率を有する領域に集中する）パーティクルの分布により表される。

ステップ４０１において、パーティクルフィルタプロセッサ３０１は、初期的なパーティクルを表すためＮ個のパーティクルのセットを抽出することによってパーティクルフィルタリングを開始する。パーティクルは、適切な分布に従って抽出される。例えば、いくつかの実施例では、初期的なパーティクルは、状態変数の実際の確率密度関数に関する情報が利用可能でないことに対応する一様分布に基づき抽出されてもよい。他の実施例では、推定又は予想される分布が利用されてもよい。例えば、具体例では、発話者１０１は画像の中央にいる確率が高く、パーティクルは、画像の中央に対してより高い確率を有する分布に従って抽出されてもよい。従って、画像におけるパーティクル位置の分散は、画面の中央に対して集中度又は密度が増加して生成されてもよい。具体例では、各パーティクルには、同一の名目ウェイトが与えられる。（他の実施例では、非一様分布がウェイトを可変とすることによって部分的に又は完全に表現されてもよいことが理解されるであろう。）
従って、ステップ４０１では、パーティクルフィルタプロセッサ３０１は、音源位置を含む（又は具体例では音源位置から構成される）状態変数について確率密度関数を表す初期的なパーティクルセットを生成する。

その後、パーティクルフィルタプロセッサ３０１は、以前の（サンプル）時点における値に基づき、以降の（サンプル）時点のパーティクル値及びウェイトを計算することによって、パーティクルを繰り返し展開する。具体的には、状態変数更新関数が、

のように（少なくとも近似的に）知られていると仮定される。ここで、Ｘは状態変スを表し、Ｔは現在の（サンプル）時点を表し、Ｔ−１は以前の（サンプル）時点を表し、ｎ_ｕはノイズを表す。具体例では、発話者は移動せず、状態変数更新関数は単に、

とみなされてもよいことが仮定されてもよい。ここで、ｎはノイズを表す適切な分布（例えば、発話者１０１の動きの不確実性に対応して）を有する。ノイズは、具体的には非ガウス的なものであってもよい。（例えば、ユーザは画像の中央に移動する確率が高いことを表すものであってもよい。）
従って、ステップ４０１はステップ４０３に続き、各パーティクルの各状態値が以前の時点の状態値に依存して決定される。具体的には、パーティクルフィルタプロセッサ３０１は、現在の時点Ｔにおいて更新されたパーティクルセットを生成するため、上記式をすべてのパーティクルに適用してもよい。

ステップ４０３はステップ４０５に続き、更新されたパーティクルセットにおいて生成された各パーティクルに対してウェイトが更新される。パーティクルのウェイトは、以前の時点でのパーティクルのウェイトと発話者の位置を反映した測定結果とから生成される。具体的には、パーティクルのウェイトは、状態変数がパーティクルの状態値を有するシステムから測定結果が生じうる確率に依存する。従って、パーティクルの更新されたウェイトは、

として決定されてもよい。ここで、ｎ_ｍは、測定に関するノイズと不確実性を表す。異なる実施例及び用途では、異なる測定関数ｇが利用されてもよいことが理解されるであろう。しかしながら、多くのシナリオでは、以前の時点のウェイトを、測定結果が状態変数から生じうる確率によって単にスケーリングすることが適切である。

ここで、Ｕ_Ｔは時点Ｔにおける測定結果を表す。

図１のシステムでは、パーティクルの更新されたウェイトは、

として計算され、ｑ_ｔは確率値ｐ（Ｕ_Ｔ｜Ｘ_Ｔ）の妥当な仮定を提供するものであってもよい。このアプローチは、以下において詳述される。

各パーティクルへのウェイトの適用に続いて、ウェイトの正規化が実行されてもよい。

ステップ４０５が、本例ではステップ４０７に続き、単一の推定状態値が計算される。従って、状態変数の確率密度関数の離散的なサンプリングを表すパーティクルに基づき、単一の推定された状態変数値が計算される。従って、パーティクルの状態値は、パーティクルのウェイトに依存する各パーティクルからの貢献によって単一の推定値を生成するよう合成される。

具体的には、発話者１０１の単一の画像位置が、パーティクルのウェイトにより重み付けされたパーティクルの画像位置の加重和として推定プロセッサ３０３により生成される。従って、平均推定位置が、画像位置の確率密度関数の離散的な統合（和）によって決定される。この音源位置の推定は、その後にテレビ会議装置の処理を最適化するのに利用されてもよい。

パーティクルフィルタリングでは、多くのケースにおいて、パーティクルの分布は、一部のパーティクルが極めて高いウェイト値を有し、他のパーティクルが極めて小さなウェイト値を有するように縮退する傾向がある。従って、パーティクルの分布は、多くのパーティクルが状態変数の基礎となる確率密度関数の情報を相対的にあまり提供しない分布となる傾向がある。

従って、パーティクルフィルタプロセッサ３０１により用いられるフィルタリングアルゴリズムは、パーティクルの分布（及びウェイト）が確率密度関数の基礎となる表現を変更することなく、より高い集中度の有意なパーティクルを提供するために変更されるように、パーティクルをリサンプリングする手段を有する。

従って、ステップ４０７はステップ４０９に続き、リサンプリングが必要か判断される。必要でない場合、本方法はステップ４１３に移行し、システムは次のサンプルを選択する。その後、本方法はステップ４０３に戻り、次のサンプル時点についてパーティクルフィルタリングステップを繰り返す。リサンプリングが必要である場合、本方法はステップ４１５に移行し、次のサンプル時点についてフィルタリングを繰り返すため、本方法がステップ４１３及び４０３に移行する前に、リサンプリングが実行される。

リサンプリングが必要か判断するのに適した何れかの基準が本発明から逸脱することなく利用可能であることが理解されるであろう。例えば、パーティクルのリサンプリングは、ウェイトの分散が所与の閾値を超える場合に実行されてもよい。

また、リサンプリングのための異なるアプローチが当業者に知られ、何れか適切な方法が本発明から逸脱することなく利用可能であることが理解されるであろう。

例えば、いくつかの実施例では、パーティクルにより表される確率分布関数から、累積確率分布関数が生成されてもよい。適切なＮ個のパーティクルが、累積確率分布関数を用いて一様な分布から累積確率分布関数と確率分布関数とを反映する分布に変換することによって抽出されてもよい。結果として得られる各パーティクルは、その後に、リサンプリング直後のパーティクルセットがそれらのウェイトによってでなく、パーティクルの分布によって状態変数の確率分布関数を表すように、同一のウェイトが与えられてもよい。

他の例として、リサンプリングは、所与の閾値以下のすべてのパーティクルを削除し、より大きなウェイトを有するパーティクルをウェイトを反映するいくつかのパーティクルに分割してもよい。例えば、大きなウェイトを有するパーティクルが、同一の（又は極めて類似した）状態値とＭにより除される以前にウェイトに等しいウェイトとを有するＭ個のパーティクルに分割されてもよい。

本方法では、ある時点のパーティクルのウェイトは、音源から２つのマイクロフォン１０５，１０７により表される少なくとも２つの音声記録位置への推定された音響伝達関数間の第１時点の相関に応答して決定される。

具体的には、図５は、ステップ４０５をより詳細に示す。ステップ４０５は、ステップ５０１において開始され、発話者１０１から第１マイクロフォン１０５の記録位置への第１音響伝達関数が決定される。

本例では、音響伝達関数は、第１マイクロフォン１０５により測定される音声信号から推定され、具体的には、音響伝達関数は、第１マイクロフォン１０５によりキャプチャされる発話者１０１からの音声信号に基づき推定される。伝達関数は、具体的には、音響パスのインパルス応答により表される。

現在の音響伝達関数を推定するのに適した何れかの方法が利用されてもよいことが理解されるであろう。例えば、いくつかの実施例では、発話者１０１はさらに、発話者の口に配置されたマイクロフォン（例えば、ヘッドセットに取り付けられた）に発話するようにしてもよく、音響伝達関数は、このマイクロフォンにおいて記録された音声信号と第１マイクロフォン１０５により記録された音声信号との比較によって推定されてもよい。

ステップ５０１はステップ５０３に続き、発話者から第２マイクロフォン１０７の記録位置への第２音響伝達関数が決定される。第１音響伝達関数に対するものと同じアプローチが利用されてもよい。

従って、２つの伝達関数は、発話者１０１から２つのマイクロフォン１０５，１０７までの音響パスにおける相対的な変化を表す。具体的には、各伝達関数は、発話者１０１から各マイクロフォン１０５，１０７までの相対遅延及びパス長を反映する情報を含むものであってもよい。音響伝達関数は、発話者１０１の位置に依存する。

ステップ５０３はステップ５０５に続き、２つの音響伝達関数の間の相関が決定される。具体的には、相関関数が、

のように決定されてもよい。

従って、相関関数は、伝達関数が与えられた相対遅延オフセットに対してどの程度一致するかを示す。所与の遅延オフセットは、２つのマイクロフォン１０５，１０７から発話者１０１へのパスの間のパス長のオフセットに対応するものであってもよい。ノイズ、反射、推定誤差、量子化誤差などがない場合、相関関数は単一のディラックパルスに対応する。しかしながら、実際のシナリオでは、ノイズ源、反射、推定誤差、干渉、量子化などが、実質的に拡散した実用的な相関関数をもたらす。従って、本発明の発明者は、所与の遅延の相関値が２つのマイクロフォン１０５，１０７から（主要な）音源へのパスの間のパス差が相対遅延差に対応する確率の指標として認識されてもよいことを理解した。本発明者は、パーティクルフィルタリング更新のウェイト更新がこの認識された（擬似）確率関数又は尤度関数（ｌｉｋｅｌｉｈｏｏｄｆｕｎｃｔｉｏｎ）に基づくものとすることが可能であることをさらに認識した。

従って、図１のシステムでは、音響伝達関数間の相関はウェイトを更新するのに利用され、具体的には、確率値ｐ（Ｕ_Ｔ｜Ｘ_Ｔ）を表すとみなすことができる値を生成するのに利用されてもよい。従って、システムでは、２つの記録位置（すなわち、２つのマイクロフォン１０５，１０７）においてキャプチャされた信号に応答して生成される音響伝達関数は、ウェイトを更新するための測定として利用されてもよく、具体的には、相関関数は、所与の時点のパーティクルのウェイトと以前の時点のパーティクルのウェイトとを関連付けるウェイト更新関数の擬似確率関数として直接的又は間接的に利用されてもよい。

具体的には、画像の所与の位置（ｘ，ｙ）に対して、２つのマイクロフォン１０５，１０７からのパス長の間の対応する相対遅延オフセットが、シンプルなジオメトリを利用して容易に決定可能である（発話者が所与の距離にいることを仮定して）。２つのマイクロフォン１０５，１０７との間の距離が音源との距離に対して極めて小さい場合、マイクロフォンに到達する音波は実質的に平面音波として認識され、発話者１０１との距離に依存する相対遅延の変化は無視されてもよいことが理解されるであろう。すなわち、多くの実施例において、発話者との距離は無視することが可能であり、所与の画像位置について遅延が直接的に決定されてもよい。従って、所与の変数値、すなわち、所与の画像位置（ｘ，ｙ）について、対応する遅延が計算されてもよい。その後、この遅延に対する（正規化された）相関値が取得されてもよい。その後、パーティクルの以前のウェイトは、新たな更新されたウェイトを生成するため、当該相関値の絶対値により直接的にスケーリングされてもよい。従って、この更新は、音響伝達関数間の測定された相関が当該画像位置に対応する遅延に一致する確率を反映している。

図５の具体例では、ステップ５０５はステップ５０７に続き、相関からウェイト測定関数が決定される。具体的には、いくつかの実施例では、（任意的には正規化された）相関関数に対応する以前のウェイトのスケーリングが、測定関数として直接利用されてもよい。

しかしながら、他の実施例では、決定的（すなわち、非確率的）な関数が相関関数に適用されてもよい。例えば、非線形処理が相関関数に適用されてもよい。この非線形関数は、具体的には、相関関数の変化を増大させるものであってもよく、適切な非線形関数は、例えば、

を含むものであってもよい。ここで、Ｋは典型的には、２，３又は４として選択されてもよい。

このような非線形関係は、多くの実施例において、より正確な近似を適切な測定確率関数に提供する測定関数を提供するため求められたものであり、このため、処理の向上と音源位置推定を提供するため求められたものである。

図６は、表示位置の関数としてウェイト更新関数のスケーリング値の一例を示す。具体例では、スケーリング値は、画像位置に対応する遅延の相関値に対応する。

図７は、非線形処理の適用後の図６の例に対応する表示位置の関数としてウェイト更新関数のスケーリング値の一例を示す。

ステップ５０７はステップ５０９に続き、パーティクルのウェイト値が決定される。具体的には、パーティクルの新たなウェイトが、

から決定される。ここで、ｑ_ｔはパーティクルの画像位置（ｘ，ｙ）に対応する遅延に対して決定される測定関数のスケーリングである。

上述された例では、２つのマイクロフォン１０５，１０７からの１つの相関が利用された。さらに、マイクロフォン１０５，１０７の軸が、画像のＸ軸に揃っていると仮定され、このため、対応する伝達関数間の相対遅延は、ｙの位置から（近似的に）独立している。従って、図６及び７に例示されるように、対応するスケーリングファクタは、相関関数がｘ軸に揃っており、ｙ軸に対して一定であるため、異なるｙの位置に対して一定である。すなわち、相関関数とウェイト更新関数とは、１次元のものである。

しかしながら、他の実施例では、第１及び第２マイクロフォン１０５，１０７の軸の外部に配置された（すなわち、これらと直線上にない）第３マイクロフォンが含まれてもよい。例えば、第３マイクロフォンは、カメラの上部に配置されてもよい。このケースでは、第２相関関数が第３マイクロフォンと第１マイクロフォンなどに対して決定されてもよい。このとき、ウェイト更新関数は、双方の相関関数から決定的に決定されてもよい。具体的には、所与の画像位置に対して、第１マイクロフォン１０５と第２マイクロフォン１０７との間の対応する遅延が決定され、第１相関関数から決定される当該遅延に対応する相関値が計算されてもよい。次に、当該画像位置に対して、第１マイクロフォンと第３マイクロフォンとの間の対応する遅延が決定され、第２相関から決定される当該遅延に対応する相関値が計算されてもよい。このとき、この位置を表すパーティクルのスケーリングファクタは、これら２つの値を合成することによって（単に、それらを乗算するなどによって）決定されてもよい。

上述した例では、ウェイトは、音声測定（相関により表される）のみに基づき更新された。しかしながら、他の実施例では、カメラから入力されるビデオがまた、ウェイト関数を更新する際に考慮される。

図８は、そのような例のためのステップ４０５の一例を示す。本例では、ウェイト更新は、上述されるようなオーディオウェイトを決定するため、図５のステップ５０１〜５０９をまず実行することを含む。

しかしながら、本例では、ステップ５０９はステップ８０１に続き、ビデオウェイトがカメラにより提供された画像に基づき計算される。従って、ステップ８０１では、パーティクルの所与の画像位置がカメラによりキャプチャされた画像を生じさせる確率を反映する第２ウェイト貢献が生成される。従って、ビデオウェイトが、画像領域の測定に応答して決定される。

ステップ８０１はステップ８０３に続き、オーディオウェイトとビデオウェイトとがパーティクルについての単一のウェイトに合成される。

オーディオウェイトとビデオウェイトとの決定はパラレルに実行されてもよいことが理解されるであろう。

本例では、この合成は、２つのウェイト貢献の相対的な重み付けを含む。具体的には、重み付けは、相関値に基づき生成されるオーディオウェイトの信頼度の指標を反映するようにしてもよい。例えば、相関がディラック応答に類似するほど、信頼度はより高くなると考えられてもよい（干渉、ノイズ、反射などの既知の又は未知の効果の影響は重要性が低い可能性があるため）。他の例として、インパルス応答の期間（所与の閾値により規定されるなど）は、相関の信頼度の指標や分散が利用されてもよいため、利用されてもよい。本例では、オーディオウェイト貢献の重み付けは、高い信頼度の値に対して大きくなる。

いくつかの実施例では、信頼度の値がまたビデオウェイトに対して決定されてもよく、２つのウェイトの貢献の重み付けは、信頼度の指標の相対ウェイトに依存してもよい。

いくつかのシナリオでは、ウェイトの一方又は双方に下限が適用されてもよい。例えば、ウェイトの合成は、２つのウェイトの貢献の乗算に基づき計算されてもよく、ウェイトにオフセットなどを導入することは、ウェイトの貢献の一方がゼロであったとしても、結果としてのウェイトがゼロより大きくなる可能性があることを保障する。具体例として、合成されたウェイトは、

として計算されてもよい。

何れか適切な方法が音響伝達関数を推定するのに利用されてもよいことが理解されるであろう。

画像領域の測定に基づきウェイトを決定する何れか適切なアプローチが利用されてもよいことが理解されるであろう。例えば、適切な方法は、ＫａｔｊａＮｕｍｍｉａｒｏ，ＥｓｔｈｅｒＫｏｌｌｅｒ−Ｍｅｉｅｒ，ａｎｄＬｕｃｖａｎＧｏｏｌによる“ＡｎＡｄａｐｔｉｖｅＣｏｌｏｒ−ＢａｓｅｄＰａｔｉｃｌｅＦｉｌｔｅｒ”，Ｒｅｃｈ．Ｒｅｐ．，ＫａｔｈｏｌｉｅｋｅＵｎｉｖｅｒｓｉｔｙＬｅｕｖｅｎａｎｄＳｗｉｓｓＦｅｄｅｒａｌＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｓｅｐｔｅｍｂｅｒ２００２に記載されている。

このアプローチでは、処理対象の情報量を低減するため、及び／又は重要な情報を抽出することによって信頼性を向上させるため、画像パッチが他の表現に変換される。このような表現の一例は、カラーヒストグラムである。このカラーヒストグラムスペースでは、各画像パッチは単一のポイントによって表現される（ヒストグラムは、原点から当該点までのベクトルである）。このスペースは、カラーヒストグラムスペースにおける対応する点の間の距離を計算することによって、それらのカラーの説明に基づき所望の画像パッチ（例えば、追跡対象の物体など）と他の何れかの画像パッチとの定量的な比較を可能にする。シンプルなユークリッド距離を含む利用可能な多数の距離メトリックが存在する。Ｂｈａｔｔａｃｈａｒｙｙａ距離として知られる他の距離メトリックは特に便利である。それの正規化された出力はパーティクルフィルタの正規分布ウェイトを計算するのに利用可能である。

多数の実施例において、音響伝達関数が音響ビームフォーミングの一部として推定されてもよい。具体的には、音響ビームフォーミングアプローチは、（当該環境において主要な音源であると仮定される）発話者１０１に対してオーディオビームをガイドするのに利用されてもよい。このとき、各マイクロフォン信号の相対的なフィルタリング又は重み付けが、音響伝達関数の推定として利用されてもよい。

何れか適切なビームフォーミングアルゴリズムが利用されてもよいことが理解されるであろう。具体例では、音響伝達関数は、図９のビームフォーマにより示されるビームフォーミングアプローチにより決定される。

図９のビームフォーム部９００は、２つの入力信号ｕ_１，ｕ_２を受信し、これらを処理してオーディオビームフォームを生成する。従来、入力信号ｕ_１，ｕ_２は、全方位マイクロフォン１０５，１０７から受信されたが、（少なくとも）２つの指向性音声センサにより提供されてもよい。

ビームフォーミング部９００では、第１入力信号ｕ_１は、第１フィルタリング信号を生成する第１適応的フィルタ９０１に提供される。第２入力信号ｕ_２は、第２フィルタリング信号を生成する第２適応的フィルタ９０３に提供される。その後、第１及び第２フィルタリング信号は、加算部９０５において気サンされ、合成された指向性信号を生成する。合成された指向性信号は、指向性のある感度を有する音声センサから受信したオーディオ信号に対応する。具体的には、第１及び第２適応的フィルタ９０１，９０３のフィルタ係数を変更することによって、オーディオビームの方向が所望の方向にガイドできる。

フィルタ係数は、合成された指向性信号の所望の音源成分のパワー推定値が最大化されるように更新される。本例では、所望の音源（発話者１０１）からの信号が支配的であるとき、フィルタ係数が更新され、所望の音声成分が合成された指向性信号の主要な音源成分になると仮定される。従って、フィルタ係数は、合成された指向性信号全体のパワー指標が最大化されるように更新される。適切なパワー指標は、例えば、合成された指向性信号のサンプルを平方し（又は絶対値をとり）、その結果を適切なローパスフィルタによりフィルタリングすることによって取得されてもよい。

フィルタ係数の適応化はさらに、適応的フィルタ９０１，９０３の伝達関数の合計エネルギーが所定の周波数に一定に維持されるという制約により実行される。

具体例では、フィルタ係数９０１，９０３は直接的には適応されない。その代わりに、ビームフォーミング部９００はさらに、合成された指向性信号をフィルタリングして第３フィルタリング信号を生成する第３適応的フィルタ９０７と、合成された指向性信号をフィルタリングして第４フィルタリング信号を生成する第４適応的フィルタ９０９とを有する。

第３フィルタリング信号は、第３フィルタリング信号と第１入力信号ｕ_１（遅延９１３だけ遅延された）との間の第１差分信号を生成する第１減算部９１１に提供される。第４フィルタリング信号は、第４フィルタリング信号と第２入力信号ｕ_２（遅延９１７だけ遅延された）との間の第２差分信号を生成する第２減算部９１５に提供される。

システムでは、適応的フィルタ９０７，９０９のフィルタ係数は、差分信号ｘ_１，ｘ_２が低減され、具体的には最小されるように、所望の音源からの主要な信号の存在により適応化される。これを実行するのに適したアルゴリズムは、周知の正規化最小二乗アルゴリズムである。Ｎ個のサンプルの各データブロックの後など、定期的に、時間逆転されたフィルタ係数９０７がフィルタ９０１に複製され、時間逆転された係数９０９がフィルタ９０３に生成される。これを実行することによって、所望の音源からの主要な信号の存在における出力信号ｚのパワーは、ビームフォーミング部９００により最大化される。

周波数領域では、第３適応的フィルタ９０７の伝達関数は、第１適応的フィルタ９０１の伝達関数の複素共役に対応し、第４適応的フィルタ９０９の伝達関数は、第２適応的フィルタ９０３の伝達関数の複素共役に対応する。

より詳細には、ビームフォーミング部９００の処理は、連続時間信号のフーリエ変換である周波数領域量を用いた信号モデルを参照して説明されてもよい。各マイクロフォン信号が所望の音源成分からの信号成分、反響信号成分及びノイズを含むと仮定される。

このモデルによると、マイクロフォン信号のベクトル

は（ただし、添え字ｔは転置を示す）、

により与えられる。ただし、ｓ（・）は所望のソース信号であり、ｈ（・）は直接的な音声パスと一部の早期反射とを含む、ソースからマイクロフォンまでの音響インパルス応答のベクトルであり、ｄ（・）は反響であり、ｎ（・）は各マイクロフォン上で等しい分散を有する無相関のノイズである。所望の信号、反響及びノイズが互いに無相関であると仮定すると、入力クロスパワースペクトル密度は、

により与えられる。ただし、σ_ｓ ^２（ω），σ_ｄ ^２（ω）及びσ_ｎ ^２（ω）はそれぞれ、ソース信号、反響及びノイズの分散であり、Ｉ（・）は単位行列であり、添え字ｈは複素共役転置を示し、＊は複素共役を示す。

反響は、拡散（球状に等方的な）音場としてモデル化される。これは簡単化された理論モデルであるが、多くの応用において貴重なモデルであると証明されており、ビームフォーミング部９００において用いられるアルゴリズムの処理及びパフォーマンスに洞察を提供するのに有用である。

全方位マイクロフォンについて、反響のコヒーランスマトリックスは、

によって与えられる。ここで、ｄはマイクロフォン間の距離であり、ｃは音の速度である。

上述された信号モデルを利用して、ビームフォーミング部９００の合成された指向性出力信号ｚは、マイクロフォン信号に対するフィルタ及び加算処理によって与えられる。

時間領域では、第１及び第２適応的フィルタ９０１，９０３のフィルタ係数はそれぞれ、具体的には、第３及び第４適応的フィルタ９０７，９０９のフィルタ係数の時間逆転されたコピーである。従って、周波数領域では、第１及び第２適応的フィルタ９０１，９０３のフィルタ係数はそれぞれ、第３及び第４適応的フィルタ９０７，９０９のフィルタ係数の複素共役したものとなる。一般に、信号処理の因果関係を保障するために遅延が導入され、これにより、第３及び第４適応的フィルタ９０７，９０９は、本例では、この遅延を考慮するため位相補償される。また、入力信号ｕ_１，ｕ_２が、差分信号の生成前に遅延９１３，９１７において遅延される。遅延９１３，９１７の遅延・は、一般に適応的フィルタ９０１，９０３，９０７，９０９の長さに等しく設定される。

図９の適応的ビームフォーミング部９００は、フィルタ伝達関数の合計パワーがすべての周波数に対して１に等しくなるという制約の下、すなわち、

として数学的に表現できる制約の下、合成された指向性出力信号ｚのパワーを最大化することが示すことができる。従って、差分信号ｘ_１，ｘ_２を最小化するようにフィルタ係数を設定することによって、合成された指向性出力信号ｚのパワーは最大化され、これにより、主要なオーディオ信号に向けたオーディオビームの適応化が提供される。

この信号モデルを利用し、上記制約を適用して、合成された指向性出力信号ｚは、

により与えられる。

所望のソースのみに対して（すなわち、反響及びノイズはない）、最適な係数は、

により与えられる。ここで、α（ω）は任意の全通過項である。

この式は、最適なフィルタ係数が所望のソースから各マイクロフォンへの共役伝達関数に等しいことを示す（共通の未知の振幅及び位相ファクタを無視する）。実際的なフィルタの限定的なフィルタ長のため、ビームフォーミング部は、実際には時間領域インパルス応答の第１部分しか推定しない（典型的には、直接場と一部の早期反射とを含む部分）。

従って、フィルタ係数は、音響伝達関数の極めて効果的な推定を提供し、具体例では、第１音響伝達関数は、第１適応的フィルタ９０１のフィルタ係数に対応するインパルス応答を有するものとして決定され、第２音響伝達関数は、第２適応的フィルタ９０３のフィルタ係数に対応するインパルス応答を有するものとして決定される。従って、相関関数は、効果的には、第１適応的フィルタ９０１と第２適応的フィルタ９０３とのフィルタ係数間の相関として決定される。

簡単化のため、上記開示は異なる機能部及びプロセッサを参照して本発明の実施例を説明したことが理解されるであろう。しかしながら、異なる機能部又はプロセッサの間の機能の何れか適切な分散が本発明を逸脱することなく利用されてもよいことが理解されるであろう。例えば、別々のプロセッサ又はコントローラにより実行されるよう示された機能は、同一のプロセッサ又はコントローラにより実行されてもよい。従って、特定の機能部の参照は、厳密に論理的又は物理的な構造又は組織の参照としてのみみなされるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの何れかの組み合わせを含む何れか適切な形態により実現可能である。本発明は、任意的には、１以上のデータプロセッサ及び／又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実現されてもよい。本発明の実施例の要素及びコンポーネントは、何れか適切な方法により物理的、機能的及び論理的に実現されてもよい。実際、これらの機能は、単一のユニット、複数のユニット又は他の機能ユニットの一部として実現されてもよい。また、本発明は、単一のユニットにより実現されてもよく、又は異なるユニットとプロセッサとの間に物理的及び機能的に分散されてもよい。

本発明がいくつかの実施例に関して説明されたが、それは開示されたような特定の形態に限定されるべきでない。さらに、ある特徴が特定の実施例に関して説明されたが、当業者は、開示された実施例の各種特徴が本発明により組み合わされてもよいことを認識するであろう。請求項において、“有する”という用語は他の要素又はステップの存在を排除するものでない。

さらに、個別に列記されるが、複数の手段、要素又は方法ステップは、単一のユニットやプロセッサなどにより実現されてもよい。さらに、個々の特徴が異なる請求項に含まれてもよいが、これらは効果的に組み合わせ可能であり、異なる請求項への内包は、特徴の組み合わせが実現可能及び／又は効果的でないことを意味するものでない。また、請求項のあるカテゴリの特徴の内包は、当該カテゴリへの限定を意味するものでなく、当該特徴が必要に応じて他の請求項のカテゴリに等しく適用可能であることを示す。さらに、請求項の特徴の順序は、当該特徴が動作するのに必要な何れか特定の順序を意味せず、特に方法の請求項の各ステップの順序は、これらのステップが当該順序により実行される必要があることを意味するものでない。むしろ、これらのステップは何れか適切な順序により実行されてもよい。さらに、単数形の表現は複数を排除するものでない。従って、“ある”、“第１”、“第２”などの表現は複数を排除するものでない。請求項の参照符号は、例示的なものとして与えられているにすぎず、請求項の範囲を限定するものとして解釈されるべきでない。

Claims

パーティクルフィルタリングによる音源の音源位置を推定する方法であって、
現在時点における前記音源位置を有する状態変数の確率密度関数を表すパーティクルセットを生成するステップを繰り返すステップを有し、
前記生成するステップは、前記パーティクルセットの各パーティクルに対して、
以前の時点における前記パーティクルの状態値に応答して前記現在時点における前記パーティクルの状態値を生成するステップと、
前記以前の時点における前記パーティクルのウェイトと前記現在時点における測定結果とに応答して、前記現在時点における前記パーティクルのウェイトを生成するステップと、
を含み、
当該方法はさらに、第１時点における前記パーティクルセットの状態値の組み合わせに応答して、前記第１時点の音源位置推定を有する状態変数推定を生成するステップを有し、
前記パーティクルセットの各パーティクルの貢献は、前記パーティクルのウェイトに依存し、
前記現在時点における前記パーティクルのウェイトを生成するステップは、前記音源から前記第１時点の少なくとも２つの音声記録位置への推定された音響伝達関数の間の相関に応答して前記ウェイトを決定することを含む方法。
前記ウェイトを生成するステップは、前記パーティクルの状態値に対応する遅延の前記相関の値に応答して、前記パーティクルのウェイトを決定することを含む、請求項１記載の方法。
前記ウェイトは、前記相関の値に対する決定的な関係を有する、請求項２記載の方法。
前記決定的な関係は、非線形である、請求項３記載の方法。
前記ウェイトを生成するステップは、前記以前の時点における前記パーティクルのウェイトに応答して、前記現在時点における前記パーティクルのウェイトに関するウェイト更新関数の擬似確率関数の指標として前記相関を利用することを含む、請求項１記載の方法。
前記音源位置は、２次元平面の２次元位置により表される、請求項１記載の方法。
前記音源を含む環境をカバーするカメラから少なくとも１つの画像を受信するステップをさらに有し、
前記２次元位置は、前記少なくとも１つの画像における位置である、請求項６記載の方法。
前記ウェイトを生成するステップは、
前記パーティクルの画像領域測定に応答して第１ウェイトの貢献を生成するステップと、
前記相関に応答して第２ウェイトの貢献を生成するステップと、
前記第１ウェイトと前記第２ウェイトとの組み合わせとして前記ウェイトを生成するステップと、
を含む、請求項７記載の方法。
前記相関に応答して前記第１ウェイトの貢献の信頼度の指標を生成するステップと、
前記信頼度の指標に応答して、前記第２ウェイトの貢献に対する前記組み合わせにおける前記第１ウェイトの貢献の貢献を調整するステップと、
をさらに有する、請求項８記載の方法。
前記音源位置に対してオーディオビームフォーミングを実行し、前記オーディオビームフォーミングに応答して前記音響伝達関数を推定するステップをさらに有する、請求項１記載の方法。
前記ウェイトを生成するステップは、前記音源から前記少なくとも２つの音声記録位置の１つまでの推定された音響伝達関数と、前記音源から前記第１時点の他の音声記録位置までの推定された音響伝達関数との間の第２相関に応答して、前記ウェイトを決定することを含み、
前記他の音声記録位置は、前記少なくとも２つの音声記録位置の間のラインに対するオフセットである、請求項１記載の方法。
前記ウェイトを生成するステップは、
前記少なくとも２つの音声記録位置の第１位置における音声記録要素から第１信号を受信するステップと、
前記少なくとも２つの音声記録位置の第２位置における音声記録要素から第２信号を受信するステップと、
前記第１信号と前記第２信号とに応答して、前記音響伝達関数を推定するステップと、
を含む、請求項１記載の方法。
前記ウェイトを生成するステップは、
第１フィルタリング信号を生成するため、第１適応的フィルタにおいて前記第１信号をフィルタリングするステップと、
第２フィルタリング信号を生成するため、第２適応的フィルタにおいて前記第２信号をフィルタリングするステップと、
合成された指向性信号を生成するため、前記第１フィルタリング信号と前記第２フィルタリング信号とを加算するステップと、
前記合成された指向性信号の音源成分のパワー推定が最大化されるように前記合成された指向性信号を生成するため、前記第１適応的フィルタと前記第２適応的フィルタとの係数を設定するステップと、
前記第１適応的フィルタと前記第２適応的フィルタとの係数に応答して、前記音響伝達関数を推定するステップと、
を有する、請求項１２記載の方法。
前記ウェイトを生成するステップは、
第３フィルタリング信号を生成するため、第３適応的フィルタにおいて前記合成された指向性信号をフィルタリングするステップと、
前記第１信号と前記第３フィルタリング信号との間の差分信号を決定するステップと、
前記差分信号を低減するため、前記第１適応的フィルタの伝達関数を適応させるステップと、
を含み、
前記第３適応的フィルタの伝達関数は、前記第１適応的フィルタの遅延補償された実質的に複素共役伝達関数に対応する、請求項１３記載の方法。
パーティクルフィルタリングによる音源の音源位置を推定する装置であって、
現在時点における前記音源位置を有する状態変数の確率密度関数を表すパーティクルセットを生成するステップを繰り返す手段を有し、
前記生成するステップは、前記パーティクルセットの各パーティクルに対して、
以前の時点における前記パーティクルの状態値に応答して前記現在時点における前記パーティクルの状態値を生成するステップと、
前記以前の時点における前記パーティクルのウェイトと前記現在時点における測定結果とに応答して、前記現在時点における前記パーティクルのウェイトを生成するステップと、
を有し、
当該装置はさらに、第１時点における前記パーティクルセットの状態値の組み合わせに応答して、前記第１時点の音源位置推定を有する状態変数推定を生成する手段を有し、
前記パーティクルセットの各パーティクルの貢献は、前記パーティクルのウェイトに依存し、
前記現在時点における前記パーティクルのウェイトを生成するステップは、前記音源から前記第１時点の少なくとも２つの音声記録位置への推定された音響伝達関数の間の相関に応答して前記ウェイトを決定することを含む装置。