JP5663201B2

JP5663201B2 - 音源方向推定装置及び音源方向推定方法

Info

Publication number: JP5663201B2
Application number: JP2010124874A
Authority: JP
Inventors: 一博中臺; 中島　弘史; 弘史中島; 圭佑中村
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2009-06-04
Filing date: 2010-05-31
Publication date: 2015-02-04
Anticipated expiration: 2030-05-31
Also published as: US20100329479A1; JP2010281816A; US9055356B2

Description

本発明は、音源方向推定装置及び音源方向推定方法に関する。

近年、ロボット技術の開発が急速に進み、人と作業する人型ロボットなどのロボットが益々増えてきている。ロボットの実用的な用途に関して、「ロボット聴覚」が大きな注目を集め、種々の提案がなされている（例えば、非特許文献１参照）。ロボット聴覚の最も基礎的なプロセスのうちの１つは、音源定位、即ち、音源方向の推定である。音源定位の結果、音源分離および音声認識などの後段のプロセスが導かれる。

ＭＵＳＩＣ法は、ロボットなどの現実世界の応用事例に用いられる音源定位の定位方法の１つである。ＭＵＳＩＣ法は、他の方法に比べ、空間スペクトルのピークを検出しやすいという特長を有する。

Ｋ．Ｎａｋａｄａｉｅｔａｌ．，"Ａｃｔｉｖｅａｕｄｉｔｉｏｎｆｏｒｈｕｍａｎｏｉｄ"，ｉｎＰｒｏｃ．ｏｆ７ｔｈＮａｔｉｏｎａｌＣｏｎｆ．ｏｎＡｒｔｉｆｉｃａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＡＡＡＩ２０００），ｐｐ．８３２−８３９，２０００

しかしながら、ＭＵＳＩＣ法は、静的条件を主眼するものであって、ターゲットとする音源が雑音源に比べて強いという前提に立つ。つまり、ＭＵＳＩＣ法では、固有値が大きいものをターゲット、小さいものを雑音と仮定してターゲットの音源方向を推定する。従って、例えば、放熱用のファンを有する移動型ロボットのように、パワーの大きい定常雑音源を有するシステムにおいては、雑音の影響が強く、上記仮定が成立しないため、音源方向を正しく推定できないという問題がある。
また、回転可能な頭部にマイクロフォンを備える移動型ロボットの場合、頭部を回転させたときの音源に対する相関行列は、頭部を回転させていないときの相関行列と異なるため、頭部の回転角度に応じたそれぞれの相関行列を予め用意する必要があり、非常に多くのデータを保持しなければならないという問題がある。
本発明はかかる事情に鑑みてなされたものであり、定常雑音源を有するシステムにおいて、音源方向を正しく推定する技術を提供することを目的とする。

上記問題を解決するために、請求項１記載の音源方向推定装置は、音響信号を入力する音響信号入力手段（例えば、実施形態におけるマイクロフォンアレイ１００）と、入力された音響信号の相関行列を算出する相関行列算出手段（例えば、実施形態における相関行列算出部１１０）と、算出された相関行列を用いて相関行列の固有ベクトルを求める固有ベクトル算出手段（例えば、実施形態における固有ベクトル算出部１２０）とを備え、前記固有ベクトルを用いて音源方向を推定する音源方向推定装置において、前記固有ベクトル算出手段がその固有ベクトルを算出する相関行列は、音を発する音源が増えたときに前記音響信号の相関行列（例えば、実施形態における相関行列Ｒ）にそれまでに得られた音源毎の相関行列の逆行列を乗じることで得られる音源毎の相関行列（例えば、実施形態における相関行列Ｃ）のうち、消去したい音源各々の相関行列の逆行列である、あるいは前記消去したい音源各々の相関行列を固有値展開したときの各固有値を対角成分とする対角行列を０から−１の間の値乗とした行列に基づく行列である、前記消去したい音源各々の消去演算子（例えば、実施形態における相関行列Ｃ^−１）を、前記算出された相関行列（例えば、実施形態における相関行列Ｒ）に、前記音源毎の相関行列が得られた順に少なくとも乗じた行列であることを特徴とする。
請求項２記載の音源方向推定装置は、前記固有ベクトル算出手段がその固有ベクトルを算出する相関行列が、前記算出された相関行列に、さらに、前記音源毎の相関行列のうち、注目している音源各々の相関行列である、あるいは前記注目している音源各々の相関行列を固有値展開したときの各固有値を対角成分とする対角行列を０から１の間の値乗とした行列に基づく行列である、前記注目している音源各々の集束演算子（例えば、実施形態における相関行列Ｃ^１）を、前記音源毎の相関行列が得られた順に少なくとも乗じた行列であることを特徴とする。
請求項３記載の音源方向推定方法は、音響信号を入力する音響信号入力手順と、入力された音響信号の相関行列を算出する相関行列算出手順と、算出された相関行列を用いて相関行列の固有ベクトルを求める固有ベクトル算出手順とを有し、前記固有ベクトルを用いて音源方向を推定する音源方向推定方法において、前記固有ベクトル算出手順において、その固有ベクトルが算出される相関行列は、音を発する音源が増えたときに前記音響信号の相関行列にそれまでに得られた音源毎の相関行列の逆行列を乗じることで得られる音源毎の相関行列のうち、消去したい音源各々の相関行列の逆行列である、あるいは前記消去したい音源各々の相関行列を固有値展開したときの各固有値を対角成分とする対角行列を０から−１の間の値乗とした行列に基づく行列である、前記消去したい音源各々の消去演算子を、前記算出された相関行列に、前記音源毎の相関行列が得られた順に少なくとも乗じた行列であることを特徴とする。

請求項１記載の音源方向推定装置によれば、音源方向を推定するための固有ベクトルを、入力された音響信号の相関行列に、消去したい音源各々の消去演算子を少なくとも乗じた行例を用いて算出するため、消去したい音源の影響を低減させて、音源方向を推定することができる。即ち、複数音源を有するシステムにおいて、特定音源の方向を正しく推定することができる。
請求項２記載の音源方向推定装置によれば、音源方向を推定するための固有ベクトルを、入力された音響信号の相関行列に、さらに、注目している音源各々の集束演算子を乗じた行例を用いて算出するため、音源分離および音声認識などの後段のプロセスにおいて、所望の音源を適切に分離、認識することができる。例えば、音源への興味の度合いに応じて適切に認識処理を行うことができる。
請求項３記載の音源方向推定方法によれば、請求項１と同様の効果を得ることができる。

音源方向推定装置１を搭載したロボット４の概略側面図である。ロボット４のブロック図であるロボット４とロボット４の設置環境の一例を模式化した模式図である。以下の説明において用いる種々のパラメータである。以下の説明においてさらに用いる種々のパラメータである。選択的注意システムのアーキテクチャの一例を模式化した模式図である。各相関行列の導出過程を模式化した模式図である。ＭＵＳＩＣ法とＧＥＶＤとの比較結果を示す図である。選択的注意システムによる実験のスナップショットである。固有ベクトル算出部１２０等の機能を模式化した模式図である。固有ベクトル算出部１２０等の機能を模式化した模式図である。固有ベクトル算出部１２０等の機能を模式化した模式図である。

以下、本発明の実施形態について説明する。
（音源方向推定装置の概略）
図１及び図２を用いて、本実施形態による音源方向推定装置１、具体的には、本実施形態による音源方向推定装置１を搭載したロボット４の概略を説明する。図１は、本実施形態による音源方向推定装置１を搭載したロボット４の概略側面図である。図２は、ロボット４のブロック図である。ロボット４は、図１に示すように、基体部４１と、基体部４１に可動連結された頭部４２と、収納部４５とを備える。

ロボット４は、図２に示すように、頭部４２に、マイクロフォンアレイ１００（音響信号入力手段）及び頭機能部１５０を備える。また、ロボット４は、収納部４５に、相関行列算出部１１０（相関行列算出手段）、固有ベクトル算出部１２０（固有ベクトル算出手段、マイク姿勢情報保持部）、音源方向推定部１３０及び駆動制御部１４０を備える。なお、破線にて示すように、マイクロフォンアレイ１００、相関行列算出部１１０、固有ベクトル算出部１２０及び音源方向推定部１３０は、音源方向推定装置１を構成する。

駆動制御部１４０は、頭機能部１５０に制御信号を出力し、頭部４２の駆動を制御する。例えば、駆動制御部１４０は、命令受信部（非図示）を介して外部受信した命令などに加え、音源方向推定部１３０から出力される音源方向情報（後述）に応じて、頭機能部１５０に制御信号を出力する。

頭機能部１５０は、駆動制御部１４０からの制御信号に基づいて、頭部４２の回転動作を制御する。なお、頭部４２に収納されたマイクロフォンアレイ１００の配向（マイクロフォンアレイ１００の姿勢）は、頭部４２の回転に伴って変化する。

マイクロフォンアレイ１００は、複数のマイクロフォンから構成され、各マイクロフォンによって複数の音声を集音する。即ち、マイクロフォンアレイ１００は、複数の音響信号を入力する。具体的には、マイクロフォンアレイ１００は、種々の音源からの音響信号を入力する。音源としては、本来的に取得すべき音響信号（以下、ターゲット音響信号）を発生するターゲット音源（単に、音源とも称する）に加え、本来的に取得すべきでない音響信号（雑音）を発生する雑音源も含まれる。また、雑音源には、ロボット４の外部の雑音源及び内部の雑音源がある。ロボット内部の雑音源の一例は、収納部４５に収納された放熱用のファン（非図示）である。マイクロフォンアレイ１００は、入力された複数の音響音声を相関行列算出部１１０に出力する。

相関行列算出部１１０は、マイクロフォンアレイ１００から入力された複数の音響信号の相関行列を算出する。相関行列算出部１１０は、算出した相関行列を固有ベクトル算出部１２０に出力する。

固有ベクトル算出部１２０は、相関行列を用いて固有ベクトルを求める。例えば、固有ベクトル算出部１２０は、相関行列算出部１１０によって算出された相関行列（入力信号の相関行列）を用いて、該相関行列の固有ベクトルを求める。また、例えば、固有ベクトル算出部１２０は、入力信号の相関行列と１以上の所定の相関行列とを用いて、入力信号の相関行列の固有ベクトルと異なる固有ベクトルを算出する。固有ベクトル算出部１２０は、算出した固有ベクトルを音源方向推定部１３０に出力する。

また、固有ベクトル算出部１２０は、上記所定の相関行列を補正し、上記所定の相関行列の固有ベクトルを変更する。固有ベクトル算出部１２０は、固有ベクトルを変更した場合、変更後の固有ベクトルを音源方向推定部１３０に出力する。なお、固有ベクトル算出部１２０による上記補正によって、当該所定の相関行列の固有ベクトルは変更され、観測信号（マイクロフォンアレイ１００によって集音される複数の音響信号（ターゲット音響信号及び雑音信号）の強さを操作することができる。なお、所定の相関行列、及び、固有ベクトル算出部１２０の詳細は後述する。

音源方向推定部１３０は、固有ベクトルを用いて音源方向を推定する。音源方向推定部１３０は、推定した音源方向を示す音源方向情報を駆動制御部１４０に出力する。なお、音源方向推定部１３０の詳細は後述する。

図３は、ロボット４とロボット４の設置環境の一例を模式化した模式図である。図３に示すように、ロボット４は、外部のターゲット音源に加え、内部の雑音として収納部４５のファンによる雑音、及び、外部の雑音源などの環境におかれる。また、外部の音源は、何れも移動し、又、音量も増減する。

（音源方向推定装置に関連する技術）
続いて、図４乃至図９を用いて、本実施形態による音源方向推定装置１に関連する技術事項（本実施形態による音源方向推定装置１の基礎になる技術事項も含む）について詳細に説明する。

まず、一般的な信号モデルについて説明する。図４は、以下の説明において用いる種々のパラメータである。各マイクロフォンによって測定される信号モデルｘ_ｍ（ｔ）は、一般に、下記式（１）による、線形受信システムとみなされる。

なお、図４に示すように、ｍはマイクロフォンのインデックス、ｌは音源のインデックス、ｔは時間、φはロボット頭部の配向、θ_ｌはｌ番目の音源の方向、ｓ_ｌ（ｔ，θ_ｌ）は時間領域におけるｌ番目の音源の信号、ｎ_ｍ（ｔ，φ）は、専ら環境雑音に関係する加法的雑音である。また、ｘ（ｔ）は、フーリエ変換によって下記式（２）となる。

定位に使用されるＭＵＳＩＣ法では、以下のように、方向推定ベクトルＧ（ω，Ψ）を定位に先立って導出しておく。頭部配向φ＝０、音源個数Ｌ＝１、及び、雑音ｎ_ｍ（ｔ，φ）＝０と仮定し、音源信号ｓ_１（ｔ，θ_１）がインパルス信号の場合、ｘ_ｍ（ｔ）＝ａ_ｍ，１（ｔ，０，θ_１）ｓ_１（ｔ，θ_１）のフーリエ変換は、下記式（３）のように表される。

音源信号Ｓ_１（ω，θ_１）＝１であるため、１番目のある音源方向θ_１におけるＸ（ω）は、ある１つの方向推定ベクトルに定まる。よって、方向推定ベクトルＧ（ω，Ψ）は、音源方向θの測定前、即ち定位前の各Ψにおける方向推定ベクトルとして、下記式（４）のように定義される。

定位中には、ｘ（ｔ）は、サンプリング時間τで測定される（上記式（１）のｎ_ｍ（ｔ，φ）は、ゼロであると仮定し得ないことに留意）。フーリエ変換後のｘ（τ）をＸ（ω，τ）とするとき、ｘ（τ）の相関行列Ｒ（ω，φ）は、下記式（５）となる。

但し、（）^＊は、複素共役転置演算子である

簡単のためφ＝０と仮定すると、Ｒ（ω，φ）は、下記式（６）のように固有値展開（ＳＥＶＤ）することができる。

Λは、Ｒ（ω,φ）の値（λ_１≧λ_２≧…≧λ_Ｍ）を値に持つｄｉａｇ（λ_１，λ_２，…，λ_Ｍ）であるが、λ_ｍは、音源の音の強さを表すので、λ_ｉ及びｅ_ｉ（１≦ｉ≦Ｌ）は、音源に関する固有値及び固有値ベクトルである。λ_ｉ及びｅ_ｉ（Ｌ＋１≦ｉ≦Ｍ）は、雑音の固有値及び固有値ベクトルである。

従って、特定スペクトル、具体的には、下記式（７）のように表される方向推定式Ｐ（ω，Ψ）において、方向推定ベクトルＧ（ω，Ψ）が音源方向を正しく指している場合にはＧ（ω，Ψ）・ｅ_ｍ＝０となるため、ピークが無限大となる。

以上のように、固有値展開（ＳＥＶＤ）に基づくＭＵＳＩＣ法では、検出しやすく、信頼性の高いピークが得られるという理由から、ロボットの定位に使用されている。また、数値アルゴリズムに関してロボットへの容易な実装も実現する。なお、実際には、雑音を白色雑音であると仮定することはできないため、雑音と音源とは相互相関することになり、ピークは無限大とまではならない。

しかし、ＭＵＳＩＣ法には、上述の如く、音源が雑音源に比べて強いという仮定が満たされる場合にしか適切な定位ができないという問題がある。ロボット定位の場合、上記式（２）のＮ（ω，φ）は多くの場合において第１項より大きいため、上記問題は回避できない。従って、ｅ_ｉ（１≦ｉ≦Ｌ）の幾つかは、雑音から選択されるため、上記式（７）は、望ましくないピークを返すことになる。

図５は、以下の説明において更に用いる種々のパラメータである。本実施形態による音源方向推定装置１は、上述の固有値展開（ＳＥＶＤ）に基づくＭＵＳＩＣ法に代えて、ＧＥＶＤ（一般化固有値展開）に基づくＭＵＳＩＣ法を採用する。即ち、本実施形態による音源方向推定装置１は、環境雑音を抑制するために、雑音相関行列を更に使用したＧＥＶＤを採用する。なお、以下の説明では、ＳＥＶＤに基づくＭＵＳＩＣ法を単にＭＵＳＩＣ法と称し、ＧＥＶＤに基づくＭＵＳＩＣ法をＧＥＶＤと称する。なお、ＧＥＶＤの数学的特性は、下記参考文献１に説明されている。

（参考文献１）
Ｇ．Ｓｔｒａｎｇ，ＬｉｎｅａｒＡｌｇｅｂｒａａｎｄｉｔｓＡｐｐｌｉｖａｔｉｏｎｓＴｈｉｒｄＥｄｉｔｉｏｎ，ＨａｒｃｏｕｎｔＢｒａｃｅＪｏｖａｎｏｖｉｃｈ，１９９８．

また、本実施形態による音源方向推定装置１は、消去又は集束させる音を選択するために、ＧＥＶＤに対し相関行列を動的設計する。以降、音を消去又は集束する機能を“ターゲット音源選択”とも称する。更に、本実施形態による音源方向推定装置１は、ターゲット音源選択に関連して、消去又は集束の程度を制御した相関行列を設計する。以降、消去又は集束の程度を制御する機能を“動的ＦｏＡ”とも称する。動的ＦｏＡにより、人間の行う定位のような知的な定位が実現する。以降、人間の行う定位のような知的な定位を“インテリジェント定位”とも称する。

更に、本実施形態による音源方向推定装置１は、ロボットの頭部の回転、即ち頭部の配向の変化を考慮し、頭部配向の変化に応じた相関行列の動的な変換を採用する。以降、上記変換又は変換後の相関行列による定位を“相関行列推定”とも称する。また、ＧＥＶＤ、ターゲット音源選択、動的ＦｏＡ及び相関行列推定を包含した統合システムを“選択的注意システム”とも称する。

図６は、選択的注意システムのアーキテクチャの一例を模式化した模式図である。図６において、ＧＥＶＤは、機能Ａ−Ｊ（主に機能Ｂ、Ｃ、Ｄ、Ｈ）に関係し、ターゲット音源選択は機能Ｅに関係し、動的ＦｏＡは機能Ｆに関係し、相関行列推定は機能Ｇに関係する。なお、機能Ａ−Ｊはロボット４に実装される。以下、ＧＥＶＤ、ターゲット音源選択、動的ＦｏＡ及び相関行列推定について詳細に説明する。

（ＧＥＶＤ）
ＭＵＳＩＣ法の問題を解決するためにＧＥＶＤを使用するが、ターゲット音の大きさに比べて雑音の大きさが大きい場合に、上述の如く、雑音の固有ベクトルｅ_１，・・・，ｅ_Ｌを選択してしまう点が問題となる。該問題を解決するため、下記式（８）に示すように、雑音Ｎ（ω，φ）の相関行列Ｋ（ω，φ）を定義する。

Ｎ（ω，φ）は、上記式（２）において、Ｓ_ｌ（ω，θ_ｌ）＝０として測定する。よって、ＧＥＶＤにおいて、Ｒ（ω，φ）は、下記式（９）のように表される。

上記式（９）から、雑音は白色雑音になる。Ｋが正則行列である場合、上記式（９）から下記式（１０）が得られ、通常の固有値展開に簡素化される。

雑音とターゲット音とが無相関である場合、Ｋは正則行列ではないが、ロボット音源定位の殆どの場合、雑音とターゲット音とは相互相関しているため、上記式（１０）は有効である。

ＧＥＶＤの空間スペクトルは、下記式（１１）によって表される。

以上から、ＧＥＶＤでは、雑音は抑制され、音源の固有ベクトルとして、ｅ_Ｌ＋１，…，ｅ_Ｍが選択されない。つまり、ＧＥＶＤは、雑音に対してロバストな定位法である。

（ターゲット音源選択）
ターゲット音源選択は、ＧＥＶＤの応用し、特定の音を選択する。上記式（１０）において、Ｋ（ω，φ）の逆行列は、相関行列Ｒ（ω，φ）から雑音Ｎ（ω，φ）を消去する“消去演算子”とみなすことができる。逆に、上記式（１０）において、Ｒ（ω，φ）は、ターゲット音及び雑音の“集束演算子”とみなすことができる。

ターゲット音源選択の考え方は、消去演算子及び集束演算子に基づく。消去演算子及び集束演算子の選択によって、所望の定位環境を設計する。よって、複数の音が同時に検出されないと仮定し、各音の上記演算子を算出する。まずは、環境音がないときに、予めφで事前測定される、ロボット自身の環境雑音Ｎ（ω，φ）をマイクロフォンアレイによって検出し、雑音相関行列Ｋ（ω，φ）を算出する。

次に、１番目の音Ｓ_１（ω，θ_１）をマイクロフォンアレイによって検出し、下記式（１２）のように、測定信号Ｘ（ω）の新たな相関行列Ｒ_１（ω，φ，θ_１）を得る。下記式（１２）は、環境雑音と１番目の音の両方の情報を有する。

Ｋ^−１（ω，φ）によってＲ_１（ω，θ_１）から雑音要素が消去されるため、１番目の音の相関行列Ｃ_１（ω，φ）は、下記式（１３）となる。直観的には、Ｃ_１（ω，φ）は、Ａ_１（ω，φ，θ_１）Ｓ_１（ω，θ_１）の相関行列とみなすこともできる。なお、厳密に言えば、雑音および音は、下記式（１３）が交差項を持たないように無相関であると仮定している。

同様に、２番目の音を検出し、Ｒ_２（ω，φ）を得て、下記式（１４）に示すように、２番目の音の相関行列Ｃ_２（ω，φ）を得る。

同様に、Ｌ番目の音まで繰り返し、相関行列Ｃ_１，…，Ｃ_Ｌを得る。Ｃ_ｌの一般項は、下記式（１５）となる。

Ｃ_ｌは、ｌ番目の音に対する集束演算子、Ｃ_ｌ ^−１は、ｌ番目の音Ａ_ｌ（ω，φ，θ_ｌ）Ｓ_ｌ（ω，θ_ｌ）に対する消去演算子である。図７は、各相関行列の導出過程を模式化した模式図である。図７において、算出過程は階層構造で表され、アルゴリズム的に容易に装置に実装できる。

任意の音の消去及び集束について、Ｖ（ω，φ）は、設計された相関行列として定義される。即ち、Ｖ（ω，φ）の一般形式は、下記式（１６）によって示される。

また、上記式（１０）は、下記式（１７）のように書き換えられるため、任意の音を定位することができる。

（動的ＦｏＡ）
上記式（１６）において、ｐ_ｉは、整数しかとらないため、ターゲット音源選択において、音の集束および消去は、離散的に実行されるため、インテリジェント定位を実現することはできない。インテリジェント定位を実現する場合、動的ＦｏＡが必要になる。

動的ＦｏＡの考え方は、各Ｃ_ｌを、１からＣ_ｌ ^−１へ、又は、Ｃ_ｌ ^−１から１へ連続的に変化させることである。なお、減衰では上述の如くＣ_ｌ ^−１を用いるが、集束では、Ｃ_ｌ ^−１に代えてＣ_ｌ ^１を用いる。Ｃ_ｌ ^−１の固有値展開は、下記式（１８）によって示される。

減衰は、下記式（１９）と定義される。減衰パラメータＤ_ｌは、音の重要度に応じた０から−１まで連続的に値をとる。具体的には、減衰パラメータＤ_ｌが０のときは減衰がされず、−１に近づくにつれて減衰が漸次大きくなり、−１のときに減衰が最も大きくなる。減衰パラメータＤ_ｌは、上述のような特性を有するため、応用例に応じた種々の設定例が考えられる。例えば、興味のある音の方向を推定する態様の場合、音に対する興味度を設定し、興味度に応じてＤ_ｌを設定してもよい。具体的には、興味度が低い音ほど−1に近い値を設定する。また例えば、発話の音声認識度が高い音の方向を推定する態様の場合、発話の音声認識度に応じてＤ_ｌを設定してもよい。具体的には、音声認識の尤度が低い音ほど−1に近い値を設定し、また、当該尤度が低下にするにつれて、−1に近づくように設定してもよい。また例えば、ロボットが音を検出してからの経過時間に着目し、経時的に、減衰パラメータを徐々に小さくしてもよい。

人間は、新しい音が聞こえると、新しい音に聞き耳を立て、聴取の要否を判断し、次第に音を消去する。動的ＦｏＡでは、このようなインテリジェント定位を達成する。

（相関行列推定）
続いて、ロボットの頭部回転時の音源定位について説明する。相関行列推定は、頭部回転によるマイクロフォンアレイ、ターゲット音及び雑音の方向の変化してしまうという課題を解決する。以下、頭部の配向φを変数とする。

上述の如く、上記式（１５）からＣ_ｌ（ω，φ）を得ても、φからφ’への頭部回転は、全ての相関行列について、Ｃ_ｌ（ω，φ）をＣ_ｌ（ω，φ’）に変化させる。従って、Ｃ_ｌ（ω，φ）からのＣ_ｌ（ω，φ’）の推定が必要になる。上記推定に方向推定ベクトルＧ（ω，Ψ）を使用する。ターゲット音源選択において説明したように、Ｃ_ｌ（ω，φ）は、Ａ_ｌ（ω，φ，θ_ｌ）Ｓ_ｌ（ω，θ_ｌ）の相関行列とみなすことができる。即ち、下記式（２０）のように示される。

上記式（２０）によれば、Ｓ_ｌＳ_ｌ ^＊は、φに非依存であるため、φからφ’へのＣ_ｌ（ω，φ）の変換行列Ｔ_ｌ（ω，φ，φ’）は、下記式（２１）のように定義される。

即ち、頭部をφからφ’に回転させたときの回転後の相関行列Ｃ_ｌ＾（ω，φ，φ’）は、回転前の相関行列Ｃ_ｌ（ω，φ）と、変換行列Ｔ_ｌ（ω，φ，φ’）とを用いて、下記式（２２）のように表される。

（システム実装）
ＧＥＶＤ、ターゲット音源選択、動的ＦｏＡ、及び、相関行列推定の特長は、夫々の関数が、音独立演算であることである。よって、アルゴリズム的に容易に実装可能である。各演算は、音を動的に１つずつ処理することができるので、選択的注意システムは、種々の環境的変化に対し順応性が高い。

例えば、定位に対する演算ステップを例えば以下の順序で記述する。
１．Ｒ_ｌ（ω，φ）の決定（１≦ｌ≦Ｌ）
２．上記式（１５）によるＣ_ｌ（ω，φ）の決定
３．上記式（１６）のｐ_ｉによるターゲット音源選択のための決定
４．音の重要度に応じて上記式（１９）においてＤ_ｌを定義することによる動的ＦｏＡのための決定
５．頭部回転について、上記式（２２）によるＣ_ｌ（ω，φ）の変換

なお、実験検証用のロボットとして、８チャネルマイクロフォンアレイを埋め込んだＨｏｎｄａＡＳＩＭＯを使用している。アレイの位置は、その頭部にあり、一様円形アレイ状幾何学的形状を有する。２つのスピーカがＡＳＩＭＯの前側の６０度と−６０度に位置し、異なる音を発する（同じであってもよい）。ＡＳＩＭＯと音との間の距離は、１ｍであり、これはマイクロフォンアレイに対し遠距離場となっている。ＡＳＩＭＯは、自分用のファンを後側に持ち、これは、大きな環境雑音とみなされる。ファン騒音より低い音が、ＧＥＶＤの検証に使用される。実験装備のアーキテクチャも図６に示されている。制御用ＰＣおよびＡＳＩＭＯは、無線ネットワークを介して接続される。ＡＳＩＭＯは、アレイによって記録された音のデータを送信し、ＰＣは、その頭部回転に対する角度を送信する。リアルタイム処理のため、提案されているすべての機能は、Ｃ＋＋ベースのコードであるＦｌｏｗＤｅｓｉｇｎｅｒに基づくＨＡＲＫロボット聴覚ソフトウェアのコンポーネントブロックとして実装される。ＰＣ側のすべての演算は、２．５ＧＨｚＩｎｔｅｌＣｏｒｅ２Ｄｕｏと２ＧＢＳＤＲＡＭを搭載し、ｌｉｎｕｘ（登録商標）が稼動するラップトップコンピュータによって実行される。

（評価）
以下、上記各種法の有効性を、シミュレーションと実験の両方で評価する。評価用の共通条件は以下のとおりである。
・Ｋ（ω，φ）は、頭部角度の５度で与えられる。
・６０度と−６０度との間に２つの音がある。
・主環境雑音は、１８０度の角度からである。
・環境雑音Ｎ（ω，φ）の強さは、定位する音よりも大きい。
・−６０度の角度からの音が最初に検出され、次いで、６０度からの音がその後検出される。
・方向推定ベクトルＧ（ω，Ψ）は５度で与えられる。つまり、Ψ＝｛−１７５，−１７０，…，１８０｝度である。
・頭部回転は、ロボットが音を検出したときに行われ、音に向かい合おうとする。従って、Ｃ_１（ω，φ）は、−６０度からの音に関するものであり、Ｃ_２（ω，φ）は、６０度からの音に対するものである。

まず、ＧＥＶＤが環境雑音にどれほど強いかを示すために、ＭＵＳＩＣ法とＧＥＶＤとを数値比較する。なお、評価のため頭部配向は０度に固定されているものとする。図８は、ＭＵＳＩＣ法とＧＥＶＤとの比較結果を示す図である。図８の横軸は、音源の信号対雑音（ＳＮ）比を示し、縦軸は、定位精度を示す。グラフは、１００ブロック単位で音のピークを検出するフレームの個数である。１音および２音の定位について、ＭＵＳＩＣ法とＧＥＶＤとを比較した。両方の場合において、上記条件「環境雑音Ｎ（ω，φ）の強さは定位する音よりも大きい」のため、ＭＵＳＩＣ法性能は明らかに低下していた。他方、ＧＥＶＤは、ＳＮ比が負に振れても完全に定位された。また、全ての場合において、ＧＥＶＤは、ＭＵＳＩＣ法に比べて雑音に強く、ＧＥＶＤの有効性は、首尾良く検証された。

続いて、選択的注意システムを評価する。図９は、選択的注意システムによる実験のスナップショットである。なお、実験で使用した音はファン騒音に比べてかなり小さく、上記条件「環境雑音Ｎ（ω，φ）の強さは定位する音よりも大きい」を満たしている。なお、ロボットは定位した方向に頭部を回転させる。

図９（ａ）は、実験の第１の段階を示している。ここでφは０度であり、−６０度のところにあるスピーカは、低クロックアラーム音ｓ_１（ｔ，−６０）を発し始める。図９（ａ）の右側は、ロボットが音に気づいたときのＭＵＳＩＣ法（実際にはＭＩＳＩＣ法の変形であるＳＥＶＤ）とＧＥＶＤの両方の空間スペクトルを示している。図９（ａ）に示すように、ＭＵＳＩＣ法は、ロボットの背後にあるファン騒音に向かう方向で高いピークを検出する（図９（ａ）において１８０度）。従って、ＭＵＳＩＣ法では、ロボットは音の方向を向かない。一方、ＧＥＶＤは、Ｋ（ω，φ）を使用することによって雑音を消去することができるため、ピークは、見かけ上ロボットの前側にある（−６０度）。従って、ＧＥＶＤでは、大きな雑音の下でも首尾良く音の方向を向く。以上のように、ＧＥＶＤの雑音に対する強さは、実験結果からも確認できる。

図９（ｂ）は、実験の第２の段階を表している。ロボットはｓ_１（ｔ，−６０）に面し、動的ＦｏＡを使用して音を消去しようとする。最初に、相関行列Ｒ_１（ω，−６０）が計算され、新しい音を聞くために相関行列Ｃ_１（ω，−６０）が導出される。動的ＦｏＡは、相関行列Ｃ_１（ω，−６０）が、下記式（２３）によって決定されると機能し始めるが、当該機能は正常に動作していることもわかる（図９（ｂ）の右側を参照）。音の消去を終了すると、新しい音を聞く準備が整う。

図９（ｃ）では、６０度のところにあるスピーカが、小さい楽音ｓ_２（ｔ，６０）を発する。ロボットは、相関行列Ｋ_１（ω，−６０）、Ｒ_１（ω，−６０）、及びＣ_１（ω，−６０）を現在有している。新しい音が聞こえると、Ｃ_２（ω，−６０）はＲ_２（ω，−６０）から、Ｃ_２（ω，−６０）＝Ｃ_１ ^−１（ω，−６０）Ｋ^−１（ω，−６０）Ｒ_２（ω，−６０）として得られる。従って、ターゲット音源選択を使用してそれぞれの音の集束または消去を決定することができる。図９（ｃ）の右側に結果が示されているように、選択的注意システムは、相関行列の適切な設計によって所望の音を選択することができる。

図９（ｄ）において、ロボットはｓ_２（ｔ，６０）に面する。これは相関行列Ｃ_１（ω，６０）及びＣ_２（ω，６０）を有していないため、相関行列推定が適用される。推定行列は、下記式（２４）（２５）によって示される。

また、図９（ｄ）の右側は、下記式（２６）が使用されたときの定位結果である。

図９（ｄ）に示すように、ターゲット音に対するピークは最高であるため、推定も現実環境において機能する。以上のように、各機能の有効性は、数値シミュレーションだけでなく実験によっても確認された。

（固有ベクトル算出部の詳細）
続いて、上記を踏まえ、固有ベクトル算出部１２０について詳細に説明する。図２及び図６において、マイクロフォンアレイ１００は機能Ａに関係し、相関行列算出部１１０の機能は機能Ｂ、Ｃ、Ｄに関係し、固有ベクトル算出部１２０は機能Ｅ、Ｆ、Ｇに関係し、音源方向推定部１３０は機能Ｈに関係し、駆動制御部１４０は機能Ｉ、Ｊに関係する。

図１０乃至図１２は、固有ベクトル算出部１２０の機能等を模式化した模式図である。図１０（ｃ）は図６の機能Ｅ中の図と、図１１（ｂ）は機能Ｆ中の図と、図１２（ｂ）は図６の機能Ｇ中の図と夫々同一である。なお、図１０（ｃ）、図１１（ｂ）、図１２（ｂ）の各図において、信号１及び信号２の方向、強さは、説明の便宜上、揃えていない。なお、以下の文中において、文字「Ｘ＾」は、文字Ｘの上に＾を付したものである。

はじめに、図１０を用いて、所望の信号の定位について説明する。なお、以下の説明において、相関行列算出部１１０は、複数の音響音声として、雑音源からの雑音ｎ、音源１からの信号１、及び、音源２からの信号２からなる入力信号ｓをマイクロフォンアレイ１００から得るものとする。また、雑音ｎの雑音相関行列Ｋ、信号１の相関行列Ｃ_１、信号２の相関行列Ｃ_２は、所定の相関行列として、相関行列算出部１１０によって予め算出され（上記式（８）、上記式（１５））、蓄積されているものとする（図６の機能Ｂ）。

例えば、信号１を定位する場合、固有ベクトル算出部１２０は、図１０（ａ）に示すように、入力信号ｓの相関行列Ｒと、雑音相関行列Ｋと、相関行列Ｃ_２とを用いて、固有ベクトルｅ_ｍ＾を算出する（上記式（１７））。次いで音源方向推定部１３０は、当該固有ベクトルｅ_ｍ＾を用いて信号１を定位する（上記式（１１）。即ち、図１０（ｃ）に示すように、Ｃ_２ ^−１Ｋ^−１を用いて、雑音及び信号２消去し、信号１のピークが目立つようにして（同図右下）、信号１を定位する。

同様に、信号２を定位する場合、固有ベクトル算出部１２０は、図１０（ｂ）に示すように、入力信号ｓの相関行列Ｒと、雑音相関行列Ｋと、相関行列Ｃ_１とを用いて、固有ベクトルｅ_ｍ＾を算出する。次いで音源方向推定部１３０は、当該固有ベクトルｅ_ｍ＾を用いて信号２を定位する。即ち、図１０（ｃ）に示すように、Ｃ_１ ^−１Ｋ^−１を用いて、雑音及び信号１消去し、信号２のピークが目立つようにして（同図左下）、信号２を定位する。

なお、単に、雑音を消去する場合には、固有ベクトル算出部１２０は、入力信号ｓの相関行列Ｒと、雑音相関行列Ｋとを用いて、固有ベクトルｅ_ｍ＾を算出すればよい。

なお、音源方向推定部１３０は、定位結果であるΨを駆動制御部１４０に出力する。Ψを取得した駆動制御部１４０は、Ψに基づいて頭部配向φを算出する。φを算出した駆動制御部１４０は、φを含む制御情報を頭部４２に出力し頭部４２を回転させるとともに、φを固有ベクトル算出部１２０に出力する。φを取得した固有ベクトル算出部１２０は、φをマイク姿勢情報として保持する。なお、マイク姿勢情報とは、マイクロフォンアレイ２００の姿勢（頭部４２の姿勢）を示す情報である。

続いて、図１１を用いて、信号の消去度合いの調整について説明する。図１０において、信号１を定位する場合に雑音及び信号２を消去したが、信号２の消去度合いを調整する場合、固有ベクトル算出部１２０は、相関行列Ｃ_２を相関行列Ｃ_２ ^Ｄ２と補正し（上記式（１９））、図１１（ａ）に示すように、相関行列Ｃ_２ ^Ｄ２の固有ベクトルｅ_ｍ＾を算出する。即ち、図１１（ｂ）に示すように、注目度合いなどに応じて、Ｄ_２の値を変化させることによって、信号２の消去度合いを調整することができる。信号１の消去度合いを調整する場合も同様である。即ち、固有ベクトル算出部１２０によって、所定の相関行列が補正されて、それに応じて当該所定の相関行列の固有ベクトルも変わるため、観測信号の強さ（例えば、図９―図１２に示す３次元の図の高さ方向の値（Ｌｅｖｅｌ））を操作することができる。なお、説明の便宜上、図１１（ｂ）では、雑音を省略している。

続いて、図１２を用いて、頭部４２の回転への対応について説明する。図１０及び図１１において、信号２の消去度合いを調整したが、更に、頭部４２の回転に対応させる場合、固有ベクトル算出部１２０は、マイク姿勢情報（φ）に基づいて、相関行列Ｃ_２ ^Ｄ２を相関行列Ｃ_２ ^Ｄ２＾と補正し（上記式（２２））、図１２（ａ）に示すように、相関行列Ｃ_２ ^Ｄ２＾の固有ベクトルｅ_ｍ＾を算出する。次いで音源方向推定部１３０は、当該固有ベクトルｅ_ｍ＾を用いて、信号２の消去度合いを調整し、且つ、頭部４２の回転を考慮して、図１２（ｂ）に示すように、信号１を定位する（上記式（１１）。例えば、図１２（ｂ）に示す例では、回転前のピークは０度であったが、回転後は−６０度である。

以上、上記実施形態によれば、定常雑音源を有するシステムにおいて、音源方向を正しく推定することができる。また、複数音源を有するシステムにおいて、特定音源の方向を正しく推定することができる。また、音源分離および音声認識などの後段のプロセスにおいて、所望の音源を適切に分離、認識することができる。また、マイク姿勢に応じたそれぞれの相関行列を予め用意していなくても、マイク姿勢に応じて、音源方向を正しく推定することができる。

なお、上記実施形態において、固有ベクトル算出部１２０がマイク姿勢情報（φ）を保持するが、固有ベクトル算出部１２０が保持する態様に代えて、駆動制御部１４０がマイク姿勢情報（φ）を保持する態様としてもよい。駆動制御部１４０がマイク姿勢情報（φ）を保持する場合、駆動制御部１４０は、固有ベクトル算出部１２０からの要求に応じてマイク姿勢情報（φ）を固有ベクトル算出部１２０に出力する。

また、上記実施形態において、音源方向推定部１３０から出力されるΨから算出されるφをマイク姿勢情報としているが、φをマイク姿勢情報とする態様に代えて、頭機能部１５０等が頭部４２の姿勢を実際に測定し、測定結果をマイク姿勢情報とする態様としてもよい。測定結果をマイク姿勢情報とする場合、頭機能部１５０等は、固有ベクトル算出部１２０からの要求に応じて、頭部４２の姿勢を測定すればよいため、マイク姿勢情報を保持する必要がない。

なお、本発明の一実施形態による音源方向推定装置１の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、本発明の一実施形態による音源方向推定装置１に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

４ロボット
４１基体部
４２頭部
４５収納部
１００マイクロフォンアレイ（音響信号入力手段）
１１０相関行列算出部（相関行列算出手段）
１２０固有ベクトル算出部（固有ベクトル算出手段、マイク姿勢情報保持部）
１３０音源方向推定部
１４０駆動制御部
１５０頭機能部

Claims

音響信号を入力する音響信号入力手段と、
入力された音響信号の相関行列を算出する相関行列算出手段と、
算出された相関行列を用いて相関行列の固有ベクトルを求める固有ベクトル算出手段とを備え、前記固有ベクトルを用いて音源方向を推定する音源方向推定装置において、
前記固有ベクトル算出手段がその固有ベクトルを算出する相関行列は、音を発する音源が増えたときに前記音響信号の相関行列にそれまでに得られた音源毎の相関行列の逆行列を乗じることで得られる音源毎の相関行列のうち、消去したい音源各々の相関行列の逆行列である、あるいは前記消去したい音源各々の相関行列を固有値展開したときの各固有値を対角成分とする対角行列を０から−１の間の値乗とした行列に基づく行列である、前記消去したい音源各々の消去演算子を、前記算出された相関行列に、前記音源毎の相関行列が得られた順に少なくとも乗じた行列であることを特徴とする音源方向推定装置。
前記固有ベクトル算出手段がその固有ベクトルを算出する相関行列は、前記算出された相関行列に、さらに、前記音源毎の相関行列のうち、注目している音源各々の相関行列である、あるいは前記注目している音源各々の相関行列を固有値展開したときの各固有値を対角成分とする対角行列を０から１の間の値乗とした行列に基づく行列である、前記注目している音源各々の集束演算子を、前記音源毎の相関行列が得られた順に少なくとも乗じた行列であることを特徴とする請求項１に記載の音源方向推定装置。
音響信号を入力する音響信号入力手順と、
入力された音響信号の相関行列を算出する相関行列算出手順と、
算出された相関行列を用いて相関行列の固有ベクトルを求める固有ベクトル算出手順とを有し、前記固有ベクトルを用いて音源方向を推定する音源方向推定方法において、
前記固有ベクトル算出手順において、その固有ベクトルが算出される相関行列は、音を発する音源が増えたときに前記音響信号の相関行列にそれまでに得られた音源毎の相関行列の逆行列を乗じることで得られる音源毎の相関行列のうち、消去したい音源各々の相関行列の逆行列である、あるいは前記消去したい音源各々の相関行列を固有値展開したときの各固有値を対角成分とする対角行列を０から−１の間の値乗とした行列に基づく行列である、前記消去したい音源各々の消去演算子を、前記算出された相関行列に、前記音源毎の相関行列が得られた順に少なくとも乗じた行列であることを特徴とする音源方向推定方法。