JP6840302B2

JP6840302B2 - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: JP6840302B2
Application number: JP2020557460A
Authority: JP
Inventors: 訓古田; 松岡　文啓; 文啓松岡
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2021-03-10
Anticipated expiration: 2038-11-28
Also published as: JPWO2020110228A1; WO2020110228A1

Description

本発明は、情報処理装置、プログラム及び情報処理方法に関する。

近年のデジタル信号処理技術の進展に伴い、自動車内又は家庭のリビングでの音声認識によるハンズフリー音声操作、又は、手ぶらで電話するためのハンズフリー通話が広く普及している。また、機械の発する異常音又は人の悲鳴等の音を捉えて検知する異常音監視システムも開発されてきている。

これらハンズフリー音声操作システム、ハンズフリー通話システム又は異常音監視システムは、走行する自動車内、工場内、オフィス、又は、家庭のリビング等の様々な雑音環境下において、音声又は異常音等の目的音を収集するためにマイクロホンが設置される。しかしながら、そのようなマイクロホンは、目的音だけでなく、その目的音以外の周囲雑音及び他の音声（以下、妨害音と称する）を収集してしまう。

音声から個別に目的音を取り出す方法として、例えば、複数のマイクロホンを用いる場合、信号処理により目的音方向に指向性を向けたり、あるいは妨害音に死角を向けたりするようなビームフォーミングによる方法、又は、独立成分分析により混合行列を推定する方法等がある。但し、ビームフォーミングは、ノイズの抑圧には優れているが、音声の分離にはあまり有効でなく、独立成分分析は、残響又は騒音の影響で性能が低下する問題がある。更に、一般に実環境においては、妨害音の騒音源の数も１つとは限らず、マイクロホン数より多くの音源を分離するのに対応困難であるという制約がある。

これらに対し、目的音信号と妨害音信号とが時間周波数領域上で互いに重ならないというスパース性の仮定の下で、目的音以外の周波数成分をマスクして音源信号を分離する、バイナリマスキングと呼ばれる方法が提案されている。バイナリマスキングは、実装が容易で方向性を有する妨害音を抑圧するのに有効な方法である。

このバイナリマスキングに基づく方法として、特許文献１に開示されている技術がある。特許文献１には、パワースペクトルの振幅差を意図的に生じさせることで、スパース性が保証されない混合音声に対するバイナリマスキングの精度を高める方法が開示されている。

特開２０１０−２３９４２４号公報

しかしながら、従来の方法では、主マイク入力信号と副マイク入力信号のパワースペクトル間に意図的にパワー差を生じさせるため、マスク係数に誤差が生ずる問題がある。

本発明の１又は複数の態様は、かかる問題を解決するためになされたもので、高品質な目的信号を容易に得ることができるようにすることを目的とする。

本発明の第１の態様に係る情報処理装置は、第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成するアナログ／デジタル変換部と、前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成する時間／周波数変換部と、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間／周波数逆変換部と、を備え、前記マスク生成部は、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、前記第１のスペクトル成分の内、前記第１の範囲から到来する音のスペクトル成分の量の、前記第２の範囲から到来する音のスペクトル成分の量に対する比率を算出する発話量比算出部と、前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えることを特徴とする。
本発明の第２の態様に係る情報処理装置は、第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成するアナログ／デジタル変換部と、前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成する時間／周波数変換部と、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間／周波数逆変換部と、を備え、前記マスク生成部は、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、前記第１のスペクトル成分の内、前記第１の範囲から到来している音のスペクトル成分の量の、前記第２の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えることを特徴とする。

本発明の第１の態様に係るプログラムは、コンピュータを、第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成するアナログ／デジタル変換部、前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成する時間／周波数変換部、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間／周波数逆変換部、として機能させ、前記マスク生成部は、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、前記第１のスペクトル成分の内、前記第１の範囲から到来する音のスペクトル成分の量の、前記第２の範囲から到来する音のスペクトル成分の量に対する比率を算出する発話量比算出部と、前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えることを特徴とする。
本発明の第２の態様に係るプログラムは、コンピュータを、第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成するアナログ／デジタル変換部、前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成する時間／周波数変換部、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部、前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間／周波数逆変換部、として機能させ、前記マスク生成部は、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、前記第１のスペクトル成分の内、前記第１の範囲から到来している音のスペクトル成分の量の、前記第２の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えることを特徴とする。

本発明の第１の態様に係る情報処理方法は、第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成し、前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成し、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する情報処理方法であって、前記フィルタリング係数を算出する際に、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出し、前記第１のスペクトル成分の内、前記第１の範囲から到来する音のスペクトル成分の量の、前記第２の範囲から到来する音のスペクトル成分の量に対する比率を算出し、前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出し、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出することを特徴とする。
本発明の第２の態様に係る情報処理方法は、第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成し、前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成し、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する情報処理方法であって、前記フィルタリング係数を算出する際に、前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出し、前記第１のスペクトル成分の内、前記第１の範囲から到来している音のスペクトル成分の量の、前記第２の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化し、前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出し、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出することを特徴とする。

本発明の１又は複数の態様によれば、高品質な目的信号を容易に得ることができる。

実施の形態１及び３に係る音源分離装置の構成を概略的に示すブロック図である。実施の形態１〜３におけるマスク生成部の内部構成を概略的に示すブロック図である。第１のマイクロホン及び第２のマイクロホンの配置と、目的音の到来方向を説明するための概略図である。（Ａ）〜（Ｃ）は、目的音話者と妨害音話者が発話した場合の発話量比を説明するためのグラフである。（Ａ）及び（Ｂ）は、実施の形態１における効果を説明するためのグラフである。音源分離装置の第１のハードウェア構成例を示すブロック図である。音源分離装置の第２のハードウェア構成例を示すブロック図である。音源分離装置の動作を示すフローチャートである。実施の形態２に係る音源分離装置を含む情報処理システムの構成を概略的に示すブロック図である。目的音及び妨害音以外の雑音の影響を除外する方法の一例を示す模式図である。

実施の形態１．
図１は、実施の形態１に係る情報処理装置としての音源分離装置１００の構成を概略的に示すブロック図である。
音源分離装置１００は、アナログ／デジタル変換部（以下、Ａ／Ｄ変換部という）１０３と、時間／周波数変換部（以下、Ｔ／Ｆ変換部という）１０４と、マスク生成部１０５と、マスキングフィルタ部１１０と、時間／周波数逆変換部（以下、Ｔ／Ｆ逆変換部という）１１１と、デジタル／アナログ変換部（以下、Ｄ／Ａ変換部という）１１２とを備える。
音源分離装置１００は、第１のマイクロホン１０１及び第２のマイクロホン１０２に接続されている。

図２は、マスク生成部１０５の内部構成を概略的に示すブロック図である。
マスク生成部１０５は、マスク係数算出部１０６と、発話量比算出部１０７と、ゲイン算出部１０８と、マスク修正部１０９とを備える。
以下、図１及び図２に基づいて、実施の形態１の音源分離装置１００の構成及びその動作原理を説明する。音源分離装置１００は、第１のマイクロホン１０１及び第２のマイクロホン１０２で取得された時間領域の信号から生成された、周波数領域における信号に基づいて、マスキングフィルタを形成し、それを第１のマイクロホン１０１で取得された信号に対応する周波数領域の信号に掛けることで、妨害音が除去された目的音の出力信号を得る構成となっている。

ここで、第１のマイクロホン１０１で取得された第１の観測アナログ信号を第１のチャンネルＣｈ１ともいい、第２のマイクロホン１０２で取得された第２の観測アナログ信号を第２のチャンネルＣｈ２ともいう。
また、以降の説明を簡単にするため、図３に示されているように、第１のマイクロホン１０１と、第２のマイクロホン１０２とは、同一水平面に位置し、かつ、それらの位置は既知であり、かつ、時間で変化しないものとする。さらに、目的音及び妨害音が到来し得る方向範囲についても時間で変化しないものとする。なお、目的音が到来する方向を第１の方向ともいい、妨害音が到来する方向を第２の方向ともいう。
ここでは、目的音及び妨害音は、それぞれ別の単一話者による音声であるものとして説明する。

第１のマイクロホン１０１は、観測音を電気信号に変換することで、第１の観測アナログ信号を生成する。第１の観測アナログ信号は、Ａ／Ｄ変換部１０３に与えられる。
第２のマイクロホン１０２は、観測音を電気信号に変換することで、第２の観測アナログ信号を生成する。第２の観測アナログ信号は、Ａ／Ｄ変換部１０３に与えられる。

Ａ／Ｄ変換部１０３は、第１のマイクロホン１０１から与えられた第１の観測アナログ信号及び第２のマイクロホン１０２から与えられた第２の観測アナログ信号のそれぞれに対して、アナログ／デジタル変換（以下、Ａ／Ｄ変換という）を行うことで、それぞれをデジタル信号に変換し、第１の観測デジタル信号及び第２の観測デジタル信号を生成する。

例えば、Ａ／Ｄ変換部１０３は、第１のマイクロホン１０１から与えられた第１の観測アナログ信号に対して、予め定められたサンプリング周波数でサンプリングして、フレーム単位で分割されたデジタル信号に変換することで、第１の観測デジタル信号を生成する。同様に、Ａ／Ｄ変換部１０３は、第２のマイクロホン１０２から与えられた第２の観測アナログ信号に対して、予め定められたサンプリング周波数でサンプリングして、フレーム単位で分割されたデジタル信号に変換することで、第２の観測デジタル信号を生成する。ここで、サンプリング周波数は、例えば、１６ｋＨｚであり、フレーム単位は、例えば、１６ｍｓである。

なお、サンプル番号ｔに対応するフレーム間隔における第１の観測アナログ信号から生成された第１の観測デジタル信号を、符号ｘ_１（ｔ）で表し、サンプル番号ｔに対応するフレーム間隔における第２の観測アナログ信号から生成された第２の観測デジタル信号を、符号ｘ_２（ｔ）で表す。
第１の観測デジタル信号ｘ_１（ｔ）及び第２の観測デジタル信号ｘ_２（ｔ）は、Ｔ／Ｆ変換部１０４に与えられる。

Ｔ／Ｆ変換部１０４は、第１の観測デジタル信号ｘ_１（ｔ）及び第２の観測デジタル信号ｘ_２（ｔ）を受けて、時間領域の第１の観測デジタル信号ｘ_１（ｔ）及び第２の観測デジタル信号ｘ_２（ｔ）を、周波数領域の第１の短時間スペクトル成分Ｘ_１（ω，τ）及び第２の短時間スペクトル成分Ｘ_２（ω，τ）に変換する。但し、ωは、離散周波数であるスペクトル番号、τは、フレーム番号を表す。

具体的には、Ｔ／Ｆ変換部１０４は、第１の観測デジタル信号ｘ_１（ｔ）に対して、例えば、５１２点の高速フーリエ変換を行うことで、第１の短時間スペクトル成分Ｘ_１（ω，τ）を生成する。同様に、Ｔ／Ｆ変換部１０４は、第２の観測デジタル信号ｘ_２（ｔ）から、第２の短時間スペクトル成分Ｘ_２（ω，τ）を生成する。
なお、以下では、特に断わりのない限り、現フレームの短時間スペクトル成分は、単にスペクトル成分としてその記載を省略する。

マスク生成部１０５は、第１のスペクトル成分Ｘ_１（ω，τ）及び第２のスペクトル成分Ｘ_２（ω，τ）を受けて、目的音を分離するためのマスキングを行うフィルタリング係数である時間周波数フィルタ係数ｂ_ｍｏｄ（ω，τ）を算出する。例えば、マスク生成部１０５は、第１のスペクトル成分Ｘ_１（ω，τ）及び第２のスペクトル成分Ｘ_２（ω，τ）の相互相関関数を用いて、観測音が、第１のマイクロホン１０１に到来する時間と、第２のマイクロホン１０２に到来する時間との時間差により、目的音が到来する第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出する。

時間周波数フィルタ係数ｂ_ｍｏｄ（ω，τ）を求めるにあたり、図３に示されているように、第１のマイクロホン１０１及び第２のマイクロホン１０２が設けられている水平面において、第１のマイクロホン１０１の垂直方向Ｖ_１及び第２のマイクロホン１０２の垂直方向Ｖ_２に対して、予め定められた角度θに含まれる方向から、目的音が到来するものとする。なお、妨害音は、第１のマイクロホン１０１の垂直方向Ｖ_１及び第２のマイクロホン１０２の垂直方向Ｖ_２に対して、目的音とは反対の側から到来するものとする。

ここで、第１のマイクロホン１０１の垂直方向Ｖ_１及び第２のマイクロホン１０２の垂直方向Ｖ_２は、第１のマイクロホン１０１及び第２のマイクロホン１０２を結ぶ直線に対して、垂直になっているものとする。なお、第１のマイクロホン１０１の垂直方向Ｖ_１及び第２のマイクロホン１０２の垂直方向Ｖ_２は、予め定められている基準方向であって、必ずしも垂直方向である必要はない。
また、第１のマイクロホン１０１と第２のマイクロホン１０２との間隔は、間隔ｄとなっているものとする。

第１のマイクロホン１０１及び第２のマイクロホン１０２で集音された音声が、目的音か妨害音かを判別するには、第１のマイクロホン１０１及び第２のマイクロホン１０２からの信号を用いて音声到来方向が所望の範囲であるかどうかを推定する必要がある。ここで、第１のマイクロホン１０１及び第２のマイクロホン１０２からの信号間に生じる時間差は、角度θによって決まるため、この時間差を利用することで到来方向の推定が可能となる。以下、図２及び図３を用いて説明する。

マスク係数算出部１０６は、まず、下記の式（１）に示すように、第１のスペクトル成分Ｘ_１（ω，τ）及び第２のスペクトル成分Ｘ_２（ω，τ）の相互相関関数からクロススペクトルＤ（ω，τ）を算出する。そして、マスク係数算出部１０６は、算出されたクロススペクトルＤ（ω，τ）を、発話量比算出部１０７に与える。

次に、マスク係数算出部１０６は、クロススペクトルＤ（ω，τ）のフェイズΘ_Ｄ（ω，τ）を、下記の式（２）を用いて求める。

ここで、Ｑ（ω，τ）及びＫ（ω，τ）のそれぞれは、クロススペクトルＤ（ω，τ）の虚数部及び実数部のそれぞれを表す。

上記の式（２）で得られたフェイズΘ_Ｄ（ω，τ）は、第１のチャンネルＣｈ１及び第２のチャンネルＣｈ２のそれぞれのスペクトル成分毎の位相角を意味し、これを離散周波数ωで除算したものは、２つの信号間の時間遅れを表す。すなわち、第１のチャンネルＣｈ１及び第２のチャンネルＣｈ２の時間差δ（ω，τ）は、下記の式（３）のように表すことができる。

次に、音声が角度θの方向から到来するときに観測される時間差の理論値δ_θは、間隔ｄを使って、下記の式（４）のように表すことができる。但し、ｃは音速である。

ここで、θ＞θ_ｔｈを満たすθの集合を、所望の方向範囲とするならば、理論的な時間差δ_θ＿ｔｈと、観測アナログ信号の時間差δ（ω，τ）との大小を比較することで、音声が所望の方向範囲から到来しているかどうかを推定することができる。
そのため、目的音を分離するためのマスキングを行うマスク係数ｂ（ω，τ）は、下記の式（５）のように表すことができる。

言い換えると、マスク係数算出部１０６は、第１のスペクトル成分Ｘ_１（ω，τ）及び第２のスペクトル成分Ｘ_２（ω，τ）の相互相関関数を用いて、目的音が、第１のマイクロホン１０１に到来する時間と、第２のマイクロホン１０２に到来する時間との第１の時間差、及び、妨害音が第１のマイクロホン１０１に到来する時間と、第２のマイクロホン１０２に到来する時間との第２の時間差から、観測音の内、目的音が到来する第１の方向を含む第１の範囲から到来する音と、妨害音が到来する第２の方向を含む第２の範囲から到来する音とを区別して、第１の範囲に含まれる方向から到来する音のスペクトル成分を、第２の範囲に含まれる方向から到来する音のスペクトル成分から分離するためのマスク係数を算出する。

式（５）で示されるマスク係数ｂ（ω，τ）は、目的音と推定される場合には１、妨害音と推定される場合にはＭとなる。ここで、Ｍ＝０とする場合には、１又は０の二値（バイナリ）とするマスク係数となるため、そのようなマスク係数を有するフィルタは、バイナリマスクと呼ばれる。なお、フィルタ係数として、二値以外の小数が用いられてもよく、この場合のフィルタは、ソフトマスクとも呼ばれる。但し、フィルタ係数は、目的音及び妨害音のいずれも１未満の値となる。本実施の形態では、例えば、Ｍ＝０．５を用いるものとする。
マスク係数算出部１０６は、マスク係数ｂ（ω，τ）を、マスク修正部１０９に与える。

発話量比算出部１０７は、第１のチャンネルＣｈ１の第１のスペクトル成分Ｘ_１（ω，τ）と、第２のチャンネルＣｈ２の第２のスペクトル成分Ｘ_２（ω，τ）と、クロススペクトルＤ（ω，τ）とを受け、目的音話者の発話量と妨害音話者の発話量との比率である発話量比を算出する。言い換えると、発話量比は、第１のスペクトル成分Ｘ_１（ω，τ）の内、目的音が到来する第１の方向を含む第１の範囲から到来する音のスペクトル成分の量の、妨害音が到来する第２の方向を含む第２の範囲から到来する音のスペクトル成分の量に対する比率である。

まず、発話量比算出部１０７は、第１のチャンネルＣｈ１の第１のスペクトル成分Ｘ_１（ω，τ）から、第１のチャンネルＣｈ１の第１のパワースペクトルＰ_１（ω，τ）を、下記の式（６）から求める。

ただし、Ｘ_Ｒｅは、第１のスペクトル成分Ｘ_１（ω，τ）の実数部であり、Ｘ_Ｉｍは、第１のスペクトル成分Ｘ_１（ω，τ）の虚数部である。

続いて、発話量比算出部１０７は、上記の式（１）に示されているクロススペクトルＤ（ω，τ）の虚数部Ｑ（ω，τ）の符号により、対象となる音声の観測アナログ信号が、目的音側から到来しているのか、妨害音側から到来しているのかを判定する。そして、発話量比算出部１０７は、下記の式（７）に示されているように、符号の判定結果に従って第１のチャンネルＣｈ１の第１のパワースペクトルＰ１（ω，τ）を加算し、目的音話者の発話量ｓ_Ｔｇｔ（τ）、及び、妨害音話者の発話量ｓ_Ｉｎｔ（τ）をそれぞれ求める。

ここで、Ｎは、離散周波数スペクトルの総数であり、例えば、Ｎ＝２５６である。

そして、発話量比算出部１０７は、得られた２つの発話量ｓ_Ｔｇｔ（τ）及びｓ_Ｉｎｔ（τ）から、下記の式（８）により、発話量比ＳＲ（τ）を得る。

図４（Ａ）〜（Ｃ）は、目的音話者と妨害音話者が発話した場合の発話量比ＳＲ（τ）を説明するためのグラフである。
図４（Ａ）は、第１のマイクロホン１０１で取得された観測アナログ信号の時間波形の一例を示すグラフである。
図４（Ｂ）は、目的音話者と妨害音話者との発話量の時間変動の一例を示すグラフである。
図４（Ｃ）は、目的音話者の発話量と、妨害音話者の発話量とから得られた発話量比ＳＲ（τ）の時間変動の一例を示すグラフである。

図４（Ｃ）に示されているように、ＳＲ（τ)＜０．３を満たすフレームの場合は、妨害音のみの可能性が高い一方、ＳＲ（τ）＞０．５を満たすフレームの場合は、目的音のみの可能性が高いことが分かる。
また、０．３≦ＳＲ（τ）≦０．５の場合は、目的音も妨害音も両方存在する場合とみなすことができる。

よって、上記の式（８）で得られた発話量比ＳＲ（τ）を用い、観測アナログ信号の様態に応じたマスキングの強度の制御を行うことで、分離精度が高く歪みも少ない目的音の分離が可能である。より具体的には、例えば、発話量比ＳＲ（τ）が小さいフレームでは、マスキングのフィルタ係数の数値を大きくすることで強く妨害音を抑圧して分離性能を高め、発話量比ＳＲ（τ）が大きいフレームでは、マスキングのフィルタ係数の数値を小さくすることで目的音の歪みを小さくする制御が可能である。

図２に戻り、ゲイン算出部１０８は、上記の式（８）で得られた発話量比ＳＲ（τ）を用いて、上記の式（５）のマスク係数ｂ（ω，τ）中の定数Ｍを修正する修正ゲインｇ（ω，τ）を、下記の式（９）により計算する。

ここで、Ｇ_Ｔｇｔ、Ｇ_Ｉｎｔ及びＧ_ＤＴは、予め定められた修正ゲイン定数であり、Ｇ_Ｔｇｔは、観測アナログ信号が目的音だけの可能性が高い場合の定数、Ｇ_Ｉｎｔは、観測アナログ信号が妨害音だけの可能性が高い場合の定数、Ｇ_ＤＴは、観測アナログ信号に目的音及び妨害音の両者が存在する可能性が高い場合の定数である。本実施の形態においては、Ｇ_Ｔｇｔ＝１．５、Ｇ_ＤＴ＝０．９９、Ｇ_Ｉｎｔ＝０．０１を好適な一例とする。

そして、目的音の可能性が高い場合は、上記の式（５）中のＭが大きくなるように、言い換えるならば、マスクの抑圧量が小さくなるように制御される。但し、修正後のＭは、１以下の値に制限される。
一方、妨害音の可能性が高い場合には、上述の式（５）中のＭが更に小さくなるように、言い換えると、妨害音の抑圧量が更に大きくなるように制御されることとなる。
即ち、ゲイン算出部１０８は、発話量比が高いほど、マスキングが行われる強度が低くなるように、マスク係数を修正するための修正ゲインを算出する。

この修正ゲインの算出にあたっては、単純な観測アナログ信号のパワー計算から求められる発話量比と、発話量比の比較による条件式のみで済むため計算コストが低くて済み、効率的にマスク係数を修正することが可能である。

また、Ｋ（ω）は１以下の正の数で表現される周波数補正係数であり、下記の式（１０）で示されるように、周波数が高くなるに従って値が大きくなるように設定される。

Ｋ（ω）による周波数補正を行うことで、高周波数でのマスキングの強度が緩和されるので、マスキングによる目的音の歪みを抑制することができる。

なお、式（１０）の周波数補正係数は、周波数が高くなるに従って値が大きくなるように補正しているが、式（１０）の周波数補正係数は、このような例に限定されるものではなく、観測アナログ信号の特性に応じて適宜変更することが可能である。例えば、音源分離の対象とする音響信号が音声の場合、音声において重要な周波数帯域成分であるフォルマントの抑圧を弱くするように補正が行われるとともに、それ以外の帯域成分の抑圧を強くするように補正が行われてもよい。これにより、音声に対するマスク制御の精度が向上するので、目的音を効率良く分離することが可能となる。
また、音源分離の対象が機械の異常音であれば、その音響信号の周波数特性に応じて式（１０）の周波数補正係数を変更することで、異常音を効率良く分離することが可能となる。

このように周波数により補正することによる更なる効果としては、観測騒音に環境騒音が混入している場合では、目的とする音声又は異常音以外の音響信号（例えば、騒音又は音楽等）へのマスキングによる影響が少なくなるため、環境騒音に対する不必要なマスキングにより生じる不快な人工的雑音（ミュージカルトーン）が少なくなり、人工的雑音による音声認識装置又は異常音監視装置の誤動作が減少し、ハンズフリー通話時の不快な雑音が減少する副次的効果も奏する。

なお、上記した修正ゲインの各定数値又は発話量比ＳＲ（τ）の定数閾値については、式（９）の場合に限定されることはなく、目的音又は妨害音の様態に合わせて適宜調整することができる。また、修正ゲインを決定する条件も式（９）のように３段階に限らず、更に多い段階で設定されてもよい。

マスク修正部１０９は、下記の式（１１）に示すように、上記の式（５）で得られたマスク係数ｂ（ω，τ）に対して、式（９）で得られた修正ゲインｇ（ω，τ）を用いて修正し、時間周波数フィルタ係数ｂ_ｍｏｄ（ω，τ）を得る。

図１に戻り、マスキングフィルタ部１１０は、下記の式（１２）で示されているように、第１のマイクロホン１０１側の第１のスペクトル成分Ｘ_１（ω，τ）に、上記の式（１１）で得られた時間周波数フィルタ係数ｂ_ｍｏｄ（ω，τ）を乗算し、スペクトル成分Ｙ（ω，τ）を算出する。そして、マスキングフィルタ部１１０は、算出されたスペクトル成分Ｙ（ω，τ）をＴ／Ｆ逆変換部１１１に送る。ここで分離されたスペクトル成分Ｙ（ω，τ）を目的スペクトル成分ともいう。目的スペクトル成分は、目的音を含むスペクトル成分である。

Ｔ／Ｆ逆変換部１１１は、スペクトル成分Ｙ（ω，τ）に対し、例えば、逆高速フーリエ変換を行い、出力デジタル信号ｙ（ｔ）を算出する。Ｔ／Ｆ逆変換部１１１は、算出された出力デジタル信号ｙ（ｔ）をＤ／Ａ変換部１１２に与える。

Ｄ／Ａ変換部１１２は、出力デジタル信号ｙ（ｔ）をアナログ信号に変換することで、出力信号を生成する。生成された出力信号は、例えば、音声認識装置、ハンズフリー通話装置又は異常音監視装置等の外部機器へ出力される。

図５（Ａ）及び（Ｂ）は、実施の形態１における効果を説明するためのグラフである。
図５（Ａ）は、図４（Ａ）と同様に、第１のマイクロホン１０１で取得された観測アナログ信号の時間波形の一例を示すグラフである。
図５（Ｂ）は、Ｄ／Ａ変換部１１２から出力される出力信号の時間変動の一例を示すグラフである。
図５（Ａ）及び（Ｂ）から明らかなように、出力信号からは妨害音が殆ど除去されて目的音のみが分離されていることが分かる。

上記の音源分離装置１００のハードウェア構成は、タブレットタイプの可搬型コンピュータ、又は、カーナビゲーションシステム等の機器組み込み用途のマイクロコンピュータ等の、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内蔵のコンピュータで実現可能である。あるいは、上記の音源分離装置１００のハードウェア構成は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、又は、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）により実現されてもよい。

図６は、ＤＳＰ、ＡＳＩＣ又はＦＰＧＡ等のＬＳＩを用いて構成される音源分離装置１００のハードウェア構成例を示すブロック図である。

図６の例では、音源分離装置１００は、信号入出力部１３１、信号処理回路１３２、記録媒体１３３及びバス等の信号路１３４により構成されている。
信号入出力部１３１は、マイクロホン回路１４０及び外部装置１４１との接続機能を実現するインタフェース回路である。マイクロホン回路１４０は、第１のマイクロホン１０１及び第２のマイクロホン１０２に対応し、例えば、音響振動を捉えて電気信号へ変換する装置等を使用することができる。

図１に示されている、Ｔ／Ｆ変換部１０４、マスク生成部１０５、マスキングフィルタ部１１０及びＴ／Ｆ逆変換部１１１の各機能は、信号処理回路１３２及び記録媒体１３３で実現することができる。
また、図１のＡ／Ｄ変換部１０３及びＤ／Ａ変換部１１２は、信号入出力部１３１により実現することができる。

記録媒体１３３は、信号処理回路１３２の各種設定データ及び信号データ等の各種データを蓄積するために使用される。記録媒体１３３としては、例えば、ＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性メモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の不揮発性メモリを使用することができる。記録媒体１３３には、音源分離処理の初期状態、各種設定データ、制御用の定数データ等を記憶しておくことができる。

信号処理回路１３２で音源分離処理が行われた出力デジタル信号は、信号入出力部１３１から外部装置１４１に送出されるが、この外部装置１４１としては、例えば、音声認識装置、ハンズフリー通話装置又は異常音監視装置が相当する。

図７は、コンピュータ等の演算装置を用いて構成される音源分離装置１００のハードウェア構成例を示すブロック図である。
図７の例では、音源分離装置１００は、信号入出力部１３１、ＣＰＵ１３５を内蔵するプロセッサ１３６、メモリ１３７、記録媒体１３８及びバス等の信号路１３４により構成されている。
信号入出力部１３１は、マイクロホン回路１４０及び外部装置１４１との接続機能を実現するインタフェース回路である。

メモリ１３７は、音源分離処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサ１３６がデータ処理を行う際に使用するワークメモリ、及び、信号データを展開するメモリ等として使用するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の記憶手段である。

Ｔ／Ｆ変換部１０４、マスク生成部１０５、マスキングフィルタ部１１０及びＴ／Ｆ逆変換部１１１の各機能は、プロセッサ１３６、メモリ１３７及び記録媒体１３８で実現することができる。
また、Ａ／Ｄ変換部１０３及びＤ／Ａ変換部１１２は、信号入出力部１３１で実現することができる。

記録媒体１３８は、プロセッサ１３６の各種設定データ及び信号データ等の各種データを蓄積するために使用される。記録媒体１３８としては、たとえば、ＳＤＲＡＭ等の揮発性メモリ、ＨＤＤ又はＳＳＤ等の不揮発性メモリを使用することが可能である。ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）を含むプログラム、各種設定データ、及び、音響信号データ等の各種データを蓄積することができる。なお、この記録媒体１３８に、メモリ１３７内のデータを蓄積しておくこともできる。

プロセッサ１３６は、メモリ１３７を作業用メモリとして使用し、メモリ１３７から読み出されたコンピュータプログラムに従って動作することにより、Ｔ／Ｆ変換部１０４、マスク生成部１０５、マスキングフィルタ部１１０及びＴ／Ｆ逆変換部１１１として機能することができる。

プロセッサ１３６で音源分離処理が行われて生成された出力信号は、信号入出力部１３１から外部装置１４１に送出されるが、この外部装置１４１としては、例えば、音声認識装置、ハンズフリー通話装置又は異常音監視装置が相当する。

プロセッサ１３６が実行されるプログラムは、ソフトウェアプログラムを実行するコンピュータ内部の記憶装置に記憶していても良いし、ＣＤ−ＲＯＭ等の記憶媒体にて配布される形式でもよい。また、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等の無線又は有線のネットワークを通じて、他のコンピュータからプログラムを取得することも可能である。このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

さらに、マイクロホン回路１４０及び外部装置１４１に関しても、アナログ信号とデジタル信号との変換等を介せずに、無線又は有線ネットワークを通じて、各種データをデジタル信号のまま送受信しても構わない。

また、プロセッサ１３６で実行されるプログラムは、外部装置１４１で実行されるプログラム、例えば、コンピュータを、音声認識装置、ハンズフリー通話装置又は異常音監視装置として機能させるために実行されるプログラムとソフトウェア上で結合され、同一のコンピュータで動作させることも可能であり、又は、複数のコンピュータ上で分散して動作させることも可能である。

なお、外部装置１４１が音源分離装置１００を含んでいてもよい。即ち、音源分離装置１００を含む形で、音声認識装置、ハンズフリー通話装置又は異常音監視装置が構成されてもよい。

次に、実施の形態１に係る音源分離装置１００の動作について説明する。
図８は、音源分離装置１００の動作を示すフローチャートである。
まず、Ａ／Ｄ変換部１０３は、第１のマイクロホン１０１及び第２のマイクロホン１０２のそれぞれから入力された、第１の観測アナログ信号及び第２の観測アナログ信号のそれぞれを、予め定められたフレーム間隔で取り込み、それぞれをＡ／Ｄ変換することで、第１の観測デジタル信号ｘ_１（ｔ）及び第２の観測デジタル信号ｘ_２（ｔ）を生成して、それらをＴ／Ｆ変換部１０４に与える（Ｓ１０）。
そして、Ａ／Ｄ変換部１０３からの出力は、サンプル番号ｔが予め定められた値Ｔよりも小さい場合（Ｓ１１でＮｏ）には、繰り返し行われる。

ステップＳ１２では、Ｔ／Ｆ変換部１０４は、第１の観測デジタル信号ｘ_１（ｔ）及び第２の観測デジタル信号ｘ_２（ｔ）のそれぞれに対して、例えば、５１２点の高速フーリエ変換を行い、第１のスペクトル成分Ｘ_１（ω，τ）及び第２のスペクトル成分Ｘ_２（ω，τ）を算出する。そして、Ｔ／Ｆ変換部１０４は、第１のスペクトル成分Ｘ_１（ω，τ）及び第２のスペクトル成分Ｘ_２（ω，τ）をマスク生成部１０５に与え、第１のスペクトル成分Ｘ_１（ω，τ）をマスキングフィルタ部１１０に与える。

マスク生成部１０５は、第１のスペクトル成分Ｘ_１（ω，τ）及び第２のスペクトル成分Ｘ_２（ω，τ）から、目的音を分離するためのマスキングを行う時間周波数フィルタ係数ｂ_ｍｏｄ（ω，τ）を算出する（Ｓ１３）。以下、ステップＳ１３Ａ〜Ｓ１３Ｄにより、ステップＳ１３での詳細な処理を説明する。

ステップＳ１３Ａでは、マスク係数算出部１０６は、第１のスペクトル成分Ｘ_１（ω，τ）及び第２のスペクトル成分Ｘ_２（ω，τ）の相互相関関数から、クロススペクトルＤ（ω，τ）を算出するとともに、得られたクロススペクトルＤ（ω，τ）に基づいて、マスク係数ｂ（ω，τ）を算出する。マスク係数算出部１０６は、クロススペクトルＤ（ω，τ）を発話量比算出部１０７に与え、マスク係数ｂ（ω，τ）をマスク修正部１０９に与える。そして、処理は、ステップＳ１３Ｂに進む。

ステップＳ１３Ｂでは、発話量比算出部１０７は、第１のスペクトル成分Ｘ_１（ω，τ）、第２のスペクトル成分Ｘ_２（ω，τ）及びクロススペクトルＤ（ω，τ）から、目的音話者の発話量と、妨害音話者の発話量との間の比率である発話量比ＳＲ（τ）を算出する。発話量比算出部１０７は、発話量比ＳＲ（τ）をゲイン算出部１０８に与える。そして、処理はステップＳ１３Ｃに進む。

ステップＳ１３Ｃでは、ゲイン算出部１０８は、発話量比ＳＲ（τ）を用いて、マスク係数ｂ（ω，τ）を修正するための修正ゲインｇ（ω，τ）を計算する。ゲイン算出部１０８は、修正ゲインｇ（ω，τ）をマスク修正部１０９に与える。そして、処理はステップＳ１３Ｄに進む。

ステップＳ１３Ｄでは、マスク修正部１０９は、マスク係数ｂ（ω，τ）を、修正ゲインｇ（ω，τ）を用いて修正し、時間周波数フィルタ係数ｂ_ｍｏｄ（ω，τ）を得る。そして、マスク修正部１０９は、時間周波数フィルタ係数ｂ_ｍｏｄ（ω，τ）を、マスキングフィルタ部１１０に与える。

マスキングフィルタ部１１０は、第１のスペクトル成分Ｘ_１（ω，τ）に、時間周波数フィルタ係数ｂ_ｍｏｄ（ω，τ）を乗算し、出力デジタル信号ｙ（ｔ）のスペクトル成分Ｙ（ω，τ）を算出する（Ｓ１４）。そして、マスキングフィルタ部１１０は、スペクトル成分Ｙ（ω，τ）をＴ／Ｆ逆変換部１１１に与える。

Ｔ／Ｆ逆変換部１１１は、スペクトル成分Ｙ（ω，τ）に対して逆高速フーリエ変換を行うことで、スペクトル成分Ｙ（ω，τ）を時間領域の出力デジタル信号ｙ（ｔ）に変換する（Ｓ１５）。

Ｄ／Ａ変換部１１２は、出力デジタル信号ｙ（ｔ）を、Ｄ／Ａ変換することで、アナログ信号である出力信号に変換して、外部に出力する（Ｓ１６）。
そして、Ｄ／Ａ変換部１１２からの出力は、サンプル番号ｔが予め定められた値Ｔより小さい場合（Ｓ１７でＹｅｓ）には、繰り返し行われる。

次に、音源分離処理が続行される場合（Ｓ１８でＹｅｓ）には、処理はステップＳ１０に戻る。一方、音源分離処理が続行されない場合（Ｓ１８でＮｏ）には、音源分離処理は終了する。

以上のように、実施の形態１の音源分離装置１００で、低い計算コストで分離性能の高いマスキングフィルタを作成することができる。このため、目的音を的確に取得することができ、高精度の音声認識装置、高品質なハンズフリー通話装置及び検出精度の高い異常音監視装置を提供することが可能となる。

実施の形態２．
実施の形態１では、音声による構成を例示したが、妨害音となる音声以外の雑音が存在する場合にも適用することができる実施の形態を、実施の形態２として説明する。

図９は、実施の形態２に係る音源分離装置２００を含む情報処理システム２５０の構成を概略的に示すブロック図である。ここで示す情報処理システム２５０は、カーナビゲーションシステムの一例であり、走行中の自動車内での運転席に着座する話者と、助手席に着座する話者とが発話する場合を示している。実施の形態２では、運転席に着座する話者を目的音話者とし、助手席に着座する話者を妨害音話者として、説明する。

図９に示されているように、情報処理システム２５０は、第１のマイクロホン１０１と、第２のマイクロホン１０２と、音源分離装置２００と、外部装置１４１とを備える。
実施の形態２における第１のマイクロホン１０１及び第２のマイクロホン１０２は、実施の形態１における第１のマイクロホン１０１及び第２のマイクロホン１０２と同様である。また、外部装置１４１は、図６又は図７を用いて説明した外部装置１４１と同様である。

実施の形態２における入力としては、第１のマイクロホン１０１及び第２のマイクロホン１０２を通じて取り込まれた目的音話者及び妨害音話者の音声の他、自動車走行騒音等の騒音、ハンズフリー通話時におけるスピーカより送出された遠端側話者の受話音声、カーナビゲーションが送出する案内音声、又は、カーオーディオの音楽等が回り込む音響エコー等である。目的音話者及び妨害音話者の音声以外の音声を雑音とする。また、雑音の信号を雑音信号とする。そして、実施の形態２では、目的音が到来する第１の方向を含む第１の範囲及び妨害音が到来する第２の方向を含む第２の範囲には含まれない方向から到来する音のスペクトル成分を除外して、発話量比を算出することで、雑音の影響を除外している。

外部装置１４１は、上述のように、例えば、音声認識装置、ハンズフリー通話装置又は異常音監視装置である。外部装置１４１では、例えば、音声認識処理、ハンズフリー通話処理又は異常音検出処理を行って、それぞれの処理に応じた出力結果を得る。

音源分離装置２００は、Ａ／Ｄ変換部１０３と、Ｔ／Ｆ変換部１０４と、マスク生成部２０５と、マスキングフィルタ部１１０と、Ｔ／Ｆ逆変換部１１１とを備える。
実施の形態２に係る音源分離装置２００のＡ／Ｄ変換部１０３、Ｔ／Ｆ変換部１０４、マスキングフィルタ部１１０及びＴ／Ｆ逆変換部１１１は、実施の形態１の音源分離装置１００のＡ／Ｄ変換部１０３、Ｔ／Ｆ変換部１０４、マスキングフィルタ部１１０及びＴ／Ｆ逆変換部１１１と同様である。
但し、実施の形態２に係る音源分離装置２００では、Ｔ／Ｆ逆変換部１１１で生成された出力デジタル信号ｙ（ｔ）が外部装置１４１に与えられる。

図２に示されているように、マスク生成部２０５は、マスク係数算出部１０６と、発話量比算出部２０７と、ゲイン算出部１０８と、マスク修正部１０９とを備える。
実施の形態２におけるマスク生成部２０５のマスク係数算出部１０６、ゲイン算出部１０８及びマスク修正部１０９は、実施の形態１におけるマスク生成部１０５のマスク係数算出部１０６、ゲイン算出部１０８及びマスク修正部１０９と同様である。

発話量比算出部２０７は、実施の形態１で述べた式（７）を変形した式（１３）を用いることで、発話量比ＳＲ（τ）の計算から妨害音信号を除外する。
実施の形態１では、式（１）のクロススペクトルＤ（ω，τ）の虚数部Ｑ（ω，τ）の符号により、目的音の到来方向を判別していたが、式（１３）のように、条件式において、到来方向の角度を意味する、第１のチャンネルＣｈ１及び第２のチャンネルＣｈ２の時間差δ（ω，τ）を組み合わせることで、発話量の計算から目的音話者と妨害音話者以外の雑音の影響を除外することができる。

ここで、δ_θＤＴ及びδ_θＤＮは、それぞれ、発話量の計算から除外するための観測アナログ信号の時間差の閾値であり、到来方向角度を時間差に変換した予め定められた定数である。
δ_θＤＴは、観測アナログ信号の到来時間差が極めて小さく、到来方向が目的音方向なのか妨害音方向なのか判別が難しい場合、あるいは正面方向から騒音が到来している場合を想定し、それらの場合を発話量の計算から除外するための閾値である。
δ_θＤＮは、目的音及び妨害音の想定する到来方向から外れている可能性が高い場合、言い換えれば、観測アナログ信号が、例えば窓から混入する風きり音等の方向性雑音、又は、スピーカから放出される音楽等の可能性が高い場合において、そのような場合を発話量の計算から除外するための閾値である。

図１０は、式（１３）における目的音及び妨害音以外の雑音の影響を除外する方法の一例を示す模式図である。
図１０の例は、第１のチャンネルＣｈ１を基準に除外範囲を記載している。
図１０のように、発話量の計算において除外範囲を設定することで、目的音及び妨害音以外の雑音の影響を除外することができるので、発話量比の計算精度が向上し、更に品質の高い音源分離装置を構成することが可能となる。

実施の形態２に係る音源分離装置２００は、以上のように構成されているため、様々な騒音条件であっても、低い計算コストで分離性能の高いマスキングフィルタを作成できる。このため、自動車内の騒音下でも目的音を的確に取得することができるので、高精度の音声認識装置、高品質なハンズフリー通話装置、又は、自動車内の異常音を検知する異常音監視装置を提供することが可能となる。

実施の形態３．
実施の形態１及び２では、発話量比の計算に現フレーム情報だけを使用しているが、実施の形態はこのような例に限定されるものではなく、過去のフレーム情報を用いて計算することも可能である。

図１に示されているように、実施の形態３に係る音源分離装置３００は、Ａ／Ｄ変換部１０３と、Ｔ／Ｆ変換部１０４と、マスク生成部３０５と、マスキングフィルタ部１１０と、Ｔ／Ｆ逆変換部１１１と、Ｄ／Ａ変換部１１２とを備える。
実施の形態３に係る音源分離装置３００のＡ／Ｄ変換部１０３、Ｔ／Ｆ変換部１０４、マスキングフィルタ部１１０、Ｔ／Ｆ逆変換部１１１及びＤ／Ａ変換部１１２は、実施の形態１に係る音源分離装置１００のＡ／Ｄ変換部１０３、Ｔ／Ｆ変換部１０４、マスキングフィルタ部１１０、Ｔ／Ｆ逆変換部１１１及びＤ／Ａ変換部１１２と同様である。

図２に示されているように、実施の形態３におけるマスク生成部３０５は、マスク係数算出部１０６と、発話量比算出部３０７と、ゲイン算出部１０８と、マスク修正部１０９とを備える。
実施の形態３におけるマスク生成部３０５のマスク係数算出部１０６、ゲイン算出部１０８及びマスク修正部１０９は、実施の形態１におけるマスク生成部１０５のマスク係数算出部１０６、ゲイン算出部１０８及びマスク修正部１０９と同様である。

発話量比算出部３０７は、上記の式（８）を用いて発話量比ＳＲ（τ）を算出し、さらに、下記の式（１４）を用いて、算出されたＳＲ（τ）を、１フレーム前の発話量比ＳＲ（τ−１）で平滑化する。

ここで、αは、平滑化係数であり、実施の形態３においては、α＝０．９が好適な一例である。

このように発話量比の計算において、過去に算出された発話量比を用いて、最後に算出された発話量比を平滑化することで、観測アナログ信号に騒音が混入した場合でも、安定して発話量比の計算を行うことが可能となり、更に精度の高い音源分離が可能となる。

さらに、実施の形態２では、発話量比算出部２０７は、式（１３）を用いて、各信号の発話量を計算しているが、変形例として、発話量比算出部２０７は、この計算を所定のフレーム区間に拡張すること、言い換えると、予め定められたフレーム区間のパワースペクトルの積分値を計算することで、所定のフレーム区間での目的音と妨害音の占有率、具体的には、どちらが長く発話しているか、あるいは、どちらが大きな音量であるかを分析することが可能である。よって、目的音と妨害音とのダブルトーク時において、どちらの音声が支配的かを判定することが可能となり、より精度の高い音源分離が可能となる。

上述の実施の形態２において、情報処理システム２５０がカーナビゲーションシステムの一例である場合について説明したが、実施の形態２は、これに限定されるものではない。例えば、情報処理システム２５０は、一般家庭内又はオフィス内に設置されるスマートスピーカ又はテレビ等の遠隔音声認識システム、ＴＶ会議システムの拡声通話システム、ロボットの音声認識対話システム、又は、工場の異常音監視システム等にも適用可能である。このような場合にも、これらの音響的環境で生ずる雑音又は音響エコーについても、実施の形態２にて述べた効果を同様に奏する。

また、以上に記載された実施の形態１〜３では、入力信号の周波数帯域幅を１６ｋＨｚとしているが、実施の形態１〜３は、このような例に限定されない。例えば、実施の形態１〜３は、２４ｋＨｚ等の更に広帯域の音響信号についても適用可能である。

上記以外にも、実施の形態１〜３は、任意の構成要素の変形、又は、任意の構成要素の省略が可能である。

以上のように、実施の形態１〜３に係る音源分離装置１００〜３００は、低い計算コストで高品質な音源分離が可能なため、音声認識システム、音声通信システム又は異常音監視システムのいずれかに導入することができる。これにより、カーナビゲーション又はテレビ等の遠隔音声認識システムの認識率向上、携帯電話又はインターフォン等のハンズフリー通話システム、ＴＶ会議システム又は異常音監視システム等の品質改善に供することができる。

１００，２００，３００音源分離装置、１０１第１のマイクロホン、１０２第２のマイクロホン、１０３Ａ／Ｄ変換部、１０４Ｔ／Ｆ変換部、１０５，２０５，３０５マスク生成部、１０６マスク係数算出部、１０７，２０７，３０７発話量比算出部、１０８ゲイン算出部、１０９マスク修正部、１１０マスキングフィルタ部、１１１Ｔ／Ｆ逆変換部、１１２Ｄ／Ａ変換部、２５０情報処理システム。

Claims

第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成するアナログ／デジタル変換部と、
前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成する時間／周波数変換部と、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、
前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間／周波数逆変換部と、を備え、
前記マスク生成部は、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、
前記第１のスペクトル成分の内、前記第１の範囲から到来する音のスペクトル成分の量の、前記第２の範囲から到来する音のスペクトル成分の量に対する比率を算出する発話量比算出部と、
前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えること
を特徴とする情報処理装置。
第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成するアナログ／デジタル変換部と、
前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成する時間／周波数変換部と、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、
前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間／周波数逆変換部と、を備え、
前記マスク生成部は、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、
前記第１のスペクトル成分の内、前記第１の範囲から到来している音のスペクトル成分の量の、前記第２の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、
前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えること
を特徴とする情報処理装置。
前記発話量比算出部は、前記第１の範囲及び前記第２の範囲には含まれない方向から到来する音のスペクトル成分を除外して、前記比率を算出すること
を特徴とする請求項１又は２に記載の情報処理装置。
コンピュータを、
第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成するアナログ／デジタル変換部、
前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成する時間／周波数変換部、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、
前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間／周波数逆変換部、として機能させ、
前記マスク生成部は、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、
前記第１のスペクトル成分の内、前記第１の範囲から到来する音のスペクトル成分の量の、前記第２の範囲から到来する音のスペクトル成分の量に対する比率を算出する発話量比算出部と、
前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えること
を特徴とするプログラム。
コンピュータを、
第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成するアナログ／デジタル変換部、
前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成する時間／周波数変換部、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部、
前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間／周波数逆変換部、として機能させ、
前記マスク生成部は、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、
前記第１のスペクトル成分の内、前記第１の範囲から到来している音のスペクトル成分の量の、前記第２の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、
前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えること
を特徴とするプログラム。
第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成し、
前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成し、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、
前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する情報処理方法であって、
前記フィルタリング係数を算出する際に、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出し、
前記第１のスペクトル成分の内、前記第１の範囲から到来する音のスペクトル成分の量の、前記第２の範囲から到来する音のスペクトル成分の量に対する比率を算出し、
前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出し、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出すること
を特徴とする情報処理方法。
第１の方向から到来する目的音と、前記第１の方向とは異なる第２の方向から到来する妨害音と、を含む観測音に基づいて第１のマイクロホンで生成された第１の観測アナログ信号、及び、前記観測音に基づいて第２のマイクロホンで生成された第２の観測アナログ信号の入力を受けて、第１の観測アナログ信号及び第２の観測アナログ信号の各々をデジタル信号に変換することで、第１の観測デジタル信号及び第２の観測デジタル信号を生成し、
前記第１の観測デジタル信号及び前記第２の観測デジタル信号の各々を、周波数領域の信号に変換することで、第１のスペクトル成分及び第２のスペクトル成分を生成し、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との時間差により、前記第１の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、
前記第１のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する情報処理方法であって、
前記フィルタリング係数を算出する際に、
前記第１のスペクトル成分及び前記第２のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第１の時間差、及び、前記妨害音が前記第１のマイクロホンに到来する時間と、前記第２のマイクロホンに到来する時間との第２の時間差から、前記観測音の内、前記第１の方向を含む第１の範囲から到来する音と、前記第２の方向を含み、前記第１の範囲とは重ならない第２の範囲から到来する音とを区別して、前記第１の範囲から到来する音のスペクトル成分を、前記第２の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出し、
前記第１のスペクトル成分の内、前記第１の範囲から到来している音のスペクトル成分の量の、前記第２の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化し、
前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出し、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出すること
を特徴とする情報処理方法。