JP4986248B2

JP4986248B2 - 音源分離装置、方法及びプログラム

Info

Publication number: JP4986248B2
Application number: JP2009282024A
Authority: JP
Inventors: 誠森戸; 隆矢頭; 圭山田; 哲則小林; 健三赤桐; 哲司小川
Original assignee: Waseda University; Oki Electric Industry Co Ltd
Current assignee: Waseda University; Oki Electric Industry Co Ltd
Priority date: 2009-12-11
Filing date: 2009-12-11
Publication date: 2012-07-25
Anticipated expiration: 2029-12-11
Also published as: JP2011124872A; US20110142252A1; US8422694B2; CN102097099A

Description

本発明は音源分離装置、方法及びプログラムに関し、例えば、携帯電話機等の携帯機器や、カーナビゲーションシステム等の車載機器で、所望の音声を、その音声の到来方向以外の任意の方向から到来する妨害音と分離して取得する場合に適用し得るものである。

音声認識の利用や電話メッセージ録音の利用において、マイクロフォンにより音声を入力した場合に、周囲雑音によって音声認識の精度が極度に劣化したり、録音した音声が雑音のために聞き取り難くなったりするなどの問題が発生している。

このため、マイクロフォンアレーにより指向特性を制御する等して、所望の音声だけを選択的に取得する試みがなされている。しかしながら、このような指向特性の制御だけでは、所望の音声を背景雑音から分離して取り出すことは困難であった。
なお、マイクロフォンアレーによる指向特性制御の技術自体は公知の技術であり、例えば、遅延和アレー（ＤＳＡ：ＤｅｌａｙｅｄＳｕｍＡｒｒａｙ、又は、ＢＦ：Ｂｅａｍ−Ｆｏｒｍｉｎｇ）による指向特性制御に関する技術、あるいは、ＤＣＭＰ（ＤｉｒｅｃｔｉｏｎａｌｌｙＣｏｎｓｔｒａｉｎｅｄＭｉｎｉｍｉｚａｔｉｏｎｏｆＰｏｗｅｒ）アダプティブアレーによる指向特性制御に関する技術等がある。

一方、遠隔発話による音声を分離する技術として、複数の固定マイクロフォンの出力信号を狭帯域スペクトル分析し、周波数帯域毎に最も大きな振幅を与えたマイクロフォンにその周波数帯域の音を割り当てる技術（ＳＡＦＩＡと称されている）もある（特許文献１参照）。この帯域選択（ＢＳ：ＢａｎｄＳｅｌｅｃｔｉｏｎ）による音声の分離技術では、所望の音声を得るために、所望の音声を発する音源に最も近いマイクロフォンを選び、そのマイクロフォンに割り当てられた周波数帯域の音を使って音声を合成する。

また、更なる技術として、帯域選択の方法に改良を加えた方法が、特許文献２で提案されている。以下、特許文献２に記載の音源分離方法を、図３を用いて説明する。

特許文献２の方法において、２個のマイクロフォン３２１、３２２は、目的音の到来方向と直角又は略直角をなす方向に並べて配置されている。

目的音優勢信号生成手段３３０において、第１目的音優勢信号生成手段３３１は、時間領域上又は周波数領域上で、マイクロフォン３２１の受音信号Ｘ１（ｔ）と、マイクロフォン３３２の受音信号に遅延処理を施した後の信号Ｄ（Ｘ２（ｔ））との差をとって第１の目的音優勢の信号Ｘ１（ｔ）−Ｄ（Ｘ２（ｔ））を生成し、第２目的音優勢信号生成手段３３２は、時間領域上又は周波数領域上で、マイクロフォン３２２の受音信号Ｘ２（ｔ）と、マイクロフォン３３１の受音信号に遅延処理を施した後の信号Ｄ（Ｘ１（ｔ））との差をとって第２の目的音優勢の信号Ｘ２（ｔ）−Ｄ（Ｘ１（ｔ））を生成する。目的音劣勢信号生成手段３４０は、時間領域上又は周波数領域上で、２個のマイクロフォン３２１、３２２の受音信号Ｘ１（ｔ）、Ｘ２（ｔ）の差をとって、目的音劣勢信号Ｘ１（ｔ）−Ｘ２（ｔ）を生成する。これら３種類の信号Ｘ１（ｔ）−Ｄ（Ｘ２（ｔ））、Ｘ２（ｔ）−Ｄ（Ｘ１（ｔ））及びＸ１（ｔ）−Ｘ２（ｔ）はそれぞれ、周波数解析手段３５０において周波数分析される。

そして、第１分離手段３６１において、第１の目的音優勢の信号のスペクトルと目的音劣勢の信号のスペクトルとを用いて、帯域選択（又は、スペクトラル・サブトラクション）が実行され、マイクロフォン３２１の設置された側の空間（後述する図４（Ｂ）の左側空間）から到来する音が分離され、また、第２分離手段３６２において、第２の目的音優勢の信号のスペクトルと目的音劣勢の信号のスペクトルとを用いて帯域選択（又は、スペクトラル・サブトラクション）が実行され、マイクロフォン３２２の設置された側の空間（図４（Ｂ）の右側空間）から到来する音が分離される。統合手段３６３において、第１分離手段３６１から出力されたスペクトルと第２分離手段３６２から出力されたスペクトルとを用いたスペクトル統合処理により、目的音を分離する。

上述した第１の目的音優勢信号生成手段３３１、第２の目的音優勢信号生成手段３３２及び目的音劣勢信号生成手段３４０には、空間フィルタと呼ばれるフィルタが使われている。

空間フィルタについて、図４を用いて説明する。図４（Ｂ）において、間隔ｄで配置された２つのマイクロフォン３２１、３２２に対して、角度θで入力する音源を考えると、音源との距離に関し、２つのマイクロフォンの間でｄ×sinθの距離差Ｔが生じ、結果として、音源からの音が到達するのに（１）式で表される時間差τが生じる。

τ＝｛ｄ×sinθ｝／（音の伝播速度） …（１）
そこで、マイクロフォン３２２の出力から、マイクロフォン３２１の出力を時間差τだけ遅延させた後に減じると、互いが相殺されて抑圧角度θの方向の音は抑圧される。図４（Ａ）は、抑圧角度θに設定された空間フィルタの、音源の方向ごとの抑圧処理後のゲインを示している。第１及び第２目的音優勢信号生成手段３３１及び３３２ではそれぞれ、抑圧角度θを、例えば、−９０度、９０度に設定した空間フィルタを用いて、目的音成分を抽出するとともに、妨害音成分を抑圧している。一方、目的音劣勢信号生成手段３４０では、抑圧角度θが０度の空間フィルタを用いて、目的音成分を抑圧すると共に、妨害音成分を抽出している。

第１分離手段３６１又は第２分離手段３６２における帯域選択処理は、（２）式に示す正規化処理を伴う２つのスペクトルからの選択処理と、（３）式に示す分離スペクトルの算出処理とからなる。（２）式及び（３）式において、Ｓ（ｍ）は帯域選択処理後のｍ番目のスペクトル要素、Ｍ（ｍ）は第１又は第２の目的音優勢信号のｍ番目のスペクトル要素、Ｎ（ｍ）は目的音劣勢信号のｍ番目のスペクトル要素、Ｄ（ｍ）は第１分離手段３６１（又は第２分離手段３６２）に対応するマイクロフォン３２１（又はマイクロフォン３２２）の受音信号のｍ番目のスペクトル要素、Ｈ（ｍ）は分離信号のｍ番目のスペクトル要素を表している。

特開平１０−３１３４９７号公報特開２００６−１９７５５２号公報

上述したＳＡＦＩＡでは、２つの音が重なった状況において、良く両者を分離することができる。しかしながら、音源が３つ以上となると、理論的には分離可能とされているものの、分離性能は極端に劣化する。従って、複数の雑音源が存在する状況下で、これらの複数の雑音を含む受音信号から目的音を精度よく分離することは困難である。

一方、特許文献２の記載方法は、各音源からの音信号（音声信号、音響信号）が適切に強調された各周波数特性を算出し、これらの各周波数特性における同一の周波数帯域の振幅値同士の大小比較を適切に行うことにより、妨害音を排除している。ここで、上述した（２）式及び（３）式からは、分離スペクトルＨ（ｍ）は、√（Ｍ（ｍ）−Ｎ（ｍ））と、一方のマイクロフォン３２１（又は３２２）から入力された信号Ｄ（ｍ）の位相を使って求めていることが分かる。マイクロフォン３２１から入力された信号Ｄ（ｍ）には、目的音以外に妨害音が含まれており、妨害音を排除するための最終段階近くで使うには不適切だと言わざるを得ない。このことが、最終的な音源分離後の音質劣化を招いていた。

そのため、妨害音が複数あっても音源を容易に分離できる、しかも、分離後の目的音の音質が良好な音源分離装置、方法及びプログラムが望まれている。

第１の本発明は、目的音と、この目的音の到来方向以外の任意の方向から到来する妨害音とを分離する音源分離装置において、（１）間隔を置いて配置された複数個のマイクロフォンの受音信号のうち、２個のマイクロフォンによる第１及び第２の受音信号を用いて時間軸上あるいは周波数領域上で、上記第１の受音信号に係る値から、上記第２の受音信号を第１の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第１の目的音優勢のスペクトルを生成する第１目的音優勢スペクトル生成手段と、（２）時間軸上あるいは周波数領域上で、上記第２の受音信号に係る値から、上記第１の受音信号を第２の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第２の目的音優勢のスペクトルを生成する第２目的音優勢スペクトル生成手段と、（３）上記第１及び第２の受音信号を用いて、時間軸上あるいは周波数領域上で目的音抑圧用の線形結合処理を行うことにより、上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトルと組になる少なくとも１つの目的音抑圧スペクトルを生成する目的音抑圧スペクトル生成手段と、（４）間隔を置いて配置された上記複数個のマイクロフォンの受音信号のうち、複数個のマイクロフォンの受音信号を用いて、周波数領域上で合算することにより位相信号を生成する位相生成手段と、（５）上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトル、上記目的音抑圧スペクトル及び、上記位相信号を用いて、目的音と妨害音とを分離する目的音分離手段とを有することを特徴とする。

また、第２の本発明は、目的音と、この目的音の到来方向以外の任意の方向から到来する妨害音とを分離する音源分離方法において、第１目的音優勢スペクトル生成手段、第２目的音優勢スペクトル生成手段、目的音抑圧スペクトル生成手段、位相生成手段及び目的音分離手段を備え、（１）上記第１目的音優勢スペクトル生成手段は、間隔を置いて配置された複数個のマイクロフォンの受音信号のうち、２個のマイクロフォンによる第１及び第２の受音信号を用いて時間軸上あるいは周波数領域上で、上記第１の受音信号に係る値から、上記第２の受音信号を第１の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第１の目的音優勢のスペクトルを生成し、（２）上記第２目的音優勢スペクトル生成手段は、時間軸上あるいは周波数領域上で、上記第２の受音信号に係る値から、上記第１の受音信号を第２の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第２の目的音優勢のスペクトルを生成し、（３）上記目的音抑圧スペクトル生成手段は、上記第１及び第２の受音信号を用いて、時間軸上あるいは周波数領域上で目的音抑圧用の線形結合処理を行うことにより、上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトルと組になる少なくとも１つの目的音抑圧スペクトルを生成し、（４）上記位相生成手段は、間隔を置いて配置された上記複数個のマイクロフォンの受音信号のうち、複数個のマイクロフォンの受音信号を用いて、周波数領域上で合算することにより位相信号を生成し、（５）上記目的音分離手段は、上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトル、上記目的音抑圧スペクトル及び、上記位相信号を用いて、目的音と妨害音とを分離することを特徴とする。

第３の本発明は、目的音と、この目的音の到来方向以外の任意の方向から到来する妨害音とを分離するための音源分離プログラムであって、コンピュータを、（１）間隔を置いて配置された複数個のマイクロフォンの受音信号のうち、２個のマイクロフォンによる第１及び第２の受音信号を用いて時間軸上あるいは周波数領域上で、上記第１の受音信号に係る値から、上記第２の受音信号を第１の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第１の目的音優勢のスペクトルを生成する第１目的音優勢スペクトル生成手段と、（２）時間軸上あるいは周波数領域上で、上記第２の受音信号に係る値から、上記第１の受音信号を第２の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第２の目的音優勢のスペクトルを生成する第２目的音優勢スペクトル生成手段と、（３）上記第１及び第２の受音信号を用いて、時間軸上あるいは周波数領域上で目的音抑圧用の線形結合処理を行うことにより、上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトルと組になる少なくとも１つの目的音抑圧スペクトルを生成する目的音抑圧スペクトル生成手段と、（４）間隔を置いて配置された上記複数個のマイクロフォンの受音信号のうち、複数個のマイクロフォンの受音信号を用いて、周波数領域上で合算することにより位相信号を生成する位相生成手段と、（５）上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトル、上記目的音抑圧スペクトル及び、上記位相信号を用いて、目的音と妨害音とを分離する目的音分離手段として機能させることを特徴とする。

本発明によれば、妨害音が複数あっても音源を容易に分離できる、しかも、分離後の目的音の音質を良好にすることができる。

第１の実施形態に係る音源分離装置の全体構成を示すブロック図である。第２の実施形態に係る音源分離装置の全体構成を示すブロック図である。従来の音源分離装置の構成を示すブロック図である。空間フィルタの説明図である。

（Ａ）第１の実施形態
以下、本発明による音源分離装置、方法及びプログラムの第１の実施形態を、図面を参照しながら説明する。第１の実施形態の音源分離装置の用途は限定されるものではないが、例えば、音声認識装置の前処理装置（雑音除去装置）として搭載されたり、ハンズフリー電話機（携帯電話機をハンズフリー電話機として用いる場合を含む）等の捕捉音声の初期処理段に設けたりするものである。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係る音源分離装置の全体構成を示すブロック図である。第１の実施形態の音源分離装置は、ディスクリート部品などの組み合わせや半導体チップなどによって専用的に構成されたものであっても良く、また、プロセッサを備えるパソコンなどの情報処理装置（１台に限定されず、複数台を分散処理し得るようにしたものであっても良い）上に、第１の実施形態の音源分離プログラム（固定データを含む）をインストールすることにより構築されるものであっても良く、さらには、第１の実施形態の音源分離プログラムが書き込まれたディジタルシグナルプロセッサを利用するものであっても良く、その実現化方法は問われないが、機能的には図１で表すことができる。なお、ソフトウェア処理を中心とする場合であっても、マイクロフォンやアナログ／ディジタル変換器の部分はハードウェア構成を適用することになる。

図１において、第１の実施形態の音源分離装置１０は、大きくは、入力手段２０、分析手段３０、分離手段４０、除去手段５０、生成手段６０及び位相生成手段７０を有する。

入力手段２０は、間隔を置いて配置された２個のマイクロフォン２１、２２と、図示しない２個のアナログ／ディジタル変換器とを有する。各マイクロフォン２１、２２は、無指向性のもの、若しくは、これらマイクロフォン２１、２２を結ぶ直線の直角方向に緩やかな指向性を有するものである。各マイクロフォン２１、２２は、当該音源分離装置１０が意図している目的音源からの目的音に加え、他の音源からの妨害音や音源がはっきりしない雑音など（以下、これらをまとめて妨害音と呼ぶ）も捕捉する。図示しないアナログ／ディジタル変換器は、対応するマイクロフォン２１、２２が空間上の音声、音響を捕捉して得た受音信号をディジタル信号に変換するものである。

なお、処理対象の音信号を入力する手段はマイクロフォン２１、２２に限定されない。例えば、２つのマイクロフォンからの受音信号を録音した録音装置から再生して入力するようにしても良く、また例えば、通信相手側の装置に設けられている２つのマイクロフォンの受音信号を通信によって取得して入力信号とするようにしても良い。このような入力信号は、アナログ信号であっても良く、既にディジタル信号に変換されているものであっても良い。録音再生や通信などによる入力であっても、当初はマイクロフォンによる捕捉を行っているので、このような場合をも含めて、特許請求の範囲では「マイクロフォン」という用語を用いている。

マイクロフォン２１の受音信号に係るディジタル信号をｘ１（ｎ）とし、マイクロフォン２２の受音信号に係るディジタル信号をｘ２（ｎ）とする。但し、ｎは、ｎ番目のデータ（サンプル）を表している。ディジタル信号ｘ１（ｎ）、ｘ２（ｎ）は、マイクロフォンが捕捉したアナログ信号でなる受音信号を、アナログ／ディジタル変換し、標本化周期Ｔ毎に標本化することにより得られるものである。標本化周期Ｔは、通常３１．２５マイクロ秒〜１２５マイクロ秒程度である。同一時間区間における、Ｎ個の連続するｘ１（ｎ）、ｘ２（ｎ）を１つの分析単位（フレーム）として、以降の処理が行われる。ここでは、一例としてＮ＝１０２４とする。例えば、処理対象分析単位に対する当該音源分離の一連の処理が終了すると、ｘ１（ｎ）、ｘ２（ｎ）のうち後半の３Ｎ／４個のデータを前半にシフトし、新たに入力された連続するＮ／４個のデータを後半に接続することにより、新たなＮ個の連続するｘ１（ｎ）、ｘ２（ｎ）を生成し、１つの分析単位として新たな処理を行い、このような処理対象分析単位の処理を繰り返すようになされている。

分析手段３０は、各マイクロフォン２１、２２に対応した周波数分析部３１、３２を備える。周波数分析部３１は、ディジタル信号ｘ１（ｎ）を周波数分析するものであり、周波数分析部３２は、ディジタル信号ｘ２（ｎ）を周波数分析するものである。言い換えると、周波数分析部３１、３２は、時間軸上の信号であるディジタル信号ｘ１（ｎ）、ｘ２（ｎ）を、周波数領域上の信号に変換するものである。ここでは、周波数分析に、ＦＦＴ（高速フーリエ変換）を適用するものとする。ＦＦＴ処理にあたっては、Ｎ個のデータが連続するディジタル信号ｘ１（ｎ）、ｘ２（ｎ）に対し、窓関数をかける。なお、窓関数ｗ（ｎ）としては、各種の窓関数を適用可能であるが、例えば、（４）式に示すようなハニング窓を適用する。窓処理は、後述する生成手段６０における分析単位の接続処理を考慮してなされる処理である。なお、窓関数をかけることは好ましいが、必須の処理ではない。

周波数分析部３１、３２から出力された周波数領域上の信号をそれぞれ、Ｄ１（ｍ）、Ｄ２（ｍ）とする。周波数領域上の信号（以下では、適宜、スペクトルと呼ぶ）Ｄ１（ｍ）、Ｄ２（ｍ）はそれぞれ複素数で表現されている。パラメータｍは、周波数軸上の順番、すなわち、ｍ番目の帯域を表している。

なお、周波数分析方法は、ＦＦＴに限定されず、ＤＦＴ（離散フーリエ変換）などの他の周波数分析方法を適用するようにしても良い。また、第１の実施形態の音源分離装置１０が搭載される装置によっては、他の目的の処理装置における周波数分析部を、この音源分離装置１０の構成として流用するようにしても良い。例えば、当該音源分離装置１０が搭載される装置がＩＰ電話機の場合には、このような流用が可能である。ＩＰ電話機の場合、ＩＰパケットのペイロードにはＦＦＴ出力を符号化したものを挿入するようになされており、そのＦＦＴ出力を、上述した分析手段３０の出力として流用することができる。

分離手段４０は、２つのマイクロフォン２１及び２２を結ぶ線に対して、その線と交差する垂直平面上に音源が位置している音、すなわち、目的音を抽出するものである。分離手段４０は、３つの空間フィルタ４１、４２、４３と、最小選択部４４とを有する。

以下で説明する分離手段４０の各部での処理は、スペクトルＤ（ｍ）（Ｄ（ｍ）はＤ１（ｍ）又はＤ２（ｍ））の性質Ｄ（ｍ）＝Ｄ＊（Ｎ−ｍ）（但し、１≦ｍ≦Ｎ／２−１、Ｄ＊（Ｎ−ｍ）はＤ（Ｎ−ｍ）の共役複素数を表す）から、０≦ｍ≦Ｎ／２の範囲で行えば良い。

空間フィルタ４１及び４２は、妨害音に対して目的音を強調（優勢化）するためのものである。空間フィルタ４１及び４２はそれぞれ、異なる特定の指向性を持った空間フィルタである。空間フィルタ４１は、例えば、２つのマイクロフォン２１、２２を結ぶ線に垂直な平面に対して右側９０度を持った空間フィルタであり、上述した図４の抑圧角度θが時計回り９０度の場合の空間フィルタである。一方、空間フィルタ４２は、例えば、２つのマイクロフォン２１、２２を結ぶ線に垂直な平面に対して左側９０度を持った空間フィルタであり、上述した図４の抑圧角度θが反時計回り９０度の場合の空間フィルタである。空間フィルタ４１の処理は、数式的には（５）式で表すことができ、空間フィルタ４２の処理は、数式的には（６）式で表すことができる。（５）式及び（６）式において、ｆはサンプリング周波数（例えば１６００Ｈｚ）である。（５）式及び（６）式はそれぞれ、空間フィルタ４１、４２への入力スペクトルＤ１（ｍ）、Ｄ２（ｍ）の線形結合式になっている。

空間フィルタ４１及び４２における抑圧角度θは、上述した時計回り９０度、反時計回り９０度に限定されず、この角度から多少異なっていても良い。

空間フィルタ４３は、妨害音に対して目的音を劣勢化するためのものである。空間フィルタ４３は、上述した図４の抑圧角度θが０度の場合の空間フィルタに相当し、２つのマイクロフォン２１、２２を結ぶ線の延長方向に位置している音源からの妨害音を抽出することによって、目的音を劣勢化するものである。空間フィルタ４３の処理は、数式的には（７）式で表すことができる。（７）式は、空間フィルタ４３への入力スペクトルＤ１（ｍ）、Ｄ２（ｍ）の線形結合式になっている。

Ｎ（ｍ）＝Ｄ１（ｍ）−Ｄ２（ｍ） …（７）
最小選択部４４は、空間フィルタ４１から出力された目的音を強調したスペクトルＥ１（ｍ）と、空間フィルタ４２から出力された目的音を強調したスペクトルＥ２（ｍ）とを統合した目的音強調スペクトルＭ（ｍ）を形成するものである。最小選択部４４は、各帯域毎に、（８）式に示すように、空間フィルタ４１からの出力スペクトルＥ１（ｍ）の絶対値と、空間フィルタ４２からの出力スペクトルＥ２（ｍ）の絶対値とのうち最小値を、当該最小選択部４４からの出力スペクトルＭ（ｍ）の要素とする処理を行うものである。

位相生成手段７０は、周波数分析部３１からの出力スペクトルＤ１（ｍ）と周波数分析部３２からの出力スペクトルＤ２（ｍ）とを利用して、目的音成分を多く含んでいる、目的音分離のために使用するスペクトル（以下、位相スペクトルと呼ぶ）Ｆ（ｍ）を生成する。位相生成手段７０は、（９）式に示すように、周波数分析部３１からの出力スペクトルＤ１（ｍ）と周波数分析部３２からの出力スペクトルＤ２（ｍ）とを加算して位相スペクトルＦ（ｍ）を生成する。

Ｆ（ｍ）＝Ｄ１（ｍ）＋Ｄ２（ｍ） …（９）
（９）式を演算する位相生成手段７０は、目的音方向に指向性を持つ空間フィルタになっている。位相スペクトルＦ（ｍ）の特性が目的音方向に指向性を持っているため、目的音の信号成分を多く含んでおり、その位相成分は、帯域毎の選択処理を行っていないため連続的であり、急峻な特性を持っていない。

因みに、目的音分離のために使う位相の情報は目的音成分を多く含んでいる必要があり、帯域選択した後の信号の位相成分を使うことも考えられる。しかしながら、帯域選択処理により、位相成分の不連続性が発生し、帯域選択した後の信号を利用した場合には、分離された目的音の音質に劣化を招いてしまう。そのため、（９）式を実行するような空間フィルタを適用することが適切である。

除去手段５０は、最小選択部４４の出力スペクトルＭ（ｍ）と、空間フィルタ４３の出力スペクトルＮ（ｍ）と、位相生成手段７０の出力スペクトルＦ（ｍ）とから、妨害音を除去した出力、言い換えると、目的音だけを分離抽出した出力を得るものである。除去手段５０は、（１０）式に示す正規化処理を伴う２つのスペクトルＭ（ｍ）、Ｎ（ｍ）からの選択処理と、得られたスペクトルＳ（ｍ）を適用する（１１）式に示す分離スペクトルＨ（ｍ）の算出処理とからなる。

ここで、（１０）式や（１１）式の処理も、上述した複素数と共役複素数との関係を考慮して、０≦ｍ≦Ｎ／２の範囲で実行する。そのため、除去手段５０は、（１１）式に従って得られた０≦ｍ≦Ｎ／２の範囲の分離スペクトルＨ（ｍ）から、複素数と共役複素数との関係Ｈ（ｍ）＝Ｈ＊（Ｎ−ｍ）（但し、Ｎ／２＋１≦ｍ≦Ｎ−１）を利用して、０≦ｍ≦Ｎ−１の範囲の分離スペクトルＨ（ｍ）を求める。

生成手段６０は、周波数領域上の信号である分離スペクトル（妨害音除去スペクトル）Ｈ（ｍ）を時間軸上の信号に変換すると共に、分析単位毎の信号を接続して連続的な信号に復帰させるものである。なお、必要に応じて、ディジタル／アナログ変換するようにしても良い。生成手段６０は、分離スペクトルＨ（ｍ）をＮ点逆ＦＦＴ処理して音源分離信号ｈ（ｎ）を得た後、（１２）式に示すように、現在の音源分離信号ｈ（ｎ）と、直前の分析単位についての音源分離信号ｈ’（ｎ）の後半の３Ｎ／４個のデータを加算して、最終的な分離信号ｙ（ｎ）を得るものである
ｙ（ｎ）＝ｈ（ｎ）＋ｈ’（ｎ＋Ｎ／４） …（１２）
ここで、相前後する分析単位でデータ（サンプル）を重複させるように、Ｎ／４個のデータをシフトしながら、上述した処理を行うのは、波形接続を円滑に行うためであり、この手法は良く用いられている。１つの分析単位に対し、分析手段３０から当該生成手段６０までの上述した一連の処理に許される時間は、ＮＴ／４となる。

なお、当該音源分離装置１０の用途によっては、生成手段６０を省略し、他の装置が有する生成部を流用したりすることができる。例えば、当該音源分離装置が音声認識装置に利用される場合であれば、分離スペクトルＨ（ｍ）を認識用特徴量として用いるようにして生成手段６０を省略することができる。また例えば、当該音源分離装置がＩＰ電話機に利用される場合であれば、ＩＰ電話機が生成部を有するので、その生成部を流用するようにしても良い。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態に係る音源分離装置１０の動作（音源分離方法）を説明する。

各マイクロフォン２１、２２が捕捉することにより得られた受音信号はそれぞれ、ディジタル信号ｘ１（ｎ）、ｘ２（ｎ）に変換された後、分析単位に切り出されて分析手段３０に与えられる。

分析手段３０において、ディジタル信号ｘ１（ｎ）は周波数分析部３１によって周波数分析されると共に、ディジタル信号ｘ２（ｎ）は周波数分析部３２によって周波数分析され、得られたスペクトルＤ１（ｍ）及びＤ２（ｍ）は、空間フィルタ４１、４２、４３及び位相生成手段７０に与えられる。

空間フィルタ４１においては、スペクトルＤ１（ｍ）及びＤ２（ｍ）を適用した（５）式に示す演算が実行され、２つのマイクロフォン２１、２２を結ぶ線に垂直な平面に対して右側９０度方向の妨害音を抑圧して目的音を強調したスペクトルＥ１（ｍ）が得られ、また、空間フィルタ４２においては、スペクトルＤ１（ｍ）及びＤ２（ｍ）を適用した（６）式に示す演算が実行され、２つのマイクロフォン２１、２２を結ぶ線に垂直な平面に対して左側９０度方向の妨害音を抑圧して目的音を強調したスペクトルＥ２（ｍ）が得られる。最小選択部４４においては、各帯域毎に、（８）式に示すように、空間フィルタ４１からの出力スペクトルＥ１（ｍ）の絶対値と、空間フィルタ４２からの出力スペクトルＥ２（ｍ）の絶対値とのうち最小値を選択する処理が実行され、統合後の目的音強調のスペクトルＭ（ｍ）が得られ、このスペクトルＭ（ｍ）が除去手段５０に与えられる。

また、空間フィルタ４３においては、スペクトルＤ１（ｍ）及びＤ２（ｍ）を適用した（７）式に示す演算が実行され、２つのマイクロフォン２１、２２を結ぶ線の延長方向に位置している音源からの妨害音を抽出され、妨害音に対して目的音を劣勢化したスペクトルＮ（ｍ）が得られ、このスペクトルＮ（ｍ）が除去手段５０に与えられる。

位相生成手段７０においては、スペクトルＤ１（ｍ）及びＤ２（ｍ）を適用した（９）式に示す演算が実行され、目的音成分を多く含んでいる、目的音分離のために使用する位相スペクトルＦ（ｍ）が生成され、この位相スペクトルＦ（ｍ）が除去手段５０に与えられる。

除去手段５０においては、（１０）式に示す、位相スペクトルＦ（ｍ）を適用した正規化処理を伴う２つのスペクトルＭ（ｍ）、Ｎ（ｍ）からの選択処理が実行された後、（１１）式に示す分離スペクトルＨ（ｍ）の算出処理が実行され、さらに、分離スペクトルＨ（ｍ）におけるｍの範囲の拡大処理が実行され、範囲拡大処理後の分離スペクトルＨ（ｍ）が生成手段６０に与えられる。

生成手段６０においては、周波数領域上の信号である分離スペクトルＨ（ｍ）が時間軸上の信号に変換された後、（１２）式に示すような分析単位毎の信号の接続処理が実行され、最終的な分離信号ｙ（ｎ）が得られる。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、帯域選択を基本処理としているので目的音を容易に分離でき、しかも、複数の受音信号の合成によって目的音分離に適用する位相の情報を得るようにしているので、受音信号に妨害音成分が多い場合でも、安定した目的音に係る位相成分を目的音分離に使うことができ、その結果、分離後の目的音の音質を高めることができる。

（Ｂ）第２の実施形態
次に、本発明による音源分離装置、方法及びプログラムの第２の実施形態を、図面を参照しながら説明する。第１の実施形態の音源分離装置は２つのマイクロフォンを用いたものであったが、第２の実施形態は、４つのマイクロフォンを用いたものである。

図２は、第２の実施形態に係る音源分離装置の全体構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図２において、第２の実施形態に係る音源分離装置１００は、２つの音源分離部８０−Ａ及び８０−Ｂと、除去手段５１と、生成手段６０と、位相生成手段７１とを有する。各音源分離部８０−Ａ、８０−Ｂはそれぞれ、入力手段２０−Ａ、２０−Ｂ、分析手段３０−Ａ、３０−Ｂ、及び、分離手段４０−Ａ、４０−Ｂを１つずつ備えている。

入力手段２０−Ａ、２０−Ｂ、分析手段３０−Ａ、３０−Ｂ、及び、分離手段４０−Ａ、４０−Ｂはそれぞれ、第１の実施形態における入力手段２０、分析手段３０、分離手段４０と同様なものである。

但し、当該音源分離装置１００に設けられている４つのマイクロフォン２１−Ａ、２１−Ｂ、２２−Ａ、２２−Ｂのうち、マイクロフォン２１−Ａ及び２２−Ａが入力手段２０−Ａの構成要素となっており、マイクロフォン２１−Ｂ及び２２−Ｂが入力手段２０−Ｂの構成要素となっている。例えば、マイクロフォン２１−Ａ及び２２−Ａを結ぶ線と、マイクロフォン２１−Ｂ及び２２−Ｂを結ぶ線とが直交していることは好ましい。

第２の実施形態の位相生成手段７１には、分析手段３０−Ａから出力された２つの周波数分析スペクトルＤＡ１（ｍ）及びＤＡ２（ｍ）が与えられると共に、分析手段３０−Ｂから出力された２つの周波数分析スペクトルＤＢ１（ｍ）及びＤＢ２（ｍ）が与えられる。位相生成手段７１は、（１３）式に示すように、入力された４つスペクトルＤＡ１（ｍ）、ＤＡ２（ｍ）、ＤＢ１（ｍ）及びＤＢ２（ｍ）を加算して位相スペクトルＦ（ｍ）を生成する。

Ｆ（ｍ）＝ＤＡ１（ｍ）＋ＤＡ２（ｍ）＋ＤＢ１（ｍ）＋ＤＢ２（ｍ） …（１３）
第２の実施形態の位相スペクトルＦ（ｍ）も、４つのマイクロフォンに係るスペクトルを単純に加算したものであるので目的音の信号成分を多く含んでおり、その位相成分は、帯域毎の選択処理を行っていないため連続的であり、急峻な特性を持っていない。

第２の実施形態の除去手段５１には、分離手段４０−Ａの最小選択部４４−Ａ（図示は省略している）の出力スペクトルＭＡ（ｍ）と空間フィルタ４３−Ａ（図示は省略している）の出力スペクトルＮＡ（ｍ）と、分離手段４０−Ｂの最小選択部４４−Ｂ（図示は省略している）の出力スペクトルＭＢ（ｍ）と空間フィルタ４３−Ｂ（図示は省略している）の出力スペクトルＮＢ（ｍ）と、位相生成手段７１の出力スペクトルＦ（ｍ）とが与えられる。

除去手段５０は、これら５つのＭＡ（ｍ）、ＮＡ（ｍ）、ＭＢ（ｍ）、ＮＢ（ｍ）、Ｆ（ｍ）を用いた（１４）式に示す正規化処理を伴う帯域選択処理を実行する。

（１４）式における１番目の条件の前半は、音源分離部８０−Ａの目的音優勢スペクトルのパワーの方が音源分離部８０−Ｂの目的音優勢スペクトルのパワーより大きい場合を表しており、（１４）式における２番目の条件の前半は、音源分離部８０−Ｂの目的音優勢スペクトルのパワーの方が音源分離部８０−Ａの目的音優勢スペクトルのパワーより大きい場合を表しており、音源分離部８０−Ａ及び８０−Ｂ間での帯域選択を行っていることを表している。

除去手段５１が帯域選択結果のスペクトルＳ（ｍ）と位相生成手段７１の出力スペクトルＦ（ｍ）とを適用して、分離スペクトルＨ（ｍ）を算出し、その後、分離スペクトルＨ（ｍ）のｍの範囲を拡大することは第１の実施形態と同様である。

第２の実施形態によっても、帯域選択を基本処理としているので目的音を容易に分離でき、しかも、受音信号に妨害音成分が多い場合でも、安定した目的音に係る位相成分を目的音分離に使うことができ、その結果、分離後の目的音の音質を高めることができる。

（Ｃ）他の実施形態
第２の実施形態では、音源分離部８０−Ａの２個のマイクロフォン２１−Ａ及び２２−Ａと、音源分離部８０−Ｂの２個のマイクロフォン２１−Ｂ及び２２−Ｂとの計４個のマイクロフォンを用いる場合を示したが、音源分離部８０−Ａと音源分離部８０−Ｂとで１個のマイクロフォンを共通に使うことにより、３個のマイクロフォン構成としても良い。このようにした場合、マイクロフォン数も少なく、音源分離部８０−Ａ及び８０−Ｂで共通の演算があるため（例えば、周波数分析演算）、最終的な演算量は少なくなり実用的である。この場合において、位相生成手段は、３つのマイクロフォンに対応する周波数分析スペクトルを単純に合算するようにしても良く、共通なマイクロフォンに対応する周波数分析スペクトルを、他の周波数分析スペクトルより重みを増して（例えば２倍）合算するようにしても良い。

また、３個のマイクロフォンを用いる場合においても上記と異なる構成を採用しても良い。例えば、正三角形の頂点位置に３個のマイクロフォンをそれぞれ配置し、第１及び第２のマイクロフォンを利用する音源分離部と、第２及び第３のマイクロフォンを利用する音源分離部と、第３及び第１のマイクロフォンを利用する音源分離部とを設けて処理するようにしても良い。

さらには、マイクロフォン数を５個以上に増やして、同様な音源分離処理を実行するようにしても良い。この場合、位相生成手段は、各マイクロフォンに対応する周波数分析スペクトルを合算するようにすれば良い。また、除去手段は、第２の実施形態と同様な最小値探索により音源処理部の選択を行うと共に、その選択された音源処理部における目的音優勢スペクトルと目的音劣勢スペクトルとから帯域選択スペクトルＳ（ｍ）を得るようにすれば良い。

第１及び第２の実施形態においては、周波数領域上の信号（スペクトル）で多くの処理を行っているが、その処理のいくつかを、時間軸上の信号で実行するようにしても良い。

本発明の音源分離装置、方法及びプログラムは、例えば、遠隔発話を行う複数の話者による混合音声から任意の話者の音声を分離する場合、あるいは遠隔発話を行う話者の音声とその他の音との混合音から話者の音声を分離する場合等に利用でき、より具体的には、例えば、ロボットとの対話、カーナビゲーションシステム等の車載機器についての音声による操作、会議の議事録作成等に用いるのに適している。

１０、１００…音源分離装置、
２０、２０−Ａ、２０−Ｂ…入力手段、
２１、２１−Ａ、２１−Ｂ、２２、２２−Ａ、２２−Ｂ…マイクロフォン、
３０、３０−Ａ、３０−Ｂ…分析手段、
３１、３２…周波数分析部、
４０、４０−Ａ、４０−Ｂ…分離手段、
４１〜４３…空間フィルタ、
４４…最小選択部、
５０、５１…除去手段、
６０…生成手段、
７０、７１…位相生成手段、
８０−Ａ、８０−Ｂ…音源分離部。

Claims

目的音と、この目的音の到来方向以外の任意の方向から到来する妨害音とを分離する音源分離装置において、
間隔を置いて配置された複数個のマイクロフォンの受音信号のうち、２個のマイクロフォンによる第１及び第２の受音信号を用いて時間軸上あるいは周波数領域上で、上記第１の受音信号に係る値から、上記第２の受音信号を第１の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第１の目的音優勢のスペクトルを生成する第１目的音優勢スペクトル生成手段と、
時間軸上あるいは周波数領域上で、上記第２の受音信号に係る値から、上記第１の受音信号を第２の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第２の目的音優勢のスペクトルを生成する第２目的音優勢スペクトル生成手段と、
上記第１及び第２の受音信号を用いて、時間軸上あるいは周波数領域上で目的音抑圧用の線形結合処理を行うことにより、上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトルと組になる少なくとも１つの目的音抑圧スペクトルを生成する目的音抑圧スペクトル生成手段と、
間隔を置いて配置された上記複数個のマイクロフォンの受音信号のうち、複数個のマイクロフォンの受音信号を用いて、周波数領域上で合算することにより位相信号を生成する位相生成手段と、
上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトル、上記目的音抑圧スペクトル及び、上記位相信号を用いて、目的音と妨害音とを分離する目的音分離手段と
を有することを特徴とする音源分離装置。
目的音と、この目的音の到来方向以外の任意の方向から到来する妨害音とを分離する音源分離方法において、
第１目的音優勢スペクトル生成手段、第２目的音優勢スペクトル生成手段、目的音抑圧スペクトル生成手段、位相生成手段及び目的音分離手段を備え、
上記第１目的音優勢スペクトル生成手段は、間隔を置いて配置された複数個のマイクロフォンの受音信号のうち、２個のマイクロフォンによる第１及び第２の受音信号を用いて時間軸上あるいは周波数領域上で、上記第１の受音信号に係る値から、上記第２の受音信号を第１の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第１の目的音優勢のスペクトルを生成し、
上記第２目的音優勢スペクトル生成手段は、時間軸上あるいは周波数領域上で、上記第２の受音信号に係る値から、上記第１の受音信号を第２の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第２の目的音優勢のスペクトルを生成し、
上記目的音抑圧スペクトル生成手段は、上記第１及び第２の受音信号を用いて、時間軸上あるいは周波数領域上で目的音抑圧用の線形結合処理を行うことにより、上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトルと組になる少なくとも１つの目的音抑圧スペクトルを生成し、
上記位相生成手段は、間隔を置いて配置された上記複数個のマイクロフォンの受音信号のうち、複数個のマイクロフォンの受音信号を用いて、周波数領域上で合算することにより位相信号を生成し、
上記目的音分離手段は、上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトル、上記目的音抑圧スペクトル及び、上記位相信号を用いて、目的音と妨害音とを分離する
ことを特徴とする音源分離方法。
目的音と、この目的音の到来方向以外の任意の方向から到来する妨害音とを分離するための音源分離プログラムであって、
コンピュータを、
間隔を置いて配置された複数個のマイクロフォンの受音信号のうち、２個のマイクロフォンによる第１及び第２の受音信号を用いて時間軸上あるいは周波数領域上で、上記第１の受音信号に係る値から、上記第２の受音信号を第１の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第１の目的音優勢のスペクトルを生成する第１目的音優勢スペクトル生成手段と、
時間軸上あるいは周波数領域上で、上記第２の受音信号に係る値から、上記第１の受音信号を第２の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも１つの第２の目的音優勢のスペクトルを生成する第２目的音優勢スペクトル生成手段と、
上記第１及び第２の受音信号を用いて、時間軸上あるいは周波数領域上で目的音抑圧用の線形結合処理を行うことにより、上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトルと組になる少なくとも１つの目的音抑圧スペクトルを生成する目的音抑圧スペクトル生成手段と、
間隔を置いて配置された上記複数個のマイクロフォンの受音信号のうち、複数個のマイクロフォンの受音信号を用いて、周波数領域上で合算することにより位相信号を生成する位相生成手段と、
上記第１目的音優勢スペクトル、上記第２目的音優勢スペクトル、上記目的音抑圧スペクトル及び、上記位相信号を用いて、目的音と妨害音とを分離する目的音分離手段と
して機能させることを特徴とする音源分離プログラム。