JP2010152107A

JP2010152107A - 目的音抽出装置及び目的音抽出プログラム

Info

Publication number: JP2010152107A
Application number: JP2008330478A
Authority: JP
Inventors: Takayuki Hiekata; 孝之稗方
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2008-12-25
Filing date: 2008-12-25
Publication date: 2010-07-08

Abstract

【課題】入力音響信号を得るための複数のマイクロホンが省スペースかつ簡易な構造で配置されても，特定方向に音源が位置する目的音を前記入力音響信号から高い精度で抽出できること。
【解決手段】信号強調部１７が，目標方向Ｒ１及び複数の参照方向Ｒ２１，Ｒ２２からなる複数の設定方向各々について，３つ以上の無指向性のマイクロホン１１１〜１１３を通じて逐次得られる３つ以上の入力音響信号を，各マイクロホンに到達する音響の時間のずれに応じた時間調整の後に合成して前記設定方向各々からの音響の成分の強調信号を逐次生成し，目的音抽出信号生成部Ｑが，前記強調信号を用いたブラインド音源分離方式の音源分離処理を行うことにより，前記目的音に相当する目的音抽出信号を逐次生成する。
【選択図】図１

Description

本発明は，複数のマイクロホンを通じて得られる複数の入力音響信号に基づいて，所定の目的音の音響信号に相当する目的音抽出信号を逐次生成して出力する目的音抽出装置及びそのプログラムに関するものである。

従来より，電話会議システム，テレビ会議システム，券売機，カーナビゲーションシステム等，話者等の音源が発する音響を入力し，入力した音響信号を処理する音響処理システムが存在する。音響処理システムは，マイクロホンによって処理対象とする特定の音源から発せられる音を収音するが，前記マイクロホンを通じて得られる音響信号に，想定外の音源が発する音響が雑音成分として混入する場合が多い。以下，前記処理対象とする特定の音源のことを目的音源，その目的音源が発する音を目的音と称する。また，前記マイクロホンを通じて得られる音響信号のことを入力音響信号と称する。
前記音響処理システムにおいて，前記入力音響信号における雑音成分の割合が大きいと，前記入力音響信号における前記目的音の音響成分の明瞭性が損なわれ，通話品質の悪化や自動音声認識率の悪化等の問題が生じる。そのため，前記音響処理システムにおいては，前記入力音響信号から前記目的音以外の音響成分を減衰させ，前記目的音の音響成分が抽出された音響信号を逐次生成して出力する目的音抽出処理が必要となる。
また，カメラ一体型ＶＴＲ装置においても，録画方向から到来する音響を前記目的音として前記目的音抽出処理を行い，抽出した前記目的音の音響信号のデータを録画データに含めて記録メディアに記録できれば好適である。これにより，録画対象が発する前記目的音を聞き取りやすい音響信号のデータが，録画データの一部として記録される。
以下，前記入力音響信号から前記目的音以外の音響成分を減衰させた音響信号，即ち，前記目的音の音響成分が抽出された音響信号のことを目的音抽出信号と称する。また，前記目的音に対して雑音となる音響のことを非目的音と称する。即ち，目的音抽出処理においては，前記非目的音は前記目的音に対する雑音の典型例である。

例えば，特許文献１には，カメラ一体型ＶＴＲ装置において，複数の方向から収音した前記入力音響信号の相関係数を算出し，その相関係数に基づいて，各収音方向の中央の方向からの音響の信号成分を強調することについて示されている。
また，特許文献２〜４には，目的音を収音する主要入力用マイクロホンと，その他の参照入力用マイクロホンとを備えたズームマイクロホン装置について示されている。特許文献２〜４に示される技術は，前記参照入力用マイクロホンを通じて得られる音響信号に基づく適応フィルタ処理によって目的音以外の音響に対応する不要信号を生成し，前記主要入力用マイクロホンを通じて得られる音響信号から前記不要信号を減算除去する技術である。

ところで，所定の音響空間に複数の音源と複数のマイクロホンとが存在する場合，その複数のマイクロホンごとに，複数の音源各々からの個別の音響信号（以下，音源信号という）が重畳された前記入力音響信号が得られる。このようにして得られた前記入力音響信号のみに基づいて，各音源が発する音に相当する音響信号である分離信号をする音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式）と呼ばれる。以下，ブラインド音源分離方式のことをＢＳＳ方式と記載する。

さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis）に基づくＢＳＳ方式の音源分離処理がある。以下，独立成分分析法のことをＩＣＡ法と記載する。このＩＣＡ法に基づくＢＳＳ方式の音源分離処理では，複数の前記入力音響信号において各音源に対応する音響成分それぞれが統計的に独立であることを利用して逆混合行列である分離行列を最適化する学習計算が行われる。

以下，図１５に示すブロック図を参照しつつ，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ａについて説明する。なお，以下の説明において，ＩＣＡ−ＢＳＳ方式とは，ＩＣＡ法に基づくＢＳＳ方式のことを意味する。
図１５に示される音源分離装置Ａは，ＩＣＡ−ＢＳＳ方式の一種である周波数領域における独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行う。以下，その方式のことを，ＦＤＩＣＡ−ＢＳＳ方式と称する。なお，ＦＤは，Frequency-Domainの略である。本処理の詳細は，非特許文献１や非特許文献２等に示されている。
前記音源分離装置Ａは，ある音響空間に複数の音源１，２と複数のマイクロホン１１１，１１２とが存在する状態で，そのマイクロホン１１１，１１２各々を通じて逐次入力される音源１，２各々が発する音響の信号が重畳された複数の分離対象音響信号ｘj(ｔ)から，各音源に対応する音響信号を個別に分離した分離信号，即ち，各音源の音響信号に対応した同定信号ｙj(ｔ)を逐次生成してスピーカに対してリアルタイム出力する。

図１５に示されるように，前記音源分離装置Ａは，図中においてＡＤＣと表記されているＡ／Ｄコンバータ１２，ＤＦＴ処理部１３，ＩＤＦＴ処理部１４，図中においてＤＡＣと表記されているＤ／Ａコンバータ１５，信号バッファ１６，分離フィルタ処理部２１，学習演算部２２等を備えている。
なお，図１５には，前記分離対象音響信号ｘj(ｔ)のチャンネル数，即ち，マイクロホンの数が２つである例について示されているが，（チャンネル数ｎ）≧（音源の数ｍ）であれば，３チャンネル以上であっても同様の構成により実現できる。

前記Ａ／Ｄコンバータ１２は，複数のマイクロホン１１１，１１２各々から入力されるアナログの前記入力音響信号各々を所定のサンプリング周期でサンプリングすることにより，デジタルの分離対象音響信号Ｘj(ｔ)に変換するすものである。例えば，各音源の音響信号が人の音声信号である場合，８ｋＨｚ程度のサンプリング周期でデジタル化すればよい。
前記ＤＦＴ処理部１３は，ＡＤ／コンバータ１２から伝送されてくる前記分離対象音響信号ｘj(ｔ)に対して離散フーリエ変換（Discrete Fourier Transform）処理を行い，所定の時間長分の時間領域の前記分離対象音響信号ｘj(ｔ)であるフレーム信号を，同時間長分の周波数領域の分離対象音響信号ｘj(ｆ)に変換する。なお，ｆは所定範囲の周波数帯域の区分である周波数ビンを表す。

前記分離フィルタ処理部２１は，マイクロホン１１１，１１２，前記Ａ／Ｄコンバータ１２及び前記ＤＦＴ処理部１３を通じて逐次入力される複数の周波数領域の前記分離対象音響信号ｘj(ｆ)に対し，分離行列Ｗ(ｆ)を用いた行列演算を行うことによってフィルタ処理を施す。そして，前記分離フィルタ処理部２１は，そのフィルタ処理によって各音源に対応する複数の分離信号ｙj(ｔ)を逐次生成してリアルタイムで出力する逐次音源分離処理を実行する。なお，前記周波数ビンをｆ，前記フレーム信号の番号をｍとすると，前記分離フィルタ処理部２１の処理によって得られる分離信号ｙ(ｆ，ｍ)は，次の（１）式で表される。なお，前記分離信号ｙ(ｆ，ｍ)は，前記フレーム信号の番号が指定された前記分離信号ｙj(ｆ)である。

ここで，前記マイクロホン１１１，１１２は，いずれも複数の音源１，２が存在する所定の音響空間に配置される。また，前記分離信号ｙj(ｆ)各々は，前記分離対象音響信号ｘj(ｆ)の数と同じ数だけ出力される。図１５に示される例では，チャンネル番号ｉは，１又は２である。
前記信号バッファ１６は，前記ＤＦＴ処理部１３を通じて逐次入力される複数の周波数領域の前記分離対象音響信号ｘj(ｆ)を，常に最新の所定時間長分だけ保持するデータバッファである。
前記学習演算部２２は，予め定められた時間長分の複数の周波数領域の前記分離対象音響信号ｘj(ｆ)を用いて，ＦＤＩＣＡ−ＢＳＳ方式の音源分離処理における分離行列Ｗ(ｆ)の学習計算を行う。その際，前記学習演算部２２は，前記信号バッファ１６に保持されている前記分離対象音響信号ｘj(ｆ)を用いて学習計算を行う。この学習計算により得られる分離行列Ｗ(ｆ)が，前記分離フィルタ処理部２１で用いられる分離行列として設定される。
また，前記学習計算は，逐次入力される新たな前記分離対象音響信号ｘj(ｆ)に基づいて随時行われ，前記分離フィルタ処理部２１で用いられる前記分離行列Ｗ(ｆ)は随時更新される。
前記学習計算は，次の（２）式により表される単位処理を繰り返し実行する逐次計算である。即ち，ｉ回目の計算結果である出力ｙ(ｆ)を（２）式に適用することよって（ｉ＋１）回目のＷ(ｆ)を求め，そのＷ(ｆ)を用いて所定時間長分の前記分離対象音響信号ｘ(ｆ，ｍ)に対して（１）式に基づくフィルタ処理を施すことによって（ｉ＋１）回目の出力ｙ(ｆ，ｍ)を求める，という前記単位処理を複数回繰り返す。これにより，分離フィルタＷ(ｆ)が，徐々に前記逐次計算で用いられる前記分離対象音響信号ｘ(ｆ，ｍ)に適応した内容となる。

このＦＤＩＣＡ−ＢＳＳ方式の音源分離処理によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的簡単かつ安定に分離フィルタのフィルタ特性を規定する前記分離行列Ｗ(ｆ)の学習計算を行うことができる。

前記ＩＤＦＴ処理部１４は，前記分離フィルタ処理部２１から伝送されてくる周波数領域の前記分離信号ｙj(ｆ)に対して逆離散フーリエ変換（Inverse Discrete Fourier Transform）処理を行い，周波数領域の前記分離信号ｙj(ｆ)を時間領域の分離信号ｙj(ｔ)に変換する。
前記Ｄ／Ａコンバータ１５は，前記ＩＤＦＴ処理部１４から伝送されてくる時間領域のデジタル信号である前記分離信号ｙj(ｔ)をアナログの分離信号ｙj(ｔ)に変換する。そのアナログの分離信号ｙj(ｔ)は，所定のスピーカを通じて音響出力される。

そして，前記ＩＣＡ法−ＢＳＳ方式の音源分離処理では，逐次入力される前記入力音響信号に対し，前記学習計算により最適化された前記分離行列を用いたフィルタ処理を施すことにより，各音源の出力音の同定信号である前記分離信号の生成が行われる。ＩＣＡ法に基づくＢＳＳ方式の音源分離処理によれば，マイクロホンごとに前記分離信号が得られ，その分離信号は，対応するマイクロホン以外のマイクロホンの収音方向に存在する音源からの音響の信号成分を前記分離行列により減衰させた音響信号である。従って，前記ＩＣＡ−ＢＳＳ方式の音源分離処理によれば，前記分離対象音響信号の数，即ち，マイクロホンの数と同じ数の前記分離信号が得られる。このようなＩＣＡ−ＢＳＳ方式の音源分離処理は，例えば，非特許文献１や非特許文献２等に詳説されている。

また，ＢＳＳ方式の音源分離処理としては，バイナリーマスキング処理による音源分離処理も知られている。バイナリーマスキング処理は，複数の前記分離対象音響信号相互間で，複数に区分された周波数成分である周波数ビンごとのパワーを比較して他の分離対象音響信号よりもパワーの小さな信号成分を除去することにより，前記分離対象音響信号それぞれについて，主となる音源からの音響信号以外の信号成分を除去する処理である。バイナリーマスキング処理は，比較的低い演算負荷で実現できる音源分離処理である。これについては，例えば，非特許文献３や非特許文献４等に詳説されている。

そして，前記分離対象響信号に基づいてＢＳＳ方式の音源分離処理を実行すれば，目的音に対応する前記分離信号を得ることができる。
前述したように，前記ＩＣＡ法に基づく音源分離処理やバイナリーマスキング処理などのＢＳＳ方式の音源分離処理は，前記分離対象音響信号から前記目的音の収音方向以外の特定の方向に存在する前記非目的音の音響成分を減衰させて除去することによって前記目的音の分離信号を生成する。そのため，ＢＳＳ方式の音源分離処理は，雑音の音源が，前記副マイクロホンの収音方向の１箇所に集中した点音源の状態又はそれに近い状態で存在する場合には，雑音除去性能が高まり，目的音の抽出性能が高まる。特に，前記ＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，各音源の出力音の独立性に依拠して前記分離信号を生成するため，前記目的音と前記非目的音との音量差が比較的小さい場合であっても，高い精度で前記分離信号を生成できる。

また，特許文献５には，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理とスペクトル減算処理とを組み合わせた目的音抽出装置について示されている。
特許文献５に示される目的音抽出装置は，前記主音響信号と複数の前記副音響信号それぞれとの組合せごとに，前記目的音及びその他の雑音の分離信号を生成する音源分離処理を行い，前記目的音の分離信号の合成信号又は前記主音響信号と，前記その他の雑音の分離信号との間でスペクトル減算処理を行った結果を前記目的音抽出信号として出力する。なお，特許文献５に示される目的音抽出装置における前記音源分離処理は，例えば，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理が好適である。

音響環境には，多数の雑音音源が散在している場合や雑音が反射及び反響する場合のように，雑音が不特定の方向から各マイクロホンへ到来する状況が生じ得る。以下，そのような音響環境を，拡散雑音環境という。
ＢＳＳ方式の音源分離処理は，前記拡散雑音環境の下では，目的音の抽出性能が低下し得る。
また，ＢＳＳ方式の音源分離処理により得られる雑音の分離信号は，前記分離対象音響信号から前記目的音の音響成分が除去された音響信号である。
そこで，前記拡散雑音環境の下において，特許文献５に示されるように，前記主音響信号やＢＳＳ方式の音源分離処理により得られる前記目的音の分離信号の周波数スペクトルから，ＢＳＳ方式の音源分離処理により得られる雑音の分離信号の周波数スペクトルを減算することが考えられる。これにより，前記拡散雑音環境の下においても，前記目的音の音響成分のみが抽出された音響信号が得られる。
以上に示したように，複数の前記分離対象音響信号を用いたＢＳＳ方式の音源分離処理を行うことにより，前記目的音の音響成分が効果的に抽出された前記目的音抽出信号を得ることができる。

一方，前記ＩＣＡ法に基づくＢＳＳ方式の音源分離処理においては，前記学習計算によって分離行列が得られるが，その分離行列に基づいて，音源の存在する方向（ＤＯＡ：Direction of Arrivals）を検出する各種の技術が従来より知られている。例えば，非特許文献５や非特許文献６には，前記分離行列にステアリングベクトルを乗じることによってＤＯＡを検出する技術が示されている。
特開２００１−８２８５号公報特開平６−０８３３７２号公報特開平６−０９０４９３号公報特開平６−１６５２８６号公報特開２００８−２９２９７４号公報猿渡洋，「アレー信号処理を用いたブラインド音源分離の基礎」，電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他，「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」，電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003. R.F.Lyon, "A computational model of binaural localization and separation" ,In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect", Acta Acoustica, vol.1, pp.43-55, 1993. 西川剛樹他，「ＩＣＡとビームフォーミングを統合した高速収束アルゴリズムに基づく３音源以上のブラインド音源分離」，日本音響学会講演論文集，1-6-13，March 2005. 栗田悟史他，「指向特性を利用したブラインド信号分離の残響下における評価」，電子情報通信学会技術報告，DSP99-77，SP99-75，1999.09

ところで，特許文献１に示される技術によれば，特定の方向に存在する音源からくる前記目的音の成分が強調された音響信号が得られるが，出力音響信号における前記目的音以外のノイズ成分を十分に低減させることができない。そのため，特許文献１に示される技術は，前記目的音のみを高精度で抽出したいというニーズには対応できないという問題点があった。

また，特許文献２〜４に示される技術では，適応フィルタ処理を行う演算部が，前記非目的音を主として収音する前記参照入力用マイクロホンを通じて得られる音響信号に基づいて前記不要信号を生成する。従って，特許文献２〜４に示される技術では，前記参照入力用マイクロホンに前記目的音が混入すると，前記目的音の成分を除去した出力音響信号を生成するという誤作動が生じる。そのような誤作動を回避するためには，前記参照入力用マイクロホンは，その収音方向が，前記目的音の音源が存在し得る比較的広範囲の方向から外れるようにセッティングされる必要がある。
また，特許文献２〜４に示される技術において，前記参照入力用マイクロホンの収音範囲が，前記目的音の音源が存在する方向から遠ざかるほど，前記目的音の収音方向を狭く制限すること，即ち，鋭い指向性を実現できない。特許文献２〜４に示される技術において，前記目的音の収音についての鋭い指向性を実現できないということは，前記主要入力用マイクロホンへの前記非目的音の混入度合いが大きくなるほど，前記非目的音の除去性能，即ち，前記目的音の抽出性能が悪化するということである。
このように，特許文献２〜４に示される技術は，前記誤作動を回避しつつ前記目的音の抽出性能を十分に確保することができないという問題点があった。この問題点は，前記非目的音の音量が大きく前記主要入力用マイクロホンへの前記非目的音の混入量が大きい場合に特に顕著となる。

一方，ＢＳＳ方式の音源分離処理を用いれば，前記目的音の音源の位置が変化する音響環境や，前記非目的音の音量が比較的大きい音響環境においても，高い精度で前記目的音に対応する前記分離信号を生成することができる。
例えば，ＢＳＳ方式の音源分離処理により得られる前記目的音に対応する前記分離信号をそのまま前記目的音抽出信号として出力することが考えられる。
また，前記拡散雑音環境においては，特許文献５に示される技術により，ＢＳＳ方式の音源分離処理を中間処理として用いて前記目的音抽出信号を生成することが考えられる。

しかしながら，ＢＳＳ方式の音源分離処理に用いられる複数の前記分離対象音響信号は，その各々に前記目的音の音響成分と前記非目的音の音響成分とが適当な音量差を有して混在している必要がある。そのため，目的音抽出処理にＢＳＳ方式の音源分離処理を採用する場合，複数の前記分離対象音響信号を得るための複数のマイクロホンの構造や配置の制約が大きいという問題点があった。
例えば，複数の指向性マイクロホンが各々異なる方向に向けて配置される場合，それら指向性マイクロホン各々に対して本来の指向方向とは異なる方向からの音響を伝播させる空間やピンホール等の音響経路が必要となる。
また，複数の無指向性マイクロホンが配置される場合，それら指向性マイクロホン各々に対して異なる方向から到来する音響に音量差が生じるように，複数の無指向性マイクロホンが広い間隔，例えば，数百ミリメートル以上の間隔を空けて配置される必要がある。この場合も，無指向性マイクロホンの周囲に音響を伝播させる空間が必要となる。
上記のような構造や配置の制約は，カメラ一体型ＶＴＲ装置のように，ごく狭いスペースに複数のマイクロホンを配置しなければならない小型の装置においては，ＢＳＳ方式の音源分離処理の採用に支障をきたすという問題点があった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，入力音響信号を得るための複数のマイクロホンが省スペースかつ簡易な構造で配置されても，特定方向に音源が位置する目的音を前記入力音響信号から高い精度で抽出できる目的音抽出装置及び目的音抽出プログラムを提供することにある。

上記目的を達成するために本発明に係る目的音抽出装置は，３つ以上の無指向性のマイクロホンを通じて逐次得られる３つ以上の入力音響信号に基づいて，所定の目的音の音響信号に相当する目的音抽出信号を逐次生成して出力するものであり，次の（１）及び（２）に示される各構成要素を備えている。
（１）前記目的音について設定された目標方向及びそれ以外の音響について設定された複数の参照方向からなる複数の設定方向各々について，前記入力音響信号各々を当該設定方向からの音響が前記マイクロホン各々に到達する時間のずれに応じた時間調整の後に合成することにより，前記設定方向各々からの音響の成分が強調された強調信号を逐次生成する強調信号生成手段。
（２）前記強調信号を用いたブラインド音源分離方式の音源分離処理を行うことにより，前記目的音抽出信号を逐次生成する目的音抽出信号生成手段。

本発明において，前記入力音響信号を得るための前記マイクロホンの配置構造は，指向性マイクロホンが採用される場合のように，本来の指向方向とは異なる方向からの音響を伝播させる空間やピンホール等の特別な音響経路を必要としない。
本発明に係る目的音抽出装置は，複数の前記マイクロホンが狭いスペースに近接配置された場合でも，前記強調信号生成手段によって複数の前記設定方向各々からの響の成分が強調された複数の前記強調信号を生成する。それら複数の強調信号は，主として前記目標方向から到来する前記目的音の音響成分とそれ以外の前記参照方向から到来する前記非目的音の音響成分とが適当な音量差を有して混在した信号となる。即ち，前記強調信号は，ＢＳＳ方式の音源分離処理に用いられる音響信号として好適な信号である。
従って，前記強調信号を用いたＢＳＳ方式の音源分離処理を行うことによって前記目的音抽出信号を生成する前記目的音抽出信号生成手段により，主として前記目標方向から到来する目的音を，前記入力音響信号から高い精度で抽出することができる。
前記目的音抽出信号生成手段は，例えば，ＢＳＳ方式の音源分離処理により得られる前記目的音に対応する前記分離信号をそのまま前記目的音抽出信号として出力することが考えられる。
また，前記拡散雑音環境においては，前記目的音抽出信号生成手段が，特許文献５に示されるように，ＢＳＳ方式の音源分離処理を中間処理として用いて前記目的音抽出信号を生成することも考えられる。

ところで，本発明に係る目的音抽出装置において，前記目標方向と複数の前記参照方向各々との差異が小さいほど，前記目的音抽出信号生成手段におけるＢＳＳ方式の音源分離処理により，前記目標方向を含むより狭い範囲から到来する音響のみが，前記目的音に対応する前記分離信号として生成される。即ち，本発明に係る目的音抽出装置は，前記目標方向と複数の前記参照方向各々との差異が小さいほど，前記目的音の抽出方向の指向性が鋭くなる。前記目的音の音量に対する前記非目的音の音量が比較的大きい場合には，前記目的音の抽出性能を確保するために，前記目的音に対する指向性を鋭くすることが有効である。また，カメラ一体型ＶＴＲ装置において，ズームアップの倍率が高い場合には，遠くに存在する被写体が発する低音量の前記目的音を明瞭に抽出するため，前記目的音に対する指向性を鋭くすることが有効である。
一方，本発明に係る目的音抽出装置は，前記目標方向と複数の前記参照方向各々との差異が大きいほど，前記目的音の抽出方向の指向性が緩やかになる。
前記目的音の音量に対する前記非目的音の音量が比較的小さい場合には，前記目的音の音源の位置が多少変化しても，その目的音を確実に捉えた前記目的音抽出信号を生成するために，前記目的音に対する指向性を緩やかにすることが有効である。また，カメラ一体型ＶＴＲ装置において，ズームアップの倍率が低い場合には，広角の範囲内に存在する被写体全体が発する前記目的音を抽出するため，前記目的音に対する指向性を緩やかにすることが有効である。

そこで，本発明に係る目的音抽出装置が，さらに，次の（３）に示される構成要素を備えれば好適である。
（３）前記目標方向に対する複数の前記参照方向を可変に設定する参照方向設定手段。
これにより，複数の前記マイクロホンの配置状態を変更することなく，前記目的音に対する指向性を調節できる。
また，本発明に係る目的音抽出装置が，さらに，次の（４）に示される構成要素を備えるとともに，前記参照方向設定手段が，（５）に示される処理を実行することが考えられる。
（４）前記参照方向から前記マイクロホンに到来する音響の音量を検出する非目的音音量検出手段。
（５）前記参照方向設定手段が，前記非目的音音量検出手段の検出結果に応じて前記目標方向を基準とする複数の前記参照方向を自動設定する。
これにより，前記非目的音の音量に応じて前記目的音に対する指向性が適切に自動設定される。
また，前記参照方向設定手段が，所定の操作部を通じた操作入力に応じて前記参照方向を設定することも考えられる。
前記操作部とは，例えば，カメラ一体型ＶＴＲ装置におけるズームアップの倍率設定用の操作レバー等である。

また，本発明に係る目的音抽出装置において，前記目的音抽出信号生成手段における前記ブラインド音源分離方式での音源分離処理が，独立成分分析法に基づくブラインド音源分離方式での音源分離処理であることが考えられる。
即ち，前記目的音抽出信号生成手段が，次の（２−１）及び（２−２）に示される各構成要素を備えることが考えられる。
（２−１）前記強調信号を用いた独立成分分析法に基づくブラインド音源分離方式での音源分離処理における分離行列の学習計算を行う分離行列学習手段。
（２−２）逐次入力される前記強調信号に対し前記分離行列学習手段により随時得られる学習後の分離行列を用いたフィルタ処理を施すことによって複数の音源からの音響それぞれに対応する分離信号を逐次生成する分離フィルタ処理手段。
そして，前記目的音抽出信号生成手段は，前記分離信号に基づいて前記目的音抽出信号を逐次生成する。
例えば，前記目的音抽出信号生成手段が，前記目標方向の音源に対応する前記分離信号をそのまま前記目的音抽出信号とすることが考えられる。
その他，前記目的音抽出信号生成手段が，特許文献５に示されるように，独立成分分析法に基づくブラインド音源分離方式での音源分離処理を中間処理として用いて前記目的音抽出信号を生成することも考えられる。

また，前記目的音抽出信号生成手段が，独立成分分析法に基づくブラインド音源分離方式での音源分離処理を行う場合，本発明に係る目的音抽出装置が，次の（６）及び（７）に示される各構成要素を備えることが考えられる。
（６）前記分離行列学習手段により随時得られる学習後の分離行列に基づいて前記目的音の音源の方向の推定値を算出する目的音源方向算出手段。
（７）前記目的音源方向算出手段の算出結果に応じて前記目標方向を自動設定する目標方向設定手段。
これにより，前記目的音の音源が移動する場合でも，その音源の移動に追従して前記目標方向が自動設定されるため，前記目的音を確実に捉えた前記目的音抽出信号を生成することができる。
また，本発明は，以上に示した本発明に係る目的音抽出装置における各構成要素が実行する処理を，コンピュータ（プロセッサ）に実行させる目的音抽出プログラムとして捉えることもできる。

本発明によれば，入力音響信号を得るための複数のマイクロホンが省スペースかつ簡易な構造で配置されても，特定方向に音源が位置する目的音を前記入力音響信号から高い精度で抽出することができる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
以下，添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の実施形態に係る目的音抽出装置Ｘの概略構成を表すブロック図，図２は目的音抽出装置Ｘに採用し得る第１例の目的音抽出信号生成部Ｑ１の構成を表すブロック図，図３は目的音抽出装置Ｘに採用し得る第２例の目的音抽出信号生成部Ｑ２の構成を表すブロック図，図４は目的音抽出装置Ｘに採用し得る第３例の目的音抽出信号生成部Ｑ３の構成を表すブロック図，図５は目的音抽出装置Ｘに採用し得る第４例の目的音抽出信号生成部Ｑ４の構成を表すブロック図，図６は目的音抽出装置Ｘにおけるマイクロホンの第１の配置例を表す図，図７は目的音抽出装置Ｘにおけるマイクロホンの第２の配置例を表す図，図８は目的音抽出装置Ｘにおける強調信号の指向性の第１の例を表す収音利得分布の模式図，図９は目的音抽出装置Ｘ全体の収音の指向性の第１の例を表す収音利得分布の模式図，図１０は目的音抽出装置Ｘにおける強調信号の指向性の第２の例を表す収音利得分布の模式図，図１１は目的音抽出装置Ｘ全体の収音の指向性の第２の例を表す収音利得分布の模式図，図１２は目的音抽出装置Ｘにおける強調信号の指向性の第３の例を表す収音利得分布の模式図，図１３は目的音抽出装置Ｘ全体の収音の指向性の第３の例を表す収音利得分布の模式図，図１４は目的音抽出装置Ｘ全体の収音利得分布の一例，図１５はＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ａの概略構成を表すブロック図である。

以下，図１に示されるブロック図を参照しつつ，本発明の実施形態に係る目的音抽出装置Ｘについて説明する。
なお，図１において，図１５に示される符号と同じ符号が付されている構成要素は，前記音源分離装置Ａが備える構成要素と同じものである。
前記目的音抽出装置Ｘは，３つ以上の無指向性のマイクロホン１１１，１１２，１１３を通じて逐次得られる３つ以上の入力音響信号ｘ0k（ｋ＝１，２，３，…）に基づいて，所定の目的音源１が発する目的音の音響信号に相当する目的音抽出信号ｙoを逐次生成して出力する装置である。
前記目的音は，予め設定される前記マイクロホン１１１，１１２，１１３の位置を基準とする目標方位Ｒ１に存在する音源が発する音響である。
本実施形態においては，３つの前記マイクロホン１１１〜１１３を通じて得られる３つの入力音響信号ｘk（ｋ＝１，２，３）に基づいて前記目的音抽出信号ｙoを生成する場合の例を示す。
以下，３つのマイクロホン１１１〜１１３のうちの代表する１つのマイクロホンを主マイクロホン１１２，その主マイクロホン１１２を通じて得られる入力音響信号を主音響信号ｘ02と称する。一方，前記主マイクロホン１１２以外の残りのマイクロホンを副マイクロホン１１１，１１３，その副マイクロホン１１１，１１３を通じて得られる入力音響信号を副音響信号ｘ01，ｘ03と称する。
例えば，前記主マイクロホン１１２は，複数の前記マイクロホン１１１〜１１３の中で中央の位置に配置されたマイクロホンである。
また，図１において，(ｔ)は時間領域の信号であることを表し， (ｆ)は周波数領域の信号であることを表している。また，ｆは周波数ビンである。
３つの前記マイクロホン１１１〜１１３は，それぞれわずかに異なる位置に配置されている。

図１に示されるように，前記目的音抽出装置Ｘは，前記音源分離装置Ａと同様に，図中においてＡＤＣと表記されている前記Ａ／Ｄコンバータ１２，前記ＤＦＴ処理部１３，前記ＩＤＦＴ処理部１４，図中においてＤＡＣと表記されている前記Ｄ／Ａコンバータ１５等を備えている。
さらに，前記目的音抽出装置Ｘは，前記入力音響信号ｘ01〜ｘ03と同数の信号強調部１７，目的音抽出信号生成部Ｑ，非目的音音量検出部４１，目的音方位検出部４２及び指向性制御部４３も備えている。

前記目的音抽出装置Ｘにおいて，前記信号強調部１７，前記ＤＦＴ処理部１３，前記ＩＤＦＴ処理部１４，前記目的音抽出信号生成部Ｑ，前記非目的音音量検出部４１，前記目的音方位検出部４２及び前記指向性制御部４３などの演算処理部は，例えば，ＤＳＰ（Digital Signal Processor）等の演算用のプロセッサと，そのプロセッサにより実行されるプログラムが記憶されたＲＯＭ等のメモリと，その他の周辺デバイスにより実現される。或いは，前記演算処理部は，その各々が行う処理に対応するプログラムモジュールを実行するコンピュータとして実現されることも考えられる。また，前記演算処理部の処理を所定のコンピュータやＤＳＰに実行させる音源分離処理プログラムが，本発明の実施品として提供されることも考えられる。

前記Ａ／Ｄコンバータ１２は，アナログの前記入力音響信号を所定のサンプリング周期でサンプリングすることにより，デジタルの前記入力音響信号ｘ0k(ｔ)に変換する。
前記信号強調部１７は，前記入力音響信号ｘ0k(ｔ)と同数の設定方位Ｒ１，Ｒ２１，Ｒ２２各々について，その設定方位Ｒ１，Ｒ２１，Ｒ２２各々からの音響の成分が強調された強調信号を逐次生成する。ここで，前記信号強調部１７は，複数の前記設定方位Ｒ１，Ｒ２１，Ｒ２２各々について，前記入力音響信号ｘ01(ｔ)〜ｘ03(ｔ)各々を当該設定方位からの音響が前記マイクロホン１１１〜１１３各々に到達する時間のずれに応じた時間調整の後に合成する処理を実行する。即ち，前記信号強調部１７は，前記マイクロホン１１１〜１１３の位置の違いに基づくいわゆる遅延加算処理を行うことによって前記設定方位Ｒ１，Ｒ２１，Ｒ２２各々からの音響を強調した前記強調信号を生成する。これにより，前記設定方位Ｒ１，Ｒ２１，Ｒ２２各々からの音響の成分が強調された強調信号が生成される。なお，前記設定方位Ｒ１，Ｒ２１，Ｒ２２には，前記目的音に対応する前記目標方位Ｒ１と，それ以外の方向に対応する複数の参照方位Ｒ２１，Ｒ２２とが含まれる。

図６は，３つの前記マイクロホン１１１〜１１３の第１の配置例を表す図である。この第１の配置例では，３つの前記マイクロホン１１１〜１１３が，所定の基準方向である角度０°の方向に対して直交する方向に沿って一列に並べられている。この第１の配置例において，前記設定方位Ｒ１，Ｒ２１，Ｒ２２が，前記基準方向に対してなす角度θによって表されるものとする。また，前記マイクロホン１１１〜１１３の配列番号（マイクインデックス）をｋ，前記マイクロホン１１１〜１１３の配置間隔をｄ，前記マイクロホン１１１〜１１３の総数をＭ，音速をｃとする。なお，Ｍは前記入力音響信号ｘ0k(ｔ)の数でもある。
前記第１の配置例の場合，前記信号強調部１７は，角度θの前記設定方位から到来する音響の成分が強調された強調信号ｘ(ｔ)を，次の（Ａ１）式に基づく処理を実行することによって導出できる。なお，（Ａ１）式におけるτkは，角度θの前記設定方位から到来する音響が，基準となる１番目のマイクロホン１１１とｋ番目のマイクロホンとのそれぞれに到達する時間の差（遅延時間）を表す。

また，図７は，３つの前記マイクロホン１１１〜１１３の第２の配置例を表す図である。この第２の配置例では，１つの前記主マイクロホン１１２の位置を中心とする半径ｄの円周上にその他の前記副マイクロホン１１１，１１３が配置されている。この第２の配置例において，前記設定方位Ｒ１，Ｒ２１，Ｒ２２が，所定の基準方向である０°の方向に対してなす角度θによって表されるものとする。また，前記基準方向に直交し，円の中心位置である前記主マイクロホン１１２の位置を通る直線と，前記主マイクロホン１１２と前記副マイクロホン１１１，１１３それぞれとを結ぶ線分とがなす角度がθＭ１，θＭ３であるとする。また，前記マイクロホン１１１〜１１３の番号（マイクインデックス）をｋ，前記主マイクロホン１１２とｋ番目のマイクロホンとの距離をｄ_k，前記マイクロホン１１１〜１１３の総数をＭ，音速をｃとする。なお，Ｍは前記入力音響信号ｘ0k(ｔ)の数でもある。
前記第２の配置例の場合，前記信号強調部１７は，角度θの前記設定方位から到来する音響の成分が強調された強調信号ｘ(ｔ)を，次の（Ａ２）式に基づく処理を実行することによって導出できる。

なお，前記信号強調部１７の処理は，周波数領域の音響信号の位相を調整する処理によっても実現可能である。

図８，図１０及び図１２は，前記目標方位Ｒ１及び前記参照方位Ｒ２１，Ｒ２２に応じて前記信号強調部１７により生成される３つの前記強調信号ｘ1(ｔ)〜ｘ3(ｔ)それぞれの指向性を表す収音利得分布の模式図である。
ここで，図８は，前記目標方位Ｒ１が０°の方向，一方の前記参照方位Ｒ２１が＋９０°の方向，他方の前記参照方位Ｒ２２が−９０°の方向である第１の例である。また，図１０は，前記目標方位Ｒ１が０°の方向，一方の前記参照方位Ｒ２１が＋４５°の方向，他方の前記参照方位Ｒ２２が−４５°の方向である第２の例である。また，図１２は，前記目標方位Ｒ１が２０°の方向，一方の前記参照方位Ｒ２１が＋１１０°の方向，他方の前記参照方位Ｒ２２が−７０°の方向である第３の例である。
図８，図１０及び図１２に示されるように，３つの前記マイクロホン１１１〜１１３は無指向性のマイクロホンであるが，前記信号強調部１７により生成される３つの前記強調信号ｘ1(ｔ)〜ｘ3(ｔ)は，前記設定方位Ｒ１，Ｒ２１，Ｒ２２それぞれの方向に比較的緩やかな指向性を有する音響信号となる。
即ち，前記目標方位Ｒ１の音響成分が強調された前記強調信号ｘ2(ｔ)は，前記目標方位Ｒ１から到来する前記目的音の音響成分を主成分とし，それ以外の前記参照方向Ｒ２１，Ｒ２２から到来する非目的音の音響成分が適当な音量差を有して混在した音響信号となる。
また，前記参照方位Ｒ２１，Ｒ２２の音響成分が強調された前記強調信号ｘ1(ｔ)，ｘ3(ｔ)は，前記参照方位Ｒ２１，Ｒ２２それぞれから到来する非目的音の音響成分を主成分とし，前記目標方向Ｒ１から到来する前記目的音の音響成分が適当な音量差を有して混在した音響信号となる。
従って，前記強調信号ｘ1(ｔ)〜ｘ3(ｔ)は，ＢＳＳ方式の音源分離処理における前記分離対象音響信号として用いられるのに好適な音響信号である。
そこで，前記目的音抽出装置Ｘは，前記強調信号ｘ1(ｔ)〜ｘ3(ｔ)をＩＣＡ−ＢＳＳ方式の音源分離処理における前記分離対象音響信号として用いる。

前記ＤＦＴ処理部１３は，入力される時間領域の前記強調信号ｘj(ｔ)に対して離散フーリエ変換処理を行うことによって周波数領域の前記強調信号ｘj(ｆ)へ変換する処理を逐次実行する。その周波数領域の前記強調信号ｘj(ｆ)は，前記目的音抽出信号生成部Ｑにおいて，ＩＣＡ−ＢＳＳ方式の音源分離処理における前記分離対象音響信号として用いられる。

前記目的音抽出信号生成部Ｑは，前記強調信号ｘj(ｆ)を用いたＩＣＡ−ＢＳＳ方式の音源分離処理を行うことにより，前記目的音抽出信号ｙo(ｆ)を逐次生成する。
前記目的音抽出信号生成部Ｑの具体例は種々考えられるが，以下，図２〜図５を順次参照しつつ，前記目的音抽出装置Ｘに採用し得る４種類の目的音抽出信号生成部Ｑ１〜Ｑ４それぞれについて説明する。なお，図２〜図５において，図１５に示される符号と同じ符号が付されている構成要素は，前記音源分離装置Ａが備える構成要素と同じものである。
以下，前記目標方位Ｒ１の音響の成分が強調された前記強調信号ｘ1(ｆ)を目標方位強調信号ｘ1(ｆ)と称し，前記参照方位Ｒ２１，Ｒ２２２それぞれの音響の成分が強調された前記強調信号ｘ1(ｆ)，ｘ3(ｆ)を参照方位強調信号ｘ1(ｆ)，ｘ3(ｆ)と称する。

図２は，第１例の目的音抽出信号生成部Ｑ１の構成を表すブロック図である。
図２に示されるように，前記目的音抽出信号生成部Ｑ１は，前記音源分離装置Ａと同様に，前記信号バッファ１６，前記分離フィルタ処理部２１及び前記学習演算部２２等を備えている。
但し，前記目的音抽出信号生成部Ｑ１は，前記目標方位強調信号ｘ2(ｆ)と前記参照方位強調信号ｘ1(ｆ)，ｘ3(ｆ)一つ一つとの組合せごとに，前記分離フィルタ処理部２１及び前記学習演算部２２からなる分離信号逐次生成部Ｖを備えている。図２には，前記目的音抽出信号生成部Ｑ１が，前記目標方位強調信号ｘ2(ｆ)と一方の前記参照方位強調信号ｘ1(ｆ)との組合せを前記分離対象音響信号とする分離信号逐次生成部Ｖａと，前記目標方位強調信号ｘ2(ｆ)と他方の前記参照方位強調信号ｘ3(ｆ)との組合せを前記分離対象音響信号とする分離信号逐次生成部Ｖｂとを備える例が示されている。
さらに，前記目的音抽出信号生成部Ｑ１は，信号合成部３１及びスペクトル減算部３２も備えている。

前記目的音抽出信号生成部Ｑ１において，前記分離フィルタ処理部２１，前記学習演算部２２，前記信号合成部３１及び前記スペクトル減算部３２などの演算処理部は，例えば，ＤＳＰ（Digital Signal Processor）等の演算用のプロセッサと，そのプロセッサにより実行されるプログラムが記憶されたＲＯＭ等のメモリと，その他の周辺デバイスにより実現される。或いは，前記演算処理部は，その各々が行う処理に対応するプログラムモジュールを実行するコンピュータとして実現されることも考えられる。また，前記演算処理部の処理を所定のコンピュータやＤＳＰに実行させる音源分離処理プログラムが，本発明の実施品として提供されることも考えられる。

前記ＤＦＴ処理部１３によって得られた周波数領域の分離対象音響信号である前記強調信号ｘj(ｆ)は，前記信号バッファ１６に一時記憶される。
また，前記分離信号逐次生成部Ｖａ，Ｖｂそれぞれにおいて，前記学習演算部２２は，前記信号バッファ２２に随時一時蓄積される前記目標方位強調信号ｘ2(ｆ)と前記参照方位音響信号ｘ1(ｆ)，ｘ3(ｆ)各々との組合せごとに，その信号を用いて，ＦＤＩＣＡ−ＢＳＳ方式の音源分離処理における前記分離行列Ｗ(ｆ)の学習計算を行う。この学習計算により得られる分離行列Ｗ(ｆ)が，前記分離フィルタ処理部２１で用いられる分離行列として設定される。
また，前記学習演算部２２は，逐次入力される新たな前記強調信号ｘj(ｆ)に基づいて前記学習計算を随時実行し，前記分離フィルタ処理部２１で用いられる前記分離行列Ｗ(ｆ)を随時更新する。

また，前記分離信号逐次生成部Ｖａ，Ｖｂそれぞれにおいて，前記分離フィルタ処理部２１は，逐次入力される前記強調信号ｘj(ｆ)に対し，前記分離行列Ｗ(ｆ)を用いた行列演算を行うことによってフィルタ処理を施す。そして，前記分離フィルタ処理部２１は，そのフィルタ処理によって前記目的音に相当する目的音分離信号ｙ1a(ｆ)，ｙ1b(ｆ)と，前記非目的音に相当する非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)とを逐次生成する。
このように，前記分離フィルタ処理部２１は，逐次入力される前記強調信号ｘj(ｆ)に対し前記学習演算部２２により随時得られる学習後の分離行列Ｗ(ｆ)を用いたフィルタ処理を施すことによって複数の音源からの音響それぞれに対応する分離信号ｙ1a(ｆ)，ｙ1b(ｆ)，ｙ2a(ｆ)，ｙ2b(ｆ)を逐次生成する。
また，前記目的音抽出信号生成部Ｑ１における前記分離信号逐次生成部Ｖａ，Ｖｂは，前記目標方位強調信号ｘ2(ｆ)と前記参照方位強調信号ｘ1(ｆ)，ｘ3(ｆ)各々との組合せごとに，前記目的音分離信号ｙ1a(ｆ)，ｙ1b(ｆ)及び前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)の生成を行う。
そして，前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)は，前記非目的音音量検出部４１に伝送され，前記非目的音の音量検出に用いられる。
また，前記学習演算部２２により得られた学習後の分離信号Ｗ(ｆ)は，前記目的音方位検出部４２に伝送され，前記目的音の音源の方向の推定値θpの算出に用いられる。

また，前記信号合成部３１は，前記分離信号逐次生成部Ｖａ，Ｖｂにより生成される複数の前記目的音分離信号ｙ1a(ｆ)，ｙ1b(ｆ)を合成した１つの合成信号を生成し，その合成信号を代表の目的音分離信号ｙ1'(ｆ)として後段へ出力する。
例えば，前記信号合成部３１は，複数の前記目的音分離信号ｙ1a(ｆ)，ｙ1b(ｆ)のパワースペクトルにおける周波数ビンごとのパワーの平均値を求めることによって信号の合成を行う。
また，前記スペクトル減算部３２は，前記信号合成部３１によって逐次生成される代表の前記目的音分離信号ｙ1'(ｆ)のスペクトルから，前記分離信号逐次生成部Ｖａ，Ｖｂにより逐次生成される前記非目的音分離信号ｙ2a，ｙ2bのスペクトルを減算するスペクトル減算処理を行う。
そして，前記目的音抽出信号生成部Ｑ１は，前記スペクトル減算部３２の処理により得られる信号を，前記目的音抽出信号ｙo(ｆ)として後段へ出力する。
なお，スペクトル減算処理において，前記目的音抽出信号ｙo(ｆ)に相当する処理後の信号のスペクトル値と，代表の前記目的音分離信号ｙ1'(ｆ)に相当する減算される側の信号のスペクトル値と，前記非目的音分離信号ｙ2a，ｙ2bに相当する減算する側の信号のスペクトル値との関係は，例えば，次の（Ｃ１）式により表される。

（Ｃ１）式において，減算する側の信号のスペクトル値は，例えば，複数の前記非目的音分離信号ｙ2a，ｙ2bそれぞれのスペクトル値の平均値や所定の重み係数に基づく加重平均値などである。また，（Ｃ１）式において，抑圧係数βは一般に０に設定される。

以上に示した前記目的音抽出信号生成部Ｑ１によれば，ＩＣＡ−ＢＳＳ方式の音源分離処理により得られた前記目的音分離信号ｙ1'(ｆ)から，さらに，前記非目的音に相当する前記非目的音分離信号ｙ2a，ｙ2bの成分が除去される。その結果，前記目的音抽出信号生成部Ｑ１は，前記目標方位Ｒ１に音源が位置する前記目的音を前記強調信号ｘj(ｆ)から高い精度で抽出することができる。
なお，前記目的音抽出信号生成部Ｑ１における代表の前記目的音分離信号ｙ1'(ｆ)をそのまま前記目的音抽出信号ｙo(ｆ)とすることも考えられる。

続いて，図３を参照しつつ，第２例の目的音抽出信号生成部Ｑ２について説明する。図３は，前記目的音抽出信号生成部Ｑ２の構成を表すブロック図である。
前記目的音抽出信号生成部Ｑ２は，前記目的音抽出信号生成部Ｑ１の一部を改変したものであり，その基本的な特徴部分及び効果は，前記目的音抽出信号生成部Ｑ１同様である。以下，前記目的音抽出信号生成部Ｑ２について，前記目的音抽出信号生成部Ｑ１と異なる部分についてのみ説明する。なお，図３において，図２に示される構成要素と同じ構成要素については，同じ符号が付されている。
前記目的音抽出信号生成部Ｑ２が，前記目的音抽出信号生成部Ｑ１と異なる部分は，逐次入力される前記強調信号ｘj(ｆ)に対し，ＩＣＡ−ＢＳＳ方式の音源分離処理を施して前記目的音分離信号ｙ1(ｆ)と前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)とを逐次生成する分離信号逐次生成処理を行う部分である。
即ち，目的音抽出装置Ｘ２は，逐次入力される１つの前記目標方位強調信号ｘ2(ｆ)及び全ての前記参照方位強調信号ｘ1 (ｆ)，ｘ3(ｆ)からなる分離対象音響信号にＩＣＡ−ＢＳＳ方式の音源分離処理を施す分離信号逐次生成部Ｖ’を備えている。この分離信号逐次生成部Ｖ’は，１組の前記目的音分離信号ｙ1(ｆ)及び前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)を逐次生成する。
従って，前記目的音抽出信号生成部Ｑ２は，前記信号合成部３１を備えていない。そして，前記目的音抽出信号生成部Ｑ２における前記スペクトル減算部３２は，前記分離信号逐次生成部Ｖ’により生成される前記目的音分離信号ｙ1(ｆ)と前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)との間でスペクトル減算処理を行って前記目的音抽出信号ｙo(ｆ)を生成する。
以上に示した前記目的音抽出信号生成部Ｑ２も，前記目的音抽出信号生成部Ｑ１と同様の作用効果を発揮する。
なお，前記目的音抽出信号生成部Ｑ２における前記目的音分離信号ｙ1(ｆ)をそのまま前記目的音抽出信号ｙo(ｆ)とすることも考えられる。

次に，図４を参照しつつ，第３例の目的音抽出信号生成部Ｑ３について説明する。図４は，前記目的音抽出信号生成部Ｑ３の構成を表すブロック図である。
前記目的音抽出信号生成部Ｑ３は，前記目的音抽出信号生成部Ｑ１の一部を改変したものであり，その基本的な特徴部分及び効果は，前記目的音抽出信号生成部Ｑ１と同様である。以下，前記目的音抽出信号生成部Ｑ３について，前記目的音抽出信号生成部Ｑ１と異なる部分についてのみ説明する。なお，図４において，図２に示される構成要素と同じ構成要素については，同じ符号が付されている。
前記目的音抽出信号生成部Ｑ３が，前記目的音抽出信号生成部Ｑ１と異なる点は，前記スペクトル減算部３２が，前記目標方位強調信号ｘ2(ｆ)と前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)との間でスペクトル減算処理を行う点である。
前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)は，前記目的音の信号成分が除去された音響信号であるため，前記目標方位強調信号ｘ2(ｆ)のスペクトルから前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)のスペクトルを減算すれば，前記目的音が抽出された音響信号が得られる。
以上に示した前記目的音抽出信号生成部Ｑ３も，前記目的音抽出信号生成部Ｑ１と同様の作用効果を発揮する。

次に，図５を参照しつつ，第４例の目的音抽出信号生成部Ｑ４について説明する。図５は，前記目的音抽出信号生成部Ｑ４の構成を表すブロック図である。
前記目的音抽出信号生成部Ｑ４は，前記目的音抽出信号生成部Ｑ１の一部を改変したものである。以下，前記目的音抽出信号生成部Ｑ４について，前記目的音抽出信号生成部Ｑ１と異なる部分についてのみ説明する。なお，図５において，図２に示される構成要素と同じ構成要素については，同じ符号が付されている。
前記目的音抽出信号生成部Ｑ４が，前記目的音抽出信号生成部Ｑ１と異なる点は，前記信号合成部３１及び前記スペクトル減算部３２の代わりにスペクトル近似信号抽出部３３が設けられ，そのスペクトル近似信号抽出部３３により得られる音響信号が，前記目的音抽出信号ｙo(ｆ)として後段へ出力される点である。
前記目的音抽出信号生成部Ｑ４において，前記スペクトル近似信号抽出部３３も，例えばＤＳＰ及びそのＤＳＰにより実行されるプログラムが記憶されたＲＯＭ，或いはＡＳＩＣ等により具現化される。この場合，そのＲＯＭには，前記スペクトル近似信号抽出部３３が行う処理を前記ＤＳＰに実行させるためのプログラムが予め記憶されている。

前記スペクトル近似信号抽出部３３は，前記分離信号逐次生成部Ｖａ，Ｖｂによって生成された複数の前記目的音分離信号ｙ1a(ｆ)，ｙ1b(ｆ)について，周波数ビンごとの信号成分のうち，その信号成分が前記目的音分離信号ｙ1a(ｆ)，ｙ1b(ｆ)相互間で所定の近似条件を満たすものを抽出することにより，複数の前記目的音分離信号ｙ1a(ｆ)，ｙ1b(ｆ)から前記目的音に相当する前記目的音抽出信号ｙo(ｆ)を生成する。
例えば，前記スペクトル近似信号抽出部３３は，複数の前記目的音分離信号ｙ1a(ｆ)，ｙ1b(ｆ)について，周波数ビンごとにそれらの信号成分のレベル（パワー）を比較し，そのレベルの比や差が予め定められた範囲内にあるという前記近似条件を満たす場合に，それらの信号成分のいずれか１つを選択する，又はそれらの信号成分を合成する（例えば平均値や最小値を算出する）ことによって前記目的音抽出信号ｙo(ｆ)を生成する。
以上に示した前記目的音抽出信号生成部Ｑ４も，前記目的音抽出信号生成部Ｑ１と同様の作用効果を発揮する。

次に，図１に示される前記非目的音音量検出部４１，前記目的音方位検出部４２及び前記指向性制御部４３それぞれについて順次説明する。
前記非目的音音量検出部４１は，前記参照方向Ｒ２１，Ｒ２２から前記マイクロホン１１１〜１１３に到来する前記非目的音の音量ｖrを検出する処理を実行する。
前記目的音抽出装置Ｘにおいては，前記非目的音音量検出部４１は，前記分離信号逐次生成部Ｖによって得られた前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)に基づいてその音量ｖrを検出する。その際，前記非目的音音量検出部４１は，前記前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)それぞれの音量ｖrを個別に検出し，それらを前記参照方向Ｒ２１，Ｒ２２それぞれの方向における音量として検出す。
なお，前記音量ｖrは，例えば，前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)のパワースペクトルにおけるパワーの平均値等である。
その他，前記非目的音音量検出部４１が，前記参照方向強調信号ｘ1(ｆ)，ｘ3(ｆ)それぞれの音量を前記非目的音の音量ｖrとして検出することも考えられる。また，前記目的音抽出装置Ｘが，前記非目的音の音量ｖrを検出するための指向性マイクロホンを別途備えることも考えられる。

ところで，前記目的音抽出信号生成部Ｑは，前述したように，ＩＣＡ−ＢＳＳ方式の音源分離処理における分離行列Ｗ(ｆ)の学習計算を行う前記学習演算部２２を備えている。その学習演算部２２は，図１５に示される前記音源分離装置Ａが備える前記学習演算部２２と同じものである。
そして，前記目的音方位検出部４２は，前記目的音抽出信号生成部Ｑが備える前記学習演算部２２により随時得られる学習後の分離行列Ｗ(ｆ)に基づいて，前記目的音の音源の方向の推定値θpを算出する。
前記ＩＣＡ−ＢＳＳ方式の音源分離処理の学習計算により得られる分離行列Ｗ (ｆ)は，前記マイクロホン１１１〜１１３の位置を基準にした各音源の方向からの音響に相当する音響成分を減衰させるフィルタ係数に相当する行列値が設定された行列である。
また，前記分離行列Ｗ(ｆ)を次の（Ｄ１）式に適用することにより，音響の周波数ｆ及び収音方向θに応じて変化するフィルタの利得Ｇを導出する関数Ｆ_l（ｆ，θ)が得られることが知られている。

（Ｄ１）式において，添字のｋはマイクロホンの識別番号（ｋ＝１，２，３），添字のｌは分離フィルタの識別番号（ｌ＝１，２，３），ｆは周波数ビン，ｆの添字ｍは周波数ビンの識別番号（ｍ＝１，２，３）である。また，Ｗlk^(ICA)(ｆ)は，複数の行列からなる前記分離行列Ｗ(ｆ)におけるｌ番目の分離フィルタ及びｋ番目のマイクロホンの組合せに対応する行列である。また，ｃは音速，ｄ_kは複数の前記マイクロホン１１１〜１１３の中心位置から各マイクロホン１１１〜１１３までの距離，θは複数の前記マイクロホン１１１〜１１３の中心位置からみた収音方向である。ここで，ｋは，前記強調信号の識別番号ｊと一致している。また，分離フィルタの識別番号ｌの数は，マイクロホンの識別番号ｋの数と同数である。
そして，前記目的音方位検出部４２は，次の（Ｄ２）式で表される処理を実行し，周波数ビンごとにフィルタ利得を最小化するθp(ｆm)を算出する。

さらに，前記目的音方位検出部４２は，周波数ビンごとに計算されたθp(ｆm)について，全周波数ビンの範囲で平均値を計算し，その平均値を前記目的音の音源の方向の推定値θpとして算出する。

また，前記指向性制御部４３は，以下に示す２つの処理を実行する。
前記指向性制御部４３が実行する第１の処理は，前記非目的音音量検出部４１の検出結果ｖrに応じて，前記目標方位Ｒ１を基準とする複数の前記参照方位Ｒ２１，Ｒ２２それぞれを自動設定する処理である。以下，この処理のことを，参照方位自動設定処理と称する。
また，前記指向性制御部４３が実行する第２の処理は，前記目的音方位検出部４２により算出された前記目的音の音源の方向の推定値θpに応じて，前記目標方位Ｒ１を自動設定する処理である。以下，この処理のことを目標方位自動設定処理と称する。

以下，図１４を参照しつつ，前記目的音抽出装置Ｘの指向性の評価結果について説明する。図１４は，以下に示す実験によって前記目的音抽出装置Ｘにより得られる前記目的音抽出信号ｙo(ｔ)から，前記目的音の音源の方向とその目的音の抽出感度（単位ｄＢ）との関係を表したグラフである。ここで，前記目標方位Ｒ１は０°の方向であり，前記参照方位Ｒ２１，Ｒ２２はそれぞれ＋９０°及び−９０°の方向である。なお，参考として，図１４には前記マイクロホン１１１〜１１３自体の指向性も示されている。
図１４からわかるように，前記マイクロホン１１１〜１１３自体の指向性が非常に緩やかなものであるにもかかわらず，前記目的音抽出装置Ｘにおいては，前記目標方向Ｒ１を中心としたごく狭い範囲で高いＮＲＲが得られる。一方，前記目的の音源が前記目標方位Ｒ１と前記参照方位Ｒ２１，Ｒ２２それぞれとの中間の方向（±４５°）を境界とする範囲から外れると，急激にＮＲＲが低下する。
このように，前記マイクロホン１１１〜１１３が無指向性のマイクロホンであっても，前記目的音抽出装置Ｘとしては非常に急峻な指向性を有する音響入力装置として機能する。そして，前記目標方位Ｒ１と前記参照方位Ｒ２１，Ｒ２２との差が小さいほど，前記目的音抽出装置Ｘの指向性はより急峻となる。

図９，図１１及び図１３は，前記目標方位Ｒ１及び前記参照方位Ｒ２１，Ｒ２２に応じて定まる前記目的音抽出装置Ｘの指向性を表す収音利得分布の模式図である。なお，図９，図１１及び図１３に示される例は，それぞれ図８，図１０及び図１２に示された第１の例乃至第３の例に相当する。
図９及び図１１に示されるように，前記目標方位Ｒ１と前記参照方位Ｒ２１，Ｒ２２との差が小さいほど，前記目的音抽出装置Ｘの指向性はより急峻となる。
また，図９及び図１３に示されるように，前記目標方位Ｒ１と前記参照方位Ｒ２１，Ｒ２２との相対的な関係を維持しながら前記目標方位Ｒ１を変化させれば，前記目的音抽出装置Ｘの指向性は，指向方向全体が前記目標方位Ｒ１の変化に応じて変化する。
このように，前記目的音抽出装置Ｘにおいては，前記目標方位Ｒ１と前記参照方位Ｒ２１，Ｒ２２との差異の大きさを調整することにより，指向性の急峻さを調整できる。また，前記目的音抽出装置Ｘにおいては，前記目標方位Ｒ１と前記参照方位Ｒ２１，Ｒ２２との相対的な関係を維持しつつ，前記目標方位Ｒ１を調整することにより，収音の指向方向を調整できる。

そこで，前記指向性制御部４３は，前記参照方位自動設定処理を例えば以下のように実行する。
即ち，前記指向性制御部４３は，前記非目的音音量検出部４１により検出された前記非目的音の音量ｖrが大きいほど，前記目標方位Ｒ１に対する複数の前記参照方位Ｒ２１，Ｒ２２それぞれの差異が小さくなるように自動設定する。これにより，前記非目的音の音量が大きい場合に，前記目的音に対する前記目的音抽出装置Ｘの指向性が鋭くなり，前記非目的音の音響成分が十分に除去された前記目的音抽出信号ｙo(ｆ)が得られる。
また，前記非目的音の音量が小さい場合には，前記目的音に対する前記目的音抽出装置Ｘの指向性が緩やかになり，前記目的音の音源の位置が多少変化しても，その目的音を確実に捉えた前記目的音抽出信号ｙo(ｆ)が生成される。

そこで，前記指向性制御部４３は，前記目標方位自動設定処理を例えば以下のように実行する。
即ち，前記指向性制御部４３は，前記目標方位Ｒ１を，前記目的音方位検出部４２により算出された前記目的音の音源の方向の推定値θpと一致するように自動設定する。その際，前記指向性制御部４３は，並行して実行する前記参照方位自動設定処理により，前記目標方位Ｒ１と前記参照方位Ｒ２１，Ｒ２２との相対的な関係を自動調節する。
前記目標方位自動設定処理により，前記目的音の音源が移動する場合でも，その音源の移動に追従して前記目標方向Ｒ１が自動設定されるため，前記目的音を確実に捉えた前記目的音抽出信号ｙo(ｆ)を生成することができる。

以上に示した実施形態は，前記指向性制御部４３が，前記目標方位Ｒ１及び前記参照方位Ｒ２１，Ｒ２２を自動設定する例であるが，それ以外の例も考えられる。
例えば，前記指向性制御部４３が，所定の操作部を通じた操作入力に応じて前記目標方位Ｒ１を基準とする前記参照方位Ｒ２１，Ｒ２２を設定することも考えられる。前記操作部とは，例えば，カメラ一体型ＶＴＲ装置におけるズームアップの倍率設定用の操作レバー等である。
この場合，前記指向性制御部４３は，ズームアップの倍率が高い場合に，遠くに存在する被写体が発する低音量の前記目的音を明瞭に抽出するため，前記目標方位Ｒ１に対する前記参照方位Ｒ２１，Ｒ２２の差異を小さく設定し，前記目的音に対する指向性を鋭くする。
一方，前記指向性制御部４３は，ズームアップの倍率が低い場合に，広角の範囲内に存在する被写体全体が発する前記目的音を抽出するため，前記目標方位Ｒ１に対する前記参照方位Ｒ２１，Ｒ２２の差異を大きく設定し，前記目的音に対する指向性を緩やかにする。
ここに示した実施形態も本発明の実施形態の一例である。

また，前述した実施形態は，１つの前記主マイクロホン１１２に対して２つの前記副マイクロホン１１１，１１３が設けられた例であるが，１つの前記主マイクロホン１１２に対して３つ以上の前記副マイクロホン１１１，１１３が設けられてもよい。
例えば，４つ以上のマイクロホンが三次元的に配置されることも考えられる。これにより，前記目的音抽出装置Ｘの指向性の範囲の境界を三次元的に所望の方向に設定できる。
例えば，ある一の平面内において３つの前記副マイクロホンを三角形の頂点の位置に配置し，前記主マイクロホンを前記副マイクロホンが形成する三角形を底面とする三角錐の頭頂部の位置に配置する。そして，前記目標方位及び３つの前記参照方位を三次元的に設定することが考えられる。これにより，前記目的音抽出装置Ｘの前記目的音に対する指向性を三次元的に所望の特性に設定できる。

また，前記目的音抽出装置Ｘにおいて，前記分離信号逐次生成部Ｖａ，Ｖｂ，Ｖは，他のＢＳＳ方式の音源分離処理を行うことによって前記目的音分離信号ｙ1(ｆ)及び前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)を生成するものであってもよい。例えば，前記分離信号逐次生成部Ｖａ，Ｖｂ，Ｖが，周知のバイナリーマスキング処理による音源分離処理を実行することによって前記目的音分離信号ｙ1(ｆ)及び前記非目的音分離信号ｙ2a(ｆ)，ｙ2b(ｆ)を生成するものであることも考えられる。

本発明は，複数のマイクロホンを通じて得られる複数の音響信号に基づいて，所定の目的音に相当する目的音抽出信号を生成する装置への利用が可能である。

本発明の実施形態に係る目的音抽出装置Ｘの概略構成を表すブロック図。目的音抽出装置Ｘに採用し得る第１例の目的音抽出信号生成部Ｑ１の構成を表すブロック図。目的音抽出装置Ｘに採用し得る第２例の目的音抽出信号生成部Ｑ２の構成を表すブロック図。目的音抽出装置Ｘに採用し得る第３例の目的音抽出信号生成部Ｑ３の構成を表すブロック図。目的音抽出装置Ｘに採用し得る第４例の目的音抽出信号生成部Ｑ４の構成を表すブロック図。目的音抽出装置Ｘにおけるマイクロホンの第１の配置例を表す図。目的音抽出装置Ｘにおけるマイクロホンの第２の配置例を表す図。目的音抽出装置Ｘにおける強調信号の指向性の第１の例を表す収音利得分布の模式図。目的音抽出装置Ｘ全体の収音の指向性の第１の例を表す収音利得分布の模式図。目的音抽出装置Ｘにおける強調信号の指向性の第２の例を表す収音利得分布の模式図。目的音抽出装置Ｘ全体の収音の指向性の第２の例を表す収音利得分布の模式図。目的音抽出装置Ｘにおける強調信号の指向性の第３の例を表す収音利得分布の模式図。目的音抽出装置Ｘ全体の収音の指向性の第３の例を表す収音利得分布の模式図。目的音抽出装置Ｘ全体の収音利得分布の一例。ＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ａの概略構成を表すブロック図。

符号の説明

Ｘ：本発明の実施形態に係る目的音抽出装置
Ｑ，Ｑ１，Ｑ２，Ｑ３，Ｑ４：目的音抽出信号生成部
Ｖ，Ｖａ，Ｖｂ：分離信号逐次生成部
１，２：音源
１２：Ａ／Ｄコンバータ
１３：ＤＦＴ処理部
１４：ＩＤＦＴ処理部
１５：Ｄ／Ａコンバータ
１６：信号バッファ
１７：信号強調部
２１：分離フィルタ処理部
２２：学習演算部
３１：信号合成部
３２：スペクトル減算部
３３：スペクトル近似信号抽出部
４１：非目的音音量検出部
４２：目的音方位検出部
４３：指向性制御部
１１１，１１２，１１３：マイクロホン
Ｒ１：目標方位
Ｒ２１，Ｒ２２：参照方位

Claims

３つ以上の無指向性のマイクロホンを通じて逐次得られる３つ以上の入力音響信号に基づいて，所定の目的音の音響信号に相当する目的音抽出信号を逐次生成して出力する目的音抽出装置であって，
前記目的音について設定された目標方向及びそれ以外の音響について設定された複数の参照方向からなる複数の設定方向各々について，前記入力音響信号各々を当該設定方向からの音響が前記マイクロホン各々に到達する時間のずれに応じた時間調整の後に合成することにより，前記設定方向各々からの音響の成分が強調された強調信号を逐次生成する強調信号生成手段と，
前記強調信号を用いたブラインド音源分離方式の音源分離処理を行うことにより，前記目的音抽出信号を逐次生成する目的音抽出信号生成手段と，
を具備してなることを特徴とする目的音抽出装置。
前記目標方向に対する複数の前記参照方向を可変に設定する参照方向設定手段を具備してなる請求項１に記載の目的音抽出装置。
前記参照方向から前記マイクロホンに到来する音響の音量を検出する非目的音音量検出手段を具備し，
前記参照方向設定手段が，前記非目的音音量検出手段の検出結果に応じて前記目標方向を基準とする複数の前記参照方向を自動設定してなる請求項２に記載の目的音抽出装置。
前記参照方向設定手段が，所定の操作部を通じた操作入力に応じて前記参照方向を設定してなる請求項２に記載の目的音抽出装置。
前記目的音抽出信号生成手段が，
前記強調信号を用いた独立成分分析法に基づくブラインド音源分離方式での音源分離処理における分離行列の学習計算を行う分離行列学習手段と，
逐次入力される前記強調信号に対し前記分離行列学習手段により随時得られる学習後の分離行列を用いたフィルタ処理を施すことによって複数の音源からの音響それぞれに対応する分離信号を逐次生成する分離フィルタ処理手段と，を備えるとともに，前記分離信号に基づいて前記目的音抽出信号を逐次生成してなる請求項１〜４のいずれかに記載の目的音抽出装置。
前記分離行列学習手段により随時得られる学習後の分離行列に基づいて前記目的音の音源の方向の推定値を算出する目的音源方向算出手段と，
前記目的音源方向算出手段の算出結果に応じて前記目標方向を自動設定する目標方向設定手段と，
を具備してなる請求項５に記載の目的音抽出装置。
３つ以上の無指向性のマイクロホンを通じて逐次得られる３つ以上の入力音響信号に基づいて所定の目的音の音響信号に相当する目的音抽出信号を逐次生成して出力する処理をコンピュータに実行させる目的音抽出プログラムであって，
コンピュータに，
前記目的音について設定された目標方向及びそれ以外の音響について設定された複数の参照方向からなる複数の設定方向各々について，前記入力音響信号各々を当該設定方向からの音響が前記マイクロホン各々に到達する時間のずれに応じた時間調整の後に合成することにより，前記設定方向各々からの音響の成分が強調された強調信号を逐次生成する強調信号生成処理と，
前記強調信号を用いたブラインド音源分離方式の音源分離処理を行うことにより，前記目的音抽出信号を逐次生成する目的音抽出信号生成処理と，
を実行させてなることを特徴とする目的音抽出プログラム。
コンピュータに，
前記参照方向から前記マイクロホンに到来する音響の音量を検出する非目的音音量検出処理と，
前記非目的音音量検出処理の検出結果に応じて前記目標方向を基準とする複数の前記参照方向を自動設定する参照方向設定処理と，
をさらに実行させてなる請求項７に記載の目的音抽出プログラム。