JP2017195581A

JP2017195581A - 信号処理装置、信号処理方法およびプログラム

Info

Publication number: JP2017195581A
Application number: JP2016086506A
Authority: JP
Inventors: 典朗多和田; Noriaki Tawada
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-04-22
Filing date: 2016-04-22
Publication date: 2017-10-26

Abstract

【課題】明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立する信号処理装置を提供すること。【解決手段】信号処理装置１は、複数のマイク素子３で収音された音響信号から複数の指向方向に対応する方向音を音響信号入力部２で取得し、信号解析処理部１３は、点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するために、取得する方向音の指向方向を最適化する。信号解析処理部１３は、複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、検出された点音源の方向におけるゲインの値が最大であるものとそれ以外のものとの比を所定値より大きくする。信号解析処理部１３は、複数の指向方向に対応する指向性のビームパターンを合成した合成ビームパターンのゲインの偏差を所定値より小さくする。信号解析処理部１３は、これら２つの条件を満たすように、各指向方向を制御する。【選択図】図１

Description

本発明は、音響信号から方向音を取得する信号処理装置、信号処理方法およびプログラムに関する。

複数のマイク素子を備えるマイクアレイで収音した音響から複数チャンネルの音響信号を取得し、当該音響信号から、方向毎の音（以下、「方向音」と称する。）を取得する技術が知られている。そして、取得した全方位の各方向音がそれぞれの方向から再生されているようにユーザに提示できれば、その場にいるかのような高臨場感を実現することができる。
方向音を取得する方法としては指向性を有するマイク素子を備えるマイクアレイを用いて収音した音響の音響信号から方向音を取得する方法の他に、フィルタリングに基づく方法がある。この方法では、無指向性のマイクアレイで収音して得た複数チャンネルの音響信号に、所望の指向方向に対応する指向性形成のフィルタ係数によってフィルタ処理を行うことで、任意の指向方向の方向音を取得することができる。
特許文献１に開示された技術では、指向性形成フィルタのフィルタ係数を切り換えて指向性を回転させ、音源の存在する方向を推定する。そして、推定した音源の方向に対応するフィルタ係数を選択して音源の方向に指向性を向けて収音する。

特許第４８９８９０７号公報

方向音には、特定の方向にある音源（以下、「点音源」と称する。）の音と、非方向性の拡散音源の音（以下、「雰囲気音」と称する。）が含まれている。全方位の各方向音がそれぞれの方向から再生されているようにユーザに提示するためには、点音源の音を明瞭に再生することに加えて、雰囲気音を全方位でムラ無く再生することも大切である。
明瞭な点音源の音の再生が音の方向感に寄与するのに対して、全方位でムラの無い雰囲気音の再生は音場に包まれているように感じる「包まれ感」に寄与する。これら方向感や包まれ感は、音の臨場感の大切な要素である。

しかしながら、特許文献１に開示された技術では、音源の存在する方向に指向性をつけて収音することにより、明瞭な点音源の音の再生は実現できるものと考えられるが、全方位でムラの無い雰囲気音の再生については考慮されていない。
本発明は、上記課題を解決するためになされたものであり、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立することを目的とする。

本発明に係る信号処理装置は、複数のマイク素子で収音された音響の音響信号から複数の指向方向ごとの方向音を取得する取得手段と、前記音響信号から点音源の方向を検出する検出手段と、前記複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、前記検出手段により検出された前記点音源の方向におけるゲインの値が最大のものとそれ以外のものとの比を所定値より大きくするとともに、複数の指向性のビームパターンを合成した合成ビームパターンのゲインの偏差を所定値より小さくするように、前記各指向方向を制御する制御手段と、を備える。

本発明によれば、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立することができる。

本発明の実施形態１に係る信号処理システムの構成を示すブロック図。実施形態１のコンピュータの構成を示すブロック図。実施形態１の信号解析処理の流れを示すフローチャート。指向方向制御の説明図。指向方向制御の説明図。指向方向制御の説明図。本発明の実施形態２に係る信号解析処理の流れを示すフローチャート。

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。

＜実施形態１＞
（全体構成）
図１は、本発明の実施形態１の信号処理システムの構成を示すブロック図である。
この信号処理システムは、音響信号に対する信号処理を行う信号処理装置１と、音響信号を信号処理装置１に入力する音響信号入力部２と、音響を収音して音響信号を出力するマイクアレイ３と、供給された音響信号に応じた音を再生するヘッドホン４を備えている。信号処理装置１は、装置全体の制御を行うシステム制御部１１と、音響信号等の各種データを記憶しておく記憶部１２と、音響信号の解析処理を行う信号解析処理部１３と、音響信号をヘッドホン４に出力する音響信号出力部１４とを備えている。音響信号入力部２は、信号処理装置１に無線または有線で接続される。また、信号処理装置１は、ヘッドホン４に無線または有線で接続される。
なお、図１では、ヘッドホン４を信号処理装置１の外に設けた構成を示しているが、信号処理装置１内にヘッドホン４を含む構成としてもよいし、ヘッドホン４内に信号処理装置１を内蔵する構成としてもよい。

マイクアレイ３は、例えばＭ個（６個）のマイク素子３ａ、３ｂ、３ｃ、３ｄ、３ｅおよび３ｆを備えている。なお、少なくとも２個のマイク素子を備えていれば、後述するフィルタ処理におけるフィルタ係数の選択によって任意の指向方向の指向性を形成して方向音の取得を行うことができるため、マイク素子の数（Ｍ）は６個に限られない。各マイク素子３ａ〜３ｆは、その周囲の音響を収音し、アナログ音響信号を生成して、当該アナログ音響信号を音響信号入力部２に出力する。周囲の音響には、点音源の音および雰囲気音が含まれる。点音源の音には、例えば、人、動物、乗り物、楽器等の音や、バレーボール等のスポーツにおけるボールのアタック時の音等が含まれる。また、雰囲気音には、屋内では例えば反射・残響音、屋外では環境音といった背景となる音が含まれる。

音響信号入力部２は、各マイク素子３ａ〜３ｆからの６チャンネルの音響信号に対して増幅処理およびＡ／Ｄ変換処理等を施し、所定の音響サンプリングレートに対応する周期で、デジタル音響信号である６チャンネルの信号を生成する。音響信号入力部２は、生成したデジタル音響信号を記憶部１２に入力する。
ヘッドホン４は、右耳用の音を再生する再生部４Ｒと左耳用の音を再生する再生部４Ｌとを備えている。このヘッドホン４は、音響信号出力部１４から供給された音響信号に応じた音を再生する。
記憶部１２には、音響信号入力部２から入力された６チャンネルの音響信号が格納される。また、記憶部１２には、左右の耳の頭部伝達関数（ＨＲＴＦ：Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）と、方向音の取得を行うための指向性を形成するフィルタ係数が格納されている。

（再生動作概要）
信号解析処理部１３は、後述する信号解析処理によって、記憶部１２に格納されている６チャンネルの音響信号から点音源の方向を検出し、検出した点音源の方向に応じて、取得する方向音の指向方向の制御を行う。また、信号解析処理部１３は、後述する信号解析処理によって、６チャンネルの音響信号から各指向方向の方向音を取得し、取得した方向音からヘッドホン４で再生する音響信号（以下、「ヘッドホン再生信号」と称する。）を生成する。この生成では、信号解析処理部１３は、記憶部１２に格納されている６チャンネルの音響信号から取得した各方向音の指向方向に、仮想スピーカを設定する。さらに、信号解析処理部１３は、記憶部１２に格納されているＨＲＴＦを考慮して、各仮想スピーカの方向の方向音に対応する音響信号を、左右それぞれ加算してヘッドホン再生信号を生成する。信号解析処理部１３は、生成したヘッドホン再生信号を、音響信号出力部１４に入力する。

音響信号出力部１４は、信号解析処理部１３から入力されたヘッドホン再生信号にＤＡ変換および増幅を施し、ヘッドホン４に供給する。ヘッドホン４は、音響信号出力部１４から供給されたヘッドホン再生信号に応じた音を再生する。
このように、各方向音に応じて生成したヘッドホン再生信号により音を再生することにより、実際のスピーカをユーザの周囲に配置して各チャンネルの音（方向音）が再生されているようにユーザに提示することができる。

（ハードウェア構成）
図１に示す各機能ブロックはプログラムとして、後述するＲＯＭ２２等の記憶部に記憶され、ＣＰＵ２１によって実行される。なお、図１に示す機能ブロックの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからＦＰＧＡ上に自動的に専用回路を生成すればよい。ＦＰＧＡとは、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略である。また、ＦＰＧＡと同様にしてＧａｔｅＡｒｒａｙ回路を形成し、ハードウェアとして実現するようにしてもよい。また、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現するようにしてもよい。

図２は、信号処理装置１のハードウェア構成の一例を示している。信号処理装置１は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、外部メモリ２４、入力部２５、出力部２６を有する。
ＣＰＵ２１は、入力された信号やプログラムに従って、各種の演算や信号処理装置１を構成する各部分の制御を行う。具体的には、ＣＰＵ２１は、点音源の方向の検出、方向音を取得する際の指向方向の制御、方向音の取得、ヘッドホン再生信号の生成等を行う。前述した図１の機能ブロックは、ＣＰＵ２１によって実行される機能を図示したものである。

ＲＡＭ２３は、一時的なデータを記憶し、ＣＰＵ２１の作業用に使われる。ＲＯＭ２２は、図１に示した各機能部を実行するためのプログラムや、各種の設定情報を記憶する。外部メモリ２４は、例えば、着脱可能なメモリカードであり、ＰＣ（パーソナルコンピュータ）などに装着してデータを読み出すことが可能である。
また、ＲＡＭ２３あるいは外部メモリ２４の所定の領域は記憶部１２として使われる。
入力部２５は、音響信号入力部２から入力した音響信号をＲＡＭ２３あるいは外部メモリ２４の記憶部１２として使われる領域に格納する。出力部２６は、ＣＰＵ２１が生成したヘッドホン再生信号をヘッドホン４に供給する。

（信号解析処理）
図３のフローチャートは、信号処理装置１が備えるＣＰＵ２１が、ＲＯＭ２２等に記憶されるプログラムを実行することにより処理される。この処理は、例えば、記憶部１２に格納されている音響信号からヘッドホン再生信号を生成し、ヘッドホン４で再生する際に実行される処理であり、ユーザによる開始指示に応じて開始される処理である。
以下、本実施形態の信号解析処理について、図３のフローチャートに沿って説明する。なお、この図３のフローチャートの処理は、特に別記しない限り信号解析処理部１３が行うものとする。
なお、図３の処理を開始する前に、Ｍ個（図１の場合では６個）のマイク素子３ａ〜３ｆで収音したＭチャンネル（図１の構成では６チャンネル）の音響信号が、記憶部１２に格納されているものとする。信号解析処理部１３は、図３の処理により、記憶部１２に格納されているＭ個の音響信号から、Ｄ個の方向音を取得し、Ｄ個の方向音からヘッドホン再生信号を生成する。なお、指向性形成のフィルタ処理におけるフィルタ係数の選択によって任意の指向方向の指向性を形成して方向音の取得を行うことができるため、方向音の数Ｄは、音響信号のチャンネル数Ｍと同じ数としても、異なる数としてもよい。

（点音源の方向の検出）
Ｓ１では、信号解析処理部１３は、記憶部１２が保持しているＭチャンネルの音響信号を取得し、チャンネル毎にフーリエ変換することで周波数領域のデータ（フーリエ係数）であるｚ（ｆ）を得る。ここで、各周波数のｚ（ｆ）はＭ個の要素を持つベクトルである。
Ｓ２では、信号解析処理部１３は、Ｓ３で音響信号から点音源の方向を検出するために、点音源方向に感度のピークを形成する空間スペクトルＰ（ｆ，θ）を算出する。この算出において、信号解析処理部１３は、音響信号の空間的性質を表す統計量である式（１）の空間相関行列Ｒ（ｆ）と、各方向（方位角θ）の音源と各マイク素子３ａ〜３ｆの間の伝達関数であるアレイ・マニフォールド・ベクトルａ（ｆ，θ）とを用いる。
Ｒ（ｆ）＝Ｅ［ｚ（ｆ）ｚ^Ｈ（ｆ）］（１）
ここで、Ｅは期待値を表し、上付きのＨは複素共役転置を表す。また、ａ（ｆ，θ）は周波数領域のデータ（フーリエ係数）であり、Ｍ個の要素で構成される。
例えば、最小分散法に基づく空間スペクトルＰ_ＭＶ（ｆ，θ）は、式（２）で得られる。

また、空間相関行列Ｒ（ｆ）のＭ個の固有ベクトルのうち、雑音部分空間に対応するものを並べた行列をＥ_ｎと置く。このとき、信号部分空間に属するアレイ・マニフォールド・ベクトルａ（ｆ，θ）との直交性を考えれば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法の空間スペクトルＰ_ＭＵ（ｆ，θ）が式（３）で得られる。

ａ（ｆ，θ）のθを、例えば−１８０°から１８０°まで１°刻みで変えながら、Ｐ（ｆ，θ）＝Ｐ_ＭＶ（ｆ，θ）［式（２）］やＰ（ｆ，θ）＝Ｐ_ＭＵ（ｆ，θ）［式（３）］のように計算することで、水平全方位の空間スペクトルが得られる。なお、音響信号に対応する音の収音に用いたマイクアレイ３の構造によっては、自由空間や剛球等の理論式により、任意の解像度でアレイ・マニフォールド・ベクトルａ（ｆ，θ）を算出できる。
Ｓ３では、信号解析処理部１３は、Ｓ２で算出した空間スペクトルをもとに、音響信号から点音源の方向を検出する。具体的には、信号解析処理部１３は、周波数毎の空間スペクトルＰ（ｆ，θ）を、例えばｆ_ｍｉｎ〜ｆ_ｍａｘの範囲で平均化して平均空間スペクトルＰ_ｍｅａｎ（θ）を算出する。さらに、信号解析処理部１３は、平均空間スペクトルＰ_ｍｅａｎ（θ）がピーク（極大値）となる方向を検出して点音源方向θ_ｓｑ［ｑ＝１〜Ｑ］とする。ここで、ｆ_ｍｉｎ、ｆ_ｍａｘは点音源の方向の検出の対象とする下限および上限周波数であり、Ｑは検出された点音源の数である。

（指向方向の最適化）
Ｓ４〜Ｓ１２では、信号解析処理部１３は、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するために、取得する方向音の指向方向を最適化する。
信号解析処理部１３は、複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、検出された点音源の方向におけるゲインの値が最大であるものとそれ以外のものとの比を所定値より大きくする。また、信号解析処理部１３は、複数の指向方向に対応する指向性のビームパターンを合成した合成ビームパターンのゲインの偏差を所定値より小さくする。信号解析処理部１３は、これら２つの条件を満たすように、各指向方向を制御する。

全方位でムラの無い雰囲気音の再生のみを目的にするのであれば、例えば図４に示すように、各方向音の指向方向３１〜３６を、全円周（−１８０°〜１８０°）で均等に配置すればよい。図４では、方向音の指向方向の数Ｄが図１のマイク素子３ａ〜３ｆの数Ｍと同じ６である場合を示している。なお、マイク素子の数Ｍが２以上であれば、指向性を形成するフィルタ処理におけるフィルタ係数の選択によって任意の指向方向の指向性を形成できるため、指向方向の数Ｄはマイク素子の数Ｍと異なっていてもよい。
また、図４において、最外周の実線の円およびこれと中心を同じくする円は、その半径が、ビームパターンの相対的なゲインに対応している。これら円の円周方向の位置は、マイクアレイ３の所定の基準方向（０°）からの方位に対応している。太い１点鎖線の直線３１〜３６は、各方向音の指向方向（メインローブ方向）を示している。太い破線の円３１ａ〜３６ａは、各指向方向３１〜３６に対応する方向音の指向性を示すビームパターンを示している。
このように、各方向音の指向方向３１〜３６を均等に配置することにより、各指向方向の方向音のビームパターン３１ａ〜３６ａを合成した合成ビームパターン３７が略円形となるため、全方位でムラの無い雰囲気音の再生を実現できる。

ところで、ある指向性の指向方向（メインローブ方向）が点音源の方向を向いていれば、その指向性に対応する方向音として捉えられる音のエネルギーは、それ以外の指向性に対応する方向音として捉えられる音のエネルギーに比べてかなり大きくなる。このような状態で取得された方向音からヘッドホン再生信号を生成すれば、点音源の音は、点音源の方向に配置された仮想スピーカから主として再生される。このため、点音源の方向に配置された仮想スピーカから再生される点音源の音は、その他の方向に配置された仮想スピーカから再生される当該点音源の音より音量が大きくなり、点音源の音が明瞭に再生される。

これに対し、指向性の指向方向が点音源の方向を向いておらず、隣接する複数の指向性の指向方向の間に点音源があると、複数の指向性に対応する方向音として捉えられる音のエネルギーにはあまり差が生じない。
ここで、図４の点音源方向３０ａ、３０ｂに点音源がある場合を想定する。この場合、例えばビームパターン３２ａとビームパターン３３ａの点音源方向３０ａにおける値の比が小さい。このため、点音源方向３０ａに対応する点音源の音については、ビームパターン３２ａに対応する指向方向の方向音のエネルギー４２と、ビームパターン３３ａに対応する指向方向の方向音のエネルギー４３にはあまり差がない。このような状態で取得された方向音に応じてヘッドホン再生信号を生成すると、指向方向３２に配置される仮想スピーカの音量と、指向方向３３に配置される仮想スピーカの音量の差が小さくなってしまう。

このため、ヘッドホン４で再生される音についても、指向方向３２と指向方向３３とで音量の差が小さい状態となり、点音源の音の再生が不明瞭になる。
このため、本実施形態の信号処理システムでは、信号解析処理部１３からの制御により、点音源方向３０ａ、３０ｂにそれぞれ最も近い指向方向３２、３５を向け、例えば図５のように、指向方向３２’、３５’とする。これにより、例えばビームパターン３２ａ’とビームパターン３３ａの点音源方向３０ａにおけるゲインの値とそれ以外のビームパターンのゲインの値の比が図４の場合より大きくなる。すなわち、点音源方向３０ａにおいては、ゲインの値が最大のもの（ビームパターン３２ａ’）とそれ以外のもの（ビームパターン）との比が所定値より大きくなる。このため、点音源方向３０ａの点音源については、ビームパターン３２ａ’に対応する指向方向の方向音のエネルギー４２’と、ビームパターン３３ａに対応する指向方向の方向音のエネルギー４３の差が図４の場合より大きくなる。このような状態で取得された方向音に応じてヘッドホン再生信号を生成し、ヘッドホン４で音を再生すると、点音源の音の再生が、図４に示す状態で取得された方向音に応じてヘッドホン再生信号を生成した場合より明瞭になる。

しかしながら、このような指向方向の配置変更を行った場合には、合成ビームパターン３７’に、膨らみ５１、５３や凹み５２、５４といった乱れが生じてしまっている。つまり、合成ビームパターン３７’は、略円形ではなくなる。このため、全ての方向音に基づいて再生される雰囲気音にもムラが生じている。
また、合成ビームパターン３７’に乱れがある場合、雰囲気音のムラの他に、次のような問題が生じる。例えば点音源方向３０ａに対応する点音源については、ビームパターン３２ａ’に対応する指向方向の方向音として取得した音が、点音源方向３０ａと同じ指向方向３２’に配置される仮想スピーカから再生される。これに加えて、ビームパターン３３ａに対応する指向方向の方向音として取得した音が指向方向３３に配置される仮想スピーカから再生される。この場合、合成ビームパターン３７’の膨らみ５１があるため、点音源の方向が合成ビームパターン３７’の膨らみ５１の方にずれて知覚されてしまう可能性がある。
このため、本実施形態の信号処理システムでは、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するために、信号解析処理部１３が、式（４）のような最適化問題の解となるように、方向音を取得する指向方向θ_ｄ［ｄ＝１〜Ｄ］を最適化する。

ここで、σ_ｂｓｕｍ（θ_ｄ）は合成ビームパターンの乱れの目安である標準偏差である。また、点音源のインデックスｑの関数であるｄｍｉｎ（ｑ）は、式（５）のように点音源方向θ_ｓｑ［ｑ＝１〜Ｑ］に最も近い指向方向を示すインデックスである。

式（４）は、Ｄ個の指向方向θ_ｄ［ｄ＝１〜Ｄ］のうちＱ個の指向方向θ_{ｄｍｉｎ（ｑ）}［ｑ＝１〜Ｑ］を点音源方向θ_ｓｑ［ｑ＝１〜Ｑ］に向けるという制約条件の下、合成ビームパターンの乱れを最小化し、指向方向を最適化することを意味している。合成ビームパターンの乱れは、合成ビームパターンのゲインの偏差、例えばゲインの標準偏差σ_ｂｓｕｍ（θ_ｄ）により評価する。すなわち、この最適化問題では、各指向方向が最適化変数となり、標準偏差σ_ｂｓｕｍ（θ_ｄ）が評価関数となる。信号解析処理部１３は、このように定義された指向方向を最適化変数とする最適化問題を解き、その解を各指向方向として決定する。

以上を踏まえた上で、指向方向の最適化を行うＳ４〜Ｓ１２の処理を説明する。なお、指向方向の最適化は、全周波数のうち少なくとも代表周波数（例えば１ｋＨｚ）について考えればよい。以下のＳ４〜Ｓ１２の説明における周波数のインデックスｆは、このような代表周波数を表しているものとする。なお、代表周波数は、例えば音響信号中の強度が高い帯域の中心周波数等としてもよい。

Ｓ４では、信号解析処理部１３は、各指向性の指向方向θ_ｄ［ｄ＝１〜Ｄ］を初期化する。まず、複数の指向性で水平全方位をカバーするため、音響を収音したマイクアレイの座標系における正面０°を基準方向として、図４のように指向方向数Ｄ（＝６）で各指向性の指向方向３１〜３６を均等配置する。すなわち、指向方向３１のθ_１＝０°、指向方向３２のθ_２＝６０°、指向方向３３のθ_３＝１２０°、指向方向３４のθ_４＝１８０°、指向方向３５のθ_５＝−１２０°、指向方向３６のθ_６＝−６０°となる。なお、指向方向数Ｄが少ないと均等配置でも合成ビームパターンに凹みが生じるため、少なくとも略円形になり始めるくらいのＤ（例えば図４に示す場合では６程度）を用いるのが好適である。

ここで、Ｓ３で例えばＱ＝２個の点音源が検出され、点音源方向３０ａのθ_ｓ１＝８５°、点音源方向３０ｂのθ_ｓ２＝−１４８°であったとする。この場合、上記均等配置の指向方向θ_ｄ［ｄ＝１〜Ｄ］のいずれも点音源方向θ_ｓｑ［ｑ＝１〜Ｑ］を向いていないため、式（４）の制約条件を満たしていない。そこで、信号解析処理部１３は、点音源方向３０ａ、３０ｂにそれぞれ最も近い指向方向３２、３５を点音源方向に向け、図５のように指向方向３２’、３５’とすることで、式（４）の制約条件を満たすように指向方向θ_ｄ［ｄ＝１〜Ｄ］を初期化する。これにより、指向方向３１のθ_１＝０°、指向方向３２’のθ_２＝８５°、指向方向３３のθ_３＝１２０°、指向方向３４のθ_４＝１８０°、指向方向３５’のθ_５＝−１４８°、指向方向３６のθ_６＝−６０°となる。

これに続くＳ５〜Ｓ１１は、反復的な最適化計算に係る処理である。信号解析処理部１３は、最適化ループの中で、Ｓ５〜Ｓ１１の処理を繰り返し実行する。また、Ｓ５〜Ｓ６は、Ｓ４で指向方向を初期化した指向性毎の処理である。信号解析処理部１３は、指向性ループの中で、Ｓ５〜Ｓ６の処理を繰り返し実行する。
Ｓ５では、信号解析処理部１３は、現在の指向性ループで対象としている指向性を形成するためのフィルタ係数を取得する。ここでは、記憶部１２に格納されているフィルタ係数から、指向方向θ_ｄに対応するフィルタ係数ｗ_ｄ（ｆ）を取得する。ここで、フィルタ係数ｗ_ｄ（ｆ）は、周波数領域のベクトルデータ（フーリエ係数）であり、Ｍ個の要素で構成される。なお、マイクアレイ３の構成が異なるとフィルタ係数も異なるため、収音に用いたマイクアレイ３の種別を示す種別ＩＤを音響信号の付加情報として記録しておいてもよい。この場合は、信号解析処理部１３が、種別ＩＤに対応するマイクアレイ３のフィルタ係数を記憶部１２から取得し、本ステップの処理で用いるようにしてもよい。

指向性形成のフィルタ係数の算出には、アレイ・マニフォールド・ベクトルａ（ｆ，θ）が一般に用いられる。指向方向θ_ｄに指向性のメインローブを形成する方法として、例えば遅延和法ならθ_ｄ方向のアレイ・マニフォールド・ベクトルａ_ｄ（ｆ）を用いて、ｗ_ｄ（ｆ）＝ａ_ｄ（ｆ）／（ａ_ｄ ^Ｈ（ｆ）ａ_ｄ（ｆ））のようにフィルタ係数が得られる。
Ｓ６では、信号解析処理部１３は、Ｓ５で取得した指向性形成のフィルタ係数ｗ_ｄ（ｆ）と、アレイ・マニフォールド・ベクトルａ（ｆ，θ）とを用いて指向性のビームパターンを算出する。ビームパターンの方位角θ方向の値ｂ_ｄ（ｆ，θ）は、式（６）で得られる。
ｂ_ｄ（ｆ，θ）＝ｗ_ｄ ^Ｈ（ｆ）ａ（ｆ，θ）（６）

アレイ・マニフォールド・ベクトルａ（ｆ，θ）のθを、例えば−１８０°から１８０°まで１°刻みで変えながらｂ_ｄ（ｆ，θ）を計算することで、水平全方位のビームパターンが得られる。なお、円状等間隔マイクアレイ等のように、マイク素子が等方的に配置されている場合は、指向方向が正面０°の場合のビームパターンｂ_１（ｆ，θ）を順次回転させることで、他の指向性のビームパターンｂ_ｄ（ｆ，θ）［ｄ＝２〜］を得ることもできる。
Ｓ７では、信号解析処理部１３は、Ｓ６で算出した各指向性のビームパターンｂ_ｄ（ｆ，θ）［ｄ＝１〜Ｄ］を合成することで、式（７）のように合成ビームパターンｂ_ｓｕｍ（ｆ，θ）を算出する。

Ｓ８では、信号解析処理部１３は、合成ビームパターンｂ_ｓｕｍ（ｆ，θ）を、例えばデシベル［ｄＢ］表示に変換して標準偏差σ_ｂｓｕｍ（θ_ｄ）を算出し、式（４）の最適化問題の評価関数とする。ここで、標準偏差は指向方向θ_ｄ［ｄ＝１〜Ｄ］の関数となるためσ_ｂｓｕｍ（θ_ｄ）と表記し、周波数のインデックスｆは省略している。
Ｓ９では、信号解析処理部１３は、最適化ループにおける最適化が収束したかを判定し、収束した場合はＳ１２へ進み、収束していない場合はＳ１０へ進む。収束したか否かの判定は、例えば評価関数値［式（４）の場合では標準偏差σ_ｂｓｕｍ（θ_ｄ）］の前の最適化ループの実行時の値に対する減少量が所定値未満となったか否かの判定で行う。あるいは、最適化変数である指向方向θ_ｄ［ｄ＝１〜Ｄ］について、前の最適化ループで求めた値との差が所定値未満となったか否かで収束の判定を行ってもよい。あるいは、現在の最適化ループの評価関数値が所定値未満となった時点で収束したと判定してもよい。この場合では、評価関数として標準偏差を用いているため、収束するまで最適化ループの処理を実行することにより、合成ビームパターンの標準偏差を所定値より小さくするように指向方向が制御される。

Ｓ１０では、信号解析処理部１３は、最適化ループにおける指向方向θ_ｄ［ｄ＝１〜Ｄ］の更新回数が所定の上限値に達したかを判定し、達した場合はＳ１２へ進み、達していない場合はＳ１１へ進む。
Ｓ１１では、信号解析処理部１３は、指向性の指向方向を更新する。すなわち、式（４）の制約条件に基づきＱ個の指向方向θ_{ｄｍｉｎ（ｑ）}［ｑ＝１〜Ｑ］を点音源方向θ_ｓｑ［ｑ＝１〜Ｑ］に固定（拘束）した状態で、合成ビームパターンの標準偏差σ_ｂｓｕｍ（θ_ｄ）が小さくなる方向へ（Ｄ−Ｑ）個の指向方向を更新する。なお、式（４）のように最適化問題として数式で定義（以下、「定式化」と称する。）すれば、最適化変数である指向方向の更新には、種々の公知な最適化アルゴリズムを適用することができる。あるいは、最適化アルゴリズムの代わりに全探索やランダム探索によって指向方向の更新を行ってもよい。

最適化が収束するか最適化ループにおける更新回数が上限値に達すると、信号解析処理部１３は、Ｓ１２において、最適化で評価関数（この場合では、標準偏差σ_ｂｓｕｍ（θ_ｄ））の値が最小となったときの指向方向θ_ｄ［ｄ＝１〜Ｄ］を選択する。これにより、方向音を取得する際の指向方向が最適化される。すなわち、式（４）の制約条件の下、複数の指向性のビームパターンを合成した合成ビームパターンのゲインの偏差が最小化される。
例えば図５のように初期化した指向方向を最適化した結果を、図６に示す。ここで、図５の指向方向３１、３３、３４、３６がそれぞれ、図６の指向方向３１’、３３’、３４’、３６’に最適化されている。すなわち、指向方向３１’のθ_１＝−３１．５°［−３１．５°］、指向方向３３’のθ_３＝２６．９°［−９３．１°］、指向方向３４’のθ_４＝１４８．６°［−３１．４°］、指向方向３６’のθ_６＝−８９．９°［−２９．９°］である。なお、カギ括弧［］内の数値は指向方向の初期値からの更新量であり、図６では矢印で模式的に表現されている。

例えば点音源方向３０ａについては、指向性のビームパターンのゲインの値が最も大きいビームパターン３２ａ’のゲインの値と他のビームパターン３３ａ’、３４ａ’のゲインの値との比が図５の場合より大きくなっている。点音源方向３０ａの点音源については、ビームパターン３２ａ’に対応する指向方向の方向音のエネルギー４２’が、ビームパターン３３ａ’、３４ａ’に対応する指向方向の方向音のエネルギー４３’、４４’に比べてかなり大きくなる。すなわち、点音源の方向における指向性のビームパターンのゲインの値が最大のものとそれ以外のものとの比が所定値より大きく設定される。なお、この比を最大化するようにしてもよい。

また、点音源方向３０ｂについても、同様に、指向方向の最適化を行う。これにより、検出された複数の点音源の方向の夫々について、指向性のビームパターンのゲインの値であって、点音源の方向におけるゲインの値が最大のものとそれ以外のものの比が所定値より大きく設定される。図６のような状態で、音響信号から方向音の取得を行い、取得した方向音に応じてヘッドホン再生信号を生成し、ヘッドホン再生信号に応じてヘッドホン４により音を再生すれば、点音源の音を明瞭に再生することができる。

また、図６に示す状態では、合成ビームパターン３７”が略円形となるため、全方位でムラの無い雰囲気音の再生を実現できる。合成ビームパターンの標準偏差σ_ｂｓｕｍ（θ_ｄ）の具体的な値は、例えば図４の合成ビームパターン３７が０．２１ｄＢ、図５の合成ビームパターン３７’が１．６５ｄＢ、図６の合成ビームパターン３７”が０．２９ｄＢである。すなわち、指向方向を最適化した図６の状態では、点音源方向に指向方向を向けつつ、合成ビームパターンの乱れを図４の均等配置の場合と同程度にまで抑制できている。即ち、上述の処理により、点音源の方向に対応する音響信号の方向音を再生する際のゲインと、点音源の方向以外の方向音を再生する際のゲインとの差が所定値より小さくなるように、指向方向を設定する。このような状態で、音響信号から方向音の取得を行い、取得した方向音に応じてヘッドホン再生信号を生成し、ヘッドホン再生信号に応じてヘッドホン４により音を再生すれば、全方位でムラの無い雰囲気音を再生することができる。したがって、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立できる。
ここで、円状等間隔マイクアレイ等のようにマイク素子が等方的に配置されており、点音源の数Ｑ＝１であれば、いずれかの指向方向θ_ｄ［ｄ＝１〜Ｄ］を点音源の方向θ_ｓ１に向け、均等配置の他の指向方向θ_ｄを同じ角度だけ回転させればよい。

これに対し、マイク素子の配置が等方的でなく、指向方向によって形成可能なビームパターンの形が異なったり、複数の点音源が存在したりする等、指向方向の最適化のための条件が複雑になると、適切な指向方向を導くためには式（４）のような式が必要になる。これは、２つの点音源が存在する図４の例において、図６の最適化された指向方向の初期値からの更新量がそれぞれ異なっており、特に指向方向３３’が指向方向３１’と指向方向３２’の間に入っているといった結果からも分かる。

なお、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するための、最適化問題を定義する式は、式（４）の他にも様々考えられる。例えば式（８）は、点音源方向に最も近い指向方向θ_{ｄｍｉｎ（ｑ）}［ｑ＝１〜Ｑ］と、点音源方向θ_ｓｑ［ｑ＝１〜Ｑ］との差を閾値Δθ_ｑ［ｑ＝１〜Ｑ］以下にする制約条件のもと、合成ビームパターンの乱れを評価関数として最小化する式である。

ここで、閾値Δθ_ｑ［ｑ＝１〜Ｑ］は点音源毎に変えてもよく、例えばＳ３で平均空間スペクトルのピーク（極大値）が大きかった点音源ほど優先し、閾値Δθ_ｑを小さく設定するようにしてもよい。これにより、優先度の高い点音源は指向方向を正確に向けることで明瞭にし、優先度の低い点音源は指向方向の多少のずれを許容して、その分合成ビームパターンの乱れを抑えることができる。この結果、式（４）と評価関数は同じでも、より柔軟に制約条件を記述することができる。
また、最適化問題において、制約条件を評価関数に組み込むような定義も可能である。例えば式（９）は、点音源方向に最も近い指向方向θ_{ｄｍｉｎ（ｑ）}［ｑ＝１〜Ｑ］と点音源方向θ_ｓｑ［ｑ＝１〜Ｑ］との差の総和と、合成ビームパターンの乱れとの重み付き和を評価関数として最小化する式である。

ここで、λ_ｑ［ｑ＝１〜Ｑ］は点音源の優先度を表す重みであり、例えばＳ３で平均空間スペクトルのピーク（極大値）が大きかった点音源ほど優先し、λ_ｑを大きく設定するようにしてもよい。また、β_θは式（９）の第１項に係る全方位でムラの無い雰囲気音と、第２項に係る明瞭な点音源の音の再生との間のトレードオフ（優先度）を調整する重みである。なお、例えばシステム制御部１１によって制御される不図示のＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）部を介して、ユーザがこのトレードオフを間接的に調整できるようにしてもよい。ＧＵＩ部を用いることにより、例えば、両端を方向感重視と包まれ感重視としたスライダバーを表示させ、ユーザの指示を入力する。信号解析処理部１３は、ユーザの指示に応じて、バーの位置が方向感重視に近いほどβ_θを大きくして明瞭な点音源の音の再生を優先してもよい。そして、バーの位置が包まれ感重視に近いほどβ_θを小さくして全方位でムラの無い雰囲気音を優先するようにしてもよい。

なお、式（４）のような等式制約の式では、例えば２つの点音源が近接している場合でも、２つの指向方向をそれぞれの点音源に向けるため、点音源方向の合成ビームパターンは膨らんでしまう。これに対し、式（８）や式（９）のような式を用いて最適化を行えば、指向方向の多少のずれを許容して２つの点音源を１つの指向性でカバーし、その分合成ビームパターンの乱れを抑えるような結果が期待できる。

（方向音の取得及びヘッドホン再生信号の生成）
Ｓ１３〜Ｓ１６（正確にはこれらを含む周波数ループ内の処理）は、記憶部１２に格納されているＭチャンネルの音響信号から方向音を取得し、ヘッドホン再生信号を生成する処理を示している。
Ｓ１３〜Ｓ１５は、周波数毎の処理であるため、信号解析処理部１３は、周波数ループの中でＳ１３〜Ｓ１５の処理を繰り返し実行する。また、Ｓ１３〜Ｓ１５の処理は、Ｓ１２で指向方向を決定した指向性毎の処理でもあるため、信号解析処理部１３は、指向性ループの中でＳ１３〜Ｓ１５の処理を繰り返し実行する。
Ｓ１３では、信号解析処理部１３は、Ｓ５と同様に、現在の指向性ループで対象としている指向性を形成するためのフィルタ係数ｗ_ｄ（ｆ）を取得する。すなわち、信号解析処理部１３は、記憶部１２に保持されている指向性形成のフィルタ係数から、指向方向θ_ｄに対応するフィルタ係数ｗ_ｄ（ｆ）を取得する。

Ｓ１４では、信号解析処理部１３は、Ｓ１で取得したＭチャンネルの音響信号のフーリエ係数ｚ（ｆ）に、Ｓ１３で取得した指向性形成のフィルタ係数ｗ_ｄ（ｆ）によってフィルタ処理を行う。これにより、信号解析処理部１３は、現在の指向性ループに対応する指向方向θ_ｄの方向音Ｙ_ｄ（ｆ）を式（１０）のように生成する。Ｙ_ｄ（ｆ）は周波数領域のデータ（フーリエ係数）である。
Ｙ_ｄ（ｆ）＝ｗ_ｄ ^Ｈ（ｆ）ｚ（ｆ）（１０）
Ｓ１５では、信号解析処理部１３は、Ｓ１４で取得した指向方向θ_ｄの方向音のフーリエ係数Ｙ_ｄ（ｆ）に、指向方向θ_ｄと同じ方向の左右の耳のＨＲＴＦ［Ｈ_Ｌ（ｆ，θ_ｄ）、Ｈ_Ｒ（ｆ，θ_ｄ）］を乗じる。さらに、信号解析処理部１３は、この乗算の結果を、式（１１）のように左右それぞれのヘッドホン再生信号Ｘ_Ｌ（ｆ）、Ｘ_Ｒ（ｆ）に加算する。

ここで、Ｘ_Ｌ（ｆ）、Ｘ_Ｒ（ｆ）は周波数領域のデータ（フーリエ係数）である。なお、ＨＲＴＦは、記憶部１２に格納されているものを取得して用いればよい。指向性ループの中で本ステップの処理を行うことは、各指向方向の方向音を再生する仮想スピーカをユーザの周囲に順次配置することに相当する。
この後、Ｓ１６において、信号解析処理部１３は、Ｓ１３〜Ｓ１５の処理で生成したヘッドホン再生信号のフーリエ係数Ｘ_Ｌ（ｆ）、Ｘ_Ｒ（ｆ）を各々逆フーリエ変換し、時間波形であるヘッドホン再生信号ｘ_Ｌ（ｔ）、ｘ_Ｒ（ｔ）を生成する。さらに、信号解析処理部１３は、生成したヘッドホン再生信号ｘ_Ｌ（ｔ）、ｘ_Ｒ（ｔ）を音響信号出力部１４に入力する。
なお、Ｓ１３〜Ｓ１５の処理は周波数領域ではなく時間領域で行ってもよく、その場合は本ステップの逆フーリエ変換は不要となる。

Ｓ１７では、音響信号出力部１４が、Ｓ１６で信号解析処理部から入力されたヘッドホン再生信号ｘ_Ｌ（ｔ）、ｘ_Ｒ（ｔ）にＤＡ変換および増幅を施し、ヘッドホン４に供給する。ヘッドホン４は、供給されたヘッドホン再生信号に応じた音を再生する。
なお、図１において、音響入力部２は、マイクアレイ３から分離して示しているが、マイクアレイ３と一体に設けられてもよい。あるいは、音響入力部２は、信号処理装置１に含まれるように設けてもよい。

（効果）
以上、信号解析処理部１３は、検出した点音源の方向における各指向方向のビームパターンのうちの最大のものと他のものとの比を最小にし、各指向方向のビームパターンを合成した合成ビームパターンの乱れを最小化するように各指向方向を決定する。
このように決定した各指向方向に応じて、信号解析処理部１３は、各方向音を取得し、取得した方向音によりヘッドホン再生信号を生成する。さらに、ヘッドホン再生信号に応じて、ヘッドホン４によって音を再生することにより、本実施形態の信号処理システムでは、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立させることができる。

＜実施形態２＞
実施形態１では、複数のマイク素子で収音された音響の音響信号から点音源の方向を検出したが、本発明はこのような実施形態に限定されない。例えば、点音源の方向の検出は、映像に基づいて行ってもよい。点音源の方向の検出を映像に基づいて行う実施形態を、実施形態２として以下に説明する。以下の記載において、実施形態１との相違点を中心に説明をする。また、実施形態１と同じ構成については、実施形態１と同じ参照符号を用いる。実施形態１のヘッドホン４は、例えば、ヘッドマウントディスプレイ（ＨＭＤ：ＨｅａｄＭｏｕｎｔＤｉｓｐｌａｙ）に置換する。

（構成）
実施形態２の信号処理システムは、図１に示す実施形態１の信号処理システムの構成に加えて、被写体を撮影して映像信号を出力する図示しないカメラ等の撮像部と、撮像部からの映像信号を入力して記憶部１２に入力する映像信号入力部とを備える。映像信号入力部は、撮像部から入力した映像信号に、ＡＤ変換、符号化等の処理を行ない、デジタル映像信号として記憶部１２に入力する。撮像部と映像信号入力部を設けたことにより、音響信号の取得と同時に映像信号を取得し、記憶部１２に格納しておくことができる。この信号処理システムでは、映像信号から点音源の方向を検出する。

実施形態１では、指向方向の最適化を行うことにより、点音源の方向におけるある指向方向の方向音として捉える音のエネルギーと、それ以外の指向方向の方向音として捉える音のエネルギーとの比を、間接的に最大化していた。
これに対して、実施形態２では、各指向方向の方向音として捉える音のエネルギー比を直接的に最大化する。このために、まず、各指向方向の指向性のビームパターンの点音源方向の値ｂ_ｄ（ｆ，θ_ｓｑ）［ｄ＝１〜Ｄ］から、式（１２）のようにエネルギー比ｒ_ｑ（θ_ｄ）［ｑ＝１〜Ｑ］を定める。

ここで、エネルギー比は指向方向θ_ｄ［ｄ＝１〜Ｄ］の関数となるためｒ_ｑ（θ_ｄ）と表記し、周波数のインデックスｆは省略している。また、ｄｍａｘ（ｆ，θ_ｓｑ）は式（１３）で表されるような指向方向のインデックスであり、ｂ_ｄｍａｘ（ｆ，θ_ｓｑ）は点音源方向θ_ｓｑ［ｑ＝１〜Ｑ］の各ビームパターン値ｂ_ｄ（ｆ，θ_ｓｑ）［ｄ＝１〜Ｄ］の最大値である。

信号解析処理部１３は、エネルギー比の最大化による明瞭な点音源の音の再生と、合成ビームパターンの乱れの最小化による全方位でムラの無い雰囲気音の再生を両立させる。このために、信号解析処理部１３は、式（１４）で定義される最適化問題の解となるように、各指向性の指向方向θ_ｄ［ｄ＝１〜Ｄ］を最適化する。

式（１４）は、点音源方向のエネルギー比ｒ_ｑ（θ_ｄ）［ｑ＝１〜Ｑ］の和の符号反転値と、合成ビームパターンの乱れとの重み付き和を評価関数として最小化する式である。ここで、符号反転値としたのは、エネルギー比の最大化問題を最小化問題に変換するためである。また、μ_ｑ［ｑ＝１〜Ｑ］は点音源の優先度を表す重みであり、優先度の高い点音源ほどμ_ｑを大きく設定するようにする。また、β_ｒは式（１４）の第１項に係る全方位でムラの無い雰囲気音の再生と、第２項に係る明瞭な点音源の音の再生との間のトレードオフ（優先度）を調整する重みである。
なお、実施形態１と同様に、例えばシステム制御部１１によって制御される不図示のＧＵＩ部を介して、ユーザがこのトレードオフを間接的に調整できるようにしてもよい。

（信号解析処理）
以下、本実施形態の信号解析処理について、図７のフローチャートに沿って説明する。なお、実施形態１と同様に、この図７のフローチャートの処理は、特に別記しない限り信号解析処理部１３が行うものとする。
なお、図７の処理を開始する前に、Ｍ個（図１の場合では６個）のマイク素子３ａ〜３ｆで収音したＭチャンネル（図１の構成では６チャンネル）の音響信号と、映像信号入力部から入力された映像信号が、記憶部１２に格納されているものとする。

Ｓ２１の処理は、図３の実施形態１のＳ１の処理と同じであるため説明を省略する。
Ｓ２２では、信号解析処理部１３は、記憶部１２が保持している映像信号を取得し、映像認識処理を実行して点音源になり得る被写体（オブジェクト）を検出する。具体的には、例えば、信号解析処理部１３が、公知の顔認識や口認識（発話認識）等の処理を実行したり、公知の機械学習の手法を用いたりすることで、人、動物、乗り物、楽器等といった音を発し得るオブジェクトを検出する。また、信号解析処理部１３が、映像信号中から検出した動きベクトルの反転から、例えばバレーボール等のスポーツにおけるアタックの瞬間のボール等をオブジェクトとして検出してもよい。
Ｓ２３では、信号解析処理部１３は、Ｓ２２で検出したＱ個のオブジェクトから点音源の方向を算出する。映像信号の中心（マイクアレイ座標系の正面０°と一致するものとする）を原点とする座標系において、オブジェクトの水平画素座標（例えばオブジェクト検出枠の中心とする）をＵとすると、点音源方向θ_ｓｑ［ｑ＝１〜Ｑ］は次の式（１５）で算出できる。

ここで、Ｖは映像信号の水平撮影画角であり、Ｂは映像信号の水平画素数である。
（優先度の設定例）
なお、信号解析処理部１３が、Ｓ２２で検出したオブジェクトに応じて点音源の優先度を設定するようにしてもよい。
具体的には、例えば、オブジェクトの検出枠の大きさに応じて、点音源の優先度を設定するようにしてもよい。あるいは、例えば、検出枠（水平画素数）が小さい点音源ほど映像信号上で占める水平方向範囲が狭くなるため、明瞭にする必要があるとして優先度を高くしてもよい。

また、映像信号が例えば全方位の映像信号であり、その一部の領域のみを頭部装着型のＨＭＤで頭部運動に応じて表示する場合は、ＨＭＤに表示する表示範囲に応じて点音源の優先度を設定するようにしてもよい。あるいは、例えば、点音源が表示範囲の中心に近いほど優先度を高くしてもよい。また、映像としてユーザに見せたい点音源が表示範囲外である場合に、優先度を上げて明瞭にすることで視線誘導の効果を狙ってもよい。
また、点音源の優先度には音の大きさも関わるため、実施形態１のような音響信号による点音源の検出と組み合わせて、音と映像の両面から点音源の優先度を決定するようにしてもよい。

Ｓ２４では、信号解析処理部１３は、各指向性の指向方向θ_ｄ［ｄ＝１〜Ｄ］を初期化する。ただし、指向方向の制約条件があった実施形態１の式（４）と異なり、本実施形態の式（１４）には制約条件が無いため、図４のように均等配置した指向方向３１〜３６を初期値としてもよい。
Ｓ２５〜Ｓ３２は反復的な最適化計算に係る処理であり、最適化ループの中でＳ２５〜Ｓ３２の処理を繰り返し実行する。
Ｓ２５〜Ｓ２７の処理は、実施形態１のＳ５〜Ｓ７の処理と同じであるため説明を省略する。

Ｓ２８では、信号解析処理部１３は、式（１２）のように点音源方向のエネルギー比ｒ_ｑ（θ_ｄ）［ｑ＝１〜Ｑ］を算出する。図４の場合、点音源方向３０ａに対応する点音源［ｑ＝１］については、ビームパターン３２ａに対応する方向音として捉えられる音のエネルギー４２が最も大きく、次いでビームパターン３３ａに対応する方向音として捉えられる音のエネルギー４３が大きい。また、ビームパターン３１ａ、３４ａ〜３６ａに対応する方向音として捉えられる音のエネルギーは相対的に小さい。よって、この場合、点音源方向３０ａのエネルギー比ｒ_１（θ_ｄ）は概ね音のエネルギー４２と４３の比となる。
Ｓ２９では、信号解析処理部１３は、Ｓ２７で算出した合成ビームパターンの標準偏差σ_ｂｓｕｍ（θ_ｄ）と、Ｓ２８で算出した点音源方向のエネルギー比ｒ_ｑ（θ_ｄ）［ｑ＝１〜Ｑ］から、式（１４）に示す最適化問題の評価関数を算出する。
Ｓ３０〜Ｓ３８の処理は、実施形態１のＳ９〜Ｓ１７の処理と同じであるため説明を省略する。

なお、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するための最適化問題を定義する式は、式（１４）の他にも考えられる。例えば次の式（１６）は、点音源方向のエネルギー比ｒ_ｑ（θ_ｄ）［ｑ＝１〜Ｑ］を閾値Δｒ_ｑ［ｑ＝１〜Ｑ］以上にする制約条件のもと、合成ビームパターンの乱れを評価関数として最小化する式である。

ここで、閾値Δｒ_ｑ［ｑ＝１〜Ｑ］は点音源毎に変えてもよく、優先度の高い点音源ほどΔｒ_ｑを大きく設定するようにしてもよい。
以上、本実施形態の信号処理システムでは、方向音の取得を行うための指向性の指向方向を最適化することで、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立することができる。
なお、実施形態２の信号処理システムでは頭部装着型のヘッドマウントディスプレイを用いたが、信号処理装置１からの再生信号を受け取ることができる装置であれば、ヘッドマウントディスプレイ以外の機器を用いてもよい。

＜他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
なお、上述の実施形態では、音響信号の入力とヘッドホン再生信号の生成等の処理を１つの信号処理システムで実現していたが、各々別の信号処理システムあるいは信号処理装置として構成することもできる。
また、上述の実施形態において記憶部１２があらかじめ保持しているとした各種データは、システム制御部１１によって制御される不図示のデータ入出力部を介して、外部から入力するようにしてもよい。

また、ユーザの頭部運動を検出可能なセンサを、例えばヘッドホン４が備える構成としてもよい。このような構成とした場合、例えば音響信号の所定長（以下、「音響フレーム」と称する。）毎に、センサで検出したユーザの頭部運動に応じて、Ｓ１５あるいはＳ３６で使用するＨＲＴＦを切り替えるヘッドトラッキング処理を行ってもよい。
なお、上述の各実施形態の処理を音響信号の音響フレーム毎に行えば、移動する点音源にも対応できることは言うまでもない。すなわち、移動する点音源を追尾しつつ、合成ビームパターンの乱れを最小化するよう各方向音を取得する指向方向を逐次制御する。このとき、各音響フレームにおける指向方向の初期値には、前の音響フレームでの最適化結果を用いるのが好適である。

また、マイクアレイ３の代わりに、無指向性のマイク素子をマトリクス状に配置したマイクアレイを用いるようにしてもよい。このようなマイクアレイを用いる場合には、各マイク素子で収音した音響信号に指向性を形成するフィルタ処理を行って所望の方向の音響信号を生成することができる。各指向方向の方向音の取得は、指向性を形成するフィルタ処理におけるフィルタ係数を調整することによって行うことができる。このため、このような構成とした場合にも、指向方向の最適化を行うことによって、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立することができる。

また、ヘッドホン４の代わりに、ユーザの周囲に配置した複数のスピーカにより音響信号を再生するようにしてもよい。この場合、Ｓ１３〜Ｓ１５あるいはＳ３４〜Ｓ３６におけるヘッドホン再生信号の生成の代わりに、取得した方向音から各スピーカの再生信号を生成する。さらに、各スピーカの配置方向を制御可能な機構を備えた周囲スピーカシステムにより音響信号を再生するようにしてもよい。この場合、機構上の制約を考慮して、最適化問題において各指向方向の順番が入れ替わらないような制約条件を課してもよい。
また、信号処理装置１自体が、収音（マイクアレイ）や撮影（カメラ）・表示（ディスプレイ）等の機能を備える構成としてもよい。また、撮影・収音を行う機能と、表示・再生を行う機能を分離し、遠隔地で同期的に動作するように構成すれば、遠隔ライブシステムを実現することができる。

なお、上述の各実施形態では、水平全方位で明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するようにしていたが、対象とする方向範囲を任意に設定してもよい。例えば、水平方向だけでなく、仰角方向も含めた全方位を対象方向範囲としてもよいし、水平前方半面や、撮影した映像信号の画角範囲等に限定してもよい。この場合、例えば合成ビームパターンの乱れの目安である標準偏差は、水平全方位ではなく対象方向範囲の合成ビームパターンから算出する。

また、指向性を有する各マイク素子の軸方向を制御可能な機構を備えた指向性のマイクアレイを用いてもよい。この場合は、機構上の制約を考慮して、最適化問題において各指向方向の順番が入れ替わらないような制約条件を課してもよい。
また、上述の各実施形態では、合成ビームパターンの全周でのゲインの標準偏差により、合成ビームパターンの乱れの評価を行った場合について説明したが、これ以外の偏差を用いて評価を行ってもよい。例えば、合成ビームパターンの全方位において、ゲインの値と所定の値との差を求め、求めた差の総和によって合成ビームパターンの乱れを評価してもよい。これにより、各実施形態と同様に、合成ビームパターンのゲインの偏差を所定値より小さくすることができる。

１…信号処理装置、２…音響信号入力部、３ａ，３ｂ，３ｃ，３ｄ，３ｅ，３ｆ…マイク素子、４…ヘッドホン、１１…システム制御部、１２…記憶部、１３…信号解析処理部、１４…音響信号出力部

Claims

複数のマイク素子で収音された音響の音響信号から複数の指向方向ごとの方向音を取得する取得手段と、
前記音響信号から点音源の方向を検出する検出手段と、
前記複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、前記検出手段により検出された前記点音源の方向におけるゲインの値が最大のものとそれ以外のものとの比を所定値より大きくするとともに、複数の指向性のビームパターンを合成した合成ビームパターンのゲインの偏差を所定値より小さくするように、前記各指向方向を制御する制御手段と、
を備えることを特徴とする信号処理装置。
前記検出手段は、前記音響信号から複数の前記点音源の方向を検出し、
前記制御手段は、前記検出手段により検出された前記複数の前記点音源の方向の夫々について、前記複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、前記点音源の方向におけるゲインの値が最大のものとそれ以外のものとの比を所定値より大きくするように、前記各指向方向を制御することを特徴とする請求項１に記載の信号処理装置。
前記取得手段は、前記音響信号に前記指向方向に対応する指向性を形成するフィルタ処理を行うことで、前記方向音の取得を行うことを特徴とする請求項１又は２に記載の信号処理装置。
前記制御手段は、前記指向方向を最適化変数とする最適化問題を解き、その解を前記指向方向とすることを特徴とする請求項１〜３のいずれか１項に記載の信号処理装置。
前記最適化問題は、前記点音源の数の指向方向を前記点音源の方向に拘束する制約条件のもとでの前記合成ビームパターンのゲインの偏差の最小化であることを特徴とする請求項４に記載の信号処理装置。
前記最適化問題は、前記点音源の方向に最も近い指向方向と前記点音源の方向との差を第１の閾値以下にする制約条件のもとでの前記合成ビームパターンのゲインの偏差の最小化であることを特徴とする請求項４に記載の信号処理装置。
前記最適化問題は、前記点音源の方向に最も近い前記指向方向と前記点音源の方向との差の総和と、前記合成ビームパターンのゲインの偏差との重み付き和の最小化であることを特徴とする請求項４に記載の信号処理装置。
前記最適化問題は、前記点音源の方向における前記比を第２の閾値以上にする制約条件のもとでの前記合成ビームパターンのゲインの偏差の最小化であることを特徴とする請求項４に記載の信号処理装置。
前記最適化問題は、前記点音源の方向における前記比の和の符号反転値と、前記合成ビームパターンのゲインの偏差との重み付き和の最小化であることを特徴とする請求項４に記載の信号処理装置。
前記重み付き和における重みを調整する調整手段をさらに備えることを特徴とする請求項７又は９に記載の信号処理装置。
前記検出手段は、前記音響信号の空間相関行列を用いて空間スペクトルを求め、平均化して平均空間スペクトルを算出し、平均空間スペクトルの極大値から前記点音源の方向を検出することを特徴とする請求項１〜１０のいずれか１項に記載の信号処理装置。
前記制御手段は、前記平均空間スペクトルの極大値が大きい点音源を優先することを特徴とする請求項１１に記載の信号処理装置。
映像信号を入力する入力手段をさらに備え、前記検出手段は、前記映像信号から検出したオブジェクトの位置に応じて前記点音源の方向を検出することを特徴とする請求項１〜１２のいずれか１項に記載の信号処理装置。
前記制御手段は、前記検出されたオブジェクトの大きさに応じて前記点音源の優先度を設定することを特徴とする請求項１３に記載の信号処理装置。
前記制御手段は、前記映像信号の表示範囲に応じて前記点音源の優先度を設定することを特徴とする請求項１３又は１４に記載の信号処理装置。
前記取得手段により取得した方向音から再生信号を生成する生成手段をさらに備えることを特徴とする請求項１〜１５のいずれか１項に記載の信号処理装置。
前記生成手段は、頭部伝達関数を用いて前記再生信号を生成することを特徴とする請求項１６に記載の信号処理装置。
映像を表示する頭部装着型の表示手段をさらに備えることを特徴とする請求項１〜１７のいずれか１項に記載の信号処理装置。
複数のマイク素子で収音された音響信号に基づいて点音源の方向を検出する検出手段と、
複数の指向方向ごとの出力によって前記音響信号の方向音を再生するために当該複数の指向方向を設定する制御手段であって、前記検出手段により検出された前記点音源の方向を前記複数の指向方向のうちの一つの指向方向に設定すると共に、前記検出手段により検出された前記点音源の方向に対応する前記音響信号の方向音を再生する際のゲインと、前記検出手段により検出された前記点音源の方向と異なる方向に対応する前記音響信号の方向音を再生する際のゲインとの差が所定値より小さくなるように前記複数の指向方向のうちの他の指向方向を設定する制御手段と、
を備えることを特徴とする信号処理装置。
点音源の方向を検出するステップと、
各指向方向の方向音を取得する各指向性のビームパターンの前記検出した点音源の方向における値について最大値とそれ以外の値との比を大きくするとともに、各指向性のビームパターンを合成した合成ビームパターンの乱れを小さくするように前記指向方向を制御するステップと、
複数のマイク素子で収音された音響信号から前記指向方向ごとの方向音を取得するステップと、
を有することを特徴とする信号処理方法。
コンピュータを、請求項１〜１９のいずれか１項に記載の信号処理装置として機能させるためのコンピュータプログラム。