JP2017195581A - 信号処理装置、信号処理方法およびプログラム - Google Patents
信号処理装置、信号処理方法およびプログラム Download PDFInfo
- Publication number
- JP2017195581A JP2017195581A JP2016086506A JP2016086506A JP2017195581A JP 2017195581 A JP2017195581 A JP 2017195581A JP 2016086506 A JP2016086506 A JP 2016086506A JP 2016086506 A JP2016086506 A JP 2016086506A JP 2017195581 A JP2017195581 A JP 2017195581A
- Authority
- JP
- Japan
- Prior art keywords
- directivity
- sound source
- sound
- signal
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立する信号処理装置を提供すること。【解決手段】信号処理装置1は、複数のマイク素子3で収音された音響信号から複数の指向方向に対応する方向音を音響信号入力部2で取得し、信号解析処理部13は、点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するために、取得する方向音の指向方向を最適化する。信号解析処理部13は、複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、検出された点音源の方向におけるゲインの値が最大であるものとそれ以外のものとの比を所定値より大きくする。信号解析処理部13は、複数の指向方向に対応する指向性のビームパターンを合成した合成ビームパターンのゲインの偏差を所定値より小さくする。信号解析処理部13は、これら2つの条件を満たすように、各指向方向を制御する。【選択図】図1
Description
本発明は、音響信号から方向音を取得する信号処理装置、信号処理方法およびプログラムに関する。
複数のマイク素子を備えるマイクアレイで収音した音響から複数チャンネルの音響信号を取得し、当該音響信号から、方向毎の音(以下、「方向音」と称する。)を取得する技術が知られている。そして、取得した全方位の各方向音がそれぞれの方向から再生されているようにユーザに提示できれば、その場にいるかのような高臨場感を実現することができる。
方向音を取得する方法としては指向性を有するマイク素子を備えるマイクアレイを用いて収音した音響の音響信号から方向音を取得する方法の他に、フィルタリングに基づく方法がある。この方法では、無指向性のマイクアレイで収音して得た複数チャンネルの音響信号に、所望の指向方向に対応する指向性形成のフィルタ係数によってフィルタ処理を行うことで、任意の指向方向の方向音を取得することができる。
特許文献1に開示された技術では、指向性形成フィルタのフィルタ係数を切り換えて指向性を回転させ、音源の存在する方向を推定する。そして、推定した音源の方向に対応するフィルタ係数を選択して音源の方向に指向性を向けて収音する。
方向音を取得する方法としては指向性を有するマイク素子を備えるマイクアレイを用いて収音した音響の音響信号から方向音を取得する方法の他に、フィルタリングに基づく方法がある。この方法では、無指向性のマイクアレイで収音して得た複数チャンネルの音響信号に、所望の指向方向に対応する指向性形成のフィルタ係数によってフィルタ処理を行うことで、任意の指向方向の方向音を取得することができる。
特許文献1に開示された技術では、指向性形成フィルタのフィルタ係数を切り換えて指向性を回転させ、音源の存在する方向を推定する。そして、推定した音源の方向に対応するフィルタ係数を選択して音源の方向に指向性を向けて収音する。
方向音には、特定の方向にある音源(以下、「点音源」と称する。)の音と、非方向性の拡散音源の音(以下、「雰囲気音」と称する。)が含まれている。全方位の各方向音がそれぞれの方向から再生されているようにユーザに提示するためには、点音源の音を明瞭に再生することに加えて、雰囲気音を全方位でムラ無く再生することも大切である。
明瞭な点音源の音の再生が音の方向感に寄与するのに対して、全方位でムラの無い雰囲気音の再生は音場に包まれているように感じる「包まれ感」に寄与する。これら方向感や包まれ感は、音の臨場感の大切な要素である。
明瞭な点音源の音の再生が音の方向感に寄与するのに対して、全方位でムラの無い雰囲気音の再生は音場に包まれているように感じる「包まれ感」に寄与する。これら方向感や包まれ感は、音の臨場感の大切な要素である。
しかしながら、特許文献1に開示された技術では、音源の存在する方向に指向性をつけて収音することにより、明瞭な点音源の音の再生は実現できるものと考えられるが、全方位でムラの無い雰囲気音の再生については考慮されていない。
本発明は、上記課題を解決するためになされたものであり、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立することを目的とする。
本発明は、上記課題を解決するためになされたものであり、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立することを目的とする。
本発明に係る信号処理装置は、複数のマイク素子で収音された音響の音響信号から複数の指向方向ごとの方向音を取得する取得手段と、前記音響信号から点音源の方向を検出する検出手段と、前記複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、前記検出手段により検出された前記点音源の方向におけるゲインの値が最大のものとそれ以外のものとの比を所定値より大きくするとともに、複数の指向性のビームパターンを合成した合成ビームパターンのゲインの偏差を所定値より小さくするように、前記各指向方向を制御する制御手段と、を備える。
本発明によれば、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立することができる。
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。
<実施形態1>
(全体構成)
図1は、本発明の実施形態1の信号処理システムの構成を示すブロック図である。
この信号処理システムは、音響信号に対する信号処理を行う信号処理装置1と、音響信号を信号処理装置1に入力する音響信号入力部2と、音響を収音して音響信号を出力するマイクアレイ3と、供給された音響信号に応じた音を再生するヘッドホン4を備えている。信号処理装置1は、装置全体の制御を行うシステム制御部11と、音響信号等の各種データを記憶しておく記憶部12と、音響信号の解析処理を行う信号解析処理部13と、音響信号をヘッドホン4に出力する音響信号出力部14とを備えている。音響信号入力部2は、信号処理装置1に無線または有線で接続される。また、信号処理装置1は、ヘッドホン4に無線または有線で接続される。
なお、図1では、ヘッドホン4を信号処理装置1の外に設けた構成を示しているが、信号処理装置1内にヘッドホン4を含む構成としてもよいし、ヘッドホン4内に信号処理装置1を内蔵する構成としてもよい。
(全体構成)
図1は、本発明の実施形態1の信号処理システムの構成を示すブロック図である。
この信号処理システムは、音響信号に対する信号処理を行う信号処理装置1と、音響信号を信号処理装置1に入力する音響信号入力部2と、音響を収音して音響信号を出力するマイクアレイ3と、供給された音響信号に応じた音を再生するヘッドホン4を備えている。信号処理装置1は、装置全体の制御を行うシステム制御部11と、音響信号等の各種データを記憶しておく記憶部12と、音響信号の解析処理を行う信号解析処理部13と、音響信号をヘッドホン4に出力する音響信号出力部14とを備えている。音響信号入力部2は、信号処理装置1に無線または有線で接続される。また、信号処理装置1は、ヘッドホン4に無線または有線で接続される。
なお、図1では、ヘッドホン4を信号処理装置1の外に設けた構成を示しているが、信号処理装置1内にヘッドホン4を含む構成としてもよいし、ヘッドホン4内に信号処理装置1を内蔵する構成としてもよい。
マイクアレイ3は、例えばM個(6個)のマイク素子3a、3b、3c、3d、3eおよび3fを備えている。なお、少なくとも2個のマイク素子を備えていれば、後述するフィルタ処理におけるフィルタ係数の選択によって任意の指向方向の指向性を形成して方向音の取得を行うことができるため、マイク素子の数(M)は6個に限られない。各マイク素子3a〜3fは、その周囲の音響を収音し、アナログ音響信号を生成して、当該アナログ音響信号を音響信号入力部2に出力する。周囲の音響には、点音源の音および雰囲気音が含まれる。点音源の音には、例えば、人、動物、乗り物、楽器等の音や、バレーボール等のスポーツにおけるボールのアタック時の音等が含まれる。また、雰囲気音には、屋内では例えば反射・残響音、屋外では環境音といった背景となる音が含まれる。
音響信号入力部2は、各マイク素子3a〜3fからの6チャンネルの音響信号に対して増幅処理およびA/D変換処理等を施し、所定の音響サンプリングレートに対応する周期で、デジタル音響信号である6チャンネルの信号を生成する。音響信号入力部2は、生成したデジタル音響信号を記憶部12に入力する。
ヘッドホン4は、右耳用の音を再生する再生部4Rと左耳用の音を再生する再生部4Lとを備えている。このヘッドホン4は、音響信号出力部14から供給された音響信号に応じた音を再生する。
記憶部12には、音響信号入力部2から入力された6チャンネルの音響信号が格納される。また、記憶部12には、左右の耳の頭部伝達関数(HRTF:Head−Related Transfer Function)と、方向音の取得を行うための指向性を形成するフィルタ係数が格納されている。
ヘッドホン4は、右耳用の音を再生する再生部4Rと左耳用の音を再生する再生部4Lとを備えている。このヘッドホン4は、音響信号出力部14から供給された音響信号に応じた音を再生する。
記憶部12には、音響信号入力部2から入力された6チャンネルの音響信号が格納される。また、記憶部12には、左右の耳の頭部伝達関数(HRTF:Head−Related Transfer Function)と、方向音の取得を行うための指向性を形成するフィルタ係数が格納されている。
(再生動作概要)
信号解析処理部13は、後述する信号解析処理によって、記憶部12に格納されている6チャンネルの音響信号から点音源の方向を検出し、検出した点音源の方向に応じて、取得する方向音の指向方向の制御を行う。また、信号解析処理部13は、後述する信号解析処理によって、6チャンネルの音響信号から各指向方向の方向音を取得し、取得した方向音からヘッドホン4で再生する音響信号(以下、「ヘッドホン再生信号」と称する。)を生成する。この生成では、信号解析処理部13は、記憶部12に格納されている6チャンネルの音響信号から取得した各方向音の指向方向に、仮想スピーカを設定する。さらに、信号解析処理部13は、記憶部12に格納されているHRTFを考慮して、各仮想スピーカの方向の方向音に対応する音響信号を、左右それぞれ加算してヘッドホン再生信号を生成する。信号解析処理部13は、生成したヘッドホン再生信号を、音響信号出力部14に入力する。
信号解析処理部13は、後述する信号解析処理によって、記憶部12に格納されている6チャンネルの音響信号から点音源の方向を検出し、検出した点音源の方向に応じて、取得する方向音の指向方向の制御を行う。また、信号解析処理部13は、後述する信号解析処理によって、6チャンネルの音響信号から各指向方向の方向音を取得し、取得した方向音からヘッドホン4で再生する音響信号(以下、「ヘッドホン再生信号」と称する。)を生成する。この生成では、信号解析処理部13は、記憶部12に格納されている6チャンネルの音響信号から取得した各方向音の指向方向に、仮想スピーカを設定する。さらに、信号解析処理部13は、記憶部12に格納されているHRTFを考慮して、各仮想スピーカの方向の方向音に対応する音響信号を、左右それぞれ加算してヘッドホン再生信号を生成する。信号解析処理部13は、生成したヘッドホン再生信号を、音響信号出力部14に入力する。
音響信号出力部14は、信号解析処理部13から入力されたヘッドホン再生信号にDA変換および増幅を施し、ヘッドホン4に供給する。ヘッドホン4は、音響信号出力部14から供給されたヘッドホン再生信号に応じた音を再生する。
このように、各方向音に応じて生成したヘッドホン再生信号により音を再生することにより、実際のスピーカをユーザの周囲に配置して各チャンネルの音(方向音)が再生されているようにユーザに提示することができる。
このように、各方向音に応じて生成したヘッドホン再生信号により音を再生することにより、実際のスピーカをユーザの周囲に配置して各チャンネルの音(方向音)が再生されているようにユーザに提示することができる。
(ハードウェア構成)
図1に示す各機能ブロックはプログラムとして、後述するROM22等の記憶部に記憶され、CPU21によって実行される。なお、図1に示す機能ブロックの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウェアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
図1に示す各機能ブロックはプログラムとして、後述するROM22等の記憶部に記憶され、CPU21によって実行される。なお、図1に示す機能ブロックの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウェアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
図2は、信号処理装置1のハードウェア構成の一例を示している。信号処理装置1は、CPU21、ROM22、RAM23、外部メモリ24、入力部25、出力部26を有する。
CPU21は、入力された信号やプログラムに従って、各種の演算や信号処理装置1を構成する各部分の制御を行う。具体的には、CPU21は、点音源の方向の検出、方向音を取得する際の指向方向の制御、方向音の取得、ヘッドホン再生信号の生成等を行う。前述した図1の機能ブロックは、CPU21によって実行される機能を図示したものである。
CPU21は、入力された信号やプログラムに従って、各種の演算や信号処理装置1を構成する各部分の制御を行う。具体的には、CPU21は、点音源の方向の検出、方向音を取得する際の指向方向の制御、方向音の取得、ヘッドホン再生信号の生成等を行う。前述した図1の機能ブロックは、CPU21によって実行される機能を図示したものである。
RAM23は、一時的なデータを記憶し、CPU21の作業用に使われる。ROM22は、図1に示した各機能部を実行するためのプログラムや、各種の設定情報を記憶する。外部メモリ24は、例えば、着脱可能なメモリカードであり、PC(パーソナルコンピュータ)などに装着してデータを読み出すことが可能である。
また、RAM23あるいは外部メモリ24の所定の領域は記憶部12として使われる。
入力部25は、音響信号入力部2から入力した音響信号をRAM23あるいは外部メモリ24の記憶部12として使われる領域に格納する。出力部26は、CPU21が生成したヘッドホン再生信号をヘッドホン4に供給する。
また、RAM23あるいは外部メモリ24の所定の領域は記憶部12として使われる。
入力部25は、音響信号入力部2から入力した音響信号をRAM23あるいは外部メモリ24の記憶部12として使われる領域に格納する。出力部26は、CPU21が生成したヘッドホン再生信号をヘッドホン4に供給する。
(信号解析処理)
図3のフローチャートは、信号処理装置1が備えるCPU21が、ROM22等に記憶されるプログラムを実行することにより処理される。この処理は、例えば、記憶部12に格納されている音響信号からヘッドホン再生信号を生成し、ヘッドホン4で再生する際に実行される処理であり、ユーザによる開始指示に応じて開始される処理である。
以下、本実施形態の信号解析処理について、図3のフローチャートに沿って説明する。なお、この図3のフローチャートの処理は、特に別記しない限り信号解析処理部13が行うものとする。
なお、図3の処理を開始する前に、M個(図1の場合では6個)のマイク素子3a〜3fで収音したMチャンネル(図1の構成では6チャンネル)の音響信号が、記憶部12に格納されているものとする。信号解析処理部13は、図3の処理により、記憶部12に格納されているM個の音響信号から、D個の方向音を取得し、D個の方向音からヘッドホン再生信号を生成する。なお、指向性形成のフィルタ処理におけるフィルタ係数の選択によって任意の指向方向の指向性を形成して方向音の取得を行うことができるため、方向音の数Dは、音響信号のチャンネル数Mと同じ数としても、異なる数としてもよい。
図3のフローチャートは、信号処理装置1が備えるCPU21が、ROM22等に記憶されるプログラムを実行することにより処理される。この処理は、例えば、記憶部12に格納されている音響信号からヘッドホン再生信号を生成し、ヘッドホン4で再生する際に実行される処理であり、ユーザによる開始指示に応じて開始される処理である。
以下、本実施形態の信号解析処理について、図3のフローチャートに沿って説明する。なお、この図3のフローチャートの処理は、特に別記しない限り信号解析処理部13が行うものとする。
なお、図3の処理を開始する前に、M個(図1の場合では6個)のマイク素子3a〜3fで収音したMチャンネル(図1の構成では6チャンネル)の音響信号が、記憶部12に格納されているものとする。信号解析処理部13は、図3の処理により、記憶部12に格納されているM個の音響信号から、D個の方向音を取得し、D個の方向音からヘッドホン再生信号を生成する。なお、指向性形成のフィルタ処理におけるフィルタ係数の選択によって任意の指向方向の指向性を形成して方向音の取得を行うことができるため、方向音の数Dは、音響信号のチャンネル数Mと同じ数としても、異なる数としてもよい。
(点音源の方向の検出)
S1では、信号解析処理部13は、記憶部12が保持しているMチャンネルの音響信号を取得し、チャンネル毎にフーリエ変換することで周波数領域のデータ(フーリエ係数)であるz(f)を得る。ここで、各周波数のz(f)はM個の要素を持つベクトルである。
S2では、信号解析処理部13は、S3で音響信号から点音源の方向を検出するために、点音源方向に感度のピークを形成する空間スペクトルP(f,θ)を算出する。この算出において、信号解析処理部13は、音響信号の空間的性質を表す統計量である式(1)の空間相関行列R(f)と、各方向(方位角θ)の音源と各マイク素子3a〜3fの間の伝達関数であるアレイ・マニフォールド・ベクトルa(f,θ)とを用いる。
R(f)=E[z(f)zH(f)] (1)
ここで、Eは期待値を表し、上付きのHは複素共役転置を表す。また、a(f,θ)は周波数領域のデータ(フーリエ係数)であり、M個の要素で構成される。
例えば、最小分散法に基づく空間スペクトルPMV(f,θ)は、式(2)で得られる。
S1では、信号解析処理部13は、記憶部12が保持しているMチャンネルの音響信号を取得し、チャンネル毎にフーリエ変換することで周波数領域のデータ(フーリエ係数)であるz(f)を得る。ここで、各周波数のz(f)はM個の要素を持つベクトルである。
S2では、信号解析処理部13は、S3で音響信号から点音源の方向を検出するために、点音源方向に感度のピークを形成する空間スペクトルP(f,θ)を算出する。この算出において、信号解析処理部13は、音響信号の空間的性質を表す統計量である式(1)の空間相関行列R(f)と、各方向(方位角θ)の音源と各マイク素子3a〜3fの間の伝達関数であるアレイ・マニフォールド・ベクトルa(f,θ)とを用いる。
R(f)=E[z(f)zH(f)] (1)
ここで、Eは期待値を表し、上付きのHは複素共役転置を表す。また、a(f,θ)は周波数領域のデータ(フーリエ係数)であり、M個の要素で構成される。
例えば、最小分散法に基づく空間スペクトルPMV(f,θ)は、式(2)で得られる。
また、空間相関行列R(f)のM個の固有ベクトルのうち、雑音部分空間に対応するものを並べた行列をEnと置く。このとき、信号部分空間に属するアレイ・マニフォールド・ベクトルa(f,θ)との直交性を考えれば、MUSIC(Multiple Signal Classification)法の空間スペクトルPMU(f,θ)が式(3)で得られる。
a(f,θ)のθを、例えば−180°から180°まで1°刻みで変えながら、P(f,θ)=PMV(f,θ)[式(2)]やP(f,θ)=PMU(f,θ)[式(3)]のように計算することで、水平全方位の空間スペクトルが得られる。なお、音響信号に対応する音の収音に用いたマイクアレイ3の構造によっては、自由空間や剛球等の理論式により、任意の解像度でアレイ・マニフォールド・ベクトルa(f,θ)を算出できる。
S3では、信号解析処理部13は、S2で算出した空間スペクトルをもとに、音響信号から点音源の方向を検出する。具体的には、信号解析処理部13は、周波数毎の空間スペクトルP(f,θ)を、例えばfmin〜fmaxの範囲で平均化して平均空間スペクトルPmean(θ)を算出する。さらに、信号解析処理部13は、平均空間スペクトルPmean(θ)がピーク(極大値)となる方向を検出して点音源方向θsq[q=1〜Q]とする。ここで、fmin、fmaxは点音源の方向の検出の対象とする下限および上限周波数であり、Qは検出された点音源の数である。
S3では、信号解析処理部13は、S2で算出した空間スペクトルをもとに、音響信号から点音源の方向を検出する。具体的には、信号解析処理部13は、周波数毎の空間スペクトルP(f,θ)を、例えばfmin〜fmaxの範囲で平均化して平均空間スペクトルPmean(θ)を算出する。さらに、信号解析処理部13は、平均空間スペクトルPmean(θ)がピーク(極大値)となる方向を検出して点音源方向θsq[q=1〜Q]とする。ここで、fmin、fmaxは点音源の方向の検出の対象とする下限および上限周波数であり、Qは検出された点音源の数である。
(指向方向の最適化)
S4〜S12では、信号解析処理部13は、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するために、取得する方向音の指向方向を最適化する。
信号解析処理部13は、複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、検出された点音源の方向におけるゲインの値が最大であるものとそれ以外のものとの比を所定値より大きくする。また、信号解析処理部13は、複数の指向方向に対応する指向性のビームパターンを合成した合成ビームパターンのゲインの偏差を所定値より小さくする。信号解析処理部13は、これら2つの条件を満たすように、各指向方向を制御する。
S4〜S12では、信号解析処理部13は、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するために、取得する方向音の指向方向を最適化する。
信号解析処理部13は、複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、検出された点音源の方向におけるゲインの値が最大であるものとそれ以外のものとの比を所定値より大きくする。また、信号解析処理部13は、複数の指向方向に対応する指向性のビームパターンを合成した合成ビームパターンのゲインの偏差を所定値より小さくする。信号解析処理部13は、これら2つの条件を満たすように、各指向方向を制御する。
全方位でムラの無い雰囲気音の再生のみを目的にするのであれば、例えば図4に示すように、各方向音の指向方向31〜36を、全円周(−180°〜180°)で均等に配置すればよい。図4では、方向音の指向方向の数Dが図1のマイク素子3a〜3fの数Mと同じ6である場合を示している。なお、マイク素子の数Mが2以上であれば、指向性を形成するフィルタ処理におけるフィルタ係数の選択によって任意の指向方向の指向性を形成できるため、指向方向の数Dはマイク素子の数Mと異なっていてもよい。
また、図4において、最外周の実線の円およびこれと中心を同じくする円は、その半径が、ビームパターンの相対的なゲインに対応している。これら円の円周方向の位置は、マイクアレイ3の所定の基準方向(0°)からの方位に対応している。太い1点鎖線の直線31〜36は、各方向音の指向方向(メインローブ方向)を示している。太い破線の円31a〜36aは、各指向方向31〜36に対応する方向音の指向性を示すビームパターンを示している。
このように、各方向音の指向方向31〜36を均等に配置することにより、各指向方向の方向音のビームパターン31a〜36aを合成した合成ビームパターン37が略円形となるため、全方位でムラの無い雰囲気音の再生を実現できる。
また、図4において、最外周の実線の円およびこれと中心を同じくする円は、その半径が、ビームパターンの相対的なゲインに対応している。これら円の円周方向の位置は、マイクアレイ3の所定の基準方向(0°)からの方位に対応している。太い1点鎖線の直線31〜36は、各方向音の指向方向(メインローブ方向)を示している。太い破線の円31a〜36aは、各指向方向31〜36に対応する方向音の指向性を示すビームパターンを示している。
このように、各方向音の指向方向31〜36を均等に配置することにより、各指向方向の方向音のビームパターン31a〜36aを合成した合成ビームパターン37が略円形となるため、全方位でムラの無い雰囲気音の再生を実現できる。
ところで、ある指向性の指向方向(メインローブ方向)が点音源の方向を向いていれば、その指向性に対応する方向音として捉えられる音のエネルギーは、それ以外の指向性に対応する方向音として捉えられる音のエネルギーに比べてかなり大きくなる。このような状態で取得された方向音からヘッドホン再生信号を生成すれば、点音源の音は、点音源の方向に配置された仮想スピーカから主として再生される。このため、点音源の方向に配置された仮想スピーカから再生される点音源の音は、その他の方向に配置された仮想スピーカから再生される当該点音源の音より音量が大きくなり、点音源の音が明瞭に再生される。
これに対し、指向性の指向方向が点音源の方向を向いておらず、隣接する複数の指向性の指向方向の間に点音源があると、複数の指向性に対応する方向音として捉えられる音のエネルギーにはあまり差が生じない。
ここで、図4の点音源方向30a、30bに点音源がある場合を想定する。この場合、例えばビームパターン32aとビームパターン33aの点音源方向30aにおける値の比が小さい。このため、点音源方向30aに対応する点音源の音については、ビームパターン32aに対応する指向方向の方向音のエネルギー42と、ビームパターン33aに対応する指向方向の方向音のエネルギー43にはあまり差がない。このような状態で取得された方向音に応じてヘッドホン再生信号を生成すると、指向方向32に配置される仮想スピーカの音量と、指向方向33に配置される仮想スピーカの音量の差が小さくなってしまう。
ここで、図4の点音源方向30a、30bに点音源がある場合を想定する。この場合、例えばビームパターン32aとビームパターン33aの点音源方向30aにおける値の比が小さい。このため、点音源方向30aに対応する点音源の音については、ビームパターン32aに対応する指向方向の方向音のエネルギー42と、ビームパターン33aに対応する指向方向の方向音のエネルギー43にはあまり差がない。このような状態で取得された方向音に応じてヘッドホン再生信号を生成すると、指向方向32に配置される仮想スピーカの音量と、指向方向33に配置される仮想スピーカの音量の差が小さくなってしまう。
このため、ヘッドホン4で再生される音についても、指向方向32と指向方向33とで音量の差が小さい状態となり、点音源の音の再生が不明瞭になる。
このため、本実施形態の信号処理システムでは、信号解析処理部13からの制御により、点音源方向30a、30bにそれぞれ最も近い指向方向32、35を向け、例えば図5のように、指向方向32’、35’とする。これにより、例えばビームパターン32a’とビームパターン33aの点音源方向30aにおけるゲインの値とそれ以外のビームパターンのゲインの値の比が図4の場合より大きくなる。すなわち、点音源方向30aにおいては、ゲインの値が最大のもの(ビームパターン32a’)とそれ以外のもの(ビームパターン)との比が所定値より大きくなる。このため、点音源方向30aの点音源については、ビームパターン32a’に対応する指向方向の方向音のエネルギー42’と、ビームパターン33aに対応する指向方向の方向音のエネルギー43の差が図4の場合より大きくなる。このような状態で取得された方向音に応じてヘッドホン再生信号を生成し、ヘッドホン4で音を再生すると、点音源の音の再生が、図4に示す状態で取得された方向音に応じてヘッドホン再生信号を生成した場合より明瞭になる。
このため、本実施形態の信号処理システムでは、信号解析処理部13からの制御により、点音源方向30a、30bにそれぞれ最も近い指向方向32、35を向け、例えば図5のように、指向方向32’、35’とする。これにより、例えばビームパターン32a’とビームパターン33aの点音源方向30aにおけるゲインの値とそれ以外のビームパターンのゲインの値の比が図4の場合より大きくなる。すなわち、点音源方向30aにおいては、ゲインの値が最大のもの(ビームパターン32a’)とそれ以外のもの(ビームパターン)との比が所定値より大きくなる。このため、点音源方向30aの点音源については、ビームパターン32a’に対応する指向方向の方向音のエネルギー42’と、ビームパターン33aに対応する指向方向の方向音のエネルギー43の差が図4の場合より大きくなる。このような状態で取得された方向音に応じてヘッドホン再生信号を生成し、ヘッドホン4で音を再生すると、点音源の音の再生が、図4に示す状態で取得された方向音に応じてヘッドホン再生信号を生成した場合より明瞭になる。
しかしながら、このような指向方向の配置変更を行った場合には、合成ビームパターン37’に、膨らみ51、53や凹み52、54といった乱れが生じてしまっている。つまり、合成ビームパターン37’は、略円形ではなくなる。このため、全ての方向音に基づいて再生される雰囲気音にもムラが生じている。
また、合成ビームパターン37’に乱れがある場合、雰囲気音のムラの他に、次のような問題が生じる。例えば点音源方向30aに対応する点音源については、ビームパターン32a’に対応する指向方向の方向音として取得した音が、点音源方向30aと同じ指向方向32’に配置される仮想スピーカから再生される。これに加えて、ビームパターン33aに対応する指向方向の方向音として取得した音が指向方向33に配置される仮想スピーカから再生される。この場合、合成ビームパターン37’の膨らみ51があるため、点音源の方向が合成ビームパターン37’の膨らみ51の方にずれて知覚されてしまう可能性がある。
このため、本実施形態の信号処理システムでは、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するために、信号解析処理部13が、式(4)のような最適化問題の解となるように、方向音を取得する指向方向θd[d=1〜D]を最適化する。
また、合成ビームパターン37’に乱れがある場合、雰囲気音のムラの他に、次のような問題が生じる。例えば点音源方向30aに対応する点音源については、ビームパターン32a’に対応する指向方向の方向音として取得した音が、点音源方向30aと同じ指向方向32’に配置される仮想スピーカから再生される。これに加えて、ビームパターン33aに対応する指向方向の方向音として取得した音が指向方向33に配置される仮想スピーカから再生される。この場合、合成ビームパターン37’の膨らみ51があるため、点音源の方向が合成ビームパターン37’の膨らみ51の方にずれて知覚されてしまう可能性がある。
このため、本実施形態の信号処理システムでは、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するために、信号解析処理部13が、式(4)のような最適化問題の解となるように、方向音を取得する指向方向θd[d=1〜D]を最適化する。
式(4)は、D個の指向方向θd[d=1〜D]のうちQ個の指向方向θdmin(q)[q=1〜Q]を点音源方向θsq[q=1〜Q]に向けるという制約条件の下、合成ビームパターンの乱れを最小化し、指向方向を最適化することを意味している。合成ビームパターンの乱れは、合成ビームパターンのゲインの偏差、例えばゲインの標準偏差σbsum(θd)により評価する。すなわち、この最適化問題では、各指向方向が最適化変数となり、標準偏差σbsum(θd)が評価関数となる。信号解析処理部13は、このように定義された指向方向を最適化変数とする最適化問題を解き、その解を各指向方向として決定する。
以上を踏まえた上で、指向方向の最適化を行うS4〜S12の処理を説明する。なお、指向方向の最適化は、全周波数のうち少なくとも代表周波数(例えば1kHz)について考えればよい。以下のS4〜S12の説明における周波数のインデックスfは、このような代表周波数を表しているものとする。なお、代表周波数は、例えば音響信号中の強度が高い帯域の中心周波数等としてもよい。
S4では、信号解析処理部13は、各指向性の指向方向θd[d=1〜D]を初期化する。まず、複数の指向性で水平全方位をカバーするため、音響を収音したマイクアレイの座標系における正面0°を基準方向として、図4のように指向方向数D(=6)で各指向性の指向方向31〜36を均等配置する。すなわち、指向方向31のθ1=0°、指向方向32のθ2=60°、指向方向33のθ3=120°、指向方向34のθ4=180°、指向方向35のθ5=−120°、指向方向36のθ6=−60°となる。なお、指向方向数Dが少ないと均等配置でも合成ビームパターンに凹みが生じるため、少なくとも略円形になり始めるくらいのD(例えば図4に示す場合では6程度)を用いるのが好適である。
ここで、S3で例えばQ=2個の点音源が検出され、点音源方向30aのθs1=85°、点音源方向30bのθs2=−148°であったとする。この場合、上記均等配置の指向方向θd[d=1〜D]のいずれも点音源方向θsq[q=1〜Q]を向いていないため、式(4)の制約条件を満たしていない。そこで、信号解析処理部13は、点音源方向30a、30bにそれぞれ最も近い指向方向32、35を点音源方向に向け、図5のように指向方向32’、35’とすることで、式(4)の制約条件を満たすように指向方向θd[d=1〜D]を初期化する。これにより、指向方向31のθ1=0°、指向方向32’のθ2=85°、指向方向33のθ3=120°、指向方向34のθ4=180°、指向方向35’のθ5=−148°、指向方向36のθ6=−60°となる。
これに続くS5〜S11は、反復的な最適化計算に係る処理である。信号解析処理部13は、最適化ループの中で、S5〜S11の処理を繰り返し実行する。また、S5〜S6は、S4で指向方向を初期化した指向性毎の処理である。信号解析処理部13は、指向性ループの中で、S5〜S6の処理を繰り返し実行する。
S5では、信号解析処理部13は、現在の指向性ループで対象としている指向性を形成するためのフィルタ係数を取得する。ここでは、記憶部12に格納されているフィルタ係数から、指向方向θdに対応するフィルタ係数wd(f)を取得する。ここで、フィルタ係数wd(f)は、周波数領域のベクトルデータ(フーリエ係数)であり、M個の要素で構成される。なお、マイクアレイ3の構成が異なるとフィルタ係数も異なるため、収音に用いたマイクアレイ3の種別を示す種別IDを音響信号の付加情報として記録しておいてもよい。この場合は、信号解析処理部13が、種別IDに対応するマイクアレイ3のフィルタ係数を記憶部12から取得し、本ステップの処理で用いるようにしてもよい。
S5では、信号解析処理部13は、現在の指向性ループで対象としている指向性を形成するためのフィルタ係数を取得する。ここでは、記憶部12に格納されているフィルタ係数から、指向方向θdに対応するフィルタ係数wd(f)を取得する。ここで、フィルタ係数wd(f)は、周波数領域のベクトルデータ(フーリエ係数)であり、M個の要素で構成される。なお、マイクアレイ3の構成が異なるとフィルタ係数も異なるため、収音に用いたマイクアレイ3の種別を示す種別IDを音響信号の付加情報として記録しておいてもよい。この場合は、信号解析処理部13が、種別IDに対応するマイクアレイ3のフィルタ係数を記憶部12から取得し、本ステップの処理で用いるようにしてもよい。
指向性形成のフィルタ係数の算出には、アレイ・マニフォールド・ベクトルa(f,θ)が一般に用いられる。指向方向θdに指向性のメインローブを形成する方法として、例えば遅延和法ならθd方向のアレイ・マニフォールド・ベクトルad(f)を用いて、wd(f)=ad(f)/(ad H(f)ad(f))のようにフィルタ係数が得られる。
S6では、信号解析処理部13は、S5で取得した指向性形成のフィルタ係数wd(f)と、アレイ・マニフォールド・ベクトルa(f,θ)とを用いて指向性のビームパターンを算出する。ビームパターンの方位角θ方向の値bd(f,θ)は、式(6)で得られる。
bd(f,θ)=wd H(f)a(f,θ) (6)
S6では、信号解析処理部13は、S5で取得した指向性形成のフィルタ係数wd(f)と、アレイ・マニフォールド・ベクトルa(f,θ)とを用いて指向性のビームパターンを算出する。ビームパターンの方位角θ方向の値bd(f,θ)は、式(6)で得られる。
bd(f,θ)=wd H(f)a(f,θ) (6)
アレイ・マニフォールド・ベクトルa(f,θ)のθを、例えば−180°から180°まで1°刻みで変えながらbd(f,θ)を計算することで、水平全方位のビームパターンが得られる。なお、円状等間隔マイクアレイ等のように、マイク素子が等方的に配置されている場合は、指向方向が正面0°の場合のビームパターンb1(f,θ)を順次回転させることで、他の指向性のビームパターンbd(f,θ)[d=2〜]を得ることもできる。
S7では、信号解析処理部13は、S6で算出した各指向性のビームパターンbd(f,θ)[d=1〜D]を合成することで、式(7)のように合成ビームパターンbsum(f,θ)を算出する。
S7では、信号解析処理部13は、S6で算出した各指向性のビームパターンbd(f,θ)[d=1〜D]を合成することで、式(7)のように合成ビームパターンbsum(f,θ)を算出する。
S8では、信号解析処理部13は、合成ビームパターンbsum(f,θ)を、例えばデシベル[dB]表示に変換して標準偏差σbsum(θd)を算出し、式(4)の最適化問題の評価関数とする。ここで、標準偏差は指向方向θd[d=1〜D]の関数となるためσbsum(θd)と表記し、周波数のインデックスfは省略している。
S9では、信号解析処理部13は、最適化ループにおける最適化が収束したかを判定し、収束した場合はS12へ進み、収束していない場合はS10へ進む。収束したか否かの判定は、例えば評価関数値[式(4)の場合では標準偏差σbsum(θd)]の前の最適化ループの実行時の値に対する減少量が所定値未満となったか否かの判定で行う。あるいは、最適化変数である指向方向θd[d=1〜D]について、前の最適化ループで求めた値との差が所定値未満となったか否かで収束の判定を行ってもよい。あるいは、現在の最適化ループの評価関数値が所定値未満となった時点で収束したと判定してもよい。この場合では、評価関数として標準偏差を用いているため、収束するまで最適化ループの処理を実行することにより、合成ビームパターンの標準偏差を所定値より小さくするように指向方向が制御される。
S9では、信号解析処理部13は、最適化ループにおける最適化が収束したかを判定し、収束した場合はS12へ進み、収束していない場合はS10へ進む。収束したか否かの判定は、例えば評価関数値[式(4)の場合では標準偏差σbsum(θd)]の前の最適化ループの実行時の値に対する減少量が所定値未満となったか否かの判定で行う。あるいは、最適化変数である指向方向θd[d=1〜D]について、前の最適化ループで求めた値との差が所定値未満となったか否かで収束の判定を行ってもよい。あるいは、現在の最適化ループの評価関数値が所定値未満となった時点で収束したと判定してもよい。この場合では、評価関数として標準偏差を用いているため、収束するまで最適化ループの処理を実行することにより、合成ビームパターンの標準偏差を所定値より小さくするように指向方向が制御される。
S10では、信号解析処理部13は、最適化ループにおける指向方向θd[d=1〜D]の更新回数が所定の上限値に達したかを判定し、達した場合はS12へ進み、達していない場合はS11へ進む。
S11では、信号解析処理部13は、指向性の指向方向を更新する。すなわち、式(4)の制約条件に基づきQ個の指向方向θdmin(q)[q=1〜Q]を点音源方向θsq[q=1〜Q]に固定(拘束)した状態で、合成ビームパターンの標準偏差σbsum(θd)が小さくなる方向へ(D−Q)個の指向方向を更新する。なお、式(4)のように最適化問題として数式で定義(以下、「定式化」と称する。)すれば、最適化変数である指向方向の更新には、種々の公知な最適化アルゴリズムを適用することができる。あるいは、最適化アルゴリズムの代わりに全探索やランダム探索によって指向方向の更新を行ってもよい。
S11では、信号解析処理部13は、指向性の指向方向を更新する。すなわち、式(4)の制約条件に基づきQ個の指向方向θdmin(q)[q=1〜Q]を点音源方向θsq[q=1〜Q]に固定(拘束)した状態で、合成ビームパターンの標準偏差σbsum(θd)が小さくなる方向へ(D−Q)個の指向方向を更新する。なお、式(4)のように最適化問題として数式で定義(以下、「定式化」と称する。)すれば、最適化変数である指向方向の更新には、種々の公知な最適化アルゴリズムを適用することができる。あるいは、最適化アルゴリズムの代わりに全探索やランダム探索によって指向方向の更新を行ってもよい。
最適化が収束するか最適化ループにおける更新回数が上限値に達すると、信号解析処理部13は、S12において、最適化で評価関数(この場合では、標準偏差σbsum(θd))の値が最小となったときの指向方向θd[d=1〜D]を選択する。これにより、方向音を取得する際の指向方向が最適化される。すなわち、式(4)の制約条件の下、複数の指向性のビームパターンを合成した合成ビームパターンのゲインの偏差が最小化される。
例えば図5のように初期化した指向方向を最適化した結果を、図6に示す。ここで、図5の指向方向31、33、34、36がそれぞれ、図6の指向方向31’、33’、34’、36’に最適化されている。すなわち、指向方向31’のθ1=−31.5°[−31.5°]、指向方向33’のθ3=26.9°[−93.1°]、指向方向34’のθ4=148.6°[−31.4°]、指向方向36’のθ6=−89.9°[−29.9°]である。なお、カギ括弧[]内の数値は指向方向の初期値からの更新量であり、図6では矢印で模式的に表現されている。
例えば図5のように初期化した指向方向を最適化した結果を、図6に示す。ここで、図5の指向方向31、33、34、36がそれぞれ、図6の指向方向31’、33’、34’、36’に最適化されている。すなわち、指向方向31’のθ1=−31.5°[−31.5°]、指向方向33’のθ3=26.9°[−93.1°]、指向方向34’のθ4=148.6°[−31.4°]、指向方向36’のθ6=−89.9°[−29.9°]である。なお、カギ括弧[]内の数値は指向方向の初期値からの更新量であり、図6では矢印で模式的に表現されている。
例えば点音源方向30aについては、指向性のビームパターンのゲインの値が最も大きいビームパターン32a’のゲインの値と他のビームパターン33a’、34a’のゲインの値との比が図5の場合より大きくなっている。点音源方向30aの点音源については、ビームパターン32a’に対応する指向方向の方向音のエネルギー42’が、ビームパターン33a’、34a’に対応する指向方向の方向音のエネルギー43’、44’に比べてかなり大きくなる。すなわち、点音源の方向における指向性のビームパターンのゲインの値が最大のものとそれ以外のものとの比が所定値より大きく設定される。なお、この比を最大化するようにしてもよい。
また、点音源方向30bについても、同様に、指向方向の最適化を行う。これにより、検出された複数の点音源の方向の夫々について、指向性のビームパターンのゲインの値であって、点音源の方向におけるゲインの値が最大のものとそれ以外のものの比が所定値より大きく設定される。図6のような状態で、音響信号から方向音の取得を行い、取得した方向音に応じてヘッドホン再生信号を生成し、ヘッドホン再生信号に応じてヘッドホン4により音を再生すれば、点音源の音を明瞭に再生することができる。
また、図6に示す状態では、合成ビームパターン37”が略円形となるため、全方位でムラの無い雰囲気音の再生を実現できる。合成ビームパターンの標準偏差σbsum(θd)の具体的な値は、例えば図4の合成ビームパターン37が0.21dB、図5の合成ビームパターン37’が1.65dB、図6の合成ビームパターン37”が0.29dBである。すなわち、指向方向を最適化した図6の状態では、点音源方向に指向方向を向けつつ、合成ビームパターンの乱れを図4の均等配置の場合と同程度にまで抑制できている。即ち、上述の処理により、点音源の方向に対応する音響信号の方向音を再生する際のゲインと、点音源の方向以外の方向音を再生する際のゲインとの差が所定値より小さくなるように、指向方向を設定する。このような状態で、音響信号から方向音の取得を行い、取得した方向音に応じてヘッドホン再生信号を生成し、ヘッドホン再生信号に応じてヘッドホン4により音を再生すれば、全方位でムラの無い雰囲気音を再生することができる。したがって、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立できる。
ここで、円状等間隔マイクアレイ等のようにマイク素子が等方的に配置されており、点音源の数Q=1であれば、いずれかの指向方向θd[d=1〜D]を点音源の方向θs1に向け、均等配置の他の指向方向θdを同じ角度だけ回転させればよい。
ここで、円状等間隔マイクアレイ等のようにマイク素子が等方的に配置されており、点音源の数Q=1であれば、いずれかの指向方向θd[d=1〜D]を点音源の方向θs1に向け、均等配置の他の指向方向θdを同じ角度だけ回転させればよい。
これに対し、マイク素子の配置が等方的でなく、指向方向によって形成可能なビームパターンの形が異なったり、複数の点音源が存在したりする等、指向方向の最適化のための条件が複雑になると、適切な指向方向を導くためには式(4)のような式が必要になる。これは、2つの点音源が存在する図4の例において、図6の最適化された指向方向の初期値からの更新量がそれぞれ異なっており、特に指向方向33’が指向方向31’と指向方向32’の間に入っているといった結果からも分かる。
なお、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するための、最適化問題を定義する式は、式(4)の他にも様々考えられる。例えば式(8)は、点音源方向に最も近い指向方向θdmin(q)[q=1〜Q]と、点音源方向θsq[q=1〜Q]との差を閾値Δθq[q=1〜Q]以下にする制約条件のもと、合成ビームパターンの乱れを評価関数として最小化する式である。
ここで、閾値Δθq[q=1〜Q]は点音源毎に変えてもよく、例えばS3で平均空間スペクトルのピーク(極大値)が大きかった点音源ほど優先し、閾値Δθqを小さく設定するようにしてもよい。これにより、優先度の高い点音源は指向方向を正確に向けることで明瞭にし、優先度の低い点音源は指向方向の多少のずれを許容して、その分合成ビームパターンの乱れを抑えることができる。この結果、式(4)と評価関数は同じでも、より柔軟に制約条件を記述することができる。
また、最適化問題において、制約条件を評価関数に組み込むような定義も可能である。例えば式(9)は、点音源方向に最も近い指向方向θdmin(q)[q=1〜Q]と点音源方向θsq[q=1〜Q]との差の総和と、合成ビームパターンの乱れとの重み付き和を評価関数として最小化する式である。
また、最適化問題において、制約条件を評価関数に組み込むような定義も可能である。例えば式(9)は、点音源方向に最も近い指向方向θdmin(q)[q=1〜Q]と点音源方向θsq[q=1〜Q]との差の総和と、合成ビームパターンの乱れとの重み付き和を評価関数として最小化する式である。
ここで、λq[q=1〜Q]は点音源の優先度を表す重みであり、例えばS3で平均空間スペクトルのピーク(極大値)が大きかった点音源ほど優先し、λqを大きく設定するようにしてもよい。また、βθは式(9)の第1項に係る全方位でムラの無い雰囲気音と、第2項に係る明瞭な点音源の音の再生との間のトレードオフ(優先度)を調整する重みである。なお、例えばシステム制御部11によって制御される不図示のGUI(Graphical User Interface)部を介して、ユーザがこのトレードオフを間接的に調整できるようにしてもよい。GUI部を用いることにより、例えば、両端を方向感重視と包まれ感重視としたスライダバーを表示させ、ユーザの指示を入力する。信号解析処理部13は、ユーザの指示に応じて、バーの位置が方向感重視に近いほどβθを大きくして明瞭な点音源の音の再生を優先してもよい。そして、バーの位置が包まれ感重視に近いほどβθを小さくして全方位でムラの無い雰囲気音を優先するようにしてもよい。
なお、式(4)のような等式制約の式では、例えば2つの点音源が近接している場合でも、2つの指向方向をそれぞれの点音源に向けるため、点音源方向の合成ビームパターンは膨らんでしまう。これに対し、式(8)や式(9)のような式を用いて最適化を行えば、指向方向の多少のずれを許容して2つの点音源を1つの指向性でカバーし、その分合成ビームパターンの乱れを抑えるような結果が期待できる。
(方向音の取得及びヘッドホン再生信号の生成)
S13〜S16(正確にはこれらを含む周波数ループ内の処理)は、記憶部12に格納されているMチャンネルの音響信号から方向音を取得し、ヘッドホン再生信号を生成する処理を示している。
S13〜S15は、周波数毎の処理であるため、信号解析処理部13は、周波数ループの中でS13〜S15の処理を繰り返し実行する。また、S13〜S15の処理は、S12で指向方向を決定した指向性毎の処理でもあるため、信号解析処理部13は、指向性ループの中でS13〜S15の処理を繰り返し実行する。
S13では、信号解析処理部13は、S5と同様に、現在の指向性ループで対象としている指向性を形成するためのフィルタ係数wd(f)を取得する。すなわち、信号解析処理部13は、記憶部12に保持されている指向性形成のフィルタ係数から、指向方向θdに対応するフィルタ係数wd(f)を取得する。
S13〜S16(正確にはこれらを含む周波数ループ内の処理)は、記憶部12に格納されているMチャンネルの音響信号から方向音を取得し、ヘッドホン再生信号を生成する処理を示している。
S13〜S15は、周波数毎の処理であるため、信号解析処理部13は、周波数ループの中でS13〜S15の処理を繰り返し実行する。また、S13〜S15の処理は、S12で指向方向を決定した指向性毎の処理でもあるため、信号解析処理部13は、指向性ループの中でS13〜S15の処理を繰り返し実行する。
S13では、信号解析処理部13は、S5と同様に、現在の指向性ループで対象としている指向性を形成するためのフィルタ係数wd(f)を取得する。すなわち、信号解析処理部13は、記憶部12に保持されている指向性形成のフィルタ係数から、指向方向θdに対応するフィルタ係数wd(f)を取得する。
S14では、信号解析処理部13は、S1で取得したMチャンネルの音響信号のフーリエ係数z(f)に、S13で取得した指向性形成のフィルタ係数wd(f)によってフィルタ処理を行う。これにより、信号解析処理部13は、現在の指向性ループに対応する指向方向θdの方向音Yd(f)を式(10)のように生成する。Yd(f)は周波数領域のデータ(フーリエ係数)である。
Yd(f)=wd H(f)z(f) (10)
S15では、信号解析処理部13は、S14で取得した指向方向θdの方向音のフーリエ係数Yd(f)に、指向方向θdと同じ方向の左右の耳のHRTF[HL(f,θd)、HR(f,θd)]を乗じる。さらに、信号解析処理部13は、この乗算の結果を、式(11)のように左右それぞれのヘッドホン再生信号XL(f)、XR(f)に加算する。
Yd(f)=wd H(f)z(f) (10)
S15では、信号解析処理部13は、S14で取得した指向方向θdの方向音のフーリエ係数Yd(f)に、指向方向θdと同じ方向の左右の耳のHRTF[HL(f,θd)、HR(f,θd)]を乗じる。さらに、信号解析処理部13は、この乗算の結果を、式(11)のように左右それぞれのヘッドホン再生信号XL(f)、XR(f)に加算する。
ここで、XL(f)、XR(f)は周波数領域のデータ(フーリエ係数)である。なお、HRTFは、記憶部12に格納されているものを取得して用いればよい。指向性ループの中で本ステップの処理を行うことは、各指向方向の方向音を再生する仮想スピーカをユーザの周囲に順次配置することに相当する。
この後、S16において、信号解析処理部13は、S13〜S15の処理で生成したヘッドホン再生信号のフーリエ係数XL(f)、XR(f)を各々逆フーリエ変換し、時間波形であるヘッドホン再生信号xL(t)、xR(t)を生成する。さらに、信号解析処理部13は、生成したヘッドホン再生信号xL(t)、xR(t)を音響信号出力部14に入力する。
なお、S13〜S15の処理は周波数領域ではなく時間領域で行ってもよく、その場合は本ステップの逆フーリエ変換は不要となる。
この後、S16において、信号解析処理部13は、S13〜S15の処理で生成したヘッドホン再生信号のフーリエ係数XL(f)、XR(f)を各々逆フーリエ変換し、時間波形であるヘッドホン再生信号xL(t)、xR(t)を生成する。さらに、信号解析処理部13は、生成したヘッドホン再生信号xL(t)、xR(t)を音響信号出力部14に入力する。
なお、S13〜S15の処理は周波数領域ではなく時間領域で行ってもよく、その場合は本ステップの逆フーリエ変換は不要となる。
S17では、音響信号出力部14が、S16で信号解析処理部から入力されたヘッドホン再生信号xL(t)、xR(t)にDA変換および増幅を施し、ヘッドホン4に供給する。ヘッドホン4は、供給されたヘッドホン再生信号に応じた音を再生する。
なお、図1において、音響入力部2は、マイクアレイ3から分離して示しているが、マイクアレイ3と一体に設けられてもよい。あるいは、音響入力部2は、信号処理装置1に含まれるように設けてもよい。
なお、図1において、音響入力部2は、マイクアレイ3から分離して示しているが、マイクアレイ3と一体に設けられてもよい。あるいは、音響入力部2は、信号処理装置1に含まれるように設けてもよい。
(効果)
以上、信号解析処理部13は、検出した点音源の方向における各指向方向のビームパターンのうちの最大のものと他のものとの比を最小にし、各指向方向のビームパターンを合成した合成ビームパターンの乱れを最小化するように各指向方向を決定する。
このように決定した各指向方向に応じて、信号解析処理部13は、各方向音を取得し、取得した方向音によりヘッドホン再生信号を生成する。さらに、ヘッドホン再生信号に応じて、ヘッドホン4によって音を再生することにより、本実施形態の信号処理システムでは、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立させることができる。
以上、信号解析処理部13は、検出した点音源の方向における各指向方向のビームパターンのうちの最大のものと他のものとの比を最小にし、各指向方向のビームパターンを合成した合成ビームパターンの乱れを最小化するように各指向方向を決定する。
このように決定した各指向方向に応じて、信号解析処理部13は、各方向音を取得し、取得した方向音によりヘッドホン再生信号を生成する。さらに、ヘッドホン再生信号に応じて、ヘッドホン4によって音を再生することにより、本実施形態の信号処理システムでは、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立させることができる。
<実施形態2>
実施形態1では、複数のマイク素子で収音された音響の音響信号から点音源の方向を検出したが、本発明はこのような実施形態に限定されない。例えば、点音源の方向の検出は、映像に基づいて行ってもよい。点音源の方向の検出を映像に基づいて行う実施形態を、実施形態2として以下に説明する。以下の記載において、実施形態1との相違点を中心に説明をする。また、実施形態1と同じ構成については、実施形態1と同じ参照符号を用いる。実施形態1のヘッドホン4は、例えば、ヘッドマウントディスプレイ(HMD:Head Mount Display)に置換する。
実施形態1では、複数のマイク素子で収音された音響の音響信号から点音源の方向を検出したが、本発明はこのような実施形態に限定されない。例えば、点音源の方向の検出は、映像に基づいて行ってもよい。点音源の方向の検出を映像に基づいて行う実施形態を、実施形態2として以下に説明する。以下の記載において、実施形態1との相違点を中心に説明をする。また、実施形態1と同じ構成については、実施形態1と同じ参照符号を用いる。実施形態1のヘッドホン4は、例えば、ヘッドマウントディスプレイ(HMD:Head Mount Display)に置換する。
(構成)
実施形態2の信号処理システムは、図1に示す実施形態1の信号処理システムの構成に加えて、被写体を撮影して映像信号を出力する図示しないカメラ等の撮像部と、撮像部からの映像信号を入力して記憶部12に入力する映像信号入力部とを備える。映像信号入力部は、撮像部から入力した映像信号に、AD変換、符号化等の処理を行ない、デジタル映像信号として記憶部12に入力する。撮像部と映像信号入力部を設けたことにより、音響信号の取得と同時に映像信号を取得し、記憶部12に格納しておくことができる。この信号処理システムでは、映像信号から点音源の方向を検出する。
実施形態2の信号処理システムは、図1に示す実施形態1の信号処理システムの構成に加えて、被写体を撮影して映像信号を出力する図示しないカメラ等の撮像部と、撮像部からの映像信号を入力して記憶部12に入力する映像信号入力部とを備える。映像信号入力部は、撮像部から入力した映像信号に、AD変換、符号化等の処理を行ない、デジタル映像信号として記憶部12に入力する。撮像部と映像信号入力部を設けたことにより、音響信号の取得と同時に映像信号を取得し、記憶部12に格納しておくことができる。この信号処理システムでは、映像信号から点音源の方向を検出する。
実施形態1では、指向方向の最適化を行うことにより、点音源の方向におけるある指向方向の方向音として捉える音のエネルギーと、それ以外の指向方向の方向音として捉える音のエネルギーとの比を、間接的に最大化していた。
これに対して、実施形態2では、各指向方向の方向音として捉える音のエネルギー比を直接的に最大化する。このために、まず、各指向方向の指向性のビームパターンの点音源方向の値bd(f,θsq)[d=1〜D]から、式(12)のようにエネルギー比rq(θd)[q=1〜Q]を定める。
これに対して、実施形態2では、各指向方向の方向音として捉える音のエネルギー比を直接的に最大化する。このために、まず、各指向方向の指向性のビームパターンの点音源方向の値bd(f,θsq)[d=1〜D]から、式(12)のようにエネルギー比rq(θd)[q=1〜Q]を定める。
ここで、エネルギー比は指向方向θd[d=1〜D]の関数となるためrq(θd)と表記し、周波数のインデックスfは省略している。また、dmax(f,θsq)は式(13)で表されるような指向方向のインデックスであり、bdmax(f,θsq)は点音源方向θsq[q=1〜Q]の各ビームパターン値bd(f,θsq)[d=1〜D]の最大値である。
信号解析処理部13は、エネルギー比の最大化による明瞭な点音源の音の再生と、合成ビームパターンの乱れの最小化による全方位でムラの無い雰囲気音の再生を両立させる。このために、信号解析処理部13は、式(14)で定義される最適化問題の解となるように、各指向性の指向方向θd[d=1〜D]を最適化する。
式(14)は、点音源方向のエネルギー比rq(θd)[q=1〜Q]の和の符号反転値と、合成ビームパターンの乱れとの重み付き和を評価関数として最小化する式である。ここで、符号反転値としたのは、エネルギー比の最大化問題を最小化問題に変換するためである。また、μq[q=1〜Q]は点音源の優先度を表す重みであり、優先度の高い点音源ほどμqを大きく設定するようにする。また、βrは式(14)の第1項に係る全方位でムラの無い雰囲気音の再生と、第2項に係る明瞭な点音源の音の再生との間のトレードオフ(優先度)を調整する重みである。
なお、実施形態1と同様に、例えばシステム制御部11によって制御される不図示のGUI部を介して、ユーザがこのトレードオフを間接的に調整できるようにしてもよい。
なお、実施形態1と同様に、例えばシステム制御部11によって制御される不図示のGUI部を介して、ユーザがこのトレードオフを間接的に調整できるようにしてもよい。
(信号解析処理)
以下、本実施形態の信号解析処理について、図7のフローチャートに沿って説明する。なお、実施形態1と同様に、この図7のフローチャートの処理は、特に別記しない限り信号解析処理部13が行うものとする。
なお、図7の処理を開始する前に、M個(図1の場合では6個)のマイク素子3a〜3fで収音したMチャンネル(図1の構成では6チャンネル)の音響信号と、映像信号入力部から入力された映像信号が、記憶部12に格納されているものとする。
以下、本実施形態の信号解析処理について、図7のフローチャートに沿って説明する。なお、実施形態1と同様に、この図7のフローチャートの処理は、特に別記しない限り信号解析処理部13が行うものとする。
なお、図7の処理を開始する前に、M個(図1の場合では6個)のマイク素子3a〜3fで収音したMチャンネル(図1の構成では6チャンネル)の音響信号と、映像信号入力部から入力された映像信号が、記憶部12に格納されているものとする。
S21の処理は、図3の実施形態1のS1の処理と同じであるため説明を省略する。
S22では、信号解析処理部13は、記憶部12が保持している映像信号を取得し、映像認識処理を実行して点音源になり得る被写体(オブジェクト)を検出する。具体的には、例えば、信号解析処理部13が、公知の顔認識や口認識(発話認識)等の処理を実行したり、公知の機械学習の手法を用いたりすることで、人、動物、乗り物、楽器等といった音を発し得るオブジェクトを検出する。また、信号解析処理部13が、映像信号中から検出した動きベクトルの反転から、例えばバレーボール等のスポーツにおけるアタックの瞬間のボール等をオブジェクトとして検出してもよい。
S23では、信号解析処理部13は、S22で検出したQ個のオブジェクトから点音源の方向を算出する。映像信号の中心(マイクアレイ座標系の正面0°と一致するものとする)を原点とする座標系において、オブジェクトの水平画素座標(例えばオブジェクト検出枠の中心とする)をUとすると、点音源方向θsq[q=1〜Q]は次の式(15)で算出できる。
S22では、信号解析処理部13は、記憶部12が保持している映像信号を取得し、映像認識処理を実行して点音源になり得る被写体(オブジェクト)を検出する。具体的には、例えば、信号解析処理部13が、公知の顔認識や口認識(発話認識)等の処理を実行したり、公知の機械学習の手法を用いたりすることで、人、動物、乗り物、楽器等といった音を発し得るオブジェクトを検出する。また、信号解析処理部13が、映像信号中から検出した動きベクトルの反転から、例えばバレーボール等のスポーツにおけるアタックの瞬間のボール等をオブジェクトとして検出してもよい。
S23では、信号解析処理部13は、S22で検出したQ個のオブジェクトから点音源の方向を算出する。映像信号の中心(マイクアレイ座標系の正面0°と一致するものとする)を原点とする座標系において、オブジェクトの水平画素座標(例えばオブジェクト検出枠の中心とする)をUとすると、点音源方向θsq[q=1〜Q]は次の式(15)で算出できる。
ここで、Vは映像信号の水平撮影画角であり、Bは映像信号の水平画素数である。
(優先度の設定例)
なお、信号解析処理部13が、S22で検出したオブジェクトに応じて点音源の優先度を設定するようにしてもよい。
具体的には、例えば、オブジェクトの検出枠の大きさに応じて、点音源の優先度を設定するようにしてもよい。あるいは、例えば、検出枠(水平画素数)が小さい点音源ほど映像信号上で占める水平方向範囲が狭くなるため、明瞭にする必要があるとして優先度を高くしてもよい。
(優先度の設定例)
なお、信号解析処理部13が、S22で検出したオブジェクトに応じて点音源の優先度を設定するようにしてもよい。
具体的には、例えば、オブジェクトの検出枠の大きさに応じて、点音源の優先度を設定するようにしてもよい。あるいは、例えば、検出枠(水平画素数)が小さい点音源ほど映像信号上で占める水平方向範囲が狭くなるため、明瞭にする必要があるとして優先度を高くしてもよい。
また、映像信号が例えば全方位の映像信号であり、その一部の領域のみを頭部装着型のHMDで頭部運動に応じて表示する場合は、HMDに表示する表示範囲に応じて点音源の優先度を設定するようにしてもよい。あるいは、例えば、点音源が表示範囲の中心に近いほど優先度を高くしてもよい。また、映像としてユーザに見せたい点音源が表示範囲外である場合に、優先度を上げて明瞭にすることで視線誘導の効果を狙ってもよい。
また、点音源の優先度には音の大きさも関わるため、実施形態1のような音響信号による点音源の検出と組み合わせて、音と映像の両面から点音源の優先度を決定するようにしてもよい。
また、点音源の優先度には音の大きさも関わるため、実施形態1のような音響信号による点音源の検出と組み合わせて、音と映像の両面から点音源の優先度を決定するようにしてもよい。
S24では、信号解析処理部13は、各指向性の指向方向θd[d=1〜D]を初期化する。ただし、指向方向の制約条件があった実施形態1の式(4)と異なり、本実施形態の式(14)には制約条件が無いため、図4のように均等配置した指向方向31〜36を初期値としてもよい。
S25〜S32は反復的な最適化計算に係る処理であり、最適化ループの中でS25〜S32の処理を繰り返し実行する。
S25〜S27の処理は、実施形態1のS5〜S7の処理と同じであるため説明を省略する。
S25〜S32は反復的な最適化計算に係る処理であり、最適化ループの中でS25〜S32の処理を繰り返し実行する。
S25〜S27の処理は、実施形態1のS5〜S7の処理と同じであるため説明を省略する。
S28では、信号解析処理部13は、式(12)のように点音源方向のエネルギー比rq(θd)[q=1〜Q]を算出する。図4の場合、点音源方向30aに対応する点音源[q=1]については、ビームパターン32aに対応する方向音として捉えられる音のエネルギー42が最も大きく、次いでビームパターン33aに対応する方向音として捉えられる音のエネルギー43が大きい。また、ビームパターン31a、34a〜36aに対応する方向音として捉えられる音のエネルギーは相対的に小さい。よって、この場合、点音源方向30aのエネルギー比r1(θd)は概ね音のエネルギー42と43の比となる。
S29では、信号解析処理部13は、S27で算出した合成ビームパターンの標準偏差σbsum(θd)と、S28で算出した点音源方向のエネルギー比rq(θd)[q=1〜Q]から、式(14)に示す最適化問題の評価関数を算出する。
S30〜S38の処理は、実施形態1のS9〜S17の処理と同じであるため説明を省略する。
S29では、信号解析処理部13は、S27で算出した合成ビームパターンの標準偏差σbsum(θd)と、S28で算出した点音源方向のエネルギー比rq(θd)[q=1〜Q]から、式(14)に示す最適化問題の評価関数を算出する。
S30〜S38の処理は、実施形態1のS9〜S17の処理と同じであるため説明を省略する。
なお、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するための最適化問題を定義する式は、式(14)の他にも考えられる。例えば次の式(16)は、点音源方向のエネルギー比rq(θd)[q=1〜Q]を閾値Δrq[q=1〜Q]以上にする制約条件のもと、合成ビームパターンの乱れを評価関数として最小化する式である。
ここで、閾値Δrq[q=1〜Q]は点音源毎に変えてもよく、優先度の高い点音源ほどΔrqを大きく設定するようにしてもよい。
以上、本実施形態の信号処理システムでは、方向音の取得を行うための指向性の指向方向を最適化することで、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立することができる。
なお、実施形態2の信号処理システムでは頭部装着型のヘッドマウントディスプレイを用いたが、信号処理装置1からの再生信号を受け取ることができる装置であれば、ヘッドマウントディスプレイ以外の機器を用いてもよい。
以上、本実施形態の信号処理システムでは、方向音の取得を行うための指向性の指向方向を最適化することで、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立することができる。
なお、実施形態2の信号処理システムでは頭部装着型のヘッドマウントディスプレイを用いたが、信号処理装置1からの再生信号を受け取ることができる装置であれば、ヘッドマウントディスプレイ以外の機器を用いてもよい。
<他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
なお、上述の実施形態では、音響信号の入力とヘッドホン再生信号の生成等の処理を1つの信号処理システムで実現していたが、各々別の信号処理システムあるいは信号処理装置として構成することもできる。
また、上述の実施形態において記憶部12があらかじめ保持しているとした各種データは、システム制御部11によって制御される不図示のデータ入出力部を介して、外部から入力するようにしてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
なお、上述の実施形態では、音響信号の入力とヘッドホン再生信号の生成等の処理を1つの信号処理システムで実現していたが、各々別の信号処理システムあるいは信号処理装置として構成することもできる。
また、上述の実施形態において記憶部12があらかじめ保持しているとした各種データは、システム制御部11によって制御される不図示のデータ入出力部を介して、外部から入力するようにしてもよい。
また、ユーザの頭部運動を検出可能なセンサを、例えばヘッドホン4が備える構成としてもよい。このような構成とした場合、例えば音響信号の所定長(以下、「音響フレーム」と称する。)毎に、センサで検出したユーザの頭部運動に応じて、S15あるいはS36で使用するHRTFを切り替えるヘッドトラッキング処理を行ってもよい。
なお、上述の各実施形態の処理を音響信号の音響フレーム毎に行えば、移動する点音源にも対応できることは言うまでもない。すなわち、移動する点音源を追尾しつつ、合成ビームパターンの乱れを最小化するよう各方向音を取得する指向方向を逐次制御する。このとき、各音響フレームにおける指向方向の初期値には、前の音響フレームでの最適化結果を用いるのが好適である。
なお、上述の各実施形態の処理を音響信号の音響フレーム毎に行えば、移動する点音源にも対応できることは言うまでもない。すなわち、移動する点音源を追尾しつつ、合成ビームパターンの乱れを最小化するよう各方向音を取得する指向方向を逐次制御する。このとき、各音響フレームにおける指向方向の初期値には、前の音響フレームでの最適化結果を用いるのが好適である。
また、マイクアレイ3の代わりに、無指向性のマイク素子をマトリクス状に配置したマイクアレイを用いるようにしてもよい。このようなマイクアレイを用いる場合には、各マイク素子で収音した音響信号に指向性を形成するフィルタ処理を行って所望の方向の音響信号を生成することができる。各指向方向の方向音の取得は、指向性を形成するフィルタ処理におけるフィルタ係数を調整することによって行うことができる。このため、このような構成とした場合にも、指向方向の最適化を行うことによって、明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立することができる。
また、ヘッドホン4の代わりに、ユーザの周囲に配置した複数のスピーカにより音響信号を再生するようにしてもよい。この場合、S13〜S15あるいはS34〜S36におけるヘッドホン再生信号の生成の代わりに、取得した方向音から各スピーカの再生信号を生成する。さらに、各スピーカの配置方向を制御可能な機構を備えた周囲スピーカシステムにより音響信号を再生するようにしてもよい。この場合、機構上の制約を考慮して、最適化問題において各指向方向の順番が入れ替わらないような制約条件を課してもよい。
また、信号処理装置1自体が、収音(マイクアレイ)や撮影(カメラ)・表示(ディスプレイ)等の機能を備える構成としてもよい。また、撮影・収音を行う機能と、表示・再生を行う機能を分離し、遠隔地で同期的に動作するように構成すれば、遠隔ライブシステムを実現することができる。
また、信号処理装置1自体が、収音(マイクアレイ)や撮影(カメラ)・表示(ディスプレイ)等の機能を備える構成としてもよい。また、撮影・収音を行う機能と、表示・再生を行う機能を分離し、遠隔地で同期的に動作するように構成すれば、遠隔ライブシステムを実現することができる。
なお、上述の各実施形態では、水平全方位で明瞭な点音源の音の再生と全方位でムラの無い雰囲気音の再生を両立するようにしていたが、対象とする方向範囲を任意に設定してもよい。例えば、水平方向だけでなく、仰角方向も含めた全方位を対象方向範囲としてもよいし、水平前方半面や、撮影した映像信号の画角範囲等に限定してもよい。この場合、例えば合成ビームパターンの乱れの目安である標準偏差は、水平全方位ではなく対象方向範囲の合成ビームパターンから算出する。
また、指向性を有する各マイク素子の軸方向を制御可能な機構を備えた指向性のマイクアレイを用いてもよい。この場合は、機構上の制約を考慮して、最適化問題において各指向方向の順番が入れ替わらないような制約条件を課してもよい。
また、上述の各実施形態では、合成ビームパターンの全周でのゲインの標準偏差により、合成ビームパターンの乱れの評価を行った場合について説明したが、これ以外の偏差を用いて評価を行ってもよい。例えば、合成ビームパターンの全方位において、ゲインの値と所定の値との差を求め、求めた差の総和によって合成ビームパターンの乱れを評価してもよい。これにより、各実施形態と同様に、合成ビームパターンのゲインの偏差を所定値より小さくすることができる。
また、上述の各実施形態では、合成ビームパターンの全周でのゲインの標準偏差により、合成ビームパターンの乱れの評価を行った場合について説明したが、これ以外の偏差を用いて評価を行ってもよい。例えば、合成ビームパターンの全方位において、ゲインの値と所定の値との差を求め、求めた差の総和によって合成ビームパターンの乱れを評価してもよい。これにより、各実施形態と同様に、合成ビームパターンのゲインの偏差を所定値より小さくすることができる。
1…信号処理装置、2…音響信号入力部、3a,3b,3c,3d,3e,3f…マイク素子、4…ヘッドホン、11…システム制御部、12…記憶部、13…信号解析処理部、14…音響信号出力部
Claims (21)
- 複数のマイク素子で収音された音響の音響信号から複数の指向方向ごとの方向音を取得する取得手段と、
前記音響信号から点音源の方向を検出する検出手段と、
前記複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、前記検出手段により検出された前記点音源の方向におけるゲインの値が最大のものとそれ以外のものとの比を所定値より大きくするとともに、複数の指向性のビームパターンを合成した合成ビームパターンのゲインの偏差を所定値より小さくするように、前記各指向方向を制御する制御手段と、
を備えることを特徴とする信号処理装置。 - 前記検出手段は、前記音響信号から複数の前記点音源の方向を検出し、
前記制御手段は、前記検出手段により検出された前記複数の前記点音源の方向の夫々について、前記複数の指向方向夫々に対応する方向音の指向性を示すビームパターンのゲインの値であって、前記点音源の方向におけるゲインの値が最大のものとそれ以外のものとの比を所定値より大きくするように、前記各指向方向を制御することを特徴とする請求項1に記載の信号処理装置。 - 前記取得手段は、前記音響信号に前記指向方向に対応する指向性を形成するフィルタ処理を行うことで、前記方向音の取得を行うことを特徴とする請求項1又は2に記載の信号処理装置。
- 前記制御手段は、前記指向方向を最適化変数とする最適化問題を解き、その解を前記指向方向とすることを特徴とする請求項1〜3のいずれか1項に記載の信号処理装置。
- 前記最適化問題は、前記点音源の数の指向方向を前記点音源の方向に拘束する制約条件のもとでの前記合成ビームパターンのゲインの偏差の最小化であることを特徴とする請求項4に記載の信号処理装置。
- 前記最適化問題は、前記点音源の方向に最も近い指向方向と前記点音源の方向との差を第1の閾値以下にする制約条件のもとでの前記合成ビームパターンのゲインの偏差の最小化であることを特徴とする請求項4に記載の信号処理装置。
- 前記最適化問題は、前記点音源の方向に最も近い前記指向方向と前記点音源の方向との差の総和と、前記合成ビームパターンのゲインの偏差との重み付き和の最小化であることを特徴とする請求項4に記載の信号処理装置。
- 前記最適化問題は、前記点音源の方向における前記比を第2の閾値以上にする制約条件のもとでの前記合成ビームパターンのゲインの偏差の最小化であることを特徴とする請求項4に記載の信号処理装置。
- 前記最適化問題は、前記点音源の方向における前記比の和の符号反転値と、前記合成ビームパターンのゲインの偏差との重み付き和の最小化であることを特徴とする請求項4に記載の信号処理装置。
- 前記重み付き和における重みを調整する調整手段をさらに備えることを特徴とする請求項7又は9に記載の信号処理装置。
- 前記検出手段は、前記音響信号の空間相関行列を用いて空間スペクトルを求め、平均化して平均空間スペクトルを算出し、平均空間スペクトルの極大値から前記点音源の方向を検出することを特徴とする請求項1〜10のいずれか1項に記載の信号処理装置。
- 前記制御手段は、前記平均空間スペクトルの極大値が大きい点音源を優先することを特徴とする請求項11に記載の信号処理装置。
- 映像信号を入力する入力手段をさらに備え、前記検出手段は、前記映像信号から検出したオブジェクトの位置に応じて前記点音源の方向を検出することを特徴とする請求項1〜12のいずれか1項に記載の信号処理装置。
- 前記制御手段は、前記検出されたオブジェクトの大きさに応じて前記点音源の優先度を設定することを特徴とする請求項13に記載の信号処理装置。
- 前記制御手段は、前記映像信号の表示範囲に応じて前記点音源の優先度を設定することを特徴とする請求項13又は14に記載の信号処理装置。
- 前記取得手段により取得した方向音から再生信号を生成する生成手段をさらに備えることを特徴とする請求項1〜15のいずれか1項に記載の信号処理装置。
- 前記生成手段は、頭部伝達関数を用いて前記再生信号を生成することを特徴とする請求項16に記載の信号処理装置。
- 映像を表示する頭部装着型の表示手段をさらに備えることを特徴とする請求項1〜17のいずれか1項に記載の信号処理装置。
- 複数のマイク素子で収音された音響信号に基づいて点音源の方向を検出する検出手段と、
複数の指向方向ごとの出力によって前記音響信号の方向音を再生するために当該複数の指向方向を設定する制御手段であって、前記検出手段により検出された前記点音源の方向を前記複数の指向方向のうちの一つの指向方向に設定すると共に、前記検出手段により検出された前記点音源の方向に対応する前記音響信号の方向音を再生する際のゲインと、前記検出手段により検出された前記点音源の方向と異なる方向に対応する前記音響信号の方向音を再生する際のゲインとの差が所定値より小さくなるように前記複数の指向方向のうちの他の指向方向を設定する制御手段と、
を備えることを特徴とする信号処理装置。 - 点音源の方向を検出するステップと、
各指向方向の方向音を取得する各指向性のビームパターンの前記検出した点音源の方向における値について最大値とそれ以外の値との比を大きくするとともに、各指向性のビームパターンを合成した合成ビームパターンの乱れを小さくするように前記指向方向を制御するステップと、
複数のマイク素子で収音された音響信号から前記指向方向ごとの方向音を取得するステップと、
を有することを特徴とする信号処理方法。 - コンピュータを、請求項1〜19のいずれか1項に記載の信号処理装置として機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016086506A JP2017195581A (ja) | 2016-04-22 | 2016-04-22 | 信号処理装置、信号処理方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016086506A JP2017195581A (ja) | 2016-04-22 | 2016-04-22 | 信号処理装置、信号処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017195581A true JP2017195581A (ja) | 2017-10-26 |
Family
ID=60156565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016086506A Pending JP2017195581A (ja) | 2016-04-22 | 2016-04-22 | 信号処理装置、信号処理方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017195581A (ja) |
-
2016
- 2016-04-22 JP JP2016086506A patent/JP2017195581A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11706582B2 (en) | Calibrating listening devices | |
US20220240045A1 (en) | Audio Source Spatialization Relative to Orientation Sensor and Output | |
CN108369811B (zh) | 分布式音频捕获和混合 | |
JP7229925B2 (ja) | 空間オーディオシステムにおける利得制御 | |
JP6665379B2 (ja) | 聴覚支援システムおよび聴覚支援装置 | |
US10397722B2 (en) | Distributed audio capture and mixing | |
EP3320692B1 (en) | Spatial audio processing apparatus | |
JP6613078B2 (ja) | 信号処理装置及びその制御方法 | |
US8577054B2 (en) | Signal processing apparatus, signal processing method, and program | |
JP6789690B2 (ja) | 信号処理装置、信号処理方法、及びプログラム | |
US10555108B2 (en) | Filter generation device, method for generating filter, and program | |
JPWO2018060549A5 (ja) | ||
JP2017195581A (ja) | 信号処理装置、信号処理方法およびプログラム | |
JP7321736B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN109688531B (zh) | 获取高音质音频变换信息的方法、电子装置及记录介质 | |
JP2019054340A (ja) | 信号処理装置およびその制御方法 | |
Salvador et al. | Evaluation of white noise gain in a binaural system for microphone arrays | |
WO2021212287A1 (zh) | 音频信号处理方法、音频处理装置及录音设备 | |
CN115134499A (zh) | 一种音视频监控方法及*** | |
JP2018074437A (ja) | 信号処理装置、信号処理システム、信号処理方法およびプログラム |