JP6879340B2

JP6879340B2 - 収音装置、収音プログラム、及び収音方法

Info

Publication number: JP6879340B2
Application number: JP2019139078A
Authority: JP
Inventors: 一浩片桐
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2021-06-02
Anticipated expiration: 2039-07-29
Also published as: WO2021019844A1; JP2021022872A; US11825264B2; US20220272443A1

Description

この発明は、収音装置、プログラム及び方法に関し、例えば、特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。

複数の音源が存在する環境下において、ある特定方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ（ＢｅａｍＦｏｒｍｅｒ；以下「ＢＦ」とも呼ぶ）がある。ＢＦとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である（非特許文献１参照）。

従来、ＢＦは、加算型と減算型の大きく２つの種類に分けられる。特に減算型ＢＦは、加算型即に比べ、少ないマイクロホン数で指向性を形成できるという利点がある。

図１３は、マイクロホンＭの数が２個の場合の減算型ＢＦ２００に係る構成を示すブロック図である。

図１４は、２個のマイクロホンＭ１、Ｍ２を用いた減算型ＢＦ２００により形成される指向性フィルタの例について示した説明図である。

減算型ＢＦ２００は、まず遅延器２１０により目的とする方向に存在する音（以下、「目的音」と呼ぶ）が各マイクロホンＭ１、Ｍ２に到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。上述の時間差は以下の（１）式により算出することができる。

ここで、ｄはマイクロホンＭ１、Ｍ２間の距離、ｃは音速、τ_ｉは遅延量である。またθ_Ｌは、各マイクロホンＭ（Ｍ１、Ｍ２）を結んだ直線に対する垂直方向から目的方向への角度である。

また、ここで、死角がマイクロホンＭ１とＭ２の中心に対し、マイクロホンＭ１の方向に存在する場合、遅延器２１０は、マイクロホンＭ１の入力信号ｘ_１（ｔ）に対し遅延処理を行う。その後、減算型ＢＦ２００では、以下の（２）式に従い処理（減算処理）を行う。

減算型ＢＦ２００の処理は周波数領域でも同様に行うことができ、その場合（２）式は以下の（３）のように変更される。

ここでθ_Ｌ＝±π／２の場合、減算型ＢＦ２００により形成される指向性は図１４(ａ)に示すように、カージオイド型の単一指向性となる。また、「θ_Ｌ＝０，π」の場合、減算型ＢＦ２００により形成される指向性は、図１４(ｂ)のような８の字型の双指向性となる。

以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。

また、減算器２２０では、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ；以下、単に、「ＳＳ」とも呼ぶ）を用いることで、双指向性の死角に強い指向性を形成することもできる。ＳＳによる指向性は、以下の（４）式に従い全周波数、もしくは指定した周波数帯域で形成される。

以下の（４）式では、マイクロホンＭ１の入力信号Ｘ_１を用いているが、マイクロホンＭ２の入力信号Ｘ_２でも同様の効果を得ることができる。ここでβは、ＳＳの強度を調節するための係数である。また、減算器２２０では、減算時に値がマイナスなった場合は、０または元の値を小さくした値に置き換えるフロアリング処理を行う。以上のような減算型ＢＦ２００の処理方式では、双指向性の特性によって目的方向以外に存在する音（以下、「非目的音」と呼ぶ）を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。

ある特定のエリア内に存在する音（以下、「目的エリア音」と呼ぶ）だけを収音したい場合、減算型ＢＦを用いるだけでは、そのエリアの周囲に存在する音源の音（以下、「非目的エリア音」と呼ぶ）も収音してしまう可能性がある。そこで、特許文献１では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアヘ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法（以下、「エリア収音」と呼ぶ）を提案している。エリア収音では、まず各マイクロホンアレイのＢＦ出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。

例えば、２つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、以下の（５）式及び（６）式の組み合わせ、又は以下の（７）式及び（８）式の組み合わせにより算出することができる。ここで、Ｙ_１ｋ（ｎ）は第１のマイクロホンアレイのＢＦ出力の振幅スペクトルであり、Ｙ_２ｋ（ｎ）は第２のマイクロホンアレイのＢＦ出力の振幅スペクトルであり、Ｎは周波数ビンの総数であり、ｋは周波数である。また、ここで、α_１（ｎ）、α_２（ｎ）は各ＢＦ出力に対する振幅スペクトル補正係数である。さらに、ここで、ｍｏｄｅは最頻値を表し、ｍｅｄｅｉａｎは中央値を表している。

以上の処理により、減算器２２０は、補正係数α_１（ｎ）、α_２（ｎ）を求め、求めた補正係数により各ＢＦ出力を補正し、ＳＳすることで、目的エリア方向に存在する非目的エリア音を抽出する。さらに、減算器２２０は、抽出した非目的エリア音を各ＢＦの出力からＳＳすることにより目的エリア音を抽出することができる。

減算型ＢＦ２００は、第１のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音Ｎ_１（ｎ）を抽出際、例えば、（９）式に示すように、第１のマイクロホンアレイのＢＦ出力Ｙ_１（ｎ）から第２のマイクロホンアレイのＢＦ出力Ｙ_２（ｎ）に振幅スペクトル補正係数α_２を掛けたものをＳＳする。減算型ＢＦ２００は、同様に、以下の（１０）式に従い、第２のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音Ｎ_２（ｎ）を抽出する。

その後、減算型ＢＦ２００は、以下の（１１）式、又は（１２）式に従い、各ＢＦ出力から非目的エリア音をＳＳして目的エリア音を抽出する。なお、以下の（１１）式は、第１のマイクロホンアレイを基準として、目的エリア音を抽出する場合の処理を示している。また、以下の（１２）式は、第２のマイクロホンアレイを基準として目的エリア音を抽出する場合の処理を示している。ここでγ_１（ｎ）、γ_２（ｎ）は、ＳＳ時の強度を変更するための係数である。

特開２０１４−０７２７０８号公報

浅野太著，"音響テクノロジーシリーズ１６音のアレイ信号処理−音源の定位・追跡と分離−"，日本音響学会編，コロナ社，２０１１年２月２５日発行

特許文献１の記載技術を適用した収音装置において、マイクロホンアレイＭＡ１を基準として（１１）式により目的エリア音を抽出する場合、目的エリア内で目的エリア音源が移動してマイクロホンアレイＭＡ１から離れると、距離減衰のため出力音も小さくなってしまう。また声には指向性があるため、特許文献１の記載技術を適用した収音装置では、発話者の顔の向きによっても出力音量が変わってしまう。したがって、特許文献１の記載技術を適用した収音装置では、目的エリア内での目的エリア音源の位置や向きにより音量が小さくなると、受聴者が安定して聞き取れない恐れがある。

また、特許文献１の記載技術を適用した収音装置では、抽出した目的エリア音と非目的エリア音のＳＮ比を算出して、最もＳＮ比が高くなる出力を選択している。しかしながら、特許文献１の記載技術を適用した収音装置では、ＳＮ比が高くても目的エリア音の音量が小さい方が選択される場合があるため、音量の安定は保証されない。また、特許文献１の記載技術を適用した収音装置では、（１１）式と（１２）式のように、全てのマイクロホンアレイを基準として目的エリア音を抽出してから最終的な出力を選択するため、マイクロホンアレイの数だけ処理が増えることになる。

以上のような問題に鑑み、効率的かつ安定的なエリア収音処理を行うことができる収音装置、プログラム及び方法が望まれている。

第１の本発明の収音装置は、（１）複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、（２）それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出する補正係数算出手段と、（３）前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択する選択手段と、（４）前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出する目的エリア音抽出手段とを有し、（５）前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させることを特徴とする。

第２の本発明の収音プログラムは、コンピュータに、（１）複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、（２）それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出する補正係数算出手段と、（３）前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択する選択手段と、（４）前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出する目的エリア音抽出手段として機能させ、（５）前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させることを特徴とする。

第３の本発明は、収音装置が行う収音方法において、（１）指向性形成手段、補正係数算出手段、選択手段、及び目的エリア音抽出手段を有し、（２）前記指向性形成手段は、複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取し、（３）前記補正係数算出手段は、それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出し、（４）前記選択手段は、前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択し、（５）前記目的エリア音抽出手段は、前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出し、（６）前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させることを特徴とする。

本発明によれば、効率的かつ安定的なエリア収音処理を行うことができる。

第１の実施形態に係る収音装置の機能的構成を示すブロック図である。第１の実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。ビームフォーマを用いたエリア収音の収音特性についてシミュレーションした結果を示した図（その１）である。ビームフォーマを用いたエリア収音の収音特性についてシミュレーションした結果を示した図（その２）である。第１の実施形態の収音装置の動作について示したフローチャートである。第２の実施形態に係る収音装置の機能的構成を示すブロック図である。第２の実施形態の主マイクロホンアレイ選択処理のフローチャート（その１）である。第２の実施形態の主マイクロホンアレイ選択処理のフローチャート（その２）である。第２の実施形態の主マイクロホンアレイ選択処理のフローチャート（その３）である。第３の実施形態に係る収音装置の機能的構成を示すブロック図である。第３の実施形態の効果について示した説明図である。第４の実施形態に係る収音装置の機能的構成を示すブロック図である。従来の減算型ＢＦの構成を示すブロック図である。従来の減算型ＢＦにより形成される指向性フィルタの例について示した説明図である。

（Ａ）第１の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第１の実施形態を図面を参照して説明する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係る収音装置１００の機能的構成を示すブロック図である。

収音装置１００は、２つのマイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。以下では、マイクロホンアレイＭＡ１、ＭＡ２を、それぞれ「第１のマイクロホンアレイＭＡ１」、「第２のマイクロホンアレイＭＡ２」とも呼ぶものとする。

マイクロホンアレイＭＡ１、ＭＡ２は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイＭＡ１、ＭＡ２の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイは２つ以上のマイクロホンＭから構成され、各マイクロホンＭにより音響信号を収音する。この実施形態では、各マイクロホンアレイに、音響信号を収音する２つのマイクロホンＭ１、Ｍ２が配置されるものとして説明する。すなわち、この実施形態において、各マイクロホンアレイは、２ｃｈマイクロホンアレイを構成しているものとする。２個のマイクロホンＭ１、Ｍ２の間の距離は限定されないものであるが、この実施形態の例では、２個のマイクロホンＭ１、Ｍ２の間の距離は３ｃｍとする。なお、マイクロホンアレイＭＡの数は２つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイＭＡを配置する必要がある。

次に、図１、図２を用いて収音装置１００の内部構成について説明する。

図１に示す通り、収音装置１００は、信号入力部１０１、指向性形成部１０２、遅延補正部１０３、空間座標データ記憶部１０４、補正係数算出部１０５、主マイクロホンアレイ選択部１０６、及び目的エリア音抽出部１０７を有している。

収音装置１００は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。収音装置１００は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の収音プログラムを含む）をインストールすることにより構成するようにしてもよい。

次に、図２を用いて、収音装置１００のハードウェア構成について説明する。

図２は、収音装置１００のハードウェア構成の例について示したブロック図である。

図２では、収音装置１００を、ソフトウェア（コンピュータ）を用いて構成する際のハードウェア構成の例について示している。

図２に示す収音装置１００は、ハードウェア的な構成要素として、プログラム（実施形態の収音プログラムを含む）がインストールされたコンピュータ２００を有している。また、コンピュータ２００は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。

図２に示すコンピュータ２００は、プロセッサ２０１、一次記憶部２０２、及び二次記憶部２０３を有している。一次記憶部２０２は、プロセッサ２０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリを適用することができる。二次記憶部２０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る収音プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨメモリやＨＤＤ等の不揮発性メモリを適用することができる。この実施形態のコンピュータ２００では、プロセッサ２０１が起動する際、二次記憶部２０３に記録されたＯＳやプログラム（実施形態に係る収音プログラムを含む）を読み込み、一次記憶部２０２上に展開して実行する。

なお、コンピュータ２００の具体的な構成は図２の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部２０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次記憶部２０３については除外した構成としてもよい。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の収音装置１００の動作（実施形態に係る収音方法）を説明する。

信号入力部１０１は、各マイクロホンアレイで収音した音響信号をアナログ信号からデジタル信号に変換し入力する処理を行う。信号入力部１０１は、その後、例えば高速フーリエ変換を用いて入力信号（デジタル信号）を、時間領域から周波数領域へ変換する。以下では、各マイクロホンアレイにおいて、マイクロホンＭ１、Ｍ２の周波数領域の入力信号を、それぞれＸ_１、Ｘ_２として説明する。

指向性形成部１０２は、マイクロホンアレイ毎に入力信号に対し、（４）式に従いＢＦにより目的エリア方向に指向性を形成する。以下では、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の振幅スペクトルを、それぞれＹ_１ｋ（ｎ）、Ｙ_２ｋ（ｎ）として説明する。

遅延補正部１０３は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出して補正する。遅延補正部１０３は、まず、空間座標データ記憶部１０４から目的エリアの位置とマイクロホンアレイの位置を取得し、各マイクロホンアレイへの目的エリア音の到達時間の差を算出する。遅延補正部１０３は、次に最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。

空間座標データ記憶部１０４は、全ての目的エリアと各マイクロホンアレイと各マイクロホンアレイを構成するマイクロホンの位置情報を保持する。なお遅延補正部１０３による処理が必要ない場合、空間座標データはなくても良い。

補正係数算出部１０５は、各ＢＦ出力に含まれる目的エリア音成分の振幅スペクトルを同じにする（近づける）ための振幅スペクトル補正係数を算出する。以下では、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力に対する振幅スペクトル補正係数を、α_１（ｎ）、α_２（ｎ）として説明する。補正係数算出部５は、「（５）式、（６）式」または「（７）式、（８）式」に従い振幅スペクトル補正係数を算出する。

ここでは、補正係数算出部１０５は、最初に主マイクロホンアレイをマイクロホンアレイＭＡ１に設定する場合は、（６）、（８）式により振幅スペクトル補正係数α_２（ｎ）を算出し、その後、主マイクロホンアレイ選択部１０６からの指示（制御）があった場合マイクロホンアレイＭＡ２を主マイクロホンアレイとして（５）、（７）式により振幅スペクトル補正係数α_１（ｎ）を算出するものとする。なお、補正係数算出部１０５が最初に設定する主マイクロホンアレイについてはマイクロホンアレイＭＡ１に限定されないものであり、任意のマイクロホンアレイを適用することができる。

主マイクロホンアレイ選択部１０６は、補正係数算出部１０５において算出した振幅スペクトル補正係数に基づき、いずれかのマイクロホンアレイを、主マイクロホンアレイとして選択する。主マイクロホンアレイ選択部１０６による主マイクロホンの選択処理の詳細については後述する。

目的エリア音抽出部１０７は、主マイクロホンアレイ選択部１０６で選択したマイクロホンアレイを主マイクロホンアレイとし、目的エリア音を抽出する。主マイクロホンアレイとしてマイクロホンアレイＭＡ１が選択された場合、目的エリア音抽出部１０７は、算出した振幅スペクトル補正係数α_２（ｎ）により各ＢＦ出力を（９）式に従いＳＳし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、目的エリア音抽出部１０７は、抽出した非目的エリア音を各ＢＦの出力から（１１）式に従いＳＳすることにより目的エリア音を抽出する。また主マイクロホンアレイとしてマイクロホンアレイＭＡ２が選択された場合、目的エリア音抽出部１０７は、振幅スペクトル補正係数α_１（ｎ）により各ＢＦ出力を（１０）式に従い目的エリア方向に存在する非目的エリア音を抽出し、抽出した非目的エリア音を各ＢＦの出力から（１２）式に従い目的エリア音を抽出する。

次に、第１の実施形態の収音装置１００における主マイクロホンアレイの選択処理の詳細について説明する。

上述の通り、予め定められた主マイクロホンアレイを用いてエリア収音処理を行う場合、目的エリアに存在する話者の位置や向きによって主マイクロホンのビームフォーマ出力に含まれる目的エリア音成分の量（目的エリア音成分の強度）が変動する場合がある。このような変動は、各マイクロホンアレイのＢＦ出力に含まれる目的エリア音の振幅スペクトルの比率に基づき算出される振幅スペクトル補正係数により確認することができる。

例えば、振幅スペクトル補正係数α_２（ｎ）が１以上であれば、マイクロホンアレイＭＡ１に含まれる目的エリア音の振幅スペクトル（目的エリア音の成分）が、マイクロホンアレイＭＡ２に含まれる目的エリア音振幅スペクトルより大きいことを示している。一方、目的エリア音振幅スペクトル補正係数α_２（ｎ）が１未満のときは、逆にマイクロホンアレイＭＡ１に含まれる目的エリア音振幅スペクトルが、マイクロホンアレイＭＡ２よりも小さいことを示している。つまり目的エリア音振幅スペクトル補正係数α_２（ｎ）により、主マイクロホンアレイを選択すれば、マイクロホンアレイＭＡ１とマイクロホンアレイＭＡ２に含まれる目的エリア音の内、音量が大きい方が選択され、抽出される目的エリア音の収音特性が安定することになる。

ここで、上述のように目的エリア音振幅スペクトル補正係数に基づいて主マイクロホンアレイを切り替えることによる収音特性の変化について図３、図４を用いて説明する。

図３は、各マイクロホンアレイの入力信号サンプルに基づき、主マイクロホンアレイを固定した場合におけるエリアごとの収音特性（収音される目的エリア音の強度）の例（シミュレーション結果）を示したグラフである。図４は、同じ入力信号のサンプルについて、目的エリア音振幅スペクトル補正係数に基づいて主マイクロホンアレイを選択（切替）した場合における収音特性の例（シミュレーション結果）を示したグラフである。

図３、図４では、マイクロホンアレイＭＡ１、ＭＡ２の位置、及びマイクロホンアレイＭＡ１、ＭＡ２によるＢＦの指向性の交点Ｐ１を図示している。そして、図３、図４では、交点Ｐ１の周囲における目的エリア音の収音特性（目的エリア音振幅スペクトルの強度；単位は「ｄＢ」；以下、「収音強度」とも呼ぶ）を示している。図３、４では、収音強度の値に応じたパターンを図示している。図３、図４では、右側にパターンごとに対応する収音強度の値を図示している。図３、図４では、マイクロホンアレイＭＡ１、ＭＡ２の間の中間点で、マイクロホンアレイＭＡ１、ＭＡ２を結んだ線に直交する中心線Ｌ１を図示している。交点Ｐ１は中心線Ｌ１上に存在するものとする。

図３のシミュレーション結果（従来の収音装置による収音結果）では、マイクロホンアレイＭＡ１の側に収音特性（収音強度）が偏っており、話者の位置、顔の向きによって出力レベルが小さくなる場合がある。すなわち、従来の収音装置を用いた場合、収音結果が聴者にとって聞き取りにくい内容となったり、収音結果を音声認識処理に入力した場合音声認識率が低下するおそれがある。言い換えると、従来の収音装置を用いた場合、話者の位置、顔の向きによって、収音特性のスイートスポットが中心線Ｌ１を中心として対称（左右対称）でないため、収音エリアの設定（調整）がしにくく、安定的な収音処理ができない場合がある。

一方、図４のシミュレーション結果（この実施形態の収音装置１００による収音結果）では、収音特性のスイートスポットが中心線Ｌ１を中心として対称（左右対称）になる。すなわち、図４のシミュレーション結果からこの実施形態の収音装置１００で安定的に収音できるスィートスポットが広くなる。また、図４のシミュレーション結果からこの実施形態の収音装置１００では、中心線Ｌ１を中心として対称（左右対称）に収音特性のスイートスポットが広がっているため、収音エリア（スィートスポット）の範囲が直感的でわかりやすくなっていることがわかる。

以上のように、この実施形態の収音装置１００では、目的エリア音振幅スペクトル補正係数に基づいて主マイクロホンアレイを選択する処理を行う。

次に、主マイクロホンアレイ選択部１０６の動作詳細の例について図５のフローチャートを用いて説明する。なお、補正係数算出部１０５及び目的エリア音抽出部１０７は、主マイクロホンアレイ選択部１０６の制御に応じて動作も行う。なお、以下では、任意のマイクロホンアレイを基準として目的エリア音を算出する場合に用いる目的エリア音振幅スペクトル補正係数を、「任意のマイクロホンアレイに対応する目的エリア音振幅スペクトル補正係数」とも呼ぶものとする。

ここでは、上述の通り、この実施形態では、補正係数算出部１０５は当初主マイクロホンアレイをマイクロホンアレイＭＡ１とし、（６）、（８）式により目的エリア音振幅スペクトル補正係数α_２（ｎ）を算出するものとして説明する。

まず、主マイクロホンアレイ選択部１０６は、補正係数算出部１０５で最初に算出されたマイクロホンアレイＭＡ１を主マイクロホンアレイとする場合の目的エリア音振幅スペクトル補正係数α_２（ｎ）を取得し（Ｓ１０１）、取得した目的エリア音振幅スペクトル補正係数α_２（ｎ）が閾値以上（ここでは１以上）であるか否かを判定する（Ｓ１０２）。主マイクロホンアレイ選択部１０６は、最初に取得した目的エリア音振幅スペクトル補正係数α_２（ｎ）が１以上である場合、後述するステップＳ１０３から動作し、そうでない場合には後述するステップＳ１０５から動作する。

この場合、補正係数算出部１０５は、最初にマイクロホンアレイＭＡ１を基準とする場合に用いる目的エリア音振幅スペクトル補正係数α_２（ｎ）を取得し、取得した目的エリア音振幅スペクトル補正係数α_２（ｎ）が１以上であるか否かを判断する。

上述のステップＳ１０２で、マイクロホンアレイＭＡ１を主マイクロホンアレイとする場合に用いる目的エリア音振幅スペクトル補正係数α_２（ｎ）が１以上である場合、主マイクロホンアレイ選択部１０６は、マイクロホンアレイＭＡ１を主マイクロホンアレイとして選択し（Ｓ１０３）、目的エリア音抽出部１０７を制御して、マイクロホンアレイＭＡ１を主マイクロホンアレイとして目的エリア音を算出するように制御する。この場合、目的エリア音抽出部１０７は、上記の（９）式、（１１）式を用いた目的エリア音の抽出処理を行う。

一方、上述のステップＳ１０２で、マイクロホンアレイＭＡ１を主マイクロホンアレイとする場合に用いる目的エリア音振幅スペクトル補正係数α_２（ｎ）が１未満である場合、主マイクロホンアレイ選択部１０６は、マイクロホンアレイＭＡ２を主マイクロホンアレイとして選択し（Ｓ１０５）、補正係数算出部１０５に、マイクロホンアレイＭＡ２を基準とする場合に用いる目的エリア音振幅スペクトル補正係数α_１（ｎ）を算出させる（Ｓ１０６）。そして、主マイクロホンアレイ選択部１０６は、目的エリア音抽出部１０７を制御して、マイクロホンアレイＭＡ２を主マイクロホンアレイとして目的エリア音を算出するように制御する（Ｓ１０７）。この場合、目的エリア音抽出部１０７は、上記の（１０）式、（１２）式を用いた目的エリア音の抽出処理を行う。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

第１の実施形態の収音装置１００では、目的エリア音振幅スペクトル補正係数に基づき、主マイクロホンアレイを選択して目的エリア音を抽出している。これにより、この実施形態の収音装置１００では、常に全マイクロホンアレイの中で目的エリア音の音量が最も大きいものを出力することが出来る。これにより、この実施形態の収音装置１００では、受聴者に目的エリア音を安定して聞き取らせることが可能となる。

また、この実施形態の収音装置１００では、主マイクロホンアレイの選択は、目的エリア音振幅スペクトル補正係数算出時に行われるため、目的エリア音の抽出処理は１回だけで済み、処理量を抑えることができる。

（Ｂ）第２の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第２の実施形態を図面を参照して説明する。

（Ｂ−１）第２の実施形態の構成
図４は、第２の実施形態に係る収音装置１００Ａの機能的構成について示したブロック図である。図４では、上述の図１と同一部分又は対応する部分に同一又は対応する符号を付している。以下では、第２の実施形態の収音装置１００Ａについて、第１の実施形態との差異を中心に説明する。

第１の実施形態の収音装置１００では、主マイクロホンアレイを選択する際、そのマイクロホンアレイの近くに非目的エリア音が存在すると、目的エリア音の音量が大きくてもＳＮ比が悪くなり音質が劣化する恐れがある。そこで、第２の実施形態の収音装置１００Ａでは、目的エリア音振幅スペクトル補正係数と、目的エリア音振幅スペクトル補正係数算出時の各周波数の目的エリア音振幅スペクトル比に基づき、周波数毎に主マイクロホンアレイ（目的エリア音抽出の基準となるマイクロホンアレイ）を選択するものとする。

具体的には、第２の実施形態の収音装置１００Ａでは、主マイクロホンアレイ選択部１０６が周波数別主マイクロホンアレイ選択部１０８に置き換わっている点で第１の実施形態と異なっている。

周波数別主マイクロホンアレイ選択部１０８は、補正係数算出部１０５において算出した補正係数と、周波数毎の目的エリア音振幅スペクトルに基づき、主マイクロホンアレイ（目的エリア音抽出の基準となるマイクロホンアレイ）を選択する。

（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の収音装置１００Ａの動作（実施形態の収音方法）を説明する。

周波数別主マイクロホンアレイ選択部１０８が行う処理例の概要について説明する。

ここでは、周波数別主マイクロホンアレイ選択部１０８は、まず、第１の実施形態と同様に、算出した補正係数α_２（ｎ）に基づき、一度主マイクロホンアレイを選択するものとする。その後、周波数別主マイクロホンアレイ選択部１０８は、補正係数算出部１０５を制御してマイクロホンアレイＭＡ２を基準として補正係数α_１（ｎ）も取得する。

次に、周波数別主マイクロホンアレイ選択部１０８は、目的エリア音振幅スペクトル補正係数とマイクロホンアレイ間の目的エリア音振幅スペクトル比から、周波数毎についても主マイクロホンアレイ（目的エリア音抽出の基準となるマイクロホンアレイ）を選択する。例えば、周波数別主マイクロホンアレイ選択部１０８は、補正係数α_２（ｎ）に基づいた最初の判定でマイクロホンアレイＭＡ１が主マイクロホンアレイとして選択された場合、周波数毎にα_２（ｎ）を基準とした閾値Τ_１（ｎ）（Τ_１（ｎ）＝α_２（ｎ）＋τ）と目的エリア音振幅スペクトル比Ｒ_１ｋ（ｎ）（Ｒ_１Ｋ（ｎ）＝Ｙ_１Ｋ（ｎ）／Ｙ_２ｋ（ｎ））を比較する。例えば、Τ_１（ｎ）よりもＲ_１ｋ（ｎ）の方が大きい場合は、マイクロホンアレイＭＡ１のＢＦに含まれている非目的エリア音成分である可能性が高い。またこの周波数ｋのマイクロホンアレイＭＡ２のＢＦ出力は、非目的エリア音が含まれていないか、含まれていたとしてもマイクロホンアレイＭＡ１よりも小さい可能性が高い。そこで、この場合、周波数別主マイクロホンアレイ選択部１０８は、周波数ｋについては、主マイクロホンアレイをマイクロホンアレイＭＡ１からマイクロホンアレイＭＡ２へ変更（補正）する。逆にマイクロホンアレイＭＡ２が主マイクロホンアレイとして選択された場合、周波数別主マイクロホンアレイ選択部１０８は、周波数毎にα_１（ｎ）を基準とした閾値Τ_２（ｎ）（Τ_２（ｎ）＝α_２（ｎ）＋τ）と目的エリア音振幅スペクトル比Ｒ_２ｋ（ｎ）＝（Ｒ_２ｋ（ｎ）＝Ｙ_２ｋ（ｎ）／Ｙ_１ｋ（ｎ））を比較する。このとき、Τ_２よりもＲ_２ｋ（ｎ）の方が大きい場合、周波数別主マイクロホンアレイ選択部１０８は、主マイクロホンアレイをマイクロホンアレイＭＡ２からマイクロホンアレイＭＡ１ヘ変更する。

周波数別主マイクロホンアレイ選択部１０８の制御に基づく以上のような動作をフローチャートで表すと図７〜図９のような内容となる。図７〜図９のフローチャートでは、第１の実施形態と同様に、補正係数算出部１０５は当初主マイクロホンアレイをマイクロホンアレイＭＡ１とし、（６）、（８）式により目的エリア音振幅スペクトル補正係数α_２（ｎ）を算出する内容となっている。

まず、周波数別主マイクロホンアレイ選択部１０８は、補正係数算出部１０５で最初に算出されたマイクロホンアレイＭＡ１を主マイクロホンアレイとする場合の目的エリア音振幅スペクトル補正係数を取得し（Ｓ２０１）、取得した目的エリア音振幅スペクトル補正係数が閾値以上（ここでは１以上）であるか否かを判定する（Ｓ２０２）。周波数別主マイクロホンアレイ選択部１０８は、最初に取得した目的エリア音振幅スペクトル補正係数が１以上である場合、後述するステップＳ２０３から動作し、そうでない場合には後述するステップＳ２０５から動作する。

上述のステップＳ２０２で、マイクロホンアレイＭＡ１を主マイクロホンアレイとする場合に用いる目的エリア音振幅スペクトル補正係数α_２（ｎ）が１以上である場合、周波数別主マイクロホンアレイ選択部１０８は、マイクロホンアレイＭＡ１を主マイクロホンアレイとして選択する（Ｓ２０３）。

そして、周波数別主マイクロホンアレイ選択部１０８は、補正係数算出部１０５に、マイクロホンアレイＭＡ２を基準とする場合に用いる目的エリア音振幅スペクトル補正係数α_１（ｎ）（上記の（１０）式、（１２）式を用いた目的エリア音を抽出する場合の目的エリア音振幅スペクトル補正係数）を算出させ（Ｓ２０４）、後述するステップＳ３０１の処理に移行する。

一方、上述のステップＳ２０２で、マイクロホンアレイＭＡ１を主マイクロホンアレイとする場合に用いる目的エリア音振幅スペクトル補正係数α_２（ｎ）が１未満である場合、周波数別主マイクロホンアレイ選択部１０８は、マイクロホンアレイＭＡ２を主マイクロホンアレイとして選択する（Ｓ２０５）。そして、周波数別主マイクロホンアレイ選択部１０８は、補正係数算出部１０５に、マイクロホンアレイＭＡ２を基準とする場合に用いる目的エリア音振幅スペクトル補正係数α_１（ｎ）（上記の（１０）式、（１２）式を用いた目的エリア音を抽出する場合の目的エリア音振幅スペクトル補正係数）を算出させ（Ｓ２０６）、後述するステップＳ４０１に移行する。

上述のステップＳ２０４の処理の後、周波数別主マイクロホンアレイ選択部１０８は、いずれかの周波数を選択（後述する目的エリア音の算出処理が未完了の周波数を選択；例えば、低い周波数から順に選択）する（Ｓ３０１）。以下では、周波数別主マイクロホンアレイ選択部１０８が今回選択した周波数を「ｋ」と表す。

次に、周波数別主マイクロホンアレイ選択部１０８は、今回選択した周波数ｋについて、第１のマイクロホンアレイの目的エリア音振幅スペクトルＹ_１Ｋ（ｎ）を分子とし、第２のマイクロホンアレイの目的エリア音振幅スペクトルＹ_２ｋ（ｎ）を分母とする目的エリア音振幅スペクトル比Ｒ_１ｋ（ｎ）（Ｒ_１Ｋ（ｎ）＝Ｙ_１Ｋ（ｎ）／Ｙ_２ｋ（ｎ））を算出する（Ｓ３０２）。

次に、周波数別主マイクロホンアレイ選択部１０８は、今回選択した周波数ｋについて、ステップＳ３０２で算出した目的エリア音振幅スペクトル比Ｒ_１ｋ（ｎ）と、目的エリア音振幅スペクトル補正係数α_２（ｎ）とを基準とした閾値Τ_１（ｎ）（例えば、Τ_１（ｎ）＝α_２（ｎ）＋τ）とを比較する（Ｓ３０３）。ここでは、周波数別主マイクロホンアレイ選択部１０８は、目的エリア音振幅スペクトル比Ｒ_１ｋ（ｎ）より閾値Τ_１（ｎ）が一定値（閾値）以上大きいか否かを判定するものとする。周波数別主マイクロホンアレイ選択部１０８は、目的エリア音振幅スペクトル比Ｒ_１ｋ（ｎ）より閾値Τ_１（ｎ）が一定以値（閾値）以上大きいという条件に該当する場合後述するステップＳ３０４から動作し、そうでない場合（差分が閾値未満の場合）には後述するステップＳ３０５から動作する。この場合、比較に用いる一定値（閾値）については、例えば、実験等により予め好適な値を適用することが望ましい。

目的エリア音振幅スペクトル比Ｒ_１ｋ（ｎ）より閾値Τ_１（ｎ）が一定値（閾値）以上大きいという条件に該当する場合、周波数別主マイクロホンアレイ選択部１０８は、周波数ｋについて、マイクロホンアレイＭＡ２を主マイクロホンアレイとして目的エリア音を算出し（Ｓ３０４）、後述するステップＳ３０６に移行する。この場合、目的エリア音抽出部１０７は、周波数ｋの目的エリア音（目的エリア音の成分）について上述の（１２）式を用いて算出する。

一方、目的エリア音振幅スペクトル比Ｒ_１ｋ（ｎ）より閾値Τ_１（ｎ）が一定値（閾値）以上大きいという条件に該当しない場合、周波数別主マイクロホンアレイ選択部１０８は、周波数ｋについて、マイクロホンアレイＭＡ１を主マイクロホンアレイとして目的エリア音を算出させ（Ｓ３０５）、後述するステップＳ３０６に移行する。この場合、目的エリア音抽出部１０７は、周波数ｋの目的エリア音（目的エリア音の成分）について上述の（１１）式を用いて算出する。

ステップＳ３０４又はステップＳ３０５の処理の後、周波数別主マイクロホンアレイ選択部１０８は、未選択の周波数の有無を確認し（Ｓ３０６）、未選択の周波数が有った場合には、上述のステップＳ３０１に戻って動作する。

上述のステップＳ２０６の処理の後、周波数別主マイクロホンアレイ選択部１０８は、いずれかの周波数を選択（後述する目的エリア音の算出処理が未完了の周波数を選択；例えば、低い周波数から順に選択）する（Ｓ４０１）。以下では、周波数別主マイクロホンアレイ選択部１０８が今回選択した周波数を「ｋ」と表す。

次に、周波数別主マイクロホンアレイ選択部１０８は、今回選択した周波数ｋについて、第２のマイクロホンアレイの目的エリア音振幅スペクトルＹ_２Ｋ（ｎ）を分子とし、第１のマイクロホンアレイの目的エリア音振幅スペクトルＹ_１ｋ（ｎ）を分母とする目的エリア音振幅スペクトル比Ｒ_２ｋ（ｎ）（Ｒ_２ｋ（ｎ）＝Ｙ_２ｋ（ｎ）／Ｙ_１ｋ（ｎ））を算出する（Ｓ４０２）。

次に、周波数別主マイクロホンアレイ選択部１０８は、今回選択した周波数ｋについて、ステップＳ４０２で算出した目的エリア音振幅スペクトル比Ｒ_２ｋ（ｎ）と、目的エリア音振幅スペクトル補正係数α_１（ｎ）とを基準とした閾値Τ_２（ｎ）（例えば、Τ_２（ｎ）＝α_２（ｎ）＋τ）とを比較する（Ｓ４０３）。ここでは、周波数別主マイクロホンアレイ選択部１０８は、目的エリア音振幅スペクトル比Ｒ_２ｋ（ｎ）より閾値Τ_２（ｎ）が一定値（閾値）以上大きいか否かを判定するものとする。周波数別主マイクロホンアレイ選択部１０８は、目的エリア音振幅スペクトル比Ｒ_２ｋ（ｎ）より閾値Τ_２（ｎ）が一定値（閾値）以上大きいという条件に該当する場合後述するステップＳ４０４から動作し、そうでない場合（差分が閾値未満の場合）には後述するステップＳ４０５から動作する。この場合比較に用いる一定値（閾値）については、例えば、実験等により予め好適な値を適用することが望ましい。

目的エリア音振幅スペクトル比Ｒ_２ｋ（ｎ）より閾値Τ_２（ｎ）が一定値（閾値）以上大きいという条件に該当する場合、周波数別主マイクロホンアレイ選択部１０８は、周波数ｋについて、マイクロホンアレイＭＡ１を主マイクロホンアレイとして目的エリア音を算出し（Ｓ４０４）、後述するステップＳ４０６に移行する。この場合、周波数別主マイクロホンアレイ選択部１０８は、周波数ｋの目的エリア音（目的エリア音の成分）について上述の（１１）式を用いて算出する。

一方、目的エリア音振幅スペクトル比Ｒ_２ｋ（ｎ）より閾値Τ_２（ｎ）が一定以上大きいという条件に該当しない場合、周波数別主マイクロホンアレイ選択部１０８は、周波数ｋについて、マイクロホンアレイＭＡ２を主マイクロホンアレイとして目的エリア音を算出し（Ｓ４０５）、後述するステップＳ４０６に移行する。この場合、周波数別主マイクロホンアレイ選択部１０８は、周波数ｋの目的エリア音（目的エリア音の成分）について上述の（１２）式を用いて算出する。

ステップＳ４０４又はステップＳ４０５の処理の後、周波数別主マイクロホンアレイ選択部１０８は、未選択の周波数の有無を確認し（Ｓ４０６）、未選択の周波数が有った場合には、上述のステップＳ４０１に戻って動作する。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果と比較して以下のような効果を奏することができる。

第２の実施形態の収音装置１００Ｂでは、主マイクロホンアレイを選択した後、周波数別に再度主マイクロホンアレイを選択することで、非目的エリア音成分を小さくしてＳＮ比を改善させることで、目的エリア音を抽出した際の音質の劣化を抑えることができる。

（Ｃ）第３の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第２の実施形態を図面を参照して説明する。

（Ｃ−１）第３の実施形態の構成
図１０は、第３の実施形態に係る収音装置１００Ｂの機能的構成について示したブロック図である。図１０では、上述の図１と同一部分又は対応する部分に同一又は対応する符号を付している。以下では、第２の実施形態の収音装置１００Ｂについて、第１の実施形態との差異を中心に説明する。

まず、第３の実施形態に係る収音装置１００Ｂの構成概要について説明する。

背景雑音や非目的エリア音の音量レベルが大きい場合、目的エリア音抽出の際に行うＳＳにより、目的エリア音が歪んだり、ミュージカルノイズという耳障りな異音が発生する可能性がある。そこで、参考文献１（特開２０１７−１８３９０２号公報）の手法では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれ調節し、抽出した目的エリア音に混合している。

目的エリア音を抽出する処理により発生するミュージカルノイズは、背景雑音と非目的エリア音の音量レベルが大きいほど強くなるため、参考文献１の手法では、混合する入力信号と推定雑音の総和の音量レベルも、背景雑音と非目的エリア音の音量レベルに比例して大きくしている。具体的には、参考文献１の手法において、背景雑音の音量レベルは、背景雑音を抑圧する過程で求める推定雑音から算出する。また、参考文献１の手法では、非目的エリア音の音量レベルは、目的エリア音を強調する過程で抽出する目的エリア方向に存在する非目的エリア音と、目的エリア方向以外に存在する非目的エリア音を合わせたものから算出する。さらに、参考文献１の手法では、混合する入力信号と推定雑音の比率は、推定雑音と非目的エリア音の音量レベルから決定する。

目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号の音量レベルが大きすぎると目的エリア音に非目的エリア音が混入し、どちらが目的エリア音なのかが分からなくなってしまう。そこで、参考文献１の手法では、非目的エリア音が大きいときは混合する入力信号の音量レベルを下げ、推定雑音の音量レベルを大きくして混合する。つまり、参考文献１の手法では、非目的エリア音が存在しないか音量レベルが小さい場合は入力信号の割合を多くし、逆に非目的エリア音の音量レベルが大きい場合推定雑音の割合を多くして混合する。

このように参考文献１の手法を用いれば、目的エリア音に入力信号及び推定雑音を混合することにより、ミュージカルノイズをマスキングし、通常の背景雑音のように違和感なく聞かせることができる。さらに、参考文献１の手法では、マイク入力信号に含まれる目的エリア音の成分により、目的エリア音の歪みを補正し、音質を改善することができる。

しかしながら、参考文献１の手法では、目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号のレベルを下げるため、非目的エリア音の混入は抑えることができるが、目的エリア音の歪みを改善する効果は低くなってしまう。

そのため、例えば、各マイクロホンアレイの入力信号の中で、最も平均目的エリア音振幅スペクトル（入力信号の一部又は全部の帯域の周波数成分（目的エリア音振幅スペクトル）の平均値）の小さいものを混合信号として選択するという構成例（以下、「第１の構成例」と呼ぶ）を適用することで、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善することができる。

ここで、例として、各マイクロホンアレイから収音エリアの中心までは等距離であるものとする。また、ここで、例として、目的エリア音は、各マイクロホンアレイを構成するマイクロホン全てに同じ音量で入力されるものとする（図１１（ａ）参照）。一方、非目的エリア音が存在する位置は、各マイクロホンアレイからの距離が異なる。そのため、各マイクロホンアレイの信号に含まれる非目的エリア音の音量は、距離減衰によって違う大きさとなる。また１つのマイクロホンアレイを構成する各マイクロホンにおいても、非目的エリア音がマイクロホンアレイの正面以外に存在する場合、非目的エリア音と各マイクロホンとの距離が違うため、音量に差が生じる（図１１（ｂ）参照）。つまり、非目的エリア音から最も遠い位置にあるマイクロホンの入力信号は、含まれる非目的エリア音が最も小さくなる。つまり、非目的エリア音から最も遠い位置にあるマイクロホンの入力信号は、含まれる非目的エリア音が最も小さくなる。この場合、目的エリア音は、全てのマイクロホンに同じ音量で含まれていることになるので、全マイクロホンの中で１番平均目的エリア音振幅スペクトルが小さい入力信号は、ＳＮ比が最も高いことになる。そのため、第１の構成例では、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善するという効果を奏することができる。

そこで、上記のような第１の構成例を鑑み、第３の実施形態の収音装置１００Ｂでは、目的エリア音抽出部１０７の出力（抽出した目的エリア音）に、いずれかのマイクロホンアレイのいずれかのマイクの入力信号の成分を混合信号として混合する信号混合部１０９が追加されている。

第１の構成例では、抽出した目的エリア音に入力信号を混合することで、歪やミュージカルノイズを改善している。また、第１の構成例では、混合時の非目的エリア音の混入を抑えるために、マイクロホンの入力信号の中で、最も平均目的エリア音振幅スペクトルが小さい信号を混合信号として選択している。しかしながら、第１の構成例では、目的エリア音を抽出する主マイクロホンアレイと、混合信号として選択されたマイクロホンアレイが異なると、それぞれ位相も違うため、混合時に音質に影響がある可能性がある。また、第１の構成例では、全マイクロホンで平均目的エリア音振幅スペクトルを算出して比較するため、マイクロホンアレイを構成するマイクロホンが増えると、その分計算量が増えることになる。

そこで、第３の実施形態の信号混合部１０９では、主マイクロホンアレイ選択部１０６で、選択された主マイクロホンアレイを構成するいずれかのマイクロホンの入力信号を混合信号とするものとする。

（Ｃ−２）第３の実施形態の動作
次に、以上のような構成を有する第３の実施形態の収音装置１００Ｂの動作（実施形態に係る収音方法）について、第１の実施形態との差異を中心に説明する。

第３の実施形態で第１の実施形態と異なるのは信号混合部１０９だけであるため、以下では、信号混合部１０９の動作についてのみ説明する。

信号混合部１０９は、目的エリア音抽出部１０７で抽出した目的エリア音に、主マイクロホンアレイ選択部１０６で選択されたマイクロホンアレイを構成するマイクロホンの入力信号を混合信号として混合する。この場合、信号混合部１０９は、混合信号を、そのまま混合してもよいし、所定の係数を乗じて混合してもよい。このとき、混合信号は、選択されたマイクロホンアレイを構成するマイクロホンの入力信号であればどれでも良い。したがって、信号混合部１０９では、いずれのマイクロホンの入力信号を混合信号とするか予め決めおいてもよいし、選択された主マイクロホンアレイの全マイクロホンの入力信号の加算平均を混合信号とするようにしてもよい。

（Ｃ−３）第３の実施形態の効果
第３の実施形態によれば、第１の実施形態の効果と比較して以下のような効果を奏することができる。

第３の実施形態の収音装置１００Ｂでは、主マイクロホンアレイを選択に基づいて混合信号を決定するため、目的エリア音と混合信号の位相が同じになり、音質への影響を抑えることができる。また混合信号選択のための計算量も抑えることができる。

（Ｄ）第４の実施形態
以下、本発明による収音装置、プログラム及び方法の第４の実施形態を、図面を参照しながら詳述する。

（Ｄ−１）第４の実施形態の構成
図１２は、第４の実施形態に係る収音装置１００Ｃの機能的構成について示したブロック図である。図１２では、上述の図６と同一部分又は対応する部分に同一又は対応する符号を付している。以下では、第４の実施形態の収音装置１００Ｃについて、第２の実施形態との差異を中心に説明する。

まず、第４の実施形態に係る収音装置１００Ｃの構成概要について説明する。

上述の参考文献１の手法では、目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号のレベルを下げるため、非目的エリア音の混入は抑えることができるが、目的エリア音の歪みを改善する効果は低くなってしまう。

そのため、例えば、各マイクロホンアレイの入力信号の周波数成分毎に、最も目的エリア音振幅スペクトルの小さいものを混合信号成分として選択するという構成例（以下、「第２の構成例」と呼ぶ）を適用することで、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善することができる。

上述の図１１の説明の通り、非目的エリア音から最も遠い位置にあるマイクロホンの入力信号は、含まれる非目的エリア音が最も小さくなる。そのため、目的エリア音は、全てのマイクロホンの信号に同じ音量で含まれているので、全マイクロホンの信号中で１番目的エリア音振幅スペクトルが小さい入力信号の周波数成分は、ＳＮ比が最も高いことになる。そのため、上述の第２の構成例では、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善するという効果を奏することができる。

しかしながら、第２の構成例では、目的エリア音を抽出する主マイクロホンアレイと、混合信号として選択されたマイクロホンアレイが異なると、それぞれ位相も違うため、混合時に音質に影響がある可能性がある。

そこで、上記のような第２の構成例の問題点を鑑み、第４の実施形態の収音装置１００Ｃでは、目的エリア音抽出部１０７の出力（抽出した目的エリア音）に、周波数毎にいずれかのマイクロホンアレイのいずれかのマイクの入力信号の成分を混合信号として混合する周波数別信号混合部１１０が追加されている。周波数別信号混合部１１０では、主マイクロホンアレイ選択部１０６で、周波数毎に選択された主マイクロホンアレイを構成するマイクロホンの入力信号を混合信号とする。

（Ｄ−２）第４の実施形態の動作
次に、以上のような構成を有する第４の実施形態の収音装置１００Ｃの動作（実施形態に係る収音方法）について、第２の実施形態との差異を中心に説明する。

第４の実施形態で第２の実施形態と異なるのは周波数別信号混合部１１０だけであるため、以下では、周波数別信号混合部１１０の動作についてのみ説明する。

周波数別信号混合部１１０は、目的エリア音抽出部１０７で抽出した目的エリア音に、周波数別主マイクロホンアレイ選択部１０８で、周波数毎に選択されたマイクロホンアレイを構成するマイクロホンの入力信号を混合信号として混合する。このとき、混合信号は、選択されたマイクロホンアレイを構成するマイクロホンの入力信号であればどれでも良い。したがって、周波数別信号混合部１１０では、マイクロホンアレイごとに、いずれのマイクロホンの入力信号を混合信号とするか予め決めおいてもよいし、選択された主マイクロホンアレイの全マイクロホンの入力信号（当該周波数ｋにおける全マイクロホンの入力信号）の加算平均を混合信号とするようにしてもよい。なお、この場合、周波数別信号混合部１１０は、混合信号を、そのまま混合してもよいし、所定の係数を乗じて混合してもよい。

（Ｄ−３）第４の実施形態の効果
第４の実施形態によれば、第２の実施形態の効果と比較して以下のような効果を奏することができる。

第４の実施形態の収音装置１００Ｃでは、周波数ごとに主マイクロホンアレイの選択結果に基づいて混合信号を決定するため、目的エリア音と混合信号の位相が同じになり、音質への影響を抑えることができる。

（Ｅ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｅ−１）上記の各実施形態の収音装置では、収音に用いる各マイクロホンアレイＭＡのマイクロホンの数は２つであったが、３つ以上のマイクを用いて収音した音響信号に基づいて目的エリア方向の音を収音するようにしてもよい。

１００、１００Ａ、１００Ｂ、１００Ｃ…収音装置、１０１…信号入力部，１０２…指向性形成部、１０３…遅延補正部、１０４…空間座標データ記憶部、１０５…補正係数算出部、１０６…主マイクロホンアレイ選択部、１０７…目的エリア音抽出部、１０８…周波数別主マイクロホンアレイ選択部、１０９…信号混合部、１１０…周波数別信号混合部。

Claims

複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、
それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出する補正係数算出手段と、
前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択する選択手段と、
前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出する目的エリア音抽出手段とを有し、
前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させる
ことを特徴とする収音装置。
前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比が、主マイクロホンアレイに対応する補正係数より大きい場合、主マイクロホンアレイと異なる前記マイクロホンアレイを選択し、そうでない場合は主マイクロホンアレイを選択することを特徴とする請求項１に記載の収音装置。
周波数ごとに前記選択手段が選択した前記マイクロホンアレイの入力信号の成分を取得し、取得した入力信号を前記目的エリア音抽出手段が抽出した目的エリア音に混合して出力する周波数別信号混合手段をさらに有することを特徴とする請求項１又は２に記載の収音装置。
コンピュータに、
複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、
それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出する補正係数算出手段と、
前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択する選択手段と、
前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出する目的エリア音抽出手段として機能させ、
前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させる
ことを特徴とする収音プログラム。
収音装置が行う収音方法において、
指向性形成手段、補正係数算出手段、選択手段、及び目的エリア音抽出手段を有し、
前記指向性形成手段は、複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取し、
前記補正係数算出手段は、それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出し、
前記選択手段は、前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択し、
前記目的エリア音抽出手段は、前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出し、
前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させる
ことを特徴とする収音方法。