JP6879340B2 - 収音装置、収音プログラム、及び収音方法 - Google Patents

収音装置、収音プログラム、及び収音方法 Download PDF

Info

Publication number
JP6879340B2
JP6879340B2 JP2019139078A JP2019139078A JP6879340B2 JP 6879340 B2 JP6879340 B2 JP 6879340B2 JP 2019139078 A JP2019139078 A JP 2019139078A JP 2019139078 A JP2019139078 A JP 2019139078A JP 6879340 B2 JP6879340 B2 JP 6879340B2
Authority
JP
Japan
Prior art keywords
microphone array
target area
sound
correction coefficient
area sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019139078A
Other languages
English (en)
Other versions
JP2021022872A (ja
Inventor
一浩 片桐
一浩 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2019139078A priority Critical patent/JP6879340B2/ja
Priority to PCT/JP2020/016354 priority patent/WO2021019844A1/ja
Priority to US17/629,564 priority patent/US11825264B2/en
Publication of JP2021022872A publication Critical patent/JP2021022872A/ja
Application granted granted Critical
Publication of JP6879340B2 publication Critical patent/JP6879340B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/405Non-uniform arrays of transducers or a plurality of uniform arrays with different transducer spacing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

この発明は、収音装置、プログラム及び方法に関し、例えば、特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。
複数の音源が存在する環境下において、ある特定方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下「BF」とも呼ぶ)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。
従来、BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型即に比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
図13は、マイクロホンMの数が2個の場合の減算型BF200に係る構成を示すブロック図である。
図14は、2個のマイクロホンM1、M2を用いた減算型BF200により形成される指向性フィルタの例について示した説明図である。
減算型BF200は、まず遅延器210により目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンM1、M2に到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。上述の時間差は以下の(1)式により算出することができる。
ここで、dはマイクロホンM1、M2間の距離、cは音速、τは遅延量である。またθは、各マイクロホンM(M1、M2)を結んだ直線に対する垂直方向から目的方向への角度である。
また、ここで、死角がマイクロホンM1とM2の中心に対し、マイクロホンM1の方向に存在する場合、遅延器210は、マイクロホンM1の入力信号x(t)に対し遅延処理を行う。その後、減算型BF200では、以下の(2)式に従い処理(減算処理)を行う。
減算型BF200の処理は周波数領域でも同様に行うことができ、その場合(2)式は以下の(3)のように変更される。
Figure 0006879340
ここでθ=±π/2の場合、減算型BF200により形成される指向性は図14(a)に示すように、カージオイド型の単一指向性となる。また、「θ=0,π」の場合、減算型BF200により形成される指向性は、図14(b)のような8の字型の双指向性となる。
以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。
また、減算器220では、スペクトル減算法(Spectral Subtraction;以下、単に、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、以下の(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。
以下の(4)式では、マイクロホンM1の入力信号Xを用いているが、マイクロホンM2の入力信号Xでも同様の効果を得ることができる。ここでβは、SSの強度を調節するための係数である。また、減算器220では、減算時に値がマイナスなった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。以上のような減算型BF200の処理方式では、双指向性の特性によって目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。
Figure 0006879340
ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源の音(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。そこで、特許文献1では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアヘ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法(以下、「エリア収音」と呼ぶ)を提案している。エリア収音では、まず各マイクロホンアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。
例えば、2つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、以下の(5)式及び(6)式の組み合わせ、又は以下の(7)式及び(8)式の組み合わせにより算出することができる。ここで、Y1k(n)は第1のマイクロホンアレイのBF出力の振幅スペクトルであり、Y2k(n)は第2のマイクロホンアレイのBF出力の振幅スペクトルであり、Nは周波数ビンの総数であり、kは周波数である。また、ここで、α(n)、α(n)は各BF出力に対する振幅スペクトル補正係数である。さらに、ここで、modeは最頻値を表し、medeianは中央値を表している。
Figure 0006879340
以上の処理により、減算器220は、補正係数α(n)、α(n)を求め、求めた補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。さらに、減算器220は、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。
減算型BF200は、第1のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N(n)を抽出際、例えば、(9)式に示すように、第1のマイクロホンアレイのBF出力Y(n)から第2のマイクロホンアレイのBF出力Y(n)に振幅スペクトル補正係数αを掛けたものをSSする。減算型BF200は、同様に、以下の(10)式に従い、第2のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N(n)を抽出する。
その後、減算型BF200は、以下の(11)式、又は(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する。なお、以下の(11)式は、第1のマイクロホンアレイを基準として、目的エリア音を抽出する場合の処理を示している。また、以下の(12)式は、第2のマイクロホンアレイを基準として目的エリア音を抽出する場合の処理を示している。ここでγ(n)、γ(n)は、SS時の強度を変更するための係数である。
Figure 0006879340
特開2014−072708号公報
浅野太著,"音響テクノロジーシリーズ16 音のアレイ信号処理−音源の定位・追跡と分離−",日本音響学会編,コロナ社,2011年2月25日発行
特許文献1の記載技術を適用した収音装置において、マイクロホンアレイMA1を基準として(11)式により目的エリア音を抽出する場合、目的エリア内で目的エリア音源が移動してマイクロホンアレイMA1から離れると、距離減衰のため出力音も小さくなってしまう。また声には指向性があるため、特許文献1の記載技術を適用した収音装置では、発話者の顔の向きによっても出力音量が変わってしまう。したがって、特許文献1の記載技術を適用した収音装置では、目的エリア内での目的エリア音源の位置や向きにより音量が小さくなると、受聴者が安定して聞き取れない恐れがある。
また、特許文献1の記載技術を適用した収音装置では、抽出した目的エリア音と非目的エリア音のSN比を算出して、最もSN比が高くなる出力を選択している。しかしながら、特許文献1の記載技術を適用した収音装置では、SN比が高くても目的エリア音の音量が小さい方が選択される場合があるため、音量の安定は保証されない。また、特許文献1の記載技術を適用した収音装置では、(11)式と(12)式のように、全てのマイクロホンアレイを基準として目的エリア音を抽出してから最終的な出力を選択するため、マイクロホンアレイの数だけ処理が増えることになる。
以上のような問題に鑑み、効率的かつ安定的なエリア収音処理を行うことができる収音装置、プログラム及び方法が望まれている。
第1の本発明の収音装置は、(1)複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、(2)それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出する補正係数算出手段と、(3)前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択する選択手段と、(4)前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出する目的エリア音抽出手段とを有し、(5)前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させることを特徴とする。
第2の本発明の収音プログラムは、コンピュータに、(1)複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、(2)それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出する補正係数算出手段と、(3)前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択する選択手段と、(4)前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出する目的エリア音抽出手段として機能させ、(5)前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させることを特徴とする。
第3の本発明は、収音装置が行う収音方法において、(1)指向性形成手段、補正係数算出手段、選択手段、及び目的エリア音抽出手段を有し、(2)前記指向性形成手段は、複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取し、(3)前記補正係数算出手段は、それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出し、(4)前記選択手段は、前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択し、(5)前記目的エリア音抽出手段は、前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出し、(6)前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させることを特徴とする。
本発明によれば、効率的かつ安定的なエリア収音処理を行うことができる。
第1の実施形態に係る収音装置の機能的構成を示すブロック図である。 第1の実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。 ビームフォーマを用いたエリア収音の収音特性についてシミュレーションした結果を示した図(その1)である。 ビームフォーマを用いたエリア収音の収音特性についてシミュレーションした結果を示した図(その2)である。 第1の実施形態の収音装置の動作について示したフローチャートである。 第2の実施形態に係る収音装置の機能的構成を示すブロック図である。 第2の実施形態の主マイクロホンアレイ選択処理のフローチャート(その1)である。 第2の実施形態の主マイクロホンアレイ選択処理のフローチャート(その2)である。 第2の実施形態の主マイクロホンアレイ選択処理のフローチャート(その3)である。 第3の実施形態に係る収音装置の機能的構成を示すブロック図である。 第3の実施形態の効果について示した説明図である。 第4の実施形態に係る収音装置の機能的構成を示すブロック図である。 従来の減算型BFの構成を示すブロック図である。 従来の減算型BFにより形成される指向性フィルタの例について示した説明図である。
(A)第1の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第1の実施形態を図面を参照して説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る収音装置100の機能的構成を示すブロック図である。
収音装置100は、2つのマイクロホンアレイMA(MA1、MA2)を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。以下では、マイクロホンアレイMA1、MA2を、それぞれ「第1のマイクロホンアレイMA1」、「第2のマイクロホンアレイMA2」とも呼ぶものとする。
マイクロホンアレイMA1、MA2は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイに、音響信号を収音する2つのマイクロホンM1、M2が配置されるものとして説明する。すなわち、この実施形態において、各マイクロホンアレイは、2chマイクロホンアレイを構成しているものとする。2個のマイクロホンM1、M2の間の距離は限定されないものであるが、この実施形態の例では、2個のマイクロホンM1、M2の間の距離は3cmとする。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイMAを配置する必要がある。
次に、図1、図2を用いて収音装置100の内部構成について説明する。
図1に示す通り、収音装置100は、信号入力部101、指向性形成部102、遅延補正部103、空間座標データ記憶部104、補正係数算出部105、主マイクロホンアレイ選択部106、及び目的エリア音抽出部107を有している。
収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
次に、図2を用いて、収音装置100のハードウェア構成について説明する。
図2は、収音装置100のハードウェア構成の例について示したブロック図である。
収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
図2では、収音装置100を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
図2に示す収音装置100は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ200を有している。また、コンピュータ200は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
図2に示すコンピュータ200は、プロセッサ201、一次記憶部202、及び二次記憶部203を有している。一次記憶部202は、プロセッサ201の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部203は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ200では、プロセッサ201が起動する際、二次記憶部203に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部202上に展開して実行する。
なお、コンピュータ200の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部202が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部203については除外した構成としてもよい。
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の収音装置100の動作(実施形態に係る収音方法)を説明する。
信号入力部101は、各マイクロホンアレイで収音した音響信号をアナログ信号からデジタル信号に変換し入力する処理を行う。信号入力部101は、その後、例えば高速フーリエ変換を用いて入力信号(デジタル信号)を、時間領域から周波数領域へ変換する。以下では、各マイクロホンアレイにおいて、マイクロホンM1、M2の周波数領域の入力信号を、それぞれX、Xとして説明する。
指向性形成部102は、マイクロホンアレイ毎に入力信号に対し、(4)式に従いBFにより目的エリア方向に指向性を形成する。以下では、マイクロホンアレイMA1、MA2のBF出力の振幅スペクトルを、それぞれY1k(n)、Y2k(n)として説明する。
遅延補正部103は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出して補正する。遅延補正部103は、まず、空間座標データ記憶部104から目的エリアの位置とマイクロホンアレイの位置を取得し、各マイクロホンアレイへの目的エリア音の到達時間の差を算出する。遅延補正部103は、次に最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。
空間座標データ記憶部104は、全ての目的エリアと各マイクロホンアレイと各マイクロホンアレイを構成するマイクロホンの位置情報を保持する。なお遅延補正部103による処理が必要ない場合、空間座標データはなくても良い。
補正係数算出部105は、各BF出力に含まれる目的エリア音成分の振幅スペクトルを同じにする(近づける)ための振幅スペクトル補正係数を算出する。以下では、マイクロホンアレイMA1、MA2のBF出力に対する振幅スペクトル補正係数を、α(n)、α(n)として説明する。補正係数算出部5は、「(5)式、(6)式」または「(7)式、(8)式」に従い振幅スペクトル補正係数を算出する。
ここでは、補正係数算出部105は、最初に主マイクロホンアレイをマイクロホンアレイMA1に設定する場合は、(6)、(8)式により振幅スペクトル補正係数α(n)を算出し、その後、主マイクロホンアレイ選択部106からの指示(制御)があった場合マイクロホンアレイMA2を主マイクロホンアレイとして(5)、(7)式により振幅スペクトル補正係数α(n)を算出するものとする。なお、補正係数算出部105が最初に設定する主マイクロホンアレイについてはマイクロホンアレイMA1に限定されないものであり、任意のマイクロホンアレイを適用することができる。
主マイクロホンアレイ選択部106は、補正係数算出部105において算出した振幅スペクトル補正係数に基づき、いずれかのマイクロホンアレイを、主マイクロホンアレイとして選択する。主マイクロホンアレイ選択部106による主マイクロホンの選択処理の詳細については後述する。
目的エリア音抽出部107は、主マイクロホンアレイ選択部106で選択したマイクロホンアレイを主マイクロホンアレイとし、目的エリア音を抽出する。主マイクロホンアレイとしてマイクロホンアレイMA1が選択された場合、目的エリア音抽出部107は、算出した振幅スペクトル補正係数α(n)により各BF出力を(9)式に従いSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、目的エリア音抽出部107は、抽出した非目的エリア音を各BFの出力から(11)式に従いSSすることにより目的エリア音を抽出する。また主マイクロホンアレイとしてマイクロホンアレイMA2が選択された場合、目的エリア音抽出部107は、振幅スペクトル補正係数α(n)により各BF出力を(10)式に従い目的エリア方向に存在する非目的エリア音を抽出し、抽出した非目的エリア音を各BFの出力から(12)式に従い目的エリア音を抽出する。
次に、第1の実施形態の収音装置100における主マイクロホンアレイの選択処理の詳細について説明する。
上述の通り、予め定められた主マイクロホンアレイを用いてエリア収音処理を行う場合、目的エリアに存在する話者の位置や向きによって主マイクロホンのビームフォーマ出力に含まれる目的エリア音成分の量(目的エリア音成分の強度)が変動する場合がある。このような変動は、各マイクロホンアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率に基づき算出される振幅スペクトル補正係数により確認することができる。
例えば、振幅スペクトル補正係数α(n)が1以上であれば、マイクロホンアレイMA1に含まれる目的エリア音の振幅スペクトル(目的エリア音の成分)が、マイクロホンアレイMA2に含まれる目的エリア音振幅スペクトルより大きいことを示している。一方、目的エリア音振幅スペクトル補正係数α(n)が1未満のときは、逆にマイクロホンアレイMA1に含まれる目的エリア音振幅スペクトルが、マイクロホンアレイMA2よりも小さいことを示している。つまり目的エリア音振幅スペクトル補正係数α(n)により、主マイクロホンアレイを選択すれば、マイクロホンアレイMA1とマイクロホンアレイMA2に含まれる目的エリア音の内、音量が大きい方が選択され、抽出される目的エリア音の収音特性が安定することになる。
ここで、上述のように目的エリア音振幅スペクトル補正係数に基づいて主マイクロホンアレイを切り替えることによる収音特性の変化について図3、図4を用いて説明する。
図3は、各マイクロホンアレイの入力信号サンプルに基づき、主マイクロホンアレイを固定した場合におけるエリアごとの収音特性(収音される目的エリア音の強度)の例(シミュレーション結果)を示したグラフである。図4は、同じ入力信号のサンプルについて、目的エリア音振幅スペクトル補正係数に基づいて主マイクロホンアレイを選択(切替)した場合における収音特性の例(シミュレーション結果)を示したグラフである。
図3、図4では、マイクロホンアレイMA1、MA2の位置、及びマイクロホンアレイMA1、MA2によるBFの指向性の交点P1を図示している。そして、図3、図4では、交点P1の周囲における目的エリア音の収音特性(目的エリア音振幅スペクトルの強度;単位は「dB」;以下、「収音強度」とも呼ぶ)を示している。図3、4では、収音強度の値に応じたパターンを図示している。図3、図4では、右側にパターンごとに対応する収音強度の値を図示している。図3、図4では、マイクロホンアレイMA1、MA2の間の中間点で、マイクロホンアレイMA1、MA2を結んだ線に直交する中心線L1を図示している。交点P1は中心線L1上に存在するものとする。
図3のシミュレーション結果(従来の収音装置による収音結果)では、マイクロホンアレイMA1の側に収音特性(収音強度)が偏っており、話者の位置、顔の向きによって出力レベルが小さくなる場合がある。すなわち、従来の収音装置を用いた場合、収音結果が聴者にとって聞き取りにくい内容となったり、収音結果を音声認識処理に入力した場合音声認識率が低下するおそれがある。言い換えると、従来の収音装置を用いた場合、話者の位置、顔の向きによって、収音特性のスイートスポットが中心線L1を中心として対称(左右対称)でないため、収音エリアの設定(調整)がしにくく、安定的な収音処理ができない場合がある。
一方、図4のシミュレーション結果(この実施形態の収音装置100による収音結果)では、収音特性のスイートスポットが中心線L1を中心として対称(左右対称)になる。すなわち、図4のシミュレーション結果からこの実施形態の収音装置100で安定的に収音できるスィートスポットが広くなる。また、図4のシミュレーション結果からこの実施形態の収音装置100では、中心線L1を中心として対称(左右対称)に収音特性のスイートスポットが広がっているため、収音エリア(スィートスポット)の範囲が直感的でわかりやすくなっていることがわかる。
以上のように、この実施形態の収音装置100では、目的エリア音振幅スペクトル補正係数に基づいて主マイクロホンアレイを選択する処理を行う。
次に、主マイクロホンアレイ選択部106の動作詳細の例について図5のフローチャートを用いて説明する。なお、補正係数算出部105及び目的エリア音抽出部107は、主マイクロホンアレイ選択部106の制御に応じて動作も行う。なお、以下では、任意のマイクロホンアレイを基準として目的エリア音を算出する場合に用いる目的エリア音振幅スペクトル補正係数を、「任意のマイクロホンアレイに対応する目的エリア音振幅スペクトル補正係数」とも呼ぶものとする。
ここでは、上述の通り、この実施形態では、補正係数算出部105は当初主マイクロホンアレイをマイクロホンアレイMA1とし、(6)、(8)式により目的エリア音振幅スペクトル補正係数α(n)を算出するものとして説明する。
まず、主マイクロホンアレイ選択部106は、補正係数算出部105で最初に算出されたマイクロホンアレイMA1を主マイクロホンアレイとする場合の目的エリア音振幅スペクトル補正係数α(n)を取得し(S101)、取得した目的エリア音振幅スペクトル補正係数α(n)が閾値以上(ここでは1以上)であるか否かを判定する(S102)。主マイクロホンアレイ選択部106は、最初に取得した目的エリア音振幅スペクトル補正係数α(n)が1以上である場合、後述するステップS103から動作し、そうでない場合には後述するステップS105から動作する。
この場合、補正係数算出部105は、最初にマイクロホンアレイMA1を基準とする場合に用いる目的エリア音振幅スペクトル補正係数α(n)を取得し、取得した目的エリア音振幅スペクトル補正係数α(n)が1以上であるか否かを判断する。
上述のステップS102で、マイクロホンアレイMA1を主マイクロホンアレイとする場合に用いる目的エリア音振幅スペクトル補正係数α(n)が1以上である場合、主マイクロホンアレイ選択部106は、マイクロホンアレイMA1を主マイクロホンアレイとして選択し(S103)、目的エリア音抽出部107を制御して、マイクロホンアレイMA1を主マイクロホンアレイとして目的エリア音を算出するように制御する。この場合、目的エリア音抽出部107は、上記の(9)式、(11)式を用いた目的エリア音の抽出処理を行う。
一方、上述のステップS102で、マイクロホンアレイMA1を主マイクロホンアレイとする場合に用いる目的エリア音振幅スペクトル補正係数α(n)が1未満である場合、主マイクロホンアレイ選択部106は、マイクロホンアレイMA2を主マイクロホンアレイとして選択し(S105)、補正係数算出部105に、マイクロホンアレイMA2を基準とする場合に用いる目的エリア音振幅スペクトル補正係数α(n)を算出させる(S106)。そして、主マイクロホンアレイ選択部106は、目的エリア音抽出部107を制御して、マイクロホンアレイMA2を主マイクロホンアレイとして目的エリア音を算出するように制御する(S107)。この場合、目的エリア音抽出部107は、上記の(10)式、(12)式を用いた目的エリア音の抽出処理を行う。
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
第1の実施形態の収音装置100では、目的エリア音振幅スペクトル補正係数に基づき、主マイクロホンアレイを選択して目的エリア音を抽出している。これにより、この実施形態の収音装置100では、常に全マイクロホンアレイの中で目的エリア音の音量が最も大きいものを出力することが出来る。これにより、この実施形態の収音装置100では、受聴者に目的エリア音を安定して聞き取らせることが可能となる。
また、この実施形態の収音装置100では、主マイクロホンアレイの選択は、目的エリア音振幅スペクトル補正係数算出時に行われるため、目的エリア音の抽出処理は1回だけで済み、処理量を抑えることができる。
(B)第2の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第2の実施形態を図面を参照して説明する。
(B−1)第2の実施形態の構成
図4は、第2の実施形態に係る収音装置100Aの機能的構成について示したブロック図である。図4では、上述の図1と同一部分又は対応する部分に同一又は対応する符号を付している。以下では、第2の実施形態の収音装置100Aについて、第1の実施形態との差異を中心に説明する。
第1の実施形態の収音装置100では、主マイクロホンアレイを選択する際、そのマイクロホンアレイの近くに非目的エリア音が存在すると、目的エリア音の音量が大きくてもSN比が悪くなり音質が劣化する恐れがある。そこで、第2の実施形態の収音装置100Aでは、目的エリア音振幅スペクトル補正係数と、目的エリア音振幅スペクトル補正係数算出時の各周波数の目的エリア音振幅スペクトル比に基づき、周波数毎に主マイクロホンアレイ(目的エリア音抽出の基準となるマイクロホンアレイ)を選択するものとする。
具体的には、第2の実施形態の収音装置100Aでは、主マイクロホンアレイ選択部106が周波数別主マイクロホンアレイ選択部108に置き換わっている点で第1の実施形態と異なっている。
周波数別主マイクロホンアレイ選択部108は、補正係数算出部105において算出した補正係数と、周波数毎の目的エリア音振幅スペクトルに基づき、主マイクロホンアレイ(目的エリア音抽出の基準となるマイクロホンアレイ)を選択する。
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の収音装置100Aの動作(実施形態の収音方法)を説明する。
周波数別主マイクロホンアレイ選択部108が行う処理例の概要について説明する。
ここでは、周波数別主マイクロホンアレイ選択部108は、まず、第1の実施形態と同様に、算出した補正係数α(n)に基づき、一度主マイクロホンアレイを選択するものとする。その後、周波数別主マイクロホンアレイ選択部108は、補正係数算出部105を制御してマイクロホンアレイMA2を基準として補正係数α(n)も取得する。
次に、周波数別主マイクロホンアレイ選択部108は、目的エリア音振幅スペクトル補正係数とマイクロホンアレイ間の目的エリア音振幅スペクトル比から、周波数毎についても主マイクロホンアレイ(目的エリア音抽出の基準となるマイクロホンアレイ)を選択する。例えば、周波数別主マイクロホンアレイ選択部108は、補正係数α(n)に基づいた最初の判定でマイクロホンアレイMA1が主マイクロホンアレイとして選択された場合、周波数毎にα(n)を基準とした閾値Τ(n)(Τ(n)=α(n)+τ)と目的エリア音振幅スペクトル比R1k(n)(R1K(n)=Y1K(n)/Y2k(n))を比較する。例えば、Τ(n)よりもR1k(n)の方が大きい場合は、マイクロホンアレイMA1のBFに含まれている非目的エリア音成分である可能性が高い。またこの周波数kのマイクロホンアレイMA2のBF出力は、非目的エリア音が含まれていないか、含まれていたとしてもマイクロホンアレイMA1よりも小さい可能性が高い。そこで、この場合、周波数別主マイクロホンアレイ選択部108は、周波数kについては、主マイクロホンアレイをマイクロホンアレイMA1からマイクロホンアレイMA2へ変更(補正)する。逆にマイクロホンアレイMA2が主マイクロホンアレイとして選択された場合、周波数別主マイクロホンアレイ選択部108は、周波数毎にα(n)を基準とした閾値Τ(n)(Τ(n)=α(n)+τ)と目的エリア音振幅スペクトル比R2k(n)=(R2k(n)=Y2k(n)/Y1k(n))を比較する。このとき、ΤよりもR2k(n)の方が大きい場合、周波数別主マイクロホンアレイ選択部108は、主マイクロホンアレイをマイクロホンアレイMA2からマイクロホンアレイMA1ヘ変更する。
周波数別主マイクロホンアレイ選択部108の制御に基づく以上のような動作をフローチャートで表すと図7〜図9のような内容となる。図7〜図9のフローチャートでは、第1の実施形態と同様に、補正係数算出部105は当初主マイクロホンアレイをマイクロホンアレイMA1とし、(6)、(8)式により目的エリア音振幅スペクトル補正係数α(n)を算出する内容となっている。
まず、周波数別主マイクロホンアレイ選択部108は、補正係数算出部105で最初に算出されたマイクロホンアレイMA1を主マイクロホンアレイとする場合の目的エリア音振幅スペクトル補正係数を取得し(S201)、取得した目的エリア音振幅スペクトル補正係数が閾値以上(ここでは1以上)であるか否かを判定する(S202)。周波数別主マイクロホンアレイ選択部108は、最初に取得した目的エリア音振幅スペクトル補正係数が1以上である場合、後述するステップS203から動作し、そうでない場合には後述するステップS205から動作する。
上述のステップS202で、マイクロホンアレイMA1を主マイクロホンアレイとする場合に用いる目的エリア音振幅スペクトル補正係数α(n)が1以上である場合、周波数別主マイクロホンアレイ選択部108は、マイクロホンアレイMA1を主マイクロホンアレイとして選択する(S203)。
そして、周波数別主マイクロホンアレイ選択部108は、補正係数算出部105に、マイクロホンアレイMA2を基準とする場合に用いる目的エリア音振幅スペクトル補正係数α(n)(上記の(10)式、(12)式を用いた目的エリア音を抽出する場合の目的エリア音振幅スペクトル補正係数)を算出させ(S204)、後述するステップS301の処理に移行する。
一方、上述のステップS202で、マイクロホンアレイMA1を主マイクロホンアレイとする場合に用いる目的エリア音振幅スペクトル補正係数α(n)が1未満である場合、周波数別主マイクロホンアレイ選択部108は、マイクロホンアレイMA2を主マイクロホンアレイとして選択する(S205)。そして、周波数別主マイクロホンアレイ選択部108は、補正係数算出部105に、マイクロホンアレイMA2を基準とする場合に用いる目的エリア音振幅スペクトル補正係数α(n)(上記の(10)式、(12)式を用いた目的エリア音を抽出する場合の目的エリア音振幅スペクトル補正係数)を算出させ(S206)、後述するステップS401に移行する。
上述のステップS204の処理の後、周波数別主マイクロホンアレイ選択部108は、いずれかの周波数を選択(後述する目的エリア音の算出処理が未完了の周波数を選択;例えば、低い周波数から順に選択)する(S301)。以下では、周波数別主マイクロホンアレイ選択部108が今回選択した周波数を「k」と表す。
次に、周波数別主マイクロホンアレイ選択部108は、今回選択した周波数kについて、第1のマイクロホンアレイの目的エリア音振幅スペクトルY1K(n)を分子とし、第2のマイクロホンアレイの目的エリア音振幅スペクトルY2k(n)を分母とする目的エリア音振幅スペクトル比R1k(n)(R1K(n)=Y1K(n)/Y2k(n))を算出する(S302)。
次に、周波数別主マイクロホンアレイ選択部108は、今回選択した周波数kについて、ステップS302で算出した目的エリア音振幅スペクトル比R1k(n)と、目的エリア音振幅スペクトル補正係数α(n)とを基準とした閾値Τ(n)(例えば、Τ(n)=α(n)+τ)とを比較する(S303)。ここでは、周波数別主マイクロホンアレイ選択部108は、目的エリア音振幅スペクトル比R1k(n)より閾値Τ(n)が一定値(閾値)以上大きいか否かを判定するものとする。周波数別主マイクロホンアレイ選択部108は、目的エリア音振幅スペクトル比R1k(n)より閾値Τ(n)が一定以値(閾値)以上大きいという条件に該当する場合後述するステップS304から動作し、そうでない場合(差分が閾値未満の場合)には後述するステップS305から動作する。この場合、比較に用いる一定値(閾値)については、例えば、実験等により予め好適な値を適用することが望ましい。
目的エリア音振幅スペクトル比R1k(n)より閾値Τ(n)が一定値(閾値)以上大きいという条件に該当する場合、周波数別主マイクロホンアレイ選択部108は、周波数kについて、マイクロホンアレイMA2を主マイクロホンアレイとして目的エリア音を算出し(S304)、後述するステップS306に移行する。この場合、目的エリア音抽出部107は、周波数kの目的エリア音(目的エリア音の成分)について上述の(12)式を用いて算出する。
一方、目的エリア音振幅スペクトル比R1k(n)より閾値Τ(n)が一定値(閾値)以上大きいという条件に該当しない場合、周波数別主マイクロホンアレイ選択部108は、周波数kについて、マイクロホンアレイMA1を主マイクロホンアレイとして目的エリア音を算出させ(S305)、後述するステップS306に移行する。この場合、目的エリア音抽出部107は、周波数kの目的エリア音(目的エリア音の成分)について上述の(11)式を用いて算出する。
ステップS304又はステップS305の処理の後、周波数別主マイクロホンアレイ選択部108は、未選択の周波数の有無を確認し(S306)、未選択の周波数が有った場合には、上述のステップS301に戻って動作する。
上述のステップS206の処理の後、周波数別主マイクロホンアレイ選択部108は、いずれかの周波数を選択(後述する目的エリア音の算出処理が未完了の周波数を選択;例えば、低い周波数から順に選択)する(S401)。以下では、周波数別主マイクロホンアレイ選択部108が今回選択した周波数を「k」と表す。
次に、周波数別主マイクロホンアレイ選択部108は、今回選択した周波数kについて、第2のマイクロホンアレイの目的エリア音振幅スペクトルY2K(n)を分子とし、第1のマイクロホンアレイの目的エリア音振幅スペクトルY1k(n)を分母とする目的エリア音振幅スペクトル比R2k(n)(R2k(n)=Y2k(n)/Y1k(n))を算出する(S402)。
次に、周波数別主マイクロホンアレイ選択部108は、今回選択した周波数kについて、ステップS402で算出した目的エリア音振幅スペクトル比R2k(n)と、目的エリア音振幅スペクトル補正係数α(n)とを基準とした閾値Τ(n)(例えば、Τ(n)=α(n)+τ)とを比較する(S403)。ここでは、周波数別主マイクロホンアレイ選択部108は、目的エリア音振幅スペクトル比R2k(n)より閾値Τ(n)が一定値(閾値)以上大きいか否かを判定するものとする。周波数別主マイクロホンアレイ選択部108は、目的エリア音振幅スペクトル比R2k(n)より閾値Τ(n)が一定値(閾値)以上大きいという条件に該当する場合後述するステップS404から動作し、そうでない場合(差分が閾値未満の場合)には後述するステップS405から動作する。この場合比較に用いる一定値(閾値)については、例えば、実験等により予め好適な値を適用することが望ましい。
目的エリア音振幅スペクトル比R2k(n)より閾値Τ(n)が一定値(閾値)以上大きいという条件に該当する場合、周波数別主マイクロホンアレイ選択部108は、周波数kについて、マイクロホンアレイMA1を主マイクロホンアレイとして目的エリア音を算出し(S404)、後述するステップS406に移行する。この場合、周波数別主マイクロホンアレイ選択部108は、周波数kの目的エリア音(目的エリア音の成分)について上述の(11)式を用いて算出する。
一方、目的エリア音振幅スペクトル比R2k(n)より閾値Τ(n)が一定以上大きいという条件に該当しない場合、周波数別主マイクロホンアレイ選択部108は、周波数kについて、マイクロホンアレイMA2を主マイクロホンアレイとして目的エリア音を算出し(S405)、後述するステップS406に移行する。この場合、周波数別主マイクロホンアレイ選択部108は、周波数kの目的エリア音(目的エリア音の成分)について上述の(12)式を用いて算出する。
ステップS404又はステップS405の処理の後、周波数別主マイクロホンアレイ選択部108は、未選択の周波数の有無を確認し(S406)、未選択の周波数が有った場合には、上述のステップS401に戻って動作する。
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果と比較して以下のような効果を奏することができる。
第2の実施形態の収音装置100Bでは、主マイクロホンアレイを選択した後、周波数別に再度主マイクロホンアレイを選択することで、非目的エリア音成分を小さくしてSN比を改善させることで、目的エリア音を抽出した際の音質の劣化を抑えることができる。
(C)第3の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第2の実施形態を図面を参照して説明する。
(C−1)第3の実施形態の構成
図10は、第3の実施形態に係る収音装置100Bの機能的構成について示したブロック図である。図10では、上述の図1と同一部分又は対応する部分に同一又は対応する符号を付している。以下では、第2の実施形態の収音装置100Bについて、第1の実施形態との差異を中心に説明する。
まず、第3の実施形態に係る収音装置100Bの構成概要について説明する。
背景雑音や非目的エリア音の音量レベルが大きい場合、目的エリア音抽出の際に行うSSにより、目的エリア音が歪んだり、ミュージカルノイズという耳障りな異音が発生する可能性がある。そこで、参考文献1(特開2017−183902号公報)の手法では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれ調節し、抽出した目的エリア音に混合している。
目的エリア音を抽出する処理により発生するミュージカルノイズは、背景雑音と非目的エリア音の音量レベルが大きいほど強くなるため、参考文献1の手法では、混合する入力信号と推定雑音の総和の音量レベルも、背景雑音と非目的エリア音の音量レベルに比例して大きくしている。具体的には、参考文献1の手法において、背景雑音の音量レベルは、背景雑音を抑圧する過程で求める推定雑音から算出する。また、参考文献1の手法では、非目的エリア音の音量レベルは、目的エリア音を強調する過程で抽出する目的エリア方向に存在する非目的エリア音と、目的エリア方向以外に存在する非目的エリア音を合わせたものから算出する。さらに、参考文献1の手法では、混合する入力信号と推定雑音の比率は、推定雑音と非目的エリア音の音量レベルから決定する。
目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号の音量レベルが大きすぎると目的エリア音に非目的エリア音が混入し、どちらが目的エリア音なのかが分からなくなってしまう。そこで、参考文献1の手法では、非目的エリア音が大きいときは混合する入力信号の音量レベルを下げ、推定雑音の音量レベルを大きくして混合する。つまり、参考文献1の手法では、非目的エリア音が存在しないか音量レベルが小さい場合は入力信号の割合を多くし、逆に非目的エリア音の音量レベルが大きい場合推定雑音の割合を多くして混合する。
このように参考文献1の手法を用いれば、目的エリア音に入力信号及び推定雑音を混合することにより、ミュージカルノイズをマスキングし、通常の背景雑音のように違和感なく聞かせることができる。さらに、参考文献1の手法では、マイク入力信号に含まれる目的エリア音の成分により、目的エリア音の歪みを補正し、音質を改善することができる。
しかしながら、参考文献1の手法では、目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号のレベルを下げるため、非目的エリア音の混入は抑えることができるが、目的エリア音の歪みを改善する効果は低くなってしまう。
そのため、例えば、各マイクロホンアレイの入力信号の中で、最も平均目的エリア音振幅スペクトル(入力信号の一部又は全部の帯域の周波数成分(目的エリア音振幅スペクトル)の平均値)の小さいものを混合信号として選択するという構成例(以下、「第1の構成例」と呼ぶ)を適用することで、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善することができる。
ここで、例として、各マイクロホンアレイから収音エリアの中心までは等距離であるものとする。また、ここで、例として、目的エリア音は、各マイクロホンアレイを構成するマイクロホン全てに同じ音量で入力されるものとする(図11(a)参照)。一方、非目的エリア音が存在する位置は、各マイクロホンアレイからの距離が異なる。そのため、各マイクロホンアレイの信号に含まれる非目的エリア音の音量は、距離減衰によって違う大きさとなる。また1つのマイクロホンアレイを構成する各マイクロホンにおいても、非目的エリア音がマイクロホンアレイの正面以外に存在する場合、非目的エリア音と各マイクロホンとの距離が違うため、音量に差が生じる(図11(b)参照)。つまり、非目的エリア音から最も遠い位置にあるマイクロホンの入力信号は、含まれる非目的エリア音が最も小さくなる。つまり、非目的エリア音から最も遠い位置にあるマイクロホンの入力信号は、含まれる非目的エリア音が最も小さくなる。この場合、目的エリア音は、全てのマイクロホンに同じ音量で含まれていることになるので、全マイクロホンの中で1番平均目的エリア音振幅スペクトルが小さい入力信号は、SN比が最も高いことになる。そのため、第1の構成例では、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善するという効果を奏することができる。
そこで、上記のような第1の構成例を鑑み、第3の実施形態の収音装置100Bでは、目的エリア音抽出部107の出力(抽出した目的エリア音)に、いずれかのマイクロホンアレイのいずれかのマイクの入力信号の成分を混合信号として混合する信号混合部109が追加されている。
第1の構成例では、抽出した目的エリア音に入力信号を混合することで、歪やミュージカルノイズを改善している。また、第1の構成例では、混合時の非目的エリア音の混入を抑えるために、マイクロホンの入力信号の中で、最も平均目的エリア音振幅スペクトルが小さい信号を混合信号として選択している。しかしながら、第1の構成例では、目的エリア音を抽出する主マイクロホンアレイと、混合信号として選択されたマイクロホンアレイが異なると、それぞれ位相も違うため、混合時に音質に影響がある可能性がある。また、第1の構成例では、全マイクロホンで平均目的エリア音振幅スペクトルを算出して比較するため、マイクロホンアレイを構成するマイクロホンが増えると、その分計算量が増えることになる。
そこで、第3の実施形態の信号混合部109では、主マイクロホンアレイ選択部106で、選択された主マイクロホンアレイを構成するいずれかのマイクロホンの入力信号を混合信号とするものとする。
(C−2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態の収音装置100Bの動作(実施形態に係る収音方法)について、第1の実施形態との差異を中心に説明する。
第3の実施形態で第1の実施形態と異なるのは信号混合部109だけであるため、以下では、信号混合部109の動作についてのみ説明する。
信号混合部109は、目的エリア音抽出部107で抽出した目的エリア音に、主マイクロホンアレイ選択部106で選択されたマイクロホンアレイを構成するマイクロホンの入力信号を混合信号として混合する。この場合、信号混合部109は、混合信号を、そのまま混合してもよいし、所定の係数を乗じて混合してもよい。このとき、混合信号は、選択されたマイクロホンアレイを構成するマイクロホンの入力信号であればどれでも良い。したがって、信号混合部109では、いずれのマイクロホンの入力信号を混合信号とするか予め決めおいてもよいし、選択された主マイクロホンアレイの全マイクロホンの入力信号の加算平均を混合信号とするようにしてもよい。
(C−3)第3の実施形態の効果
第3の実施形態によれば、第1の実施形態の効果と比較して以下のような効果を奏することができる。
第3の実施形態の収音装置100Bでは、主マイクロホンアレイを選択に基づいて混合信号を決定するため、目的エリア音と混合信号の位相が同じになり、音質への影響を抑えることができる。また混合信号選択のための計算量も抑えることができる。
(D)第4の実施形態
以下、本発明による収音装置、プログラム及び方法の第4の実施形態を、図面を参照しながら詳述する。
(D−1)第4の実施形態の構成
図12は、第4の実施形態に係る収音装置100Cの機能的構成について示したブロック図である。図12では、上述の図6と同一部分又は対応する部分に同一又は対応する符号を付している。以下では、第4の実施形態の収音装置100Cについて、第2の実施形態との差異を中心に説明する。
まず、第4の実施形態に係る収音装置100Cの構成概要について説明する。
上述の参考文献1の手法では、目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号のレベルを下げるため、非目的エリア音の混入は抑えることができるが、目的エリア音の歪みを改善する効果は低くなってしまう。
そのため、例えば、各マイクロホンアレイの入力信号の周波数成分毎に、最も目的エリア音振幅スペクトルの小さいものを混合信号成分として選択するという構成例(以下、「第2の構成例」と呼ぶ)を適用することで、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善することができる。
上述の図11の説明の通り、非目的エリア音から最も遠い位置にあるマイクロホンの入力信号は、含まれる非目的エリア音が最も小さくなる。そのため、目的エリア音は、全てのマイクロホンの信号に同じ音量で含まれているので、全マイクロホンの信号中で1番目的エリア音振幅スペクトルが小さい入力信号の周波数成分は、SN比が最も高いことになる。そのため、上述の第2の構成例では、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善するという効果を奏することができる。
しかしながら、第2の構成例では、目的エリア音を抽出する主マイクロホンアレイと、混合信号として選択されたマイクロホンアレイが異なると、それぞれ位相も違うため、混合時に音質に影響がある可能性がある。
そこで、上記のような第2の構成例の問題点を鑑み、第4の実施形態の収音装置100Cでは、目的エリア音抽出部107の出力(抽出した目的エリア音)に、周波数毎にいずれかのマイクロホンアレイのいずれかのマイクの入力信号の成分を混合信号として混合する周波数別信号混合部110が追加されている。周波数別信号混合部110では、主マイクロホンアレイ選択部106で、周波数毎に選択された主マイクロホンアレイを構成するマイクロホンの入力信号を混合信号とする。
(D−2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態の収音装置100Cの動作(実施形態に係る収音方法)について、第2の実施形態との差異を中心に説明する。
第4の実施形態で第2の実施形態と異なるのは周波数別信号混合部110だけであるため、以下では、周波数別信号混合部110の動作についてのみ説明する。
周波数別信号混合部110は、目的エリア音抽出部107で抽出した目的エリア音に、周波数別主マイクロホンアレイ選択部108で、周波数毎に選択されたマイクロホンアレイを構成するマイクロホンの入力信号を混合信号として混合する。このとき、混合信号は、選択されたマイクロホンアレイを構成するマイクロホンの入力信号であればどれでも良い。したがって、周波数別信号混合部110では、マイクロホンアレイごとに、いずれのマイクロホンの入力信号を混合信号とするか予め決めおいてもよいし、選択された主マイクロホンアレイの全マイクロホンの入力信号(当該周波数kにおける全マイクロホンの入力信号)の加算平均を混合信号とするようにしてもよい。なお、この場合、周波数別信号混合部110は、混合信号を、そのまま混合してもよいし、所定の係数を乗じて混合してもよい。
(D−3)第4の実施形態の効果
第4の実施形態によれば、第2の実施形態の効果と比較して以下のような効果を奏することができる。
第4の実施形態の収音装置100Cでは、周波数ごとに主マイクロホンアレイの選択結果に基づいて混合信号を決定するため、目的エリア音と混合信号の位相が同じになり、音質への影響を抑えることができる。
(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(E−1)上記の各実施形態の収音装置では、収音に用いる各マイクロホンアレイMAのマイクロホンの数は2つであったが、3つ以上のマイクを用いて収音した音響信号に基づいて目的エリア方向の音を収音するようにしてもよい。
100、100A、100B、100C…収音装置、101…信号入力部,102…指向性形成部、103…遅延補正部、104…空間座標データ記憶部、105…補正係数算出部、106…主マイクロホンアレイ選択部、107…目的エリア音抽出部、108…周波数別主マイクロホンアレイ選択部、109…信号混合部、110…周波数別信号混合部。

Claims (5)

  1. 複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、
    それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出する補正係数算出手段と、
    前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択する選択手段と、
    前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出する目的エリア音抽出手段とを有し、
    前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させる
    ことを特徴とする収音装置。
  2. 前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比が、主マイクロホンアレイに対応する補正係数より大きい場合、主マイクロホンアレイと異なる前記マイクロホンアレイを選択し、そうでない場合は主マイクロホンアレイを選択することを特徴とする請求項に記載の収音装置。
  3. 周波数ごとに前記選択手段が選択した前記マイクロホンアレイの入力信号の成分を取得し、取得した入力信号を前記目的エリア音抽出手段が抽出した目的エリア音に混合して出力する周波数別信号混合手段をさらに有することを特徴とする請求項又はに記載の収音装置。
  4. コンピュータに、
    複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、
    それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出する補正係数算出手段と、
    前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択する選択手段と、
    前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出する目的エリア音抽出手段として機能させ、
    前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させる
    ことを特徴とする収音プログラム。
  5. 収音装置が行う収音方法において、
    指向性形成手段、補正係数算出手段、選択手段、及び目的エリア音抽出手段を有し、
    前記指向性形成手段は、複数のマイクロホンアレイから供給される入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクロホンアレイごとに前記目的エリア方向からの目的方向信号を取し、
    前記補正係数算出手段は、それぞれの前記マイクロホンアレイの目的音方向信号に含まれる目的エリア音成分を近づけるための補正係数を算出し、
    前記選択手段は、前記補正係数算出手段が算出した補正係数に基づいて、目的エリア音を抽出する際に基準として用いる主マイクロホンアレイを選択し、
    前記目的エリア音抽出手段は、前記選択手段で主マイクロホンアレイとして選択した前記マイクロホンアレイを基準とし、前記補正係数算出手段で算出した補正係数を用い、前記マイクロホンアレイ毎の目的方向信号を補正し、補正した前記マイクロホンアレイ毎の目的方向信号に基づいて目的エリア音を抽出し、
    前記選択手段は、周波数ごとに、主マイクロホンアレイに対応する補正係数を分子とする目的エリア音振幅スペクトル比と、主マイクロホンアレイに対応する補正係数との差分に基づいていずれかの前記マイクロホンアレイを選択し、周波数毎に選択した前記マイクロホンアレイを基準とした目的エリア音成分の抽出を前記目的エリア音抽出手段に実行させる
    ことを特徴とする収音方法。
JP2019139078A 2019-07-29 2019-07-29 収音装置、収音プログラム、及び収音方法 Active JP6879340B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019139078A JP6879340B2 (ja) 2019-07-29 2019-07-29 収音装置、収音プログラム、及び収音方法
PCT/JP2020/016354 WO2021019844A1 (ja) 2019-07-29 2020-04-14 収音装置、記憶媒体、及び収音方法
US17/629,564 US11825264B2 (en) 2019-07-29 2020-04-14 Sound pick-up apparatus, storage medium, and sound pick-up method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019139078A JP6879340B2 (ja) 2019-07-29 2019-07-29 収音装置、収音プログラム、及び収音方法

Publications (2)

Publication Number Publication Date
JP2021022872A JP2021022872A (ja) 2021-02-18
JP6879340B2 true JP6879340B2 (ja) 2021-06-02

Family

ID=74228923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019139078A Active JP6879340B2 (ja) 2019-07-29 2019-07-29 収音装置、収音プログラム、及び収音方法

Country Status (3)

Country Link
US (1) US11825264B2 (ja)
JP (1) JP6879340B2 (ja)
WO (1) WO2021019844A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708884B (zh) * 2022-04-22 2024-05-31 歌尔股份有限公司 一种声音信号处理方法、装置、音频设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5060465B2 (ja) * 2008-06-19 2012-10-31 日本電信電話株式会社 収音装置、収音方法、収音プログラム、記録媒体
JP5482854B2 (ja) 2012-09-28 2014-05-07 沖電気工業株式会社 収音装置及びプログラム
JP5737342B2 (ja) * 2013-07-22 2015-06-17 沖電気工業株式会社 収音装置及びプログラム
JP6187626B1 (ja) 2016-03-29 2017-08-30 沖電気工業株式会社 収音装置及びプログラム
JP6540730B2 (ja) * 2017-02-17 2019-07-10 沖電気工業株式会社 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
US10085087B2 (en) 2017-02-17 2018-09-25 Oki Electric Industry Co., Ltd. Sound pick-up device, program, and method
JP6879144B2 (ja) * 2017-09-22 2021-06-02 沖電気工業株式会社 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム

Also Published As

Publication number Publication date
WO2021019844A1 (ja) 2021-02-04
JP2021022872A (ja) 2021-02-18
US11825264B2 (en) 2023-11-21
US20220272443A1 (en) 2022-08-25

Similar Documents

Publication Publication Date Title
JP6187626B1 (ja) 収音装置及びプログラム
JP6065028B2 (ja) 収音装置、プログラム及び方法
JP6540730B2 (ja) 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
JP6436180B2 (ja) 収音装置、プログラム及び方法
JP6943120B2 (ja) 収音装置、プログラム及び方法
JP6879340B2 (ja) 収音装置、収音プログラム、及び収音方法
JP2016163135A (ja) 収音装置、プログラム及び方法
JP6260666B1 (ja) 収音装置、プログラム及び方法
US11095979B2 (en) Sound pick-up apparatus, recording medium, and sound pick-up method
JP6624256B1 (ja) 収音装置、プログラム及び方法
JP6241520B1 (ja) 収音装置、プログラム及び方法
JP6908142B1 (ja) 収音装置、収音プログラム、及び収音方法
JP7158976B2 (ja) 収音装置、収音プログラム及び収音方法
JP6065029B2 (ja) 収音装置、プログラム及び方法
JP6725014B1 (ja) 収音装置、収音プログラム及び収音方法
JP6885483B1 (ja) 収音装置、収音プログラム及び収音方法
JP6624255B1 (ja) 収音装置、プログラム及び方法
JP6923025B1 (ja) 収音装置、プログラム及び方法
JP6729744B1 (ja) 収音装置、収音プログラム及び収音方法
JP6669219B2 (ja) 収音装置、プログラム及び方法
JP7404657B2 (ja) 音声認識装置、音声認識プログラム、及び音声認識方法
JP2024027617A (ja) 音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210412

R150 Certificate of patent or registration of utility model

Ref document number: 6879340

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150