JP7266433B2 - 音源定位装置、音源定位方法、およびプログラム - Google Patents

音源定位装置、音源定位方法、およびプログラム Download PDF

Info

Publication number
JP7266433B2
JP7266433B2 JP2019048404A JP2019048404A JP7266433B2 JP 7266433 B2 JP7266433 B2 JP 7266433B2 JP 2019048404 A JP2019048404 A JP 2019048404A JP 2019048404 A JP2019048404 A JP 2019048404A JP 7266433 B2 JP7266433 B2 JP 7266433B2
Authority
JP
Japan
Prior art keywords
sound source
source localization
sound
microphones
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019048404A
Other languages
English (en)
Other versions
JP2020150490A (ja
Inventor
一博 中臺
弘史 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2019048404A priority Critical patent/JP7266433B2/ja
Priority to US16/809,053 priority patent/US10966024B2/en
Publication of JP2020150490A publication Critical patent/JP2020150490A/ja
Application granted granted Critical
Publication of JP7266433B2 publication Critical patent/JP7266433B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/05Application of the precedence or Haas effect, i.e. the effect of first wavefront, in order to improve sound-source localisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、音源定位装置、音源定位方法、およびプログラムに関する。
音声認識では、例えば複数のマイクロホンで構成されるマイクロホンアレイによって音響信号を収音し、収音した音響信号に対して音源定位や音源分離を行う。ここで、音源定位とは、音源の位置を推定する処理である。音源分離とは、複数の音源から各音源の信号を抽出する処理である。そして、音声認識では、音源定位されたデータと音源分離されたデータから特徴量を抽出し、抽出した特徴量に基づいて音声認識を行う。また、マイクロホンアレイを用いる場合、ビームフォーミング法を用いて指定角度での各マイクへの音声到達時間のずれを計算して補正し、各マイクに入力される音響信号の位相差を揃えて和とることで音響ビームを形成する。そして、このビームを空間的にスキャンさせることにより音源位置を推定する。このような音源定位処理では、ステアリングベクトルを計算して、計算したステアリングベクトルを用いて処理を行う(例えば、特許文献1参照)。
また、ステアリングベクトルは、MUSIC(MUltiple SIgnal Classification)法による音源定位においても用いられ、伝達関数に基づく音源分離用にも用いられる。ここで、ステアリングベクトルとは、例えばビームフォーミング法では、伝達関数の位相を反転した係数ベクトルである。
特表2013-545382号公報
ビームフォーミング法やMUSIC法を用いて音源定位を行う場合は、離散化した角度毎のステアリングベクトル(ステアリングベクトルデータベース)をあらかじめ用意する必要がある。しかしながら、従来技術では、この離散的した角度毎のステアリングベクトルの演算量が多く、演算に時間を要していた。
本発明は、上記の問題点に鑑みてなされたものであって、ステアリングベクトルの演算量を低減することができる音源定位装置、音源定位方法、およびプログラムを提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る音源定位装置(音処理装置1)は、2つ以上のマイクロホン(21)を有する収音部(2)と、前記マイクロホンそれぞれが收音した音信号を周波数領域に変換し、変換した周波数領域の音信号に対して、所定の角度毎に音源を移動させた場合の前記マイクロホン毎ステアリングベクトルをN(Nは1以上の整数)次のフーリエ級数展開でモデル化して、モデル化した前記ステアリングベクトルを用いて任意の角度についてビームフォーミング出力Y(θ)と表し、|Y(θ) 最大となる角度θが満たす式の方程式の解を求めることで|Y(θ)が最大となる角度θを求めることにより、音源の定位を行う音源定位部(102)、を備える。
(2)また、本発明の一態様に係る音源定位装置において、Mは前記マイクロホンの数であり、m(1からMの間の整数)は前記マイクロホンが何番目かを表し、θ(kは1からKの整数)は離散化した方向を表し、exp(inθは角度θ に対するn次のフーリエ基底関数であり、Cnmはフーリエ係数であり、前記フーリエ基底関数を記憶する記憶部、を備え、前記音源定位部は、ビームフォーミング法で音源定位を行い、前記ステアリングベクトルにおけるステアリング係数G(θ)を次式で計算する、
Figure 0007266433000001
ようにしてもよい。
(3)また、本発明の一態様に係る音源定位装置において、前記音源定位部は、K行(2N+1)列の前記フーリエ基底関数の行列に、(2N+1)行M列の前記フーリエ係数の行列を乗じることで、前記ステアリング係数G (θ )を成分とするK行M列の行列を算出するようにしてもよい。
(4)また、本発明の一態様に係る音源定位装置において、前記音源定位部は、(M+K)(2N+1)が(M×K)未満のNを選択するようにしてもよい。
(5)また、本発明の一態様に係る音源定位装置において、xはexp(inθ)であり、f(x)は、d|Y(θ)|/dθであり、Y(θ)はビームフォーミング出力であり、βは係数であり、前記音源定位部は、次式
Figure 0007266433000002
を解くことで、任意の角度θにおけるビームフォーミング出力Y(θ)が最大となる角度θを求めることで音源定位を行うようにしてもよい。
(6)上記目的を達成するため、本発明の一態様に係る音源定位方法は、2つ以上のマイクロホンを有する収音部を有する音源定位装置における音源定位方法であって、音源定位部が、前記マイクロホンそれぞれが收音した音信号を周波数領域に変換し、変換した周波数領域の音信号に対して、所定の角度毎音源を移動させた場合の前記マイクロホン毎にステアリングベクトルをN(Nは1以上の整数)次のフーリエ級数展開でモデル化して、モデル化した前記ステアリングベクトルを用いて任意の角度についてビームフォーミング出力Y(θ)と表し、|Y(θ) 最大となる角度θが満たす式の方程式の解を求めることで|Y(θ)が最大となる角度θを求めることにより、音源の定位を行う手順、を含む。
(7)上記目的を達成するため、本発明の一態様に係るプログラムは、2つ以上のマイクロホンを有する収音部を有する音源定位装置のコンピュータに、前記マイクロホンそれぞれが收音した音信号を周波数領域に変換し、変換した周波数領域の音信号に対して、所定の角度毎に音源を移動させた場合の前記マイクロホン毎ステアリングベクトルをN(Nは1以上の整数)次のフーリエ級数展開でモデル化して、モデル化した前記ステアリングベクトルを用いて任意の角度についてビームフォーミング出力Y(θ)と表し、|Y(θ) 最大となる角度θが満たす式の方程式の解を求めることで|Y(θ)が最大となる角度θを求めることにより、音源の定位を行うステップ、を実行させる。
上述した(1)または(6)あるいは(7)によれば、マイクロホン毎にステアリングベクトルをN(Nは1以上の整数)次のフーリエ級数展開でモデル化したので、ステアリングベクトルの演算量を低減することができる。また、(1)または(6)あるいは(7)によれば、任意の角度のステアリングベクトルを計算することができる。
また、上述した(2)、(3)によれば、上述した式を用いてステアリングベクトル係数を計算することで、ステアリングベクトルの演算量を低減することができる。
また、上述した(4)によれば、(M+K)(2N+1)が(M×K)未満のNを選択するため、ステアリングベクトルの演算量を従来より低減することができる。
また、上述した(5)によれば、角度θを離散化せずに直接出力が最大となるθを多項式の解として求められることができる。また、上述した(5)によれば、Nが小さいときには比較的早く計算でき誤差も小さい。
本実施形態に係る音処理装置の構成例を示すブロック図である。 従来技術におけるビームフォーミングにおける演算回数を説明するための図である。 従来技術の演算回数例を示す図である。 複素フーリエモデル次数Nが5次の場合の本実施形態に係る演算回数例を示す図である。 複素フーリエモデル次数Nが10次の場合の本実施形態に係る演算回数例を示す図である。 複素フーリエモデル次数Nが20次の場合の本実施形態に係る演算回数例を示す図である。 複素フーリエモデル次数Nが40次の場合の本実施形態に係る演算回数例を示す図である。 本実施形態に係るマイクロホン数Mが8個の場合の演算回数を示す図である。 本実施形態に係るマイクロホン数Mが32個の場合の演算回数を示す図である。 本実施形態に係るマイクロホン数Mが128個の場合の演算回数を示す図である。 本実施形態に係る音処理装置1の処理のフローチャートである。
以下、本発明の実施の形態について図面を参照しながら説明する。
[音処理装置1]
図1は、本実施形態に係る音処理装置1の構成例を示すブロック図である。図1に示すように、音処理装置1は、取得部101、音源定位部102、ステアリングベクトル記憶部103、音源分離部104、発話区間検出部105、特徴量抽出部106、音響モデル記憶部107、音源同定部108、および認識結果出力部109を備える。音源定位部102は、ステアリングベクトル算出部1021、およびテーブル記憶部1022を備える。
また、音処理装置1には、収音部2が有線または無線で接続されている。
収音部2は、M(Mは2以上の整数)個のマイクロホン21(21(1)、・・・21(M))から構成されるマイクロホンアレイである。収音部2は、音源が発した音響信号を収音し、収音したMチャネルの音響信号を取得部101に出力する。なお、以下の説明において、M個のマイクロホンのうち1つを特定しない場合は、単にマイクロホン21という。
取得部101は、収音部2が出力するMチャネルのアナログの音響信号を取得し、取得したアナログの音響信号を短区間フーリエ変換によって周波数領域に変換する。なお、収音部2の複数のマイクロホンそれぞれが出力する複数の音響信号は、同じサンプリング周波数の信号を用いてサンプリングが行われる。取得部101は、デジタルに変換したMチャネルの音響信号を音源定位部102と音源分離部104に出力する。
音源定位部102は、収音部2が出力するMチャネルの音響信号に基づいて各音源の方向を予め定めた長さのフレーム(例えば、20ms)毎に定める(音源定位)。音源定位部102のステアリングベクトル算出部1021は、テーブル記憶部1022が記憶するテーブルを用いて、例えばビームフォーミング(BF:Beam Forming)法を用いて任意の角度のステアリングベクトルを算出する。なお、ステアリングベクトルは、方向毎のパワーを示す。なお、ステアリングベクトルの算出方法については後述する。ステアリングベクトル算出部1021は、算出したステアリングベクトルをステアリングベクトル記憶部103に記憶させる。音源定位部102は、算出したステアリングベクトルに基づいて音源毎の音源方向を定める。音源定位部102は、音源方向を示す音源方向情報を音源分離部104と、発話区間検出部105に出力する。なお、テーブル記憶部1022が記憶する情報については後述する。
ステアリングベクトル記憶部103は、ステアリングベクトルを記憶する。ステアリングベクトル記憶部103は、例えば15度間隔で、音源を移動させたときの、マイクロホン21毎かつ音源の角度毎のステアリングベクトルを記憶する。記憶するステアリングベクトルは、後述するようにN次の複素フーリエ係数でモデル化したものである。
音源分離部104は、音源定位部102が出力する音源方向情報と、収音部2が出力するMチャネルの音響信号を取得する。音源分離部104は、Mチャネルの音響信号を音源方向情報が示す音源方向に基づいて、音源毎の成分を示す音響信号である音源別音響信号に分離する。音源分離部104は、音源別音響信号に分離する際、例えば、GHDSS(Geometric-constrained High-order Decorrelation-based Source Separation)法を用いる。音源分離部104は、分離した音響信号のスペクトルを求めて発話区間検出部105に出力する。
発話区間検出部105は、音源定位部102が出力する音源方向情報と、音源分離部104が出力する音響信号のスペクトルを取得する。発話区間検出部105は、取得した分離された音響信号のスペクトルと、音源方向情報に基づいて、音源毎の発話区間を検出する。例えば、発話区間検出部105は、ステアリングスペクトルに対して閾値処理を行うことで、音源検出と発話区間検出を同時に行う。発話区間検出部105は、検出した検出結果と方向情報と音響信号のスペクトルとを特徴量抽出部106に出力する。
特徴量抽出部106は、発話区間検出部105が出力する分離されたスペクトルから音声認識用の音響特徴量を音源毎に計算する。特徴量抽出部106は、例えば、静的メル尺度対数スペクトル(MSLS:Mel-Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーを、所定時間(例えば、10ms)毎に算出することで音響特徴量を算出する。なお、MSLSは、音響認識の特徴量としてスペクトル特徴量を用い、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficient)を逆離散コサイン変換することによって得られる。特徴量抽出部106は、求めた音響特徴量を音源同定部108に出力する。
音響モデル記憶部107は、音源モデルを格納する。音源モデルは、収音された音響信号を音源同定部108が同定するために用いるモデルである。音響モデル記憶部107は、同定する音響信号の音響特徴量を音源モデルとして、音源名を示す情報に対応付けて音源毎に格納する。
音源同定部108は、特徴量抽出部106が出力する音響特徴量を、音響モデル記憶部107が格納する音響モデルを参照して音源を同定する。音源同定部108は、同定した同定結果を認識結果出力部109に出力する。
認識結果出力部109は、例えば画像表示部であり、音源同定部108が出力する同定結果を表示する。
[一般的なビームフォーミング法による処理]
次に、ビームフォーミング法による処理例の概要を説明する。図2は、従来技術におけるビームフォーミングにおける演算回数を説明するための図である。なお、図2では、添え字を一部省略している。
取得部101が周波数領域に変換した観測信号Xは、次式(1)のように表される。
Figure 0007266433000003
式(1)において、F[・]は短区間フーリエ変換を表す。x(t、i)は、m番目のマイクロホン21で観測された信号を表し、tは時間であり、iはフーリエ変換の区間を表すインデックスである。また、X(ω、i)は、x(t、i)の短区間フーリエ係数であり、ωは周波数である。M個のマイクロホンで観測した場合は、観測されたデータの短区間フーリエ係数を並べて、次式(2)のように観測ベクトルを定義する。
Figure 0007266433000004
式(2)において、Tは行列/ベクトルの転置を表す。
水平方向一次元における音源定位の場合のビームフォーミング法では、離散化した角度をθ(k=1,2,3,…,K)毎に、ビームフォーミングの出力値Yを次式(3)で計算する。なお、以下の説明では、インデックスiを省略して説明する。
Figure 0007266433000005
式(3)において、G(θ、ω)はm番目のマイクロホン21(m)のステアリング係数(ビームフォーミング係数)である。なお、ステアリング係数とは、ステアリングベクトルの係数である。また、ステアリングベクトルとは、マイクロホンに対し角度θをなす方向の離散周波数の位相応答を、各マイクロホンに対して並べた列ベクトルである。
ビームフォーミングの出力値Yは、次式(4)の入力ベクトルxと、次式(5)のステアリングベクトルgを用いて、次式(6)のように表される。なお、式(4)と式(5)において、Tは転置記号である。
Figure 0007266433000006
Figure 0007266433000007
Figure 0007266433000008
式(6)は、行列とベクトルを用いて、次式(7)のように表すことができる。なお、以下の説明において、周波数ωは、各周波数で独立に処理するため,(ω)の記述を省略する。
Figure 0007266433000009
ここで、平面における入射角度θとすると、ビームフォーマ出力Yの平均パワーを求めることになる。ビームフォーミング法では、音源方向から到来する音波の位相がそろえられ加算されるため、音源方向から到来する音波が強調される、これにより、音響的なビームが形成される。ビームフォーミング法では、このビームを空間的にスキャンすることにより、方向が真の音源方向と一致したときに、空間スペクトルにピークが現れる。ビームフォーミング法では、このピーク位置により音源の位置(到来方向)を推定する。
しかしながら、式(7)を用いて、ある周波数ある方向について計算するのに、複素数の乗算がM回必要になる。したがって、すべての角度について計算すると乗算回数は、MK回必要である。例えば、音源定位を、方位角を5°の精度で行うためにはk=72となる。マイクロホンの個数Mが32個の場合、乗算回数は、2304(=72×32)回必要である。
[本実施形態による音源定位における演算]
次に、本実施形態による音源定位における演算方法を説明する。なお、以下の説明においても(ω)の記述を省略する。
本実施形態では、ステアリングベクトル算出部1021が、各マイクロホン21についてのステアリング係数(ビームフォーミング係数)G(θ)を、次式(8)のようにN次の複素フーリエ係数でモデル化する。
Figure 0007266433000010
式(8)において、Cnmはビームフォーミングのフーリエ係数(以下、単にフーリエ係数という)であり、iは複素数を表す。また、CnmとC-nmは互いに共役の関係である。
[係数の求め方]
ここで、例として、入射角度θのみを変数とする1次元のステアリング係数G(θ)に対し、式(8)で与えられる複素振幅モデルを導入した場合の係数(C(ω))の決定方法について説明する。なお以下の説明では、簡略化のためωを省略しCと記述する。
実測した伝達関数の数をL、その時の入射角度θ(l=1,2,3,…,L)とすると次式(9)の連立方程式が得られる。
Figure 0007266433000011
この連立方程式は、次式(10)のように、行列とベクトルを利用して記述できる。
Figure 0007266433000012
式(10)において、gは実測ステアリングベクトル、cは係数ベクトル、Aはモデルのステアリング係数である。各ベクトルは次式(11)~次式(13)である。
Figure 0007266433000013
Figure 0007266433000014
Figure 0007266433000015
なお、式(13)において、alは次式(14)である。
Figure 0007266433000016
式(10)から、求めるべき係数ベクトルcは、次式(15)として求めることができる。
Figure 0007266433000017
式(15)において、AはAの疑似逆行列(ムーアペンローズ型疑似逆行列)である。式(15)により、一般に、変数の数2N+1よりも式の数Lが多い場合(2N+1>Lの場合)、係数は誤差の2乗和が最小となる解として得られる。また、そうでない場合(2N+1≦Lの場合)は、式(9)の解の中で解のノルムが最小になる解が得られる。
次に、ビームフォーミングの出力値Yは、次式(16)のように計算することができる。
Figure 0007266433000018
なお、式(8)、(16)では、(ω)の記述を省略しているが、X(ω)、C(ω)である。
式(8)、(16)は、行列・ベクトルで次式(17)のように表される。
Figure 0007266433000019
式(17)において、左辺はビームフォーミング係数である。ビームフォーミング係数において、行数が方向数Kであり、列数がマイクロホン数Mである。また、右辺の1項目は、フーリエ基底関数であり、行数が方向数K(離散化角度数)であり、列数が2N+1(フーリエ級数の数)である。また、右辺の2項目は、ビームフォーミングのフーリエ係数であり、行数が2N+1(フーリエ級数の数)であり、列数がマイクロホン数Mである。
ここで、式(17)をG=SCとする。
フーリエモデルで計算する場合、ビームフォーミング出力Yは、Y=Gx=SCx=S(Cx)のように表すことができる。
Sは、式(17)のように、K行、2N+1列の行列であり、K(2N+1)回の乗算が必要である。また、Cは、式(17)のように、2N+1行、M列の行列であり、(2N+1)M回の乗算が必要である。このため、式(17)の乗算回数の合計は、(M+K)(2N+1)回である。
なお、exp(inθk)自体の計算は、予めテーブルを用意することで参照のみの処理となるため、計算回数から除外した。このexp(inθ)のテーブルは、テーブル記憶部1022があらかじめ記憶している。
通常のフーリエ係数のモデル次数は、マイクロホン数Mや離散化角度数Kに対し小さい値のため、計算量を減らすことができる。
例えば,マイクロホン数M=32、離散化角度数K=72、複素フーリエモデル次数N=5の場合の演算回数は、1144(=(2N+1)(M+K)=11*104)回である。上述したように、通常の演算回数は2304回であるので、約半分の乗算回数で計算できる。
[演算回数の比較]
次に、従来技術と本実施形態の演算回数の比較例を説明する。
図3は、従来技術の演算回数例を示す図である。横の第1軸がマイクロホン数Mであり、横の第2軸が離散化角度数Kであり、縦軸が乗算回数である。図3に示すように、マイクロホン数M=100、離散化角度数Kが400の場合、乗算回数は約4×10回である。
図4~図7は、本実施形態に係る演算回数例を示す図である。図4は、複素フーリエモデル次数Nが5次の場合の本実施形態に係る演算回数例を示す図である。図5は、複素フーリエモデル次数Nが10次の場合の本実施形態に係る演算回数例を示す図である。図6は、複素フーリエモデル次数Nが20次の場合の本実施形態に係る演算回数例を示す図である。図7は、複素フーリエモデル次数Nが40次の場合の本実施形態に係る演算回数例を示す図である。なお、図4~図7の各軸は、図3と同じである。
図4に示すように、マイクロホン数M=100、離散化角度数Kが400、複素フーリエモデル次数Nが5次の場合、乗算回数は約0.5×10回である。従来技術のM×K回と比較して、乗算回数が1/8に低減されている。
図5に示すように、マイクロホン数M=100、離散化角度数Kが400、複素フーリエモデル次数Nが10次の場合、乗算回数は約1×10回である。従来技術のM×K回と比較して、乗算回数が1/4に低減されている。
図6に示すように、マイクロホン数M=100、離散化角度数Kが400、複素フーリエモデル次数Nが20次の場合、乗算回数は約2×10回である。従来技術のM×K回と比較して、乗算回数が1/2に低減されている。
図7に示すように、マイクロホン数M=100、離散化角度数Kが400、複素フーリエモデル次数Nが40次の場合、乗算回数は約4×10回である。この場合の演算回数は、従来技術のM×K回と同等である。なお、複素フーリエモデル次数N=40は、離散角度Mを81点もつのと同じ細かさでモデル化することに相当する。
図3~図7に示したように、複素フーリエモデル次数Nが低い場合は、MとKが大きいと計算量の削減効果が高い。一方、複素フーリエモデル次数Nが多くなると、計算量削減効果は少ない。
[マイクロホン数と乗算回数の関係]
次に、本実施形態におけるマイクロホン数と乗算回数の関係を説明する。
図8~図10は、本実施形態におけるマイクロホン数と乗算回数の関係を示す図である。図8は、本実施形態に係るマイクロホン数Mが8個の場合の演算回数を示す図である。図9は、本実施形態に係るマイクロホン数Mが32個の場合の演算回数を示す図である。図10は、本実施形態に係るマイクロホン数Mが128個の場合の演算回数を示す図である。図8~図10において、横軸は離散化角度数Kであり、縦軸が演算回数である。また、符号g11は従来技におけるMN回の演算回数である。符号g21は複素フーリエモデル次数Nが5であり、符号g22は複素フーリエモデル次数Nが10であり、符号g23は複素フーリエモデル次数Nが20である。
図8~図10に示すように、マイクロホン数Mと離散化角度数Kが大きく、複素フーリエモデル次数Nが小さい場合に演算回数が従来技術のMN回と比較して低減することができる。
このため、音源定位部102は、収音部2が備えるマイクロホン21の個数Mに応じて、次式(18)を満足するNを選択するようにしてもよい。
Figure 0007266433000020
[処理手順]
次に、音処理装置1の処理手順例を説明する。
図11は、本実施形態に係る音処理装置1の処理のフローチャートである。
(ステップS1)収音部2は、音響信号を収音し、収音したMチャネルの音響信号を取得部101に出力する。
(ステップS2)音源定位部102は、例えばビームフォーミング法を用いてビームフォーミングの出力を算出する。続けて、音源定位部102は、算出したビームフォーミングの出力に基づいて音源毎の音源方向を定める。
(ステップS3)音源分離部104は、Mチャネルの音響信号を、音源方向情報が示す音源方向に基づいて、例えばGHDSS法を用いて、音源毎の成分を示す音響信号である音源別音響信号に分離する。
(ステップS4)発話区間検出部105は、分離された音響信号のスペクトルと、音源方向情報に基づいて、音源毎の発話区間を検出する。
(ステップS5)特徴量抽出部106は、発話区間検出部105が出力する分離されたスペクトルから、例えばメル周波数ケプストラム係数(MFCC)を音響特徴量として音源毎に計算する。
(ステップS6)音源同定部108は、特徴量抽出部106が出力する音響特徴量を、音響モデル記憶部107が記憶する音響モデルを参照して音源を同定する。
なお、上述した例では、音源定位処理においてビームフォーミング法を用いる例を説明したがこれに限らない。音源定位処理に用いる手法は、MUSIC法等であってもよく、離散的した角度毎のステアリングベクトルを用いる手法であれば、上述したN次の複素フーリエ係数でモデル化を適用することができる。
また、N次の複素フーリエ係数でモデル化において、フーリエ級数展開に限らず、テーラー展開やスプライン補間等、他の手法を用いてもよい。
以上のように、本実施形態では、マイクロホン毎にステアリングベクトルをN(Nは1以上の整数)次のフーリエ級数展開でモデル化したので、ステアリングベクトルの演算量を低減することができる。
[任意の角度のビームフォーミング値の算出]
ここで、予め測定した伝達関数が30度毎であったとする。
例えば、特開2010-171785号公報(以下、特許文献2という)には、少ない数の限られた方向の伝達関数から、中間的な方向の伝達関数を補間により求める手法が開示されている。しかしながら、特許文献2に記載の技術では、元の測定した伝達関数が、全周を整数で等分した角度に限定される。また、特許文献2に記載の技術では、補間で算出できる伝達関数の角度も実測した角度間隔の整数倍でとなる必要がある。そのため、特許文献2に記載の技術では、任意の中間的な角度の伝達関数値を補間で求めることができなかった。
これに対して、本実施形態では、各マイクロホン21についてのステアリング係数をN次の複素フーリエ係数でモデル化して、テーブル記憶部1022にステアリングベクトルデータベースを記憶させるようにした。この結果、本実施形態では、音源定位部102が音源定位における音源方向の算出を、離散化した角度毎に出力値を計算することなく直接多項式の解から求めることができる。
ここで、走査ビームフォーミングによる水平方向1次元の音源定位を例に任意の角度の出力値の計算方法を説明する。走査ビームフォーミングによる定位では、離散化した角度をθ(k=1,2,3,…,K)毎にビームフォーミングの出力値Yを次式(19)で計算して|Yが最大とインデックスmを求めることで、定位方向をθとして出力する。
Figure 0007266433000021
式(19)において、θに対して離散的(不連続)であるため,|Yのピークをその微分関数が0となる解から求めることはできない。
これに対し、各マイクロホン21についてのステアリング係数G(θ)をN次の複素フーリエ係数でモデル化すると、任意の角度θについて,その出力Y(θ)を次式(20)のように表すことができる。
Figure 0007266433000022
式(20)において、(Σm=1 nm(ω))をαと置くと、式(20)は式(21)のように表される。
Figure 0007266433000023
式(21)において、|Yが最大となるθは、次式(22)を満たす。
Figure 0007266433000024
このため、式(22)の方程式の解を求めることで|Yが最大となるθを求めることができる。
|Y(θ)|=Y(θ)Y(θ)であるので、式(22)は、次式(23)のように表される。
Figure 0007266433000025
式(23)において、Y(θ)は次式(24)であり、Y(θ)は次式(25)であり、Y*’(θ)は次式(26)である。
Figure 0007266433000026
Figure 0007266433000027
Figure 0007266433000028
このため、式(23)は、次式(27)のように表される。
Figure 0007266433000029
式(27)において、exp(inθ)をxとおき、d|Y(θ)|/dθをf(x)とおくと、式(27)は次式(28)のように表される。
Figure 0007266433000030
式(28)において、和を展開してxの項で整理した係数をβとすると、式(28)は次式(29)のように表される。
Figure 0007266433000031
f(x)=0は、x≠0からx2Nf(x)=0の解であるので、次式(30)から解を求めることができる。
Figure 0007266433000032
すなわち、角度θを離散化せずに直接最大となる角度θを、多項式の解として求めることができる。
なお、式(24)は、4N次の方程式であるため、N(次数)が小さい場合に比較的高速に計算でき、誤差も少ない。
以上のように、本実施形態によれば、予め測定したステアリングベクトルが30度毎であっても、式(8)を用いて、実測値の中間値に加え任意の角度のステアリングベクトルを計算することができる。これにより、本実施形態によれば、細かい分解能で定位や分離を行うことができるようになる。本実施形態によれば、例えば、5度おきに計測したステアリングベクトルしかない状態でも、1度おきに定位のデータを得ることができ、より高い精度で音源の到来方向を推定できるようになる。さらに、本実施形態によれば、測定点を少なくしても任意の音源方向のステアリングベクトルを生成できるので、格納するデータ量を従来より低減することができる。
なお、上述した例では、走査ビームフォーミングによる水平方向1次元の音源定位を例に任意の角度の出力値の計算方法を説明したが、次元は二次元、三次元であってもよい。また、音源定位の手法は走査ビームフォーミングに限らず、MUSIC法等であってもよい。
なお、本発明における音処理装置1の全てまたは一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音処理装置1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
1…音処理装置、101…取得部、102…音源定位部、103…ステアリングベクトル記憶部、104…音源分離部、105…発話区間検出部、106…特徴量抽出部、107…音響モデル記憶部、108…音源同定部、109…認識結果出力部109を備える。また、音源定位部102は、ステアリングベクトル算出部1021、2…収音部

Claims (7)

  1. 2つ以上のマイクロホンを有する収音部と、
    前記マイクロホンそれぞれが收音した音信号を周波数領域に変換し、変換した周波数領域の音信号に対して、所定の角度毎に音源を移動させた場合の前記マイクロホン毎ステアリングベクトルをN(Nは1以上の整数)次のフーリエ級数展開でモデル化して、モデル化した前記ステアリングベクトルを用いて任意の角度についてビームフォーミング出力Y(θ)と表し、|Y(θ) 最大となる角度θが満たす式の方程式の解を求めることで|Y(θ)が最大となる角度θを求めることにより、音源の定位を行う音源定位部、
    を備える音源定位装置。
  2. Mは前記マイクロホンの数であり、m(1からMの間の整数)は前記マイクロホンが何番目かを表し、θ(kは1からKの整数)は離散化した方向を表し、exp(inθは角度θ に対するn次のフーリエ基底関数であり、Cnmはフーリエ係数であり、
    前記フーリエ基底関数を記憶する記憶部、を備え、
    前記音源定位部は、
    ビームフォーミング法で音源定位を行い、
    前記ステアリングベクトルにおけるステアリング係数G(θ)を次式で計算する、
    Figure 0007266433000033
    請求項1に記載の音源定位装置。
  3. 前記音源定位部は、
    K行(2N+1)列の前記フーリエ基底関数の行列に、(2N+1)行M列の前記フーリエ係数の行列を乗じることで、前記ステアリング係数G(θ)を成分とするK行M列の行列を算出する、請求項2に記載の音源定位装置。
  4. 前記音源定位部は、
    (M+K)(2N+1)が(M×K)未満のNを選択する、請求項2または請求項3に記載の音源定位装置。
  5. xはexp(inθ)であり、f(x)は、d|Y(θ)|/dθであり、Y(θ)は任意の角度θにおけるビームフォーミング出力であり、βは係数であり、
    前記音源定位部は、次式
    Figure 0007266433000034
    を解くことで、前記ビームフォーミング出力Y(θ)が最大となる角度θを求めることで音源定位を行う、請求項2から請求項4のいずれか1項に記載の音源定位装置。
  6. 2つ以上のマイクロホンを有する収音部を有する音源定位装置における音源定位方法であって、
    音源定位部が、前記マイクロホンそれぞれが收音した音信号を周波数領域に変換し、変換した周波数領域の音信号に対して、所定の角度毎に音源を移動させた場合の前記マイクロホン毎ステアリングベクトルをN(Nは1以上の整数)次のフーリエ級数展開でモデル化して、モデル化した前記ステアリングベクトルを用いて任意の角度についてビームフォーミング出力Y(θ)と表し、|Y(θ) 最大となる角度θが満たす式の方程式の解を求めることで|Y(θ)が最大となる角度θを求めることにより、音源の定位を行う手順、
    を含む音源定位方法。
  7. 2つ以上のマイクロホンを有する収音部を有する音源定位装置のコンピュータに、
    前記マイクロホンそれぞれが收音した音信号を周波数領域に変換し、変換した周波数領域の音信号に対して、所定の角度毎に音源を移動させた場合の前記マイクロホン毎ステアリングベクトルをN(Nは1以上の整数)次のフーリエ級数展開でモデル化して、モデル化した前記ステアリングベクトルを用いて任意の角度についてビームフォーミング出力Y(θ)と表し、|Y(θ) 最大となる角度θが満たす式の方程式の解を求めることで|Y(θ)が最大となる角度θを求めることにより、音源の定位を行うステップ、
    を実行させるプログラム。
JP2019048404A 2019-03-15 2019-03-15 音源定位装置、音源定位方法、およびプログラム Active JP7266433B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019048404A JP7266433B2 (ja) 2019-03-15 2019-03-15 音源定位装置、音源定位方法、およびプログラム
US16/809,053 US10966024B2 (en) 2019-03-15 2020-03-04 Sound source localization device, sound source localization method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019048404A JP7266433B2 (ja) 2019-03-15 2019-03-15 音源定位装置、音源定位方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020150490A JP2020150490A (ja) 2020-09-17
JP7266433B2 true JP7266433B2 (ja) 2023-04-28

Family

ID=72422536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019048404A Active JP7266433B2 (ja) 2019-03-15 2019-03-15 音源定位装置、音源定位方法、およびプログラム

Country Status (2)

Country Link
US (1) US10966024B2 (ja)
JP (1) JP7266433B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466325B (zh) * 2020-11-25 2024-06-04 Oppo广东移动通信有限公司 声源定位方法和装置,及计算机存储介质
CN117289208B (zh) * 2023-11-24 2024-02-20 北京瑞森新谱科技股份有限公司 一种声源定位方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008141593A (ja) 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音声収音装置、その方法、そのプログラム、およびその記録媒体
US20110019835A1 (en) 2007-11-21 2011-01-27 Nuance Communications, Inc. Speaker Localization

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010171785A (ja) 2009-01-23 2010-08-05 National Institute Of Information & Communication Technology 頭部伝達関数補間用係数算出装置、音像定位装置、頭部伝達関数補間用係数算出方法、及びプログラム
EP2448289A1 (en) 2010-10-28 2012-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for deriving a directional information and computer program product

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008141593A (ja) 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音声収音装置、その方法、そのプログラム、およびその記録媒体
US20110019835A1 (en) 2007-11-21 2011-01-27 Nuance Communications, Inc. Speaker Localization

Also Published As

Publication number Publication date
JP2020150490A (ja) 2020-09-17
US10966024B2 (en) 2021-03-30
US20200296508A1 (en) 2020-09-17

Similar Documents

Publication Publication Date Title
US9971012B2 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
KR101238362B1 (ko) 음원 거리에 따라 음원 신호를 여과하는 방법 및 장치
JP6591477B2 (ja) 信号処理システム、信号処理方法及び信号処理プログラム
JP6635903B2 (ja) 音源位置推定装置、音源位置推定方法、及びプログラム
JP7235534B2 (ja) マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム
JP2017044916A (ja) 音源同定装置および音源同定方法
JP7266433B2 (ja) 音源定位装置、音源定位方法、およびプログラム
CN110047507B (zh) 一种声源识别方法及装置
US10674261B2 (en) Transfer function generation apparatus, transfer function generation method, and program
CN103837858A (zh) 一种用于平面阵列的远场波达角估计方法及***
US11482239B2 (en) Joint source localization and separation method for acoustic sources
JP4738284B2 (ja) ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
Faverjon et al. Stochastic inversion in acoustic scattering
JP7204545B2 (ja) 音響信号処理装置、音響信号処理方法、およびプログラム
KR101534781B1 (ko) 음원 방향 추정 장치
JP7267043B2 (ja) 音響信号処理装置、音響信号処理方法、およびプログラム
JP7207539B2 (ja) 学習データ拡張装置、学習データ拡張方法、およびプログラム
CN115696108A (zh) 一种声源定位方法、装置及电子设备
GB2368936A (en) Digital signal processing method and system
CN118091542A (zh) 声相仪及其实现方法、电子设备
CN118112501A (zh) 一种适用周期信号的声源定位方法、设备和声源测量装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230418

R150 Certificate of patent or registration of utility model

Ref document number: 7266433

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150