JP6543844B2

JP6543844B2 - 音源同定装置および音源同定方法

Info

Publication number: JP6543844B2
Application number: JP2015168108A
Authority: JP
Inventors: 一博中臺; 知史上村
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2015-08-27
Filing date: 2015-08-27
Publication date: 2019-07-17
Anticipated expiration: 2035-08-27
Also published as: US10127922B2; JP2017044916A; US20170061981A1

Description

本発明は、音源同定装置および音源同定方法に関する。

音響信号処理では、音源方向を識別する音源定位、複数の音から所望の音を分離する音源分離、音源種類を特定する音源認識（音源同定）等の手法が用いられる。
特許文献１には、音源定位部と音源同定部を有し、音源定位部と音源同定部それぞれが、複数のパルスニューロンモデルを備えたニューラルネットワークにより構成されている音源同定装置が開示されている。なお、パルスニューロンモデルとは、入出力信号としてパルス列を用いるニューロンモデルである。また、特許文献１に記載の技術では、パルスニューロンモデルに対して学習を行うことで音源同定の精度を向上させることが提案されている。

また、近年、災害地等において、マイクロホンが取り付けられたクアドロコプターを用いて、救助を求めている人の声を検出することが望まれている。このような環境では、クアドロコプターによって発生する風切り音、マイクロホンによって発生する風切り音、環境によって発生する音など、所望の音源に対する雑音が多い。このように、雑音が多い環境であっても、特定の音源を検出することが望まれている。

特開２００８−８５４７２号公報

しかしながら、特許文献１に記載の技術では、音源同定の精度がパルスニューロンモデルに入力される信号の品質の影響を受ける。このため、雑音が多い環境では、所望の音源を精度良く検出できないという課題があった。

本発明は上記の点に鑑みてなされたものであり、雑音が多い環境であっても、特定の音源の検出精度を向上させることができる音源同定装置および音源同定方法を提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る音源同定装置は、複数のマイクロホンで構成される収音部と、前記収音部が収音した音響信号に基づいて音源を定位する音源定位部と、前記音源定位部によって定位されて信号に基づいて前記音源の分離を行う音源分離部と、前記音源分離部によって分離された結果に基づいて、所定の値である第１閾値と前記第１閾値より小さい値の第２閾値を用いて前記音源の種類の同定を行う音源同定部と、を備え、前記音源同定部は、前記音源分離部によって分離された信号に対して、前記第１閾値以上の大きさの信号であるか否かを判別し、分離された前記信号が前記第１閾値以上である場合に前記音源の種類の同定を行い、前記音源が検出されなかった場合に、前記収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて前記第１閾値を決定し、前記第２閾値を用いて前記音源が検出されたとき、前記音源の大きさが前記第１閾値以上の信号に対して音源の種類の同定を行う。

（２）また、本発明の一態様に係る音源同定装置において、前記第１閾値以上の信号は、前記音源定位部によって定位された音源の信号であるようにしてもよい。
（３）また、本発明の一態様に係る音源同定装置において、前記第１閾値以上の信号は、前記音源分離部によって分離された音源の信号であるようにしてもよい。

（４）また、本発明の一態様に係る音源同定装置において、前記音源同定部は、前記雑音のスペクトルの推定値の加算平均を用いて、前記第１閾値を算出するようにしてもよい。

（５）上記目的を達成するため、本発明の一態様に係る音源同定方法は、収音部が、複数のマイクロホンで構成される収音手順と、音源定位部が、前記収音手順によって収音された音響信号に基づいて音源を定位する音源定位手順と、音源分離部が、前記音源定位手順によって定位されて信号に基づいて前記音源の分離を行う音源分離手順と、音源同定部が、前記音源分離手順によって分離された信号に対して、所定の値である第１閾値以上の大きさの信号であるか否かを判別し、分離された信号が前記第１閾値以上の大きさの信号である場合に前記音源の種類の同定を行う音源同定手順と、前記音源同定部が、前記音源が検出されなかった場合に、前記収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて前記第１閾値を決定する手順と、前記音源同定部が、前記第１閾値より小さい第２閾値を用いて前記音源が検出されたとき、前記音源の大きさが前記第１閾値以上の信号に対して音源の種類の同定を行う手順と、を含む。

上述した（１）、（６）の構成によれば、高ＳＮ比の信号のみを用いて音源の同定を行うため、音源同定の精度を向上させることができる。
また、上述した（２）、（３）の構成によれば、音源が検出された場合のみ、すなわち高ＳＮ比の信号に対してのみ音源同定を行うので、雑音に対して音源同定を行うことを防ぐことができる。
また、上述した（２）、（４）の構成によれば、雑音のスペクトルを推定することで、音源同定に用いる第１閾値を適切に求めることができる。
また、上述した（５）の構成によれば、平均化された雑音スペクトルを用いることによって、突発的な雑音等の影響を低減することができる。

第１実施形態に係る音源同定装置の構成を示すブロック図である。第１実施形態に係るクアドロコプターに音源同定装置を搭載した例を示す図である。音源同定の対象である１ストリームの信号の例を説明するための図である。第１実施形態に係る音源同定装置が行う処理のフローチャートである。第２実施形態に係る音源同定装置の構成を示すブロック図である。第２実施形態に係る音源同定装置が行う処理のフローチャートである。第３実施形態の変形例に係る音源同定装置の構成を示すブロック図である。第３本実施形態に係る音源同定装置が行う処理のフローチャートである。第４実施形態に係る識別器と定数αを学習させる学習装置の構成の一例を示すブロック図である。第４実施形態に係る機器別器に学習させる値の例を示す図である。第４実施形態に係る学習させる値の例を説明する図である。音源同定の確認実験に用いた音源を示す図である。音源同定の確認実験に用いた音源定位のパラメータを示す図である。ホイッスルの音を音源に用いた場合のＭＵＳＩＣスペクトルと音源定位結果の例を示す図である。音源同定の確認実験における区間検出と音源分離の評価結果を示す図である。

以下、図面を参照しながら本発明の実施形態について説明する。また、以下の説明では、音源同定装置をクアドロコプターに搭載した例について説明を行う。

［第１実施形態］
＜音源同定装置１の構成＞
図１は、本実施形態に係る音源同定装置１の構成を示すブロック図である。
図１に示すように、音源同定装置１は、収音部１０、音響信号取得部１２、音源定位部１４、音源追跡部１６、音源分離部１８、音源同定部２０、識別器２２、定位結果出力部２４、同定結果出力部２６、および分離結果出力部２８を備えている。また、音源同定部２０は、Ｓ／Ｎ推定部２０２および音源種類同定部２０４を備えている。

収音部１０は、Ｍ個（Ｍは２以上の整数）のマイクロホン１１を備えるマイクロホンアレイである。なお、複数のマイクロホン１１−１〜１１−Ｍのうちいずれか１つを特定しない場合は、マイクロホン１１という。図２は、本実施形態に係るクアドロコプターに音源同定装置１を搭載した例を示す図である。図２に示す例では、音源同定装置１の収音部１０が、１６個のマイクロホン１１−１〜１１−１６を備えている。また、マイクロホン１１−１〜１１−１６は、円周状に規則的に配置されている。収音部１０は、収音した音声信号を電気信号に変換して、変換した音声信号を音響信号取得部１２に出力する。なお、収音部１０は、収録したＭチャネルの音声信号を音響信号取得部１２に無線で送信してもよいし、有線で送信してもよい。送信の際にチャネル間で音声信号が同期していればよい。

音響信号取得部１２は、収音部１０のＭ個のマイクロホン１１によって収録されたＭチャネルの音響信号を取得する。音響信号取得部１２は、取得したＭチャネルの音声信号をチャネルｉ毎の音声信号ｘ_ｉ（ｋ）（ｋは、サンプル時刻を表す整数、ｉは、１≦ｉ≦Ｎとなる整数）に対して、例えば離散フーリエ変換（ＤＦＴ；ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行って周波数領域信号ｘ_ｉ（ω）（ωは、周波数）を生成し、生成した周波数領域信号ｘ_ｉ（ω）を音源定位部１４と音源分離部１８とに出力する。

音源定位部１４は、音響信号取得部１２が出力したＭチャネルの周波数領域信号に対して、空間スペクトルを算出する。音源定位部１４は、算出した空間スペクトルに基づいて、例えば１〜数十フレーム単位で離散的に、音源の方位角の推定（音源定位を行うともいう）を行う。音源定位部１４は、例えばＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法を用いて方位角を推定する。なお、音源定位部１４は、ビームフォーミング（Ｂｅａｍｆｏｒｍｉｎｇ）法等を用いて音源定位を行うようにしてもよい。なお、以下の説明では、音源定位部１４がＭＵＳＩＣ法を用いて方位角を推定する例について説明する。音源定位部１４は、後述するように、方位ｄ毎に周波数ビン毎にＭＵＳＩＣスペクトルを合算した合算値Ｐ’_ｔ、ｄが第２閾値Ｐ_{ｔｈｒｅｓ}以上であるか否かに応じて音源が存在しているか否かの判別を行う。音源定位部１４は、推定した音源の方位角情報を音源追跡部１６に出力する。また、音源定位部１４は、音源定位された方位毎にかつ音源が検出されなかったフレーム毎に、算出した空間スペクトルをＳ／Ｎ推定部２０２に出力する。

音源追跡部１６は、音源定位部１４によって離散的に音源定位されたデータを、周知の手法（例えば、参考文献１を参照）を用いて時間方向に追跡する。音源追跡部１６は、追跡した結果に基づいて離散データを、例えばカルマンフィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）やパーティクルフィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を用いて時間方向に連続した音源定位情報を生成し、生成した音源定位情報を音源分離部１８と音源同定部２０と定位結果出力部２４に出力する。

＜参考文献１＞
“ＭＵＳＩＣ法を用いた音源定位のベイズ拡張”、大塚琢馬、中臺一博、尾形哲也、奥乃博、日本ロボット学会、第２９回日本ロボット学会学術講習会、２０１１年

音源分離部１８には、音響信号取得部１２が出力したＭチャネルの周波数領域信号と、音源追跡部１６が出力した音源定位情報が入力される。音源分離部１８は、音源追跡部１６から入力された音源定位情報を用いて、Ｍチャネルの周波数領域信号に対して、フレームまたはサンプル単位で連続的に音源毎の音響信号を分離する。音源分離部１８は、例えば、例えばブラインド分離とビームフォーミングのハイブリッドであるＧＨＤＳＳ−ＡＳ（ＧｅｏｍｅｔｒｉｃａｌｌｙｃｏｎｓｔｒａｉｎｅｄＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎｗｉｔｈＡｄａｐｔｉｖｅＳｔｅｐ−ｓｉｚｅｃｏｎｔｒｏｌ）法によって音源を分離する。音源分離部１８は、分離した音源毎の周波数領域信号を音源同定部２０の音源種類同定部２０４と分離結果出力部２８に出力する。

識別器２２には、機械学習により構築された音源の種類を識別するモデルが格納されている。機械学習により構築した識別モデルとは、例えばＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ；混合ガウスモデル）、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ；サポートベクターマシン）、ＤＡＥ／ＤＤＡＥ（Ｄｅｅｐ（Ｄｅｎｏｉｓｉｎｇ）ＡｕｔｏＥｎｃｏｄｅｒ；ディープオートエンコーダ）、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；畳み込みニューラルネットワーク）等のうちの少なくとも１つの手法である。なお、識別器２２は、サーバ装置等が有していてもよく、この場合、ネットワークを介して接続されていてもよい。

Ｓ／Ｎ推定部２０２には、音源定位された方位毎にかつ音源が検出されなかったフレーム毎に、音源定位部１４が出力した空間スペクトルが入力される。Ｓ／Ｎ推定部２０２は、入力された空間スペクトルを用いて、音源が定位された方位毎に雑音スペクトルの加算平均値を算出する。そして、Ｓ／Ｎ推定部２０２は、算出した雑音スペクトルの加算平均値に基づいて、音源同定に用いる閾値である同定閾値（第１閾値）を、音源が定位された方位毎に算出する。Ｓ／Ｎ推定部２０２は、音源が定位された方位毎かつフレーム毎に、空間スペクトルのパワーが同定閾値以上である場合に高ＳＮの信号であるため音源同定を行うと判別する。また、Ｓ／Ｎ推定部２０２は、音源が定位された方位毎かつフレーム毎に、空間スペクトルのパワーが同定閾値未満である場合に低ＳＮの信号であるため音源同定を行わないと判別する。Ｓ／Ｎ推定部２０２は、判別した音源同定を行うか否かを示す情報を音源が定位された方位毎かつフレーム毎に音源種類同定部２０４に出力する。

音源種類同定部２０４は、Ｓ／Ｎ推定部２０２から音源同定を行うことを示す情報が入力されているフレームのとき、音源追跡部１６が出力した音源定位情報に基づいて、音源分離部１８が出力した音源の種類それぞれを、識別器２２を用いて同定する。さらに、音源種類同定部２０４は、例えば１ストリーム毎に音源の種類を、同定された結果の多数決によって音源同定を行う。なお、音源種類同定部２０４は、音源同定を行わないことを示す情報が入力されているフレームにおいて音源の種類の同定を行わない。これにより、本実施形態では、分離された音源毎に音源同定を行う場合、音源があると検出された全てのスペクトルのうち、高ＳＮ比の信号のみを用いて音源同定を行う。音源種類同定部２０４は、音源同定を行った音源同定情報を同定結果出力部２６に出力する。

定位結果出力部２４は、音源追跡部１６が出力した音源定位情報に基づく音源定位結果を、ストリーム毎のタイミングで出力する。なお、音源定位結果には、検出された音源それぞれの方位を示す情報が含まれている。
同定結果出力部２６は、音源種類同定部２０４が出力した音源同定情報に基づく音源同定結果を音源毎かつストリーム毎に出力する。なお、音源同定結果には、音源毎に、その音源の種類を示す情報が含まれている。
分離結果出力部２８は、音源分離部１８が出力した分離した音源毎の周波数領域信号を時間領域信号に変換し、変換した信号をストリーム毎のタイミングで出力する。

ここで、高ＳＮ比の信号のみを用いて、音源同定における多数決を行う理由を説明する。
図３は、音源同定の対象である１ストリームの信号の例を説明するための図である。図３において、横軸は時刻を表す。
一般的な音源同定では、例えば１フレーム毎に音源同定を行う。そして、音源同定では、例えば、フレーム毎に同定した結果に対して１ストリーム内で多数決を行って、最終的な音源の種類を同定する。

図３に示す例のように、収音された音響信号ｇ１０１の１ストリーム内に、高ＳＮ比の信号（ｇ１１２）と低ＳＮ比の信号（ｇ１１１）とが含まれている場合がある。低ＳＮ比の信号を用いて同定を行った場合、音源の種類を誤って同定してしまう場合もある。このため、低ＳＮ比の信号が高ＳＮ比の信号の個数より多いストリームに対して同定処理を行った場合、同定結果には誤った同定結果が多く含まれる場合がある。このような誤った同定結果を含むストリーム全体において多数決を行った場合、音源の同定結果に影響を与えていた。
このため、本実施形態では、高ＳＮ比の信号、すなわち空間スペクトルが第１閾値（同定閾値Ｔｈ_ＳＳＩ（ｄ））以上の音響信号に対して同定された結果に対して多数決を行うことで、音源同定を行う。これにより、本実施形態では、同定結果に、低ＳＮ比の信号に対する同定結果が含まれていないため、音源同定の精度を向上させることができる。

＜音源定位処理＞
次に、音源定位部１４が行うＭＵＳＩＣ法（例えば、参考文献１を参照）による音源定位処理の概略を説明する。
ｘ_τ，_ωをＭチャネルの音響信号の時間フレームτ、周波数ビンωにおける複素振幅ベクトルとする。音源定位部１４は、各周波数ビンω、ΔＴ［ｓｅｃ］間隔の時刻ｔに対して、次式（１）に示すように、入力信号の自己相関行列Ｒ_ｔ，_ωを算出する。

式（１）において、Ｈはエルミート転置、τ’（ｔ）は時刻ｔに対応する時間フレームを表す。入力ベクトルｘ_τ，_ωのＭ個の要素は各チャネルに対応する。
次に、音源定位部１４は、次式（２）のように自己相関行列Ｒ_ｔ，_ωを固有値分解する。

式（２）において、Ｅ_ｔ，_ωは固有値ベクトル、Ｑ_ｔ，_ωは固有値からなる対角行列である。Ｅ_ｔ，_ω＝［ｅ^１ _ｔ，_ω…ｅ^Ｍ _ｔ，_ω］と、Ｒ_ｔ，_ωのＭ個の固有値ベクトルであらわせ、Ｑ_ｔ，_ω＝ｄｉａｇ（ｑ^１ _ｔ，_ω…ｑ^Ｍ _ｔ，_ω）となる。なお、固有値ｑ^ｍ _ｔ，_ωは降順に並べられている。ｄｉａｇ［…］は、行列…の対角成分の総和を示す。
次に、音源定位部１４は、次式（３）を用いて、所定の方位毎に空間スペクトル（ＭＵＳＩＣスペクトル）を算出する。所定の方位毎とは、例えば５度毎である。

式（３）において、ａ_ｄ，ωは方向ｄ、周波数ビンωに対応するＭ次元の伝達関数ベクトルである。
次に、音源定位部１４は、次式（４）のように、方位ｄ毎かつ周波数ビン毎にＭＵＳＩＣスペクトルを合算して合算値を求める。

式（４）において、ｑ^１ _ｔ，_ωは、周波数ビンωにおける最大固有値である。音源定位部１４は、方位毎に、合算値Ｐ’_ｔ、ｄが、第２閾値Ｐ_{ｔｈｒｅｓ}以上である場合に音源が存在していると判別し、第２閾値Ｐ_{ｔｈｒｅｓ}未満である場合に音源が存在していないと判別する。

＜音源分離処理＞
次に、音源分離部１８が行うＧＨＤＳＳ−ＡＳ法（例えば、参考文献２参照）による音源分離処理の概略を説明する。
以下の説明において、音源数Ｎ（≧マイクロホンの個数Ｍ）である。また、周波数ωにおけるＮ個の音源に対するスペクトルのベクトルをｕ（ω）＝［ｓ_１（ω）ｓ_２（ω）・・・ｓ_Ｎ（ω）］^Ｔとし、周波数ωにおけるＭ個のマイクロホン１１で収音した音響信号のスペクトルのベクトルをω、ｘ（ω）＝［ｘ_１（ω）ｘ_２（ω）・・・ｘ_Ｍ（ω）］^Ｔとする。ｘ（ω）は、次式（５）のように表される。

式（５）において、Ｄ（ω）は音源とマイクロホン１１との間の伝達関数行列であり、伝達関数行列の各要素Ｈ_ｎｍは、ｎ番目の音源からｍ番目のマイクロホン１１への伝達関数ａ_φ（ω）を表す。このとき、音源分離は、次式（６）で表される。

式（６）において、Ｗ（ω）は分離行列である。
音源分離部１８は、分離行列Ｗ（ω）を算出するために、例えば次式（７）、（８）に示すブラインド分離に対応する分離尖鋭度（ＳｅｐａｒａｔｉｏｎＳｈａｒｐｎｅｓｓ）Ｊ_ｓｓと、ビームフォーマに対応する幾何制約度（ＧｅｏｍｅｔｒｉｃＣｏｎｓｔｒａｉｎｔ）Ｊ_ＧＣとの２つのコスト関数を用いる。

なお、式（７）および（８）において、｜｜…｜｜^２は、行列…のフロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）である。フロベニウスノルムとは、行列を構成する各要素値の二乗和（スカラー値）である。また、φ（ｙ）は、非線形関数であり、次式（９）のように定義される。

なお、式（９）において、φ（ｙ_i）は、例えば次式（１０）のように定義される。

式（１０）においてηはスケールパラメータである。
最終的なコスト関数Ｊ（Ｗ）は、次式（１１）のように表される。

式（１１）においてαは、２つのコスト関数間の重みパラメータである。
なお、音源分離部１８は、分離行列Ｗ（ω）を、例えばフレーム毎に、次式（１２）を用いて更新する。

式（１２）において、Ｗ_ｔは、時刻ｔにおける分離行列Ｗ、Ｊ’_ＳＳ（Ｗ）およびＪ’_ＧＣ（Ｗ）は、Ｊ_ＳＳ（Ｗ）およびＪ_ＧＣ（Ｗ）の複素勾配を表す。また、μ_ＳＳおよびμ_ＧＣは、ステップサイズパラメータである。

＜参考文献２＞
“ロボット聴覚〜高雑音下でのハンズフリー音声認識〜”、中臺一博、奥乃博、電子情報通信学会、信学技法、２０１１年

＜雑音スペクトル推定処理＞
次に、Ｓ／Ｎ推定部２０２が行う雑音スペクトル推定処理について説明する。
Ｓ／Ｎ推定部２０２は、音源が検出されなかった区間、すなわち雑音であると判別された区間、次式（１３）を用いて、音源定位部１４から入力された空間スペクトルＭｕｓｉｃＳＰ（ｋ，ｄ）の加算平均の値ＳＰａｖｅ（ｄ）を方位ｄ毎に算出する。

式（１３）において、Ｎは１ストリームにおける音源が検出されなかった（すなわちノイズが検出された）フレーム数、ｋは雑音が検出されたフレーム、ｄは方向である。
Ｓ／Ｎ推定部２０２は、算出した加算平均の値ＳＰａｖｅ（ｄ）に定数α（ｄ）を加算して、次式（１４）を用いて、同定閾値Ｔｈ_ＳＳＩ（ｄ）を算出する。

式（１４）において、定数α（ｄ）は、明らかに音源があると判別できる程度の値、例えば１程度に設定する。なお、同定閾値の初期値は、例えば実測等によって得られた結果に基づいて決定された値であってもよい。
Ｓ／Ｎ推定部２０２は、空間スペクトルのパワーが算出した同定閾値Ｔｈ_ＳＳＩ（ｄ）（第１閾値）以上であるか否かを、定位された音源の方位毎かつフレーム毎に判別する。Ｓ／Ｎ推定部２０２は、空間スペクトルのパワーが算出した同定閾値Ｔｈ_ＳＳＩ（ｄ）以上である場合、音源同定を行うことを示す情報を、定位された音源の方位毎かつフレーム毎に音源種類同定部２０４に出力する。また、Ｓ／Ｎ推定部２０２は、空間スペクトルのパワーが算出した同定閾値Ｔｈ_ＳＳＩ（ｄ）未満である場合、音源同定を行わないことを示す情報を、定位された音源の方位毎かつフレーム毎に音源種類同定部２０４に出力する。

ここで、Ｓ／Ｎ推定部２０２が用いる第１閾値（同定閾値Ｔｈ_ＳＳＩ（ｄ））と第２閾値Ｐ_{ｔｈｒｅｓ}の例を説明する。
第２閾値は、収音された音響信号に含まれている音を検出するための閾値である。第２閾値は、予め定められた値であってもよく、収音された音響信号の大きさに応じて決定される値であってもよい。第２閾値以上の信号には、低ＳＮ比の信号も含まれている場合もある。
第１閾値は、式（１４）によって算出された同定閾値であり、高ＳＮ比の信号のフレームを抽出するための閾値である。
なお、第１閾値は第２閾値より大きい。これにより、Ｓ／Ｎ推定部２０２は、第１閾値を用いて、音源があると検出された場合であっても、低ＳＮ比の信号のフレームを除去または、高ＳＮ比の信号のフレームを抽出することができる。

＜音源同定装置１が行う処理手順＞
次に、音源同定装置１が行う処理手順を説明する。
図４は、本実施形態に係る音源同定装置１が行う処理のフローチャートである。
（ステップＳ１）音源定位部１４は、音響信号取得部１２が出力したＭチャネルの周波数領域信号に対して、空間スペクトルを算出する。続けて、音源定位部１４は、算出した空間スペクトルに基づいて、例えば１〜数十フレーム単位で離散的に、音源定位を行う。続けて、音源分離部１８は、音源追跡部１６から入力された音源定位情報を用いて、Ｍチャネルの音響信号に対して、フレームまたはサンプル単位で連続的に音源毎の音響信号を分離する。なお、音源定位処理と音源分離処理とは、並列して行うようにしてもよい。

（ステップＳ２）音源定位部１４は、定位された方位毎に、周波数ビン毎の空間スペクトルの合算値が第２閾値以上であるか否かに応じて音源が検出されたか否かを判別する。音源定位部１４は、音源が検出されたと判別した場合（ステップＳ２；ＹＥＳ）、ステップＳ４に処理を進める。音源定位部１４は、音源が検出されなかったと判別した場合（ステップＳ２；ＮＯ）、定位された方位毎かつ音源が検出されなかったフレーム毎に、算出した空間スペクトルをＳ／Ｎ推定部２０２に出力し、ステップＳ３に処理を進める。

（ステップＳ３）Ｓ／Ｎ推定部２０２は、定位された方位毎に、音源定位が検出されていないフレームの入力された空間スペクトルを用いて雑音スペクトルの１ストリームにおける加算平均値を、式（１３）を用いて算出する。続けて、Ｓ／Ｎ推定部２０２は、算出した雑音スペクトルの加算平均値と、式（１４）を用いて第１閾値（同定閾値）を算出する。Ｓ／Ｎ推定部２０２は、ステップＳ４に処理を進める。

（ステップＳ４）Ｓ／Ｎ推定部２０２は、空間スペクトルのパワーの大きさが算出した第１閾値（同定閾値）以上であるか否かを定位された方位毎かつフレーム毎に判別する。Ｓ／Ｎ推定部２０２は、空間スペクトルのパワーの大きさが第１閾値以上である場合、音源同定を行うことを示す情報を音源種類同定部２０４に出力し、空間スペクトルのパワーの大きさが第１閾値未満である場合、音源同定を行わないことを示す情報を音源種類同定部２０４に出力する。続けて、音源種類同定部２０４は、Ｓ／Ｎ推定部２０２が出力した音源同定を行うか否かを示す情報に基づいて、音源同定を行うか否かを判別する。音源種類同定部２０４は、Ｓ／Ｎ推定部２０２から音源同定を行うことを示す情報が入力された場合に、同定を行うと判別（ステップＳ４；ＹＥＳ）し、ステップＳ５に処理を進める。また、音源種類同定部２０４は、Ｓ／Ｎ推定部２０２から音源同定を行わないことを示す情報が入力された場合に、同定を行わないと判別（ステップＳ４；ＮＯ）し、ステップＳ１に処理を戻す。

（ステップＳ５）音源種類同定部２０４は、識別器２２を用いて、音源毎に、Ｓ／Ｎ推定部２０２が音源同定を行うことを示す情報を出力したフレームのみ音源の種類を同定する。続けて、音源種類同定部２０４は、同定した結果に対して１ストリーム内で多数決を行って、最終的な音源の種類を音源毎に同定する。音源種類同定部２０４は、音源同定後、ステップＳ１の処理に戻す。

なお、本実施形態では、音源定位部１４が、第２閾値を用いて音源が検出されたか否かを判別する例を説明したが、これに限られない。Ｓ／Ｎ推定部２０２が、音源定位部１４が出力する空間スペクトルに対して、第２閾値を用いて音源が検出されたか否かを判別するようにしてもよい。
また、本実施形態では、音響信号取得部１２が、取得した音響信号を周波数領域信号に変換する例を説明したが、音源定位部１４および音源分離部１８が音響信号を周波数領域信号に変換するようにしてもよい。
また、音源分離部１８は、周知の手法を用いて雑音抑圧を行ってもよい。

なお、本実施形態では、Ｓ／Ｎ推定部２０２が同定閾値を算出し、算出した同定閾値と空間スペクトルを比較して、同定を行うか否かを示す情報を生成して音源種類同定部２０４に出力する例を説明したが、これに限られない。Ｓ／Ｎ推定部２０２は、算出した同定閾値を音源種類同定部２０４に出力し、音源種類同定部２０４が同定閾値と空間スペクトルとをフレーム毎かつ音源毎に比較して、同定を行うか否かを判別し、判別した結果に応じて高ＳＮ比の信号のみを選択して同定するようにしてもよい。

また、本実施形態では、同定閾値（第１閾値）を、例えば１ストリーム毎に動的に更新する例を説明したが、これに限られない。音源同定装置１は、少なくとも１回以上の所定の回数、同定閾値（第１閾値）を更新した後、同定閾値（第１閾値）を固定するようにしてもよい。例えば、音源同定装置１は、更新した同定閾値（第１閾値）が所定の範囲内の場合に更新を停止して、同定閾値（第１閾値）を固定するようにしてもよい。

以上のように、本実施形態の音源同定装置１は、複数のマイクロホン１１で構成される収音部１０と、収音部が収音した音響信号に基づいて音源を定位する音源定位部１４と、音源定位部によって定位されて信号に基づいて音源の分離を行う音源分離部１８と、音源分離部によって分離された結果に基づいて音源の種類の同定を行う音源同定部２０（Ｓ／Ｎ推定部２０２、音源種類同定部２０４）と、を備え、音源同定部に入力される信号は、所定の値である第１閾値（同定閾値Ｔｈ_ＳＳＩ）以上の大きさの大きな信号である。

この構成によって、本実施形態では、高ＳＮ比の信号のみを用いて音源の同定を行うため、音源同定の精度を向上させることができる。

また、本実施形態の音源同定装置１において、音源同定部２０（Ｓ／Ｎ推定部２０２、音源種類同定部２０４）は、第１閾値（同定閾値Ｔｈ_ＳＳＩ）とは異なる値の第２閾値Ｐ_{ｔｈｒｅｓ}を用いて前記音源が検出されたとき、音源の大きさが第１閾値以上の信号に対して音源の種類の同定を行う。
また、本実施形態の音源同定装置１において、第１閾値（同定閾値Ｔｈ_ＳＳＩ）以上の信号は、音源定位部１４によって定位された音源の信号である。

この構成によって、本実施形態では、音源が検出された場合のみ、すなわち高ＳＮ比の信号に対してのみ音源同定を行うので、雑音に対して音源同定を行うことを防ぐことができる。

また、本実施形態の音源同定装置１において、音源同定部２０（Ｓ／Ｎ推定部２０２、音源種類同定部２０４）は、音源が検出されなかった場合に、収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて第１閾値（同定閾値Ｔｈ_ＳＳＩ）を決定する。

この構成によって、本実施形態では、雑音のスペクトルを推定することで、音源同定に用いる第１閾値（同定閾値Ｔｈ_ＳＳＩ）を適切に求めることができる。

また、本実施形態の音源同定装置１において、音源同定部２０（Ｓ／Ｎ推定部２０２、音源種類同定部２０４）は、雑音のスペクトルの推定値の加算平均ＳＰａｖｅ（ｄ）を用いて、第１閾値（同定閾値Ｔｈ_ＳＳＩ）を算出する。

この構成によって、本実施形態では、平均化された雑音スペクトルを用いることによって、突発的な雑音等の影響を低減することができる。

［第２実施形態］
第１実施形態では、音源定位部１４が音源定位した結果を用いて、高ＳＮ比の信号を抽出して音源同定を行う例を説明したが、本実施形態では、音源分離部が音源分離した結果を用いて、高ＳＮ比の信号を抽出して音源同定を行う例を説明する。

＜音源同定装置１Ａの構成＞
図５は、本実施形態に係る音源同定装置１Ａの構成を示すブロック図である。
図５に示すように、音源同定装置１Ａは、収音部１０、音響信号取得部１２、音源定位部１４Ａ、音源追跡部１６、音源分離部１８Ａ、音源同定部２０Ａ、識別器２２、定位結果出力部２４、同定結果出力部２６、および分離結果出力部２８を備えている。また、音源同定部２０Ａは、Ｓ／Ｎ推定部２０２Ａおよび音源種類同定部２０４を備えている。なお、音源同定装置１と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。

音源定位部１４Ａは、音響信号取得部１２が出力したＭチャネルの周波数領域信号に対して、空間スペクトルを算出する。音源定位部１４Ａは、算出した空間スペクトル、例えば１〜数十フレーム単位で離散的に、音源定位を行う。音源定位部１４Ａは、推定した音源の方位角情報を音源追跡部１６に出力する。

音源分離部１８Ａは、音源追跡部１６から入力された音源定位情報を用いて、音響信号取得部１２が出力したＭチャネルの周波数領域信号に対して、例えばＧＨＤＳＳ−ＡＳ法によって、フレームまたはサンプル単位で連続的に音源毎の音響信号を分離する。音源分離部１８Ａは、分離した音源毎の周波数領域信号（スペクトル）を音源同定部２０ＡのＳ／Ｎ推定部２０２Ａと分離結果出力部２８に出力する。

Ｓ／Ｎ推定部２０２Ａは、周知の手法を用いて、分離された周波数領域信号毎に音声信号がある区間を抽出する。例えば、Ｓ／Ｎ推定部２０２Ａは、音源毎にスペクトルのパワーが第２閾値以上である場合に音源がある区間であると判別し、第２閾値未満である場合に音源がない区間であると検出する。なお、音声信号がある区間の検出は、音源分離部１８Ａが行ってもよい。Ｓ／Ｎ推定部２０２Ａは、音源がない区間、音源分離部１８Ａが出力した周波数信号スペクトルのうち、所定の帯域のスペクトルＳＰ（ｋ，ω）の加算平均の値ＳＰａｖｅを音源毎に算出する。ここで、所定の帯域とは、例えば音声と雑音とを区別しやすい帯域（例えば５００Ｈｚ〜２８００Ｈｚ）である。なお、所定の帯域は、他の抽出したい音響信号に応じた帯域であってもよい。なお、以下の説明では、音源同定の対象が音声であるとして説明する。Ｓ／Ｎ推定部２０２Ａは、次式（１５）において、ω＝５００Ｈｚ〜２８００Ｈｚとすることで所定の帯域の抽出を行う。

式（１５）において、Ｆは、周波数のサンプリング数であり、例えば周波数の帯域が５００Ｈｚ〜２８００Ｈｚであり、１０Ｈｚ毎に処理が行われる場合、２３０｛（２８００−５００）／１０｝である。
Ｓ／Ｎ推定部２０２Ａは、算出した加算平均の値ＳＰａｖｅに定数αを加算して、次式（１６）を用いて、同定閾値Ｔｈ_ＳＳＩを音源毎に算出する。

式（１６）において、定数αは、明らかに音源があると判別できる程度の値、例えば１０ｄＢ程度に設定する。なお、同定閾値の初期値は、例えば実測等によって得られた結果に基づいて決定された値であってもよい。Ｓ／Ｎ推定部２０２Ａは、算出した同定閾値とスペクトルを、分離された音源毎かつフレーム毎に比較する。そして、Ｓ／Ｎ推定部２０２Ａは、比較した結果に基づいて音源同定を行うか否かを判別し、判別した音源同定を行うか否かを示す情報を音源種類同定部２０４に出力する。

＜音源同定装置１Ａが行う処理手順＞
次に、音源同定装置１Ａが行う処理手順を説明する。
図６は、本実施形態に係る音源同定装置１Ａが行う処理のフローチャートである。なお、音源同定装置１が行う処理と同様の処理については、同じ符号を用いて説明を省略する。

（ステップＳ１０１）音源分離部１８Ａは、収音された音響信号から音源を分離できたか否かを判別する。音源分離部１８Ａは、収音された音響信号から音源を分離できたと判別した場合（ステップＳ１０１；ＹＥＳ）、処理をステップＳ１０４に進め、収音された音響信号から音源を分離できなかったと判別した場合（ステップＳ１０１；ＮＯ）、処理をステップＳ１０２に進める。

（ステップＳ１０２）Ｓ／Ｎ推定部２０２Ａは、例えば、音源毎にスペクトルのパワーが第２閾値以上である場合に音源がある区間であると判別し、第２閾値未満である場合に音源がない区間であると検出する。続けて、Ｓ／Ｎ推定部２０２Ａは、音源がない区間、音源分離部１８Ａが出力した周波数信号スペクトルのうち、所定の帯域のスペクトルＳＰ（ｋ，ω）の加算平均の値ＳＰａｖｅを、音源毎に式（１５）を用いて算出して更新する。Ｓ／Ｎ推定部２０２Ａは、ステップＳ１０３に処理を進める。

（ステップＳ１０３）Ｓ／Ｎ推定部２０２Ａは、算出した雑音スペクトルの加算平均値と、式（１６）を用いて第１閾値（同定閾値）を音源毎に算出する。続けて、Ｓ／Ｎ推定部２０２Ａは、算出した同定閾値とスペクトルを、分離された音源毎かつフレーム毎に比較する。続けて、Ｓ／Ｎ推定部２０２Ａは、比較した結果に基づいて音源同定を行うか否かを判別し、判別した音源同定を行うか否かを示す情報を音源種類同定部２０４に出力する。Ｓ／Ｎ推定部２０２Ａは、ステップＳ１０４に処理を進める。

（ステップＳ１０４）音源種類同定部２０４は、Ｓ／Ｎ推定部２０２Ａが出力した音源同定を行うか否かを示す情報に基づいて、音源同定を行うか否かを判別する。音源種類同定部２０４は、Ｓ／Ｎ推定部２０２Ａから音源同定を行うことを示す情報が入力された場合に、同定を行うと判別（ステップＳ１０４；ＹＥＳ）し、ステップＳ５に処理を進める。また、音源種類同定部２０４は、Ｓ／Ｎ推定部２０２Ａから音源同定を行わないことを示す情報が入力された場合に、同定を行わないと判別（ステップＳ１０４；ＮＯ）し、ステップＳ１に処理を戻す。

なお、本実施形態においても、少なくとも１回以上の所定の回数、同定閾値（第１閾値）を更新した後、同定閾値（第１閾値）を固定するようにしてもよい。

以上のように、本実施形態の音源同定装置１Ａにおいて、第１閾値（同定閾値Ｔｈ_ＳＳＩ）以上の信号は、音源分離部１８Ａによって分離された音源の信号である。

この構成によって、本実施形態では、音源分離部１８Ａによって分離された後の音響信号のうち、高ＳＮ比の信号を用いて音源の種類の同定を行うため、音源同定の精度を向上させることができる。

［第３実施形態］
第２実施形態では、音源分離部１８ＡまたはＳ／Ｎ推定部２０２Ａが、スペクトルのパワーと第２閾値を比較して、音声信号がある区間を検出する例を説明したが、本実施形態では、時間領域の音声信号に対して音声信号がある区間を検出して、音源同定を行う例を説明する。

＜音源同定装置１Ｂの構成＞
図７は、本実施形態の変形例に係る音源同定装置１Ｂの構成を示すブロック図である。
図７に示すように、音源同定装置１Ｂは、収音部１０、音響信号取得部１２、音源定位部１４Ａ、音源追跡部１６、音源分離部１８Ｂ、音源同定部２０Ｂ、識別器２２、定位結果出力部２４、同定結果出力部２６、および分離結果出力部２８を備えている。また、音源同定部２０Ｂは、Ｓ／Ｎ推定部２０２Ｂおよび音源種類同定部２０４を備えている。また、Ｓ／Ｎ推定部２０２Ｂは、時間領域変換部２０２１およびフレームワイズ区間検出部２０２２を備える。なお、音源同定装置１Ａと同じ機能を有する機能部には同じ符号を用いて、説明を省略する。また、本実施形態においても、音源同定の対象が音声である例を説明するが、同定対象は音声に限らない。

音源分離部１８Ｂは、音源追跡部１６から入力された音源定位情報を用いて、音響信号取得部１２が出力したＭチャネルの周波数領域信号に対して、例えばＧＨＤＳＳ−ＡＳ法によって、フレームまたはサンプル単位で連続的に音源毎の音響信号を分離する。音源分離部１８Ｂは、分離した音源毎の周波数領域信号（スペクトル）を音源同定部２０ＢのＳ／Ｎ推定部２０２Ｂ、音源種類同定部２０４、および分離結果出力部２８に出力する。

時間領域変換部２０２１は、音源分離部１８Ｂが出力した分離された音源毎の周波数領域信号を時間領域信号に変換し、変換した時間領域信号を音源毎にフレームワイズ区間検出部２０２２に出力する。

フレームワイズ区間検出部２０２２は、周知の手法（例えば、特開２０１４−１４５８３８号公報に記載の発話区間の抽出手法）を用いて、分離された音源毎に周波数領域信号に対して音声信号がある区間を抽出する。音声信号がある区間を抽出において、フレームワイズ区間検出部２０２２は、信号のパワーに対して第１閾値と比較し、さらに信号のゼロクロス点と検出することで音声信号がある区間を抽出する。フレームワイズ区間検出部２０２２は、検出した音声信号がある区間に、同定を行うことを示す情報を音源種類同定部２０４に出力する。また、フレームワイズ区間検出部２０２２は、検出した音声信号がない区間に、同定を行わないことを示す情報を音源種類同定部２０４に出力する。

＜音源同定装置１Ｂが行う処理手順＞
次に、音源同定装置１Ｂが行う処理手順を説明する。
図８は、本実施形態に係る音源同定装置１Ｂが行う処理のフローチャートである。なお、音源同定装置１または音源同定装置１Ｂが行う処理と同様の処理については、同じ符号を用いて説明を省略する。

（ステップＳ１０１）音源分離部１８Ｂは、収音された音響信号から音源を分離できたか否かを判別する。音源分離部１８Ｂは、収音された音響信号から音源を分離できたと判別した場合（ステップＳ１０１；ＹＥＳ）、処理をステップＳ１０４に進め、収音された音響信号から音源を分離できなかったと判別した場合（ステップＳ１０１；ＮＯ）、処理をステップＳ２０１に進める。

（ステップＳ２０１）時間領域変換部２０２１は、音源分離部１８Ｂが出力した分離された音源毎の周波数領域信号を時間領域信号に変換する。続けて、フレームワイズ区間検出部２０２２は、周知の手法（例えば、特開２０１４−１４５８３８号公報に記載の発話区間の抽出手法）を用いて、分離された音源毎に周波数領域信号に対して音声信号がある区間を抽出する。フレームワイズ区間検出部２０２２は、ステップＳ２０２に処理を進める。

（ステップＳ２０２）フレームワイズ区間検出部２０２２は、検出した音声信号がある区間に、同定を行うことを示す情報を音源種類同定部２０４に出力する。または、フレームワイズ区間検出部２０２２は、検出した音声信号がない区間に、同定を行わないことを示す情報を音源種類同定部２０４に出力する。フレームワイズ区間検出部２０２２は、ステップＳ１０４に処理を進める。

（ステップＳ１０４）音源種類同定部２０４は、フレームワイズ区間検出部２０２２が出力した音源同定を行うか否かを示す情報に基づいて、音源同定を行うか否かを判別する。音源種類同定部２０４は、フレームワイズ区間検出部２０２２から音源同定を行うことを示す情報が入力された場合に、同定を行うと判別（ステップＳ１０４；ＹＥＳ）し、ステップＳ５に処理を進める。また、音源種類同定部２０４は、フレームワイズ区間検出部２０２２から音源同定を行わないことを示す情報が入力された場合に、同定を行わないと判別（ステップＳ１０４；ＮＯ）し、ステップＳ１に処理を戻す。

なお、上述した例では、音声信号がある区間を、特開２０１４−１４５８３８号公報に記載の発話区間の抽出手法を用いて検出する例を説明したが、これに限られない。音声信号がある区間の検出を、他の周知の手法を用いて行ってもよい。

以上のように、本実施形態によれば、第２実施形態と同様に音源分離した結果を用いて音源同定を行うことができる。この結果、本実施形態では、第２実施形態と同様の効果を得ることができる。また、本実施形態によれば、周知の発話区間の検出手法を用いることができる効果も得られる。

［第４実施形態］
第１実施形態〜第３実施形態では、音源定位された空間スペクトルのうち高ＳＮ比の信号を第１閾値によって抽出し、または分離されたスペクトルのうち高ＳＮ比の信号を第１閾値によって抽出し、さらに識別器２２を用いて音源の種類の同定を行う例を説明した。
本実施形態では、識別器を学習させるときに、第１閾値も一緒に学習させることで、固定された第１閾値を用いる例を説明する。なお、以下では、音源同定装置１に適用する例を説明するが、音源同定装置１Ａまたは音源同定装置１Ｂに適用するようにしてもよい。

図９は、本実施形態に係る識別器２２と定数αを学習させる学習装置４００の構成の一例を示すブロック図である。
図９に示すように、学習装置４００は、学習部４０１、記憶部４０２、識別器生成部４０３、識別器出力部４０４、および定数α出力部４０５を備えている。
学習部４０１には、学習データとして、音源同定装置１によって定位された音源毎の空間スペクトルが入力される。学習部４０１は、空間スペクトルＭｕｓｉｃＳＰ（ｋ，ｄ）の加算平均の値ＳＰａｖｅ（ｄ）を算出し、定数αの値を変化させ、同定閾値を算出する。学習部４０１は、音源同定装置１の音源同定部２０を用いて、音源同定を行う。そして、同定した結果の認識率と、同定に用いた音、空間スペクトルＭｕｓｉｃＳＰ（ｋ，ｄ）の加算平均の値ＳＰａｖｅ（ｄ）、定数α、および同定閾値を対応付けて、図１０に示すように記憶部４０２に記憶させて学習する。図１０は、本実施形態に係る機器別器に学習させる値の例を示す図である。学習部４０１は、定数αを変化させ、認識率も最も高くなる定数αを選択する。学習部４０１は、このように最適化された定数αを定数α出力部４０５に出力する。

識別器生成部４０３は、認識率が最も高くなった定数αのときに抽出された音響信号に基づく信号（音響信号、空間スペクトル、音響特徴量等）を用いて識別器を生成し、生成した識別器を識別器出力部４０４に出力する。
識別器出力部４０４は、識別器生成部４０３が出力した識別器を、音源同定装置１の識別器２２に格納する。なお、識別器２２には、定数αを格納するようにしてもよい。

定数α出力部４０５は、学習部４０１が出力した定数αを、音源同定部２０のＳ／Ｎ推定部２０２に書き込む。

図１１は、本実施形態に係る学習させる値の例を説明する図である。
図１１における信号は、時間領域で表した音響信号ｇ２００であり、横軸は時刻、縦軸はパワーを表している。また、符号ｇ２０１は、空間スペクトルＭｕｓｉｃＳＰ（ｋ，ｄ）の加算平均の値ＳＰａｖｅ（ｄ）であり、符号ｇ２０２は、定数αであり、符号ｇ２０３は、高ＳＮ比の信号として抽出される部分である。

このように、本実施形態によれば、識別器２２の学習を行うときに、定数αも一緒に学習させることで、最適な定数αを用いて、精度良く高ＳＮ比の信号を抽出することができる。なお、定数αの個数は１つに限られない。例えば、音源の種類毎に定数αを有していてもよく、さらには１つの音源に対して複数の定数αを有していてもよい。例えば、定数αは、雑音スペクトルの平均値である空間スペクトルＭｕｓｉｃＳＰ（ｋ，ｄ）の加算平均の値ＳＰａｖｅ（ｄ）の値それぞれに対応付けられた値であってもよい。この場合、音源同定部２０は、雑音スペクトルの平均値に応じて、複数の定数αのうちから１つを選択して音源同定を行うようにしてもよい。

［確認実験の結果］
次に、第１実施形態の音源同定装置１をベースに用いて、音源同定の確認実験を行った結果の例を説明する。
なお、実験に用いた音源同定装置では、ＣＮＮ（畳み込みニューラルネットワーク）を用いて学習させた識別器２２を用いた。用いたＣＮＮは、畳み込み層１、プーリング層１、中間層１、出力層１である。ＣＮＮへの入力データとしては、高ＳＮ比の各区間検出と音源分離の条件の組み合わせによって得られた分離音からそれぞれ音響特徴を抽出し、２０×２０の入力ベクタを作成し学習に用いた。また、学習パラメータは、学習回数１，０００回、学習係数０．１０で行い、バッチサイズ５０でＳＧＤミニバッチ学習を行った。なお、音源同定において、ＣＮＮを用いるため、空間スペクトルの二次元画像に対して畳み込み処理を行った。

また、実験では、収音部１０が図２に示したように１６個のマイクロホン１１を備えている。そして、音源同定装置１をクアドロコプターに取り付け、収音部１０によって収音された音響信号を、１６ｋＨｚのサンプリング周波数、２４ｂｉｔの分解能で録音し、録音された音響信号を用いて音源同定の確認を行った。
また、音源定位部１４は、ＭＵＳＩＣ法の拡張であるはｉＧＳＶＤ−ＭＵＳＩＣ−
ＣＭＳ法（例えば、参考文献３参照）を用いて音源定位を行い、音源分離部１８は、ＧＨＤＳＳ−ＡＳ法を用いて音源分離を行った。
また、実験では、収音された音響信号のうち、第１実施形態で説明した方法で高ＳＮ比の信号の区間を抽出し、抽出された高ＳＮ比の信号のみを用いて、音源同定を行った。

＜参考文献３＞
相関行列スケーリングを用いたｉＧＳＶＤ−ＭＵＳＩＣ法による屋外環境音源探索の向上、大畑他、第３２回日本ロボット学会学術講演会、２０１４

図１２は、音源同定の確認実験に用いた音源を示す図である。図１２に示すように、２種類の音声（女性の案内の声、男性の叫び声）、８種類の非音声（救急車、拍手、目覚まし時計、シンバル、ホーン、カラスの鳴き声、携帯（携帯電話）、ホイッスルそれぞれの音）を用いた。また、各音源の長さは３〜４秒間であり、それぞれの音イベントを１５回繰り返して収音した。また、収音は、クアドロコプターをホバリングさせた状態で行い、音源とクアドロコプターとの距離を３ｍ離して収音した。また、音源は、スピーカーから各音響信号を出力したものを用いた。

図１３は、音源同定の確認実験に用いた音源定位のパラメータを示す図である。図１３に示すように、音源数（ＮＵＭ＿ＳＯＵＲＳＥ）を１、区間検出を行うときの雑音と音源とを区切るパワーの閾値（ＴＨＲＥＳＨ；第２閾値）を２３．０４、検出された音源を同一のものと見なす時間幅（ＰＡＵＳＥ＿ＬＥＮＧＴＨ）を５００ｍｓとした。
図１４は、ホイッスルの音を音源に用いた場合のＭＵＳＩＣスペクトルと音源定位結果の例を示す図である。図１４において、横軸はフレーム（Ｆｒａｍｅ）、縦軸は方位（Ｄｒｅｃｔｉｏｎ）である。

図１５は、音源同定の確認実験における音源分離の評価結果を示す図である。
図１５に示す結果は、識別器２２（図１）の学習に、ＣＮＮ、ＧＭＭ（混合数１０）、ＧＭＭ（混合数２０）を用いた場合の音源同定における認識率である。
図１５に示すように、ＣＮＮを用いた場合が９８．０２％と最も高く、次いでＧＭＭ（混合数２０）を用いた場合が８１．０２％、ＧＭＭ（混合数１０）を用いた場合が７８．４３％であった。
以上のように、識別器２２にＣＮＮを用い、高ＳＮ比の信号のみを用いて音源同定を行うことで、９８％以上の高い認識率を得ることができた。

なお、実施形態では、音源同定装置１（または１Ａ、１Ｂ）をクアドロコプターに取り付ける例を説明したが、これに限られない。音源同定装置１（または１Ａ、１Ｂ）は、ロボット、車両、スマートホンやタブレット端末等の携帯機器等に取り付けるようにしてもよい。

なお、本発明における音源同定装置１（または１Ａ、１Ｂ）の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源同定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１、１Ａ、１Ｂ…音源同定装置、１０…収音部、１１…マイクロホン、１２…音響信号取得部、１４、１４Ａ…音源定位部、１６…音源追跡部、１８、１８Ａ、１８Ｂ…音源分離部、２０、２０Ａ、２０Ｂ…音源同定部、２２…識別器、２４…定位結果出力部、２６…同定結果出力部、２８…分離結果出力部、２０２、２０２Ａ、２０２Ｂ…Ｓ／Ｎ推定部、２０４…音源種類同定部、２０２１…時間領域変換部、２０２２…フレームワイズ区間検出部、４００…学習装置、４０１…学習部、４０２…記憶部、４０３…識別器生成部、４０４…識別器出力部、４０５…定数α出力部

Claims

複数のマイクロホンで構成される収音部と、
前記収音部が収音した音響信号に基づいて音源を定位する音源定位部と、
前記音源定位部によって定位されて信号に基づいて前記音源の分離を行う音源分離部と、
前記音源分離部によって分離された結果に基づいて、所定の値である第１閾値と前記第１閾値より小さい値の第２閾値を用いて前記音源の種類の同定を行う音源同定部と、を備え、
前記音源同定部は、
前記音源分離部によって分離された信号に対して、前記第１閾値以上の大きさの信号であるか否かを判別し、分離された前記信号が前記第１閾値以上である場合に前記音源の種類の同定を行い、
前記音源が検出されなかった場合に、前記収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて前記第１閾値を決定し、
前記第２閾値を用いて前記音源が検出されたとき、前記音源の大きさが前記第１閾値以上の信号に対して音源の種類の同定を行う、音源同定装置。
前記第１閾値以上の信号は、
前記音源定位部によって定位された音源の信号である、請求項１に記載の音源同定装置。
前記第１閾値以上の信号は、
前記音源分離部によって分離された音源の信号である、請求項１に記載の音源同定装置。
前記音源同定部は、
前記雑音のスペクトルの推定値の加算平均を用いて、前記第１閾値を算出する、請求項１から請求項３のいずれか１項に記載の音源同定装置。
収音部が、複数のマイクロホンで構成される収音手順と、
音源定位部が、前記収音手順によって収音された音響信号に基づいて音源を定位する音源定位手順と、
音源分離部が、前記音源定位手順によって定位されて信号に基づいて前記音源の分離を行う音源分離手順と、
音源同定部が、前記音源分離手順によって分離された信号に対して、所定の値である第１閾値以上の大きさの信号であるか否かを判別し、分離された信号が前記第１閾値以上の大きさの信号である場合に前記音源の種類の同定を行う音源同定手順と、
前記音源同定部が、前記音源が検出されなかった場合に、前記収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて前記第１閾値を決定する手順と、
前記音源同定部が、前記第１閾値より小さい第２閾値を用いて前記音源が検出されたとき、前記音源の大きさが前記第１閾値以上の信号に対して音源の種類の同定を行う手順と、
を含む音源同定方法。