JP6543844B2 - 音源同定装置および音源同定方法 - Google Patents

音源同定装置および音源同定方法 Download PDF

Info

Publication number
JP6543844B2
JP6543844B2 JP2015168108A JP2015168108A JP6543844B2 JP 6543844 B2 JP6543844 B2 JP 6543844B2 JP 2015168108 A JP2015168108 A JP 2015168108A JP 2015168108 A JP2015168108 A JP 2015168108A JP 6543844 B2 JP6543844 B2 JP 6543844B2
Authority
JP
Japan
Prior art keywords
sound source
unit
signal
identification
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015168108A
Other languages
English (en)
Other versions
JP2017044916A (ja
Inventor
一博 中臺
一博 中臺
知史 上村
知史 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2015168108A priority Critical patent/JP6543844B2/ja
Priority to US15/227,286 priority patent/US10127922B2/en
Publication of JP2017044916A publication Critical patent/JP2017044916A/ja
Application granted granted Critical
Publication of JP6543844B2 publication Critical patent/JP6543844B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)

Description

本発明は、音源同定装置および音源同定方法に関する。
音響信号処理では、音源方向を識別する音源定位、複数の音から所望の音を分離する音源分離、音源種類を特定する音源認識(音源同定)等の手法が用いられる。
特許文献1には、音源定位部と音源同定部を有し、音源定位部と音源同定部それぞれが、複数のパルスニューロンモデルを備えたニューラルネットワークにより構成されている音源同定装置が開示されている。なお、パルスニューロンモデルとは、入出力信号としてパルス列を用いるニューロンモデルである。また、特許文献1に記載の技術では、パルスニューロンモデルに対して学習を行うことで音源同定の精度を向上させることが提案されている。
また、近年、災害地等において、マイクロホンが取り付けられたクアドロコプターを用いて、救助を求めている人の声を検出することが望まれている。このような環境では、クアドロコプターによって発生する風切り音、マイクロホンによって発生する風切り音、環境によって発生する音など、所望の音源に対する雑音が多い。このように、雑音が多い環境であっても、特定の音源を検出することが望まれている。
特開2008−85472号公報
しかしながら、特許文献1に記載の技術では、音源同定の精度がパルスニューロンモデルに入力される信号の品質の影響を受ける。このため、雑音が多い環境では、所望の音源を精度良く検出できないという課題があった。
本発明は上記の点に鑑みてなされたものであり、雑音が多い環境であっても、特定の音源の検出精度を向上させることができる音源同定装置および音源同定方法を提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る音源同定装置は、複数のマイクロホンで構成される収音部と、前記収音部が収音した音響信号に基づいて音源を定位する音源定位部と、前記音源定位部によって定位されて信号に基づいて前記音源の分離を行う音源分離部と、前記音源分離部によって分離された結果に基づいて、所定の値である第1閾値と前記1閾値より小さい値の第2閾値を用いて前記音源の種類の同定を行う音源同定部と、を備え、前記音源同定部は、前記音源分離部によって分離された信号に対して、前記第1閾値以上の大きさの信号であるか否かを判別し、分離された前記信号が前記第1閾値以上である場合に前記音源の種類の同定を行い、前記音源が検出されなかった場合に、前記収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて前記第1閾値を決定し、前記第2閾値を用いて前記音源が検出されたとき、前記音源の大きさが前記第1閾値以上の信号に対して音源の種類の同定を行う。
)また、本発明の一態様に係る音源同定装置において、前記第1閾値以上の信号は、前記音源定位部によって定位された音源の信号であるようにしてもよい。
)また、本発明の一態様に係る音源同定装置において、前記第1閾値以上の信号は、前記音源分離部によって分離された音源の信号であるようにしてもよい。
)また、本発明の一態様に係る音源同定装置において、前記音源同定部は、前記雑音のスペクトルの推定値の加算平均を用いて、前記第1閾値を算出するようにしてもよい。
)上記目的を達成するため、本発明の一態様に係る音源同定方法は、収音部が、複数のマイクロホンで構成される収音手順と、音源定位部が、前記収音手順によって収音された音響信号に基づいて音源を定位する音源定位手順と、音源分離部が、前記音源定位手順によって定位されて信号に基づいて前記音源の分離を行う音源分離手順と、音源同定部が、前記音源分離手順によって分離された信号に対して、所定の値である第1閾値以上の大きさの信号であるか否かを判別し、分離された信号が前記第1閾値以上の大きさの信号である場合に前記音源の種類の同定を行う音源同定手順と、前記音源同定部が、前記音源が検出されなかった場合に、前記収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて前記第1閾値を決定する手順と、前記音源同定部が、前記第1閾値より小さい第2閾値を用いて前記音源が検出されたとき、前記音源の大きさが前記第1閾値以上の信号に対して音源の種類の同定を行う手順と、を含む。
上述した(1)、()の構成によれば、高SN比の信号のみを用いて音源の同定を行うため、音源同定の精度を向上させることができる。
また、上述した(2)、(3)の構成によれば、音源が検出された場合のみ、すなわち高SN比の信号に対してのみ音源同定を行うので、雑音に対して音源同定を行うことを防ぐことができる。
また、上述した(2)、(4)の構成によれば、雑音のスペクトルを推定することで、音源同定に用いる第1閾値を適切に求めることができる。
また、上述した()の構成によれば、平均化された雑音スペクトルを用いることによって、突発的な雑音等の影響を低減することができる。
第1実施形態に係る音源同定装置の構成を示すブロック図である。 第1実施形態に係るクアドロコプターに音源同定装置を搭載した例を示す図である。 音源同定の対象である1ストリームの信号の例を説明するための図である。 第1実施形態に係る音源同定装置が行う処理のフローチャートである。 第2実施形態に係る音源同定装置の構成を示すブロック図である。 第2実施形態に係る音源同定装置が行う処理のフローチャートである。 第3実施形態の変形例に係る音源同定装置の構成を示すブロック図である。 第3本実施形態に係る音源同定装置が行う処理のフローチャートである。 第4実施形態に係る識別器と定数αを学習させる学習装置の構成の一例を示すブロック図である。 第4実施形態に係る機器別器に学習させる値の例を示す図である。 第4実施形態に係る学習させる値の例を説明する図である。 音源同定の確認実験に用いた音源を示す図である。 音源同定の確認実験に用いた音源定位のパラメータを示す図である。 ホイッスルの音を音源に用いた場合のMUSICスペクトルと音源定位結果の例を示す図である。 音源同定の確認実験における区間検出と音源分離の評価結果を示す図である。
以下、図面を参照しながら本発明の実施形態について説明する。また、以下の説明では、音源同定装置をクアドロコプターに搭載した例について説明を行う。
[第1実施形態]
<音源同定装置1の構成>
図1は、本実施形態に係る音源同定装置1の構成を示すブロック図である。
図1に示すように、音源同定装置1は、収音部10、音響信号取得部12、音源定位部14、音源追跡部16、音源分離部18、音源同定部20、識別器22、定位結果出力部24、同定結果出力部26、および分離結果出力部28を備えている。また、音源同定部20は、S/N推定部202および音源種類同定部204を備えている。
収音部10は、M個(Mは2以上の整数)のマイクロホン11を備えるマイクロホンアレイである。なお、複数のマイクロホン11−1〜11−Mのうちいずれか1つを特定しない場合は、マイクロホン11という。図2は、本実施形態に係るクアドロコプターに音源同定装置1を搭載した例を示す図である。図2に示す例では、音源同定装置1の収音部10が、16個のマイクロホン11−1〜11−16を備えている。また、マイクロホン11−1〜11−16は、円周状に規則的に配置されている。収音部10は、収音した音声信号を電気信号に変換して、変換した音声信号を音響信号取得部12に出力する。なお、収音部10は、収録したMチャネルの音声信号を音響信号取得部12に無線で送信してもよいし、有線で送信してもよい。送信の際にチャネル間で音声信号が同期していればよい。
音響信号取得部12は、収音部10のM個のマイクロホン11によって収録されたMチャネルの音響信号を取得する。音響信号取得部12は、取得したMチャネルの音声信号をチャネルi毎の音声信号x(k)(kは、サンプル時刻を表す整数、iは、1≦i≦Nとなる整数)に対して、例えば離散フーリエ変換(DFT;Discrete Fourier Transform)を行って周波数領域信号x(ω)(ωは、周波数)を生成し、生成した周波数領域信号x(ω)を音源定位部14と音源分離部18とに出力する。
音源定位部14は、音響信号取得部12が出力したMチャネルの周波数領域信号に対して、空間スペクトルを算出する。音源定位部14は、算出した空間スペクトルに基づいて、例えば1〜数十フレーム単位で離散的に、音源の方位角の推定(音源定位を行うともいう)を行う。音源定位部14は、例えばMUSIC(MUltiple SIgnal Classification)法を用いて方位角を推定する。なお、音源定位部14は、ビームフォーミング(Beamforming)法等を用いて音源定位を行うようにしてもよい。なお、以下の説明では、音源定位部14がMUSIC法を用いて方位角を推定する例について説明する。音源定位部14は、後述するように、方位d毎に周波数ビン毎にMUSICスペクトルを合算した合算値P’t、dが第2閾値Pthres以上であるか否かに応じて音源が存在しているか否かの判別を行う。音源定位部14は、推定した音源の方位角情報を音源追跡部16に出力する。また、音源定位部14は、音源定位された方位毎にかつ音源が検出されなかったフレーム毎に、算出した空間スペクトルをS/N推定部202に出力する。
音源追跡部16は、音源定位部14によって離散的に音源定位されたデータを、周知の手法(例えば、参考文献1を参照)を用いて時間方向に追跡する。音源追跡部16は、追跡した結果に基づいて離散データを、例えばカルマンフィルタ(Kalman Filter)やパーティクルフィルタ(Particle Filter)を用いて時間方向に連続した音源定位情報を生成し、生成した音源定位情報を音源分離部18と音源同定部20と定位結果出力部24に出力する。
<参考文献1>
“MUSIC法を用いた音源定位のベイズ拡張”、大塚琢馬、中臺一博、尾形哲也、奥乃博、日本ロボット学会、第29回日本ロボット学会学術講習会、2011年
音源分離部18には、音響信号取得部12が出力したMチャネルの周波数領域信号と、音源追跡部16が出力した音源定位情報が入力される。音源分離部18は、音源追跡部16から入力された音源定位情報を用いて、Mチャネルの周波数領域信号に対して、フレームまたはサンプル単位で連続的に音源毎の音響信号を分離する。音源分離部18は、例えば、例えばブラインド分離とビームフォーミングのハイブリッドであるGHDSS−AS(Geometrically constrained High−order Decorrelation based Source Separation with Adaptive Step−size control)法によって音源を分離する。音源分離部18は、分離した音源毎の周波数領域信号を音源同定部20の音源種類同定部204と分離結果出力部28に出力する。
識別器22には、機械学習により構築された音源の種類を識別するモデルが格納されている。機械学習により構築した識別モデルとは、例えばGMM(Gaussian Mixture Model;混合ガウスモデル)、SVM(Support Vector Machine;サポートベクターマシン)、DAE/DDAE(Deep(Denoising) AutoEncoder;ディープオートエンコーダ)、CNN(Convolutional Neural Network;畳み込みニューラルネットワーク)等のうちの少なくとも1つの手法である。なお、識別器22は、サーバ装置等が有していてもよく、この場合、ネットワークを介して接続されていてもよい。
S/N推定部202には、音源定位された方位毎にかつ音源が検出されなかったフレーム毎に、音源定位部14が出力した空間スペクトルが入力される。S/N推定部202は、入力された空間スペクトルを用いて、音源が定位された方位毎に雑音スペクトルの加算平均値を算出する。そして、S/N推定部202は、算出した雑音スペクトルの加算平均値に基づいて、音源同定に用いる閾値である同定閾値(第1閾値)を、音源が定位された方位毎に算出する。S/N推定部202は、音源が定位された方位毎かつフレーム毎に、空間スペクトルのパワーが同定閾値以上である場合に高SNの信号であるため音源同定を行うと判別する。また、S/N推定部202は、音源が定位された方位毎かつフレーム毎に、空間スペクトルのパワーが同定閾値未満である場合に低SNの信号であるため音源同定を行わないと判別する。S/N推定部202は、判別した音源同定を行うか否かを示す情報を音源が定位された方位毎かつフレーム毎に音源種類同定部204に出力する。
音源種類同定部204は、S/N推定部202から音源同定を行うことを示す情報が入力されているフレームのとき、音源追跡部16が出力した音源定位情報に基づいて、音源分離部18が出力した音源の種類それぞれを、識別器22を用いて同定する。さらに、音源種類同定部204は、例えば1ストリーム毎に音源の種類を、同定された結果の多数決によって音源同定を行う。なお、音源種類同定部204は、音源同定を行わないことを示す情報が入力されているフレームにおいて音源の種類の同定を行わない。これにより、本実施形態では、分離された音源毎に音源同定を行う場合、音源があると検出された全てのスペクトルのうち、高SN比の信号のみを用いて音源同定を行う。音源種類同定部204は、音源同定を行った音源同定情報を同定結果出力部26に出力する。
定位結果出力部24は、音源追跡部16が出力した音源定位情報に基づく音源定位結果を、ストリーム毎のタイミングで出力する。なお、音源定位結果には、検出された音源それぞれの方位を示す情報が含まれている。
同定結果出力部26は、音源種類同定部204が出力した音源同定情報に基づく音源同定結果を音源毎かつストリーム毎に出力する。なお、音源同定結果には、音源毎に、その音源の種類を示す情報が含まれている。
分離結果出力部28は、音源分離部18が出力した分離した音源毎の周波数領域信号を時間領域信号に変換し、変換した信号をストリーム毎のタイミングで出力する。
ここで、高SN比の信号のみを用いて、音源同定における多数決を行う理由を説明する。
図3は、音源同定の対象である1ストリームの信号の例を説明するための図である。図3において、横軸は時刻を表す。
一般的な音源同定では、例えば1フレーム毎に音源同定を行う。そして、音源同定では、例えば、フレーム毎に同定した結果に対して1ストリーム内で多数決を行って、最終的な音源の種類を同定する。
図3に示す例のように、収音された音響信号g101の1ストリーム内に、高SN比の信号(g112)と低SN比の信号(g111)とが含まれている場合がある。低SN比の信号を用いて同定を行った場合、音源の種類を誤って同定してしまう場合もある。このため、低SN比の信号が高SN比の信号の個数より多いストリームに対して同定処理を行った場合、同定結果には誤った同定結果が多く含まれる場合がある。このような誤った同定結果を含むストリーム全体において多数決を行った場合、音源の同定結果に影響を与えていた。
このため、本実施形態では、高SN比の信号、すなわち空間スペクトルが第1閾値(同定閾値ThSSI(d))以上の音響信号に対して同定された結果に対して多数決を行うことで、音源同定を行う。これにより、本実施形態では、同定結果に、低SN比の信号に対する同定結果が含まれていないため、音源同定の精度を向上させることができる。
<音源定位処理>
次に、音源定位部14が行うMUSIC法(例えば、参考文献1を参照)による音源定位処理の概略を説明する。
τωをMチャネルの音響信号の時間フレームτ、周波数ビンωにおける複素振幅ベクトルとする。音源定位部14は、各周波数ビンω、ΔT[sec]間隔の時刻tに対して、次式(1)に示すように、入力信号の自己相関行列Rωを算出する。
式(1)において、Hはエルミート転置、τ’(t)は時刻tに対応する時間フレームを表す。入力ベクトルxτωのM個の要素は各チャネルに対応する。
次に、音源定位部14は、次式(2)のように自己相関行列Rωを固有値分解する。
式(2)において、Eωは固有値ベクトル、Qωは固有値からなる対角行列である。Eω=[e ω…e ω]と、RωのM個の固有値ベクトルであらわせ、Qω=diag(q ω…q ω)となる。なお、固有値q ωは降順に並べられている。diag[…]は、行列…の対角成分の総和を示す。
次に、音源定位部14は、次式(3)を用いて、所定の方位毎に空間スペクトル(MUSICスペクトル)を算出する。所定の方位毎とは、例えば5度毎である。
式(3)において、ad,ωは方向d、周波数ビンωに対応するM次元の伝達関数ベクトルである。
次に、音源定位部14は、次式(4)のように、方位d毎かつ周波数ビン毎にMUSICスペクトルを合算して合算値を求める。
式(4)において、q ωは、周波数ビンωにおける最大固有値である。音源定位部14は、方位毎に、合算値P’t、dが、第2閾値Pthres以上である場合に音源が存在していると判別し、第2閾値Pthres未満である場合に音源が存在していないと判別する。
<音源分離処理>
次に、音源分離部18が行うGHDSS−AS法(例えば、参考文献2参照)による音源分離処理の概略を説明する。
以下の説明において、音源数N(≧マイクロホンの個数M)である。また、周波数ωにおけるN個の音源に対するスペクトルのベクトルをu(ω)=[s(ω)s(ω)・・・s(ω)]とし、周波数ωにおけるM個のマイクロホン11で収音した音響信号のスペクトルのベクトルをω、x(ω)=[x(ω)x(ω)・・・x(ω)]とする。x(ω)は、次式(5)のように表される。
式(5)において、D(ω)は音源とマイクロホン11との間の伝達関数行列であり、伝達関数行列の各要素Hnmは、n番目の音源からm番目のマイクロホン11への伝達関数aφ(ω)を表す。このとき、音源分離は、次式(6)で表される。
式(6)において、W(ω)は分離行列である。
音源分離部18は、分離行列W(ω)を算出するために、例えば次式(7)、(8)に示すブラインド分離に対応する分離尖鋭度(Separation Sharpness)Jssと、ビームフォーマに対応する幾何制約度(Geometric Constraint)JGCとの2つのコスト関数を用いる。
なお、式(7)および(8)において、||…||は、行列…のフロベニウスノルム(Frobenius norm)である。フロベニウスノルムとは、行列を構成する各要素値の二乗和(スカラー値)である。また、φ(y)は、非線形関数であり、次式(9)のように定義される。
なお、式(9)において、φ(yi)は、例えば次式(10)のように定義される。
式(10)においてηはスケールパラメータである。
最終的なコスト関数J(W)は、次式(11)のように表される。
式(11)においてαは、2つのコスト関数間の重みパラメータである。
なお、音源分離部18は、分離行列W(ω)を、例えばフレーム毎に、次式(12)を用いて更新する。
式(12)において、Wは、時刻tにおける分離行列W、J’SS(W)およびJ’GC(W)は、JSS(W)およびJGC(W)の複素勾配を表す。また、μSSおよびμGCは、ステップサイズパラメータである。
<参考文献2>
“ロボット聴覚〜高雑音下でのハンズフリー音声認識〜”、中臺一博、奥乃博、電子情報通信学会、信学技法、2011年
<雑音スペクトル推定処理>
次に、S/N推定部202が行う雑音スペクトル推定処理について説明する。
S/N推定部202は、音源が検出されなかった区間、すなわち雑音であると判別された区間、次式(13)を用いて、音源定位部14から入力された空間スペクトルMusicSP(k,d)の加算平均の値SPave(d)を方位d毎に算出する。
式(13)において、Nは1ストリームにおける音源が検出されなかった(すなわちノイズが検出された)フレーム数、kは雑音が検出されたフレーム、dは方向である。
S/N推定部202は、算出した加算平均の値SPave(d)に定数α(d)を加算して、次式(14)を用いて、同定閾値ThSSI(d)を算出する。
式(14)において、定数α(d)は、明らかに音源があると判別できる程度の値、例えば1程度に設定する。なお、同定閾値の初期値は、例えば実測等によって得られた結果に基づいて決定された値であってもよい。
S/N推定部202は、空間スペクトルのパワーが算出した同定閾値ThSSI(d)(第1閾値)以上であるか否かを、定位された音源の方位毎かつフレーム毎に判別する。S/N推定部202は、空間スペクトルのパワーが算出した同定閾値ThSSI(d)以上である場合、音源同定を行うことを示す情報を、定位された音源の方位毎かつフレーム毎に音源種類同定部204に出力する。また、S/N推定部202は、空間スペクトルのパワーが算出した同定閾値ThSSI(d)未満である場合、音源同定を行わないことを示す情報を、定位された音源の方位毎かつフレーム毎に音源種類同定部204に出力する。
ここで、S/N推定部202が用いる第1閾値(同定閾値ThSSI(d))と第2閾値Pthresの例を説明する。
第2閾値は、収音された音響信号に含まれている音を検出するための閾値である。第2閾値は、予め定められた値であってもよく、収音された音響信号の大きさに応じて決定される値であってもよい。第2閾値以上の信号には、低SN比の信号も含まれている場合もある。
第1閾値は、式(14)によって算出された同定閾値であり、高SN比の信号のフレームを抽出するための閾値である。
なお、第1閾値は第2閾値より大きい。これにより、S/N推定部202は、第1閾値を用いて、音源があると検出された場合であっても、低SN比の信号のフレームを除去または、高SN比の信号のフレームを抽出することができる。
<音源同定装置1が行う処理手順>
次に、音源同定装置1が行う処理手順を説明する。
図4は、本実施形態に係る音源同定装置1が行う処理のフローチャートである。
(ステップS1)音源定位部14は、音響信号取得部12が出力したMチャネルの周波数領域信号に対して、空間スペクトルを算出する。続けて、音源定位部14は、算出した空間スペクトルに基づいて、例えば1〜数十フレーム単位で離散的に、音源定位を行う。続けて、音源分離部18は、音源追跡部16から入力された音源定位情報を用いて、Mチャネルの音響信号に対して、フレームまたはサンプル単位で連続的に音源毎の音響信号を分離する。なお、音源定位処理と音源分離処理とは、並列して行うようにしてもよい。
(ステップS2)音源定位部14は、定位された方位毎に、周波数ビン毎の空間スペクトルの合算値が第2閾値以上であるか否かに応じて音源が検出されたか否かを判別する。音源定位部14は、音源が検出されたと判別した場合(ステップS2;YES)、ステップS4に処理を進める。音源定位部14は、音源が検出されなかったと判別した場合(ステップS2;NO)、定位された方位毎かつ音源が検出されなかったフレーム毎に、算出した空間スペクトルをS/N推定部202に出力し、ステップS3に処理を進める。
(ステップS3)S/N推定部202は、定位された方位毎に、音源定位が検出されていないフレームの入力された空間スペクトルを用いて雑音スペクトルの1ストリームにおける加算平均値を、式(13)を用いて算出する。続けて、S/N推定部202は、算出した雑音スペクトルの加算平均値と、式(14)を用いて第1閾値(同定閾値)を算出する。S/N推定部202は、ステップS4に処理を進める。
(ステップS4)S/N推定部202は、空間スペクトルのパワーの大きさが算出した第1閾値(同定閾値)以上であるか否かを定位された方位毎かつフレーム毎に判別する。S/N推定部202は、空間スペクトルのパワーの大きさが第1閾値以上である場合、音源同定を行うことを示す情報を音源種類同定部204に出力し、空間スペクトルのパワーの大きさが第1閾値未満である場合、音源同定を行わないことを示す情報を音源種類同定部204に出力する。続けて、音源種類同定部204は、S/N推定部202が出力した音源同定を行うか否かを示す情報に基づいて、音源同定を行うか否かを判別する。音源種類同定部204は、S/N推定部202から音源同定を行うことを示す情報が入力された場合に、同定を行うと判別(ステップS4;YES)し、ステップS5に処理を進める。また、音源種類同定部204は、S/N推定部202から音源同定を行わないことを示す情報が入力された場合に、同定を行わないと判別(ステップS4;NO)し、ステップS1に処理を戻す。
(ステップS5)音源種類同定部204は、識別器22を用いて、音源毎に、S/N推定部202が音源同定を行うことを示す情報を出力したフレームのみ音源の種類を同定する。続けて、音源種類同定部204は、同定した結果に対して1ストリーム内で多数決を行って、最終的な音源の種類を音源毎に同定する。音源種類同定部204は、音源同定後、ステップS1の処理に戻す。
なお、本実施形態では、音源定位部14が、第2閾値を用いて音源が検出されたか否かを判別する例を説明したが、これに限られない。S/N推定部202が、音源定位部14が出力する空間スペクトルに対して、第2閾値を用いて音源が検出されたか否かを判別するようにしてもよい。
また、本実施形態では、音響信号取得部12が、取得した音響信号を周波数領域信号に変換する例を説明したが、音源定位部14および音源分離部18が音響信号を周波数領域信号に変換するようにしてもよい。
また、音源分離部18は、周知の手法を用いて雑音抑圧を行ってもよい。
なお、本実施形態では、S/N推定部202が同定閾値を算出し、算出した同定閾値と空間スペクトルを比較して、同定を行うか否かを示す情報を生成して音源種類同定部204に出力する例を説明したが、これに限られない。S/N推定部202は、算出した同定閾値を音源種類同定部204に出力し、音源種類同定部204が同定閾値と空間スペクトルとをフレーム毎かつ音源毎に比較して、同定を行うか否かを判別し、判別した結果に応じて高SN比の信号のみを選択して同定するようにしてもよい。
また、本実施形態では、同定閾値(第1閾値)を、例えば1ストリーム毎に動的に更新する例を説明したが、これに限られない。音源同定装置1は、少なくとも1回以上の所定の回数、同定閾値(第1閾値)を更新した後、同定閾値(第1閾値)を固定するようにしてもよい。例えば、音源同定装置1は、更新した同定閾値(第1閾値)が所定の範囲内の場合に更新を停止して、同定閾値(第1閾値)を固定するようにしてもよい。
以上のように、本実施形態の音源同定装置1は、複数のマイクロホン11で構成される収音部10と、収音部が収音した音響信号に基づいて音源を定位する音源定位部14と、音源定位部によって定位されて信号に基づいて音源の分離を行う音源分離部18と、音源分離部によって分離された結果に基づいて音源の種類の同定を行う音源同定部20(S/N推定部202、音源種類同定部204)と、を備え、音源同定部に入力される信号は、所定の値である第1閾値(同定閾値ThSSI)以上の大きさの大きな信号である。
この構成によって、本実施形態では、高SN比の信号のみを用いて音源の同定を行うため、音源同定の精度を向上させることができる。
また、本実施形態の音源同定装置1において、音源同定部20(S/N推定部202、音源種類同定部204)は、第1閾値(同定閾値ThSSI)とは異なる値の第2閾値Pthresを用いて前記音源が検出されたとき、音源の大きさが第1閾値以上の信号に対して音源の種類の同定を行う。
また、本実施形態の音源同定装置1において、第1閾値(同定閾値ThSSI)以上の信号は、音源定位部14によって定位された音源の信号である。
この構成によって、本実施形態では、音源が検出された場合のみ、すなわち高SN比の信号に対してのみ音源同定を行うので、雑音に対して音源同定を行うことを防ぐことができる。
また、本実施形態の音源同定装置1において、音源同定部20(S/N推定部202、音源種類同定部204)は、音源が検出されなかった場合に、収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて第1閾値(同定閾値ThSSI)を決定する。
この構成によって、本実施形態では、雑音のスペクトルを推定することで、音源同定に用いる第1閾値(同定閾値ThSSI)を適切に求めることができる。
また、本実施形態の音源同定装置1において、音源同定部20(S/N推定部202、音源種類同定部204)は、雑音のスペクトルの推定値の加算平均SPave(d)を用いて、第1閾値(同定閾値ThSSI)を算出する。
この構成によって、本実施形態では、平均化された雑音スペクトルを用いることによって、突発的な雑音等の影響を低減することができる。
[第2実施形態]
第1実施形態では、音源定位部14が音源定位した結果を用いて、高SN比の信号を抽出して音源同定を行う例を説明したが、本実施形態では、音源分離部が音源分離した結果を用いて、高SN比の信号を抽出して音源同定を行う例を説明する。
<音源同定装置1Aの構成>
図5は、本実施形態に係る音源同定装置1Aの構成を示すブロック図である。
図5に示すように、音源同定装置1Aは、収音部10、音響信号取得部12、音源定位部14A、音源追跡部16、音源分離部18A、音源同定部20A、識別器22、定位結果出力部24、同定結果出力部26、および分離結果出力部28を備えている。また、音源同定部20Aは、S/N推定部202Aおよび音源種類同定部204を備えている。なお、音源同定装置1と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。
音源定位部14Aは、音響信号取得部12が出力したMチャネルの周波数領域信号に対して、空間スペクトルを算出する。音源定位部14Aは、算出した空間スペクトル、例えば1〜数十フレーム単位で離散的に、音源定位を行う。音源定位部14Aは、推定した音源の方位角情報を音源追跡部16に出力する。
音源分離部18Aは、音源追跡部16から入力された音源定位情報を用いて、音響信号取得部12が出力したMチャネルの周波数領域信号に対して、例えばGHDSS−AS法によって、フレームまたはサンプル単位で連続的に音源毎の音響信号を分離する。音源分離部18Aは、分離した音源毎の周波数領域信号(スペクトル)を音源同定部20AのS/N推定部202Aと分離結果出力部28に出力する。
S/N推定部202Aは、周知の手法を用いて、分離された周波数領域信号毎に音声信号がある区間を抽出する。例えば、S/N推定部202Aは、音源毎にスペクトルのパワーが第2閾値以上である場合に音源がある区間であると判別し、第2閾値未満である場合に音源がない区間であると検出する。なお、音声信号がある区間の検出は、音源分離部18Aが行ってもよい。S/N推定部202Aは、音源がない区間、音源分離部18Aが出力した周波数信号スペクトルのうち、所定の帯域のスペクトルSP(k,ω)の加算平均の値SPaveを音源毎に算出する。ここで、所定の帯域とは、例えば音声と雑音とを区別しやすい帯域(例えば500Hz〜2800Hz)である。なお、所定の帯域は、他の抽出したい音響信号に応じた帯域であってもよい。なお、以下の説明では、音源同定の対象が音声であるとして説明する。S/N推定部202Aは、次式(15)において、ω=500Hz〜2800Hzとすることで所定の帯域の抽出を行う。
式(15)において、Fは、周波数のサンプリング数であり、例えば周波数の帯域が500Hz〜2800Hzであり、10Hz毎に処理が行われる場合、230{(2800−500)/10}である。
S/N推定部202Aは、算出した加算平均の値SPaveに定数αを加算して、次式(16)を用いて、同定閾値ThSSIを音源毎に算出する。
式(16)において、定数αは、明らかに音源があると判別できる程度の値、例えば10dB程度に設定する。なお、同定閾値の初期値は、例えば実測等によって得られた結果に基づいて決定された値であってもよい。S/N推定部202Aは、算出した同定閾値とスペクトルを、分離された音源毎かつフレーム毎に比較する。そして、S/N推定部202Aは、比較した結果に基づいて音源同定を行うか否かを判別し、判別した音源同定を行うか否かを示す情報を音源種類同定部204に出力する。
<音源同定装置1Aが行う処理手順>
次に、音源同定装置1Aが行う処理手順を説明する。
図6は、本実施形態に係る音源同定装置1Aが行う処理のフローチャートである。なお、音源同定装置1が行う処理と同様の処理については、同じ符号を用いて説明を省略する。
(ステップS101)音源分離部18Aは、収音された音響信号から音源を分離できたか否かを判別する。音源分離部18Aは、収音された音響信号から音源を分離できたと判別した場合(ステップS101;YES)、処理をステップS104に進め、収音された音響信号から音源を分離できなかったと判別した場合(ステップS101;NO)、処理をステップS102に進める。
(ステップS102)S/N推定部202Aは、例えば、音源毎にスペクトルのパワーが第2閾値以上である場合に音源がある区間であると判別し、第2閾値未満である場合に音源がない区間であると検出する。続けて、S/N推定部202Aは、音源がない区間、音源分離部18Aが出力した周波数信号スペクトルのうち、所定の帯域のスペクトルSP(k,ω)の加算平均の値SPaveを、音源毎に式(15)を用いて算出して更新する。S/N推定部202Aは、ステップS103に処理を進める。
(ステップS103)S/N推定部202Aは、算出した雑音スペクトルの加算平均値と、式(16)を用いて第1閾値(同定閾値)を音源毎に算出する。続けて、S/N推定部202Aは、算出した同定閾値とスペクトルを、分離された音源毎かつフレーム毎に比較する。続けて、S/N推定部202Aは、比較した結果に基づいて音源同定を行うか否かを判別し、判別した音源同定を行うか否かを示す情報を音源種類同定部204に出力する。S/N推定部202Aは、ステップS104に処理を進める。
(ステップS104)音源種類同定部204は、S/N推定部202Aが出力した音源同定を行うか否かを示す情報に基づいて、音源同定を行うか否かを判別する。音源種類同定部204は、S/N推定部202Aから音源同定を行うことを示す情報が入力された場合に、同定を行うと判別(ステップS104;YES)し、ステップS5に処理を進める。また、音源種類同定部204は、S/N推定部202Aから音源同定を行わないことを示す情報が入力された場合に、同定を行わないと判別(ステップS104;NO)し、ステップS1に処理を戻す。
なお、本実施形態においても、少なくとも1回以上の所定の回数、同定閾値(第1閾値)を更新した後、同定閾値(第1閾値)を固定するようにしてもよい。
以上のように、本実施形態の音源同定装置1Aにおいて、第1閾値(同定閾値ThSSI)以上の信号は、音源分離部18Aによって分離された音源の信号である。
この構成によって、本実施形態では、音源分離部18Aによって分離された後の音響信号のうち、高SN比の信号を用いて音源の種類の同定を行うため、音源同定の精度を向上させることができる。
[第3実施形態]
第2実施形態では、音源分離部18AまたはS/N推定部202Aが、スペクトルのパワーと第2閾値を比較して、音声信号がある区間を検出する例を説明したが、本実施形態では、時間領域の音声信号に対して音声信号がある区間を検出して、音源同定を行う例を説明する。
<音源同定装置1Bの構成>
図7は、本実施形態の変形例に係る音源同定装置1Bの構成を示すブロック図である。
図7に示すように、音源同定装置1Bは、収音部10、音響信号取得部12、音源定位部14A、音源追跡部16、音源分離部18B、音源同定部20B、識別器22、定位結果出力部24、同定結果出力部26、および分離結果出力部28を備えている。また、音源同定部20Bは、S/N推定部202Bおよび音源種類同定部204を備えている。また、S/N推定部202Bは、時間領域変換部2021およびフレームワイズ区間検出部2022を備える。なお、音源同定装置1Aと同じ機能を有する機能部には同じ符号を用いて、説明を省略する。また、本実施形態においても、音源同定の対象が音声である例を説明するが、同定対象は音声に限らない。
音源分離部18Bは、音源追跡部16から入力された音源定位情報を用いて、音響信号取得部12が出力したMチャネルの周波数領域信号に対して、例えばGHDSS−AS法によって、フレームまたはサンプル単位で連続的に音源毎の音響信号を分離する。音源分離部18Bは、分離した音源毎の周波数領域信号(スペクトル)を音源同定部20BのS/N推定部202B、音源種類同定部204、および分離結果出力部28に出力する。
時間領域変換部2021は、音源分離部18Bが出力した分離された音源毎の周波数領域信号を時間領域信号に変換し、変換した時間領域信号を音源毎にフレームワイズ区間検出部2022に出力する。
フレームワイズ区間検出部2022は、周知の手法(例えば、特開2014−145838号公報に記載の発話区間の抽出手法)を用いて、分離された音源毎に周波数領域信号に対して音声信号がある区間を抽出する。音声信号がある区間を抽出において、フレームワイズ区間検出部2022は、信号のパワーに対して第1閾値と比較し、さらに信号のゼロクロス点と検出することで音声信号がある区間を抽出する。フレームワイズ区間検出部2022は、検出した音声信号がある区間に、同定を行うことを示す情報を音源種類同定部204に出力する。また、フレームワイズ区間検出部2022は、検出した音声信号がない区間に、同定を行わないことを示す情報を音源種類同定部204に出力する。
<音源同定装置1Bが行う処理手順>
次に、音源同定装置1Bが行う処理手順を説明する。
図8は、本実施形態に係る音源同定装置1Bが行う処理のフローチャートである。なお、音源同定装置1または音源同定装置1Bが行う処理と同様の処理については、同じ符号を用いて説明を省略する。
(ステップS101)音源分離部18Bは、収音された音響信号から音源を分離できたか否かを判別する。音源分離部18Bは、収音された音響信号から音源を分離できたと判別した場合(ステップS101;YES)、処理をステップS104に進め、収音された音響信号から音源を分離できなかったと判別した場合(ステップS101;NO)、処理をステップS201に進める。
(ステップS201)時間領域変換部2021は、音源分離部18Bが出力した分離された音源毎の周波数領域信号を時間領域信号に変換する。続けて、フレームワイズ区間検出部2022は、周知の手法(例えば、特開2014−145838号公報に記載の発話区間の抽出手法)を用いて、分離された音源毎に周波数領域信号に対して音声信号がある区間を抽出する。フレームワイズ区間検出部2022は、ステップS202に処理を進める。
(ステップS202)フレームワイズ区間検出部2022は、検出した音声信号がある区間に、同定を行うことを示す情報を音源種類同定部204に出力する。または、フレームワイズ区間検出部2022は、検出した音声信号がない区間に、同定を行わないことを示す情報を音源種類同定部204に出力する。フレームワイズ区間検出部2022は、ステップS104に処理を進める。
(ステップS104)音源種類同定部204は、フレームワイズ区間検出部2022が出力した音源同定を行うか否かを示す情報に基づいて、音源同定を行うか否かを判別する。音源種類同定部204は、フレームワイズ区間検出部2022から音源同定を行うことを示す情報が入力された場合に、同定を行うと判別(ステップS104;YES)し、ステップS5に処理を進める。また、音源種類同定部204は、フレームワイズ区間検出部2022から音源同定を行わないことを示す情報が入力された場合に、同定を行わないと判別(ステップS104;NO)し、ステップS1に処理を戻す。
なお、上述した例では、音声信号がある区間を、特開2014−145838号公報に記載の発話区間の抽出手法を用いて検出する例を説明したが、これに限られない。音声信号がある区間の検出を、他の周知の手法を用いて行ってもよい。
以上のように、本実施形態によれば、第2実施形態と同様に音源分離した結果を用いて音源同定を行うことができる。この結果、本実施形態では、第2実施形態と同様の効果を得ることができる。また、本実施形態によれば、周知の発話区間の検出手法を用いることができる効果も得られる。
[第4実施形態]
第1実施形態〜第3実施形態では、音源定位された空間スペクトルのうち高SN比の信号を第1閾値によって抽出し、または分離されたスペクトルのうち高SN比の信号を第1閾値によって抽出し、さらに識別器22を用いて音源の種類の同定を行う例を説明した。
本実施形態では、識別器を学習させるときに、第1閾値も一緒に学習させることで、固定された第1閾値を用いる例を説明する。なお、以下では、音源同定装置1に適用する例を説明するが、音源同定装置1Aまたは音源同定装置1Bに適用するようにしてもよい。
図9は、本実施形態に係る識別器22と定数αを学習させる学習装置400の構成の一例を示すブロック図である。
図9に示すように、学習装置400は、学習部401、記憶部402、識別器生成部403、識別器出力部404、および定数α出力部405を備えている。
学習部401には、学習データとして、音源同定装置1によって定位された音源毎の空間スペクトルが入力される。学習部401は、空間スペクトルMusicSP(k,d)の加算平均の値SPave(d)を算出し、定数αの値を変化させ、同定閾値を算出する。学習部401は、音源同定装置1の音源同定部20を用いて、音源同定を行う。そして、同定した結果の認識率と、同定に用いた音、空間スペクトルMusicSP(k,d)の加算平均の値SPave(d)、定数α、および同定閾値を対応付けて、図10に示すように記憶部402に記憶させて学習する。図10は、本実施形態に係る機器別器に学習させる値の例を示す図である。学習部401は、定数αを変化させ、認識率も最も高くなる定数αを選択する。学習部401は、このように最適化された定数αを定数α出力部405に出力する。
識別器生成部403は、認識率が最も高くなった定数αのときに抽出された音響信号に基づく信号(音響信号、空間スペクトル、音響特徴量等)を用いて識別器を生成し、生成した識別器を識別器出力部404に出力する。
識別器出力部404は、識別器生成部403が出力した識別器を、音源同定装置1の識別器22に格納する。なお、識別器22には、定数αを格納するようにしてもよい。
定数α出力部405は、学習部401が出力した定数αを、音源同定部20のS/N推定部202に書き込む。
図11は、本実施形態に係る学習させる値の例を説明する図である。
図11における信号は、時間領域で表した音響信号g200であり、横軸は時刻、縦軸はパワーを表している。また、符号g201は、空間スペクトルMusicSP(k,d)の加算平均の値SPave(d)であり、符号g202は、定数αであり、符号g203は、高SN比の信号として抽出される部分である。
このように、本実施形態によれば、識別器22の学習を行うときに、定数αも一緒に学習させることで、最適な定数αを用いて、精度良く高SN比の信号を抽出することができる。なお、定数αの個数は1つに限られない。例えば、音源の種類毎に定数αを有していてもよく、さらには1つの音源に対して複数の定数αを有していてもよい。例えば、定数αは、雑音スペクトルの平均値である空間スペクトルMusicSP(k,d)の加算平均の値SPave(d)の値それぞれに対応付けられた値であってもよい。この場合、音源同定部20は、雑音スペクトルの平均値に応じて、複数の定数αのうちから1つを選択して音源同定を行うようにしてもよい。
[確認実験の結果]
次に、第1実施形態の音源同定装置1をベースに用いて、音源同定の確認実験を行った結果の例を説明する。
なお、実験に用いた音源同定装置では、CNN(畳み込みニューラルネットワーク)を用いて学習させた識別器22を用いた。用いたCNNは、畳み込み層1、プーリング層1、中間層1、出力層1である。CNNへの入力データとしては、高SN比の各区間検出と音源分離の条件の組み合わせによって得られた分離音からそれぞれ音響特徴を抽出し、20×20の入力ベクタを作成し学習に用いた。また、学習パラメータは、学習回数1,000回、学習係数0.10で行い、バッチサイズ50でSGDミニバッチ学習を行った。なお、音源同定において、CNNを用いるため、空間スペクトルの二次元画像に対して畳み込み処理を行った。
また、実験では、収音部10が図2に示したように16個のマイクロホン11を備えている。そして、音源同定装置1をクアドロコプターに取り付け、収音部10によって収音された音響信号を、16kHzのサンプリング周波数、24bitの分解能で録音し、録音された音響信号を用いて音源同定の確認を行った。
また、音源定位部14は、MUSIC法の拡張であるはiGSVD−MUSIC−
CMS法(例えば、参考文献3参照)を用いて音源定位を行い、音源分離部18は、GHDSS−AS法を用いて音源分離を行った。
また、実験では、収音された音響信号のうち、第1実施形態で説明した方法で高SN比の信号の区間を抽出し、抽出された高SN比の信号のみを用いて、音源同定を行った。
<参考文献3>
相関行列スケーリングを用いたiGSVD−MUSIC法による屋外環境音源探索の向上、大畑他、第32回日本ロボット学会学術講演会、2014
図12は、音源同定の確認実験に用いた音源を示す図である。図12に示すように、2種類の音声(女性の案内の声、男性の叫び声)、8種類の非音声(救急車、拍手、目覚まし時計、シンバル、ホーン、カラスの鳴き声、携帯(携帯電話)、ホイッスルそれぞれの音)を用いた。また、各音源の長さは3〜4秒間であり、それぞれの音イベントを15回繰り返して収音した。また、収音は、クアドロコプターをホバリングさせた状態で行い、音源とクアドロコプターとの距離を3m離して収音した。また、音源は、スピーカーから各音響信号を出力したものを用いた。
図13は、音源同定の確認実験に用いた音源定位のパラメータを示す図である。図13に示すように、音源数(NUM_SOURSE)を1、区間検出を行うときの雑音と音源とを区切るパワーの閾値(THRESH;第2閾値)を23.04、検出された音源を同一のものと見なす時間幅(PAUSE_LENGTH)を500msとした。
図14は、ホイッスルの音を音源に用いた場合のMUSICスペクトルと音源定位結果の例を示す図である。図14において、横軸はフレーム(Frame)、縦軸は方位(Drection)である。
図15は、音源同定の確認実験における音源分離の評価結果を示す図である。
図15に示す結果は、識別器22(図1)の学習に、CNN、GMM(混合数10)、GMM(混合数20)を用いた場合の音源同定における認識率である。
図15に示すように、CNNを用いた場合が98.02%と最も高く、次いでGMM(混合数20)を用いた場合が81.02%、GMM(混合数10)を用いた場合が78.43%であった。
以上のように、識別器22にCNNを用い、高SN比の信号のみを用いて音源同定を行うことで、98%以上の高い認識率を得ることができた。
なお、実施形態では、音源同定装置1(または1A、1B)をクアドロコプターに取り付ける例を説明したが、これに限られない。音源同定装置1(または1A、1B)は、ロボット、車両、スマートホンやタブレット端末等の携帯機器等に取り付けるようにしてもよい。
なお、本発明における音源同定装置1(または1A、1B)の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源同定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1、1A、1B…音源同定装置、10…収音部、11…マイクロホン、12…音響信号取得部、14、14A…音源定位部、16…音源追跡部、18、18A、18B…音源分離部、20、20A、20B…音源同定部、22…識別器、24…定位結果出力部、26…同定結果出力部、28…分離結果出力部、202、202A、202B…S/N推定部、204…音源種類同定部、2021…時間領域変換部、2022…フレームワイズ区間検出部、400…学習装置、401…学習部、402…記憶部、403…識別器生成部、404…識別器出力部、405…定数α出力部

Claims (5)

  1. 複数のマイクロホンで構成される収音部と、
    前記収音部が収音した音響信号に基づいて音源を定位する音源定位部と、
    前記音源定位部によって定位されて信号に基づいて前記音源の分離を行う音源分離部と、
    前記音源分離部によって分離された結果に基づいて、所定の値である第1閾値と前記1閾値より小さい値の第2閾値を用いて前記音源の種類の同定を行う音源同定部と、を備え、
    前記音源同定部は、
    前記音源分離部によって分離された信号に対して、前記第1閾値以上の大きさの信号であるか否かを判別し、分離された前記信号が前記第1閾値以上である場合に前記音源の種類の同定を行い、
    前記音源が検出されなかった場合に、前記収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて前記第1閾値を決定し、
    前記第2閾値を用いて前記音源が検出されたとき、前記音源の大きさが前記第1閾値以上の信号に対して音源の種類の同定を行う、音源同定装置。
  2. 前記第1閾値以上の信号は、
    前記音源定位部によって定位された音源の信号である、請求項に記載の音源同定装置。
  3. 前記第1閾値以上の信号は、
    前記音源分離部によって分離された音源の信号である、請求項に記載の音源同定装置。
  4. 前記音源同定部は、
    前記雑音のスペクトルの推定値の加算平均を用いて、前記第1閾値を算出する、請求項1から請求項のいずれか1項に記載の音源同定装置。
  5. 収音部が、複数のマイクロホンで構成される収音手順と、
    音源定位部が、前記収音手順によって収音された音響信号に基づいて音源を定位する音源定位手順と、
    音源分離部が、前記音源定位手順によって定位されて信号に基づいて前記音源の分離を行う音源分離手順と、
    音源同定部が、前記音源分離手順によって分離された信号に対して、所定の値である第1閾値以上の大きさの信号であるか否かを判別し、分離された信号が前記第1閾値以上の大きさの信号である場合に前記音源の種類の同定を行う音源同定手順と、
    前記音源同定部が、前記音源が検出されなかった場合に、前記収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて前記第1閾値を決定する手順と、
    前記音源同定部が、前記第1閾値より小さい第2閾値を用いて前記音源が検出されたとき、前記音源の大きさが前記第1閾値以上の信号に対して音源の種類の同定を行う手順と、
    を含む音源同定方法。
JP2015168108A 2015-08-27 2015-08-27 音源同定装置および音源同定方法 Active JP6543844B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015168108A JP6543844B2 (ja) 2015-08-27 2015-08-27 音源同定装置および音源同定方法
US15/227,286 US10127922B2 (en) 2015-08-27 2016-08-03 Sound source identification apparatus and sound source identification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015168108A JP6543844B2 (ja) 2015-08-27 2015-08-27 音源同定装置および音源同定方法

Publications (2)

Publication Number Publication Date
JP2017044916A JP2017044916A (ja) 2017-03-02
JP6543844B2 true JP6543844B2 (ja) 2019-07-17

Family

ID=58104208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015168108A Active JP6543844B2 (ja) 2015-08-27 2015-08-27 音源同定装置および音源同定方法

Country Status (2)

Country Link
US (1) US10127922B2 (ja)
JP (1) JP6543844B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10063965B2 (en) * 2016-06-01 2018-08-28 Google Llc Sound source estimation using neural networks
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
JP6472823B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および属性付与装置
JP6800809B2 (ja) 2017-06-01 2020-12-16 株式会社東芝 音声処理装置、音声処理方法およびプログラム
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法
US10264354B1 (en) * 2017-09-25 2019-04-16 Cirrus Logic, Inc. Spatial cues from broadside detection
US11099075B2 (en) 2017-11-02 2021-08-24 Fluke Corporation Focus and/or parallax adjustment in acoustic imaging using distance information
US11209306B2 (en) 2017-11-02 2021-12-28 Fluke Corporation Portable acoustic imaging tool with scanning and analysis capability
CN112703376A (zh) 2018-07-24 2021-04-23 弗兰克公司 用于表示来自目标场景的声学特征的***和方法
KR102093819B1 (ko) * 2018-09-10 2020-03-26 한국과학기술연구원 음원 분리 장치 및 방법
WO2020129231A1 (ja) * 2018-12-21 2020-06-25 三菱電機株式会社 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム
JP7248478B2 (ja) * 2019-03-28 2023-03-29 本田技研工業株式会社 車両制御装置、端末装置、サーバ装置、車両、車両制御システム及び車両制御方法
US20220309097A1 (en) * 2019-04-26 2022-09-29 Sony Group Corporation Information processing apparatus and method, and program
CN110931041B (zh) * 2019-11-21 2022-08-30 北京地平线机器人技术研发有限公司 一种声源确定方法及装置
KR102288994B1 (ko) * 2019-12-02 2021-08-12 아이브스 주식회사 인공지능 기반의 이상음원 인식 장치, 그 방법 및 이를 이용한 관제시스템
JP7292646B2 (ja) * 2019-12-11 2023-06-19 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
WO2021138420A1 (en) * 2019-12-31 2021-07-08 Zipline International Inc. Acoustic based detection and avoidance for aircraft
CN111965601A (zh) * 2020-08-05 2020-11-20 西南交通大学 一种基于核极限学习机的水下声源被动定位方法
CN111968671B (zh) * 2020-08-24 2024-03-01 中国电子科技集团公司第三研究所 基于多维特征空间的低空声目标综合识别方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3584458B2 (ja) * 1997-10-31 2004-11-04 ソニー株式会社 パターン認識装置およびパターン認識方法
JP3907194B2 (ja) * 2003-05-23 2007-04-18 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
EP1691344B1 (en) * 2003-11-12 2009-06-24 HONDA MOTOR CO., Ltd. Speech recognition system
US8787866B2 (en) * 2005-07-26 2014-07-22 International Business Machines Corporation System, method and program for controlling mute function on telephone
JP4982743B2 (ja) 2006-09-26 2012-07-25 国立大学法人 名古屋工業大学 音源定位・同定装置
JP4607908B2 (ja) * 2007-01-12 2011-01-05 株式会社レイトロン 音声区間検出装置および音声区間検出方法
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
JP5702685B2 (ja) * 2010-08-17 2015-04-15 本田技研工業株式会社 音源方向推定装置及び音源方向推定方法
US8175297B1 (en) * 2011-07-06 2012-05-08 Google Inc. Ad hoc sensor arrays
JP5952692B2 (ja) * 2012-09-13 2016-07-13 本田技研工業株式会社 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム
KR101225678B1 (ko) * 2012-09-17 2013-01-24 (주)알고코리아 지향성 자동 조절 보청기 및 자동 조절 방법
US9313250B2 (en) * 2013-06-04 2016-04-12 Tencent Technology (Shenzhen) Company Limited Audio playback method, apparatus and system
JP6268916B2 (ja) * 2013-10-24 2018-01-31 富士通株式会社 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム

Also Published As

Publication number Publication date
US10127922B2 (en) 2018-11-13
JP2017044916A (ja) 2017-03-02
US20170061981A1 (en) 2017-03-02

Similar Documents

Publication Publication Date Title
JP6543844B2 (ja) 音源同定装置および音源同定方法
CN109830245B (zh) 一种基于波束成形的多说话者语音分离方法及***
CN108269569B (zh) 语音识别方法和设备
US9583119B2 (en) Sound source separating device and sound source separating method
CN112349297B (zh) 一种基于麦克风阵列的抑郁症检测方法
US9378752B2 (en) Sound processing device, sound processing method, and sound processing program
US9971012B2 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
US10002623B2 (en) Speech-processing apparatus and speech-processing method
US9478230B2 (en) Speech processing apparatus, method, and program of reducing reverberation of speech signals
JP6723120B2 (ja) 音響処理装置および音響処理方法
JP6543848B2 (ja) 音声処理装置、音声処理方法及びプログラム
US11978471B2 (en) Signal processing apparatus, learning apparatus, signal processing method, learning method and program
US10063966B2 (en) Speech-processing apparatus and speech-processing method
JP6540742B2 (ja) 物体認識装置および物体認識方法
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
CN110675890A (zh) 声音信号处理装置以及声音信号处理方法
JP7292646B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
Nguyen et al. Location Estimation of Receivers in an Audio Room using Deep Learning with a Convolution Neural Network.
WO2023228785A1 (ja) 音響信号処理装置、音響信号処理方法及びプログラム
JP6565084B2 (ja) 物体認証装置および物体認証方法
Kulhandjian et al. AI-powered Emergency Keyword Detection for Autonomous Vehicles
Anemüller Machine listening in spatial acoustic scenes with deep networks in different microphone geometries
JP6167062B2 (ja) 分類装置、分類方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171129

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190528

R150 Certificate of patent or registration of utility model

Ref document number: 6543844

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150