[第1実施形態]
以下、図面を参照して第1実施形態の一例を詳細に説明する。
図1に、情報処理端末1の要部機能を例示する。情報処理端末1は、音源方向判定装置10及び音声翻訳装置14を含む。
音源方向判定装置10は、第1マイクロフォン(以下、「マイクロフォン」を「マイク」ともいう。)11、第2マイクロフォン12、及び、判定部13を含む。音声翻訳装置14は、第1翻訳部14A、第2翻訳部14B、及び、スピーカ14Cを含む。
第1マイク11及び第2マイク12の各々は、無指向性マイクロフォンであって、全方位の音を取得する。判定部13は、第1マイク11及び第2マイク12で取得された音の音源が存在する方向を判定する。音声翻訳装置14は、判定部13によって判定された音源方向に基づいて、第1マイク11または第2マイク12で取得された音源方向から伝搬する音に対応する音声信号によって表される言語を所定の言語に翻訳する。
詳細には、判定部13によって音源が、例えば、上方である第1方向に存在すると判定された場合、取得した音に対応する音声信号によって表される言語を、第1翻訳部14Aが第1言語(例えば、英語)に翻訳する。判定部13によって、音源が、例えば、前方である第2方向に存在すると判定された場合、取得した音に対応する音声信号によって表される言語を、第2翻訳部14Bが第2言語(例えば、日本語)に翻訳する。スピーカ14Cは、第1翻訳部14Aまたは第2翻訳部14Bによって翻訳された言語を音声で出力する。
図2A及び図2Bに、音源方向判定装置10の外観を例示する。音源方向判定装置10は、例えば、ユーザのシャツの胸ポケットに入れて、衣服のユーザの胸部付近に該当する部分にクリップまたはピンなどで留めて、または、ストラップでユーザの首に下げて使用することが想定される装置である。図2Aは、音源方向判定装置10の筐体18の上面を例示する。筐体18は、マイク設置部の一例である。第1平坦面の一例である筐体18の上面は、音源方向判定装置10を胸ポケットに入れた際に、上方を向く面、即ち、ユーザの口に最も近い面である。
筐体18の上面には、第1音道の一端部に備えられた第1開口部の一例である開口部11Oが存在する。第1音道の他端部には、第1マイク11が設置されている。以下、図において矢印FRは、音源方向判定装置10の前方を表す。筐体18の上面には、スピーカ14Cも配置されている。即ち、図2A及び図2Bの例では、音声翻訳装置14は、音源方向判定装置10の筐体18に含まれている。筐体18の上面の前後方向の長さは、例えば、1[cm]である。
図2Bは、音源方向判定装置10の筐体18の前面を例示する。第2平坦面の一例である前面は、例えば、音源方向判定装置10を胸ポケットに入れた際に、ユーザが対話する対話相手に対向する面である。
筐体18の前面には、第2音道の一端部に備えられた開口部12Oが存在する。第2音道の他端部には、第2マイク12が設置されている。以下、図において矢印UPは、音源方向判定装置10の上方を表す。筐体18の前面の大きさは、例えば、一般的な名刺と同程度の大きさである。
音源方向判定装置10は、上方に音源が存在すると判定した音をユーザによって発話された音声であると判定して、第1言語に翻訳してスピーカ14Cから音声で出力するように、音声翻訳装置14の第1翻訳部14Aに当該音に対応する音声信号を送信する。また、音源方向判定装置10は、前方に音源が存在すると判定した音を対話相手によって発話された音声であると判定する。音源方向判定装置10は、第2言語に翻訳してスピーカ14Cから音声で出力するように、音声翻訳装置14の第2翻訳部14Bに当該音に対応する音声信号を送信する。
図3は、図2Aの切断線3-3に沿った断面図を表す。第2音道12Rの一端部は、筐体18の前面に開口した開口部12Oを備え、第2マイク12は、第2音道の他端部に設置されている。
第1音道11Rの一端部は、筐体18の上面に開口した開口部11Oを備え、第1マイク11は、第1音道11Rの他端部に設置されている。第1音道11Rは途中に屈曲部11Kを有する。屈曲部11Kは第2回折部の一例である。
図4Aに、音源が音源方向判定装置10の前方に存在する場合を例示する。筐体18の前面の面積が第1所定値の一例である所定値より大きい場合、第2マイク12は、開口部12Oを通って、直接届く音に加え、筐体18の前面で反射し、第3回折部の一例である開口部12Oで回折した音を取得する。
図4Bに、音源が音源方向判定装置10の上方に存在する場合を例示する。音は、第2マイク12に直接には届かず、第2マイク12は、開口部12Oで回折した音を取得する。したがって、第2マイク12で取得される音の音圧は、音源が前方に存在する場合の方が、音源が上方に存在する場合よりも大きい。
図5に、音源が音源方向判定装置10の前方に存在する場合、及び、上方に存在する場合の、第2マイク12で取得される音圧を例示する。音源方向判定装置10の前面の面積が所定値以下の大きさの一例である2[平方cm]である場合、音源が音源方向判定装置10の前方に存在する音の音圧は-26[dBov]である。また、音源が音源方向判定装置10の上方に存在する音の音圧は-29[dBov]である。したがって、音源方向判定装置10の前方に存在する音源からの音の音圧と、上方に存在する音源からの音の音圧との音圧差は3[dB]である。
一方、音源方向判定装置10の前面の面積が所定値より大きい大きさの一例である63[平方cm]である場合、音源が音源方向判定装置10の前方に存在する音の音圧は-24[dBov]である。また、音源が音源方向判定装置10の上方に存在する音の音圧は-30[dBov]である。したがって、音源方向判定装置10の前方に存在する音源からの音の音圧と、上方に存在する音源からの音の音圧との音圧差は、6[dB]である。
即ち、音源方向判定装置10の前面の面積が2[平方cm]の場合よりも、63[平方cm]の場合の方が音源の方向による音圧差が大きく、音源の方向の判定が容易となる。前面の面積が所定値より大きい場合、音源が音源方向判定装置10の前方に存在する音の反射が十分に行われるためである。
所定値とは、例えば、音道の断面積の1000倍であってよい。即ち、第2マイク12のマイク穴の直径が、例えば、0.5[mm]であり、第2音道12Rが、第2マイク12のマイク穴の直径の2倍の長さである直径1[mm]の円形の断面を有している場合、約785[平方mm]より大きい面積であってよい。なお、例えば、第2音道12Rは、一端部から他端部まで同じ直径を有していてもよいし、一端部から他端部に向かって徐々に直径が小さくなってもよい。また、第2音道は、例えば、矩形の断面を有していてもよい。
第2音道12Rの一端部から他端部までの長さは、例えば、3[mm]であってよいが、3[mm]よりも長くてもよいし、短くてもよい。また、第2音道12Rは、筐体18の前面と直交していてもよいし、第2音道12Rと筐体18の前面とは90[度]以外の角度で交差していてもよい。
図6A及び図6Bで、音源が音源方向判定装置10の上方に存在する場合と、前方に存在する場合の、第1マイク11で取得される音圧を説明する。図6Aに、音源が音源方向判定装置10の上方に存在する場合を例示する。
筐体18の上面の前後方向の長さは短く、上面の面積は所定値以下であるため、音源が音源方向判定装置10の上方にある場合でも、図4Aに例示する音の反射及び回折による音の取得が期待できない。そこで、第1音道11Rには屈曲部11Kを設けている。第1音道11Rは、屈曲部11Kを有するため、上方からの音は、第1マイク11には直接届かず、第1音道11Rの屈曲部11Kで回折し、第1マイク11で取得される。
図6Bに、音源が音源方向判定装置10の前方に存在する場合を例示する。音は、第1回折部の一例である開口部11Oで回折し、さらに、屈曲部11Kで回折して、第1マイク11で取得される。
図7に、音源が音源方向判定装置10の上方に存在する場合に第1マイク11で取得される音の音圧と、音源が音源方向判定装置10の前方に存在する場合に第1マイク11で取得される音の音圧との音圧差を例示する。実線は、音源が音源方向判定装置10の上方に存在する場合に第1マイク11で取得される音の音圧[dB]を表し、破線は、音源が音源方向判定装置10の前方に存在する場合に第1マイク11で取得される音の音圧[dB]を表す。
即ち、実線と破線との間の上下方向の距離が、音源が音源方向判定装置10の上方に存在する場合に第1マイク11で取得される音の音圧と、音源が音源方向判定装置10の前方に存在する場合に第1マイク11で取得される音の音圧との音圧差を表す。図7のグラフの横軸は周波数[Hz]であり、音圧差は、周波数が低いほど小さく、周波数が高いほど大きい傾向を有する。即ち、回折の回数が1回である、音源が音源方向判定装置10の上方に存在する場合と、回折の回数が2回である音源が音源方向判定装置10の前方に存在する場合と、の音圧差は、周波数が高いほど顕著となる。
回折による減音量R[dB]は、例えば、(1)式で表される。
Nは、フレネル数であり、(2)式で表される。
N=δ/(λ/2)
=δ・f/165 …(2)
δは、回折経路と直接経路との経路差[m]であり、λは音の波長[m]であり、fは音の周波数[Hz]であり、音速(=λ×f)を330[m/秒]とした場合である。即ち、図7のグラフにも表されるように、周波数fが高いほど、回折による減音量Rは大きくなる傾向を有する。したがって、本実施形態では、音源の方向を判定する際に、音の高域成分の音圧差を使用する。
第1音道11Rは、第1マイク11のマイク穴の直径が0.5[mm]である場合、マイク穴の直径の2倍の長さである直径1[mm]の円形の断面を有していてもよい。なお、例えば、第1音道11Rは、一端部から他端部まで同じ直径を有していてもよいし、一端部から他端部に向かって徐々に直径が小さくなってもよい。
第1音道11Rは、一端部から屈曲部11Kに向かって徐々に直径が小さくなり、屈曲部11Kから他端部まで同じ直径を有していてもよい。また、第1音道11Rは、例えば、矩形の断面を有していてもよい。
第1音道11Rの一端部から屈曲部11Kまでの長さ、及び、屈曲部11Kから他端部までの長さは、例えば、3[mm]であってよいが、3[mm]よりも長くてもよいし、短くてもよい。また、第1音道11Rの一端部から屈曲部11Kまでは、筐体18の上面と直交していてもよいし、第1音道11Rと筐体18の上面とは90[度]以外の角度で交差していてもよい。また、第1音道11Rの屈曲部11Kから他端部までは、一端部から屈曲部11Kまでと直交していてもよいし、90[度]以外の角度で交差していてもよい。
また、第1マイク11の周囲は第1音道11Rの他端部と側壁とがつながる部分を除いて側壁で包囲され、他端部と側壁との間に空隙は存在しない。また、第2マイク12の周囲は第2音道12Rの他端部と側壁とがつながる部分を除いて側壁で包囲され、他端部と側壁との間に空隙は存在しない。なお、筐体18の上面と前面とは直交している。しかしながら、本実施形態は筐体18の上面と前面とが直交されている例に限定されず、筐体18の上面と前面とは、90[度]以外の角度で交差していてもよい。
図8を使用して、第1実施形態の判定部13で行われる音源方向判定処理の概要を例示する。図3に例示するように設置された第1マイク11で取得された音に対応する音信号を、時間周波数変換部13Aが時間周波数変換する。同様に、図3に例示するように設置された第2マイク12で取得された音に対応する音信号を、時間周波数変換部13Bが時間周波数変換する。時間周波数変換には、例えば、FFT(Fast Fourier Transformation)を使用する。
上記したように、第1マイク11で取得された音の音圧と、第2マイク12で取得された音の音圧との音圧差は、高域成分で顕著に現れる。したがって、高域音圧差算出部13Cは、所定の周波数より高い周波数における周波数帯域毎の音圧差の平均値を、高域音圧差として算出する。音源方向判定部13Dは、高域音圧差算出部13Cで算出された高域音圧差に基づいて、音源の位置を判定する。
詳細には、高域音圧差算出部13Cは、第1マイク11で取得された音に対応する音信号のスペクトルパワーpow1[bin]を(3)式で算出し、第2マイク12で取得された音に対応する音信号のスペクトルパワーpow2[bin]を(4)式で算出する。
pow1[bin]=re1[bin]2+im1[bin]2 …(3)
pow2[bin]=re2[bin]2+im2[bin]2 …(4)
bin=0, …, F-1であり、Fは周波数帯域数であり、例えば、256であってよい。re1[bin]は、第1マイク11で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの実部である。また、im1[bin]は、第1マイク11で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの虚部である。
re2[bin]は、第2マイク12で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの実部である。また、im2[bin]は、第2マイク12で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの虚部である。
次に、(5)式で、高域音圧差d_powを算出する。
高域音圧差d_powは、音圧の相違の一例であり、スペクトルパワーpow1[i]の対数から、スペクトルパワーpow2[i]の対数を減算した値の平均値である。sは、高域の下限周波数帯域数であり、例えば、96であってよい。音信号のサンプリング周波数が16[kHz]であり、s=96である場合、高域とは3000[Hz]~8[kHz]である。
図9に、音源方向判定部13Dの判定基準及び判定結果を例示する。高域音圧差d_powと正の値である第1閾値とを比較し、高域音圧差d_powが第1閾値よりも大きい場合、音源は筐体18の上面に対向する位置、即ち、上方に存在すると判定される。また、高域音圧差d_powと負の値である第2閾値とを比較し、高域音圧差d_powが第2閾値よりも小さい場合、音源は筐体18の前面に対向する位置、即ち、前方に存在すると判定される。
また、図9に例示されるように、高域音圧差d_powが第2閾値以上であり、第1閾値以下である場合には、音源方向の判定は不可であると判定する。第1閾値は、例えば、1.5[dB]、第2閾値は、例えば、-1.5[dB]であってよい。
なお、高域音圧差d_powを取得する際に、(5)式において、筐体18の前面に開口部12Oを有する第2マイク12のスペクトルパワーを基準にしているため、図9に例示するような判定結果となる。しかしながら、(6)式に例示するように、筐体18の上面に開口部11Oを有する第1マイク11のスペクトルパワーを基準として高域音圧差d_powを取得する場合、判定結果は異なる。
高域音圧差d_powと正の値である第1閾値とを比較し、高域音圧差d_powが第1閾値よりも大きい場合、音源は筐体18の前面に対向する位置、即ち、前方に存在すると判定される。また、高域音圧差d_powと負の値である第2閾値とを比較し、高域音圧差d_powが第2閾値よりも小さい場合、音源は筐体18の上面に対向する位置、即ち、上方に存在すると判定される。
なお、高域音圧差を取得する(5)式及び(6)式は例示であり、本実施形態はこれに限定されない。また、第1マイク11で取得された音の高域成分の音圧、及び、第2マイク12で取得された音の高域成分の音圧の相違である高域音圧差を使用する例について説明したが、本実施形態はこの例に限定されない。
第1マイク11で取得された音の所定の周波数成分の音圧、及び、第2マイク12で取得された音の所定の周波数成分の音圧の相違を、高域音圧差に代えて使用してもよい。所定の周波数成分とは、第1周波数成分の一例であり、高域成分であってよいが、音源の方向によって、第1マイク11と第2マイク12との間で音圧差が顕著に現れる周波数成分であればよい。また、図9の判定基準及び判定結果も例示であり、本実施形態はこの例に限定されない。
図10に、情報処理端末1のハードウェア構成を例示する。情報処理端末1は、ハードウェアであるプロセッサの一例であるCPU(Central Processing Unit)51、一次記憶部52、二次記憶部53、及び、外部インターフェイス54を含む。情報処理端末1は、また、第1マイク11、第2マイク12、及びスピーカ14Cを含む。
CPU51、一次記憶部52、二次記憶部53、外部インターフェイス54、第1マイク11、第2マイク12、及びスピーカ14Cは、バス59を介して相互に接続されている。
一次記憶部52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。
二次記憶部53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、音源方向判定処理をCPU51に実行させるための音源方向判定プログラム、音源方向判定処理の判定結果に基づいて、音声翻訳処理をCPU51に実行させるための音声翻訳プログラムなどのプログラムを記憶している。データ格納領域53Bは、第1マイク11及び第2マイク12から取得された音に対応する音信号、音源方向判定処理及び音声翻訳処理において一時的に生成される中間データ、などを記憶する。
CPU51は、プログラム格納領域53Aから音源方向判定プログラムを読み出して一次記憶部52に展開する。CPU51は、音源方向判定プログラムを実行することで、図1の判定部13として動作する。CPU51は、プログラム格納領域53Aから音声翻訳プログラムを読み出して一次記憶部52に展開する。CPU51は、音声翻訳プログラムを実行することで、図1の第1翻訳部14A及び第2翻訳部14Bとして動作する。なお、音源方向判定プログラム及び音声翻訳プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して読み込まれ、一次記憶部52に展開されてもよい。
外部インターフェイス54には、外部装置が接続され、外部インターフェイス54は、外部装置とCPU51との間の各種情報の送受信を司る。例えば、スピーカ14Cは、音源方向判定装置10に含まれず、外部インターフェイス54を介して接続される外部装置であってもよい。
次に、音源方向判定装置10の作用の概略について説明する。音源方向判定装置10の作用の概略を図11に例示する。例えば、ユーザが音源方向判定装置10の電源を投入すると、CPU51は、せせで、1フレーム分の音信号を読み込む。詳細には、第1マイク11から取得された音に対応する1フレーム分の音信号(以下、第1音信号という。)と、第2マイク12から取得された音に対応する1フレーム分の音信号(以下、第2音信号という。)と、を読み込む。1フレームは、サンプリング周波数が16[kHz]である場合、例えば、32[m秒]であってよい。
CPU51は、ステップ102で、ステップ101で読み込んだ音信号の各々に時間周波数変換を施す。CPU51は、ステップ103で、(3)式及び(4)式を使用して、時間周波数変換を施した音信号の各々のスペクトルパワーを算出し、(5)式を使用して、高域音圧差d_powを算出する。
CPU51は、ステップ104で、ステップ103で算出した高域音圧差d_powと第1閾値値とを比較し、高域音圧差d_powが第1閾値より大きい場合、音源が音源方向判定装置10の上方に存在すると判定し、ステップ105に進む。CPU51は、ステップ105で、音信号を第2言語から第1言語へ翻訳する処理に振り分け、ステップ108に進む。振り分けられた音信号は、既存の音声翻訳処理技術によって、第2言語から第1言語へ翻訳され、例えば、スピーカ14Cから音声として出力される。
ステップ104で、高域音圧差d_powが第1閾値以下であると判定された場合、CPU51は、ステップ106で、高域音圧差d_powと第2閾値とを比較し、高域音圧差d_powが第2閾値より小さい場合、音源が音源方向判定装置10の前方に存在すると判定する。ステップ106の判定が肯定された場合、即ち、音源が音源方向判定装置10の前方に存在すると判定された場合、CPU51は、ステップ107に進む。CPU51は、ステップ107で、音信号を第1言語から第2言語へ翻訳する処理に振り分け、ステップ108に進む。振り分けられた音信号は、既存の音声翻訳処理技術によって、第1言語から第2言語へ翻訳され、例えば、スピーカ14Cから音声として出力される。
ステップ106の判定が否定された場合、CPU51は、ステップ108に進む。即ち、高域音圧差d_powが第1閾値以下であり、かつ、第2閾値以上である場合、音源位置の判定は不可であると判定され、第1言語から第2言語への翻訳も、第2言語から第1言語への翻訳も行わない。
CPU51は、ステップ108で、音源方向判定装置10の音源方向判定機能が、例えば、ユーザの操作によりオフされたか否か判定する。ステップ108の判定が否定された場合、即ち、音源方向判定機能がオンである場合、CPU51は、ステップ101に進み、次のフレームの音信号を読み込み、音源方向判定処理を継続する。ステップ108の判定が否定された場合、即ち、音源方向判定機能がオフである場合、CPU51は、音源方向判定処理を終了する。
本実施形態のマイク設置部は、第1音道及び第2音道が内部に設けられている。第1音道は、第1平坦面に開口した第1開口部を一端部に備え、第1開口部から音が伝搬する。第2音道は、第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、第2開口部から音が伝搬する第2音道が内部に設けられている。第1マイクロフォンは、第1音道の他端部に設置され、第2マイクロフォンは、第2音道の他端部に設置されている。判定部は、音圧の相違に基づいて、音源が存在する方向を判定する。音圧の相違は、第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、第2マイクロフォンで取得された音の第1周波数成分の音圧である第2音圧との相違である。
本実施形態では、上記構成により、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。
また、本実施形態では、第1平坦面と第2平坦面とは直交し、第1平坦面の面積は所定値以下であり、第2平坦面の面積は所定値より大きい。第1音道は、第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、第2音道は、第2開口部に音を回折する第3回折部を有する。
本実施形態では、上記構成により、音道の開口部を備える平坦面の面積が音を十分に反射することが可能な所定値以下である場合でも、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。
なお、本実施形態では、筐体の上面の面積が所定値以下であり、筐体の前面の面積が所定値より大きい場合について例示したが、上面の面積が所定値より大きく、前面の面積が所定値以下であってもよい。この場合、上面に開口部を有する第1音道が屈曲部である回折部を有さず、前面に開口部を有する第2音道が屈曲部である回折部を有する。
なお、音声翻訳装置14が、音源方向判定装置10の筐体18内に含まれている場合について例示したが、本実施形態はこれに限定されない。例えば、音声翻訳装置14は、音源方向判定装置10の筐体18の外部に存在し、音源方向判定装置10と有線接続または無線接続を介して接続されていてもよい。
[第2実施形態]
次に、第2実施形態の一例を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。
図12に、図2Aの切断線3-3に沿った断面図を例示する。第2実施形態では、第1実施形態と同様に、音源方向判定装置10Aの筐体18Aの上面の面積は所定値以下であり、音源方向判定装置10Aの筐体18Aの前面の面積は所定値より大きい。
第2実施形態では、第1音道11ARは、開口部11AOに音を回折する第1回折部の一例である回折部を有し、かつ、途中に、音を回折する屈曲部11AKである第2回折部の一例である回折部を有する。また、第2音道12ARは、第2開口部12AOに音を回折する第3回折部の一例である回折部を有し、途中に、音を回折する屈曲部12AKである第4回折部の一例である回折部を有する。
音源方向判定装置10Aの筐体18Aの前面は、第1実施形態と同様に所定値より大きい面積を有するが、第1実施形態と異なり、第2音道12ARは、途中に、回折部である屈曲部12AKを有している。
本実施形態では、上記構成により、回折による所定の周波数成分(例えば、高域成分)の減音を利用して、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。
[第3実施形態]
次に、第3実施形態の一例を説明する。第1実施形態及び第2実施形態と同様の構成及び作用については、説明を省略する。
図13A~図13Cに、第3実施形態の音源方向判定装置10Cの外観を例示する。図13Aは、第1平坦面の一例である筐体18Cの右側面、図13Bは、第2平坦面の一例である筐体18Cの前面、図13Cは、音源方向判定装置10Cを筐体18Cの前面と右側面とをつなぐ辺を正面から見た図である。図中矢印Rは、音源方向判定装置10Cを正面から見た際の右手側を示す。
図14に、図13Aの切断線14-14に沿った断面図を例示する。第3実施形態では、第1音道11CRは、筐体18Cの右側面に開口した第1開口部11COを一端部に備え、第2音道12CRは、筐体18Cの前面に開口した第2開口部12COを一端部に備えている。第1マイク11Cが第1音道11CRの他端部に設置され、第2マイク12Cが第2音道12CRの他端部に設置されている。
第1実施形態及び第2実施形態と異なり、第1音道11CR及び第2音道12CRは、双方共、途中に、回折部である屈曲部を有していない。第3実施形態では、筐体18Cの前面及び右側面の双方が、音を十分に反射することが可能な所定値より大きい面積を有するためである。第3実施形態では、第1音道11CRは、第1開口部11COに音を回折する第1回折部の一例である回折部を有し、第2音道12CRは、第2開口部12COに音を回折する第2回折部の一例である回折部を有する、
本実施形態では、上記構成により、筐体の平坦面で反射した音を利用して、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。
なお、第1~第3実施形態において、音源方向判定装置は、第1平坦面及び第2平坦面の少なくとも一方と交差する第3平坦面をさらに有していてもよい。また、第3平坦面に開口した第3開口部を一端部に備え、第3開口部から音が伝搬する第3音道が筐体の内部に設けられ、無指向性の第3マイクが第3音道の他端部に設置されていてもよい。
第3音道は、第3平坦面の面積が所定値以下である場合、途中に、屈曲部である回折部を有し、第3平坦面の面積が所定値より大きい場合、途中に、屈曲部である回折部を有していてもよいし、有していなくてもよい。この場合、第3平坦面と交差する平坦面に開口部を有する音道の他端部に設置されたマイクで取得された音の所定の周波数成分の音圧と、第3マイクで取得された音の所定の周波数成分の音圧との相違に基づいて、音源が存在する方向を判定する。
なお、本実施形態では、音源方向が判定された音信号は、音源方向によって、音声翻訳装置14で、第1言語から第2言語または第2言語から第1言語に翻訳される例について説明したが、本実施形態はこれに限定されない。音声翻訳装置14は、例えば、第1翻訳部14Aまたは第2翻訳部14Bの何れか一方だけを含んでいてもよい。
また、情報処理端末1は、音声翻訳装置14に代えて、会議支援装置を含んでいてもよい。会議支援装置は、例えば、判定された音源方向及び音信号に基づいて、カメラ、マイク、及び、ディスプレイなどの切り替えを行う。また、情報処理端末1は、音声翻訳装置14に代えて、ドライブ支援装置を含んでいてもよい。ドライブ支援装置は、判定された音源方向が運転手席側であれば、例えば、音信号に基づいて運転支援を行い、判定された音源方向が助手席側であれば、例えば、音信号に基づいて音楽または動画の再生などの娯楽を提供する。
音源方向判定装置を含む情報処理端末は、音源方向判定のための専用端末であってもよいが、既存の端末に、音源方向判定装置がハードウェア及びソフトウェアによって組み込まれていてもよい。既存の端末は、例えば、スマートフォン、タブレット、ウェアラブルデバイス、または、ナビゲーションシステムなどである。また、当該既存の端末に、音源方向判定装置のハードウェアまたはソフトウェアの少なくとも一部分が組み込まれ、音源方向判定装置は、外部装置として当該既存の端末と接続されていてもよい。
なお、図11におけるフローチャートの処理の順序は一例であり、本実施形態は、当該処理の順序に限定されない。
[第4実施形態]
次に、第4実施形態の一例を説明する。第1~第3実施形態と同様の構成及び作用については、説明を省略する。
第4実施形態では、音源方向判定装置10Dは、図1の音源方向判定装置10の判定部13に代えて、判定部13’を含む。図15を使用して、第4実施形態の判定部13’で行われる音源方向判定処理の概要を例示する。
図15の判定部13’は、位相差算出部13C’をさらに含む点で、図8の判定部13と異なる。即ち、第4実施形態では、高域音圧差に加えて、正規化位相差を使用する点で、第4実施形態は、第1実施形態と異なる。
図16Aに例示するように、上方からの音US1が第1マイク11Dに到達するまでの距離は、上方からの音US2が第2マイク12Dに到達するまでの距離よりも短い。参考のために記載した基準線RL1から第1マイク11Dに、音US1が到達するまでの矢印USD1と、基準線RL1から第2マイク12Dに、音US2が到達するまでの矢印USD2と、を比較すると明らかである。
即ち、上方からの音が第1マイク11Dに到達するまでの時間と、上方からの音がマイク12Dに到達するまでの時間と、は異なる。したがって、上方からの音が第1マイク11Dに到達する際の位相と、上方からの音が第2マイク12Dに到達する際の位相と、は異なる。
また、図16Bに例示するように、前方からの音FS1が第1マイク11Dに到達するまでの距離は、前方からの音FS2が第2マイク12Dに到達するまでの距離よりも長い。参考のために記載した基準線RL2から第1マイク11Dに、音FS1が到達するまでの矢印FSD1から明らかである。
即ち、前方からの音が第1マイク11Dに到達するまでの時間と、前方からの音がマイク12Dに到達するまでの時間と、は異なる。したがって、前方からの音が第1マイク11Dに到達する際の位相と、前方からの音が第2マイク12Dに到達する際の位相と、は異なる。第4実施形態では、当該位相差を使用して音源方向を判定する。
図15の位相差算出部13C’は、第1マイク11Dで取得された音の位相である第1位相と、第2マイク12Dで取得された音の位相である第2位相との相違を算出する。詳細には、位相差算出部13C’は、位相の相違の一例である正規化位相差a_phaseを(7)式で算出する。
正規化位相差a_phaseは、j番目の周波数帯域の位相差phase[j]を正規化係数C_n[j]で正規化した値の平均値である。j=ss,…,eeであり、ssは正規化位相差算出の下限周波数帯域数であり、eeは正規化位相差算出の上限周波数帯域数であり、ss及びeeは、上記したbinに含まれる数値(bin=0,…,ss,…,ee,…,F-1)である。
位相差phase[j]は、(8)式で算出される。
phase[j]=atan(phase_im[j]/phase_re[j]) …(8)
phase_re[j]=re1[j]*re2[j]+im1[j]*im2[j]であり、phase_im[j]=im1[j]*re2[j]-re1[j]*im2[j]であり、atanはアークタンジェントを表す。
また、正規化係数C_n[j]は、(9)式で算出される。
C_n[j]=λ[j]/λ_c …(9)
λ[j]=C/f_jであり、λ[j]は周波数帯域数jに対応する波長であり、Cは音速であり、f_jは周波数帯域数jに対応する周波数であり、λ_cは基準周波数の音の波長である。基準周波数は、例えば、サンプリング周波数が16[kHz]である場合、上限周波数である8[kHz]であってよい。
正規化位相差算出の上限周波数帯域数eeに対応する周波数は、例えば、C/2Lであってよい。Lは、第1マイク11と第2マイク12との間の距離である。正規化位相差算出の下限周波数帯域数ssに対応する周波数は、例えば、100Hzであってよい。
なお、正規化位相差算出の上限周波数帯域数ee及び下限周波数帯域数ssは雑音の影響が大きくならず、位相変化の適切な検出が可能な程度に設定してもよい。音は、周波数が高くなるとパワーが小さくなるため、周波数が高くなると信号対雑音比が低下し、雑音の影響が大きくなる。また、雑音の影響が大きくならないよう、低い周波数に設定すると、低い周波数の音は波長が長いため、高い周波数の音より位相変化が遅く、短時間での位相変化の適切な検出が困難となる。
上記(7)式で算出される正規化位相差a_phaseは、音源が上方に存在する場合、即ち、第1マイク11Dが第2マイク12Dよりも音源に近い場合正の値となる。一方、音源が前方に存在する場合、即ち、第1マイク11Dが第2マイク12Dよりも音源から遠い場合負の値となる。なお、正規化位相差の符号は、第1マイク11D及び第2マイク12Dの何れを基準とするかにより異なる。また、正規化位相差を求める手法は、上記(7)式に限定されない。
次に、音源方向判定装置10Dの作用の概略について説明する。音源方向判定装置10Dの作用の概略を図17Aに例示する。図11と図17Aとの差異は、図11のステップ103、104及び106が、図17Aでは、ステップ103、103B、104、104B、及び106と置き替えられている点である。
即ち、図17Aでは、CPU51は、ステップ103で、上記したように高域音圧差を算出し、ステップ103Bで、(7)式を使用して、正規化位相差a_phaseを算出する。CPU51は、ステップ104で、高域音圧差が正の第1閾値より大きいか否か判定し、ステップ104の判定が肯定された場合、ステップ104Bで、正規化位相差が正の第3の閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、音源が上方に存在すると判定し、ステップ105に進む。
ステップ104の判定が否定された場合、即ち、高域音圧差が正の第1閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106で、高域音圧差が負の第2閾値より小さいか否か判定する。ステップ106の判定が肯定された場合、または、ステップ104Bの判定が否定された場合、即ち、正規化位相差が正の第3閾値以下である場合、音源が前方に存在すると判定し、CPU51は、ステップ107に進む。
ステップ106の判定が否定された場合、即ち、高域音圧差が負の第2閾値以上である場合、音源方向の判定は不可であると判定して、CPU51は、ステップ108に進む。正の第3閾値は、例えば、3.0[rad]であってよい。
なお、本実施形態は、図17Aのステップ104、104B、及び106で、音源方向を判定することに限定されない。図17B~図17Fに例示するように、高域音圧差の判定と正規化位相差の判定とを組み合わせることで、音源方向を判定してもよいし、図17Gに例示するように、正規化位相差の判定で、音源方向を判定してもよい。
図11と図17Bとの差異は、図11のステップ103、104及び106が、図17Bでは、ステップ103、103B、104、104B、106、及び106Bと置き替えられている点である。
即ち、図17Bでは、CPU51は、ステップ104で、高域音圧差が正の第1閾値より大きいか否か判定し、ステップ104の判定が肯定された場合、ステップ104Bで、正規化位相差が正の第3の閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、音源が上方に存在すると判定し、ステップ105に進む。
ステップ104の判定が否定された場合、即ち、高域音圧差が正の第1閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106で、高域音圧差が負の第2閾値より小さいか否か判定する。ステップ106の判定が肯定された場合、または、ステップ104Bの判定が否定された場合、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、音源が前方に存在すると判定し、ステップ107に進む。
ステップ106またはステップ106Bの判定が否定された場合、即ち、高域音圧差が負の第2閾値以上である場合、または、正規化位相差が負の第4閾値以上である場合、音源方向の判定は不可であると判定して、ステップ108に進む。
図11と図17Cとの差異は、図11のステップ103、104及び106が、図17Cでは、ステップ103、103B、104、106、及び106Bと置き替えられている点である。
即ち、図17Cでは、CPU51は、ステップ104で、高域音圧差が正の第1閾値より大きいか否か判定し、ステップ104の判定が肯定された場合、音源が上方に存在すると判定し、ステップ105に進む。
ステップ104の判定が否定された場合、即ち、高域音圧差が正の第1閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106で、高域音圧差が負の第2閾値より小さいか否か判定する。ステップ106の判定が肯定された場合、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、音源が前方に存在すると判定し、ステップ107に進む。
ステップ106またはステップ106Bの判定が否定された場合、即ち、高域音圧差が負の第2閾値以上である場合、または、正規化位相差が負の第4閾値以上である場合、音源方向の判定は不可であると判定して、ステップ108に進む。
図11と図17Dとの差異は、図11のステップ103、104及び106が、図17Dでは、ステップ103、103B、104B、104、及び106Bと置き替えられている点である。
即ち、図17Dでは、CPU51は、ステップ104Bで、正規化位相差が正の第3閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、即ち、正規化位相差が正の第3閾値より大きい場合、CPU51は、ステップ104で、高域音圧差が正の第1閾値より大きいか否か判定する。ステップ104の判定が肯定された場合、音源が上方に存在すると判定し、CPU51はステップ105に進む。
ステップ104Bの判定が否定された場合、即ち、正規化位相差が正の第3閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、または、ステップ104の判定が否定された場合、即ち、正規化位相差が負の第4閾値以上である場合、または、高域音圧差が正の第1閾値以下である場合、音源が前方に存在すると判定し、ステップ107に進む。
ステップ106Bの判定が否定された場合、即ち、正規化位相差が負の第4閾値以上である場合、音源方向の判定は不可であると判定して、ステップ108に進む。
図11と図17Eとの差異は、図11のステップ103、104及び106が、図17Eでは、ステップ103、103B、104B、104、106B、及び106と置き替えられている点である。
即ち、図17Eでは、CPU51は、ステップ104Bで、正規化位相差が正の第3閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、即ち、正規化位相差が正の第3閾値より大きい場合、CPU51は、ステップ104で、高域音圧差が正の第1閾値より大きいか否か判定する。ステップ104の判定が肯定された場合、音源が上方に存在すると判定し、CPU51はステップ105に進む。
ステップ104Bの判定が否定された場合、即ち、正規化位相差が正の第3閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、または、ステップ104の判定が否定された場合、即ち、正規化位相差が負の第4閾値より小さい場合、または、高域音圧差が正の第1閾値以下である場合、CPU51は、ステップ106に進む。CPU51は、ステップ106で、高域音圧差が負の第2閾値より小さいか否か判定する。ステップ106の判定が肯定された場合、即ち、高域音圧差が負の第2閾値より小さい場合、音源が前方に存在すると判定し、ステップ107に進む。
ステップ106Bの判定が否定された場合、または、ステップ106の判定が否定された場合、即ち、正規化位相差が負の第4閾値以上である場合、または、高域音圧差が負の第2閾値以上である場合、音源方向の判定は不可であると判定する。音源方向の判定は不可であると判定すると、CPU51はステップ108に進む。
図11と図17Fとの差異は、図11のステップ103、104及び106が、図17Fでは、ステップ103、103B、104B、106B、及び106と置き替えられている点である。
即ち、図17Fでは、CPU51は、ステップ104Bで、正規化位相差が正の第3閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、即ち、正規化位相差が正の第3閾値より大きい場合、音源が上方に存在すると判定し、ステップ105に進む。
ステップ104Bの判定が否定された場合、即ち、正規化位相差が正の第3閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、即ち、正規化位相差が負の第4閾値より小さい場合、CPU51は、ステップ106で、高域音圧差が負の第2閾値より小さいか否か判定する。ステップ106の判定が肯定された場合、即ち、高域音圧差が負の第2閾値より小さい場合、音源が前方に存在すると判定し、ステップ107に進む。
ステップ106Bの判定が否定された場合、または、ステップ106の判定が否定された場合、即ち、正規化位相差が負の第4閾値以上である場合、または、高域音圧差が負の第2閾値以上である場合、音源方向の判定は不可であると判定する。音源方向の判定は不可であると判定した場合、CPU51は、ステップ108に進む。
図11と図17Gとの差異は、図11のステップ103、104及び106が、図17Gでは、ステップ103B、104B、及び106Bと置き替えられている点である。
即ち、図21Gでは、CPU51は、ステップ103Bで、正規化位相差を算出する。CPU51は、ステップ104Bで、正規化位相差が正の第3閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、即ち、正規化位相差が正の第3閾値より大きい場合、音源が上方に存在すると判定し、ステップ105に進む。
ステップ104Bの判定が否定された場合、即ち、正規化位相差が正の第3閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、即ち、正規化位相差が負の第4閾値より小さい場合、音源が前方に存在すると判定し、ステップ107に進む。
ステップ106Bの判定が否定された場合、即ち、正規化位相差が負の第4閾値以上である場合、音源方向の判定は不可であると判定して、ステップ108に進む。なお、図17A~図17Gにおけるフローチャートの処理の順序は一例であり、本実施形態は、当該処理の順序に限定されない。
なお、第4実施形態では、第1音道11DRが屈曲部11DKを有することで、第1マイク11Dと第2マイク12Dとの間の距離を、音道が屈曲部を有していない場合よりも長くすることができる。これにより、所定の周波数の音の波長に対する音の移動距離の差を長くすることができ、位相差の変動の検出が容易になる。
なお、第1音道11DRが屈曲部11DKを有する例を図16A及び図16Bに示したが、本実施形態はこれに限定されない。本実施形態は、第2実施形態のように、2つの音道の各々が何れも屈曲部を有する場合、第3実施形態のように、2つの音道の各々が何れも屈曲部を含まない場合でも適用可能である。
本実施形態の音源方向判定装置は、マイク設置部と、第1マイクロフォンと、第2マイクロフォンと、を含む。マイク設置部は、第1平坦面に開口した第1開口部を一端部に備え、第1開口部から音が伝搬する第1音道、及び、第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、第2開口部から音が伝搬する第2音道が内部に設けられている。第1マイクロフォンは第1音道の他端部に設置された無指向性のマイクロフォンであり、第2マイクロフォンは第2音道の他端部に設置された無指向性のマイクロフォンである。
本実施形態の音源方向判定装置の判定部は、第1音圧と第2音圧との音圧の相違、及び、第1位相と第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する。第1音圧は、第1マイクロフォンで取得された音の第1周波数成分の音圧であり、第2音圧は、第2マイクロフォンで取得された音の第1周波数成分の音圧である。第1位相は、第1マイクロフォンで取得された音の第2周波数成分の位相であり、第2位相は、第2マイクロフォンで取得された音の第2周波数成分の位相である。
本実施形態では、これにより、音圧の相違だけで音源方向の判定が困難な場合であっても、音源方向の判定を適切に判定することが可能となる。
(第4実施形態の説明)
図22Aに、音源方向判定装置10Dの背面に空隙が存在する場合、即ち、例えば、音源方向判定装置10Dを装着したユーザの衣服などの物体BOと音源方向判定装置10Dの背面との間に空隙が存在する場合を例示する。音源が前方に存在する場合、第1マイク11Dが取得する音の音圧は第2マイク12Dが取得する音の音圧より小さい。第1マイク11Dの音圧は回折により減衰しており、また、第1開口11DOで回折しない音は、空隙の入り口で回折し空隙を通るため、第1マイク11Dには到達しないからである。
図22Bに、音源方向判定装置10Dの背面に空隙が存在しない場合、即ち、例えば、音源方向判定装置10Dを装着したユーザの衣服などの物体BOと音源方向判定装置10Dの背面との間に空隙が存在しない場合を例示する。音源が前方に存在する場合、第1マイク11Dが取得する音の音圧は第2マイク12Dが取得する音の音圧より大きい。音源が前方に存在する場合、第1マイク11Dが取得する音の音圧は第2マイク12Dが取得する音の音圧より小さい場合であっても、音源方向を判定するのが困難な程度に、第1マイク11Dが取得する音の音圧と第2マイク12Dが取得する音の音圧とが近い。図22Aでは空隙を通る音が、図22Bでは、第1開口11DOで回折し、第1マイク11Dに到達するためである。
図23Aに、第1マイク11Dと第2マイク12Dとの高域音圧差を例示する。左から1番目のブロックUGNは、音源が上方に存在し、空隙が存在しない場合の第1音圧差を示す。左から2番目のブロックUGは、音源が上方に存在し、空隙が存在する場合の第2音圧差を示す。空隙を通る音が存在するため、第2音圧差は第1音圧差よりも小さい。
左から4番目のブロックFGは、音源が前方に存在し、空隙が存在する場合の第4音圧差を示す。第2マイク12Dが取得する音の音圧は第1マイク11Dが取得する音の音圧よりも大きくなるため、第4音圧差は負の値となる。
一方、左から3番目のブロックFGNは、音源が前方に存在し、空隙が存在しない場合の第3音圧差を示す。空隙が存在しないため、空隙が存在する場合には空隙を通る音も第1マイク11Dに到達するため、第1マイク11Dが取得する音の音圧が第2マイク12Dが取得する音の音圧よりも大きくなり、正の値となる。第1マイク11Dが取得する音の音圧が第2マイク12Dが取得する音の音圧よりも小さい場合であっても、第1マイクが取得する音の音圧と第2マイクが取得する音の音圧とが近く、音源方向を判定するのが困難な程度に、音圧差は小さくなる。第1音圧差は、例えば、4.8[dB]であり、第2音圧差は、例えば、1.8[dB]であり、第3音圧差は、例えば、1.2[dB]であり、第4音圧差は、例えば、-0.9[dB]である。
したがって、音源方向判定装置10Dの背面に空隙が存在しないと、高域音圧差で音源方向を判定することが困難な場合がある。即ち、音源方向を判定する適切な閾値の設定が困難な場合がある。例えば、音源が上方に存在するか否か判定する正の第1閾値の値を大きく設定すると、ブロックUGで表される音源が上方に存在する場合の高域音圧差を音源が前方に存在する高域音圧差であると判断する虞が生じる。一方、正の第1閾値の値を小さく設定すると、ブロックFGNで表される音源が前方に存在する場合の高域音圧差を音源が上方に存在する高域音圧差であると判定する虞が生じる。
図23Bに、第1マイク11Dが取得する音の位相と第2マイク12Dが取得する音の位相との正規化位相差を例示する。左から1番目のブロックUGは、音源が上方に存在し、空隙が存在しない場合の第1位相差を示す。左から2番目のブロックUGNは、音源が上方に存在し、空隙が存在する場合の第2位相差を示す。
左から3番目のブロックFGは、音源が前方に存在し、空隙が存在する場合の第3位相差を示す。左から4番目のブロックFGNは、音源が前方に存在し、空隙が存在しない場合の位相差を示す。即ち、音源方向判定装置10の背面の空隙の有無に拘わらず、音源が上方に存在する場合、位相差は正の値を示す。また、音源が前方に存在する場合、位相差は負の値を示す。第1位相差は、例えば、6.1[rad]であり、第2位相差は、例えば、6.0[rad]であり、第3位相差は、例えば、-2.5[rad]であり、第4位相差は、例えば、-1.4[rad]である。したがって、音源方向判定装置10の背面に空隙が存在するか否かに拘わらず、音源方向を判定する適切な閾値の設定が比較的容易となる。
音源が音源方向判定装置10Dの上方に存在する場合、第2マイク12Dに到達するより前に第1マイク11Dに音が到達する。また、音源が音源方向判定装置10Dの前方に存在する場合、第1マイク11Dに到達するより前に第2マイク12Dに音が到達する。したがって、音源方向の判定に位相差を使用することができる。また、位相差は絶対音圧の影響をあまり受けないため、音源判定装置10Dの背面の空隙の有無によって絶対音圧が変動しても、適切な位相差を取得することが可能である。
[第5実施形態]
次に、第5実施形態の一例を説明する。第1~第4実施形態と同様の構成及び作用については、説明を省略する。第5実施形態では、音源方向判定の閾値を、ユーザ及び対話相手の発話した音に対応する音信号に基づいて調整する。
図24は、図1の音源方向判定装置10の判定部13に代えて、判定部13”で行われる第5実施形態の音源方向判定処理の概要を例示する。時間周波数変換部85A1は、第1マイク11で取得された音に対応する音信号を時間周波数変換し、時間周波数変換部85A2は、第2マイク12で取得された音に対応する音信号を時間周波数変換する。
発話区間検出部85B1は、第1マイク11で取得された音に対応する音信号の発話区間を検出し、発話区間検出部85B2は、第2マイク12で取得された音に対応する音信号の発話区間を検出する。発話区間の検出には、既存の手法を適用することができる。
位相算出部85C1は、検出された発話区間の音信号を使用して、第1マイク11で取得された音に対応する音信号の位相を算出する。位相算出部85C2は、検出された発話区間の音信号を使用して、第2マイク12で取得された音に対応する音信号の位相を算出する。平均位相差算出部85Dは、算出された位相を使用して位相差を算出し、発話区間の位相差の平均値である位相差平均値を算出する。
過去発話位相差記憶部85Eは、算出した位相差平均値を、将来の過去発話位相差として使用するために記憶する。位相差比較部85Fは、位相差平均値と、以前に記憶した過去発話位相差と、を比較する。
位相差平均値と、過去発話位相差と、に第3所定値の一例である所定値を超える差がある場合、閾値調整部85Gは音源方向を判定する閾値を調整する。差は、位相差平均値から過去発話位相差を減算した値の絶対値である。
例えば、音源方向判定装置10の筐体18の前面を、垂直方向に対して複数の異なる角度で傾斜させ、ユーザの音声の位相差平均値と、対話相手の音声の位相差平均値と、の差を各々の角度で取得する。取得した複数個の差の絶対値の内、最小値を第3所定値として使用することができる。第3所定値は、例えば、4.1[rad]であってよい。第3所定値を超える過去発話位相差が存在しない場合、閾値を調整しない。
所定値を超える差がある過去発話位相差が複数存在する場合、直近の過去発話位相差を使用して、閾値調整部85Gは、音源方向を判定する閾値を調整する。詳細には、例えば、現在の発話区間の位相差平均値と、過去発話位相差と、の平均値(即ち、中間の値)を音源方向判定の閾値に設定する。音源方向判定部85Hは、調整した閾値を使用して音源方向を判定し、判定結果を出力する。
図25を使用して、音源方向を判定する閾値の調整について説明する。図25の縦軸は、位相差[rad]を表し、横軸は時間、即ち、フレーム番号を表す。破線86Pは、フレーム毎の、第1マイク11で取得した音に対応する音信号と、第2マイク12で取得した音に対応する音信号と、の位相差を表す。
上記したように、以前の発話区間である発話区間86H1の位相差平均値が、例えば、二次記憶部53のデータ格納領域53Bに、過去発話位相差として記憶されている。現在の発話区間である発話区間86H2の位相差平均値と発話区間86H1に対応する過去発話位相差とには所定値を超える差86Dがある。
閾値調整部85Fは、例えば、発話区間86H1に対応する過去発話位相差と、発話区間86H2の位相差平均値との平均値を閾値86Tとして設定する。設定された閾値は、発話区間86H2の音信号の音源方向を判定するために使用される。
音源方向判定装置10は、図26Aに例示するように、筐体18の前面が垂直方向に略平行となるようにユーザに装着されることが想定されている。図24Aでは、所定の位相差閾値81Tを境界として、領域81Uの音声の音源方向は上方、即ち、ユーザの発話であると判定され、領域81Fの音声の音源方向は前方、即ち、対話相手の発話であると判定される。
しかしながら、音源方向判定装置10の装着者であるユーザの体型または、装着方法などにより、音源方向判定装置10が、図26Bに例示するように傾斜する場合がある。例えば、ユーザが女性である場合、胸の傾きの影響により、図26Bに例示するように、音源方向判定装置10の筐体18の前面が斜め上方に向くように、傾斜する。この場合、位相差閾値82Tで例示するように、判定の境界も共に傾斜、即ち、回転する。
図26Bでは、位相差閾値82Tを境界として、領域82Uの音声の音源方向は上方、即ち、装着者であるユーザの発話であると判定され、領域82Fの音声の音源方向は前方、即ち、対話相手の発話であると判定される。したがって、矢印82Vで例示されるユーザの発話が対話相手の発話であると判断される虞がある。
図27Aに、音源方向判定装置10の筐体18の前面が垂直方向に略平行である場合を例示し、図27Bに、筐体18の前面が斜め上方に向くように傾斜している場合を例示する。図27Aに例示する位相差83Dと、図27Bに例示する位相差84Dと、は略等しい。位相差83Dは、対話相手の音声の上面への到達を示す矢印83F1と前面への到達を示す矢印83F2との位相差を表す。位相差84Dは、ユーザの音声の上面への到達を示す矢印84U1と前面への到達を示す矢印84U2との位相差を表す。
図28に、図27Aの位相差83Dに対応する位相差91A及び図27Bの位相差84Dに対応する位相差91Bを例示する。位相差閾値91Tでは、位相差91Aと位相差91Bとを区別することは困難であるし、閾値を調整したとしても、位相差91Aと位相差91Bとを区別することは困難である。
一方、装着者であるユーザの音声と対話相手の音声との位相差には、音源方向判定装置10が傾斜したとしても、同じ傾斜であれば、所定値を超える相違が存在する。したがって、ユーザの発話と対話相手の発話とに基づいて、位相差閾値を調整することで、音源方向判定装置10が傾斜していたとしても、音源方向を適切に判定することができる。
図29Aに、音源方向判定装置10の筐体18の前面が垂直方向に略平行である場合のユーザの音声の位相差92Aと、対話相手の音声の位相差92Bと、を例示する。位相差閾値92Tを、位相差92Aと位相差92Bとの平均値に調整することで、位相差92Aと位相差92Bと、を区別することができる。即ち、音源方向を適切に判定することができる。
図29Bに、音源方向判定装置10の筐体18の前面が斜め上方を向くように傾斜する場合のユーザの音声の位相差93Aと、対話相手の音声の位相差93Bと、を例示する。位相差閾値93Tを、位相差93Aと位相差93Bとの平均値に調整することで、位相差93Aと位相差93Bと、を区別することができる。即ち、音源方向を適切に判定することができる。
図30Aは、音源判定処理の流れの一例を示す。CPU51は、ステップ201で、変数NPに0を設定する。変数NPは、発話区間の正規化位相差を合計するための変数である。
CPU51は、ステップ202で、第1マイク11及び第2マイク12で取得された音に対応する音信号を1フレーム分読み込み、ステップ203で、時間周波数変換する。CPU51は、ステップ204で、発話区間が開始されたか否か判定する。
ステップ204の判定が否定された場合、CPU51は、ステップ202に戻る。ステップ204の判定が肯定された場合、CPU51は、ステップ205で、正規化位相差を算出し、ステップ206で、変数NPに正規化位相差を加算する。
CPU51は、ステップ207で、第1マイク11及び第2マイク12で取得された音に対応する音信号を1フレーム分読み込み、ステップ208で、時間周波数変換する。CPU51は、ステップ209で、発話区間が終了されたか否か判定する。
ステップ209の判定が否定された場合、CPU51は、ステップ205に戻る。ステップ209の判定が肯定された場合、CPU51は、ステップ210で、変数NPの値をステップ207で読み込まれた音信号のフレーム数で割ることで、位相差平均値の一例である平均正規化位相差を算出する。CPU51は、ステップ211で、将来使用するために、算出した平均正規化位相差を過去発話位相差として、例えば、二次記憶部53のデータ格納領域53Bに、記憶する。
CPU51は、ステップ212で、以前の処理で記憶されている過去発話位相差と平均正規化位相差とを比較する。ステップ212の判定が肯定された場合、過去発話位相差と平均正規化位相差とに所定値を超える差がある場合、CPU51は、ステップ213で、閾値を調整し、ステップ214に進む。詳細には、CPU51は、ステップ213で、過去発話位相差と平均正規化位相差との平均値を、第6閾値の一例である閾値として設定することで閾値を調整する。
ステップ212の判定が否定された場合、CPU51は、閾値を調整せず、ステップ214に進む。CPU51は、ステップ214で、ステップ207で読み込まれた音信号の音源方向が上方であるか否か判定する。詳細には、平均正規化位相差が閾値を超えるか否か判定する。
ステップ214の判定が肯定された場合、CPU51は、ステップ215で、ステップ207で読み込まれた音信号を第1言語に翻訳するように設定する。ステップ214の判定が否定された場合、CPU51は、ステップ216で、ステップ207で読み込まれた音信号の音源方向が前方であるか否か判定する。詳細には、平均正規化位相差が閾値以下であるか否か判定する。
ステップ216の判定が肯定された場合、CPU51は、ステップ217で、ステップ207で読み込まれた音信号を第2言語に翻訳するように設定する。CPU51は、ステップ218で、ユーザが、例えば、所定のボタンを押下するなど、音源方向判定処理を終了するように指示する操作が行われたか否かを判定する。
ステップ218の判定が否定された場合、CPU51は、ステップ201に戻り、ステップ218の判定が肯定された場合、CPU51は、音源方向判定処理を終了する。
図30Bは、音源方向判定処理の流れの一例を示す。図30Bの音源方向判定処理は、ユーザの音声と対話相手の音声との音圧差に基づいて、閾値を調整する。
CPU51は、ステップ231で、高域音圧差の合計を算出するための変数HVに0を設定する。ステップ232~ステップ234は、図30Aのステップ202~204と同様である。
CPU51は、ステップ235で、高域音圧差を算出し、ステップ236で算出した高域音圧差を変数HVの値に加算する。ステップ237~239は、図30Aのステップ207~209と同様である。
CPU51は、ステップ240で、変数HVの値をステップ237で読み込まれた音信号のフレーム数で割ることで、音圧差平均値の一例である平均高域音圧差を算出する。CPU51は、ステップ241で、将来使用するために、算出した平均高域音圧差を過去発話音圧差として、例えば、二次記憶部53のデータ格納領域53Bに、記憶する。
CPU51は、以前の処理で記憶されている過去発話音圧差と平均高域音圧差とを比較する。ステップ242の判定が肯定された場合、CPU51は、ステップ243で、過去発話音圧差と平均高域音圧差との平均値を第5閾値の一例である閾値として設定することで閾値を調整し、ステップ244に進む。ステップ242の判定は、過去発話音圧差と平均高域音圧差とに第2所定値の一例である所定値を超える差がある場合、肯定される。
例えば、音源方向判定装置10の筐体18の前面を、垂直方向に対して複数の異なる角度で傾斜させ、ユーザの音声の音圧差平均値と、対話相手の音声の音圧差平均値と、の差を各々の角度で取得する。取得した複数個の差の絶対値の内、最小値を第2所定値として使用することができる。第2所定値は、例えば、3.0[dB]であってよい。第2所定値を超える過去発話音圧差が存在しない場合、閾値を調整しない。
ステップ242の判定が否定された場合、CPU51は、閾値を調整せず、ステップ244に進む。CPU51は、ステップ244で、ステップ237で読み込まれた音信号の音源方向が上方であるか否か判定する。詳細には、平均高域音圧差が閾値を超えるか否か判定する。
ステップ244の判定が肯定された場合、CPU51は、ステップ245で、ステップ237で読み込まれた音信号を第1言語に翻訳するように設定する。ステップ244の判定が否定された場合、CPU51は、ステップ246で、ステップ207で読み込まれた音信号の音源方向が前方であるか否か判定する。詳細には、平均高域音圧差が閾値以下であるか否か判定する。ステップ248は、図30Aのステップ218と同様である。
図30Aは、第4実施形態の図17Gの音源方向判定処理に第5実施形態を適用した例であり、図30Bは、第3実施形態の図11の音源方向判定処理に第5実施形態を適用した例である。しかしながら、第5実施形態は、第4実施形態の図17A~17Fの音源方向判定処理に適用されてもよい。即ち、音圧差を判定する閾値と位相差を判定する閾値との双方を調整するようにしてもよい。
なお、位相差平均値との差が所定値を超える過去発話位相差が複数存在する場合、直近の過去発話位相差を使用してもよいし、所定時間内の過去発話位相差のうち差が最大となる過去発話位相差を使用してもよい。また、所定時間内の過去発話位相差の平均値を使用してもよい。
音圧差平均値との差が所定値を超える過去発話音圧差が複数存在する場合、直近の過去発話音圧差を使用してもよいし、所定時間内の過去発話音圧差のうち差が最大となる過去発話音圧差を使用してもよい。また、所定時間内の過去発話音圧差の平均値を使用してもよい。
なお、発話区間の複数フレームの位相差平均値または音圧差平均値を算出する例について説明したが、発話区間の一部分の複数フレームの位相差平均値及び音圧差平均値を算出するようにしてもよい。また、発話区間が長時間に及ぶ場合、発話区間を複数に分け、複数に分けた部分区間毎に位相差平均値の算出または音圧差平均値の算出を行うようにしてもよい。
ユーザと対話相手の対話中に、自然に、音源方向を判定する閾値を調整する例について説明したが、対話の冒頭で、ユーザと対話相手とが交互に所定時間長を超えるフレーズを発話し、当該発話の音声を使用して、閾値を調整するようにしてもよい。フレーズは、例えば、既定の挨拶(例えば、「こんにちは」など)であってよい。
なお、上記の例では、図30Aのステップ216は、省略可能であるが、例えば、ステップ214で音源方向を判定する閾値とステップ216で音源方向を判定する閾値とが異なる値となるようにしてもよい。詳細には、例えば、ステップ216で使用する閾値をステップ214で使用する閾値よりも所定量低減してもよい。
これにより、音源方向の判定が困難な、即ち、何れの音源方向からの音声であるとも判定し得る音声を誤判定する虞を低減することができる。図30Bのステップ246についても同様である。また、ステップ214またはステップ244で使用する閾値を所定量増大してもよい。
なお、音信号の信号対雑音比を算出し、信号対雑音比が第4所定値の一例である所定値より小さい場合、音源方向を判定する閾値を、第5所定値の一例である所定値分下げるようにしてもよい。信号対雑音比が小さい程、音源方向による位相差及び音圧差の差異が小さくなる傾向があるためである。
第4所定値は、例えば、定常雑音比であってよいし、第5所定値は、音圧差平均値を区別する閾値の場合、例えば、0.5[dB]であってよいし、位相差平均値を区別する閾値の場合、例えば、0.5[rad]であってよい。定常雑音比は、既存の方法で算出することができる。
なお、図2A及び図2Bに例示する音源方向判定装置10に適用する例について説明したが、本実施形態は、図13A~図13Cに例示する音源方向判定装置10Cに適用されてもよい。本実施形態によれば、ユーザが、筐体18Cの右側面及び前面に対向する位置からずれた位置に存在して発話する場合であっても、音源方向、即ち、発話者を適切に判定することができる。
なお、図30A及び30Bにおけるフローチャートの処理の順序は一例であり、本実施形態は、当該処理の順序に限定されない。
本実施形態では、ユーザの音声と対話相手の音声とに基づいて、音源方向を判定する閾値を調整することで、音源判定装置が傾斜した場合であっても、音源方向を適切に判定することができる。
(関連技術)
次に、関連技術について説明する。関連技術では、図18に例示するように、指向性マイク11Xの指向11XOR及び指向性マイク12Xの指向12XORを交差させるように、2つの指向性マイクを配置する。例えば、指向11XORを上方に向け、指向12XORを前方に向ける。
この構成により、指向性マイク11X及び指向性マイク12Xが取得した音の音圧差を使用して、音源の方向を判定することが可能である。即ち、指向性マイク11Xで取得した音の音圧が指向性マイク12Xで取得した音の音圧より大きい場合、音源は上方に存在し、指向性マイク12Xで取得した音の音圧が指向性マイク11Xで取得した音の音圧より大きい場合、音源は前方に存在する。
しかしながら、指向性マイクは、図19に例示するように、無指向性マイクよりも大きいため、指向性マイクを使用した場合、音源方向判定装置を小型化することが困難である。図19の例では、指向性マイクの体積は226[立方mm]であり、無指向性マイクの体積は11[立方mm]である。即ち、指向性マイクの体積は、無指向性マイクの体積の約20倍である。また、指向性マイクは無指向性マイクよりも高価であるため、指向性マイクを使用した場合音源方向判定装置の価格を低減することも困難となる。
しかしながら、図18に例示した音源方向判定装置の指向性マイクを単に無指向性マイクで置き替えることで、音源方向を精度よく判定することが可能な音源方向判定装置を実現することは困難である。図20Aに例示するように、無指向性マイク11Yが音を取得することができる範囲11YORと、無指向性マイク12Yが音を取得することができる範囲12YORと、はほぼ重複する。したがって、無指向性マイク11Y及び12Yが取得した音の音圧差に、音源方向を精度よく判定することができる程度の有意な差が生じないためである。
図20Bに、筐体18Yの上面に第1マイク11Yを設置し、前面に第2マイク12Yを設置した、第1実施形態と同様に、前後方向の幅が1[cm]程度であり、前面が名刺程度の大きさである、関連技術の音源方向判定装置10Yを例示する。第1マイク11Y及び第2マイク12Yは、無指向性マイクである。関連技術の音源方向判定装置10Yの音圧差と第1実施形態の音源方向判定装置10の音圧差とを図21に例示する。音源が音源方向判定装置の上方にある場合、第1マイクで取得する音の音圧と第2マイクで取得する音の音圧との音圧差は、関連技術では、2.9[dB]であり、第1実施形態では、7.2[dB]である。
音源が音源方向判定装置の前方にある場合、第1マイクで取得する音の音圧と第2マイクで取得する音の音圧との音圧差は、関連技術では、-2.9[dB]であり、第1実施形態では、-4.2[dB]である。即ち、音源が音源方向判定装置の上方にある場合、第1実施形態で算出される音圧差は、関連技術より4.3[dB]大きく、音源が音源方向判定装置の前方にある場合、第1実施形態で算出される音圧差は、関連技術より1.3[dB]小さい。
したがって、本実施形態では図11のステップ104及びステップ106の判定で、誤った判定結果を得る可能性が低減するため、本実施形態によれば、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
前記第1音道の他端部に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部に設置された無指向性の第2マイクロフォンと、
前記第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、前記第2マイクロフォンで取得された音の前記第1周波数成分の音圧である第2音圧との音圧の相違、及び、前記第1マイクロフォンで取得された音の第2周波数成分の位相である第1位相と、前記第2マイクロフォンで取得された音の前記第2周波数成分の位相である第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する、判定部と、
を含む、
音源方向判定装置。
(付記2)
前記第1周波数成分は高域成分である、
付記1の音源方向判定装置。
(付記3)
前記第1平坦面と前記第2平坦面とは直交し、
前記第1平坦面の面積は第1所定値以下であり、前記第2平坦面の面積は前記第1所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第3回折部を有する、
付記1または付記2の音源方向判定装置。
(付記4)
前記第1平坦面と前記第2平坦面とは直交し、
前記第1平坦面の面積は第1所定値以下であり、前記第2平坦面の面積は前記第1所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第3回折部を有し、かつ、途中に、音を回折する屈曲部である第4回折部を有する、
付記1または付記2の音源方向判定装置。
(付記5)
前記第1平坦面と前記第2平坦面とは直交し、
前記第1平坦面及び前記第2平坦面の面積は第1所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第2回折部を有する、
付記1または付記2の音源方向判定装置。
(付記6)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算した音圧差の平均値であり、
前記位相の相違は、対象周波数帯域の位相差の平均値であり、
前記音圧差の平均値が正の第1閾値よりも大きい場合、及び、前記位相差の平均値が正の第3閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定する、
付記1~付記5の何れかの音源方向判定装置。
(付記7)
前記音圧差の平均値が負の第2閾値よりも小さい場合、及び、前記位相差の平均値が負の第4閾値よりも小さい場合の内少なくとも一方の場合、前記音源が前記第2平坦面に対向する位置に存在すると判定する、
付記6の音源方向判定装置。
(付記8)
前記対象周波数帯域の位相差の平均値a_phaseは、以下の(10)式で表される、付記6または付記7の音源方向判定装置。
但し、
phase[j]=atan(phase_
im[j]/phase_
re[j])、
phase_re[j]=re1[j]*re2[j]+im1[j]*im
2[j]、
phase_im[j]=im1[j]*re2[j]-re1[j]*im2[j]、
C_n[j]=λ[j]/λ_cであり、
jは周波数帯域数であり、
re1[j]は、j番目の周波数帯域の前記第1音圧のスペクトルの実部であり、
re2[j]は、j番目の周波数帯域の前記第2音圧のスペクトルの実部であり、
im1[j]は、j番目の周波数帯域の前記第1音圧のスペクトルの虚部であり、
im2[j]は、j番目の周波数帯域の前記第2音圧のスペクトルの虚部であり、
λ[j]は、j番目の周波数帯域の音の波長であり、
λ_cは、基準周波数の音の波長であり、
eeは、前記対象周波数帯域の上限であり、
ssは、前記対象周波数帯域の下限である。
(付記9)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算したフレーム毎の音圧差の複数フレームの平均値である音圧差平均値であり、
前記位相の相違は、フレーム毎の対象周波数帯域の位相差の複数フレームの平均値である位相差平均値であり、
前記音圧差平均値が第5閾値よりも大きい場合、及び、前記位相差平均値が第6閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
前記第5閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記音圧差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記音圧差平均値と、の平均値であり、
前記第6閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記位相差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記位相差平均値と、の平均値である、
付記1~付記5の何れかの音源方向判定装置。
(付記10)
前記音圧差平均値が前記第5閾値以下の場合、及び、前記位相差平均値が前記第6閾値以下の場合の内少なくとも一方の場合、前記音源が前記第2平坦面に対向する位置に存在すると判定する、
付記9の音源方向判定装置。
(付記11)
前記音源が前記第1平坦面に対向する位置に存在する場合の前記音圧差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記音圧差平均値と、の平均値は、前記音圧差の第1発話区間の平均値である第1平均値と、前記音圧差の第2発話区間の平均値である第2平均値と、の平均値であり、前記第1平均値と前記第2平均値との相違は、第2所定値を超え、
前記音源が前記第1平坦面に対向する位置に存在する場合の前記位相差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記位相差平均値と、の平均値は、前記位相差の第3発話区間の平均値である第3平均値と、前記位相差の第4発話区間の平均値である第4平均値と、の平均値であり、前記第3平均値と前記第4平均値との相違は、第3所定値を超える、
付記9または付記10の音源方向判定装置。
(付記12)
前記音に対応する信号の信号対雑音比が第4所定値より小さい場合、前記第5閾値及び前記第6閾値を第5所定値分低減する、
付記9~付記11の何れかの音源方向判定装置。
(付記13)
前記音源が前記第1平坦面と対向する位置に存在すると判定された場合、前記音に対応する信号を第1言語に翻訳し、前記音源が前記第2平坦面に対向する位置に存在すると判定された場合、前記音に対応する信号を第2言語に翻訳する、
付記1~付記12の何れかの音源方向判定装置。
(付記14)
第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
前記第1音道の他端部に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部に設置された無指向性の第2マイクロフォンと、
コンピュータと、
を含む音源方向判定装置の前記コンピュータが、
前記第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、前記第2マイクロフォンで取得された音の前記第1周波数成分の音圧である第2音圧との音圧の相違、及び、前記第1マイクロフォンで取得された音の第2周波数成分の位相である第1位相と、前記第2マイクロフォンで取得された音の前記第2周波数成分の位相である第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する、
音源方向判定方法。
(付記15)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算した音圧差の平均値であり、
前記位相の相違は、対象周波数帯域の位相差の平均値であり、
前記音圧差の平均値が正の第1閾値よりも大きい場合、及び、前記位相差の平均値が正の第3閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定する、
付記14の音源方向判定方法。
(付記16)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算したフレーム毎の音圧差の複数フレームの平均値である音圧差平均値であり、
前記位相の相違は、フレーム毎の対象周波数帯域の位相差の複数フレームの平均値である位相差平均値であり、
前記音圧差平均値が第5閾値よりも大きい場合、及び、前記位相差平均値が第6閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
前記第5閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記音圧差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記音圧差平均値と、の平均値であり、
前記第6閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記位相差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記位相差平均値と、の平均値である、
付記14の音源方向判定方法。
(付記17)
第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
前記第1音道の他端部に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部に設置された無指向性の第2マイクロフォンと、
コンピュータと、
を含む音源方向判定装置のコンピュータに、
前記第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、前記第2マイクロフォンで取得された音の前記第1周波数成分の音圧である第2音圧との音圧の相違、及び、前記第1マイクロフォンで取得された音の第2周波数成分の位相である第1位相と、前記第2マイクロフォンで取得された音の前記第2周波数成分の位相である第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する、
音源方向判定処理を実行させるためのプログラム。
(付記18)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算した音圧差の平均値であり、
前記位相の相違は、対象周波数帯域の位相差の平均値であり、
前記音圧差の平均値が正の第1閾値よりも大きい場合、及び、前記位相差の平均値が正の第3閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定する、
付記17のプログラム。
(付記19)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算したフレーム毎の音圧差の複数フレームの平均値である音圧差平均値であり、
前記位相の相違は、フレーム毎の対象周波数帯域の位相差の複数フレームの平均値である位相差平均値であり、
前記音圧差平均値が第5閾値よりも大きい場合、及び、前記位相差平均値が第6閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
前記第5閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記音圧差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記音圧差平均値と、の平均値であり、
前記第6閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記位相差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記位相差平均値と、の平均値である、
付記17のプログラム。