JP2004279241A

JP2004279241A - 音源位置取得システム、音源位置取得方法、該音源位置取得システムに使用するための音反射要素および該音反射要素の形成方法

Info

Publication number: JP2004279241A
Application number: JP2003071735A
Authority: JP
Inventors: Osamu Ichikawa; 治市川; Masafumi Nishimura; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-03-17
Filing date: 2003-03-17
Publication date: 2004-10-07
Anticipated expiration: 2023-03-17
Also published as: US20040228215A1; JP3999689B2

Abstract

【課題】少数のマイクロフォンを使用したシステムで従来困難であった方向の音源位置の推定を可能とし、従来の音源位置の推定の精度を向上させる。
【解決手段】収録手段の位置と、音源位置とを焦点とする回転楕円体の包絡面として反射面ＲＳを形成することにより、音源位置に対応した遅延量を持つ主要な反射波を発生させ、直接波と反射波との間の遅延量を検査することにより、音源位置を取得し、その推定を可能とする。
【選択図】図５

Description

【０００１】
【発明の属する技術分野】
本発明は、音源位置取得システム、音源位置取得方法、該音源位置取得システムに使用するための音反射要素および該音反射要素の形成方法に関し、より詳細には、マイクロフォンを可能な限り少なくしても高い精度で仰角データを含む音源位置の取得を可能とする、高精度の音源位置取得システム、音源位置取得方法、該音源位置取得システムに使用するための音反射要素および該音反射要素の形成方法に関する。
【０００２】
【従来の技術】
マイクロフォン・アレイで音源位置推定性能を向上させるためには、従来では多数のマイクロフォンを含む、多チャンネル同時入力が可能な処理システムが必要とされている。この処理システムは、音源位置に対向するように効率的に駆動部材を制御させることを可能とする。しかしながら、マイクロフォンを多数配置して音源の位置を取得するのは、システム全体のコストを増加させてしまうといった不都合もある。このため、これまでマイクロフォンの数を低減させる試みがなされている。しかしながら、従来のマイクロフォンの数を減少させる検討では、マイクロフォンの数を少なくすると、音源方向に対して充分な指向性を与えるための情報を与えることができないという不都合が生じていた。また、従来の方法を使用しても音源の性質を特定し、測定環境を管理した条件下では、ある程度音源位置を取得することが可能とはなるものの、周囲の雑音や、音源の性質の変動、さらに部屋の伝達特性により影響を受けやすい、といった不都合も生じることが知られていた
【０００３】
少数のマイクロフォンを使用した音源位置の推定では、これまで種々の方法が提案されている。例えば、マイクロフォンを２本使用した両耳受聴方法がこれまで知られている。この方法は、頭部伝達関数（ＨＲＴＦ）を使用して、両耳位置で頭部伝達関数を測定し、基準音を発生する音源を様々な方位角（ａｚｉｍｕｔｈ）、距離（ｒａｎｇｅ）、仰角（ｅｌｅｖａｔｉｏｎ）に配置することにより、両耳位置での伝達特性を加味して、これらの位置情報を得る方法である。上述した頭部伝達関数は、音源から耳に至る伝達特性を、頭部、胸部、耳介の影響を含めて、実験的にモデルごとに決定して得られる関数なので、汎用性に乏しいという不都合がある。
【０００４】
さらに、上述した頭部伝達関数を使用した音源位置の取得は、音源からの信号を測定し、予め測定された頭部伝達関数により与えられる音響スペクトルと一致するものを選択することにより音源位置の取得を行うものである。したがって頭部伝達関数を使用した方法は、例えば音源が基準音源であれば、ある程度正確に音源位置を取得することが原理的には可能となる。しかしながら、頭部伝達関数を使用する音源位置取得は、頭部伝達関数に生じるディップまたはピークを特徴的なキー・プロファイルとして使用するので、上述したディップまたはピークを有している音源の場合には、誤った判断を与える可能性が高い。このため、頭部伝達関数を使用した音源位置の取得は、音源位置の取得よりも音場再現の分野で多く使用されているのが現状である。
【０００５】
さらに詳細に従来の音源位置の取得方法については、例えば、奥及他、「ロボットの耳は２つで十分か」、日本音響学会誌、第５８巻、第３号、２０５−２１０、２００２年において開示されるように、２つのマイクロフォンを使用した音源位置の取得も検討されている。この方法では、頭部伝達関数から得られる両耳間強度差（ＩＬＤ：ＩｎｔｅｒａｕｒａｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅｓ）および両耳間時間差（ＩＴＤ：ＩｎｔｅｒａｕｒａｌＴｉｍｅＤｉｆｆｅｒｅｎｃｅ）を使用して、距離および方位角を取得する。上述した２つのマイクロフォンを使用する音源位置の取得では、観測された音響スペクトルから上述した特性値を測定することにより、音源の方位と距離とを取得することが可能であることが示されている。しかしながら、これらの情報だけでは、音響スペクトルの音源が正面方向にある場合の距離を取得することができない。
【０００６】
この理由は、正面方向では距離が異なった場合でも、両耳間強度差および両耳間時間差は、それぞれ同一になってしまうためである。また、両耳間強度差および両耳間時間差だけを使用した音源位置取得方法では、仰角についても有意義な取得を行うことができない、という不都合もある。この理由は、方位と距離とが同一の場合、仰角が異なっても両耳間時間差および両耳間強度差は同一となってしまうためである。上述した理由から距離および仰角を含めた音源位置の取得を行うためには、後述する片耳受聴と同様に、音響スペクトルの変形や残響を手がかりにすることが必要とされると考えられており、さらに検討を加える必要があることが指摘されている。
【０００７】
上述した両耳受聴とは別に、これまで片耳受聴といわれる方法により、音源位置を取得することも試みられている。片耳受聴による音源位置の取得は、人間が音源までの距離を取得する方法に類似する方法であり、音が大きく、残響の少ない音を近くの音として知覚し、音が小さく残響の多い音を遠い音として知覚させる。上述したように音の大きさと残響とを使用することにより、大まかな音源位置までの距離を取得することができる。しかしながら、音の大きさは対象とする音源に依存し、残響のレベルは、音響スペクトルの測定環境にも依存する。人間の場合においては、対象とする音源や環境に対する情報を、視覚情報を含めて高度な情報処理を行うことで補い、音源までの距離の取得に利用することが可能であると考えられている。このような処理は、純粋な機械的処理のみに基づいた情報処理装置を含む信号処理システムにおいて実現することは実際上困難である。
【０００８】
また人間における音源位置の取得方法についての検討によると、音源までの方位や仰角が頭部や耳介の影響で、特定の周波数領域のスペクトルの減衰を与えることが知られている。しかしながら、頭部伝達関数を利用する方法について説明したと同じ理由により、音源の性質の影響をうけるため、実現が困難である。
【０００９】
また、耳介に類似する反射板の利用ということに関しては、その反射特性を積極的に利用して、遠方の微少な音を収録するための集音器も提案されている。図１５には、これまで提案されている集音器の概略的な構成を示す。図１５に示す集音器１００は、遠方音源からの音波１０１を反射させるための反射板１０２と、反射された音波を収録するためのマイクロフォン１０４とを含んで構成されている。反射板１０２は、概ね放物面から形成されており、マイクロフォン１０４は、放物面の焦点位置に配置されている。反射板１０２により反射された音波１０６は、焦点に集められるので、効率的な集音を可能とするものの、音源位置を取得する機能を含むものではない。
【００１０】
さらに、ロボットや音声対応ＫＩＯＳＫ端末など、人間から話しかけられる対象となりうる装置においては、「その方向を向く」、「マイクロフォン・アレイの指向性を該当する方向に向ける」、「遠いので無視する」といった動作が必要とされる。このためには、ロボットや装置が音源、すなわち話者までの距離や方向を認識し、駆動制御系を制御して、必要な動作を起動させる必要がある。すなわち、信号音の種類が未知である条件下において、既存技術に基づけば、（１）マイクロフォン１本では、原理的に音源位置の取得が不可能であること、（２）マイクロフォン２本の既存システムでは正面方向の距離取得と垂直方向の仰角取得が不可能である、という不都合があった。
【００１１】
また、従来のように、マイクロフォンの本数を増加させて、適切な位置に配置することにより、上述した制限が緩和でき、かつ取得精度も向上するものの、デザイン・コストといった実装上の制約のために、少数のマイクロフォンで上述した制限が緩和できることが求められている。
【００１２】
【発明が解決しようとする課題】
上述したように、予め高度な事前知識を必要とするスペクトルの変形や音量、残響の強度といった尺度を使用することなく、情報処理システムを使用して音源の位置を取得するために適切な新たな手法および手段が必要とされていた。さらに、上述した手段および手法を使用することにより、音源までの距離、方位角、仰角を取得できる、音源位置取得システムおよび音源位置取得方法が必要とされていた。さらに、上述した良好な音源位置取得性を可能とする音反射要素およびそのための形成方法が必要とされていた。
【００１３】
【課題を解決するための手段】
本発明は、上述した従来技術の本質的な不都合に鑑みてなされたものであり、本発明は、少なくとも１つの収録手段、具体的にはマイクロフォンを使用することにより音源までの仰角情報について高精度の解析を可能とすることができれば、従来技術の不都合を改善することができ、より高精度の音源位置取得システム、音源位置取得方法を提供することができる、という認識のもとになされたものである。
【００１４】
本発明は、上記課題を解決するために、音源から発生された音波に対して、音源位置に応じて固有の反射を生じさせ、直接音と共に同時に収録させた音響データとして収録される。この音響データは、後の処理のためにディジタル・データへと変換され、記録装置に一旦保持される。これらの音響データは、本発明において遅延変形として参照される新たな尺度を提供することを可能とする。このため、本発明においては信号音源の種類に依存せずに、新たに「遅延変形」という尺度を、従来の尺度に追加的に使用することを可能とし、従来の音源位置取得における不都合を解決することを可能とする。
【００１５】
上述した遅延変形に対して高い固有性を与えて記録するために、本発明では、音源から発生した音波に音源位置に対応した固有の反射を生じさせて記録を可能とする音反射要素と、記録された音響データを処理する処理方法とを使用する。
【００１６】
音反射要素は、反射された後に記録された音波と、反射されずに直接記録された直接波と反射に伴う経路差をもって遅れて到着した反射波とを重畳して収録手段へと集める。音源の相対位置に固有となるように規定された経路差は、本発明において使用する遅延変形を生成し、この遅延変形を含む音響データが本発明の処理方法により処理されることで、本発明の特定の実施の形態では、仰角を含む位置情報の高精度な取得が可能となる。本発明において導入されるこの遅延変形プロファイルは、周囲環境に影響を受けない尺度として音源位置取得のために使用される。
【００１７】
すなわち、本発明によれば、音源と収録手段との間の相対位置に対応した遅延変形を生成する音反射要素と、
前記音反射要素を介して収録された音響データを記録する記憶部と、
前記遅延変形が重畳された音響データを使用して、音源位置を取得するための音源位置取得部と
を含む音源位置取得システムが提供される。本発明の前記音反射要素は、音源と収録手段との間の相対位置に関連する回転楕円体として形成され、前記遅延変形を前記相対位置に固有に生成する。本発明の前記音源位置取得部は、ホワイトノイズ音源が生成する固有の遅延変形を含む基準テンプレートを格納する基準テンプレート格納部と、
背景ノイズのテンプレートを格納する背景ノイズ・テンプレート格納部と、
前記基準テンプレートと背景ノイズ・テンプレートとを使用して前記音響データとの残差を算出する残差生成部と、
生成された残差を使用して、最小残差を与える基準テンプレートを選択する選択部とを含む。本発明の前記基準テンプレート格納部は、基準テンプレートと、該基準テンプレートを与えた音源位置とを対応させて格納する。本発明の前記音源位置取得システムは、複数または単数の音反射要素を含み、前記相対位置として音源までの距離と、方位角と、仰角とを含む音源の位置データを同時に取得する。
【００１８】
本発明によれば、情報処理装置を制御して音源の位置を取得させる音源位置取得方法であって、該音源位置取得方法は、
音源と収録手段との間の相対位置に対応して遅延変形が重畳された音響データを収録するステップと、
前記収録された音響データを記憶部に格納させるステップと、
前記遅延変形が重畳された音響データを読み出して、前記遅延変形により指定される音源の前記相対位置を取得するステップと
を情報処理装置に実行させる、音源位置取得方法が提供される。本発明における前記遅延変形は、音源と収録手段との間の前記相対位置に関連する回転楕円体からの反射により生成され、前記遅延変形は、前記相対位置に固有に生成される。本発明における前記音源位置取得ステップは、ホワイトノイズ音源が生成する前記相対位置固有の遅延変形を含む基準テンプレートを格納する基準テンプレート格納部から基準テンプレートを読み出させるステップと、
背景ノイズのテンプレートを格納する背景ノイズ・テンプレート格納部から背景ノイズ・テンプレートを読み出させるステップと、
前記基準テンプレートと背景ノイズ・テンプレートとを使用して前記音響データとの残差を算出させるステップと、
生成された残差を使用して、最小残差を与える基準テンプレートを選択するステップと
を情報処理装置に実行させる。本発明の前記選択ステップは、選択された基準テンプレートを参照して、該当する基準テンプレートに対応する音源位置を取得するステップを実行させるステップを含む。本発明においては、前記取得された音源位置から音源までの前記相対位置として、距離と、方位角と、仰角とを同時に取得するステップを実行させる。
【００１９】
本発明によれば、音源と収録手段との間の相対位置に対応した遅延変形を生成するための音反射要素であって、該音反射要素は、反射面が、焦点間の距離が前記音源と前記収録手段までの距離に対応する複数の楕円を、前記焦点間を連結する軸を中心として回転させて形成される複数の回転楕円体からなる包絡線を含んで構成される、
音反射要素が提供される。
【００２０】
本発明における前記複数の楕円は、前記音源と前記収録手段との間の仰角に関連して生成され、前記仰角が大きくなるにつれて扁平とすることができる。本発明における前記反射面は、前記焦点間を連結する軸を中心として対応する楕円を回転させて生成される前記複数の回転楕円体の包絡面として形成することができる。
【００２１】
本発明によれば、音源と収録手段との間の相対位置に対応した遅延変形を生成するための音反射要素を形成する方法であって、前記方法は、
焦点間の距離が前記音源と前記収録手段までの距離とに対応する楕円を、前記焦点間を連結する軸を中心として回転させて複数の回転楕円体を生成するステップと、
前記複数の回転楕円体の包絡面を生成して反射面を形成するステップと、
を含む、音反射要素の形成方法が提供される。本発明における前記複数の楕円は、前記音源と前記収録手段との間の仰角に関連して生成され、前記仰角が大きくなるにつれて扁平とすることができる。
【００２２】
【発明の実施の形態】
Ａ．音反射要素の構成
図１は、本発明において使用する距離、方位角、および仰角を定義した図である。図１においては収録手段であるマイクロフォンＭ１、Ｍ２が使用されており、方位角、距離、および仰角は、マイクロフォンＭ１、Ｍ２の中点から測った位置座標として表されている。音源ＳＳは、マイクロフォンの中点から所定の距離ｒだけ離れているのが示されている。上述した座標系において本発明では、音源位置を、カーテシアン座標系（ｘ，ｙ，ｚ）または極座標系（ｒ，θ，φ）で表示することが可能となる。以下、本発明においては仰角の取得を特定の実施の形態として説明するが、本発明においては、方位角、仰角にかかわらず、角度および距離の尺度をもって収録されるいかなる音源の位置の取得についても適用することができる。
【００２３】
本発明は、本質的に音源から直接収録された音波と音反射要素の反射面で反射した反射波との間の経路差を、音源の位置と経路差とを対応させるように音反射要素の形状を構成するものである。本発明においては、本質的に音反射要素を楕円曲線の集合として構成する。従来から楕円曲面は、一方の楕円の焦点から発生した音波は、他方の焦点へと反射することが知られている。図２は、一般的な楕円の性質を示す。図２に示されるように、本発明においては、反射面の断面を、一方の焦点Ａに音源を配置し、マイクロフォンを他の焦点位置Ｂに配置する楕円を使用して構成させる。図２に示した配置では、焦点Ａを出発した音波Ｓｒは、壁のどの位置で反射したとしても、同じ焦点位置Ｂに集まる。反射面として楕円を使用することにより、反射波は、反射せず焦点Ａから焦点Ｂへと直接到達した音波Ｓｄとは、常に楕円曲線により規定された一定の経路差（２ａ−ｆ）を有することになる。
【００２４】
次に、上記経路差に着目して、本発明においては上記経路差を積極的に音源位置の取得に利用することを検討した。ここで、音源位置取得における現実的な音反射要素の適用態様を考えると、音反射要素に相対的にマイクロフォンが固定され、話者などの音源が移動することが現実的な構成を考える上で重要であるものと考えられる。そこで、マイクロフォンの位置を焦点Ｂに固定し、音源の位置が他の焦点Ａとなるように、焦点Ａの位置を変化させた場合の反射面の性質について検討する。図３においては、音源の位置判断を行う最大の距離を規定し、それ以上の距離についてはノイズであるものとして判断するものとする。図３では、音源位置は、想定する最も遠い位置ｆ_ｍａｘから、想定する最も近い位置ｆ_０まで移動されている。同時に図３には、音源がｆ_ｍａｘから最も近い位置ｆ_０まで移動した場合の両位置を焦点とする楕円の包絡線の形状Ｒが示されている。図３に示されるように、焦点Ａ（音源位置）がマイクロフォンに近い時には、楕円は丸みを帯びた円に近い形状となり、焦点Ａ（音源位置）が遠い時には、楕円はつぶれた形状となる。また、焦点Ａが離れるにつれ、左端の形状は放物線に漸近的に近づいてゆく。本発明においては、本質的に音反射要素の形状を、音源位置の移動に関連して形成される楕円曲線の包絡線として構成する。
【００２５】
図４は、図３に示した包絡線の形状を反射面として構成した場合の、音源位置Ａからの音波の反射を概略的に示した図である。図４に示されるように、近い音源位置からの音波が、楕円曲線の奥の部分で反射した場合には、その反射波はマイクロフォン位置である焦点Ｂに集まる。一方で、楕円曲線の端部付近で反射した場合には角度が合わないため拡散される。そのため、検出される反射波の主要な部分を、音反射要素の奥の部分で反射したものが占めることになる。同様に、他の音源位置に対しても、その音源位置に応じて主要な反射波成分となりうる反射位置を、音反射要素の反射面Ｒを包絡線から構成することにより、生成することができることが見出された。すなわち、本発明においては、楕円の包絡面を含む反射面を有する音反射要素を形成することにより音源位置に対して固有で、かつ主要な反射波を生成できることが見出された。一方、この主要な反射波と直接波との経路差は、対応する楕円により規定される経路差に相当する遅延時間を伴うことがわかる。
【００２６】
さらに本発明者らは、上述した楕円の包絡線を反射面として使用した場合の仰角識別性について検討を加えた。図５に、マイクロフォン位置Ｂと音源位置Ａとの間の距離を設定する最大距離とし、仰角θを、想定される最も低い角度θ_０から想定する最も高い角度θ_ｍａｘまで移動させた場合の楕円曲線の包絡線と、包絡線に対応する音反射要素の形状ＲＳとを示す。図４において説明したように、包絡線で音反射要素ＲＳを形成すると、低い角度の音源からの音波は、音反射要素の奥の部分で反射したものが主要な反射波となり、高い角度の音源からの音波は、音反射要素の端の部分で反射したものが主要な反射波を構成する。この主要な反射波は、対応する楕円により規定される経路差に相当する遅延時間を伴う。すなわち、音源位置に対応した固有の反射波となる。
【００２７】
これまで、反射面の断面形状を使用して本発明を詳細に説明してきたが、現実的には本発明の音反射要素の形状は、３次元形状とする必要がある。本発明においては、音反射要素の音波を反射する反射面の３次元形状は、マイクロフォンを設置する側の焦点と音源位置とされる焦点とを連結する軸を中心として、該当する楕円を回転させて形成される複数の回転楕円体の包絡面として形成することができる。
【００２８】
図６には、本発明にしたがって構成された音反射要素の具体的な実施の形態を示す。図６に示した本発明の音反射要素１０は、形状を認識しやすくするために、音源位置に対応した個々の回転楕円体との接線が併せて示されている。図６に示すように、本発明の音反射要素１０は、回転楕円体の包絡面を使いやすいサイズに切り出すことにより構成されている。図６（ａ）は、音反射要素１０の凹面側から見た斜視図であり、図６（ｂ）が同一の音反射要素を、その凸部から見た斜視図である。図６に示されるように、本発明の音反射要素１０は、底部１０ａが離心率の大きな楕円体から構成され、上端部１０ｂが、離心率の大きくされた楕円体から構成されていて、上端部１０ａに向かって仰角に応じて狭くなる構成とされている。
【００２９】
本発明の音反射要素１０においては、マイクロフォン１２は、音反射要素１０構成する回転楕円体の一方の共通焦点に配置されていると共に、マイクロフォン１２は、底部１０ａを含む平面１４上に、音反射要素１０に対して対称となる位置に配置されている。図６に示した実施の形態では、マイクロフォン１２の位置は、音反射要素１０の横方向端部を連結する仮想線１６よりも音反射要素１０側に配設されている。しかしながら、本発明においてはマイクロフォン１２の位置は、音反射要素１０からの反射波を、ノイズを抑えて均等に受け取ることができる限りどのような位置とすることもできる。また、本発明の音反射要素１０は、平面１４を境界として上下方向に連結して使用することもできる。
【００３０】
図７は、本発明の音反射要素１０の配置の実施の形態を示した斜視図である。図７に示した配置の実施の形態においては、音反射要素１０および音反射要素１８が互いに対として配置されている。音反射要素１０および音反射要素１８は、図６で説明したと同様の構成としてマイクロフォン１２、１２ａが配置されている。さらに、図７に示した音反射要素の配置の実施の形態では、音反射要素１０および音反射要素１８は、ともに同一方向に向けられていて、音反射要素１０、音反射要素１８の凹部が向いた方向における音源の位置取得を行うために適した構成とされている。本発明の音反射要素は、本質的には、１つの音反射要素を使用しても音源位置の仰角取得を行うことが可能であるものの、図７に示すように、音反射要素を対として使用することにより、音源位置までの距離、仰角、方位角を同時に決定することが可能となる。
【００３１】
また、音反射要素の全体の形状を小さく設計すると、直接波と主要な反射波の経路差が短くなる。その影響を精度よく観測するためには、高いサンプリング周波数が必要となる。本発明における特定の実施の形態では、音源への仰角０°の時と仰角７２°の時とで、直接波と主要な反射波の経路差を約９．５ｃｍとした場合、これは、約０．２８ｍｓの遅延時間差となる。サンプリング周波数を４８ＫＨｚとした場合、約１３サンプルの差となる。すなわち、理論的には、音源への仰角を０°から７２°までの最大１３段階で識別できる解像度を持つこととなる。本発明において、解像度を保ったまま全体の形状を半分の大きさに設計するならば、サンプリング周波数を２倍の９６ＫＨｚとする必要がある。また、全体の形状を２倍の大きさに設計するならば、サンプリング周波数は半分の２４ＫＨｚでも同じ解像度を達成できるということになる。
【００３２】
Ｂ．本発明における音源位置取得方法および音源位置取得システム
図８には、本発明の音源位置取得方法の概略的なフローチャートを示す。図９に示した本発明の音源位置取得方法では、上述したセクションＡで説明した音反射要素を使用して、仰角の取得を行う。図８に示すように、本発明の音源位置取得方法はステップＳ１０において、音反射要素を介してマイクロフォンにより音声データなどの音響データを収集し、ＡＤコンバータなどを使用して、ディジタル・データに変換した後、メモリに格納する。ステップＳ１２においては、音響データから「プロファイル・フィッティング法による雑音抑圧処理」（市川ら、社団法人電子情報通信学会技術報告、ＳＰ２００２−２１、１９頁〜２３頁、２００２年、５月）に詳細に開示された方法にしたがって、観測プロファイルを算出し、同時に、それぞれの格納部に格納しておいた基準テンプレート（ＳＴＰ）データおよび背景ノイズ・テンプレート（ＢＮＴ）を読み出し、ステップＳ１４において、観測された観測プロファイルと、基準テンプレートおよび背景ノイズ・テンプレートとの１次結合との間の残差Φ_ｎ，ωを算出し、適切なメモリに残差Φ_ｎ，ωを格納する。
【００３３】
ステップＳ１６では、さらに読み出すべく基準テンプレートが残されているか否かを判断し、すべての基準テンプレートについて算差が算出された後、ステップＳ１８で、残差Φ_ｎ，ωをサブバンド周波数毎に正規化してメモリに格納する。ステップＳ２０では、正規化された残差Φ_ｎ，ωの最小値を決定し、その後、ステップＳ２２において、算出された残差の最小値を与えた基準テンプレートに対応する音源位置を取得して、音源位置として選択し、ステップＳ２４において選択された音源位置に対応して登録された音源位置の座標を適切な形式で出力させることにより、取得した音源位置に対して駆動要素を制御させる。
【００３４】
本発明において前記の残差を算出する方法としては、プロファイル・フィッティング法（以下ＰＦ法として参照する。）を適用することができる。特に本発明の好適な実施の形態では、ＰＦ法を採用することが好ましい。ＰＦ法は、「プロファイル・フィッティング法による雑音抑圧処理」（市川ら、社団法人電子情報通信学会技術報告、ＳＰ２００２−２１、１９頁〜２３頁、２００２年、５月）にも開示された雑音抑圧方法であり、仰角、方位角および距離の規定された音源からの観測プロファイルを利用して雑音除去を行うための方法である。しかしながら、本発明においては音源位置の推定を行うための処理にも適切であることが見出された。
【００３５】
本発明において特定の実施の形態における処理に使用される観測プロファイルとは、マイクロフォンで収録された音声信号を遅延和アレイによって処理し、その際に遅延和アレイの指向性を向ける方向を、最大値から最小値まで振って観測されるサブバンド周波数毎のパワー分布のことを意味する。本発明において基準テンプレートとは、本発明において採用する音反射要素を介して収録され、位置が既知のホワイトノイズ音源について予め測定された遅延変形を含む観測プロファイルを、指向性を振る方向を横軸、パワーを縦軸に持つ２次元の観測プロファイルを面積正規化したテンプレート・プロファイルを意味する。
【００３６】
また、本発明において背景ノイズ・テンプレートとは、雑音源位置にホワイトノイズ音源を置いて観測された音響プロファイを、指向性の振り幅を、サンプリング・チャネル数に対して面積正規化されたテンプレート・プロファイルを意味する。基準テンプレートおよび背景ノイズ・テンプレートの作成においては、前述したように、全周波数帯域にパワーを持つホワイトノイズを使用するのが望ましいが、実際に観測される信号および雑音を使用して近似的に代替することもできる。
【００３７】
さらに、本発明における残差Φ_ｎ，ωは、下記式で与えられる。
【００３８】
【数１】

上記式中、Ｘ_ω（θ）は、本発明の音反射要素を通して遅延変形が重畳された音声信号をθ方向に遅延和アレイの指向性を向けて処理したサブバンド周波数ωのパワーであり、ここでは、観測プロファイルとして呼んでいる。Ｐ_ｎ，ω（θ）は、音源位置に対応する基準テンプレートとして格納されたテンプレート・プロファイルであり、Ｑ_ω（θ）は、背景ノイズ・テンプレートとして格納されたテンプレート・プロファイルである。また、ｎは、音源位置に対応する。
【００３９】
ＰＦ法を音声強調に用いるときには、この成分分解はフレームごとに行うが、音源位置取得の場合には全音声フレームの平均に対して１回行うことにより音源位置の取得が可能である。また、Ｘ_ω（θ）は、数秒の呼びかけ発声の平均値を使用することができる。上記式を使用して、α_ｎ， _ωとβ_ｎ， _ωが決定されれば、その残差Φ_ｎ， _ωが求まる。さらに、下記式で定義されるように、サブバンドごとのパワーで除し、Ω個のサブバンドで平均した正規化残差ｂａｒ＿Φ_ｎ， _ωを求める。
【００４０】
【数２】

また、音源候補位置の取得は、下記式（３）を使用して、正規化残差が最も小さくなるようなサンプル・テンプレート音源候補位置ｈａｔ＿ｎを選択し、取得された音源位置を選択することにより実行される。
【００４１】
【数３】

本発明において使用する「プロファイル」という指標は、音響スペクトルに対する遅延変形の尺度だけでなく、従来から利用されてきた両耳時間差および両耳強度差の尺度を包含している。すなわち、本発明の方法は、遅延変形を単独に検出するだけではなく、従来から利用されてきた両耳時間差および両耳強度差の尺度を、遅延変形の尺度と同時に使用することを可能とする。このため本発明では、音源の位置取得に必要な距離、方位角、仰角の情報を同時に取得することを可能とする。したがって、本発明によれば、従来に比較して少ないマイクロフォンを使用して音源位置取得の処理を一元的に実行することができ、また音源位置取得システムの利用性を拡大することが可能となる。すなわち、従来では１つまたは２つといった少数のマイクロフォンを使用する音源位置取得方法では、不可能であった、仰角取得を例外的に扱うことなく、従来から可能であった水平方向の方向取得などのケースと同時に処理することを可能とするので、より高速に付与することが可能となる。また、従来から可能であったケースの方向取得に対しても音反射要素による遅延変形の尺度を加えることにより、より高精度の位置取得が可能となる。
【００４２】
図９は、本発明の特定の実施の形態における音源位置取得システムの概略的構成を示した図である。本発明の音源位置取得システムは、話者２０からの話声を集め、記録するための音反射要素２２と、この音反射要素２２において記録された音響データをディジタル・データに変換して格納するための記録部２４と、音響データを解析して音源位置を取得するための音源位置取得部２６とを含んで構成されている。取得された音源位置情報は、予め登録しておいた基準テンプレートを使用して決定された音源位置の座標カーテシアン座標（ｘ，ｙ，ｚ）または極座標（ｒ、θ、φ）などの適切な形式で図示しないアプリケーション実行部へと渡される。
【００４３】
アプリケーション実行部は、位置座標の入力を受け取って、特定の実施の形態に必要とされる駆動要素２８を駆動させることができる構成とされている。駆動要素２８としては、例えばロボットの頭部、手、足、目、口、胴体、足、全身などの部材や、キオスク装置のカメラ、マイクロフォン、セキュリティ・システムにおけるマイク、カメラなどを挙げることができるが、本発明においてはこれの駆動要素に限定されるものではない。
【００４４】
また、概ね本発明の音源位置取得システムは、中央処理装置（ＣＰＵ）、メモリ、外部Ｉ／Ｏ制御装置、モデムやＮＩＣといった装置を含んで構成される情報処理装置として構成される。さらに本発明の音源位置取得システムは、アプリケーション・ソフトウエアにより駆動されるロボットなどの駆動要素を含んで構成される装置に搭載され、駆動要素の所定の位置を、原位置と、取得した音源位置までの距離差、方位角差、仰角差とを比較して駆動制御する。
【００４５】
図１０は、本発明の音源位置取得システムに含まれる音源位置取得部２６の機能構成を示した詳細な機能ブロック図である。図１０に示した音源取得部２６は、上述したようにロボットやキオスク、キャッシュ・ディスペンサー、音響を感知して動作を行うセキュリティ装置などに搭載された、音源位置取得方法を実行するためのプログラムを、ＣＰＵが実行することにより上述した各手段として機能させることにより実現される。図１０に示すように、本発明の音源位置取得部２６は、音反射要素２２によりディジタル・データとして記録部に一旦格納された音響データを読み出して、処理のために格納する音響データ格納部３０と、基準テンプレート（ＳＴＰ）格納部３２と、背景ノイズ・テンプレート（ＢＮＴ）格納部３４とを含んで構成されている。
【００４６】
さらに、本発明の音源位置取得部２６は、残差を算出するためのプロファイル・フィッティング部（ＰＦ）部３６と、ＰＦ部３６により得られた残差Φ_ｎ _， _ωを格納するための残差格納部３８と、正規化された残差から最小残差を与える基準テンプレートを選択する選択部４０と、必要とされるアプリケーションを実行するためのアプリケーション実行部４２とを含んで構成されている。
【００４７】
本発明のＰＦ部３６は、音響データを読み込んで、観測プロファイルへと変換し、その後、ＳＴＰ格納部３２から基準テンプレートを読み出すと共に、ＢＮＴ格納部３４から背景ノイズ・テンプレートの読み出しを実行する。ＰＦ部３６は、テンプレートの一次結合と、観測プロファイルとの残差を算出し、その結果を、残差格納部３８へと登録する。さらに、音源位置取得部２６は、残差格納部３８に格納された残差を正規化し、正規化された残差を比較することにより、選択部４０において残差の最小を与える正規化残差が特定される。その後、該当する残差を与えた基準テンプレートを参照して格納された３次元位置を適切な形式として取得する。
【００４８】
図１１は、本発明においてＳＴＰ格納部３２に格納された基準テンプレートおよび位置座標のデータ構造を概略的に示した図である。ＳＴＰ格納部３２には、３次元位置（１，．．．，Ｎ：Ｎは、正の整数であり、基準テンプレートの総数に対応する。）に対応する記憶領域が割り当てられている。各記憶領域ｉには、ＳＴＰデータと、その３次元位置データ（ｘ，ｙ，ｚ）とが、それぞれのアドレスに関連して格納されている。また、本発明の別の実施の形態では、基準テンプレートと、３次元位置データとを互いに参照可能に別々の格納領域に格納しておくことができる。
【００４９】
図１１に示されるように、上述した記憶領域ｉには、ＳＴＰデータと３次元位置データとが、対応して格納されているのが例示的に示されている。ＰＦ部３６は、音響データが入力されると、観測プロファイルへと変換し、記憶領域ｉに順にアクセスして、基準テンプレートを読み出し、ＢＮＴデータを使用して１次結合を算出して、その値と観測プロファイルとの残差計算を実行させ、結果を残差格納部３８へと出力させる。なお、本発明においては、ＳＴＰ格納部３２に格納されるＳＴＰデータは、本発明において採用する音反射要素により規定された遅延変形が導入されているので、仰角に固有の遅延変形が与えられており、高精度に仰角取得を行うことができる。選択部４０は、残差の最小値から当該残差を与えた記憶領域ｉを参照して、当該記憶領域ｉに格納された３次元位置データ（ｘ，ｙ，ｚ）を読み出すことにより、音源の取得位置を取得している。取得された３次元位置データは、図１１に示した駆動要素２８の駆動を制御するための、アプリケーション実行部４２への制御入力とされる。
【００５０】
【実施例】
以下、本発明を具体的な実施の形態をもって説明するが、本発明は後述する実施例に限定されるものではない。
【００５１】
（実施例１）正面方向の仰角取得のための音反射要素
音源候補位置の方位角を９０°（正面方向）、音源までの距離を２ｍとし、取得可能な仰角を０°〜７２°として回転楕円体の包絡面を作成し、音反射要素とした。実施例１で形成された音反射要素の上端部は、高仰角の音源位置からの音波をマイクロフォン位置に収束するように反射し音反射要素の根元に近い部分では、低仰角の音源位置からの音波がマイクロフォン位置に収束するように反射される。一方、それら以外の音源位置からの音波は拡散される。反射位置が異なれば、直接波との行程差も異なり、音源位置に対応した遅延量が付与された、特有な反射波が生成される。
【００５２】
上述した音反射要素を使用した場合、音源への仰角０°の時と仰角７２°の時とで、直接波と主要な反射波の経路差に約０．２８ｍｓ（ミリ秒）の遅延時間差が生成された。音源位置取得システムを上述した音反射要素とマイクロフォンと、ＡＤコンバータと、マイクロコンピュータとから構成させ、取得された音源位置の精度を検討した。音源位置取得システムのサンプリング周波数を４８ＫＨｚとし、音源への仰角が０°〜７２°までの仰角解像度を最大１３レベルで識別可能とした。
【００５３】
（実施例２）
音反射要素における「遅延変形」生成の確認
実施例１で形成した音反射要素を使用して、図７のように配置し、２つのマイクロフォンをそれぞれ取り付けて、本発明の集音記録部を形成した。入力には、話声を用い、正面方向、距離２ｍ、仰角０°１５°３０°４５°６０°の音源位置から数秒の呼びかけ、「おーい」、「もしもし」を再生し、入力音声として観測プロファイルを生成した。このとき、サンプリング周波数を、４８ＫＨｚとした。本発明の遅延変形を有する反射波の存在を確認するため、高感度の観測プロファイル分析方法である白色化相互相関（ＣＳＰ＝Ｃｒｏｓｓ−ｐｏｗｅｒＳｐｅｃｔｒｕｍＰｈａｓｅａｎａｌｙｓｉｓ）法：西浦ら、「マイクロフォンアレーを用いたＣＳＰ法に基づく複数音源位置取得」、電子情報通信学会論文誌、Ｄ−１１、第３巻、Ｊ８３−Ｄ−ＩＩ、第８号、１７１３−１７２１頁）を使用した。
【００５４】
ＣＳＰ法は、高感度に音響スペクトルをトレースすることができる手法なので、本発明における遅延変形を高感度に与えることができる。仰角３０°の音源について、算出されたＣＳＰ係数を示す。ＣＳＰ法は、擬似的なピークを多数発生するため、主ピークに比べて、どの位小さな強度の副ピークまで有効なピークとして考えるかについては、任意性がある。今回は、主ピークの１０分の１以上の強度を持ち、かつ、上位３番目までの強度を持つピークのみを有効なピークと設定した。図１２に、仰角３０°の音源について、入力音声信号から得られたＣＳＰ係数を示す。また、その結果を表１に示す。
【００５５】
【表１】

【００５６】
順位が１位の強度を有するピーク位置は、直接収録波に対応し、これが０であることは、正面方向に音源が配置されていることを示している。順位が２位、３位のピークには、直接波と反射波の相関による副ピーク２つが、表に示す設計点の位置で検出されることが期待される。実施例２では、表１に示すように０°以外のケースで少なくとも１つの顕著な強度を有する副ピークを検出することができた。また、設計ポイントに対応するすなわち、この期待される副ピークの存在を検出することで、音源位置に対応した遅延変形が検出された。音源仰角０°のケースでは、期待される副ピーク位置は検出されなかったが、この理由は、実施例１で形成した音反射要素は、仰角０°での反射面積がゼロ（音反射要素の根元）としたためであると考えられる。
【００５７】
図１３には、実施例２において得られた副ピーク位置と、設計上期待される副ピーク位置との相関性を示す。図１３に示すように、観測された副ピーク位置は、実施例１の音反射要素において期待される反射波の存在位置と良好な相関性を有していることが示されている。図１３に示された結果から、実施例１において形成された音反射要素は、期待された遅延変形を与えることが示された。
【００５８】
（実施例３）
実施例１で形成した音反射要素を使用して、実際に音源の仰角を正しく取得できるか否かについて検討を加えた。遅延変形を利用した音源位置の取得のため、この実施例ではＰＦ法を使用した。雑音源として、水平角７５°、距離１ｍ、仰角０°から、ホワイトノイズを再生して背景ノイズをシミュレーションさせた。仰角を換えて５つの位置からの呼びかけ発声および音声のレベルを変えて背景ノイズと重畳することにより、テスト音声を作成した。下記式を使用して、２位の候補にどのくらい差をつけているかという観点からスコアρを定義することにより、仰角位置取得の精度を検討した。ｎ^＊は、設定位置に対応する基準テンプレートの識別子であり、残差Φ_ｎ ^＊が、設定位置における正規化残差を示す。
【００５９】
【数４】

【００６０】
【数５】

【００６１】
上述したスコアは、正しい音源候補位置に対応するプロファイルを選択した場合の正規化残差がゼロならば１００％のスコアが与えられ、音源候補位置取得に失敗した場合には、他のプロファイルを使用した時が正規化残差最小となるので、０％以下のスコアとなる。
【００６２】
実施例３では、正規化残差を算出するときのサブバンドの平均操作は、音反射要素の影響を強く受ける９８５Ｈｚ〜７５０４Ｈｚの範囲で行った。得られた結果を図１４に示す。図１４に示すように、どの場合も、ＰＦ法の成分分解の効果により、雑音の影響を大きく受けることなく、５つの音源候補位置から正しい１つを選択できていることが示される。また、本発明において背景ノイズ・テンプレートを使用しない場合には、Ｓ／Ｎ比の低下と共にスコアが低下することが示されており、本発明において背景ノイズ・テンプレートを含めて残差を生成することにより、音源位置の取得を高精度に、かつＳ／Ｎ比に関係なく行うことができることが示された。
【００６３】
以上実施例をもって本発明を説明してきたが、本発明は上述した実施例に限定されるものではなく、種々の変更、除外、他の実施例についても当業者であれば可能であることが理解されよう。また、本発明の音源取得方法は、これまで知られたいかなるプログラミング言語ででも記述することができ、これらの言語としては、Ｃ言語、Ｃ＋＋言語、アセンブラ語、機械語などを挙げることができる。また、本発明の音源取得方法を実行させるためのコンピュータ実行可能なプログラムは、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、ＣＤ−ＲＯＭ、ＤＶＤ、フレキシブル・ディスク、ハードディスクなどに格納して頒布することができる。
【図面の簡単な説明】
【図１】本発明における音源位置および位置を規定するためのパラメータを示した図。
【図２】本発明において遅延変形を生成する本質的原理を説明した図。
【図３】本発明において音反射要素の反射面を形成するための本質的原理を示した図。
【図４】図３に示した反射面における音波の反射を概略的に示した図。
【図５】本発明において形成される音反射要素の断面形状を形成する包絡線を示した図。
【図６】本発明の音反射要素の実施の形態を示した図。
【図７】本発明の音反射要素の配置の実施の形態を示した図。
【図８】本発明の音源位置取得方法の概略的なフローチャート。
【図９】本発明の音源位置取得システムの概略的な構成を示したブロック図。
【図１０】本発明の音源位置取得部の詳細な構成を示したブロック図。
【図１１】本発明の基準テンプレートおよび３次元位置座標の格納の実施の形態を示した図。
【図１２】本発明において得られた遅延変形を示した図。
【図１３】本発明において生成された遅延変形と設計上の遅延変形との相関性を示した図
【図１４】本発明により取得された音源位置の精度を示した図。
【図１５】従来の集音器の概略的な構成を示した図。
【符号の説明】
１０…音反射要素
１２…収録手段（マイクロフォン）
１４…平面
１６…仮想線
１８…音反射要素
２０…話者
２２…音反射要素
２４…記録部
２６…音源位置取得部
２８…駆動要素
３０…音響データ格納部
３２…ＳＴＰ格納部
３４…ＢＮＴ格納部
３６…ＰＦ部
３８…残差格納部
４０…選択部
４２…アプリケーション実行部

Claims

音源と収録手段との間の相対位置に対応した遅延変形を生成する音反射要素と、
前記音反射要素を介して収録された音響データを記録する記憶部と、
前記遅延変形が重畳された音響データを使用して、音源位置を取得するための音源位置取得部と
を含む音源位置取得システム。
前記音反射要素は、音源と収録手段との間の相対位置に関連する回転楕円体として形成され、前記遅延変形を前記相対位置に固有に生成する、
請求項１に記載の音源位置取得システム。
前記音源位置取得部は、ホワイトノイズ音源が生成する固有の遅延変形を含む基準テンプレートを格納する基準テンプレート格納部と、
背景ノイズのテンプレートを格納する背景ノイズ・テンプレート格納部と、
前記基準テンプレートと背景ノイズ・テンプレートとを使用して前記音響データとの残差を算出する残差生成部と、
生成された残差を使用して、最小残差を与える基準テンプレートを選択する選択部と
を含む、請求項１に記載の音源位置取得システム。
前記基準テンプレート格納部は、基準テンプレートと、該基準テンプレートを与えた音源位置とを対応させて格納する、
請求項１に記載の音源位置取得システム。
前記音源位置取得システムは、複数または単数の音反射要素を含み、前記相対位置として音源までの距離と、方位角と、仰角とを含む音源の位置データを同時に取得する、
請求項１に記載の音源位置取得システム。
情報処理装置を制御して音源の位置を取得させる音源位置取得方法であって、該音源位置取得方法は、
音源と収録手段との間の相対位置に対応して遅延変形が重畳された音響データを収録するステップと、
前記収録された音響データを記憶部に格納させるステップと、
前記遅延変形が重畳された音響データを読み出して、前記遅延変形により指定される音源の前記相対位置を取得するステップと
を情報処理装置に実行させる、音源位置取得方法。
前記遅延変形は、音源と収録手段との間の前記相対位置に関連する回転楕円体からの反射により生成され、前記遅延変形は、前記相対位置に固有に生成される
請求項６に記載の音源位置取得方法。
前記音源位置取得ステップは、ホワイトノイズ音源が生成する前記相対位置固有の遅延変形を含む基準テンプレートを格納する基準テンプレート格納部から基準テンプレートを読み出させるステップと、
背景ノイズのテンプレートを格納する背景ノイズ・テンプレート格納部から背景ノイズ・テンプレートを読み出させるステップと、
前記基準テンプレートと背景ノイズ・テンプレートとを使用して前記音響データとの残差を算出させるステップと、
生成された残差を使用して、最小残差を与える基準テンプレートを選択するステップと
を情報処理装置に実行させる、請求項６に記載の音源位置取得方法。
前記選択ステップは、選択された基準テンプレートを参照して、該当する基準テンプレートに対応する音源位置を取得するステップを実行させるステップを含む、
請求項６に記載の音源位置取得方法。
前記取得された音源位置から音源までの前記相対位置として、距離と、方位角と、仰角とを同時に取得するステップを実行させる、
請求項６に記載の音源位置取得方法。
音源と収録手段との間の相対位置に対応した遅延変形を生成するための音反射要素であって、該音反射要素は、
反射面が、焦点間の距離が前記音源と前記収録手段までの距離に対応する複数の楕円を、前記焦点間を連結する軸を中心として回転させて形成される複数の回転楕円体からなる包絡線を含んで構成される、
音反射要素。
前記複数の楕円は、前記音源と前記収録手段との間の仰角に関連して生成され、前記仰角が大きくなるにつれて扁平とされる、
請求項１１に記載の音反射要素。
前記反射面は、前記焦点間を連結する軸を中心として対応する楕円を回転させて生成される前記複数の回転楕円体の包絡面として形成される、
請求項１１に記載の音反射要素。
音源と収録手段との間の相対位置に対応した遅延変形を生成するための音反射要素を形成する方法であって、前記方法は、
焦点間の距離が前記音源と前記収録手段までの距離とに対応する楕円を、前記焦点間を連結する軸を中心として回転させて複数の回転楕円体を生成するステップと、
前記複数の回転楕円体の包絡面を生成して反射面を形成するステップと、
を含む、音反射要素の形成方法。
前記複数の楕円は、前記音源と前記収録手段との間の仰角に関連して生成され、前記仰角が大きくなるにつれて扁平とされる、
請求項１４に記載の音反射要素の形成方法。