WO2024047721A1

WO2024047721A1 - 疑似アンビソニックス信号生成装置、疑似アンビソニックス信号生成方法、音響イベント提示システム、及びプログラム

Info

Publication number: WO2024047721A1
Application number: PCT/JP2022/032478
Authority: WO
Inventors: 昌弘安田; 翔一郎齊藤; 祐介日和▲崎▼
Original assignee: 日本電信電話株式会社
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-03-07

Abstract

ウェアラブルデバイスで集音した音響信号を用いて、疑似音響強度ベクトルを求められるようにする。このため、開示技術に係る疑似アンビソニックス信号生成装置は、球座標取得部と、計算部と、信号抽出部を含む。球座標取得部は、顔を左右に対称に分ける平面と、左右耳の中心を通る直線の交点を原点として各マイクロフォンの球座標を取得する。計算部は、球座標の半径の平均値を計算し、各球座標の半径を平均値で置き換える。信号抽出部は、平均値で置き換えた球座標と、マイクロフォンで取得した音響信号を用いて疑似アンビソニックス信号を生成する。

Description

疑似アンビソニックス信号生成装置、疑似アンビソニックス信号生成方法、音響イベント提示システム、及びプログラム

　開示技術は３次元音響情報の記録、分析、利用に関する。

　音響信号から、音響イベントの種類と到来方向を検出できると、様々なことに応用できる。
　例えば、検出装置をスマートホーム機器と連動させることで、住居内の異常事態を、推定イベント内容と位置情報とともに、ユーザーに速やかに通知することができる。
　あるいは検出装置を自動運転の自動車に搭載することで、ドライバに危険の発生と必要なアクションを知らせることができる。
　また、あるいは、検出装置を歩行者がウェアラブルデバイスとして携行することで、歩行者に危険の発生と危険の正確な方向を知らせることができる。

　このような技術はＳＥＬＤ(ＳｏｕｎｄＥｖｅｎｔＬｏｃａｌｉｚａｔｉｏｎａｎｄＤｅｔｅｃｔｉｏｎ：音響イベント検出・音源定位)と呼ばれる。
　３次元音場の測定に、ＳＥＬＤでは、主として、一次アンビソニック(ＦｉｒｓｔＯｒｄｅｒＡｍｂｉｓｏｎｉｃ：ＦＯＡ)マイクと呼ばれるマイクロフォンが利用されている。図１にＦＯＡマイクを模式的に示す。ＦＯＡマイクは、単一指向性マイクロフォンＭ_１からＭ_４を正四面体の４つの頂点に配置したマイクロフォンアレイである。

　非特許文献１を参考に、音響信号の球面調和関数展開と、アンビソニックス信号によるビームフォーミングを概観する。
　球座標（ｒ，Ω）で観測された波数ｋの音圧信号ｐは、球面調和関数Ｙ_ｌｍを用いて次のように展開できる。

　Ｙ_ｌｍの直行性により、展開係数ｐ_ｌｍは、一般には、次式で計算される。

　観測信号から求めた球面調和関数の係数情報ｐ_ｌｍをアンビソニックス信号と呼び、ｌ＝０，１まで用いた場合を、一次アンビソニックと呼ぶ。

　求めたｐ_ｌｍは直交基底であるため，これらを重みづけ合成することで、任意のビームパターンを持つビームフォーマーを構成出来る．一般にビームフォーマー出力ｙは次のように表現できる。

　音源が十分遠方にあり、観測信号が平面波とみなせる場合、Ωu方向へのビームパターンを得るための重みｗ_ｌｍは次のように構成できる。

ここで，b_ｌ(k)は，マイクロフォンのバッフルの構造に依存する係数である。
　式（３)、式（４）より、Ωu方向に指向性を持つビームフォーマー出力は次のように表される．

　ここで、（５）を実際に半径ｒの剛体球上のq個のマイクロフォンで観測した信号音のから得るために、ｐ_ｌｍは次式で近似できることを利用する。

　式（５）に式（６）を代入して式（７）を得る。

　式（７）の信号強度が最大となる方向Ωuが、すなわち、信号の到来方向である。

　しかしながら、式（７）を用いて信号到来方向を求めるには、あらゆる方向の信号強度を計算する必要があり、容易でない。そこで、非特許文献１は、一次アンビソニックの場合を例に、アンビソニックス信号から、音響強度ベクトルと呼ばれる、音の伝搬方向と強度を表す物理量を近似的に導出して、音源の方向を推定する方法を提案している。
　音響強度ベクトルＩは、音圧をｐ、粒子速度ベクトルをｖとして次式で定義される。

　上記ｐを、観測音響信号から求めた球面調和関数のゼロ次成分で、ｖを一次成分で置き換え、波数ｋの疑似音響強度ベクトルを次のように定義する。

ここで、ｐ_ｘ(ｋ)，ｐ_ｙ(ｋ)，ｐ_ｚ(ｋ)は以下の通り。

　多くのＳＥＬＤ装置は、この疑似音響強度ベクトルを入力特徴量として利用することで音源方向の推定精度を高めている。

　マイクロフォンの数を増やし、観測３次元音場から得る情報量を増やすことで、より高次の球面調和関数を用いた展開が可能になる。
　なお、Ｎ次の球面調和関数は２Ｎ＋１個の成分を持つため、Ｎ次までの展開係数を求めるには、少なくともΣ_ｍ＝０ ^Ｎ（２ｍ＋１）＝(Ｎ＋１)^２個のマイクを必要とする。
　Ｎ次アンビソニックス信号における疑似音響強度ベクトルは、非特許文献１の疑似音響強度ベクトルの粒子速度ベクトルを、１次からＮ次の成分で計算して得ることができる。
　以下、アンビソニックス信号とは、一次に限定されないＮ次のアンビソニックス信号を意味するものとする。

D. P. Jarrett et al., "3D SOURCE LOCALIZATION IN THE SPHERICAL HARMONIC DOMAIN USING PSEUDOINTENSITY VECTOR," 18th European Signal Processing Conference (EUSIPCO 2010) Proceedings, pp.442-446

　正四面体の頂点に合計４つのマイクロフォンを配置するＦＯＡマイクを、例えば、歩行者が日常的に携行することは現実的でなく、工夫が必要である。
　マイクロフォンをウェアラブル化すると人間が持ち運びやすくはなるが、マイクを同一球面上に配置するのが困難になる。半径Ｒの球面上に配置されたマイクロフォンアレイの場合、球の中心を原点として計算される各マイクロフォンの球座標（Ｒ, φ_ｑ, θ_ｑ)をそのまま用いてアンビソニックス信号を計算することが出来るが、頭部に多数のマイクロフォンを配置した場合、全てのマイク位置を通る球面は、一般には定まらない。
　マイクが同一球面上に配置されていないと、収音した音響信号をアンビソニックス信号に変換できない。ＳＥＬＤのための入力特徴量として用いられる疑似音響強度ベクトルの導出にはアンビソニックス形式の信号を必要とする。
　人に取り付けられるデバイス（ウェアラブルデバイス）によって集音された音響信号を用いて、疑似音響強度ベクトルを求められるようにすることが課題である。

　上記課題を解決するため、開示技術に係る疑似アンビソニックス信号生成装置は、球座標取得部と、計算部と、信号抽出部を含む。
　球座標取得部は、顔を左右に対称に分ける平面と、左右耳の中心を通る直線の交点を原点として各マイクロフォンの球座標を取得する。
　計算部は、球座標の半径の平均値を計算し、各球座標の半径を平均値で置き換える。
　信号抽出部は、平均値で置き換えた球座標と、マイクロフォンで取得した音響信号を用いて疑似アンビソニックス信号を生成する。
　また、開示技術に係る音響イベント提示システムは、人体の頭部に沿って配置された少なくとも４つのマイクロフォンと、疑似アンビソニックス信号生成装置と、推定装置と、提示装置を含む。
　疑似アンビソニックス信号生成装置は、マイクロフォンで取得した音響信号から疑似アンビソニックス信号を生成する。
　推定装置は、疑似アンビソニックス信号から音源の方向と種類を推定する。
　提示装置は、推定結果に基づいて、ユーザーに音源に関する情報を提示する。

　開示技術によれば、人に取り付けられるデバイス (ウェアラブルデバイス) によって集音された音響信号を用いて、疑似音響強度ベクトルを求められるようになり、ウェアラブルな疑似アンビソニックス信号生成装置、並びに、音響イベント提示システムが実現できる。

従来技術によるＳＥＬＤを説明する図。第一実施形態に係る疑似アンビソニックス信号生成装置を含む、音響イベント提示システムの機能ブロック図。人体頭部に設定する球座標の一例を示す図。疑似アンビソニックス信号生成装置の作用を説明するフローチャート図。推定装置の作用を説明するフローチャート図。音響提示装置の機能ブロック図。音響提示装置の作用を説明するフローチャート図。映像提示装置の機能ブロック図。映像提示装置の作用を説明するフローチャート図。コンピュータの機能構成例を示す図。

　以下、開示技術の実施形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第１実施形態］
　図２に、開示技術に係る疑似アンビソニックス信号生成装置を含む、音響イベント提示システムの一例の機能ブロック図を示す。
　音響イベント提示システムは、音響情報取得装置２０１、疑似アンビソニックス信号生成装置２０２、推定装置２０６、提示装置２０９を含む。

＜音響情報取得装置＞
　音響情報取得装置２０１は、頭部または、頭部に装着したデバイス上の任意の位置に設置されたＱ個のマイクロフォンから得られるＱチャネル音響信号ｘ_ｑを取得し、疑似アンビソニックス信号生成装置２０２に供給する。なお、Ｑは４以上の整数とする。

＜疑似アンビソニックス信号生成装置＞
　疑似アンビソニックス信号生成装置２０２は、マイク座標取得部２０３、計算部２０４、信号抽出部２０５を含む。
　図３に、マイク座標を計算するための球座標系の一例を示す。なお、以下の球座標系の設定において、原点を通るｘ軸、ｙ軸、ｚ軸の設定は例示に過ぎず、これに限定されない。
　左右耳の中心を通る線をｙ軸とする。顔を左右に対称に分ける平面と、ｙ軸の交点を球座標系の原点とする。頭部の上下方向に原点を通り、ｙ軸に垂直な直線を球座標系のｚ軸とする。頭部の前後方向に原点を通り、ｙ軸に垂直な直線を球座標系のｘ軸とする。また、球座標系の方位角をφ、仰角をθとする。

　図４は疑似アンビソニックス信号生成装置の作用を説明するフローチャートである。
　マイク座標取得部２０３は、図３の座標系に基づく各マイクロフォンの球座標ｐ_ｑ＝（r_ｑ, φ_ｑ, θ_ｑ)（ｑ＝１，２，・・・，Ｑ）を取得する（ステップＳ４０１）。ｐ_ｑは、疑似アンビソニックス信号生成装置２０２の外部の装置で計測した値を取得してもよいし、設定情報として疑似アンビソニックス信号生成装置２０２に記憶されたものを読み込んでもよい。
　計算部２０４は、マイク座標取得部で取得した球座標を補正する。
　ＦＯＡマイクの場合には（より一般的には半径Ｒの球面上に配置されたマイクロフォンアレイの場合には）、球の中心を原点として計算される各マイクロフォンの球座標（Ｒ, φ_ｑ, θ_ｑ)をそのまま用いてアンビソニックス信号を計算することが出来るが、頭部に配置されたマイクロフォンの場合、上記で定義した原点と各マイクロフォンの距離は、一般に、等しくはならず、マイク座標はそのままアンビソニックス信号の計算に利用できない。そこで、第一実施形態では、各マイクロフォンと原点の距離の平均値ｒを求め（ステップＳ４０２）、ｐ_ｑの各ｒ_ｑをｒで置き換えたｐ'_ｑ＝（ｒ, φ_ｑ, θ_ｑ)を各マイクロフォンの近似的な球座標とする（ステップＳ４０３）。
　次いで、疑似アンビソニックス信号生成装置２０２は、音響情報取得装置２０１からＱチャンネル音響信号ｘ_ｑを取得し（ステップＳ４０４）、Ｑ組のｐ'_ｑとｘ_ｑを用いて疑似アンビソニックス信号を生成する。つまり、Ｑチャネルマイクロフォンが半径ｒの剛体球上に配置されている場合に、アンビソニックス信号を求めるための信号処理（球面調和関数展開など）を行って、疑似アンビソニックス信号を生成する。

＜推定装置＞
　推定装置２０６は、疑似音響強度ベクトル抽出部２０７と推定部２０８を備え、疑似アンビソニックス信号を入力として、音源の方向と種類の推定結果を出力する。
　図５は、推定装置２０６の作用を説明するフローチャートである。
　疑似音響強度ベクトル抽出部２０７は、例えば、非特許文献１に記載の方法で、疑似アンビソニックス信号から疑似音響強度ベクトルを生成する（ステップＳ５０１）。
　推定部２０８は、疑似音響強度ベクトルと疑似アンビソニックス信号を用いて音源の到来方向（ステップＳ５０２）と音源の種類（ステップＳ５０３）を推定する。
　推定は、例えば、「A. Politis et. al, “A dataset of dynamic reververant sound scenes with directional interferers for sound event localization and detection”, arXiv:2106.06999, 2021」（参考文献１）に記載のものと同様のＤＮＮ（ディープニューラルネットワーク）を、本発明によって抽出された音響特徴量を入力として学習したものを用いればよい。ＤＮＮは、疑似音響強度ベクトルと疑似アンビソニックス信号を入力とし、推定結果として、たとえば、音源方向は３次元の単位ベクトル、音源種類は「ベルの音」や「車の走行音」といったラベルと対応する整数を出力するように構成すればよい。

＜提示装置＞
　提示装置２０９は、推定結果を、音響的または視覚的情報に変換して、ユーザーに提供する。

＜第一提示例＞
　第一提示例では、推定結果を立体音響に変換してユーザーに提示する。図６に第一の提示例に係る音響提示装置６０１の機能ブロック図を示す。
　音響提示装置６０１は、ＨＲＴＦ探索部６０２、ＨＲＴＦデータベース６０３、音声・効果音探索部６０４、音声・効果音データベース６０５、畳み込み演算部６０６を備える。
　なお、ＨＲＴＦとはHead related transfer functionの頭文字を取ったもので、音源から両耳まで、音がどのように届くかを表した関数である。日本語では頭部伝達関数と呼ばれる。ＨＲＴＦデータベースには、音響イベント提示システムの用途に合わせてあらかじめ、頭部を中心とした球の全方向をカバーするＨＲＴＦ、あるいは上半球の全方向をカバーするＨＲＴＦなどを登録しておく。
　音声・効果音データベースには、推定結果として得られた音源種類に対応する音声や効果音を登録しておく。推定結果の音源種類と、音源種類対応音声ファイルの対応の決め方は任意であり、たとえば「車」という音源種類に対応する音源種類対応音声ファイルとしては、「車が近づいています」という警告音声を収録したものなどを用いることが出来る。

　図７は音響提示装置６０１の作用を説明するフローチャートである。
　ＨＲＴＦ探索部６０２は、推定結果として得られた音源方向と最も近い方向のＨＲＴＦをＨＲＴＦデータベースから検索し、音源方向ＨＲＴＦを得る（ステップＳ７０１）。
　音声・効果音検索部６０４は、推定結果として得られた音源種類に対応する音声や効果音を音声・効果音データベースから検索し、音源種類対応音声ファイルを得る（ステップＳ７０２）。
　畳み込み演算部６０６は、得られた音源種類対応音声ファイルに音源方向ＨＲＴＦを畳み込む。これによって、音源方向において音源種類対応音声ファイルが再生された状況を想定した音を生成する。例えば、「車が近づいています」という音声が、車の到来方向から聞こえるような立体音響をユーザーに提示できる。

＜第二提示例＞
　第二提示例では、推定結果を映像に変換してユーザーに提示する。図８に第二提示例に係る映像提示装置８０１の機能ブロック図を示す。
　映像提示装置８０１は、マーカー画像取得部８０２、マーカー画像データベース８０３、マーカー画像変換部８０４、カメラ映像取得部８０５、推定結果合成部８０６を備える。
　マーカー画像データベース８０３には、たとえば、音源の種類に応じた形や色の立体矢印画像を、基本マーカー画像として登録しておく。

　図９は映像提示装置８０１の作用を説明するフローチャートである。
　マーカー画像取得部８０２は、音源の種類に応じた基本マーカー画像を、マーカー画像データベース８０３から取得する（ステップＳ９０１）。
　マーカー画像変換部８０４は、推定結果の音源方向を用いて、基本マーカー画像を立体的に回転させ、修正マーカー画像を生成する（ステップＳ９０２）。例えば、マーカー画像が頭部中心から音源方向に延びる様を示すように回転させる。
　カメラ映像取得部８０５は、ユーザーの周囲の画像を取得する（ステップＳ９０３）。
　推定結果合成部８０６は、カメラ映像取得部８０５が取得した画像に、修正マーカー画像を加算合成する（ステップＳ９０４）。
　これにより、映像提示装置８０１は、ユーザーに、音源の種類と到来方向を視覚的に提示することができる。

　なお、マーカー画像データベースには、あらかじめ、全ての音源方向・種類に対するマーカー画像を事前に登録しておき、音源種類と方向に応じて選択するようにしてもよい。
　あるいは、音源種類に応じて基本マーカー画像を生成し、音源方向に基づいてマーカー画像の方向を定めるようにしてもよい。

[変形例]
　第一実施形態では頭部の略中心（左右耳の中心を通る線と、顔を左右に対称に分ける平面との交点）球座標の原点としたが、頭部装着マイクロフォンが４つの場合、マイクロフォンを全て通る球面を計算し、その球の中心を原点としてもよい。

［プログラム、記録媒体］
　上述の各種の処理は、図１０に示すコンピュータ２０００の記録部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０、表示部２０５０などに動作させることで実施できる。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　人体の頭部に沿って配置された少なくとも４つのマイクロフォンで取得した音響信号からアンビソニックス信号を生成する装置であって、
　顔を左右に対称に分ける平面と、左右耳の中心を通る直線の交点を原点として各マイクロフォンの球座標を取得する球座標取得部と、
　前記球座標の半径の平均値を計算し、各球座標の半径を平均値で置き換える計算部と、
　前記平均値で置き換えた球座標と、マイクロフォンで取得した前記音響信号を用いて疑似アンビソニックス信号を生成する信号抽出部と、
　を含む疑似アンビソニックス信号生成装置。
　人体の頭部に沿って配置された少なくとも４つのマイクロフォンで取得した音響信号からアンビソニックス信号を生成する方法であって、
　座標取得部が、顔を左右に対称に分ける平面と、左右耳の中心を通る直線の交点を原点として各マイクロフォンの球座標を取得するステップと、
　計算部が、前記球座標の半径の平均値を計算し、各球座標の半径を平均値で置き換えるステップと、
　信号抽出部が、前記平均値で置き換えた球座標と、マイクロフォンで取得した前記音響信号を用いて疑似アンビソニックス信号を生成するステップと、
　を含む疑似アンビソニックス信号生成方法。
　人体の頭部に沿って配置された少なくとも４つのマイクロフォンと、
　前記マイクロフォンで取得した音響信号から疑似アンビソニックス信号を生成する疑似アンビソニックス信号生成装置と、
　前記疑似アンビソニックス信号から音源の方向と種類を推定する推定装置と、
　推定した前記音源の方向と種類に基づいて、ユーザーに音源に関する情報を提示する提示装置
　からなる音響イベント提示システム。
　請求項３に記載の音響イベント提示システムであって、
　前記提示装置は、音源の方向と種類を聴覚的にまたは視覚的に提示する
　音響イベント提示システム。
　請求項１に記載の疑似アンビソニックス信号生成装置、または請求項３，４のいずれかに記載の音響イベント提示システムとしてコンピュータを機能させるためのプログラム。