JP6587047B2

JP6587047B2 - 臨場感伝達システムおよび臨場感再現装置

Info

Publication number: JP6587047B2
Application number: JP2014234480A
Authority: JP
Inventors: イシイ・カルロス・トシノリ; 超然劉; 石黒　浩; 浩石黒
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2019-10-09
Anticipated expiration: 2034-11-19
Also published as: JP2016100677A

Description

この発明は音源定位技術と音空間再構成技術に関し、特に、音源定位および音源分離技術を用いて、遠隔地への臨場感を伝達するための技術に関する。

近年、ロボット遠隔操作システムにおいて、操作者の存在感をロボット側に伝達する研究が広く行われている（たとえば、非特許文献１、非特許文献２、非特許文献３を参照）。しかし、操作者側へ遠隔地の臨場感を伝達することに注目した研究は少ない。

対面コミュニケーションに比べて、遠隔地にいる人物がロボットを介して人とコミュニケーションする場合、空間情報などの欠落によって相手との共有情報が不足する。そのため、操作者側ではコミュニケーションが行われている現場の臨場感を感じることが困難である。

臨場感の伝達に大きな手助けとなるのは、バーチャルリアリティ技術である。現在では多くの遠隔医療・軍事・コミュニケーション目的のアプリケーションなどにおいてバーチャルリアリティ技術が利用されており、臨場感の伝達はこれらの一つの大きな目的となっている。

一方で、ロボットと人とのコミュニケーションにおける音源定位および音源分離の技術についてもすでに多くの報告がある。人とロボットとの音声コミュニケーションにおいて、ロボットに取付けたマイクロフォンは通常離れた位置（１ｍ以上）にある。したがって例えば電話音声のようにマイクと口との距離が数センチの場合と比べて、信号と雑音の比（ＳＮＲ）は低くなる。このため、傍にいる他人の声や環境の雑音が妨害音となり、ロボットによる目的音声の認識が難しくなる。従って、ロボットへの応用として、音源定位や音源分離は重要である。

音源定位に関して、実環境を想定した従来技術として特許文献１または特許文献２に記載のものがある。特許文献１または特許文献２に記載の技術は、分解能が高いＭＵＳＩＣ法と呼ばれる公知の音源定位の手法を用いている。

特許文献１または特許文献２に記載の発明では、マイクロフォンアレイを用い、マイクロフォンアレイからの信号をフーリエ変換して得られた受信信号ベクトルと、過去の相関行列とに基づいて現在の相関行列を計算する。このようにして求められた相関行列を固有値分解し、最大固有値と、最大固有値以外の固有値に対応する固有ベクトルである雑音空間とを求める。さらに、マイクロフォンアレイのうち、１つのマイクロフォンを基準として、各マイクの出力の位相差と、雑音空間と、最大固有値とに基づいて、ＭＵＳＩＣ法により音源の方向を推定する。

さらに、特許文献３では、人間とそれ以外の雑音源とが混在している場合、人間の発生する音声と雑音とを精度高く分離することを目的として、音源定位および音源分離をするシステムが開示されている。ここでは、音源定位装置は、人の位置を検出するＬＲＦ（レーザレンジファインダ）群と、マイクロフォンアレイ群の出力から得られる複数チャンネルの音源信号の各々と、マイクロフォンアレイに含まれる各マイクロフォンの間の位置関係と、ＬＲＦ群の出力とに基づいて、複数の方向の各々について、所定時間ごとにＭＵＳＩＣパワーを算出し、そのピークを音源位置として所定時間ごとに検出する音源定位処理部と、マイクロフォンアレイの出力信号から、音源定位処理部により検出された音源位置からの音声信号を分離する音源分離処理部と、分離された音声信号の属性を人位置計測装置の出力を用いて高精度で判定する音源種類同定処理部とを含む。

特開２００８−１７５７３３号公報明細書特開２０１１−２２０７０１号公報明細書特開２０１２−２１１７６８号公報明細書

Nishio, S., Ishiguro, H., Hagita, N. Can a Teleoperated Android Represent Personal Presence? - A Case Study with Children. Psychologia, 50(4): 330-342. 2007. Ishi, C.T., Liu, C., Ishiguro, H., Hagita, N. 2010. Head motion during dialogue speech and nod timing control in humanoid robots. In Proceedings of 5th ACM/IEEE International Conference on Hu-man-Robot Interaction (HRI 2010). OSAKA, JAPAN. 293-300. Sumioka, H., Nishio, S., Minato, T., Yamazaki, R., Ishiguro, H. Minimal Human Design Approach for Sonzai-kan Media: Investigation of a Feeling of Human Presence. Cognitive Computation, 2014.

しかしながら、上述したような、これらバーチャルリアリティに関する研究の大部分は、視覚における臨場感伝達に着目しているものである。音環境の構築に関するバーチャルリアリティの研究は、ゲームなどのアプリケーションで用いられているものの、未だ少ないのが現状である。

３次元音場を再現するため従来広く使われた方法は、バイノーラル（両耳）レコーディングされた音声をステレオで再生することである。この方法は簡便であるという利点があるが、正確なステレオマイクロフォンのセッティングが必要で、尚且つダミーヘッドが動かないためダイナミックに音場を再現することができない。さらに、各音源に対して加工を加えることも不可能である。
サラウンドチャンネルスピーカーは空間的な音場の再現のために開発されており、DirAC（Directional Audio Coding）を用いた音場再現の研究は少なくない。

しかし、サラウンドスピーカーシステムには二つの問題点がある。一つ目は、音場を録音した環境とそれを再生する環境が異なる場合、部屋の大きさや形状などの環境的要素が音響の伝達に影響を与えてしまい、これらの影響を正確に補正することは困難であるという点である。二つ目は、サラウンドスピーカーシステムでは “sweet spot” の位置がシステムの中心付近に限られている、という点である。即ち、聴者の場所が制限される。

このような事情はあるものの、再現側でのリッチな音環境の構築は、遠隔操作ロボットなどのソーシャルメディアにおいても、操作者に遠隔地での自身の存在感や現場の臨場感を伝えるために重要な要素であると考えられる。

この発明は、このような問題点を解決するためになされたものであって、その目的は、第１の場所において観測された３次元的な音環境を、第２の場所にいる人に対して再現することで、臨場感を伝達することが可能な臨場感伝達システムおよび臨場感再現装置を提供することである。

この発明の１つの局面に従うと、第１の場所の音環境を第２の場所に伝送して再現するための臨場感伝達システムであって、第１の場所に設置される音源定位装置を備え、音源定位装置は、第１の場所における対象物の位置を検出する位置検出手段と、マイクロフォンアレイ部からの出力に応じて、音の到来方向を推定し、位置検出手段の検出結果と統合して、音源の位置を特定して出力する音源定位手段と、特定された音源の位置からの音を分離して出力するための音源分離手段とを含み、第２の場所に設置される音声合成装置をさらに備え、音声合成装置は、第２の場所内の被験者の顔姿勢をリアルタイムで連続的に検出するための顔姿勢検出手段と、被験者に装着され、被験者の両耳に対して音環境に対応する音を再現するための音再現手段と、音源定位手段から、音源の位置の位置を受信し、検出された顔姿勢に応じて、第１の場所の第１の座標系における音源の位置を第２の場所の第２の座標系における位置に変換して、第２の場所において、定位された音源からの音声が特定の方向から聞こえるように、第１の場所の音源の位置の位置に相当する位置から被験者の各耳への特定の方向に対応する頭部伝達関数を用いて、音源分離手段からの分離音の信号から音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを含む。

好ましくは、音再現手段は、ヘッドフォンであり、顔姿勢検出手段は、ヘッドフォンに装着されたジャイロおよびコンパスを含む。

好ましくは、音再現手段は、ヘッドフォンであり、顔姿勢検出手段は、撮像された被験者の画像から被験者の顔姿勢を推定する。

好ましくは、マイクロフォンアレイ部は、複数のマイクロフォンアレイを含み、
音源定位手段は、複数のマイクロフォンアレイの各々に基づく音の到来方向と位置検出手段で検出された音源の位置が、交差することに応じて、音源の位置を特定し、音空間再構成手段は、音源分離手段からの分離音をそれぞれ受信して、マイクロフォンアレイから音源までの距離による違いを補正するために、各分離音の音量をそれぞれ正規化するための音量制御処理手段を含む。

好ましくは、音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、音空間再構成手段は、第２の場所において、第１の場所の音源の位置の位置に相当する位置から被験者の各耳への頭部伝達関数をデータベースから選択して、各耳へ再現するための音信号を合成する。

好ましくは、音空間再構成装置は、被験者が第２の場所における自身の位置または顔姿勢を指定する指示手段と、指示手段からの指示に応じて、音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える。

この発明のさらに他の局面に従うと、第１の場所の音環境に関する情報を送信する送信装置からの情報に基づき、第１の場所の音環境を第２の場所で再現するための臨場感再現装置であって、送信装置からは、第１の場所における音源の位置を示す位置情報と、位置情報で特定された音源の位置からの音を分離した分離音の信号とが送信され、第２の場所内の被験者の顔姿勢をリアルタイムで連続的に検出するための顔姿勢検出手段と、被験者に装着され、被験者の両耳に対して音環境に対応する音を再現するための音再現手段と、音源定位手段から、音源の位置の位置を受信し、検出された顔姿勢に応じて、第１の場所の第１の座標系における音源の位置を第２の場所の第２の座標系における位置に変換して、第２の場所において、定位された音源からの音声が特定の方向から聞こえるように、第１の場所の音源の位置の位置に相当する位置から被験者の各耳への特定の方向に対応する頭部伝達関数を用いて、分離音の信号から音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを備える。

好ましくは、被験者が第２の場所における自身の位置または顔姿勢を指定する指示手段と、指示手段からの指示に応じて、音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える。

本発明によれば、第１の場所において観測された３次元的な音環境を、第２の場所にいる人に対して再現することで、臨場感を伝達することが可能である。

また、この発明によれば、遠隔操作型ロボットを操作する操作者に、ロボットの存在する環境の臨場感を伝達することが可能である。

本実施の形態の臨場感伝達システム１０００の構成を説明するためのブロック図である。音源定位装置３００の構成を説明するための機能ブロック図である。受信側の音声合成装置５００を説明するための機能ブロック図である。音源定位装置３００のハードウェア構成を説明するためのブロック図である。実験系を説明するための図である。実験結果を示す図である。インタフェースの画面表示例を示す図である。ユーザインタフェースの実験結果を示す図である。

以下、本発明の実施の形態の臨場感伝達システムの構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。

なお、以下の説明では、音センサとしては、いわゆるマイクロフォン、より特定的にはエレクトレットコンデンサマイクロフォンを例にとって説明を行うが、音声を電気信号として検出できるセンサであれば、他の音センサであってもよい。

以下に説明するように、本実施の形態の臨場感伝達システムは、遠隔地にあるロボット周囲に分布している複数の音源から構成される音環境（３次元音場）を、操作者（オペレーター）側に再現・加工することで、音の臨場感を伝達する。

そして、操作者側の音環境の再生には、ヘッドフォンを例として説明することにする。

図１は、本実施の形態の臨場感伝達システム１０００の構成を説明するためのブロック図である。

図１では、臨場感の送信側の座標系は、（ｘ，ｙ，ｚ）であり、受信側の座標系は、（ｘ´，ｙ´，ｚ´）であるものとする。

臨場感伝達システム１０００において、臨場感の送信側は、複数のマイクロフォンアレイ１０．１〜１０．Ｍを含むマイクロフォンアレイ群１００と、複数のレーザレンジファインダ（ＬＲＦ：Laser Range Finder）２０．１〜２０．Ｌを含むＬＲＦ群２００と、マイクロフォンアレイ群１００とＬＲＦ群２００との出力に基づいて、送信側の環境に存在する音源の定位と音源の分離を行う音源定位装置３００とを備える。

音源定位装置３００において、人位置検出追跡部３１０は、ＬＲＦ群２００の出力を用いて、どの位置に人間が存在するかを示す情報（人位置情報と呼ぶ）を検出し、人の動きに応じて、非発声期間においても人位置の追跡を行う。音源定位部３２０は、マイクロフォンアレイ群５２の出力および人位置検出追跡部３１０から出力される人位置情報を受けて、マイクロフォンアレイ群５２から出力される音声信号に基づいて音源定位を行ない、音源分離部３３０は、音源を分離して分離した各音源からの音を収集し、分離音を受信側に送信する。また、音源定位部からの音源の方向および位置の情報（方向・位置情報と呼ぶ）も受信側に送信される。

臨場感伝達システム１０００の受信側（オペレーター側：臨場感再現装置）の処理では、音声合成装置５００は、音源分離部３３０からの分離音を受信して音量を正規化するための音量制御部５１０と、オペレーター２が装着したヘッドホン上のセンサ６００からの情報を基に、オペレータ２の顔の向きを推定する顔姿勢推定部５２０と、受信した方向・位置情報と推定されたオペレーター２の顔の向きに応じて、音源の位置および顔の向きから、左右のチャンネルに対応した頭部伝達関数（ＨＴＲＦ：Head Relative Transfer Function）をデータベース５３０から選択し、分離した音声に畳み込み演算を行い、ステレオヘッドフォン６１０でオペレーター２に再生する音声を再構成して合成する音空間再構成部５４０とを備える。

オペレーター２の頭部回転トラッキングのためのセンサ６００としては、ヘッドフォン６１０の上部に取り付けたジャイロセンサーおよびコンパスを用いることができる。

また、音量制御部３１０においては、分離した各音源のボリュームについては、オペレータ２が、表示部６５０に表示されるユーザインタフェースにて独立して調節することが可能な構成としてもよい。

なお、送信側および受信側の処理では、システムを構成する各部の同期を制御するための同期用タイムサーバを設け、各処理を同期して処理する構成としてもよい。

図２は、音源定位装置３００の構成を説明するための機能ブロック図である。

図２を参照して、音源定位部３２０は、各マイクロフォンアレイ１０．１〜１０．Ｍからの信号によって、それぞれ、音の３次元到来方向（ＤＯＡ：Direction Of Arrival）を推定する３次元空間ＤＯＡ評価部３２０２．１〜３２０２．Ｍと、３次元空間地図を格納する３次元空間地図格納部３２０４とを備え、空間情報統合部３２０６は、３次元空間地図で表現される環境とマイクロフォンアレイの位置関係、各音源のＤＯＡ、および人位置検出追跡部３１０からの情報を統合することで、３次元上での人位置情報を取得する。この人位置情報は、ヒューマントラッキングシステムを構成する人位置検出追跡部３１０により、非発声時にも常時追跡されている。

音源分離部３３０において、音源分離処理部３３０２．１〜３３０２．ｎは、推定した人位置情報に基づいて各人の音声を分離し、空間情報統合部３２０６からの位置情報と合わせて受信側（オペレーター側）のシステムに送信する。

以下、各部の動作について、さらに詳しく説明する。
（３次元音源定位）
音源定位に関しては、まず、３次元空間ＤＯＡ評価部３２０２．１〜３２０２．Ｍが、各マイクロフォンアレイ１０．１〜１０．Ｍのそれぞれに対してＤＯＡ推定を行う。空間情報統合部３２０６は、複数のアレイによるＤＯＡ情報と人位置検出追跡部３１０からの人位置情報を統合することで、音源の３次元空間内の位置を推定する。
実環境での音のＤＯＡ推定は広く研究されてきており、ＭＵＳＩＣ法は、複数のソースを高い分解能で定位できる最も有効な手法の一つであり、たとえば、上述した特許文献１，２にも開示されている。音源数を固定した数値に仮定し、しきい値を超えたＭＵＳＩＣスペクトルのピークを音源として認識する。ここでは、たとえば、ＭＵＳＩＣ法の実装にあたり、１００ｍｓごとに１度の分解能を有するように構成したとしても、動作クロック周波数２ＧＨｚのシングルコアＣＰＵで、リアルタイムに音源の方向を探索することができる。
さらに、コミュニケーションロボットの遠隔操作システムにとって、最も重要な音源は人の音声である。そこで、音源定位装置３００では、人の声を漏れ無く抽出するために、複数の２次元ＬＲＦで構成したヒューマントラッキングシステムを使用する。空間情報統合部３２０６は、複数のマイクロフォンアレイからのＤＯＡ推定出力とＬＲＦのトラッキング結果が同じ位置で交差すれば、そこに音源がある可能性が高いと判断する。

ここで、音源定位装置３００のように、２次元のＬＲＦを用いている場合は、人位置情報は２次元に限られる。ここでは、検出された音源の位置が口元の高さの範囲内にあるかの制限（たとえば、ｚ＝１〜１．６ｍ）もかけて音源の特定を行う。無音区間や音源方向推定が不十分な区間では、最後に推定された口元の高さと最新の２次元位置情報を用いて、音源分離を行う。
（音源分離）
音源分離部３３０では、選択された複数の人物（人数：ｎ人）をパラレルに分離している。

音源分離処理部３３０２．１〜３３０２．ｎでは、計算量が少なく且つロバストな遅延和ビームフォーマ（Delay-Sum Beamformer）を用いて、目的方向の人の声を分離する。フレーム長は２０ｍｓで、シフト長は１０ｍｓである。
ここで、遅延和ビームフォーマについては、たとえば、以下の文献に開示がある。

文献１：国際公開ＷＯ２００４／０３４７３４公報（再表2004-034734号公報）
ビームフォーミングの基本原理を、２マイクロホンの場合を例に簡単に説明する。

特性が全く等しい２個の全指向性マイクロホンを間隔ｄで配置し、これらに対して平面波が方向θから到来する状況を考える。この平面波は各マイクロホンにおいて、経路差ｄｓｉｎθの分だけ、伝搬遅延時間が異なる信号として受信される。ビームフォーミングを行う装置であるビームフォーマでは、或る方向θ０から到来する信号に関する伝搬遅延を補償するように、δ＝ｄｓｉｎθ_０／ｃ（ｃは音速）だけ、一方のマイクロホン信号を遅延させ、その出力信号を他方のマイクロホン信号と加算または減算する。

加算器の入力では、方向θ_０から到来する信号の位相が一致する。従って、加算器の出力において、方向θ_０から到来した信号は強調される。一方、θ_０以外の方向から到来した信号は、互いに位相が一致しないため、θ_０から到来した信号ほど強調されることはない。その結果、加算器出力を用いるビームフォーマは、θ_０にビーム（Ｂｅａｍ：特に感度の高い方向）を有する指向性を形成する。対照的に、減算器では、方向θ_０から到来する信号が完全にキャンセルされる。従って、減算器出力を用いるビームフォーマは、θ_０にヌル（Ｎｕｌｌ：特に感度の低い方向）を有する指向性を形成する。このように遅延と加算のみを行うビームフォーマを、「遅延和ビームフォーマ」と呼ぶ。

ここで、より一般に、空間に指向性音源Ｓと無指向性雑音源Ｎが存在すると仮定すると、遅延和ビームフォーマの出力は以下の形になる：

Ｙは周波数ｆに対応したビームフォーマの出力で、Sdirは信号の方向、ｗ_SdirはSdir方向のビームフォーマレスポンスを指す。式の二つ目の項目は、分離音声に混在する雑音を表している。この雑音成分を低減させるために、各周波数に以下のようなウェイトを掛ける。

Ｙ_PFはウェイト掛けした後のビームフォーマ出力である。
図３は、受信側の音声合成装置５００を説明するための機能ブロック図である。

音量制御部５１０は、音源分離部３３０からの分離音をそれぞれ受信して音量をそれぞれ正規化するための音量制御処理部５１０２．１〜５１０２．ｎを備える。

音量制御部５１０は、各音源とアレイの間の距離による違いを補正するため、分離した各音声に対して距離によって以下のように正規化を行う。

このうち、Ｎは音源の数で、dist_nはｎ番目の音源とアレイの距離を表す。ｇ_iはｉ番目の音源に掛ける正規化ファクタで、Ｙiはｉ番目の音源の分離結果を示している。

顔姿勢推定部５２０は、オペレーター２が装着したヘッドホン上のセンサ６００からの情報を基に、オペレータ２の顔の向きを推定する。

ただし、たとえば、オペレータ２の顔の向きを推定する方法は、このような構成に限定されるわけでなく、たとえば、オペレータ２の画像を撮像し、この撮像データからオペレータ２の頭部姿勢を推定することとしてもよい。このような撮像画像による頭部姿勢の推定については、特に限定されないが、たとえば、以下の文献に開示がある。

文献２：特開２０１４−９３００６号公報
音空間再構成部５４０において、空間再構成部５５０は、送信側から受信した方向・位置情報と推定されたオペレーター２の顔の向きに応じて、座標系（ｘ´，ｙ´，ｚ´）における音源の位置を再構成し、推定された顔の向きから、左右のチャンネルに対応した正確な頭部伝達関数（ＨＴＲＦ：Head Relative Transfer Function）をデータベース５３０から選択する。

ここで、頭部伝達関数ＨＴＲＦとは、任意に配置された音源から発せられたインパルス信号を、受聴者の外耳道入り口で測定したインパルス応答であり、たとえば、以下の文献にも開示がある。

文献３：特開２０１０−１１８９７８号公報
音空間再構成部５４０において、ＨＴＲＦ処理部５５０２．１〜５５０２．ｎは、分離され音量が制御された音声に、選択された頭部伝達関数との畳み込み演算を行い、左耳音声合成部５５０４．１および右耳音声合成部５５０４．２は、ステレオヘッドフォン６１０の左右のスピーカでオペレーター２に再生する左耳用音声および右耳用音声をそれぞれ合成する。

ヘッドフォンを用いた３Ｄ音場の再現においては、日常、人は両耳に到達した音波の違いによって音源定位を行っていることを利用する。ヘッドフォン６１０で、この違いを再現することで、ステレオヘッドフォンで３Ｄ音場を合成することが可能になる。

頭部伝達関数ＨＴＲＦは、空間内の音源から発した音波が人の両耳に到達する時点の違いを表現する関数であって、３Ｄ音場のバイナル再現に多く使われる。しかし、ヘッドフォンを使って空間上に存在する音源を再現する際には、バーチャルな音源が聴者の頭部・体の動きと共に動いてしまうという問題点がある。人の日常経験を考えると、外部音源の位置は聴者の体の動きに関連せず、固定されている。ヘッドフォンによる３Ｄ音場の再現ではこの経験と異なるため、臨場感の伝達にマイナスに働き、不自然な印象の原因となってしまう。さらに、頭部伝達関数を使った場合、前後の誤判断が起こるという問題がある。これは、前方にある音源が後方にあるように聞こえる、もしくはその逆の現象である。日常生活では音源を定位するために意識的・無意識的に頭部を回し、その効果を定位の補助に用いている。

これらを考慮し、臨場感伝達システム１０００では、オペレーター２の頭部回転をトラッキングすることで、頭部の向きに合わせたＨＴＲＦを用いてステレオ音声を合成する。正確なＨＴＲＦを選択するのに必要な連続的音源位置情報は、複数のマイクロフォンアレイのＤＯＡ推定結果、および、人位置推定システムから取得されている。

すなわち、一つの音声を特定の方向から聞こえるようにするため、その方向に対応したＨＴＲＦによってフィルタリングしてステレオ化する。ＨＴＲＦを表す係数のデータベースとしては、特に限定されないが、たとえば、一般公開されているＫＥＭＡＲ(Knowles Elec-tronics Manikin for Acoustic Research) ダミーヘッドのＨＴＲＦデータベースを利用することができる。ＫＥＭＡＲは、ＨＴＲＦ研究のために一般的な頭部サイズを使って作られたダミーヘッドで、データベースには空間からのインパルス信号に対するダミーヘッドの左右耳のレスポンスとして、仰角−４０度から９０度までの総計７１０方向のインパルス応答が含まれている。各インパルス応答の長さは５１２サンプルで、サンプリング周波数は４４．１ｋＨｚである。なお、被験者の頭部の形状に対応したＨＴＲＦを合成しておき、これをデータベースとして使用することも可能である。

ＨＴＲＦを用いてダイナミックに音場を合成するには、頭部の向きのリアルタイム検出が必要であるため、上述のように、ヘッドフォンの上部にジャイロセンサーとコンパスを取り付け、頭部回転のトラッキングを行う構成とすることができる。このとき、角度情報はシリアルおよびブルートゥース経由のいずれかでシステムに送られる。音場の合成に使う方向は音源方向から頭部角度を引いたもので、この方向に対応した左右チャンネルのインパルス応答がデータベースから選出され、分離結果と畳み込み演算を行った音声がオペレーターの両耳に再生される。

図４は、音源定位装置３００のハードウェア構成を説明するためのブロック図である。

なお、音声合成装置５００も、基本的には、同様の構成を有する。すなわち、図２または図３に示した各機能ブロックの機能は、以下に説明するようなハードウェア上で動作するソフトウェアにより実現される。

図４に示されるように、音源定位装置３００は、外部記録媒体６４に記録されたデータを読み取ることができるドライブ装置５２と、バス６６に接続された中央演算装置（ＣＰＵ：Central Processing Unit）５６と、ＲＯＭ（Read Only Memory) ５８と、ＲＡＭ（Random Access Memory）６０と、不揮発性記憶装置５４と、マイクフォンアレイ１０．１〜１０．Ｍからの音声データおよびレーザレンジファインダ２０．１〜２０．Ｌからの測距データを取込むためのデータ入力インタフェース（以下、データ入力Ｉ／Ｆ）６８とを含んでいる。

外部記録媒体６４としては、たとえば、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭのような光ディスクやメモリカードを使用することができる。ただし、記録媒体ドライブ５２の機能を実現する装置は、光ディスクやフラッシュメモリなどの不揮発性の記録媒体に記憶されたデータを読み出せる装置であれば、対象となる記録媒体は、これらに限定されない。また、不揮発性記憶装置５４の機能を実現する装置も、不揮発的にデータを記憶し、かつ、ランダムアクセスできる装置であれば、ハードディスクのような磁気記憶装置を使用してもよいし、フラッシュメモリなどの不揮発性半導体メモリを記憶装置として用いるソリッドステートドライブ（ＳＳＤ：Solid State Drive）を用いることもできる。

このような音源定位装置３００の主要部は、コンピュータハードウェアと、ＣＰＵ５６により実行されるソフトウェアとにより実現される。一般的にこうしたソフトウェアは、マスクＲＯＭやプログラマブルＲＯＭなどにより、音源定位装置３００の製造時に記録されており、これが実行時にＲＡＭ６０に読みだされる構成としてもよいし、ドライブ装置５２により記録媒体６４から読取られて不揮発性記憶装置５４に一旦格納され、実行時にＲＡＭ６０に読みだされる構成としてもよい。または、当該装置がネットワークに接続されている場合には、ネットワーク上のサーバから、一旦、不揮発性記憶装置５４にコピーされ、不揮発性記憶装置５４からＲＡＭ６０に読出されてＣＰＵ５６により実行される構成であってもよい。

図４に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分の１つは、不揮発性記憶装置５４等の記録媒体に記憶されたソフトウェアである。

また、音声合成装置５００の場合は、不揮発性記憶装置５４にデータベース５３０も格納される構成とできる。
（システム評価実験）
以下では、臨場感伝達システム１０００を評価するために行った被験者実験について説明する。

図５は、このような実験系を説明するための図である。

図５（ｃ）には、オペレーター側の環境を、図５（ｂ）にロボット側の環境の様子を示す。

図５(ｃ)に示す被験者（オペレータ）は、ロボットを介してロボット側にいる人物（図５（ｂ）内の人物）と会話をし、ロボット側の視覚情報無しの状態で、その対話相手のいる方向を推定することが求められる。
比較対象として、図５（ａ）に示すロボットの耳に位置するステレオマイクロフォンを用いた。この実験ではミニマルデザインされているヒューマノイドロボットTelenoid-R3を使用した。このロボットは両耳位置にマイクの装着が可能で、且つ、首には３自由度があるため、図５（ｃ）の被験者の頭部動作を線形的にマッピングすることができる。
以下に、比較対象の条件を述べる。この条件では、ロボットの耳にある二つのマイクロフォンから採った音を、そのままオペレーターのステレオヘッドフォンの左右チャンネルで再生する。トラッキングしたオペレーターの首の動きは、線形的にロボットにマッピングされる。
ロボット側の３次元音源位置推定は、図５（ｂ）中に白矢印で示す３つのマイクロフォンアレイによって行われた。天井には直径１５ｃｍで８チャンネルのマイクが円形に配置されたマイクロフォンアレイが２つ設置してあり、卓上には直径３０ｃｍで１６チャンネルのマイクが半球面上に配置されたマイクロフォンアレイが設置してある。
総計２０名の被験者がこの実験に参加した。全て大学生で、ロボットや音響研究に関わりがない者である。被験者にはオペレーター役として、別室のロボット側にいる話者1名（研究補助者）とロボットを介して会話し、その相手のいる方向を判定するように指示した。実験補助者はランダムに方向を選び、その方向から会話を進める。被験者は方向の判定ができたら協力者に知らせ、協力者は次の方向に移動する。この手順を４回繰り返した。方向の判定は８方向に制限しており、被験者はそのうちのどの方向かを回答するという形式である。
実験の最後に、二つの条件について、臨場感と聞き取り易さに関する主観評価のアンケートを採った。1から7までの七段階評価で、１は「臨場感が低い/聞き取り難い」で、７は「臨場感が高い/聞き取り易い」を示す。
図６は、実験結果を示す図である。

図６（ａ）は、臨場感伝達システム１０００での条件と比較条件での方向定位の精度の平均値とその標準偏差を示す。

ｔ検定の結果、両者の精度差に有意差がみられた（t = 0.59、 p < 0.001）。
図６（ｂ）（ｃ）に示すように、主観評価アンケートでは、臨場感と聞き取り易さの評価で類似した結果が得られた。臨場感と聞き取り易さの両方において、臨場感伝達システム１０００での条件での評価は、比較条件よりも有意に高い（t = 6.68、 p < 0.001とt = 4.86、 p < 0.001）。
臨場感の評価での両条件の有意差の可能な理由としては、ロボットの首と人間の首の可動範囲が違うことも考えられる。
（バーチャル音場における音源ボリュームの調整）
臨場感伝達システム１０００では、選択されたすべての音源に対して、位置情報を反映したステレオ音声を合成し、足し合わせて、バーチャル音場を表現する出力が再生される。しかし、これでは選択された各音源のボリュームが予測できない。もし、オペレーター側で各音源のボリュームを各々独立して操作することができれば、自分にとって最も快適な音環境を作ることができる。このことに注目して、オペレーターがバーチャル空間上にある音源や自分の位置を変えることができるように、インタフェースも設けてもよい。
以下では、バーチャル音場をコントロールするための２つの異なる操作パターンのユーザインタフェースについて説明する。

図７は、このようなインタフェースの画面表示例を示す図である。
図７（ａ）に示す１つ目のインタフェースでは、オペレーターがスクリーン上の白円（これはバーチャル空間（座標系（ｘ´，ｙ´，ｚ´））上でのオペレーターの位置を表す）を任意の場所にマウスでドラッグ&ドロップすることによって、各音源のボリュームを調整する。黒丸が実験補助者の位置を示す。

希望の場所へ自身のバーチャルな位置を移動させることによって各音源との距離・角度が再計算され、音源のボリュームがその距離に従って変更される（特定の音源に接近させると、その音源のボリュームが大きくなる）。このインタフェースを“drag-and-drop”と表記する。実環境での会話シーンでは、会話参加者間の物理的距離は環境や相手との社会的関係に影響される。“drag-and-drop”は、この観点に注目したバーチャル音場コントロール法である。
図７（ｂ）に示す２つ目のインタフェースでは、オペレーターの顔の向きによって各音源のボリュームが調整される。オペレーターの顔方向を利用して音源の音量を操作するため、両手が解放される。オペレーターの顔の前方にある音源は強調され、後方にある音源は減衰される。ボリュームを調節するファクタは角度と比例する。このインタフェースを“face dir”と表記する。顔の向きや視線方向は現時点における人の注意を示すだけでなく、次のターゲットやそのゴールをも示す。“face dir”はこの観点に注目したバーチャル音場コントロール法である。
図７（ｂ）中では、被験者（オペレータ）の顔の向きは、白丸に付随する矢印で示されている。
（提案ユーザインタフェースの評価）
図７のユーザインタフェースを評価するための被験者実験を行った。比較対象として、従来のモノラルマイクロフォンを使ったインタフェースを用いた。
図５で述べた実験被験者が、この実験にも参加した（大学生１６名。前セクションの2２０名中最初の４は従来法との比較を行っていないため除外）。

実験のデザインは被験者内比較を採用した。被験者は提案インタフェース及び従来のインタフェースを使って、ロボット側の環境にいる対話者２名（研究補助者）と会話をする。会話トピックに制限はない。用いたインタフェースごとに会話のセッションを分けた。セッションの長さは３分間で、各セッション終了後にインタフェースの「使い易さ」「臨場感」「聞取り易さ」に関して前実験と同じく１から７まで７段階の主観評価アンケートを採った。
図８は、ユーザインタフェースの実験結果を示す図である。

図８には、各インタフェースに対する主観評価の平均値と標準偏差を示す。実験結果に対して分散分析（ANOVA, with-in participants、 Bonferroni’s posttest）を行った。
図８（ａ）に示す「使い易さ」と図８（ｂ）の「臨場感」では、主観評価の平均値に有意差が見られた（F(2、13)=16.03、 p<0.001 and F(2、13)=6.74、 p=0.009）。

多重比較（Bonferroni法）の結果、“drag-and-drop” と “face dir” は従来法よりも使い易く（“drag-and-drop” vs. “conventional”: p=0.001; “face
dir” vs. “conventional”: p=0.001）、臨場感が高い（“drag-and-drop” vs. “conventional”: p=0.006; “face dir” vs. “conventional”: p=0.04）と評価された。

しかし、「聞取り易さ」では有意差が見られなかった（F(2、13)=3.67、 p=0.052）。
以上の結果は、提案したインタフェースの有効性を示している。

なお、以上の説明では、臨場感伝達システム１０００において、送信側で音源としての位置の特定を行うのは、人であるものとして説明したが、このような場合には限定されず、臨場感伝達システム１０００は、移動しながら音を発生する音源がある音環境を受信側において再現することに使用することが可能である。

以上説明したように、臨場感伝達システム１０００によれば、所定の場所において観測された３次元的な音環境を、それとは異なる場所にいる人に対して再現することで、臨場感を伝達することが可能である。

また、この臨場感伝達システム１０００によれば、遠隔操作型ロボットを操作する操作者に、ロボットの存在する環境の臨場感を伝達することが可能である。

また、臨場感伝達システム１０００によれば、ユーザの操作によって、離れた場所での音の聞こえ方を制御することで、被験者の意志にしたがって、臨場感を変化させつつ体験することが可能である。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

２被験者、１０．１〜１０．Ｍマイクロフォンアレイ、２０．１〜２０．ＬＬＲＦ、１００マイクロフォンアレイ群、２００ＬＲＦ群、３００音源定位装置、３１０人位置検出追跡部、３２０音源定位部、３３０音源分離部、５００音声合成装置、５１０音量制御部、５２０顔姿勢推定部、５３０データベース、５４０空間音声再構成部、５５０音声合成部、６００センサ、６１０ヘッドフォン、６５０表示部。

Claims

第１の場所の音環境を第２の場所に伝送して再現するための臨場感伝達システムであって、
前記第１の場所に設置される音源定位装置を備え、前記音源定位装置は、
前記第１の場所における対象物の位置を検出する位置検出手段と、
マイクロフォンアレイ部からの出力に応じて、音の到来方向を推定し、前記位置検出手段の検出結果と統合して、音源の位置を特定して出力する音源定位手段と、
特定された音源の位置からの音を分離して出力するための音源分離手段とを含み、
前記第２の場所に設置される音声合成装置をさらに備え、前記音声合成装置は、
前記第２の場所内の被験者の顔姿勢をリアルタイムで連続的に検出するための顔姿勢検出手段と、
前記被験者に装着され、前記被験者の両耳に対して前記音環境に対応する音を再現するための音再現手段と、
記音源定位手段から、前記音源の位置の位置を受信し、検出された顔姿勢に応じて、前記第１の場所の第１の座標系における前記音源の位置を前記第２の場所の第２の座標系における位置に変換して、前記第２の場所において、定位された前記音源からの音声が特定の方向から聞こえるように、前記第１の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への前記特定の方向に対応する頭部伝達関数を用いて、前記音源分離手段からの分離音の信号から前記音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを含む、臨場感伝達システム。
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、前記ヘッドフォンに装着されたジャイロおよびコンパスを含む、請求項１記載の臨場感伝達システム。
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、撮像された前記被験者の画像から前記被験者の顔姿勢を推定する、請求項１記載の臨場感伝達システム。
前記マイクロフォンアレイ部は、複数のマイクロフォンアレイを含み、
前記音源定位手段は、複数のマイクロフォンアレイの各々に基づく音の到来方向と前記位置検出手段で検出された音源の位置が、交差することに応じて、前記音源の位置を特定し、
前記音空間再構成手段は、前記音源分離手段からの分離音をそれぞれ受信して、前記マイクロフォンアレイから前記音源までの距離による違いを補正するために、各分離音の音量をそれぞれ正規化するための音量制御処理手段を含む、請求項１〜３のいずれか１項に記載の臨場感伝達システム。
音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、
前記音空間再構成手段は、
前記第２の場所において、前記第１の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への頭部伝達関数を前記データベースから選択して、各前記耳へ再現するための音信号を合成する、請求項１〜４のいずれか１項に記載の臨場感伝達システム。
前記音声合成装置は、
前記被験者が前記第２の場所における自身の位置または顔姿勢を指定する指示手段と、
前記指示手段からの指示に応じて、前記音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える、請求項１〜５のいずれか１項に記載の臨場感伝達システム。
第１の場所の音環境に関する情報を送信する送信装置からの情報に基づき、前記第１の場所の音環境を第２の場所で再現するための臨場感再現装置であって、前記送信装置からは、前記第１の場所における音源の位置を示す位置情報と、前記位置情報で特定された音源の位置からの音を分離した分離音の信号とが送信され、
前記第２の場所内の被験者の顔姿勢をリアルタイムで連続的に検出するための顔姿勢検出手段と、
前記被験者に装着され、前記被験者の両耳に対して前記音環境に対応する音を再現するための音再現手段と、
記音源定位手段から、前記音源の位置の位置を受信し、検出された顔姿勢に応じて、前記第１の場所の第１の座標系における前記音源の位置を前記第２の場所の第２の座標系における位置に変換して、前記第２の場所において、定位された前記音源からの音声が特定の方向から聞こえるように、前記第１の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への前記特定の方向に対応する頭部伝達関数を用いて、前記分離音の信号から前記音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを備える、臨場感再現装置。
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、前記ヘッドフォンに装着されたジャイロおよびコンパスを含む、請求項７記載の臨場感再現装置。
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、撮像された前記被験者の画像から前記被験者の顔姿勢を推定する、請求項７記載の臨場感再現装置。
音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、
前記音空間再構成手段は、
前記第２の場所において、前記第１の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への頭部伝達関数を前記データベースから選択して、各前記耳へ再現するための音信号を合成する、請求項７〜９のいずれか１項に記載の臨場感再現装置。
前記被験者が前記第２の場所における自身の位置または顔姿勢を指定する指示手段と、
前記指示手段からの指示に応じて、前記音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える、請求項７〜１０のいずれか１項に記載の臨場感再現装置。