WO2022004421A1

WO2022004421A1 - 情報処理装置、出力制御方法、およびプログラム

Info

Publication number: WO2022004421A1
Application number: PCT/JP2021/023152
Authority: WO
Inventors: 越沖本; 亨中川; 真志藤原
Original assignee: ソニーグループ株式会社
Priority date: 2020-07-02
Filing date: 2021-06-18
Publication date: 2022-01-06
Also published as: JPWO2022004421A1; CN115777203A; US20230247384A1; DE112021003592T5

Abstract

本技術は、音源の距離感を適切に再現できるようにする情報処理装置、出力制御方法、およびプログラムに関する。本技術の情報処理装置は、コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、音源位置に応じた伝達関数を用いた処理が行われることによって生成された、所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる。本技術は、映画館の音響システムに適用することができる。

Description

情報処理装置、出力制御方法、およびプログラム

　本技術は、特に、音源の距離感を適切に再現できるようにした情報処理装置、出力制御方法、およびプログラムに関する。

　音源から耳への音の伝わり方を数学的に表現する頭部伝達関数（HRTF：Head-Related Transfer Function）を用いて、ヘッドホンにおける音像を立体的に再現する技術がある。

　例えば、特許文献１には、ダミーヘッドを用いて測定したHRTFを利用して、立体音響を再生する技術が開示されている。

特開２００９－２６０５７４号公報

　HRTFを用いることにより音像を立体的に再現することが可能であるが、聴取者に近づく音、聴取者から遠ざかる音などの、距離が変化する音像を再現することができない。

　本技術はこのような状況に鑑みてなされたものであり、音源の距離感を適切に再現できるようにするものである。

　本技術の一側面の情報処理装置は、コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる出力制御部を備える。

　本技術の一側面においては、コンテンツのオーディオを構成する所定の音源の音が聴取空間に設置されたスピーカから出力され、音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音が、それぞれの聴取者用の出力デバイスから出力される。

本技術の一実施形態に係る音響処理システムの構成例を示す図である。音像定位処理の原理を示す図である。イヤホンの外観を示す図である。出力デバイスの例を示す図である。 HRTFデータベースに格納されるHRTFの例を示す図である。 HRTFデータベースに格納されるHRTFの例を示す図である。音の再現の例を示す図である。映画館内の実スピーカのレイアウトの例を示す平面図である。映画館内の音源の概念を示す図である。映画館内での視聴の様子の例を示す図である。音響処理装置の構成例を示す図である。図１１の構成を有する音響処理装置の再生処理について説明するフローチャートである。動的オブジェクトの例を示す図である。音響処理装置の構成例を示す図である。図１４の構成を有する音響処理装置の再生処理について説明するフローチャートである。動的オブジェクトの例を示す図である。音響処理装置の構成例を示す図である。ゲイン調整の例を示す図である。音源の例を示す図である。音響処理装置の構成例を示す図である。音響処理装置の構成例を示す図である。図２１の構成を有する音響処理装置の再生処理について説明するフローチャートである。ハイブリッド型の音響システムの構成例を示す図である。車載スピーカの設置位置の例を示す図である。仮想音源の例を示す図である。スクリーンの例を示す図である。コンピュータの構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．音像定位処理について
　２．多層HRTF
　３．音響処理システムの適用例
　４．変形例
　５．その他の例

＜音像定位処理について＞
　図１は、本技術の一実施形態に係る音響処理システムの構成例を示す図である。

　図１の音響処理システムは、音響処理装置１と、オーディオの聴取者としてのユーザＵが装着するイヤホン（インナーイヤーヘッドホン）２により構成される。イヤホン２を構成する左側ユニット２ＬはユーザＵの左耳に装着され、右側ユニット２Ｒは右耳に装着される。

　音響処理装置１とイヤホン２は、ケーブルを介して有線によって、または、無線LANやBluetooth（登録商標）などの所定の規格の通信を介して無線によって接続される。ユーザＵが持つスマートフォンなどの携帯端末を介して、音響処理装置１とイヤホン２の間の通信が行われるようにしてもよい。音響処理装置１に対しては、コンテンツを再生することによって得られたオーディオ信号が入力される。

　例えば、映画のコンテンツを再生することによって得られたオーディオ信号が音響処理装置１に入力される。映画のオーディオ信号には、音声、BGM、環境音などの各種の音の信号が含まれる。オーディオ信号は、左耳用の信号であるオーディオ信号Ｌと右耳用の信号であるオーディオ信号Ｒにより構成される。

　音響処理システムにおいて処理対象となるオーディオ信号の種類は、映画のオーディオ信号に限定されるものではない。音楽のコンテンツを再生して得られた音、ゲームのコンテンツを再生して得られた音、音声メッセージ、チャイムやブザー音等の電子音などの、様々な種類の音の信号が処理対象として用いられる。以下、適宜、ユーザＵが聴く音が音声であるものとして説明するが、音声以外の種類の音をユーザＵは聴くことになる。映画の音、ゲームのコンテンツを再生して得られた音などの上述した各種の音を、ここでは音声として説明する。

　音響処理装置１は、映画の音声が、図１の右側に破線で示す左仮想スピーカVSLと右仮想スピーカVSRの位置から放音されたものとして聴こえるように、入力されたオーディオ信号に対して処理を施す。すなわち、音響処理装置１は、イヤホン２から出力される音の音像を、左仮想スピーカVSLと右仮想スピーカVSRからの音として感じるように定位させる。

　左仮想スピーカVSLと右仮想スピーカVSRを区別しない場合、まとめて仮想スピーカVSという。図１の例においては、仮想スピーカVSの位置がユーザＵの前方の位置であり、その数が２つとされているが、仮想スピーカVSに相当する仮想音源の位置と数は、映画の進行に応じて適宜変化する。

　音響処理装置１の畳み込み処理部１１は、このような音声を出力させるための音像定位処理をオーディオ信号に対して施し、音像定位処理後のオーディオ信号Ｌとオーディオ信号Ｒを、それぞれ左側ユニット２Ｌと右側ユニット２Ｒに出力する。

　図２は、音像定位処理の原理を示す図である。

　所定のリファレンス環境において、ダミーヘッドDHの位置が聴取者の位置として設定される。ダミーヘッドDHの左耳部分と右耳部分にはマイクロフォンが設けられる。また、音像を定位させようとする左右の仮想スピーカの位置に、左実スピーカSPLと右実スピーカSPRが設置される。実スピーカは、実際に設置されているスピーカである。

　左実スピーカSPLと右実スピーカSPRから出力された音がダミーヘッドDHの両耳部分において収音され、左実スピーカSPLと右実スピーカSPRから出力された音がダミーヘッドDHの両耳部分に到達したときの特性の変化を示す伝達関数（HRTF：Head-related transfer function）が予め測定される。なお、ダミーヘッドDHを用いずに、実際に人間を座らせ、その耳近傍にマイクを置いて伝達関数の測定が行われるようにしてもよい。

　ここで、図２に示すように、左実スピーカSPLからダミーヘッドDHの左耳までの音の伝達関数がＭ１１であり、左実スピーカSPLからダミーヘッドDHの右耳までの音の伝達関数がＭ１２であるとする。また、右実スピーカSPRからダミーヘッドDHの左耳までの音の伝達関数がＭ２１であり、右実スピーカSPRからダミーヘッドDHの右耳までの音の伝達関数がＭ２２であるとする。

　図１のHRTFデータベース１２には、このようにして予め測定された伝達関数であるHRTFの情報（HRTFを表す係数の情報）が格納されている。HRTFデータベース１２は、HRTFの情報を記憶する記憶部として機能する。

　畳み込み処理部１１は、映画の音声の出力時、左仮想スピーカVSLと右仮想スピーカVSRの位置に応じたHRTFの係数のペアをHRTFデータベース１２から読み出して取得し、フィルタ２１乃至２４に設定する。

　フィルタ２１は、オーディオ信号Ｌに伝達関数Ｍ１１を適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｌを加算部２５に出力する。フィルタ２２は、オーディオ信号Ｌに伝達関数Ｍ１２を適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｌを加算部２６に出力する。

　フィルタ２３は、オーディオ信号Ｒに伝達関数Ｍ２１を適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｒを加算部２５に出力する。フィルタ２４は、オーディオ信号Ｒに伝達関数Ｍ２２を適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｒを加算部２６に出力する。

　左チャンネル用の加算部である加算部２５は、フィルタ２１によるフィルタ処理後のオーディオ信号Ｌと、フィルタ２３によるフィルタ処理後のオーディオ信号Ｒを加算し、加算後のオーディオ信号を出力する。加算後のオーディオ信号がイヤホン２に対して送信され、オーディオ信号に応じた音がイヤホン２の左側ユニット２Ｌから出力される。

　右チャンネル用の加算部である加算部２６は、フィルタ２２によるフィルタ処理後のオーディオ信号Ｌと、フィルタ２４によるフィルタ処理後のオーディオ信号Ｒを加算し、加算後のオーディオ信号を出力する。加算後のオーディオ信号がイヤホン２に対して送信され、オーディオ信号に応じた音がイヤホン２の右側ユニット２Ｒから出力される。

　このように、音響処理装置１は、音像を定位させようとする位置に応じたHRTFを用いた畳み込み処理をオーディオ信号に対して施し、イヤホン２からの音の音像が仮想スピーカVSから放音されたものとしてユーザＵが感じるように定位させる。

　図３は、イヤホン２の外観を示す図である。

　図３の吹き出しに拡大して示すように、右側ユニット２Ｒは、ドライバユニット３１とリング状の装着部３３が、Ｕ字状の音導管３２を介して接合されることによって構成される。右側ユニット２Ｒは、装着部３３を外耳孔の周りに押し当て、装着部３３とドライバユニット３１とで右耳を挟むようにして装着される。

　左側ユニット２Ｌも右側ユニット２Ｒと同じ構成を有している。左側ユニット２Ｌと右側ユニット２Ｒは有線または無線で接続される。

　右側ユニット２Ｒのドライバユニット３１は、音響処理装置１から送信されてきたオーディオ信号を受信し、オーディオ信号に応じた音を、矢印＃１に示すように音導管３２の先端から出力させる。音導管３２と装着部３３の接合部には、外耳孔に向けて音を出力する孔部が形成されている。

　装着部３３はリング状の形状を有している。外耳孔には、音導管３２の先端から出力されたコンテンツの音とともに、矢印＃２に示すように周囲の音も到達することになる。

　このように、イヤホン２は、耳穴を密閉しない、いわゆるオープンイヤー型（開放型）のイヤホンである。コンテンツの音を聴くことに用いられる出力デバイスとして、イヤホン２以外のデバイスが用いられるようにしてもよい。

　図４は、出力デバイスの例を示す図である。

　コンテンツの音を聴くことに用いられる出力デバイスとして、図４のＡに示すような密閉型のヘッドホン（オーバーイヤーヘッドホン）が用いられる。例えば図４のＡに示すヘッドホンは、外音取り込みの機能が搭載されているヘッドホンである。

　また、コンテンツの音を聴くことに用いられる出力デバイスとして、図４のＢに示すような肩載せ型のネックバンドスピーカが用いられる。ネックバンドスピーカを構成する左右のユニットにはスピーカが設けられており、ユーザの耳に向けて音が出力される。

　イヤホン２、図４のＡのヘッドホン、図４のＢのネックバンドスピーカといったように、外音の取り込みが可能な出力デバイスがコンテンツの音声の聴取に用いられるようにすることが可能である。

＜多層HRTF＞
　図５および図６は、HRTFデータベース１２に格納されるHRTFの例を示す図である。

　HRTFデータベース１２には、基準となるダミーヘッドDHの位置を中心として全天球状に配置されたそれぞれの音源におけるHRTFの情報が格納される。

　図６のＡ，Ｂに分けて示すように、ダミーヘッドDHの位置Ｏを中心として距離ｂだけ離れた位置に、全天球状に複数の音源が配置されるとともに、距離ａ（ａ＞ｂ）だけ離れた位置に、全天球状に複数の音源が配置される。これにより、位置Ｏを中心として距離ｂだけ離れた位置にある音源の層と、距離ａだけ離れた位置にある音源の層とが構成される。例えば、同じ層の音源は等間隔に配置される。

　このようにして配置されたそれぞれの音源におけるHRTFが測定されることにより、全天球状のHRTFの層であるHRTF層ＢとHRTF層Ａが構成される。HRTF層Ａが外側のHRTFの層となり、HRTF層Ｂが内側のHRTFの層となる。

　図５、図６において、例えば、緯線と経線の各交点が音源位置を表す。ある音源位置のHRTFは、その位置からのインパルス応答をダミーヘッドDHの両耳の位置で測定し、周波数軸上で表現することで求められる。

　HRTFの取得方法としては、以下の手法が考えられる。
　１．実スピーカを各音源位置に配置し、一回の測定で取得する方法
　２．実スピーカを距離を変えて配置し、複数回の測定で取得する方法
　３．音響シミュレーションにより取得する方法
　４．一方のHRTF層については実スピーカを用いて測定し、他方のHRTF層については推定することによって取得する方法
　５．機械学習によって予め用意された推論モデルを用いて、耳の画像から推定することによって取得する方法

　HRTFが多層に用意されることにより、音響処理装置１は、音像定位処理（畳み込み処理）に用いるHRTFをHRTF層ＡのHRTFからHRTF層ＢのHRTFに切り替えたり、HRTF層ＢのHRTFからHRTF層ＡのHRTFに切り替えたりすることが可能となる。HRTFを切り替えることにより、ユーザＵに近づく音や、遠ざかる音の再現が可能となる。

　図７は、音の再現の例を示す図である。

　矢印＃１１は、ユーザＵの上方にある物体が落ちてくる音を表し、矢印＃１２は、ユーザＵの前方にある物体が近づいてくる音を表す。これらの音は、音像定位処理に用いるHRTFをHRTF層ＡのHRTFからHRTF層ＢのHRTFに切り替えることによって再現される。

　また、矢印＃１３は、ユーザＵの近くにある物体が足元に落ちる音を表し、矢印＃１４は、ユーザＵの後方の足元で移動物体が離れる音を表す。これらの音は、音像定位処理に用いるHRTFをHRTF層ＢのHRTFからHRTF層ＡのHRTFに切り替えることによって再現される。

　このように、音響処理装置１は、音像定位処理に用いるHRTFを、あるHRTF層のHRTFから他のHRTF層のHRTFに切り替えることにより、従来のVAD(Virtual Auditory Display)システムなどでは再現できない、奥行き方向に動く様々な音を再現することが可能となる。

　また、全天球状に配置された各音源位置のHRTFが用意されるため、ユーザＵの上方で動く音だけでなく、下方で動く音を再現することも可能となる。

　以上においては、HRTF層の形状が全天球状（球体状）であるものとしたが、半天球状であってもよいし、球体以外の異なる形状であってもよい。例えば、基準となる位置を囲むように楕円形状や立方体状に音源が配置され、多層のHRTF層が構成されるようにしてもよい。すなわち、１つのHRTF層を構成するHRTFの音源を全て中心から同じ距離の位置に配置するのではなく、異なる距離の位置に配置することも可能である。

　外側のHRTF層と内側のHRTF層が同じ形状であるものとしたが、それぞれ異なる形状であってもよい。

　多層のHRTF層が２層で構成されるものとしたが、３層以上のHRTF層が設けられるようにしてもよい。それぞれのHRTF層の間隔は同じ間隔であってもよいし、それぞれ異なる間隔であってもよい。

　HRTF層の中心位置がユーザＵの位置であるものとしたが、ユーザＵの位置から水平方向および垂直方向にずれた位置を中心位置としてHRTF層が設定されるようにしてもよい。

　なお、多層のHRTF層を用いて再現される音だけを聴く場合には、外音の取り込み機能のないヘッドホンなどの出力デバイスを用いることが可能である。

　すなわち、出力デバイスの組み合わせとして以下のような組み合わせが可能である。
　１．HRTF層ＡのHRTFを用いて再現された音と、HRTF層ＢのHRTFを用いて再現された音の両方の音の出力デバイスとして密閉型のヘッドホンを用いる。
　２．HRTF層ＡのHRTFを用いて再現された音と、HRTF層ＢのHRTFを用いて再現された音の両方の音の出力デバイスとして開放型のイヤホン（イヤホン２）を用いる。
　３．HRTF層ＡのHRTFを用いて再現された音の出力デバイスとして実スピーカを用い、HRTF層ＢのHRTFを用いて再現された音の出力デバイスとして開放型のイヤホンを用いる。

＜音響処理システムの適用例＞
・映画館の音響システム
　図１の音響処理システムは、例えば、映画館の音響システムに適用される。映画の音声の出力には、観客として座席に座っているそれぞれのユーザが装着するイヤホン２だけでなく、映画館内の所定の位置に設置された実スピーカも用いられる。

　図８は、映画館内の実スピーカのレイアウトの例を示す平面図である。

　図８に示すように、映画館の正面に設置されたスクリーンＳの裏側には実スピーカSP１乃至SP５が設けられる。スクリーンＳの裏側にはサブウーファーなどの実スピーカも設けられる。

　破線＃２１，＃２２，＃２３で囲んで示すように、映画館の左右の壁面と背面の壁面にも、それぞれ実スピーカが設置される。図８において、壁面を表す直線に沿って示される正方形状の小さな矩形はそれぞれ実スピーカを表す。

　上述したように、イヤホン２は外音の取り込みが可能なイヤホンである。それぞれのユーザは、イヤホン２から出力される音声とともに、実スピーカから出力される音声を聴くことになる。

　映画の音声のうち、所定の音源の音声がイヤホン２から出力され、他の音源の音声が実スピーカから出力されるといったように、音源の種類などに応じて、音声の出力先が制御される。

　例えば、映像に含まれるキャラクタの音声がイヤホン２から出力され、環境音が実スピーカから出力される。

　図９は、映画館内の音源の概念を示す図である。

　図９に示すように、ユーザの周りには、スクリーンＳの裏や壁面に設置された実スピーカとともに、多層のHRTFにより再現される仮想音源が音源として設けられることになる。図９においてHRTF層Ａ，Ｂを示す円に沿って破線で示すスピーカが、HRTFに基づいて再現される仮想音源を示す。図９には、映画館内に設定された座標の原点位置の座席に座っているユーザを中心とした仮想音源が示されているが、他の位置の座席に座っているそれぞれのユーザの周りにも、多層のHRTFを用いて仮想音源が同様にして再現される。

　これにより、図１０に示すように、イヤホン２を装着して映画を視聴しているそれぞれのユーザは、実スピーカSP１，SP５を含むそれぞれの実スピーカから出力される環境音などの音声とともに、HRTFに基づいて再現された仮想音源の音声を聴くことになる。

　図１０において、色付きの円Ｃ１乃至Ｃ４を含む、イヤホン２を装着しているユーザの周りにある様々なサイズの円は、HRTFに基づいて再現される仮想音源を表す。

　このように、図１の音響処理システムにより、映画館内に設置された実スピーカと、それぞれのユーザが装着するイヤホン２とを用いて音声の出力が行われる、ハイブリッド型の音響システムが実現される。

　開放型のイヤホン２と実スピーカを組み合わせることにより、それぞれの観客に最適化して聴かせる音と、観客全員に共通に聴かせる音とをそれぞれ制御することが可能となる。それぞれの観客に最適化して聴かせる音の出力にはイヤホン２が用いられ、観客全員に共通に聴かせる音の出力には実スピーカが用いられる。

　以下、適宜、実スピーカから出力される音を、実際に設置されているスピーカから出力される音という意味で実音源の音という。イヤホン２から出力される音は、HRTFに基づいて仮想的に設定された音源の音であるから仮想音源の音となる。

・音響処理装置１の基本的な構成と動作
　図１１は、ハイブリッド型の音響システムを実現する情報処理装置としての音響処理装置１の構成例を示す図である。

　図１１に示す構成のうち、図１を参照して説明した構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　音響処理装置１は、畳み込み処理部１１、HRTFデータベース１２、スピーカ選択部１３、および出力制御部１４により構成される。音響処理装置１に対しては、それぞれの音源の情報である音源情報が入力される。音源情報には、音データと位置情報が含まれる。

　音の波形データである音データは、畳み込み処理部１１とスピーカ選択部１３に供給される。位置情報は、音源位置の３次元空間内における座標を表す。位置情報はHRTFデータベース１２とスピーカ選択部１３に供給される。このように、例えば、それぞれの音源の情報が音データと位置情報のセットとして構成されるオブジェクトベースのオーディオデータが音響処理装置１に対して入力される。

　畳み込み処理部１１は、HRTF適用部１１ＬとHRTF適用部１１Ｒにより構成される。HRTF適用部１１ＬとHRTF適用部１１Ｒに対しては、HRTFデータベース１２から読み出された、音源の位置に応じたHRTFの係数のペア（Ｌ用の係数とＲ用の係数のペア）が設定される。音源毎に畳み込み処理部１１が用意される。

　HRTF適用部１１Ｌは、オーディオ信号Ｌに対してHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｌを出力制御部１４に出力する。HRTF適用部１１Ｒは、オーディオ信号Ｒに対してHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｒを出力制御部１４に出力する。

　HRTF適用部１１Ｌは、図１のフィルタ２１、フィルタ２２、および加算部２５により構成され、HRTF適用部１１Ｒは、図１のフィルタ２３、フィルタ２４、および加算部２６により構成される。畳み込み処理部１１は、処理対象のオーディオ信号に対してHRTFを適用することによって音像定位処理を行う音像定位処理部として機能する。

　HRTFデータベース１２は、位置情報に基づいて、音源の位置に応じたHRTFの係数のペアを畳み込み処理部１１に出力する。位置情報により、HRTF層Ａを構成するHRTF、または、HRTF層Ｂを構成するHRTFが特定される。

　スピーカ選択部１３は、位置情報に基づいて、音声の出力に用いる実スピーカを選択する。スピーカ選択部１３は、選択した実スピーカから出力させるオーディオ信号を生成し、出力制御部１４に出力する。

　出力制御部１４は、実スピーカ出力制御部１４－１とイヤホン出力制御部１４－２により構成される。

　実スピーカ出力制御部１４－１は、スピーカ選択部１３から供給されたオーディオ信号を選択された実スピーカに出力し、実音源の音として出力させる。

　イヤホン出力制御部１４－２は、畳み込み処理部１１から供給されたオーディオ信号Ｌとオーディオ信号Ｒを、それぞれのユーザが装着するイヤホン２に送信し、仮想音源の音を出力させる。

　このような構成を有する音響処理装置１を実現するコンピュータが、例えば映画館内の所定の位置に設置される。

　図１２のフローチャートを参照して、図１１の構成を有する音響処理装置１の再生処理について説明する。

　ステップＳ１において、HRTFデータベース１２とスピーカ選択部１３は、音源の位置情報を取得する。

　ステップＳ２において、スピーカ選択部１３は、音源の位置に応じたスピーカ情報を取得する。実スピーカの特性の情報などが取得される。

　ステップＳ３において、畳み込み処理部１１は、HRTFデータベース１２から読み出された、音源の位置に応じたHRTFの係数のペアを取得する。

　ステップＳ４において、スピーカ選択部１３は、実スピーカに対するオーディオ信号の割り振りを行う。オーディオ信号の割り振りは、音源の位置と実スピーカの設置位置などに基づいて行われる。

　ステップＳ５において、実スピーカ出力制御部１４－１は、スピーカ選択部１３による割り振りに従って、オーディオ信号に対応する音を実スピーカから実音源の音として出力させる。

　ステップＳ６において、畳み込み処理部１１は、オーディオ信号に対する畳み込み処理をHRTFに基づいて行い、畳み込み処理後のオーディオ信号を出力制御部１４に出力する。

　ステップＳ７において、イヤホン出力制御部１４－２は、畳み込み処理後のオーディオ信号をイヤホン２に送信し、仮想音源の音を出力させる。

　以上の処理が、映画のオーディオを構成する各音源の１サンプル毎に繰り返される。各サンプルの処理においては、HRTFの係数のペアが音源の位置情報に応じて適宜更新される。なお、映画のコンテンツには、音のデータとともに映像のデータが含まれる。映像のデータについては、他の処理部において処理が行われる。

　以上の処理により、音響処理装置１は、それぞれの観客に最適化して聴かせる音と、観客全員に共通に聴かせる音とをそれぞれ制御し、音源の距離感を適切に再現することが可能となる。

　例えば、図１３の矢印＃３１に示すように映画館内の絶対座標を基準に動くオブジェクトを想定した場合、そのオブジェクトの音をイヤホン２から出力させることにより、同じコンテンツであっても座席の位置によってユーザ体験を変えることが可能となる。

　図１３の例においては、スクリーンＳ上の位置である位置Ｐ１から映画館の後方の位置Ｐ２まで動くオブジェクトが設定されている。各タイミングにおけるオブジェクトの絶対座標における位置が、各ユーザの座席の位置を基準とした位置に変換され、変換後の位置に応じたHRTF（HRTF層ＡのHRTFまたはHRTF層ＢのHRTF）が、各ユーザのイヤホン２から出力させる音の音像定位処理に用いられる。

　映画館の前方右側の位置Ｐ１１にある座席に座っているユーザＡにとっては、イヤホン２から出力される音を聴くことによって、オブジェクトが左斜め前方から後方に移動するように感じることになる。また、映画館の後方左側の位置Ｐ１２にある座席に座っているユーザＢにとっては、イヤホン２から出力される音を聴くことによって、オブジェクトが正面から右斜め後方に移動するように感じることになる。

　多層のHRTFを用いることにより、または、音声の出力デバイスとして開放型のイヤホンと実スピーカを用いることにより、音響処理装置１は、以下のような出力の制御が可能となる。

　１．映像に含まれるキャラクタの音声をイヤホン２から出力させ、環境音を実スピーカから出力させるような制御
　この場合、音響処理装置１は、キャラクタのスクリーンＳ上の位置から所定の範囲内の位置を音源位置とする音声をイヤホン２から出力させる。

　２．映画館の中空に存在する音をイヤホン２から出力させ、ベッドチャンネルに含まれる環境音を実スピーカから出力させるような制御
　この場合、音響処理装置１は、実スピーカの位置から所定の範囲内の位置を音源位置とする音源の音を実スピーカから出力させ、その範囲を超えて、実スピーカから離れた位置を音源位置とする仮想音源の音をイヤホン２から出力させる。

　３．音源の位置が動く動的オブジェクトの音をイヤホン２から出力させ、音源の位置が固定の静的オブジェクトの音を実スピーカから出力させるような制御

　４．環境音やBGMなどの、観客全員に共通に聴かせる音を実スピーカから出力させ、言語が異なる音声、座席位置に応じて音源の方向を変えて聴かせる音などの、ユーザ毎に最適化して聴かせる音をイヤホン２から出力させるような制御

　５．実スピーカが設置された位置を含む水平面内に存在する音を実スピーカから出力させ、上記水平面から鉛直方向にずれた位置に存在する音をイヤホン２から出力させるような制御
　この場合、音響処理装置１は、実スピーカの高さと同じ高さの位置を音源位置とする音源の音を実スピーカから出力させ、実スピーカの高さと異なる高さの位置を音源位置とする仮想音源の音をイヤホン２から出力させる。例えば、実スピーカの高さを基準として所定の範囲の高さが、実スピーカの高さと同じ高さとして設定される。

　６．映画館内に存在するオブジェクトの音を実スピーカから出力させ、映画館の壁面の外側の位置や天井の外側の上方の位置に存在するオブジェクトの音をイヤホン２から出力させるような制御

　このように、音響処理装置１は、映画のオーディオを構成する所定の音源の音を実スピーカから出力させ、それとは異なる音源の音を仮想音源の音としてイヤホン２から出力させる各種の制御を行うことができる。

・出力制御の例１
　映画のオーディオにベッドチャンネルの音とオブジェクトの音が含まれる場合、ベッドチャンネルの音の出力に実スピーカを用い、オブジェクトの音の出力にイヤホン２を用いることが可能である。すなわち、チャンネルベースの音源の音の出力に実スピーカが用いられ、オブジェクトベースの仮想音源の音の出力にイヤホン２が用いられる。

　図１４は、音響処理装置１の構成例を示す図である。

　図１４に示す構成のうち、図１１を参照して説明した構成と同じ構成には同じ符号を付してある。重複する説明については省略する。後述する図１７等においても同様である。

　図１４に示す構成は、制御部５１が設けられるとともに、スピーカ選択部１３に代えてベッドチャンネル処理部５２が設けられる点で図１１に示す構成と異なる。ベッドチャンネル処理部５２に対しては、音源の位置情報として、その音源の音をどの実スピーカから出力させるのかを表すベッドチャンネル情報が供給される。

　制御部５１は、音響処理装置１の各部の動作を制御する。例えば、制御部５１は、音響処理装置１に入力された音源情報の属性情報に基づいて、入力された音源の音を実スピーカから出力させるのか、イヤホン２から出力させるのかを制御する。

　ベッドチャンネル処理部５２は、ベッドチャンネル情報に基づいて、音の出力に用いる実スピーカを選択する。Left，Center，Right，Left Surround，Right Surround，・・・の各実スピーカの中から、音の出力に用いる実スピーカが特定される。

　図１５のフローチャートを参照して、図１４の構成を有する音響処理装置１の再生処理について説明する。

　ステップＳ１１において、制御部５１は、処理対象の音源の属性情報を取得する。

　ステップＳ１２において、制御部５１は、処理対象の音源がオブジェクトベースの音源であるか否かを判定する。

　処理対象の音源がオブジェクトベースの音源であるとステップＳ１２において判定された場合、仮想音源の音をイヤホン２から出力させるための図１２を参照して説明した処理と同様の処理が行われる。

　すなわち、ステップＳ１３において、HRTFデータベース１２は、音源の位置情報を取得する。

　ステップＳ１４において、畳み込み処理部１１は、HRTFデータベース１２から読み出された、音源の位置に応じたHRTFの係数のペアを取得する。

　ステップＳ１５において、畳み込み処理部１１は、オブジェクトベースの音源のオーディオ信号に対して畳み込み処理を行い、畳み込み処理後のオーディオ信号を出力制御部１４に出力する。

　ステップＳ１６において、イヤホン出力制御部１４－２は、畳み込み処理後のオーディオ信号をイヤホン２に送信し、仮想音源の音を出力させる。

　一方、処理対象の音源がオブジェクトベースの音源ではなく、チャンネルベースの音源であるとステップＳ１２において判定された場合、ステップＳ１７において、ベッドチャンネル処理部５２は、ベッドチャンネル情報を取得する、また、ベッドチャンネル処理部５２は、音の出力に用いる実スピーカをベッドチャンネル情報に基づいて特定する。

　ステップＳ１８において、実スピーカ出力制御部１４－１は、ベッドチャンネル処理部５２から供給されたベッドチャンネルのオーディオ信号を実スピーカに出力し、実音源の音として出力させる。

　ステップＳ１６またはステップＳ１８において１サンプルの音の出力が行われた後、ステップＳ１１以降の処理が繰り返される。

　チャンネルベースの音源の音だけでなく、オブジェクトベースの音源の音の出力に実スピーカが用いられるようにすることも可能である。この場合、ベッドチャンネル処理部５２とともに、図１１のスピーカ選択部１３が音響処理装置１に設けられる。

・出力制御の例２
　図１６は、動的オブジェクトの例を示す図である。

　矢印＃４１に示すように、スクリーンＳの近傍の位置Ｐ１から、原点位置の座席に座るユーザに向かって移動する動的オブジェクトを想定する。時刻ｔ１のタイミングで移動を開始する動的オブジェクトの軌跡とHRTF層Ａは、位置Ｐ２において時刻ｔ２のタイミングで交差する。また、動的オブジェクトの軌跡とHRTF層Ｂは、位置Ｐ３において時刻ｔ３のタイミングで交差する。

　動的オブジェクトの音の出力は、音源位置が位置Ｐ１の近くに存在する場合には、主に、位置Ｐ１の近傍にある実スピーカからの音が聴こえるようにして行われ、音源位置が位置Ｐ２，Ｐ３の近くに存在する場合には、主に、イヤホン２からの音が聴こえるようにして行われる。

　また、動的オブジェクトの音の出力は、音源位置が位置Ｐ２の近くに存在する場合、位置Ｐ２に対応するHRTF層ＡのHRTFを用いた音像定位処理によって生成された音がイヤホン２から主に聴こえるようにして行われる。同様に、動的オブジェクトの音の出力は、音源位置が位置Ｐ３の近くに存在する場合、位置Ｐ３に対応するHRTF層ＢのHRTFを用いた音像定位処理によって生成された音がイヤホン２から主に聴こえるようにして行われる。

　このように、動的オブジェクトの音を再現する場合、動的オブジェクトの位置に応じて、音の出力に用いるデバイスが実スピーカからイヤホン２に切り替えられる。また、イヤホン２から出力させる音の音像定位処理に用いるHRTFが、あるHRTF層のHRTFから他のHRTF層のHRTFに切り替えられる。

　このような切り替えが生じる前の音と後の音をつなぎ合わせるために、クロスフェード処理がそれぞれの音に対して施される。

　図１７は、音響処理装置１の構成例を示す図である。

　図１７に示す構成は、畳み込み処理部１１の前段にゲイン調整部６１とゲイン調整部６２が設けられる点で、図１１の構成と異なる。ゲイン調整部６１とゲイン調整部６２に対しては、オーディオ信号と音源の位置情報が供給される。

　ゲイン調整部６１とゲイン調整部６２は、それぞれ、オーディオ信号のゲインを音源の位置に応じて調整する。ゲイン調整部６１によりゲインが調整されたオーディオ信号ＬはHRTF適用部１１Ｌ－Ａに供給され、オーディオ信号ＲはHRTF適用部１１Ｒ－Ａに供給される。また、ゲイン調整部６２によりゲインが調整されたオーディオ信号ＬはHRTF適用部１１Ｌ－Ｂに供給され、オーディオ信号ＲはHRTF適用部１１Ｒ－Ｂに供給される。

　畳み込み処理部１１には、HRTF層ＡのHRTFを用いて畳み込み処理を行うHRTF適用部１１Ｌ－ＡとHRTF適用部１１Ｒ－Ａ、HRTF層ＢのHRTFを用いて畳み込み処理を行うHRTF適用部１１Ｌ－ＢとHRTF適用部１１Ｒ－Ｂが設けられる。HRTF適用部１１Ｌ－ＡとHRTF適用部１１Ｒ－Ａに対しては、音源の位置に応じたHRTF層ＡのHRTFの係数がHRTFデータベース１２から供給される。HRTF適用部１１Ｌ－ＢとHRTF適用部１１Ｒ－Ｂに対しても同様に、音源の位置に応じたHRTF層ＢのHRTFの係数がHRTFデータベース１２から供給される。

　HRTF適用部１１Ｌ－Ａは、ゲイン調整部６１から供給されたオーディオ信号Ｌに対して、HRTF層ＡのHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｌを出力する。

　HRTF適用部１１Ｒ－Ａは、ゲイン調整部６１から供給されたオーディオ信号Ｒに対して、HRTF層ＡのHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｒを出力する。

　HRTF適用部１１Ｌ－Ｂは、ゲイン調整部６２から供給されたオーディオ信号Ｌに対して、HRTF層ＢのHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｌを出力する。

　HRTF適用部１１Ｒ－Ｂは、ゲイン調整部６２から供給されたオーディオ信号Ｒに対して、HRTF層ＢのHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｒを出力する。

　HRTF適用部１１Ｌ－Ａから出力されたオーディオ信号ＬとHRTF適用部１１Ｌ－Ｂから出力されたオーディオ信号Ｌは、加算された後、イヤホン出力制御部１４－２に供給され、イヤホン２に対して出力される。HRTF適用部１１Ｒ－Ａから出力されたオーディオ信号ＲとHRTF適用部１１Ｒ－Ｂから出力されたオーディオ信号Ｒは、加算された後、イヤホン出力制御部１４－２に供給され、イヤホン２に対して出力される。

　スピーカ選択部１３は、オーディオ信号のゲインを調整し、実スピーカから出力させる音の音量を音源の位置に応じて調整する。

　図１８は、ゲイン調整の例を示す図である。

　図１８のＡは、スピーカ選択部１３によるゲイン調整の例を示す。スピーカ選択部１３によるゲイン調整は、オブジェクトが位置Ｐ１の近傍に存在する場合にゲインが100％となり、位置Ｐ１から離れるにつれて徐々にゲインを下げるようにして行われる。

　図１８のＢは、ゲイン調整部６１によるゲイン調整の例を示す。ゲイン調整部６１によるゲイン調整は、オブジェクトが位置Ｐ２に近づくにつれてゲインを上げ、位置Ｐ２の近傍に存在する場合にゲインが100％となるようにして行われる。これにより、オブジェクトの位置が位置Ｐ１から位置Ｐ２に近づくに従って、実スピーカの音量がフェードアウトし、イヤホン２の音量がフェードインすることになる。

　また、ゲイン調整部６１によるゲイン調整は、位置Ｐ２から離れるにつれて徐々にゲインを下げるようにして行われる。

　図１８のＣは、ゲイン調整部６２によるゲイン調整の例を示す。ゲイン調整部６２によるゲイン調整は、オブジェクトが位置Ｐ３に近づくにつれてゲインを上げ、位置Ｐ３の近傍に存在する場合にゲインが100％となるようにして行われる。これにより、オブジェクトの位置が位置Ｐ２から位置Ｐ３に近づくに従って、イヤホン２から出力される、HRTF層ＡのHRTFを用いて処理が行われた音の音量がフェードアウトし、HRTF層ＢのHRTFを用いて処理が行われた音の音量がフェードインすることになる。

　このように動的オブジェクトの音をクロスフェードさせることにより、出力デバイスの切り替え時や音像定位処理に用いるHRTFの切り替え時における切り替え前後の音を自然な形で繋ぐことが可能となる。

・出力制御の例３
　音データと位置情報だけでなく、音源のサイズを表すサイズ情報が音源情報に含まれるようにすることも可能である。サイズが大きい音源の音は、複数の音源のHRTFを用いた音像定位処理によって再現される。例えば、映像に含まれる大きな飛行物体の音が、複数の音源のHRTFを用いた音像定位処理によって再現される。

　図１９は、音源の例を示す図である。

　図１９に色を付して示すように、位置Ｐ１と位置Ｐ２を含む範囲に音源VSが設定されているものとする。この場合、HRTF層ＡのHRTFのうち、位置Ｐ１に設定された音源Ａ１のHRTFと位置Ｐ２に設定された音源Ａ２のHRTFを用いた音像定位処理によって、音源VSが再現される。

　図２０は、音響処理装置１の構成例を示す図である。

　図２０に示すように、音源のサイズ情報が位置情報とともにHRTFデータベース１２とスピーカ選択部１３に入力される。音源VSのオーディオ信号Ｌは、HRTF適用部１１Ｌ－Ａ１とHRTF適用部１１Ｌ－Ａ２に供給され、オーディオ信号ＲはHRTF適用部１１Ｒ－Ａ１とHRTF適用部１１Ｒ－Ａ２に供給される。

　畳み込み処理部１１には、音源Ａ１のHRTFを用いて畳み込み処理を行うHRTF適用部１１Ｌ－Ａ１とHRTF適用部１１Ｒ－Ａ１、音源Ａ２のHRTFを用いて畳み込み処理を行うHRTF適用部１１Ｌ－Ａ２とHRTF適用部１１Ｒ－Ａ２が設けられる。HRTF適用部１１Ｌ－Ａ１とHRTF適用部１１Ｒ－Ａ１に対しては、音源Ａ１のHRTFの係数がHRTFデータベース１２から供給される。HRTF適用部１１Ｌ－Ａ２とHRTF適用部１１Ｒ－Ａ２に対しては、音源Ａ２のHRTFの係数がHRTFデータベース１２から供給される。

　HRTF適用部１１Ｌ－Ａ１は、オーディオ信号Ｌに対して、音源Ａ１のHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｌを出力する。

　HRTF適用部１１Ｒ－Ａ１は、オーディオ信号Ｒに対して、音源Ａ１のHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｒを出力する。

　HRTF適用部１１Ｌ－Ａ２は、オーディオ信号Ｌに対して、音源Ａ２のHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｌを出力する。

　HRTF適用部１１Ｒ－Ａ２は、オーディオ信号Ｒに対して、音源Ａ２のHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Ｒを出力する。

　HRTF適用部１１Ｌ－Ａ１から出力されたオーディオ信号ＬとHRTF適用部１１Ｌ－Ａ２から出力されたオーディオ信号Ｌは、加算された後、イヤホン出力制御部１４－２に供給され、イヤホン２に対して出力される。HRTF適用部１１Ｒ－Ａ１から出力されたオーディオ信号ＲとHRTF適用部１１Ｒ－Ａ２から出力されたオーディオ信号Ｒは、加算された後、イヤホン出力制御部１４－２に供給され、イヤホン２に対して出力される。

　以上のように、複数の音源のHRTFを用いた音像定位処理によって大きな音源の音が再現される。

　３つ以上の音源のHRTFが音像定位処理に用いられるようにすることも可能である。動的オブジェクトを用いて大きな音源の移動が再現されるようにしてもよい。動的オブジェクトが用いられる場合、上述したようなクロスフェード処理が適宜行われる。

　同じHRTF層の複数のHRTFを用いるのではなく、HRTF層ＡのHRTFとHRTF層ＢのHRTFといったように、異なるHRTF層の複数のHRTFを用いた音像定位処理によって、大きな音源が再現されるようにしてもよい。

・出力制御の例４
　映画の音のうち、高域の音をイヤホン２から出力させ、低域の音を実スピーカから出力させることも可能である。

　閾値となる所定の周波数以上の周波数の音が高域の音としてイヤホン２から出力され、その周波数未満の周波数の音が低域の音として実スピーカから出力される。例えば、低域の音の出力には、実スピーカとして設けられるサブウーファーが用いられる。

　図２１は、音響処理装置１の構成例を示す図である。

　図２１に示す音響処理装置１の構成は、畳み込み処理部１１の前段にHPF(High Pass Filter)７１が設けられ、スピーカ選択部１３の前段にLPF(Low Pass Filter)７２が設けられる点で、図１１の構成と異なる。HPF７１とLPF７２に対しては、オーディオ信号が供給される。

　HPF７１は、オーディオ信号から高域の音の信号を抽出し、畳み込み処理部１１に出力する。

　LPF７２は、オーディオ信号から低域の音の信号を抽出し、スピーカ選択部１３に出力する。

　畳み込み処理部１１は、HPF７１から供給された信号に対して、HRTF適用部１１ＬとHRTF適用部１１Ｒのそれぞれにおいてフィルタ処理を施し、フィルタ処理後のオーディオ信号を出力する。

　スピーカ選択部１３は、LPF７２から供給された信号をサブウーファーに割り当て、出力する。

　図２２のフローチャートを参照して、図２１の構成を有する音響処理装置１の再生処理について説明する。

　ステップＳ３１において、HRTFデータベース１２は、音源の位置情報を取得する。

　ステップＳ３２において、畳み込み処理部１１は、HRTFデータベース１２から読み出された、音源の位置に応じたHRTFの係数のペアを取得する。

　ステップＳ３３において、HPF７１は、オーディオ信号から高域成分の信号を抽出する。また、LPF７２は、オーディオ信号から低域成分の信号を抽出する。

　ステップＳ３４において、スピーカ選択部１３は、LPF７２により抽出された信号を実スピーカ出力制御部１４－１に出力し、低域の音をサブウーファーから出力させる。

　ステップＳ３５において、畳み込み処理部１１は、HPF７１により抽出された高域成分の信号に対して畳み込み処理を行う。

　ステップＳ３６において、イヤホン出力制御部１４－２は、畳み込み処理部１１による畳み込み処理後のオーディオ信号をイヤホン２に送信し、高域の音を出力させる。

　以上の処理が、映画のオーディオを構成する各音源の１サンプル毎に繰り返される。各サンプルの処理においては、HRTFの係数のペアが音源の位置情報に応じて適宜更新される。

＜変形例＞
・出力デバイスの例
　映画館に設置された実スピーカと開放型のイヤホンであるイヤホン２が用いられるものとしたが、ハイブリッド型の音響システムが他の出力デバイスの組み合わせによって実現されるようにすることも可能である。

　図２３は、ハイブリッド型の音響システムの構成例を示す図である。

　図２３に示すように、ネックバンドスピーカ１０１と、TV１０２の内蔵スピーカであるスピーカ１０３Ｌ，１０３Ｒとの組み合わせによってハイブリッド型の音響システムが実現される。ネックバンドスピーカ１０１は、図４のＢを参照して説明した肩載せ型の出力デバイスである。

　この場合、HRTFに基づく音像定位処理によって得られた仮想音源の音がネックバンドスピーカ１０１から出力される。図２３にはHRTF層が１層しか示されていないが、ユーザの周りには多層のHRTF層が設定される。

　また、オブジェクトベースの音源の音、チャンネルベースの音源の音が実音源の音としてスピーカ１０３Ｌ，１０３Ｒから出力される。

　このように、HRTFに基づく音像定位処理によって得られた仮想音源の音の出力に用いる出力デバイスとして、それぞれのユーザ用として用意され、それぞれのユーザに聴かせる音を出力可能な各種の出力デバイスを用いることが可能である。

　また、実音源の音の出力に用いる出力デバイスとして、映画館に設置された実スピーカとは異なる各種の出力デバイスを用いることが可能である。コンシューマ向けのシアタースピーカ、スマートフォンやタブレットのスピーカが実音源の出力に用いられるようにしてもよい。

　複数種類の出力デバイスの組み合わせによって実現される音響システムは、HRTFを用いてユーザ毎にカスタマイズされた音と、同じ空間にいる全員のユーザ用の共通の音とを聴かせるハイブリッド型の音響システムということもできる。

　同じ空間にいるユーザは複数人ではなく図２３に示すように１人であってもよい。

　ハイブリッド型の音響システムが車載スピーカを用いて実現されるようにしてもよい。

　図２４は、車載スピーカの設置位置の例を示す図である。

　図２４には、車の運転席と助手席の周りの構成が示されている。色付きの丸印で示すスピーカSP１１乃至SP１６のように、運転席と助手席の前方のダッシュボード周り、車のドアの内側、車の天井の内側などの車内の様々な位置に車載スピーカが設けられる。

　また、車には、ハッチ付きの丸印で示すように、運転席の背もたれの上方にスピーカSP２１ＬとスピーカSP２１Ｒが設けられ、助手席の背もたれの上方にスピーカSP２２ＬとスピーカSP２２Ｒが設けられる。

　車の内部の後方にも同様にして各位置にスピーカが設けられる。

　各座席に設けられるスピーカは、その座席に座っているユーザ用の出力デバイスとして仮想音源の音の出力に用いられる。例えば、スピーカSP２１ＬとスピーカSP２１Ｒは、図２５の矢印＃５１に示すように、運転席に座るユーザＵに聴かせる音の出力に用いられる。矢印＃５１は、スピーカSP２１ＬとスピーカSP２１Ｒから出力された仮想音源の音が運転席に座っているユーザＵに向けて出力されていることを表す。ユーザＵを囲む円はHRTF層を表す。HRTF層が１層しか示されていないが、ユーザの周りには多層のHRTF層が設定される。

　同様に、スピーカSP２２ＬとスピーカSP２２Ｒは、助手席に座るユーザに聴かせる音の出力に用いられる。

　各座席に設けられるスピーカを仮想音源の出力に用いるとともに、それ以外のスピーカを実音源の出力に用いることによっても、ハイブリッド型の音響システムを実現することが可能である。

　仮想音源の出力に用いる出力デバイスとして、各ユーザが装着する出力デバイスだけでなく、ユーザの周りに設置されている出力デバイスを用いることも可能である。

　このように、映画館だけでなく、車の中の空間や家の部屋などの様々な空間を聴取空間として、ハイブリッド型の音響システムによる音の聴取が行われるようにすることが可能である。

＜その他の例＞
　図２６は、スクリーンの例を示す図である。

　映画館内のスクリーンＳとして、図２６のＡに示すように、実スピーカを裏側に設置可能な音響透過型スクリーンが設置されるようにしてもよいし、図２６のＢに示すように、音を透過させない直視型のディスプレイが設置されるようにしてもよい。

　音を透過させないディスプレイがスクリーンＳとして設けられる場合、キャラクタの音声といったように、スクリーンＳ上の位置に存在する音源の音の出力にイヤホン２が用いられる。

　ユーザの顔の向きを検出するヘッドトラッキング機能が、仮想音源の音の出力に用いるイヤホン２などの出力デバイスに搭載されるようにしてもよい。この場合、ユーザの顔の向きが変化したとしても音像の位置が変化しないように音像定位処理が行われる。

　HRTF層として、聴取者毎に最適化されたHRTFの層と、共通に使用されるHRTF（標準のHRTF）の層が設けられるようにしてもよい。HRTFの最適化は、例えば、聴取者の耳をカメラにより撮影し、撮影によって得られた画像の解析結果に基づいて標準のHRTFを調整することによって行われる。

　HRTFの最適化が行われる場合、前方などの所定の方向のHRTFのみが最適化されるようにしてもよい。これにより、HRTFを用いた処理に要するメモリを削減することが可能となる。

　HRTFの後部残響に映画館の残響を合わせて音を馴染ませるようにしてもよい。HRTFの後部残響として、観客が入っている状態における残響と観客が入っていない状態における残響が切り替えられるようにしてもよい。

　上述した技術は、映画、音楽、ゲームなどの各種のコンテンツ制作現場においても適用可能である。

・コンピュータの構成例
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図２７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　図２７に示すような構成を有するコンピュータにより、音響処理装置１が実現される。音響処理装置１を構成する機能部が複数台のコンピュータにより実現されるようにしてもよい。例えば、実スピーカに対する音の出力を制御する機能部と、イヤホン２に対する音の出力を制御する機能部とがそれぞれ異なるコンピュータにおいて実現されるようにすることが可能である。

　CPU(Central Processing Unit)３０１、ROM(Read Only Memory)３０２、RAM(Random Access Memory)３０３は、バス３０４により相互に接続されている。

　バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、キーボード、マウスなどよりなる入力部３０６、ディスプレイ、スピーカなどよりなる出力部３０７が接続される。また、入出力インタフェース３０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部３０８、ネットワークインタフェースなどよりなる通信部３０９、リムーバブルメディア３１１を駆動するドライブ３１０が接続される。

　以上のように構成されるコンピュータでは、CPU３０１が、例えば、記憶部３０８に記憶されているプログラムを入出力インタフェース３０５及びバス３０４を介してRAM３０３にロードして実行することにより、上述した一連の処理が行われる。

　CPU３０１が実行するプログラムは、例えばリムーバブルメディア３１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部３０８にインストールされる。

　コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

・構成の組み合わせ例
　本技術は、以下のような構成をとることもできる。

（１）
　コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる出力制御部を備える
　情報処理装置。
（２）
　前記出力制御部は、それぞれの聴取者が装着する前記出力デバイスである、外音の取り込みが可能なヘッドホンから前記仮想音源の音を出力させる
　前記（１）に記載の情報処理装置。
（３）
　前記コンテンツは、映像のデータと音のデータとを含み、
　前記出力制御部は、前記映像に含まれるキャラクタの位置から所定の範囲内の位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
　前記（２）に記載の情報処理装置。
（４）
　前記出力制御部は、チャンネルベースの音を前記スピーカから出力させ、オブジェクトベースの前記仮想音源の音を前記ヘッドホンから出力させる
　前記（２）に記載の情報処理装置。
（５）
　前記出力制御部は、静的オブジェクトの音を前記スピーカから出力させ、動的オブジェクトの前記仮想音源の音を前記ヘッドホンから出力させる
　前記（２）に記載の情報処理装置。
（６）
　前記出力制御部は、複数の前記聴取者に共通に聴かせる音を前記スピーカから出力させ、それぞれの前記聴取者の位置に応じて音源の方向を変えて聴かせる音を前記ヘッドホンから出力させる
　前記（２）に記載の情報処理装置。
（７）
　前記出力制御部は、前記スピーカの高さと同じ高さの位置を音源位置とする音を前記スピーカから出力させ、前記スピーカの高さと異なる高さの位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
　前記（２）に記載の情報処理装置。
（８）
　前記出力制御部は、前記スピーカから離れた位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
　前記（２）に記載の情報処理装置。
（９）
　基準位置を中心として同じ距離にある前記仮想音源の層が多層となるように複数の前記仮想音源が配置され、
　それぞれの前記仮想音源における、前記基準位置に対する前記伝達関数の情報を記憶する記憶部をさらに備える
　前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記仮想音源のそれぞれの層は、複数の前記仮想音源が全天球状に配置されることによって構成される
　前記（９）に記載の情報処理装置。
（１１）
　同じ層の前記仮想音源は、等間隔で配置される
　前記（９）または（１０）に記載の情報処理装置。
（１２）
　前記仮想音源の複数の層には、前記伝達関数が前記聴取者毎に調整された前記仮想音源の層が含まれる
　前記（９）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
　処理対象のオーディオ信号に対して前記伝達関数を適用し、前記仮想音源の音を生成する音像定位処理部をさらに備える
　前記（９）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
　前記音像定位処理部は、前記出力デバイスから出力させる音を、所定の層の前記仮想音源の音から他の層の前記仮想音源の音に切り替える
　前記（１３）に記載の情報処理装置。
（１５）
　前記出力制御部は、ゲインが調整された前記オーディオ信号に基づいて生成された、前記所定の層の前記仮想音源の音と前記他の層の前記仮想音源の音とを前記出力デバイスから出力させる
　前記（１４）に記載の情報処理装置。
（１６）
　情報処理装置が、
　コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、
　音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる
　出力制御方法。
（１７）
　コンピュータに、
　コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、
　音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる
　処理を実行させるためのプログラム。

　１　音響処理装置，　２　イヤホン，　１１　畳み込み処理部，　１２　HRTFデータベース，　１３　スピーカ選択部，　１４　出力制御部，　５１　制御部，　５２　ベッドチャンネル処理部，　６１，６２　ゲイン調整部，　７１　HPF，　７２　LPF

Claims

　コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる出力制御部を備える
　情報処理装置。
　前記出力制御部は、それぞれの聴取者が装着する前記出力デバイスである、外音の取り込みが可能なヘッドホンから前記仮想音源の音を出力させる
　請求項１に記載の情報処理装置。
　前記コンテンツは、映像のデータと音のデータとを含み、
　前記出力制御部は、前記映像に含まれるキャラクタの位置から所定の範囲内の位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
　請求項２に記載の情報処理装置。
　前記出力制御部は、チャンネルベースの音を前記スピーカから出力させ、オブジェクトベースの前記仮想音源の音を前記ヘッドホンから出力させる
　請求項２に記載の情報処理装置。
　前記出力制御部は、静的オブジェクトの音を前記スピーカから出力させ、動的オブジェクトの前記仮想音源の音を前記ヘッドホンから出力させる
　請求項２に記載の情報処理装置。
　前記出力制御部は、複数の前記聴取者に共通に聴かせる音を前記スピーカから出力させ、それぞれの前記聴取者の位置に応じて音源の方向を変えて聴かせる音を前記ヘッドホンから出力させる
　請求項２に記載の情報処理装置。
　前記出力制御部は、前記スピーカの高さと同じ高さの位置を音源位置とする音を前記スピーカから出力させ、前記スピーカの高さと異なる高さの位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
　請求項２に記載の情報処理装置。
　前記出力制御部は、前記スピーカから離れた位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
　請求項２に記載の情報処理装置。
　基準位置を中心として同じ距離にある前記仮想音源の層が多層となるように複数の前記仮想音源が配置され、
　それぞれの前記仮想音源における、前記基準位置に対する前記伝達関数の情報を記憶する記憶部をさらに備える
　請求項１に記載の情報処理装置。
　前記仮想音源のそれぞれの層は、複数の前記仮想音源が全天球状に配置されることによって構成される
　請求項９に記載の情報処理装置。
　同じ層の前記仮想音源は、等間隔で配置される
　請求項９に記載の情報処理装置。
　前記仮想音源の複数の層には、前記伝達関数が前記聴取者毎に調整された前記仮想音源の層が含まれる
　請求項９に記載の情報処理装置。
　処理対象のオーディオ信号に対して前記伝達関数を適用し、前記仮想音源の音を生成する音像定位処理部をさらに備える
　請求項９に記載の情報処理装置。
　前記音像定位処理部は、前記出力デバイスから出力させる音を、所定の層の前記仮想音源の音から他の層の前記仮想音源の音に切り替える
　請求項１３に記載の情報処理装置。
　前記出力制御部は、ゲインが調整された前記オーディオ信号に基づいて生成された、前記所定の層の前記仮想音源の音と前記他の層の前記仮想音源の音とを前記出力デバイスから出力させる
　請求項１４に記載の情報処理装置。
　情報処理装置が、
　コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、
　音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる
　出力制御方法。
　コンピュータに、
　コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、
　音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる
　処理を実行させるためのプログラム。