JP2019153943A

JP2019153943A - 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム

Info

Publication number: JP2019153943A
Application number: JP2018038146A
Authority: JP
Inventors: 俊一郎左部; Shunichiro SATORI; 小林　史明; Fumiaki Kobayashi; 史明小林
Original assignee: Unimoto Inc
Current assignee: Unimoto Inc
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2019-09-12
Anticipated expiration: 2038-03-05
Also published as: JP6431225B1

Abstract

【課題】チャンネルが２つ以下の音響情報であっても、音響の３次元方向を認知可能な擬似的な３次元音響空間を形成すること。【解決手段】２つ以下のチャンネルで音響情報を取得する音響情報取得部と、取得した音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成する聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成部と、を備える。【選択図】図１

Description

本発明は、擬似的な３次元音響空間を形成する技術に関する。

上記技術分野において、特許文献１には、頭部伝達関数を用いて使用者の頭の回転によってもイヤホンからの音源の定位位置を維持する技術が開示されている。また、特許文献２には、ダミーヘッドのマイクロホンから取得したバイノーラル音響信号に基づき、クロストークキャンセルをしてスピーカからトランスオーラス再生を行う技術が開示されている。また、非特許文献１には、４方向のマイクロホンを含むアンビソニックスマイクで取得した音響情報から、ラウドスピーカにより聴取者の周りに音響場を生成するする技術が開示されている。

特開２０１０−０５６５８９号公報特開２０１５−１７０９２６号公報特開２０１５−２２０５９５号公報

西村竜一、「５章アンビソニックス」、映像情報メディア学会誌、特集：立体音響技術、SPECIAL ISSUE VOL.68 NO.08 2014 日本音響学会編、「頭部伝達関数の基礎と３次元音響システムへの応用」、音響テクノロジーシリーズ１９、コロナ社、2017年4月13日発行

しかしながら、上記文献に記載の技術では、チャンネルが２つ以下の限られた音響情報から、音響の３次元方向を認知可能な３次元音響空間を形成することができなかった。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る音響処理装置は、
２つ以下のチャンネルで音響情報を取得する音響情報取得手段と、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
を備える。

上記目的を達成するため、本発明に係る映像音響処理装置は、
上記音響処理装置と、
全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成手段と、
前記映像データ生成手段により生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成手段により生成された前記音響データにおける聴取方向とを対応付けて出力するよう制御する出力制御手段と、
を備える。

上記目的を達成するため、本発明に係る音響処理方法は、
２つ以下のチャンネルで音響情報を取得する音響情報取得ステップと、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
を含む。

上記目的を達成するため、本発明に係る音響処理プログラムは、
２つ以下のチャンネルで音響情報を取得する音響情報取得ステップと、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
をコンピュータに実行させる。

上記目的を達成するため、本発明に係る映像音響処理システムは、
全周カメラと、
マイクロホンと、
前記全周カメラにより取得した映像情報に対し、視聴者の視聴方向に対応する映像データを生成する映像データ生成手段と、
前記マイクロホンにより取得した２つ以下のチャンネルの音響情報に対し、前記視聴者の前記視聴方向に対応する頭部伝達関数による処理をし、前記視聴者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
前記映像データにおける視線方向と前記音響データにおける聴取方向とを対応付けて出力する出力手段と、
を備える。

上記目的を達成するため、本発明に係る映像音響処理方法は、
全周カメラにより取得した映像情報に対し、視聴者の視聴方向に対応する映像データを生成する映像データ生成ステップと、
マイクロホンにより取得した２つ以下のチャンネルの音響情報に対し、前記視聴者の前記視聴方向に対応する頭部伝達関数による処理をし、前記視聴者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
前記映像データにおける視線方向と前記音響データにおける聴取方向とを対応付けて出力する出力ステップと、
を含む。

本発明によれば、チャンネルが２つ以下の音響情報であっても、音響の３次元方向を認知可能な擬似的な３次元音響空間を形成することができる。

本発明の第１実施形態に係る音響処理装置の構成を示すブロック図である。本発明の第２実施形態に係る音響処理部を含む映像音響処理システムの動作概要を示す図である。本発明の第２実施形態に係る音響処理部を含む映像音響処理システムの構成を示すブロック図である。本発明の第２実施形態に係る音響処理部を含む映像音響処理システムの動作手順を示すシーケンス図である。本発明の第２実施形態に係る音響処理部を含む映像音響処理装置の概要を示す図である。本発明の第２実施形態に係る音響処理部を含む映像音響処理装置の機能構成を示すブロック図である。本発明の第２実施形態に係る音響データ生成部の機能構成を示すブロック図である。本発明の第２実施形態に係る頭部伝達関数を説明する図である。本発明の第２実施形態に係る頭部伝達関数データベースおよび音響データ生成部の音響データ生成テーブルの構成を示す図である。本発明の第２実施形態に係る音響データ生成部の音響データ生成の概要を示す図である。本発明の第２実施形態に係る映像データ生成部の映像データ生成の概要を示す図である。本発明の第２実施形態に係る音響処理部を含む映像音響処理装置のハードウェア構成を示すブロック図である。本発明の第２実施形態に係る音響処理部を含む映像音響処理装置の処理手順を示すフローチャートである。本発明の第２実施形態に係る映像音響再生処理の手順を示すフローチャートである。本発明の第３実施形態に係る音響処理部を含む映像音響処理システムの動作手順を示すシーケンス図である。本発明の第３実施形態に係る音響処理部を含む映像音響処理装置の機能構成を示すブロック図である。本発明の第３実施形態に係る頭部伝達関数データベースの構成を示す図である。本発明の第３実施形態に係る音響処理部を含む映像音響処理装置の処理手順を示すフローチャートである。本発明の第４実施形態に係る音響処理部を含む映像音響処理システムの動作概要を示す図である。本発明の第４実施形態に係る音響処理部を含む映像音響処理システムの動作手順を示すシーケンス図である。本発明の第４実施形態に係る音響処理部を含む映像音響処理システムの他の動作手順を示すシーケンス図である。本発明の第４実施形態に係る音響処理部を含む映像音響処理装置の機能構成を示すブロック図である。本発明の第４実施形態に係る対象音源分離部（抽出部）の対象音源位置生成テーブルの構成を示す図である。本発明の第４実施形態に係る音響データ生成部の音響データ生成テーブルの構成を示す図である。本発明の第４実施形態に係る映像音響再生処理の手順を示すフローチャートである。本発明の第５実施形態に係る音響処理部を含む映像音響処理システムの動作概要を示す図である。本発明の第５実施形態に係る音響処理部を含む映像音響処理システムの動作手順を示すシーケンス図である。本発明の第５実施形態に係る音響処理部を含む映像音響処理装置の機能構成を示すブロック図である。本発明の第５実施形態に係る誘導音響データベースおよび音響データ生成部の音響データ生成テーブルの構成を示す図である。本発明の第５実施形態に係る映像音響再生処理の手順を示すフローチャートである。本発明の第６実施形態に係る音響データ生成部の機能構成を示すブロック図である。本発明の第７実施形態に係る映像配信サーバを含む映像音響処理システムの動作手順を示すシーケンス図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

なお、本明細書で使用される「ステレオマイクロホン」との文言は、２つのマイクロホンによる音響情報の取得に限定されず、３つ以上のマイクロホンによる音響情報を２チャンネルにミックスダウンしたものも含む、２チャンネルの音響情報を生成するマイクロホンであることを示す。

［第１実施形態］
本発明の第１実施形態としての音響処理装置１００について、図１を用いて説明する。音響処理装置１００は、２つ以下のチャンネルの音響情報から擬似的な３次元音響空間を形成する装置である。

図１に示すように、音響処理装置１００は、音響情報取得部１０１と、音響データ生成部１０２と、を含む。音響情報取得部１０１は、２つ以下のチャンネルで音響情報１２０を取得する。音響データ生成部１０２は、取得した音響情報１２０に対して聴取者の聴取方向１２２に対応する頭部伝達関数１２１による処理をし、擬似的に３次元音響空間を形成する聴取者１３０の右耳用の音響データ１３１と左耳用の音響データ１３２とを生成する。なお、聴取者の聴取方向１２２は、聴取者が音響情報を聴取する機器、例えばヘッドフォンなどの搭載されたジャイロスコープで検知しても、聴取者が操作部を操作して入力してもよい。さらに、電子コンパスの利用または併用をしてもよい。かかる聴取方向の指示情報は、不図示の指示情報受信部で受信される。

本実施形態よれば、音響データにおける聴取方向を頭部伝達関数により擬似的に設定できるので、チャンネルが２つ以下の音響情報であっても、音響の３次元方向を認知可能な擬似的な３次元音響空間を形成することができる。

［第２実施形態］
次に、本発明の第２実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。第２実施形態においては、第１実施形態の音響処理装置を映像情報および音響情報を再生する映像音響処理装置に好適に組み込んだ映像音響処理システムについて説明するが、かかる用途に限定されるものではない。本実施形態に係る映像音響処理システムは、全周カメラにより取得した映像情報と２つ以下のチャンネルの音響情報とから、映像データにおける視線方向と音響データにおける聴取方向とを対応付けて出力する。なお、全周カメラにより取得した映像情報と２つのマイクロホンにより取得した音響情報とから映像データおよび音響データを生成する技術の一例が特許文献３に開示されている。また、頭部伝達関数（ＨＲＴＦ：Head Related Transfer Function）の測定、生成、使用については、非特許文献２に説明されている。

ここで、全周カメラとステレオマイクロホンとは、専用の機器であってもスマートフォンなどの携帯端末に搭載されたものであってもよい。また、映像データにおける視線方向と音響データにおける聴取方向とを対応付けて出力する出力機器は、パーソナルコンピュータ（ＰＣ）やテレビジョンであっても、スマートフォンなどの携帯端末に搭載されたものであってもよい。また、映像出力は表示画面であってもヘッドマウンティングディスプレイ（ＨＭＤ）であってもよく、音響出力はヘッドホンであってもイヤホンであってもよい。すなわち、生成された音響データは、音響データ加工部によってヘッドホン用やイヤホン用の音響出力に加工される。なお、本実施形態においては、携帯端末としての映像音響処理装置が視聴者の視聴方向に対応する全周映像再生を行う例を示すが、映像音響処理装置を構成する機能の一部は、他の装置例えば映像音響配信サーバなどに配置されてもよい。

《映像音響処理システム》
図２Ａ乃至図３を参照して、本実施形態の音響処理装置を含む映像音響処理システムの構成および動作について説明する。なお、以下の実施形態において、音響処理装置は各映像音響処理装置内の音響処理部に相当する。

（概要）
図２Ａは、本実施形態に係る音響処理部を含む映像音響処理システム２００の動作概要を示す図である。

図２Ａにおいて、映像音響処理装置２１０の表示画面２１０ａ、２１０ｂ、２１０ｃは、全周映像２９０から視聴者２７０により視線方向が移動選択されたそれぞれの画面である。

視聴者２７０が映像音響処理装置２１０の操作部への操作、あるいはヘッドホン２７１に搭載されたジャイロスコープや電子コンパスなどを用いた方向検知により、視線方向を移動させて表示画面２１０ａが再生される。すると、ヘッドホン２７１からは表示画面２１０ａの視線方向に対応する聴取方向の音響が再生される。例えば、前方からは「○○駅」のホームの音声２８１（“電車にご注意下さい！”）などが聞こえ、右方向からは「御神輿」を担ぐ音声２８２（“ソヤ！ソヤ！…）などが聞こえ、背後からは「たこ焼きの屋台」の販売員の声２８３（“たこ焼き８つで５００円！）などが聞こえる。

視聴者２７０が視線方向を移動させて表示画面２１０ｂが再生されると、ヘッドホン２７１からは表示画面２１０ｂの視線方向に対応する聴取方向の音響が再生される。例えば、前方からは「御神輿」を担ぐ音声２８２（“ソヤ！ソヤ！…）などが聞こえ、左方向からは「○○駅」のホームの音声２８１（“電車にご注意下さい！”）などが聞こえ、右方向からは「たこ焼きの屋台」の販売員の声２８３（“たこ焼き８つで５００円！）などが聞こえる。

視聴者２７０が視線方向を移動させて表示画面２１０ｃが再生されると、ヘッドホン２７１からは表示画面２１０ｃの視線方向に対応する聴取方向の音響が再生される。例えば、前方からは「たこ焼きの屋台」の販売員の声２８３（“たこ焼き８つで５００円！）などが聞こえ、左方向からは「御神輿」を担ぐ音声２８２（“ソヤ！ソヤ！…）などが聞こえ、背後からは「○○駅」のホームの音声２８１（“電車にご注意下さい！”）などが聞こえる。

なお、図２Ａでは、３方向の音声を代表させて説明したが、実際にはヘッドホン２７１から多くの音声が様々な方向や距離から混在して聞こえることになる。もし、かかる全周映像および音響が編集される場合には、特定の音声を強調してもよい。例えば、図２Ａにおいて祭りの再生ビデオとする場合は、祭りに関連する音響を強調すればよい。なお、本実施形態の適用例は図２Ａに限定されず、全周映像および音響の再生において映像と音響とを同期させる状況において適用され、同様の効果を奏する。

（構成）
図２Ｂは、本実施形態に係る音響処理部を含む映像音響処理システム２００の構成を示すブロック図である。

映像音響処理システム２００は、全周カメラおよびステレオマイクを含む映像音響取得部２３０または全周映像および音響を取得する携帯端末２５０と、撮影配信用パーソナルコンピュータ（以降、ＰＣ）２４０と、映像音響配信サーバ２２０と、携帯端末を含む通信端末２１１〜２１３と、を含む。通信端末２１３はＨＭＤである。ここで、通信端末２１１〜２１３は、音響処理部を備える映像音響処理装置２１０として説明される。なお、映像音響配信サーバ２２０は、ネットワーク２６０を介して、撮影配信用ＰＣ２４０、携帯端末２５０や通信端末２１１〜２１３と通信接続する。

ここで、映像音響取得部２３０の全周カメラは、６つの撮像センサにより全天動画を撮影する。レンズなどによる歪みや明暗などの調整は、全周カメラで行なわれて、各デジタル画像フレームを撮影配信用ＰＣ２４０に出力する。映像音響取得部２３０のステレオマイクは、全周カメラで撮影する動画に同期した立体音声を集音する。なお、図２では、ステレオマイクの音声は１つのデータストリームに結合されて撮影配信用ＰＣ２４０に入力されているが、撮影配信用ＰＣ２４０において結合処理がされてもよい。

撮影配信用ＰＣ２４０では、まず、全周カメラからの６つの撮像センサの動画データに基づいて、各画像の境の整合性を取ってそれぞれ全周映像データをフレーム単位で生成する。次に、全周映像データに対して圧縮符号化を行なって、全周動画が再生可能なＦＬＶフォーマットのデータに変換される。同期するステレオ音響は、圧縮符号化を行なって、ＦＬＶフォーマットのデータに追加される。

次に、ＦＬＶフォーマットのデータは、ＲＴＭＰ(Real Time Messaging Protocol)に従って、映像音響配信サーバ２２０にアップロードされる。映像音響配信サーバ２２０においては、例えば、あらかじめＨＴＭＬ(Hyper Text Markup Language)タグでＷｅｂページに埋め込まれたものから、ＵＲＬで参照できるように確保された格納位置に格納される。映像音響配信サーバ２２０は、必要であれば、各通信端末２１１〜２１３で復号可能な符号化あるいは暗号化を行なう。

一方、携帯端末２５０により取得された全周映像および音響は、直接、映像音響配信サーバ２２０にアップロードされ、映像音響配信サーバ２２０で同様の処理がされて、各通信端末２１１〜２１３に送信される。

一方、全周映像および音響の再生を視聴する通信端末２１１〜２１３からは、映像音響配信サーバ２２０のＩＰアドレスにアクセスする。映像音響配信サーバ２２０は、確保された格納位置に順次に格納される全周映像および音響を配信する。ただし、全周映像および音響の配信先が携帯端末２１２や２１３のスマートフォンやタブレットの場合は、配信規格をＨＬＳ(HTTP Live Streaming)に変換することにより配信する。一方、全周映像および音響の配信先が通信端末２１１のＰＣの場合は、ＲＴＭＰのまま配信、あるいは配信規格をＨＬＳやＨＤＳ(HTTP Dynamic Streaming)に変換することにより配信する。

（動作シーケンス）
図３は、本実施形態に係る音響処理部３１１を含む映像音響処理システム２００の動作手順を示すシーケンス図である。なお、通信端末２１１〜２１３は、本実施形態の音響処理装置に相当する音響処理部３１１と、映像処理部３１２とを備える映像音響処理装置２１０により代表させる。

ステップＳ３１１において、全周カメラおよびステレオマイクを有する映像音響取得部２３０は、撮影配信用ＰＣ２４０に制御されて、全周映像および音響取得処理を実行する。ステップＳ３１３において、撮影配信用ＰＣ２４０は取得したステレオ音響を含む全周映像を映像音響配信サーバ２２０にアップロードする。映像音響配信サーバ２２０は、ステップＳ３１５において、全周映像および音響を受信して検索可能に保持する。なお、映像データおよび音響データには再生タイミングを同期させるためのタイムスタンプが含まれる。

ステップＳ３２１において、映像音響処理装置２１０からの要請により、映像音響配信サーバ２２０から映像音響再生アプリケーションがダウンロードされる。なお、本実施形態では、映像音響再生アプリケーションにモデル化されたあるいは標準化された頭部伝達関数が含まれているものとする。映像音響処理装置２１０は、ステップＳ３２３において、ダウンロードされた映像音響再生アプリケーションを起動する。そして、映像音響処理装置２１０は、ステップＳ３２５において、全周映像および音響の視聴を映像音響配信サーバ２２０に要求する。映像音響配信サーバ２２０は、ステップＳ３２７において、全周映像および音響の視聴の要求に応えて、視聴者が所望とする全周映像および音響を選択して、映像音響処理装置２１０に送信する。なお、映像データおよび音響データには再生タイミングを同期させるためのタイムスタンプが含まれる。

映像音響処理装置２１０では、ステップＳ３２９において、受信した全周映像から全周映像データを再生する。また、映像音響処理装置２１０は、ステップＳ３３１において、受信した全周映像から音響を分離し音響データを再生する。次に、視聴者が表示された全周映像から所望の視線方向の映像の視聴を指示すると、映像音響処理装置２１０では、ステップＳ３３３において、指示された視聴方向を取得する。なお、視聴方向は映像音響処理装置２１０の操作部からの入力であっても、ＨＭＤの場合の頭部の方向センサからの入力であってもよい。

映像音響処理装置２１０は、ステップＳ３３５において、視聴方向に従って、対応する視線方向の映像データと、頭部伝達関数を用いて対応する聴取方向の音響データを生成する。そして、映像音響処理装置２１０は、ステップＳ３３７において、映像データに基づいて表示部に表示された映像画面出力と、映像画面の視線方向に対応する２チャンネル音響データによるヘッドホンからの音響出力を行う。

《映像音響処理装置》
図４Ａおよび図４Ｂを参照して、本実施形態の音響処理装置としての音響処理部を含む映像音響処理装置の構成および動作について説明する。

（概要）
図４Ａは、本実施形態に係る音響処理装置としての音響処理部３１１を含む映像音響処理装置２１０の概要を示す図である。

映像音響処理装置２１０は、音響処理装置としての音響処理部３１１と、映像データ生成部４２０と、出力制御部４３０と、を備える。音響処理部３１１は、２つ以下のチャンネルで音響情報を取得する音響情報取得部４１１と、取得した音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成する聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成部４０９と、を含む。

また、映像データ生成部４２０は、全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する。そして、出力制御部４３０は、映像データ生成部４２０により生成された視聴方向に対応する映像データにおける視線方向と、音響データ生成部４０９により生成された音響データにおける聴取方向とを対応付けて出力するよう制御する。

（機能構成）
図４Ｂは、本実施形態に係る映像音響処理装置２１０の機能構成を示すブロック図である。

映像音響処理装置２１０は、通信制御部４０１と、入出力インタフェース４０２と、映像音響再生アプリケーション４００と、を備える。通信制御部４０１は、ネットワーク２６０を介して映像音響配信サーバ２２０との通信を制御する。また、入出力インタフェース４０２は、映像音響処理装置２１０の内部または外部に接続された、表示部４２１、操作部４２２、本実施形態ではヘッドホンである音声出力部４２３などとインタフェースする。また、映像音響再生アプリケーション４００は、全周映像および音響を映像音響配信サーバ２２０から受信して、全周映像および音響において視聴者が視聴する映像の方向の映像データと音響の方向の音響データとを対応させて、表示画面およびヘッドホンから出力させる。なお、映像音響再生アプリケーション４００は、映像音響配信サーバ２２０からダウンロードされたものであっても、あらかじめ映像音響処理装置２１０に搭載されたものであってもよい。なお、表示部４２１は表示スクリーン、操作部４２２はキーボードやタッチパネルであってもよく、表示部４２１および操作部４２２を含むヘッドマウンティングディスプレイ（ＨＭＤ）であってもよい。

映像音響再生アプリケーション４００は、全周映像データ受信部４０３と、全周映像展開部（仮想映像空間生成部）４０４と、音響データ分離部４０５と、頭部伝達関数取得部４０６と、視聴方向選択部４０７と、視線方向映像データ生成部４０８と、音響データ生成部４０９と、頭部伝達関数データベース４１０と、を有する。ここで、頭部伝達関数取得部４０６と、音響データ生成部４０９と、頭部伝達関数データベース４１０とは、音響処理部３１１を形成するが、これに限定されるものではない。また、全周映像展開部４０４と視線方向映像データ生成部４０８とは、映像データ生成部４２０を形成し、全周映像データ受信部４０３を含めて映像処理部３１２とする。全周映像データ受信部４０３は、通信制御部４０１を介して、音響データを含む全周映像データを受信する。全周映像展開部４０４は、受信した全周映像データに基づいて、仮想の３次元（例えば、球）映像空間に展開する。音響データ分離部４０５は、全周映像データ受信部４０３が受信した全周映像データから音響データを分離する。頭部伝達関数取得部４０６は、モデル化されたあるいは標準化された頭部伝達関数を取得する。視聴方向選択部４０７は、視聴者から入力された視聴方向を操作部４２２から受信して、視聴方向に対応する視線方向の映像データと聴取方向の音響データとの生成を選択する。視線方向映像データ生成部４０８は、視聴方向選択部４０７の指示に従い、仮想の３次元（例えば、球）映像空間から視線方向の映像を選択的に生成する。音響データ生成部４０９は、音響データ生成テーブル４９１を有し、視聴方向選択部４０７の指示に従い、頭部伝達関数を用いて聴取方向に対応する２チャンネルの左右耳に出力する音響データを生成する。頭部伝達関数データベース４１０は、頭部伝達関数取得部４０６が取得した頭部伝達関数を格納して、視線方向映像データ生成部４０８に提供する。

視線方向映像データ生成部４０８が生成した視線方向の映像データは表示部４２１に表示され、音響データ生成部４０９が生成した聴取方向の音響データは２チャンネルの音声出力部４２３から音声出力される。

なお、映像データ生成部４２０による映像データの再生および表示部４２１における映像表示と、音響データ生成部４０９による音響データの再生および音声出力部４２３における音声出力とのタイミング同期は、例えば、映像データと音響データとが含むタイムスタンプを参照することで実現する。なお、以下煩雑さを避けるため映像データと音響データとが含むタイムスタンプについては図示や説明を省略する。また、映像表示と音声出力とのタイミングを同期する技術についても既知であるので詳細な説明は省略する。

（音響データ生成部の機能構成）
図５Ａは、本実施形態に係る音響データ生成部４０９の機能構成を示すブロック図である。

音響データ生成部４０９は、仮想音源ＸＲ５０１と、仮想音源ＸＬ５０２と、各頭部伝達関数を畳み込む演算部５０３〜５０６と、加算部５０７および５０８と、を含む。仮想音源ＸＲ５０１と仮想音源ＸＬ５０２とは、音響データ分離部４０５で分離された２チャンネルの音響データである。演算部５０３〜５０６は、仮想音源ＸＲ５０１と仮想音源ＸＬ５０２とが、それぞれ右耳と左耳とに到達する音響データを、各頭部伝達関数を用いて演算する。加算部５０７および５０８は、仮想音源ＸＲ５０１と仮想音源ＸＬ５０２とからの音響データを加えて、右耳用の音響データおよび左耳用の音響データを生成して、ヘッドホンなどの音声出力部４２３に出力する。

ここで、頭部伝達関数データベース４１０には、仮想リスナーの向き（α°：視聴者の視聴方向に対応）に対応して測定された頭部伝達関数が向きにより検索可能に格納されている。そして、仮想リスナーの向きよって適切な頭部伝達関数が選択されて、音源の相対的な位置が視聴者の視聴方向の変化に対応して変化する。これにより、視聴者の視聴方向からの音響が擬似的に生成される。なお、仮想リスナーの向きに一致する頭部伝達関数が格納されてない場合は、補間処理により算出されてよい。

なお、生成された音響の聴取方向は、視聴者の視聴方向に正確に一致するとは限らないが、視聴者の視聴方向の映像と同期して出力されるため、腹話術効果やカクテルパーティー効果などにより、映像方向と音響方向との不一致が是正される。

（頭部伝達関数について）
図５Ｂは、本実施形態に係る頭部伝達関数を説明する図である。

頭部伝達関数は、自由空間における音源と、聴取者の鼓膜近傍あるいは外耳道入口においた受音点との間の音響伝達関数である。例えば、聴取者の身体と頭部の３次元形状およびそれらの音響インピーダンスによって規定される。

頭部伝達関数は、頭部がある場合に、位置Ｓにある音源から外耳道入口Ｅに置いたマイクロホンまでの音響伝達関数Ｈ_E（Ｓ，ω）を、頭部がない場合の、位置Ｓにある音源から頭部中心位置Ｏに置いたマイクロホンまでの音響伝達関数Ｈ_O（Ｓ，ω）で除算した、伝達関数Ｈ_E（Ｓ，ω）／Ｈ_O（Ｓ，ω）として与えられる。あるいは、頭部伝達関数は、伝達関数Ｈ_E（Ｓ，ω）／Ｈ_O（Ｓ，ω）を離散フーリエ逆変換したインパルス応答ＨＲＩＲ(Head Related Impulse Response)として与えられる。

図５Ｂにおいては、頭部中心位置Ｏを極座標の中心として、音源の位置を極座標（距離ｄ、方位角θ、仰角φ）で表す。そして、右耳Ｅ_rの頭部伝達関数をＨＲＴＦ_rとする。なお、図５Ｂには図示されていないが、左耳Ｅ_lの頭部伝達関数をＨＲＴＦ_lとする。なお、方位角θは頭部中心位置Ｏの正面からの水平角度（通常、±１８０°で示す）であり、仰角φは頭部中心位置Ｏを含む平面からの角度（通常、±９０°で示す）である。

（頭部伝達関数データベースおよび音響データ生成テーブル）
図５Ｃは、本実施形態に係る頭部伝達関数データベース４１０および音響データ生成部４０９の音響データ生成テーブル４９１の構成を示す図である。

頭部伝達関数データベース４１０は、リスナーからの相対音源位置（図５Ｂの距離ｄ、方位角θ、仰角φ）５１１に対応付けて、左右のモデル化された頭部伝達関数（ＨＲＴＦ_r、ＨＲＴＦ_l）５１２を記憶する。なお、頭部伝達関数５１２に、外耳道以降の伝達関数は含まれも、別途に記憶してもよい。また、イヤホンであれば、ヘッドホンから耳介形状による伝達関数を除くことができる。

音響データ生成テーブル４９１は、右仮想音源５２１の位置と、左仮想音源５２２の位置と、仮想リスナー５２３の位置および向きとに基づいて算出した、リスナーからの相対右仮想音源位置５２４とリスナーからの相対左仮想音源位置５２５とを記憶するテーブルを有する。また、音響データ生成テーブル４９１は、相対右仮想音源位置５２４と相対左仮想音源位置５２５とのそれぞれに対応して、頭部伝達関数データベース４１０から検索した、リスナー向きと音源位置に応じた頭部伝達関数５３１を記憶するテーブルを有する。また、音響データ生成テーブル４９１は、出力部５４１に出力する、右仮想音源５２１の出力および左仮想音源５２２の出力と、頭部伝達関数５３１とから算出されたヘッドホン出力５４２を記憶するテーブルを有する。なお、図６Ｃでは、音響データ生成テーブル４９１を３つに分けて説明したが、１つのテーブルで実現されてもどのように分けて実現されてもよい。なお、リスナーの向きは、操作部４２２からのユーザ入力であっても、ヘッドホンやＨＭＤに設置されたジャイロスコープや電子コンパスなどによる方向検知部からの入力であってもよい。かかるリスナーの向きの指示情報は、情報処理装置の指示情報受信部で受信される。

（音響データ生成の概要）
図６Ａは、本実施形態に係る音響データ生成部４０９の音響データ生成の概要を示す図である。

実環境６１０においては、実音源からダミーヘッドの両耳の内蔵マイクによりバイノーラル音響データが取得される。このバイノーラル音響データは、再生環境６３０のヘッドホンなどの音声出力部４２３においてバイノーラル再生される。

一方、仮想の擬似環境６２０においては、仮想音源から頭部伝達関数を用いて再生環境６３０のヘッドホンなどの音声出力部４２３への音響データが生成される。

（映像データ生成の概要）
図６Ｂは、本実施形態に係る映像データ生成部４２０の映像データ生成の概要を示す図である。

図６Ｂにおいて、球体６００には、配信された全周映像データが含む全周映像の、各全周画像フレームを、球体面を覆うように順次に貼り付ける。そして、内部の視点６０１から球体６００を覆った全周画像フレームを、通信端末の画面を示す表示平面に投影した画像６０２、６０３および６０５が、通信端末の表示画面に表示される。視聴者に対応する視点６０１からの視線方向が球体６００の軸を中心に回転すれば、画像６０２も視線方向の回転につれて回転する。また、視点６０１が上下に移動すれば、画像６０２の範囲も視点６０１の上下に応じて上下する。また、視線方向が上向き／下向きになると、見上げた画面／見下ろした画面となる。また、視点６０１が球体の中心から視点６０４に離れると、球体６００に近づいた方向ではズームインとなり、球体６００から離れた方向ではズームアウトとなる。

このように、視点位置と視線方向とを変化させることで、全周映像の再生を見渡すことができて、臨場感にあふれる全周映像の視聴が可能となる。なお、立体音声との再生方向の同期は、図６Ｂの視線ベクトルと球体６００の交点に基づいて実現できる。また、映像とは異なる人工的な映像を合成するには、他の球体を設けてその球体に画像を貼り付ければよい。例えば、映像の上に人工画像を表示する場合は、球体６００の内部に他の球体を設ければよい。一方、人工背景を付加する場合には、球体６００の外に他の球体を設ければよい。３次元映像においては、視点から球体への距離の違いを奥行きとして表現することができる。

《映像音響処理装置のハードウェア構成》
図７は、本実施形態に係る映像音響処理装置２１０のハードウェア構成を示すブロック図である。

図７で、ＣＰＵ７１０は演算制御用のプロセッサであり、プログラムを実行することで図４および図５Ａの機能構成部を実現する。ＣＰＵ(Central Processing Unit)７１０は１つであっても複数であってもよい。ＲＯＭ(Read Only Memory)７２０は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。ネットワークインタフェース７３０は、ネットワークを介して、映像音響配信サーバ２２０との通信を制御する。

ＲＡＭ(Random Access Memory)７４０は、ＣＰＵ７１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ７４０には、本実施形態の実現に必要なデータを記憶する領域が確保されている。全周映像データ７４１は、映像音響配信サーバ２２０から受信した、音響データを含む全周映像のデータである。音響データ７４２は、全周映像データ７４１から分離された音響のデータである。全周映像仮想空間データ７４３は、全周映像データ７４１から生成された全周画像の仮想空間のデータである。音響仮想音源データ７４４は、音響データ７４２から生成された仮想音響場における仮想音源（仮想スピーカ）からの音響データである。視聴方向データ７４５は、視聴者から指示された視聴方向のデータである。視線方向映像データ７４６は、全周映像仮想空間データ７４３から視聴方向データ７４５に対応する視線方向の映像データである。聴取方向音響データ７４７は、音響仮想音源データ７４４に基づいて視聴方向データ７４５に対応する聴取方向を、頭部伝達関数を用いて設定した２チャンネルの音響データである。入出力データ７４８は、入出力インタフェース４０２を介した入出力機器と入出力するデータである。送受信データ７４９は、ネットワークを介して送受信されるデータである。なお、音響仮想音源データ７４４と、視聴方向データ７４５と、聴取方向音響データ７４７とが、音響データ生成テーブル４９１を構成する。

ストレージ７５０は、ＣＰＵ７１０が使用する、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。頭部伝達関数データベース４１０は、図５Ｂに示した頭部伝達関数を記憶するテーブルである。２チャンネル音響データ生成アルゴリズム７５１は、音響データ７４２から頭部伝達関数を用いて２チャンネルの音響データを生成するアルゴリズムである。聴取方向変更アルゴリズム７５２は、聴取方向が変更された場合の頭部伝達関数の変更を含むアルゴリズムである。

ストレージ７５０には、以下のプログラムが格納される。映像音響処理装置制御プログラム７５３は、本映像音響処理装置２１０の全体を制御するプログラムである。映像音響再生アプリケーション４００は、ダウンロードされた映像音響再生用のアプリケーションであり、以下のモジュールを含む。全周映像再生モジュール７５４は、全周映像データ７４１から視聴方向を考慮した視線方向映像データ７４６を生成するモジュールである。２チャンネル音響生成モジュール７５５は、音響データから視聴方向を考慮した聴取方向音響データ７４７を生成するモジュールである。視聴方向制御モジュール７５６は、視聴者からの視聴方向の指示に対応して、全周映像再生モジュール７５４および２チャンネル音響生成モジュール７５５を制御するためのモジュールである。映像音響出力制御モジュール７５７は、全周映像再生モジュール７５４が生成した映像データおよび２チャンネル音響生成モジュール７５５が生成した音響データの、表示部４２１および音声出力部４２３への出力を制御するモジュールである。

入出力インタフェース４０２は、入出力デバイスとのデータ入出力を制御するためのインタフェースを行なう。本実施形態においては、入出力インタフェース４０２には、表示部４２１、操作部４２２、音声出力部４２３などが接続される。

なお、図７のＲＡＭ７４０やストレージ７５０には、映像音響処理装置２１０が有する汎用の機能や他の実現可能な機能に関連するプログラムやデータは図示されていない。

《映像音響処理装置の処理手順》
図８Ａは、本実施形態に係る映像音響処理装置２１０の処理手順を示すフローチャートである。このフローチャートは、図７のＣＰＵ７１０がＲＡＭ７４０を使用して実行し、図４および図５Ａの機能構成部を実現する。

映像音響処理装置２１０は、ステップＳ８１１において、アプリケーションのダウンロード指示か否かを判定する。アプリケーションのダウンロード指示と判定されると、映像音響処理装置２１０は、ステップＳ８１３において、映像音響再生アプリケーションをダウンロードする。

アプリケーションのダウンロード指示と判定されない場合、映像音響処理装置２１０は、ステップＳ８２１において、アプリケーションの起動指示か否かを判定する。アプリケーションの起動指示と判定されると、映像音響処理装置２１０は、ステップＳ８２３において、映像音響再生アプリケーションを起動する。そして、映像音響処理装置２１０は、ステップＳ８２５において、映像音響の取得再生指示か否かを判定する。全周映像音響の取得再生指示と判定されるまで待って、映像音響処理装置２１０は、ステップＳ８２７において、映像音響配信サーバ２２０から所望の映像音響を取得する。そして、映像音響処理装置２１０は、ステップＳ８２９において、視聴者の視聴方向に対応する映像と音響とを再生する映像音響再生処理を実行する。

（映像音響再生処理）
図８Ｂは、本実施形態に係る映像音響再生処理（Ｓ８２９）の手順を示すフローチャートである。

映像音響処理装置２１０は、ステップＳ８３１において、受信した全周映像音響から全周映像データと音響データとを分離する。映像音響処理装置２１０は、ステップＳ８３３において、全周映像データから全周映像仮想空間を生成する。映像音響処理装置２１０は、ステップＳ８３５において、音響データから仮想音源を設定して仮想音響場を生成する。

映像音響処理装置２１０は、ステップＳ８３７において、視聴方向の変更指示を待つ。視聴方向の変更指示がなければ、現在の視聴方向の映像と音響とを維持してステップＳ８３９に進む。視聴方向の変更指示があれば、映像音響処理装置２１０は、ステップＳ８３８において、指示された視線方向を取得する。そして、映像音響処理装置２１０は、ステップＳ８３９において、全周映像仮想空間から視聴方向に対応する視線方向の映像データを生成する。映像音響処理装置２１０は、ステップＳ８４１において、仮想音響場から視聴方向に対応する聴取方向の２チャンネルの音響データを生成する。そして、映像音響処理装置２１０は、ステップＳ８４３において、生成された視線方向の映像データと聴取方向の２チャンネル音響データとを同期して、表示部および音声出力部に出力する。

映像音響処理装置２１０は、ステップＳ８４５において、全周映像音響の再生終了指示か否かを判定する。全周映像音響の再生終了指示でないと判定されると、ステップＳ８３１に戻って次の全周映像音響を受信して、以降の再生処理を繰り返す。全周映像音響の再生終了指示であると判定されると、処理を終了する。

本実施形態によれば、音響データにおける聴取方向を頭部伝達関数により擬似的に設定して映像データにおける視線方向と対応付けるので、チャンネルが２つ以下の音響情報であっても、音響の方向を、全周映像において視聴者が視聴する映像の方向と対応させて、表示画面およびヘッドホンから出力することができる。

［第３実施形態］
次に、本実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。本実施形態に係る映像音響処理システムは、上記第２実施形態と比べると、頭部伝達関数をサーバなどから取得して視聴者に適合した音響を生成する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

《映像音響処理システムの動作シーケンス》
図９は、本実施形態に係る音響処理部９１１を含む映像音響処理システムの動作手順を示すシーケンス図である。なお、通信端末は、音響処理部９１１および映像処理部３１２を備える映像音響処理装置９１０により代表させる。また、図９において、図３と同様のステップには同じステップ番号を付して、重複する説明を省略する。

映像音響処理装置９１０は、ステップＳ９２３において、操作部から入力された、頭部伝達関数を選択する、あるいは、修正するためのパラメータを映像音響配信サーバ２２０に送信する。映像音響配信サーバ９２０は、ステップＳ９２４において、送信されたパラメータに基づいて、適切な頭部伝達関数の選択あるいは修正を行って、映像音響処理装置９１０に返信する。映像音響処理装置９１０は、ステップＳ９２４において、受信した適切な頭部伝達関数を視聴者に対応付けて記憶し、同じ視聴者の場合はその頭部伝達関数を使用する。

《映像音響処理装置の機能構成》
図１０Ａは、本実施形態に係る映像音響処理装置９１０の機能構成を示すブロック図である。なお、図１０Ａにおいて、図４と同様の機能構成部には同じ参照番号を付して、重複する説明を省略する。

映像音響処理装置９１０においては、音響データ生成部４０９と、頭部伝達関数要求部１０２０と、頭部伝達関数取得部１００６と、頭部伝達関数データベース１０１０とが、音響処理部９１１を形成するが、これに限定されるものではない。

頭部伝達関数要求部１０２０は、操作部４２２からの操作などにより入力された視聴者ＩＤに対応する頭部伝達関数を映像音響配信サーバ９２０などに要求する。なお、本実施形態では、視聴者ＩＤによって頭部伝達関数を要求したが、視聴者の属性グループ（大人か子供か、女性か男性か、人種など）によって頭部伝達関数を要求してもよい。また、視聴者の耳介形状のパラメータなどを細かく送信して、より個々人に適切な頭部伝達関数を要求してもよい。

頭部伝達関数取得部１００６は、頭部伝達関数要求部１０２０の要求に応答して、映像音響配信サーバ９２０などから提供される頭部伝達関数を取得して、頭部伝達関数データベース１０１０に格納する。頭部伝達関数データベース１０１０は、頭部伝達関数取得部１００６が取得した頭部伝達関数を視聴者ＩＤや視聴方向などにより検索可能に格納する。

（頭部伝達関数データベース）
図１０Ｂは、本実施形態に係る頭部伝達関数データベース１０１０の構成を示す図である。なお、図１０Ｂにおいて、図５Ｃと同様の構成要素には同じ参照番号を付して、重複する説明を省略する。

頭部伝達関数データベース１０１０は、視聴者ＩＤ１０１１と、その属性１０１２や耳介形状１０１３などの頭部伝達関数に影響を及ぼす特徴とに対応付けて、それぞれ図５Ｃの頭部伝達関数データベース４１０と同様に、視聴者に適切な頭部伝達関数を記憶する。かかる属性１０１２や耳介形状１０１３などの特徴は、不図示の特徴取得部により取得される。そして、視聴者やその特徴に応じて適切な頭部伝達関数が頭部伝達関数選択部で選択される。

《映像音響処理装置の処理手順》
図１１は、本実施形態に係る映像音響処理装置９１０の処理手順を示すフローチャートである。なお、図１１において、図８Ａと同様のステップには同じステップ番号を付して、重複する説明を省略する。

映像音響処理装置９１０は、ステップＳ１１２３において、頭部伝達関数の取得指示であるか否かを判定する。頭部伝達関数の取得指示と判定されなければ、映像音響処理装置９１０は、ステップＳ８２５に進む。

頭部伝達関数の取得指示と判定されれば、映像音響処理装置９１０は、ステップＳ１１２４において、映像音響配信サーバ９２０に頭部伝達関数を選択または修正するパラメータを送信する。そして、映像音響処理装置９１０は、ステップＳ１１２５において、選択または修正された頭部伝達関数を映像音響配信サーバ９２０から受信して、視聴者ＩＤに対応付けて記憶する。

本実施形態によれば、視聴者に適合した頭部伝達関数を用いることができるので、音響の方向を、全周映像において視聴者が視聴する映像の方向とより正確に対応させることができる。

［第４実施形態］
次に、本発明の第４実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。本実施形態に係る映像音響処理システムは、上記第２実施形態および第３実施形態と比べると、所定の対象音響の仮想音源を付加して視聴者の注目を誘導する点で異なる。その他の構成および動作は、第２実施形態または第３実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

《映像音響処理システム》
図１２Ａ乃至図１２Ｃを参照して、本実施形態の音響処理装置を含む映像音響処理システムの構成および動作について説明する。なお、以下の実施形態において、音響処理装置は各映像音響処理装置内の音響処理部に相当する。

（概要）
図１２Ａは、本実施形態に係る音響処理部を含む映像音響処理システムの動作概要を示す図である。

図１２Ａの上半分には、５人のアイドルグループのコンサート会場における全周映像１２９１から、視聴者が選択した視線方向１２７０ａにおける表示画面１２１０ａおよび視聴者が選択した視線方向１２７０ｂにおける表示画面１２１０ｂと、ＨＭＤ１２７１からの付加音響１２８１〜１２８５が図示されている。かかる付加音響１２８１〜１２８５は、ステレオマイクによる会場から集音した音響情報に対して、５人の各アイドルのマイクロホンから取得した音声の音響情報である。

例えば、視聴者が視線方向１２７０ａの表示画面１２１０ａを視聴している場合には、付加音響１２８２および１２８３が正面から聞こえる。そして、視聴者のファンであるアイドルの音声が付加音響１２８５として右後方から聞こえている。これに気付いた視聴者は、映像音響処理装置２１０の操作部への操作、あるいはＨＭＤ１２７１に搭載されたジャイロスコープや電子コンパスなどを用いた方向検知により、付加音響１２８５が聞こえた方向に視線方向１２７０ｂを移動させる。これにより、視聴者は、ファンであるアイドルを表示画面１２１０ｂによって、ファンであるアイドルの音声を付加音響１２８５として、正面から視聴できることになる。図１２Ａにおいては、表示画面１２１０ｂは表示画面１２１０ａより小さくなっており、表示画面１２１０ｂがズームインした画面であることを示している。

図１２Ａの下半分には、サッカー試合を行っているサッカー場における全周映像１２９２から、視聴者が選択した視線方向１２７０ｃにおける表示画面１２１０ｃおよびボールを蹴る音に従い視聴者が選択した視線方向１２７０ｄにおける表示画面１２１０ｄと、ＨＭＤ１２７１からの付加音響１２８６が図示されている。かかる付加音響１２８６は、ステレオマイクによる会場から集音した音響情報に対して、マイクロホンから取得した音声から抽出したボールを蹴る音の音響情報である。なお、ボールを蹴る音は、ステレオマイクが集音した音響情報から抽出して強調しても、ステレオマイクとは別個の専用マイクロホンを設けてもよい。

例えば、視聴者が視線方向１２７０ｃの表示画面１２１０ｃを視聴している場合には、ボールを蹴る音が付加音響１２８６として右後方から聞こえている。これに気付いた視聴者は、映像音響処理装置２１０の操作部への操作、あるいはＨＭＤ１２７１に搭載されたジャイロスコープや電子コンパスなどを用いた方向検知により、付加音響１２８６が聞こえた方向に視線方向１２７０ｄを移動させる。これにより、視聴者は、ボールが映った表示画面１２１０ｄによって、ボールが有る場所を正面から視聴できることになる。図１２Ａにおいては、表示画面１２１０ｄは表示画面１２１０ｃより小さくなっており、表示画面１２１０ｄがズームインした画面であることを示している。なお、抽出されたボールを蹴る音を追跡して自動的に全周映像の表示方向を選択し、表示方向の音響を再生すれば、試合の動きを容易に追うことができる。さらに、抽出されたボールを蹴る音が視聴方向に無い場合にズームアウトするような処理も可能である。

なお、図１２Ａでは、５人の音声あるいはボールを蹴る音を代表させて説明したが、実際にはＨＭＤ１２７１から多くの音声が様々な方向や距離から混在して聞こえることになる。もし、かかる全周映像および音響が編集される場合には、特定の音声を強調したり抑制したりしてもよい。また、本実施形態の適用例は図１２Ａに限定されず、全周映像および音響の再生において特定の音響に注目する状況において適用され、同様の効果を奏する。

（動作シーケンス：対象音響用のマイクロホンがある場合）
図１２Ｂは、本実施形態に係る音響処理部１２１１を含む映像音響処理システムの動作手順を示すシーケンス図である。図１２Ｂのシーケンス図は図１２Ａの上半分のアイドルグループのコンサートの再生に対応する。なお、また、図１２Ｂにおいて、図３と同様のステップには同じステップ番号を付して、重複する説明を省略する。

ステップＳ１２１１において、映像音響取得部２３０に含まれる特定の対象の音響データを取得する少なくとも１つの対象マイクによる音響データも取得される。例えば、コンサートでのアイドルグループの個人マイクなどが含まれる。撮影配信用ＰＣ２４０は、ステップＳ１２１３において、少なくとも１つの対象マイクによる音響データも映像音響配信サーバ２２０にアップロードする。そして、映像音響配信サーバ２２０、ステップＳ１２１５において、少なくとも１つの対象マイクによる音響データも含めて保持される。なお、映像データおよび音響データには再生タイミングを同期させるためのタイムスタンプが含まれる。

ステップＳ１２２７において、映像音響配信サーバ２２０は、少なくとも１つの対象マイクによる音響データを含む、選択された映像および音響を映像音響処理装置１２１０に送信する。なお、映像データおよび音響データには再生タイミングを同期させるためのタイムスタンプが含まれる。ステップＳ１２３４において、映像音響処理装置１２１０は、ステップＳ３２９で再生した全周映像データを参照して対象マイクの位置を判定し、対象マイクにより取得された音響データに基づいて仮想対象音源を付加して、ステップＳ３３５において、最終的な音響データを生成する。なお、仮想対象音源を他の音源よりも強くしたり、他の音源を仮想対象音源よりも弱くしたりすることで、視聴者が対象音響に気付き易くなる。特に、視聴者の後方からの音に振り返るなどの動作を引き出すことができる。

なお、上記動作シーケンスでは、映像音響処理装置１２１０で対象マイクの位置を判定して対象マイクの音響データを付加したが、映像音響配信サーバ２２０側であらかじめ対象マイクの位置を判定して位置情報を付加しておいてもよい。その場合は、ステップＳ１２１５において、少なくとも１つの対象マイクによる音響データに、同じタイムスタンプの映像内の対象マイクの位置に基づいて音響データの相対位置情報が付加されて保持される。そして、ステップＳ１２３４においては、音響データに付加された相対位置情報が使用される。

（動作シーケンス：対象音響を抽出する場合）
図１２Ｃは、本実施形態に係る音響処理部を含む映像音響処理システムの他の動作手順を示すシーケンス図である。図１２Ｃのシーケンス図は図１２Ａの下半分のサッカー場でのサッカー試合の再生に対応する。なお、図１２Ｃにおいて、図３または図１２Ｂと同様のステップには同じステップ番号を付して、重複する説明を省略する。

ステップＳ１２３３において、映像音響処理装置１２１０は、ステップＳ３３１で再生された音響データから、特定の音響を対象音源として抽出する。例えば、球技スポーツにおいて、選手が球を打つ／蹴る音を拾うなども可能である。

そして、ステップＳ１２３４において、映像音響処理装置１２１０は、ステップＳ３２９で再生した全周映像データを参照して対象音源の位置を判定する。そして、対象音響として抽出された音響データに基づいて仮想対象音源を付加して、ステップＳ３３５において、最終的な音響データを生成する。なお、仮想対象音源を他の音源よりも強くしたり、他の音源を仮想対象音源よりも弱くしたりすることで、視聴者が対象音響に気付き易くなる。特に、視聴者の後方からの音に振り返るなどの動作を引き出すことができる。

なお、上記動作シーケンスでは、映像音響処理装置１２１０で対象音源を抽出してその位置を判定し、対象音源の音響データを付加したが、映像音響配信サーバ１２２０側であらかじめ対象音源を抽出してその位置を判定し、位置情報を付加しておいてもよい。その場合は、ステップＳ３１５の後に、映像音響処理装置１２１０は、映像音響取得部からアプロードされた全周映像音響の映像データおよび／または音響データから、特定の音響を対象音源として抽出する。対象音源の音響データには、同じタイムスタンプの映像内の対象物（上記例では球）の位置に基づいて音響データの相対位置情報が保持される。そして、ステップＳ３２７において、映像音響配信サーバ１２２０は、抽出した対象音源の音響データを含む、選択された映像および音響を映像音響処理装置１２１０に送信する。そして、抽出した対象音源の音響データには、相対位置情報が含まれることになる。

《映像音響処理装置の機能構成》
図１３Ａは、本実施形態に係る音響処理部１２１１を含む映像音響処理装置１２１０の機能構成を示すブロック図である。なお、図１３Ａにおいて、図４と同様の機能構成部には同じ参照番号を付して、重複する説明を省略する。

映像音響処理装置１２１０においては、頭部伝達関数取得部４０６と、頭部伝達関数データベース４１０と、対象音源分離部１３０５と、音響データ生成部１３０９とが、音響処理部１２１１を形成するが、これに限定されるものではない。

対象音源分離部１３０５は、対象音源位置生成テーブル１３５１を有し、音響データ分離部４０５により全周映像データから分離された音響データから、さらに、特定の音響（例えば、特定の音色、時間差、強度差など）を持つ対象音源を分離する。なお、図１２Ｃの場合、対象音源分離部１３０５は音響情報抽出部としての機能も有する。音響データ生成部１３０９は、音響データ生成テーブル１３９１を有し、音響データ付加部として対象音源分離部１３０５で分離され付加された対象音源も考慮に入れて、頭部伝達関数を用いた２チャンネルの音響データを生成する。

（音源位置生成テーブル）
図１３Ｂは、本実施形態に係る対象音源分離部（抽出部）１３０５の対象音源位置生成テーブル１３５１の構成を示す図である。対象音源位置生成テーブル１３５１は、対象音源分離部（抽出部）１３０５が２チャンネルの音響データに付加する対象音響の音源の位置を生成するために使用される。

対象音源位置生成テーブル１３５１としては、図１２Ａの上段および図１２Ｂにおける対象マイクからの音響の音源の位置を生成するための位置生成テーブル１３６０と、図１２Ａの下段および図１２Ｃにおける対象音響の音源の位置を生成するための位置生成テーブル１３７０と、を示す。

位置生成テーブル１３６０は、対象音響ＩＤ１３６１に対応付けて、対象音響付加条件１３６２としての、例えば、対象とするアイドルの対象画像特徴量と、音響データ（出力Ｙ_i）と仮想音源位置（ｘ_i,ｙ_i,ｚ_i）とを含む付加対象音響１３６３と、を記憶する。位置生成テーブル１３７０は、対象音響ＩＤ１３７１に対応付けて、対象音響付加条件１３７２としての、例えば、対象とするボールを蹴る音の対象音響特徴量と、音響データ（出力Ｙ_i）と仮想音源位置（ｘ_i,ｙ_i,ｚ_i）とを含む付加対象音響１３７３と、を記憶する。

（音響データ生成テーブル）
図１３Ｃは、本実施形態に係る音響データ生成部１３０９の音響データ生成テーブル１３９１の構成を示す図である。なお、図１３Ｃにおいて、図５Ｃの音響データ生成テーブル４９１と同様の構成要素には同じ参照番号を付して、重複する説明を省略する。

音響データ生成テーブル１３９１は、第１仮想音源１３２１の位置〜第ｎ仮想音源１３２２の位置と、仮想リスナー５２３の位置および向きとに基づいて算出した、リスナーからの相対第１仮想音源位置１３２４〜リスナーからの相対第ｎ仮想音源位置１３２５とを記憶するテーブルを有する。また、音響データ生成テーブル１３９１は、相対右仮想音源位置５２４と、相対左仮想音源位置５２５と、相対第１仮想音源位置１３２４〜相対第ｎ仮想音源位置１３２５とのそれぞれに対応して、頭部伝達関数データベース４１０から検索した、リスナー向きと音源位置に応じた頭部伝達関数１３３１を記憶するテーブルを有する。また、音響データ生成テーブル１３９１は、出力部１３４１に出力する、右仮想音源５２１の出力、左仮想音源５２２の出力および第１仮想音源１３２１〜第ｎ仮想音源１３２２の出力と、頭部伝達関数１３３１とから算出されたヘッドホン出力１３４２を記憶するテーブルを有する。なお、図１３Ｂでは、音響データ生成テーブル１３９１を４つに分けて説明したが、１つのテーブルで実現されてもどのように分けて実現されてもよい。なお、リスナーの向きは、操作部４２２からのユーザによる入力であっても、ヘッドホンやＨＭＤに設置されたなどの方向検知部からの検知であってもよい。

ヘッドホン出力１３４２は、仮想音源に対象音源を加え、かつ、対象音源の方向が明確に分離されて聴取可能となる。

（映像音響再生処理）
図１４は、本実施形態に係る映像音響再生処理（Ｓ８２９）の手順を示すフローチャートである。図１４において、図８Ｂと同様のステップには同じステップ番号を付して、重複する説明を省略する。

映像音響処理装置１２１０は、ステップＳ１４３６において、対象マイクで取得された、または、対象音響により抽出された対象音源を、仮想音響場に付加する。

本実施形態によれば、所定の対象音響の仮想音源を付加して視聴者の注目を誘導するので、視聴者が興味のある映像方向を容易に視聴することができる。なお、本実施形態において、付加する所定の対象音響の仮想音源は、２つ以下のチャンネルで取得した音響情報から生成された擬似的な３次元音響空間によるものに限定されず、バイノーラルステレオ音響として取得された音響情報であっても、アンビソニックス音源による音響情報であってもよい。

［第５実施形態］
次に、本発明の第５実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。本実施形態に係る映像音響処理システムは、上記第２実施形態乃至第４実施形態と比べると、ユーザを誘導する誘導方向からの音響を付加して出力する点で異なる。その他の構成および動作は、第２実施形態から第４実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

《映像音響処理システム》
図１５Ａおよび図１５Ｂを参照して、本実施形態の音響処理装置を含む映像音響処理システムの構成および動作について説明する。なお、以下の実施形態において、音響処理装置は各映像音響処理装置内の音響処理部に相当する。

（概要）
図１５Ａは、本実施形態に係る音響処理部を含む映像音響処理システムの動作概要を示す図である。

図１５Ａの左図は、展示会場や会社１５００の平面構成図である。視聴者１５７０は、展示会場や会社１５００内を破線矢印の順で移動するように設定されているとする。図１５Ａの右下図は、視聴者１５７０が展示会場や会社１５００内の地点Ａに来た場合の、全周映像１５９１および誘導音響１５８１，１５８２の概要を示す図である。また、図１５Ａの右上図は、視聴者１５７０が展示会場や会社１５００内の地点Ｂに来た場合の、全周映像１５９２および誘導音響１５８３の概要を示す図である。

図１５Ａの右下図のＡ地点において、視聴者１５７０が進行前方を向いている場合、全周映像１５９１から選択された前方画面１５１０ａが表示されている。その時に、左後方からの誘導音響１５８１（“こっちに…が見えます”）がＨＭＤ１５７１に提供される。視聴者１５７０は全周映像１５９１から選択された左後方の画面１５１０ｂを視聴する。なお、左後方の画面１５１０ｂが選択された場合に、画面１５１０ｂを説明する音響が再生されもよい。その後、左側から誘導音響１５８２（“こちらの奥に…が展示されています”）がＨＭＤ１５７１に提供される。視聴者１５７０は全周映像１５９１から選択された左側の画面１５１０ｃを視聴して、誘導音響１５８２に従って、左奥に進む。なお、左側の画面１５１０ｃが選択された場合に、画面１５１０ｃの奥に有る展示物を説明する音響が再生されもよい。

図１５Ａの右上図のＢ地点において、視聴者１５７０が進行前方を向いている場合、全周映像１５９２から選択された前方画面１５１０ｄが表示されている。その時に、右側からの誘導音響１５８３（“…はこちらです”）がＨＭＤ１５７１に提供される。視聴者１５７０は全周映像１５９２から選択された右側の画面１５１０ｅを視聴する。なお、左側の画面１５１０ｅが選択された場合に、画面１５１０ｅを説明する音響が再生されもよい。

なお、図１５Ａにおいては、全周映像１５９１および１５９２と誘導音響１５８１〜１５８３について示したが、例えば、ビデオシースルーＨＭＤを使用する場合には、全周映像１５９１および１５９２はビデオシースルーＨＭＤを透過した実空間であってもよい。

（動作シーケンス）
図１５Ｂは、本実施形態に係る音響処理部を含む映像音響処理システムの動作手順を示すシーケンス図である。なお、図１５Ｂにおいて、図３と同様のステップには同じステップ番号を付して、重複する説明を省略する。

映像音響配信サーバ１５２０は、ステップＳ１５２７において、全周映像音響情報と共に、視聴者を誘導する音響データを付加する付加条件と、付加する音響データとを対応付けた音響情報を送信する。

映像音響配信サーバ２２０は、オプションとして、ステップＳ１５３４において、映像音響処理装置１５１０からの視聴方向の情報に対応して、視聴者を誘導する音響データを映像音響処理装置１５１０に送信する。なお、視聴者を誘導する音響データを映像音響処理装置１５１０があらかじめ保持している場合、ステップＳ１５３４はなくてよい。

映像音響処理装置１５１０は、ステップＳ１５３３において、視聴者の視聴方向の視聴映像が付加条件と合致するかを判定し、合致すれば視聴者を誘導する音響データを取得する。そして、映像音響処理装置１５１０は、ステップＳ１５３４において、映像音響配信サーバ１５２０から受信した視聴者を誘導する音響データ、または、自機内に保持している視聴者を誘導する音響データを、ステップＳ３３１で再生された音響データに付加する。

なお、上記シーケンスでは、あらかじめ視聴者を誘導する音響データを映像音響処理装置１５１０に保持したが、映像音響処理装置１５１０が付加条件を満たしたと判定した場合に、映像音響配信サーバ１５２０から取得してもよい。その場合、映像音響配信サーバ１５２０は、オプションとして、ステップＳ１５３３の代わりに、映像音響処理装置１５１０からの視聴方向の情報を映像音響配信サーバ１５２０に通知し、それに応答して映像音響配信サーバ１５２０が視聴者を誘導する音響データを映像音響処理装置１５１０に送信する。

《映像音響処理装置の機能構成》
図１６Ａは、本実施形態に係る音響処理部１５１１を含む映像音響処理装置１５１０の機能構成を示すブロック図である。図１６Ａにおいて、図４と同様の機能構成部には同じ参照番号を付して、重複する説明を省略する。

映像音響処理装置１５１０においては、頭部伝達関数取得部４０６と、頭部伝達関数データベース４１０と、音響データ生成部１６０９と、誘導音響データベース１６３１と、誘導音響付加部１６３２とが、音響処理部１５１１を形成するが、これに限定されるものではない。

誘導音響データベース１６３１は、誘導音響を付加する条件に対応して付加すべき誘導音響データを格納する。誘導音響付加部１６３２は、誘導音響を付加する条件を満たした場合に、対応する誘導音響を提供する。音響データ生成部１６０９は、音響データ生成テーブル１６９１を有し、マイクロホンにより取得した音響データに、誘導音響データベース１６３１に格納された音響データを視聴者の所定方向に付加した音響データを生成する。

（誘導音響データベースおよび音響データ生成テーブル）
図１６Ｂは、本実施形態に係る誘導音響データベース１６３１および音響データ生成部１６０９の音響データ生成テーブル１６９１の構成を示す図である。図１６Ａにおいて、図５Ｃと同様の構成要素は、重複する図示および説明を省略する。すなわち、図１６Ｂにおける音響データ生成テーブル１６９１は、図５Ｃの音響データ生成テーブル４９１に追加されるテーブルである。

誘導音響データベース１６３１は、誘導音響ＩＤ１６１１に対応付けて、誘導音源の付加条件１６１２と、付加条件１６１２が満たされた場合に付加される付加誘導音源１６１３と、を記憶する。付加条件１６１２には、例えば、映像のフレーム番号、フレーム特徴量、対象画像の特徴量、または、対象音響の特徴量などが含まれる。すなわち、誘導音源付加を必要とする状況を表す特徴を判定すればよい。また、付加誘導音源１６１３には、誘導する音響データ（出力Ｚ_i）と音響データに対応する音響を出力する仮想音源位置（ｘ_i,ｙ_i,ｚ_i）とが含まれる。

音響データ生成テーブル１６９１は、誘導音響の仮想音源１６２１の位置と、仮想リスナー５２３の位置および向きとに基づいて算出した、リスナーからの相対誘導仮想音源位置１６２４とを記憶するテーブルを有する。なお、相対誘導仮想音源位置１６２４を付加した、頭部伝達関数データベース４１０からの頭部伝達関数の検索、および、ヘッドホン出力の算出については、図１３Ｂに準じて算出できるので、説明を省略する。

（映像音響再生処理）
図１７は、本実施形態に係る映像音響再生処理（Ｓ８２９）の手順を示すフローチャートである。なお、図１７において、図８Ｂと同様のステップには同じステップ番号を付して、重複する説明を省略する。

映像音響処理装置１５１０は、ステップＳ１７３５において、誘導音響付加条件を満たしているか否かを判定する。誘導音響付加条件を満たしていれば、映像音響処理装置１５１０は、ステップＳ１７３６において、誘導音響を視聴者の所定方向に付加する。

本実施形態によれば、上記実施形態の効果に加え、付加された音響の方向に視聴者を誘導することができる。なお、本実施形態において、付加する所定の対象音響の仮想音源は、２つ以下のチャンネルで取得した音響情報から生成された擬似的な３次元音響空間によるものに限定されず、バイノーラルステレオ音響として取得された音響情報であっても、アンビソニックス音源による音響情報であってもよい。

また、本実施形態においては、付加条件を満たせば誘導音響を付加する例を説明したが、例えば、付加条件を満たしても既に視聴者が目標映像を視聴している場合には、誘導音響の再生を中止するように構成してもよい。また、本実施形態においては、映像および音響の取得時に存在しない付加音響として誘導音響を例に説明したが、映像および音響の取得時に存在しない他の音響を付加することもできる。

例えば、追加音声の音源位置を常に視聴者の正面や上方などに固定すれば、注意事項やナレーションが、どちらを向いても常に正面から聞こえる。また、音源位置を真後ろに固定し、存在しない誰かの声がずっと後ろから聞こえる、等の使い方も可能である。かかる構成によれば、視聴者の向きにかかわらず一定の方向から音声が聞こえるので、視線方向で変化しない安定した音声内容が求められる場合に効果的である。

［第６実施形態］
次に、本発明の第６実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。本実施形態に係る映像音響処理システムは、上記第２実施形態乃至第５実施形態と比べると、音響出力がヘッドホンやイヤホンでなくスピーカである点で異なる。その他の構成および動作は、第２実施形態から第５実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

（音響データ生成部の機能構成）
図１８は、本実施形態に係る映像音響処理装置の音響データ生成部１８０９の機能構成を示すブロック図である。図１８において、図５Ａと同様の構成要素には同じ参照番号を付して、重複する説明を省略する。

音響データ生成部１８０９は、頭部伝達関数から算出された関数を畳み込む演算部１８０３〜１８０６と、減算部１８０７および１８０８と、を備える。演算部１８０３〜１８０６は、（ＨＲＴＦ_ｌＬ・ＨＲＴＦ_ｒＲ−ＨＲＴＦ_ｌＲ・ＨＲＴＦ_ｒＬ）で除算した、各頭部伝達関数が畳み込まれる。そして、減算部１８０７および１８０８は、ヘッドホンやイヤホンでは起こらない、スピーカ１８１１によるクロストークを取り除く働きをする。このように、本実施形態で生成された音響データは、音響データ加工部によってスピーカ用の音響出力に加工される。

本実施形態によれば、スピーカによる複数視聴者の視聴においても、音響の方向を、全周映像において視聴者が視聴する映像の方向と対応させることができる。

［第７実施形態］
次に、本発明の第７実施形態に係る音響処理装置を含む映像音響処理システムについて説明する。本実施形態に係る映像音響処理システムは、上記第２実施形態乃至第６実施形態と比べると、クラウドサーバとしての映像音響配信サーバが視聴方向の全周映像および音響再生を行う点で異なる。その他の構成および動作は、第２実施形態から第６実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

《映像音響処理システムの動作手順》
図１９は、本実施形態に係る映像音響配信サーバ１９２０を含む映像処音響理システムの動作手順を示すシーケンス図である。図１９において、図３と同様のステップには同じステップ番号を付して、重複する説明を省略する。

映像音響配信サーバ１９２０は、ステップＳ１６２７において、視聴者が所望の全周映像データおよび音響データを選択する。

そして、映像音響配信サーバ１９２０のステップＳ１９２９〜Ｓ１９３５においては、図３において映像音響処理装置２１０が実行していたステップＳ３２９〜Ｓ３３５が実行される。

映像音響配信サーバ１９２０は、ステップＳ１９３７において、生成された視線方向の映像データと聴取方向の２チャンネル音響データとを映像音響処理装置１９１０に送信する。

本実施形態によれば、携帯端末の負担を軽減できるので、より多くの視聴者による音響方向を全周映像の映像方向と対応させた視聴が可能になる。

［他の実施形態］
なお、上記実施形態においては、あらかじめ測定されてモデル化あるいは標準化された頭部伝達関数を用いて処理をしたが、頭部および耳介形状などの３次元モデルを作成して、頭部伝達関数を算出しながら処理を行ってもよい。頭部伝達関数の算出としては、例えば、ＢＥＭ(boundary element method)やＦＤＴＤ(finite-difference time-domain)法などが知られている。

また、上記指実施形態においては、動画に含まれる音響または追加音響は頭部伝達関数を用いて聴取方向を制御したが、バイノーラルステレオ音響として取得された場合は、頭部伝達関数の処理を省略しても映像の視線方向と音響の聴取方向とを対応付けた再生が可能となる。この場合には、より簡単な構成によって付加音響や誘導音響の聴取方向を設定した追加をすることができる。

また、上記実施形態においては、映像として、本発明による効果が著しい全周映像と音響との同期について説明したが、映像は全周映像に限定されるものではない。

さらに、本発明の擬似的な３次元音響空間の形成方法は、映像と同期させる適用に限定されずに、他の情報との同期や音響単独での使用においても、同様の効果を奏する。例えば、聴取方向の変化に連動するコンテンツ（例えば空間音声ラジオのようなもの等）に対しても適用され、同様の効果を奏する。また、ドーム／プラネタリウム投影（または、ユーザを囲むように複数ディスプレイを配置した多面ディスプレイ）での多人数同時視聴への対応も可能である。すなわち、ユーザの向きとは連動しない通常のドーム映像を視ながら、各ユーザ側端末で向きと連動する音声のみを再生する構成であり、同様の効果を奏する。

また、［第４実施形態］の付加音響処理や［第５実施形態］の誘導音響処理を映像再生と関連付けずに音響単独で実施することも可能である。この場合は、図１３Ａの音響処理部１２１１のみでの処理、図１６Ａの音響処理部１５１１のみでの処理で実現される。かかる音響単独の処理は、上記ドーム／プラネタリウム投影に適用できるし、例えば、ヘッドホンで音響を聞いて街中を歩いている時に、行き先への音声ナビや近くの店の音声紹介を提供する処理などにも適用でき、同様の効果を奏する。この場合、ＧＰＳ方式などによる位置検出を組み合わせてもよい。これらの適用例において、２チャンネル音源は、２つ以下のチャンネルで取得した音響情報から生成された擬似的な３次元音響空間によるものに限定されず、バイノーラルステレオ音響として取得された音響情報であっても、アンビソニックス音源による音響情報であってもよい。

さらに、本実施形態の音響処理を全周映像ではない通常の映像コンテンツと組み合わせれば、広く普及しているスマートフォン端末を用いて、例えば移動中の電車内であっても、高価なホームシアター・サラウンドシステムと同様の効果を得ることができる。また、同様に、本実施形態の音響処理は、目の前だけではなく左右にも人がいるように感じられる遠隔会議システムにも応用可能である。また、本実施形態の付加音響処理や誘導音響処理は、注意を向けるべき方向から警告音等を鳴らすことができるため、航空機や自動車の操縦・運転操作や、工場・発電所の制御操作等、各種の操作支援システムやトレーニングシステムにも応用可能である。また、同様に、本実施形態の付加音響処理や誘導音響処理は、より一般的な教育システムやトレーニングシステムにも応用可能である。

また、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する音響処理プログラムを含む情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体（non-transitory computer readable medium）は本発明の範疇に含まれる。

上記目的を達成するため、本発明に係る音響処理装置は、
音響情報を取得する音響情報取得手段と、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
を備え、
前記音響データ生成手段は、特定の対象を音源とする音響情報を前記音源の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第１音響データ付加手段を有する。

上記目的を達成するため、本発明に係る音響処理プログラムは、
音響情報を取得する音響情報取得ステップと、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
をコンピュータに実行させる音響処理プログラムであって、
前記音響データ生成ステップは、特定の対象を音源とする音響情報を前記音源の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第１音響データ付加ステップを有する。

上記目的を達成するため、本発明に係る映像音響処理装置は、
音響情報を取得する音響情報取得手段と、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成手段と、
前記映像データ生成手段により生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成手段により生成された前記音響データにおける聴取方向とを対応付けて出力するよう制御する出力制御手段と、
を備え、
前記音響データ生成手段は、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第１音響データ付加手段を有する。

上記目的を達成するため、本発明に係る映像音響処理プログラムは、
音響情報を取得する音響情報取得ステップと、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成ステップと、
前記映像データ生成ステップにおいて生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成ステップにおいて生成された前記音響データにおける聴取方向とを対応付けて出力するよう制御する出力制御ステップと、
をコンピュータに実行させる映像音響処理プログラムであって、
前記音響データ生成ステップは、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第１音響データ付加ステップを有する。

上記目的を達成するため、本発明に係る映像音響配信サーバは、
音響情報を取得する音響情報取得手段と、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成手段と、
前記映像データ生成手段により生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成手段により生成された前記音響データにおける聴取方向とを対応付けて、前記映像データおよび前記音響データを送信する送信手段と、
を備え、
前記音響データ生成手段は、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第１音響データ付加手段を有する。

上記目的を達成するため、本発明に係る映像音響配信プログラムは、
音響情報を取得する音響情報取得ステップと、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成ステップと、
前記映像データ生成ステップにおいて生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成ステップにおいて生成された前記音響データにおける聴取方向とを対応付けて、前記映像データおよび前記音響データを送信する送信ステップと、
をコンピュータに実行させる映像音響配信プログラムであって、
前記音響データ生成ステップは、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第１音響データ付加ステップを有する。

Claims

２つ以下のチャンネルで音響情報を取得する音響情報取得手段と、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成する前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
を備える音響処理装置。
前記２つ以下のチャンネルの音響情報は、３つ以上のマイクロホンから入力された音響情報をミックスダウンして生成される請求項１に記載の音響処理装置。
前記聴取者に対応して適切な頭部伝達関数を選択する頭部伝達関数選択手段をさらに備える請求項１または２に記載の音響処理装置。
前記頭部伝達関数選択手段は、
前記頭部伝達関数に影響を及ぼす前記聴取者の特徴を取得する特徴取得手段と、
前記聴取者の特徴に対応して適切な頭部伝達関数を取得する頭部伝達関数取得手段と、
をさらに備える請求項３に記載の音響処理装置。
前記音響データ生成手段が生成した前記音響データを、ヘッドホン用、イヤホン用またはスピーカ用に加工する音響データ加工手段をさらに備える請求項１乃至４のいずれか１項に記載の音響処理装置。
請求項１乃至５のいずれか１項に記載の音響処理装置と、
全周カメラにより取得した映像情報を受信して、視聴者の視聴方向に対応する映像データを生成する映像データ生成手段と、
前記映像データ生成手段により生成された前記視聴方向に対応する映像データにおける視線方向と、前記音響データ生成手段により生成された前記音響データにおける聴取方向とを対応付けて出力するよう制御する出力制御手段と、
を備える映像音響処理装置。
前記音響処理装置の前記音響データ生成手段は、特定の対象を音源とする音響情報を前記特定の対象の映像情報の位置に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第１音響データ付加手段を有する請求項６に記載の映像音響処理装置。
前記音響データ生成手段は、マイクロホンにより取得した音響情報から前記特定の対象を音源とする音響情報を抽出して、前記特定の対象の映像情報の位置に対応付ける音響情報抽出手段をさらに有する請求項７に記載の映像音響処理装置。
前記音響データ生成手段は、前記視聴者を誘導する音響情報を誘導方向に対応付けて前記頭部伝達関数による処理をし、前記音響データに付加する第２音響データ付加手段を有する請求項６または７に記載の映像音響処理装置。
前記視聴者の前記視聴方向の指示情報を受信する指示情報受信手段をさらに備える請求項６乃至９のいずれか１項に記載の映像音響処理装置。
２つ以下のチャンネルで音響情報を取得する音響情報取得ステップと、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
を含む音響処理方法。
２つ以下のチャンネルで音響情報を取得する音響情報取得ステップと、
取得した前記音響情報に対して聴取者の聴取方向に対応する頭部伝達関数による処理をし、擬似的に３次元音響空間を形成するための、前記聴取者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
をコンピュータに実行させる音響処理プログラム。
全周カメラと、
マイクロホンと、
前記全周カメラにより取得した映像情報に対し、視聴者の視聴方向に対応する映像データを生成する映像データ生成手段と、
前記マイクロホンにより取得した２つ以下のチャンネルの音響情報に対し、前記視聴者の前記視聴方向に対応する頭部伝達関数による処理をし、前記視聴者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成手段と、
前記映像データにおける視線方向と前記音響データにおける聴取方向とを対応付けて出力する出力手段と、
を備える映像音響処理システム。
全周カメラにより取得した映像情報に対し、視聴者の視聴方向に対応する映像データを生成する映像データ生成ステップと、
マイクロホンにより取得した２つ以下のチャンネルの音響情報に対し、前記視聴者の前記視聴方向に対応する頭部伝達関数による処理をし、前記視聴者の右耳用の音響データと左耳用の音響データとを生成する音響データ生成ステップと、
前記映像データにおける視線方向と前記音響データにおける聴取方向とを対応付けて出力する出力ステップと、
を含む映像音響処理方法。