JP2018019295A

JP2018019295A - 情報処理システム及びその制御方法、コンピュータプログラム

Info

Publication number: JP2018019295A
Application number: JP2016148996A
Authority: JP
Inventors: 船越　正伸; Masanobu Funakoshi; 正伸船越
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2018-02-01

Abstract

【課題】任意視点映像に見合う臨場感のある音響を生成することが可能な技術を提供する。
【解決手段】複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムであって、視点位置と、撮影対象に対する視線の方向とを取得する取得手段と、視点位置及び視線の方向に応じた画像であって、複数の画像信号に基づく画像に対応する音響信号を生成するために用いる収音信号の収音点を、複数の収音点から、視点位置及び視線の方向に応じて選択する選択手段と、選択手段により選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段とを備える。
【選択図】図１

Description

本発明は情報処理システム及びその制御方法、コンピュータプログラムに関し、特に、任意視点映像にふさわしい音響再生信号を生成するための技術に関する。

近年、コンピュータグラフィックス技術等を応用することにより、スポーツ競技場などの広い範囲を取り囲むように設置された複数のカメラによる撮影映像を適宜処理することによって、任意視点の映像を生成するシステムが開発されている。

このようなシステムによって生成される任意視点映像に対してより臨場感を持たせるために、それに見合う音響信号を生成、再生することが求められる。

そこで、競技場などにおける任意位置を指定してその場にふさわしい音響信号を生成することが知られている（特許文献１）。この構成では、競技場に設置した複数のマイクの指向性と場所に加えて任意の視聴点及び視聴角度を入力し、各チャンネルに対する信号分配の割合と、各マイクと視聴点間の距離による影響を自動的に算出し、サラウンド音声を自動的にミキシングする。

特開２００５−２２３７７１号公報

しかしながら、特許文献１の構成では、競技場におけるどの位置に聴取点を指定しても、全てのマイク信号を用いてサラウンド信号を生成している。そのため、聴取点が動いても音場感の変化が少ないという課題があった。

そこで本発明は、任意視点映像に見合う臨場感のある音響を生成することが可能な技術を提供することを目的とする。

上記目的を達成するため、本発明による情報処理システムは以下の構成を備える。即ち、
複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムであって、
視点位置と、撮影対象に対する視線の方向とを取得する取得手段と、
前記視点位置及び視線の方向に応じた画像であって、前記複数の画像信号に基づく画像に対応する音響信号を生成するために用いる収音信号の収音点を、前記複数の収音点から、前記視点位置及び視線の方向に応じて選択する選択手段と、
前記選択手段により選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段と
を備える。

本発明によれば、任意視点映像に見合う臨場感のある音響を生成することが可能な技術を提供することができる。

任意視点映像生成システムの一構成例を示すブロック図。競技場における収音点の配置状況を示す模式図。メイン処理の処理手順を示すフローチャート。任意視点映像生成システムで用いられる情報のデータ構造を示す図。聴取範囲決定処理の処理手順を示すフローチャート。視点と聴取範囲、聴取点、聴取方向の関係を示す模式図。被写***置検知処理の処理手順を示すフローチャート。収音点選択処理の処理手順を示すフローチャート。聴取範囲内収音点選択処理の処理手順を示すフローチャート。再生信号生成処理の処理手順を示すフローチャート。ステレオ再生信号生成処理の処理手順を示すフローチャート。サラウンド再生信号生成処理の処理手順を示すフローチャート。ヘッドフォン再生信号生成処理の処理手順を示すフローチャート。聴取範囲内収音点選択処理の処理手順を示すフローチャート。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の実施に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

＜＜実施形態１＞＞
（任意視点映像生成システム）
本発明の一実施形態に係る任意視点映像生成システムについて、図１を参照して説明する。図１は本実施形態に係る任意視点映像生成システムの一構成例を示すブロック図である。本実施形態に係る任意視点映像生成システムは、複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を出力する情報処理システムとして動作する。

図１中、１は収音信号入力部であり、本システムの撮影対象である競技場にまんべんなく散りばめて設定した収音点に設置された複数のマイクロホンによる収音信号を入力し、収音信号の増幅やノイズ除去などを行う。さらに、収音点の特徴を示す付加的な情報を各収音信号に付加し、収音点情報として収音点選択部３へ出力する。

図２は、撮影対象の競技場における収音点の設定例を模式的に示す図である。図２中、１０１は収音点の一つ、１０２は観客席、１０３はトラック、１０４はグラウンドを示す。本実施形態では、図２に示したように、収音点を競技場のあらゆる場所にまんべんなく設定し、収音点の音を常に収音している場合の例を説明する。

２は聴取範囲決定部であり、視点情報指定部６によって指定された視点情報や、視点映像生成部８によって出力される視点映像、及び、被写***置検知部９によって出力される被写***置に基づき、聴取範囲、聴取点、及び、聴取方向を決定する。３は収音点選択部であり、聴取範囲決定部２から出力される聴取範囲、聴取点、聴取方向に従って、音響再生信号生成に用いる収音点を、収音信号入力部が出力する収音点情報の中から適宜選択する。４は音響信号生成部であり、収音点選択部３で選択された収音点の収音信号に基づいて、任意の再生フォーマットの再生音響信号を生成する音響生成を行う。そして、音響再生部１１及びＭＵＸ１５へ出力する。

５は操作部であり、本システムに対するユーザの各操作指示を受け付ける。６は視点情報指定部であり、操作部５を介して送信されるユーザの操作指示に基づいて、視点情報を生成し、聴取範囲決定部２や視点映像生成部８へ出力する。操作部５は、キーボード、マウス等のポインティング装置、タッチパネル等により実現される。このように、本実施形態では、任意視点映像生成システムは、視点情報指定部６を介して視点情報を取得する。

７は映像信号入力部であり、本システムの撮影対象である競技場に設置された複数のカメラによって撮影された映像信号を入力し、映像信号の増幅やノイズ除去などを行う。さらに、撮影時のカメラパラメータを各収音信号に付加し、カメラ撮影情報として視点映像生成部８へ出力する。なお、本実施形態では、任意視点画像として動画像である映像を生成する場合の例を説明するが、静止画像を対象としてもよい。

８は視点映像生成部であり、視点情報指定部６によって指定された視点情報に従って、複数カメラによる映像を適宜処理することにより、任意視点映像を生成して、聴取範囲決定部２、被写***置検知部９、映像再生部１０、ＭＵＸ１５へ出力する。９は被写***置検知部であり、視点映像生成部８が生成した視点映像や視点情報に基づき、視点映像に写っている被写体の位置を検知する。後述するように、被写体には、人物や人物以外の特定の物体等が含まれる。１０は映像再生部であり、視点映像生成部８が生成した視点映像を再生し、表示部１９へ出力する。

１１は音響再生部であり、音響信号生成部４によって生成された音響信号を再生環境に応じて再生する。１２はステレオスピーカーセットであり、音響信号生成部４が生成したステレオ音響信号を適宜増幅し、音に変えて出力する。１３はサラウンドスピーカーセットであり、音響信号生成部４が生成したサラウンド音響信号を適宜増幅し、音に変えて出力する。１４はヘッドフォンであり、音響信号生成部４が生成したヘッドフォン信号を音に変えて出力する。本実施形態では、ステレオスピーカーセット１２、サラウンドスピーカーセット１３、及び、ヘッドフォン１４のいずれかにより音響信号の音を出力する例を説明するが、音の再生環境はここに例示したものに限られない。

１５はＭＵＸ（マルチプレクサ）であり、視点映像生成部８が生成した任意視点映像信号と、音響信号生成部４が生成した音響信号を重畳して、一つの映像ストリームデータを作成し、通信部１６や出力部１８へ出力する。１６は通信部であり、ＭＵＸ１５から出力される映像ストリームデータを通信網１７に適宜送信する。１７は通信網であり、インターネットや公衆回線網などの公共の通信網を示す。１８は出力部であり、出力端子を備え、出力端子に接続された外部機器へ、ＭＵＸ１５から出力される映像ストリームデータを出力する。１９は表示部であり、映像再生部１０が再生する任意視点映像を表示する。表示部１９は、液晶パネル、有機ＥＬディスプレイ等により実現される。

これらの構成要素は不図示のＣＰＵ（中央演算処理ユニット）に制御バスを介して接続されており、ＣＰＵからの命令指示に従ってその動作が統合制御される。ＣＰＵは、不図示の記憶装置からコンピュータプログラムを読み出し、コンピュータプログラムに従って装置全体を制御する。

（メイン処理）
図１に示す本実施形態の構成において、視点情報に応じて聴取範囲、聴取点、聴取方向を決定し、それに基づいて音場生成を行う処理をフローチャートを参照して以下に説明する。図３は、本実施形態のメイン処理の処理手順を示すフローチャートである。以下の各ステップは、ＣＰＵの制御に基づき実行される。

Ｓ１０１は、視点情報指定部６において、内部の変更命令バッファに一時蓄積されている命令に従って視点情報を変更し、聴取範囲決定部２と視点映像生成部８へ出力する処理である。

図４（ａ）に、本実施形態における視点情報のデータ構造を示す。図４（ａ）に示すように、本実施形態の視点情報は、視点位置、視点俯角、視点方向、画角を含む。このうち、視点位置は撮影対象である競技場における視点の位置を示す三次元座標である。一例として、本実施形態では、東西に東向きにＸ軸、南北に北向きにＹ軸、上下に上向きにＺ軸を取る三次元座標系を設定し、原点を競技場全体の南西角に取る場合を説明する。視点俯角は、視点が向いている俯角であり、水平方向を０°として±９０°までの範囲で指定される。視点方向は同じく視点が向いている水平面の方向であり、本実施形態では、真北を０°（すなわち、Ｙ軸正方向）とする絶対方向を基準の正面として、右回り（時計回り）を正、左回り（反時計回り）を負として示す。画角は視点から見た視点映像の上下、左右の幅を角度で示す値である。また、視点から観察される視線の３次元的な方向を、以下、視線の方向という。視線の方向は、視点俯角（視点仰角）と視点の方向を合わせたものに相当する。本実施形態のシステムでは、この情報で指定される任意視点から見た映像を生成することができる。

Ｓ１０１の処理が終わると、Ｓ１０２からＳ１０５までの音響信号を生成する処理の流れと、Ｓ１０６からＳ１０８までの映像を生成する処理の流れと、Ｓ１０９の処理が並行して行われる。以下、これらの処理の流れをそれぞれ説明する。

Ｓ１０２では、収音点において取得された音響を取得し、収音信号入力部１において、複数のマイクロホンの収音信号の増幅やノイズ除去などを行う。さらに、収音点の特徴を示すヘッダ情報を各収音信号に付加し、収音点情報として収音点選択部３へ出力する。図４（ｂ）に本実施形態における収音点情報のデータ構造を示す。図４（ｂ）のように、本実施形態における収音点情報は、収音点ＩＤ、収音点座標、収音信号を含む。このうち、収音点ＩＤは、収音点を識別するための番号（識別情報）である。また、収音点座標は、この収音点の位置を示す座標であり、本実施形態では競技場における水平面座標を示す。収音信号はこの収音点に設置したマイクロホンで収音した音響信号そのものである。

次に、Ｓ１０３では、聴取範囲決定部２において、Ｓ１０１で視点情報指定部６から送信された視点情報に基づいて、聴取範囲、聴取位置、聴取方向を決定する。この処理（聴取範囲決定処理）の詳細は図５、図６を用いて後述する。次に、Ｓ１０４では、収音点選択部３において、視点映像に見合う音響信号を生成するために用いる収音信号を収音した収音点を選択する。この処理（収音点選択処理）の詳細は図８と図９を用いて後述する。次に、Ｓ１０５では、音響信号生成部４において、各音響再生環境に応じた音響信号を生成する。この処理（再生信号生成処理）の詳細は図１０、図１１、図１２、図１３を用いて後述する。生成した音響信号は、音響再生部１１やＭＵＸ１５へ出力される。処理を終えると、Ｓ１１０へ進む。

一方、Ｓ１０６では、複数のカメラにより撮影された映像信号を取得し、映像信号入力部７において、映像信号のノイズ除去や輝度調整等を行う。さらに、各カメラの撮影パラメータをヘッダ情報として映像信号に付加し、カメラ撮影情報として収音点選択部３へ出力する。図４（ｃ）に、本実施形態におけるカメラ撮影情報のデータ構造を示す。図４（ｃ）に示すように、本実施形態のカメラ撮影情報は、カメラ位置、カメラ俯角、カメラ方向、画角、焦点距離、映像信号を含む。このうち、カメラ位置は撮影対象である競技場におけるカメラの位置を示す三次元座標である。カメラ俯角は、視点が向いている俯角であり、水平方向を０°として±９０°までの範囲で指定される。カメラ方向は同じくカメラが向いている水平面の方向であり、本実施形態では、真北（すなわち、Ｙ軸正方向）を０°とする絶対方向を基準の正面として、右回り（時計回り）を正、左回り（反時計回り）を負として示す。画角は撮影映像の幅を角度で示す値である。焦点距離は、カメラレンズの光学中心から撮像面までの距離を示す値である。映像信号は、このカメラで撮影した映像そのものの信号である。

次に、Ｓ１０７では、視点映像生成部８において、Ｓ１０１で視点情報指定部６から送信された視点情報に基づいて、Ｓ１０６で受信した複数カメラ映像を適宜処理、合成し、任意視点映像を生成する。すなわち、複数の画像信号に基づいて、視点位置及び視線の方向に応じた画像を生成する画像生成を行う。このような、複数のカメラ映像から任意視点の映像を合成する手法は公知であり、当分野において一般的に行われているため、詳細な説明は行わない。

次に、Ｓ１０８では、被写***置検知部９において、Ｓ１０６で受信した複数カメラの映像とＳ１０７で生成した任意視点映像を解析することにより、任意視点映像に写っている被写体が実際に存在する競技場における位置を検知する。この処理（被写***置検知処理）の詳細は図７を用いて後述する。処理を終えると、Ｓ１１０へ進む。

さらに、Ｓ１０９では、視点情報指定部６において、ユーザが操作部５を介して入力した視点変更指示を受け付けて、視点情報変更命令に変換して内部の変更命令バッファに一次蓄積する。処理を終えると、Ｓ１１０へ進む。

Ｓ１１０は、ＭＵＸ１５において、Ｓ１０５で生成した音響再生信号と、Ｓ１０７で生成した任意視点映像信号を重畳・合成し、一つの映像ストリームデータとしてまとめて、通信部１６や出力部１８へ出力する処理である。処理を終えると、Ｓ１１１へ進む。

Ｓ１１１は、不図示のＣＰＵにおいて、本実施形態のシステムの出力先を判定する処理である。出力先が再生機器の場合は、Ｓ１１２へ進む。出力先が通信網の場合は、Ｓ１１３へ進む。出力先が外部機器の場合は、Ｓ１１４へ進む。

Ｓ１１２は、音響再生部１１と、映像再生部１０において、Ｓ１０５で生成した音響再生信号と、Ｓ１０７で生成した任意視点映像信号を、各々音響再生環境や表示部１９に同期して出力する処理である。このような処理は一般的な映像出力装置において一般的に行われており、公知であるため、詳細な説明はしない。この処理により、任意視点映像とそれに見合う音響信号が同期して再生されるため、映像再生時の臨場感を高めることができる。処理を終えると、Ｓ１１５へ進む。

Ｓ１１３は、通信部１６において、Ｓ１１０で作成した映像ストリームデータを、通信網１７を経由して外部に送信する処理である。処理を終えると、Ｓ１１５へ進む。

Ｓ１１４は、出力部１８において、Ｓ１１０で作成した映像ストリームを外部出力端子に繋がれた外部機器へ出力する処理である。処理を終えると、Ｓ１１５へ進む。

Ｓ１１５は、不図示のＣＰＵにおいて、本フロー全体で行われているメイン処理を終了するかどうかを判定する処理である。この判定の結果、処理を終了する場合（Ｓ１１５でＹＥＳ）は、本フローの処理を終了する。終了しない場合（Ｓ１１５でＮＯ）は、Ｓ１０１へ戻る。

（聴取範囲決定処理）
図５は、本実施形態におけるＳ１０３の聴取範囲決定処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理は全て聴取範囲決定部２において行われる。

まず、Ｓ２０１では、聴取範囲決定部２の内部ＲＡＭ（不図示）に格納されている聴取点情報を初期化する。ここで、聴取点情報のデータ構造を図４（ｄ）に示す。本実施形態における聴取点情報は、聴取範囲、聴取点、聴取方向を含む。このうち、聴取範囲は、撮影対象である競技場において、視点映像に没入した場合にすぐ近くに聴こえるであろう音が発生している範囲を示すデータである。本実施形態では、水平面上の４点の座標が格納されており、これらを結ぶことによってできる四角形で囲まれた範囲を聴取範囲とする。後述するように、聴取範囲は、音響信号を生成するために用いる収音信号の収音点を選択するための基準となる場所的範囲として機能する。また、聴取点は後の処理で再生信号を生成する際に、収音信号を配置する際の基準とする点であり、同じく水平面上の座標が格納される。また、聴取方向は同じく後の処理で再生信号を生成する際に、収音信号を配置する際の基準とする方向である。本実施形態では、聴取点からみた正面方向を視点方向と同じく絶対角度で示す。Ｓ２０１ではこの聴取点情報の各データを全て初期化する。

具体的には、Ｓ２０２ではＳ１０１で視点情報指定部６によって指定された視点情報の仰角が−１０°より下かどうかを判定する。この処理の趣旨は、指定された視点情報が俯瞰視点であるか、水平視点であるかどうかを判定することである。俯瞰視点とは、視点が、スタジアム等の撮影対象を情報から俯瞰的に観察する位置にある場合をいい、水平視点とは、視点が、撮影対象をほぼ真横から水平に観察する位置にある場合をいう。よって、本実施形態では視点切り替えの判定基準を仰角−１０°としているが、これは一例であり、実施状況に応じて別の判定基準を用いてもよい。例えば、撮影対象が体育館におけるバスケットコートであれば、判定基準となる仰角を−２０°のようにもっと深くしてもよい。そうすることで観察対象の性質上観察の範囲が上下に大きい場合に、俯瞰視点として判定する場合を適切に設定して、聴取範囲を適切に決定し、臨場感ある音響信号を表現することが可能となる。また、後の処理であるＳ２０３によって計算される画角の水平面投影範囲を先に計算しておき、投影範囲が予め定めた範囲に収まれば俯瞰視点とし、収まらなければ水平視点としてもよい。このように、本実施形態では、視線の仰角が予め定められた負の値を下回るか否かを判定し、その判定結果に応じて、聴取範囲を決定するための処理を分岐させることで、音響信号生成の基礎となる聴取範囲を適切に決定することができる。

このような判定の結果、−１０°より下、つまり、俯瞰視点の場合（Ｓ２０２でＹＥＳ）はＳ２０３へ進む。そうでない場合、つまり、水平視点の場合（Ｓ２０２でＮＯ）は、Ｓ２０５へ進む。

Ｓ２０３では、この視点情報の画角を撮影対象の競技場等の競技面、つまり、水平面に投影した場合の範囲を計算し、この範囲を聴取範囲とする。一例として、視点位置（１５、０、１０）、視点俯角−４５°、視点方向０°（すなわち、Ｙ軸正方向）、水平画角２０°、垂直画角１４°の視点の視点映像を、高さ０の競技面に投影する場合を説明する。このとき、投影面（Ｚ＝０）の中心点の水平面座標は（１５、１０）であり、投影面は、上端のＹ座標が１０×ｔａｎ５２°≒１２．８、下端のＹ座標が１０×ｔａｎ３８°≒７．８の台形になる。ここで、垂直画角１４°の半分は１４°／２＝７°であり、５２°＝４５°＋７°、３８°＝４５°−７°である。

台形の上端辺、下端辺の中心点と視点との距離は、各々１０／ｃｏｓ５２°≒１６．２、１０／ｃｏｓ３８°≒１２．７となる。よって、それぞれから左右１０°（水平画角２０°の半分）ずつ開くと、台形の上端辺の長さは１６．２×ｔａｎ１０°×２≒５．７、下端辺の長さは１２．７×ｔａｎ１０°×２≒４．５となる。

よって、聴取範囲は、Ｚ＝０の投影面において、（１２．１５、１２．８）、（１７．８５、１２．８）、（１２．７５、７．８）、（１７．２５、７．８）の４点で囲まれた領域になる。ここで、投影面に係る台形の上端辺の両頂点のｘ座標は、１５−５．７／２＝１２．１５、１５＋５．７／２＝１７．８５となる。投影面に係る台形の下端辺の両頂点のｘ座標は、１５−４．５／２＝１２．７５、１５＋４．５／２＝１７．２５となる。このように計算された聴取範囲は、聴取範囲決定部２の内部ＲＡＭに格納されている聴取情報に格納される。

次に、Ｓ２０４では、Ｓ２０３で決定した聴取範囲において、画角において上方向に対応する投影面（水平面）上の方向を聴取方向とする。先ほどの例の場合は、０°（すなわち、Ｙ軸正方向）となる。処理を終えるとＳ２０８へ進む。

一方、Ｓ２０５では、Ｓ１０８で被写***置検知部９によって検知された被写***置座標を取得する。次に、Ｓ２０６では、取得した被写***置を囲む範囲を計算し、聴取範囲とする。例えば、Ｓ２０５で取得した被写***置の数が３つで、その水平面座標が（２，２）、（６，３）、（５，６）とすると、これを囲む聴取範囲を（１，１）、（１，７）、（７，１）、（７，７）の４点で囲まれた領域として設定する。つまり、ここでの例では、全ての被写***置におけるＸ座標の最小値をＸmin、Ｘ座標の最大値をＸmax、Ｙ座標の最小値をＹmin、Ｙ座標の最大値をＹmaxとすると、聴取範囲は次のようになる。すなわち、（Ｘmin−１，Ｙmin−１）、（Ｘmin−１，Ｙmax＋１）、（Ｘmax＋１，Ｙmin−１）、（Ｘmax＋１，Ｙmax＋１）を各頂点座標とする四角形を聴取範囲とする。もっとも、聴取範囲は、取得した被写***置を全て包含する必要最小限の大きさを有する領域であれば、四角形でなくてもよい。

次に、Ｓ２０７では、Ｓ１０１で送信された視点情報の視点方向を、そのまま聴取方向として聴取点情報に格納する。このようにすることで、水平視点の場合は、視点映像における視点方向と再生信号における音の方向が合致するようになる。処理を終えるとＳ２０８へ進む。

Ｓ２０８は、Ｓ２０３やＳ２０６で決定した聴取範囲の中心点を聴取点として聴取点情報に格納する処理である。本実施形態の例では、聴取範囲が四角形であるため、対角線が交差する点を算出し、これを聴取点として内部ＲＡＭの聴取点情報に格納する。なお、聴取点の座標は、聴取範囲を定める四角形の各頂点の平均座標としてもよい。次に、Ｓ２０９では、内部ＲＡＭに格納されている聴取点情報を、収音点選択部３へ出力し、聴取範囲決定処理を終えてリターンする。

図６は、本実施形態における視点と聴取範囲、聴取点、聴取方向の関係を示す模式図である。図６中、聴取範囲を点線の矩形で示す。また、聴取点を八角の星型で示し、聴取方向を黒い矢印で示す。図６（ａ）は俯瞰視点の場合を示しており、画角を水平面に投影した範囲を聴取範囲とし、その対角線の交点を聴取点、画角の上方向に対応するＹ軸正方向を聴取方向とする。一方、図６（ｂ）は水平視点の場合を示しており、視点映像における被写体の位置を検知して、その位置を囲むように聴取範囲を設定する。聴取点は聴取範囲の対角線の交点とし、視点方向（Ｙ軸正方向）を聴取方向とする。

以上説明したように、本実施形態の聴取範囲決定処理では、視点情報及び被写体の位置から、任意視点映像に応じた聴取範囲、聴取点、聴取位置を自動的に決定する。すなわち、視点位置及び視線の方向に応じて、視点映像生成部８が生成した画像に対応する音響信号を生成する基準となる聴取点を決定し、この聴取点に応じた音響信号を複数の収音信号に基づいて生成する。このように、視点の位置、視線の方向、画角、被写体の位置等に応じて聴取点、聴取範囲、聴取の方向を自動的に決定して、任意視点の音響を自動的に生成することで、視点の変化に応じた音響の変化を忠実に表現可能である。なお、本実施形態では、画角の投影範囲や被写体の位置検出により聴取範囲及び聴取位置を決定しているが、単純に任意視点映像の中央を常に聴取点として扱うようにしてもよい。

また、本実施形態では、視線の仰角が予め定められた負の値を下回り、俯瞰視点であると判定されたときは、視点から見た画角に対応する撮影対象における範囲を聴取範囲として決定する。また、視線の仰角が予め定められた負の値を下回らず、水平視点であると判定されたときは、撮影対象における被写体の位置を包含する範囲を聴取範囲として決定する。このように、視線の仰角に応じて聴取範囲の決定方式を分岐させることで、視線の仰角に応じた臨場感ある音響を再現することが可能である。

また、本実施形態では、視線の方向に基づいて、聴取点における聴取の方向を示す聴取方向を決定し、音響信号生成の際には、この聴取方向に応じた音響信号を生成する。具体的には、俯瞰視点の場合は画角の上方向を聴取方向とし、水平視点の場合は視点方向を聴取方向として決定する。このため、視線の方向に対応する音響信号を生成することができる。その他、本発明の主旨を逸脱しない範囲で実施することが可能である。

（被写***置検知処理）
図７は、本実施形態におけるＳ１０８の被写体検知処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理は全て被写***置検知部９によって実行される。

まず、Ｓ３０１では、被写***置検知部の内部ＲＡＭに一次保存されているデータを全て初期化する。次に、Ｓ３０２では、Ｓ１０７において視点映像生成部８によって生成された視点映像を解析し、視点映像において焦点が合っている被写体を検知して、全て抽出する。例えば、視点映像をコントラスト画像、エッジ画像などに変換することにより、輪郭が明確な被写体、つまり、焦点が合っている被写体を検出する。抽出する被写体は選手などの人物に限らず、例えば車やバイク等の物体であってもよい。また、数は一つでも複数でもよい。Ｓ３０２では、このような焦点が合っている被写体を全て抽出し、抽出した各画像の特徴を被写体情報として内部ＲＡＭに一次記憶する。

次に、Ｓ３０３からＳ３０６までは、Ｓ３０２で抽出した個々の被写体情報に対するループ処理を行う。まず、Ｓ３０３でループ処理を開始する。Ｓ３０４では、任意視点映像を生成するために用いた複数のカメラ画像のうち、処理対象となっている被写体が写っている画像を撮影したカメラ画像を複数特定して、そのカメラ位置座標と被写体方向を求める。次に、Ｓ３０５では、Ｓ３０４で求めた複数のカメラ位置座標と被写体方向から、処理対象となっている被写体の位置座標を三角測量法で算出する。算出した座標は被写***置検出部の内部ＲＡＭに被写***置座標として保存される。

Ｓ３０６で全ての被写体情報に対して処理が終了したかどうかを判定し、終了した場合はループを抜け、被写***置検知処理を終了してリターンする。なお、内部ＲＡＭに格納されている被写***置座標は、聴取範囲決定部２からの要求に応じて適宜、聴取範囲決定部２へ出力される。

このように、本実施形態では、視点映像生成部により生成された任意視点画像を解析して、その画像に写り込んでいる被写体の位置を検出する。そのため、被写体の位置を検知するための専用のセンサ等を設けることなく、被写体の位置を検出して聴取範囲を適切に決定することができる。なお、位置センサ等を用いて被写体の位置を検出しても構わない。

（収音点選択処理）
図８は、本実施形態におけるＳ１０４の収音点選択処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理は全て収音点選択部３によって実行される。

まず、Ｓ４０１では、収音点選択部３の内部ＲＡＭに保存されている選択収音点情報リストを初期化する。選択収音点情報リストとは、選択された収音点の情報を記憶する領域である。図４（ｅ）に、本実施形態における選択収音点情報のデータ構造の一例を示す。図４（ｅ）に示すように、選択収音点情報は、収音点ＩＤ、対応音源配置方向ＩＤ、聴取点から見た方向を含む。このうち、収音点ＩＤは、収音点を識別するためのＩＤ（識別情報）であり、図４（ｂ）を用いて説明した収音点情報に格納されている同名のデータと共通のデータが用いられる。対応音源配置方向ＩＤは、この収音点がカバーする音源配置方向を示す番号（識別情報）である。なお音源配置方向については後述する。聴取点から見た方向は、聴取点から見たこの収音点の方向を、聴取方向を基準として計算したものである。

次に、Ｓ４０２では、Ｓ１０３で決定された聴取点情報に基づいて、再生時に周囲に配置する音源の大まかな配置方向を決定する。本実施形態では、音源の配置方向を、聴取方向を０°として起点とし、水平面を４５°おきに一周した８方向を音源配置方向として設定する。

次に、Ｓ４０３からＳ４１０までは、Ｓ４０２で設定した各音源配置方向に対するループ処理を行う。Ｓ４０３でループ処理を開始する。

Ｓ４０４では、聴取点から見て、対象音源配置方向の±２２．５°の角度の範囲内の領域を収音点探索範囲とする。この音源配置方向に対応する収音点は、この探索範囲から探索される。

次に、Ｓ４０５では、Ｓ４０４で設定した探索範囲内に収音点があるかどうかを判定する。探索範囲内に収音点がある場合（Ｓ４０５でＹＥＳ）は、処理はＳ４０６へ進む。そうでない場合（Ｓ４０５でＮＯ）は、対象となっている音源配置方向に収音点を割り当てないことに決定し、Ｓ４１０へ進む。

Ｓ４０６は、探索範囲の角度内で、かつ、聴取範囲外に収音点があるかどうかを判定する処理である。この判定の結果、収音点がある場合（Ｓ４０６でＹＥＳ）はＳ４０７へ処理は進む。そうでない場合（Ｓ４０６でＮＯ）は、Ｓ４０８へ処理は進む。

Ｓ４０７は、探索範囲内かつ聴取範囲外で、聴取点により近い収音点をこの音源配置方向の音源として選択する処理である。収音点が選択されたら、収音点選択部３の内部ＲＡＭに保存されている選択収音点情報リストに新規要素を追加して、選択された収音点の収音点ＩＤと、対応音源配置方向ＩＤを格納する。処理を終えると、Ｓ４０９へ進む。

一方、Ｓ４０８では、探索範囲内かつ、聴取範囲内で、聴取点に最も遠い収音点をこの音源配置方向の音源として選択する。この場合も選択した収音点の情報を格納する要素を作成し、選択収音点情報リストに追加する。処理を終えると、Ｓ４０９へ進む。

Ｓ４０９は、Ｓ４０７又はＳ４０８で選択した収音点の、聴取方向から見た方向を計算して、前処理で新規追加した選択収音点情報に格納する処理である。例えば、聴取点の座標が（１，１）かつ収音点座標が（２，１＋√３）で、聴取方向が６０°の場合、聴取点から収音点を見た方向は−３０°となるので、この角度を選択収音点情報に格納する。処理を終えると、Ｓ４１０へ進む。

Ｓ４１０では、全ての音源配置方向に対する処理が済んだかどうかを判定し、全ての処理が終了した場合は、ループを終了する。そして、Ｓ４１１へ進む。

Ｓ４１１は、聴取範囲内の収音点のうち、再生に用いる収音点を選択するとともに、配置方向を決定する処理である。この処理（聴取範囲内収音点選択処理）の詳細は図９を用いて後述する。

Ｓ４１２では、ここまでの処理で作成した選択収音点情報リストを音響信号生成部４へ出力する。そして、収音点選択処理を終了してリターンする。

以上のように、本実施形態では、視点位置及び視線の方向に応じて決定された聴取範囲に基づき、複数の収音点の中から音響信号を生成するために用いる収音点を選択し、その収音点において収音された収音信号を用いて、音響信号を生成する。このように、再生信号を生成するために必要な収音点をＳ１０５において再生信号を生成する処理前に選択することによって、再生信号生成に必要な処理を削減できる。さらに、視点映像において注目している範囲に見合う収音点を自動的に選択することにより、視点映像に見合うより没入感の高い再生音響信号を生成することができる。したがって、任意視点映像に見合う臨場感のある音響を小さい処理量で生成することが可能である。

また、本実施形態では、視点位置及び視線の方向に応じて決定された聴取点から見た撮影対象を複数の領域に区分し、その複数の領域の各々から、聴取範囲に基づき収音点を選択する。このため、聴取点を基準に、聴取点の周囲の収音点をまんべんなく選択することができる。

また、聴取点から見た領域における聴取範囲の内部に収音点が存在する場合は、その聴取範囲の内部に存在する収音点のうち、聴取点から最も離れた収音点を選択する。一方、聴取点から見た領域における聴取範囲の内部に収音点が存在しない場合は、その領域に存在する収音点のうち、聴取点に最も近い収音点を選択する。このため、聴取範囲の拡がりに応じた収音点を適切に選択して、再生信号を適切に生成することが可能となる。

なお、本実施形態では再生音響信号において周囲に配置する音源を８方向として選択した例を説明したが、音源の方向は８方向に限定されず、これよりも多くても少なくてもよい。また、本実施形態では音源配置方向として聴取点の周囲を等分した場合の例を説明したが、等分ではなく、例えば、音響再生環境におけるチャンネルの方向に応じた方向に分割して選択してもよい。

（聴取範囲内収音点選択処理）
図９は、本実施形態におけるＳ４１１の聴取範囲内収音点選択処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て収音点選択部３によって実行される。

まず、Ｓ５０１では、聴取範囲に含まれている収音点をリストアップして、収音点選択部３の内部ＲＡＭに一次保存する。次に、Ｓ５０２からＳ５０５までは、Ｓ５０１でリストアップした個々の収音点に対するループ処理を行う。Ｓ５０２でループ処理を開始する。

Ｓ５０３では、処理対象の収音点が内部ＲＡＭに保存されている選択収音点情報リストに含まれているかどうかを判定する。対象の収音点が、選択収音点リストに含まれていない場合（Ｓ５０３でＮＯ）は、Ｓ５０４へ進む。含まれている場合（Ｓ５０３でＹＥＳ）は、既に再生に用いる収音点として選択されているため、Ｓ５０５へ進んでループ処理を終了する。

Ｓ５０４では、内部ＲＡＭに保存されている選択収音点リストに新規要素を追加して、この収音点の収音点ＩＤと、聴取点から見た方向として０°を格納する。これにより、本実施形態では、後の再生信号生成処理において、聴取範囲内の収音点で収音した信号が、聴取者の正面に定位するように再生されることになる。処理を終えると、Ｓ５０５へ進む。

Ｓ５０５では、Ｓ５０１でリストアップされた収音点全てに対して処理が済んだかどうかを確認し、全て終了した場合はループ処理を抜け、聴取範囲内収音点選択処理を終了してリターンする。

このように、本実施形態では、聴取範囲の内部に存在する全ての収音点を選択して、再生信号を生成するため、聴取範囲に応じた臨場感ある音響を生成することができる。また、聴取点から見た複数の領域の各々において、聴取点に最も近い収音点を選択するため、聴取点と収音点との位置関係に基づく臨場感ある音響信号を生成することが可能となる。

（再生信号生成処理）
図１０は、本実施形態におけるＳ１０５の再生信号生成処理の詳細な処理手順を示すフローチャートである。再生信号生成処理では、複数の収音信号に基づいて、聴取点及び聴取範囲に応じた音響信号を生成する。なお、本フローチャートにおける処理は全て音響信号生成部４によって実行される。

Ｓ６０１は、音響信号生成部４の内部にある出力バッファを初期化してクリアする処理である。出力バッファは再生音響信号の出力チャンネル毎のバッファになっており、生成した音響信号を出力チャンネル毎に蓄積する。処理を終えると、Ｓ６０２へ進む。

Ｓ６０２は、これから生成する音響信号を再生する環境を判定する処理である。前述のように、本実施形態の例では音響信号を再生する環境として、ステレオ再生環境、サラウンド再生環境、及び、ヘッドフォン再生環境が設けられており、音響再生フォーマットもこれらの環境のいずれかに合わせて設定されている。

ステレオ再生環境である場合は、Ｓ６０３へ進む。サラウンド再生環境である場合は、Ｓ６０４へ進む。ヘッドフォン再生環境である場合は、Ｓ６０５へ進む。

Ｓ６０３は、Ｓ１０４で選択した収音点の収音信号を用いてステレオ再生信号を生成する処理である。この処理の詳細は図１１を用いて後述する。処理を終えると、Ｓ６０６へ進む。

Ｓ６０４は、Ｓ１０４で選択した収音点の収音信号を用いてサラウンド再生信号を生成する処理である。この処理の詳細は図１２を用いて後述する。処理を終えると、Ｓ６０６へ進む。

Ｓ６０５は、Ｓ１０４で選択した収音点の収音信号を用いてヘッドフォン再生信号を生成する処理である。この処理の詳細は図１３を用いて後述する。処理を終えると、Ｓ６０６へ進む。

Ｓ６０６は、直前の処理で生成した再生音響信号を、音響再生部１１やＭＵＸ１５へ出力する処理である。処理を終えると、再生信号生成処理を終了し、リターンする。なお、図１０のフローチャートでは、どれか一つの再生フォーマットを選択して生成する例を示しているが、これらのフォーマットを逐次的に全て生成するようにしてもよい。

上記のように、本実施形態では、視線の方向に基づいて、聴取点における聴取の方向を示す聴取方向をさらに決定し、Ｓ１０４において選択された収音点において収音された収音信号を用いて、聴取方向の正面から聞こえる音響信号を生成する。このため、任意視点画像に対応する音響を、その方向を考慮して再現よく表現することができる。

（ステレオ再生信号生成処理）
図１１は、本実施形態におけるＳ６０３のステレオ再生信号生成処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て音響信号生成部４によって実行される。

Ｓ７０１からＳ７０９までは、Ｓ１０４において収音点選択部３から出力された選択収音点情報リストに格納されている個々の選択収音点情報に対してループ処理を行う。

Ｓ７０１でループ処理が開始される。Ｓ７０２では、処理対象の選択収音点情報の聴取点から見た方向が、−９０°から９０°の範囲内かどうか、つまり、対象の収音点が聴取点から見て真横から前方に位置するかどうかを判定する。この処理の結果、範囲内にない、つまり、収音点が後方にある場合（Ｓ７０２でＮＯ）は、Ｓ７０３へ処理は進む。そうでない場合、つまり、前方にある場合（Ｓ７０２でＹＥＳ）は、Ｓ７０７へ処理は進む。

Ｓ７０３では、対象となっている選択収音点情報に格納されている収音信号を逆位相化する。これにより、聴取者が後方に音像を感じることはないが、後方からの音が通常の音と違って聴こえる演出を行うことができる。次に、Ｓ７０４では、聴取点から見た収音点の方向が正か否かを判定する。正でない場合、すなわち、聴取点から見て収音点が左方にある場合（Ｓ７０４でＮＯ）は、Ｓ７０５へ進む。正の場合、すなわち、聴取点から見て収音点が右方にある場合（Ｓ７０４でＹＥＳ）は、Ｓ７０６へ進む。

Ｓ７０５では、聴取点から見た方向に１８０°を加えて符号を反転する。一方、Ｓ７０６では、聴取点から見た方向から１８０°を減じて符号を反転する。Ｓ７０５とＳ７０６の処理により、聴取点を中心とする円の後ろ半分を前に折り返すようにして、後方の方向を前方の方向に変換することができる。処理を終えると、Ｓ７０７へ進む。

Ｓ７０７では、−９０°から９０°の範囲にある聴取点から見た方向に対するステレオパンニング計算を行い、得られたＬ，Ｒチャンネルの振幅分配率に従って収音信号をＬ，Ｒチャンネルに分配する。一般に、標準のステレオ再生環境では±３０°に左右スピーカーを配置するため、±９０°の範囲にある聴取点から見た方向を、±３０°の範囲に線形に投射することにより、ステレオパンニング計算を行う。本実施形態では、このパンニング計算を、聴取点から見た方向をθとすると、サイン則を用いて以下のように行う。
ｗＬ＝（sin３０°−sin(θ＊３０/９０)）／2sin３０°＝１／２−sin(θ／３)
ｗＲ＝（sin３０°＋sin(θ＊３０/９０)）／2sin３０°＝１／２＋sin（θ／３）（１）
ただし、ｗLは左チャンネルに対する振幅分配率、ｗRは右チャンネルに対する振幅分配率である。

次に、Ｓ７０８では、Ｓ７０７で分配したチャンネル信号を、各チャンネルの出力バッファに各々加算する。Ｓ７０９では、選択収音点情報リストに含まれている全ての選択収音点情報の処理が終了したかを確認する。全て終了した場合は、ループ処理を抜けてステレオ再生信号生成処理を終了し、リターンする。

（サラウンド再生信号生成処理）
図１２は、本実施形態におけるＳ６０４のサラウンド再生信号生成処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て音響信号生成部４によって実行される。

Ｓ８０１からＳ８０７までは、選択収音点情報リストに含まれている各選択収音点情報に対するループ処理を行う。

Ｓ８０１でループ処理を開始する。Ｓ８０２では、聴取点から見た収音点の方向が既定のチャンネル配置方向かどうかを判定する。例えば、再生環境が５．１チャンネルサラウンド再生環境だとすると、既定のチャンネル配置角度は０°、±３０°、±１１０°〜１３０°になる。対象の選択収音点情報により示される収音点の聴取点から見た方向がこの範囲の角度に該当する場合は、チャンネル配置方向であると判定する。この場合（Ｓ８０２でＹＥＳ）はＳ８０６へ処理は進む。そうでない場合（Ｓ８０２でＮＯ）は、Ｓ８０３へ処理は進む。

Ｓ８０３は、聴取点から見た収音点の方向の角度を挟み込む方向にある二つのチャンネルを選択する処理である。例えば、聴取点から見た収音点の方向が５０°であるとすると、それを挟み込むチャンネルとして、３０°のＲチャンネルと、１２０°のＳＲチャンネルが選択される。

次に、Ｓ８０４では、Ｓ８０３で選択したチャンネル間で振幅パンニング計算を行い、二つのチャンネルにこの収音点の収音信号を分配する。本実施形態ではサイン則によって振幅パンニング計算を行う。先ほどの例で説明すると、ＲとＳＲの方向の中心方向は７５°であり、中心方向と各チャンネルの方向との開き角は４５°となる。また、チャンネル間の中心方向から見ると、５０°は５０°−７５°＝−２５°となる。Ｒ、ＳＲチャンネルへの各分配率ｗＲ、ｗＳＲはサイン則よりそれぞれ次式で求められる。
ｗＲ＝（sin４５°−sin（−２５°））／2sin４５°≒０．６４９
ｗＳＲ＝（sin４５°＋sin（−２５°））／2sin４５°≒０．３５１（２）
次に、Ｓ８０５では、Ｓ８０４で分配した各チャンネルの信号を、チャンネル毎に出力バッファに加算する。一方、Ｓ８０６では、Ｓ８０２で判定された方向が同じチャンネルの出力バッファに、収音信号をそのまま加算する。

Ｓ８０７では、選択収音点情報リストに含まれる全ての選択収音点情報に対する処理が終了したかどうかを確認する。全ての処理が終了した場合は、ループ処理を終了し、Ｓ８０８へ進む。

Ｓ８０８では、各チャンネルの出力バッファに蓄積されている音響信号に対して、ローパスフィルタ（ＬＰＦ）を掛けて加算することにより、ＬＦＥ（ＬｏｗＦｒｅｑｕｅｎｃｙＥｌｅｍｅｎｔ）信号を生成する。ＬＦＥ信号は低域信号であり、通常は８０Ｈz以下の信号をローパスフィルタで取り出すようにする。この信号は、サラウンドスピーカーセットに含まれるサブウーファーによって再生される。生成されたＬＦＥ信号は、ＬＦＥチャンネル用の出力バッファに蓄積される。処理を終えると、サラウンド再生信号生成処理を終了し、リターンする。

（ヘッドフォン再生信号生成処理）
図１３は、本実施形態におけるＳ６０５のヘッドフォン再生信号生成処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て４の音響信号生成部によって実行される。

Ｓ９０１からＳ９０４までは、選択収音点情報リストに含まれている各選択収音点情報に対するループ処理を行う。

Ｓ９０１でループ処理を開始する。Ｓ９０２では、聴取点から見た方向のＨＲＩＲを収音信号に畳み込むことにより、両耳信号を計算する。ＨＲＩＲとは頭部伝達関数（ＨｅａｄＲｅｌａｔｅｄＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）である。ＨＲＩＲは、音源方向によって変化する人間の頭部や耳介による音の回り込みを測定して両耳分のインパルス応答としたものである。収音信号に対してこれを畳み込むことにより、ヘッドフォンで聴いた場合に聴取点から見た方向に収音信号が定位する立体音響信号を作成することができる。なお、本実施形態では、方向毎のＨＲＩＲを格納したデータベースが音響信号生成部４の内部ＲＯＭに格納されており、任意の方向を入力して検索することにより、両耳分のＨＲＩＲを読み出して用いることができる。

次に、Ｓ９０３では、Ｓ９０２で生成した両耳信号を、Ｌ，Ｒの出力チャンネル毎に出力バッファに加算する。

Ｓ９０４では、選択収音点情報リストに含まれる全ての選択収音点情報に対する処理が終了したかどうかを確認する。全ての処理が終了した場合は、ループを抜けて、ヘッドフォン再生信号生成処理を終了し、リターンする。

なお、本実施形態では、ステレオ再生処理においても全方向の収音点の収音信号を用いて再生信号を生成しているが、例えば、ステレオならば前方にある収音点の収音信号のみを用いて再生信号を生成するようにしてもよい。

また、本実施形態では、収音点の位置に収音用のマイクロホンを設置しているが、収音の実現手法はこのような態様に限られない。例えば、遠方の微小な音も収音できるマイクロホンを複数用いて、収音点に対応する位置を狙って収音、処理することにより、ピンポイントで遠距離から狙った収音点の音を収音してもよい。

また、本実施形態では収音信号や撮影映像信号をすぐに処理して任意視点映像及びそれに見合う音響信号を生成、再生しているが、収音信号や撮影映像信号を一旦記憶装置に記憶しておき、後で処理するようにしてもよい。

以上説明したように、本実施形態にかかる構成により、視点情報から任意視点映像に応じた聴取範囲、聴取点、聴取位置を自動的に決定することで、任意視点の動きに応じて変化する臨場感のある音場再生を実現することができる。

また、視点情報から任意視点映像に応じた聴取範囲を決定し、聴取範囲に応じた最小限の収音点を選択して再生音場に適宜配置することで、処理量を抑制しつつ映像に見合う臨場感のある音場再生を実現できる。すなわち、聴取範囲に基づき音響信号を生成するために用いる収音点を選択して、音響信号を生成することで、必要最小限の収音信号を選択して任意視点映像に対応する臨場感ある音響信号を自動的に生成することができる。

＜＜その他の実施形態＞＞
実施形態１では、聴取範囲内の収音点による収音信号を全て用いて再生信号を生成しているが、聴取範囲内の収音信号のうち重要な収音信号を選択して用いることもできる。ここでは、重要な収音信号の一例として、人の声（以下、「音声」という）を含む収音信号を選択する例を説明する。以下、この場合の実施形態について説明する。

本実施形態と実施形態１の差分は図８におけるＳ４１１の聴取範囲内収音点選択処理であり、他は同一であるため説明を省略し、実施形態１と異なる点を中心に簡潔に説明する。

図１４は本実施形態における聴取範囲内収音点選択処理の詳細な処理手順を示すフローチャートである。Ｓ１００１からＳ１００３までの処理は図９のＳ５０１からＳ５０３までの処理と同一であるため説明を省略する。

Ｓ１００４は、対象となる収音点情報の収音信号を解析し、音声が含まれているかどうかを判定する処理である。収音信号に対してピッチ検出処理やフォルマント検出処理等を行うことにより、収音信号に音声が含まれているかどうかを判定する。判定の結果、音声が含まれている場合はＳ１００６に進む。そうでない場合は、Ｓ１００５へ進む。

Ｓ１００５は、収音信号の平均振幅が予め定めた既定値（閾値）を超えているかどうかを判定する処理である。判定の結果、閾値を超えている場合はＳ１００６に進む。そうでない場合は、Ｓ１００７へ進む。

Ｓ１００６とＳ１００７は図９におけるＳ５０４とＳ５０５と同一の処理であるため説明を省略する。

以上説明した処理制御を行うことで、聴取範囲内の収音点で収音した信号のうち、重要な情報が含まれていると推定される声が混じっている信号や、音源の発生源に近いと推定できる平均振幅の大きな信号のみを選択して再生することができる。よって、再生信号生成処理にかかる処理量をさらに削減しつつ、重要な音のみを選択して再生することができる。

また、上記構成では、聴取範囲内の収音点を選択する場合に、人の音声等の音響的に重要な収音点を検知する例を説明した。さらに、視点映像を解析してボールを蹴ったりスクラムを組むなどの所定のイベントが生じている場所を特定し、その場所に最も近い収音点を選択するようにしてもよい。イベントの発生は、ユーザの指定やセンサの使用等により検知することができる。

また、実施形態１では、俯瞰視点の場合に画面の上方向の音を前方に配置しているが、水平面の他に、上層にもチャンネルを配置する再生フォーマットへ出力する場合には、上層チャンネルに配置するようにしてもよい。このように、Ｓ１０４において選択された収音点の視点から見た位置関係に基づいて、収音点において収音された収音信号を合成して、音響信号を生成することで、収音点の配置に応じた臨場感ある音響を再現することができる。その他、本発明の主旨を逸脱しない範囲で実施することが可能である。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

収音信号入力部：１、聴取範囲決定部：２、収音点選択部：３、音響信号生成部：４、操作部：５、視点情報指定部：６、映像信号入力部：７、視点映像生成部：８、被写***置検知部：９、映像再生部：１０、音響再生部：１１、ステレオスピーカーセット：１２、サラウンドスピーカーセット：１３、ヘッドフォン：１４、表示部：１９

Claims

複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムであって、
視点位置と、撮影対象に対する視線の方向とを取得する取得手段と、
前記視点位置及び視線の方向に応じた画像であって、前記複数の画像信号に基づく画像に対応する音響信号を生成するために用いる収音信号の収音点を、前記複数の収音点から、前記視点位置及び視線の方向に応じて選択する選択手段と、
前記選択手段により選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段と
を備えることを特徴とする情報処理システム。
前記視点位置及び視線の方向に応じて、前記画像に対応する音響信号を生成するために用いる収音信号の収音点を選択するための基準となる場所的範囲である聴取範囲を決定する決定手段とを備え、
前記選択手段は、前記聴取範囲に基づき、前記複数の収音点から前記音響信号を生成するために用いる収音点を選択する
ことを特徴とする請求項１に記載の情報処理システム。
前記決定手段は、前記視点位置及び視線の方向に応じて、前記音響信号を生成する基準となる聴取点をさらに決定し、
前記選択手段は、前記聴取点から見た前記撮影対象を複数の領域に区分し、当該複数の領域の各々から、前記聴取範囲に基づき前記収音点を選択する
ことを特徴とする請求項２に記載の情報処理システム。
前記選択手段は、前記領域における前記聴取範囲の内部に収音点が存在する場合は、当該聴取範囲の内部に存在する収音点のうち、前記聴取点から最も離れた収音点を選択することを特徴とする請求項３に記載の情報処理システム。
前記選択手段は、前記領域における前記聴取範囲の内部に収音点が存在しない場合は、当該領域に存在する収音点のうち、前記聴取点に最も近い収音点を選択することを特徴とする請求項３又は４に記載の情報処理システム。
前記選択手段は、前記複数の領域の各々において、前記聴取点に最も近い収音点を選択することを特徴とする請求項３から５のいずれか１項に記載の情報処理システム。
前記決定手段は、前記視線の方向に基づいて、前記聴取点における聴取の方向を示す聴取方向をさらに決定し、
前記音響生成手段は、前記選択手段により選択された収音点において収音された収音信号を用いて、前記聴取方向の正面から聞こえる音響信号を生成する
ことを特徴とする請求項３から６のいずれか１項に記載の情報処理システム。
前記選択手段は、前記聴取範囲の内部に存在する全ての収音点を選択することを特徴とする請求項２から７のいずれか１項に記載の情報処理システム。
前記選択手段は、人の音声を含む収音信号を収音した収音点を選択することを特徴とする請求項１から８のいずれか１項に記載の情報処理システム。
前記選択手段は、予め定められた閾値を超える平均振幅を有する収音信号を収音した収音点を選択することを特徴とする請求項１から９のいずれか１項に記載の情報処理システム。
前記選択手段は、所定のイベントの発生が検知された場所に最も近い収音点を選択することを特徴とする請求項１から１０のいずれか１項に記載の情報処理システム。
前記音響生成手段は、前記選択手段により選択された収音点の前記視点から見た位置関係に基づいて、該収音点において収音された収音信号を合成して、前記音響信号を生成することを特徴とする請求項１から１１のいずれか１項に記載の情報処理システム。
複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムであって、
視点位置と、撮影対象に対する視線の方向とを取得する取得手段と、
前記視点位置及び視線の方向に応じた画像であって、前記複数の画像信号に基づく画像に対応する音響信号を生成する基準となる聴取点を、前記視点位置及び視線の方向に応じて決定する決定手段と、
前記聴取点と収音点との位置関係に基づき、前記複数の収音点の中から前記音響信号を生成するために用いる収音点を選択する選択手段と、
前記選択手段により選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段と
を備えることを特徴とする情報処理システム。
複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムの制御方法であって、
取得手段が、視点位置と、撮影対象に対する視線の方向とを取得する取得工程と、
選択手段が、前記視点位置及び視線の方向に応じた画像であって、前記複数の画像信号に基づく画像に対応する音響信号を生成するために用いる収音信号の収音点を、前記複数の収音点から、前記視点位置及び視線の方向に応じて選択する選択工程と、
音響生成手段が、前記選択工程において選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段と
を備えることを特徴とする情報処理システムの制御方法。
コンピュータを請求項１から１３のいずれか１項に記載の情報処理システムが備える各手段として機能させるためのコンピュータプログラム。