JP2018019295A - 情報処理システム及びその制御方法、コンピュータプログラム - Google Patents
情報処理システム及びその制御方法、コンピュータプログラム Download PDFInfo
- Publication number
- JP2018019295A JP2018019295A JP2016148996A JP2016148996A JP2018019295A JP 2018019295 A JP2018019295 A JP 2018019295A JP 2016148996 A JP2016148996 A JP 2016148996A JP 2016148996 A JP2016148996 A JP 2016148996A JP 2018019295 A JP2018019295 A JP 2018019295A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound collection
- listening
- point
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic System (AREA)
Abstract
【課題】任意視点映像に見合う臨場感のある音響を生成することが可能な技術を提供する。
【解決手段】複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムであって、視点位置と、撮影対象に対する視線の方向とを取得する取得手段と、視点位置及び視線の方向に応じた画像であって、複数の画像信号に基づく画像に対応する音響信号を生成するために用いる収音信号の収音点を、複数の収音点から、視点位置及び視線の方向に応じて選択する選択手段と、選択手段により選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段とを備える。
【選択図】 図1
【解決手段】複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムであって、視点位置と、撮影対象に対する視線の方向とを取得する取得手段と、視点位置及び視線の方向に応じた画像であって、複数の画像信号に基づく画像に対応する音響信号を生成するために用いる収音信号の収音点を、複数の収音点から、視点位置及び視線の方向に応じて選択する選択手段と、選択手段により選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段とを備える。
【選択図】 図1
Description
本発明は情報処理システム及びその制御方法、コンピュータプログラムに関し、特に、任意視点映像にふさわしい音響再生信号を生成するための技術に関する。
近年、コンピュータグラフィックス技術等を応用することにより、スポーツ競技場などの広い範囲を取り囲むように設置された複数のカメラによる撮影映像を適宜処理することによって、任意視点の映像を生成するシステムが開発されている。
このようなシステムによって生成される任意視点映像に対してより臨場感を持たせるために、それに見合う音響信号を生成、再生することが求められる。
そこで、競技場などにおける任意位置を指定してその場にふさわしい音響信号を生成することが知られている(特許文献1)。この構成では、競技場に設置した複数のマイクの指向性と場所に加えて任意の視聴点及び視聴角度を入力し、各チャンネルに対する信号分配の割合と、各マイクと視聴点間の距離による影響を自動的に算出し、サラウンド音声を自動的にミキシングする。
しかしながら、特許文献1の構成では、競技場におけるどの位置に聴取点を指定しても、全てのマイク信号を用いてサラウンド信号を生成している。そのため、聴取点が動いても音場感の変化が少ないという課題があった。
そこで本発明は、任意視点映像に見合う臨場感のある音響を生成することが可能な技術を提供することを目的とする。
上記目的を達成するため、本発明による情報処理システムは以下の構成を備える。即ち、
複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムであって、
視点位置と、撮影対象に対する視線の方向とを取得する取得手段と、
前記視点位置及び視線の方向に応じた画像であって、前記複数の画像信号に基づく画像に対応する音響信号を生成するために用いる収音信号の収音点を、前記複数の収音点から、前記視点位置及び視線の方向に応じて選択する選択手段と、
前記選択手段により選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段と
を備える。
複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムであって、
視点位置と、撮影対象に対する視線の方向とを取得する取得手段と、
前記視点位置及び視線の方向に応じた画像であって、前記複数の画像信号に基づく画像に対応する音響信号を生成するために用いる収音信号の収音点を、前記複数の収音点から、前記視点位置及び視線の方向に応じて選択する選択手段と、
前記選択手段により選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段と
を備える。
本発明によれば、任意視点映像に見合う臨場感のある音響を生成することが可能な技術を提供することができる。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の実施に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
<<実施形態1>>
(任意視点映像生成システム)
本発明の一実施形態に係る任意視点映像生成システムについて、図1を参照して説明する。図1は本実施形態に係る任意視点映像生成システムの一構成例を示すブロック図である。本実施形態に係る任意視点映像生成システムは、複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を出力する情報処理システムとして動作する。
(任意視点映像生成システム)
本発明の一実施形態に係る任意視点映像生成システムについて、図1を参照して説明する。図1は本実施形態に係る任意視点映像生成システムの一構成例を示すブロック図である。本実施形態に係る任意視点映像生成システムは、複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を出力する情報処理システムとして動作する。
図1中、1は収音信号入力部であり、本システムの撮影対象である競技場にまんべんなく散りばめて設定した収音点に設置された複数のマイクロホンによる収音信号を入力し、収音信号の増幅やノイズ除去などを行う。さらに、収音点の特徴を示す付加的な情報を各収音信号に付加し、収音点情報として収音点選択部3へ出力する。
図2は、撮影対象の競技場における収音点の設定例を模式的に示す図である。図2中、101は収音点の一つ、102は観客席、103はトラック、104はグラウンドを示す。本実施形態では、図2に示したように、収音点を競技場のあらゆる場所にまんべんなく設定し、収音点の音を常に収音している場合の例を説明する。
2は聴取範囲決定部であり、視点情報指定部6によって指定された視点情報や、視点映像生成部8によって出力される視点映像、及び、被写***置検知部9によって出力される被写***置に基づき、聴取範囲、聴取点、及び、聴取方向を決定する。3は収音点選択部であり、聴取範囲決定部2から出力される聴取範囲、聴取点、聴取方向に従って、音響再生信号生成に用いる収音点を、収音信号入力部が出力する収音点情報の中から適宜選択する。4は音響信号生成部であり、収音点選択部3で選択された収音点の収音信号に基づいて、任意の再生フォーマットの再生音響信号を生成する音響生成を行う。そして、音響再生部11及びMUX15へ出力する。
5は操作部であり、本システムに対するユーザの各操作指示を受け付ける。6は視点情報指定部であり、操作部5を介して送信されるユーザの操作指示に基づいて、視点情報を生成し、聴取範囲決定部2や視点映像生成部8へ出力する。操作部5は、キーボード、マウス等のポインティング装置、タッチパネル等により実現される。このように、本実施形態では、任意視点映像生成システムは、視点情報指定部6を介して視点情報を取得する。
7は映像信号入力部であり、本システムの撮影対象である競技場に設置された複数のカメラによって撮影された映像信号を入力し、映像信号の増幅やノイズ除去などを行う。さらに、撮影時のカメラパラメータを各収音信号に付加し、カメラ撮影情報として視点映像生成部8へ出力する。なお、本実施形態では、任意視点画像として動画像である映像を生成する場合の例を説明するが、静止画像を対象としてもよい。
8は視点映像生成部であり、視点情報指定部6によって指定された視点情報に従って、複数カメラによる映像を適宜処理することにより、任意視点映像を生成して、聴取範囲決定部2、被写***置検知部9、映像再生部10、MUX15へ出力する。9は被写***置検知部であり、視点映像生成部8が生成した視点映像や視点情報に基づき、視点映像に写っている被写体の位置を検知する。後述するように、被写体には、人物や人物以外の特定の物体等が含まれる。10は映像再生部であり、視点映像生成部8が生成した視点映像を再生し、表示部19へ出力する。
11は音響再生部であり、音響信号生成部4によって生成された音響信号を再生環境に応じて再生する。12はステレオスピーカーセットであり、音響信号生成部4が生成したステレオ音響信号を適宜増幅し、音に変えて出力する。13はサラウンドスピーカーセットであり、音響信号生成部4が生成したサラウンド音響信号を適宜増幅し、音に変えて出力する。14はヘッドフォンであり、音響信号生成部4が生成したヘッドフォン信号を音に変えて出力する。本実施形態では、ステレオスピーカーセット12、サラウンドスピーカーセット13、及び、ヘッドフォン14のいずれかにより音響信号の音を出力する例を説明するが、音の再生環境はここに例示したものに限られない。
15はMUX(マルチプレクサ)であり、視点映像生成部8が生成した任意視点映像信号と、音響信号生成部4が生成した音響信号を重畳して、一つの映像ストリームデータを作成し、通信部16や出力部18へ出力する。16は通信部であり、MUX15から出力される映像ストリームデータを通信網17に適宜送信する。17は通信網であり、インターネットや公衆回線網などの公共の通信網を示す。18は出力部であり、出力端子を備え、出力端子に接続された外部機器へ、MUX15から出力される映像ストリームデータを出力する。19は表示部であり、映像再生部10が再生する任意視点映像を表示する。表示部19は、液晶パネル、有機ELディスプレイ等により実現される。
これらの構成要素は不図示のCPU(中央演算処理ユニット)に制御バスを介して接続されており、CPUからの命令指示に従ってその動作が統合制御される。CPUは、不図示の記憶装置からコンピュータプログラムを読み出し、コンピュータプログラムに従って装置全体を制御する。
(メイン処理)
図1に示す本実施形態の構成において、視点情報に応じて聴取範囲、聴取点、聴取方向を決定し、それに基づいて音場生成を行う処理をフローチャートを参照して以下に説明する。図3は、本実施形態のメイン処理の処理手順を示すフローチャートである。以下の各ステップは、CPUの制御に基づき実行される。
図1に示す本実施形態の構成において、視点情報に応じて聴取範囲、聴取点、聴取方向を決定し、それに基づいて音場生成を行う処理をフローチャートを参照して以下に説明する。図3は、本実施形態のメイン処理の処理手順を示すフローチャートである。以下の各ステップは、CPUの制御に基づき実行される。
S101は、視点情報指定部6において、内部の変更命令バッファに一時蓄積されている命令に従って視点情報を変更し、聴取範囲決定部2と視点映像生成部8へ出力する処理である。
図4(a)に、本実施形態における視点情報のデータ構造を示す。図4(a)に示すように、本実施形態の視点情報は、視点位置、視点俯角、視点方向、画角を含む。このうち、視点位置は撮影対象である競技場における視点の位置を示す三次元座標である。一例として、本実施形態では、東西に東向きにX軸、南北に北向きにY軸、上下に上向きにZ軸を取る三次元座標系を設定し、原点を競技場全体の南西角に取る場合を説明する。視点俯角は、視点が向いている俯角であり、水平方向を0°として±90°までの範囲で指定される。視点方向は同じく視点が向いている水平面の方向であり、本実施形態では、真北を0°(すなわち、Y軸正方向)とする絶対方向を基準の正面として、右回り(時計回り)を正、左回り(反時計回り)を負として示す。画角は視点から見た視点映像の上下、左右の幅を角度で示す値である。また、視点から観察される視線の3次元的な方向を、以下、視線の方向という。視線の方向は、視点俯角(視点仰角)と視点の方向を合わせたものに相当する。本実施形態のシステムでは、この情報で指定される任意視点から見た映像を生成することができる。
S101の処理が終わると、S102からS105までの音響信号を生成する処理の流れと、S106からS108までの映像を生成する処理の流れと、S109の処理が並行して行われる。以下、これらの処理の流れをそれぞれ説明する。
S102では、収音点において取得された音響を取得し、収音信号入力部1において、複数のマイクロホンの収音信号の増幅やノイズ除去などを行う。さらに、収音点の特徴を示すヘッダ情報を各収音信号に付加し、収音点情報として収音点選択部3へ出力する。図4(b)に本実施形態における収音点情報のデータ構造を示す。図4(b)のように、本実施形態における収音点情報は、収音点ID、収音点座標、収音信号を含む。このうち、収音点IDは、収音点を識別するための番号(識別情報)である。また、収音点座標は、この収音点の位置を示す座標であり、本実施形態では競技場における水平面座標を示す。収音信号はこの収音点に設置したマイクロホンで収音した音響信号そのものである。
次に、S103では、聴取範囲決定部2において、S101で視点情報指定部6から送信された視点情報に基づいて、聴取範囲、聴取位置、聴取方向を決定する。この処理(聴取範囲決定処理)の詳細は図5、図6を用いて後述する。次に、S104では、収音点選択部3において、視点映像に見合う音響信号を生成するために用いる収音信号を収音した収音点を選択する。この処理(収音点選択処理)の詳細は図8と図9を用いて後述する。次に、S105では、音響信号生成部4において、各音響再生環境に応じた音響信号を生成する。この処理(再生信号生成処理)の詳細は図10、図11、図12、図13を用いて後述する。生成した音響信号は、音響再生部11やMUX15へ出力される。処理を終えると、S110へ進む。
一方、S106では、複数のカメラにより撮影された映像信号を取得し、映像信号入力部7において、映像信号のノイズ除去や輝度調整等を行う。さらに、各カメラの撮影パラメータをヘッダ情報として映像信号に付加し、カメラ撮影情報として収音点選択部3へ出力する。図4(c)に、本実施形態におけるカメラ撮影情報のデータ構造を示す。図4(c)に示すように、本実施形態のカメラ撮影情報は、カメラ位置、カメラ俯角、カメラ方向、画角、焦点距離、映像信号を含む。このうち、カメラ位置は撮影対象である競技場におけるカメラの位置を示す三次元座標である。カメラ俯角は、視点が向いている俯角であり、水平方向を0°として±90°までの範囲で指定される。カメラ方向は同じくカメラが向いている水平面の方向であり、本実施形態では、真北(すなわち、Y軸正方向)を0°とする絶対方向を基準の正面として、右回り(時計回り)を正、左回り(反時計回り)を負として示す。画角は撮影映像の幅を角度で示す値である。焦点距離は、カメラレンズの光学中心から撮像面までの距離を示す値である。映像信号は、このカメラで撮影した映像そのものの信号である。
次に、S107では、視点映像生成部8において、S101で視点情報指定部6から送信された視点情報に基づいて、S106で受信した複数カメラ映像を適宜処理、合成し、任意視点映像を生成する。すなわち、複数の画像信号に基づいて、視点位置及び視線の方向に応じた画像を生成する画像生成を行う。このような、複数のカメラ映像から任意視点の映像を合成する手法は公知であり、当分野において一般的に行われているため、詳細な説明は行わない。
次に、S108では、被写***置検知部9において、S106で受信した複数カメラの映像とS107で生成した任意視点映像を解析することにより、任意視点映像に写っている被写体が実際に存在する競技場における位置を検知する。この処理(被写***置検知処理)の詳細は図7を用いて後述する。処理を終えると、S110へ進む。
さらに、S109では、視点情報指定部6において、ユーザが操作部5を介して入力した視点変更指示を受け付けて、視点情報変更命令に変換して内部の変更命令バッファに一次蓄積する。処理を終えると、S110へ進む。
S110は、MUX15において、S105で生成した音響再生信号と、S107で生成した任意視点映像信号を重畳・合成し、一つの映像ストリームデータとしてまとめて、通信部16や出力部18へ出力する処理である。処理を終えると、S111へ進む。
S111は、不図示のCPUにおいて、本実施形態のシステムの出力先を判定する処理である。出力先が再生機器の場合は、S112へ進む。出力先が通信網の場合は、S113へ進む。出力先が外部機器の場合は、S114へ進む。
S112は、音響再生部11と、映像再生部10において、S105で生成した音響再生信号と、S107で生成した任意視点映像信号を、各々音響再生環境や表示部19に同期して出力する処理である。このような処理は一般的な映像出力装置において一般的に行われており、公知であるため、詳細な説明はしない。この処理により、任意視点映像とそれに見合う音響信号が同期して再生されるため、映像再生時の臨場感を高めることができる。処理を終えると、S115へ進む。
S113は、通信部16において、S110で作成した映像ストリームデータを、通信網17を経由して外部に送信する処理である。処理を終えると、S115へ進む。
S114は、出力部18において、S110で作成した映像ストリームを外部出力端子に繋がれた外部機器へ出力する処理である。処理を終えると、S115へ進む。
S115は、不図示のCPUにおいて、本フロー全体で行われているメイン処理を終了するかどうかを判定する処理である。この判定の結果、処理を終了する場合(S115でYES)は、本フローの処理を終了する。終了しない場合(S115でNO)は、S101へ戻る。
(聴取範囲決定処理)
図5は、本実施形態におけるS103の聴取範囲決定処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理は全て聴取範囲決定部2において行われる。
図5は、本実施形態におけるS103の聴取範囲決定処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理は全て聴取範囲決定部2において行われる。
まず、S201では、聴取範囲決定部2の内部RAM(不図示)に格納されている聴取点情報を初期化する。ここで、聴取点情報のデータ構造を図4(d)に示す。本実施形態における聴取点情報は、聴取範囲、聴取点、聴取方向を含む。このうち、聴取範囲は、撮影対象である競技場において、視点映像に没入した場合にすぐ近くに聴こえるであろう音が発生している範囲を示すデータである。本実施形態では、水平面上の4点の座標が格納されており、これらを結ぶことによってできる四角形で囲まれた範囲を聴取範囲とする。後述するように、聴取範囲は、音響信号を生成するために用いる収音信号の収音点を選択するための基準となる場所的範囲として機能する。また、聴取点は後の処理で再生信号を生成する際に、収音信号を配置する際の基準とする点であり、同じく水平面上の座標が格納される。また、聴取方向は同じく後の処理で再生信号を生成する際に、収音信号を配置する際の基準とする方向である。本実施形態では、聴取点からみた正面方向を視点方向と同じく絶対角度で示す。S201ではこの聴取点情報の各データを全て初期化する。
具体的には、S202ではS101で視点情報指定部6によって指定された視点情報の仰角が−10°より下かどうかを判定する。この処理の趣旨は、指定された視点情報が俯瞰視点であるか、水平視点であるかどうかを判定することである。俯瞰視点とは、視点が、スタジアム等の撮影対象を情報から俯瞰的に観察する位置にある場合をいい、水平視点とは、視点が、撮影対象をほぼ真横から水平に観察する位置にある場合をいう。よって、本実施形態では視点切り替えの判定基準を仰角−10°としているが、これは一例であり、実施状況に応じて別の判定基準を用いてもよい。例えば、撮影対象が体育館におけるバスケットコートであれば、判定基準となる仰角を−20°のようにもっと深くしてもよい。そうすることで観察対象の性質上観察の範囲が上下に大きい場合に、俯瞰視点として判定する場合を適切に設定して、聴取範囲を適切に決定し、臨場感ある音響信号を表現することが可能となる。また、後の処理であるS203によって計算される画角の水平面投影範囲を先に計算しておき、投影範囲が予め定めた範囲に収まれば俯瞰視点とし、収まらなければ水平視点としてもよい。このように、本実施形態では、視線の仰角が予め定められた負の値を下回るか否かを判定し、その判定結果に応じて、聴取範囲を決定するための処理を分岐させることで、音響信号生成の基礎となる聴取範囲を適切に決定することができる。
このような判定の結果、−10°より下、つまり、俯瞰視点の場合(S202でYES)はS203へ進む。そうでない場合、つまり、水平視点の場合(S202でNO)は、S205へ進む。
S203では、この視点情報の画角を撮影対象の競技場等の競技面、つまり、水平面に投影した場合の範囲を計算し、この範囲を聴取範囲とする。一例として、視点位置(15、0、10)、視点俯角−45°、視点方向0°(すなわち、Y軸正方向)、水平画角20°、垂直画角14°の視点の視点映像を、高さ0の競技面に投影する場合を説明する。このとき、投影面(Z=0)の中心点の水平面座標は(15、10)であり、投影面は、上端のY座標が10×tan52°≒12.8、下端のY座標が10×tan38°≒7.8の台形になる。ここで、垂直画角14°の半分は14°/2=7°であり、52°=45°+7°、38°=45°−7°である。
台形の上端辺、下端辺の中心点と視点との距離は、各々10/cos52°≒16.2、10/cos38°≒12.7となる。よって、それぞれから左右10°(水平画角20°の半分)ずつ開くと、台形の上端辺の長さは16.2×tan10°×2≒5.7、下端辺の長さは12.7×tan10°×2≒4.5となる。
よって、聴取範囲は、Z=0の投影面において、(12.15、12.8)、(17.85、12.8)、(12.75、7.8)、(17.25、7.8)の4点で囲まれた領域になる。ここで、投影面に係る台形の上端辺の両頂点のx座標は、15−5.7/2=12.15、15+5.7/2=17.85となる。投影面に係る台形の下端辺の両頂点のx座標は、15−4.5/2=12.75、15+4.5/2=17.25となる。このように計算された聴取範囲は、聴取範囲決定部2の内部RAMに格納されている聴取情報に格納される。
次に、S204では、S203で決定した聴取範囲において、画角において上方向に対応する投影面(水平面)上の方向を聴取方向とする。先ほどの例の場合は、0°(すなわち、Y軸正方向)となる。処理を終えるとS208へ進む。
一方、S205では、S108で被写***置検知部9によって検知された被写***置座標を取得する。次に、S206では、取得した被写***置を囲む範囲を計算し、聴取範囲とする。例えば、S205で取得した被写***置の数が3つで、その水平面座標が(2,2)、(6,3)、(5,6)とすると、これを囲む聴取範囲を(1,1)、(1,7)、(7,1)、(7,7)の4点で囲まれた領域として設定する。つまり、ここでの例では、全ての被写***置におけるX座標の最小値をXmin、X座標の最大値をXmax、Y座標の最小値をYmin、Y座標の最大値をYmaxとすると、聴取範囲は次のようになる。すなわち、(Xmin−1,Ymin−1)、(Xmin−1,Ymax+1)、(Xmax+1,Ymin−1)、(Xmax+1,Ymax+1)を各頂点座標とする四角形を聴取範囲とする。もっとも、聴取範囲は、取得した被写***置を全て包含する必要最小限の大きさを有する領域であれば、四角形でなくてもよい。
次に、S207では、S101で送信された視点情報の視点方向を、そのまま聴取方向として聴取点情報に格納する。このようにすることで、水平視点の場合は、視点映像における視点方向と再生信号における音の方向が合致するようになる。処理を終えるとS208へ進む。
S208は、S203やS206で決定した聴取範囲の中心点を聴取点として聴取点情報に格納する処理である。本実施形態の例では、聴取範囲が四角形であるため、対角線が交差する点を算出し、これを聴取点として内部RAMの聴取点情報に格納する。なお、聴取点の座標は、聴取範囲を定める四角形の各頂点の平均座標としてもよい。次に、S209では、内部RAMに格納されている聴取点情報を、収音点選択部3へ出力し、聴取範囲決定処理を終えてリターンする。
図6は、本実施形態における視点と聴取範囲、聴取点、聴取方向の関係を示す模式図である。図6中、聴取範囲を点線の矩形で示す。また、聴取点を八角の星型で示し、聴取方向を黒い矢印で示す。図6(a)は俯瞰視点の場合を示しており、画角を水平面に投影した範囲を聴取範囲とし、その対角線の交点を聴取点、画角の上方向に対応するY軸正方向を聴取方向とする。一方、図6(b)は水平視点の場合を示しており、視点映像における被写体の位置を検知して、その位置を囲むように聴取範囲を設定する。聴取点は聴取範囲の対角線の交点とし、視点方向(Y軸正方向)を聴取方向とする。
以上説明したように、本実施形態の聴取範囲決定処理では、視点情報及び被写体の位置から、任意視点映像に応じた聴取範囲、聴取点、聴取位置を自動的に決定する。すなわち、視点位置及び視線の方向に応じて、視点映像生成部8が生成した画像に対応する音響信号を生成する基準となる聴取点を決定し、この聴取点に応じた音響信号を複数の収音信号に基づいて生成する。このように、視点の位置、視線の方向、画角、被写体の位置等に応じて聴取点、聴取範囲、聴取の方向を自動的に決定して、任意視点の音響を自動的に生成することで、視点の変化に応じた音響の変化を忠実に表現可能である。なお、本実施形態では、画角の投影範囲や被写体の位置検出により聴取範囲及び聴取位置を決定しているが、単純に任意視点映像の中央を常に聴取点として扱うようにしてもよい。
また、本実施形態では、視線の仰角が予め定められた負の値を下回り、俯瞰視点であると判定されたときは、視点から見た画角に対応する撮影対象における範囲を聴取範囲として決定する。また、視線の仰角が予め定められた負の値を下回らず、水平視点であると判定されたときは、撮影対象における被写体の位置を包含する範囲を聴取範囲として決定する。このように、視線の仰角に応じて聴取範囲の決定方式を分岐させることで、視線の仰角に応じた臨場感ある音響を再現することが可能である。
また、本実施形態では、視線の方向に基づいて、聴取点における聴取の方向を示す聴取方向を決定し、音響信号生成の際には、この聴取方向に応じた音響信号を生成する。具体的には、俯瞰視点の場合は画角の上方向を聴取方向とし、水平視点の場合は視点方向を聴取方向として決定する。このため、視線の方向に対応する音響信号を生成することができる。その他、本発明の主旨を逸脱しない範囲で実施することが可能である。
(被写***置検知処理)
図7は、本実施形態におけるS108の被写体検知処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理は全て被写***置検知部9によって実行される。
図7は、本実施形態におけるS108の被写体検知処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理は全て被写***置検知部9によって実行される。
まず、S301では、被写***置検知部の内部RAMに一次保存されているデータを全て初期化する。次に、S302では、S107において視点映像生成部8によって生成された視点映像を解析し、視点映像において焦点が合っている被写体を検知して、全て抽出する。例えば、視点映像をコントラスト画像、エッジ画像などに変換することにより、輪郭が明確な被写体、つまり、焦点が合っている被写体を検出する。抽出する被写体は選手などの人物に限らず、例えば車やバイク等の物体であってもよい。また、数は一つでも複数でもよい。S302では、このような焦点が合っている被写体を全て抽出し、抽出した各画像の特徴を被写体情報として内部RAMに一次記憶する。
次に、S303からS306までは、S302で抽出した個々の被写体情報に対するループ処理を行う。まず、S303でループ処理を開始する。S304では、任意視点映像を生成するために用いた複数のカメラ画像のうち、処理対象となっている被写体が写っている画像を撮影したカメラ画像を複数特定して、そのカメラ位置座標と被写体方向を求める。次に、S305では、S304で求めた複数のカメラ位置座標と被写体方向から、処理対象となっている被写体の位置座標を三角測量法で算出する。算出した座標は被写***置検出部の内部RAMに被写***置座標として保存される。
S306で全ての被写体情報に対して処理が終了したかどうかを判定し、終了した場合はループを抜け、被写***置検知処理を終了してリターンする。なお、内部RAMに格納されている被写***置座標は、聴取範囲決定部2からの要求に応じて適宜、聴取範囲決定部2へ出力される。
このように、本実施形態では、視点映像生成部により生成された任意視点画像を解析して、その画像に写り込んでいる被写体の位置を検出する。そのため、被写体の位置を検知するための専用のセンサ等を設けることなく、被写体の位置を検出して聴取範囲を適切に決定することができる。なお、位置センサ等を用いて被写体の位置を検出しても構わない。
(収音点選択処理)
図8は、本実施形態におけるS104の収音点選択処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理は全て収音点選択部3によって実行される。
図8は、本実施形態におけるS104の収音点選択処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理は全て収音点選択部3によって実行される。
まず、S401では、収音点選択部3の内部RAMに保存されている選択収音点情報リストを初期化する。選択収音点情報リストとは、選択された収音点の情報を記憶する領域である。図4(e)に、本実施形態における選択収音点情報のデータ構造の一例を示す。図4(e)に示すように、選択収音点情報は、収音点ID、対応音源配置方向ID、聴取点から見た方向を含む。このうち、収音点IDは、収音点を識別するためのID(識別情報)であり、図4(b)を用いて説明した収音点情報に格納されている同名のデータと共通のデータが用いられる。対応音源配置方向IDは、この収音点がカバーする音源配置方向を示す番号(識別情報)である。なお音源配置方向については後述する。聴取点から見た方向は、聴取点から見たこの収音点の方向を、聴取方向を基準として計算したものである。
次に、S402では、S103で決定された聴取点情報に基づいて、再生時に周囲に配置する音源の大まかな配置方向を決定する。本実施形態では、音源の配置方向を、聴取方向を0°として起点とし、水平面を45°おきに一周した8方向を音源配置方向として設定する。
次に、S403からS410までは、S402で設定した各音源配置方向に対するループ処理を行う。S403でループ処理を開始する。
S404では、聴取点から見て、対象音源配置方向の±22.5°の角度の範囲内の領域を収音点探索範囲とする。この音源配置方向に対応する収音点は、この探索範囲から探索される。
次に、S405では、S404で設定した探索範囲内に収音点があるかどうかを判定する。探索範囲内に収音点がある場合(S405でYES)は、処理はS406へ進む。そうでない場合(S405でNO)は、対象となっている音源配置方向に収音点を割り当てないことに決定し、S410へ進む。
S406は、探索範囲の角度内で、かつ、聴取範囲外に収音点があるかどうかを判定する処理である。この判定の結果、収音点がある場合(S406でYES)はS407へ処理は進む。そうでない場合(S406でNO)は、S408へ処理は進む。
S407は、探索範囲内かつ聴取範囲外で、聴取点により近い収音点をこの音源配置方向の音源として選択する処理である。収音点が選択されたら、収音点選択部3の内部RAMに保存されている選択収音点情報リストに新規要素を追加して、選択された収音点の収音点IDと、対応音源配置方向IDを格納する。処理を終えると、S409へ進む。
一方、S408では、探索範囲内かつ、聴取範囲内で、聴取点に最も遠い収音点をこの音源配置方向の音源として選択する。この場合も選択した収音点の情報を格納する要素を作成し、選択収音点情報リストに追加する。処理を終えると、S409へ進む。
S409は、S407又はS408で選択した収音点の、聴取方向から見た方向を計算して、前処理で新規追加した選択収音点情報に格納する処理である。例えば、聴取点の座標が(1,1)かつ収音点座標が(2,1+√3)で、聴取方向が60°の場合、聴取点から収音点を見た方向は−30°となるので、この角度を選択収音点情報に格納する。処理を終えると、S410へ進む。
S410では、全ての音源配置方向に対する処理が済んだかどうかを判定し、全ての処理が終了した場合は、ループを終了する。そして、S411へ進む。
S411は、聴取範囲内の収音点のうち、再生に用いる収音点を選択するとともに、配置方向を決定する処理である。この処理(聴取範囲内収音点選択処理)の詳細は図9を用いて後述する。
S412では、ここまでの処理で作成した選択収音点情報リストを音響信号生成部4へ出力する。そして、収音点選択処理を終了してリターンする。
以上のように、本実施形態では、視点位置及び視線の方向に応じて決定された聴取範囲に基づき、複数の収音点の中から音響信号を生成するために用いる収音点を選択し、その収音点において収音された収音信号を用いて、音響信号を生成する。このように、再生信号を生成するために必要な収音点をS105において再生信号を生成する処理前に選択することによって、再生信号生成に必要な処理を削減できる。さらに、視点映像において注目している範囲に見合う収音点を自動的に選択することにより、視点映像に見合うより没入感の高い再生音響信号を生成することができる。したがって、任意視点映像に見合う臨場感のある音響を小さい処理量で生成することが可能である。
また、本実施形態では、視点位置及び視線の方向に応じて決定された聴取点から見た撮影対象を複数の領域に区分し、その複数の領域の各々から、聴取範囲に基づき収音点を選択する。このため、聴取点を基準に、聴取点の周囲の収音点をまんべんなく選択することができる。
また、聴取点から見た領域における聴取範囲の内部に収音点が存在する場合は、その聴取範囲の内部に存在する収音点のうち、聴取点から最も離れた収音点を選択する。一方、聴取点から見た領域における聴取範囲の内部に収音点が存在しない場合は、その領域に存在する収音点のうち、聴取点に最も近い収音点を選択する。このため、聴取範囲の拡がりに応じた収音点を適切に選択して、再生信号を適切に生成することが可能となる。
なお、本実施形態では再生音響信号において周囲に配置する音源を8方向として選択した例を説明したが、音源の方向は8方向に限定されず、これよりも多くても少なくてもよい。また、本実施形態では音源配置方向として聴取点の周囲を等分した場合の例を説明したが、等分ではなく、例えば、音響再生環境におけるチャンネルの方向に応じた方向に分割して選択してもよい。
(聴取範囲内収音点選択処理)
図9は、本実施形態におけるS411の聴取範囲内収音点選択処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て収音点選択部3によって実行される。
図9は、本実施形態におけるS411の聴取範囲内収音点選択処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て収音点選択部3によって実行される。
まず、S501では、聴取範囲に含まれている収音点をリストアップして、収音点選択部3の内部RAMに一次保存する。次に、S502からS505までは、S501でリストアップした個々の収音点に対するループ処理を行う。S502でループ処理を開始する。
S503では、処理対象の収音点が内部RAMに保存されている選択収音点情報リストに含まれているかどうかを判定する。対象の収音点が、選択収音点リストに含まれていない場合(S503でNO)は、S504へ進む。含まれている場合(S503でYES)は、既に再生に用いる収音点として選択されているため、S505へ進んでループ処理を終了する。
S504では、内部RAMに保存されている選択収音点リストに新規要素を追加して、この収音点の収音点IDと、聴取点から見た方向として0°を格納する。これにより、本実施形態では、後の再生信号生成処理において、聴取範囲内の収音点で収音した信号が、聴取者の正面に定位するように再生されることになる。処理を終えると、S505へ進む。
S505では、S501でリストアップされた収音点全てに対して処理が済んだかどうかを確認し、全て終了した場合はループ処理を抜け、聴取範囲内収音点選択処理を終了してリターンする。
このように、本実施形態では、聴取範囲の内部に存在する全ての収音点を選択して、再生信号を生成するため、聴取範囲に応じた臨場感ある音響を生成することができる。また、聴取点から見た複数の領域の各々において、聴取点に最も近い収音点を選択するため、聴取点と収音点との位置関係に基づく臨場感ある音響信号を生成することが可能となる。
(再生信号生成処理)
図10は、本実施形態におけるS105の再生信号生成処理の詳細な処理手順を示すフローチャートである。再生信号生成処理では、複数の収音信号に基づいて、聴取点及び聴取範囲に応じた音響信号を生成する。なお、本フローチャートにおける処理は全て音響信号生成部4によって実行される。
図10は、本実施形態におけるS105の再生信号生成処理の詳細な処理手順を示すフローチャートである。再生信号生成処理では、複数の収音信号に基づいて、聴取点及び聴取範囲に応じた音響信号を生成する。なお、本フローチャートにおける処理は全て音響信号生成部4によって実行される。
S601は、音響信号生成部4の内部にある出力バッファを初期化してクリアする処理である。出力バッファは再生音響信号の出力チャンネル毎のバッファになっており、生成した音響信号を出力チャンネル毎に蓄積する。処理を終えると、S602へ進む。
S602は、これから生成する音響信号を再生する環境を判定する処理である。前述のように、本実施形態の例では音響信号を再生する環境として、ステレオ再生環境、サラウンド再生環境、及び、ヘッドフォン再生環境が設けられており、音響再生フォーマットもこれらの環境のいずれかに合わせて設定されている。
ステレオ再生環境である場合は、S603へ進む。サラウンド再生環境である場合は、S604へ進む。ヘッドフォン再生環境である場合は、S605へ進む。
S603は、S104で選択した収音点の収音信号を用いてステレオ再生信号を生成する処理である。この処理の詳細は図11を用いて後述する。処理を終えると、S606へ進む。
S604は、S104で選択した収音点の収音信号を用いてサラウンド再生信号を生成する処理である。この処理の詳細は図12を用いて後述する。処理を終えると、S606へ進む。
S605は、S104で選択した収音点の収音信号を用いてヘッドフォン再生信号を生成する処理である。この処理の詳細は図13を用いて後述する。処理を終えると、S606へ進む。
S606は、直前の処理で生成した再生音響信号を、音響再生部11やMUX15へ出力する処理である。処理を終えると、再生信号生成処理を終了し、リターンする。なお、図10のフローチャートでは、どれか一つの再生フォーマットを選択して生成する例を示しているが、これらのフォーマットを逐次的に全て生成するようにしてもよい。
上記のように、本実施形態では、視線の方向に基づいて、聴取点における聴取の方向を示す聴取方向をさらに決定し、S104において選択された収音点において収音された収音信号を用いて、聴取方向の正面から聞こえる音響信号を生成する。このため、任意視点画像に対応する音響を、その方向を考慮して再現よく表現することができる。
(ステレオ再生信号生成処理)
図11は、本実施形態におけるS603のステレオ再生信号生成処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て音響信号生成部4によって実行される。
図11は、本実施形態におけるS603のステレオ再生信号生成処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て音響信号生成部4によって実行される。
S701からS709までは、S104において収音点選択部3から出力された選択収音点情報リストに格納されている個々の選択収音点情報に対してループ処理を行う。
S701でループ処理が開始される。S702では、処理対象の選択収音点情報の聴取点から見た方向が、−90°から90°の範囲内かどうか、つまり、対象の収音点が聴取点から見て真横から前方に位置するかどうかを判定する。この処理の結果、範囲内にない、つまり、収音点が後方にある場合(S702でNO)は、S703へ処理は進む。そうでない場合、つまり、前方にある場合(S702でYES)は、S707へ処理は進む。
S703では、対象となっている選択収音点情報に格納されている収音信号を逆位相化する。これにより、聴取者が後方に音像を感じることはないが、後方からの音が通常の音と違って聴こえる演出を行うことができる。次に、S704では、聴取点から見た収音点の方向が正か否かを判定する。正でない場合、すなわち、聴取点から見て収音点が左方にある場合(S704でNO)は、S705へ進む。正の場合、すなわち、聴取点から見て収音点が右方にある場合(S704でYES)は、S706へ進む。
S705では、聴取点から見た方向に180°を加えて符号を反転する。一方、S706では、聴取点から見た方向から180°を減じて符号を反転する。S705とS706の処理により、聴取点を中心とする円の後ろ半分を前に折り返すようにして、後方の方向を前方の方向に変換することができる。処理を終えると、S707へ進む。
S707では、−90°から90°の範囲にある聴取点から見た方向に対するステレオパンニング計算を行い、得られたL,Rチャンネルの振幅分配率に従って収音信号をL,Rチャンネルに分配する。一般に、標準のステレオ再生環境では±30°に左右スピーカーを配置するため、±90°の範囲にある聴取点から見た方向を、±30°の範囲に線形に投射することにより、ステレオパンニング計算を行う。本実施形態では、このパンニング計算を、聴取点から見た方向をθとすると、サイン則を用いて以下のように行う。
wL=(sin30°−sin(θ*30/90))/2sin30°=1/2−sin(θ/3)
wR=(sin30°+sin(θ*30/90))/2sin30°=1/2+sin(θ/3) (1)
ただし、wLは左チャンネルに対する振幅分配率、wRは右チャンネルに対する振幅分配率である。
wL=(sin30°−sin(θ*30/90))/2sin30°=1/2−sin(θ/3)
wR=(sin30°+sin(θ*30/90))/2sin30°=1/2+sin(θ/3) (1)
ただし、wLは左チャンネルに対する振幅分配率、wRは右チャンネルに対する振幅分配率である。
次に、S708では、S707で分配したチャンネル信号を、各チャンネルの出力バッファに各々加算する。S709では、選択収音点情報リストに含まれている全ての選択収音点情報の処理が終了したかを確認する。全て終了した場合は、ループ処理を抜けてステレオ再生信号生成処理を終了し、リターンする。
(サラウンド再生信号生成処理)
図12は、本実施形態におけるS604のサラウンド再生信号生成処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て音響信号生成部4によって実行される。
図12は、本実施形態におけるS604のサラウンド再生信号生成処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て音響信号生成部4によって実行される。
S801からS807までは、選択収音点情報リストに含まれている各選択収音点情報に対するループ処理を行う。
S801でループ処理を開始する。S802では、聴取点から見た収音点の方向が既定のチャンネル配置方向かどうかを判定する。例えば、再生環境が5.1チャンネルサラウンド再生環境だとすると、既定のチャンネル配置角度は0°、±30°、±110°〜130°になる。対象の選択収音点情報により示される収音点の聴取点から見た方向がこの範囲の角度に該当する場合は、チャンネル配置方向であると判定する。この場合(S802でYES)はS806へ処理は進む。そうでない場合(S802でNO)は、S803へ処理は進む。
S803は、聴取点から見た収音点の方向の角度を挟み込む方向にある二つのチャンネルを選択する処理である。例えば、聴取点から見た収音点の方向が50°であるとすると、それを挟み込むチャンネルとして、30°のRチャンネルと、120°のSRチャンネルが選択される。
次に、S804では、S803で選択したチャンネル間で振幅パンニング計算を行い、二つのチャンネルにこの収音点の収音信号を分配する。本実施形態ではサイン則によって振幅パンニング計算を行う。先ほどの例で説明すると、RとSRの方向の中心方向は75°であり、中心方向と各チャンネルの方向との開き角は45°となる。また、チャンネル間の中心方向から見ると、50°は50°−75°=−25°となる。R、SRチャンネルへの各分配率wR、wSRはサイン則よりそれぞれ次式で求められる。
wR=(sin45°−sin(−25°))/2sin45°≒0.649
wSR=(sin45°+sin(−25°))/2sin45°≒0.351 (2)
次に、S805では、S804で分配した各チャンネルの信号を、チャンネル毎に出力バッファに加算する。一方、S806では、S802で判定された方向が同じチャンネルの出力バッファに、収音信号をそのまま加算する。
wR=(sin45°−sin(−25°))/2sin45°≒0.649
wSR=(sin45°+sin(−25°))/2sin45°≒0.351 (2)
次に、S805では、S804で分配した各チャンネルの信号を、チャンネル毎に出力バッファに加算する。一方、S806では、S802で判定された方向が同じチャンネルの出力バッファに、収音信号をそのまま加算する。
S807では、選択収音点情報リストに含まれる全ての選択収音点情報に対する処理が終了したかどうかを確認する。全ての処理が終了した場合は、ループ処理を終了し、S808へ進む。
S808では、各チャンネルの出力バッファに蓄積されている音響信号に対して、ローパスフィルタ(LPF)を掛けて加算することにより、LFE(Low Frequency Element)信号を生成する。LFE信号は低域信号であり、通常は80Hz以下の信号をローパスフィルタで取り出すようにする。この信号は、サラウンドスピーカーセットに含まれるサブウーファーによって再生される。生成されたLFE信号は、LFEチャンネル用の出力バッファに蓄積される。処理を終えると、サラウンド再生信号生成処理を終了し、リターンする。
(ヘッドフォン再生信号生成処理)
図13は、本実施形態におけるS605のヘッドフォン再生信号生成処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て4の音響信号生成部によって実行される。
図13は、本実施形態におけるS605のヘッドフォン再生信号生成処理の詳細な処理手順を示すフローチャートである。なお、本フローチャートにおける処理も全て4の音響信号生成部によって実行される。
S901からS904までは、選択収音点情報リストに含まれている各選択収音点情報に対するループ処理を行う。
S901でループ処理を開始する。S902では、聴取点から見た方向のHRIRを収音信号に畳み込むことにより、両耳信号を計算する。HRIRとは頭部伝達関数(Head Related Impulse Response)である。HRIRは、音源方向によって変化する人間の頭部や耳介による音の回り込みを測定して両耳分のインパルス応答としたものである。収音信号に対してこれを畳み込むことにより、ヘッドフォンで聴いた場合に聴取点から見た方向に収音信号が定位する立体音響信号を作成することができる。なお、本実施形態では、方向毎のHRIRを格納したデータベースが音響信号生成部4の内部ROMに格納されており、任意の方向を入力して検索することにより、両耳分のHRIRを読み出して用いることができる。
次に、S903では、S902で生成した両耳信号を、L,Rの出力チャンネル毎に出力バッファに加算する。
S904では、選択収音点情報リストに含まれる全ての選択収音点情報に対する処理が終了したかどうかを確認する。全ての処理が終了した場合は、ループを抜けて、ヘッドフォン再生信号生成処理を終了し、リターンする。
なお、本実施形態では、ステレオ再生処理においても全方向の収音点の収音信号を用いて再生信号を生成しているが、例えば、ステレオならば前方にある収音点の収音信号のみを用いて再生信号を生成するようにしてもよい。
また、本実施形態では、収音点の位置に収音用のマイクロホンを設置しているが、収音の実現手法はこのような態様に限られない。例えば、遠方の微小な音も収音できるマイクロホンを複数用いて、収音点に対応する位置を狙って収音、処理することにより、ピンポイントで遠距離から狙った収音点の音を収音してもよい。
また、本実施形態では収音信号や撮影映像信号をすぐに処理して任意視点映像及びそれに見合う音響信号を生成、再生しているが、収音信号や撮影映像信号を一旦記憶装置に記憶しておき、後で処理するようにしてもよい。
以上説明したように、本実施形態にかかる構成により、視点情報から任意視点映像に応じた聴取範囲、聴取点、聴取位置を自動的に決定することで、任意視点の動きに応じて変化する臨場感のある音場再生を実現することができる。
また、視点情報から任意視点映像に応じた聴取範囲を決定し、聴取範囲に応じた最小限の収音点を選択して再生音場に適宜配置することで、処理量を抑制しつつ映像に見合う臨場感のある音場再生を実現できる。すなわち、聴取範囲に基づき音響信号を生成するために用いる収音点を選択して、音響信号を生成することで、必要最小限の収音信号を選択して任意視点映像に対応する臨場感ある音響信号を自動的に生成することができる。
<<その他の実施形態>>
実施形態1では、聴取範囲内の収音点による収音信号を全て用いて再生信号を生成しているが、聴取範囲内の収音信号のうち重要な収音信号を選択して用いることもできる。ここでは、重要な収音信号の一例として、人の声(以下、「音声」という)を含む収音信号を選択する例を説明する。以下、この場合の実施形態について説明する。
実施形態1では、聴取範囲内の収音点による収音信号を全て用いて再生信号を生成しているが、聴取範囲内の収音信号のうち重要な収音信号を選択して用いることもできる。ここでは、重要な収音信号の一例として、人の声(以下、「音声」という)を含む収音信号を選択する例を説明する。以下、この場合の実施形態について説明する。
本実施形態と実施形態1の差分は図8におけるS411の聴取範囲内収音点選択処理であり、他は同一であるため説明を省略し、実施形態1と異なる点を中心に簡潔に説明する。
図14は本実施形態における聴取範囲内収音点選択処理の詳細な処理手順を示すフローチャートである。S1001からS1003までの処理は図9のS501からS503までの処理と同一であるため説明を省略する。
S1004は、対象となる収音点情報の収音信号を解析し、音声が含まれているかどうかを判定する処理である。収音信号に対してピッチ検出処理やフォルマント検出処理等を行うことにより、収音信号に音声が含まれているかどうかを判定する。判定の結果、音声が含まれている場合はS1006に進む。そうでない場合は、S1005へ進む。
S1005は、収音信号の平均振幅が予め定めた既定値(閾値)を超えているかどうかを判定する処理である。判定の結果、閾値を超えている場合はS1006に進む。そうでない場合は、S1007へ進む。
S1006とS1007は図9におけるS504とS505と同一の処理であるため説明を省略する。
以上説明した処理制御を行うことで、聴取範囲内の収音点で収音した信号のうち、重要な情報が含まれていると推定される声が混じっている信号や、音源の発生源に近いと推定できる平均振幅の大きな信号のみを選択して再生することができる。よって、再生信号生成処理にかかる処理量をさらに削減しつつ、重要な音のみを選択して再生することができる。
また、上記構成では、聴取範囲内の収音点を選択する場合に、人の音声等の音響的に重要な収音点を検知する例を説明した。さらに、視点映像を解析してボールを蹴ったりスクラムを組むなどの所定のイベントが生じている場所を特定し、その場所に最も近い収音点を選択するようにしてもよい。イベントの発生は、ユーザの指定やセンサの使用等により検知することができる。
また、実施形態1では、俯瞰視点の場合に画面の上方向の音を前方に配置しているが、水平面の他に、上層にもチャンネルを配置する再生フォーマットへ出力する場合には、上層チャンネルに配置するようにしてもよい。このように、S104において選択された収音点の視点から見た位置関係に基づいて、収音点において収音された収音信号を合成して、音響信号を生成することで、収音点の配置に応じた臨場感ある音響を再現することができる。その他、本発明の主旨を逸脱しない範囲で実施することが可能である。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
収音信号入力部:1、聴取範囲決定部:2、収音点選択部:3、音響信号生成部:4、操作部:5、視点情報指定部:6、映像信号入力部:7、視点映像生成部:8、被写***置検知部:9、映像再生部:10、音響再生部:11、ステレオスピーカーセット:12、サラウンドスピーカーセット:13、ヘッドフォン:14、表示部:19
Claims (15)
- 複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムであって、
視点位置と、撮影対象に対する視線の方向とを取得する取得手段と、
前記視点位置及び視線の方向に応じた画像であって、前記複数の画像信号に基づく画像に対応する音響信号を生成するために用いる収音信号の収音点を、前記複数の収音点から、前記視点位置及び視線の方向に応じて選択する選択手段と、
前記選択手段により選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段と
を備えることを特徴とする情報処理システム。 - 前記視点位置及び視線の方向に応じて、前記画像に対応する音響信号を生成するために用いる収音信号の収音点を選択するための基準となる場所的範囲である聴取範囲を決定する決定手段とを備え、
前記選択手段は、前記聴取範囲に基づき、前記複数の収音点から前記音響信号を生成するために用いる収音点を選択する
ことを特徴とする請求項1に記載の情報処理システム。 - 前記決定手段は、前記視点位置及び視線の方向に応じて、前記音響信号を生成する基準となる聴取点をさらに決定し、
前記選択手段は、前記聴取点から見た前記撮影対象を複数の領域に区分し、当該複数の領域の各々から、前記聴取範囲に基づき前記収音点を選択する
ことを特徴とする請求項2に記載の情報処理システム。 - 前記選択手段は、前記領域における前記聴取範囲の内部に収音点が存在する場合は、当該聴取範囲の内部に存在する収音点のうち、前記聴取点から最も離れた収音点を選択することを特徴とする請求項3に記載の情報処理システム。
- 前記選択手段は、前記領域における前記聴取範囲の内部に収音点が存在しない場合は、当該領域に存在する収音点のうち、前記聴取点に最も近い収音点を選択することを特徴とする請求項3又は4に記載の情報処理システム。
- 前記選択手段は、前記複数の領域の各々において、前記聴取点に最も近い収音点を選択することを特徴とする請求項3から5のいずれか1項に記載の情報処理システム。
- 前記決定手段は、前記視線の方向に基づいて、前記聴取点における聴取の方向を示す聴取方向をさらに決定し、
前記音響生成手段は、前記選択手段により選択された収音点において収音された収音信号を用いて、前記聴取方向の正面から聞こえる音響信号を生成する
ことを特徴とする請求項3から6のいずれか1項に記載の情報処理システム。 - 前記選択手段は、前記聴取範囲の内部に存在する全ての収音点を選択することを特徴とする請求項2から7のいずれか1項に記載の情報処理システム。
- 前記選択手段は、人の音声を含む収音信号を収音した収音点を選択することを特徴とする請求項1から8のいずれか1項に記載の情報処理システム。
- 前記選択手段は、予め定められた閾値を超える平均振幅を有する収音信号を収音した収音点を選択することを特徴とする請求項1から9のいずれか1項に記載の情報処理システム。
- 前記選択手段は、所定のイベントの発生が検知された場所に最も近い収音点を選択することを特徴とする請求項1から10のいずれか1項に記載の情報処理システム。
- 前記音響生成手段は、前記選択手段により選択された収音点の前記視点から見た位置関係に基づいて、該収音点において収音された収音信号を合成して、前記音響信号を生成することを特徴とする請求項1から11のいずれか1項に記載の情報処理システム。
- 複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムであって、
視点位置と、撮影対象に対する視線の方向とを取得する取得手段と、
前記視点位置及び視線の方向に応じた画像であって、前記複数の画像信号に基づく画像に対応する音響信号を生成する基準となる聴取点を、前記視点位置及び視線の方向に応じて決定する決定手段と、
前記聴取点と収音点との位置関係に基づき、前記複数の収音点の中から前記音響信号を生成するために用いる収音点を選択する選択手段と、
前記選択手段により選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段と
を備えることを特徴とする情報処理システム。 - 複数の撮影装置により撮影された複数の画像信号と、複数の収音点において収音された複数の収音信号とに基づいて、任意の視点に対応する画像及び音響を処理する情報処理システムの制御方法であって、
取得手段が、視点位置と、撮影対象に対する視線の方向とを取得する取得工程と、
選択手段が、前記視点位置及び視線の方向に応じた画像であって、前記複数の画像信号に基づく画像に対応する音響信号を生成するために用いる収音信号の収音点を、前記複数の収音点から、前記視点位置及び視線の方向に応じて選択する選択工程と、
音響生成手段が、前記選択工程において選択された収音点において収音された収音信号を用いて、音響信号を生成する音響生成手段と
を備えることを特徴とする情報処理システムの制御方法。 - コンピュータを請求項1から13のいずれか1項に記載の情報処理システムが備える各手段として機能させるためのコンピュータプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016148996A JP2018019295A (ja) | 2016-07-28 | 2016-07-28 | 情報処理システム及びその制御方法、コンピュータプログラム |
US15/643,798 US10235010B2 (en) | 2016-07-28 | 2017-07-07 | Information processing apparatus configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium |
EP17183371.8A EP3276982B1 (en) | 2016-07-28 | 2017-07-26 | Information processing apparatus, information processing method, and program |
US16/257,520 US10664128B2 (en) | 2016-07-28 | 2019-01-25 | Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016148996A JP2018019295A (ja) | 2016-07-28 | 2016-07-28 | 情報処理システム及びその制御方法、コンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018019295A true JP2018019295A (ja) | 2018-02-01 |
Family
ID=61082070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016148996A Pending JP2018019295A (ja) | 2016-07-28 | 2016-07-28 | 情報処理システム及びその制御方法、コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018019295A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6431225B1 (ja) * | 2018-03-05 | 2018-11-28 | 株式会社ユニモト | 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム |
WO2023090042A1 (ja) * | 2021-11-18 | 2023-05-25 | 林テレンプ株式会社 | 音響シミュレーション装置 |
JP7457525B2 (ja) | 2020-02-21 | 2024-03-28 | 日本放送協会 | 受信装置、コンテンツ伝送システム、及びプログラム |
-
2016
- 2016-07-28 JP JP2016148996A patent/JP2018019295A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6431225B1 (ja) * | 2018-03-05 | 2018-11-28 | 株式会社ユニモト | 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム |
JP2019153943A (ja) * | 2018-03-05 | 2019-09-12 | 株式会社ユニモト | 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム |
JP7457525B2 (ja) | 2020-02-21 | 2024-03-28 | 日本放送協会 | 受信装置、コンテンツ伝送システム、及びプログラム |
WO2023090042A1 (ja) * | 2021-11-18 | 2023-05-25 | 林テレンプ株式会社 | 音響シミュレーション装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6410769B2 (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
US11528576B2 (en) | Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems | |
KR102465227B1 (ko) | 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체 | |
US10664128B2 (en) | Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium | |
JP6017854B2 (ja) | 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム | |
JP5992210B2 (ja) | 情報処理プログラム、情報処理装置、情報処理システム、および情報処理方法 | |
JP2019083402A (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
US20230088530A1 (en) | Sound-generating device, display device, sound-generating controlling method, and sound-generating controlling device | |
JP2018019295A (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
JP2004193962A (ja) | 画像通信装置、および画像通信方法、並びにコンピュータ・プログラム | |
US10979806B1 (en) | Audio system having audio and ranging components | |
JP6664456B2 (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
JPWO2011108377A1 (ja) | 連携動作機器、連携動作方法、連携動作制御プログラム及び機器連携システム | |
JP2018191127A (ja) | 信号生成装置、信号生成方法およびプログラム | |
CN116095254B (zh) | 音频处理方法和装置 | |
JP2005295181A (ja) | 音声情報生成装置 | |
KR101747800B1 (ko) | 입체음향 생성 장치 및 이를 이용한 입체 컨텐츠 생성 시스템 | |
JP7321736B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6431225B1 (ja) | 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム | |
JP6274244B2 (ja) | 収音再生装置、収音再生プログラム、収音装置及び再生装置 | |
JP3734805B2 (ja) | 情報記録装置 | |
JP2019102940A (ja) | 仮想視点コンテンツ生成システム、音声処理装置、仮想視点コンテンツ生成システムの制御方法、及びプログラム | |
JPWO2018003081A1 (ja) | 全天球カメラ撮像画像表示システム、方法及びプログラム | |
Hamanaka et al. | Concert viewing headphones | |
JP2024056580A (ja) | 情報処理装置及びその制御方法及びプログラム |