JP2023167486A

JP2023167486A - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP2023167486A
Application number: JP2022078716A
Authority: JP
Inventors: 祥吾水野; Shogo Mizuno
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2023-11-24
Also published as: US20230370575A1; EP4277282A2; EP4277282A3

Abstract

【課題】複数の被写体が存在する場合であっても仮想視点画像を生成可能にする。【解決手段】画像処理装置は、仮想視点の位置と方向を示す仮想視点情報を取得し、複数の撮像装置による撮像画像に基づいて生成される被写体の三次元モデルを取得する。また画像処理装置は、仮想視点画像における第１のフレーム以前のフレームの仮想視点を基に、第１のフレームより後の第２のフレームの仮想視点を予測し、第１のフレーム以前のフレームに対応する被写体の三次元モデルの位置を基に、第２のフレームでの被写体の三次元モデルの位置を予測する。そして画像処理装置は、それら予測した仮想視点と、予測した三次元モデルの位置と、複数の撮像装置の撮影パラメータとを基に、複数の撮像装置から第２のフレームを生成する際に使用する撮像画像を取得する撮像装置を決定し、その決定した撮像装置が取得した第２のフレームの撮像画像と、第２のフレームに対応する三次元モデルと、第２のフレームに対応する仮想視点情報とを基に仮想視点画像を生成する。【選択図】図４

Description

本開示は、複数の撮像装置により取得された撮像画像を基に仮想視点画像を生成する技術に関する。

近年、複数の撮像装置を異なる位置に設置した複数視点で同期撮像し、当該撮像による複数視点の撮像画像を用いて、撮像装置の設置位置の画像だけでなく任意の仮想視点で撮像したかのような画像を生成する技術が注目されている。仮想視点画像の生成は、複数の撮像装置で撮像した複数視点の撮像画像をサーバなどの画像処理装置に集約し、その画像処理装置が任意の仮想視点に基づくレンダリングなどの処理を施すことによって実現されている。このような仮想視点画像の生成技術によれば、例えばダンスや演技などを撮像した画像から迫力のある視点の映像コンテンツを制作することができる。例えば、コンテンツを視聴しているユーザ自身が任意に仮想視点を設定することで、当該ユーザ自身が自由に視点を移動することが出来るようになり、仮想視点画像を生成しない従来の撮像画像と比較して、ユーザに高臨場感を与えることができる。

ここで、複数の撮像装置の各配置位置は仮想空間上の各位置に対応付けられている。そして、撮像装置の配置位置とは異なる位置の仮想視点の仮想視点画像を生成する際には、その仮想視点に近い配置位置の撮像装置による撮像画像が用いられる。つまり仮想視点画像の生成に必要となる撮像画像を取得する撮像装置は、仮想視点の位置によって異なる。このため、例えば仮想視点を移動させていくと、仮想視点画像の生成に使用される撮像装置を取得する撮像装置も次々と切り替わっていくことになる。この場合、サーバのデータベースに集約された撮像装置ごとの撮像画像の中から、仮想視点の移動に応じた仮想視点画像の生成に必要な撮像画像が逐次切り替えられて読み出されることになり、仮想視点画像の生成に時間がかかり、遅延が生じる。

特許文献１には、仮想視点画像に係る仮想視点を基に予測仮想視点を算出し、その予測仮想視点に応じた仮想視点画像の生成に必要な画像を、複数の撮像装置の撮像画像を記憶するストレージから得、その画像から仮想視点画像を生成する技術が開示されている。この特許文献１に開示された技術によれば、仮想視点画像の生成に要する時間を短縮可能となる。

特開２０１９－７９４６８号公報

しかしながら、特許文献１に記載の技術では、仮想視点の予測のみに基づいて仮想視点画像の生成に必要な画像を決定しているため、例えば被写体が複数存在するような場合には仮想視点画像を生成できないケースが生ずることがある。

そこで、本開示は、複数の被写体が存在するような場合であっても仮想視点画像を生成可能とすることを目的とする。

本開示の画像処理装置は、仮想視点の位置および方向を示す仮想視点情報を取得する情報取得手段と、複数の撮像装置にて撮像された撮像画像に基づいて生成される被写体の三次元モデルを取得するモデル取得手段と、仮想視点画像における第１のフレーム以前のフレームの仮想視点を基に、前記第１のフレームより後の第２のフレームにおける仮想視点を予測する視点予測手段と、前記第１のフレーム以前のフレームに対応する被写体の三次元モデルの位置を基に、前記第２のフレームにおける被写体の三次元モデルの位置を予測するモデル予測手段と、予測された仮想視点と、予測された三次元モデルの位置と、前記複数の撮像装置の撮影パラメータとを基に、前記複数の撮像装置の中から、前記第２のフレームを生成する際に使用する撮像画像を取得する撮像装置を、決定する決定手段と、決定された前記撮像装置により取得された前記第２のフレームに対応する撮像画像と、前記モデル取得手段により取得された前記第２のフレームに対応する三次元モデルと、前記情報取得手段により取得された前記第２のフレームに対応する仮想視点情報とを基に、仮想視点画像を生成する画像生成手段と、を有することを特徴とする。

本開示によれば、複数の被写体が存在するような場合であっても仮想視点画像を生成可能となる。

画像処理システムの概略構成を示す図である。複数の撮像装置の設置例を示す図である。ハードウェア構成例を示す図である。第１の実施形態に係る画像生成装置の機能構成を示す図である。第１の実施形態に係る画像処理のフローチャートである。第１の実施形態に係る仮想空間の概念図である。１フレーム時間後の仮想空間の概念図である。第２の実施形態に係る画像生成装置の機能構成を示す図である。第２の実施形態に係る画像処理のフローチャートである。撮像装置の優先度の一例を示す図である。第３の実施形態に係る画像生成装置の機能構成を示す図である。第３の実施形態に係る画像処理のフローチャートである。第３の実施形態に係る仮想空間の概念図である。

以下、本開示に係る実施形態を、図面を参照しながら説明する。以下の実施形態は本開示を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本開示の解決手段に必須のものとは限らない。実施形態の構成は、本開示が適用される装置の仕様や各種条件（使用条件、使用環境等）によって適宜修正又は変更され得る。また、後述する各実施形態の一部を適宜組み合わせて構成してもよい。以下の各実施形態において、同一の構成や処理には同じ参照符号を付して説明する。

図１は本実施形態に係る画像処理システム１００の概略構成を示す図である。
画像処理システム１００は、複数の撮像装置１１０と、画像生成装置１２０と、端末装置１３０とを有している。各撮像装置１１０と画像生成装置１２０は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）ケーブル等の通信ケーブルを介して接続している。なお本実施形態において、通信ケーブルはＬＡＮケーブルであるものとするが、通信ケーブルはこの例に限定されるものではない。また、装置間の接続は通信ケーブルを介したものに限定されず、無線接続であってもよい。

撮像装置１１０は、現実空間の所定の撮影場所において特定の撮影領域を取り囲むように複数設置され、例えば静止画および動画を撮像可能なデジタルカメラである。なお以下の説明では、静止画と動画の区別が必要な場合を除き、撮像装置１１０にて撮像されたそれら静止画や動画をまとめて撮像画像と記す。本実施形態の場合、撮像装置１１０は、時間軸上で連続したフレームごとの画像からなる動画を出力するデジタルカメラであるとする。

図２は、複数の撮像装置１１０の概略的な設置例を示した図である。図２に示したように、各撮像装置１１０は、撮影スタジオなどの所定の撮影場所において特定の撮影領域を取り囲むように設置され、その撮影領域内をそれぞれが撮像する。撮影領域内に人物等の被写体が存在する場合、当該撮影領域の撮像画像にはそれら人物等の被写体が前景となって写り、撮影スタジオのうち撮影領域に対応した部分が背景となって写った画像となる。本実施形態では、撮影スタジオでのダンスシーンなどのように、複数の人物等が被写体として撮像される例を挙げる。各撮像装置１１０にて取得された各撮像画像データは、それぞれ画像生成装置１２０に送信される。なおこれ以降の説明において、撮像装置１１０や画像生成装置１２０、端末装置１３０等の内部で扱われる画像データについては、別途説明が必要な場合を除き、単に「画像」とのみ記すこととする。

画像生成装置１２０は、本実施形態に係る画像処理装置の一適用例である。画像生成装置１２０は、複数の撮像装置１１０から送信されてきた複数の撮像画像を蓄積する。また画像生成装置１２０には、ユーザの端末装置１３０から操作指示に応じた情報が入力される。本実施形態の場合、ユーザの端末装置１３０からの操作指示に応じた情報には、少なくとも後述する仮想視点情報と再生時刻情報とが含まれる。詳細は後述するが、端末装置１３０から仮想視点情報と再生時刻情報が入力されると、画像生成装置１２０は、蓄積している撮像画像と、端末装置１３０から入力された仮想視点情報および再生時刻情報とに基づいて、仮想視点画像を生成する。なお本実施形態において、端末装置１３０のユーザは、仮想視点画像を含むコンテンツを作成する映像作成者や当該コンテンツの提供を受ける視聴者などが想定され、以下、これらを区別せずにユーザと呼ぶことにする。

ここで、仮想視点情報は、撮像画像から構築される仮想空間における仮想的な視点（以下、仮想視点とする）の三次元的な位置と角度で表される方向等を示す情報である。仮想視点情報は、撮影スタジオの中央などの所定位置を原点位置とし、当該原点位置に対する相対的な位置つまり原点位置に対する前後、左右、上下の位置情報、当該原点位置からの向きつまり前後、左右、上下を軸とする角度の方向情報とを少なくとも含む。このように仮想視点は三次元的な位置と角度等で表されるため、以下の説明では、三次元的な位置と角度等を含む仮想視点を「仮想視点位置」と呼ぶことにする。また、再生時刻情報とは、撮像画像の録画開始時刻からの時刻情報であり、端末装置１３０を介してユーザが再生時刻を指定することで、画像生成装置１２０は、当該再生時刻以降の仮想視点画像を生成する。

画像生成装置１２０は、例えばサーバ装置であり、データベースの機能や後述するような画像処理機能を備えている。画像生成装置１２０のデータベースには、複数の撮像装置１１０から送られてきた撮像画像が、各撮像装置１１０をそれぞれ識別する識別子と対応付けらえて蓄積される。本実施形態の場合、データベースには、複数の撮像装置１１０によって撮影スタジオ内を撮像した画像が保持される。このときデータベースには、ダンスを行う人物等の被写体が存在しない時の撮影スタジオを各撮像装置１１０にて撮像した画像が、背景画像として保持される。またデータベースには、人物等の被写体が存在している時の撮影スタジオを各撮像装置１１０にて撮像した画像から、画像処理によって分離した特定の被写体のオブジェクト画像が前景画像として保持される。なお撮像画像からオブジェクト画像として分離される対象の被写体は、人物だけでなく、小道具など、画像パターンが予め定められている物体であってもよい。

本実施形態において、画像生成装置１２０が仮想視点情報および再生時刻情報に対応させて生成する仮想視点画像は、データベースで管理された背景画像と被写体のオブジェクト画像とを基に生成されるものとする。仮想視点画像の生成方式としては、例えば、モデルベースレンダリング（Ｍｏｄｅｌ－ＢａｓｅｄＲｅｎｄｅｒｉｎｇ：ＭＢＲ）が用いられる。なお、ＭＢＲとは、被写体を複数の方向から撮像した複数の撮像画像に基づいて生成される三次元モデルを基にして仮想視点画像を生成する方式である。具体的には、ＭＢＲは、視体積交差法、Ｍｕｌｔｉ－Ｖｉｅｗ－Ｓｔｅｒｅｏ（ＭＶＳ）などの三次元形状復元手法により得られた対象シーンの三次元モデル（三次元形状）を利用し、仮想視点からのシーンの見えを画像として生成する技術である。また仮想視点画像の生成方法は、ＭＢＲ以外のレンダリング手法が用いられてもよい。画像生成装置１２０によって生成された仮想視点画像は、ＬＡＮケーブルなどを介して、端末装置１３０に伝送される。

端末装置１３０は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）やタブレット端末である。なお本実施形態の例では、端末装置１３０にはコントローラ１３１が接続されている。コントローラ１３１は、マウス、キーボード、６軸コントローラ、タッチパネルなどの少なくとも一つからなり、ユーザにより操作される。また、端末装置１３０は、画像生成装置１２０から受信した仮想視点画像を表示部１３２に表示する。また端末装置１３０は、コントローラ１３１から入力されたユーザ操作を、再生時刻情報と仮想視点位置の移動指示（移動量と移動方向に関する指示）情報に変換して、画像生成装置１２０に送信する。なお、再生時刻と仮想視点位置の移動指示は、再生時刻と仮想視点位置の連続的な移動に限らない。例えば仮想視点位置の移動では、仮想空間上の被写体の正面位置、背面位置、上から見下ろす位置など予め設定された所定仮想視点位置への移動も可能である。また再生時刻と仮想視点位置は予め設定しておくことも可能であり、その場合、ユーザからの指示に応じて、その予め設定された再生時刻や仮想視点位置に瞬時に移動することが可能となる。

図３は、画像生成装置１２０のハードウェア構成例を示した図である。
図３に示すように、画像生成装置１２０は、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＨＤＤ３０４、表示部３０５、入力部３０６、および通信部３０７等を有している。ＣＰＵ３０１は、ＲＯＭ３０２に記憶された制御プログラムを読み出して各種制御処理を実行する。ＲＡＭ３０３は、ＣＰＵ３０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ３０４は、本実施形態に係る画像処理プログラムを含む各種プレログラムや画像データを含む各種データ等を記憶する。なお、本実施形態に係る画像処理プログラムはＲＯＭ３０２に保持されていてもよい。表示部３０５は、撮像画像や生成された仮想視点画像、その他、各種情報を表示する。入力部３０６は、キーボードやマウスを有し、ユーザによる各種操作指示を受け付ける。通信部３０７は、ネットワークを介して撮像装置１１０等の外部装置との通信処理を行う。なお、ネットワークとしては、イーサネット（登録商標）が挙げられる。また他の例として、通信部３０７は、無線により外部装置との通信を行ってもよい。本実施形態において、画像生成装置１２０の後述する各機能や処理は、ＣＰＵ３０１がＨＤＤ３０４又はＲＯＭ３０２に格納されている画像処理プログラムを読み出して実行することにより実現されるものである。なお、端末装置１３０のハードウェア構成は、図３に示したようなハードウェア構成と同様であるため、その図示と説明は省略する。

＜第１の実施形態＞
図４は、第１の実施形態に係る画像生成装置１２０の機能構成を示した機能ブロック図である。
画像入力部４０１は、各撮像装置１１０からＬＡＮケーブルを介して入力された伝送信号を撮像画像データに変換して分離部４０２に出力する。
分離部４０２は、画像入力部４０１から入力された撮像画像が、被写体の存在しない場面を撮像した画像である場合、つまりダンス演技の開始前等に撮像した画像である場合には、その撮像画像を背景画像としてデータ保存部４０３に出力する。また、分離部４０２は、画像入力部４０１から入力された撮像画像が、被写体の存在する場面を撮像した画像である場合、つまりダンス演技等が行われている場面を撮像した画像である場合には、その撮像画像から被写体のオブジェクトを抽出する。そして、分離部４０２は、撮像画像から抽出した被写体のオブジェクト画像を、前景画像としてデータ保存部４０３に出力する。

データ保存部４０３は、データベースであり、分離部４０２から入力された背景画像と前景画像を保存する。そして、データ保存部４０３は、三次元形状生成部４０５（以下、３Ｄ形状生成部４０５とする）に前景画像を出力する。また、データ保存部４０３は、仮想視点画像生成部４１１に前景画像と背景画像を出力する。詳細は後述するが、仮想視点画像生成部４１１は、仮想視点画像を生成する際に、それら前景画像と背景画像を使用する。

パラメータ保持部４０４は、図２に示した撮影スタジオの特定の撮影領域を取り囲むように設置された各撮像装置１１０における撮影パラメータを予め保持している。撮影パラメータは、各撮像装置１１０のそれぞれの設置位置及び撮影方向と、各撮像装置１１０の焦点距離や露光時間などの撮像設定情報とを含むパラメータ情報である。また各撮像装置１１０の設置位置はそれぞれ予め決められた位置となされている。本実施形態では、各撮像装置１１０における撮影パラメータを、以下「カメラパラメータ」と呼ぶことにする。そして、パラメータ保持部４０４は、各撮像装置１１０のカメラパラメータを、３Ｄ形状生成部４０５と選択部４１０と仮想視点画像生成部４１１とに出力する。

３Ｄ形状生成部４０５は、現実空間内の異なる位置に配置された複数の撮像装置にて撮像された複数の撮像画像と、それら複数の撮像装置におけるそれぞれのカメラパラメータとを基に、被写体の三次元モデルを生成する三次元モデル生成部である。本実施形態の場合、３Ｄ形状生成部４０５は、データ保存部４０３から読み出された前景画像と、パラメータ保持部４０４から入力されたカメラパラメータとを基に、被写体の三次元モデルを推定する。被写体の三次元モデルは三次元形状であり、これ以降、３Ｄ形状と呼ぶことにする。３Ｄ形状生成部４０５は、視体積交差法などの三次元形状復元手法を用いて被写体の３Ｄ形状情報を生成する。そして、３Ｄ形状生成部４０５は、その３Ｄ形状情報を、３Ｄ位置予測部４０６と仮想視点画像生成部４１１とに出力する。

３Ｄ位置予測部４０６は、時間軸上で連続するフレームのうち、第１のフレーム以前のフレームにおいて生成された三次元モデルを基に、第１のフレームより時間軸上で後の第２のフレームにおける三次元モデルの位置を予測するモデル予測部である。ここでは、例えば第１のフレームを現フレームとし、第２のフレームを現フレームの次フレームとする。本実施形態の場合、３Ｄ位置予測部４０６は、３Ｄ形状生成部４０５から入力された現フレーム以前の所定期間分の複数フレームにおける３Ｄ形状情報を基に、次フレームの３Ｄ形状およびその位置を予測、言い換えると次フレームの被写体予測位置を生成する。より具体的説明すると、３Ｄ位置予測部４０６は、現フレーム以前の二つのフレーム間における３Ｄ形状の移動変化量を算出し、さらに３Ｄ形状の移動変化量から移動速度を算出する。そして、３Ｄ位置予測部４０６は、その３Ｄ形状の移動速度に基づいて、次フレームにおける３Ｄ形状およびその予測位置を推定する。以下、推定された３Ｄ形状および予測位置を、３Ｄ形状予測位置と呼ぶ。３Ｄ位置予測部４０６は、その３Ｄ形状予測位置の情報を、選択部４１０に出力する。

ユーザ入力部４０７は、端末装置１３０からＬＡＮケーブルを介して伝送されてきた伝送信号をユーザ入力データに変換する。そして、ユーザ入力部４０７は、ユーザ入力データが再生時刻情報と仮想視点情報である場合、それら再生時刻情報と仮想視点情報とを情報設定部４０８に出力する。

情報設定部４０８は、仮想視点の位置および方向を示す仮想視点情報を取得する情報取得部である。本実施形態において、情報設定部４０８は、ユーザ入力部４０７から受け取った再生時刻情報と仮想視点情報とに基づき、仮想空間内における仮想視点の現在位置および仮想視点の方向と、再生時刻とをそれぞれ更新する。その後、情報設定部４０８は、再生時刻情報と仮想視点情報とを、視点位置予測部４０９と仮想視点画像生成部４１１とに出力する。なお、仮想空間の原点は、撮影スタジオの中心などを予め設定するものとする。

視点位置予測部４０９は、時間軸上で連続するフレームのうち、第１のフレーム以前のフレームの仮想視点の位置および方向を基に、第１のフレームより時間軸上で後の第２のフレームにおける仮想視点の位置および方向を予測する。すなわち第１のフレームを現フレーム、第２のフレームを次フレームとした場合、視点位置予測部４０９は、情報設定部４０８から取得した現フレーム以前の所定期間分の複数フレーム分の仮想視点情報を基に、次フレームの仮想視点の位置および方向を予測する。以下、視点位置予測部４０９にて予測された仮想視点の位置および方向を合わせて仮想視点予測位置と呼ぶ。本実施形態の場合、視点位置予測部４０９は、現フレーム以前の二つのフレーム間における特定の仮想視点の移動変化量を算出し、さらにその移動変化量から特定の仮想視点の移動速度を算出する。そして、視点位置予測部４０９は、当該仮想視点の移動速度に基づいて、次フレームにおける仮想視点の位置と方向を表す仮想視点予測位置を推定する。視点位置予測部４０９は、その仮想視点予測位置の情報を選択部４１０に出力する。

選択部４１０は、視点位置予測部４０９による仮想視点予測位置と、３Ｄ位置予測部４０６にて予測された３Ｄ形状予測位置と、カメラパラメータとを基に、第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置を決定する。すなわち第１のフレームが現フレーム、第２のフレームが次フレームの場合、選択部４１０は、３Ｄ形状予測位置と仮想視点予測位置とカメラパラメータとに基づき、次フレーム時間に被写体をレンダリングするのに必要な画像を撮像した撮像装置を選択する。そして、選択部４１０は、その決定した撮像装置の識別子などを撮像装置選択情報として仮想視点画像生成部４１１に出力する。

ここで本実施形態において、選択部４１０は、仮想視点予測位置から３Ｄ形状予測位置を撮像した場合の３Ｄ形状の可視性判定を行い、可視であると判定された各撮像装置の中から、仮想視点予測位置から近傍の撮像装置を選択する。つまり、選択部４１０では、仮想視点予測位置から見て３Ｄ形状予測位置が可視である各撮像装置の中から、仮想視点予測位置から近傍の撮像装置を選択する。そして、選択部４１０は、その選択した撮像装置の識別子を決定する。これにより、仮想視点画像生成部４１１は、その識別子にて特定される撮像装置によって撮像された撮像画像を取得することになる。なお、仮想視点予測位置から近傍の撮像装置を選択する際には、撮像に使用された複数の撮像装置のうち少なくとも一台を選択する。例えば、仮想視点予測位置から近傍の撮像装置として、二台以上の所定数の撮像装置が選択されてもよく、この場合、仮想視点画像生成部４１１は、それら所定数の撮像装置の撮像画像の各画素を合成した画像を取得する。

仮想視点画像生成部４１１は、選択部４１０にて決定された撮像装置の撮像画像およびカメラパラメータと、３Ｄ形状生成部４０５にて生成された３Ｄモデルと、情報設定部４０８からの仮想視点情報と基に、第２のフレームの仮想視点画像を生成する。すなわち仮想視点画像生成部４１１は、仮想視点情報と、撮像装置選択情報と、当該撮像装置選択情報に応じてデータ保存部４０３から読み出した撮像画像と、３Ｄ形状情報とを基に、レンダリング処理を行って仮想視点画像を生成する。例えば、仮想視点画像生成部４１１は、仮想視点位置から見た被写体の３Ｄ形状に対して、再生時刻に該当する時刻に撮像装置で撮像された画像の色情報でレンダリング（着色処理）する。さらに、仮想視点から３Ｄ形状に基づく被写体が見えている状況で、仮想視点の位置から３Ｄ形状を可視可能な範囲内に撮像装置の設置位置がある場合、その撮像装置の撮像画像から抽出された前景画像の色を、その３Ｄ形状の色として使用する。そして、仮想視点画像生成部４１１は、その仮想視点位置に基づく被写体の画像と、背景画像とを合成して、仮想視点画像を生成する。このように仮想視点画像生成部４１１でのレンダリング処理によって生成された仮想視点画像は、画像出力部４１２に送られる。

画像出力部４１２は、仮想視点画像生成部４１１から入力された仮想視点画像を、端末装置１３０へ伝送可能な伝送信号に変換して、当該端末装置１３０に出力する。

次に、図５を参照しながら画像生成装置１２０の動作について説明する。図５は、第１の実施形態に係る画像生成装置１２０における画像処理の流れを示したフローチャートである。

ステップＳ５０１において、画像入力部４０１は、複数の撮像装置において撮像が開始されて、それら各撮像装置からそれぞれ撮像画像が入力されたか否か判定する。画像入力部４０１は、いずれかの撮像装置からの撮像画像が未入力である場合には入力待ちとなり、一方、各撮像装置からの撮像画像が入力された場合には、それら各撮像画像を分離部４０２に出力する。そして、画像生成装置１２０の処理はステップＳ５０２に進む。

ステップＳ５０２に進むと、分離部４０２は、撮像画像が被写体の存在しない場面を撮像した画像である場合には、その撮像画像を背景画像としてデータ保存部４０３に出力する。また、分離部４０２は、撮像画像が被写体の存在する場面を撮像した画像である場合にはその撮像画像から被写体のオブジェクトを抽出し、そのオブジェクト画像を前景画像としてデータ保存部４０３に出力する。
これにより、次のステップＳ５０３において、データ保存部４０３は、分離部４０２から送られてきた前景画像と背景画像とを保存する。

次に、ステップＳ５０４において、３Ｄ形状生成部４０５は、パラメータ保持部４０４から受け取ったカメラパラメータと、データ保存部４０３から読み出した前景画像とに基づいて、被写体の３Ｄ形状情報を生成する。３Ｄ形状生成部４０５は、前述したように視体積交差法などの三次元形状復元手法を用いて被写体の３Ｄ形状情報を生成する。ここで、被写体の３Ｄ形状情報とは、複数の点群からなり、各点は位置情報を含むものとする。

次に、ステップＳ５０５において、情報設定部４０８は、ユーザ入力部４０７を介して再生時刻情報と仮想視点情報を含む仮想カメラパスが入力されたか否かを判断する。仮想カメラパスとは、仮想視点位置におけるフレームごと位置および方向（姿勢）を表す仮想視点情報であり、フレームごとの仮想視点位置における仮想的なカメラパラメータ（仮想カメラパラメータと呼ぶ）の集合（列）である。例えば、６０フレーム／秒のフレームレートの設定における１秒分の情報は、６０個の仮想視点の位置および方向における仮想カメラパラメータの列となる。そして、情報設定部４０８は、仮想カメラパスが入力されていない場合には入力待ちとなり、一方、仮想カメラパスが入力された場合には当該仮想カメラパスを視点位置予測部４０９に出力する。

次に、ステップＳ５０６において、視点位置予測部４０９は、次フレームの仮想視点位置を予測する。例えば、視点位置予測部４０９は、現時点での再生時刻のフレームを現フレームとした場合、その現フレーム以前の二つのフレーム間における仮想視点の移動変化量に基づき、仮想視点の移動速度を算出する。さらに視点位置予測部４０９は、その移動速度に基づいて、次フレームの仮想視点予測位置を決定する。なお、視点位置予測部４０９は、仮想視点の移動速度を算出し、さらにその仮想視点の移動速度から加速度を算出し、その加速度の情報を用いて仮想視点予測位置を算出してもよい。

次に、ステップＳ５０７において、３Ｄ位置予測部４０６は、３Ｄ形状生成部４０５から入力された所定期間の３Ｄ形状情報に基づき、次フレームの３Ｄ形状位置を予測、すなわち言い換えると次フレームにおける被写体予測位置を生成する。例えば、３Ｄ位置予測部４０６は、現時点での再生時刻のフレームを現フレームとした場合、現フレーム以前の二つのフレーム間における３Ｄ形状の移動変化量を算出し、さらにその移動変化量から３Ｄ形状情報の移動速度を算出する。そして、３Ｄ位置予測部４０６は、その移動速度に基づいて、次フレームにおける３Ｄ形状予測位置を決定する。なお、３Ｄ位置予測部４０６は、３Ｄ形状の移動速度を算出し、さらにその移動速度を基に加速度を算出し、その加速度の情報を用いて３Ｄ形状の位置を算出してもよい。

次にステップＳ５０８において、選択部４１０は、３Ｄ形状予測位置と、仮想視点予測位置と、カメラパラメータとに基づいて、次フレーム時間における被写体のレンダリングに必要な画像を撮像した撮像装置を決定する。そして、選択部４１０は、その選択した撮像装置の識別子などの撮像装置選択情報を仮想視点画像生成部４１１に出力する。

次に、ステップＳ５０９において、仮想視点画像生成部４１１は、選択部４１０から入力された撮像装置選択情報に基づいて、次フレームにおける撮像画像の受信を開始する。

次にステップＳ５１０において、仮想視点画像生成部４１１は、情報設定部４０８から次フレームの仮想視点情報が入力されたか否か、つまり次フレームの仮想カメラパスが入力されたか否かを判定する。仮想視点画像生成部４１１は、次フレームの仮想視点情報が入力されていない場合には待ち状態となり、次フレームの仮想視点情報が入力された場合にはステップＳ５１１に処理を進める。

ステップＳ５１１に進むと、仮想視点画像生成部４１１は、次フレームの仮想視点位置から見た視点の画像である仮想視点画像を生成する。すなわち仮想視点画像生成部４１１は、ステップＳ５０８で得た撮像装置選択情報に基づいて、ステップＳ５０９でデータ保存部４０３から読み出した次フレームの撮像画像と、３Ｄ形状生成部４０５からの３Ｄ形状情報とを基にレンダリング処理を行う。そして仮想視点画像生成部４１１は、レンダリング処理で生成した仮想視点画像を画像出力部４１２に出力する。

図６（ａ）と図６（ｂ）は、仮想空間上で予測される被写体形状および予測される仮想視点位置との間の位置関係を示した概念図である。なお、図６（ａ）と図６（ｂ）の例では、図示と説明の簡略化のため、図２に示した８台の撮像装置１１０のうち６台の撮像装置６０１～６０６のみが描かれている。

図６（ａ）は本実施形態に係る画像処理を行わない場合の例を示した図である。図６（ａ）には、仮想空間上に対応させて実際に配置された各撮像装置６０１～６０６と、仮想空間上に対応させた被写体１４１１および被写体１４１２と、仮想視点位置１４２１と、仮想視点予測位置１４２２とが示されている。ここで例えば、仮想視点予測位置１４２２において被写体１４１１を撮像することを想定した場合、仮想視点位置の予測に基づいて撮像装置６０１と撮像装置６０２の撮像画像を使用することになる。ただし、本実施形態に係る画像処理を行わない場合、撮像装置６０１から見て被写体１４１１は被写体１４１２と重なっており、隠れて見えなくなっているため、被写体１４１１に対して撮像装置６０１の撮像画像による色付けができないケースが発生してしまう。

このため、本実施形態に係る画像生成装置１２０では、仮想視点予測位置と予測した被写***置である３Ｄ形状予測位置とカメラパラメータとに基づいて、仮想視点画像の生成に必要な画像を撮像する撮像装置の位置を決定する。これにより、本実施形態の画像生成装置１２０は、複数の被写体が存在している場合でも、色付けができた仮想視点画像を生成可能としている。また本実施形態の画像生成装置１２０では、仮想視点や３Ｄ形状の予測を行うことで、仮想視点画像の生成に要する時間を短くすることができる。

図６（ｂ）は画像生成装置１２０において本実施形態に係る画像処理を行った場合の例を示した図である。図６（ｂ）において、撮像装置６０１～６０６は図６（ａ）の例と同様に、仮想空間上に対応させて配置された各撮像装置である。また、仮想視点位置６２２は、ユーザ入力部４０７から入力された再生時刻情報と仮想視点情報に応じた仮想視点の位置と方向を示している。一方、仮想視点位置６２１は、前フレームにおける仮想視点の位置と方向を、仮想視点予測位置６２３は次フレームで予測される仮想視点の位置と方向を示した仮想視点予測位置を示している。さらに図６（ｂ）において、３Ｄ形状予測位置６１２は、仮想空間上に対応させた被写体の３Ｄ形状６１１に対して次フレームで予測される３Ｄ形状予測位置を示している。また、３Ｄ形状予測位置６１４は、被写体の３Ｄ形状６１３に対して次フレームに予測される３Ｄ形状予測位置を示している。すなわち図６（ｂ）において、例えば仮想視点予測位置６２３から３Ｄ形状予測位置６１２と３Ｄ形状予測位置６１４とを撮像する場合、撮像装置６０１と撮像装置６０２との撮像画像を用いることで３Ｄ形状予測位置６１４でのレンダリングが可能となる。一方、撮像装置６０１から見て３Ｄ形状予測位置６１２は３Ｄ形状予測位置６１４に重なり、可視性が低下している。このため、撮像装置６０１の撮像画像は３Ｄ形状予測位置６１２に対しては使用せず、撮像装置６０２と撮像装置６０６との撮像画像を用いて３Ｄ形状予測位置６１２でのレンダリングが行われる。すなわち画像生成装置１２０は、次フレーム時間後のレンダリングには、撮像装置６０１、撮像装置６０２、撮像装置６０６の各撮像画像を使用することになる。

図７は、仮想空間上で、次フレームの時刻後に実際に移動した被写体形状と仮想視点位置との位置関係の概念図である。図７において、撮像装置６０１～６０６は図６の例と同様に、仮想空間上に対応させて配置された各撮像装置である。また図７には、仮想空間上に対応させた被写体の３Ｄ形状７０１および７０２と、ユーザ入力の仮想視点情報に基づく仮想視点位置７１１とを示している。仮想視点位置７１１と、図６（ｂ）で説明した予測に基づいた仮想視点予測位置６２３とは必ずしも一致していない。これに対し、仮想視点予測と被写体予測とに基づいて選択された撮像装置と、次フレーム時刻のユーザ入力に基づく仮想視点位置と実際の被写***置とに基づいて決定した撮像装置とは一致している。このため、被写体等が実際に移動した場合でも、被写体形状に対してレンダリングすることが可能となる。

第１の実施形態でよれば、複数の被写体が存在する場合、前述したように３Ｄ形状予測位置と仮想視点予測位置とカメラパラメータと基に、次フレームにおいてレンダリングに使用する撮像装置を選択する。これにより、第１の実施形態によれば、複数の被写体が存在する場合でも仮想視点画像を生成可能となり、また、ユーザ入力から仮想視点画像の表示までの遅延時間を短くでき、リアルタイム表示を実現することが可能となる。また本実施形態によれば、選択された撮像装置にて撮像された画像を使用するため、使用される画像データ量が削減され、通信帯域の軽減、処理量の軽減が可能となる。

＜第２の実施形態＞
以下、第２の実施形態として、３Ｄ形状予測位置と仮想視点予測位置とカメラパラメータに基づいて、撮像画像を取得する撮像装置に対して優先順位を設定し、その優先順位に基づいて撮像装置から撮像画像を取得する例について説明する。

図８は、第２の実施形態に係る画像生成装置８００の機能構成を示した図である。第２の実施形態に係る画像生成装置８００は、図４に示した第１の実施形態の画像生成装置１２０の選択部４１０に替えて、優先度決定部８０１を有する。優先度決定部８０１には、３Ｄ位置予測部４０６から３Ｄ形状予測位置の情報が入力され、視点位置予測部４０９から仮想視点予測位置の情報が、パラメータ保持部４０４からカメラパラメータが入力される。なお、優先度決定部８０１以外の他の各機能部は前述の第１の実施形態の対応した各機能部と概ね同様であるため、それらの説明は省略し、以下第１の実施形態とは異なる部分についてのみ説明する。

優先度決定部８０１は、３Ｄ形状予測位置と仮想視点予測位置とカメラパラメータとに基づいて、次フレーム時間の被写体をレンダリングするのに必要な画像を撮像した撮像装置の優先度（優先順位）を高くし、それ以外の撮像装置の優先度を低くする。例えば、優先度決定部８０１は、仮想視点予測位置から３Ｄ形状予測位置を撮像した場合の３Ｄ形状の可視性判定を行う。そして、優先度決定部８０１は、３Ｄ形状予測位置が可視であると判定された各撮像装置について、仮想視点予測位置に近いほど撮像装置の優先度を高くし、一方、仮想視点予測位置から遠方になるほど撮像装置の優先度を低くする。なお、仮想視点位置は、予め設定された所定の仮想視点位置に移動されることも考慮し、所定の仮想視点位置から近いほど撮像装置の優先度を高くするようにしてもよいものとする。そして、優先度決定部８０１はそれら撮像装置ごとに決定した優先度とそれぞれ撮像装置の識別子と対応付けた優先度情報を、仮想視点画像生成部４１１に出力する。これにより、仮想視点画像生成部４１１では、各撮像装置の撮像画像を、優先度に基づいて取得する。

図９は、第２の実施形態に係る画像生成装置８００における画像処理のフローチャートである。なお、ステップＳ５０１からステップＳ５０７まで、およびステップＳ５１０からステップＳ５１１までは、図５に示したフローチャートの対応したステップと同じ処理であるため、それらの説明は省略する。図９のフローチャートでは、ステップＳ５０７の処理後、ステップＳ９０１の処理に進み、さらにステップＳ９０２の処理後、ステップＳ５１０の処理に進む。

ステップＳ９０１において、優先度決定部８０１は、３Ｄ形状予測位置と仮想視点予測位置とカメラパラメータとに基づいて、撮像装置に対する優先度を設定する。すなわち優先度決定部８０１は、次フレーム時間における被写体のレンダリングに必要な画像を撮像した撮像装置の優先度を高くし、それ以外の撮像装置の優先度を低くし、各撮像装置の識別子と対応付けた優先度情報を、仮想視点画像生成部４１１に出力する。

次に、ステップＳ９０２において、仮想視点画像生成部４１１は、優先度決定部８０１から入力された優先度情報に基づいて、優先度が高くなされている撮像装置の撮像画像から順に、次フレームの撮像画像として受信を開始する。なお優先度はすべての撮像装置に対して付与しておいて、優先順位のうち実際に取得したい優先度範囲を指定してもよく、この場合、仮想視点画像生成部４１１は、優先度範囲内の優先度が付与された撮像装置から、優先度が高い順に撮像画像を取得してもよい。また例えば、優先度は必ずしもすべての撮像装置に対して付与する必要はなく、この場合、仮想視点画像生成部４１１は、優先度が付与されている撮像装置の撮像画像から、優先度が高い順に撮像画像を取得してもよい。

図１０は、３Ｄ形状予測位置と仮想視点予測位置とに基づいて撮像装置に優先度を設定し、それら優先度を撮像装置の識別子に対応して付与した上で、優先度順に並べた例を示す図である。図１０は、図６（ｂ）に示した被写体と仮想視点との位置関係を例に挙げて、撮像装置６０１～６０６に付与された優先度の例を示している。なお図１０の例では、各撮像装置の識別子として、各撮像装置に付与された参照符号（６０１～６０６）をそのまま用いている。図６（ｂ）に示したような３Ｄ形状予測位置と仮想視点予測位置の場合、撮像装置６０２は、仮想視点予測位置６２３の近傍であるため優先度"１"、撮像装置６０１は撮像装置６０２の次に近傍となるため優先度"２"と決定される。また撮像装置６０６は、３Ｄ形状予測位置６１２のレンダリングに必要な位置と判定されるため、優先度"３"と決定される。また仮想視点位置は予め設定された所定の仮想視点位置に移動されることも考慮し、所定の仮想視点位置から近傍の撮像装置６０４の優先度も高くするようにした場合には優先度"４"と決定される。一方で、次フレーム時間に移動する可能性が低い位置にあたる撮像装置６０３は優先度"５"、さらに可能性が低い位置の撮像装置６０５は優先度"６"と決定される。

以上説明したように第２の実施形態によれば、優先度の順に撮像装置の撮像画像を取得することで、次フレーム時間の仮想視点位置に使用される撮像画像が先に使用可能となり、仮想視点画像生成までの遅延時間を短縮することが可能となる。また第２の実施形態において、例えば、撮像画像の伝送帯域などに余力がある場合には優先度の低い撮像画像も順次取得してもよい。この場合、所定仮想視点位置への移動にも対応することが可能となるだけでなく、仮想視点予測位置と実際の仮想視点位置とが万が一異なる場合にも対応可能となる。

＜第３の実施形態＞
以下、第３の実施形態として、３Ｄ形状予測位置と、仮想視点予測位置を生成する際の仮想視点の移動速度とに基づいて、撮像画像を取得する撮像装置の台数を変更する例について説明する。
図１１は、第３の実施形態に係る画像処理装置の機能構成例を示した図である。第３の実施形態の画像生成装置１１００は、図４に示した第１の実施形態の画像生成装置１２０の選択部４１０に替えて、台数決定部１１０１を有する。台数決定部１１０１には、３Ｄ位置予測部４０６から３Ｄ形状予測位置の情報が入力され、視点位置予測部４０９から仮想視点予測位置および仮想視点の移動速度の情報が、パラメータ保持部４０４からカメラパラメータが入力される。なお、台数決定部１１０１以外の他の各機能部は前述の第１の実施形態の対応した各機能部と同様であるため、それらの説明は省略し、以下第１の実施形態とは異なる部分についてのみ説明する。

台数決定部１１０１は、３Ｄ形状予測位置と、仮想視点予測位置および仮想視点の移動速度と、カメラパラメータとに基づいて、次フレーム時間において被写体のレンダリングに必要な画像を撮像した撮像装置の台数を決定する。そして、台数決定部１１０１は、当該決定した台数の各撮像装置の識別子を、仮想視点画像生成部４１１に出力する。

第３の実施形態においても、視点位置予測部４０９は、仮想視点の予測位置を算出する際、前述同様に現フレーム以前の二つのフレームにおける仮想視点位置を基に仮想視点の移動速度を算出する。ここで、例えば主な被写体である人間が走りだすときの動きを想定した速度（例えば３ｍ／ｓ）に対して仮想視点の移動速度が大きいような場合、仮想視点予測位置は、正しく予測されるべき仮想視点位置を通り越し、より遠方の位置になってしまうことがある。或いは逆に、正しく予測されるべき仮想視点位置よりも手前の位置で仮想視点予測位置が止まってしまうようなことも、可能性としては生じ得る。すなわち視点位置予測部４０９にて取得された仮想視点予測位置と正しく予測されるべき仮想視点位置との間に差異が生じてしまう可能性がある。このように仮想視点予測位置と正しく予測されるべき仮想視点位置との差が大きくなると、前述した第１の実施形態のような予測に基づいて撮像装置を選択した場合、その選択した撮像装置と仮想視点位置で使用されるべき撮像装置とが異なる可能性がある。

そこで第３の実施形態の場合、台数決定部１１０１は、３Ｄ形状予測位置と、カメラパラメータと、仮想視点予測位置および仮想視点の移動速度とを基に、撮像画像を取得する撮像装置の台数を決定する。すなわち台数決定部１１０１は、仮想視点の移動速度が、予め決められている所定の設定速度より速くなるほど、撮像画像を取得する撮像装置の台数を多くする。予め決められている設定速度は、一例として、主な被写体である人間が走りだすときの動きを想定した速度（例えば３ｍ／ｓ）を挙げることができる。また例えば、仮想視点画像の生成に使用する撮像画像を取得する撮像装置の台数が予め所定台数（例えば３台）に設定されているとした場合、台数決定部１１０１は、仮想視点の移動速度が設定速度より速くなった場合には、その所定台数よりも多い台数に変更する。

また例えば、仮想視点の移動速度が設定速度以下である場合にも、仮想視点予測位置は、正しく予測されるべき仮想視点位置を通り越して遠方の位置になることもあり、逆に正しく予測されるべき仮想視点位置より手前の位置で止まったりすることもあり得る。ただし、仮想視点の移動速度が低速であるほど、仮想視点予測位置と正しく予測されるべき仮想視点位置との差異は小さくなると考えられる。すなわち仮想視点の移動速度が低速であるほど、仮想視点位置で使用されるべき撮像装置の台数と、予め決められた所定台数との差は少なくなると想定される。このため台数決定部１１０１は、仮想視点の移動速度が、予め決められた設定速度以下である場合には、撮像画像を取得する撮像装置の台数を予め決められた所定台数とする。なお本実施形態では、撮像画像を取得する撮像装置の台数として予め所定台数に決められている例を挙げたが、台数決定部１１０１は、仮想視点の移動速度が遅くなるほど、撮像画像を取得する撮像装置の台数を少なくするように変更してもよい。

前述したように、第３の実施形態では、仮想視点の移動速度に応じて、撮像画像を取得する撮像装置の台数を変更することにより、仮想視点予測位置と正しく予測されるべき仮想視点位置との差異の変動に対応可能となる。なお本実施形態では、仮想視点の移動速度を用いる例を挙げたが、仮想視点の移動速度を基に加速度を算出して仮想視点予測位置を算出する場合には、当該仮想視点の移動加速度に基づいて撮像装置の台数を決定してもよい。

第３の実施形態の場合、台数決定部１１０１は、前述のように決定した台数の各撮像装置が３Ｄ形状予測位置を撮像した場合の３Ｄ形状の可視性判定を行う。さらに台数決定部１１０１は、３Ｄ形状予測位置が可視であると判定した各撮像装置のうち、仮想視点予測位置から近傍の撮像装置を選択し、その選択した撮像装置の識別子を決定する。これにより、仮想視点画像生成部４１１は、その識別子にて特定される撮像装置によって撮像された撮像画像を取得して仮想視点画像を生成することになる。

図１２は、第３の実施形態に係る画像生成装置１１００における画像処理のフローチャートである。なお、ステップＳ５０１からステップＳ５０７まで、およびステップＳ５１０からステップＳ５１１までは、図５に示したフローチャートの対応したステップと同じ処理であるため、それらの説明は省略する。図１２のフローチャートでは、ステップＳ５０７の処理後にステップＳ１２０１の処理に進み、ステップＳ１２０２の処理後にステップＳ５１０の処理に進む。

ステップＳ１２０１に進むと、台数決定部１１０１は、３Ｄ形状予測位置と仮想視点予測位置および仮想視点の移動速度とカメラパラメータとを基に、次フレーム時間における被写体のレンダリングに必要な撮像装置とその台数を決定する。さらに台数決定部１１０１は、各撮像装置が３Ｄ形状予測位置を撮像した場合の３Ｄ形状の可視性判定を行い、その判定結果に応じて選択した撮像装置の識別子を、仮想視点画像生成部４１１に出力する。

次にステップＳ１２０２において、仮想視点画像生成部４１１は、台数決定部１１０１から入力された識別子に対応した撮像装置の撮像画像を、次フレームの撮像画像として受信を開始する。これにより、仮想視点画像生成部４１１は、それら撮像装置による撮像画像を基に仮想視点画像を生成する。

図１３（ａ）と図１３（ｂ）は、仮想空間上で予測される被写体の３Ｄ形状と、予測される仮想視点との位置関係を示した概念図である。
図１３（ａ）と図１３（ｂ）において、前述した図６（ｂ）の例と同様に、撮像装置６０１～６０６は仮想空間上に対応させて配置された各撮像装置である。また、仮想視点位置６２２はユーザから入力された再生時刻情報と仮想視点情報に対応した仮想視点位置を示し、仮想視点位置６２１は前フレームにおける仮想視点位置を示している。また、３Ｄ形状予測位置６１２は仮想空間上に対応させた被写体の３Ｄ形状６１１に対して次フレームで予測される３Ｄ形状予測位置を示し、３Ｄ形状予測位置６１４は被写体の３Ｄ形状６１３に対して次フレームに予測される３Ｄ形状予測位置を示している。

ここで、図１３（ａ）は仮想視点の移動速度が所定の設定速度以下のように遅い場合の例を示しており、仮想視点予測位置１３０１は次フレームで予測される仮想視点予測位置を示している。一方、図１３（ｂ）は仮想視点の移動速度が所定の設定速度より速い場合の例を示しており、仮想視点予測位置１３０２は次フレームで予測される仮想視点予測位置を示している。すなわち仮想視点の移動速度が遅い図１３（ａ）の場合の仮想視点予測位置１３０１と、移動速度が速い図１３（ｂ）の場合の仮想視点予測位置１３０２とでは、その位置が大きく異なっている。

図１３（ａ）の例の場合、仮想視点の移動速度が予め決められた設定速度以下であるため、仮想視点予測位置に対応して決定される撮像装置の台数は、予め決められた所定台数（例えば３台）になされる。
一方、図１３（ｂ）の例の場合、仮想視点の移動速度が設定速度より速いため、仮想視点予測位置は、仮想視点位置６２２から仮想視点予測位置１３０２への矢印で示した軌跡のように予測位置の移動範囲が広がる。この場合、仮想視点画像の生成に必要となり得る撮像画像を得るための撮像装置が増えることになり、それに対応可能にするために、撮像装置の台数は例えば所定台数よりも多くの台数（例えば４台）に決定する。なお、本実施形態では、撮像画像を取得する撮像装置の台数を仮想視点の移動速度に応じて決定しているが、移動速度だけでなく、撮像装置の設置位置とその台数により、取得する台数が増減するとしてもよいものとする。例えば、台数決定部１１０１は、同撮影範囲を撮像する撮像装置の台数が増加するほど、撮像画像を取得する撮像装置の台数を多く決定してもよい。逆に、台数決定部１１０１は、同撮影範囲を撮像する撮像装置の台数が少ないほど、撮像画像を取得する撮像装置の台数を少なく決定してもよい。

前述のようにして仮想視点の移動速度に応じて撮像装置の台数を決定することで、例えば図１３（ａ）の仮想視点予測位置１３０１では、３Ｄ形状予測位置６１２と３Ｄ形状予測位置６１４とを撮像する場合、撮像装置の台数は３台となる。すなわちこの例の場合、撮像装置６０１，６０２，６０６の３台が、次フレームで使用する撮像画像を取得するための撮像装置に決定される。また台数決定部１１０１では、それら３台の撮像装置６０１，６０２，６０６で３Ｄ形状予測位置を撮像した場合の３Ｄ形状の可視性判定が行われる。図１３（ａ）の例の場合、仮想視点予測位置１３０１に近い撮像装置６０１，６０２が選択され、それらにより取得される撮像画像を用いて３Ｄ形状予測位置６１４に対応した仮想視点画像のレンダリングが行われることになる。同様に、仮想視点予測位置１３０１に近い撮像装置６０２，６０６が選択され、それらにより取得される撮像画像を用いて３Ｄ形状予測位置６１２に対応した仮想視点画像のレンダリングが行われることになる。

また例えば、図１３（ｂ）の仮想視点予測位置１３０２では、３Ｄ形状予測位置６１２と３Ｄ形状予測位置６１４とを撮像する場合、撮像装置の台数が前述したように４台となる。すなわちこの例の場合、撮像装置６０１，６０２，６０３，６０４の４台が、次フレームで使用する撮像画像を取得するための撮像装置に決定される。また台数決定部１１０１では、それら４台の撮像装置６０１，６０２，６０３，６０４で３Ｄ形状予測位置を撮像した場合の３Ｄ形状の可視性判定が行われる。図１３（ｂ）の例の場合、仮想視点予測位置１３０２に近い撮像装置６０２，６０３が選択され、それらにより取得される撮像画像を用いて３Ｄ形状予測位置６１４に対応した仮想視点画像のレンダリングが行われることになる。同様に、仮想視点予測位置１３０２に近い撮像装置６０２，６０３が選択され、それらにより取得される撮像画像を用いて３Ｄ形状予測位置６１２に対応した仮想視点画像のレンダリングが行われることになる。

以上説明したように、第３の実施形態では、３Ｄ形状予測位置と、カメラパラメータと、仮想視点予測位置および仮想視点の移動速度とに基づいて、次フレームでレンダリングに使用する撮像画像を取得する撮像装置とその台数を決定する。これにより、第３の実施形態によれば、仮想視点の移動速度によって変化する可能性がある予測位置範囲をカバーすることが可能となる。

なお、前述した第１～第３の実施形態では、仮想視点位置をユーザ操作により指定したが、ユーザ操作による指定に限定されるものではなく、予め用意された仮想視点位置を用いて仮想視点画像を生成するとしてもよいものとする。

本開示は、上述した各実施形態の一以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、一以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
上述の実施形態は、何れも本開示を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本開示の技術的範囲が限定的に解釈されてはならないものである。すなわち、本開示は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

本実施形態の開示は、以下の構成、方法、プログラム、およびシステムを含む。
（構成１）
仮想視点の位置および方向を示す仮想視点情報を取得する情報取得手段と、
複数の撮像装置にて撮像された撮像画像に基づいて生成される被写体の三次元モデルを取得するモデル取得手段と、
仮想視点画像における第１のフレーム以前のフレームの仮想視点を基に、前記第１のフレームより後の第２のフレームにおける仮想視点を予測する視点予測手段と、
前記第１のフレーム以前のフレームに対応する被写体の三次元モデルの位置を基に、前記第２のフレームにおける被写体の三次元モデルの位置を予測するモデル予測手段と、
予測された仮想視点と、予測された三次元モデルの位置と、前記複数の撮像装置の撮影パラメータとを基に、前記複数の撮像装置の中から、前記第２のフレームを生成する際に使用する撮像画像を取得する撮像装置を、決定する決定手段と、
決定された前記撮像装置により取得された前記第２のフレームに対応する撮像画像と、前記モデル取得手段により取得された前記第２のフレームに対応する三次元モデルと、前記情報取得手段により取得された前記第２のフレームに対応する仮想視点情報とを基に、仮想視点画像を生成する画像生成手段と、
を有することを特徴とする画像処理装置。
(構成２）
前記第１のフレームはユーザにより指定された再生時刻に対応したフレームであり、
前記視点予測手段は、前記第１のフレーム以前の少なくとも二つのフレームにおける仮想視点を基に、前記第２のフレームにおける仮想視点を予測することを特徴とする構成１に記載の画像処理装置。
（構成３）
前記第１のフレームはユーザにより指定された再生時刻に対応したフレームであり、
前記モデル予測手段は、前記第１のフレーム以前の前記少なくとも二つのフレームにおける被写体の三次元モデルを基に、前記第２のフレームにおける被写体の三次元モデルの位置を予測することを特徴とする構成１または２に記載の画像処理装置。
（構成４）
ユーザにより指定された仮想視点の位置および方向を示す仮想視点情報を前記情報取得手段が取得した場合、
前記決定手段は、前記ユーザにより指定された仮想視点情報を基に、前記複数の撮像装置の中から、前記仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置を決定し、
前記画像生成手段は、決定された前記撮像装置により取得された前記第２のフレームに対応する撮像画像および当該撮像装置の撮影パラメータと、前記ユーザにより指定された仮想視点情報と、前記モデル取得手段により取得された前記第２のフレームに対応する三次元モデルとを基に、前記仮想視点画像を生成することを特徴とする構成１乃至３のいずれか１構成に記載の画像処理装置。
（構成５）
前記決定手段は、前記予測された仮想視点から見て、前記予測された三次元モデルの位置が可視かどうかを判定し、前記判定の結果を基に、前記第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置を決定することを特徴とする構成１乃至４のいずれか１構成に記載の画像処理装置。
（構成６）
前記決定手段は、前記予測された三次元モデルの位置が可視であると判定された、前記予測された仮想視点に対して近傍の少なくとも一台の撮像装置を、前記仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置として決定することを特徴とする構成５に記載の画像処理装置。
（構成７）
前記予測された仮想視点に対して近傍の撮像装置として、二台以上の所定数の撮像装置が前記決定された場合、前記画像生成手段は、前記仮想視点画像を生成する際、前記所定数の撮像装置による撮像画像の各画像を合成した画像を用いることを特徴とする構成６に記載の画像処理装置。
（構成８）
前記決定手段は、前記予測された仮想視点と、前記予測された三次元モデルの位置と、前記複数の撮像装置の前記撮影パラメータとを基に、前記第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置の優先度を決定し、
前記画像生成手段は、前記仮想視点画像を生成する際、前記優先度に応じた順に前記撮像装置の撮像画像および前記撮影パラメータを用いることを特徴とする構成１乃至７のいずれか１構成に記載の画像処理装置。
（構成９）
前記決定手段は、前記第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置として前記決定された各撮像装置の優先度を高くし、前記決定されなかった各撮像装置の優先度を低くすることを特徴とする構成８に記載の画像処理装置。
（構成１０）
前記決定手段は、前記予測された仮想視点から見て、前記予測された三次元モデルの位置が可視かどうかを判定し、前記可視であると判定された、前記予測された仮想視点に対して近い順に撮像装置の前記優先度を高くすることを特徴とする構成８または９に記載の画像処理装置。
（構成１１）
前記決定手段は、予め設定された所定の仮想視点に近い撮像装置ほど前記優先度を高くすることを特徴とする構成８乃至１０のいずれか１構成に記載の画像処理装置。
（構成１２）
前記画像生成手段は、前記仮想視点画像を生成する際、前記優先度に対して予め指定された優先度範囲内の優先度の前記撮像装置の撮像画像および前記撮影パラメータを用いることを特徴とする構成８乃至１１のいずれか１構成に記載の画像処理装置。
（構成１３）
前記決定手段は、前記予測された仮想視点と、前記予測された三次元モデルの位置と、前記複数の撮像装置の前記撮影パラメータとを基に、前記第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置の台数を決定し、
前記画像生成手段は、前記仮想視点画像を生成する際、前記決定された台数の前記撮像装置の撮像画像および前記撮影パラメータを用いることを特徴とする構成１乃至１２のいずれか１構成に記載の画像処理装置。
（構成１４）
前記決定手段は、前記予測された仮想視点の移動速度を取得し、前記移動速度が所定の設定速度より速くなるほど前記台数を多く決定することを特徴とする構成１３に記載の画像処理装置。
（構成１５）
前記決定手段は、前記予測された仮想視点の移動速度を取得し、前記移動速度が所定の設定速度以下である場合には、前記台数を予め決められた所定台数にすることを特徴とする構成１３または１４に記載の画像処理装置。
（構成１６）
前記決定手段は、前記予測された仮想視点から見て、前記予測された三次元モデルの位置が可視かどうかを判定し、前記判定の結果を基に、前記決定した台数の撮像装置の中から、前記第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置を選択することを特徴とする構成１３乃至１５のいずれか１構成に記載の画像処理装置。
（構成１７）
前記決定手段は、同撮影範囲を撮像する撮像装置の台数が増加するほど、前記決定する撮像装置の台数を多くすることを特徴とする構成１３乃至１６のいずれか１構成に記載の画像処理装置。
（方法１）
画像処理装置が実行する画像処理方法であって、
仮想視点の位置および方向を示す仮想視点情報を取得する情報取得工程と、
複数の撮像装置にて撮像された撮像画像に基づいて生成される被写体の三次元モデルを取得するモデル取得工程と、
仮想視点画像における第１のフレーム以前のフレームの仮想視点を基に、前記第１のフレームより後の第２のフレームにおける仮想視点を予測する視点予測工程と、
前記第１のフレーム以前のフレームに対応する被写体の三次元モデルの位置を基に、前記第２のフレームにおける被写体の三次元モデルの位置を予測するモデル予測工程と、
予測された仮想視点と、予測された三次元モデルの位置と、前記複数の撮像装置の撮影パラメータとを基に、前記複数の撮像装置の中から、前記第２のフレームを生成する際に使用する撮像画像を取得する撮像装置を、決定する決定工程と、
決定された前記撮像装置により取得された前記第２のフレームに対応する撮像画像と、前記モデル取得工程により取得された前記第２のフレームに対応する三次元モデルと、前記情報取得工程により取得された前記第２のフレームに対応する仮想視点情報とを基に、仮想視点画像を生成する画像生成工程と、
を有することを特徴とする画像処理方法。
（プログラム１）
コンピュータを、構成１乃至１７のいずれか１構成に記載の画像処理装置として機能させるプログラム。
（システム１）
現実空間に配置された複数の撮像装置と、
構成１乃至１７のいずれか１構成に記載の画像処理装置と、
を有することを特徴とする画像処理システム。

１２０：画像生成装置、４０６：３Ｄ位置予測部、４０８：情報設定部、４１０：視点位置予測部、４１０：選択部、４１１：仮想視点画像生成部

Claims

仮想視点の位置および方向を示す仮想視点情報を取得する情報取得手段と、
複数の撮像装置にて撮像された撮像画像に基づいて生成される被写体の三次元モデルを取得するモデル取得手段と、
仮想視点画像における第１のフレーム以前のフレームの仮想視点を基に、前記第１のフレームより後の第２のフレームにおける仮想視点を予測する視点予測手段と、
前記第１のフレーム以前のフレームに対応する被写体の三次元モデルの位置を基に、前記第２のフレームにおける被写体の三次元モデルの位置を予測するモデル予測手段と、
予測された仮想視点と、予測された三次元モデルの位置と、前記複数の撮像装置の撮影パラメータとを基に、前記複数の撮像装置の中から、前記第２のフレームを生成する際に使用する撮像画像を取得する撮像装置を、決定する決定手段と、
決定された前記撮像装置により取得された前記第２のフレームに対応する撮像画像と、前記モデル取得手段により取得された前記第２のフレームに対応する三次元モデルと、前記情報取得手段により取得された前記第２のフレームに対応する仮想視点情報とを基に、仮想視点画像を生成する画像生成手段と、
を有することを特徴とする画像処理装置。
前記第１のフレームはユーザにより指定された再生時刻に対応したフレームであり、
前記視点予測手段は、前記第１のフレーム以前の少なくとも二つのフレームにおける仮想視点を基に、前記第２のフレームにおける仮想視点を予測することを特徴とする請求項１に記載の画像処理装置。
前記第１のフレームはユーザにより指定された再生時刻に対応したフレームであり、
前記モデル予測手段は、前記第１のフレーム以前の少なくとも二つのフレームにおける被写体の三次元モデルを基に、前記第２のフレームにおける被写体の三次元モデルの位置を予測することを特徴とする請求項１に記載の画像処理装置。
ユーザにより指定された仮想視点の位置および方向を示す仮想視点情報を前記情報取得手段が取得した場合、
前記決定手段は、前記ユーザにより指定された仮想視点情報を基に、前記複数の撮像装置の中から、前記仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置を決定し、
前記画像生成手段は、決定された前記撮像装置により取得された前記第２のフレームに対応する撮像画像および当該撮像装置の撮影パラメータと、前記ユーザにより指定された仮想視点情報と、前記モデル取得手段により取得された前記第２のフレームに対応する三次元モデルとを基に、前記仮想視点画像を生成することを特徴とする請求項１に記載の画像処理装置。
前記決定手段は、前記予測された仮想視点から見て、前記予測された三次元モデルの位置が可視かどうかを判定し、前記判定の結果を基に、前記第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置を決定することを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
前記決定手段は、前記予測された三次元モデルの位置が可視であると判定された、前記予測された仮想視点に対して近傍の少なくとも一台の撮像装置を、前記仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置として決定することを特徴とする請求項５に記載の画像処理装置。
前記予測された仮想視点に対して近傍の撮像装置として、二台以上の所定数の撮像装置が前記決定された場合、前記画像生成手段は、前記仮想視点画像を生成する際、前記所定数の撮像装置による撮像画像の各画像を合成した画像を用いることを特徴とする請求項６に記載の画像処理装置。
前記決定手段は、前記予測された仮想視点と、前記予測された三次元モデルの位置と、前記複数の撮像装置の前記撮影パラメータとを基に、前記第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置の優先度を決定し、
前記画像生成手段は、前記仮想視点画像を生成する際、前記優先度に応じた順に前記撮像装置の撮像画像および前記撮影パラメータを用いることを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
前記決定手段は、前記第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置として前記決定された各撮像装置の優先度を高くし、前記決定されなかった各撮像装置の優先度を低くすることを特徴とする請求項８に記載の画像処理装置。
前記決定手段は、前記予測された仮想視点から見て、前記予測された三次元モデルの位置が可視かどうかを判定し、前記可視であると判定された、前記予測された仮想視点に対して近い順に撮像装置の前記優先度を高くすることを特徴とする請求項８に記載の画像処理装置。
前記決定手段は、予め設定された所定の仮想視点に近い撮像装置ほど前記優先度を高くすることを特徴とする請求項８に記載の画像処理装置。
前記画像生成手段は、前記仮想視点画像を生成する際、前記優先度に対して予め指定された優先度範囲内の優先度の前記撮像装置の撮像画像および前記撮影パラメータを用いることを特徴とする請求項８に記載の画像処理装置。
前記決定手段は、前記予測された仮想視点と、前記予測された三次元モデルの位置と、前記複数の撮像装置の前記撮影パラメータとを基に、前記第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置の台数を決定し、
前記画像生成手段は、前記仮想視点画像を生成する際、前記決定された台数の前記撮像装置の撮像画像および前記撮影パラメータを用いることを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
前記決定手段は、前記予測された仮想視点の移動速度を取得し、前記移動速度が所定の設定速度より速くなるほど前記台数を多く決定することを特徴とする請求項１３に記載の画像処理装置。
前記決定手段は、前記予測された仮想視点の移動速度を取得し、前記移動速度が所定の設定速度以下である場合には、前記台数を予め決められた所定台数にすることを特徴とする請求項１３に記載の画像処理装置。
前記決定手段は、前記予測された仮想視点から見て、前記予測された三次元モデルの位置が可視かどうかを判定し、前記判定の結果を基に、前記決定した台数の撮像装置の中から、前記第２のフレームの仮想視点画像を生成する際に使用する撮像画像を取得する撮像装置を選択することを特徴とする請求項１３に記載の画像処理装置。
前記決定手段は、同撮影範囲を撮像する撮像装置の台数が増加するほど、前記決定する撮像装置の台数を多くすることを特徴とする請求項１３に記載の画像処理装置。
画像処理装置が実行する画像処理方法であって、
仮想視点の位置および方向を示す仮想視点情報を取得する情報取得工程と、
複数の撮像装置にて撮像された撮像画像に基づいて生成される被写体の三次元モデルを取得するモデル取得工程と、
仮想視点画像における第１のフレーム以前のフレームの仮想視点を基に、前記第１のフレームより後の第２のフレームにおける仮想視点を予測する視点予測工程と、
前記第１のフレーム以前のフレームに対応する被写体の三次元モデルの位置を基に、前記第２のフレームにおける被写体の三次元モデルの位置を予測するモデル予測工程と、
予測された仮想視点と、予測された三次元モデルの位置と、前記複数の撮像装置の撮影パラメータとを基に、前記複数の撮像装置の中から、前記第２のフレームを生成する際に使用する撮像画像を取得する撮像装置を、決定する決定工程と、
決定された前記撮像装置により取得された前記第２のフレームに対応する撮像画像と、前記モデル取得工程により取得された前記第２のフレームに対応する三次元モデルと、前記情報取得工程により取得された前記第２のフレームに対応する仮想視点情報とを基に、仮想視点画像を生成する画像生成工程と、
を有することを特徴とする画像処理方法。
コンピュータを、
仮想視点の位置および方向を示す仮想視点情報を取得する情報取得手段と、
複数の撮像装置にて撮像された撮像画像に基づいて生成される被写体の三次元モデルを取得するモデル取得手段と、
仮想視点画像における第１のフレーム以前のフレームの仮想視点を基に、前記第１のフレームより後の第２のフレームにおける仮想視点を予測する視点予測手段と、
前記第１のフレーム以前のフレームに対応する被写体の三次元モデルの位置を基に、前記第２のフレームにおける被写体の三次元モデルの位置を予測するモデル予測手段と、
予測された仮想視点と、予測された三次元モデルの位置と、前記複数の撮像装置の撮影パラメータとを基に、前記複数の撮像装置の中から、前記第２のフレームを生成する際に使用する撮像画像を取得する撮像装置を、決定する決定手段と、
決定された前記撮像装置により取得された前記第２のフレームに対応する撮像画像と、前記モデル取得手段により取得された前記第２のフレームに対応する三次元モデルと、前記情報取得手段により取得された前記第２のフレームに対応する仮想視点情報とを基に、仮想視点画像を生成する画像生成手段と、
を有する画像処理装置として機能させるプログラム。
現実空間に配置された複数の撮像装置と、
請求項１に記載の画像処理装置と、
を有することを特徴とする画像処理システム。