WO2023100704A1

WO2023100704A1 - 画像制作システム、画像制作方法、プログラム

Info

Publication number: WO2023100704A1
Application number: PCT/JP2022/043000
Authority: WO
Inventors: 翔小倉; 義博吉岡
Original assignee: ソニーグループ株式会社
Priority date: 2021-12-01
Filing date: 2022-11-21
Publication date: 2023-06-08
Also published as: CN118302796A

Abstract

画像制作システムは、撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する推定情報生成部と、自由視点画像生成部と、三次元画像生成部と、出力画像生成部を備える。自由視点画像生成部は、複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する。三次元画像生成部は、推定情報生成部が生成した推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成する。出力画像生成部は、自由視点画像生成部により生成された自由視点画像及び三次元画像生成部により生成された三次元画像に基づいて出力画像を生成する。

Description

画像制作システム、画像制作方法、プログラム

　本技術は画像制作システム、画像制作方法、プログラムに関し、特に自由視点画像と三次元（３Ｄ）画像を用いる技術分野に関する。

　多視点から撮像された被写体を三次元空間上で表した三次元情報に基づき、三次元空間上の任意視点からの観察画像に相当する自由視点画像（Volumetric Capturing）を生成する技術が知られている。多視点の画像からポジション制約が無い自由な視点の画像を生成する技術である。自由視点画像は「Free View」「Volumetric」などと言われる。自由視点画像は例えばスポーツ中継のリプレイ画像などとして有用である。
　例えば特許文献１には視点の移動軌跡といえるカメラワークの生成に関する技術が開示されている。

　また特許文献２には、卓球のプレイ内容をわかりやすく伝えるための画像処理技術が開示されている。

　さらに近年、サッカーやバスケットボールなどのプレイに関し、ＥＰＴＳ（Electronic performance and Tracking Systems）として、専用に設置したカメラによる画像や、選手やボールに付けられたセンサ（加速度センサやＧＰＳセンサ）による情報から指定したフィールド上から選手・審判の姿勢や位置、ボールの位置／回転などを推定する技術が知られている。
　ＣＧ（computer graphics）を用いてＥＰＴＳデータに基づくプレイの再現画像を生成することもできる。

ＷＯ２０１８／０３０２０６号公報特開２０２１－２３４０１号公報

　これら多様な画像処理技術が存在するが、例えば実写画像とＣＧ画像とを複合的に用いることで、新たな画像表現が可能と考えられる。
　そこで本開示では、実写の自由視点画像とＣＧ画像を用いて、より多様かつ高品質な画像制作を行うことができる技術を提案する。

　本技術に係る画像制作システムは、撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する推定情報生成部と、複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する自由視点画像生成部と、前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成することができる三次元画像生成部と、前記自由視点画像生成部により生成された自由視点画像及び前記三次元画像生成部により生成された三次元画像に基づいて出力画像を生成する出力画像生成部と、を備える。
　実写に基づく自由視点画像と、仮想三次元モデルを用いた三次元画像に基づいて出力画像を生成する。例えば自由視点画像と三次元画像を切り替えたり融合させたりして出力画像を生成する。

本技術の実施の形態の画像制作システムのブロック図である。実施の形態のＥＰＴＳとボリューメトリックシステムを有する画像制作システムのブロック図である。実施の形態の撮像装置の配置例の説明図である。実施の形態のＥＰＴＳとボリューメトリックシステムを有する画像制作システムの他の構成例のブロック図である。実施の形態の画像制作システムを構成する情報処理装置のブロック図である。実施の形態の自由視点画像における視点の説明図である。実施の形態の自由視点画像の出力クリップの説明図である。実施の形態の自由視点画像の静止画ＦＶクリップを含む出力クリップの説明図である。実施の形態の自由視点画像の動画ＦＶクリップを含む出力クリップの説明図である。実施の形態の出力クリップの画像例の説明図である。実施の形態の自由視点画像の生成処理の説明図である。実施の形態の実写による３Ｄモデル生成の説明図である。実施の形態の実写による３Ｄモデルの説明図である。実施の形態の実写による３Ｄモデルの説明図である。実施の形態で生成される画像例の説明図である。実施の形態で生成される画像例の説明図である。実施の形態で生成される画像例の説明図である。実施の形態で生成される画像例の説明図である。実施の形態で生成される画像例の説明図である。実施の形態で生成される画像例の説明図である。実施の形態で生成される画像例の説明図である。実施の形態で生成される画像例の説明図である。実施の形態で生成される画像例の説明図である。実施の形態の画像制作処理例のフローチャートである。実施の形態の画像制作処理例のフローチャートである。実施の形態の画像制作処理例のフローチャートである。実施の形態の画像制作処理例のフローチャートである。実施の形態の画像制作処理例のフローチャートである。実施の形態の実写自由視点画像とＣＧ画像の選択／合成の処理シーケンスの説明図である。実施の形態の時間方向の選択例の説明図である。実施の形態の実写自由視点画像とＣＧ画像の選択の説明図である。実施の形態の実写自由視点画像とＣＧ画像の選択の説明図である。実施の形態のフレーム内の合成例の説明図である。実施の形態の画像制作処理例のフローチャートである。実施の形態の画像制作処理例のフローチャートである。実施の形態の画像制作処理例のフローチャートである。

　以下、実施の形態を次の順序で説明する。
＜１．画像制作システムの基本構成＞
＜２．ＥＰＴＳとボリューメトリックシステムを有する画像制作システム＞
＜３．自由視点画像＞
＜４．制作される画像例＞
＜５．画像制作処理例＞
＜６．実写自由視点画像とＣＧ画像の選択／合成＞
＜７．まとめ及び変形例＞

　なお、本開示では「画像」とは、動画、静止画のいずれをも指す。主に動画コンテンツ制作を例にして説明するが、制作される画像は動画に限らず静止画や、複数の静止画によるスライドショウのようなものでもよい。
　また「画像」とは、実際に画面に表示される画像を指すが、画面に表示されるまでの信号処理過程や伝送路における「画像」とは画像データを指す。

＜１．画像制作システムの基本構成＞
　図１に実施の形態の画像制作システム３００（又は画像制作システム３０１）の構成例を示す。

　画像制作システム３００は、自由視点画像生成部３、推定情報生成部４、三次元画像生成部５を備える。

　自由視点画像生成部３は、複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する処理を行う。
　例えば複数の撮像装置１０が、スポーツ会場などにおける被写体の領域、例えば試合を行っている競技場を多様な位置から撮像している。自由視点画像生成部３は、これらの撮像装置１０による撮像画像を入力し、自由視点画像を含む実写画像を生成することができる。

　この自由視点画像を生成する際には、多視点の撮像画像から被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像を生成する。実写に基づく三次元モデルを用いて生成される自由視点画像は、本開示では後述のＣＧ画像との区別のために実写画像に含むものとする。
　従って本開示でいう実写画像とは、撮像装置１０による撮像画像そのものや、撮像画像の動画の一部に自由視点画像が挿入された画像（クリップ）、或いは自由視点画像のみで構成されるクリップなどを含む。なお「クリップ」とは、録画した画像の中から切り出したり、さらに加工したりして作成される或るシーンの画像のことを指す。

　推定情報生成部４は、撮像画像に基づいて被写体に関する推定情報を生成する。この場合、撮像装置２０によって得られる撮像画像から、各種の情報を生成するものとされる。
　推定情報とは、例えば被写体としての人物（選手等）や物体（ボール等）の位置、姿勢、動きの情報などである。例えば後述するＥＰＴＳデータが、推定情報に相当する。
　例えば複数の撮像装置２０が、スポーツ会場などを多様な位置から撮像している。推定情報生成部４は、これらの撮像装置２０による撮像画像を入力し、画像の解析処理を行って推定情報を生成することができる。
　また、例えば、１以上の加速度センサおよび／または１以上のＧＰＳセンサが、スポーツで用いられるボールや、スポーツを行う人物の着用するユニフォームや人物が身に着ける靴、腕時計などに取り付けられていても構わない。推定情報生成部４は、これらのセンサ２９により得られる加速度情報や位置情報を入力し、これらの情報を基に推定情報を生成することができる。

　三次元画像生成部５は、推定情報生成部４が生成した推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成することができる。
　例えば三次元画像生成部５が、ＣＧにより制作された被写体（選手等）の仮想的な３Ｄ（三次元）モデルを用い、推定情報としての各選手の位置、姿勢、動きなどを用いて、ＣＧによる試合の３Ｄ画像を作成することができる。
　なお、三次元画像生成部５は、自由視点画像生成部３が生成した実写に基づく３Ｄモデルを用いて３Ｄ画像を生成することもできる。

　このような自由視点画像生成部３、推定情報生成部４、三次元画像生成部５を備える画像制作システム３００は、自由視点画像を含む実写画像と、３Ｄ画像を出力することができるシステムである。特に３Ｄ画像は、ＣＧによる３Ｄモデルや実写に基づいて生成した３Ｄモデルを用いた３Ｄ画像を生成できる。

　図１では、これら自由視点画像生成部３、推定情報生成部４、三次元画像生成部５に出力画像生成部６を加えた構成を、画像制作システム３０１として示している。
　出力画像生成部６は、自由視点画像生成部３により生成された自由視点画像及び三次元画像生成部５により生成された三次元画像に基づいて出力画像を生成する。

　つまり画像制作システム３０１は、自由視点画像を含む実写画像と、ＣＧによる３Ｄモデルや実写に基づいて生成した３Ｄモデルを用いた３Ｄ画像を入力し、選択或いは合成して出力画像を生成して、出力できるシステムである。例えば出力画像が、画像コンテンツとして配信されたり放送されたりする。
　出力画像生成部６が、自由視点画像を含む実写画像やＣＧや実写による３Ｄモデルを用いた３Ｄ画像を統合的に扱うことで、出力画像として多様な画像を配信等することができる。

＜２．ＥＰＴＳとボリューメトリックシステムを有する画像制作システム＞
　図１の構成の画像制作システム３００又は３０１に相当する、より具体的な構成例を図２で説明する。図２は、ボリューメトリックシステム１００とＥＰＴＳ２００を備えたシステム構成例である。

　ボリューメトリックシステム１００は、図１の自由視点画像生成部３に相当する。即ち収録部１１、ＦＶレンダー１２、ストレージ１５，１６が、自由視点画像生成部３の具体的構成例となる。

　ＥＰＴＳ２００は、図１の推定情報生成部４及び三次元画像生成部５の機能を有する。例えば収録部２１、ＥＰＴＳデータ生成部２２、ストレージ２３が、推定情報生成部４の具体的構成例となる。また３Ｄレンダー２７、ストレージ２４，２５，２８が三次元画像生成部５の具体的構成例となる。

　また図２では２Ｄレンダー３１を示しているが、この２Ｄレンダー３１は図１の出力画像生成部６の一例である。但しこれに限らず、ＦＶレンダー１２や３Ｄレンダー２７が、出力画像生成部６としての機能を実行してもよい。

　図２の構成を説明する。なお以降、「カメラ」という用語は撮像装置を指す。例えば「カメラ配置」とは複数の撮像装置の配置を意味する。

　複数の撮像装置１０は、例えばＣＣＤ（Charge Coupled Devices）センサやＣＭＯＳ（Complementary Metal-Oxide-Semiconductor）センサ等による撮像素子を有したデジタルカメラ装置として構成され、デジタルデータとしての撮像画像を得る。本例では、各撮像装置１０は動画としての撮像画像を得る。

　各撮像装置１０は、本例ではバスケットボールやサッカー、ゴルフ等の競技が行われている様子を撮像するものとされ、それぞれが競技の開催される競技会場における所定位置において所定の向きに配置されている。撮像装置１０の数は特に規定されないが、自由視点画像の生成を可能とする上では撮像装置１０の数は少なくとも２以上あればよい。撮像装置１０の台数を多くし、対象とする被写体をより多くの角度から撮像することで、被写体の３Ｄモデル復元の精度向上が図られ、自由視点画像の画質向上を図ることができる。

　図３に、バスケットボールのコートの周囲における撮像装置１０の配置例を示している。○が撮像装置１０であるとする。例えば図面で左側のゴール近傍を重点的に撮りたい場合のカメラ配置例である。もちろんカメラ配置や数は一例であり、撮影環境や画像コンテンツの内容、目的等に応じて設定されるべきものである。
　また、自由視点画像の生成対象とされるイベントはバスケットボール競技等のスポーツ競技に限定されるものではなく、多種多様なものである。

　また複数の撮像装置２０は、同じく例えばＣＣＤセンサやＣＭＯＳセンサ等による撮像素子を有したデジタルカメラ装置として構成され、デジタルデータとしての撮像画像を得る。本例では、各撮像装置２０は動画としての撮像画像を得、ＥＰＴＳ２００に撮像画像を供給する。
　この複数の撮像装置２０も、例えばバスケットボールコートなどにおける各種の位置に配置されて、多様な視点の撮像画像が得られるようにしている。

　各撮像装置１０と、各撮像装置２０は、同期部３０により同期がとられている。つまり各撮像装置１０と、各撮像装置２０は同じタイミングで各フレームの撮像を行うようにしている。これは、ボリューメトリックシステム１００で得られる画像の各フレームと、ＥＰＴＳ２００で得られるＥＰＴＳデータのタイミング関係が一致するようにするためである。

　ボリューメトリックシステム１００の構成について説明する。
　収録部１１は、複数の撮像装置１０による撮像画像をそれぞれ収録し、一部又は全部の撮像画像をＦＶレンダー１２に供給する。即ちこの収録部１１は、自由視点画像の生成のためのビデオサーバとして機能する。

　ＦＶレンダー１２は、収録部１１から供給される、撮像装置１０による撮像画像を用いて自由視点画像生成を行う。なお「ＦＶ」は「Free View」を示しており、つまりＦＶレンダー１２は自由視点画像生成としてのレンダリングを行うものである。
　ＦＶレンダー１２は、各撮像装置１０によって得られる多視点の撮像画像から被写体の３Ｄモデルを生成する。この３Ｄモデルを用いて被写体についての任意の視点の画像を生成する。

　ＦＶレンダー１２には、例えばオペレータの操作や自動制御によってカメラパスが指定されることに応じて、カメラパス指定情報ＣＰＤが入力される。
　ここで、カメラパスとは、自由視点画像における視点の移動軌跡を示す情報を少なくとも含んだ情報である。例えば、３Ｄモデルを生成した被写体に対して、視点の位置や視線方向、及び画角（焦点距離）を変化させていくような自由視点画像を作成する場合に、その視点の移動軌跡や視線方向の変化態様、画角の変化態様を定めるのに必要なパラメータ等が、カメラパスの情報とされる。

　またオペレータの操作や自動制御によって、タグ付与やシーン指定が行われることがある。ここでいうタグとは、例えば動画上の特定の時点（フレーム）を示す情報であり、バスケットボールにおけるシュートシーンなど、特定のシーンのタイミングに付与する情報である。オペレータは、例えば各種のスポーツにおける開始、終了、シュート、ファール、サーブなどの必要なタイミングでタグ付与操作を行うことができ、そのタグ情報はタグ管理部３５で管理される。例えばタグ付与のタイムスタンプが記憶される。
　タグ管理部３５は、タグを管理しておくことで、オペレータがシーンを指定したときに、タグを用いて特定の区間をシーンとし、そのシーン指定情報ＳＣを出力できる。例えばシーン指定情報ＳＣは、１つのシーンとしての開始タイミング、終了タイミングを指定する情報である。

　ＦＶレンダー１２は、シーン指定情報ＳＣや、そのシーンにおけるカメラパス指定情報ＣＰＤに応じて、実際に自由視点画像、例えば後述するＦＶ（Free View）クリップを作成する処理を行う情報処理装置として構成される。
　ＦＶレンダー１２によるＦＶレンダリングについての詳細は後述する。

　ＦＶレンダー１２で生成されたＦＶクリップ等の自由視点画像を含む実写画像は、ストレージ１６に記憶される。なお、ＦＶクリップと関連付けられて、選手やボールなどの各被写体のデプス情報やカメラパスの情報もストレージ１６に記憶される。デプス情報は、撮像装置１０からの奥行方向の距離の情報であり、つまり視点位置（撮像装置１０の位置）からの各被写体の前後関係を示す情報となる。

　またＦＶレンダー１２で自由視点画像生成のために生成された実写の３Ｄモデル、特にこの例では被写体人物である選手の実写に基づく３Ｄモデル（説明上「実写選手モデル」という）は、ストレージ１５に記憶される。

　なお図２では画像や３Ｄモデル等の各種の情報の記憶部として、ストレージ１５，１６，２３，２４，２５，２８，３２を示しているが、これらは例えばＳＳＤ（Solid State Drive）やＨＤＤ（Hard Disk Drive）等のデータ記録部と、該データ記録部についてデータの記録再生制御を行う制御部とを備える構成とされる、

　ＥＰＴＳ２００について説明する。
　収録部２１は、複数の撮像装置２０による撮像画像をそれぞれ収録し、また各撮像画像をＥＰＴＳデータ生成部２２に供給する。

　ＥＰＴＳデータ生成部２２は、各撮像画像について解析処理を行い、個別にＥＰＴＳデータ生成したうえで、全ての個別のＥＰＴＳデータを統合して、全体としてのＥＰＴＳデータを生成する。ＥＰＴＳデータとは、例えば各フレームタイミングでの選手やボールの位置、選手等の姿勢、ボールの回転数や回転方向の情報などを含む。
　またＥＰＴＳデータ生成部２２は、撮像画像だけでなく、センサ２９により得られる情報、例えばボールに埋め込んだ加速度センサや、選手のユニフォームに付けたＧＰＳセンサからの情報を使ってＥＰＴＳデータを生成してもよい。
　ＥＰＴＳデータ生成部２２は、試合全体のＥＰＴＳデータとして、例えば試合に出場している全選手の各時点の位置、姿勢や、各時点のボールの位置や状況などを判定できる情報を生成することができる。

　ＥＰＴＳデータ生成部２２が生成したＥＰＴＳデータはストレージ２３に記憶され、参照できるようにされる。
　例えば３Ｄレンダー２７は、ＥＰＴＳデータを参照して、ＣＧによる試合中の画像を生成することができる。
　またＦＶレンダー１２がＦＶレンダリングを行う際に、ＥＰＴＳデータを参照することで、選手等の各時点の位置や姿勢などをより正確に認識できるため、より精度の高い自由視点画像を生成できる。

　３Ｄレンダー２７は、３Ｄモデルを用いてＣＧによる３Ｄ画像を生成するレンダリングを行う。
　３Ｄレンダー２７が用いる３Ｄモデルとして、ストレージ２４に各選手の３Ｄモデル（説明上「ＣＧ選手モデル」という）が記憶されており、またストレージ２５に背景の３Ｄモデル（説明上「ＣＧ背景モデル」という）が記憶されている。
　ＣＧ選手モデルやＣＧ背景モデルは、例えば収録する試合に先立って、予め作成されてストレージ２４，２５に記憶されていればよい。

　３Ｄレンダー２７は、このＣＧ選手モデルやＣＧ背景モデルを用い、かつＥＰＴＳデータを参照して各選手の位置や姿勢の情報を得ることで、ＣＧによる３Ｄ画像として、試合中の選手やボール等を表した画像を生成することができる。
　例えばＣＧによる動画としてのクリップを生成する。ＣＧにより生成するクリップであるため、撮像装置１０の配置に制限されない自由視点画像を含むクリップを生成することもできる。
　つまり３Ｄレンダー２７は、ＥＰＴＳデータを用いてＣＧ画像による試合再現動画としてのクリップや、自由視点映像を含むＣＧによるＦＶクリップを生成することができる。

　なお３Ｄレンダー２７は、ストレージ１５に記憶された実写選手モデルを用いて３Ｄ画像を生成することもできる。例えば３Ｄレンダー２７は、ある選手についての実写選手モデルが生成されたら、それまでＣＧ選手モデルを用いて生成していたその選手の画像を、実写選手モデルを用いて生成する画像に切り替えることができる。

　３Ｄレンダー２７によって生成されたクリップ等の３Ｄ画像は、ストレージ２８に記憶される。またクリップに関連付けられて、デプス情報やカメラパス情報も記憶される。カメラパス情報は、ＣＧによるクリップを作成する際の仮想的な視点位置の情報となる。

　図における３Ｄ表示部３４は、３Ｄ表示が可能なディスプレイ装置を示している。３Ｄ表示部３４が存在する場合は、ストレージ２８に記憶された３Ｄ画像を３Ｄ表示部３４に供給することで、３Ｄ映像の表示を行うことができる。

　一方、配信や放送として２Ｄ画像を出力することを考える場合、２Ｄレンダー３１が設けられる。２Ｄレンダー３１は、ストレージ１６から実写画像、例えばＦＶクリップを入力し、またストレージ２８からの３Ｄ画像、例えばＣＧによる試合再現クリップやＣＧによるＦＶクリップを入力することができる。

　そして２Ｄレンダー３１は、入力した自由視点画像を含む実写画像や３Ｄ画像を選択したり合成したりして、配信や放送のための２Ｄ画像を生成する。つまり図１の出力画像生成部６としての処理を実行する。

　また２Ｄレンダー３１は、単に実写画像と３Ｄ画像の選択や合成のみではなく、ＥＰＴＳデータに基づいて付加的な画像を合成したり、画像エフェクトを施したりすることができる。
　２Ｄレンダー３１は、ストレージ１６からＦＶクリップとともにデプス情報やカメラパス情報も読み出して、ＦＶクリップに対する画像処理時の参照値とする。
　また２Ｄレンダー３１は、ストレージ２８からＣＧによるクリップとともにデプス情報やカメラパス情報も読み出して、ＣＧによるクリップに対する画像処理時の参照値とする。

　２Ｄレンダー３１がＥＰＴＳデータを参照するためには、ストレージ２３に記憶されたＥＰＴＳデータが座標変換部２６を介して２Ｄレンダー３１に供給される。
　座標変換部２６は３Ｄ空間内の情報であるＥＰＴＳデータを、２次元平面座標上の値に変換する。２Ｄレンダー３１は二次元画像を生成するものであるが、二次元画像は、三次元空間を或る視点位置から見た平面に落とし込んだものである。従って三次元空間内で示されたＥＰＴＳデータを或る視点位置からの二次元情報に変換する必要がある。このため座標変換部２６にはカメラパス指定情報ＣＰＤが供給され、カメラパスによって規定される視点位置に基づいて座標変換が行われるようにしている。

　そして座標変換されたＥＰＴＳデータを用いることで、２Ｄレンダー３１は２Ｄ画像上で、ＥＰＴＳデータで特定される位置に付加的な画像を重畳したり、画像エフェクトを施したりすることができる。

　例えば本例ではオペレータが、画像エフェクトや付加的な画像の合成を指示する操作を行うことができるようにする。この操作に応じて２Ｄレンダー３１にエフェクト指定情報ＥＦが入力される。２Ｄレンダー３１はこれに従って、２Ｄ画像平面においてＥＰＴＳデータで判定される所定位置に画像エフェクト処理を施したり、付加的な画像の合成処理を行ったりすることができる。
　なお、エフェクト指定情報ＥＦが３Ｄレンダー２７に供給され、３Ｄレンダー２７によって３Ｄ画像生成の際に画像エフェクトや付加的な画像の合成が行われるようにしてもよい。

　以上のように２Ｄレンダー３１で実写画像、３Ｄ画像の選択、合成、さらには付加的な画像の合成などの処理を経て生成された２Ｄ画像はストレージ３２に記憶される。そしてストレージ３２から読み出されて２Ｄ表示部３３に供給され、２Ｄ画像として表示される。

　なお２Ｄレンダー３１としての以上のような処理機能は、３Ｄレンダー２７内で実行されるようにしてもよいし、ＦＶレンダー１２内で実行されるようにしてもよい。

　図４は、図２と同じくＥＰＴＳとボリューメトリックシステムを有するシステム例であるが、図２におけるＥＰＴＳ２００とボリューメトリックシステム１００を統合した統合システム１５０を有する例としている。
　なお図２と同一部分は同一符号を付し説明を省略する。

　この図４の例は、撮像装置１０、２０による撮像画像が収録部１１によって収録され、ＥＰＴＳデータ生成部２２に供給される。
　図では撮像装置１０、２０を区別した例を示しているが、これに限らず、１つの撮像装置の撮像画像が自由視点画像生成のためとＥＰＴＳデータ生成のための両方に用いられてもよい。

　ＥＰＴＳデータ生成部２２は、ＥＰＴＳデータ生成処理を行うが、この場合ＦＶレンダー１２としての機能も備える。つまりこの例のＥＰＴＳデータ生成部２２としての情報処理装置は、ＦＶレンダー１２としての処理も実行する。

　ＥＰＴＳデータ生成部２２が生成したＥＰＴＳデータはストレージ２３に記憶され、３Ｄレンダー２７が参照できるようにされる。
　ＦＶレンダー１２で生成された自由視点画像を含む実写画像は、ストレージ１６に記憶される。またＦＶレンダー１２で生成された実写選手モデルは、ストレージ１５に記憶され、３Ｄレンダー２７が参照できるようにされる。

　他の構成は図２と同様である。
　この図４の構成により、図２の構成より効率的なハードウエア構成を実現できる。

　以上の図２又は図４の構成において用いられる情報処理装置７０の構成を説明する。例えばＦＶレンダー１２、ＥＰＴＳデータ生成部２２、３Ｄレンダー２７、２Ｄレンダー３１等は、以下の図５に示す情報処理装置７０により実現できる。

　また情報処理装置７０は、例えば専用のワークステーションや、汎用のパーソナルコンピュータ、モバイル端末装置等として構成することができる。

　図５に示す情報処理装置７０のＣＰＵ７１は、ＲＯＭ７２や例えばＥＥＰ－ＲＯＭ（Electrically Erasable Programmable Read-Only Memory）などの不揮発性メモリ部７４に記憶されているプログラム、または記憶部７９からＲＡＭ７３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ７３にはまた、ＣＰＵ７１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　画像処理部８５は各種の画像処理を行うプロセッサとして構成される。例えば３Ｄモデル生成処理、ＦＶレンダリング、３Ｄレンダリング、２Ｄレンダリング、ＤＢ（Data Base）処理、画像エフェクト処理、画像解析処理、ＥＰＴＳデータ生成処理などのいずれかを行うことができるプロセッサとされる。

　この画像処理部８５は例えば、ＣＰＵ７１とは別体のＣＰＵ、ＧＰＵ（Graphics Processing Unit）、ＧＰＧＰＵ（General-purpose computing on graphics processing units）、ＡＩ（artificial intelligence）プロセッサ等により実現できる。
　なお画像処理部８５はＣＰＵ７１内の機能として設けられてもよい。

　ＣＰＵ７１、ＲＯＭ７２、ＲＡＭ７３、不揮発性メモリ部７４、画像処理部８５は、バス８３を介して相互に接続されている。このバス８３にはまた、入出力インタフェース７５も接続されている。

　入出力インタフェース７５には、操作子や操作デバイスよりなる入力部７６が接続される。
　例えば入力部７６としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
　入力部７６によりユーザの操作が検知され、入力された操作に応じた信号はＣＰＵ７１によって解釈される。

　また入出力インタフェース７５には、ＬＣＤ（Liquid Crystal Display）或いは有機ＥＬ（Electro-Luminescence）パネルなどよりなる表示部７７や、スピーカなどよりなる音声出力部７８が一体又は別体として接続される。

　表示部７７はユーザインタフェースとして各種表示を行う。表示部７７は例えば情報処理装置７０の筐体に設けられるディスプレイデバイスや、情報処理装置７０に接続される別体のディスプレイデバイス等により構成される。
　表示部７７は、ＣＰＵ７１の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部７７はＣＰＵ７１の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちＧＵＩ（Graphical User Interface）としての表示を行う。

　例えば実施の形態の画像制作システム３００，３０１のオペレータ等は、表示部７７や入力部７６により、画像の確認や、各種の操作を行うことができる。

　入出力インタフェース７５には、ハードディスクや固体メモリなどより構成される記憶部７９や、モデムなどより構成される通信部８０が接続される場合もある。
　通信部８０は、インターネット等の伝送路を介しての通信処理や、各種機器との有線／無線通信、バス通信などによる通信を行う。

　入出力インタフェース７５にはまた、必要に応じてドライブ８２が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体８１が適宜装着される。
　ドライブ８２により、リムーバブル記録媒体８１からは画像ファイル等のデータファイルや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータファイルは記憶部７９に記憶されたり、データファイルに含まれる画像や音声が表示部７７や音声出力部７８で出力されたりする。またリムーバブル記録媒体８１から読み出されたコンピュータプログラム等は必要に応じて記憶部７９にインストールされる。

　この情報処理装置７０では、ソフトウエアを、通信部８０によるネットワーク通信やリムーバブル記録媒体８１を介してインストールすることができる。或いは当該ソフトウエアは予めＲＯＭ７２や記憶部７９等に記憶されていてもよい。

　なお図２，図４に示したストレージ１５，１６，２３，２４，２５，２８，３２は、情報処理装置７０の記憶部７９により実現してもよいし、情報処理装置７０とは別体の記憶装置により実現してもよい。

＜３．自由視点画像＞
　ＦＶレンダー１２で生成される自由視点画像について説明する。
　まず図６Ａ、図６Ｂを参照して自由視点画像の視点について述べておく。
　図６Ａでは、三次元空間上に設定した所要の視点から被写体を捉えた自由視点画像のイメージを示している。この場合の自由視点画像では、被写体ＨＳ１が略正面視され、被写体ＨＳ２が略背面視されている。
　図６Ｂでは、視点の位置を図６Ａの矢印Ｃ方向に変化させ、被写体ＨＳ１を略背面視する視点が設定された場合の自由視点画像のイメージを示している。この図６Ｂの自由視点画像では、被写体ＨＳ２が略正面視され、また図６Ａでは映し出されていなかった被写体ＨＳ３やバスケットゴールが映し出されている。

　例えば図６Ａの状態から、矢印Ｃの方向に徐々に視点を移動させ、図６Ｂの状態に至るような１秒から２秒程度の自由視点画像（ＦＶクリップ）として生成される。もちろん自由視点画像としてのＦＶクリップの時間長や、視点移動の軌跡は多様に考えられる。

　自由視点画像としてのＦＶクリップを含む出力クリップについて説明する。
　図７は、出力クリップの一例として、前クリップ、ＦＶクリップ、後クリップを連結して構成されている状態を示している。

　例えば前クリップは、複数の撮像装置１０のうちの或る１つの撮像装置１０によるタイムコードＴｃ１からＴｃ２の区間の実際の動画である。
　また後クリップは、例えば他の撮像装置１０におけるタイムコードＴｃ５からＴｃ６の区間の実際の動画である。
　前クリップの画像は、ＦＶクリップによる視点移動開始時点の撮像装置１０の画像データで、後クリップの画像は、ＦＶクリップによる視点移動終了時点の撮像装置１０の画像データであることが通常想定される。

　そしてこの例では、前クリップは、時間長ｔ１の動画、ＦＶクリップは時間長ｔ２の自由視点画像、後クリップは時間長ｔ３の動画としている。出力クリップ全体の再生時間長はｔ１＋ｔ２＋ｔ３となる。例えば５秒間の出力クリップとして、１．５秒の動画、２秒の自由視点画像、１．５秒の動画、などというような構成が考えられる。

　ここで、ＦＶクリップについては、タイムコードＴｃ３からＴｃ４の区間として示しているが、これは実際の動画のフレーム数に相当することもあれば、相当しないこともある。即ちＦＶクリップとしては、動画の時刻を止めた状態で視点を移動させる場合（Ｔｃ３＝Ｔｃ４となる場合）と、動画の時刻を止めずに視点を移動させる場合（Ｔｃ３≠Ｔｃ４となる場合）があるためである。
説明上、動画の時刻を止めた状態で視点を移動させる場合（「タイムフリーズ」と呼ばれる）のＦＶクリップを「静止画ＦＶクリップ」、動画の時刻を止めずに視点を移動させる場合（「フリーラン」と呼ばれる）のＦＶクリップを「動画ＦＶクリップ」と呼ぶこととする。

　静止画ＦＶクリップを動画のフレームを基準にして示すと図８のようになる。この例の場合、前クリップのタイムコードＴｃ１、Ｔｃ２は、フレームＦ１、Ｆ８１のタイムコードとなり、続くフレームＦ８２のタイムコードが、図７のタイムコードＴｃ３及びタイムコードＴｃ４となる。そして後クリップのタイムコードＴｃ５、Ｔｃ６は、フレームＦ８３、Ｆ１６６のタイムコードとなる。
　つまり、フレームＦ８２の１フレームの静止画に対して、視点が移動するような自由視点画像を生成する場合である。

　一方、動画ＦＶクリップについては図９のようになる。この例の場合、前クリップのタイムコードＴｃ１、Ｔｃ２は、フレームＦ１、Ｆ１０１のタイムコードとなり、フレームＦ１０２、Ｆ３０２のタイムコードが、図７のタイムコードＴｃ３、Ｔｃ４となる。そして後クリップのタイムコードＴｃ５、Ｔｃ６は、フレームＦ３０３、Ｆ５０３のタイムコードとなる。
　つまり、フレームＦ１０２からフレームＦ３０２までの複数フレームの区間の動画に対して、視点が移動するような自由視点画像を生成する場合である。

　図８の静止画ＦＶクリップの例で、出力クリップの画像内容の例を図１０に示す。
　図１０において、前クリップはフレームＦ１からフレームＦ８１までの実際の動画である。ＦＶクリップではフレームＦ８２の場面において視点を移動させた仮想的な画像となる。後クリップはフレームＦ８３からフレームＦ１６６までの実際の動画である。
　例えばこのようにＦＶクリップを含む出力クリップが生成され、放送する画像として使用される。

　図１１を参照して、ＦＶレンダー１２で行われる自由視点画像生成処理について説明する。
　例えばＦＶレンダー１２は、自由視点画像の生成として、ＶＤＰ（View Dependent Player）法による生成とＶＩＤＰ（View InDependent Player）法による生成とを行うことが可能とされる。

　ＶＤＰ法は、複数視点の撮像画像データから視体積交差法（Visual Hull）により生成した３Ｄデータに対し、視点に応じたテクスチャ画像を貼り付けて自由視点画像を生成する手法である。ＶＤＰ法では、テクスチャ画像として、視点ごとの画像を用意しておくことを要する。

　ＶＩＤＰ法は、複数視点の撮像画像データから被写体の３Ｄモデルをポリゴンメッシュデータとして生成すると共に、ＵＶマップテクスチャとしてのテクスチャ画像を生成し、これらポリゴンメッシュデータとＵＶマップテクスチャとに基づいてＣＧ（Computer Graphics）による自由視点画像を生成する手法である。ここで、ＵＶマップテクスチャとは、ポリゴンメッシュによる３ＤモデルをＵＶ展開した２次元データであって、ポリゴン（例えば三角形）ごとの色情報を示すデータを意味する。

　図１１において示すようにＦＶレンダー１２は、先ず、各視点に配置された撮像装置１０ごとの撮像画像データを入力する。
　ここで、自由視点画像生成に用いる撮像装置１０としては、３Ｄデータの生成に用いる撮像画像を得るための撮像装置１０（以下「被写体センシング用カメラ」と表記する）と、自由視点画像生成の際に３Ｄデータに貼り付けられるテクスチャ画像を得るための撮像装置１０（以下「テクスチャ用カメラ」と表記する）とが存在し得る。
　例えば、自由視点画像生成に用いる全ての撮像装置１０のうち、一部を被写体センシング用カメラ、他をテクスチャ用カメラとすることが考えられる。或いは、被写体センシング用カメラとテクスチャ用カメラは必ずしも別の撮像装置１０とされる必要はなく、１台の撮像装置１０を被写体センシング用カメラ、テクスチャ用カメラの両用とすることも可能である。さらには、全ての撮像装置１０をそのような両用のカメラとすることも可能である。

　３Ｄデータの生成にあたっては、被写体センシング用カメラとしての各撮像装置１０により得られた撮像画像データ（以下「センシング用撮像画像データ」と表記する）を用いて、前景抽出処理Ｐ１が行われ、シルエット画像データの生成が行われる。

　図１２は、シルエット画像データについての説明図である。
　図１１における前景抽出処理Ｐ１では、図１２の上段に例示するようなセンシング用撮像画像データに基づき、図１２の中段に例示するような背景画像を被写体センシング用カメラごとに生成する。自由視点画像の生成において、対象とする被写体は例えば選手等の動く被写体であるため、例えばフレーム間の差分抽出等により背景画像を生成可能である。この背景画像と、センシング用撮像画像データとの差分をとることで、対象とする被写体の画像部分が抽出された前景画像を被写体センシング用カメラごとに得ることができる。
　そして、これらの前景画像について、例えば被写体の画像領域を「１」、それ以外の領域を「０」とした画像データを生成することで、図１２の下段に例示するような、被写体のシルエットを示すシルエット画像データを被写体センシング用カメラの視点ごとに得ることができる。

　図１１において、３Ｄデータ生成処理Ｐ２では、これら視点ごとのシルエット画像データと、各カメラのパラメータデータとを用いて、視体積交差法により被写体の３Ｄデータが生成される。パラメータデータは、カメラ（被写体センシング用カメラ）の外部パラメータや内部パラメータ、焦点距離の情報を含むデータである。
　図１３は、図１２に例示した被写体に対応する３Ｄデータのイメージを例示している。３Ｄデータは、三次元空間上における被写体の領域を示すデータと換言できる。

　ここで、３Ｄデータは、例えば選手一人一人等、対象被写体ごとに個別に生成されるものではない。対象被写体がカメラの視野内に複数捉えられており、シルエット画像データがそれら複数の被写体のシルエットを示すデータとされる場合には、該シルエット画像データに従って、それら複数の被写体の三次元像を示す一つの３Ｄデータが生成されることになる。

　図１１において、３Ｄデータは、ＦＶ生成処理Ｐ５としてのＶＤＰ法による自由視点画像生成に用いられる。
　具体的に、ＦＶ生成処理Ｐ５では、３Ｄデータと、テクスチャ用カメラの撮像画像データと、テクスチャ用カメラのパラメータデータとに基づいてＶＤＰ法による自由視点画像生成を行う。

　また、３Ｄデータは、前述したＶＩＤＰ法による自由視点画像生成を可能とするための３Ｄモデル生成にも用いられる。
　具体的には、図中の３Ｄモデル生成処理Ｐ３により、３Ｄデータから被写体の３Ｄモデルとしてのポリゴンメッシュデータが生成される。本例では、ポリゴンメッシュデータは、被写体ごとに生成される。
　参考として、図１４に、或る被写体についてのポリゴンメッシュデータのイメージを例示しておく。

　また、ＶＩＤＰ法による自由視点画像生成には、前述したＵＶマップテクスチャが用いられる。このＵＶマップテクスチャは、図１１に示すテクスチャ生成処理Ｐ４により、テクスチャ用カメラの撮像画像データに基づき生成される。
　本例におけるテクスチャ生成処理Ｐ４では、３Ｄモデル生成処理Ｐ３が被写体ごとにポリゴンメッシュデータを生成することに対応して、ＵＶマップテクスチャを被写体ごとに生成する。

　ＦＶ生成処理Ｐ６では、３Ｄモデル生成処理Ｐ３により得られた被写体の３Ｄモデル（ポリゴンメッシュデータ）と、テクスチャ生成処理Ｐ４により得られたＵＶマップテクスチャとに基づき、ＶＩＤＰ法による自由視点画像生成を行う。

　ここで、ＶＤＰ法は、視点ごとに用意したテクスチャ画像を貼り付ける手法であるため、貼り付け対象とする３Ｄデータが粗い場合であっても自由視点画像の画質劣化を抑制できるメリットがある。
　これに対しＶＩＤＰ法は、テクスチャ画像を視点ごとに用意しておく必要がないというメリットがある一方で、ポリゴンメッシュが粗い場合には、その粗さが自由視点画像の画質にそのまま反映されるものとなる。

＜４．制作される画像例＞
　続いて実施の形態の画像制作システムにより制作される画像の例を説明する。以下画像Ｇ１から画像Ｇ１０までの例を挙げる。なお各画像Ｇ１から画像Ｇ１０までの各画像の説明（図１５から図２３）においては、ＦＶレンダー１２により生成される実写に基づく自由視点画像であるＦＶクリップを含む画像について「実写ＦＶ」、３Ｄレンダー２７により生成されるＣＧによる自由視点画像であるＦＶクリップを含む画像を「ＣＧＦＶ」と表記し、これらの「実写ＦＶ」「ＣＧＦＶ」を用いる例で説明する。但し、画像Ｇ１から画像Ｇ１０で説明する特徴を有する各画像は、必ずしも自由視点画像を含まなくてもよい。つまり「実写ＦＶ」に代えて通常の実写でも適用できる場合もある。

　また以下でいう「実写ＦＶ」は、ＦＶクリップのみのクリップでもよいし、図７のように前クリップと実写ＦＶと後クリップによる出力クリップであってもよい。つまり「実写ＦＶ」はＦＶクリップを含むクリップと考えればよい。

　またＣＧによる３Ｄ画像は、そもそも実際の撮像装置を必要とせずカメラ視点は仮想的な位置である。従ってＥＰＴＳデータを用いて再現したＣＧクリップは全て自由視点画像ともいえる。そのため、上述のＦＶクリップのように動画の途中で視点位置を変化させるクリップであっても、視点を固定した動画のクリップであっても、３Ｄレンダー２７で生成される画像は「ＣＧＦＶ」に含まれると考えれば良い。

　図１５の画像Ｇ１はＥＰＴＳデータと実写ＦＶを用いた画像例であり、ＦＶレンダー１２が生成した実写ＦＶに対して、ＥＰＴＳデータに基づいた画像エフェクトを加えた画像を生成する例である。
　例えば２Ｄレンダー３１はストレージ１６から所定のシーンの実写ＦＶを入力し、画像エフェクトを施す。この場合に、２Ｄレンダー３１はＥＰＴＳデータからボールの位置や軌跡を判定し、その位置や軌跡上に炎の画像を合成する処理を行うことで、シュートするボールが炎を上げているような画像とする。

　なお、ＥＰＴＳデータによる三次元空間での位置情報は、座標変換部２６で、当該シーンのカメラパスに応じた視点による二次元平面での位置情報に変換されることで、２Ｄレンダー３１は、適切にボールの位置や軌跡に合わせて効果画像を合成できる。

　図１６の画像Ｇ２は実写ＦＶを用いた画像例であり、通常のカメラ配置ではあり得ないアングルから画像を示している。
　この画像Ｇ２としては、自由視点画像による、撮影できないコート内でのローアングルからの画像とする。２Ｄレンダー３１は、ストレージ１６から、このような視点位置を含むカメラパスによる実写ＦＶを入力することで画像Ｇ２を出力できる。

　同じく図１６のような画像は、画像Ｇ３として、ＥＰＴＳデータとＣＧＦＶを用いた画像としても実現できる。すなわちＥＰＴＳデータを用いて、撮像装置１０が配置されていない視点位置から見た状態の画像を生成する例である。
　３Ｄレンダー２７では、ＣＧＦＶとして、選手等のＣＧ画像とＥＰＴＳデータにより、実写ＦＶと同様に、通常は撮影できないコート内でのローアングルからの画像などを生成することができる。そのため、２Ｄレンダー３１は、このような３Ｄ画像をストレージ２８から読み出して、２Ｄレンダリングを行い、２Ｄ画像として出力することができる。

　図１７の画像Ｇ４はＥＰＴＳデータとＣＧＦＶを用いた例である。これはＥＰＴＳデータに基づいて複数時点の３Ｄ画像を合成した画像を生成する例である。
　例えばバスケットボールの１試合における全ての３ポイントシュートの、シュート場所やボールの軌跡を、残像で表現した画像を示している。
　例えば２Ｄレンダー３１は、各３ポイントシュートのシーンのＣＧＦＶをストレージ１６から読み出して合成し、またＥＰＴＳデータからボールの軌跡を判定するなどして画像処理を加えることで図示のような２Ｄ画像を生成できる。

　図１８の画像Ｇ５はＥＰＴＳデータを用いた画像処理により生成する画像例である。すなわち所定期間内のＥＰＴＳデータに基づいて、被写体の動線を提示する画像を生成する例ある。
　例えばバスケットボールのコートの上から俯瞰アングルで、試合中や注目プレイ中などの所定期間におけるボールの軌跡をグラフィックとして表現する画像としている。
　例えば２Ｄレンダー３１や３Ｄレンダー２７によっては、ＥＰＴＳデータを用いることでこのような画像を生成できる。

　図１９の画像Ｇ６、及び図２０の画像Ｇ７は、ＥＰＴＳデータと実写ＦＶを用いた画像例であり、ＦＶレンダー１２が生成した実写ＦＶに対して、ＥＰＴＳデータに基づいた被写体の動線を提示する画像を合成した画像を生成する例である。
　図１９の画像Ｇ６は、選手の真横の視点により、ボールの横移動や高さ方向を含めた軌跡をグラフィックとして表現するものである。
　図２０の画像Ｇ７は、縦長の画面での表現として、例えば選手の後方からの視点でボールの高さ方向の軌跡をグラフィックとして表現するものである。
　これらの画像Ｇ６，Ｇ７は、例えば２Ｄレンダー３１がストレージ１６から必要な実写ＦＶを読み出し、ＥＰＴＳデータに基づいてボール軌跡の描画処理を行って生成することができる。

　図２１の画像Ｇ８は、ＥＰＴＳデータと実写ＦＶを用いた画像例であり、これはＦＶレンダー１２が生成した実写ＦＶに対して、ＥＰＴＳデータに基づいた値を提示する画像を合成した画像を生成する例である。例えば選手が行った高度なプレイを数値で表す画像となる。
　画像Ｇ８は、ボールが一番高い位置にあるときの高さを示す値を表示したものである。
　また、ＥＰＴＳデータと実写ＦＶを用いた画像例として、選手がシュートのためにジャンプしたときの高さを、目盛りや数値を重畳して表した画像もある。
　このような画像Ｇ８は、例えば２Ｄレンダー３１がストレージ１６から必要な実写ＦＶを読み出し、ＥＰＴＳデータに基づいて文字、数値、及び付随する線や目盛りなどの描画処理を行って生成することができる。

　また、ＥＰＴＳデータと実写ＦＶ又はＣＧＦＶを用いた画像例としては、ＦＶレンダー１２が生成した実写ＦＶ、又は３Ｄレンダー２７が生成したＣＧＦＶに対して、ＥＰＴＳデータに基づいた画像を合成した画像Ｇ９（不図示）を生成する例がある。
　例えばコート上の同じチームの５人の選手の場所を、動的に線でつなぎ、それによってできるゾーンを色付けし、２４秒のショットクロックの進行に沿って変色等させる。これにより時間の進行に伴うチームの各選手及びボールの動きを表現する。
　このような画像Ｇ９は、例えば２Ｄレンダー３１がストレージ１６又はストレージ２８から必要なクリップを読み出し、ＥＰＴＳデータに基づいてラインの描画や色付けの処理を行って生成することができる。

　図２２に画像Ｇ１０－１、図２３に画像Ｇ１０－２を示す。これらを画像Ｇ１０の例とする。画像Ｇ１０は、ＥＰＴＳデータと実写ＦＶとＣＧＦＶを用いた画像例である。すなわちＦＶレンダー１２が生成した実写ＦＶと、ＥＰＴＳデータに基づいて３Ｄレンダー２７が生成したＣＧＦＶとを合成した画像を生成する例である。
　画像Ｇ１０－１は、通常は配置できないコートの上方からの視点の画像として、また画像Ｇ１０－２も通常は配置できないコート内の低い位置からの視点の画像として、各選手を映した画像である。この場合に、例えば実写ＦＶとしてのＦＶクリップにおいて、一部の選手をＣＧ、一部の選手を実写により表現する。またこれらの画像Ｇ１０－１及び画像Ｇ１０－２では、ボールの軌跡を表現する付加的な画像も合成している。
　このような画像Ｇ１０は、例えば２Ｄレンダー３１がストレージ１６又はストレージ２８から必要な実写ＦＶ及びＣＧＦＶを読み出し、ＥＰＴＳデータに基づいて合成を行うことなどで生成できる。

　なお以上の画像Ｇ１から画像Ｇ１０は、２Ｄ画像として出力するものとして、例えば２Ｄレンダー３１の処理により生成されるとする例を述べたが、以上に述べた２Ｄレンダー３１の処理を、ＦＶレンダー１２や３Ｄレンダー２７で行うようにすることもできる。
　また画像Ｇ３、画像Ｇ４、画像Ｇ９、画像Ｇ１０として、ＣＧＦＶを用いる場合は、２Ｄレンダリングを行わずに、３Ｄ画像として出力するようにすることも考えられる。

＜５．画像制作処理例＞
　以上の画像Ｇ１から画像Ｇ１０を制作する場合の処理例を図２４から図２８で説明する。以下に述べる各処理例は、図２のシステムにおけるＥＰＴＳデータ生成部２２、２Ｄレンダー３１、ＦＶレンダー１２、３Ｄレンダー２７のいずれかの処理、或いは、これらが協働して行う処理として考えることができる。そのため各処理は、ＥＰＴＳデータ生成部２２、２Ｄレンダー３１、ＦＶレンダー１２、又は３Ｄレンダー２７として構成される図５の情報処理装置７０の画像処理部８５の処理として説明する。つまり図２４から図２８の処理例は、１つの情報処理装置７０で実行される処理例として考えても良いし、複数の情報処理装置７０の連携により実行される処理例と考えることもできる。
　そして以下では、図２，図４に示したストレージ１５，１６，２３，２４，２５，２８，３２にも言及することがあるが、画像処理部８５が情報を読み出すこれらのストレージとは、情報処理装置７０の記憶部７９や、情報処理装置７０とは別体の記憶装置と考えれば良い。

　なお図２４から図２８の処理例は、図１でいえば、推定情報生成部４、自由視点画像生成部３、三次元画像生成部５、出力画像生成部６として機能する１又は複数の情報処理装置７０の画像処理部８５の処理と考えることができる。

　また各処理はバスケットボールやサッカー等の競技・種目の試合の開始後の期間の処理例として説明する。

　図２４は、画像Ｇ１，画像Ｇ６，画像Ｇ７，画像Ｇ８，画像Ｇ９のような内容を含む画像コンテンツ制作のための処理例を示している。

　ステップＳ１０１で画像処理部８５は、選手やボールの位置、姿勢等の推定情報を得る。つまり撮像装置２０の撮像画像からＥＰＴＳデータを生成し、ストレージ２３に格納していく。

　ステップＳ１０２で画像処理部８５は、試合における１プレイが継続中であるか否かを判定する。ここでいう１プレイは競技・種目の種別によって決められればよい。例えばバスケットボールやサッカーでいえば、ボールがコート外に出ることによるブレイク、得点によるブレイク、反則によるブレイクなど、ゲームが一時的に途切れることや、競技時間の終了（１セットの終了、インターバル、ハーフタイム）などを判定し、これらにより１プレイが終了すると判定すればよい。
　また必ずしも試合のブレイクタイミングを１プレイの区切りとしなくてもよい。例えばシュートの直前からシュート後までの期間などを、そのまま試合が継続していたとしても、１プレイとして判定してもよい。
　１プレイの継続が途切れたことの判定は、画像処理部８５が画像解析等により自動的に判定してもよいし、画像処理部８５がオペレータ入力等に応じて判定してもよい。

　ステップＳ１０３で画像処理部８５は、処理の終了を判定する。例えば試合の終了を処理の終了タイミングとするのであれば、画像処理部８５は試合終了を自動的に、或いはオペレータ入力等に応じて、判定することになる。

　１プレイ継続中は、画像処理部８５は以上のステップＳ１０１，Ｓ１０２，Ｓ１０３を繰り返す。つまりステップＳ１０１で各時点のＥＰＴＳデータを取得していきながら、１プレイの切れ目や試合終了等を監視している。

　１プレイが途切れたタイミングでは、画像処理部８５はステップＳ１０４で、画像コンテンツ生成、つまり画像Ｇ１，画像Ｇ６，画像Ｇ７，画像Ｇ８，画像Ｇ９で例示したようなクリップを生成する処理を実行するか否かを判定する。例えばオペレータに対して、１プレイが終了する毎に、画像コンテンツ生成を行うか否かを問い、その回答入力を検知して判定することが考えられる。或いは画像処理部８５は、それまでの１プレイの撮像画像の内容を解析し、特定のシーンと判定される場合にコンテンツ生成を行うなどというように、自動的に判定してもよい。

　画像コンテンツ生成を実行しないのであれば画像処理部８５はステップＳ１０１に戻る。
　画像コンテンツ生成を実行すると判定した場合は、画像処理部８５はステップＳ１１０に進み、今回の１プレイ分のＥＰＴＳデータを取得する。例えばストレージ２３から１プレイの期間のＥＰＴＳデータを読み出す。

　ステップＳ１１１で画像処理部８５は生成する画像コンテンツにおいてフィーチュアする選手を決定する処理を行う。例えばＦＶクリップとして自由視点で表現する選手や、画像効果を与える選手を決定する。つまり生成する画像において主たる被写体となる選手を決定する処理である。
　この処理は、オペレータ入力に従って行ってもよいし、自動的に行っても良い。オペレータが特定の選手を予め指定していた場合や、今回の１プレイについて特定の選手を指定する操作を行った場合は、画像処理部８５は、その指定された選手を主たる被写体として決定する。また１プレイの画像内容から例えばシュートとした選手など、特定のプレイをした選手を自動的に判定し、その選手を主たる被写体として決定してもよい。また画像処理部８５は、今回の１プレイにおいて撮像された各選手、或いは主だった動きをした選手を複数提示して、オペレータが選択するようにしてもよい。

　ステップＳ３１２で画像処理部８５は、演出パターンを選択する。これは例えば画像Ｇ１，画像Ｇ６，画像Ｇ７，画像Ｇ８，画像Ｇ９のいずれのタイプの演出かを選択する処理である。
　例えば、画像Ｇ１のようなエフェクト付与を行うか、画像Ｇ６、画像Ｇ７のように被写体の動線を提示する画像の合成を行うか、画像Ｇ８のようにＥＰＴＳデータに基づいた数値等を提示する画像を生成するか、画像Ｇ９のうようにクリップに対して画像を合成した画像を生成するか、を選択する。
　この処理も、オペレータ入力に従って行ってもよいし、自動的に行っても良い。オペレータが特定の演出を予め指定していた場合や、今回の１プレイについて特定の演出を指定する操作を行った場合は、画像処理部８５は、その指定により演出パターンを決定する。また画像処理部８５は、１プレイの画像内容から例えばシュートシーン、パスシーン、反則シーン、シュートの種別などに応じて演出パターンを自動的に選択することもできる。

　ステップＳ１１３で画像処理部８５は、ステップＳ１１０で取得したＥＰＴＳデータに基づき必要な画像を選択して処理対象とする。少なくともステップＳ１１１で隠れていないアングルの画像を選択する。ＥＰＴＳデータにより選手の位置を確認できるため、その選手をとらえている撮像装置１０の画像を判定できる。
　従って画像処理部８５は、選手をとらえているＦＶクリップや３Ｄ画像をストレージ１６，２８から選択して読み出して処理対象としたり、或いはこの時点で、収録部１１から必要な期間、必要なアングルの画像を選択して、ＦＶクリップを生成したりすることができる。

　ステップＳ１１４で画像処理部８５は、選択した画像に加える演出画像の処理を行う。例えばＥＰＴＳデータに基づいて演出効果のためのＣＧ画像を生成する。

　例えば画像Ｇ１，画像Ｇ６，画像Ｇ７，画像Ｇ９のような演出パターンがステップＳ１１２で選択されていた場合は、画像処理部８５はこのステップＳ１１４でＥＰＴＳデータのスムージングを行い、スムージングされたＥＰＴＳデータに基づいてＣＧ画像を生成する。
　ＥＰＴＳデータのスムージングとは、例えば選手やボールの各時点の位置情報の変化をなめらかな変化にする処理である。実際のＥＰＴＳデータによる選手やボールの位置情報は、細かい変動が多く、そのままだとスムーズな軌跡を描くことが難しいため、スムージングにより、なめらかな軌跡が把握されるようにしている。

　そして、画像Ｇ１のような演出パターンの場合は、画像処理部８５は、スムージングしたＥＰＴＳデータによりボールの軌跡を判定し、その軌跡に重畳するエフェクトとしてのＣＧ画像を生成する。
　画像Ｇ６，画像Ｇ７のような演出パターンの場合は、画像処理部８５は、スムージングしたＥＰＴＳデータによりボールの軌跡を判定し、その軌跡を表現するＣＧ画像を生成する。
　画像Ｇ９のような演出パターンの場合は、画像処理部８５は、スムージングしたＥＰＴＳデータにより各選手の軌跡を判定し、各フレームの各選手の位置に応じて、選手をつなぐラインやエリアの色などを表現するＣＧ画像を生成する。

　また例えば画像Ｇ８のような演出パターンがステップＳ１１２で選択されていた場合は、このステップＳ１１４で画像処理部８５は、ＥＰＴＳデータによって得られる値を、表示データに変換する処理を行う。つまりＥＰＴＳデータにより、表現する数値等を判定し、その数値や付加的な画像としてのＣＧ画像を生成する。

　ステップＳ１１５で画像処理部８５は、ステップＳ１１３で選択（又は生成）した画像に対して、ステップＳ１１４で生成した演出効果のＣＧ画像を重畳する処理を行う。
　これにより、画像Ｇ１，画像Ｇ６，画像Ｇ７，画像Ｇ８，画像Ｇ９で例示したような内容の画像コンテンツが生成される。
　ステップＳ１１６で画像処理部８５は、生成した画像コンテンツ生成を出力する。そしてステップＳ１０１に戻る。

　以上の処理により、画像Ｇ１，画像Ｇ６，画像Ｇ７，画像Ｇ８，画像Ｇ９のようなシーンを含む画像コンテンツを出力することができる。

　次に図２５で画像Ｇ３のような内容を含む画像コンテンツ生成のための処理例を説明する。
　なお以降、記述の処理と同一の処理については、同一のステップ番号を付し、詳細な重複説明は避ける。

　図２５の処理例では、画像処理部８５は、試合開始後、ステップＳ１０３で終了と判定するまで、ステップＳ１０１からステップＳ１２５の処理を行う。
　ステップＳ１０１で画像処理部８５は、撮像装置２０の撮像画像からＥＰＴＳデータを生成し、ストレージ２３に格納していく。

　ステップＳ１２１で画像処理部８５は、現在のフレームについてのＥＰＴＳデータとアバターを取得する。アバターとは、選手の３Ｄモデルであり、この処理例の場合は、ストレージ２４のＣＧ選手モデルを指す。

　ステップＳ１２３で画像処理部８５は、ＥＰＴＳデータに基づくアバター処理を行う。つまり現在のフレームで表現する選手の位置や姿勢をＥＰＴＳデータで判定し、ＣＧ選手モデルから各選手の３Ｄ画像を生成する。

　ステップＳ１２４で画像処理部８５は、仮想視点の画像を生成する。すなわち各選手のＣＧによる３Ｄ画像を用いて任意の視点からの画像を生成する。例えば画像Ｇ３のように、通常は撮影できないようなアングルの画像も生成可能である。

　ステップＳ１２５で画像処理部８５は、生成した仮想視点の画像コンテンツ生成を出力する。そしてステップＳ１０３で終了と判定されなければステップＳ１０１に戻る。
　従って、各種の仮想的な視点により試合を再現するような画像コンテンツを生成して出力できることになる。

　次に図２６で画像Ｇ１０のようなＥＰＴＳデータと実写ＦＶとＣＧＦＶを用いた画像コンテンツ生成のための処理例を説明する。ここでは、選手の画像を、試合開始時点ではＣＧＦＶにより生成しつつ、実写画像が得られることにより、選手の画像を実写ＦＶに置き換えていくような処理を行う例を説明する。

　画像処理部８５は、試合開始後、ステップＳ１０３で終了と判定するまで、ステップＳ１０１のＥＰＴＳデータを生成と、ステップＳ１０２の１プレイ継続判定と、ステップＳ１２１からステップＳ１２５の処理を行う。

　つまり、１プレイ継続中は、ステップＳ１２１からステップＳ１２５で、上記図２５と同様に各種の視点による試合の再現画像を生成して出力する。
　但しステップＳ１２１で画像処理部８５が取得するアバターは、図２５ではストレージ２４に格納されたＣＧ選手モデルとしたが、図２６の場合は、ストレージ１５に格納された実写選手モデルとされる場合もある。例えば試合開始の時点では、まだ実写選手モデルが作成されていないことから、全ての選手はＣＧ選手モデルを用いて３Ｄ画像が生成される。その後、１プレイが途切れたタイミングで、撮像画像から実写選手モデルが作成される場合がある。

　１プレイが途切れたタイミングでは、画像処理部８５はステップＳ１０２からステップＳ１３１に進み、画像処理部８５は、今回の１プレイの期間に、指定領域に選手が居たか否かを判定する。
　ここでいう指定領域とは、カメラ配置の都合上、なるべく多数の撮像装置１０により多様なアングルで選手の撮像画像を得られる領域である。例えば図３に示すように、カメラ配置に応じて指定領域ＤＡが設定される。例えばこの指定領域ＤＡは、各撮像装置１０を配置してキャリブレーションを行い、各撮像装置１０の視野範囲を決定した状態で設定可能である。この指定領域ＤＡは、精度の高い実写選手モデルを生成できる領域として設定される。

　このように指定領域ＤＡを設定しておき、画像処理部８５はステップＳ１３１で、選手が指定領域ＤＡ内に居たか否かを判定する。この場合、特定の選手が、指定領域ＤＡに居たか否かを判定しても良いし、特に選手の制限は設けず、指定領域ＤＡに居る選手が存在したか否かを判定してもよい。

　もし今回の１プレイの期間の画像において、指定領域ＤＡ内に選手（又は特定の選手）が居なければ、画像処理部８５はステップＳ１０１に戻る。つまりその場合は、実写選手モデルの生成を行わない。

　ステップＳ１３１で指定領域ＤＡ内に選手が居たと判定した場合は、画像処理部８５はステップＳ１３２に進み、今回の１プレイ分のＥＰＴＳデータを取得する。例えばストレージ２３から１プレイの期間のＥＰＴＳデータを読み出す。

　ステップＳ１３３で画像処理部８５は、今回の１プレイの期間中に、指定領域ＤＡに居た選手について、実写選手モデル（実写によるアバター）の生成のための条件合致のタイミングがあるか否かを判定する。
　例えば次のような条件を判定する。
・オクルージョンがない撮像画像が所定数以上である
・選手の姿勢が適切である
・激しく動いていない状態の撮像画像が得られている

　オクルージョンとは、手前にある物体が後ろにある物体を隠す状態のことである。この場合、指定領域ＤＡに居る対象の選手に対して、周囲に他の選手が居て、撮像画像の視点からみて隠されている状態となっていることをオクルージョンといっている。
　１プレイ中の或るタイミングの複数の撮像装置１０による各視点の撮像画像として、対象の選手が、オクルージョンがない状態で撮像されている画像が所定数以上あることが、その選手の高精度の実写選手モデルを生成する条件の１つとなる。

　姿勢が適切であるという条件は、例えばいわゆるＴポーズ、Ａポーズなど、３Ｄモデリングに適した姿勢、又はそれに近い姿勢が望ましいという条件である。指定領域ＤＡに居る対象の選手が、３Ｄモデリングに適したポーズであることも、高精度の実写選手モデルを生成する条件の１つとしてもよい。

　激しい動きのときの撮像画像は、モーションブラーが発生する可能性が高く、高精度の実写選手モデルの生成に適していないためである。従って激しく動いていない状態の撮像画像が得られているということを条件の１つとしてもよい。

　例えば以上のような条件を１つ又は複数設定しておき、画像処理部８５は今回の１プレイ内で条件を満たすタイミングがあるか否かを判定する。
　もし今回の１プレイの期間の画像において、条件を満たすタイミングが無い、つまり３Ｄモデリングのために適切な撮像画像が得られるタイミングが無いと判定したときは、画像処理部８５はステップＳ１０１に戻る。つまりその場合は、実写選手モデルの生成を行わない。

　条件合致のタイミングがあると判定した場合は、画像処理部８５はステップＳ１３４に進み、当該選手についてアバター生成を行う。つまり条件が合致したタイミングにおける複数の視点の撮像画像を用いて３Ｄモデリングを行い、実写選手モデルを生成する。

　ステップＳ１３５で画像処理部８５はクオリティ判定により処理を分岐する。生成した実写選手モデルについて、十分な品質といえるか否かを自動的に判定するか、又は表示部７７に表示させて、オペレータ操作に応じて十分な品質か否かを決定する。
　もし品質が不十分とされる場合は、画像処理部８５はステップＳ１０１に戻る。この場合は今回作成した実写選手モデルを破棄することになる。

　品質が十分であれば、画像処理部８５はステップＳ１３６に進みアバター更新を行う。例えば実写選手モデルをストレージ１６に記憶させ、３Ｄレンダー２７としての処理で使用できるようにする。そしてステップＳ１２１に進む。

　以上のように実写選手モデルとしてのアバターが生成された選手については、以降のステップＳ１２１からＳ１２５の処理において、ＣＧ選手モデルに代えて実写選手モデルを用いた画像が生成される。
　このため例えば制作される画像コンテンツは、試合が進むに従って、各選手が徐々にＣＧ画像から実写画像に代えられていくようなものとなる。

　ところでこの図２６の変型例として、ＣＧ選手モデルに代えて実写選手モデルを用いた画像を生成するのは、特定の選手のみとしてもよい。例えば予め１又は複数の注目する選手を特定選手として設定しておく。そして、特定選手がステップＳ１３１で指定領域ＤＡ内に居たと判定され、その特定選手についてステップＳ１３３で条件合致のタイミングがあったら、ステップＳ１３４でアバター生成を行うという処理である。これにより特定選手をフィーチュアした画像コンテンツを生成する場合に、効率的な処理が可能となる。

　また図２６のように試合中にＣＧ選手モデルに代えて実写選手モデルを用いた画像を逐次生成していくほか、例えば試合後の時点や、インターバルやハーフタイムの時点などで、実写選手モデルが生成された選手については、以降、実写選手モデルを用いた画像を生成するように設定してもよい。

　さらに、全出場選手について実写選手モデルが生成されるまでは、全選手についてＣＧ選手モデルを用い、全出場選手について実写選手モデルが生成されたことで、一斉に、以降、実写選手モデルを用いた画像を生成するようにしてもよい。

　また、図２６の変型例として、ステップＳ１２４では、さらにＥＰＴＳデータに基づく付加的な画像を重畳するようにしてもよい。例えば図２３の画像Ｇ１０－１及び画像Ｇ１０－２ではボールの軌跡を表現する付加的な画像も含まれている。ステップＳ１２４で画像処理部８５は、このような付加的な画像を合成することもできる。つまり、実写ＦＶによる選手の画像と、ＥＰＴＳデータに基づくＣＧＦＶによる選手の画像と、さらにＥＰＴＳデータに基づく付加的な画像を合成する例である。付加的な画像としては、選手やボールの軌跡を表現する画像、動線を表現する画像、文字、数字等が考えられる。

　次に図２７で画像Ｇ４のような内容を含む画像コンテンツ生成のための処理例を説明する。
　画像処理部８５は、試合開始後、ステップＳ１０３で終了と判定するまで、ステップＳ１０１，Ｓ１４０の処理を行う。
　ステップＳ１０１で画像処理部８５は、撮像装置２０の撮像画像からＥＰＴＳデータを生成し、ストレージ２３に格納していく。

　ステップＳ１４０で画像処理部８５は、試合の切れ目のタイミングであるか否かを判定する。ここでは例えばバスケットボールのクオーターの間のインターバルや、ハーフタイム、或いは試合終了のタイミングなどを試合の切れ目のタイミングと判定する。

　画像処理部８５は、撮像画像の解析、或いはオペレータの入力などにより、試合の切れ目のタイミングとなったことを判定した場合、ステップＳ１４０からステップＳ１４１に進み、画像コンテンツ生成、つまり画像Ｇ４で例示したようなクリップを生成する処理を実行するか否かを判定する。この判定は、図２４のステップＳ１０４のようにオペレータの入力又は自動処理により行うことができる。

　画像コンテンツ生成を実行しないのであれば画像処理部８５はステップＳ１０１に戻る。
　画像コンテンツ生成を実行すると判定した場合は、画像処理部８５はステップＳ１４２に進み、必要な期間のＥＰＴＳデータを取得する。例えば第１クオーター終了時点のインターバルのタイミングであれば、第１クオーターの期間のＥＰＴＳデータをストレージ２３から読み出す。

　ステップＳ１４３で画像処理部８５は、対象シーンのＥＰＴＳデータに基づいてＣＧ画像を生成する。例えば期間内のシュートシーンを集めた画像を生成するのであれば、シュートシーンのＥＰＴＳデータにより各選手やボールの位置を判定し、ＣＧによる合成画像を生成する。
　ステップＳ１４４で画像処理部８５は、生成した画像コンテンツ生成を出力する。そしてステップＳ１０３を介して、試合の終了等のタイミングでなければステップＳ１０１に戻る。

　次に図２８で画像Ｇ５のような内容を含む画像コンテンツ生成のための処理例を説明する。
　画像処理部８５は、試合開始後、ステップＳ１０３で終了と判定するまで、ステップＳ１０１，Ｓ１４０の処理を行う。
　ステップＳ１０１で画像処理部８５は、撮像装置２０の撮像画像からＥＰＴＳデータを生成し、ストレージ２３に格納していく。
　ステップＳ１４０で画像処理部８５は、試合の切れ目のタイミングであるか否かを判定する。
　試合の切れ目のタイミングとなったことを判定した場合、画像処理部８５はステップＳ１４０からステップＳ１４１に進み、画像コンテンツ生成、つまり画像Ｇ５で例示したようなクリップを生成する処理を実行するか否かを判定する。

　画像コンテンツ生成を実行しないのであれば画像処理部８５はステップＳ１０１に戻る。
　画像コンテンツ生成を実行すると判定した場合は、画像処理部８５はステップＳ１４２に進み、必要な期間のＥＰＴＳデータを取得する。

　ステップＳ１５１で画像処理部８５は、ステップＳ１４２で取得した期間のＥＰＴＳデータのスムージングを行う。これは図２４のステップＳ１１４における処理の１つとして説明したように、スムージングにより、なめらかな軌跡が表現されるようにするためである。

　ステップＳ１５２でスムージングしたＥＰＴＳデータを表示データに変換し、期間内の画像とする。これにより、ステップＳ１４２で取得した期間のＥＰＴＳデータによるボールや選手等の移動軌跡を表現するようなＣＧによる画像が生成される。期間中の各時点の移動軌跡を各フレームとして移動軌跡が徐々に描かれる動画としてもよいし、期間内の移動位置の画像を合成して軌跡を示す静止画としてもよい。
　ステップＳ１４４で画像処理部８５は、生成した画像コンテンツ生成を出力する。そしてステップＳ１０３を介して、試合の終了等のタイミングでなければステップＳ１０１に戻る。

　以上の図２４から図２８は、本実施の形態のシステムで実行し得る処理の一例である。
　また図２４から図２８は、試合の開始後の期間の処理例として説明したが、試合の画像をプレイバックしている際の処理としても、同等の処理が可能である。但しその場合は、すでにＥＰＴＳデータがストレージ２３に格納されているため、ステップＳ１０１は不要である。

＜６．実写自由視点画像とＣＧ画像の選択／合成＞
　続いて、実施の形態のシステムにおいて、ＦＶレンダー１２による実写に基づく自由視点画像（実写ＦＶ）と、３Ｄレンダー２７によるＣＧを用いた３Ｄ画像（ＣＧＦＶ）を、切り替えたり融合させたりして出力画像を生成する場合における、画像品質向上のための処理について説明する。

　図２９のようなシーケンスを想定する。図２９ではオペレータの操作、ＦＶレンダー１２の処理、３Ｄレンダー２７の処理、２Ｄレンダー３１の処理の流れを示している。

　オペレータの操作に応じて自由視点画像の生成の際にカメラパス指定情報ＣＰＤがＦＶレンダー１２や３Ｄレンダー２７に供給される。
　ＦＶレンダー１２は、カメラパス指定情報ＣＰＤに応じて、指定されたカメラパスによる自由視点画像、すなわち実写ＦＶを生成することができる。
　また３Ｄレンダー２７は、カメラパス指定情報ＣＰＤに応じて、指定されたカメラパスによる自由視点画像、すなわちＣＧＦＶを生成することができる。

　２Ｄレンダー３１は、ＦＶレンダー１２が生成した実写ＦＶと、デプス情報ＤＰＴと、品質判定情報ＣＩを取得できる。デプス情報ＤＰＴは、実写ＦＶの各フレームの視点位置からみた各被写体（選手やボール）の奥行情報である。品質判定情報ＣＩは、品質判定に用いる情報であり、各フレームの時刻情報や被写体の選手が居る領域の情報を含む。
　また２Ｄレンダー３１は、３Ｄレンダー２７が生成したＣＧＦＶと、デプス情報ＤＰＴを取得できる。

　２Ｄレンダー３１は、実写ＦＶとＣＧＦＶを選択したり合成したりして出力画像を生成する。その選択や合成の際に、デプス情報ＤＰＴや品質判定情報ＣＩを用いる。
　生成された出力画像は、例えばオペレータ操作に応じて、配信又は放送されることになる。

　このシーケンス例においては２Ｄレンダー３１が実写ＦＶとＣＧＦＶという２つの自由視点画像を選択したり合成したりして出力画像を生成する。この出力画像としての画像コンテンツとして、実写ＦＶとＣＧＦＶを選択したり合成したりしたものを用いる。
　具体的には、実写ＦＶとＣＧＦＶのいずれかを選択して出力画像とする例がある。また時間軸方向で出力画像のフレーム毎に実写ＦＶとＣＧＦＶを選択する例もある。さらに出力画像の１フレームの画像内で被写体を合成する例もある。

　なお、実写ＦＶとＣＧＦＶの「選択」により出力画像を生成する処理とは、実写ＦＶとＣＧＦＶの両方を生成した上で一方を出力画像として選択するという処理例がある。或いは、カメラパス等に基づいて先に実写ＦＶとＣＧＦＶの選択を行い、実写ＦＶを選択した場合は、ＦＶレンダー１２で実写ＦＶを生成し、２Ｄレンダー３１がそれを用いて出力画像を生成し、ＣＧＦＶを選択した場合は３Ｄレンダー２７でＣＧＦＶを生成し、２Ｄレンダー３１がそれを用いて出力画像を生成するという処理例がある。以上のいずれであってもよい。

　まず実写ＦＶとＣＧＦＶの選択の例を説明する。
　出力する画像コンテンツを生成する場合において、まず、単純に実写ＦＶとＣＧＦＶのどちらの品質が良いかを判定し、選択するという例がある。例えば品質判定情報ＣＩを用いた品質判定を行って、実写ＦＶが高品質で生成できている場合は実写ＦＶをそのまま出力画像とし、一方、実写ＦＶが高品質で生成できない場合はＣＧＦＶを出力画像とする。

　このようにＦＶクリップ全体として実写ＦＶとＣＧＦＶの一方を選択する他、ＦＶクリップの或る期間は実写ＦＶを用い、或る期間はＣＧＦＶを用いるというような選択を行っても良い。
　図３０に出力画像について、フレームＦＲ＃１からの期間は実写ＦＶを用い、フレームＦＲ＃ｘからの期間はＣＧＦＶを用い、フレームＦＲ＃ｙからの期間は実写ＦＶを用いている例を示している。これは品質判定情報ＣＩを用いた品質判定を行い、フレーム毎に実写ＦＶとＣＧＦＶを選択した場合の結果の例の一つである。
　例えばフレームＦＲ＃ｘから不図示のフレームＦＲ＃（ｙ－１）までの期間の各フレームが、実写ＦＶでは品質が低下するような場合に、この期間の各フレームはＣＧＦＶを選択することで、出力画像が図３０のようになる。

　以上のように、ＦＶクリップの全体、又はフレーム毎に実写ＦＶとＣＧＦＶを選択するための品質判定は例えば次のように行う。
　まず判定要素としてカメラパスと複数の撮像装置１０の配置の関係を判定する要素がある。
　事前にセッティングしたカメラ配置による各撮像装置１０の視野から、例えばバスケットコート内で、３台以上など、所定数以上の撮像装置１０の視野がオーバーラップする領域を特定することができる。
　自由視点画像を生成するための３Ｄモデルは、より多数の視点による撮像画像が得られるほど、精度が上がる。そこで、少なくとも３台以上など、所定数以上の撮像装置１０によって撮像され得る領域を特定しておく。例えば上述した図３の指定領域ＤＡである。

　そして、今回のカメラパスでこの指定領域ＤＡに入っている被写体を対象としているか否かを判定することが、品質判定の１つとなる。
　つまり今回のカメラパスで自由視点画像の対象とするターゲットの被写体が指定領域ＤＡに入っていれば、品質が良好であることの判定要素となる。逆にターゲットの被写体が、指定領域ＤＡに入っていない場合は、実写ＦＶは品質が低下する可能性があるということとなる。

　またカメラパスと複数の各撮像装置の視野の関係として、カメラパスがズーム限界を越えるエリアを通過しているか否かを判定することもある。
　ここでいうズーム限界とは、実写ＦＶが求める品質を維持できるようにするためのズーム倍率の上限として設定するものである。例えば撮像装置１０が光学ズームとデジタルズームを併用する場合に、光学ズームの最大倍率をズーム限界としてもよい。また、ズーム方式に限らず或る所定のズーム倍率をズーム限界としてもよい。

　カメラパスがズーム限界エリアに入っているか否かは、実写ＦＶの品質の判定要素となる。つまりカメラパスがズーム限界エリアに入っていなければ、実写ＦＶの品質が良好であることの位置判定要素となり、カメラパスがズーム限界エリアに入っていれば、その実写ＦＶ、或いは該当カメラパス区間は、実写ＦＶの品質が低下する可能性があるということとなる。

　図３１Ａ、図３１Ｂ、図３２Ａ、図３２Ｂで、カメラパスＣＰ１，ＣＰ２，ＣＰ３，ＣＰ４と複数の各撮像装置１０の配置の関係を例示している。
　撮像装置１０の配置が決定されることで、各図に示すように指定領域ＤＡ、ズーム境界ＺＢが特定される。ズーム境界ＺＢとは、ズーム限界を示すラインであり、ズーム境界ＺＢの楕円形の内方の被写体は、ズーム限界を越える倍率となることを示している。また自由視点画像のターゲット選手９０を黒丸で示し、他選手９１を白丸で示している。

　図３１Ａでは、ターゲット選手９０は指定領域ＤＡ内に入っている。今回のカメラパスＣＰ１が、指定領域ＤＡに入っている選手をターゲット選手９０としているのであれば、ターゲット選手９０について所定数以上の視点の画像が得られる。またカメラパスＣＰ１は、ズーム境界ＺＢをこえていない。
　従ってこれらの観点のみでいえば、今回のカメラパスＣＰ１による実写ＦＶは、品質を維持できるものと判定される。従ってカメラパスＣＰ１における全フレームで実写ＦＶを選択するということが考えられる。カメラパスＣＰ１を二重線で示しているが、二重線は、実写ＦＶを選択する区間としている。

　一方、図３１Ｂは、ターゲット選手９０は指定領域ＤＡ内であるが、カメラパスＣＰ２が、その一部（二重線を太線にした部分）においてズーム境界ＺＢを越えた場合を示している。
　この場合、カメラパスＣＰ２による実写ＦＶは、太線区間の画像において品質が低下する場合がある。そこで、カメラパスＣＰ２の太線区間のフレームはＣＧＦＶを選択し、ズーム境界を越えていない二重線で示す区間のフレームは実写ＦＶを選択するということが考えられる。
　なお、この場合、実写ＦＶの一部の品質を考慮して、出力画像全体をＣＧＦＶによるものとする考え方もある。

　図３２Ａは、カメラパスＣＰ３は、ズーム境界ＺＢを越えていないが、ターゲット選手９０は指定領域ＤＡ内に入っていない場合を示している。
　図３２Ｂは、カメラパスＣＰ３は、一部でズーム境界ＺＢを越えており、またターゲット選手９０が指定領域ＤＡ内に入っていない場合を示している。
　これらの場合は、ターゲット選手９０の自由視点画像の品質が維持できないことが考えられるため、カメラパスＣＰ３，ＣＰ４の全区間のフレームはＣＧＦＶによるものとする。

　ここまでは指定領域ＤＡやズーム境界ＺＢによる品質判定の例であるが、さらに、自由視点画像を生成する対象の被写体（ターゲット選手９０）と他選手９１の画像内の配置関係を判定する例もある。
　具体的には、ターゲット選手９０の周囲における混雑度を判定する。
　選手同士の距離が一定以内であるか否かを判定する。
　またカメラパスの視点を構成する撮像装置１０からみてターゲット選手９０に対する他選手９１によるオクルージョンが所定数以上であるか否かを判定する。

　選手同士の距離が一定以内であるときや、オクルージョンが所定数以上の場合は、ターゲット選手９０に対する３Ｄモデルの精度が低下する。そのため、そのような場合は実写ＦＶの品質を維持できない場合があるとし、ＣＧＦＶを選択する。

　ここまでは時間軸方向に実写ＦＶとＣＧＦＶを選択する例であるが、次に１フレームの画像内で実写ＦＶとＣＧＦＶの被写体を合成する例を説明する。
　図３３には、元シーンとして選手９２，９３，９４，９５が映っている１フレームの撮像画像を示している。
　またＣＧＦＶとしてＥＰＴＳデータに基づいて選手９２，９３，９４，９５を個別にレンダリングした選手画像９２Ｃ，９３Ｃ，９４Ｃ，９５Ｃを示し、また実写ＦＶとして選手９２，９３，９４，９５を個別にレンダリングした選手画像９２Ｒ，９３Ｒ，９４Ｒ，９５Ｒを示している。

　ここで品質判定として、フレーム内に指定領域ＤＡを示している。これは上述のように事前のカメラ配置や選出配置から算出される、高品質の実写ＦＶが生成できる領域である。図では指定領域ＤＡを破線で立体的に示している。
　そして、選手９２は指定領域ＤＡ内であり、他の選手９３，９４，９５は指定領域ＤＡの外に居るとする。

　この場合に、当該フレームの出力画像としては、図示するように、実写ＦＶによる選手画像９２Ｒと、ＣＧＦＶによる選手画像９３Ｃ、９４Ｃ、９５Ｃを合成して生成する。
　このようにすることで、フレーム内の選手画像としては、なるべく実写ＦＶを使用しつつ、品質判定に基づいて、ＣＧＦＶを使用するような合成ができる。

　以下、具体的な処理例を説明する。以下の各処理例は、図２９のシーケンスでいえば、２Ｄレンダー３１としての情報処理装置７０の画像処理部８５の処理となる。但し、ＦＶレンダー１２や３Ｄレンダー２７としての情報処理装置７０の画像処理部８５の処理と考えてもよい。図１でいえば出力画像生成部６として機能する情報処理装置７０における画像処理部８５の処理である。

　図３４はＦＶクリップを出力する場合に実写ＦＶとＣＧＦＶのいずれかを選択する例である。
　画像処理部８５はステップＳ３０１で、オペレータの入力によるカメラパス指定情報ＣＰＤに応じて、今回生成するＦＶクリップのカメラパスを設定する。

　ステップＳ３０２で画像処理部８５は、実写ＦＶの品質判定処理を行う。例えば上述のように、今回のカメラパスによる自由視点画像のターゲット選手９０が指定領域ＤＡ内に居るか否か、カメラパスがズーム境界ＺＢを越えているか否か、選手配置として選手同士の距離が一定以内であるか否か、オクルージョンが所定数以上か否か、という各種の品質判定要素の判定を行う。

　そして、実写ＦＶが品質条件を満たすと判定した場合は、画像処理部８５はステップＳ３０３からステップＳ３０４に進み、実写ＦＶとしてのクリップを生成し、ステップＳ３０６で出力画像とする。

　一方、実写ＦＶが品質条件を満たしていないと判定した場合は、画像処理部８５はステップＳ３０３からステップＳ３０５に進み、ＣＧＦＶによるＦＶクリップを生成し、ステップＳ３０６で出力画像とする。

　以上の処理により品質判定に応じて実写ＦＶによるＦＶクリップ、又はＣＧＦＶによるＦＶクリップが選択されて出力画像とされる。

　図３５はＦＶクリップを出力する場合に、実写ＦＶとＣＧＦＶのいずれかをフレーム毎に選択する例である。
　画像処理部８５はステップＳ３１０で、オペレータの入力によるカメラパス指定情報ＣＰＤに応じて、今回生成するＦＶクリップのカメラパスを設定する。

　ステップＳ３１１で画像処理部８５は、カメラパスを構成する各フレームについて、実写ＦＶの品質判定処理を行う。つまり指定領域ＤＡ、ズーム境界ＺＢ、選手同士の距離、オクルージョン等の判定要素について、フレーム毎に判定する。

　ステップＳ３１２で画像処理部８５は変数Ｎを「１」にセットし、変数Ｎｍａｘを生成するＦＶクリップの総フレーム数とする。

　ステップＳ３１３で画像処理部８５は、第Ｎフレームの品質判定結果を参照して処理を分岐する。第Ｎフレームにおける実写ＦＶが品質条件を満たすと判定した場合は、画像処理部８５はステップＳ３１４に進み、出力画像の第Ｎフレームとして実写ＦＶによる画像を生成又は選択する。
　また第Ｎフレームにおける実写ＦＶが品質条件を満たさないと判定した場合は、画像処理部８５はステップＳ３１５に進み、出力画像の第Ｎフレームとして、出力画像の第ＮフレームとしてＣＧＦＶによる画像を生成又は選択する。

　ステップＳ３１６で画像処理部８５は変数Ｎが変数Ｎｍａｘに達したか否かを確認し、達していなければステップＳ３１７で変数ＮをインクリメントしてステップＳ３１３に戻る。
　従って、フレーム毎に品質判定結果に応じて実写ＦＶとＣＧＦＶが選択されていく。

　ステップＳ３１６で変数Ｎが変数Ｎｍａｘに達したと判定したら、画像処理部８５はステップＳ３１８に進み、フレーム毎に選択した実写ＦＶとＣＧＦＶによるクリップを生成し、ステップＳ３０６で出力する。

　以上の処理によりフレーム毎の品質判定に応じて実写ＦＶ又はＣＧＦＶが選択されてクリップが生成され、出力画像とされる。

　図３６は、出力画像とするＦＶクリップの各フレームについて、被写体の合成処理を行う例である。
　画像処理部８５はステップＳ３２０で、処理対象の１フレームを設定する。ＦＶクリップの先頭フレームから最終フレームまでを、順次処理対象として、この図３６の処理を行うため、このステップＳ３２０は、順次、１つのフレームを今回の処理対象に設定する処理である。

　ステップＳ３２１で画像処理部８５は、今回の処理対象のフレームについてのＥＰＴＳデータを取得する。
　ステップＳ３２２で画像処理部８５は、フレーム内の被写体を抽出する。例えば選手やボールの画像を抽出する。

　ステップＳ３２３で画像処理部８５は変数Ｍを「１」にセットし、変数Ｍｍａｘを生成するＦＶクリップの総フレーム数とする。

　ステップＳ３２４で画像処理部８５は、第Ｍの被写体について実写ＦＶが品質条件を満たすか否かを判定する。例えば図３３で説明したように、第Ｍの被写体が指定領域ＤＡ内に存在するか否かを判定する。例えば指定領域ＤＡ内であれば品質条件を満たすとする。また、第Ｍの被写体に対して他の被写体によるオクルージョンがないなどの品質条件や、他の被写体との離間距離などの品質条件を加えてもよい。

　第Ｍの被写体の実写ＦＶが品質条件を満たすと判定した場合は、画像処理部８５はステップＳ３２５に進み、実写ＦＶで第Ｍの被写体の画像を生成又は選択する。
　第Ｍの被写体の実写ＦＶが品質条件を満たさないと判定した場合は、画像処理部８５はステップＳ３２６に進み、ＣＧＦＶで第Ｍの被写体の画像を生成又は選択する。

　ステップＳ３２７で画像処理部８５は変数Ｍが変数Ｍｍａｘに達したか否かを確認し、達していなければステップＳ３２８で変数ＭをインクリメントしてステップＳ３２４に戻る。
　従って、被写体毎に品質判定結果に応じて実写ＦＶとＣＧＦＶが選択されていく。

　ステップＳ３２７で変数Ｍが変数Ｍｍａｘに達したと判定したら、画像処理部８５はステップＳ３２９に進み、選手等の各被写体について選択した実写ＦＶ又はＣＧＦＶと、背景画像を合成して１フレームの画像を生成する。

　以上の図３６の処理を、出力するクリップの各フレームについて行うことで、当該クリップの各フレームは、実写ＦＶとＣＧＦＶのいずれかで生成された各被写体が合成された画像となる。そして、そのような各フレームにより出力画像が生成される。

　以上、図３４ではＦＶクリップの全体を実写ＦＶとＣＧＦＶのいずれかで選択する例、図３５はＦＶクリップのフレーム毎に実写ＦＶとＣＧＦＶを選択する例、図３６はＦＶクリップのフレーム内で実写ＦＶの被写体とＣＧＦＶの被写体を合成する例を述べた。
　これらの処理を組み合わせることもできる。

　例えば図３４のステップＳ３０４や、図３５のステップＳ３１４で、図３６の処理も行うようにし、被写体毎に実写ＦＶとＣＧＦＶを選択して合成してもよい。

　また実写ＦＶについての品質判定処理を行うとして説明してきたが、ＣＧＦＶの品質判定処理を行うようにしてもよい。
　例えば何らかの原因でＥＰＴＳデータが不十分又は不正確になるようなこともあり得る。そこでＥＰＴＳデータが十分であったか否かの判定を、ＣＧＦＶの品質判定処理として行い、これに基づいてＦＶクリップ全体、フレーム毎、或いは被写体毎に、実写ＦＶとＣＧＦＶの選択を行うようにすることも考えられる。

＜７．まとめ及び変形例＞
　以上の実施の形態によれば次のような効果が得られる。

　実施の形態の画像制作システム３００は、撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関するＥＰＴＳデータ（推定情報）を生成するＥＰＴＳデータ生成部２２（推定情報生成部４）を有する。また画像制作システム３００は、複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルである実写選手モデル（第１の三次元モデル）を生成し、実写選手モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成するＦＶレンダー１２（自由視点画像生成部３）を有する。また画像制作システム３００は、ＥＰＴＳデータと、被写体の仮想三次元モデルであるＣＧ選手モデル（第２の三次元モデル）とに基づいて三次元画像を生成することができる３Ｄレンダー２７（三次元画像生成部５）を備える。
　この画像制作システム３００では、実写に基づく自由視点画像と、仮想三次元モデルを用いた三次元画像について、ＥＰＴＳデータを利用して切り替えたり融合させたりすることで、多様な画像コンテンツ生成を行うことができる。例えばＦＶレンダー１２によっては、自由視点画像として、複数の撮像装置１０による多視点映像からポジション制約が無い自由な視点の画像を生成することができる。また３Ｄレンダー２７によっては、現実には撮影できないような視点や現実に存在しない被写体などを含めた画像を生成することができる。これらのＦＶレンダー１２や３Ｄレンダー２７による画像を、ＥＰＴＳデータに基づいて融合させたり選択したりすることで新規かつ多様な画像コンテンツを制作することができるようになる。

　実施の形態では、３Ｄレンダー２７は、実写選手モデルとＣＧ選手モデルを用いて３Ｄ画像を生成することができるものとした。
　すなわち３Ｄレンダー２７は、実写選手モデルとＣＧ選手モデルを入力でき、これらを使用して３Ｄ画像を生成できる。このため図２６の処理例のように、例えば選手の実写画像が存在しないときはＣＧ選手モデルを用いて３Ｄ画像を生成し、また実写画像に基づいて実写選手モデルが生成された選手については、実写選手モデルを用いて３Ｄ画像データを生成することが可能となる。

　実施の形態では、３Ｄレンダー２７は特定の被写体について実写選手モデルとＣＧ選手モデルを選択的に用いて３Ｄ画像を生成する例を述べた。
　例えば図２６の変型例として述べたように、３Ｄレンダー２７は、特定の選手の実写画像が得られるまではＣＧ選手モデルを用いて３Ｄ画像を生成し、また実写選手モデルが生成された時点で、その選手の画像を、実写選手モデルを用いて生成した３Ｄ画像に切り替えるといったことが可能になる。

　実施の形態では、ＦＶレンダー１２が生成した自由視点画像を含む実写画像と、３Ｄレンダー２７が生成した３Ｄ画像とを選択的に用いて２Ｄ画像を生成する２Ｄレンダー３１（二次元画像生成部）を備える例を述べた。
　２Ｄレンダー３１は、自由視点画像や３Ｄ画像が入力され、これらを選択的に用いて２Ｄ画像を生成することができる。これによりボリューメトリックシステム１００とＥＰＴＳ２００を融合した画像制作システム３００によって得られる３Ｄ画像や自由視点画像を、２Ｄ表示させることができる。つまり一般的なディスプレイ装置を用いた画像表示を実現できる。

　実施の形態では、推定情報として撮像画像における被写体としての人物や物体、或いはセンサ２９でセンシングできる人物や物体の位置情報を含むＥＰＴＳデータを例に挙げた。
　３Ｄレンダー２７では、ＥＰＴＳデータにおける位置情報を用いることで、ＣＧを用いた非実写の画像として実際の被写体の位置を反映した画像の生成が可能になる。

　また実施の形態では、推定情報は、撮像画像における被写体としての人物や物体、或いはセンサ２９でセンシングできる人物や物体の姿勢情報を含むＥＰＴＳデータであるとした。３Ｄレンダー２７では、ＥＰＴＳデータにおける姿勢情報を用いることで、ＣＧを用いた非実写の画像として、実際の被写体の選手等の姿勢を反映した画像の生成が可能になる。
　なお推定情報はＥＰＴＳデータに限られない。例えば画像解析により画像から検出できる情報であればよい。

　実施の形態では、図１５の画像Ｇ１のように、ＦＶレンダー１２が生成した自由視点画像を含む実写画像に対してＥＰＴＳデータに基づいた画像エフェクトを加えた画像を生成する例を述べた。
　例えば２Ｄレンダー３１はＦＶレンダー１２により生成された自由視点画像を含む実写画像をストレージ１６から入力するとともにエフェクト指定情報ＥＦに基づいて画像エフェクトを加えた２Ｄ画像を生成することができる（図２４参照）。
　これにより、例えば現実には見ることのできないエフェクトによる画像と実写画像（特には自由視点画像）を融合した画像コンテンツを制作できる。

　実施の形態では、ＥＰＴＳデータを用いて撮像装置１０が配置されていない視点位置から見た状態の画像を生成する例を述べた。
　例えば３Ｄレンダー２７では、図１６の画像Ｇ３のように現実には撮影できないアングルからの画像を生成することができる（図２５参照）。ＦＶレンダー１２も図１６の画像Ｇ２のように撮影できないアングルからの画像を生成することができる。これらの画像を用いることで、現実のカメラ配置に関わらない多様な視点の画像を含む画像コンテンツを出力できる。

　実施の形態では、図１７の画像Ｇ４のように、ＥＰＴＳデータに基づいて複数時点の３Ｄ画像を合成した画像を生成する例を述べた。
　例えば３Ｄレンダー２７では、例えば試合中の期間などにおけるＥＰＴＳデータに基づいて、複数の時点での選手やボールの軌跡などの画像を合成した画像を生成することができる（図２７参照）。これにより例えば試合のハイライト場面などをまとめたような画像を含む画像コンテンツを出力できる。

　実施の形態では、図１８の画像Ｇ５のように、所定期間内のＥＰＴＳデータに基づいて被写体の動線を提示する画像を生成する例を述べた。
　例えば３Ｄレンダー２７では、ある期間、例えば試合中の期間などにおけるＥＰＴＳデータに基づいて、選手やボールの動きの軌跡を表現する画像を生成することができる（図２８参照）。これにより例えば選手やボールの動きなど、被写体の動線をみることのできる画像を含む画像コンテンツを出力できる。

　実施の形態では、図１９の画像Ｇ６や、図２０の画像Ｇ７のように、ＦＶレンダー１２が生成した自由視点画像を含む実写画像に対して、ＥＰＴＳデータに基づいた被写体の動線を提示する画像を合成した画像を生成する例を述べた。
　例えば２Ｄレンダー３１は、ＦＶレンダー１２により生成された自由視点画像を含む実写画像と、３Ｄレンダー２７によりＥＰＴＳデータに基づいて生成された被写体の動線を示す画像を合成できる（図２４参照）。これにより画像Ｇ６や画像Ｇ７のようなボール等の軌跡を示す画像を含む画像コンテンツを出力できる。

　実施の形態では、図２１の画像Ｇ８のように、ＦＶレンダー１２が生成した自由視点画像を含む実写画像に対して、ＥＰＴＳデータに基づいた値を提示する画像を合成した画像を生成する例を述べた。
　例えば２Ｄレンダー３１は、ＦＶレンダー１２により生成された自由視点画像を含む実写画像と、３Ｄレンダー２７によりＥＰＴＳデータによる数値を表示データに変換した画像、例えば文字や数字、或いは目盛りを示すような画像を合成できる（図２４参照）。これによりプレイの凄さ等を数値等で表現する画像を含む画像コンテンツを出力できる。

　実施の形態では、画像Ｇ９（不図示）のように、ＦＶレンダー１２が生成した自由視点画像を含む実写画像、又は３Ｄレンダー２７が生成した３Ｄ画像に対して、ＥＰＴＳデータに基づいた画像を合成した画像を生成する例を述べた。
　例えば２Ｄレンダー３１は、ＦＶレンダー１２により生成された自由視点画像を含む実写画像又は３Ｄレンダー２７により生成された３Ｄ画像に対して、３Ｄレンダー２７によりＥＰＴＳデータに基づいてさらに生成された付加的な画像を合成できる（図２４参照）。これにより画像Ｇ９のようなプレイを可視化して表現するような付加画像を含む画像コンテンツを出力できる。

　実施の形態では、画像Ｇ１０、例えば図２２，図２３の画像Ｇ１０－１、画像Ｇ１０－２のように、ＦＶレンダー１２が生成した自由視点画像を含む実写画像と、ＥＰＴＳデータに基づいて３Ｄレンダー２７が生成した３Ｄ画像とを合成した画像を生成する例を述べた。
　例えば２Ｄレンダー３１は、ＦＶレンダー１２により生成された自由視点画像を含む実写画像と、ＥＰＴＳデータに基づいて３Ｄレンダー２７により生成された３Ｄ画像とを合成できる（図２４参照）。これにより実写とＣＧを混在させた画像を含む画像コンテンツを出力できる。

　なお、例えばＦＶレンダー１２により生成された自由視点画像を含む実写画像と、ＥＰＴＳデータに基づいて３Ｄレンダー２７により生成された３Ｄ画像に加え、３Ｄレンダー２７によりＥＰＴＳデータに基づいてさらに生成した付加的な画像（文字、数字、動線、軌跡等の画像）を合成するようにしてもよい。

　実施の形態の画像制作システム３０１は、撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関するＥＰＴＳデータ（推定情報）を生成するＥＰＴＳデータ生成部２２（推定情報生成部４）を有する。また画像制作システム３０１は、複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成するＦＶレンダー１２（自由視点画像生成部３）を備える。また画像制作システム３０１は、ＥＰＴＳデータと、被写体の三次元モデルとに基づいて三次元画像を生成することができる３Ｄレンダー２７（三次元画像生成部５）を備える。さらに画像制作システム３０１は、ＦＶレンダー１２により生成された自由視点画像及び３Ｄレンダー２７により生成された三次元画像に基づいて出力画像を生成する２Ｄレンダー３１（出力画像生成部６）を備える。ＦＶレンダー１２や３Ｄレンダー２７が出力画像生成部６として機能することもできる。
　この画像制作システム３０１では、実写に基づく自由視点画像と、仮想三次元モデルを用いた三次元画像に基づいて出力画像を生成する場合に、例えば自由視点画像と三次元画像を切り替えたり融合させたりして出力画像を生成することができる。例えば図２９のシーケンスとして示したように、これらのＦＶレンダー１２や３Ｄレンダー２７による画像を、ＥＰＴＳデータに基づいて融合させたり選択したりすることで新規かつ多様な出力画像を生成することができるようになる。

　実施の形態では、出力画像生成部６は、ＦＶレンダー１２が生成した自由視点画像を含む実写画像と、３Ｄレンダー２７が生成した３Ｄ画像とを選択的に用いて出力画像を生成する例を述べた（図３０、図３４、図３５参照）。
　例えば２Ｄレンダー３１は図１の出力画像生成部６として機能する。またＦＶレンダー１２や３Ｄレンダー２７が図１の出力画像生成部６として機能することもできる。
　このような出力画像生成部６は、ＦＶレンダー１２が生成した自由視点画像を含む実写画像（例えば実写ＦＶ）と、３Ｄレンダー２７が生成した３Ｄ画像（例えばＣＧＦＶ）とを選択的に用いて出力画像を生成することで、実写とＣＧを融合させた画像コンテンツを出力できるようになる。

　実施の形態の出力画像生成部６は、ＦＶレンダー１２が生成した自由視点画像を含む実写画像と３Ｄレンダー２７が生成した３Ｄ画像とを、期間ごとに選択的に用いて出力画像を生成する例を述べた（図３０、図３４、図３５参照）。
　例えば出力画像生成部６は、実写ＦＶとＣＧＦＶとをフレーム期間毎に選択して出力画像としてのＦＶクリップを生成する。これにより、動画におけるある期間は実写、ある期間はＣＧとしての画像コンテンツを出力できる。

　実施の形態の出力画像生成部６は、ＦＶレンダー１２が生成した自由視点画像を含む実写画像と３Ｄレンダー２７が生成した３Ｄ画像とを合成して出力画像を生成する例を述べた（図３３、図３６参照）。
　これにより、動画におけるフレーム内で実写（例えば実写ＦＶ）とＣＧ（例えばＣＧＦＶ）を混在させた画像コンテンツを出力できる。

　実施の形態の出力画像生成部６は、ＦＶレンダー１２が生成した自由視点画像を含む実写画像による被写体画像と、３Ｄレンダー２７が生成した３Ｄ画像による被写体画像とを合成して出力画像を生成する例を述べた（図３３、図３６参照）。
　例えば出力画像生成部６は、選手等の被写体毎に、ＦＶレンダー１２が生成した画像を用いるか、３Ｄレンダー２７が生成した画像を用いるかを選択して、１フレーム内で合成する。これにより、フレーム毎に実写とＣＧを合成した画像コンテンツを出力できる。

　実施の形態では、出力画像生成部６が、自由視点画像のカメラパスに基づいて、ＦＶレンダー１２が生成した自由視点画像を含む実写画像と、３Ｄレンダー２７が生成した３Ｄ画像とを選択的に用いた出力画像を生成する例を述べた（図３０、図３１、図３２、図３４、図３５参照）。
　カメラパスに応じて、ＦＶレンダー１２が生成した実写画像と、３Ｄレンダー２７が生成した３Ｄ画像のいずれが適切かを判定することができる。これにより実写とＣＧを選択的に用いる画像コンテンツの画像品質を向上させることができる。

　実施の形態では、出力画像生成部６が、自由視点画像の品質判定処理を行い、品質判定結果に応じて、ＦＶレンダー１２が生成した自由視点画像を含む実写画像と、３Ｄレンダー２７が生成した三次元画像とを選択的に用いて出力画像を生成する例を述べた（図３０、図３１、図３２、図３４、図３５参照）。
　例えば品質判定処理により、例えばＦＶレンダー１２が生成した実写ＦＶと３Ｄレンダー２７が生成したＣＧＦＶのいずれが適切かを判定することができる。これにより実写とＣＧを選択的に用いる画像コンテンツの画像品質を向上させることができる。

　実施の形態の品質判定処理では、複数の各撮像装置１０の配置の関係に基づいて自由視点画像の品質を判定する例を述べた（図３１、図３２参照）。
　より多数の撮像装置１０によって撮像されていることで自由視点画像の品質が向上するため、各撮像装置１０の配置関係から、実写による自由視点画像とＣＧ画像のいずれが適しているかを判定することは、出力する画像の品質向上に適している。

　実施の形態の品質判定処理では、複数の各撮像装置１０の配置の関係に基づいて、所定数以上の撮像装置１０の視野に入る指定領域ＤＡに、自由視点画像のターゲットとする被写体が存在するか否かを判定する例を述べた（図３１、図３２参照）。
　より多数の撮像装置１０によって撮像される指定領域ＤＡを設定しておき、自由視点画像でターゲット選手９０が指定領域ＤＡ内である否かを判定する。これは実写ＦＶが品質的に適しているか否かを判定するものとなる。

　実施の形態の品質判定処理では、カメラパス内で撮像装置１０のズーム倍率が所定以上となる区間を判定する例を述べた（図３１、図３２参照）。
　撮像装置１０の視野内でも、ズーム倍率が所定以上となる場合は、画像品質が劣化する場合がある。そこでカメラパス内でズーム倍率が所定以上となる区間を判定する。これは実写による自由視点画像が品質的に適していないフレーム区間を判定するものとなる。

　実施の形態の品質判定処理では、カメラパスで規定される視点における、自由視点画像を生成する対象の被写体と他の被写体の画像内の配置関係を判定する例を述べた。
　例えばある選手の自由視点画像を生成する場合に、画像内でのその選手の配置状態によって自由視点画像の品質が変化する。このため、今回のカメラパスによる各視点における。対象の選手と他の選手の配置関係から、実写による自由視点画像とＣＧ画像のいずれが適しているかを判定することは好適となる。

　実施の形態の品質判定処理では、自由視点画像を生成する対象の被写体の周囲の被写体の混雑度を判定する例を述べた。
　自由視点画像を生成する対象の選手の周囲が混雑している場合、対象の選手の３Ｄモデル生成精度が低下し、自由視点画像の品質も低下することがある。そのため混雑度を判定することは、実写による自由視点画像とＣＧ画像のいずれが適しているかの判定に適切となる。
　具体的には選手同士の距離が一定以上であるか否かであるとか、オクルージョンの多寡を判定することで、混雑度を判定すればよい。

　実施の形態のプログラムは、図２４から図２８のような処理を、例えばＣＰＵ、ＤＳＰ、ＡＩプロセッサ等、或いはこれらを含む情報処理装置に実行させるプログラムである。
　即ち実施の形態のプログラムは、撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する処理と、複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルである第１の三次元モデルを生成し、第１の三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する処理と、推定情報と被写体の仮想三次元モデルである第２の三次元モデルとに基づいて三次元画像を生成する処理と、を画像制作システムにおける情報処理装置に実行させるプログラムである。

　また実施の形態のプログラムとしては、図３４から図３６のような処理を、例えばＣＰＵ、ＤＳＰ、ＡＩプロセッサ等、或いはこれらを含む情報処理装置に実行させるプログラムもある。
　即ち実施の形態のプログラムは、撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する処理と、複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する処理と、推定情報と被写体の三次元モデルとに基づいて三次元画像を生成する処理と、自由視点画像及び前記三次元画像に基づいて出力画像を生成する処理と、を画像制作システムにおける情報処理装置に実行させるプログラムである。

　これらのようなプログラムにより、実施の形態の画像制作システム３００又は３０１を構成する装置を、例えばコンピュータ装置、携帯端末装置、その他の情報処理が実行できる機器において実現できる。

　このようなプログラムは、コンピュータ装置等の機器に内蔵されている記録媒体としてのＨＤＤや、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記録しておくことができる。
　あるいはまた、フレキシブルディスク、ＣＤ－ＲＯＭ(Compact Disc Read Only Memory)、ＭＯ(Magneto Optical)ディスク、ＤＶＤ(Digital Versatile Disc)、ブルーレイディスク（Blu-ray Disc（登録商標））、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
　また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、ＬＡＮ(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。

　またこのようなプログラムによれば、実施の形態の画像制作システム３００又は３０１を構成する情報処理装置７０の広範な提供に適している。例えばスマートフォンやタブレット等の携帯端末装置、撮像装置、携帯電話機、パーソナルコンピュータ、ゲーム機器、ビデオ機器、ＰＤＡ（Personal Digital Assistant）等にプログラムをダウンロードすることで、当該スマートフォン等を、本開示の画像制作システム３００又は３０１を構成する情報処理装置７０として機能させることができる。

　なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

　なお本技術は以下のような構成も採ることができる。
　（１）
　撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する推定情報生成部と、
　複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する自由視点画像生成部と、
　前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成することができる三次元画像生成部と、
　前記自由視点画像生成部により生成された自由視点画像及び前記三次元画像生成部により生成された三次元画像に基づいて出力画像を生成する出力画像生成部と、を備えた
　画像制作システム。
　（２）
　前記出力画像生成部は、
　前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いて出力画像を生成する
　上記（１）に記載の画像制作システム。
　（３）
　前記出力画像生成部は、
　前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを、期間ごとに選択的に用いて出力画像を生成する
　上記（１）又は（２）に記載の画像制作システム。
　（４）
　前記出力画像生成部は、
　前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを合成して出力画像を生成する
　上記（１）から（３）のいずれかに記載の画像制作システム。
　（５）
　前記出力画像生成部は、
　前記自由視点画像生成部が生成した自由視点画像を含む実写画像による被写体画像と、前記三次元画像生成部が生成した三次元画像による被写体画像とを合成して出力画像を生成する
　上記（１）から（４）のいずれかに記載の画像制作システム。
　（６）
　前記出力画像生成部は、
　自由視点画像のカメラパスに基づいて、
　前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いた出力画像を生成する
　上記（１）から（３）のいずれかに記載の画像制作システム。
　（７）
　前記出力画像生成部は、
　自由視点画像の品質判定処理を行い、品質判定結果に応じて、前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いて出力画像を生成する
　上記（１）（２）（３）（６）のいずれかに記載の画像制作システム。
　（８）
　前記品質判定処理では、
　複数の各撮像装置の配置の関係に基づいて自由視点画像の品質を判定する
　上記（７）に記載の画像制作システム。
　（９）
　前記品質判定処理では、
　複数の各撮像装置の配置の関係に基づいて、所定数以上の撮像装置の視野に入る領域に、自由視点画像のターゲットとする被写体が存在するか否かを判定する
　上記（８）に記載の画像制作システム。
　（１０）
　前記品質判定処理では、
　カメラパス内で撮像装置のズーム倍率が所定以上となる区間を判定する
　上記（８）又は（９）に記載の画像制作システム。
　（１１）
　前記品質判定処理では、
　カメラパスで規定される視点における、自由視点画像を生成する対象の被写体と他の被写体の画像内の配置関係を判定する
　上記（７）から（１０）のいずれかに記載の画像制作システム。
　（１２）
　前記品質判定処理では、
　自由視点画像を生成する対象の被写体の周囲の被写体の混雑度を判定する
　上記（１１）に記載の画像制作システム。
　（１３）
　前記自由視点画像生成部は、
　複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルである第１の三次元モデルを生成し、前記第１の三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成することができ、
　前記三次元画像生成部は、
　前記推定情報生成部が生成した推定情報と、被写体の仮想三次元モデルである第２の三次元モデルに基づいて三次元画像を生成することができるものとされた
　上記（１）から（１２）のいずれかに記載の画像制作システム。
　（１４）
　撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する手順と、
　複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する手順と、
　前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成する手順と、
　前記自由視点画像及び前記三次元画像に基づいて出力画像を生成する手順と、
　が行われる画像制作方法。
　（１５）
　撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する処理と、
　複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する処理と、
　前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成する処理と、
　前記自由視点画像及び前記三次元画像に基づいて出力画像を生成する処理と、
　を画像制作システムにおける情報処理装置に実行させるプログラム。

３　自由視点画像生成部
４　推定情報生成部
５　三次元画像生成部
６　出力画像生成部
１０，２０　撮像装置
１１，２１　収録部
１２　ＦＶレンダー
１５，１６，２３，２４，２５，２８，３２　ストレージ
２２　ＥＰＴＳデータ生成部
２６　座標変換部
２７　３Ｄレンダー
３１　２Ｄレンダー
３３　２Ｄ表示部
３４　３Ｄ表示部
４０　収録部
７０　情報処理装置
７１　ＣＰＵ
８５　画像処理部
１００　ボリューメトリックシステム
２００　ＥＰＴＳ
１５０　統合システム
３００　画像制作システム
３０１　画像制作システム

Claims

　撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する推定情報生成部と、
　複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する自由視点画像生成部と、
　前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成することができる三次元画像生成部と、
　前記自由視点画像生成部により生成された自由視点画像及び前記三次元画像生成部により生成された三次元画像に基づいて出力画像を生成する出力画像生成部と、を備えた
　画像制作システム。
　前記出力画像生成部は、
　前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いて出力画像を生成する
　請求項１に記載の画像制作システム。
　前記出力画像生成部は、
　前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを、期間ごとに選択的に用いて出力画像を生成する
　請求項１に記載の画像制作システム。
　前記出力画像生成部は、
　前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを合成して出力画像を生成する
　請求項１に記載の画像制作システム。
　前記出力画像生成部は、
　前記自由視点画像生成部が生成した自由視点画像を含む実写画像による被写体画像と、前記三次元画像生成部が生成した三次元画像による被写体画像とを合成して出力画像を生成する
　請求項１に記載の画像制作システム。
　前記出力画像生成部は、
　自由視点画像のカメラパスに基づいて、
　前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いた出力画像を生成する
　請求項１に記載の画像制作システム。
　前記出力画像生成部は、
　自由視点画像の品質判定処理を行い、品質判定結果に応じて、前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いて出力画像を生成する
　請求項１に記載の画像制作システム。
　前記品質判定処理では、
　複数の各撮像装置の配置の関係に基づいて自由視点画像の品質を判定する
　請求項７に記載の画像制作システム。
　前記品質判定処理では、
　複数の各撮像装置の配置の関係に基づいて、所定数以上の撮像装置の視野に入る領域に、自由視点画像のターゲットとする被写体が存在するか否かを判定する
　請求項８に記載の画像制作システム。
　前記品質判定処理では、
　カメラパス内で撮像装置のズーム倍率が所定以上となる区間を判定する
　請求項８に記載の画像制作システム。
　前記品質判定処理では、
　カメラパスで規定される視点における、自由視点画像を生成する対象の被写体と他の被写体の画像内の配置関係を判定する
　請求項７に記載の画像制作システム。
　前記品質判定処理では、
　自由視点画像を生成する対象の被写体の周囲の被写体の混雑度を判定する
　請求項１１に記載の画像制作システム。
　前記自由視点画像生成部は、
　複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルである第１の三次元モデルを生成し、前記第１の三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成することができ、
　前記三次元画像生成部は、
　前記推定情報生成部が生成した推定情報と、被写体の仮想三次元モデルである第２の三次元モデルに基づいて三次元画像を生成することができるものとされた
　請求項１に記載の画像制作システム。
　撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する手順と、
　複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する手順と、
　前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成する手順と、
　前記自由視点画像及び前記三次元画像に基づいて出力画像を生成する手順と、
　が行われる画像制作方法。
　撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する処理と、
　複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する処理と、
　前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成する処理と、
　前記自由視点画像及び前記三次元画像に基づいて出力画像を生成する処理と、
　を画像制作システムにおける情報処理装置に実行させるプログラム。