JP7119425B2

JP7119425B2 - 画像処理装置、符号化装置、復号化装置、画像処理方法、プログラム、符号化方法及び復号化方法

Info

Publication number: JP7119425B2
Application number: JP2018036225A
Authority: JP
Inventors: 尚子菅野; 潤一田中
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-03-01
Filing date: 2018-03-01
Publication date: 2022-08-17
Anticipated expiration: 2038-03-01
Also published as: BR112020017315A2; WO2019167300A1; TWI702568B; CN111788601A; KR20200116947A; EP3759683A1; JP2019153863A; EP3759683B1; US11508123B2; US20200410754A1; TW201946027A

Description

本開示は、画像処理装置、符号化装置、復号化装置、画像処理方法、プログラム、符号化方法及び復号化方法に関する。

ストロボ合成画像を生成するための様々な処理が提案されている（例えば、特許文献１を参照のこと）。

特開２００７－２５９４７７号公報

このような分野では、所望するストロボ合成画像を生成するための適切な処理を行うことが望まれている。

本開示は、例えば、３Ｄモデルを含むストロボ合成映像を生成する画像処理装置、符号化装置、復号化装置、画像処理方法、プログラム、符号化方法及び復号化方法を提供することを目的の一つとする。

本開示は、例えば、
第１時刻に被写体を撮像した複数の視点画像と、第２時刻に被写体を撮像した複数の視点画像と、第３時刻に被写体を撮像した複数の視点画像を取得する取得部と、
各時刻の被写***置に基づいて、第１時刻から第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデルを含む、合成３Ｄモデルを生成する画像生成部と、
３Ｄモデルを生成する際に用いられる複数の視点画像を選択する選択部とを有し、
３Ｄモデルを生成する際に用いられる複数の視点画像は、少なくとも、時刻が異なる被写体間の干渉度を参照して選択部により選択された画像であり、
干渉度は、所定の複数の視点画像に基づいて生成された３Ｄモデルと、他の複数の視点画像に基づいて生成された３Ｄモデルとの３次元空間における重なりの度合いを示す情報である
画像処理装置である。

本開示は、例えば、
第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、第１時刻から第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、
各時刻における３Ｄモデルが３次元空間において干渉していないことを示すフラグとを
所定の符号化方式で符号化することにより符号化データを生成する符号化部を有する
符号化装置である。

本開示は、例えば、
第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、第１時刻から第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、視点画像を取得する撮像装置のカメラパラメータと、視点画像の背景画像と、各時刻における３Ｄモデルが３次元空間において干渉していないことを示すフラグとが含まれる符合化データを復号する復号部と、
背景画像とカメラパラメータとフラグとに基づいて、各時刻における被写体が分離された画像を生成し、生成された画像に基づいて３Ｄモデルを生成する変換部とを有する
復号化装置である。

本開示は、例えば、
取得部が、第１時刻に被写体を撮像した複数の視点画像と、第２時刻に被写体を撮像した複数の視点画像と、第３時刻に被写体を撮像した複数の視点画像を取得し、
画像生成部が、各時刻の被写***置に基づいて、第１時刻から第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデルを含む、合成３Ｄモデルを生成し、
選択部が、３Ｄモデルを生成する際に用いられる複数の視点画像を選択し、
３Ｄモデルを生成する際に用いられる複数の視点画像は、少なくとも、時刻が異なる被写体間の干渉度を参照して選択部により選択された画像であり、
干渉度は、所定の複数の視点画像に基づいて生成された３Ｄモデルと、他の複数の視点画像に基づいて生成された３Ｄモデルとの３次元空間における重なりの度合いを示す情報である
画像処理方法である。

本開示は、例えば、
取得部が、第１時刻に被写体を撮像した複数の視点画像と、第２時刻に被写体を撮像した複数の視点画像と、第３時刻に被写体を撮像した複数の視点画像を取得し、
画像生成部が、各時刻の被写***置に基づいて、第１時刻から第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデルを含む、合成３Ｄモデルを生成し、
選択部が、３Ｄモデルを生成する際に用いられる複数の視点画像を選択し、
３Ｄモデルを生成する際に用いられる複数の視点画像は、少なくとも、時刻が異なる被写体間の干渉度を参照して選択部により選択された画像であり、
干渉度は、所定の複数の視点画像に基づいて生成された３Ｄモデルと、他の複数の視点画像に基づいて生成された３Ｄモデルとの３次元空間における重なりの度合いを示す情報である
画像処理方法をコンピュータに実行させるプログラムである。

本開示は、例えば、
符号化部が、
第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、第１時刻から第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、
各時刻における３Ｄモデルが３次元空間において干渉していないことを示すフラグとを
所定の符号化方式で符号化することにより符号化データを生成する
符号化方法である。

本開示は、例えば、
復号化部が、第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、第１時刻から第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、視点画像を取得する撮像装置のカメラパラメータと、視点画像の背景画像と、各時刻における３Ｄモデルが３次元空間において干渉していないことを示すフラグとが含まれる符合化データを復号し、
変換部が、背景画像とカメラパラメータとフラグとに基づいて、各時刻における被写体が分離された画像を生成し、生成された画像に基づいて３Ｄモデルを生成する
復号化方法である。

本開示の少なくとも実施形態によれば、３Ｄモデルを含むストロボ合成映像を生成することができる。ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれの効果であっても良い。また、例示された効果により本開示の内容が限定して解釈されるものではない。

図１Ａ及び図１Ｂは、実施形態において考慮すべき問題を説明する際に参照される図である。図２Ａ及び図２Ｂは、実施形態において考慮すべき問題を説明する際に参照される図である。図３は、実施形態において考慮すべき問題を説明する際に参照される図である。図４は、実施形態において考慮すべき問題を説明する際に参照される図である。図５Ａ及び図５Ｂは、実施形態において考慮すべき問題を説明する際に参照される図である。図６Ａ及び図６Ｂは、実施形態において考慮すべき問題を説明する際に参照される図である。図７は、実施形態にかかる画像処理装置の構成例を説明するためのブロック図である。図８は、実施形態にかかる画像処理装置により行われる処理例の流れを示すフローチャートである。図９は、実施形態にかかるデータセットの一例を説明するための図である。図１０Ａ及び図１０Ｂは、被写体の動きの有無を判定する処理を説明する際に参照される図である。図１１Ａ及び図１１Ｂは、被写体の動きがないと判定される場合を模式的に示した図である。図１２は、被写体の動きの有無を判定する処理の他の例を説明する際に参照される図である。図１３は、被写体の動きの有無を判定する処理の他の例を説明する際に参照される図である。図１４Ａ及び図１４Ｂは、被写体間の干渉度が所定以下である例を模式的に示した図である。図１５は、被写体間の干渉度が所定より大きい例を模式的に示した図である。図１６は、実施形態の処理により得られる３Ｄストロボ合成映像の例を示す図である。図１７は、実施形態にかかる伝送システムの構成例を示すブロック図である。図１８は、実施形態にかかる伝送システムで行われる処理の例を説明するための図である。図１９は、実施形態にかかる伝送システムで行われる処理の他の例を説明するための図である。図２０は、実施形態にかかる伝送システムで行われる処理の他の例を説明するための図である。図２１は、実施形態にかかる伝送システムで行われる処理の他の例を説明するための図である。図２２Ａ及び図２２Ｂは、一般的なシルエット画像の例を示す図である。図２３Ａ及び図２３Ｂは、実施形態にかかるシルエット画像の例を示す図である。図２４は、自由視点撮像システムの例を模式的に示した図である。図２５は、伝送システムにおける受信側で行われる処理を説明する際に参照される図である。図２６Ａ～図２６Ｃは、複数のシルエット画像が合成されたシルエット画像から、特定のシルエットを抜き出す処理を説明する際に参照される図である。図２７は、一般的な方法で３Ｄモデルを表示する際に考慮すべき問題を説明するための図である。図２８は、実施形態にかかる３Ｄストロボ合成映像の表示方法の一例を説明する際に参照される図である。図２９は、実施形態にかかる３Ｄストロボ合成映像の表示方法の他の例を説明する際に参照される図である。

以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜実施形態に関連する技術及び考慮すべき問題について＞
＜実施形態＞
［画像処理部の構成例］
［実施形態における処理の流れ］
［伝送システム］
［表示例］
＜変形例＞

＜実施形態に関連する技術及び考慮すべき問題について＞
始めに、本開示の理解を容易とするために、実施形態に関連する技術及び考慮すべき問題について説明する。なお、以下では、説明に必要な範囲で実施形態の概要についても言及する。

一般に、撮像装置（カメラ）を使用したストロボ撮影が行われている。ストロボ撮影は、移動する被写体の軌跡等を表現・把握するために、定点カメラで撮影された映像を、ある時刻ｔからｔ'までのフレームを重ね合わせて合成する手法である。ストロボ撮影により得られた２次元的な画像（以下、２Ｄストロボ合成映像と適宜、称する）が、ユーザに対して表示される。

かかる２Ｄストロボ合成映像を得るために考慮すべき問題としては、手作業が発生するという点が挙げられる。例えば、被写体の動きが等速の場合、一定の時間間隔でフレームを間引くことにより被写体の重なりを無くして表現することは可能だが、被写体の移動速度が遅くなったときに、不適切な重なりが発生する。このような場合、手作業で間引くフレームを選択する作業が発生する。従って、このような手作業を行うことなく、ストロボ合成映像が自動で生成されることが望まれる。

ところで、被写体を取り囲むように配置された複数の撮像装置のそれぞれから得られる２次元画像データ等を用いて、被写体の３次元形状に対応する３次元データを生成することができる。本実施形態では、被写体の３次元形状である３Ｄモデルを用いたストロボ合成映像（以下、３Ｄストロボ合成映像と適宜、称する）を生成することができる（これらの処理の詳細は後述する。）。

一つの例として、各時刻における３Ｄモデルを時刻情報に基づいて重畳することにより、３Ｄストロボ合成映像を生成する手法が考えられる。かかる手法において考慮すべき問題について説明する。図１Ａに示すように、時刻ｔ１～ｔ３において、物体（３次元物体）ＡＡが視聴者に対して近づく場合を想定する。なお、時間ｔ１は時間的に先であり、時刻ｔ２、ｔ３となるにつれて時間的に後になる。また、図１では、物体ＡＡが円筒状もので模式的に示されているが、物体ＡＡは何でも良い。

図１Ｂは、各時刻における物体ＡＡを、時刻情報に基づいて重畳した３Ｄストロボ合成映像を示している。このように、物体ＡＡが近づく場合には、時刻情報のみに基づいて３Ｄストロボ合成映像を生成しても問題は生じない。

次に、図２Ａに示すように、時刻ｔ１～ｔ３において、物体ＡＡが視聴者に対して遠ざかる場合を想定する。このような場合に、単に時刻情報のみに基づいて３Ｄストロボ合成映像を作成してしまうと、時間的に後の物体が次々に上書きされていく３Ｄストロボ合成映像となってしまう。例えば、図２Ｂに示すように、時間的に前に近くにあった物体ＡＡが３Ｄストロボ合成映像における後側に表示され、時間的に後に遠くにあった物体ＡＡが３Ｄストロボ合成映像における前側に表示され不適切なものとなってしまう。かかる点を考慮する必要がある。

図３は、上述した時刻情報を優先して３Ｄストロボ合成映像を生成した場合、物体の３次元位置として、正しい重畳表現にならないことを示した図である。図３に示すように、時間の経過（時刻ｔ０、ｔ１・・ｔ４）に伴って、球状の物体ＡＢが視聴者の位置から遠ざかる場合を想定する。時刻情報を優先して３Ｄストロボ合成映像を生成すると、時刻ｔ４における物体ＡＢ、即ち、視聴者から距離的に遠くになる物体ＡＢが主体的に表示される映像になってしまう。

そこで、本実施形態では、図４に示すように、視聴者から見た被写体までの距離が一番近い物（本例における時刻ｔ０における物体ＡＢ）が手前に表示されるようにする。詳細は後述するが、かかる３Ｄストロボ合成映像を生成するために、本実施形態では、物体ＡＢに関する奥行情報を用いる。

時刻情報のみを用いて３Ｄストロボ合成映像を生成する際に考慮すべき他の問題について説明する。図５Ａに示すように、物体ＡＢの移動速度が変化した場合を考える。例えば、図５Ａに示すように、時刻ｔ３で物体ＡＢの移動速度が変化した場合（具体的には、移動速度が小さくなった場合）を想定する。図５Ｂは、図５Ａに示す物体ＡＢの軌跡を横から見た図である。かかる場合に、単純に一定間隔で物体ＡＢを重畳して３Ｄストロボ合成映像を生成すると、物体ＡＢの移動速度に変化が生じた場合に、各時刻における物体ＡＢが干渉してしまい、部分的に不適切な映像となってしまう問題がある。

従って、本実施形態では、各時刻における物体ＡＢ同士が例えば３次元的に干渉しているか否かを判定し、干渉がある場合には重畳表示せず、干渉がない場合に重畳表示する。かかる処理により、図６Ａ及び図６Ｂに模式的に示すように、適切な３Ｄストロボ合成映像を得ることができる。なお、干渉がないとは、干渉の度合いが０であることを意味しても良いし、干渉の度合いが閾値以下（例えば、１０％以下）であることを意味しても良い。

また、一般に、ある時刻tを切り取って、その瞬間を自由な視点で視聴するタイムラプス（バレットタイム）という映像表現手法が知られている。従来は、ある時刻ｔのみの被写体を自由な視点で視聴していたが、本実施形態によれば、時刻ｔ～ｔ'の３Ｄモデルを合成した３Ｄストロボ合成映像を生成するので、時刻ｔ～ｔ'におけるタイムラプス表現が可能となる。

以上説明した考慮すべき問題を踏まえつつ、本開示の実施形態について詳細に説明する。

＜実施形態＞
［画像処理装置の構成例］
本実施形態では、被写体を取り囲むように配置された複数台（少なくとも２台以上）の撮像装置を含む自由視点撮像システムが採用される。一例として、自由視点撮像システムは、６台の撮像装置を有している。６台の撮像装置は、少なくとも一部が同一である被写体の動画像の２次元画像データを同期したタイミングで撮像することで、各撮像装置の配置位置（視点）に応じた画像（視点画像）を得る。

更に、本実施形態に係る自由視点撮像システムは、被写体までの距離を測定可能な測距装置を有している。測距装置は、例えば、各撮像装置に設けられ、その撮像装置と例えば同一の視点のデプス画像データを生成する。測距装置は、６台の撮像装置の一部の撮像装置のみが測距装置を有している構成であっても良い。また、測距装置は、撮像装置とは異なる装置であっても良く、この場合、測距装置は、撮像装置と異なる視点のデプス画像データを生成しても良い。本実施形態に係る自由視点撮像システムは、４台の測距装置を有している。測距装置としては、例えば、ＴＯＦ(Time Of Fright)やＬｉＤＡＲ(Light Detection and Ranging)を挙げることができる。測距装置として、距離情報が得られるカメラ（ステレオカメラ）が適用されても良い。

各撮像装置は、撮像素子、ＣＰＵ等の制御部、ディスプレイ等の公知の構成の他、画像処理装置を有している。なお、一部の撮像装置のみが画像処理装置を有する構成であっても良い。また、画像処理装置は、必ずしも撮像装置に組み込まれているものではなく、各撮像装置と通信（無線及び有線を問わない）可能なパーソナルコンピュータ等の独立した装置であっても良い。

図７は、本実施形態にかかる画像処理装置（画像処理装置１）の構成例を説明するためのブロック図である。画像処理装置１は、例えば、カメラキャリブレーション部１１と、フレーム同期部１２と、背景差分抽出部１３と、３Ｄストロボ合成判定部１４と、干渉検出部１５と、フレーム選択部１６と、３Ｄモデル生成部１７と、３Ｄストロボ合成部１８とを有している。

カメラキャリブレーション部１１には、所定の時刻における６枚の２次元画像データ（６台の撮像装置のそれぞれにより取得された２次元画像データ）が入力される。例えば、カメラキャリブレーション部１１には、ある時刻ｔ１に被写体を撮像した複数（本実施形態では６枚）の視点画像と、他の時刻ｔ２に被写体を撮像した６枚の視点画像と、更に他の時刻ｔ３に被写体を撮像した６枚の視点画像とが入力される。なお、本実施形態では、カメラキャリブレーション部１１が取得部として機能するが、上述した視点画像が入力されるインタフェースが取得部として機能しても良い。また、本実施形態では、時刻ｔ１に被写体を撮像した複数の視点画像は、同期ずれがないことを前提にして記載しているが、同期ずれがある場合も含む。時刻ｔ２、ｔ３に被写体を撮像した複数の視点画像についても同様である。

３Ｄストロボ合成部１８からは、３Ｄストロボ合成映像が出力される。即ち、３Ｄストロボ合成部１８は、例えば時刻ｔ１から時刻ｔ３までの被写***置に基づいて、時刻ｔ１から時刻ｔ３の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻（上述した時刻ｔ１から時刻ｔ３までの時刻のうち少なくとも２つの時刻）の被写体の３Ｄモデルを含む、合成３Ｄモデル、即ち、３Ｄストロボ合成映像を生成する。

各構成について説明する。カメラキャリブレーション部１１は、入力される２次元画像データに対して、カメラパラメータを用いてキャリブレーションを行う。なお、カメラパラメータとしては、内部パラメータと外部パラメータを挙げることができる。内部パラメータは、カメラ固有のパラメータであり、例えば、カメラレンズの歪みやイメージセンサとレンズの傾き（歪収差係数）、画像中心、画像（画素）サイズを算出するものである。内部パラメータを使用することにより、レンズ光学系で歪んだ画像を正しい画像に補正することが可能となる。一方の外部パラメータは、本実施形態のように、複数台のカメラがあったときに、複数台のカメラの位置関係を算出するものである。世界座標系におけるレンズの中心座標（Translation）とレンズ光軸の方向（Rotation）を算出するものである。

カメラキャリブレーションに関する手法としては、チェスボードを使用するZhangの手法が知られている。勿論、カメラキャリブレーションに関する手法としてZhangの手法以外の手法も適用可能である、例えば、３次元物体を撮像してパラメータを求める手法、２本の光線を直接カメラに向けて撮像することでパラメータを求める手法、プロジェクタを用いて特徴点を投影し、その投影画像を使ってパラメータを求める手法、ＬＥＤ(Light Emitting Diode)ライトを振って点光源を撮像してパラメータを求める手法等を適用することも可能である。

フレーム同期部１２は、６台のうちの１つを基準撮像装置として設定し、残りを参照撮像装置とする。フレーム同期部１２は、カメラキャリブレーション部１１から供給される基準カメラの２次元画像データと参照カメラの２次元画像データに基づいて、参照カメラごとに、基準カメラに対する参照カメラの２次元画像データの同期ずれをmsecオーダーで検出する。検出した同期ずれに関する情報が保持され、当該情報に基づく補正処理が適宜、行われる。

背景差分抽出部１３は、２次元画像データ毎に被写体と背景との分離を行い、例えば、被写体のシルエットを黒、その他の領域を白で表したシルエット画像と呼ばれる２値画像を生成する。背景差分抽出部１３は、リアルタイムにシルエット画像を生成するようにしても良いし、一度、動画の撮像が終了した後、当該動画を構成するフレーム毎のシルエット画像を生成するようにしても良い。

３Ｄストロボ合成判定部１４は、後段における３Ｄストロボ合成部１８による３Ｄストロボ合成が可能であるか否かを判定する。本実施形態では、３Ｄストロボ合成判定部１４は、被写体の動きがある場合に、３Ｄストロボ合成が可能であると判定する。被写体の動きがある場合とは、被写体の動きが所定以上の場合である。なお、動きの有無を判定するための閾値は、被写体の大きさ、形状等に応じて適切に設定される。なお、被写体の動きがない場合であっても、３Ｄストロボ合成映像が生成されるようにしても良い。

干渉検出部１５は、背景差分抽出部１３により生成されたシルエット画像やシルエット画像に基づく３Ｄモデルに基づいて、被写体の干渉度を検出する。本実施形態では、干渉度が０、即ち、被写体が干渉していない場合や干渉度が所定以下の場合（以下、これらを干渉度が所定以下の場合と総称することがある）に、３Ｄストロボ合成映像が生成される。

フレーム選択部１６は、干渉検出部１５により干渉度が所定以下と判定されたフレームを選択する。

３Ｄモデル生成部１７は、各撮像装置の視点に基づく２次元画像データ及びデプス画像データ、並びに、各撮像装置のパラメータを用いて、Visual Hull等によるモデリングを行い、メッシュを作成する。そして、３Ｄモデル生成部１７は、所定の色情報に基づいてメッシュに対するテキスチャマッピングを行い、その結果である３Ｄモデルを生成する。例えば、３Ｄモデル生成部１７は、所定の時刻における、各撮像装置の視点に基づく２次元画像データ及びデプス画像データ、並びに、各撮像装置のパラメータを用いて、３Ｄモデルをリアルタイムに生成する。

３Ｄストロボ合成部１８は、３Ｄモデル生成部１７で生成された複数の３Ｄモデルを所定の背景に重畳表示することにより３Ｄストロボ合成映像を生成して出力する。

なお、生成された３Ｄストロボ合成映像は、例えば、撮像装置が有するディスプレイに表示される。３Ｄストロボ合成映像が、撮像装置と異なる装置が有するディスプレイに表示されても良い。このようなディスプレイとして、パーソナルコンピュータのディスプレイ、テレビジョン装置のディスプレイ、ＶＲ(Virtual Reality)を創出する装置のディスプレイ等が挙げられる。また、ディスプレイは、空間に存在する物体及び当該物体に映像を投射する、所謂、プロジェクションマッピング可能な装置であっても良い。

［実施形態における処理の流れ］
次に、本実施形態において行われる処理の流れの一例について説明する。図８は、当該処理の流れを示すフローチャートである。特に断らない限り、図８に示すフローチャートにおける処理は、画像処理装置１により行われる。

（処理の概要）
ステップＳＴ１１では、自由視点撮像システムにより取得された２次元画像データを含むデータ（以下、データセットと適宜、称する）が画像処理装置１に入力される。ステップＳＴ１２では、画像処理装置１が被写体の動きを判定する。ステップＳＴ１３では、ステップＳＴ１２の判定結果に基づいて、画像処理装置１が、３Ｄストロボ合成が可能であるか否かを判定する。ここで、３Ｄストロボ合成が可能でないと判定された場合には、処理がステップＳＴ１６に進み、３Ｄストロボ合成に関する処理が行われない。ステップＳＴ１３で、３Ｄストロボ合成が可能であると判定さされた場合には、処理がステップＳＴ１４に進む。ステップＳＴ１４では、画像処理装置１がモデリングするフレームを選択する。ステップＳＴ１５では、画像処理装置１が、ステップＳＴ１４で選択されたフレームに基づいて３Ｄストロボ合成を行い、３Ｄストロボ合成映像を生成する。

（ステップＳＴ１１の処理について）
各処理について、詳細に説明する。ステップＳＴ１１では、データセットが画像処理装置１に入力される。本実施形態におけるデータセットには、自由視点撮像システムにより取得された２次元画像データと、測距装置により取得された被写体の奥行情報（デプス情報）と、カメラパラメータとが含まれる。

図９は、自由視点撮像システムにより取得された２次元画像データの一例を示している。図９では、時刻ｔ０から時刻ｔ７までの間に６台の撮像装置が同期して撮像することにより得られる２次元画像データの例が示されている。本例における被写体ＡＤは、人物である。例えば、時刻ｔ０で行われた６台の撮像装置による同期した撮像により２次元画像データＩＭ１０、ＩＭ１０・・ＩＭ６０が得られる。時刻ｔ７で行われた６台の撮像装置による同期した撮像により２次元画像データＩＭ１７、ＩＭ１８・・ＩＭ６７が得られる。なお、時刻ｔは、撮像装置のフレームレート（例えば、６０fps(frame per second)、１２０fps等）に応じて設定される。

（ステップＳＴ１２の処理について）
ステップＳＴ１２では、画像処理装置１が被写体の動きを判定する。具体的には、３Ｄストロボ合成判定部１４が、データセットに含まれる被写体の奥行情報（距離情報）に基づいて、被写体の動きを判定する。

図１０Ａ及び図１０Ｂは、３Ｄストロボ合成判定部１４により行われる被写体の動きを判定する処理の一例を説明するための図である。図１０Ａ及び図１０ＢにおけるＡＳ１～ＡＳ４は、測距装置をそれぞれ示している。また、図１０Ａ及び図１０Ｂでは、スケートリンク上のスケーターである被写体ＡＥを例にして説明する。

図１０Ａに示すように、ある時刻ｔ０において、測距装置ＡＳ１により奥行情報ｄ１が計測される。同様に、測距装置ＡＳ２により奥行情報ｄ２が計測され、測距装置ＡＳ３により奥行情報ｄ３が計測され、測距装置ＡＳ４により奥行情報ｄ４が計測される。

そして、図１０Ｂに示すように、時刻０（ｔ＝０）より時間的に後の時刻ｔ'（ｔ＝ｔ'）おいて、被写体ＡＥが動いた場合は、奥行情報ｄ１、ｄ２、ｄ３、ｄ４が変化する。この変化を検出することにより、被写体ＡＥの動きの有無を判定することができる。例えば、奥行情報ｄ１、ｄ２、ｄ３、ｄ４の少なくとも１つの変化が閾値以上の場合に、被写体ＡＥの動きが有ると判定される。一方で、図１１Ａ及び図１１Ｂに示すように、時刻０及び時刻ｔ'のそれぞれにおいて測距装置ＡＳ１～ＡＳ４で取得される距離情報に変化がない場合（変化が閾値以下の場合も含む）は、被写体ＡＥの動きがないと判定される。

なお、どの程度の奥行情報の変化でもって動きがあったと判定するか、即ち、動きの有無を判定するための奥行情報に関する閾値は、被写体の形状、大きさに応じて適切に設定される。

なお、本実施形態では、４台の測距装置ＡＳ１～ＡＳ４を用いた例を説明したが、１台の測距装置でも良く、当該測距装置により得られる奥行情報の変化に基づいて、被写体の動きの有無を判定することができる。また、奥行情報ではなく、点状データ（ポイントクラウドとも称される）の発生頻度に基づいて、被写体の動きの有無を判定しても良い。測距装置やポイントクラウドの情報を使って３次元物体である被写体の移動や位置を検出することにより、被写体の動きを簡易的に確認することができる。

自由視点撮像システムにおいて、測距装置等のセンサがない場合に、被写体ＡＥの動きを判断する方法について説明する。例えば、図１２に示すように、時刻ｔからｔ'までの２次元画像データに基づくシルエット画像を生成する。この際に、時刻ｔからｔ'までの時刻を適宜、間引いて、シルエット画像に生成するための用いる２次元画像データを限定しても良い。そして、シルエット画像における被写体ＡＥに重なりがない場合には、被写体ＡＥが動いたと判定されるようにしても良い。

また、透視投影の原理を使用して、ある撮像装置の位置におけるシルエットのサイズを計測する。例えば、図１３に示すように、透視投影では、近い物体（例えば、円筒状の物体ＢＢ）は大きく、遠い物体は小さく写る。シルエットのサイズの変化が閾値以上である場合には、物体が移動したものと判定するようにしても良い。

これらの方法以外にも、被写体が人間である場合には、人間の顔検出処理等を行うことにより人間の特徴点を検出し、特徴点の移動結果に基づいて、被写体の動きの有無を判定するようにしても良い。また、被写体の動きベクトルを公知の方法に基づいて検出し、その結果に応じて被写体の動きの有無を判定するようにしても良い。また、被写体がマーカを有する構成として、当該マーカの動きを検出することにより被写体の動きを判定するようにしても良い。このようなマーカとしては、可視光以外ではっきり写る再帰反射材や、発信機等を挙げることができる。

また、自由視点撮像システムにおける複数の撮像装置のうち、所定の撮像装置により得られる２次元画像データ（それに基づくシルエット画像を含む）のみを使用して、被写体の動きを判定するようにしても良い。

（ステップＳＴ１３の処理について）
ステップＳＴ１３では、３Ｄストロボ合成判定部１４が、３Ｄストロボ合成が可能であるか否かを判定する。２次元（２Ｄ）であれ、３次元（３Ｄ）であれ、ストロボ合成映像の一つの利点は、被写体の動きの軌跡を知ることができる点である。従って、３Ｄストロボ合成判定部１４は、ステップＳＴ１２において被写体の動きがあると判定された場合に、３Ｄストロボ合成が可能であると判定する。

なお、被写体の動きがない場合であっても３Ｄストロボ合成が不可能となるわけではない。得られる３Ｄストロボ合成映像が、特定の領域に多数の３Ｄモデルが重なってしまう映像となってしまい、有意な３Ｄストロボ合成映像が得られなくなるだけである。しかしながら、この場合でも、表示方法を工夫することにより有意な３Ｄストロボ合成映像を得ることが可能となる。なお、表示方法の詳細は、後述する。

（ステップＳＴ１４の処理について）
ステップＳＴ１４では、３Ｄモデルを生成する際（モデリングする際）に使用される複数の視点画像、即ち、フレームが選択される。ステップＳＴ１４では、例えば、画像処理装置１における干渉検出部１５及びフレーム選択部１６により行われる。３Ｄモデルを生成する際にデータセットを構成する全ての２次元画像データを使用しても良いが、本実施形態では、処理の負荷や、得られる３Ｄストロボ合成映像の見やすさ等を考慮して、３Ｄモデルを生成する際に使用されるフレームを選択するようにしている。具体的には、データセットを構成する２次元画像データを時間方向に間引く。なお、間引く際は、ある時刻ｔで同期して撮像された６枚の２次元画像データが間引かれる。換言すれば、ある時刻ｔにおける６枚の２次元画像データのセットを単位として、３Ｄモデルの生成に用いるセットと、間引くフレームのセットとが選択される。

干渉検出部１５は、例えば、シルエット画像における被写体の位置を参照して、異なる時刻（例えば、前後の時刻）で撮像された被写体間の重なりの程度を示す干渉度を検出する。図１４Ａは、被写体間で重なりがない（干渉度＝０となる）場合を示している。図１４Ｂは、被写体間で重なりがある場合を示している。干渉検出部１５は、検出した干渉度をフレーム選択部１６に出力する。

フレーム選択部１６は、干渉度を参照して、より具体的には、干渉検出部１５からの干渉度が閾値（例えば１０％）以下となるように、データセットにおける２次元画像データを適宜、間引く。そして、本実施形態では、フレーム選択部１６が、間引いた後のデータセット、即ち、３Ｄモデリングに使用する２次元画像データを含むデータセットに対しては、被写体間で干渉がないことを示すフラグ、換言すれば、干渉度が閾値以下であることを示すフラグを付加する。

なお、上述した例では、シルエット画像におけるシルエットを用いて干渉度を検出する例について説明したが、被写体間の３次元的な干渉度を用いて、被写体の３次元空間における重なりの程度を判定することが好ましい。例えば、ある時刻ｔにおける６枚のシルエット画像に基づいて、３Ｄモデル生成部１７が３Ｄモデルを生成する。他の時刻における３Ｄモデルも同様に生成される。３Ｄモデルの３次元空間における位置を比較することにより、３次元空間における３Ｄモデル間の干渉度を検出することが可能となる。

なお、３Ｄモデルを使用して３次元空間な重なりを判断する際に、３Ｄモデルは、擬似的な３Ｄモデルであっても良い。擬似的な３Ｄモデルとは、例えば、全視点分（本実施形態では、６台分）のうち一部の視点分のシルエット画像に基づく３Ｄモデルであり、干渉度を算出できる程度のものである。疑似的な３Ｄモデルは３Ｄモデルに比して荒い形状となるものの３Ｄモデルに比べ高速に生成できるので、干渉度を高速に判断することができる。また、バンディングボックス（３次モデルを作成できる空間であり、一例として撮像装置の撮像範囲に対応する空間）の位置だけで判断しても良く、この場合でも同様の効果が得られる。

また、フレーム選択部１６により２次元画像データが選択された後、各２次元画像データに対応するシルエット画像が生成されるようにしても良い。

また、フレーム選択部１６は、まず時間方向に等間隔でフレームを間引いてから、更に、干渉度に基づいてフレームを間引くようにしても良い。

また、干渉度については、３次元空間における重なりの有無、即ち、論理的な０，１判定でも良いし、上述した例のように、閾値（例えば、重なりの度合いが１０％以下）としても良い。但し、閾値を用いた手法の方が、被写体の干渉度合いをコントロールできるので好ましい。また、画像認識等に基づく結果（被写体の大きさや形状等）や撮像装置に設定されているモードに基づいて、干渉度における閾値が動的に変更されるようにしても良い。

また、図１５に示すように、例えば被写体ＡＥを横方向から見た場合に、被写体ＡＥが干渉していると判定される場合であっても、上から被写体ＡＥを見た場合には、被写体ＡＥの干渉度が閾値以下と判定される場合もある。従って、複数の撮像装置のうち、被写体の干渉度を適切に判断できる撮像装置（例えば、被写体を上方向から撮像可能な、天井に設置されている撮像装置）により得られる２次元画像データ（それに基づくシルエット画像でも良い）に基づいて、被写体間の干渉度を判定するようにしても良い。

（ステップＳＴ１５の処理について）
ステップＳＴ１５では、３Ｄストロボ合成処理が行われる。３Ｄストロボ合成処理は、例えば、３Ｄモデル生成部１７及び３Ｄストロボ合成部１８により行われる。３Ｄモデル生成部１７は、フレーム選択部１６により選択された、ある時刻ｔにおける６枚の２次元画像データに対応する６枚のシルエット画像を使用して、３Ｄモデルを生成する。同様に、３Ｄモデル生成部１７は、フレーム選択部１６により選択された、他の時刻における６枚の２次元画像データに対応する６枚のシルエット画像を使用して、３Ｄモデルを生成する。そして、３Ｄストロボ合成部１８は、生成した各３Ｄモデルを所定の背景の所定の位置にそれぞれマッピングし、図１６に例示するような３Ｄストロボ合成映像を生成する。なお、図１６は、図示の制約上、被写体ＡＥが２次元的に示されているが、実際には３Ｄモデルにて表示される。また、図１６に示す例は、３Ｄストロボ合成映像における各３Ｄモデルが互いに干渉していない例を示しているが、一部が干渉していても良い。上述したように、３Ｄストロボ合成映像における３次元空間における干渉度が所定以下であれば良い。

なお、３Ｄストロボ合成部１８は、ある時刻ｔ～所定の時刻ｔ'までの画像を合成して一括で３Ｄモデルを生成するようにしても良い。例えば、フレーム選択部１６により選択されたフレーム（２次元画像データ）に対応するシルエット画像が、対応する撮像装置毎（視点毎）に時間方向に沿って合成される。そして、撮像装置毎に合成された６枚のシルエット画像（以下、合成シルエット画像と適宜、称する）が得られる。この６枚の合成シルエット画像を用いて一括で３Ｄモデルを生成するようにしても良い。本実施形態では、被写体間の干渉度が所定以下の場合に３Ｄモデルを生成するようにしているので、合成シルエット画像に基づいて、一括して３Ｄモデルを生成することが可能となる。かかる処理により並列処理が可能となり、処理の短縮化を図ることができる。

以上説明したように、本実施形態によれば、３Ｄストロボ合成映像を自動で生成することができる。また、被写体間の干渉度合いを考慮して３Ｄストロボ合成映像を生成しているので、手作業で間引くフレームを選択することなく、適切な３Ｄストロボ合成映像を生成することができる。また、ある時刻ｔから時刻ｔ'までの被写体変化を自由な視点で視聴することができる。

［伝送システム］
次に、本実施形態にかかる伝送システムについて説明する。本出願人は、３Ｄデータを効率的に伝送する手法として、国際公開２０１７／０８２０７６号に記載の技術を先に提案している。先の提案にて開示されている事項は、本開示に対して適用することができる。

（伝送システムの概略）
先に提案された技術を踏まえつつ、本実施形態にかかる伝送システムについて説明する。図１７は、実施形態にかかる伝送システム（以下、伝送システム１００と適宜、称する）を示している。伝送システム１００は、送信側として、３次元データ撮像装置１０１と、変換装置１０２と、符号化装置１０３とを有している。また、伝送システム１００は、受信側として、復号化装置２０１と、変換装置２０２と、３次元データ表示装置２０３とを有している。

３次元データ撮像装置１０１としては、上述した自由視点撮像システムを適用することができる。即ち、３次元データ撮像装置１０１により、各撮像装置により撮像された２次元画像データとデプス画像データが得られる。

また、各撮像装置が有する画像処理装置１は、各撮像装置の視点の２次元画像データ及びデプス画像データ、並びに、各撮像装置の内部パラメータ及び外部パラメータを用いて、Visual Hull等によるモデリングを行い、メッシュを作成する。画像処理装置１は、作成されたメッシュを構成する各点（Vertex）の３次元位置と各点のつながり（Polygon）を示す幾何情報（Geometry）と、そのメッシュの２次元画像データとを被写体の３次元データとして生成する。

なお、複数の視点の２次元画像データとデプス画像データから３次元データを生成する方法の詳細は、例えば、Saied Moezzi, Li-Cheng Tai, Philippe Gerard, “Virtual View Generation for 3D Digital Video”, University of California, San DiegoやTakeo Kanade and Peter Rander,P.J. Narayanan, " Virtualized Reality:Constructing Virtual Worlds from Real Scenes"に記載されている。

変換装置１０２は、所定の表示画像生成方式に対応する複数の視点の仮想カメラの内部パラメータと外部パラメータをカメラパラメータとして設定する。そして、カメラパラメータに基づいて、各撮像装置から供給される３次元データを２次元画像データ及びデプス画像データに変換し、所定の表示画像生成方式に対応する複数の視点の２次元画像データとデプス画像データとを生成する。変換装置１０２は、生成した２次元画像データとデプス画像データとを符号化装置１０３に供給する。

なお、３次元データから複数の視点の２次元画像データとデプス画像データを生成する３ＤＣＧ技術の詳細は、例えば、谷本正幸、「究極の映像通信を目指して」電子情報通信学会技術研究報告. CS, 通信方式 110(323), 73-78, 2010-11-25等に記載されている。

本明細書では、２次元画像データとデプス画像データの視点は同一であるものとするが、２次元画像データとデプス画像データの視点及び視点の数は、異なっていてもよい。また、２次元画像データとデプス画像データの視点及び視点の数は、撮像装置のカメラの視点と同一であっても、異なっていてもよい。

符号化装置１０３は、各撮像装置から供給される３次元データから、所定の表示画像生成方式に対応する複数の視点からは見えないオクルージョン領域の３次元データ（以下、オクルージョン３次元データという）を抽出する。そして、符号化装置１０３は、所定の表示画像生成方式に対応する複数の視点の２次元画像データ及びデプス画像データ、オクルージョン３次元データ、並びに、各視点のカメラパラメータ等の仮想カメラに関する情報であるカメラ関連情報を含むメタデータに対する所定の符号化方式による符号化処理を、符号化部（不図示）により行う。符号化方式としては、ＭＶＣＤ（Multiview and depth video coding）方式、ＡＶＣ方式、ＨＥＶＣ方式等を採用することができる。

符号化方式がＭＶＣＤ方式である場合、全ての視点の２次元画像データとデプス画像データは、まとめて符号化される。その結果、２次元画像データとデプス画像データの符号化データとメタデータを含む１本の符号化ストリームが生成される。この場合、メタデータのうちのカメラパラメータは、符号化ストリームのreference displays information SEIに配置される。また、メタデータのうちのデプス画像データに関する情報は、Depth representation information SEIに配置される。

一方、符号化方式がＡＶＣ方式やＨＥＶＣ方式である場合、各視点のデプス画像データと２次元画像データは別々に符号化される。その結果、各視点の２次元画像データとメタデータを含む各視点の符号化ストリームと、各視点のデプス画像データの符号化データとメタデータとを含む各視点の符号化ストリームが生成される。この場合、メタデータは、例えば、各符号化ストリームのUser unregistered SEIに配置される。また、メタデータには、符号化ストリームとカメラパラメータ等とを対応付ける情報が含まれる。

なお、メタデータに符号化ストリームとカメラパラメータ等とを対応付ける情報を含めず、符号化ストリームに、その符号化ストリームに対応するメタデータのみを含めるようにしてもよい。

符号化装置１０３は、符号化ストリームを復号化装置２０１に伝送する。なお、本明細書では、メタデータが符号化ストリームに配置されて伝送されるようにするが、符号化ストリームとは別に伝送されるようにしてもよい。

復号化装置２０１が有する復号化部（不図示）は、符号化装置１０３から伝送されてくる符号化ストリームを受け取り、符号化ストリームを符号化方式に対応する方式で復号する。復号化部は、その結果得られる複数の視点の２次元画像データ及びデプス画像データ、並びにメタデータを変換装置２０２に供給する。

変換装置２０２は、複数の視点の２次元画像データとデプス画像データから、３Ｄモデルを生成し、所定の背景に３Ｄモデルをマッピングした表示画像データを生成する。そして、変換装置２０２は、表示画像データを３次元データ表示装置２０３に供給する。

３次元データ表示装置２０３は、２次元ヘッドマウントディスプレイや２次元モニタ、３次元ヘッドマウントディスプレイや３次元モニタなどにより構成される。３次元データ表示装置２０３は、供給される表示画像データに基づいて、３Ｄストロボ合成映像を表示する。なお、３Ｄストロボ合成映像ではなく、個々の３Ｄモデルを独立したモデルで表現（例えば、表示）することも可能である。

（伝送システムにおける３Ｄモデルの生成）
図１８は、上述した伝送システム１００をより簡略化して示している。送信側では、３Ｄモデルが生成され、３Ｄモデルが２次元画像データ（ＲＧＢ等の色情報を含む）及びデプス画像データに変換される。２次元画像データ、デプス画像データ等が符号化装置１０３により符号化されて伝送される。

送信側において３Ｄモデルを生成する際に、上述した３Ｄモデルの生成方法を適用することができる。伝送区間は３Ｄストロボ合成映像で表現すると送信側で決めている場合は、フレーム数を削減することができる。即ち、上述したように、３Ｄモデルを生成する際に本実施形態ではフレーム選択部１６により３Ｄモデル生成に使用するフレームが選択されているため、伝送するデータ量を削減することができる。例えば、自由視点撮像システムにおいて得られたフレーム数が１２０フレームであった場合でも、３Ｄストロボ合成するために間引いて表現するために、伝送するフレーム数が少なく（例えば、１２フレーム）で済む。なお、図示する例では、２次元画像データ、デプス画像データ及びメタデータを符号化して伝送するようにしているが、３Ｄモデルそのものを、換言すれば、受信側で３Ｄモデルを再現可能な３次元データを所定の符号化形式で符号化してから伝送するようにしても良い。受信側では、３Ｄモデルが送信された場合には、対応する２次元画像データに基づいてテキスチャマッピングすれば良い。

なお、受信側では、送信側から伝送される２次元画像データとデプス画像データとに基づいて３次元データを生成し、自由視点に対して、その３次元データに対応する３次元物体の透視投影を行うことにより、自由視点の２次元画像データを生成することができる。従って、送信側から３Ｄモデルを送信した場合でも、受信側で当該３Ｄモデルに対応する２次元画像データを生成することができる。

なお、図１９に示すように、送信データ（符号化されたデータ）に３Ｄストロボ合成フラグを含めるようにしても良い。受信側は、送信側から送信されるデータに３Ｄストロボ合成フラグが含まれる場合や、そのフラグが「１」（又は「０」でも良い。）である場合のみに、３Ｄストロボ合成映像を生成する処理を行うようにしても良い。

また、３Ｄストロボ合成フラグがない場合に、受信側で３Ｄストロボ合成映像を生成できるか否かの判断が行われるようにしても良い。例えば、図２０に示すように、送信側からは、２次元画像データのみを送信する。受信側では、２次元画像データにおける被写体のデプス情報を公知の画像処理を使用して求める。また、受信側で、上述した３Ｄモデルを生成する処理が行われ、３Ｄストロボ合成映像の生成が可能であるか否かが判断される。３Ｄストロボ合成映像の生成が可能である場合に、３Ｄストロボ合成映像が生成されるようにしても良い。

（物体分離を行う方法について）
なお、図２１に示すように、被写体間の干渉度が所定以下の場合に、３次元空間において被写体が干渉していないことを示すフラグを付加して良いことは既に述べた通りである。かかるフラグを伝送することで、受信側における物体分離が可能となる。この点について詳細に説明する。

図２２Ａは、時刻ｔ０から時刻ｔ２までの球状の被写体ＡＦの移動の様子を示している。図２２Ｂは、各時刻の被写体ＡＦに対応するシルエット画像を示している。一般的には、各時刻における被写体ＡＦの位置に応じたシルエット画像ＳＩ１～ＳＩ３が生成される。

図２３Ａは、図２３Ａと同様に、時刻ｔ０から時刻ｔ２までの球状の被写体ＡＦの移動の様子を示している。本実施形態では、図２３Ｂに示すように、例えば、シルエット画像ＳＩ１～ＳＩ３を合成した合成シルエット画像ＳＩ４を生成できる。

ここで、図２４に示すように、時刻ｔの経過に伴って移動する被写体ＡＦを、５台の撮像装置で取り囲んで撮像する自由視点撮像システムを想定する。かかる自由視点撮像システムにて得られた２次元画像データ等を伝送する際に３次元空間で被写体が干渉していないことを示すフラグと共に、図２５に示すように、背景画像をあわせて伝送する。なお、カメラパラメータには、３次元位置における各撮像装置の位置が含まれている。また、図２５における２次元画像データ及びデプス画像データは、色情報を含む３Ｄモデルであっても良い。

受信側では、背景画像とカメラパラメータとを参照することにより、３Ｄストロボ合成映像に対応するシルエット画像を生成することができる。かかるシルエット画像の例が図２６Ａにシルエット画像ＳＩ５～ＳＩ９として示されている。更に、受信側では、背景画像を参照することにより、例えば、シルエット画像ＳＩ５からある時刻における被写体ＡＦに対応するシルエットを分離することも可能である。

シルエットの分離は、３Ｄモデルをカメラ視点に再投影することにより可能となる。シルエットを分離する方法の一例について説明する。Visual Hull（視体積交差法）は複数台のカメラが撮影するシルエット画像を使って、３Ｄ物体（メッシュ）を生成する。例えば、図２４に示した５台の撮像装置を利用した自由視点撮像システムにより得られる合成シルエット画像ＳＩ５画像を用いてVisual Hullが生成される。この状態では、まだ３つの物体がくっついた状態（円柱が３つ横並びで引っ付いた状態）である。次に合成シルエット画像ＳＩ６像を使ってVisual Hullを削る。これにより、３Ｄ物体が３つに分離される。この順で合成シルエット画像ＳＩ９までシルエット画像をVisual Hullの立方体に投影していくと、３つの球体が出来上がる。画像データ（物体の光線情報）から、Visual Hullを生成できたということは、カメラパラメータが既知の場合であれば、３Ｄ物体のデプスをカメラに再投影することが可能となる。即ち、物体ごとにデプス情報をカメラに再投影すると、そのカメラに映っている形状を判別することができる。更にそのデプスを論理的な２値である０，１情報に変換すると、それが分離されたシルエットになる。以上のようにして、シルエットの分離が可能となる。

そして、分離されたある時刻におけるシルエットを含むシルエット画像に基づいて、独立した３Ｄモデルを生成することも可能となる。更に、被写体ＡＦの動きベクトルが検出できる場合には、被写体ＡＦのある時刻における位置を補間することができる。そして、補間された被写体ＡＦの位置にシルエットを含むシルエット画像を生成でき、当該シルエット画像に基づく３Ｄモデルを生成することができる。

このように、伝送システム１００において、被写体間の干渉がないことを示すフラグを付加することで、送信側は、例えば、ある時刻ｔからｔ'までの１枚の合成シルエット画像を送信すれば良く、伝送されるデータのデータ量を削減できる。受信側では、１枚の合成シルエット画像に基づいて、各時刻における被写体を分離したシルエット画像を生成することができる。生成したシルエット画像に基づいて３Ｄモデルを生成することができる。受信側は、生成した３Ｄモデルを独立したモデルとして表示しても良いし、生成した各時刻における３Ｄモデルを所定の背景に重畳させることにより生成した３Ｄストロボ合成映像を表示しても良い。

［表示例］
次に、３Ｄストロボ合成映像における各３Ｄモデルの表示例について説明する。なお、以下に説明する表示に関する制御は、例えば、３Ｄストロボ合成部１８により行われる。本実施形態では、３Ｄストロボ合成部１８を表示制御部の一例として説明するが、画像処理装置１が、３Ｄストロボ合成部１８とは異なる表示制御部を有する構成でも良い。

（第１の表示例）
第１の表示例は、被写体が視聴者から遠ざかる場合に、時間的に最新の被写体（オブジェクト）、換言すれば、位置的に奥側にある被写体をより鮮明に見えるようにする表示例である。例えば、図２７に示す３Ｄストロボ合成映像では、時間的に最新（図示の例では時刻ｔ４）の被写体が見えない若しくは見づらくなってしまう。そこで、図２８に示すように、時間的に最新の被写体が鮮明に見えるようにする。例えば、時間的に前の被写体（図示の例では、時刻ｔ０～時刻ｔ３の被写体）をワイヤフレーム表示したり、半透明にしたり、疎なポイントクラウドにする。また、時間的に前の被写体（時刻ｔ０における被写体）から最新の被写体（時刻ｔ４における被写体）にかけて、被写体の濃度が濃くなるようにしても良い。かかる表示により、視聴者は奥にある３Ｄモデルを鮮明に見ることが可能となる。

（第２の表示例）
第２の表示例は、生成した３Ｄモデルを本来の位置と異なる位置に配置する例である。被写体の動きがない場合や、被写体の動きが所定以下の場合であっても３Ｄストロボ合成映像を生成しても良いことは、既に説明した通りである。かかる場合に、生成した３Ｄモデルを本来の位置で単純に配置してしまうと、図２９Ａに模式的に示すように、３Ｄモデルが特定の領域に集中した映像となってしまう。

そこで、各時刻で３Ｄモデルを生成し、３Ｄモデルを表示する位置を本来の位置と異なるように、換言すれば、互いの３Ｄモデルの干渉度が所定以下となるように各３Ｄモデルを再配置して３Ｄストロボ合成映像を生成する。例えば、図２９Ｂに示すように、生成した３Ｄモデルを本来の位置と異なる円状の方向にそれぞれ配置した３Ｄストロボ合成映像を生成する。また、図２９Ｃに示すように、生成した３Ｄモデルを本来の位置と異なる横方向の方向にそれぞれ配置した３Ｄストロボ合成映像を生成するようにしても良い。なお、このように複数の３Ｄモデルの配置を調整した場合、一部の３Ｄモデルの位置が本来の位置と一致していても良い。

なお、複数の異なる被写体（例えば、サッカーやバスケットボールにおける選手）が存在する場合は、特定の被写体をトラッキングする、若しくは、各被写体を識別するフラグ等を設定することにより、被写体毎の３Ｄストロボ合成映像を生成することができる。

＜変形例＞
以上、本開示の実施形態について具体的に説明したが、本開示の内容は上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。

本開示は、装置、方法、プログラム、システム等により実現することもできる。例えば、上述した実施形態で説明した機能を行うプログラムをダウンロード可能とし、実施形態で説明した機能を有しない装置が当該プログラムをダウンロードしてインストールすることにより、当該装置において実施形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバにより実現することも可能である。また、各実施形態、変形例で説明した事項は、適宜組み合わせることが可能である。

本開示は、以下の構成も採ることができる。
（１）
第１時刻に被写体を撮像した複数の視点画像と、第２時刻に上記被写体を撮像した複数の視点画像と、第３時刻に上記被写体を撮像した複数の視点画像を取得する取得部と、
各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデルを含む、合成３Ｄモデルを生成する画像生成部とを有する
画像処理装置。
（２）
前記被写体の位置の変化に応じて前記被写体の動きの有無を判定する判定部を有し、
前記画像生成部は、前記判定部により前記被写体の動きがあると判定された場合に、前記合成３Ｄモデルを生成する
（１）に記載の画像処理装置。
（３）
前記３Ｄモデルを生成する際に用いられる前記複数の視点画像を選択する選択部を有する
（１）又は（２）に記載の画像処理装置。
（４）
前記３Ｄモデルを生成する際に用いられる前記複数の視点画像は、少なくとも、時刻が異なる被写体間の干渉度を参照して前記選択部により選択された画像である
（３）に記載の画像処理装置。
（５）
前記干渉度は、所定の複数の視点画像に基づいて生成された３Ｄモデルと、他の複数の視点画像に基づいて生成された３Ｄモデルとの３次元空間における重なりの度合いを示す情報である
（４）に記載の画像処理装置。
（６）
前記干渉度は、所定の複数の視点画像のうちの一部の視点画像に基づいて生成された擬似的な３Ｄモデルと、他の複数の視点画像のうちの一部の視点画像に基づいて生成された擬似的な３Ｄモデルとの３次元空間における重なりの度合いを示す情報である
（４）に記載の画像処理装置。
（７）
前記合成３Ｄモデルに含まれる各３Ｄモデルの３次元空間における干渉度が所定以下である
（１）から（６）までの何れかに記載の画像処理装置。
（８）
前記合成３Ｄモデルに含まれる各３Ｄモデルが、３次元空間において互いに干渉していない
（７）に記載の画像処理装置。
（９）
前記３Ｄモデルは、対応する時刻で得られた複数の視点画像に基づいて、リアルタイムに生成される
（１）から（８）までの何れかに記載の画像処理装置。
（１０）
前記３Ｄモデルは、各時刻の複数の視点画像を視点毎に合成した合成画像に基づいて生成される
（１）から（９）までの何れかに記載の画像処理装置。
（１１）
前記３Ｄモデルは、前記視点画像から被写体と背景とを分離したシルエット画像に基づいて生成される
（１）から（１０）までの何れかに記載の画像処理装置。
（１２）
前記合成３Ｄモデルを表示装置へ表示する表示制御部を有する
（１）から（１１）までの何れかに記載の画像処理装置。
（１３）
前記表示制御部は、前記合成３Ｄモデルに含まれる複数の３Ｄモデルのうち、時間的に後の３Ｄモデルを他の３Ｄモデルに比べて鮮明に表示する
（１２）に記載の画像処理装置。
（１４）
前記表示制御部は、前記被写体の位置の変化が所定以下の場合に、前記３Ｄモデルの表示位置を本来の位置と異なる位置に配置して生成された合成３Ｄモデルを表示する
（１２）に記載の画像処理装置。
（１５）
第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、前記３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、
前記各時刻における３Ｄモデルが干渉していないことを示すフラグとを
所定の符号化方式で符号化することにより符号化データを生成する符号化部を有する符号化装置。
（１６）
第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、前記３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、前記視点画像を取得する撮像装置のカメラパラメータと、前記視点画像の背景画像が含まれる符合化データを復号する復号部を有し、
前記復号部は、前記背景画像と前記カメラパラメータとに基づいて、前記３Ｄモデルを含む合成３Ｄモデルを生成し、当該合成３Ｄモデルに基づく画像から、所定の時刻における被写体を分離する
復号化装置。
（１７）
取得部が、第１時刻に被写体を撮像した複数の視点画像と、第２時刻に上記被写体を撮像した複数の視点画像と、第３時刻に上記被写体を撮像した複数の視点画像を取得し、
画像生成部が、各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデルを含む、合成３Ｄモデルを生成する
画像処理方法。
（１８）
取得部が、第１時刻に被写体を撮像した複数の視点画像と、第２時刻に上記被写体を撮像した複数の視点画像と、第３時刻に上記被写体を撮像した複数の視点画像を取得し、
画像生成部が、各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデルを含む、合成３Ｄモデルを生成する
画像処理方法をコンピュータに実行させるプログラム。
（１９）
符号化部が、
第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、前記３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、
前記各時刻における３Ｄモデルが干渉していないことを示すフラグとを
所定の符号化方式で符号化することにより符号化データを生成する
符号化方法。
（２０）
復号化部が、
第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、前記３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、前記視点画像を取得する撮像装置のカメラパラメータと、前記視点画像の背景画像が含まれる符合化データを復号し、
前記背景画像と前記カメラパラメータとに基づいて、前記３Ｄモデルを含む合成３Ｄモデルを生成し、当該合成３Ｄモデルに基づく画像から、所定の時刻における被写体を分離する
復号化方法。

１・・・画像処理装置、１１・・・カメラキャリブレーション部、１４・・・３Ｄストロボ合成判定部、１５・・・干渉検出部、１６・・・フレーム選択部、１７・・・３Ｄモデル生成部、１８・・・３Ｄストロボ合成部、１００・・・伝送システム、１０１・・・符号化装置、２０１・・・復号化装置

Claims

第１時刻に被写体を撮像した複数の視点画像と、第２時刻に前記被写体を撮像した複数の視点画像と、第３時刻に前記被写体を撮像した複数の視点画像を取得する取得部と、
各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデルを含む、合成３Ｄモデルを生成する画像生成部と、
前記３Ｄモデルを生成する際に用いられる前記複数の視点画像を選択する選択部とを有し、
前記３Ｄモデルを生成する際に用いられる前記複数の視点画像は、少なくとも、時刻が異なる被写体間の干渉度を参照して前記選択部により選択された画像であり、
前記干渉度は、所定の複数の視点画像に基づいて生成された３Ｄモデルと、他の複数の視点画像に基づいて生成された３Ｄモデルとの３次元空間における重なりの度合いを示す情報である
画像処理装置。
前記被写体の位置の変化に応じて前記被写体の動きの有無を判定する判定部を有し、
前記画像生成部は、前記判定部により前記被写体の動きがあると判定された場合に、前記合成３Ｄモデルを生成する
請求項１に記載の画像処理装置。
前記所定の複数の視点画像に基づいて生成された３Ｄモデルは、前記所定の複数の視点画像のうちの一部の視点画像に基づいて生成された擬似的な３Ｄモデルであり、前記他の複数の視点画像に基づいて生成された３Ｄモデルは、前記他の複数の視点画像のうちの一部の視点画像に基づいて生成された擬似的な３Ｄモデルである
請求項２に記載の画像処理装置。
前記合成３Ｄモデルに含まれる各３Ｄモデルの前記３次元空間における干渉度が所定以下である
請求項１に記載の画像処理装置。
前記合成３Ｄモデルに含まれる各３Ｄモデルが、前記３次元空間において互いに干渉していない
請求項４に記載の画像処理装置。
前記３Ｄモデルは、対応する時刻で得られた複数の視点画像に基づいて、リアルタイムに生成される
請求項１に記載の画像処理装置。
前記３Ｄモデルは、各時刻の複数の視点画像を視点毎に合成した合成画像に基づいて生成される
請求項１に記載の画像処理装置。
前記３Ｄモデルは、前記視点画像から被写体と背景とを分離したシルエット画像に基づいて生成される
請求項１に記載の画像処理装置。
前記合成３Ｄモデルを表示装置へ表示する表示制御部を有する
請求項１に記載の画像処理装置。
前記表示制御部は、前記合成３Ｄモデルに含まれる複数の３Ｄモデルのうち、時間的に後の３Ｄモデルを他の３Ｄモデルに比べて鮮明に表示する
請求項９に記載の画像処理装置。
前記表示制御部は、前記被写体の位置の変化が所定以下の場合に、前記３Ｄモデルの表示位置を本来の位置と異なる位置に配置して生成された合成３Ｄモデルを表示する
請求項９に記載の画像処理装置。
第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、前記３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、
前記各時刻における３Ｄモデルが３次元空間において干渉していないことを示すフラグとを
所定の符号化方式で符号化することにより符号化データを生成する符号化部を有する
符号化装置。
第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、前記３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、前記視点画像を取得する撮像装置のカメラパラメータと、前記視点画像の背景画像と、前記各時刻における３Ｄモデルが３次元空間において干渉していないことを示すフラグとが含まれる符合化データを復号する復号部と、
前記背景画像と前記カメラパラメータと前記フラグとに基づいて、各時刻における被写体が分離された画像を生成し、生成された画像に基づいて３Ｄモデルを生成する変換部とを有する
復号化装置。
取得部が、第１時刻に被写体を撮像した複数の視点画像と、第２時刻に前記被写体を撮像した複数の視点画像と、第３時刻に前記被写体を撮像した複数の視点画像を取得し、
画像生成部が、各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデルを含む、合成３Ｄモデルを生成し、
選択部が、前記３Ｄモデルを生成する際に用いられる前記複数の視点画像を選択し、
前記３Ｄモデルを生成する際に用いられる前記複数の視点画像は、少なくとも、時刻が異なる被写体間の干渉度を参照して前記選択部により選択された画像であり、
前記干渉度は、所定の複数の視点画像に基づいて生成された３Ｄモデルと、他の複数の視点画像に基づいて生成された３Ｄモデルとの３次元空間における重なりの度合いを示す情報である
画像処理方法。
取得部が、第１時刻に被写体を撮像した複数の視点画像と、第２時刻に前記被写体を撮像した複数の視点画像と、第３時刻に前記被写体を撮像した複数の視点画像を取得し、
画像生成部が、各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデルを含む、合成３Ｄモデルを生成し、
選択部が、前記３Ｄモデルを生成する際に用いられる前記複数の視点画像を選択し、
前記３Ｄモデルを生成する際に用いられる前記複数の視点画像は、少なくとも、時刻が異なる被写体間の干渉度を参照して前記選択部により選択された画像であり、
前記干渉度は、所定の複数の視点画像に基づいて生成された３Ｄモデルと、他の複数の視点画像に基づいて生成された３Ｄモデルとの３次元空間における重なりの度合いを示す情報である
画像処理方法をコンピュータに実行させるプログラム。
符号化部が、
第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、前記３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、
前記各時刻における３Ｄモデルが３次元空間において干渉していないことを示すフラグとを
所定の符号化方式で符号化することにより符号化データを生成する
符号化方法。
復号化部が、第１時刻、第２時刻及び第３時刻における各時刻の被写***置に基づいて、前記第１時刻から前記第３時刻の少なくとも２つの時刻における各時刻の複数の視点画像に基づいて生成された各時刻の被写体の３Ｄモデル、及び、前記３Ｄモデルから変換された２Ｄ画像データ及び当該２Ｄ画像データに含まれる被写体の奥行を示すデプス画像データのうち、少なくとも一方と、前記視点画像を取得する撮像装置のカメラパラメータと、前記視点画像の背景画像と、前記各時刻における３Ｄモデルが３次元空間において干渉していないことを示すフラグとが含まれる符合化データを復号し、
変換部が、前記背景画像と前記カメラパラメータと前記フラグとに基づいて、各時刻における被写体が分離された画像を生成し、生成された画像に基づいて３Ｄモデルを生成する
復号化方法。