JP7275583B2

JP7275583B2 - 背景モデル生成装置、背景モデル生成方法及び背景モデル生成プログラム

Info

Publication number: JP7275583B2
Application number: JP2019001928A
Authority: JP
Inventors: 恵近野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2023-05-18
Anticipated expiration: 2039-01-09
Also published as: JP2020112928A

Description

本発明は、背景モデル生成装置、背景モデル生成方法及び背景モデル生成プログラムに関する。

自由視点映像生成という技術が知られている。例えば、自由視点映像が生成される場合、複数の視点ごとに撮像された画像の各々から前景および背景が分離されたのち、前景部分および背景部分の各々について、３次元モデルが再現される。このように、前景部分の３次元モデルおよび背景部分の３次元モデルにより再現された３次元空間を、指定された仮想視点から見た映像として、提供する。

これらの３次元モデルのうち、前景部分の３次元モデルの生成には、ＶｉｓｕａｌＨｕｌｌが用いられる。一方、背景部分の３次元モデルは、コンピュータグラフィックスや３次元測距等を用いて予め生成される。そして、レンダリングの際に、複数の視点から撮像されたカメラ画像のうち、指定された仮想視点に対応するカメラ画像を前景部分の３次元モデルおよび背景部分の３次元モデルに投影する。なお、仮想視点には、カメラの視点に限らず、３次元空間上の任意の視点を指定することができる。

ここで、予め準備した３次元の背景モデルは、背景に含まれる被写体のうち動きがない被写体、例えばスポーツ観戦が行われるスタジアムなどの構造物やその観客席などの設備がモデリングされたものに過ぎない。このため、観客席でスポーツ観戦を行う観客などの動的背景が含まれる場合、自由視点画像の画質が低下する。

なぜなら、動的背景が含まれる場合、仮想視点から背景モデルまでの奥行きと、仮想視点から動的背景までの奥行きとの間にずれが生じるからである。この奥行きのずれが一因となって、テクスチャとして用いられるカメラ画像のうち誤ったテクスチャ座標の画素がマッピングされる結果、自由視点画像の画質が低下する。

このような動的背景に対応する側面から、次のような自由視点映像生成装置が提案されている。この自由視点映像生成装置は、まず、参照画像と奥行マップから各フレームの仮の自由視点画像を生成する。そして、自由視点映像生成装置は、参照画像と奥行マップから曲面背景バッファに保存する背景画像とその奥行値とを背景領域として抽出する。その上で、自由視点映像生成装置は、仮の自由視点画像を曲面背景バッファに保存した背景画像とその奥行値で補完する。

特開２００６－１４６８４６号公報

しかしながら、上記の技術では、依然として、背景モデル及び動的背景のデプスのずれを低減できない場合がある。

すなわち、上記の自由視点映像生成装置では、参照画像の奥行分布が平滑化されたガウス分布のうち極小値に対応する奥行を前景と背景の分割に用いることにより、背景領域が抽出される。ところが、背景領域の抽出に奥行値が用いられる場合、前景と背景との奥行値が近くなるにつれて両者の分割が困難になる。このため、上記の曲面背景バッファには、前景に対応する被写体が誤って背景として保存される結果、デプスのずれが拡大する。

１つの側面では、本発明は、背景モデル及び動的背景のデプスのずれを低減させることができる背景モデル生成装置、背景モデル生成方法及び背景モデル生成プログラムを提供することを目的とする。

一態様では、背景モデル生成装置は、所定の撮像位置からカメラにより撮像されたカメラ画像を取得する取得部と、前記撮像位置に対応するデプス画像を算出する算出部と、前記カメラ画像に含まれる複数の画素を前景と背景に分離する分離部と、前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正する補正部と、前記補正部により補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する背景生成部と、を有する。

背景モデル及び動的背景のデプスのずれを低減させることができる。

図１は、実施例１に係る映像生成システムの構成例を示す図である。図２Ａは、カメラ画像の一例を示す図である。図２Ｂは、シルエット画像の一例を示す図である。図３は、ＶｉｓｕａｌＨｕｌｌの一例を示す図である。図４は、レンダリングの一例を示す図である。図５は、スタジアムの断面図の一例を示す図である。図６は、実施例１に係るサーバ装置の機能的構成を示すブロック図である。図７は、実施例１に係る各機能部間で授受されるデータの一例を示す図である。図８Ａは、シルエット画像の一例を示す図である。図８Ｂは、デプス画像の一例を示す図である。図９Ａは、画像ＩＤの一例を示す図である。図９Ｂは、フィルタの畳み込み演算の一例を示す図である。図９Ｃは、フィルタの畳み込み演算の一例を示す図である。図１０Ａは、時間フィルタリングにおける注目画素の一例を示す図である。図１０Ｂは、フィルタの畳み込み演算の一例を示す図である。図１１は、実施例１に係る映像生成処理の手順を示すフローチャートである。図１２は、応用例１における各機能部間で授受されるデータの一例を示す図である。図１３は、評価値とデプスのグラフの一例を示す図である。図１４は、応用例１に係る映像生成処理の手順を示すフローチャートである。図１５は、実施例１及び実施例２に係る背景モデル生成プログラムを実行するコンピュータのハードウェア構成例を示す図である。

以下に添付図面を参照して本願に係る背景モデル生成装置、背景モデル生成方法及び背景モデル生成プログラムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

［システム構成］
図１は、実施例１に係る映像生成システムの構成例を示す図である。図１に示す映像生成システム１は、一側面として、視点が異なる複数のカメラ５Ａ～５Ｎが撮像する多視点のカメラ画像を組み合わせることにより自由視点映像を生成する映像生成サービスを提供するものである。

図１に示すように、映像生成システム１には、カメラ５Ａ～５Ｎと、サーバ装置１０と、クライアント端末３０とが含まれる。以下では、カメラ５Ａ～５Ｎのことを「カメラ５」と記載する場合がある。なお、図１には、あくまで一例として、１つのクライアント端末３０を図示したが、任意の数のクライアント端末３０が映像生成システム１に含まれることとしてもかまわない。

サーバ装置１０及びクライアント端末３０の間は、所定のネットワークＮＷを介して接続される。例えば、ネットワークＮＷは、有線または無線を問わず、インターネット、ＬＡＮ（Local Area Network）やＶＰＮ（Virtual Private Network）などの任意の種類の通信網により構築することができる。あくまで一例として、図１には、自由視点映像がネットワークＮＷを経由して提供される場合を例示するが、これはあくまで映像提供形態の一例に過ぎず、サーバ装置１０及びクライアント端末３０の間で必ずしも双方向に通信が行われずともかまわない。例えば、ネットワークＮＷを経由せず、自由視点映像が放送波を介してクライアント端末３０へ提供されることとしてもかまわない。

カメラ５は、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を搭載する撮像装置である。

例えば、複数のカメラ５の撮影範囲が組み合わさることにより自由視点映像の生成対象とする３次元空間の全域が複数のカメラ５の撮影範囲に収まる配置で各カメラ５が設置される。さらに、２つ以上のカメラ５により撮像されたカメラ画像から３次元空間上に存在する被写体３の３次元形状を算出するために、各カメラ５は、他のカメラ５との間で撮影範囲の一部が重複する状態で配置される。このような配置の下、複数のカメラ５がフレームごとに同期して撮影することにより、異なる視点ごとに同一のタイミングで撮影された複数の画像、すなわち多視点のカメラ画像がフレーム単位で得られる。

サーバ装置１０は、上記の映像生成サービスを提供するコンピュータの一例に対応する。サーバ装置１０は、補正装置の一例にも対応する。ここでは、あくまでコンピュータの一例として、サーバ装置を例に挙げたが、これは機能を分類する上で付与されたラベルであり、そのハードウェア構成や導入されるソフトウェアの種類は限定されず、任意の種類のコンピュータであってかまわない。

一実施形態として、サーバ装置１０は、パッケージソフトウェア又はオンラインソフトウェアとして、上記の映像生成サービスに対応する機能を実現する映像処理プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、サーバ装置１０は、上記の映像生成サービスを提供するサーバとしてオンプレミスに実装することとしてもよいし、アウトソーシングによって上記の映像生成サービスを提供するクラウドとして実装することとしてもかまわない。

クライアント端末３０は、上記の映像生成サービスの提供を受けるコンピュータの一例に対応する。

一実施形態として、上記の映像生成サービスの提供を受けるユーザにより使用される任意のコンピュータがクライアント端末３０に対応する。例えば、クライアント端末３０は、パーソナルコンピュータやワークステーションなどのデスクトップ型のコンピュータなどが対応する。このようなデスクトップ型のコンピュータに限定されず、ラックトップ型のコンピュータや携帯端末装置、ウェアラブル端末などの任意のコンピュータであってかまわない。

［映像生成］
上記の自由視点映像は、一側面として、（１）前景背景分離、（２）前景モデルの生成、（３）背景モデルの生成、（４）レンダリングの４つの処理を実行することによって生成される。

（１）前景背景分離
上記の「前景背景分離」とは、各視点に対応するカメラ画像ごとに当該カメラ画像から前景と背景とを分離する処理を指す。この前景背景分離は、同一のフレームのカメラ画像ごとに並列して実行することもできれば、所定数ずつ順番に実行することもできる。

ここで言う「前景」とは、カメラ５の撮影範囲内の３次元空間に存在する物体の中でも撮影の関心対象とする被写体に対応する。例えば、スポーツ観戦を例に挙げれば、選手やボールなどの被写体が前景に対応する。また、モータースポーツであれば、選手に用いられる乗り物、例えば自動車やオートバイなどの被写体も前景の範疇に含まれる。

一方、「背景」とは、前景に対応する被写体の背後に存在する被写体に対応する。例えば、背景に対応する被写体の中には、位置や姿勢に変化がないものが含まれる。以下、背景の中でも位置や姿勢に変化がない被写体のことを「静的背景」と記載することがある。例えば、スポーツ観戦を例で言えば、スポーツ観戦が行われるスタジアムなどの構造物やその観客席などの設備などが静的背景に対応する。このような静的背景の他にも、背景には、位置や姿勢に変化があるものも含まれる場合がある。以下、背景の中でも位置や姿勢に変化がある被写体のことを「動的背景」と記載することがある。例えば、スタジアムの観客席で観戦する観客などが動的背景に対応する。なぜなら、観客が観客席に着座して観戦したり、観客席から前のめりになって観戦したり、あるいは観客席から立ち上がって観戦したりといった挙動を示すことにより、観客の位置や姿勢が変化するからである。

図２Ａ及び図２Ｂを用いて前景背景分離の一例を説明する。図２Ａは、カメラ画像の一例を示す図である。図２Ｂは、シルエット画像の一例を示す図である。図２Ａには、ある視点ｐ１に対応するカメラ画像２００が示されると共に、図２Ｂには、視点ｐ１のカメラ画像２００から生成されたシルエット画像２１０が示されている。前景背景分離には、あくまで一例として、いわゆる背景差分をカメラ画像２００に適用したり、あるいはカメラ画像２００に２次元のグラフカットを適用したりする。これら背景差分やグラフカットを含む任意のアルゴリズムが適用されることによって、各画素が画素値を持つカメラ画像２００から各画素に前景または背景の２値のラベルが割り当てられたシルエット画像２１０が生成される。このシルエット画像２１０では、図２Ｂに示すように、カメラ画像２００に含まれる被写体３ｆｇのシルエットが背景と分離された上で抽出される。

（２）前景モデルの生成
上記の「前景モデルの生成」には、一例として、Ｖｉｓｕａｌ－Ｈｕｌｌという技術が用いられる。例えば、ＶｉｓｕａｌＨｕｌｌでは、カメラ５の光学中心とシルエット画像上のシルエットとを結んでできるＣｏｎｅ（視体積）が生成された上で、Ｃｏｎｅ同士が重なる３次元空間上の領域が被写体３ｆｇの３次元形状として算出される。

図３は、ＶｉｓｕａｌＨｕｌｌの一例を示す図である。図３には、カメラ５Ａ～５Ｃの３つのカメラ５のシルエット画像２１０Ａ～２１０ＣがＶｉｓｕａｌＨｕｌｌの算出に用いられる例が示されている。図３に示すように、カメラ５Ａ～５Ｃの各視点に対応するシルエット画像２１０Ａ～２１０ＣごとにシルエットＳＡ～ＳＣが３次元空間に投影される。例えば、シルエットＳＡが投影された場合、カメラ５Ａの光学中心およびシルエット画像２１０Ａ上のシルエットＳＡを結ぶ視体積ＣＡが得られる。さらに、シルエットＳＢが投影された場合、カメラ５Ｂの光学中心およびシルエット画像２１０Ｂ上のシルエットＳＢを結ぶ視体積ＣＢが得られる。さらに、シルエットＳＣが投影された場合、カメラ５Ｃの光学中心およびシルエット画像２１０Ｃ上のシルエットＳＣを結ぶ視体積ＣＣが得られる。これら視体積ＣＡ～ＣＣが重複するＶｉｓｕａｌＨｕｌｌ領域、すなわち図３に示す黒の塗り潰しの３次元モデルが被写体３の３次元形状として算出される。

（３）背景モデルの生成
上記の「背景モデルの生成」には、あくまで一例として、コンピュータグラフィックスや３次元測距などが用いられる。例えば、３ＤＣＧ（3 Dimensional Computer Graphics）により静的背景がモデリングされることにより背景モデルが生成される。この他、各カメラ５に対応する視点ごとにカメラ画像２００上の各画素に対応するデプスが３次元のレーザセンサにより測定される。これによって、各画素にデプスが対応付けられたデプス画像がカメラ５の視点ごとに得られる。

（４）レンダリング
上記の「レンダリング」とは、仮想視点に対応するカメラ画像、いわゆる自由視点映像を多視点のカメラ画像を用いて生成する処理を指す。ここで言う「仮想視点」とは、仮想カメラに与えられる視点を指し、例えば、仮想カメラが３次元空間上に配置される位置や姿勢を指す。この仮想視点は、クライアント端末３０からユーザ入力を受け付けることにより指定されることとしてもよいし、また、クライアント端末３０を介するユーザ設定またはサーバ装置１０に登録されたシステム設定により指定されることとしてもかまわない。

図４は、レンダリングの一例を示す図である。図４には、仮想カメラＶｃの位置がカメラ５Ｂおよびカメラ５Ｃの間に設定されると共に、仮想カメラＶｃの光学中心および画素を通る直線が被写体３ｆｇに対応する前景モデル３Ｍｆｇと交わる例が示されている。図４に示すように、仮想カメラＶｃの光学中心および画素を通る直線と、前景モデル３Ｍｆｇとの交点の３次元位置が求められる（Ｓ１）。続いて、カメラ５の位置や姿勢などの外部パラメータ及びカメラ５の画角やレンズの歪みなどの内部パラメータが設定されたカメラパラメータにしたがって、上記の交点が各視点に対応するカメラ画像に投影される。ここでは、一例として、仮想カメラＶｃからの距離が近い所定数のカメラ５のカメラ画像、すなわちカメラ５ＢおよびカメラＣの２つのカメラ画像２００Ｂおよび２００Ｃに上記の交点が投影される（Ｓ２Ｂ及びＳ２Ｃ）。これによって、仮想カメラＶｃの画素に対応するカメラ５Ｂの画素およびカメラ５Ｃの画素がテクスチャ座標として識別される。

その後、カメラ５Ｂにより撮像されたカメラ画像２００Ｂのうち、仮想カメラＶｃの画素に対応する画素が有する画素値が参照される（Ｓ３Ｂ）。さらに、カメラ５Ｃにより撮像されたカメラ画像２００Ｃのうち仮想カメラＶｃの画素に対応する画素が有する画素値が参照される（Ｓ３Ｃ）。これらＳ３Ｂ及びＳ３Ｃで参照された画素値が仮想カメラＶｃの画素にマッピングされる。例えば、仮想カメラＶｃの画素に対応するカメラ画像２００Ｂ上の画素の画素値およびカメラ画像２００Ｃ上の画素の画素値の統計値、例えば相加平均または仮想カメラＶｃとの距離を用いる加重平均などが仮想カメラＶｃの画素の画素値として決定される。

このように、仮想カメラＶｃの画素ごとに、カメラ画像２００Ｂやカメラ画像２００Ｃなどのテクスチャをマッピングすることで、仮想視点に対応する自由視点映像がレンダリングされる。なお、ここでは、あくまで一例として、複数のカメラ５のカメラ画像を用いて自由視点映像がレンダリングされる場合を例示したが、仮想カメラＶｃとの距離が最も近い最寄りのカメラ５のカメラ画像に絞って自由視点映像のレンダリングに用いることもできる。

［課題の一側面］
上記の背景技術の欄で説明した通り、静的背景がモデリングされた背景モデルを自由視点映像のレンダリングに用いたのでは、カメラ画像に動的背景が含まれる場合に対応できない。なぜなら、動的背景が含まれる場合、仮想視点から背景モデルまでのデプスと、仮想視点から動的背景までのデプスとの間にずれが生じるからである。このデプスのずれが一因となって、テクスチャとして用いられるカメラ画像のうち誤ったテクスチャ座標の画素の画素値がマッピングされる結果、自由視点画像の画質が低下する。

図５は、スタジアムの断面図の一例を示す図である。図５には、スタジアムの中心から外側への方向、すなわちスタンドの列方向を切断面とする断面図が示されている。図５に示す断面図には、静的背景の一例として、スタジアムのスタンド部分がモデリングされた背景モデル３Ｍｂｇｓが示されている。さらに、図５に示す断面図には、動的背景に対応する被写体の一例として、スタジアムのスタンドでスポーツ観戦を行う観客３ｂｇｄが示されている。

図５に示すように、仮想視点Ｖｃから背景モデル３Ｍｂｇｓまでのデプス（実線矢印の部分）と、仮想視点Ｖｃから観客３ｂｇｄまでのデプス（一点鎖線の部分）との間にはずれがある。それにもかかわらず、静的背景がモデリングされた背景モデル３Ｍｂｇｓをレンダリングに用いる場合、動的背景の観客３ｂｇｄの３次元位置ではなく、静的背景の背景モデル３Ｍｂｇｓの３次元位置に対応するテクスチャ座標がテクスチャマッピングに用いられる。すなわち、仮想視点Ｖｃの光学中心を通るＲａｙが観客３ｂｇｄと交わる交点Ｏ２の３次元位置ではなく、仮想視点Ｖｃの光学中心を通るＲａｙが背景モデル３Ｍｂｇｓと交わる交点Ｏ１の３次元位置がカメラ画像２００Ｂや２００Ｃなどのテクスチャに投影される。このように、カメラ画像２００Ｂや２００Ｃのうち誤ったテクスチャ座標の画素がテクスチャマッピングに用いられる結果、自由視点映像の画質が低下する。

このような動的背景に対応する側面から、上記の背景技術の欄で挙げた自由視点映像生成装置が提案されている。この自由視点映像生成装置は、まず、参照画像と奥行マップから各フレームの仮の自由視点画像を生成する。そして、自由視点映像生成装置は、参照画像と奥行マップから曲面背景バッファに保存する背景画像とその奥行値とを背景領域として抽出する。その上で、自由視点映像生成装置は、仮の自由視点画像を曲面背景バッファに保存した背景画像とその奥行値で補完する。

しかしながら、上記の自由視点映像生成装置では、依然として、背景モデル及び動的背景のデプスのずれを低減できない場合がある。

［課題解決のアプローチの一側面］
そこで、本実施例に係るサーバ装置１０は、動的背景に対応する側面から、所定のフレームで各視点に対応するデプス画像を算出する。例えば、デプス画像は、２つ以上のカメラ画像からステレオマッチングにより算出することとしてもよいし、３次元のレーザセンサ等のデプスカメラにより測定されることとしてもかまわない。

その上で、本実施例に係るサーバ装置１０は、カメラ画像に対する前景背景分離で背景に分離された画素のデプスを用いてデプス画像の各画素のデプスを補正し、補正したデプス画像から背景モデルを生成する。

このように、前景および背景の分離結果を用いることで、前景の被写体と背景の被写体とのデプスが近い場合でも、両者を区別してデプス画像を補正することができる。さらに、前景の被写体と背景の被写体との境界部においても、両者を混在せずにデプス画像におけるデプスのばらつきを補正することができる。このような補正が行われたデプス画像から背景モデルが生成される結果、背景モデルの精度を高めることができる。

したがって、本実施例に係るサーバ装置１０によれば、背景モデル及び動的背景のデプスのずれを低減させることが可能になる。

［サーバ装置１０の構成］
次に、本実施例に係るサーバ装置１０の機能的構成について説明する。図６は、実施例１に係るサーバ装置１０の機能的構成を示すブロック図である。図６に示すように、サーバ装置１０は、通信Ｉ／Ｆ（InterFace）部１１と、記憶部１３と、制御部１５とを有する。なお、図１１には、上記の映像生成サービスに関連する機能部が抜粋して示されているに過ぎず、図示以外の機能部、例えば既存のコンピュータがデフォルトまたはオプションで装備する機能部がサーバ装置１０に備わることを妨げない。例えば、多視点のカメラ画像がカメラ５からサーバ装置１０へ放送波や衛星波を介して伝搬される場合、放送波や衛星波の受信部をさらに有することとしてもかまわない。

通信Ｉ／Ｆ部１１は、他の装置との間で通信制御を行うインタフェースである。

一実施形態として、通信Ｉ／Ｆ部１１には、ＬＡＮ（Local Area Network）カードなどのネットワークインタフェースカードが対応する。例えば、通信Ｉ／Ｆ部１１は、各カメラ５からカメラ画像を受信したり、また、撮像制御に関する指示、例えば電源ＯＮ／電源ＯＦＦの他、パンやチルトなどの指示をカメラ５へ送信したりする。

記憶部１３は、制御部１５で実行されるＯＳ（Operating System）を始め、上記の映像生成プログラムなどの各種プログラムに用いられるデータを記憶するハードウェアに対応する。

一実施形態として、記憶部１３は、サーバ装置１０における補助記憶装置に対応する。例えば、ＨＤＤ（Hard Disk Drive）、光ディスクやＳＳＤ（Solid State Drive）などが補助記憶装置に対応する。この他、ＥＰＲＯＭ（Erasable Programmable Read Only Memory)などのフラッシュメモリも補助記憶装置に対応する。

記憶部１３は、制御部１５で実行されるプログラムに用いられるデータの一例として、シルエット画像２１０と、補正デプス画像２３０とを記憶する。これらシルエット画像２１０及び補正デプス画像２３０以外にも、記憶部１３は、自由視点映像の技術に関連する各種のデータを記憶することができる。例えば、記憶部１３は、カメラ５の位置や向きなどの外部パラメータ及びカメラ５の画角やレンズの歪みなどの内部パラメータを含むカメラパラメータの他、カメラ５から伝送されたカメラ画像の時系列データなどを視点ごとに保存することができる。なお、シルエット画像２１０及び補正デプス画像２３０の説明は、各データの登録または参照が行われる制御部１５の説明と合わせて行うこととする。

制御部１５は、サーバ装置１０の全体制御を行う処理部である。

一実施形態として、制御部１５は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などのハードウェアプロセッサにより実装することができる。ここでは、プロセッサの一例として、ＣＰＵやＭＰＵを例示したが、汎用型および特化型を問わず、任意のプロセッサにより実装することができる。この他、制御部１５は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによって実現されることとしてもかまわない。

制御部１５は、図示しない主記憶装置として実装されるＤＲＡＭ（Dynamic Random Access Memory）などのＲＡＭのワークエリア上に、上記の映像生成プログラムを展開することにより、下記の処理部を仮想的に実現する。なお、ここでは、上記の映像生成サービスに対応する機能がパッケージ化された映像生成プログラムが実行される例を挙げたが、これに限定されない。例えば、上記の映像生成サービスが提供する機能のうち、各視点のデプス画像が補正された補正デプス画像から背景モデルを生成する背景モデル生成機能などの単位でプログラムモジュールが実行されたり、ライブラリが参照されたりすることとしてもかまわない。

制御部１５は、図６に示すように、取得部１５Ａと、算出部１５Ｂと、分離部１５Ｃと、補正部１５Ｄと、前景生成部１５Ｅと、背景生成部１５Ｆと、レンダリング部１５Ｇとを有する。

取得部１５Ａは、各視点のカメラ画像を取得する処理部である。

一実施形態として、取得部１５Ａは、カメラ５Ａ～カメラ５Ｎから伝送される各視点のカメラ画像をフレーム単位で取得することができる。ここで、取得部１５Ａがカメラ画像を取得する情報ソースは、任意の情報ソースであってよく、カメラ５に限定されない。例えば、取得部１５Ａは、各視点のカメラ画像を蓄積するハードディスクや光ディスクなどの補助記憶装置またはメモリカードやＵＳＢ（Universal Serial Bus）メモリなどのリムーバブルメディアから多視点のカメラ画像を取得することもできる。この他、取得部１５Ａは、カメラ５以外の外部装置からネットワークＮＷを介して各視点のカメラ画像を取得することもできる。

このように各視点のカメラ画像が取得された後、前景モデルの生成に用いるシルエット画像および背景モデルの生成に用いる補正デプス画像が生成される。これらシルエット画像および補正デプス画像は、カメラ５の視点ごとに当該視点に対応するカメラ画像を入力とし、算出部１５Ｂ、分離部１５Ｃおよび補正部１５Ｄによる処理が実行されることにより生成できる。

以下では、あくまで一例として、算出部１５Ｂによるデプス画像の算出、分離部１５Ｃによる前景背景分離および補正部１５Ｄによるデプス画像の補正がシングルスレッドで実行される例を挙げて説明するが、これに限定されない。例えば、カメラ５の視点ごとに、算出部１５Ｂによるデプス画像の算出、分離部１５Ｃによる前景背景分離および補正部１５Ｄによるデプス画像の補正がマルチスレッドで並列処理されることとしてもかまわない。このようにマルチスレッドで並列処理される場合、算出部１５Ｂ、分離部１５Ｃおよび補正部１５Ｄは、カメラ５の視点の数に対応するスレッド数まで並列して動作させることができる。

図７は、実施例１に係る各機能部間で授受されるデータの一例を示す図である。図７には、一例として、カメラ５Ａ～５ＮのＮ個の視点のうち、カメラ５Ａの視点に対応するデプス画像の算出、前景背景分離およびデプス画像の補正が行われる際に、算出部１５Ｂ、分離部１５Ｃおよび補正部１５Ｄの間で授受されるデータの例が示されている。

以下、Ｎ個の視点のうちデプス画像の算出、前景背景分離およびデプス画像の補正の処理対象として選択された視点のことを「基準視点」と記載する場合がある。なお、以下では、あくまで一例として、基準視点がカメラ５Ａの視点である場合を抜粋して例示するが、他のカメラ５の視点が基準視点として選択される場合も、カメラ画像が変わるだけで処理内容に変わりはない。

図７に示すように、取得部１５Ａにより取得されたカメラ画像２００Ａ～カメラ画像２００Ｎのうち、基準視点に対応するカメラ画像２００Ａが算出部１５Ｂへ入力される。さらに、あくまで一例として、基準視点に対応するデプス画像をステレオマッチングにより算出する側面から、カメラ画像２００Ａとの間で視差を得ることが可能である視点、例えば基準視点と隣接するカメラ５Ｂの視点が参照視点として選択される。このように選択された参照視点に対応するカメラ画像２００Ｂも算出部１５Ｂへ入力される。

これらカメラ画像２００Ａ及びカメラ画像２００Ｂが入力された場合、算出部１５Ｂは、ステレオマッチングにより基準視点に対応するデプス画像２２０Ａを算出する。例えば、算出部１５Ｂは、カメラ５Ａ及びカメラ５Ｂのカメラパラメータにしたがってカメラ画像２００Ａに対するカメラ画像２００Ｂの視差マップを基準視点に対応するデプス画像２２０Ａへ変換する。このようにして得られたデプス画像２２０Ａが算出部１５Ｂから補正部１５Ｄへ入力される。

なお、ここでは、あくまで一例として、基準視点に対応するデプス画像２２０Ａがステレオマッチングにより算出される例を挙げたが、これに限定されない。例えば、３次元のレーザセンサ等のデプスカメラにより測定させることにより基準視点に対応するデプス画像２２０Ａが取得されることとしてもかまわない。

一方、基準視点に対応するカメラ画像２００Ａは、算出部１５Ｂの他、分離部１５Ｃにも入力される。カメラ画像２００Ａが入力された場合、分離部１５Ｃは、カメラ画像２００Ａに含まれる被写体を前景および背景に分離する。

あくまで一例として、分離部１５Ｃは、いわゆる背景差分によりカメラ画像２００Ａから前景に対応するシルエットを抽出することができる。例えば、時系列に取得されるカメラ画像２００Ａのうち、前景が観測されない可能性が高いフレームの画像を背景画像として保存しておく。例えば、背景画像には、所定のフレーム数にわたってフレーム間の差分が検出されなかったフレームの画像などを用いることができる。このような背景画像が保存された下で、分離部１５Ｃは、最新のフレームに対応するカメラ画像２００Ａと背景画像との間で画素値の差が所定の閾値以上であるか否かにより、前景または背景のラベルを画素ごとに割り当てる。これによって、画素ごとに前景または背景のラベルが割り当てられたシルエット画像２１０Ａが得られる。なお、ここでは、一例として、背景差分により前景背景分離が行われる例を挙げたが、グラフカット、例えば２次元のグラフカットにより前景背景分離を行うこととしてもかまわない。

このようにして得られたシルエット画像２１０Ａは、デプス画像２２０Ａの補正に用いる側面から分離部１５Ｃから補正部１５Ｄへ入力されると共に、前景モデルの生成にも用いる側面から記憶部１３に保存される。

これらデプス画像２２０Ａ及びシルエット画像２１０Ａが入力された場合、補正部１５Ｄは、シルエット画像２１０Ａを用いてデプス画像２２０Ａを補正する。このデプス画像２２０Ａの補正時には、シルエット画像２１０Ａで背景のラベルが割り当てられたデプス画像２２０Ａの画素の画素値を有効とし、（１）空間フィルタリングおよび（２）時間フィルタリングを行うことができる。これら空間フィルタリングおよび時間フィルタリングのうち少なくとも１つが実行されればよく、必ずしも２つとも実行されずともかまわない。

なお、図１や図７には、シルエット画像や補正デプス画像が記憶部１３に保存される例を挙げたが、必ずしもシルエット画像や補正デプス画像が記憶部１３等のストレージに格納されずともかまわない。

（１）空間フィルタリング
補正部１５Ｄは、デプス画像２２０Ａに含まれる画素ごとに当該画素のデプス値にその周辺画素のデプス値を畳み込むフィルタを適用する。このようなフィルタの例示として、ガウシアンフィルタや入力画像のエッジを参照したエッジ保存型のフィルタ、例えばバイラテラルフィルタなどの平滑化フィルタが挙げられる。

ここで、フィルタの適用時には、補正部１５Ｄは、シルエット画像２１０Ａで背景のラベルが割り当てられたデプス画像２２０Ａの画素のデプス値を有効とし、フィルタの畳み込み演算を実行する。

図８Ａは、シルエット画像２１０Ａの一例を示す図である。図８Ｂは、デプス画像２２０Ａの一例を示す図である。図８Ａ及び図８Ｂには、あくまで一例として、フィルタサイズが３×３であるガウシアンフィルタが適用される例が示されると共に、画素（イ）、画素（ロ）及び画素（ハ）の３つの画素にガウシアンフィルタが適用される場面が示されている。なお、ここでは、説明の便宜上、フィルタサイズが３×３である場合を例示するが、当然のことながら任意のフィルタサイズであってかまわない。

以下、フィルタの適用時にフィルタの原点と重ね合わされる画素のことを「注目画素」とし、注目画素の周辺に位置する画素、例えば８近傍の画素のことを「周辺画素」と記載することがある。

図９Ａは、画像ＩＤ（IDentification）の一例を示す図である。図９Ａに示すように、フィルタの畳み込み演算時には、あくまで一例として、注目画素を「ｐ_４」と識別する。さらに、注目画素の周辺画素のうち、左上の画素を「ｐ_０」、真上の画素を「ｐ_１」、右上の画素を「ｐ_２」、左の画素を「ｐ_３」、右の画素を「ｐ_５」、左下の画素を「ｐ_６」、真下の画素を「ｐ_７」、右下の画素を「ｐ_８」と識別する。

このような識別の下、補正部１５Ｄは、注目画素の補正デプスＤ_ｉを下記の式（１）または下記の式（２）にしたがって算出する。ここで、式（１）及び式（２）における「ｉ」とは、画素ＩＤを指し、例えば、ｐ_０からｐ_８までの８つの画素が含まれる。また、式（１）における「ｌ_ｉ」とは、シルエット画像２１０Ａの画素のうち画素ｐ_ｉに付与される前景または背景のラベル値を指す。ここでは、あくまで一例として、背景のラベルには、「１」が付与される一方で、前景のラベルには、「０」が付与されることとして以下の説明を行う。また、式（１）における「ｋ_ｉ」とは、３×３のフィルタ係数の配列のうち画素ｐ_ｉに適用されるフィルタ係数を指す。また、式（１）における「ｄ_ｉ」とは、デプス画像２２０Ａの画素のうち画素ｐ_ｉが有するデプスの値を指す。

Ｄ_ｉ＝（Σｌ_ｉ×ｋ_ｉ×ｄ_ｉ）÷（Σｌ_ｉ×ｋ_ｉ）Ｉｆｌ_４＝１・・・（１）
Ｄ_ｉ＝ｆｏｒｅｇｒｏｕｎｄＩｆｌ_４＝０・・・（２）

すなわち、補正部１５Ｄは、注目画素のラベルｌ_４が「１」である場合、すなわち注目画素に背景のラベルが付与されている場合、式（１）を用いて補正デプスを算出する。一方、注目画素のラベルｌ_４が「０」である場合、すなわち注目画素に前景のラベルが付与されている場合、式（２）により注目画素が前景と識別される。この場合、補正部１５Ｄは、注目画素のデプスが背景モデルの生成に用いられるのを抑制する側面から、注目画素の補正デプスＤ_ｉに無効値、例えばＮＵＬＬ値を設定することにより無効化する。

例えば、画素（イ）にガウシアンフィルタが適用される場合、補正部１５Ｄは、図９Ｂに示す畳み込み演算を実行する。図９Ｂは、フィルタの畳み込み演算の一例を示す図である。図９Ｂには、畳み込み演算時にデプスが有効とされる画素がハッチングで示されている。すなわち、図８Ａのシルエット画像２１０Ａに示された通り、注目画素（イ）およびその８近傍の周辺画素には、背景のラベルが付与されている。この場合、図９Ｂに示すように、ラベル行列の全てのラベル値ｌ_０～ｌ_８には、「１」が設定される。このようなラベル行列によって、デプス行列の全てのデプス値ｄ_０～ｄ_８が畳み込み演算に用いられる。また、カーネルのうち、左上の画素ｐ_０のフィルタ係数ｋ_０として「１／１６」、真上の画素ｐ_１のフィルタ係数ｋ_１として「２／１６」、右上の画素ｐ_２のフィルタ係数ｋ_２として「１／１６」が用いられる。さらに、左の画素ｐ_３のフィルタ係数ｋ_３として「２／１６」、注目画素ｐ_４のフィルタ係数ｋ_４として「４／１６」、右の画素ｐ_５のフィルタ係数ｋ_５として「２／１６」が用いられる。さらに、左下の画素ｐ_６のフィルタ係数ｋ_６として「１／１６」、真下の画素ｐ_７のフィルタ係数ｋ_７として「２／１６」、右下の画素ｐ_８のフィルタ係数ｋ_８として「１／１６」が用いられる。

これらラベル行列、カーネル及びデプス行列の下、式（１）にしたがって注目画素（イ）の補正デプスＤ_ｉが算出される。例えば、左上の画素ｐ_０の計算は、１×（１／１６）×ｄ_０となる。また、真上の画素ｐ_１の計算は、１×（２／１６）×ｄ_１となる。また、左上の画素ｐ_２の計算は、１×（１／１６）×ｄ_２となる。また、左の画素ｐ_３の計算は、１×（２／１６）×ｄ_３となる。また、注目画素の画素ｐ_４の計算は、１×（４／１６）×ｄ_４となる。また、右の画素ｐ_５の計算は、１×（２／１６）×ｄ_５となる。また、左下の画素ｐ_６の計算は、１×（１／１６）×ｄ_６となる。また、真下の画素ｐ_７の計算は、１×（２／１６）×ｄ_７となる。また、右下の画素ｐ_８の計算は、１×（１／１６）×ｄ_８となる。これらの合計が注目画素（イ）の補正デプスＤ_ｉとして算出される。

次に、画素（ロ）にガウシアンフィルタが適用される場合、補正部１５Ｄは、図９Ｃに示す畳み込み演算を実行する。図９Ｃは、フィルタの畳み込み演算の一例を示す図である。図９Ｃにも、畳み込み演算時にデプスが有効とされる画素がハッチングで示される一方で、畳み込み演算時にデプスが無効とされる画素が無地で示されている。すなわち、図８Ａのシルエット画像２１０Ａに示された通り、注目画素（ロ）には、背景のラベルが付与されているものの、８近傍の周辺画素のうち一部の周辺画素、すなわち左の画素及び左下の画素には、前景のラベルが付与されている。この場合、図９Ｃに示すように、ラベル行列のうち左の画素のラベル値ｌ_３及び左下の画素のラベル値ｌ_６には、「０」が設定される。このようなラベル行列によって、デプス行列の全てのデプス値ｄ_０～ｄ_８のうち左の画素のデプス値ｄ_３及び左下の画素のデプス値ｄ_６が無効化される。

これらラベル行列、カーネル及びデプス行列の下、式（１）にしたがって注目画素（ロ）の補正デプスＤ_ｉが算出される。例えば、左上の画素ｐ_０の計算は、１×（１／１６）×ｄ_０となる。また、真上の画素ｐ_１の計算は、１×（２／１６）×ｄ_１となる。また、左上の画素ｐ_２の計算は、１×（１／１６）×ｄ_２となる。また、左の画素ｐ_３の計算は、０×（２／１６）×ｄ_３となる。また、注目画素の画素ｐ_４の計算は、１×（４／１６）×ｄ_４となる。また、右の画素ｐ_５の計算は、１×（２／１６）×ｄ_５となる。また、左下の画素ｐ_６の計算は、０×（１／１６）×ｄ_６となる。また、真下の画素ｐ_７の計算は、１×（２／１６）×ｄ_７となる。また、右下の画素ｐ_８の計算は、１×（１／１６）×ｄ_８となる。これらの合計が注目画素（ロ）の補正デプスＤ_ｉとして算出される。

また、画素（ハ）にガウシアンフィルタが適用される場合、画素（ハ）には前景のラベルが付与されているので、補正部１５Ｄは、注目画素（ハ）の補正デプスＤ_ｉにＮＵＬＬ値を設定する。

このように、補正部１５Ｄは、デプス画像２２０Ａの画素ごとに注目画素および周辺画素のうち背景のラベルが割り当てられた画素のデプス値を有効とし、前景のラベルが割り当てられた画素のデプス値を無効としてフィルタを適用する空間フィルタリングを行う。これによって、前景の被写体と背景の被写体との境界部の画素においても、両者のデプスを混在せずに、デプス画像におけるデプスのばらつきを補正することができる。それ故、デプス画像の画素間におけるデプスのばらつきを抑制したり、あるいはデプス画像のうち背景のラベルが割り当てられた画素のデプス値に欠損がある場合でもデプス値を補間したりすることができる。

（２）時間フィルタリング
補正部１５Ｄは、デプス画像２２０Ａに含まれる画素ごとに当該画素のデプス値に過去の所定数のフレームに遡って同一の位置に存在する画素のデプス値を畳み込むフィルタを適用する。

この時間フィルタリングにおいても、フィルタの適用時には、補正部１５Ｄは、シルエット画像２１０Ａで背景のラベルが割り当てられたデプス画像２２０Ａの画素のデプス値を有効とし、フィルタの畳み込み演算を実行する。

図１０Ａは、時間フィルタリングにおける注目画素の一例を示す図である。図１０Ａに示すように、フィルタの畳み込み演算時には、あくまで一例として、注目画素を「ｉ」と識別する。さらに、デプス画像２２０Ａのフレームの識別にインデックスｔを用いることとし、注目画素ｉの補正デプスＤ_ｉを算出する注目フレームを「ｔ＝Ｔ」と識別する。さらに、注目フレームＴの過去フレームのうち注目フレームの１つ前の過去フレームを「ｔ＝Ｔ－１」と識別し、注目フレームＴの過去フレームのうち注目フレームのＮ個の過去フレームを「ｔ＝Ｔ－Ｎ」と識別する。

例えば、補正部１５Ｄは、注目フレームＴの注目画素ｐ_ｉ，Ｔの補正デプスＤ_ｉ，Ｔを下記の式（３）または下記の式（４）にしたがって算出する。ここで、式（３）及び式（４）における「Ｎ」とは、カーネルのサイズを指す。また、式（３）における「ｌ_ｉ，ｔ」とは、フレームｔのシルエット画像２１０Ａの画素ｐ_ｉ，ｔに付与される前景または背景のラベル値を指す。ここでは、あくまで一例として、背景のラベルには、「１」が付与される一方で、前景のラベルには、「０」が付与されることとして以下の説明を行う。また、式（３）における「ｋ_ｔ」とは、カーネルのうちフレームｔに適用されるフィルタ係数を指す。また、式（３）における「ｄ_ｉ，ｔ」とは、フレームｔのデプス画像２２０Ａの画素ｐ_ｉ，ｔが有するデプス値を指す。

Ｄ_ｉ，Ｔ＝ｆｏｒｅｇｒｏｕｎｄＩｆｌ_ｉ，Ｔ＝０・・・（４）

すなわち、補正部１５Ｄは、注目フレームＴの注目画素ｐ_ｉ，Ｔのラベルｌ_ｉ，Ｔが「１」である場合、すなわち注目フレームの注目画素に背景のラベルが付与されている場合、式（３）を用いて補正デプスを算出する。一方、注目フレームＴの注目画素ｐ_ｉ，Ｔのラベルｌ_ｉ，Ｔが「０」である場合、すなわち注目画素に前景のラベルが付与されている場合、式（４）により注目画素が前景と識別される。この場合、補正部１５Ｄは、注目フレームＴの注目画素ｐ_ｉ，Ｔのデプスが背景モデルの生成に用いられるのを抑止する側面から、注目フレームＴの注目画素ｐ_ｉ，Ｔの補正デプスＤ_ｉ，ＴをＮＵＬＬ値として無効化する。

図１０Ｂは、フィルタの畳み込み演算の一例を示す図である。図１０Ｂには、畳み込み演算時にデプスが有効とされるフレームｔの注目画素ｐ_ｉ，ｔがハッチングで示される一方で、畳み込み演算時にデプスが無効とされるフレームｔの注目画素ｐ_ｉ，ｔが無地で示されている。なお、図１０Ｂには、カーネルサイズＮが「４」である例が示されているが、カーネルサイズＮは２以上の任意の値であってかまわない。

図１０Ｂに示すように、注目画素ｉに関し、注目フレームＴ、１つ前の過去フレームＴ－１、３つ前の過去フレームＴ－３には、背景のラベルが付与されているものの、２つ前の過去フレームＴ－２には、前景のラベルが付与されている。この場合、図１０Ｂに示すように、ラベル行列のうち２つ前の過去フレームＴ－２のラベル値ｌ_{ｉ，Ｔ－２}には、「０」が設定される。このようなラベル行列によって、デプス行列のデプス値ｄ_ｉ，Ｔ～ｄ_{ｉ，Ｔ－４}のうち２つ前の過去フレームＴ－２のデプス値ｄ_{ｉ，Ｔ－２}が無効化される。また、カーネルのうち、注目フレームＴのフィルタ係数ｋ_Ｔとして「２０／６４」、１つ前の過去フレームＴ－１のフィルタ係数ｋ_Ｔ－１として「１５／６４」、２つ前の過去フレームＴ－２のフィルタ係数ｋ_Ｔ－２として「６／６４」が用いられる。さらに、３つ前の過去フレームＴ－３のフィルタ係数ｋ_Ｔ－３として「１／６４」が用いられる。

これらラベル行列、カーネル及びデプス行列の下、式（３）にしたがって注目画素ｐ_ｉ，Ｔの補正デプスＤ_ｉ，Ｔが算出される。例えば、注目フレームＴの画素ｐ_ｉ，Ｔの計算は、１×（２０／６４）×ｄ_ｉ，Ｔとなる。また、１つ前の過去フレームＴ－１の画素ｐ_{ｉ，Ｔ－１}の計算は、１×（１５／６４）×ｄ_{ｉ，Ｔ－１}となる。また、２つ前の過去フレームＴ－２の画素ｐ_{ｉ，Ｔ－２}の計算は、０×（６／６４）×ｄ_{ｉ，Ｔ－２}となる。また、３つ前の過去フレームＴ－３の画素ｐ_{ｉ，Ｔ－３}の計算は、１×（１／６４）×ｄ_{ｉ，Ｔ－３}となる。これらの合計が注目画素ｐ_ｉ，Ｔの補正デプスＤ_ｉ，Ｔとして算出される。

このように、補正部１５Ｄは、デプス画像２２０Ａの画素ごとに注目フレームおよび過去フレームにおける注目画素のうち背景のラベルが割り当てられた画素のデプス値を有効とし、前景のラベルが割り当てられた画素のデプス値を無効してフィルタを適用する。このような時間フィルタリングによって、過去フレームで注目画素のラベルが前景または背景にばらつく場合でも、両者のデプスを混在せずに、デプス画像のフレーム間におけるデプスのばらつきを補正することができる。このため、デプス画像のフレーム間におけるデプスのばらつきを抑制することができる。

これら空間フィルタリング及び時間フィルタリングにより得られた補正デプス画像２３０Ａは、背景モデルの生成に用いる側面から、記憶部１３に保存される。

図６の説明に戻り、前景生成部１５Ｅは、前景モデルを生成する処理部である。

一実施形態として、前景生成部１５Ｅは、記憶部１３にカメラ５の視点ごとに記憶されたシルエット画像２１０を用いて、前景モデル３Ｍｆｇを生成することができる。この前景モデルの生成には、図３を用いて上述したＶｉｓｕａｌ－Ｈｕｌｌを適用することができる。このＶｉｓｕａｌＨｕｌｌでは、カメラ５の光学中心とシルエット画像上のシルエットとを結んでできるＣｏｎｅが生成された上で、Ｃｏｎｅ同士が重なる３次元空間上の領域が前景に対応する被写体３ｆｇの３次元形状として算出される。例えば、図３に示すように、前景生成部１５Ｅは、カメラ５Ａ～５Ｃの各視点に対応するシルエット画像２１０Ａ～２１０ＣごとにシルエットＳＡ～ＳＣを３次元空間に投影する。例えば、シルエットＳＡが投影された場合、カメラ５Ａの光学中心およびシルエット画像２１０Ａ上のシルエットＳＡを結ぶ視体積ＣＡが得られる。さらに、シルエットＳＢが投影された場合、カメラ５Ｂの光学中心およびシルエット画像２１０Ｂ上のシルエットＳＢを結ぶ視体積ＣＢが得られる。さらに、シルエットＳＣが投影された場合、カメラ５Ｃの光学中心およびシルエット画像２１０Ｃ上のシルエットＳＣを結ぶ視体積ＣＣが得られる。これら視体積ＣＡ～ＣＣが重複するＶｉｓｕａｌＨｕｌｌ領域、すなわち図３に示す黒の塗り潰しの３次元形状が前景モデル３Ｍｆｇとして算出される。

背景生成部１５Ｆは、背景モデルを生成する処理部である。

一実施形態として、背景生成部１５Ｆは、記憶部１３にカメラ５の視点ごとに記憶された補正デプス画像２３０を用いて、背景モデル３Ｍｂｇを生成することができる。例えば、背景生成部１５Ｆは、各視点の補正デプス画像２３０を合成することにより、背景モデル３Ｍｂｇを生成する。なお、ここでは、あくまで一例として、補正デプス画像を合成して３次元の背景モデルを生成することとしたが、必ずしも３次元の背景モデルを生成せずともかまわない。例えば、カメラ５の視点ごとに得られた補正デプス画像を合成せずに各視点の補正デプス画像をそのままレンダリング部１５Ｇに入力することとしてもかまわない。

レンダリング部１５Ｇは、自由視点映像をレンダリングする処理部である。

一実施形態として、レンダリング部１５Ｇは、クライアント端末３０からユーザ入力を受け付けることにより仮想視点を指定させることができる。この他、レンダリング部１５Ｇは、クライアント端末３０を介するユーザ設定またはサーバ装置１０に登録されたシステム設定により仮想視点を指定させることができる。このように仮想視点が指定された上で、レンダリング部１５Ｇは、図４を用いて説明した通り、仮想視点に対応する自由視点映像をレンダリングする。すなわち、レンダリング部１５Ｇは、仮想カメラＶｃの光学中心および画素を通る直線と、前景モデル３Ｍｆｇまたは背景モデル３Ｍｂｇとの交点の３次元位置を算出する（Ｓ１）。続いて、レンダリング部１５Ｇは、カメラ５の位置や姿勢などの外部パラメータ及びカメラ５の画角やレンズの歪みなどの内部パラメータが設定されたカメラパラメータにしたがって、上記の交点を各視点に対応するカメラ画像に投影する。図４に示す例で言えば、仮想カメラＶｃからの距離が近い所定数のカメラ５のカメラ画像、すなわちカメラ５ＢおよびカメラＣの２つのカメラ画像２００Ｂおよび２００Ｃに上記の交点が投影される（Ｓ２Ｂ及びＳ２Ｃ）。これによって、仮想カメラＶｃの画素に対応するカメラ５Ｂの画素およびカメラ５Ｃの画素がテクスチャ座標として識別される。その後、レンダリング部１５Ｇは、カメラ５Ｂにより撮像されたカメラ画像２００Ｂのうち、仮想カメラＶｃの画素に対応する画素が有する画素値を参照する（Ｓ３Ｂ）。さらに、レンダリング部１５Ｇは、カメラ５Ｃにより撮像されたカメラ画像２００Ｃのうち仮想カメラＶｃの画素に対応する画素が有する画素値を参照する（Ｓ３Ｃ）。その上で、レンダリング部１５Ｇは、Ｓ３Ｂ及びＳ３Ｃで参照された画素値を仮想カメラＶｃの画素にマッピングする。例えば、仮想カメラＶｃの画素に対応するカメラ画像２００Ｂ上の画素の画素値およびカメラ画像２００Ｃ上の画素の画素値の統計値、例えば相加平均または仮想カメラＶｃとの距離を用いる加重平均などが仮想カメラＶｃの画素の画素値として決定される。

［処理の流れ］
図１１は、実施例１に係る映像生成処理の手順を示すフローチャートである。この処理は、一例として、各カメラ５からカメラ画像が取得された場合、すなわち多視点のカメラ画像が得られた場合に実行される。

図１１に示すように、カメラ５Ａ～カメラ５Ｎから各視点のカメラ画像が取得されると（ステップＳ１０１）、算出部１５Ｂは、カメラ５Ａ～５ＮのＮ個の視点のうち未選択の視点を基準視点として選択する（ステップＳ１０２）。続いて、算出部１５Ｂは、基準視点に対応するカメラ画像との間で視差を得ることが可能である視点、例えば基準視点と隣接するカメラ５の視点を参照視点として選択する（ステップＳ１０３）。

その上で、算出部１５Ｂは、ステレオマッチングにより、ステップＳ１０２で選択された基準視点に対応するカメラ画像およびステップＳ１０３で選択された参照視点に対応するカメラ画像から基準視点に対応するデプス画像を算出する（ステップＳ１０４）。

また、分離部１５Ｃは、ステップＳ１０２で選択された基準視点に対応するカメラ画像に含まれる被写体を前景および背景に分離する（ステップＳ１０５）。このような前景および背景の分離によって、画素ごとに前景または背景のラベルが割り当てられたシルエット画像が得られる。

その後、補正部１５Ｄは、ステップＳ１０５で得られたシルエット画像を用いて、ステップＳ１０４で得られたデプス画像を補正する（ステップＳ１０６）。このデプス画像の補正によって、補正デプス画像が得られる。

そして、カメラ画像に含まれる全ての画素が選択されるまで（ステップＳ１０７Ｎｏ）、上記のステップＳ１０２から上記のステップＳ１０６までの処理が繰り返し実行される。

その後、カメラ画像に含まれる全ての画素が選択された場合（ステップＳ１０７Ｙｅｓ）、前景生成部１５Ｅは、ステップＳ１０５の繰り返しにより得られた各視点のシルエット画像を用いて前景モデルを生成する（ステップＳ１０８）。また、背景生成部１５Ｆは、ステップＳ１０６の繰り返しにより得られた各視点の補正デプス画像を用いて背景モデルを生成する（ステップＳ１０９）。

そして、レンダリング部１５Ｇは、ステップＳ１０１で取得された各視点のカメラ画像と、ステップＳ１０８及びＳ１０９で生成された前景モデル及び背景モデルとを用いて、仮想視点に対応するカメラ画像、いわゆる自由視点映像を生成し（ステップＳ１１０）、処理を終了する。

なお、図１１のフローチャートでは、ステップＳ１０５の前景背景分離がステップＳ１０４の処理が実行された後に実行される例が示されているが、ステップＳ１０５の前景背景分離は、ステップＳ１０２で基準視点が選択された段階から開始することができる。このため、ステップＳ１０５の前景背景分離は、ステップＳ１０３及びステップＳ１０４の処理よりも先に実行されることとしてもよいし、ステップＳ１０３及びステップＳ１０４の処理と並列して実行することもできる。このような順序の入替えや並列処理が行われる場合でも、ステップＳ１０５の前景背景分離の処理内容に変わりはない。

［効果の一側面］
上述してきたように、本実施例に係るサーバ装置１０は、前景モデルを生成する側面から行われる前景背景分離により得られた前景および背景の分離結果を用いて各視点に対応するデプス画像を補正し、補正されたデプス画像から背景モデルを生成する。このように、前景および背景の分離結果を用いることで、前景の被写体と背景の被写体とのデプスが近い場合でも、両者を区別してデプス画像を補正することができる。さらに、前景の被写体と背景の被写体との境界部においても、両者を混在せずにデプス画像におけるデプスのばらつきを補正することができる。このような補正が行われたデプス画像から背景モデルが生成される結果、背景モデルの精度を高めることができる。したがって、本実施例に係るサーバ装置１０によれば、背景モデル及び動的背景のデプスのずれを低減させることが可能になる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

［前景背景分離の応用例１］
例えば、サーバ装置１０は、ステレオマッチング等により得られたデプス画像をさらに用いて前景背景分離を行うことができる。

すなわち、上記の実施例１で例に挙げたが背景差分により前景背景分離が実現される場合、画素値が表す色情報に基づいて前景および背景が分離される。この場合、前景の被写体と背景の被写体の色が類似する場合、前景の被写体が背景として分離されたり、背景の被写体が前景として分離されたりするので、十分な分離精度を発揮できないことがある。例えば、スポーツ観戦の様子がカメラ画像として撮像される場合、前景となる選手および動的背景となる観客は、いずれも人であるので、色情報だけでカメラ画像から前景と背景を分離するのは困難である。なお、ここでは、前景背景分離に背景差分を用いる場合を例に挙げたが、この例に限定されない。例えば、前景に対応する色のヒストグラムおよび背景に対応する色のヒストグラムを生成しておき、これらの色のヒストグラムに基づいて取得部１５Ａに取得されたカメラ画像の画素の色を分離する場合にも同様の課題が生じる。

このことから、応用例１では、色情報に加えて奥行きの情報をさらに用いて前景背景分離を行うことで、前景の被写体と背景の被写体の色が類似する場合にもロバストな前景背景分離を実現し、もって前景および背景の分離精度の向上を図る。

このような前景背景分離を実現する側面から、応用例１では、前景背景分離に２次元のグラフカットを用いる例を説明する。例えば、カメラ画像に含まれる画素に前景または背景のラベルを割り当てるラベル付け問題を下記の式（５）に示すエネルギー関数を最小化する問題として定式化する。

Ｅ＝ΣＥｄ（ｐ）＋λΣＥｓ（ｐ，ｑ）・・・（５）

上記の式（５）に示すエネルギー関数Ｅには、右辺第一項の「データ項」と右辺第二項の「平滑化項」とが含まれる。式（５）における「λ」は、平滑化項に付与する重みの係数を指す。また、式（５）における「ｐ」は、前景または背景のラベルを割り当てる対象とする画素を指す。また、式（５）における「ｑ」は、画素ｐに隣接する画素を指し、例えば、画素ｐの周囲に位置する８近傍、あるいは４近傍の画素を隣接画素として設定することができる。

ここで、データ項は、下記の式（６）に示すように、色情報から求める第１の前景尤度および第１の背景尤度に基づくエネルギーＥ_colorと、デプス値から求める第２の前景尤度および第２の背景尤度に基づくエネルギーＥ_depthとにより定式化する。なお、式（６）における「ｗ_color」は、Ｅ_colorに付与する重み係数を指し、また、式（６）における「ｗ_depth」は、Ｅ_depthに付与する重み係数を指す。

Ｅｄ（ｐ）＝ｗ_color×Ｅ_color＋ｗ_depth×Ｅ_depth・・・（６）

また、平滑化項は、下記の式（７）の通り、隣接する画素間でラベルを滑らかにするペナルティ関数が定められる。なお、式（７）における「Ｃｐ」は、画素ｐにおける画素値を指し、また、式（７）における「Ｃｑ」は、隣接画素ｑにおける画素値を指す。

ΣＥｓ（ｐ，ｑ）＝ｅｘｐ（｜Ｃｐ－Ｃｑ｜）・・・（７）

このようなデータ項によって、第１の前景尤度および第１の背景尤度と、第２の前景尤度および第２の背景尤度との傾向を維持する作用をラベルの割り振りに発揮させることができる。さらに、平滑化によって、画素ごとのラベルのばらつきを抑制する作用をラベルの割り振りに発揮させることができる。

これらのデータ項および平滑化項を含むエネルギー関数Ｅを最小化するラベルの集合を最大フロー最小カットの定理にしたがって算出することにより、画素ごとに前景または背景のラベルを割り当てることができる。

以上のようなグラフカットを実現する側面から、応用例１では、第１尤度算出部２１および第２尤度算出部２２などの機能部が追加される。さらに、応用例１では、上記の実施例１で示した分離部１５Ｃの代わりに、前景背景分離をグラフカットで実現する分離部２３が追加される。

図１２は、応用例１における各機能部間で授受されるデータの一例を示す図である。図１２には、一例として、カメラ５Ａ～５ＮのＮ個の視点のうち、カメラ５Ａの視点が基準視点として選択された際に、各機能部の間で授受されるデータの例が示されている。

図１２に示すように、取得部１５Ａにより取得されたカメラ画像２００Ａ～カメラ画像２００Ｎのうち、基準視点に対応するカメラ画像２００Ａが算出部１５Ｂへ入力される。さらに、あくまで一例として、基準視点に対応するデプス画像をステレオマッチングにより算出する側面から、カメラ画像２００Ａとの間で視差を得ることが可能である視点、例えば基準視点と隣接するカメラ５Ｂの視点が参照視点として選択される。このように選択された参照視点に対応するカメラ画像２００Ｂも算出部１５Ｂへ入力される。

これらカメラ画像２００Ａ及びカメラ画像２００Ｂが入力された場合、算出部１５Ｂは、ステレオマッチングにより基準視点に対応するデプス画像２２０Ａを算出する。例えば、算出部１５Ｂは、カメラ５Ａ及びカメラ５Ｂのカメラパラメータにしたがってカメラ画像２００Ａに対するカメラ画像２００Ｂの視差マップを基準視点に対応するデプス画像２２０Ａへ変換する。

ここまでは、図１２および図７の間で差はないが、ここからが異なる。すなわち、ステレオマッチング等により得られたデプス画像２２０Ａは、算出部１５Ｂから補正部１５Ｄへ入力されるだけでなく、算出部１５Ｂから第１尤度算出部２１へも入力される。

一方、基準視点に対応するカメラ画像２００Ａは、算出部１５Ｂの他、第１尤度算出部２１にも入力される。カメラ画像２００Ａが入力された場合、第１尤度算出部２１は、カメラ画像２００Ａに含まれる画素ごとに当該画素の画素値を用いて第１の前景尤度および第１の背景尤度を算出する。これら第１の前景尤度および第１の背景尤度は、次のようにして算出することができる。例えば、前景および背景のラベルごとに、色がラベルに該当する度数分布、例えばヒストグラムや確率分布、例えば混合ガウス分布を事前に算出しておく。ここでは、あくまで一例として、Ｋ個のガウス分布を含む混合ガウス分布が前景および背景のラベルごとに準備される場合を例示する。このような混合ガウス分布およびカメラ画像２００Ａの画素ｐの画素値Ｉ_ｐを比較することにより、画素ｐの第１の前景尤度および第１の背景尤度を算出する。例えば、第１尤度算出部２１は、下記の式（８）にしたがってカメラ画像２００Ａの画素ｐの画素値Ｉ_ｐから第１の前景尤度または第１の背景尤度を求める。ここで、式（８）における「ｗ_ｋ」とは、ｋ番目のガウス分布の重みを指す。また、式（８）における「Ｎ（Ｉ_ｐ｜μ_ｋ，Σ_ｋ）」とは、ｋ番目のガウス分布を指す。このような式（８）により、前景および背景のラベルごとにＫ個のガウス分布の中から１つのガウス分布が選択される。このように算出された第１の前景尤度および第１の背景尤度が第１尤度算出部２１から分離部２３へ入力される。

Ｐ_color（ｐ｜ｌ）＝Σｗ_ｋ・Ｎ（Ｉ_ｐ｜μ_ｋ，Σ_ｋ）・・・（８）

また、デプス画像２２０Ａが入力された第２尤度算出部２２は、デプス画像２２０Ａの画素ごとに当該画素のデプス値を用いて第２の前景尤度および第２の背景尤度を算出する。これら第２の前景尤度および第２の背景尤度は、次のようにして算出することができる。まず、３次元空間上で前景の存在領域および背景の存在領域が事前に設定される。例えば、スポーツ観戦を例に挙げれば、スタジアム内で選手が競技を行うフィールドの面および選手やボールが移動しうる高さなどが前景の存在領域として設定される。また、スタジアム内で前景の存在領域以外の領域が背景の存在領域として設定される。

これら前景の存在領域および背景の存在領域の設定の下、第２尤度算出部２２は、基準視点に対応するデプス画像２２０Ａの画素ｐの奥行き方向の評価値を算出する。例えば、第２尤度算出部２２は、基準視点のカメラ５Ａの光学中心から尤度の算出対象とする画素ｐを通るＲａｙを参照視点のカメラ５Ｂのデプス画像２２０Ｂに投影する。これによって、デプス画像２２０Ｂ上にエピポーラ線が描画される。その上で、第２尤度算出部２２は、デプス画像２２０Ａの画素ｐと、デプス画像２２０Ｂのエピポーラ線上に存在する各画素との間で評価値、例えばＳＡＤ（Sum of Absolute Difference）を算出する。

図１３は、評価値とデプスのグラフの一例を示す図である。図１３には、縦軸をＳＡＤとし、横軸をデプスとするグラフが示されている。ここで言う「デプス」とは、カメラ５Ａの光学中心を原点とし、そこからの奥行き方向の距離を指す。さらに、図１３には、グラフに重ねて前景の存在領域および背景の存在領域が示されている。図１３に示すように、第２尤度算出部２２は、前景の存在領域のデプスに対応するＳＡＤのうちＳＡＤの最小値が観測される最小点ｊ１を抽出する。その上で、第２尤度算出部２２は、最小点ｊ１で計測されるＳＡＤを代表評価値ｒ（ｌ）とし、この代表評価値ｒ（ｌ）を下記の式（９）にしたがって第２の前景尤度へ変換する。また、第２尤度算出部２２は、背景の存在領域のデプスに対応するＳＡＤのうちＳＡＤの最小値が観測される最小点ｊ２を抽出する。その上で、第２尤度算出部２２は、最小点ｊ２で計測されるＳＡＤを代表評価値ｒ（ｌ）とし、この代表評価値ｒ（ｌ）を下記の式（９）にしたがって第２の背景尤度へ変換する。このように算出された第２の前景尤度および第２の背景尤度が第２尤度算出部２２から分離部２３へ入力される。

Ｐ_depth（ｐ｜ｌ）＝ｅｘｐ（－ｒ（ｌ））・・・（９）

そして、分離部２３は、上記の式（５）に示すエネルギー関数を最小化するラベルの集合を最大フロー最小カットの定理にしたがって算出する。このような２次元のグラフカットによって、画素ごとに前景または背景のラベルが割り当てられたシルエット画像２１０Ａ′が得られる。

このようにして得られたシルエット画像２１０Ａ′は、デプス画像２２０Ａの補正に用いる側面から分離部２３から補正部１５Ｄへ入力されると共に、前景モデルの生成にも用いる側面から記憶部１３に保存される。

これらデプス画像２２０Ａ及びシルエット画像２１０Ａ′が入力された場合、補正部１５Ｄは、シルエット画像２１０Ａ′を用いてデプス画像２２０Ａを補正する。このデプス画像２２０Ａの補正時には、補正部１５Ｄは、シルエット画像２１０Ａ′で背景のラベルが割り当てられたデプス画像２２０Ａの画素の画素値を有効とし、空間フィルタリングおよび時間フィルタリングのうち少なくとも１つを実行する。これによって、デプス画像２２０Ａが補正された補正デプス画像２３０Ａ′が得られる。このように、前景の被写体と背景の被写体の色が類似する場合にもロバストな前景背景分離が行われたシルエット画像２１０Ａ′をデプス画像の補正に用いることで、背景モデルの精度も高めることができる。

一方、記憶部１３に保存されたシルエット画像２１０Ａ′は、他のシルエット画像２１０とともに、前景生成部１５Ｅにより前景モデルの生成に用いられる。このように、シルエット画像２１０Ａ′を前景モデルの生成に用いることで、前景モデルの精度も高めることができる。

図１４は、応用例１に係る映像生成処理の手順を示すフローチャートである。この処理は、一例として、各カメラ５からカメラ画像が取得された場合、すなわち多視点のカメラ画像が得られた場合に実行される。

図１４に示すように、カメラ５Ａ～カメラ５Ｎから各視点のカメラ画像が取得されると（ステップＳ１０１）、算出部１５Ｂは、カメラ５Ａ～５ＮのＮ個の視点のうち未選択の視点を基準視点として選択する（ステップＳ１０２）。続いて、算出部１５Ｂは、基準視点に対応するカメラ画像との間で視差を得ることが可能である視点、例えば基準視点と隣接するカメラ５の視点を参照視点として選択する（ステップＳ１０３）。

続いて、第１尤度算出部２１は、基準視点に対応するカメラ画像の色情報に基づいて各画素の第１の前景尤度および第１の背景尤度を算出する（ステップＳ２０１）。また、第２尤度算出部２２は、ステップＳ１０４で算出されたデプス画像を用いて各画素の第２の前景尤度および第２の背景尤度を算出する（ステップＳ２０２）。

その上で、分離部２３は、第１の前景尤度および第１の背景尤度と、第２の前景尤度および第２の背景尤度とがデータ項に組み込まれたエネルギー関数を最小化するラベルの集合を最大フロー最小カットの定理にしたがって算出する（ステップＳ２０３）。このような２次元のグラフカットによって、画素ごとに前景または背景のラベルが割り当てられたシルエット画像２１０Ａが得られる。

その後、補正部１５Ｄは、ステップＳ２０３で得られたシルエット画像を用いて、ステップＳ１０４で得られたデプス画像を補正する（ステップＳ１０６）。このデプス画像の補正によって、補正デプス画像が得られる。

その後、カメラ画像に含まれる全ての画素が選択された場合（ステップＳ１０７Ｙｅｓ）、前景生成部１５Ｅは、ステップＳ２０３の繰り返しにより得られた各視点のシルエット画像を用いて前景モデルを生成する（ステップＳ１０８）。また、背景生成部１５Ｆは、ステップＳ１０６の繰り返しにより得られた各視点の補正デプス画像を用いて背景モデルを生成する（ステップＳ１０９）。

なお、図１４のフローチャートでは、ステップＳ２０１の第１の前景尤度および第１の背景尤度の算出がステップＳ１０４の処理が実行された後に実行される例が示されているが、ステップＳ２０１の処理は、ステップＳ１０２で基準視点が選択された段階から開始することができる。このため、ステップＳ２０３の前景背景分離は、ステップＳ１０３及びステップＳ１０４の処理よりも先に実行されることとしてもよいし、ステップＳ１０３及びステップＳ１０４の処理と並列して実行することもできる。このような順序の入替えや並列処理が行われる場合でも、ステップＳ２０１の処理内容に変わりはない。また、ステップＳ２０２の第２の前景尤度および第２の背景尤度の算出がステップＳ２０１の処理が実行された後に実行される例が示されているが、ステップＳ２０２の処理は、ステップＳ１０４でデプス画像が算出された段階から開始することができる。このため、ステップＳ２０２の処理は、ステップＳ２０１の処理よりも先に実行されることとしてもよいし、ステップＳ２０１の処理と並列して実行することもできる。このような順序の入替えや並列処理が行われる場合でも、ステップＳ２０２の処理内容に変わりはない。

［前景背景分離の応用例２］
上記の実施例１では、カメラ画像に含まれる画素を前景および背景の少なくとも２つのカテゴリに分離する例を挙げたが、３つ以上のカテゴリに分離することとしてもかまわない。例えば、分離部１５Ｃおよび分離部２３は、カメラ画像に含まれる画素のうち背景に分離される画素を背景のカテゴリがさらに区分された背景のサブカテゴリ群にさらに分離することもできる。例えば、スポーツ観戦を例に挙げれば、背景のカテゴリは、背景サブカテゴリ１「観客」および背景サブカテゴリ２「フィールド」にさらに区分できる。このように３つ以上のカテゴリが存在する場合、グラフカットの実行時には、前景および背景の２値のラベルの代わりに、前景カテゴリ、背景サブカテゴリ１及び背景サブカテゴリ２に対応する多値のラベルごとに、第１の前景尤度および第１の背景尤度と、第２の前景尤度および第２の背景尤度とを算出する。例えば、第１の前景尤度および第１の背景尤度を算出する場合、前景カテゴリ、背景サブカテゴリ１及び背景サブカテゴリ２ごとに混合ガウス分布を用意することとすればよい。また、第２の前景尤度および第２の背景尤度を算出する場合、前景カテゴリの存在領域、背景サブカテゴリ１の存在領域及び背景サブカテゴリ２の存在領域を設定することとすればよい。そして、分離部１５Ｃおよび分離部２３は、多値のグラフカットにより、前景カテゴリ、背景サブカテゴリ１及び背景サブカテゴリ２の多値のラベルを各画素に割り当てる。その上で、補正部１５Ｄは、デプス画像に含まれる画素のデプスを画素が分離された背景サブカテゴリと同一の背景サブカテゴリに分離された画素のデプスを用いて補正することとすればよい。例えば、注目画素の背景サブカテゴリと同一の背景サブカテゴリに分離された周辺画素のデプス値や過去フレームのデプス値に絞り込んで畳み込み演算を行うこととすればよい。

［分散および統合］
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、取得部１５Ａ、算出部１５Ｂ、分離部１５Ｃ、補正部１５Ｄ、前景生成部１５Ｅ、背景生成部１５Ｆまたはレンダリング部１５Ｇをサーバ装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、取得部１５Ａ、算出部１５Ｂ、分離部１５Ｃ、補正部１５Ｄ、前景生成部１５Ｅ、背景生成部１５Ｆまたはレンダリング部１５Ｇを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のサーバ装置１０の機能を実現するようにしてもよい。

［背景モデル生成プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１５を用いて、上記の実施例と同様の機能を有する背景モデル生成プログラムを実行するコンピュータの一例について説明する。

図１５は、実施例１及び実施例２に係る背景モデル生成プログラムを実行するコンピュータのハードウェア構成例を示す図である。図１５に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０～１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１５に示すように、上記の実施例１で示した取得部１５Ａ、算出部１５Ｂ、分離部１５Ｃ、補正部１５Ｄ、前景生成部１５Ｅ、背景生成部１５Ｆ及びレンダリング部１５Ｇと同様の機能を発揮する背景モデル生成プログラム１７０ａが記憶される。この背景モデル生成プログラム１７０ａは、図６に示した取得部１５Ａ、算出部１５Ｂ、分離部１５Ｃ、補正部１５Ｄ、前景生成部１５Ｅ、背景生成部１５Ｆまたはレンダリング部１５Ｇの各構成要素と同様、統合又は分離してもかまわない。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０から背景モデル生成プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、背景モデル生成プログラム１７０ａは、図１５に示すように、背景モデル生成プロセス１８０ａとして機能する。この背景モデル生成プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうち背景モデル生成プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、背景モデル生成プロセス１８０ａが実行する処理の一例として、図１１や図１４に示す処理などが含まれる。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

なお、上記の背景モデル生成プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に背景モデル生成プログラム１７０ａを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から背景モデル生成プログラム１７０ａを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに背景モデル生成プログラム１７０ａを記憶させておき、コンピュータ１００がこれらから背景モデル生成プログラム１７０ａを取得して実行するようにしてもよい。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）所定の撮像位置からカメラにより撮像されたカメラ画像を取得する取得部と、
前記撮像位置に対応するデプス画像を算出する算出部と、
前記カメラ画像に含まれる複数の画素を前景と背景に分離する分離部と、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正する補正部と、
前記補正部により補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する背景生成部と、
を有することを特徴とする背景モデル生成装置。

（付記２）前記補正部は、前記デプス画像に含まれる複数の画素のうち前記前景に分離された各画素のデプス値に無効値を設定することを特徴とする付記１に記載の背景モデル生成装置。

（付記３）前記補正部は、前記デプス画像に含まれる複数の画素ごとに、デプス値および周辺画素のデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記２に記載の背景モデル生成装置。

（付記４）前記補正部は、前記デプス画像に含まれる複数の画素ごとに、補正対象とする注目フレームにおけるデプス値および過去のフレームにおけるデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記２に記載の背景モデル生成装置。

（付記５）前記分離部は、前記デプス画像を基づいて前記カメラ画像に含まれる複数の画素を前景と背景に分離し、
前記補正部は、前記デプス画像に基づいて前記背景に分離された各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正することを特徴とする付記１に記載の背景モデル生成装置。

（付記６）前記分離部は、前記カメラ画像に含まれる複数の画素のうち前記背景に分離される各画素を、前記背景のカテゴリがさらに区分された背景のサブカテゴリ群に分離し、
前記補正部は、前記デプス画像に含まれる第一の画素のデプス値を、前記第一の画素が分離された背景のサブカテゴリと同一の背景のサブカテゴリに分離された第二の画素のデプス値を用いて補正することを特徴とする付記１に記載の背景モデル生成装置。

（付記７）前記算出部は、前記カメラ画像と、前記カメラ画像と撮像位置が異なる他のカメラ画像との視差に基づいて前記デプス画像を算出することを特徴とする付記１に記載の背景モデル生成装置。

（付記８）所定の撮像位置からカメラにより撮像されたカメラ画像を取得し、
前記撮像位置に対応するデプス画像を算出し、
前記カメラ画像に含まれる複数の画素を前景と背景に分離し、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正し、
補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する、
処理をコンピュータが実行することを特徴とする背景モデル生成方法。

（付記９）前記補正する処理は、前記デプス画像に含まれる複数の画素のうち前記前景に分離された各画素のデプス値に無効値を設定することを特徴とする付記８に記載の背景モデル生成方法。

（付記１０）前記補正する処理は、前記デプス画像に含まれる複数の画素ごとに、デプス値および周辺画素のデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記９に記載の背景モデル生成方法。

（付記１１）前記補正する処理は、前記デプス画像に含まれる複数の画素ごとに、補正対象とする注目フレームにおけるデプス値および過去のフレームにおけるデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記９に記載の背景モデル生成方法。

（付記１２）前記分離する処理は、前記デプス画像を基づいて前記カメラ画像に含まれる複数の画素を前景と背景に分離し、
前記補正する処理は、前記デプス画像に基づいて前記背景に分離された各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正することを特徴とする付記８に記載の背景モデル生成方法。

（付記１３）前記分離する処理は、前記カメラ画像に含まれる複数の画素のうち前記背景に分離される各画素を、前記背景のカテゴリがさらに区分された背景のサブカテゴリ群に分離し、
前記補正する処理は、前記デプス画像に含まれる第一の画素のデプス値を、前記第一の画素が分離された背景のサブカテゴリと同一の背景のサブカテゴリに分離された第二の画素のデプス値を用いて補正することを特徴とする付記８に記載の背景モデル生成方法。

（付記１４）前記算出する処理は、前記カメラ画像と、前記カメラ画像と撮像位置が異なる他のカメラ画像との視差に基づいて前記デプス画像を算出することを特徴とする付記８に記載の背景モデル生成方法。

（付記１５）所定の撮像位置からカメラにより撮像されたカメラ画像を取得し、
前記撮像位置に対応するデプス画像を算出し、
前記カメラ画像に含まれる複数の画素を前景と背景に分離し、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正し、
補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する、
処理をコンピュータに実行させることを特徴とする背景モデル生成プログラム。

（付記１６）前記補正する処理は、前記デプス画像に含まれる複数の画素のうち前記前景に分離された各画素のデプス値に無効値を設定することを特徴とする付記１５に記載の背景モデル生成プログラム。

（付記１７）前記補正する処理は、前記デプス画像に含まれる複数の画素ごとに、デプス値および周辺画素のデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記１６に記載の背景モデル生成プログラム。

（付記１８）前記補正する処理は、前記デプス画像に含まれる複数の画素ごとに、補正対象とする注目フレームにおけるデプス値および過去のフレームにおけるデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記１６に記載の背景モデル生成プログラム。

（付記１９）前記分離する処理は、前記デプス画像を基づいて前記カメラ画像に含まれる複数の画素を前景と背景に分離し、
前記補正する処理は、前記デプス画像に基づいて前記背景に分離された各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正することを特徴とする付記１５に記載の背景モデル生成プログラム。

（付記２０）前記分離する処理は、前記カメラ画像に含まれる複数の画素のうち前記背景に分離される各画素を、前記背景のカテゴリがさらに区分された背景のサブカテゴリ群に分離し、
前記補正する処理は、前記デプス画像に含まれる第一の画素のデプス値を、前記第一の画素が分離された背景のサブカテゴリと同一の背景のサブカテゴリに分離された第二の画素のデプス値を用いて補正することを特徴とする付記１５に記載の背景モデル生成プログラム。

１映像生成システム
３ｆｇ，３ｂｇｓ，３ｂｇｄ被写体
５Ａ～５Ｎカメラ
１０サーバ装置
１１通信Ｉ／Ｆ部
１３記憶部
１５制御部
１５Ａ取得部
１５Ｂ算出部
１５Ｃ分離部
１５Ｄ補正部
１５Ｅ前景生成部
１５Ｆ背景生成部
１５Ｇレンダリング部
３０クライアント端末

Claims

視点が異なる複数のカメラにより撮像された複数のカメラ画像を取得する取得部と、
前記カメラ画像ごとに前記カメラの撮影位置に対応するデプス画像を算出する算出部と、
第１の視点のデプス画像の画素ごとに、前記第１の視点のカメラの光学中心および前記第１の視点のデプス画像の画素を通る直線が前記第１の視点とは異なる第２の視点のデプス画像に投影されることにより得られたエピポーラ線上の画素と、前記第１の視点のデプス画像の画素との間で特定される評価値に基づいて、前記第１の視点のデプス画像の画素が前景である尤もらしさを示す前景尤度および前記第１の視点のデプス画像の画素が背景である尤もらしさを示す背景尤度を算出する尤度算出部と、
前記カメラ画像に含まれる画素を前記カメラ画像に対応するデプス画像の各画素の前記前景尤度および前記背景尤度に基づいて前景と背景に分離する分離部と、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正する補正部と、
前記補正部により補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する背景生成部と、
を有することを特徴とする背景モデル生成装置。
前記補正部は、前記デプス画像に含まれる複数の画素のうち前記前景に分離された各画素のデプス値に無効値を設定することを特徴とする請求項１に記載の背景モデル生成装置。
前記補正部は、前記デプス画像に含まれる複数の画素ごとに、デプス値および周辺画素のデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする請求項１または２に記載の背景モデル生成装置。
前記補正部は、前記デプス画像に含まれる複数の画素ごとに、補正対象とする注目フレームにおけるデプス値および過去のフレームにおけるデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする請求項１、２または３に記載の背景モデル生成装置。
前記分離部は、前記カメラ画像に含まれる複数の画素のうち前記背景に分離される各画素を、前記背景のカテゴリがさらに区分された背景のサブカテゴリ群に分離し、
前記補正部は、前記デプス画像に含まれる第一の画素のデプス値を、前記第一の画素が分離された背景のサブカテゴリと同一の背景のサブカテゴリに分離された第二の画素のデプス値を用いて補正することを特徴とする請求項１～４のいずれか１つに記載の背景モデル生成装置。
視点が異なる複数のカメラにより撮像された複数のカメラ画像を取得し、
前記カメラ画像ごとに前記カメラの撮影位置に対応するデプス画像を算出し、
第１の視点のデプス画像の画素ごとに、前記第１の視点のカメラの光学中心および前記第１の視点のデプス画像の画素を通る直線が前記第１の視点とは異なる第２の視点のデプス画像に投影されることにより得られたエピポーラ線上の画素と、前記第１の視点のデプス画像の画素との間で特定される評価値に基づいて、前記第１の視点のデプス画像の画素が前景である尤もらしさを示す前景尤度および前記第１の視点のデプス画像の画素が背景である尤もらしさを示す背景尤度を算出し、
前記カメラ画像に含まれる画素を前記カメラ画像に対応するデプス画像の各画素の前記前景尤度および前記背景尤度に基づいて前景と背景に分離し、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正し、
補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する、
処理をコンピュータが実行することを特徴とする背景モデル生成方法。
視点が異なる複数のカメラにより撮像された複数のカメラ画像を取得し、
前記カメラ画像ごとに前記カメラの撮影位置に対応するデプス画像を算出し、
第１の視点のデプス画像の画素ごとに、前記第１の視点のカメラの光学中心および前記第１の視点のデプス画像の画素を通る直線が前記第１の視点とは異なる第２の視点のデプス画像に投影されることにより得られたエピポーラ線上の画素と、前記第１の視点のデプス画像の画素との間で特定される評価値に基づいて、前記第１の視点のデプス画像の画素が前景である尤もらしさを示す前景尤度および前記第１の視点のデプス画像の画素が背景である尤もらしさを示す背景尤度を算出し、
前記カメラ画像に含まれる画素を前記カメラ画像に対応するデプス画像の各画素の前記前景尤度および前記背景尤度に基づいて前景と背景に分離し、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正し、
補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する、
処理をコンピュータに実行させることを特徴とする背景モデル生成プログラム。