JP2023084843A

JP2023084843A - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2023084843A
Application number: JP2021199189A
Authority: JP
Inventors: 和希緑川; Kazuki Midorikawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2023-06-20
Also published as: US20230177851A1

Abstract

【課題】精度よくオブジェクトの三次元形状データを生成する。【解決手段】画像処理装置は、三次元形状データの生成対象のオブジェクトを遮蔽する可能性がある他のオブジェクトであって、三次元形状データの生成対象ではない他のオブジェクトが存在しうる撮像画像のうち第１の領域を特定し、特定された第１の領域から検出された他のオブジェクトの領域と、撮像画像から検出されたオブジェクトの領域と、に基づいて、オブジェクトの三次元形状データを生成する。【選択図】図６

Description

本開示は、撮像画像に基づくデータの生成に関する。

複数の撮像装置の撮像による複数の撮像画像から生成されたオブジェクトの二次元シルエットを表すマスク画像とカメラパラメータとを用いて、オブジェクトの三次元形状データを生成する方法がある。この方法で三次元形状データを生成する場合、三次元形状データの生成対象であるオブジェクトと撮像装置との間に障害物が存在してしまうと、オブジェクトの三次元形状の生成精度が低下することがある。

特許文献１には、障害物が静止している構造物である場合、その構造物によってオブジェクトが遮蔽されたことにより、そのオブジェクトの三次元形状に欠損が発生することを抑制する方法が開示されている。

特開２０１９－１０６１４５号公報

観客のような静止していない人物も三次元形状データの生成対象となるオブジェクトを遮蔽する障害物となる場合がある。特許文献１の方法では、静止していない障害物によって三次元形状データの生成対象となるオブジェクトが遮蔽された場合、三次元形状に欠損が発生することを抑制することができない。

本開示の画像処理装置は、三次元形状データの生成対象のオブジェクトを遮蔽する可能性がある他のオブジェクトであって、三次元形状データの生成対象ではない他のオブジェクトが存在しうる撮像画像のうち第１の領域を特定する特定手段と、前記特定手段により特定された前記第１の領域から検出された前記他のオブジェクトの領域と、前記撮像画像から検出された前記オブジェクトの領域と、に基づいて、前記オブジェクトの三次元形状データを生成する生成手段と、を有することを特徴とする。

本開示の技術によれば、精度よくオブジェクトの三次元形状データを生成することができる。

撮像装置の配置例を示す図。仮想視点画像生成装置のハードウエア構成の一例を示す図。仮想視点画像生成装置の機能構成の一例を示す図。画像処理部における機能構成の一例を示す図。撮像画像の一例を示す図。画像処理部による処理を説明するためのフローチャート。撮像画像内の遮蔽候補領域およびオブジェクト検出領域を説明するための図。遮蔽領域を説明するための図。前景形状マスクおよび統合マスクの一例を示す図。視体積交差法による三次元モデルの生成方法を説明するための図。

以下、添付の図面を参照して、実施形態に基づいて本開示の技術の詳細を説明する。なお、以下の実施形態で示す構成は一例に過ぎず、また本開示の技術は図示された構成に限定されるものではない。

＜実施形態１＞
［仮想視点画像について］
複数の撮像装置を異なる位置に設置することにより複数の視点で時刻同期して撮像し、その撮像により得られた複数の画像を用いて、実際の撮像装置からの視点によらない仮想視点からの見えを表す画像を生成する方法がある。この方法によって生成された仮想視点からの見えを表す画像を仮想視点画像とよぶ。仮想視点画像によれば、ユーザは、サッカー等の競技のハイライトシーンを様々な角度から視聴閲覧することができるため、通常の撮像画像と比較してユーザに高臨場感を与えることができる。なお、仮想視点画像は、動画であっても、静止画であってもよい。以下の実施形態では、仮想視点画像は動画であるものとして説明を行う。

仮想視点画像は、前景となるオブジェクトの三次元形状を表す三次元形状データ（三次元モデルともいう）を生成して三次元モデルを背景に配置し、仮想視点から見えを表すように三次元モデルに色付けを行うことで生成される。三次元モデルの生成および背景の描画には、あらかじめ姿勢を決めてキャリブレーションされ、共通の同期信号とタイムコードを入力することで時刻同期して撮像が可能な複数の撮像装置が撮像して得られた撮像画像に基づくデータが用いられる。三次元モデルの生成対象となるオブジェクトは、仮想視点の任意の角度から見ることを可能とする被写体であり、例えば、競技場のフィールド上に存在する選手である。

図１は、撮像装置１０１ａ～ｈの設置例を示す図である。撮像装置であるカメラは、図１に示すように三次元モデルの生成対象となるオブジェクトが存在する撮像空間（競技場）全体が写るように配置される。そして、撮像装置１０１ａ～ｈは、固有のカメラＩＤと撮像装置１０１ａ～ｈで構成されるカメラアレイ内で共通するタイムコードとが付与された撮像画像を、後述する仮想視点画像生成装置２００の入力画像として出力する。

複数の撮像装置１０１ａ～ｈは、三次元モデルの生成対象でない障害物が写り込まない位置に設置するのが望ましい。しかしながらが、配置の制約または品質のよいテクスチャ画像を得るために、三次元モデルの生成対象となるオブジェクトの近くかつ低い位置に設置される撮像装置もある。

［ハードウエア構成］
図２は、複数の撮像装置の撮像画像に基づき仮想視点画像を生成する画像処理装置である仮想視点画像生成装置２００のハードウエア構成を示す図である。仮想視点画像生成装置２００は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、入力Ｉ／Ｆ２０５、通信Ｉ／Ｆ２０４、及びバス２０６を有する。

ＣＰＵ２０１は、ＲＯＭ２０２やＲＡＭ２０３に格納されているコンピュータプログラムやデータを用い、仮想視点画像生成装置２００の全体を制御することで、図３に示す仮想視点画像生成装置２００の各機能を実現する。また、入力Ｉ／Ｆ２０５から入力される入力画像に対する演算処理を実現する。なお、仮想視点画像生成装置２００は、ＣＰＵ２０１と異なる１又は複数の専用のハードウエアを具備し、ＣＰＵ２０１による処理の少なくとも一部を実行するように構成してもよい。専用のハードウエアの例としては、画像処理や制御に用いるプロセッサ、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、およびＤＳＰ（デジタルシグナルプロセッサ）などがある。

ＲＯＭ２０２は、変更を必要としないプログラムなどを格納する。ＲＡＭ２０３は、ＲＯＭ２０２から供給されるプログラムや各機能ブロックの機能を実現するために用いるデータ、及び通信Ｉ／Ｆ２０４を介して外部から供給されるデータなどを一時記憶する。入力Ｉ／Ｆ２０５は、ＳＤＩやＨＤＭＩ（登録商標）等の受信ユニットで、入力画像を取得する。

通信Ｉ／Ｆ２０４は、外部の装置との通信に用いられる。例えば、仮想視点画像生成装置２００が外部の装置と有線で接続される場合には、通信用のケーブルが通信Ｉ／Ｆ２０４に接続される。仮想視点画像生成装置２００が外部の装置と無線通信する機能を有する場合には、通信Ｉ／Ｆ２０４はアンテナを備える。バス２０６は、仮想視点画像生成装置２００の各部をつないで情報を伝達する。

他にも、不図示の表示部および操作部の少なくとも一方が含まれていてもよいし、表示部および操作部の少なくとも一方が外部の別の装置として存在していてもよい。表示部は、例えば液晶ディスプレイやＬＥＤ等で構成され、ユーザが仮想視点画像生成装置２００を操作するためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）などを表示する。操作部は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をＣＰＵ２０１に入力する。ＣＰＵ２０１は、表示部を制御する表示制御部、及び操作部を制御する操作制御部として動作する。

［仮想視点画像生成装置の機能構成について］
図３は、仮想視点画像生成装置２００の機能構成の一例を示す図である。仮想視点画像生成装置２００は、取得部３０１、前景抽出部３０２、画像処理部３０４、背景生成部３０３、三次元モデル生成部３０５、制御部３０７、および描画部３０６を有する。

取得部３０１は、複数の撮像装置１０１ａ～ｈが時刻同期して撮像して得られた撮像画像を取得する。

前景抽出部３０２は、各撮像装置１０１ａ～ｈの撮像画像から、撮像画像に含まれるオブジェクトの領域を示す前景領域を抽出する。そして撮像画像を前景領域と非前景領域とを二値で示したマスク画像（前景形状マスクとよぶ）を生成する。また、前景となるオブジェクトのテクスチャ画像（前景テクスチャ）を生成する。前景抽出部３０２は、前景テクスチャおよび前景形状マスクに各撮像装置のカメラＩＤおよびタイムコードを付与する。そして、前景テクスチャおよび前景形状マスクを三次元モデル生成部３０５に出力する。

撮像画像から前景を抽出する方法としては、背景差分法がある。この方法は、例えば、オブジェクトが存在しない撮像環境の状態を、背景画像として予め撮像して保持しておく。そして、撮像画像と背景画像との画素値の差分値が閾値より大きい領域を前景と判定する方法である。なお、前景を抽出する方法は背景差分情報を用いる方法に限られない。他にも、前景を抽出する方法として、視差を用いる方法、特徴量を用いる方法、または機械学習を用いる方法などが用いられてもよい。

背景生成部３０３は、タイムコードが付与された背景画像を生成する。背景画像は、同じタイムコードの撮像画像のテクスチャを用いて生成されてもよいし、仮想視点画像の背景としたい画像のデータにタイムコードを付与することで生成されてもよい。

画像処理部３０４は、撮像装置１０１ａ～ｄの夫々の撮像画像内の三次元モデルの生成対象となるオブジェクトが遮蔽されている可能性のある領域（遮蔽領域とよぶ）を決定する。そして遮蔽領域の位置および形状を示す情報である遮蔽領域情報を出力する。遮蔽領域情報には、撮像画像（フレーム）との対応付けを可能にするため撮像画像のタイムコードの情報が付加される。さらに、どの撮像装置に対応する遮蔽領域であるかを示すため撮像装置のカメラＩＤが付加される。画像処理部３０４の処理の詳細は後述する。

三次元モデル生成部３０５は、三次元モデルの生成に利用可能なすべての撮像装置に対応する前景テクスチャ、前景形状マスク、および遮蔽領域情報のデータを取得する。前景テクスチャ、前景形状マスク、背景画像、遮蔽領域情報のそれぞれには、撮像画像のタイムコードの情報が付加されている。このため、前景テクスチャ、前景形状マスク、背景画像、および遮蔽領域情報を同期して、夫々のデータを用いた処理を行うことができる。

遮蔽領域情報に遮蔽領域の情報が含まれている場合、三次元モデル生成部３０５は、対応する撮像装置のカメラＩＤが付与された前景形状マスクに、遮蔽領域情報で指定された遮蔽領域の形状をマージする。その結果得られたマスク画像を統合マスクとよぶ。三次元モデル生成部３０５は、統合マスクを生成する生成部としても機能する。全撮像装置に対応する統合マスクの生成が完了すると、生成した統合マスクに基づき、視体積交差法により三次元モデルを生成する。三次元モデル生成部３０５は、三次元モデルと前景テクスチャとを出力し、描画部３０６に三次元モデルの生成完了を通知する。

描画部３０６は、背景画像、三次元モデル、前景テクスチャ、および仮想視点の情報を取得する。そして、取得した三次元モデルに対して前景テクスチャに基づき着色し、背景画像に三次元モデルを重畳させる。そして、仮想視点からの２次元座標に射影した画像を仮想視点画像として出力する。

制御部３０７は、仮想視点画像生成装置２００の各部の制御を行う。例えば、ユーザが指示した仮想視点を示す座標情報を取得して、仮想視点に対応する仮想視点画像を生成するための制御を行う。また、後述する遮蔽領域検出情報の生成および出力をする。

［画像処理部の機能構成］
図４は、画像処理部３０４の機能の一例を示すブロック図である。画像処理部３０４は、領域設定部４０１、オブジェクト検出部４０２、遮蔽領域決定部４０３を有する。

領域設定部４０１は、遮蔽領域検出条件を参照し、遮蔽オブジェクトを検出する対象となる撮像画像内の領域を設定する。

図５は、撮像装置１０１ａ～ｄのうちのいずれか撮像装置の撮像画像の一例を示す図である。図５（ａ）はカメラキャリブレーションのために撮像して得られた撮像画像５０３を示す図であり、選手および観客がいない状態で撮像空間である競技場を撮像して得られた撮像画像である。撮像画像内には、背景として観客席領域５０１、コート５０２が含まれる。

図５（ｂ）は、競技中の撮像空間を撮像して得られた撮像画像５１３を示す図である。即ち、撮像画像５１３は、仮想視点画像の生成に用いられる前景形状マスク等のデータを生成するための撮像画像の一例である。撮像画像内には、選手５０４、５０５、および観客５０６～５１２が含まれる。このうち、選手５０５、５０５のみを前景オブジェクトとして三次元モデルの生成対象とする場合、撮像装置の位置によっては、観客５０６、５０７のような他のオブジェクトによって前景オブジェクトの一部が遮蔽されてしまう。このように、観客のような形状や配置の変化するオブジェクトであって、三次元モデルの生成対象である前景オブジェクト（選手）と撮像装置の間に存在する可能性があるオブジェクトを遮蔽オブジェクトと呼ぶ。遮蔽オブジェクトは、人物に限られない、姿勢や位置が変わる機材等も遮蔽オブジェクトとなり得る。

領域設定部４０１は、遮蔽オブジェクトを検出する対象となる撮像画像内の領域（オブジェクト検出領域とよぶ）の位置および形状の情報が含まれる遮蔽オブジェクト検出情報を出力する。他にも、遮蔽オブジェクト検出情報には、遮蔽オブジェクトの検出手法や、抽出したオブジェクトの有効性を判定するために利用するフィルタリングパラメータが含まれていてもよい。

オブジェクト検出部４０２は、撮像画像内のオブジェクト検出領域からオブジェクトを検出し、検出したオブジェクトから遮蔽オブジェクトの検出を行う。

遮蔽領域決定部４０３は、検出された遮蔽オブジェクトに基づき、前景オブジェクトを遮蔽する可能性のある領域である遮蔽領域を決定する。領域設定部４０１、オブジェクト検出部４０２、および遮蔽領域決定部４０３の処理の詳細は、フローチャートを用いて説明する。

［画像処理部の処理の詳細］
図６は、画像処理部３０４の処理の一例を説明するためのフローチャートである。図６のフローチャートで示される一連の処理は、仮想視点画像生成装置２００のＣＰＵがＲＯＭに記憶されているプログラムコードをＲＡＭに展開し実行することにより行われる。また、図６におけるステップの一部または全部の機能をＡＳＩＣや電子回路等のハードウエアで実現してもよい。なお、各処理の説明における記号「Ｓ」は、当該フローチャートにおけるステップであることを意味する。

以下のステップは、撮像装置１０１ａ～ｄが撮像して得られた撮像画像に対してそれぞれ行われるが、以下の説明では、撮像装置１０１ａ～ｄのうちの何れかの撮像装置の撮像画像を入力画像とした場合の処理についての説明を行う。

動画像の場合は、動画像を構成するフレームを取得することに以下のフローチャートの処理が繰り返し行われる。なお、次フレーム以降の処理は、Ｓ６０１およびＳ６０２の少なくとも一方はスキップしてもよい。

Ｓ６０１において領域設定部４０１は、遮蔽領域検出情報に基づき、入力画像における遮蔽候補領域の位置および形状を決定する。遮蔽オブジェクトが存在する可能性がある入力画像内の領域を遮蔽候補領域と呼ぶ。

図７（ａ）の入力画像７０１から遮蔽候補領域を決定する場合、例えば、遮蔽オブジェクトとなる観客が存在する可能性のある客席の領域が遮蔽候補領域として決定される。この場合、図７（ｂ）に示すように、客席に対応する斜線の領域が遮蔽候補領域７０２として設定される。

制御部３０７が、キャリブレーションの完了後に画像処理部３０４にキャリブレーションに用いた撮像画像を供給し、画像処理部３０４に遮蔽候補領域の設定を含む初期化を指示することで、遮蔽候補領域の設定処理が実行される。初期化指示には、遮蔽オブジェクトの検出に利用するパラメータが含まれる。

遮蔽候補領域は、例えば、撮像装置と前景オブジェクト（選手）の間に写り込む可能性のある遮蔽オブジェクトとなる障害物の可動領域が既知である場合は、その障害物の可動領域に基づき設定される。または、遮蔽候補領域は、障害物が写り込まない領域に基づき、障害物が写り込まない領域以外の領域から設定されてもよい。障害物の可動領域は、撮像装置１０１ａ～ｄの配置から推定可能である。例えば、前景オブジェクトとカメラとの間に通行人が通行するエリアや機材を配置するエリアが存在する場合、通行人や機材が写り込む可能性がある入力画像内の領域は障害物の可動領域である。障害物の可動領域は、形状検出した障害物の特性に応じて可動範囲を推定する方法を用いて決定されてもよい。また、遮蔽候補領域の設定には、ある一定期間、形状が変化しない領域は背景の領域であるものとして推定する方法が用いられてもよい。

領域設定部４０１は、観客席の手すりの形状や観客席を示す色等の情報を用いて遮蔽候補領域を設定してもよい。例えば、撮像対象がラグビー等の競技場である場合、フィールドにひかれたサイドラインに基づき、遮蔽候補領域が設定されてもよい。この場合、例えば、サイドラインよりも外側の一定距離の範囲も三次元モデルの生成対象の範囲となるので、遮蔽候補領域は三次元モデルの生成対象の範囲よりも外側の領域に設定される。

撮像空間の色等の情報に基づき遮蔽候補領域を設定できるようするには、領域設定部４０１が遮蔽候補領域の検出に利用する動作モード、またはパラメータ等を遮蔽領域検出情報または外部からの制御指示に含めるように構成しておけばよい。

なお、位置および姿勢が固定された撮像装置と前景オブジェクト（選手）との間に、形状の変化がない柱や梁の一部が写り込むような場合、柱や梁は常に遮蔽オブジェクトとして扱うことができる。この場合、撮像画像における柱や梁の形状を前景領域として表すマスク画像または柱や梁の形状を表す座標情報と、その柱や梁の領域を遮蔽候補領域に含めないことを示すフラグを遮蔽領域検出情報に含めてもよい。また、柱や梁の形状を表すマスク画像は、前景形状マスクに統合して統合マスクを生成するために用いられてもよい。

カメラの画角、姿勢は固定されているので、最初に遮蔽候補領域を設定すれば、原則として常に同じ遮蔽候補領域が設定される。このため次フレーム以降の処理ではＳ６０１はスキップしてもよい。

Ｓ６０２において領域設定部４０１は、撮像画像から遮蔽オブジェクトを検出する領域（オブジェクト検出領域）を、遮蔽候補領域に基づき設定する。そしてオブジェクト検出領域の位置および形状を示す形状情報を保存する。

図７（ｃ）および図７（ｄ）は、図７（ｂ）の遮蔽候補領域７０２に基づき設定されたオブジェクト検出領域の一例を示す図である。図７（ｃ）および図７（ｄ）における縦線の領域がオブジェクト検出領域７０３、７０４である。

図７（ｂ）の遮蔽候補領域７０２をそのままオブジェクト検出領域に設定されると、観客が立ち上がった場合、遮蔽オブジェクトである観客が、遮蔽候補領域７０２の範囲外にはみ出して、選手が遮蔽される可能性がある。このため、図７（ｃ）および図７（ｄ）のオブジェクト検出領域７０３、７０４は、図７（ｂ）の遮蔽候補領域７０２に予備領域を加えた領域に基づき設定されている。

また、遮蔽候補領域の形状が複雑な場合、または多数の遮蔽候補領域が散在する場合は、全ての遮蔽候補領域の形状に応じた予備領域を算出して選手が遮蔽される可能性がある領域を算出することが難しい場合がある。このため、図７（ｄ）に示すように、例えば、点線の矩形が示すように画像内を１２個の矩形領域に予め分割する。そして、１２個の矩形領域のうち、遮蔽候補領域または遮蔽候補領域の予備領域を含む矩形領域をオブジェクト検出領域として設定してもよい。

遮蔽オブジェクトの可動領域が遮蔽候補領域として設定された場合は、遮蔽候補領域がそのままオブジェクト検出領域として設定されてもよい。この場合、遮蔽オブジェクトの可動領域から検出したオブジェクトのみを遮蔽オブジェクトとして扱うように構成されてもよい。

Ｓ６０３においてオブジェクト検出部４０２は、Ｓ６０２で設定されたオブジェクト検出領域からオブジェクトを検出する。

図８（ａ）は、本ステップの処理結果を示す図である。図８（ａ）は、図５（ｂ）の入力画像における、図７（ｃ）のオブジェクト検出領域７０３から検出されたオブジェクトの検出結果を示している。バウンディングボックス８０１～８０７は、検出されたオブジェクト（観客５０６～５１２）が含まれる領域を示している。このように検出されたオブジェクトをバウンディングボックスで表してもよい。

オブジェクト検出部４０２は、例えば、色または形状を使用してオブジェクトを検出する。オブジェクト検出領域から物体検出した結果を用いてオブジェクトを検出してもよい。物体検出の方法は、例えば、前述した背景差分法がある。

物体検出を行った場合、過去の入力画像におけるオブジェクト検出領域に対して物体検出を行った結果得られたバウンディングボックスを履歴として保存していてもよい。この場合、バウンディングボックスの大きさや形状が変化した場合、変化がある領域をオブジェクトの検出に用いてもよい。

または、オブジェクト検出部４０２は、あらかじめ所定の期間の履歴を蓄積しておいて、蓄積した履歴を用いてオブジェクトを検出してもよい。履歴は、入力画像、または入力画像に対して縮小や物体検出、統計処理等の所定の画像処理をかけた結果を履歴として用いてよい。蓄積した履歴画像または過去の入力画像に対する画像処理の結果と入力画像または入力画像に対する画像処理の結果との差分を一定期間観測することで、オブジェクトの有無を推定できる。例えば、オブジェクト検出領域の画素値の頻度を表すヒストグラムを図７（ｄ）の矩形領域ごとに計算しておく。そして、直前のフレームまでの最頻値と入力画像の最頻値の差が一定以上の値になった場合は、該当する領域をオブジェクトの領域として検出してもよい。

Ｓ６０４においてオブジェクト検出部４０２は、フィルタリングパラメータが利用可能かを判定する。

フィルタリングパラメータが利用可能である場合（Ｓ６０４がＹＥＳ）、Ｓ６０５に進む。Ｓ６０５においてオブジェクト検出部４０２は、フィルタリングパラメータに基づき、Ｓ６０３でオブジェクト検出領域から検出されたオブジェクトのうち無効なオブジェクトを決定する。そして、無効なオブジェクトを削除する。そしてＳ６０６に進む。

フィルタリングパラメータには、例えば、遮蔽オブジェクト検出対象領域から検出するオブジェクトの大きさの閾値、有効と判定するオブジェクトの色、形状に関するパラメータがある。フィルタリングパラメータをオブジェクト検出情報に含める場合、遮蔽候補領域の位置と形状情報、および被写体に応じたオブジェクト検出手法を紐づけて遮蔽領域検出情報に格納しておくとよい。

Ｓ６０６においてオブジェクト検出部４０２は、オブジェクト検出領域から検出されたオブジェクトのうち無効とされなかったオブジェクトを、遮蔽オブジェクトとして決定する。遮蔽オブジェクトのデータ形式は、検出した遮蔽オブジェクトの形状を示すマスク画像、検出した遮蔽オブジェクトを含むバウンディングボックスの位置およびサイズ情報を示すデータでもよい。

フィルタリングパラメータが利用可能でない場合（Ｓ６０４がＮＯ）、Ｓ６０５はスキップしてＳ６０６に進む。即ち、オブジェクト検出部４０２は、Ｓ６０３でオブジェクト検出領域から検出された全てのオブジェクトを遮蔽オブジェクトとして決定する。

Ｓ６０７において遮蔽領域決定部４０３は、オブジェクト検出領域のうち、遮蔽オブジェクトが含まれる領域を遮蔽領域として決定して、遮蔽領域の位置およびサイズを示す遮蔽領域情報を生成する。

図８（ａ）のバウンディングボックス８０１～８０７で示す検出されたオブジェクトが全て遮蔽オブジェクトとして決定されたとする。この場合、図８（ｂ）に示すようにバウンディングボックスの領域をそのまま遮蔽領域８１１～８１７として決定してもよい。図８（ｂ）のように遮蔽領域をバウンディングボックスとして示した場合、遮蔽領域を示す遮蔽領域情報のデータ量を低減することができる。このため、通信Ｉ／Ｆの実装の制約等により、遮蔽領域情報の出力にかかる通信負荷を低減したい場合は、図８（ｂ）のように遮蔽領域を決定すればよい。

または、図８（ｃ）に示すように、あらかじめ入力画像を所定の矩形領域に分割しておいて、遮蔽オブジェクトが検出された領域を含む矩形領域の集合を遮蔽領域８２０として決定してもよい。遮蔽領域の形状は、ほかにも、遮蔽オブジェクトの形状に膨張処理をかけた形状に基づき決定されてもよい。

遮蔽領域情報は、前景形状マスクと同様のマスク画像として生成されてもよい。その場合、遮蔽領域を前景領域として表し、遮蔽領域以外の領域を非前景領域に分割することで、撮像画像内の遮蔽領域を表すマスク画像を生成すればよい。

Ｓ６０８において遮蔽領域決定部４０３は、遮蔽領域情報を保存する。

一方、前景抽出部３０２は、図５（ｂ）の撮像画像５１３を入力画像とした場合、図５（ａ）のオブジェクトが含まれない背景画像（撮像画像５０３）との差分に基づき前景を抽出して、前景形状マスクを生成する。

図９（ａ）は、図５（ｂ）の撮像画像から前景を抽出することで生成された前景形状マスクである。図９（ａ）では、白の領域が前景領域を示し、黒の領域が前景以外の領域である非前景領域を示している。

三次元モデル生成部３０５は、図６のフローチャートのＳ６０８で保存された遮蔽領域情報が示す遮蔽領域と、前景抽出部３０２が生成した前景形状マスクを統合して統合マスクを生成する。

図９（ｂ）、（ｃ）は、統合マスクの一例を示す図である。図９（ｂ）、（ｃ）の統合マスクは、前景領域である領域を白色の領域で示し、それ以外の非前景領域を黒で表している。

図５（ｂ）の撮像画像から図９（ａ）の前景形状マスクが生成され、また図５（ｂ）の撮像画像から図８（ｂ）に示す遮蔽領域８１１～８１７が決定された場合、三次元モデル生成部３０５によって図９（ｂ）に示す統合マスクが生成される。

また図５（ｂ）の撮像画像から図８（ｃ）に示す遮蔽領域８２０が決定された場合、三次元モデル生成部３０５によって、図９（ｃ）に示す統合マスクが生成される。なお、図８（ｃ）のように予め分割された領域のうちの何れかを遮蔽領域として決定した場合、遮蔽領域を用いた統合マスクの生成処理の負荷を低減することができる。

そして、三次元モデル生成部３０５は、複数の撮像装置に対応する前景形状マスクの代わりに統合マスクを用いて、視体積交差法により前景オブジェクトの三次元モデルを生成する。

図１０は、視体積交差法の基本原理を示す図である。図１０（ａ）は、前景オブジェクトである対象物体Ｃを撮像装置が撮像したときの図である。対象物体Ｃを撮像して得られる撮像画像と背景画像との色または輝度の差分に基づき二値化することで対象物体Ｃの二次元シルエット（前景領域）が含まれるマスク画像が得られる。

図１０（ｂ）は、撮像装置の投影中心（Ｐａ）から二次元シルエットＤａの輪郭上の各点を通すように、三次元空間中に広がる錐体を示す図である。この錐体のことを当該撮像装置による視体積Ｖａと呼ぶ。図１０（ｃ）は複数の視体積により前景オブジェクトの三次元モデルが求まる様子を示す図である。図１０（ｃ）のように、位置が異なる複数の異なる撮像装置によって同期して撮像された画像に基づく二次元シルエットＤａから、撮像装置ごとの複数の視体積を求める。視体積交差法による三次元モデルの生成では、複数の撮像装置に対応する視体積の交差（共通領域）を求めることによって、対象物体の三次元モデルが生成される。

三次元モデルはボクセルの集合で表される。具体的には、生成対象空間を微小の直方体であるボクセルで敷き詰める。そして、生成対象空間の個々のボクセルを各々の撮像装置１０１の平面に逆投影した時、全ての撮像装置１０１のマスク画像における前景領域の内部に逆投影されるボクセルは前景として残し、それ以外は削除する処理が行われる。このように、マスク画像の前景領域に収まらなかったボクセルを削ることで、前景オブジェクトの三次元モデルがボクセルによって生成される。

本実施形態では、遮蔽領域を前景領域として前景形状マスクにマージした統合マスクを用いることにより、マスク画像内の前景オブジェクトが遮蔽された領域を前景領域とすることができる。このため、前景領域を多く残すことができる。よって、三次元モデルの生成対象となる選手が遮蔽された場合でも、選手を構成すべきボクセルが不要に削られることを抑制することができる。

なお、遮蔽領域情報は、遮蔽領域情報とタイムコードが一致する入力画像から前景を抽出するために用いられてもよい。例えば、図９（ａ）の前景形状マスクは、入力画像の全面から前景を抽出することで生成された前景形状マスクであるが、他にも、前景抽出部３０２は、入力画像のうち遮蔽領域以外の領域から前景を抽出して前景形状マスクを生成してもよい。その場合、遮蔽領域を前景領域とすることによって、統合マスクと同じ画像が生成されることから、統合マスクを生成する処理負荷を低減することができる。また、前景抽出部３０２による前景を抽出する対象の領域が小さくなるため、前景抽出部３０２による前景抽出の処理負荷が低減される。また、三次元モデルの生成対象となる前景オブジェクトを優先的に抽出することができる。

遮蔽領域情報は、背景生成部３０３が、遮蔽領域情報とタイムコードが一致する背景画像を生成するためにも用いられてよい。例えば、撮像画像のうち遮蔽領域情報として指定された領域に対応する画像を背景テクスチャの更新に用いてもよい。

前景オブジェクト（選手）に近い位置に存在する観客またはスタッフ等が複数の撮像装置に写り込んで前景オブジェクト（選手）を遮蔽する場合、事前に観客またはスタッフ等の位置および形状を取得することができないことが多い。このよう場合は、精度の高い三次元モデルを生成するためには、撮像装置の台数を増やしたり、障害物によって選手が遮蔽されない位置に撮像装置を設置したりする必要がある。本実施形態によれば、三次元モデルの生成対象となる前景オブジェクト（選手）と撮像装置との間に、静止していない障害物がある場合でも、その障害物により前景オブジェクト（選手）の三次元モデルに欠損が発生することを抑制することができる。

なお、撮像画像上の障害物の可動領域をすべて遮蔽領域（前景領域）としてマスク画像を生成して三次元モデルを生成することをも考えられる。しかしながら、この場合は、前景の三次元モデルの生成に有効な前景領域および非前景領域が得られる領域が小さくなってしまう。一方、本実施形態では、障害物の可動領域であるオブジェクト検出領域のうちの一部を遮蔽領域とするため、三次元モデルの生成に有効な前景領域および非前景領域が得られる領域が小さくなることを抑制することができる。

＜その他の実施形態＞
上述した実施形態では、仮想視点画像生成装置２００が、三次元モデルおよび仮想視点画像を生成するものとして説明したが、仮想視点画像生成装置２００に含まれる機能は、仮想視点画像生成装置２００とは異なる１つ以上の装置により実現されてもよい。例えば、前景の抽出、遮蔽領域情報を生成する画像処理、三次元モデルの生成、仮想視点画像の生成のそれぞれの処理はそれぞれ異なる装置によって行われる形態でもよい。

本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

２００仮想視点画像生成装置
４０１領域設定部
４０２オブジェクト検出部
４０３遮蔽領域決定部

Claims

三次元形状データの生成対象のオブジェクトを遮蔽する可能性がある他のオブジェクトであって、三次元形状データの生成対象ではない他のオブジェクトが存在しうる撮像画像のうち第１の領域を特定する特定手段と、
前記特定手段により特定された前記第１の領域から検出された前記他のオブジェクトの領域と、前記撮像画像から検出された前記オブジェクトの領域と、に基づいて、前記オブジェクトの三次元形状データを生成する生成手段と、
を有することを特徴とする画像処理装置。
撮像画像を取得する取得手段と、
三次元形状データの生成対象のオブジェクトを遮蔽する可能性がある他のオブジェクトであって、三次元形状データの生成対象ではない他のオブジェクトが存在しうる撮像画像のうち第１の領域を特定する特定手段と、
前記撮像画像から前記オブジェクトの領域を検出し、前記特定手段により特定された前記第１の領域から前記他のオブジェクトの領域を検出する検出手段と、
検出された前記オブジェクトの領域の情報と検出された前記他のオブジェクトの領域の情報とを、前記オブジェクトの三次元形状データを生成する生成手段に出力する出力手段と、
を有することを特徴とする画像処理装置。
前記特定手段は、
前記他のオブジェクトの可動領域に基づき、前記第１の領域を特定する
ことを特徴とする請求項１または２に記載の画像処理装置。
前記特定手段は、客席の領域に基づき前記第１の領域を特定する
ことを特徴とする請求項１または２に記載の画像処理装置。
前記第１の領域から検出されたオブジェクトから、前記他のオブジェクトが検出される
ことを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
前記第１の領域から物体検出を行うことにより、前記第１の領域からオブジェクトが検出される
ことを特徴とする請求項５に記載の画像処理装置。
前記撮像画像の履歴の情報に基づき、前記第１の領域からオブジェクトが検出される
ことを特徴とする請求項５に記載の画像処理装置。
前記他のオブジェクトの領域は、前記他のオブジェクトを含む矩形の領域である
ことを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。
前記他のオブジェクトの領域は、前記撮像画像を所定のサイズの領域ことに分割して、分割された領域のうち前記他のオブジェクトが含まれる領域である
ことを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。
前記他のオブジェクトの領域は、前記他のオブジェクトに対して膨張処理をした結果得られた領域である
ことを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。
三次元形状データの生成対象のオブジェクトを遮蔽する可能性がある他のオブジェクトであって、三次元形状データの生成対象ではない他のオブジェクトが存在しうる撮像画像のうち第１の領域を特定する特定ステップと、
前記特定ステップにより特定された前記第１の領域から検出された前記他のオブジェクトの領域と、前記撮像画像から検出された前記オブジェクトの領域と、に基づいて、前記オブジェクトの三次元形状データを生成する生成ステップと、
を有することを特徴とする画像処理方法。
撮像画像を取得する取得ステップと、
三次元形状データの生成対象のオブジェクトを遮蔽する可能性がある他のオブジェクトであって、三次元形状データの生成対象ではない他のオブジェクトが存在しうる撮像画像のうち第１の領域を特定する特定ステップと、
前記撮像画像から前記オブジェクトの領域を検出し、前記特定ステップで特定された前記第１の領域から前記他のオブジェクトの領域を検出する検出ステップと、
検出された前記オブジェクトの領域の情報と検出された前記他のオブジェクトの領域の情報とを、前記オブジェクトの三次元形状データを生成する生成手段に出力する出力ステップと、
を有することを特徴とする画像処理方法。
コンピュータを、請求項１から１０のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。