JP7418107B2

JP7418107B2 - 形状推定装置、形状推定方法及びプログラム

Info

Publication number: JP7418107B2
Application number: JP2019172189A
Authority: JP
Inventors: 康文 ▲高▼間
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2024-01-19
Anticipated expiration: 2039-09-20
Also published as: JP2021052232A

Description

本発明は、被写体の３次元形状の推定を行う装置に関するものである。

複数の撮像装置の撮像により得られた複数の画像を用いて、指定された仮想視点からの仮想視点画像を生成する技術が注目されている。特許文献１には、複数の撮像装置を異なる位置に設置して被写体を撮像し、撮像により得られた撮像画像から推定される被写体の３次元形状を用いて、仮想視点画像を生成する方法について記載されている。

また、特許文献２には、３次元形状の推定領域である３次元空間を構成する部分領域（要素）ごとに、その要素を観測できる撮像装置を示すリストを生成することについて記載されている。そして、そのリストに基づいて特定される撮像装置のみを用いて、形状推定処理を行うことについて記載されている。

特開２０１５－４５９２０号公報特開２００８－１９１０７２号公報

上述したような形状推定に用いる撮像装置を示す情報（以下、形状推定用情報という）を用いれば、複数の撮像装置のうち特定の撮像装置にのみ基づいて形状推定の処理を行うことができるので処理の負荷が軽減される。しかし、このような形状推定用情報は、推定領域を構成する全要素に対して、要素ごとに全撮像装置のうちどの撮像装置が要素を観測できるかを判定することで生成されるため、以下のような問題が生じる。すなわち、３次元形状の推定領域を構成する要素の数や撮像装置の台数が増えると、形状推定用情報の生成処理の負荷が大きくなる恐れが生じる。よって、形状推定に係る処理として、処理負荷が軽減されない可能性が生じる。

本発明は、上記の課題に鑑みてなされたものであり、形状推定に係る処理の負荷を軽減することを目的とする。

本発明の一つの態様は、以下のとおりである。すなわち、形状推定装置は、複数の要素で構成される３次元空間の一部の領域である第１の領域に含まれる要素に対して、前記複数の撮像装置のうち当該要素に対応する領域を撮像する撮像装置を示す第１の情報を生成する生成手段と、前記３次元空間の一部の領域であって前記第１の領域とは異なる第２の領域に含まれる要素で共通の第２の情報であって、前記第２の領域に対応する領域を撮像する撮像装置を示す第２の情報を設定する設定手段と、前記生成手段によって前記第１の情報が生成され、前記設定手段によって前記第２の情報が設定された後に、前記複数の撮像装置による撮像に基づく複数の画像を取得し、前記複数の画像と、前記第１の情報と、前記第２の情報とに基づいて、被写体の３次元形状の推定を行う推定手段と、を有する。

本発明によれば、形状推定に係る処理の負荷を軽減することができる。

実施形態１に係る画像処理システムの装置構成の一例を示す図である。実施形態１における第１の領域と第２の領域を示す模式図である。カメラとボクセルの位置関係に基づいて生成される形状推定用情報を説明する図である。実施形態１に係る形状推定装置のハードウェア構成を示す図である。実施形態１に係る形状推定装置が行う処理の一例を示すフローチャートである。実施形態２に係る画像処理システムの装置構成の一例を示す図である。実施形態２における第１の領域と第２の領域と第３の領域を示す模式図である。優先度情報の一例を示す模式図である実施形態２に係る形状推定装置が行う処理の一例を示すフローチャートである。

以下、図面を参照しながら、本発明を実施するための形態について説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

（実施形態１）
本実施形態では、被写体の３次元形状を推定する３次元空間の領域を第１の領域と第２の領域に分割して、それぞれの領域で形状の推定に用いられる複数のカメラ（撮像装置）を限定することで、３次元形状の推定の処理負荷を軽減させる。そのために、第１の領域では、第１の領域を構成する要素ごとに、形状の推定に用いられる画像に対応するカメラを示す情報である形状推定用情報が、カメラの状態に基づいて生成される。一方、第２の領域では、形状推定用情報として、第２の領域を構成する要素で共通の情報が設定される。このように第１の領域と第２の領域それぞれにおいて、形状推定用情報に基づいて、推定に用いられるカメラが限定される。なお、形状推定用情報についての詳細は後述する。

また、３次元空間の領域を構成する全要素に対して、要素ごとに形状推定用情報を生成する構成に対して、本実施形態では、３次元空間の一部の領域である第１の領域に対してのみ、要素ごとに形状推定用情報を生成する。この構成により、形状推定用情報の生成処理の負荷を軽減することができる。このため、本実施形態によれば、３次元形状の推定の処理負荷を軽減し、さらに形状推定用情報の生成処理の負荷も軽減することができる。

なお、第１の領域に含まれる全要素に対して、要素ごとに形状推定用情報が生成されなくてもよく、第１の領域に含まれるいくつかの要素で、一つの形状推定用情報が生成されていてもよい。また、第１の領域において、いくつかの要素では、要素ごとに形状推定用情報が生成され、他のいくつかの要素では、そのまとまりで一つの形状推定用情報が生成されていてもよい。この場合であっても、３次元空間の領域を構成する全要素に対して、要素ごとに形状推定用情報を生成する構成に対して、形状推定用情報の生成処理の負荷を軽減することができる。本実施形態では、第１の領域に含まれる要素ごとに形状推定用情報が生成される例について説明を行う。

また、３次元空間の領域は複数の要素で構成されている。そして、第１の領域と第２の領域は、それぞれ複数の要素で構成されている。要素としては、ボクセルを挙げることができるが、点群を表現するものであればこれに限定されない。

また、３次元空間は、３つ以上の領域に分割されてもよい。例えば、上述した第１の領域と第２の領域の他に第３の領域が設定されたとして、その第３の領域にも形状推定用情報が設定されていなくても、第１の領域と第２の領域に形状推定用情報を設定することで、形状推定に係る処理の負荷が軽減する。さらに、第３の領域を構成する要素ごとに形状推定用情報が生成されてもよいし、要素で共通の形状推定用情報が設定されてもよい。この場合には、より形状推定に係る処理に負荷が軽減される。

本実施形態の画像処理システムは、撮像装置により異なる方向から撮像する複数のカメラの撮像画像と撮像装置の状態、指定された仮想視点に基づいて、仮想視点からの見えを表す仮想視点画像を生成する。

複数のカメラは、複数の方向から撮像領域を撮像する。撮像領域は、例えば、ラグビーが行われる競技場の平面と任意の高さで囲まれた領域である。撮像領域は、上述した被写体の３次元形状を推定する３次元空間と対応していてもよいし、していなくてもよい。つまり、３次元空間は、撮像領域の全部であってもよいし、一部であってもよい。複数のカメラは、撮像領域を取り囲むようにそれぞれ異なる位置・異なる方向に設置され、同期して撮像を行う。なお、複数のカメラは撮像領域の全周にわたって設置されなくてもよく、設置場所の制限等によっては撮像領域の一部の方向にのみ設置されていてもよい。カメラの数は限定されず、例えば撮像領域をラグビーの競技場とする場合、競技場の周囲に数十～数百台程度のカメラが設置されてもよい。

また、複数のカメラは、望遠カメラと広角カメラなど画角が異なるカメラが含まれていれもよい。例えば、望遠カメラを用いて選手を高解像度に撮像することで、生成される仮想視点画像の解像度も向上する。また、ボールは移動範囲が広いので、広角カメラを用いて撮像することで、カメラ台数を減らすことができる。また、広角カメラと望遠カメラの撮像領域を撮像するのであれば、その設置位置は限定されない。また、撮像領域のうち、３次元形状を推定する３次元空間における第１の領域に対応する領域を撮像するように望遠カメラが設置され、第２の領域に対応する領域を撮像するように広角カメラが設置されていてもよい。また、第１の領域に対応する領域を撮像するように広角カメラが設置されていてもよい。

カメラは現実世界の１つの時刻情報で同期され、撮像した画像には毎フレームの画像に撮像時刻情報が付与される。

カメラの状態とは、カメラの位置、姿勢（向き、撮像方向）、焦点距離（画角）、光学中心、歪みなどの状態のことをいう。カメラの位置、姿勢（向き、撮像方向）は、カメラそのもので制御されてもよいし、カメラの位置や姿勢を制御する雲台により制御されてもよい。以下では、カメラの状態をカメラパラメータとして説明を行うが、カメラパラメータには、雲台等の別の装置により制御されるパラメータが含まれていてもよい。また、カメラの位置、姿勢（向き、撮像方向）に関するカメラパラメータは、いわゆる外部パラメータであり、カメラの焦点距離、光学中心、歪みに関するパラメータは、いわゆる内部パラメータである。カメラの位置や姿勢は１つの原点と直交する３軸を持つ座標系で表現される（世界座標系と呼ぶ）。

仮想視点画像は、自由視点画像とも呼ばれるものであるが、ユーザが自由に（任意に）指定した視点に対応する画像に限定されず、例えば、複数の候補からユーザが選択した視点に対応する画像なども仮想視点画像に含まれる。また、仮想視点の指定は、ユーザ操作により行われてもよいし、画像解析の結果等に基づいて自動で行われてもよい。また、本実施形態では仮想視点画像が静止画である場合を中心に説明するが、仮想視点画像は動画であってもよい。

仮想視点画像の生成に用いられる仮想視点情報は、仮想視点の位置及び向きを示す情報である。具体的には、仮想視点情報は、仮想視点の３次元位置を表すパラメータと、パン、チルト、及びロール方向における仮想視点の向きを表すパラメータとを含む。なお、仮想視点情報の内容は上記に限定されない。例えば、仮想視点情報のパラメータには、仮想視点の視野の大きさ（画角）を表すパラメータが含まれてもよい。また、仮想視点情報は複数フレームのパラメータを有していてもよい。つまり、仮想視点情報が、仮想視点画像の動画を構成する複数のフレームにそれぞれ対応するパラメータを有し、連続する複数の時点それぞれにおける仮想視点の位置及び向きを示す情報であってもよい。

仮想視点画像は、例えば、以下のような方法で生成される。まず、カメラにより異なる方向から撮像することで複数カメラの画像が取得される。次に、複数カメラ画像から、人物やボールなどの被写体に対応する前景領域を抽出した前景画像と、前景領域以外の背景領域を抽出した背景画像が取得される。前景画像、背景画像は、テクスチャ情報（色情報など）を有している。そして、被写体の３次元形状を表す前景モデルと前景モデルに色付けするためのテクスチャデータとが前景画像に基づいて生成される。また、競技場などの背景の３次元形状を表す背景モデルに色づけするためのテクスチャデータが背景画像に基づいて生成される。そして、前景モデルと背景モデルに対してテクスチャデータをマッピングし、仮想視点情報が示す仮想視点に応じてレンダリングを行うことにより、仮想視点画像が生成される。ただし、仮想視点画像の生成方法はこれに限定されず、前景や背景モデルを用いずに撮像画像の射影変換により仮想視点画像を生成する方法など、種々の方法を用いることができる。

前景画像とは、カメラにより撮像されて取得された撮像画像から、被写体の領域（前景領域）を抽出した画像である。前景領域として抽出される被写体とは、時系列で同じ方向から撮像を行った場合において動きのある（その絶対位置や形が変化し得る）動的被写体（動体）を指す。被写体は、例えば、競技において、それが行われるフィールド内にいる選手や審判などの人物、球技であれば人物に加えボールなども含む。また、コンサートやエンタテイメントにおいては、歌手、演奏者、パフォーマー、司会者などが被写体である。

背景画像とは、少なくとも前景となる被写体とは異なる領域（背景領域）の画像である。具体的には、背景画像は、撮像画像から前景となる被写体を取り除いた状態の画像である。また、背景は、時系列で同じ方向から撮像を行った場合において静止している、又は静止に近い状態が継続している撮像対象物を指す。このような撮像対象物は、例えば、コンサート等のステージ、競技などのイベントを行うスタジアム、球技で使用するゴールなどの構造物、フィールド、などである。ただし、背景は少なくとも前景となる被写体とは異なる領域であり、撮像対象としては、被写体と背景の他に、別の物体等が含まれていてもよい。

［構成］
本実施形態で画像処理システムに用いられる形状推定装置について図面を参照しながら説明する。

図１は、本実施形態の画像処理システムを示す図である。画像処理システムは、形状推定装置１と、複数のカメラ２と、画像生成装置３と、を有する。また、画像処理システムは、表示装置４をさらに有する。形状推定装置１は、複数のカメラ２と、画像生成装置３と、表示装置４に接続される。形状推定装置１は、複数のカメラ２の撮像により取得された画像を取得する。そして、形状推定装置１は、複数のカメラ２から取得した画像に基づいて、被写体の３次元形状を推定する。なお、図１では、カメラ２が１台しか示されていないが、本実施形態における画像処理システムは、複数のカメラ２を有している。

複数のカメラ２のそれぞれは、カメラを識別するための識別番号（カメラ番号）を持つ。カメラ２は、撮像した画像から前景画像を抽出する機能など、他の機能やその機能を実現するハードウェア（回路や装置など）も含んでもよい。カメラ番号は、カメラ２の設置位置に基づいて設定されていてもよいし、それ以外の基準で設定されてもよい。

画像生成装置３は、形状推定装置１から被写体の３次元形状を示す情報を取得し、仮想視点画像を生成する。画像生成装置３は、仮想視点画像を生成するために、仮想視点情報の指定を受け付け、その仮想視点情報に基づいて仮想視点画像を生成する。仮想視点情報は、例えば、ジョイスティック、ジョグダイヤル、タッチパネル、キーボード、及びマウスなどの入力部により、ユーザ（操作者）から指定される。なお、仮想視点情報の指定に関してはこれに限定されず、被写体を認識するなどして、自動的に指定しても構わない。生成した仮想視点画像は表示装置４へ出力される。表示装置４は、画像生成装置３から仮想視点画像を取得し、それらをディスプレイなどの表示デバイスを用いて出力する。

形状推定装置１の構成について説明する。形状推定装置１は、領域設定部１００と、形状推定用情報生成部１１０、カメラ情報取得部１２０、形状推定部１３０を有する。

領域設定部１００は、形状推定領域である３次元空間に対して、その構成要素ごとに形状推定用情報を生成する第１の領域と、構成要素で共通の形状推定用情報を設定する第２の領域とを設定する。領域設定部１００は、これらの領域を設定するために、その２つの領域の境界を示す境界情報を取得する。設定する領域について、図２を例に具体的に説明する。図２の破線で示す形状推定領域２００は、後述するカメラの外部・内部パラメータを取得する際に設定する世界座標系で表現する。世界座標系の軸は、ラグビーグランドなどの地面２０１をｘ軸とｙ軸で定義されるｘｙ面とし、地面と垂直な方向２０２をｚ軸とする。地面はｚ＝０とする。境界２１０を示す境界情報として高さ情報（ｚ軸方向の情報）のみで示される場合、形状推定領域２００は、図２（ａ）に示すように領域が分割される。そして、高さ情報が示すｚ軸の値以上の値のｚ座標を有する領域が第２の領域２２０として設定され、ｚ＝０から高さ情報が示すｚ軸の値未満の値のｚ座標を有する領域が第１の領域２３０として設定される。

この高さ情報に基づいて分割される複数の領域のうち、どの領域を第２の領域、第１の領域とするかは適宜設定すればよい。例えば、第１の領域と第２の領域は、対応する領域を撮像するカメラ２の台数によって設定されてもよい。複数のカメラ２が撮像する撮像領域に含まれる複数の部分領域それぞれを撮像するカメラ２の台数が異なる場合が考えられる。その例としては、以下の場合が考えられる。サッカーやラグビーなどの場合、地面に近い領域では複数の選手や審判などがいて、それらの３次元形状の推定精度を高めるために、多くのカメラ２を用いて様々な位置及び方向からその地面に近い領域を撮像する。一方、地面から離れた、例えば地上１０ｍくらいでは、ボールが撮像されるだけであり、さらに、そのボールが他の被写体からほとんど遮られる可能性が低いため、カメラ２の台数が少なくても形状推定の精度がある程度得られる。このような場合、少ない台数のカメラ２により撮像される領域に対応する形状推定領域における領域を、第２の領域と設定すれば、その逆の領域に第２の領域が設定される場合よりも、設定された形状推定用情報により特定されるカメラ２の台数が少なくなる。その結果、形状推定処理の負荷がより軽減される効果を得ることができる。

あるいは、第１の領域と第２の領域は、領域を撮像するカメラ２のカメラパラメータによって設定されてもよい。複数のカメラ２が撮像する撮像領域に含まれる複数の部分領域それぞれを撮像するカメラ２のカメラパラメータが異なる場合も考えられる。上述したサッカーやラグビーの例では、地面に近い領域に対しては、選手や審判を高解像に撮像するため、望遠カメラを用いて撮像することが考えられる。その一方で、地上１０ｍくらいでは、被写体であるボールの移動を少ない台数で撮像するため、広角カメラを用いて撮像することが考えられる。そのため、広角カメラにより撮像される領域に対応する形状推定領域における領域を、第２の領域と設定してもよい。広角カメラであることを判別するために、境界情報は、カメラ２の内部パラメータに基づいて設定されてもよい。

あるいは、第１の領域と第２の領域は、領域に含まれる被写体の数に基づいて設定されてもよい。例えば、複数のカメラ２が撮像する撮像領域に含まれる複数の部分領域において、被写体の数が異なる場合が考えられる。上述したサッカーやラグビーの例では、地面に近い領域においては、選手や審判、ボールなど被写体が多いが、一方で、地上１０ｍくらいでは、被写体はボールである。そのため、地面に近い領域に対しては、多くのカメラ２により撮像を行い、地上１０ｍくらいの領域に対しては、それよりも少ない台数のカメラ２により撮像することが考えられる。そのため、被写体の数が少ない領域に対応する形状推定領域における領域を、第２の領域と設定してもよい。そして、被写体の数が多い領域に対応する形状推定領域における領域を、第１の領域と設定するようにしてもよい。このために、境界情報は、被写体の数の情報に基づいて設定されてもよい。なお、領域に含まれる被写体の数は、イベントの種別などにより推定される。

境界２１１が直方体情報（８つの位置の座標で示される情報）で示される場合、形状推定領域２００は、図２（ａ）に示すように領域が分割される。そして、境界２１１を示す座標で規定される直方体の内部の領域が第２の領域２２１として設定され、その直方体の外部の領域が第１の領域２３１として設定される。この例においても、分割される複数の領域のうち、どの領域を第２の領域、第１の領域とするかは適宜設定すればよい。例えば、第１の領域と第２の領域は、領域を撮像するカメラ２の台数によって設定されてもよい。例えば、サッカーなどのゴールシーンなどのように、重要なシーンが発生しそうな領域が分かっている場合は、その領域を多くのカメラ２で撮像し、それ以外の領域は、全カメラ台数の削減のため、少ない台数のカメラで撮像することが考えられる。このため、境界情報は、イベントの情報（例えばサッカーやラグビーなどのイベントの種類の情報）に基づいて設定されてもよい。

この領域を設定するために用いられる境界情報は、形状推定装置１の内部のメモリに記憶されている。ただし、境界情報は、外部の装置から取得されてもよい。

形状推定用情報生成部１１０は、第１の領域を構成する要素ごとに形状推定用情報を生成する。以下では、３次元形状を表現する要素としてボクセルを例に説明するが、これに限られない。形状推定用情報は、被写体の３次元形状を推定する処理に用いられるカメラを示す情報である。言い換えると、形状推定用情報は、３次元空間を構成する要素であるボクセルがどのカメラの画角内に収まっているのかを示す情報である。例えば、図３に示すように、世界座標系の空間において、ボクセル３００、カメラ３１０～３４０（各カメラの破線は画角を示す）が配置された場合、形状推定用情報は以下のように決定することができる。ボクセル３００の中心座標もしくは８頂点の座標をカメラ３１０のカメラパラメータを用いて、カメラ３１０のカメラ画像座標系に変換する。変換後のカメラ画像座標系におけるｘ座標が０以上かつ、カメラ画像の横幅に対応するｘ座標より小さく、ｙ座標も０以上かつカメラ画像の縦幅に対応するｙ座標より小さければ、ボクセル３００は画角内であると判定する。他のカメラについても同様に計算することでボクセル３００ごとに形状推定用情報が算出される。なお、ボクセル３００がカメラの画角に含まれることを以下では、可視といい、カメラの画角に含まれないことを不可視という。また、言い換えると、ボクセル３００がカメラの画角に含まれるとは、複数のカメラにより撮像される撮像領域におけるボクセル３００に対応する領域が、カメラの画角内に含まれる、つまりそのカメラにより撮像されることを意味する。

形状推定用情報は、カメラ台数以上のビット数をもった変数で表現し、例えば、ビット値０を不可視、１を可視とする。図３の場合、カメラ４台であるので４ビット以上の変数で表現し、最小位ビットが１台目のカメラ３１０の可視性を示す。図３の例では、カメラ３１０が可視、カメラ３２０が可視、カメラ３３０が不可視、カメラ３４０が可視となり、ボクセル３００の形状推定用情報は１０１１として表現する。

また、形状推定用情報生成部１１０は、第２の領域に、予め決められた形状推定用情報を設定する。第２の領域に設定される形状推定用情報としては、第１の領域に設定される形状推定用情報とは異なり、第２の領域を構成する要素ごとに別の情報が生成されるものではなく、第２の領域を構成する全要素に対して同じ情報である。具体的には、この形状推定用情報は、複数のカメラ２のうち、第２の領域の形状推定に用いると決定された一部のカメラ２のカメラ番号に該当するビットを１に設定した情報である。どのカメラ２を形状推定に用いるかは適宜設定できる。例えば、第２の領域に含まれる被写体の撮像に特化したカメラ２が、第２の領域の形状推定に用いると設定されてもよい。また、複数のカメラ２のうち広角カメラのみが、第２の領域の形状推定に用いると設定されてもよい。また、図２（ａ）で示す第２の領域２２０の場合には、撮像領域のうち第２の領域２２０に対応する領域を撮像するカメラ２のみが、第２の領域２２０の形状推定に用いられると設定されてもよい。つまり、形状推定用情報生成部１１０は、撮像領域のうち第２の領域２２０に対応する領域を撮像するカメラ２を示す情報を、形状推定用情報として、第２の領域に設定する。以下では、第２の領域に含まれる被写体の撮像に特化したカメラが、第２の領域の形状推定に用いると設定されるものとして説明を行う。特化したカメラとは、画角が特定の被写体を撮像するように調整されたカメラであったり、カメラ内部での撮像画像に対する処理が特定の被写体に向けて調整されたカメラをいう。なお、第２の領域に設定される形状推定用情報は、第１の領域のボクセルごとに生成する形状推定用情報と、そのデータ形式が同じである。ただし、データ形式が異なっていてもよい。

また、形状推定用情報生成部１１０は、第２の領域に対する形状推定用情報を生成してもよい。その形状推定用情報は要素ごとに生成されるものではなく、要素によらない第２の領域に共通の形状推定用情報であればよい。この構成であっても、第２の領域に対しても要素ごとに、形状推定用情報が生成される場合に比べて、形状推定用情報を生成する処理の負荷が軽減される。なお、形状推定用情報生成部１１０は、第２の領域に対する形状推定用情報を、カメラ２のカメラパラメータに基づいて生成してもよい。

カメラ情報取得部１２０は、複数のカメラ２により撮像されて取得された複数の撮像画像を取得する。また、カメラ情報取得部１２０は、複数の撮像画像から複数の前景画像を取得してもよいし、複数のカメラ２から前景画像を取得してもよい。さらに、カメラ情報取得部１２０は、カメラ２のカメラパラメータを取得する。また、カメラ情報取得部１２０が、カメラ２のカメラパラメータを算出するようにしてもよい。例えば、カメラ情報取得部１２０は、複数の撮像画像から対応点を算出し、対応点を各カメラに投影した時の誤差が最小になるように最適化し、各カメラを校正することでカメラパラメータを算出する。なお、校正方法は既存のいかなる方法であってもよい。なお、カメラパラメータは、撮像画像に同期して取得されてもよいし、事前準備の段階で取得されてもよいし、また必要に応じて撮像画像に非同期で取得されてもよい。

形状推定部１３０は、カメラ情報取得部１２０が取得したカメラ２の撮像画像とカメラパラメータ、領域設定部１００が設定した形状推定領域の第１の領域と第２の領域、各領域に対応付けられた形状推定用情報に基づいて被写体の３次元形状を推定する。なお、カメラ情報取得部１２０により前景画像を取得する場合は、撮像画像に代えて前景画像を用いて３次元形状を推定すればよい。

形状推定装置１のハードウェア構成について、図４を用いて説明する。形状推定装置１は、ＣＰＵ４１１、ＲＯＭ４１２、ＲＡＭ４１３、補助記憶装置４１４、表示部４１５、操作部４１６、通信Ｉ／Ｆ４１７、及びバス４１８を有する。ＣＰＵ４１１は、ＲＯＭ４１２やＲＡＭ４１３に格納されているコンピュータプログラムやデータを用いて形状推定装置１の全体を制御することで、図１に示す形状推定装置１の各機能を実現する。なお、形状推定装置１がＣＰＵ４１１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ４１１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、およびＤＳＰ（デジタルシグナルプロセッサ）などがある。ＲＯＭ４１２は、変更を必要としないプログラムなどを格納する。ＲＡＭ４１３は、補助記憶装置４１４から供給されるプログラムやデータ、及び通信Ｉ／Ｆ４１７を介して外部から供給されるデータなどを一時記憶する。補助記憶装置４１４は、例えばハードディスクドライブ等で構成され、画像データや音声データなどの種々のデータを記憶する。

表示部４１５は、例えば液晶ディスプレイやＬＥＤ等で構成され、ユーザが形状推定装置１を操作するためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）などを表示する。操作部４１６は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をＣＰＵ４１１に入力する。ＣＰＵ４１１は、表示部４１５を制御する表示制御部、及び操作部４１６を制御する操作制御部として動作する。

通信Ｉ／Ｆ４１７は、形状推定装置１の外部の装置（例えば、カメラ２、画像生成装置３）との通信に用いられる。例えば、形状推定装置１が外部の装置と有線で接続される場合には、通信用のケーブルが通信Ｉ／Ｆ４１７に接続される。形状推定装置１が外部の装置と無線通信する機能を有する場合には、通信Ｉ／Ｆ４１７はアンテナを備える。バス４１８は、形状推定装置１の各部をつないで情報を伝達する。

本実施形態では表示部４１５と操作部４１６が形状推定装置１の内部に存在するものとするが、表示部４１５と操作部４１６との少なくとも一方が形状推定装置１の外部に別の装置として存在していてもよい。

［動作フロー］
図５に示すフローチャートを用いて、形状推定装置１が行う処理について説明する。以降の説明においては、各処理ステップを単にＳと表記する。ＣＰＵ４１１がＲＯＭ４１２等に記憶されたプログラムを読み出して実行することにより、以下の処理が実行される。

Ｓ５００において、カメラ情報取得部１２０は、カメラ２からカメラパラメータを取得する。なお、カメラ情報取得部１２０が、カメラパラメータを算出するようにしてもよい。また、カメラパラメータは撮像画像を取得する度に算出される必要はなく、形状推定する前に少なくとも１度算出されればよい。取得したカメラパラメータは、形状推定用情報生成部１１０と形状推定部１３０、画像生成装置３に出力される。

Ｓ５１０において、領域設定部１００は、補助記憶装置４１４に記憶された境界情報を取得する。そして、領域設定部１００は、その境界情報に基づいて、例えば図２（ａ）、（ｂ）で示すように形状推定領域２００を分割し、第１の領域２３０と第２の領域２２０を設定する。ここでは、境界情報として、上空のボールと地上の被写体形状を推定するために用いるカメラを制限するため、高さ情報のみであるｚ＝２ｍが設定されていたとする。なお、領域設定部１００は、補助記憶装置４１４から境界情報を取得したが、ＧＵＩを用いて境界情報をユーザに入力させて、その入力された値などから取得してもよい。なお、領域設定部１００は、境界情報を取得できなかった場合には、形状推定領域２００を第１の領域２３０として設定する。以降の処理は、第１の領域２３０に対する処理と同じ処理を行い、第２の領域２２０に対する処理は行われない。

Ｓ５２０において、形状推定用情報生成部１１０は、第２の領域２２０に対し、形状推定に用いるカメラを特定するために、補助記憶装置４１４に記憶された形状推定用情報を設定する。形状推定用情報は、Ｓ５１０で境界情報を取得する際に、同時に取得されてもよい。その場合、例えば、形状推定用情報は、境界情報と同じファイル上に記述されていてもよい。また、形状推定用情報生成部１１０は、ＧＵＩを用いてユーザに入力させた値に基づいて、形状推定用情報を設定してもよい。また、４０台のカメラで構成され、形状推定用情報として３２～４０ビット目が１、それ以外のビットが０の値が設定されている場合、形状推定用情報は、第２の領域２２０の形状推定の際に３２番目から４０番目のカメラだけを用いることを示す。つまり、形状推定用情報は、第２の領域２２０の形状推定の際に４０台のうち８台を用いることを示す。この８台のカメラは、第２の領域２２０の被写体を撮像するために特化されたカメラである。

Ｓ５３０において、形状推定用情報生成部１１０は、第１の領域２３０を構成するボクセルごとに形状推定用情報を生成する。まず、予め設定されたボクセルサイズで第１の領域２３０をボクセルの集合に分割する。各ボクセルはｘ、ｙ、ｚ方向に整数の座標値を持ち、形状推定用情報生成部１１０は、この座標値を指定することで一意にボクセルを指定する。そして、形状推定用情報生成部１１０は、指定されたボクセルに対して、形状推定用情報を決定する。まず、最初に全ボクセルに対応する形状推定用情報は、すべてのビット値が０に初期化される。次に、各ボクセルの代表座標を、全カメラのカメラ画像座標に変換し、ｎ番目のカメラの画角内であると算出された場合、可視と判定し、該ボクセルの形状推定用情報のｎ番目のビット値を１にする。可視かどうかの判定は、図３を用いて説明した通りである。なお、形状推定用情報生成部１１０は、全カメラを用いて形状推定用情報を生成しなくてもよい。例えば、形状推定用情報生成部１１０は、第２の領域２２０の形状推定に用いられるカメラを除いた残りのカメラだけを用いて形状推定用情報を生成してもよい。そして、その場合、第２の領域２２０の形状推定に用いられるカメラの官ら番号に対応するビット位のビット値は０とすればよい。

全ボクセルについて処理を行うことで、第１の領域２３０を構成する全ボクセルのそれぞれに対応する形状推定用情報が生成される。また、８分木のような空間の多重解像度表現を用いて形状推定を階層的に行う場合、例えば、各階層におけるボクセルサイズで、階層ごと、かつボクセルごとに形状推定用情報を生成してもよい。また、このような階層的に形状推定を行う場合であっても、ある特定の階層だけ、形状推定用情報を生成してもよい。

Ｓ５４０において、カメラ情報取得部１２０は、複数のカメラ２から、複数の撮像画像を取得し、シルエット画像を抽出する。取得されたシルエット画像は、形状推定部１３０に出力される。

シルエット画像は、被写体のシルエットを示す画像である。具体的には、シルエット画像は、被写体が存在する領域の画素値が２５５、それ以外の領域の画素値が０で表される画像である。ただし、被写体の存在する領域が他の領域と区別されるものであれば、これに限定されない。画素値が２５５と０以外の２値で表されたものでもよいし、３値以上で表された画像でもよい。

また、シルエット画像は、被写体を含む撮像画像から、試合開始前などに被写体が存在しない時に予め撮像した背景画像との差分を算出する背景差分法などの一般的な手法を用いて生成されてもよい。ただし、シルエット画像を生成する方法は、これに限定されない。例えば、被写体（人体）を認識するなどの方法を用いて、被写体の領域を抽出するようにしてもよい。

また、カメラ情報取得部１２０は、カメラ２により抽出された前景画像を取得し、前景画像から被写体のシルエット画像を生成するようにしてもよい。この場合、カメラ情報取得部１２０は、前景画像からテクスチャ情報を消すことによりシルエット画像を生成すればよい。また、カメラ情報取得部１２０は、カメラ２により抽出されたシルエット画像そのものを取得してもよい。

次に、形状推定部１３０は、Ｓ５５０からＳ５９０までを形状推定領域２００内の全ボクセルを処理するまで繰り返すことで被写体の３次元形状を推定する。３次元形状の推定には、例えば、視体積交差法（ｓｈａｐｅ－ｆｒｏｍ－ｓｉｌｈｏｕｅｔｔｅ法）を用いる。ただし、推定方法はこれ以外の一般的な方法を用いることもできる。形状推定用のボクセルサイズは予めユーザによりＧＵＩを用いて設定されてもよいし、テキストファイルなどを用いて設定されていてもよい。

Ｓ５５０において、形状推定部１３０は、注目ボクセルの座標を基にボクセルが、算定領域に含まれるかを判定する。着目ボクセルが第１の領域に含まれる場合（Ｓ５５０でＹｅｓ）、処理がＳ５６０に進む。一方、着目ボクセルが第１の領域に含まない場合、つまり、第２の領域に含まれる場合（Ｓ５５０でＮｏ）、処理がＳ５７０に進む。

なお、この処理は、着目ボクセルに対応けられた形状推定用情報があるかを判定する処理に置き換えてもよい。Ｙｅｓの場合は、処理がＳ５６０に進み、Ｎｏの場合は、処理がＳ５７０に進む。

Ｓ５６０において、形状推定部１３０は、着目ボクセルに対応するＳ５３０で算出したボクセルの形状推定用情報を取得する。

Ｓ５７０において、形状推定部１３０は、着目ボクセルが第２の領域に含まれているため、Ｓ５２０で設定された形状推定用情報を取得する。

Ｓ５８０において、形状推定部１３０は、Ｓ５６０又はＳ５７０で取得した情報に基づいて、着目ボクセルが被写体形状を構成する一部か否かを判定する（ボクセルの削除判定）。まず、形状推定部１３０は、Ｓ５６０又はＳ５７０で取得した情報の各ビットを走査し、１の値を示す位に対応するカメラをボクセルの削除判定に用いるカメラとして特定する。そして、形状推定部１３０は、Ｓ５４０で取得した複数のシルエット画像のうち、特定したカメラに対応するシルエット画像を取得する。また、形状推定部１３０は、Ｓ５００で取得した複数のカメラのカメラパラメータのうち、特定したカメラに対応するカメラパラメータを取得する。このため、形状推定用情報は、要素を削除するかを判定するために用いられる撮像装置を示す情報ともいえる。

次に、形状推定部１３０は、特定したカメラに対応するシルエット画像とカメラパラメータとに基づいて、着目ボクセルを削除するかの判定を行う。具体的には、形状推定部１３０は、注目ボクセルの代表点（例えば中心）の３次元座標を各カメラのシルエット画像の座標にカメラパラメータを用いて座標変換し、変換された座標におけるシルエット画像の画素値を取得する。その画素値が２５５であれば、そのシルエット画像の被写体を示す領域内に着目ボクセルに対応する座標があることがわかる。形状推定部１３０は、特定したカメラに対応する全シルエット画像において、着目ボクセルの座標が変換された座標の画素値が２５５であれば、着目ボクセルが被写体を構成する一部であると判定し、そのボクセルを削除しない。一方、変換された座標の画素値が０であるシルエット画像が１つでもある場合、形状推定部１３０は、着目ボクセルが被写体を構成する一部ではないと判定する。

ただし、変換された座標の画素値が０であるシルエット画像の数が閾値以上の場合に、形状推定部１３０は、着目ボクセルが被写体を構成する一部ではないと判定するようにしてもよい。この閾値は、例えば、２や３などの任意の値でもよい。例えば、閾値が２の場合、変換された座標の画素値が０であるシルエット画像の数が１つであれば、その着目ボクセルは、被写体の一部と判定されることになり、削除されないことになる。このため、カメラパラメータの経時的な変化により、ボクセルが誤って削除されることを低減することができる。

Ｓ５９０において、形状推定部１３０は、全ボクセルが処理されたかどうかを確認する。全ボクセルが処理されていない場合（Ｓ５９０でＮｏ）、Ｓ５５０に戻り、形状推定部１３０は、残りのボクセルに対してＳ５５０～Ｓ５８０の処理を行う。全ボクセルが処理された場合（Ｓ５９０でＹｅｓ）、形状推定部１３０は、被写体の一部であると判定されたボクセルを３次元形状データとして、画像生成装置３に出力する（Ｓ５９５）。

画像生成装置３は、入力された３次元形状データと、複数のカメラ２の前景画像（又は撮像画像）と、カメラ２のカメラパラメータと、仮想視点情報に基づいて、仮想視点画像を生成する。生成された仮想視点画像は、表示装置４に出力される。仮想視点画像を生成する方法について説明する。画像生成装置３は、前景仮想視点画像（被写体領域の仮想視点画像）を生成する処理と、背景仮想視点画像（被写体領域以外の仮想視点画像）を生成する処理を実行する。そして、生成した背景仮想視点画像に前景仮想視点画像を重ねることで仮想視点画像を生成する。生成した仮想視点画像は表示装置４に送信され、不図示のディスプレイなどの表示装置に出力される。

仮想視点画像の前景仮想視点画像を生成する方法について説明する。前景仮想視点画像は、ボクセルを３次元点と仮定し、３次元点の色を算出し、色が付いたボクセルを既存のＣＧレンダリング手法によりレンダリングすることで生成できる。色を算出する前に、まず、カメラ２のカメラから被写体の３次元形状の表面までの距離を画素値とする距離画像を生成する。次に、ボクセルに色を割り当てるために、座標Ｘｗを画角内に含むカメラにおいて、Ｘｗをカメラ座標系、カメラ画像座標系に変換し、該ボクセルからカメラまでの距離ｄとカメラ画像上の座標Ｘｉを算出する。ｄと距離画像の座標Ｘｉの画素値（＝表面までの距離）との差を算出し、予め設定した閾値以下であれば、該ボクセルは該カメラから可視であると判定される。可視と判定された場合、カメラ２の撮像画像における座標Ｘｉの画素値を該ボクセルの色とする。該ボクセルが複数のカメラにおいて可視と判定された場合、カメラ２の各撮像画像から画素値が取得され、例えば、それらの平均値を該ボクセルの色とする。ただし、色を算出する方法はこれに限定されない。例えば、平均値ではなく、仮想視点から最も近いカメラ２から取得された撮像画像の画素値を用いるなどの方法を用いても構わない。全ボクセルについて同じ処理を繰り返すことで３次元形状データを構成する全ボクセルに色を割り当てることができる。ここで、形状を構成する各ボクセルの可視判定対象のカメラはカメラ２を構成する全てのカメラでもよいが、Ｓ５６０やＳ５７０で取得した形状推定用情報に限定してもよい。このようにすることで、仮想視点画像を生成する処理時間を短縮できる。

次に、仮想視点画像の背景仮想視点画像を生成する方法について説明する。背景仮想視点画像を生成するために、競技場などの背景の３次元形状データが取得される。背景の３次元形状データは、競技場などのＣＧモデルを予め作成し、システム内に保存しておいたＣＧモデルが用いられる。ＣＧモデルを構成する各面の法線ベクトルとカメラ２を構成する各カメラの方向ベクトルを比較し、各面を画角内に収め、最も正対するカメラ２が算出される。そして、このカメラ２に面の頂点座標を投影し、面に貼るテクスチャ画像が生成され、既存のテクスチャマッピング手法でレンダリングすることで、背景仮想視点画像が生成される。このようにして得られた仮想視点画像の背景仮想視点画像上に前景仮想視点画像を重ねることで、仮想視点画像が生成される。

本実施形態により、広大な形状推定領域に対して、形状推定用情報を要素ごとに生成する領域と、要素で共通の形状推定用情報を設定する領域にすることで、形状推定用情報の生成の負荷を軽減することができる。さらに、形状推定用情報を用いて、カメラを限定しながら形状推定することで、広大な空間の形状推定処理の処理負荷を軽減することもできる。

なお、図５の形状推定装置１が行う動作フローのＳ５５０について、８分木のような空間の多重解像度表現を用いて形状推定を階層的に行う場合においては条件がある。その条件は、着目ボクセルのサイズが形状推定用情報を生成する際に用いたボクセルのサイズ以下である。この条件を満たせば、Ｓ５５０は有効である。つまり、着目ボクセルのサイズが形状推定用情報を生成する際に用いたボクセルのサイズより小さい場合、Ｓ５５０でＹｅｓと判定されたら、Ｓ５６０において、一つ上の階層の形状推定用情報を取得すればよい。

一方、上記条件を有さない場合、着目ボクセルに対応する形状推定用情報を生成する際に用いたボクセルが複数あり、Ｓ５６０においてどの形状推定用情報を取得すればよいか一意に決められない。さらに、複数の候補のボクセルのうち、第２の領域に含まれるボクセルもある。そのため、多重解像度表現を用いて形状推定を階層的に行う場合は、上記の条件を満たす場合にＳ５５０～Ｓ５８０の処理を行い、満たさない場合は、通常の全カメラを用いてボクセルの削除判定を行うようにすればよい。

（実施形態２）
本実施形態では、第１の領域と第２の領域にカメラの優先度情報を紐付け、形状推定用情報と、優先度情報を用いて被写体の形状を推定する実施形態について述べる。

［構成］
本実施形態における画像処理システムに用いられる形状推定装置６について、図面を参照しながら説明する。図６は、形状推定装置６を有する画像処理システムを示す図である。図６に示すように、形状推定装置６は、カメラ２、画像生成装置３、表示装置４に接続される。カメラ２、画像生成装置３、表示装置４の構成は、実施形態１と同じである。以下、実施形態１と同じ構成については説明を省略する。また、形状推定装置６のハードウェア構成は、図４と同様である。

形状推定装置６は、領域設定部１００と、形状推定用情報生成部１１０、カメラ情報取得部６２０、優先度情報生成部６３０、形状推定部６４０を有する。実施形態１に優先度情報生成部６３０が追加され点と、形状推定部６４０の機能と動作が実施形態１と異なる。

領域設定部１００は、実施形態１と同様である。ただし、本実施形態において、境界情報が複数ある場合を例にして説明する。領域設定部１００は、境界情報に基づいて、図７に示すように、形状推定領域を３つに分割する。そして、境界情報は、高さ情報のみからなる情報と、直方体を示す情報を含む。高さ情報のみからなる境界情報により境界７１１が設定され、直方体を示す境界情報から境界７１２が設定される。そして、領域設定部１００は、分割された３つの領域に対して、第１の領域７２０と第２の領域７２２と第３の領域７２１とを設定する。なお、どの領域を第１の領域又は第２の領域とするかは任意に設定されてもよい。

形状推定用情報生成部１１０は、実施形態１と同様の計算方法で、第１の領域７２０と第３の領域７２１の形状推定用情報を生成する。また、第２の領域７２２には予め決めた形状推定用情報を設定する。

優先度情報生成部６３０は、カメラ２を構成するカメラごとに優先度を示す情報を生成する。優先度情報は、カメラの焦点距離によって決定される。例えば、焦点距離が７０ｍｍ以上に設定された望遠カメラは、被写体を大きく写せることから優先度を高く設定される。焦点距離が３５ｍｍ以上７０未満の標準カメラは、優先度を中程度に設定される。焦点距離が３５ｍｍ未満の広角カメラは、優先度を低く設定される。なお、焦点距離の変更は、レンズ構成を変更することで行われてもよい。また、優先度の決定は、他の方法で行われてもよい。なお、焦点距離は、画角としてもよい。つまり、所定の画角以上の画角を有するカメラに対して優先度を高く設定し、所定の画角より小さい画角を有するカメラに対して優先度を低く設定してもよい。

優先度情報は、複数のカメラ２の台数以上のビット列を、優先度の段階分だけ持つことで表現する。例えば、カメラ台数が３２台である場合、３２ビットの情報として表現し、段数が３段階（高中低）である場合、３つの３２ビット値で表現する。図８は、優先度情報の一例を示す。この例では、カメラ番号が０～７と１６～２３のカメラが優先度高、カメラ番号２４～３１のカメラが優先度中、カメラ番号８～１５のカメラが優先度低である場合の例である。なお、ビットの位が小さいほどカメラ番号が小さい。つまり、右から順にカメラ番号が０から３１までのカメラに関する情報が示されている。

カメラ情報取得部６２０は、実施形態１のカメラ情報取得部１２０と同様に、複数のカメラ２の撮像により取得された撮像画像と、複数のカメラ２のカメラパラメータとを取得する。

形状推定部６４０は、複数の撮像画像と、複数のカメラパラメータと、形状推定用情報と、優先度情報とに基づいて、被写体の３次元形状を推定する。なお、形状推定部６４０は、カメラ情報取得部６２０により前景画像やシルエット画像を取得する場合は、撮像画像に代えて前景画像又はシルエット画像を用いて被写体の３次元形状を推定すればよい。

［動作フロー］
図９に示すフローチャートを用いて、形状推定装置６の処理を説明する。なお、図５のフローチャートと同じ番号が付与されたステップは実施形態１のステップと同じであるので説明を省略する。

Ｓ９１０において、領域設定部１００は、境界情報を基に、形状推定領域を複数の領域に分割し、第１の領域又は第２の領域を設定する。境界情報には、上空のボールと、地上の被写体の形状推定に用いるカメラを変更するため、ｚ＝２ｍとして高さ情報のみを示す境界情報が含まれる。さらに、境界情報には、サッカーのゴールシーンなど重要なシーンが発生すると予想されるゴール前などの特定の領域を、特に高精度に形状推定するため、特定の領域を、例えば、直方体を示す境界情報が含まれる。この直方体を示す境界情報は、８頂点の座標で示される。これらの境界情報は補助記憶装置に記憶され、領域設定部１００は、補助記憶装置から境界情報を読み込んでもよいし、ＧＵＩを用いてユーザにより入力された情報に基づいて設定するようにしてもよい。

Ｓ９３０において、形状推定用情報生成部１１０は、第１の領域７２０と第３の領域７２１それぞれを構成するボクセルごとに、形状推定用情報を生成する。算出方法は、Ｓ５３０と同じであるため説明は省略する。

Ｓ９３５において、優先度情報生成部６３０は、カメラの焦点距離に基づいて優先度情報を生成する。カメラの焦点距離に関する情報は、カメラ情報取得部６２０で取得されたカメラパラメータに含まれている。そして、優先度情報生成部６３０は、第１の領域７２０、第２の領域７２２、第３の領域７２１に優先度情報を割り当る。具体的には、優先度情報生成部６３０は、第１の領域７２０と第３の領域７２１には、優先度が高い優先度情報と優先度が中程度の優先度情報の両方を割り当てる。さらに、優先度情報生成部６３０は、第２の領域７２２には、優先度が低い優先度情報を割り当てる。このように割り当てることで、選手などがプレイする地上に近い領域で、解像度が低い広角カメラを使用した形状推定がなされないように制限することができる。

Ｓ５４０は実施形態１と同様の処理なので説明を省略する。次に、形状推定部６４０は、Ｓ９５０からＳ９９０までを形状推定領域２００内の全ボクセルを処理するまで繰り返すことで被写体の３次元形状を推定する。形状推定方法は、実施形態１と同様であるが、形状推定に用いるカメラがさらに限定されている点が異なる。カメラの限定のために、Ｓ９３５で生成した優先度情報が用いられる。

Ｓ９５０において、形状推定部６４０は、注目ボクセルの座標を基にボクセルが、算定領域に含まれるかを判定する。着目ボクセルが第１の領域７２０又は第３の領域７２１に含まれる場合（Ｓ９５０でＹｅｓ）、処理がＳ９６０に進む。一方、着目ボクセルが第１の領域７２０にも第３の領域７２１にも含まれない場合、つまり、第２の領域に含まれる場合（Ｓ９５０でＮｏ）、処理がＳ９７０に進む。

注目ボクセルが第１の領域７２０又は第３の領域７２１に含まれる場合のフローについて述べる（Ｓ９６０～Ｓ９６３）。このフローはボクセルの削除判定のフローであるが、その削除判定に用いるカメラを、形状推定用情報だけでなく、優先度情報に基づいて限定している。

Ｓ９６０において、形状推定部６４０は、着目ボクセルに対応するＳ９３０で算出したボクセルの形状推定用情報を取得する。

Ｓ９６１において、形状推定部６４０は、着目ボクセルが含まれる第１の領域７２０、７２１にＳ９３５で割り当てられた優先度情報を取得する。第１の領域７２０、第３の領域７２１には優先度情報として、優先度が高いカメラの情報と優先度が中程度のカメラの情報が割り当てられている。

Ｓ９６２において、形状推定部６４０は、まず、優先度が高いカメラの情報と、優先度が中程度のカメラの情報とを用い、それらの情報のビットごとに論理和を算出する。さらに、形状推定部６４０は、その論理和を算出して生成した情報と、形状推定用情報とのビットごとの論理積を算出する。そして、形状推定部６４０は、論理積を算出した情報のうちビット値が１であるカメラを、ボクセルの削除判定に用いるカメラとして特定する。特定されたカメラを用いて行うボクセルの削除判定は、Ｓ５８０と同様である。なお、ここでは、Ｓ５８０の処理で用いた、閾値を２とする。

Ｓ９６３は、Ｓ９６２で削除されなかった着目ボクセルが第１の領域７２０に含まれる場合に行われる処理である。つまり、Ｓ９６２で着目ボクセルが削除された場合や、着目ボクセルが第３の領域７２１に含まれる場合、Ｓ９６３はスキップされる。Ｓ９６３において、形状推定部６４０は、Ｓ９６２で残すと判定された着目ボクセルを、優先度情報として優先度が高いカメラを示す情報だけを用いて、さらにボクセルの削除判定を行う。このようにすることで、Ｓ９６２で削りきれなかったボクセルを、解像度が高い望遠カメラだけを用いて、さらに高精度に削除判定することができる。つまり、形状推定部６４０は、まず、優先度が高いカメラの情報と、形状推定用情報とのビットごとの論理積を算出する。そして、形状推定部６４０は、論理積を算出した情報のうちビット値が１であるカメラを特定する。この特定されたカメラを用いてボクセルの削除判定を行う。ここでは、Ｓ５８０の処理で用いた、閾値を１とするなど、Ｓ９６３で用いた閾値より小さい値にすることで、より精度の高い判定を行うことができる。

一方、注目ボクセルが第１の領域７２０又は第３の領域７２１に含まれない場合のフローについて述べる（Ｓ９７０～Ｓ９７２）。ここで、Ｓ９６０～Ｓ９６２の処理と同様、ボクセルの削除判定に用いるカメラを、形状推定用情報だけでなく、優先度情報に基づいて限定している。

Ｓ９７０において、着目ボクセルが第２の領域に含まれているため、形状推定部６４０は、Ｓ５２０で設定された形状推定用情報を取得する。

Ｓ９７１において、形状推定部６４０は、着目ボクセルが含まれる第２の領域７２２にＳ９３５で割り当てられた優先度情報を取得する。第２の領域７２２には優先度情報として、優先度が低いカメラの情報が割り当てられている。

Ｓ９７２において、形状推定部６４０は、まず、優先度が低いカメラの情報と、形状推定用情報とのビットごとの論理積を算出する。そして、形状推定部６４０は、論理積を算出した情報のうちビット値が１であるカメラを特定する。特定されたカメラを用いて行うボクセルの削除判定は、Ｓ５８０と同様である。なお、ここでは、Ｓ５８０の処理で用いた、閾値を２とする。これにより、上空の被写体を画角内に含む広角カメラに限定してボクセルの削除判定を実施でき、形状推定を高速化することできる。

以降の処理は、実施形態１と同様である。

本実施形態により、形状推定用情報および形状推定用情報に、焦点距離などに応じた優先度情報を加え、両方の情報を参照しながら被写体を形状推定できる。これにより、特に高解像度レンズを用いて高精度に形状を推定したい領域を設定することができる。

１形状推定装置
２カメラ
１１０形状推定用情報生成部
１２０カメラ情報取得部
１３０形状推定部

Claims

複数の要素で構成される３次元空間の一部の領域である第１の領域に含まれる要素に対して、複数の撮像装置のうち当該要素に対応する領域を撮像する撮像装置を示す第１の情報を生成する生成手段と、
前記３次元空間の一部の領域であって前記第１の領域とは異なる第２の領域に含まれる要素で共通の第２の情報であって、前記第２の領域に対応する領域を撮像する撮像装置を示す第２の情報を設定する設定手段と、
前記生成手段によって前記第１の情報が生成され、前記設定手段によって前記第２の情報が設定された後に、前記複数の撮像装置による撮像に基づく複数の画像を取得し、前記複数の画像と、前記第１の情報と、前記第２の情報とに基づいて、被写体の３次元形状の推定を行う推定手段と、を有することを特徴とする形状推定装置。
前記第１の情報は、前記複数の撮像装置により撮像される撮像領域において前記第１の領域に含まれる前記要素に対応する領域を、前記複数の撮像装置のそれぞれの撮像装置の画角内に含むかどうかを示す情報であることを特徴とする請求項１に記載の形状推定装置。
前記複数の撮像装置により撮像される撮像領域において前記第２の領域に対応する領域を撮像する撮像装置の台数は、前記複数の撮像装置により撮像される撮像領域において前記第１の領域に対応する領域を撮像する撮像装置の台数より少ないことを特徴とする請求項１又は２に記載の形状推定装置。
前記複数の撮像装置により撮像される撮像領域において前記第２の領域に対応する領域の被写体の数は、前記複数の撮像装置により撮像される撮像領域において前記第１の領域に対応する領域の被写体の数より少ないことを特徴とする請求項１乃至３のいずれか１項に記載の形状推定装置。
前記複数の撮像装置により撮像される撮像領域において前記第２の領域に対応する領域の被写体は、ボールを含むことを特徴とする請求項１乃至４のいずれか１項に記載の形状推定装置。
前記複数の撮像装置により撮像される撮像領域において前記第１の領域に対応する領域の被写体は、人物とボールのうち少なくとも一方を含むことを特徴とする請求項１乃至５のいずれか１項に記載の形状推定装置。
前記推定手段は、前記複数の画像と、前記第１の情報と、前記第２の情報とに基づいて、前記３次元空間を構成する特定の要素を削除することで前記被写体の３次元形状を推定することを特徴とする請求項１乃至６のいずれか１項に記載の形状推定装置。
前記推定手段は、前記第１の領域を構成する複数の要素の少なくとも一部を、前記複数の画像と前記第１の情報とに基づいて削除し、かつ、前記第２の領域を構成する複数の要素の少なくとも一部を、前記複数の画像と前記第２の情報に基づいて削除することにより前記３次元形状を推定することを特徴とする請求項７に記載の形状推定装置。
前記複数の画像は、前記被写体の領域を示すシルエット画像であり、
前記推定手段は、前記第１の領域を構成する要素を、当該要素に対応する第１の情報と、複数のシルエット画像とに基づいて削除するかを判定し、削除すると判定された要素を削除することを特徴とする請求項８に記載の形状推定装置。
前記推定手段は、
前記第１の領域を構成する要素に対応する前記第１の情報に基づいて、前記複数の撮像装置により撮像される撮像領域における当該要素に対応する領域を画角内に含む撮像装置を特定し、
前記特定された撮像装置によって撮像された画像に基づくシルエット画像の被写体の領域に、当該要素の位置を当該シルエット画像の座標系に変換した位置が含まれるか否かに基づいて前記第１の領域を構成する要素を削除するか否かを判定することを特徴とする請求項９に記載の形状推定装置。
前記複数の画像は、前記被写体の領域を示すシルエット画像であり、
前記推定手段は、前記第２の領域を構成する要素を、当該要素に対応する前記第２の情報と、複数のシルエット画像とに基づいて削除することを特徴とする請求項８乃至１０のいずれか１項に記載の形状推定装置。
前記推定手段は、
前記第２の領域を構成する要素に対応する前記第２の情報に基づいて、前記複数の撮像装置により撮像される撮像領域における当該要素に対応する領域を画角内に含む撮像装置を特定し、
特定された撮像装置に対応するシルエット画像の被写体の領域に、当該要素を当該シルエット画像の座標系に変換した位置が含まれるか否かに基づいて前記第２の領域を構成する要素を削除するか否かを判定することを特徴とする請求項１１に記載の形状推定装置。
前記生成手段は、前記第１の領域に含まれる要素に対して、前記複数の撮像装置の状態に基づいて前記第１の情報を生成することを特徴とする請求項１乃至１２のいずれか１項に記載の形状推定装置。
前記撮像装置の状態とは、前記撮像装置の位置、姿勢、および焦点距離のうち少なくとも一つであることを特徴とする請求項１３に記載の形状推定装置。
前記設定手段は、記憶手段に記憶されている、前記第２の領域に含まれる前記被写体の３次元形状の推定に用いられる撮像装置を示す情報を、前記第２の情報として設定することを特徴とする請求項１乃至１４のいずれか１項に記載の形状推定装置。
前記設定手段は、前記複数の撮像装置の画角に応じた第３の情報であって、前記第１の領域及び前記第２の領域に対して、前記複数の撮像装置のうち前記要素を削除するか否かを判定するために用いられる撮像装置を示す第３の情報を設定し、
前記推定手段は、前記複数の画像と、前記第１の情報と、前記第２の情報と、前記第３の情報とに基づいて、前記３次元空間を構成する特定の要素を削除することを特徴とする請求項１乃至１５のいずれか１項に記載の形状推定装置。
前記第３の情報は、所定の画角以上の画角を有する撮像装置を示す情報と、前記所定の画角より小さい画角を有する撮像装置を示す情報とを有し、
前記推定手段は、
前記第１の領域を構成する要素を、前記第３の情報のうち前記所定の画角以上の画角を有する撮像装置を示す情報と、前記複数の画像と、前記第１の情報とに基づいて削除するか否かを判定し、
前記第２の領域を構成する要素を、前記第３の情報のうち前記所定の画角より小さい画角を有する撮像装置を示す情報と、前記複数の画像と、前記第２の情報とに基づいて削除するか否かを判定することを特徴とする請求項１６に記載の形状推定装置。
複数の要素で構成される３次元空間の一部の領域である第１の領域に含まれる要素に対して、複数の撮像装置のうち当該要素に対応する領域を撮像する撮像装置を示す第１の情報を生成する生成工程と、
前記３次元空間の一部の領域であって前記第１の領域とは異なる第２の領域に含まれる要素で共通の第２の情報であって、前記第２の領域に対応する領域を撮像する撮像装置を示す第２の情報を設定する設定工程と、
前記生成工程によって前記第１の情報が生成され、前記設定工程によって前記第２の情報が設定された後に、前記複数の撮像装置による撮像に基づく複数の画像を取得し、前記複数の画像と、前記第１の情報と、前記第２の情報とに基づいて、被写体の３次元形状の推定を行う推定工程と、を有することを特徴とする形状推定方法。
コンピュータを、請求項１乃至１７のいずれか１項に記載の形状推定装置として機能させるためのプログラム。