WO2018047687A1

WO2018047687A1 - 三次元モデル生成装置及び三次元モデル生成方法

Info

Publication number: WO2018047687A1
Application number: PCT/JP2017/031098
Authority: WO
Inventors: 達也小山; 敏康杉尾; 徹松延; 哲史吉川; ポンサックラサン; チワン
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2016-09-12
Filing date: 2017-08-30
Publication date: 2018-03-15
Also published as: JPWO2018047687A1; EP3511903A1; JP7002056B2; EP3511903A4; US10893251B2; CN109690620A; US20190208177A1; CN109690620B

Abstract

三次元モデル生成装置（２００）は、１以上の映像データ（１１１）に含まれる、互いに視点の異なる複数の入力画像（２１１）の各々から、当該入力画像（２１１）より画素数の少ない変換画像（２１２）を生成する変換画像生成部（２０２）と、複数の変換画像（２１２）の特徴点を検出し、複数の変換画像（２１２）間で特徴点が類似する特徴点対に基づき、複数の入力画像（２１１）がそれぞれ撮影された際のカメラパラメータ（２１３）を推定するカメラパラメータ推定部（２０３）と、複数の入力画像（２１１）とカメラパラメータ（２１３）とを用いて三次元モデル（２１４）を生成する三次元モデル生成部（２０４）とを備える。

Description

三次元モデル生成装置及び三次元モデル生成方法

　本開示は、１以上のカメラで撮影された映像を用いて三次元モデルを生成する三次元モデル生成装置及び三次元モデル生成方法に関する。

　近年、人物又は建物などの被写体を多視点から撮影することにより得られる多視点画像を用いて被写体の三次元形状を計測し、被写体の三次元モデルを生成する技術が研究されている（例えば、非特許文献１参照）。この技術は多視点画像を構成するそれぞれの画像が撮影された際のカメラパラメータ（カメラの位置、向き、ピクセル単位の焦点距離、及びレンズ歪みなど）を幾何学的に推定した後、推定したカメラパラメータを用いて各画像上の各画素を三次元空間上に投影することにより被写体の三次元モデルを生成する。被写体の三次元モデルを生成することにより、３Ｄプリンタによるフィギュア作成、地形又は建物の構造認識、人物の行動認識、及び、個人の好みの視点で被写体を視聴できる自由視点映像の生成などのサービスが実現可能となる。これらサービスの実現には高解像度の三次元モデルが不可欠であり、そのために４Ｋ或いは８Ｋ又はそれ以上の高解像度を持つ画像が必要である。

　しかし、画像の解像度が高くなるほどカメラパラメータの推定に要する処理時間、及び記憶容量は指数関数的に増加するため、高解像度の三次元モデル生成には相応の処理能力及び記憶容量を持ったコンピュータが求められる。

　また、画像をダウンサンプリングして得られる低解像度画像を保存し、利用することにより、ある画像上での被写体の距離情報を低記憶容量で計測する方法が提示されている（例えば、特許文献１参照）。

特開２０１５－０５６１４２号公報

S. Agarwal, N. Snavely, I. Simon, S.M. Seitz and R. Szeliski, "Building Rome in a Day", proc. International Conference on Computer Vision, 2009, Kyoto, Japan.

　本開示は、カメラパラメータ推定処理の処理量を低減できる三次元モデル生成装置又は三次元モデル生成方法を提供することを目的とする。

　本開示の一態様の三次元モデル生成装置は、１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成部と、複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える。

　本開示の一態様の三次元モデル生成装置は、１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、特徴点を検出する際に探索する画素を決定するフィルタ生成部と、前記複数の入力画像の特徴点を前記探索する画素から検出し、前記複数の入力画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える。

　本開示は、カメラパラメータ推定処理の処理量を低減できる三次元モデル生成装置又は三次元モデル生成方法を提供できる。

図１は、実施の形態１に係る三次元モデル生成システムの構成を示す図である。図２Ａは、実施の形態１に係る二値画像のフィルタ例を示す図である。図２Ｂは、実施の形態１に係る二値画像のフィルタ例を示す図である。図２Ｃは、実施の形態１に係る二値画像のフィルタ例を示す図である。図２Ｄは、実施の形態１に係る二値画像のフィルタ例を示す図である。図２Ｅは、実施の形態１に係る二値画像のフィルタ例を示す図である。図２Ｆは、実施の形態１に係る二値画像のフィルタ例を示す図である。図２Ｇは、実施の形態１に係る二値画像のフィルタ例を示す図である。図２Ｈは、実施の形態１に係る二値画像のフィルタ例を示す図である。図３Ａは、実施の形態１に係るグレースケール画像のフィルタ例を示す図である。図３Ｂは、実施の形態１に係るグレースケール画像のフィルタ例を示す図である。図３Ｃは、実施の形態１に係るグレースケール画像のフィルタ例を示す図である。図３Ｄは、実施の形態１に係るグレースケール画像のフィルタ例を示す図である。図３Ｅは、実施の形態１に係るグレースケール画像のフィルタ例を示す図である。図３Ｆは、実施の形態１に係るグレースケール画像のフィルタ例を示す図である。図３Ｇは、実施の形態１に係るグレースケール画像のフィルタ例を示す図である。図３Ｈは、実施の形態１に係るグレースケール画像のフィルタ例を示す図である。図４は、実施の形態１に係る三次元点群情報及び処理スキップできる領域を示す図である。図５は、実施の形態１に係る三次元モデル生成システムの処理を示すフローチャートである。図６は、実施の形態１に係る撮影時刻に基づく多視点画像を決定する一例を説明するための図である。図７は、実施の形態２に係る三次元モデル生成システムの構成を示す図である。図８は、実施の形態２に係る三次元モデル生成システムの処理を示すフローチャートである。図９は、実施の形態２に係る一定間隔に基づく多視点画像を決定する一例を説明するための図である。図１０は、実施の形態３に係る三次元モデル生成システムの構成を示す図である。図１１は、実施の形態３における三次元モデル生成システムの処理を示すフローチャートである。図１２は、実施の形態３における三次元モデル生成処理を説明するための図である。図１３は、実施の形態４に係る三次元モデル生成システムの構成を示す図である。図１４は、実施の形態４における三次元モデル生成システムの処理を示すフローチャートである。

　（発明に至った経緯）
　従来の方法は、ある視点から撮影された一枚の画像上での被写体の距離情報を計測するものである。上記距離情報が得られると、上記視点から見た被写体の部分的な三次元モデルを生成できる。例えば、被写体を正面から撮影した画像上での被写体の距離情報が得られると、被写体の正面部分の三次元モデルが生成できる。しかし、部分的な三次元モデルは、背景技術で述べたサービスの実現には利用し難い。また、別の従来の方法は、１つのカメラで時系列的に撮影した複数の画像を多視点画像としているため、距離情報を計測する被写体は静止物体に限定される。

　そこで、本開示では、低処理及び低記憶容量で高解像度の三次元モデルを生成できる装置を提供する。

　また、本開示の一態様の三次元モデル生成装置によれば、カメラパラメータの推定に利用する画素を限定しカメラパラメータを推定することにより、低処理及び低記憶容量で高解像度の三次元モデルを生成することができる。また、本開示の一態様の三次元モデル生成装置は複数のカメラで撮影した複数の映像を利用し、多視点画像を生成することも可能であるため、被写体が静止物体、動物体、又は、その両方であっても被写体の三次元モデルを生成することができる。

　本開示の一態様に係る三次元モデル生成装置は、１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成部と、複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える。

　これによれば、入力画像より画素数の少ない変換画像を用いてカメラパラメータ推定処理が行われるので、カメラパラメータ推定処理の処理量を低減できる。

　例えば、前記変換画像生成部は、前記入力画像内の予め定められた複数の画素位置の画素を抽出することで前記変換画像を生成してもよい。

　例えば、前記変換画像生成部は、さらに、前記複数の画素位置の各々に優先度を設定し、前記カメラパラメータ推定部は、前記優先度が高い画素位置の画素を優先的に用いて、前記カメラパラメータを推定してもよい。

　これによれば、カメラパラメータ推定処理を効率的に行える。

　例えば、前記変換画像生成部は、前記映像の内容又は撮影状況に基づき、異なる画素位置の画素を抽出してもよい。

　これによれば、映像の内容又は撮影状況に応じて適切な画素を使用できるのでカメラパラメータ推定処理を効率的に行える。

　例えば、前記複数の画素位置は、前記入力画像の中央付近であってもよい。

　これによれば、歪みの影響が少ない領域を用いることができるので、処理精度を向上できる。

　例えば、前記複数の画素位置は、前記入力画像の四隅の領域を含んでもよい。

　これによれば、歪みの影響が大きい領域を用いて、当該歪みを画像から抽出できる。

　例えば、前記変換画像生成部は、前記入力画像をダウンサンプリングすることにより前記変換画像を生成してもよい。

　これによれば、画像内の全ての領域の情報を用いてカメラパラメータを推定できる。

　例えば、前記カメラパラメータ推定部は、前記変換画像を用いて推定したカメラパラメータを、前記ダウンサンプリングにおける縮小倍率に基づき修正し、前記三次元モデル生成部は、修正された前記カメラパラメータと前記複数の入力画像とを用いて前記三次元モデルを生成してもよい。

　これによれば、ダウンサンプリングされた変換画像を用いる場合において、適切に、元の入力画像のカメラパラメータを推定できる。

　また、本開示の一態様に係る三次元モデル生成方法は、１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成ステップと、複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定ステップと、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成ステップとを含む。

　また、本開示の一態様の三次元モデル生成装置は、１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、特徴点を検出する際に探索する画素を決定するフィルタ生成部と、前記複数の入力画像の特徴点を前記探索する画素から検出し、前記複数の入力画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える。

　これによれば、入力画像の一部の画素を用いてカメラパラメータ推定処理が行われるので、カメラパラメータ推定処理の処理量を低減できる。

　例えば、前記探索する画素の総数は前記入力画像の画素数より少なくてもよい。

　例えば、前記フィルタ生成部は、予め定められた複数の画素位置の画素を前記探索する画素として決定してもよい。

　例えば、前記フィルタ生成部は、さらに、前記複数の画素位置の各々に優先度を設定し、前記カメラパラメータ推定部は、前記優先度が高い画素位置の画素を優先的に用いて、前記カメラパラメータを推定してもよい。

　例えば、前記フィルタ生成部は、前記映像の内容又は撮影状況に基づき、前記探索する画素を決定してもよい。

　また、本開示の一態様に係る三次元モデル生成方法は、１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、特徴点を検出する際に探索する画素を決定するフィルタ生成ステップと、前記複数の入力画像の特徴点を前記探索する画素から検出し、前記複数の入力画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定ステップと、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成ステップと、を含む。

　また、本開示の一態様に係るプログラムは、１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成ステップと、複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定ステップと、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成ステップとをコンピュータに実行させるためのプログラムである。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置及び接続形態、ステップ、ステップの順序などは一例であり、本開示を限定する主旨はない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　（実施の形態１）
　まず、本実施の形態１に係る三次元モデル生成システムの構成を説明する。図１は、本実施形態に係る三次元モデル生成システムの構成を示す図である。

　本実施の形態１に係る三次元モデル生成システムは、被写体１００を撮影する複数のカメラ１０１と、複数のカメラ１０１で撮影された複数の映像である映像データ１１１が入力される三次元モデル生成装置２００とを備える。また、図１には、三次元モデル生成装置２００によって三次元モデルを提供されるエンドユーザ３００も図示している。被写体１００は、静止している静止物体或いは人物などの動物体、又は、その両方を含む。静止物体と動物体とを含む被写体の例として、バスケットボールなどのスポーツの試合、又は、人物或いは車が存在する街中などがある。

　各カメラ１０１は被写体１００を撮影し、撮影した映像データ１１１を三次元モデル生成装置２００に出力する。全体として２台以上のカメラ１０１が被写体１００を撮影する。つまり、２台以上のカメラ１０１は、互いに異なる視点から同一のシーン（被写体１００）を撮影する。カメラ１０１によって撮影された映像データ１１１が三次元モデル生成装置２００の入力部２０１に入力されるように、それぞれのカメラ１０１が、有線又は無線によって、入力部２０１自体に、又は通信機器或いはサーバなどのハブ（図示せず）に接続される。また、カメラ１０１で撮影した映像データ１１１はリアルタイムに出力されてもよいし、映像データ１１１が一度メモリ又はクラウドサーバなどの外部記憶装置に記録された後、それらの外部記憶装置から映像データ１１１が出力されてもよい。

　また、カメラ１０１はそれぞれ監視カメラなどの固定カメラであってもよいし、ビデオカメラ、スマートフォン、又はウェアラブルカメラなどのモバイルカメラであってもよいし、撮影機能付きドローンなどの移動カメラであってもよい。

　三次元モデル生成装置２００は、入力部２０１、変換画像生成部２０２、カメラパラメータ推定部２０３、三次元モデル生成部２０４、及び出力部２０５を備える。三次元モデル生成装置２００は、プロセッサ又は論理回路などの処理回路と、内部メモリ又はアクセス可能な外部メモリなどの記録装置とを有するコンピュータシステムを少なくとも備える。三次元モデル生成装置２００は、処理回路によるハード実装によって、又は、処理回路によるメモリに保持される、或いは外部サーバから配信されるソフトウェアプログラムの実行によって、又は、これらハード実装とソフト実装との組み合わせによって実現される。

　入力部２０１は、複数の映像データ１１１を受け取ると、複数の映像データ１１１に対して前処理を行う。前処理は、例えば明るさ調整、映像サイズ調整、ホワイトバランス調整、ノイズ除去、或いはフレームレートを揃えるためのフレーム変換、又はこれらの組み合わせである。入力部２０１は、前処理が行われた後の複数の映像データ１１１それぞれをフレームである入力画像２１１に分割し、同時刻に撮影された複数の入力画像２１１を抽出し、抽出した同時刻に撮影された複数の入力画像２１１の組である多視点画像群を変換画像生成部２０２及び三次元モデル生成部２０４に出力する。同時刻に撮影された複数の入力画像２１１の抽出には、画像情報、各カメラ１０１での撮影時に映像と同時に記録される時間情報或いは音声情報、又はそれらの組み合わせが利用される。または、複数のカメラ１０１を有線又は無線で接続し、同時刻に複数のカメラ１０１で撮影開始することにより、同時刻に撮影された複数のフレームを抽出してもよい。また、入力部２０１は撮影時刻が早い多視点画像群から順々に出力する。

　変換画像生成部２０２は、１以上の映像データ１１１に含まれる、互いに視点の異なる複数の入力画像２１１の各々から、当該入力画像２１１より画素数の少ない変換画像２１２を生成する。具体的には、変換画像生成部２０２は、多視点画像群を構成する各入力画像２１１上の特徴点を検出する際に、探索する領域を制限するフィルタを入力画像２１１毎に決定し、決定したフィルタを用いて入力画像２１１から変換画像２１２を生成し、生成された変換画像２１２をカメラパラメータ推定部２０３に出力する。

　フィルタは、例えば、各入力画像２１１と縦横のサイズが同じであり、各画素の値は０（黒）か１（白）の二値画像、又は、各画素の値が０（黒）～１（白）の間の値を持つグレースケール画像である。また、特徴点は、画像に含まれる物体の輪郭、物体或いは空間の角、又は、物体同士の交差点のような、点、エッジ又は一定領域とその周囲との輝度或いは色合いの差が大きい点、辺、又は一定領域のことを示す。

　図２Ａ～図２Ｈは、変換画像生成部２０２で決定する二値画像のフィルタ例を示す図である。二値画像のフィルタを利用する際は、フィルタの画素値が１である画素と同じ画素位置にある入力画像２１１の画素を抽出し、変換画像２１２を生成するつまり、変換画像生成部２０２は、入力画像２１１内の予め定められた複数の画素位置の画素を抽出することで変換画像２１２を生成する。

　図３Ａ～図３Ｈは、変換画像生成部２０２で決定するグレースケール画像のフィルタ例を示す図である。グレースケール画像のフィルタを利用する際は、フィルタの画素値が０より大きい値を持つ画素と同じ画素位置にある入力画像２１１の画素を抽出し、抽出した画素にフィルタの画素値を示す情報を付与することで変換画像２１２を生成する。つまり、変換画像生成部２０２は、さらに、変換画像２１２の画素の各々に優先度を設定し、カメラパラメータ推定部２０３は、優先度が高い画素を優先的に用いて、カメラパラメータを推定する。

　なお、図２Ａ～図２Ｈ又は図３Ａ～図３Ｈに示されるフィルタを利用することにより画像中の必要領域を抽出する操作（トリミング）と同等の効果が得られる。

　また、使用されるフィルタは事前にユーザが指定してもよいし、画像情報又は撮影状況により自動的に決定されてもよい。つまり、変換画像生成部２０２は、映像の内容又は撮影状況に基づき、異なる画素位置の画素を抽出してもよい。

　例えば、人物、文字、又は建物などの特徴点が検出しやすい物体がフレーム中央にあるときは、図２Ａ、図２Ｂ、図３Ａ又は図３Ｂに示すように、フレーム中央の画素を探索するフィルタが選択される。なお、フレーム上の人物、文字、又は建物などの物体の領域は検出器によって自動的に検出されても、事前に与えられてもよい。例えば、顔検出又は画素の特徴を用いて、フレーム上の人物、文字、又は建物などの物体を検出できる。

　つまり、画像情報を用いて、特徴点が検出しやすい物体の位置が特定され、当該物体の位置の画素位置を含む複数の画素が抽出されてもよい。例えば、当該画素位置は、入力画像２１１の中央付近である。また、撮影状況として、例えば、人物が撮影されている等の情報が入力され、当該撮影状況に応じてフィルタが選択されてもよい。

　また、レンズ歪みを推定する場合には、変換画像生成部２０２は、図２Ｆ、図２Ｈ、図３Ｆ又は図３Ｈに示すように、フレーム上の広範囲の画素を探索するフィルタを選択する。また、魚眼レンズ等の歪みを推定する場合には、変換画像生成部２０２は、図２Ｆ、図２Ｇ、図２Ｈ、図３Ｆ、図３Ｇ又は図３Ｈに示すように、フレームの四隅を含む領域を探索するフィルタが選択されてもよい。つまり、入力画像２１１の四隅の領域を含む画素位置の画素が抽出されてもよい。この場合、撮影状況として、カメラの情報（歪みの有無）が入力されてもよいし、ユーザにより歪みの有無を示す情報が入力されてもよい。

　なお、図２Ａ～図２Ｈ及び図３Ａ～図３Ｈに記載したフィルタは一例であり、白領域及び黒領域の形、面積割合、数、位置関係などに限定はなく、特徴点を検出する際に探索するフレーム領域を制限するフィルタは全て利用可能である。１つのフレームに対して使用するフィルタは１種以上であり、複数のフィルタを用いて探索領域を制限してもよい。

　カメラパラメータ推定部２０３は、複数の変換画像２１２の特徴点を検出し、複数の変換画像２１２間で特徴点が類似する特徴点対に基づき、複数の入力画像２１１がそれぞれ撮影された際のカメラパラメータを推定する。具体的には、カメラパラメータ推定部２０３は、多視点画像群を構成する全ての入力画像２１１に対応する変換画像２１２上の画素を探索し、特徴点を検出し、検出した特徴点を示す特徴点情報を記憶する。特徴点情報は、特徴点を略中心とする又は特徴点を含む特定の範囲の画素に対する色又は輝度勾配の分布をベクトルで表現したものである。

　例えば、変換画像２１２を生成する際に利用したフィルタが図２Ａ～図２Ｈに示すような二値画像である場合、カメラパラメータ推定部２０３は、特徴点の探索及び検出を、変換画像２１２上の全画素に対して行う。また、変換画像２１２を生成する際に利用したフィルタが図３Ａ～図３Ｈに示すようなグレースケール画像である場合、特徴点の探索及び検出を、変換画像２１２上の全画素に対して行い、検出した特徴点の数が所定の数より多い際は画素に付与された優先度が低い画素位置にある特徴点を削除し特徴点の数を所定の数以下にする。或いは特徴点の探索及び検出を、変換画像２１２上の画素の優先度が高い画素位置から優先的に行い、所定の数の特徴点が検出された時点又は画素値が０以外の画素を全て探索した時点で探索を終了する。

　このように、フィルタを用いて生成した変換画像２１２を利用して特徴点を探索することにより、探索する画素を制限できるため、特徴点の検出に必要な処理量及び記憶容量を削減することが可能である。また、特徴点の探索領域が制限されることにより特徴点の数が少なくなる。これにより、特徴点情報算出に必要な処理量及び記憶容量も削減することが可能である。カメラパラメータ推定部２０３は、特徴点情報を算出する際に、特徴点を略中心とする又は特徴点を含む特定の範囲内の全画素を利用してもよいし、特徴点を略中心とする又は特徴点を含む特定の範囲内でかつ変換画像２１２の優先度が一定値以上の画素のみを利用してもよい。

　カメラパラメータ推定部２０３は、多視点画像群を構成する全ての変換画像２１２の特徴点情報を記録した後、２つの変換画像２１２にそれぞれ含まれる特徴点であって、特徴点情報が類似する特徴点を特徴点対として導出する。さらに、カメラパラメータ推定部２０３は、特徴点対の変換画像２１２上の各二次元座標を算出し、算出された座標含むマッチング情報を記録する。なお、類似する特徴点をマッチング点と呼ぶ。特徴点情報が類似するか否かの判定には、例えば、特徴点情報の二乗誤差又は絶対誤差が用いられる。

　マッチング情報が得られると、カメラパラメータ推定部２０３は、エピポーラ制約などの幾何学的制約又はバンドル調整などの非線形最適化手法に基づき、多視点画像群を構成する全ての入力画像２１１が撮影された際の各カメラ１０１のカメラパラメータ２１３を推定し、推定した複数のカメラパラメータ２１３を三次元モデル生成部２０４に出力する。ここで、カメラパラメータ２１３とはカメラの三次元空間における中心座標、向き、ピクセル単位の焦点距離、レンズ歪み係数などを含む。なお、カメラパラメータ推定部２０３は、カメラの三次元座標、向き、ピクセル単位の焦点距離、レンズ歪み係数などの全パラメータを推定してもよいし、事前に校正した一部のパラメータを利用し、残りのパラメータのみを推定してもよい。また、カメラパラメータ推定部２０３は、マッチング情報と推定したカメラパラメータ２１３とを利用し、三角測量の原理に基づき各マッチング点の三次元空間における座標を計算し、マッチング情報とマッチング点の三次元座標とを含む情報である三次元点群情報を三次元モデル生成部２０４に出力してもよい。

　三次元モデル生成部２０４は、入力部２０１より得られる多視点画像群（複数の入力画像２１１）と、カメラパラメータ推定部２０３より得られるカメラパラメータ２１３とを用いて、被写体１００の三次元モデル２１４を生成し、出力部２０５に三次元モデル２１４を出力する。ここで、三次元モデル２１４とは、（１）三次元位置情報、色情報、及び勾配情報などをもつ点からなるポイントクラウドモデル、（２）上記ポイントクラウドモデルが持つ情報に加えてポイントクラウド内の各点間の接続関係情報をもつメッシュモデル、又は、（３）三次元空間を一定間隔で分割し、分割された小空間（ボクセル）内の色情報、勾配情報、点の有無情報などをもつボクセルモデルなどである。

　三次元モデル生成にはマルチステレオマッチング法又は視体積交差法など一般的な三次元モデル生成法を利用可能である。マルチステレオマッチング法を用いる場合、三次元モデル生成部２０４は、各フレームの各画素に対してマッチング点を検出し、各マッチング点とカメラの中心座標とを通る直線が交差する点にマッチング点を投影することにより、被写体の三次元モデルを生成する。なお、三次元モデル生成部２０４は、マッチング点を検出する際、カメラパラメータ推定部２０３から得られる三次元点群情報にあるマッチング情報を利用し、マッチング点の検出にかかる処理量を削減してもよい。

　また、三次元モデル生成部２０４は、図４のようにカメラパラメータ推定部２０３から得られる三次元点群情報にあるマッチング点の三次元座標から、十分な密度で三次元点が計算されているマッチング点の密度が高い領域と、十分な密度で三次元点が計算されていないマッチング点の密度が低い領域とを検出し、マッチング点の密度が高い領域に対応する画素ではマッチング点の検出処理又はマッチング点の投影処理をスキップしてもよい。これにより、三次元モデル生成部２０４は、マッチング点の検出処理又はマッチング点の投影処理に要する処理量を削減することが可能である。

　視体積交差法を用いる場合、三次元モデル生成部２０４は、各入力画像２１１内の被写体のシルエットを三次元空間に投影し、各投影による視体積の共通部分を三次元モデルとする。または、三次元モデル生成部２０４は、三次元空間のボクセルを各入力画像２１１に逆投影し、逆投影した点が各入力画像２１１内の被写体のシルエットの内部にあるボクセルだけを残し、三次元モデルとする。視体積交差法で必要とされる被写体のシルエットは、事前に撮影した背景画像と入力画像との差分をとることにより抽出できる。また、三次元モデル生成部２０４は、変換画像生成部２０２でフィルタを選択した際に利用する物体の領域情報又はカメラパラメータ推定部２０３から得られる三次元点群情報又は物体認識情報を利用して、被写体のシルエットを抽出してもよい。

　このように、三次元モデル生成部２０４は、カメラ１０１で撮影されるオリジナル解像度の入力画像２１１の全画素を利用して三次元モデル２１４を生成することで、解像度の高い三次元モデル２１４を生成できる。

　出力部２０５は、三次元モデル２１４を受け取ると、三次元モデル２１４を三次元モデル生成装置２００が備えるディスプレイ或いは記憶媒体、又は、有線或いは無線を介して接続されるディスプレイ或いは記憶媒体に表示又は記憶することにより、三次元モデル２１４をエンドユーザ３００に配信する。なお、出力部２０５は、三次元モデル２１４をネットワーク経由でエンドユーザ３００の端末上の画面又は記憶媒体に配信してもよい。また、三次元モデル２１４を配信する際には、出力部２０５は、三次元モデル２１４を可逆又は非可逆圧縮することで、伝送容量及び記憶容量を抑制してもよい。また三次元モデル２１４をディスプレイ又はエンドユーザ３００の端末上の画面に表示する際には、出力部２０５は、三次元モデルをレンダリングし、三次元モデルを任意の視点から見た二次元画像に変換し、当該二次元画像を配信し表示してもよい。また、出力部２０５は、三次元モデル２１４をホログラム又は三次元ディスプレイなどに表示してもよい。また出力部２０５は、三次元モデル２１４の点の密度情報などから三次元モデル２１４において解像度が足りない領域を検出し、その領域を撮影することができる視点を欠損視点としてエンドユーザ３００に提示してもよい。

　エンドユーザ３００は、ディスプレイ又は端末上の画面でレンダリングされた二次元画像を確認する際、マウス操作又はタッチ操作により画像のズームイン、ズームアウト、又は視点の方向変換等の操作をすることが可能である。これにより、エンドユーザ３００は、三次元モデル２１４を３６０度あらゆる視点から確認できる。エンドユーザ３００は出力部２０５による欠損視点の提示又は三次元モデルの目視による確認により、不足している視点からの映像を三次元モデル生成装置２００に入力し、再度三次元モデルが作成されてもよい。

　次に、図５を用いて、本実施の形態における三次元モデル生成システムの処理フローの例を説明する。以降では動く人物を３つのカメラＣ１、Ｃ２、Ｃ３で撮影し得られた映像Ｖ１、Ｖ２、Ｖ３が入力部２０１に入力される場合について説明する。

　まず、入力部２０１が映像Ｖ１、Ｖ２、Ｖ３に対して前処理を行い、映像Ｖ１、Ｖ２、Ｖ３をフレーム（入力画像２１１）にそれぞれ分割する（ステップＳ１１）。ここでは例として映像Ｖ１、Ｖ２、Ｖ３はそれぞれ５枚のフレームＶ１＿１～Ｖ１＿５、Ｖ２＿１～Ｖ２＿５、Ｖ３＿１～Ｖ３＿５に分割される。

　その後、入力部２０１は、図６に示すようにそれぞれの映像から同時刻に撮影されたフレームを抽出し、抽出した同時刻に撮影された複数のフレームを一つの多視点画像群と決定し、それぞれの多視点画像群をバッファに格納する（ステップＳ１２）。ここでは、入力部２０１は、各フレームに付与されている撮影時間が同時刻であるフレームを抽出する。例えば、入力部２０１は、多視点画像群としてＶ１＿１、Ｖ２＿１を抽出する。また、映像間で同時刻であるフレームがない場合、入力部２０１は、図６のＶ１＿１とＶ２＿１とＶ３＿２とのように、撮影時刻が最も近いフレームを多視点画像群に含めてもよい。

　変換画像生成部２０２は、バッファに一以上の多視点画像群が格納されると、バッファから撮影時刻が最も早い多視点画像群を取り出す（ステップＳ１３）。次に、変換画像生成部２０２は、多視点画像群を構成する各フレーム（Ｖ１＿１、Ｖ２＿１、Ｖ３＿２）に対してフィルタを決定する（ステップＳ１４）。フィルタはフレームの画像情報、撮影状況又は事前のユーザ指定により決定される。例えば、フレームＶ１＿１において特徴点が多く抽出されそうな人物がフレーム中央に検出され、かつ、フレームＶ１＿１にレンズ歪み情報が付与されている場合、変換画像生成部２０２は、フレーム中央で特徴点を検出する図２Ａに示すフィルタを選択する。また、フレームＶ２＿１では、フレームＶ１＿１と同様に人物がフレーム中央に検出されるが、レンズ歪み情報が付与されておらず推定する必要がある場合、変換画像生成部２０２は広範囲で特徴点を検出する図２Ｆに示すフィルタなどを選択する。レンズ歪みの影響はフレームの外側の画素に大きくでるため、レンズ歪みの推定にはフレーム外側の特徴点が検出できるフィルタが有効である。またフレームＶ３＿２は人物がフレーム全体に検出されており、変換画像生成部２０２はフレーム上の広範囲から特徴点を検出できる図２Ｈのフィルタを選択する。

　次に、変換画像生成部２０２は、決定したフィルタを用いて各フレームの変換画像２１２を生成する（ステップＳ１５）。

　続いて、カメラパラメータ推定部２０３は、多視点画像群を構成する各フレーム（Ｖ１＿１、Ｖ２＿１、Ｖ３＿２）の変換画像２１２に対して特徴点を検出し、特徴点情報を抽出する（ステップＳ１６）。

　このように、それぞれのフレームでの特徴点の探索及び検出はそれぞれステップＳ１４で決定したフィルタの白領域のみで実施される。これによりカメラパラメータに有用な特徴点の検出を低処理、及び低記憶容量で実施できる。

　その後、カメラパラメータ推定部２０３は、２フレーム間の特徴点情報を比較することでマッチング点を検出し、マッチング点を示すマッチング情報を生成する（ステップＳ１７）。

　マッチング情報が得られると、カメラパラメータ推定部２０３は、エピポーラ制約などの幾何学的制約又はバンドル調整などの非線形最適化手法を基に、多視点画像群を構成する各フレームのカメラパラメータ２１３を推定する（ステップＳ１８）。

　最後に、三次元モデル生成部２０４は、多視点画像群を構成する各フレーム（入力画像２１１）と各フレームに対応するカメラパラメータ２１３とに基づき被写体の三次元モデル２１４を生成し、当該三次元モデル２１４を記憶媒体に格納又はディスプレイに表示する（ステップＳ１９）。

　全ての多視点画像群に対する処理が終了していない場合（ステップＳ２０でＮｏ）、次の多視点画像群がバッファから取り出され（ステップＳ１３）、当該多視点画像群に対してステップＳ１４以降の処理が行われる。また、全ての多視点画像群に対する処理が終了した場合（ステップＳ２０でＹｅｓ）、三次元モデル生成装置２００は、処理を終了する。

　なお、２週目以降カメラＣ１、Ｃ２、Ｃ３についてカメラパラメータが前回の値から変化がないと判断されたカメラ１０１で撮影された入力画像２１１に対してはステップＳ１４～Ｓ１８の処理を省略してもよい。カメラパラメータが前回の値から変化しているかは、例えば、カメラ１０１に搭載されている振動センサー、ＧＰＳセンサー及び加速度センサーの少なくとも一つを利用してカメラ１０１の動きを検知することにより判断できる。または、画像情報を利用してカメラ１０１の動き又はズームの変化を検知することによりカメラパラメータの変化の有無を判断してもよい。または、固定カメラの場合には、カメラパラメータは変化しないと判断してもよい。これにより、カメラ１０１が動いたとき、又は焦点距離が変化したとき、カメラパラメータを推定し直すため、効率よく三次元モデルを推定できる。

　上記の処理により、撮影時刻毎の三次元モデル２１４が生成される。これを時刻の早い順にディスプレイに表示することにより動物体の三次元モデルを映像として表示することも可能である。また、エンドユーザ３００は、ステップＳ１９又はステップＳ２０でＹｅｓの後に表示された三次元モデル２１４を確認し、エンドユーザ３００により三次元モデル２１４の解像度が足りてないと判断された場合、三次元モデル生成装置２００は、不足している視点からの映像データ１１１を取得し、再度三次元モデル２１４を作成してもよい。

　このように、本実施の形態における三次元モデル生成システムによれば、各フレーム上の特徴点の探索、検出、及び特徴点情報の抽出の際にフィルタを利用することで、アクセス及び記憶する画素データを削減することができ、カメラパラメータ推定に要する処理量及び記憶容量を削減することができる。一方、三次元モデルを生成する際は各フレームの全画素を利用することが可能であるため、高解像度の三次元モデルを生成することができる。また、撮影時刻が同一である複数のフレームを一つの多視点画像群とし三次元モデルを生成するため、被写体１００が静止物体、動物体、又はその両方であっても被写体１００の三次元モデルを生成することができる。上記では、一定区間の映像データ１１１が三次元モデル生成装置２００に入力される例を説明したが、カメラ１０１から１フレーム撮影される度に映像データ１１１が入力されてもよい。

　（実施の形態２）
　次に、実施の形態２に係る三次元モデル生成システムの構成を説明する。図７は、本実施形態に係る三次元モデル生成システムの構成を示す図である。図７に示すように、本実施の形態では、被写体１００Ａは静止物体である。また、被写体１００Ａは１台のカメラ１０１により撮影される。また、カメラ１０１は、位置（視点位置）を変更しながら、被写体１００Ａを撮影する。なお、カメラ１０１は、実施の形態１と同様に複数台であってもよい。また、三次元モデル生成装置２００Ａの処理内容が実施の形態１と異なる。なお、以下では、先の実施の形態との相違点を主に説明し、重複する説明は省略する。

　三次元モデル生成装置２００Ａは、実施の形態１に係る三次元モデル生成装置２００に対して、主に入力部２０１の動作が異なる。具体的には、多視点画像群の抽出方法が異なる。

　入力部２０１は、１以上の映像データ１１１を受け取ると、１以上の映像データ１１１に対して、実施の形態１と同様に前処理を行う。次に、入力部２０１は、前処理の後、１以上の映像データ１１１それぞれをフレームである入力画像２１１に分割し、そこから一定数の入力画像２１１を抽出し、抽出した複数の入力画像２１１の組である多視点画像群を変換画像生成部２０２及び三次元モデル生成部２０４に出力する。

　ここで、入力部２０１は、一定数の入力画像２１１の抽出に、画像情報を利用し異なる視点からの入力画像２１１を抽出したり、映像それぞれから一定間隔で入力画像２１１を抽出したり、カメラ１０１に内蔵されているＧＰＳセンサー、又は加速度センサーなどを利用し一定以上距離が離れた視点から撮られた入力画像２１１を抽出する。なお、入力部２０１は、全ての入力画像２１１を多視点画像群として抽出してもよい。

　図８は、本実施の形態に係る三次元モデル生成システムの処理フローを示す図である。以降では静止物体である建物を１つのカメラＣ４により多視点から撮影し得られた映像Ｖ４が入力部２０１に入力される場合について説明する。

　まず、入力部２０１は、映像Ｖ４に対して前処理を行い、前処理後の映像Ｖ４をフレーム（入力画像２１１）分割する（ステップＳ１１）。ここでは例として映像Ｖ４は１０枚のフレームＶ４＿１～Ｖ４＿１０に分割される。その後、入力部２０１は、図９に示すように分割された入力画像２１１から一定間隔の撮影時刻に基づき、Ｖ４＿１、Ｖ４＿３、Ｖ４＿５、Ｖ４＿７及びＶ４＿９を選択し、選択した複数の入力画像２１１を多視点画像群に決定する（ステップＳ１２Ａ）。なお、入力部２０１は、各入力画像２１１が撮影された際のカメラの位置又は姿勢に基づき、入力画像２１１を選択してもよい。

　なお、以降のステップＳ１４～Ｓ１９は、実施の形態１と同様である。また、実施の形態１と同様に、エンドユーザ３００は、ステップＳ１９の後に表示された三次元モデル２１４を確認し、エンドユーザ３００により三次元モデル２１４の解像度が足りてないと判断された場合、三次元モデル生成装置２００Ａは不足している視点からの映像データ１１１を取得し、再度三次元モデル２１４を作成してもよい。

　このように、本実施の形態における三次元モデル生成システムによれば、被写体１００Ａを静止物体に限定することにより、各カメラ１０１間の同期撮影システム及び同時刻に撮影されたフレームの抽出処理などが必要なくなるため、高解像度の三次元モデルをより少ない処理量、及びより安価に生成することができる。

　（実施の形態３）
　実施の形態１では、フィルタを用いて変換画像２１２を生成する例を述べた。本実施の形態では、ダウンサンプリングにより変換画像２１２Ｂを生成する場合について説明する。

　まず、実施の形態３に係る三次元モデル生成システムの構成を説明する。図１０は、本実施の形態に係る三次元モデル生成システムの構成を示す図である。図１０に示す三次元モデル生成システムは、実施の形態１に係る三次元モデル生成システムに対して、三次元モデル生成装置２００Ｂが備える変換画像生成部２０２Ｂ及びカメラパラメータ推定部２０３Ｂの機能が異なる。

　変換画像生成部２０２Ｂは、入力部２０１から多視点画像群を受け取ると、多視点画像群を構成する各入力画像２１１を特定の縮小倍率でダウンサンプリングすることで変換画像２１２Ｂを生成する。また、変換画像生成部２０２Ｂは、生成された変換画像２１２Ｂと、ダウンサンプリングに利用した縮小倍率とをカメラパラメータ推定部２０３に出力する。ここで、ダウンサンプリングとは、元の入力画像２１１より解像度の低い変換画像２１２Ｂを生成する処理であり、例えば、画素を間引く処理、又は、周辺画素の平均値を算出するフィルタ等を用いて画素数を減らす処理等である。

　なお、ダウンサンプリングする際の縮小倍率は事前に設定されていてもよいし、変換画像２１２Ｂが事前に設定した解像度になるように設定されてもよい。または、変換画像生成部２０２Ｂは、画像情報に基づき縮小倍率を設定してもよい。例えば、物体が多く移りこんでいる入力画像２１１又は空間周波数が高い入力画像２１１などは特徴点を多く抽出可能であるため、変換画像生成部２０２Ｂは、このような入力画像２１１に対して縮小倍率を高く設定してもよい。これにより、特徴点のマッチングを行いやすい入力画像２１１に対しては縮小倍率を上げることで、カメラパラメータ推定の精度の低下を抑制しつつ、処理量をより低減できる。また、変換画像生成部２０２Ｂは、縮小倍率を入力画像２１１毎に設定してもよいし、全ての入力画像２１１に対して同じ縮小倍率を用いてもよい。

　カメラパラメータ推定部２０３Ｂは、多視点画像群の変換画像２１２Ｂと縮小倍率とを受け取ると、各変換画像２１２Ｂから、実施の形態１と同様に特徴点情報を抽出し、各変換画像２１２Ｂ間でのマッチング情報を基に各変換画像２１２Ｂに対するカメラパラメータを推定する。なお、カメラパラメータの一つである、ピクセル単位の焦点距離は画像の解像度によって変化するため、変換画像２１２Ｂを利用して推定したピクセル単位の焦点距離を、縮小前の入力画像２１１に対するピクセル単位の焦点距離に修正する必要がある。よって、カメラパラメータ推定部２０３Ｂは、変換画像２１２Ｂを用いて推定したカメラパラメータを、ダウンサンプリングにおける縮小倍率に基づき修正する。具体的には、カメラパラメータ推定部２０３Ｂは、ピクセル単位の焦点距離は下記の（式１）により修正する。

　　ｆ’＝ｆｋ　・・・（式１）

　ここで、ｆ’は修正されたピクセル単位の焦点距離であり、ｆは変換画像２１２Ｂを利用して推定されたピクセル単位の焦点距離であり、ｋは縮小倍率である。カメラパラメータ推定部２０３Ｂは、ピクセル単位の焦点距離が修正された後のカメラパラメータ２１３Ｂを三次元モデル生成部２０４に出力する。三次元モデル生成部２０４は、修正されたカメラパラメータ２１３Ｂと複数の入力画像２１１とを用いて三次元モデル２１４を生成する。

　次に、図１１を用いて、本実施の形態における三次元モデル生成システムの処理フローの例を説明する。なお、図１１に示す処理は、図５に示す処理に対して、ステップＳ１４及びＳ１５がＳ１５Ａに置き換えられている点と、ステップＳ２１が追加されている点とが異なる。また、以降では実施の形態１と同様に、動く人物を３つのカメラＣ５、Ｃ６、Ｃ７で撮影し得られた映像Ｖ５、Ｖ６、Ｖ７が入力部２０１に入力される場合について説明する。

　ステップＳ１１～Ｓ１３は実施の形態１と同様であり、映像Ｖ５、Ｖ６、Ｖ７から得られたフレームＶ５＿１、Ｖ６＿１、Ｖ７＿１を含む多視点画像群がステップＳ１３で取り出される。変換画像生成部２０２Ｂは、多視点画像群を構成する各フレーム（Ｖ５＿１、Ｖ６＿１、Ｖ７＿１）それぞれに対してそれぞれの縮小倍率ｋ５、ｋ６、ｋ７を設定し、設定した縮小倍率を用いて各フレームをダウンサンプリングする（ステップＳ１５Ａ）。各フレーム（Ｖ５＿１、Ｖ６＿１、Ｖ７＿１）をダウンサンプリングしたフレームである変換画像２１２ＢをそれぞれＶ５＿１’、Ｖ６＿１’、Ｖ７＿１’とする。縮小倍率はフレームの画像情報、撮影状況又は事前のユーザ指定により決定される。ここではダウンサンプリング後の解像度が全フレームで同じとなるように縮小倍率ｋ５、ｋ６、ｋ７が設定される。

　続いて、カメラパラメータ推定部２０３Ｂは、多視点画像群を構成する各フレーム（Ｖ５＿１’、Ｖ６＿１’、Ｖ７＿１’）に対して特徴点を検出し、特徴点情報を抽出する（ステップＳ１６）。このように、特徴点の探索及び検出が、ステップＳ１５Ａでダウンサンプリングされたフレームに対して行われるためカメラパラメータに有用な特徴点の検出を低処理、及び低記憶容量で実施できる。ステップＳ１７、Ｓ１８は実施の形態１と同様である。

　次に、推定した各フレーム（Ｖ５＿１’、Ｖ６＿１’、Ｖ７＿１’）に対するカメラパラメータにピクセル単位の焦点距離が含まれる場合、カメラパラメータ推定部２０３Ｂは、上記（式１）によりピクセル単位の焦点距離を修正する（ステップＳ２１）。ステップＳ１９は実施の形態１と同様である。

　図１２は、上記処理を模式的に示す図である。図１２に示すように、本実施の形態における三次元モデル生成システムによれば、入力画像２１１をダウンサンプリングすることにより得られた変換画像２１２Ｂを用いて特徴点の探索、検出、及び特徴点情報の抽出が行われる。これにより、これらの処理においてアクセス及び記憶する画素データを削減することができ、カメラパラメータ推定に要する処理量及び記憶容量を削減することができる。

　一方で、ダウンサンプリング前の入力画像２１１を用いて三次元モデルの生成処理が行われるので、高解像度の三次元モデルを生成することができる。

　（実施の形態４）
　実施の形態１では、フィルタを用いて変換画像２１２を生成する例を述べた。本実施の形態では、フィルタを用いた変換画像２１２を生成せず、多視点画像群を構成する各入力画像２１１上の特徴点を検出する際に、入力画像２１１に対して探索する画素をフィルタを用いて制限する場合について説明する。

　まず、実施の形態４に係る三次元モデル生成システムの構成を説明する。図１３は、本実施の形態に係る三次元モデル生成システムの構成を示す図である。図１３に示す三次元モデル生成システムは、実施の形態１に係る三次元モデル生成システムに対して、変換画像生成部２０２の代わりにフィルタ生成部２０２Ｃを備え、カメラパラメータ推定部２０３Ｃの機能が異なる。

　フィルタ生成部２０２Ｃは、入力部２０１から多視点画像群を受け取ると、探索する領域を制限するフィルタを入力画像２１１毎に決定する。実施の形態１と同様に、フィルタは事前にユーザが指定してもよいし、画像情報又は撮影状況により自動的に決定されてもよい。フィルタ生成部２０２Ｃは、入力画像２１１と、入力画像２１１毎に決定されたフィルタとをカメラパラメータ推定部２０３Ｃに出力する。つまり、フィルタ生成部２０２Ｃは、１以上の映像データに含まれる、互いに視点の異なる複数の入力画像２１１の各々から、特徴点を検出する際に探索する画素を決定する。また、決定される、探索する画素の総数は入力画像２１１の画素数より少ない。

　カメラパラメータ推定部２０３Ｃは、入力画像２１１と、入力画像２１１毎に決定されたフィルタとを受け取ると、対応するフィルタに基づき各入力画像２１１から特徴点情報を抽出する。具体的には、決定されたフィルタが図２Ａ～図２Ｈに示すような二値画像である場合、カメラパラメータ推定部２０３Ｃは、特徴点の探索及び検出を、フィルタの画素値が１である画素と同じ画素位置にある入力画像２１１の画素のみに対して行う。また、フィルタが図３Ａ～図３Ｈに示すようなグレースケール画像である場合、カメラパラメータ推定部２０３Ｃは、特徴点の探索及び検出を、フィルタの画素値が０より大きい値を持つ画素と同じ画素位置にある入力画像２１１の画素のみに対して行い、検出した特徴点の数が所定の数より多い際はフィルタの画素値が小さい画素位置にある特徴点を削除し特徴点の数を所定の数以下にする。或いは、カメラパラメータ推定部２０３Ｃは、特徴点の探索及び検出を、フィルタの画素値が大きい画素と同じ画素位置にある入力画像２１１の画素から優先的に行い、所定の数の特徴点が検出された時点又はフィルタの画素値が０以外の画素と同じ画素位置にある入力画像２１１の画素を全て探索した時点で探索を終了する。

　特徴点情報を抽出後、カメラパラメータ推定部２０３Ｃは、各入力画像２１１間でのマッチング情報を基に各入力画像２１１に対するカメラパラメータ２１３Ｃを推定する。

　このように、カメラパラメータ推定部２０３Ｃは、複数の入力画像２１１の特徴点を、フィルタ生成部２０２Ｃで決定された、探索する画素から検出し、複数の入力画像２１１間で特徴点が類似する特徴点対に基づき、複数の入力画像２１１がそれぞれ撮影された際のカメラパラメータ２１３Ｃを推定する。例えば、フィルタ生成部２０２Ｃは、予め定められた複数の画素位置の画素を探索する画素として決定する。例えば、フィルタ生成部２０２Ｃは、さらに、複数の画素位置の各々に優先度を設定する。カメラパラメータ推定部２０３Ｃは、優先度が高い画素位置の画素を優先的に用いて、カメラパラメータ２１３Ｃを推定する。例えば、上記予め定められた複数の画素位置は、入力画像２１１の中央付近である。または、上記予め定められた複数の画素位置は、入力画像２１１の四隅の領域を含む。また、フィルタ生成部２０２Ｃは、映像の内容又は撮影状況に基づき、探索する画素を決定する。

　次に、図１４を用いて、本実施の形態における三次元モデル生成システムの処理フローの例を説明する。なお、図１４に示す処理は、図５に示す処理に対して、ステップＳ１５が削除されている点と、ステップＳ１６がＳ１６Ａに置き換えられている点とが異なる。また、以降では実施の形態１と同様に、動く人物を３つのカメラＣ８、Ｃ９、Ｃ１０で撮影し得られた映像Ｖ８、Ｖ９、Ｖ１０が入力部２０１に入力される場合について説明する。

　ステップＳ１１～Ｓ１４は実施の形態１と同様であり、映像Ｖ８、Ｖ９、Ｖ１０から得られたフレームＶ８＿１、Ｖ９＿１、Ｖ１０＿１を含む多視点画像群が取り出され（ステップＳ１３）、フィルタ生成部２０２Ｃは、多視点画像群を構成する各フレーム（Ｖ８＿１、Ｖ９＿１、Ｖ１０＿１）に対してフィルタを決定する（ステップＳ１４）。続いて、カメラパラメータ推定部２０３Ｃは、多視点画像群を構成する各フレーム（Ｖ８＿１、Ｖ９＿１、Ｖ１０＿１）に対して対応するフィルタに基づき特徴点を検出し、特徴点情報を抽出する（ステップＳ１６Ａ）。このように、特徴点の探索及び検出を行う画素が、ステップＳ１４で決定されたフィルタに基づき制限されるためカメラパラメータに有用な特徴点の検出を低処理、及び低記憶容量で実施できる。ステップＳ１７～Ｓ２０は実施の形態１と同様である。

　本実施の形態における三次元モデル生成システムによれば、入力画像２１１毎に決定されたフィルタに基づき特徴点の探索及び検出を行う入力画像２１１上の画素が限定される。これにより、これらの処理においてアクセス、及び記憶する特徴点情報を削減することができる。その結果、カメラパラメータ推定に要する処理量、及び記憶容量を削減することができる。

　以上、実施の形態に係る三次元モデル生成システムについて説明したが、本開示は、この実施の形態に限定されるものではない。

　また、上記実施の形態に係る三次元モデル生成装置に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

　また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　つまり、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

　また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

　以上、一つまたは複数の態様に係る・三次元モデル生成装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

　本開示は、三次元モデル生成装置又は三次元モデル生成システムに適用でき、例えば、フィギュア作成、地形或いは建物の構造認識、人物の行動認識、又は自由視点映像の生成などに適用できる。

　１００、１００Ａ　被写体
　１０１　カメラ
　１１１　映像データ
　２００、２００Ａ、２００Ｂ　三次元モデル生成装置
　２０１　入力部
　２０２、２０２Ｂ　変換画像生成部
　２０２Ｃ　フィルタ生成部
　２０３、２０３Ｂ、２０３Ｃ　カメラパラメータ推定部
　２０４　三次元モデル生成部
　２０５　出力部
　２１１　入力画像
　２１２、２１２Ｂ　変換画像
　２１３、２１３Ｂ、２１３Ｃ　カメラパラメータ
　２１４　三次元モデル
　３００　エンドユーザ

Claims

　１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成部と、
　複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、
　前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える
　三次元モデル生成装置。
　前記変換画像生成部は、前記入力画像内の予め定められた複数の画素位置の画素を抽出することで前記変換画像を生成する
　請求項１記載の三次元モデル生成装置。
　前記変換画像生成部は、さらに、前記複数の画素位置の各々に優先度を設定し、
　前記カメラパラメータ推定部は、前記優先度が高い画素位置の画素を優先的に用いて、前記カメラパラメータを推定する
　請求項２記載の三次元モデル生成装置。
　前記変換画像生成部は、前記映像の内容又は撮影状況に基づき、異なる画素位置の画素を抽出する
　請求項２又は３記載の三次元モデル生成装置。
　前記複数の画素位置は、前記入力画像の中央付近である
　請求項２又は３記載の三次元モデル生成装置。
　前記複数の画素位置は、前記入力画像の四隅の領域を含む
　請求項２又は３記載の三次元モデル生成装置。
　前記変換画像生成部は、前記入力画像をダウンサンプリングすることにより前記変換画像を生成する
　請求項１記載の三次元モデル生成装置。
　前記カメラパラメータ推定部は、前記変換画像を用いて推定したカメラパラメータを、前記ダウンサンプリングにおける縮小倍率に基づき修正し、
　前記三次元モデル生成部は、修正された前記カメラパラメータと前記複数の入力画像とを用いて前記三次元モデルを生成する
　請求項７記載の三次元モデル生成装置。
　１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成ステップと、
　複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定ステップと、
　前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成ステップとを含む
　三次元モデル生成方法。
　１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、特徴点を検出する際に探索する画素を決定するフィルタ生成部と、
　前記複数の入力画像の特徴点を前記探索する画素から検出し、前記複数の入力画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、
　前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える
　三次元モデル生成装置。
　前記探索する画素の総数は前記入力画像の画素数より少ない
　請求項１０記載の三次元モデル生成装置。
　前記フィルタ生成部は、予め定められた複数の画素位置の画素を前記探索する画素として決定する
　請求項１１記載の三次元モデル生成装置。
　前記フィルタ生成部は、さらに、前記複数の画素位置の各々に優先度を設定し、
　前記カメラパラメータ推定部は、前記優先度が高い画素位置の画素を優先的に用いて、前記カメラパラメータを推定する
　請求項１２記載の三次元モデル生成装置。
　前記複数の画素位置は、前記入力画像の中央付近である
　請求項１２又は１３記載の三次元モデル生成装置。
　前記複数の画素位置は、前記入力画像の四隅の領域を含む
　請求項１２又は１３記載の三次元モデル生成装置。
　前記フィルタ生成部は、前記映像の内容又は撮影状況に基づき、前記探索する画素を決定する
　請求項１１記載の三次元モデル生成装置。
　１以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、特徴点を検出する際に探索する画素を決定するフィルタ生成ステップと、
　前記複数の入力画像の特徴点を前記探索する画素から検出し、前記複数の入力画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定ステップと、
　前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成ステップと、を含む
　三次元モデル生成方法。