JP2023000111A

JP2023000111A - 三次元モデル復元装置、方法及びプログラム

Info

Publication number: JP2023000111A
Application number: JP2021100741A
Authority: JP
Inventors: 達也小林; Tatsuya Kobayashi
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2023-01-04
Anticipated expiration: 2041-06-17
Also published as: JP7518040B2

Abstract

【課題】ステレオマッチングで物体の視差画像を生成する際に予め当該物体の三次元形状を推定し、ステレオマッチングを行う画素を三次元物体形状の二次元投影領域近傍に制限すると共に各画素において探索する視差の範囲を三次元物体形状の表面近傍に制限する三次元モデル復元装置、方法及びプログラムを提供する。【解決手段】物体を異なる視点で撮影した複数のカメラ画像に基づいて当該物体の三次元モデルを復元する三次元モデル復元装置１において、三次元物体形状推定部１０は、複数のカメラ画像に基づいて物体の三次元形状を推定する。ステレオマッチング部２０は、カメラ毎に物体の三次元形状の推定結果を用いたステレオマッチングにより奥行画像を生成する。物体モデル生成部３０は、カメラ毎に生成した奥行画像を用いて物体の三次元モデルを復元する。【選択図】図１

Description

本発明は、カメラ画像に写る物体の三次元モデルを復元する装置、方法及びプログラムに係り、特に、カメラパラメータが較正済みの複数のカメラで物体を様々な方向から撮影した複数視点画像を用いて当該物体の三次元モデルを高速かつ低ノイズで復元する三次元モデル復元装置、方法及びプログラムに関する。

物体の二次元画像から三次元復元を行う手法は、物体にレーザーや光を投影することで復元を行う能動型の方式と通常のカメラ画像のみから復元を行う受動型の方式とに分類できる。

能動型の方式として、特許文献1にはドットパターンを物体に投影してステレオカメラで撮影し、ステレオマッチングで視差を求めることで三次元復元を行う方式が開示されている。特許文献2には深度センサを用いて物体の三次元復元を行う方式が開示されている。

受動型の方式として、物体の複数視点画像を用いて当該物体のシルエットを抽出し、SfS（Shape-from-Silhouette）法で三次元形状を求める方式が一般に知られている。特許文献3にはシルエット抽出が不正確な場合でも高精度な三次元形状を求められるようにSfSを改良し、複数のシルエット画像を大局的に評価することで三次元復元を行う方式が開示されている。

受動型の別の方式として、物体の複数視点画像（ステレオ画像）の間のステレオマッチングによって視差画像を生成し、視差画像の合成により三次元形状を求める方法も知られている。一般にステレオマッチングはSfS法と比較して、模様の少ない領域の復元精度が劣る傾向があるものの凹構造の復元が可能であり、解像度の向上に伴う復元精度向上が期待できる。また、形状の連続性を考慮に入れることで安定性を向上させることも可能である。

特許文献4にはランダム探索によって物体表面の法線方向を考慮したステレオマッチングを高速に行う、PatchMatch Stereo法（非特許文献1）を用いた三次元復元方式が開示されている。特許文献5にはステレオマッチングの際に、別の手段で抽出した被写体のシルエット情報を用いてマッチングの探索範囲をシルエット領域内に限定することで、マッチング時間を短縮する手法が提案されている。

特許文献6には、ステレオカメラと深度センサとを併用し、ステレオマッチングを行う各画素において探索する視差の範囲を深度センサで取得した深度値の近傍に制限することで、マッチング時間を短縮する手法が提案されている。

特開2020-71034号公報特開2014-67372号公報特開2013-25458号公報特開2018-181047号公報特開2000-331160号公報特開2009-47495号公報

M.Bleyer, C.Rhemann, C.Rother, "PatchMatch Stereo - Stereo Matching with Slanted Support Windows", The British Machine Vision Conference (BMVC), 2011

しかしながら、上記のいずれの方式であっても、カメラの種類や配置に柔軟性を持たせつつ、物体の三次元モデルを高速かつ高精度に復元することが困難であった。例えば、特許文献1，2は特殊なセンサの利用を前提としており、通常のRGBカメラを用いる装置には適用できない。

特許文献2が活用する深度センサには、物体の表面素材（一般に黒色領域で誤差が拡大）や領域（一般にエッジ付近で誤差が拡大）によって推定精度にばらつきが生じ得る。特許文献3が開示するSfSベースの方式は、カメラが物体の全周をほぼ均等間隔で取り囲むカメラ配置を前提としているため、カメラ配置の柔軟性に欠け、カメラ台数も多く必要となる。

特許文献4が開示するステレオマッチングベースの方式では処理速度やマッチングミスによるノイズが発生し得る。特許文献5が開示するシルエット情報を活用したステレオマッチングベースの方式ではステレオマッチングの精度がシルエット抽出精度に依存するため、シルエット抽出に欠損が生じた際に三次元モデルにも欠損が生じ得る。

特許文献6が開示する、深度センサを併用したステレオマッチングベースの方式では、ステレオマッチングの精度が深度センサの精度に依存するため、物体の表面素材や領域によって推定精度にばらつきが生じ得る。

本発明の目的は、上記の技術課題を解決し、ステレオマッチングで物体の視差画像を生成する際に予め当該物体の三次元形状を推定し、ステレオマッチングを行う画素を当該三次元物体形状の二次元投影領域近傍に制限するとともに、各画素において探索する視差の範囲を三次元物体形状の表面近傍に制限することで、ステレオカメラ以外に追加のカメラを必要としない三次元モデル復元装置、方法及びプログラムを提供することにある。

上記の目的を達成するために、本発明は、物体を異なる視点で撮影した複数のカメラ画像に基づいて当該物体の三次元モデルを復元する三次元モデル復元装置において、以下の構成を具備した点に特徴がある。

(1)複数のカメラ画像に基づいて物体の三次元形状を推定する手段と、カメラごとに前記物体の三次元形状の推定結果を用いたステレオマッチングにより奥行画像を生成する手段とを具備し、カメラごとに生成した奥行画像を用いて物体の三次元モデルを復元するようにした。

(2)奥行画像を生成する手段が、カメラごとに当該カメラ画像および前記物体の三次元形状の推定結果に基づいて、当該カメラ画像を基準画像とするときの参照画像を他のカメラ画像の中から選択する手段を具備し、カメラごとに当該カメラ画像を基準画像として、前記選択した参照画像との間でステレオマッチングを行って奥行画像を生成するようにした。

(3)奥行画像を生成する手段は、物体の三次元形状に基づいてステレオマッチングの基準画像における物体領域を特定し、ステレオマッチングの探索範囲を物体領域に制限するようにした。

(4)奥行画像を生成する手段が、カメラごとに当該カメラのカメラパラメータを用いて前記物体の三次元形状の推定結果を物体視差画像に変換する手段を具備し、ステレオマッチングにおいて注目する基準画像の画素ごとに、物体視差画像の推定結果に基づいて、参照画像における対応画素の探索範囲を制限するようにした。

(1)カメラごとに物体の三次元形状の推定結果を用いたステレオマッチングにより奥行画像を生成するので、柔軟なカメラ配置で校正済みのカメラで物体を様々な方向から撮影した複数視点画像からノイズの少ない三次元モデルを高速に復元できるようになる。

(2)参照画像を物体の三次元形状に基づいて選択するので、少ない計算コストで見え方が近い画像をステレオペアとして選択することが可能となり、三次元復元精度を向上させることができるようになる。

(3)ステレオマッチングにおける画素の探索範囲を物体の三次元形状に基づいて選択するので、誤って必要な領域をマッチング範囲から除外してしまうことによる精度劣化を抑制できるようになる。

(4)ステレオマッチングにおける画素の探索範囲を物体の表面近傍に制限できるので、品質向上と処理負荷低減を実現できるようになる。

本発明の第1実施形態に係る三次元モデル復元装置の機能ブロック図である。物体の三次元形状を推定する第1の方法を模式的に示した図である。物体の三次元形状を推定する第２の方法を模式的に示した図である。物体の三次元形状を推定する第３の方法を模式的に示した図である。 2台のカメラで複数の物体の三次元形状を推定する方法を示した図である。 3台のカメラで複数の物体の三次元形状を推定する方法を示した図である。多視点のステレオマッチングの例を示した図である。カメラごとに三次元物体形状の関節点座標の相違度に基づいて参照画像を選択する方法を模式的に示した図である。基準画像の全画素について、復元対象のボクセル空間の大きさに応じた視差の範囲内でウィンドウマッチングを行う例を示した図である。物体が映っていないウィンドウのマッチングを省略することでマッチングの処理負荷を軽減する例を示した図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の第1実施形態に係る三次元モデル復元装置1の構成を示した機能ブロック図であり、三次元物体形状推定部10、ステレオマッチング部20および物体モデル生成部30を主要な構成としている。

このような三次元モデル復元装置１は、汎用の少なくとも一台のコンピュータやサーバに各機能を実現するアプリケーション（プログラム）を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。

三次元物体形状推定部10は、視点の異なる複数のカメラ画像（複数視点画像）を入力として、各カメラ画像に含まれる物体の三次元形状を大まかに推定し、推定結果をステレオマッチング部20へ出力する。本実施形態では、物体を包含する三次元空間中の三次元モデルとして、ソリッドモデル、メッシュ（サーフェス）モデル、ワイヤフレームモデル等の形状が推定される。

前記三次元物体形状推定部10はあらゆる三次元形状のモデルを推定できるが、本実施形態では三次元形状がメッシュモデル（頂点・線分・面の情報で物体表面を表現した三次元モデル）である場合を例にして説明する。

また、本発明はあらゆる物体（人物の全身、人物の顔や上半身等の部分領域、犬・猫等の動物、車や家具などの人工物など）のモデル復元に適用できるが、本実施形態では人物形状の復元を例にして説明する。

前記三次元物体形状推定部10は位置姿勢推定部101および三次元形状推定部102を具備し、カメラ画像に映る物体の三次元形状を大まかに推定する。前記位置姿勢推定部101は、カメラごとにそのカメラ画像に基づいて物体の位置姿勢を推定する。三次元形状推定部102は、カメラごとに推定した位置姿勢に基づいて物体の三次元形状をただ一つ推定する。三次元形状の推定方法として、例えば以下の3種類の方法を採用できる。

(1)第1の推定方法
図2に示すように、初めに各カメラ画像から物体を包含する矩形領域を検出し、矩形領域の中心位置の二次元座標を得る。次いで、各カメラ画像の二次元座標を三角測量によって三次元座標に逆投影し、物体中心の三次元位置を得る。三角測量は二次元座標のペアから行うことが可能であるため、カメラ画像が3枚以上存在する場合はペアの組み合わせごとに三次元位置を算出し、複数の三次元位置の平均値で三次元位置を代表させても良い。最後に、物体中心の三次元位置を中心に物体形状を包含するように予め設計した物体近似三次元モデルを配置し、これを三次元物体形状とする。

物体の矩形領域は、コンピュータビジョンの領域で一般に利用されているR-CNNやYOLO、SSD等の任意のアルゴリズムで検出できる。物体近似三次元モデルとしては角柱モデルや円柱モデル等が利用可能である。

(2)第２の方法
図3に示すように、初めに各カメラ画像から予め定義された物体の関節点の位置を推定（姿勢推定）し、各関節点を三角測量によって三次元座標に逆投影する。次いで、各関節点の三次元座標を中心に物体の各部分領域の近似三次元モデル（物体の部分領域を包含するように予め設計）を配置し、これを三次元物体形状とする。

物体の姿勢は、コンピュータビジョンの領域で一般に利用されているOpenPose等の任意のアルゴリズムで推定できる。物体の各部分領域の近似三次元モデルとしては角柱モデルや円柱モデル等が利用可能である。

(3)第3の方法
図4に示すように、初めに物体のパラメトリックモデルを利用して、カメラごとにその画像からパラメトリックモデルのパラメータを推定する様に学習された識別器を利用して、カメラ画像ごとに物体の三次元姿勢および三次元物体形状を同時に推定する。そして、カメラ画像ごとに推定した三次元姿勢および三次元物体形状を平均化するなどして一つの三次元姿勢および三次元物体形状に統合し、これを出力とする。あるいは、複数のカメラ画像からパラメトリックモデルのパラメータを推定するように学習した識別器を利用して、当該物体の三次元姿勢および三次元物体形状を同時に推定し、これを出力としても良い。

ここで、物体のパラメトリックモデルとは、物体の三次元姿勢をパラメータとして物体の三次元形状モデルを表現することが可能なメッシュモデルのことであり、人物モデルの場合はSMPL（Skinned Multi-Person Linear model）が一般に用いられる。SMPLは6890点の頂点で表現される三次元人物形状モデルを、72次元の姿勢パラメータθおよび10次元の体型パラメータβで制御することが可能である。例えば、SPIN（SMPL oPtimization IN the loop）等の方式によって、画像を入力としてθおよびβを推定することが可能であり、当該θおよびβから三次元人物形状が求められる。

なお、上記の説明では各カメラ画像中に物体が1つのみ写っている場合を想定しているが、図5に示すように、複数の物体が写っている場合についても同様に適用できる。ただし、カメラが2台のみ存在する場合においては、画像間で同一物体の識別（対応付け）を行わないと、三角測量を行う点（第1の方法では物体中心、第2の方法では各関節点）のペアを特定することができない。

ここで、各カメラ画像間で画像特徴の類似度等の尺度で同一の物体の対応付けを行うことで三角測量を行う点のペアを特定することが可能になる。カメラが3台以上存在するシステム構成の場合は2台の場合と同じ方法で同一物体の対応付けを行うことで三角測量を行っても良いし、図6に示すように、一般に「三眼視」と呼ばれる、カメラ3台の情報を用いた三角測量を用いることで、画像間の同一物体の識別を行うことなく幾何学的処理のみにより物体中心や各関節点の三次元位置を特定するようにしても良い。

ステレオマッチング部20は、視点の異なるN枚のカメラ画像および三次元物体形状の推定結果（撮影シーン中にM個の物体が存在する場合は計M個）を用いて、カメラ画像間のステレオマッチングにより各カメラ画像に対応するN枚の視差画像を生成し、更に視差画像を用いて奥行画像を生成する。生成したN枚の奥行画像は物体モデル生成部30へ出力される。

ステレオマッチングの処理は、一般に視差画像を求めたい画像（基準画像）とマッチングに使用する参照画像とをステレオペアとして選択し、カメラパラメータを用いた画像平行化（Stereo Rectification）およびウィンドウマッチングの2ステップの処理によって視差画像を生成する。

基準画像に対して参照画像は1枚でも複数枚（多視点のステレオマッチング）でも良い。参照画像が2枚の場合、図7に示すように、基準画像は2枚の参照画像に対してウィンドウマッチングを行うことで、より高精度な視差画像を生成できる。

参照画像は、カメラ画像ごとに他のカメラ画像（候補画像）の中から基準画像と撮影領域のオーバーラップが大きい順に選択することが望ましい。単純な方法として、基準画像の撮影方向rbと各候補画像の撮影方向rcとの角度差Δθを次式(1)で計算し、角度差Δθがより小さい候補画像を参照画像として優先的に選択する方法がある。

また、基準画像と各候補画像との間で特徴点マッチングを行い、より多くの対応点が得られた候補画像を参照画像として優先的に選択するようにしても良い。

本実施形態では、ステレオマッチング部20が参照画像選択部201を具備し、カメラごとにそのカメラ画像および前記三次元物体形状の推定結果に基づいて他のカメラ画像の中から参照画像を選択する。

前記参照画像選択部201は、カメラごとに前記推定した三次元物体形状の各頂点V（=[[x1, y1, z1]，[x2, y2, z2]，…]）を当該カメラのカメラパラメータを用いてそのカメラ画像に二次元投影して二次元投影点P（=[[u1, v1]，[u2, v2]…]）を求める。そして、カメラごとにそのカメラ画像（基準画像）における三次元物体形状の二次元投影点Pbと他のカメラのカメラ画像（候補画像）における三次元物体形状の二次元投影点Pcとの間の相違度（例えばプロクラステス距離）d^p(Pb，Pc)を算出し、相違度がより小さい少なくとも一つの候補画像を参照画像として選択する。

このように、本実施形態ではステレオマッチング部20が参照画像選択部201を具備し、カメラごとに三次元物体形状の推定結果を考慮して、各カメラ画像を基準画像としたときの参照画像を選択するので、実際の見え方が近い、すなわちオーバーラップする領域がより大きい画像をステレオペアとして選択することが可能となり、結果として三次元復元精度を向上させることができる。

なお、本発明においてカメラごとに三次元物体形状を考慮して参照画像を選択する方法は上記の手法に限定されない。例えば図8に示すように、三次元物体形状推定部10が推定した三次元物体形状の各頂点Vを、カメラごとにそのカメラパラメータを用いて当該カメラのカメラ画像に二次元投影することで、その姿勢推定の指標となる各関節点の二次元座標群P'（=[[u'1, v'1], [u'2, v'2], ….]）として取得することができる。

そして、カメラごとにそのカメラ画像における物体の姿勢P'bと他の候補画像における物体の姿勢P'cとの相違度d^p(P'b，P'c)を算出し、相違度がより小さい候補画像をカメラごとに優先的に参照画像として選択しても良い。図８の例では、d^p (P₁，P₂）＜d^p (P₁，P₃) となるため、候補画像cam2が参照画像として選択されることになる。これにより、より少ない計算コストで見え方が近い画像をステレオペアとして選択することが可能になる。

このとき、各相違度d^pに所定の閾値（第1の閾値）を設定し、相違度d^pが第1の閾値を下回る全ての候補画像を参照画像として選択し、多視点のステレオマッチングを行うようにしても良い。一般に、オーバーラップ領域の少ないステレオペアが含まれるとノイズが増加することが起こり得るが、このような多視点のステレオマッチングを採用すれば、画像間のオーバーラップ領域の大きさが不均一な入力画像群に対して参照画像の枚数を自動的に調整できるので、ノイズの少ない三次元復元を行うことが可能となる。

一方、奥行（撮影距離）に対して基線長（カメラ間距離）が極端に短いと視差推定の精度が劣化することがある。一般に基線長と前記各相違度d^pとの間には正の相関があり、基線長が短いほど相違度d^pが小さくなる傾向にある。そこで、本実施形態では視差推定の精度を劣化させるほどに基線長が短くなるカメラを排除する閾値として、前記第1の閾値を下回る第2の閾値を設定し、相違度d^pが第2の閾値を上回る候補画像の中から相違度がより小さい候補画像を参照画像として優先的に選択するようにしても良い。

あるいは、相違度d^pが第2の閾値を上回り、かつ第1の閾値を下回る全ての候補画像を参照画像として選択し、多視点のステレオマッチングを行っても良い。これにより、基線長不足が原因で視差推定精度が劣化する問題を回避しつつ、実際の見え方が近い画像をステレオペアとして選択することが可能になり、結果として三次元復元精度を向上させることが可能になる。

上記の各処理で参照画像が選択されると、ステレオマッチング部20はカメラごとに基準画像と各参照画像との間でウィンドウマッチングを行う。ウィンドウマッチングでは、基準画像の全画素について、図9に示すように、復元対象のボクセル空間の大きさに応じた視差の範囲内で参照画像との間でウィンドウ領域のマッチングを行い、マッチングの移動距離から視差を算出する。なお、マッチング関数としてはSSDやNCCが一般に用いられる。

本実施形態では、ステレオマッチングの処理負荷を軽減するために、ステレオマッチング部20が探索範囲制限部202を具備し、図10に示すように、三次元物体形状の情報に基づいて、物体が映っていないウィンドウのマッチングを省略することでマッチングの処理負荷を軽減する。

前記探索範囲制限部202は、各カメラに共通する三次元物体形状の推定結果をカメラごとにそのカメラパラメータを用いてカメラ画像（基準画像）に二次元投影することで基準画像中の物体領域を特定し、ウィンドウの中心座標が当該物体領域外であるとマッチング処理をスキップすることで処理負荷を軽減する。

マッチング範囲を削減する処理自体は特許文献5等にも開示されるが、本実施形態ではマッチングの探索範囲を決定する参照情報として三次元物体形状の二次元投影像を用いる点に特徴がある。

復元する物体の一般的形状に関する事前知識なしに物体領域（シルエット）をノイズに対して頑健に推定することは一般に困難である。しかしながら、本実施形態では三次元物体形状の二次元投影像を用いて物体領域を識別するので、誤って必要な領域をマッチング範囲から除外してしまうことによる精度劣化を抑制できる。

ただし、物体領域が参照画像中の物体を真に包含しているとは限らないため、上記の処理によって復元精度が劣化する可能性も否定できない。そこで、本実施形態では物体領域を2値画像（領域内を1、領域外を0とする）に変換し、当該2値画像に膨張（Erode）フィルタ処理することによって二次元投影像の領域を拡張する。そして、当該膨張後の領域に基づいてマッチング処理をスキップするか否かを判断することで物体の欠損を抑制するようにしている。

なお、ステレオマッチングの処理負荷はボクセル空間の奥行幅（視差の範囲）の大きさに比例して増加する。更に、視差の範囲が広くなるほど誤マッチングのリスクが上昇し、三次元モデルの復元精度が劣化する点も問題になる。そこで、本実施形態では前記探索範囲制限部202が、推定した三次元物体形状の情報に基づいて、ウィンドウマッチングにおいて探索する視差の範囲を制限することで処理負荷の低減と精度向上を同時に実現する。

本実施形態では、カメラごとに三次元物体形状の推定結果が当該カメラのカメラパラメータを用いて基準画像の視差画像（物体視差画像）に変換され、基準画像の各画素を参照画像の各画素とウィンドウマッチングする際に、物体視差画像における当該画素の視差の値を基準に視差の探索範囲を一定の閾値範囲内に制限する。

ここで、「物体視差画像」とは、一般に処理負荷が高いとされるステレオマッチング処理を行うことなく、物体形状の事前知識の情報に基づき簡易に推定される視差画像を意味し、前記ステレオマッチング部20がウィンドウマッチング処理の結果として出力する視差画像（アウトプット）とは別物である。

したがって、物体視差画像はあくまで、ステレオマッチング部20がウィンドウマッチング処理を高速かつ低ノイズで行うための補助的な入力（インプット）の位置づけであり、一般にアウトプットの視差画像はインプットとなる物体視差画像よりも厳密で高精度（低ノイズ）となることが期待される。

そして、例えば当該画素の物体視差画像における視差がd_oであれば、当該画素からエピポーラ線に沿ってd_oだけシフトした画素を中心に左右に±αd_o（αは所定の係数）の画素範囲のみに探索範囲を絞ってウィンドウマッチングを行う。これにより、視差の探索範囲を狭めることができ、品質向上と処理負荷低減を実現できる。

視差の探索範囲を削減する処理自体は特許文献6等にも開示されるが、本実施形態では探索範囲を制限する参照情報として、三次元物体形状の推定結果に基づいて生成した物体視差画像を用いる点で異なる。復元する物体の一般的形状に関する事前知識なしにデプスマップをノイズに対して頑健に推定することは一般に困難であるが、本実施形態によれば、誤って必要な奥行値を視差探索範囲から除外してしまうことによる精度劣化を抑制することが可能である。

ただし、当該物体視差画像内の三次元物体形状の占める領域が参照画像中の物体を真に包含しているとは限らないため、上記の処理によって復元精度が劣化する可能性がある。そこで、本実施形態では基準画像の各画素のウィンドウマッチングの際に、物体視差画像における当該画素の近傍領域の視差の値を基準に、一定の閾値の範囲内に視差の探索範囲を制限する。

具体的には、近傍領域内に存在する有効な（三次元物体形状の範囲外の画素の視差は無効値に設定）視差の値の最小値と最大値を算出し、（最小値－閾値）～（最大値＋閾値）の範囲内に視差の探索範囲を制限することによって物体の欠損を抑制する。

より具体的には、例えば基準画像の注目する画素を中心とする5×5画素の範囲（ウィンドウサイズとは異なる）を近傍領域と定義し、視差探索範囲の閾値を5とした場合、仮に物体視差画像の全25画素に対応する値（視差）の最大値が「10」、最小値が「5」だったとすると、探索の最小値が0（5-5）、最大値が15(10+5)となり、参照画像のエピポーラ線上で視差が0～15の範囲の画素を対象にウィンドウマッチングを行う。

変換部203は、最終的に次式(2)で視差dを奥行きZに変換することで視差画像を奥行画像に変換する。ここで、Bは平行化画像における焦点間距離、fは焦点距離である。

ステレオマッチング20は、上記の各処理をN枚のカメラ画像に対して行い、最終的にN枚の奥行画像を物体モデル生成部30へ出力する。

物体モデル生成部30は、ステレオマッチング部20が出力するN枚の奥行画像を用いて物体の三次元形状モデルを生成し、カメラ画像をテクスチャとして合成した上で三次元モデル復元装置１の出力とする。複数枚の奥行画像から三次元形状モデルを生成する手法に制約はなく、任意の手法を採用できる。

例えば、N枚の奥行画像から単一のボクセルデータを生成する手法としてTSDF（Truncated Signed Distance Functions）を用いることができる。TSDFでは各奥行画像がボクセル空間に逆投影され、ボクセル空間における重み付き平均処理によって単一のボクセルデータへの合成が行われる。

また、ボクセルデータから三次元形状モデル（ポリゴンデータ）を生成する手法としてマーチングキューブ法を用いることができる。マーチングキューブ法では、隣接する8個のボクセルを頂点とする立方体を一単位として、8頂点のボクセルの値に応じて予め定義された15パターンのポリゴンに変換する処理を繰り返すことによってボクセルデータを三次元形状モデルに変換できる。

そして、上記の実施形態によれば複数のカメラで捉えた物体の三次元モデルを正確に復元できるようになるので、地理的あるいは経済的な格差を超えて多くの人々に多様なサービスやエンターテインメントを提供できるようになる。その結果、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、包括的で持続可能な産業化を推進する」や目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することが可能となる。

10…三次元物体形状推定部，20…ステレオマッチング部，201…参照画像選択部，202…探索範囲制限部，203…変換部，30…物体モデル生成部

Claims

物体を異なる視点で撮影した複数のカメラ画像に基づいて当該物体の三次元モデルを復元する三次元モデル復元装置において、
複数のカメラ画像に基づいて物体の三次元形状を推定する手段と、
カメラごとに前記物体の三次元形状の推定結果を用いたステレオマッチングにより奥行画像を生成する手段とを具備し、
カメラごとに生成した奥行画像を用いて物体の三次元モデルを復元することを特徴とする三次元モデル復元装置。
前記奥行画像を生成する手段が、カメラごとに当該カメラ画像および前記物体の三次元形状の推定結果に基づいて、当該カメラ画像を基準画像とするときの参照画像を他のカメラ画像の中から選択する手段を具備し、
カメラごとに当該カメラ画像を基準画像として、前記選択した参照画像との間でステレオマッチングを行って奥行画像を生成することを特徴とする請求項１に記載の三次元モデル復元装置。
前記奥行画像を生成する手段が、
前記推定した物体の三次元形状の各頂点をカメラごとにそのカメラパラメータを用いて当該カメラ画像に二次元投影する手段と、
一のカメラのカメラ画像を基準画像、他の各カメラのカメラ画像を候補画像として、基準画像における各頂点の二次元投影点と各候補画像における各頂点の二次元投影点との間の相違度を算出する手段とを具備し、
前記相違度がより小さい少なくとも一つの候補画像を参照画像として選択することを特徴とする請求項２に記載の三次元モデル復元装置。
前記奥行画像を生成する手段が、
前記推定した物体の三次元形状の各関節点をカメラごとにそのカメラパラメータを用いて当該カメラ画像に二次元投影する手段と、
一のカメラのカメラ画像を基準画像、他の各カメラのカメラ画像を候補画像として、基準画像における各関節点の二次元投影点と各候補画像における各関節点の二次元投影点との間の相違度を算出する手段とを具備し、
前記相違度がより小さい少なくとも一つの候補画像を参照画像として選択することを特徴とする請求項２に記載の三次元モデル復元装置。
前記奥行画像を生成する手段は、前記相違度が第１の閾値を下回る全ての候補画像を参照画像として選択することを特徴とする請求項３または４に記載の三次元モデル復元装置。
前記奥行画像を生成する手段は、相違度が前記第1の閾値よりも小さい第2の閾値を上回って前記第1の閾値を下回る全ての画像を参照画像として選択することを特徴とする請求項５に記載の三次元モデル復元装置。
前記奥行画像を生成する手段は、相違度が第2の閾値を上回る参照画像の中から相違度が相対的により小さい少なくとも一つの候補画像を参照画像として選択することを特徴とする請求項３または４に記載の三次元モデル復元装置。
前記奥行画像を生成する手段は、相違度としてプロクラステス距離を用いることを特徴とする請求項３ないし７のいずれかに記載の三次元モデル復元装置。
前記奥行画像を生成する手段は、前記三次元形状に基づいてステレオマッチングの基準画像における物体領域を特定し、ステレオマッチングの探索範囲を物体領域に制限することを特徴とする請求項１ないし８のいずれかに記載の三次元モデル復元装置。
前記奥行画像を生成する手段は、カメラごとにそのカメラパラメータを用いて前記三次元形状を基準画像に二次元投影することで物体領域を特定することを特徴とする請求項９に記載の三次元モデル復元装置。
前記奥行画像を生成する手段が、カメラごとに当該カメラのカメラパラメータを用いて前記三次元形状の推定結果を物体視差画像に変換する手段を具備し、
ステレオマッチングにおいて注目する基準画像の画素ごとに、前記物体視差画像の推定結果に基づいて、参照画像における対応画素の探索範囲を制限することを特徴とする請求項１ないし８のいずれかに記載の三次元モデル復元装置。
前記奥行画像を生成する手段は、ステレオマッチングにおいて注目する基準画像の画素ごとに、参照画像における対応画素の探索範囲を、当該注目する画素に対応する前記物体視差画像の画素の視差に応じた探索範囲内に制限することを特徴とする請求項１１に記載の三次元モデル復元装置。
前記奥行画像を生成する手段は、ステレオマッチングにおいて注目する基準画像の画素ごとに、参照画像における対応画素の探索範囲を、当該注目する画素を包含する所定の画素範囲に対応する前記物体視差画像の画素範囲内における各画素の視差の範囲に応じた探索範囲内に制限することを特徴とする請求項１１に記載の三次元モデル復元装置。
コンピュータが、物体を異なる視点で撮影した複数のカメラ画像に基づいて当該物体の三次元モデルを復元する三次元モデル復元方法において、
複数のカメラ画像に基づいて物体の三次元形状を推定し、
カメラごとに前記物体の三次元形状の推定結果を用いたステレオマッチングにより奥行画像を生成し、
カメラごとに生成した奥行画像を用いて物体の三次元モデルを復元することを特徴とする三次元モデル復元方法。
物体を異なる視点で撮影した複数のカメラ画像に基づいて当該物体の三次元モデルを復元する三次元モデル復元プログラムにおいて、
複数のカメラ画像に基づいて物体の三次元形状を推定する手順と、
カメラごとに前記物体の三次元形状の推定結果を用いたステレオマッチングにより奥行画像を生成する手順と、
カメラごとに生成した奥行画像を用いて物体の三次元モデルを復元する手順と、をコンピュータに実行させることを特徴とする三次元モデル復元プログラム。