JP2005317000A

JP2005317000A - 最適な視点のセットで得られた２ｄ画像からの顔の３ｄ形状構築に最適な視点のセットを求める方法

Info

Publication number: JP2005317000A
Application number: JP2005120041A
Authority: JP
Inventors: Baback Moghaddam; ババック・モグハッダム; Hanspeter Pfister; ハンスピーター・フィスター; Jinho Lee; ジノー・リー
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2004-04-30
Filing date: 2005-04-18
Publication date: 2005-11-10

Abstract

【課題】顔の３Ｄ形状を取得するために最適な視点のセットを求める方法。
【解決手段】観測球が、複数の視点セルを使用してテセレートされる。顔は、観測球のおよそ中心にある。選択された視点セルが破棄される。残りの視点セルは、シルエット差分測度に従って所定数の視点セルにクラスタ化される。最適な視点セルのセットを求めて所定数の視点セルが探索されて、顔の３Ｄモデルが構築される。
【選択図】図５

Description

本発明は、包括的には画像処理に関し、より詳細には３Ｄモデルおよび２Ｄ画像に従って顔をモデリングし認識することに関する。

コンピュータグラフィックスにおいて、リアルな人の頭部、特に顔の部分を合成的に構築することは、依然として基本的な課題である。以下、「頭部」または「顔」に言及する場合、本発明は顎から眉、耳から耳にかけて延在する頭部の部分を最大の対象とする。大半の従来技術による方法では、熟練したアーティストによるかなりの手作業、高価なアクティブ３Ｄスキャナ（Lee他著「Realistic Modeling for Facial Animations」Proceedings of SIGGRAPH 95, 第55-62頁、August 1995）、あるいは正確な顔の幾何学的形状の代わりとしての高品質テクスチャ画像が利用可能であること（Guenter他著「Making Faces」Proceedings of SIGGRAPH 98, 第55-66頁、July 1998、Lee他著「Fast Head Modeling for Animation」Image and Vision Computing, Vol. 18, No. 4, 第355-364頁、March 2000、Tarini他著「Texturing Faces」Proceedings Graphics Interface 2002, 第89-98頁、May 2002参照）のいずれかが必要である。

アクティブセンシングによって人の顔の３Ｄモデルを取得するには、高価なスキャンを装置する必要がある。このため、２Ｄ画像、すなわち「投射」から顔の３Ｄ形状を復元するするいくつかの技法が開発されている。こういった方法によっては、画像の密な２Ｄ対応を使用して顔面の基準点の３Ｄ位置を得る直接的な手法に基づくものがある（P. Fua著「Regularized bundle-adjustment to model heads from image sequences without calibration data」International Journal of Computer Vision, 38(2) pp. 153-171, 2000、F. Pighin、J. Hecker、D. Lischinski、R. Szeliski、およびD. Salesin著「Synthesizing realistic facial expressions from photographs」Proceedings of SIGGRAPH 98, 1998、ならびにY. Shan、Z. Liu、およびZ. Zhang著「Model-based bundle adjustment with application to face modeling」Proceedings of ICCV 01, pp.644-651, July 2001）。

３Ｄ顔モデルをパラメータ化し、２Ｄ入力画像を最良に記述する最適なパラメータを探す方法もある（V. BlanzおよびT. Vetter著「Face recognition based on fitting a 3D morphable model」PAMI 25(9), 2003、J. Lee、B. Moghaddam、H. Pfister、およびR. Machiraju著「Silhouette-based 3D face shape recovery」Proc. of Graphics Interface, pp. 21-30, 2003、ならびにB. Moghaddam、J. Lee、 H. Pfister、およびR. Machiraju著「Model-based 3D face capture using shape-from-silhouettes」Proc. of Advanced Modeling of Faces & Gestures, 2003）。

いずれの場合でも、視点および２Ｄ入力画像の数は、高品質の３Ｄモデルを認識するために重要なパラメータである。直観的に、異なる視点からとられる入力画像が多いほど、３Ｄモデルおよび続く再構築の品質は高くなる。しかし、これは処理時間および機器のコストを増大させる。

しかし、最適な視点セットを求めることができる場合、使用するカメラをより少数にすることが可能になり、結果得られる２Ｄ画像がより良好な３Ｄモデリング精度を提供できる。

今までのところ、顔の３Ｄモデルを構築する目的で視点、ひいては入力画像の最適な数を求める系統的な方法は利用できない。また、ビデオ中の一連の画像の中から、特定の画像、顔認識を向上させるための最適な視点に対応して選択された画像を自動的に選択することも有利であろう。

異なるオブジェクトが異なる原型またはアスペクト視点を有することが既知である（C. M. CyrおよびB. B. Kimia著「Object recognition using shape similarity-based aspect graph」Proc. of ICCV, pp. 254-261, 2001）。

顕著に高いクラス内相似を有する特定クラスのオブジェクト、特に人の顔の最適な視点の正準セットを求めることが望ましい。

照明だけに対処する場合、様々な照明下での顔の一般的な部分空間に広がる９つの点光源の最適な構成を経験的に求めることが可能である（K. Lee、J. Ho、およびD. Kriegman著「Nine points of light: Acquiring subspaces for face recognition under variable lighting」Proc. of CVPR, pp. 519-526, 2001）。

被写体のポーズ、または等価としてカメラ視点に関連する問題を解決することが望ましい。すなわち、視点からの投射により３Ｄ人面を最良に記述する、すなわち２Ｄ画像においてシルエットを形成する、Ｋ台のカメラの空間的構成に対応する最適なＫ個の視点セットを求めることが望ましい。

多視点３Ｄモデリングにおける重要な課題は、「一般的な」顔を正確に３Ｄ形状推定するために必要な、最適な視点または「ポーズ」のセットを求めることである。今までに、この課題に対する解析的な解決策はない。それどころか、部分的な解決策では、徹底的な（exhaustive）組み合わせ探索が必要である。

３Ｄモデリング方法に基づき、本発明は、輪郭ベースのシルエットマッチング方法を使用し、視点のクラスタ化および他の様々な撮像制約を利用して観測球を積極的に取り除くことによって本方法を拡張する。多視点最適化探索は、モデルベース（固有頭部（eigenhead））法およびデータ導出（視体積）法の両方を使用して行われ、同等に最適な視点のセットをもたらす。

最適な視点のセットは、顔の３Ｄ形状の取得に使用することができ、３Ｄ顔認識システムに有用な経験的ガイドラインを提供することができる。

解析的な公式化が不可能なため、本発明は経験的な手法を用いる。オブジェクトを中心とした観測球がサンプリング（テセレート）されて、有限セットの視点構成が生成される。各視点は、個々の顔の代表的なデータセットに対して結果として生じる集団誤差（ensemble error）に従って評価される。集団誤差は平均再構築誤差に関する。

潜在的な視点が多数あるため、観測球は、用途に応じ得る所定の無関係または非実用的な視点のセットを破棄することによって積極的に取り除かれる。本発明は、アスペクト視点を一般的な３Ｄオブジェクト認識に使用することができる。アスペクト視点は、視点からのオブジェクトのシルエットの投影であり、均等にサンプリングされた観測球の空間内の近傍の相似視点の範囲を表す。しかし、当該方法は目立ったものとされるいずれの所定の視野セットとでもうまくいくため、本発明はこのようなアスペクト視野の使用に限定されない。

視点空間のサイズは、オブジェクトのクラス、たとえば顔に縮小される。観測球を均等にサンプリングし、顔の対称性および撮像幾何等の高レベルモデル固有制約を適用した後、当該方法は、シルエット差分測度、または対照的に相似性測度を使用して近傍の視点セルを結合することによって視点クラスタを生成し、各クラスタの原型的な「重心」をアスペクト視点として選択する。所与の数の別個の視野（カメラ）に対するこられアスペクト視点の組み合わせサブセットの数の低減を探求することにより、オブジェクトの形状のモデリングに最適な視点のセットが構成される。

多視点３Ｄ顔モデリング
本発明は、視点のセットからとられた２Ｄ画像から得られる、人の顔の正確な３Ｄモデルを構築する際に必要な、最適な視点のセットを求める方法を提供する。本発明の３Ｄモデルを構築する一般的な方法は、２００３年８月７日出願のLee他著による米国特許出願第１０／６３６，３５５号「Reconstructing Heads from 3D Models and 2D Silhouetts」に記載され、これを参照により本明細書に援用する。

図６に示すように、本発明の方法は、人の頭部２１０の周囲の「観測球」２００上に配置された或る構成の多数のカメラ６００、たとえば１１台のカメラを使用する。カメラの配置により、モデリングされる頭部の部分のサイズが決まる。実際用途では、観測球は、カメラがドームの構造部材に取り付けられたジオデシックドームとして構築される。人はドーム内の椅子に座り、その間、その人の顔の画像が得られる。顔２１０は観測球２００の略中心にある。

本明細書に述べるように、本発明の３Ｄモデリング方法は、テクスチャ、すなわち外観から独立した形状、すなわち幾何学的形状の復元を取り扱う。したがって、本発明の方法は、照明およびテクスチャのばらつきに関して堅牢である。本発明の方法は、「モーフィング可能」モデル（V. BlanzおよびT. Vetter著「Face recognition based on fitting a 3D morphable model」PAMI, 25(9), 2003）と以下のように区別することが可能である。

形状は、テクスチャの推定と一緒にではなく直接復元される。形状は、テクスチャからではなく遮蔽輪郭またはシルエットから得られる。オブジェクトテクスチャの推定は必要ない。しかし、テクスチャは、形状が復元された後、標準的な技法を使用してオブジェクトから容易に得ることができる。本発明のモデル近似は、画像強度誤差ではなく２値シルエットを使用する。本発明の方法では、本質的に実際の画像が必要ない。本方法は、深度レイヤ情報を前景／背景セグメント化する他のいずれの手段も使用することが可能である。たとえば、シルエットは距離センサを使用して得ることができる。

さらに、本発明のシルエットマッチング最適化はより簡易であり、より少数の自由パラメータを有し、かなり高速、およそ１０倍高速である。

本発明による従来のモデリング方法では、カメラ６００の最適な配置が、試行錯誤により、またどの視点が形状取得にさらに有益であるかについての「直観」を用いてまず見つけられた。

ここに、本発明を続ける。

これより、視点選択プロセスから当て推量をなくし、所与の数Ｋ台のカメラに対して最適な幾何学的形状または視野構成を求めることを目標とする。モデル構築のために、本発明の方法は、様々な人種および年齢の成人女性および成人男性の顔のスキャンを使用した。スキャンを使用して、メッシュを生成することができる。各顔メッシュ中のポイント数はおよそ５０，０００〜１００，０００にばらつく。

データベース中のスキャンされたすべての顔はリサンプリングされて、点と点の間の対応が得られる。第２に、リサンプリングされた顔が基準の顔に位置合わせされ、ポーズのばらつきにおけるいずれのばらつきも、またはスキャンをする間のいずれの位置合わせずれも除去される。第３に、位置合わせされた３Ｄ顔のデータベースに対して主成分解析（ＰＣＡ）を行い、本発明の形状モデルの固有ベクトルおよびそれぞれに関連する固有値、すなわちそれぞれの潜在的なガウス分布の分散が得られる。この分解を使用して、「固有頭部」ベースの機能の線形結合を通して新しいまたは既存の顔を再構築することができる（全体として、J. J. Atick, P. A. Griffin、およびN. Redlich著「Statistical approach to shape from shading face surfaces from single 2D images」Neural Computation, 8(6)pp. 1321-1340, 1996参照）。

ＰＣＡ固有値スペクトルおよび結果得られる形状再構築の検査により、最初の６０個の固有頭部が、データベースにおける顔の目立った顔特徴の大半を取り込むために十分であることが示された。したがって、対応する形状パラメータａ_ｉが本発明の最適化パラメータである。

任意の顔モデルＭ（ａ）が、パラメータベクトルａ＝｛ａ_１，ａ_２，・・・，ａ_ｎ｝を与えるポリゴンメッシュを生成する。入力シルエット画像はＳ^ｋ _{ｉｎｐｕｔ}であり、ｋ＝１，・・・，Ｋである。相似変換Ｔが、基準モデル顔をリアルな３Ｄ顔に位置合わせする。シルエット画像Ｓ^ｋ _{ｍｏｄｅｌ（ａ）}は、ｋ番目のシルエット画像のポーズ情報を使用してＴ（Ｍ（ａ））を画像平面上に投影することによってレンダリングされる。パラメータベクトルａが、総ペナルティ

を最小化することによって推定される。但し、費用関数ｆは２つの２値シルエット間の差分を測定する。式（１）中の費用関数ｆは、２つの２値シルエット間の簡易な差分測度は、ピクセル単位の排他的論理和（ＸＯＲ）演算が適用された場合の「オン」のピクセルの数である。

遮蔽輪郭上の正しいピクセルのマッチングに優先順位を付けるため、また費用関数ｆが大域的最小を有するような一意性を推進するために、入力シルエットの境界ピクセル近傍のいずれのミスマッチにもより高いペナルティを課す。具体的には、

である。但し、Ｄ（Ｓ）は２値画像Ｓのユークリッド距離変換であり、画像（〜）Ｓは画像Ｓの原像である。変数ｄはシルエット輪郭からの距離マップを表すことに留意する。事前処理ステップ後に、分散を求めることができる。この費用関数を境界重み付けＸＯＲと呼ぶ。この費用関数は、厳密な輪郭マッチングに対する簡易かつ効果的な代替を提供する。なお、（〜）Ｓは、Ｓの上に〜があることを表す。

したがって、エッジリンキング、曲線近似、および輪郭間の距離計算に対応する時間のかかる処理は必要ない。さらに、境界重み付けＸＯＲ演算はハードウェアで行うことができる。費用関数が本質的に複雑かつ非線形であり、かつ解析的な勾配がない場合、確率的滑降シンプレックス法を使用して式（１）を最小化する。

３Ｄ顔モデリングに最適な視点を求める
これより、任意の数Ｋ台、たとえば５台以下のカメラまたは「視点」を使用して３Ｄ顔モデリングに最適な視点のセットを求める方法を説明することによって本発明を続ける。形状投影から得られるシルエット差分測度またはシルエット相似測度を使用して隣接する視点をクラスタ化することに基づき、観測球の均等なテセレーションによって得られる可能なすべての視点の空間を「取り除く」方法について説明する。次いで、選択されたアスペクト視点のセットが、本発明のモデルベースの方法およびデータ導出型視体積方法の両方を使用して調べられる。

シルエット生成
本発明のデータベース中でリサンプリングされた顔のシルエットは、実際の被写体の画像から得られるシルエットとは大分異なる。これは、頭部および胴体上部の一部が欠けることによる。本発明のデータベースを使用して実際の被写体のシルエット画像をシミュレートするために、完全にスキャンされた３Ｄ頭部を本発明の原型頭部／胴体として使用する。

図１Ａはデータベース中の元の顔の画像であり、図１Ｂはリサンプリングされた顔の画像であり、図１Ｃはレーザスキャンされた完全な「原型」の頭部の画像であり、図１Ｄは、リサンプリングされた顔を、スキャンされた完全な頭部と結合することによって得られる、レンダリングされる顔の画像である。

結合は、滑らかな変形によって原型頭部の顔領域をリサンプリングされた顔に位置合わせし、頭部と顔を一緒にステッチングして、完全な頭部および両肩を備えた「仮想」試験被写体を合成することによって行われる。こうして、本発明により、被写体の適宜幾何学的形状を維持しながら、データベース中の顔とまったく同じ顔形状の完全なシルエット画像を生成することができる。

この事前処理ステップは、完全な頭部スキャンの代わりにのみ使用され、完全な被写体スキャンが利用可能な場合は省くことができる。３Ｄ顔モデルを「ステッチング」して１つの共通の頭部形状にするプロセスは、続く解析および最適化において重要な「対象領域」として極めて重要な顔のエリアのみをハイライトしている。そうすることにより、頭部の裏側等のあまり重要ではないエリアは、顔エリアの正確な再構築に関して重要でない、または目立たないことを事実上示す。しかし、探索方法は、どのエリアがハイライトされるか、すなわち目立つとマークされるか否かに関わらず同じままであり得る。

観測球テセレーション
図２Ａおよび図５に示すように、被写体２１０の周囲の１２面体の区画を使用して、三角形で観測球２００を均等にテセレートする（５１０）。この手順により、１２０個の三角形２０１が生成され、これを視点セルと呼ぶ。各三角形２０１の頂点２０２は観測球２００の表面上にある。

図２Ｂおよび図５に示すように、選択された視点セルを破棄する（５２０）。破棄される視点セルには、カメラに対して観測球の後半球にあるセルが含まれる。これは、顔が後半球の視点から遮蔽されるためである。さらに、所定の高さの上および下にある視点セルを破棄する。これは、対応する視点がカメラの物理的な位置として可能性が低い、または実際的ではないためである。本発明の方法では、視点の高さを中心水平面から±４５度に制限する。

さらに、多くの場合、正確な顔の輪郭を斜めの視点から得ることは、遮蔽、またその結果として髪および肩と区別がつかなくなるため非常に難しい。最後に、顔はおよそ左右対称であるため、残っている視点の全半分を破棄する。これにより、図２Ｂに示す４４個の視点が残る。

残りの視点でもなお、視点の組み合わせまたはサブセットが多くなりすぎる。たとえば、徹底的な探索により１１個の最適な視点を見つけるには、およそ７×１０^９個の視点の組み合わせを評価する必要がある。これはかなり処理しにくい。したがって、探索空間をまたさらに低減する必要がある。

視点のクラスタ化
本発明では、２つの隣接する視点の２Ｄシルエット画像は実質的に相似する場合が多いことに気付く。したがって、２つの隣接する視点のシルエット差分を測定し、シルエット差分が所定のしきい値未満の場合は２つの対応する視点セルをクラスタ化する（５３０）。

次いで、視点セルのグループ（クラスタ）の位置を、視点セルのクラスタの重心で表すことができる。より重要なことには、ここでは、極めて重要な顔の各エリア、たとえば、鼻、目、耳、顎、および口付近のシルエット差分のみを考慮する。これは、顔の形状復元は、肩等の他の関係のないエリアのシルエット差分による影響を受けないためである。

クラスタ化するために、まず、探索空間中のあらゆる視点対間の部分的すなわち顔限定のＸＯＲシルエット距離を記憶したルックアップ表（Ｄ）を構築する。初めは、クラスタ内のあらゆる視点が考慮され、クラスタのアスペクト視点は視点自体である。

２つのクラスタ間のシルエット差分を、それぞれのアスペクト視点間のシルエット距離により定義する。その情報は事前に計算され、ルックアップ表Ｄに記憶される。その他の隣接クラスタすべての中で最小のシルエット差分を有する２つの隣接クラスタを見つけ、これらのクラスタを結合する。２つのクラスタを結合した後、新たに結合されたクラスタの新しいアスペクト視点を求める。新しいアスペクト視点は、同じクラスタ中のその他のすべての視点と比較して、最大シルエット差分に最小の値を有する視点である。所定数のクラスタが残るまで、このプロセスを繰り返す。

図３は、クラスタ化ステップ５３０を使用して得られた１０個のクラスタ１〜１０およびおよそ対応するアスペクト視点３００を示す。結果得られるアスペクト視点は必ずしもクラスタの幾何重心である訳ではなく、クラスタの他の部分に対して最小のシルエット差分を有する視点であることに留意する。

いかなる被写体依存も避け、このクラスタ化を一般化するために、ルックアップ表Ｄ中のすべての記入事項は、データベース中の５０個の異なる合成頭部の対毎のシルエット差分距離を平均化することによって生成される。

表Ａに、方位角｛９０°，０°，＋９０°｝が頭部中心基準枠での｛左、正面、右｝に対応するアスペクト視点１〜１０の座標を提供する。

図４は、モデルシルエットおよび誤差評価に使用される極めて重要な顔のエリアと共に、１０個のアスペクト視点から得られる対応するシルエット４０１〜４１０を示す。すべての再構築誤差は極めて重要な顔のエリアに限定される。髪および肩からの無関係な入力は無視される。図３における視野１を破棄する。下向きの角度のため、対応する顔のシルエット４０１は部分的に隠され、胴体と混ざる。視野２もまた、正面視点は顔のテクスチャ取得に好ましいが、形状復元制約としての遮蔽輪郭を殆ど提供しないため破棄される。

最適な視点を求める
残りの８個のアスペクト視点３〜１０について、Ｋ≦８視点の最適なサブセットを求めて徹底的に探索し（５４０）、これにより、各ケースＫ毎に、形状復元プロセスにＫ個のシルエットを使用して、元の顔に最も近い３Ｄ形状再構築が生成される。デフォルトの再構築方法は、関連の米国特許出願第１０／６３６，３５５号に記載の本発明によるモデルベースの（固有頭部）３Ｄ顔形状復元方法である。

比較のため、視体積構築方法を使用して、純粋にデータ導出型の方法もテストした。視体積自体は、何百もの視点を使用する場合であっても正確な再構築に適さないことに留意されたい。本明細書の目標は、データ導出型の方法に基づく欲張り探索でも同様の最適な視点のセットが選択されることを示すことである。

最適な視点のセットを汎用顔モデリングおよび認識にとって妥当なものにするために、視点は全種の、たとえば、性別、人種、年齢の全般的な顔に適合すべきである。したがって、最適性は被写体から独立しているべきである。このため、データベースから２５人という代表的なサブセットを使用し、本発明の最適視点選択を、全被写体の総誤差または平均誤差を最小化する相対的配置に基づかせた。

シルエット画像から３Ｄ形状を復元する場合、グラウンドトルースと再構築された３Ｄ幾何学的形状の間の誤差を測定する測度が必要である。本発明では、復元された形状の顔エリアに焦点をあてているため、復元された形状と元の顔との極めて重要な顔エリアにおける差分を測定する測度が必要である。この誤差測定の基本的な手法は以下である。

最初のステップは、復元された顔の幾何学的形状の顔エリア上の密なポイントのセットを見つけることである。固有頭部形状モデルの場合、メッシュパラメータ化を介して本発明のモデルの顔のポイントを見つける。

しかし、視体積上で同じ顔のポイントを見つけることは自明ではない。レイキャスティング法を使用して、視体積上での顔のポイントを見つける。元の３Ｄ頭部の画像を有し、これを使用して元の頭部上の顔のポイントから入力シルエット画像を生成することから、光線を視体積に向けて投射し、視体積表面上の対応するサンプルを得る。

顔のポイントを得た後、同じレイキャスティング方式を使用して、グラウンドトルースメッシュ表面上での対応するサンプルを得る。復元された顔上の顔のポイントおよびグラウンドトルース上の対応するポイントのＬ２距離を測定し、Ｌ２距離を顔エリアの３Ｄ誤差測度として使用する。

モデルベースの再構築
図４における残りの８個のアスペクト視点に対して徹底的な探索を行い（５４０）、Ｋ＝｛１，２，３，４，５｝カメラの最適な視点のサブセットのセットを見つけた。したがって、可能な再構築の総数は５４５０である。単一の個人の再構築誤差に固有の、データ従属性を除去するために、データベースから無作為に選択された２５人の被写体の平均再構築誤差を使用する。

結果を表Ｂに提示し、表Ｂは、Ｋ＝｛１，２，３，４，５｝の場合に最適な視点のセットおよび対応する最小平均再構築誤差を示す。アスペクト視点の正確な座標については表Ａを参照する。

最良構成下での２５人全員の被写体の個々の誤差の標準偏差も提示される。平均誤差平均および平均誤差標準偏差は、すべての視点全体の平均再構築誤差に基づく。視点が多いほど多くの制約が提供されるため、予想されるように、両方ともＫが増えるにつれて低減する傾向を有する。

視体積再構築
３Ｄモデルベースの方法に関して上述したものと同じ探索戦略を用いて、これより、シルエット画像の所与のサブセットから得られた視体積構築を評価し、結果をグラウンドトルースと比較する。

表Ｃに、Ｋ＝｛２，３，４，５｝の最適な視点および対応する誤差値を示す。単一のシルエット（Ｋ＝１）からの視体積は有限体積を有さないため省かれる。

視体積再構築、特に少数の画像からのものはあまり正確な表現ではないことに留意する。モデルベースの結果とは対照的に、この場合、再構築品質は被写体依存よりもはるかに視野依存である。しかし、視野依存性は、視点の数（Ｋ）が増大するにつれ大幅に低減する。誤差標準偏差を参照のこと。両方法の場合において、視点３および１０が最も有益であるように見える。

発明の効果
本発明による方法は、３Ｄ顔モデリング、特にシルエットから形状を復元する方法に最適な視点のセットを求める。本発明は３Ｄ顔認識システムの設計に有用なガイドラインを提供し、既存の実施および直観に合致する。たとえば、最も目立つ視点３は、多くのＩＤ写真に使用される、確立されている生体測定規格「３／４視野（顔の右から３／４を写す）」に非常に密接に対応し、視点１０は、「マグショット（警察での犯人記録用）」写真に使用されるプロファイル視野に対応する。本明細書での結果は、再構築は４から５個の視点を超えてからは実質的に向上しないことを示す。表Ｂおよび表Ｃに列挙した最良誤差を参照のこと。

さらなる物理的および演算的な制約を本発明の方法に組み込むことが可能である。たとえば、真正面の視点は形状に関してはあまり目立たないが、テクスチャを取り込むには好ましい視野であり、したがって、この視野は略すべての２Ｄ顔認識システムに使用される。この視点は、探索前に予め選択することができる。

ビデオベースで顔を補足すると、被写体の動きおよびポーズの変化により、カメラが固定されている場合であっても複数の仮想視点が提供される。したがって、本発明の方法を監視ビデオの一連の画像に適用して、最適なポーズ、すなわち顔認識に最良のビデオフレームを自動的に選択することができる。

本発明について好ましい実施形態の例として説明したが、他の様々な適合形態および変更形態を本発明の精神および範囲内で行い得ることを理解されたい。したがって、添付の特許請求の範囲の目的は、このような変形形態および変更形態をすべて、本発明の真の精神および範囲内にあるものとして包含することである。

データベース中の元の顔の画像である。図１Ａの顔をリサンプリングした画像である。スキャンによって得られた頭部の３Ｄモデルの画像である。図１Ｂのリサンプリング画像を図１Ｃのモデルと結合することによって得られた画像である。テセレートされた観測球である。視点が破棄された状態の、テセレートされた観測球である。視点がクラスタ化された状態の観測球である。１０のアスペクト視点から得られたシルエットである。本発明による方法のブロック図である。本発明による観測球の図である。

Claims

最適な視点のセットで得られた２Ｄ画像からの顔の３Ｄ形状構築に最適な視点のセットを求める方法であって、
前記顔が観測球のおよそ中心に配置され、複数の視点セルを有する観測球をテセレートすること、
選択された視点セルを破棄すること、
前記２Ｄ画像から求められるシルエット差分測度に従って、残りの視点セルを所定数の視点セルにクラスタ化すること、
および
前記最適な視点のセットの前記所定数の視点セルを探索すること
を含む、２Ｄ画像からの顔の３Ｄ形状構築に最適な視点のセットを求める方法。
テセレーションには三角形を使用する
請求項１記載の方法。
テセレーションは１２面体の均等区分である
請求項１記載の方法。
前記選択された視点セルは、前記観測球の後半球にある視点セルを含む
請求項１記載の方法。
前記選択された視点セルは、所定の高さの上下にある視点セルを含む
請求項１記載の方法。
前記所定の高さは、前記観測球の中心水平面から±４５度である
請求項５記載の方法。
前記選択された視点セルは、前記顔の両半分はおよそ左右対称であることから前記顔の片側半分の視点セルを含む
請求項１記載の方法。
前記シルエット差分測度は各視点セル対毎に測定される
請求項１記載の方法。
前記視点セルの所定数は１０である
請求項１記載の方法。
前記視点セルの位置は、前記視点セルのクラスタの重心によって求められる
請求項１記載の方法。
極めて重要な顔エリア近傍の前記シルエット差分のみが考慮される
請求項１記載の方法。
前記極めて重要な顔エリアには、鼻、目、耳、顎、および口が含まれる
請求項１記載の方法。
前記シルエット差分は事前計算されるルックアップ表に記憶される
請求項１記載の方法。
前記探索は徹底的になされる
請求項１記載の方法。
前記最適な視点セルのセットは、ビデオの一連の画像に適用されて、顔モデリングに最適なポーズを自動的に選択する
請求項１記載の方法。
前記最適な視点セルのセットは、ビデオの一連の画像に適用されて、顔認識に最適なポーズを自動的に選択する
請求項１記載の方法。
前記最適な視点セルのセットを使用して、前記最適な視点のセットで得られた２Ｄ画像から前記顔の３Ｄモデルが構築される
請求項１記載の方法。
前記探索は、前記最適な視点セルのセットの可能なサブセットすべての組み合わせ探索である
請求項１記載の方法。
最適性は、入力された顔と前記顔の３Ｄモデルの間の最小再構築誤差により確定する
請求項１記載の方法。
前記最小再構築誤差は形状およびテクスチャの組み合わせに基づく
請求項１９記載の方法。
前記最小再構築誤差は複数の顔の平均に基づく
請求項１９記載の方法。