JP2010532022A

JP2010532022A - 画像コレクションの合成人物モデル

Info

Publication number: JP2010532022A
Application number: JP2010510302A
Authority: JP
Inventors: シェルウッドローザー，ジョエル; オー．ストゥブラー，ピーター; ダス，マディラクシ; シー．ロウイ，アレクサンダー; フレデリックマクインンタイル，デール
Original assignee: イーストマンコダックカンパニー
Priority date: 2007-05-30
Filing date: 2008-05-23
Publication date: 2010-09-30
Also published as: US20080298643A1; CN101681428A; EP2149106A1; WO2008147533A1

Abstract

特定人物の頭部の少なくとも一部の合成モデルを構成することによって、画像内の特定人物の認証を改良する方法であって、特定のイベントの間に撮影した画像のコレクションを獲得するステップと、前記コレクション内の特定人物を含む単数又は複数の画像を識別するステップと、前記識別された単数又は複数の画像内の特定人物に関係付けられる１つ又は２つ以上の特徴を識別するステップと、前記コレクションの他の画像中の前記特定人物を識別するために、前記識別された特徴を使用して、前記コレクションを探索するステップと、前記特定人物の識別された画像を使用して、前記特定人物の頭部の少なくとも一部の合成モデルを構成するステップとを含む方法。

Description

本発明は、画像コレクションの人物の合成モデルの生成、及びその合成モデルの使用に関する。

デジタル写真撮影の出現によって、消費者は、デジタル画像及びビデオの多くのコレクション（collection）を蓄積している。デジタルカメラで捕捉する画像の撮影者当たりの平均数は、未だに年々増加している。その結果として、画像及びビデオの体系化及び検索が一般的なユーザにとって問題となる。今のところ、一般的な消費者のデジタル画像のコレクションの時間は、数年だけである。平均的なデジタル画像及びビデオのコレクションの時間が増えるにつれて、体系化及び検索の問題は、引き続き大きくなってくるであろう。

興味の対象の特定人物を含む画像及びビデオをユーザが見つけようとすることが多々ある。ユーザは、手動で探索を実行して、興味の対象の人物を含む画像及びビデオを見つけることができる。しかしながら、これは、時間が掛かり且つ骨が折れる作業である。市販のソフトウェア（Ａｄｏｂｅ（登録商標）Ａｌｂｕｍなど）により、後に検索できるように画像内の人々を表示するラベルを付することによって画像をユーザが認識することができるが、それでも最初のラベル付け作業は、非常に退屈で時間が掛かる。

顔認証ソフトウェアは、グランドトルースによりラベル化（ground-truth labeled）された画像の組（すなわち、対応する人物識別（person identities）を有する画像の組）の存在を仮定する。消費者の画像コレクションの多くは、このようなグランドトルースの組を有しない。さらに、画像内の顔のラベル付けは、消費者の多くの画像が多くの人を含むため、複雑である。そして、人々の識別を有する画像に単にラベル付けすることが、画像内のどの人物とどの識別とを関係付けることを示すものではない。

セキュリティ又は他の目的のために、人々の認証を試みる画像処理パッケージが多く存在する。Cognitec（登録商標） Systems GmbHが生産するＦａｃｅＶＡＳＣ顔認証ソフトウェアと、Imagis Technologies社及びIdentix社が生産するFacial Recognition SDKsとがその例である。これらのソフトウェアパッケージは、主としてセキュリティ型のアプリケーション向けのものである。この場合、均一な照明の下で、正面を向いた姿勢で環状を表さない人物がカメラと向き合う。消費者の私的な画像は、画像内で非常に様々な姿勢、照明、表情、及び顔の大きさを有するため、これらの方法は、使用するには適当ではない。

さらに、このプログラムでは、長い時間に亘って人々の認証を効果的に実行するのに必要なライブラリが生成されない。人は、年を取ると、顔が変化して、場合によってはメガネをかけ、いろいろな衣服を着て、そして様々な髪型となる。さらに、人物に関係付けられる固有の特徴を記憶することによって、認証し識別探索し及び長い時間に亘って人物の画像コレクションを管理するための手掛りを提供するという未だ満たされてないニーズがある。

本発明の目的は、デジタル画像コレクション内の画像及びビデオにおいて、興味の対象の人物と、人物を特定するのに役立つ可能性がある特徴とを素早く特定することである。この目的は、その特定人物の頭部の少なくとも一部の合成モデルを構成することによって、画像内の特定人物の認証を改良する方法であって、
（ａ）特定のイベントの間に撮影した画像のコレクションを獲得するステップと、
（ｂ）コレクション内の特定人物を含む単数又は複数の画像を識別するステップと、
（ｃ）識別された単数又は複数の画像内の特定人物に関係付けられる１つ又は２つ以上の特徴を識別するステップと、
（ｄ）コレクションの他の画像中の特定人物を識別するために、識別された特徴を使用して、コレクションを探索するステップと、
（ｅ）特定人物の識別された画像を使用して、特定人物の頭部の少なくとも一部の合成モデルを構成するステップと、
を含む方法によって実現される。

この方法は、ある画像コレクションから、他の画像コレクションを探索するのに使用できる人物の合成モデルを生成するという、有利な点を有する。また、その人物がカメラの正面でなく、又はカメラの視界から見えにくいときに、合成特徴モデルを記憶することによって人物の認証が可能になる。

本発明は、図面に示す実施形態を参照することによって、説明される。

本発明を実施できるカメラ付き携帯電話に基づく画像システムのブロックを概略的に示す図である。人物を識別するために抽出される合成画像セグメントについての本発明の実施形態のブロックを概略的に示す図である。デジタル画像コレクションにおける人物の合成モデルを作成する本発明の実施形態のフローチャートを示す図である。イベント画像に関連付けられる人物プロファイルの組を示す図である。イベントから獲得される画像コレクションを示す図である。人物の顔の点と顔の特徴とを示す図である。イベントにおける画像の人及び特徴による体系化を示す図である。イベントデータの中間物を示す図である。決定されたイベントデータの組を示す図である。決定されたイベントデータの組を画像で示す図である。イベント画像に関連付けられた人物プロファイルの更新を示す図である。合成画像ファイルを構成するフローチャートを示す図である。写真の中の特定人物を識別するフローチャートを示す図である。デジタル画像コレクション内の特定人物を探索するフローチャートを示す図である。

以下の説明において、本発明の実施形態がソフトウェアプログラムとしていくつか説明されることになる。当業者は、本発明の範囲内においてハードウェア又はソフトウェアによっても、本方法の均等を構成できることをすぐに理解するであろう。

画像操作アルゴリズム及びシステムは周知であるので、本明細書は、本発明に係る方法の一部を形成する、又は本発明に係る方法と直接的に協働する、アルゴリズム及びシステムに特に向けられることになる。このアルゴリズム及びシステム、並びにこれに含まれる画像信号を生成し、及び他の処理をするハードウェア及びソフトウェアの他の態様で、本明細書において明確に図示又は説明されていないものは、周知技術であるシステム、アルゴリズム、構成要素、及び要素から選択できる。以下の明細書に記載される説明を前提とすると、そのソフトウェアによる実現は、標準的なものであり、従来技術に含まれる。

図１は、本発明を実施できる画像システムに基づくデジタルカメラ付き携帯電話３０１のブロックを示す図である。デジタルカメラ付き携帯電話３０１は、デジタルカメラの一種である。好適には、デジタルカメラ付き携帯電話３０１は、携帯型電池で動作する機器であり、画像を捕捉し、及び見直すときにユーザが容易に手で持つことができるほど十分小さい。デジタルカメラ付き携帯電話３０１は、デジタル画像を生成して、内蔵のフラッシュＥＰＲＯＭメモリ、又は取り外しできるメモリカードなどにできる画像／データメモリ３３０を使用して記憶する。また、磁気ハードディスク、磁気テープ、又は光ディスクのような他の種類のデジタル画像記憶媒体を使用して、画像／データメモリ３３０を提供できる。

カメラ付き携帯電話３０１は、レンズ３０５を有し、ＣＭＯＳ画像センサ３１１の画像センサアレイ３１４上に場面（図示せず）からの光の焦点を合わせる。画像センサアレイ３１４は、周知のＢａｙｅｒカラーフィルタパターンを使用してカラー画像情報を提供できる。画像センサアレイ３１４は、タイミング生成器３１２によって制御される。また、タイミング生成器３１２は、フラッシュ３０３を制御して周囲の照明が暗いときに場面を明るくする。画像センサアレイ３１４は、１２８０列×９６０行のピクセルなどを有することができる。

いくつかの実施形態では、デジタルカメラ付き携帯電話３０１は、画像センサアレイ３１４の複数のピクセルを加算する（例えば、画像センサアレイ３１４のそれぞれの４列×４行の領域内部で同一色のピクセルを加算する）ことにより、ビデオクリップを記憶して、解像度が低いビデオ画像フレームを生成できる。ビデオ画像フレームは、毎秒２４フレームの読み出しレートなどを使用して、一定の間隔で画像センサアレイ３１４から読み出す。

画像センサアレイ３１４からのアナログ出力信号は、ＣＭＯＳ画像センサ３１１上のアナログ‐デジタル（Ａ／Ｄ）コンバータ回路３１６によって増幅され、デジタルデータに変換される。デジタルデータは、ＤＲＡＭバッファメモリ３１８に記憶され、続いてファームウェアメモリ３２８に記憶されるファームウェアによって制御されるデジタルプロセッサ３２０によって処理される。ファームウェアメモリ３２８は、フラッシュＥＰＲＯＭメモリにできる。デジタルプロセッサ３２０は、リアルタイムクロック３２４を有し、デジタルカメラ付き携帯電話３０１とデジタルプロセッサ３２０とが低電圧状態のときでも、日付及び時間を保持する。

処理されたデジタル画像ファイルは、画像／データメモリ３３０に記憶される。また、画像／データメモリ３３０を使用して、人物プロファイル情報２３６をデータベース１１４に記憶できる。また、画像／データメモリ３３０は、電話番号、やることリストのような他の種類のデータを記憶できる。

静止画像モードにおいて、デジタルプロセッサ３２０は、カラー及びトーン補正のためのカラー補間を実行して、レンダリングされたｓＲＧＢ画像データを生成する。また、デジタルプロセッサ３２０は、ユーザが選択する様々な画像サイズを提供できる。そして、レンダリングされたｓＲＧＢ画像データは、ＪＰＥＧ圧縮されて、画像／データメモリ３３０にＪＰＥＧ画像ファイルとして記憶される。ＪＰＥＧファイルは、前述のいわゆるＥｘｉｆ画像フォーマットを使用する。このフォーマットは、様々なＴＩＦＦタグを使用して特定の画像のメタデータを記憶するＥｘｉｆアプリケーションセグメントを含む。個々のＴＩＦＦタグを使用して、写真が捕捉された日時、レンズのＦ値、及び他のカメラの設定を記憶し、並びに画像の見出しを記憶するなどできる。特に、Image Descriptionタグを使用して、ラベルを記憶できる。リアルタイムクロック３２４は、捕捉した日付／時間の値を提供して、それぞれのＥｘｉｆ画像ファイルに日付／時間のメタデータとして記憶される。

位置決定器３２５は、画像捕捉と関連付けられる地理的位置を提供する。好適には、位置は、緯度及び経度の単位で記憶される。なお、位置決定器３２５は、画像捕捉時間と若干異なった時間で地理的位置を決定できる。この場合、位置決定器３２５は、画像と関連付けられる地理的位置として最近の時点の地理的位置を使用できる。また、位置決定器３２５を画像捕捉時の前及び／又は後の時間における複数の地理的位置の間で補間して、画像捕捉と関連付けられる地理的位置を決定できる。位置決定器３２５が地理的位置を決定できない場合があるので、補間が必要になる可能性がある。例えばＧＰＳ受信機は、屋内で信号検出に失敗することが多々ある。この場合、最新の良好な地理的位置（すなわち、建物に入る前）の読み出しを位置決定器３２５が使用して、特定の画像捕捉に関連付けられる地理的位置を推定する。位置決定器３２５は、多くの方法のいずれかを使用して、画像の位置を決定する。例えば、地理的位置は、周知のグローバル・ポジショニング・システム（ＧＰＳ）からの通信を受信して決定できる。

また、デジタルプロセッサ３２０は、解像度が低い「サムネイル」サイズの画像を生成する。これは、Kuchtaらに特許され、参照することによって開示の内容が本明細書に包含される同一出願人による米国特許第５１６４８３１号に説明されるように生成できる。サムネイル画像は、ＲＡＭメモリ３２２に記憶され、アクティブマトリックス型ＬＣＤ、又は有機発光ダイオード（ＯＬＥＤ）などにできるカラー表示部３３２に供給できる。画像が捕捉された後に、サムネイル画像データを使用して、カラーＬＣＤ画像表示部３３２で直ちに見直しできる。

カラー表示部３３２に表示されるグラフィカルユーザインタフェースは、ユーザ制御３３４により制御される。ユーザ制御３３４は、電話番号を選択する表示押下ボタン（電話のキー操作部）、（「電話」モード、「カメラ」モードなどの）モードを設定する制御、４方制御（上下左右）を含むジョイスティック制御器、「ＯＫ」を中心とする押下スイッチなどを含むことができる。

デジタルプロセッサ３２０に接続される音声コーディク３４０は、マイク３４２から音声信号を受信して、スピーカ３４４に音声信号を提供する。これら双方の構成要素は、電話の会話に使用し、ビデオ像列又は静止画像とともに音声トラックの記録、再生に使用できる。また、スピーカ３４４を使用して、電話呼出が入ったことをユーザに知らせることができる。これは、ファームウェアメモリ３２８に記憶される標準的な着信音を使用して実行でき、又は携帯電話ネットワーク３５８からダウンロードし、画像／データメモリ３３０に記憶するカスタムな着信音を使用して実行できる。さらに振動機器（図示せず）を使用して、無音の（可聴式でない）電話呼出による通知を提供できる。

ドックインタフェース（dock interface）３６２を使用して、デジタルカメラ付き携帯電話３０１と、一般的な制御コンピュータ３７５に接続されるドック／充電器３６４とを接続できる。ドックインタフェース３６２は、周知のＵＳＢインタフェースの仕様などに適合できる。また、デジタルカメラ３０１と一般的な制御コンピュータ３７５との間のインタフェースは、周知のＢｌｕｅｔｏｏｔｈ（登録商標）、又は周知の８０２．１１ｂ無線インタフェースのような無線インタフェースにできる。ドックインタフェース３６２を使用して、画像／データメモリ３３０から一般的な制御コンピュータ３７５に画像をダウンロードできる。また、ドックインタフェース３６２を使用して一般的な制御コンピュータ３７５からデジタルカメラ付き携帯電話３０１の画像／データメモリ３３０に暦情報を送信できる。また、ドック／充電器３６４を使用して、デジタルカメラ付き携帯電話３０１の電池（図示せず）を充電できる。

デジタルプロセッサ３２０は、無線モデム３５０と接続され、無線チャネル３５２を介してデジタルカメラ付き携帯電話３０１が情報を送受信することを可能にする。無線モデム３５０は、３ＧＳＭネットワークのような携帯電話ネットワーク３５８に無線周波数（無線）のリンクによって通信する。携帯電話ネットワーク３５８は、写真サービスプロバイダ３７２に通信して、デジタルカメラ付き携帯電話３０１からアプロードしたデジタル画像を記憶できる。これらの画像は、一般的な制御コンピュータ３７５を含む他の機器によってインターネット３７０を介してアクセスできる。また、携帯電話ネットワーク３５８は、標準的な電話ネットワーク（図示せず）と接続して、通常の電話サービスを提供する。

図２に、本発明に係る実施形態のブロックを概略的に示す。図１を簡単に参照し直すと、画像／データメモリ３３０と、ファームウェア３２８と、ＲＡＭ３２２と、デジタルプロセッサ３３０とを使用して、以下に説明する必要なデータ記憶機能を提供できる。まず、図２は、デジタル画像コレクション１０２を有するデータベース１１４を含む。画像及びカメラのメタデータのような画像に関する情報は、グローバル特徴（global feature）２４６として開示される。人物プロファイル２３６は、コレクション内の個々の人物についての情報を含む。この人物プロファイルは、人物の特徴を区別することに関する相関的なデータベースを含むことができる。相関的データベースの概念は、Communications of the ACMが発行したEdgar Frank Coddによる「大規模共有データバンクのためのデータの相関的モデル（A Relational Model of Data for Large Shared Data Bank）」（１９７０年６月、Vol.13 No.6、３７７〜８７ページ）において開示される。さらなる相関的な人物データベースを作成する方法は、Seagravesらに特許され、参照することによって開示の内容が本明細書に包含される同一出願人による米国特許第５６５２８８０号に開示される。図４に、人物プロファイルの実施例を示す。

イベントマネージャ３６は、捕捉時間分析器２７２を使用して、関連性のある期間内のデジタル画像のサブセットをクラスタリングする（clustering）ことによって、画像の管理及び体系化を改良できる。グローバル特徴検出器２４２は、データベース１１４からグローバル特徴２４６を読み取る。これによって、イベントマネージャ３６は、デジタル画像コレクションサブセット１１２を生成する。人物探知器１０８は、人物検出器１１０を使用して、写真内の人物を見つける。顔検出器２７０は、局所特徴検出器２４０を使用して、顔又は顔の一部を見つける。人物に関連付けられる特徴は、関連特徴検出器２３８を使用して識別される。人物の識別は、コレクション内の興味の対象の特定人物に人物の名前を割り当てることである。これは、表示部３３２及びラベル器１０４と関連付けられる双方向人物識別器２５０を介して実現される。さらに、人物分類器２４４を使用して、コレクション内の先に識別された人物に名前のラベルを当てはめることができる。セグメント化及び抽出（Segmentation and Extraction）１３０は、人物画像セグメント化２５4に人物抽出器２５２を使用する。関連特徴セグメント化２５８と関連特徴抽出器１０６とは、関連付けられる人物の要素をセグメント化し、抽出することにより、合成モデル２３４として人物プロファイル２３６に記録できる。姿勢推定器２６０は、３次元（３Ｄ）モデル作成器２６２が使用する外観の作成のための詳細、すなわち人物の少なくとも頭部の要素のソリッド表示モデル（solid representation model）を３次元モデル作成器２６２に提供する。

図３は、特定人物の頭部の少なくとも一部の合成モデルを構成することによって、画像内の特定人物の認証を改良する方法を示すフローを概略的に示す図である。当業者は、カメラ、パーソナルコンピュータ、インターネットのようなネットワークによってアクセスされる遠隔コンピュータ、プリンタなどを本発明に使用する処理プラットフォームにできることを理解するであろう。

ステップ２１０において、イベントで撮影した画像のコレクションを獲得する。イベントは、誕生日パーティ、休暇、家族の時間の収集、又はサッカーの試合にできる。また、このイベントは、サブイベントに区分できる。誕生日パーティは、ケーキ、プレゼント、及び屋外活動を有することができる。休暇は、様々な都市、その日の時々、海岸への滞在などに関連付けられた一連のサブイベントにできる。図５に、イベントとして識別される一群の画像の例を示す。イベントは、手動でタグを付され、又は自動的にクラスタリングされる。同一出願人による米国特許第６６０６４１１号及び第６３５１５５６号は、時間によるイベント及びサブイベントによって、画像コンテンツをクラスタリングするアルゴリズムを開示する。上記特許の開示は、参照することによって本明細書に包含される。米国特許第６６０６４１１号は、イベントは、一様の色分布を有し、これにより写真は、同一の背景とともに撮影されている可能性があることを教示する。それぞれのサブイベントにおいて、単一の色及び構造表示が一緒に撮影されたすべての背景領域で見積もられる。上記発明は、時間によるイベント及びサブイベントにデジタル画像コレクションの画像及びビデオをクラスタリングする方法を教示する。用語「イベント」及び「サブイベント」は、客観的な判断において使用して、具体的な出来事（イベントに対応する）とこれらの出来事の一部（サブイベントに対応する）と、ユーザの主観的知覚とを整合するように試みるコンピュータ介在手順の成果物を示す。画像をクラスタリングする時間及び日付に基づいて画像コレクションの１つ又は２つ以上の最も大きい時間差を決定し、１つ又は２つ以上の最も大きい時間差をイベントの１つ又は２つ以上の境界に対応させて、イベント間に１つ又は２つ以上の境界を有することに基づいて大部分の画像をイベントに分離して、画像コレクションを１つ又は２つ以上のイベントに分類する。それぞれのイベントにおいて、（もしあれば）サブイベントは、米国特許第６３５１５５６号で説明されるように、連続的な画像のカラーヒストグラム情報を比較することによって、決定できる。画像を多くのブロックに分割して、それぞれのブロックのカラーヒストグラムを計算することによって、これは達成される。米国特許第６３５１５５６号で説明されるように、ブロックに基づくヒストグラム相関手順を使用して、サブイベントの境界を検出する。自動的にイベントに画像を体系化する他の方法は、参照することによって本明細書に包含される同一出願による米国特許第６９１５０１１号に開示される。この発明によると、イベントをクラスタリングする方法は、前景及び背景のセグメントを使用して、類似するイベントにグループから画像をクラスタリングする。多くのブロックにそれぞれの画像を当初はセグメント化することによって、ブロックに基づく画像を提供する。ブロック毎の比較を使用して、それぞれのブロックに基づく画像は、少なくとも前景と背景とを比較して、多くの領域にセグメント化される。１つ又は２つ以上の明度、色、位置、及び大きさの特徴が、領域から抽出され、抽出された特徴を利用して、グループ内の一連の画像の前景及び背景を比較して、領域の類似性を比較し推定する。一連の画像の間の全体の類似の程度を計算することによって、一連の画像の間の画像間距離（image distance）を提供する。そして、イベントのクラスタリングは、画像間距離で区切られる。

画像をイベントにクラスタリングするさらなる利点は、イベント、又はサブイベントの内部において、同一の衣服を人物が着ている、又は人物が特徴を関連付けられる尤度が高いことである。反対に、人物が衣服を着替えた場合は、これをサブイベントが変更されたことのマーカにできる。海岸への訪問は、休暇中のレストランへの訪問にすぐに続けることができる。例えば、休暇を最上位のイベントとして、海岸は、水着を着ているところを１つのサブイベントにでき、正装して外出するレストランが続く。

さらに、画像のイベントへのクラスタリングは、人物プロファイル２３６において合成モデル２３４を作成するために類似する照明、衣服、及び人物に関連付けられる他の特徴を統合するという利点がある。

ステップ２１２では、コレクション内の特定人物を含む画像の識別は、人物探知器１０８を使用する。参照することによって本明細書に包含されるLuoに特許された同一出願人による米国特許第６６９７５０２号で説明するような方法を使用して、人物探知器１０８は、人物を検出して、獲得したイベント画像コレクションのそれぞれの写真内の人物の数をイベントマネージャ３６に提供する。

本発明において、顔検出アルゴリズムは、肌検出アルゴリズムの次に実行され、バレーアルゴリズム（valley algorithm）は、顔検出アルゴリズムの次に実行される。肌検出は、カラー画像のセグメント化と、好適な色空間測定基準（color space metric）Ｌｓｔにおける所定の肌分布を利用する（Leeによる「物理学及び精神物理学に基づくカラー画像の量子化（color image quantization based on physics and psychophysics）」（１９９６年「Journal of Society of Photographic Science and Technology of Japan」Vol.59、No.1、２１２〜２２５ページ））。肌の領域は、セグメント化された領域の平均的な色の分類によって取得できる。また、人物の形状を構築する次のステップが２進数的な決定の代わりに確率を必要とする場合は、確率値を保持できる。この肌検出方法は、輝度及びクロミナンス成分における人物の肌の色の分布に基づく。要約すれば、ＲＧＢピクセルのカラー画像は、好適なＬｓｔ測定基準に変換される。そして、３次元ヒストグラムが形成され、平準化される。次に３次元ヒストグラムにおけるピークを配置し、ヒストグラムのそれぞれのビンにピークを割り当てることによって、ビンクラスタリング（bin clustering）が実行される。それぞれのピクセルは、ピクセルの色に対応するビンに基づいて分類される。人物の肌の平均の色（Ｌｓｔ）の値と、関連する領域の平均の色とに基づいて、肌の確率が計算され、所定のしきい値よりも確率が大きい場合は、肌の領域と認識される。

顔検出器２７０は、局所特徴検出器２４０を使用して肌領域の候補内の主な顔の特徴（目、眉、鼻、及び口）の検出に基づいて、顔の可能性を識別する。肌検出ステップによって出力される肌マップ（flesh map）は、顔に関する他のヒューリスティクスと組み合わせて、画像内の顔の位置の概要（belief）を出力する。画像内の肌領域であると識別されるそれぞれの領域は、楕円と適合される。またここで、楕円の長軸及び短軸は、楕円の外部領域におけるピクセル数と領域の一部でない楕円内のピクセル数とによって計算される。アスペクト比は、長軸と短軸との比率によって計算される。顔の確率は、適合した楕円のアスペクト比、楕円の外部領域のエリア、及び領域の一部でない楕円内のエリアの関数である。さらに、確率値は、保持でき、又は所定のしきい値と比較して特定の領域が顔であるか否かに関する２進数的な決定を生成できる。さらに、顔の領域の候補における構造を使用して顔の尤度をさらに明らかにできる。バレー検出を使用して、顔の特徴（目、鼻孔、眉、及び口）がしばしば存在するバレーを識別できる。この処理は、顔の領域でない肌領域を顔の領域から分離するために必要である。

人物の顔を検出する他の方法は、デジタル画像処理の周知技術である。例えば、不可欠な画像に基づいて促進分類器（boosted classifiers）の直列接続を使用して人物の顔を見つける顔検出方法は、「多重視界高速顔検出（Fast Multi-View Face Detection）」（２００３年、IEEE CVPR）においてJonesとViolaとによって説明される。

さらなる顔所在アルゴリズム（face localizing algorithms）は、「変形可能なテンプレートを使用する顔からの特徴抽出（Feature Extraction from Face Using Deformable Template）」（１９９２年、「Int. Journal of Comp. Vis」Vol.8、Iss.2、９９から１１１ページ）においてJuilleらによって説明されるような周知の方法を使用する。ここでは、口、目、及び虹彩／強膜の境界の位置を整合するテンプレートによって、使用する力を最小限にする方法が説明される。また、顔の特徴は、「律則される能動的外観モデル（Constrained active appearance models」（２００１年７月、IEEE Computer Society Press、第８回コンピューター・ビジョン会議第１巻７４８〜７５４ページ）において、T. F. CootesとC. J. Taylorとによって説明されるように能動的な外観モデルを使用して見つけることができる。好適な実施形態において、２００２年のProceedings of IS & T PICS会議における「ポートレート画像において顔の特徴を自動的に見つけるシステム（An automatic facial feature finding system for portrait images）」によりBolinとChenとによって説明される、人間の顔の能動的な形状モデルに基づいて顔の特徴点を配置する方法を使用する。

局所的特徴（local features）は、人物の定量的な記述（quantitative description）である。好適には、人物探知器１０８と特徴抽出器１０６とは、検出したそれぞれの人物について、局所的特徴の１つの組とグローバル特徴２４６の１つの組とを出力する。好適には、局所的特徴は、特定の顔の特徴に関連付けられた８２個の特徴点の配置に基づき、上述のCootesらの能動的外観モデルと同様な方法を使用して見つける。

図６に、顔の画像の局所的特徴点の視覚的な表示を示す。また、局所的特徴は、特定の特徴点の組を接続する線で形成される特徴点間の距離、又は特定の特徴点の組を結ぶ線により形成される角度、若しくは顔の外観の変動性を表現する主要な構成要素に特徴点を投射する係数にできる。

使用する特徴は、表１に記載され、その結果は、図６に番号を付されて示される顔の上の点を参照する。円弧（Ｐｎ、Ｐｍ）は、

で規定される。ここで、||Pn-Pm||は、特徴点ＰｎとＰｍとの間のユークリッド距離（Euclidean distance）である。円弧長特徴は、内眼距離によって分割されて、種々の顔の大きさに亘って標準化される。点ＰＣは、点０及び１の重心（すなわち、まさに目の中間点）に位置する点である。ここで使用する顔の測定値は、性別、年齢、誘引性、民族性の関連性を示している人物の顔の身体計測値から抽出する（「頭部及び顔の人体測定（Anthropometry of the Head and Face）」（１９９４年、Farkas(Ed.)第２版、Raven Press、ニューヨーク）。

人物探知器１０６によって人物の顔の特徴が見つけられると、カラーキュー（color cues）は、デジタル画像又はビデオから容易に抽出される。

また、種々の局所的特徴も使用できる。例えば、ある実施形態では、「認証のための固有顔（Eigenfaces for Recognition）」（１９９１年「Journal of Cognitive Neuroscience」（Vol.3、No.1、７１〜８６）においてM. TurkとA. Pentlandとによって説明される顔の類似点の測定基準に基づくことができる。顔の記述子は、顔の外観の変動性を表現する主要な構成要素の関数の組に顔の画像を投射することによって取得される。２つの顔の類似性は、同一の関数の組にそれぞれの顔を投射することによって取得される特徴のユークリッド距離を計算することによって測定される。

局所的特徴は、固有顔、顔の測定、色／構造情報、ウェーブレット特徴などのような、いくつかの共通点のない特徴の型の組み合わせを含むことができる。またさらに、局所的特徴は、目の色、肌の色、髪の色／構造、及び顔の形状のような定量化可能な記述子とともに表すことができる。

人物がカメラに背を向けるときなど人物の顔が見えない場合がある。しかしながら、衣服の領域が整合したとき、整合した領域の上部の場所に髪検出及び解析を使用して、人物カウントの付加的なキューと、画像における人物の存在の認識とを提供する。YacoobとDavidとは、「髪の検出及び解析（Detection and Analysis of Hair）」（２００６年７月、ＰＡＭＩ、IEEE Trans）において、髪の外観を検出し測定して種々の人々を比較する方法を説明する。この方法は、髪の色、構造、量、長さ、対称性、分け目の位置、髪に覆われる場所、及び生え際を含む髪の外観の多次元な表示を生成する。

ビデオを処理するために、顔追跡技術を使用してビデオのフレームに亘って人物の位置を見つける。ビデオにおける顔追跡の他の方法は、米国特許第６７００９９９号において説明される。ここでは、動作解析を使用して顔を追跡する。

さらに、これらのアルゴリズムで識別可能な人の数に制限がある画像がある。一般的には、制限は、写真内の人々の解像度の制限によるものである。このような状況では、イベントマネージャ３６は、イベントに重要な人々の数を近接する画像で評価するか、又は手動でカウントを入力するモードに移動する。

図５のそれぞれの画像における関連性がある人物の数のカウントが確立すると、イベントマネージャ３６は、イベントに関連性があるデータを包含する図７、図８、及び図９に示すイベント表２６４を形成する。このデータは、画像の数と画像当たりの人物の数とを含むことができる。さらに、未知の人物について、頭部、頭部の姿勢、顔、髪、及びそれぞれの画像内のそれぞれの人物に関連付けられる特徴を、人物が誰かを知ることなしに判定できる。図７において、図４の人物プロファイル２３６に示される先のイベントデータを形成し、イベント番号は、３３７１に割り当てる。

データベース１１４に記録がない人物を画像が含む場合は、双方向人別識別器２５０は、識別した顔の周りに円を付した画像を表示する。これによって、上述の米国特許第５６５２８８０号において説明されるように、ユーザは、名前と他の種類のデータとを顔にラベル付けすることができる。ここで、用語「タグ」、「見出し」、及び「注釈」は、用語「ラベル」と同意語として使用される。しかしながら、先の画像に人物が現れていた場合は、人物に関連付けられるデータを読み出して、図４の行１に示す１つのような人物プロファイル２３６データベース１１４を使用する、先に識別した人物分類器２４４のアルゴリズムのいずれかを使用して整合できる。ここで、データは、カテゴリにセグメント化される。記録されるこの識別は、人物識別、イベント番号、画像番号、顔の形状、顔の点、顔／髪の色／構造、頭部画像セグメント、姿勢角度、３次元モデル、及び関連付けられる特徴である。コレクションにおいて先に識別されたそれぞれの人物は、頭部のデータ及び先の画像で検出され関連付けられた特徴と連関される。さらに、画像クラスタリングで生成された単数又は複数の合成モデルもまた、名前及び関連付けられたイベント検出器と併せて記憶される。このデータを使用して、人物分類器２４４は、特定人物を含むコレクション内の単数又は複数の画像を識別する。図５の画像１に戻ると、左側の人物は、８２点の顔モデル又は固有顔のモデルを使用して識別できていない。第２の人物は、識別可能な８２個の点と、固有顔の構造とを有すが、図４に示す人物プロファイル２３６にこの人物に整合するデータがない。画像２において、人物は、レスリーに属するデータの組「Ｐ」として顔のモデルとの結合に適合する。画像３と、画像４の右側ともまた、レスリーに属するデータの組「Ｐ」として顔のモデルとの結合と適合する。図８に、このイベントデータの中間の表示を示す。

ステップ２１４において、識別された単数又は複数の画像において特定人物に関連付けられる１つ又は２つ以上の固有の特徴が識別される。関連付けられる特徴は、人物に関連付けられ、人物を固有なものとする物体の存在である。この関連付けられる特徴は、メガネ、服装の種類などを含む。例えば、Wiskottは、「顔の解析のための実体のない顔（Phantom Faces for Face Analysis）」（１９９７年、Pattern Recognition、Vol.30、No.6、８３７から８４６ページ）において、顔におけるメガネの存在の検出方法を説明する。関連付けられる特徴は、メガネの存在と形状とに関連する情報を含む。

簡潔に述べると、人物分類器２４４は、２人又は３人以上の人物に関連付けられる特徴の組の間の類似点を測定して、人物の類似点を決定することによって、人物が同一である尤度を決定する。特徴の組の類似の測定は、特徴のサブセットの類似性を測定することによって、遂行される。例えば、関連付けられる特徴が衣服を記述するとき、以下の方法を使用して、２つの特徴の組を比較する。画像捕捉時間の差異が小さく（すなわち２、３時間よりも小さい）、２つの特徴の組のそれぞれにおいて衣服の定量的な記述が類似する場合、局所的特徴の２つのセットが同一の人物に属する尤度が大きくなる。さらに、双方の局所的特徴の組において、非常に固有な、又は特徴的な模様を服装が有する（大きな緑、赤、及び青のパッチのシャツなど）場合、関連付けられる人物が同一の人物である尤度がさらに大きくなる。

服装は、異なる方法で表示できる。ZhuとMehrotraとに特許された米国特許第６４８０８４０号で説明される色及び構造の表示及び類似点を使用できる。米国特許第６５８４４６５号における織物に見られるように、他の表示では、ZhuとMehrotraとは、表示し整合する模様を特に意図する方法を説明する。この方法は、色不変であり、端部方向のヒストグラムを特徴として使用する。また、端部のマップから抽出される特徴、又は服装のパッチの画像のフーリエ変換係数は、整合する特徴として使用できる。端部、又はフーリエに基づく特徴を計算する前に、パッチは、同一の大きさに標準化されて、カメラ／ズームから被写体への距離に対して不変である端部の周波数を形成する。検出した顔の内眼距離を標準の内眼距離に変換する乗法因子が計算される。パッチの大きさが内眼距離から計算されるので、服装のパッチは、サブサンプルされ、又は標準的な大きさの顔にこの因子が対応するまで拡大される。

固有性の測定は、人物の全体的な整合スコア（match score）に対する整合又は非整合の寄与を決定するそれぞれの服装の模様について計算される。固有性は、模様の固有性と色の固有性との合計として計算される。模様の固有性は、パッチのフーリエ変換における、しきい値を超えるフーリエ係数の数に比例する。例えば、無地のパッチと、一様の間隔を空けた単一のストライプを有するパッチとは、それぞれ１つ（直流のみ）と２つの係数を有し、固有性のスコアが低くなる。模様がより複雑になるにつれて、記述に必要な係数の数が増え、固有性のスコアが高くなる。色の固有性は、人々の画像の大きなデータベースから特定の色が衣服に現れる尤度を取得することによって測定される。例えば、白色のシャツを人物が着る尤度は、オレンジ色、及び緑色のシャツを人物が着る尤度よりも非常に大きい。また、飽和色は、稀であり、より明確に整合できるので、信頼できる統計上の尤度がない場合は、色の固有性は、飽和に基づく。このように、画像の捕捉時間を有する服装の類似点又は相違点、及び服装の固有性は、対象の人物を認証する人物分類器２４４にとって重要な特徴である。関連付けられる特徴の固有性は、人々の画像の大きなデータベースから特定の衣服が現れる尤度を取得することによって測定される。例えば、白色のシャツを人物が着る尤度は、オレンジ色、及び緑色の格子縞のシャツを人物が着る尤度よりも非常に大きい。このように、画像の捕捉時間を有する服装の類似点又は相違点、及び服装の固有性は、興味の対象の人物を認証する人物分類器２４４にとって重要な特徴である。

関連付けられた１つ又は２つ以上の特徴を人物に割り当てるとき、固有性を決定するために、さらなる照合ステップが必要になる可能性がある。すべての子供がサッカーのユニフォームを着ている可能性がある。この場合には、番号と顔との他に、メガネ、又は靴と靴下とによって区別されるのみである。固有性が識別されると、これらの特徴は、固有性として記憶される。１つの実施形態においては、正面から見て顔の中心から顔を見回す。ほくろが頬にある可能性がある。耳に宝飾類がある可能性があり、入れ墨又は化粧、及びメガネが目と関連付けられる可能性がある。額、顔、又は帽子は、頭部の上部又は周囲にある可能性がある。スカーフ、シャツ、水着、又はコートは、頭部の周囲又は下部にある可能性などがある。追加的な検査は、以下の通りである。
ａ）同一の画像に写る２人は、関連付けられる同一の特徴を含むが、異なる特徴を有する（これによって、同一人物の鏡像から除外される他、関連付けられる同一の特徴を固有の特徴として使用する）。
ｂ）すべての画像において、関連付けられる同一の特徴を含む少なくとも２人の人物の異なる顔に対する少なくとも２つの明確な整合（これによって、これらの関連付けられる特徴が固有の特徴から除外される）。
ｃ）異なる画像において、同一人物であるが大幅に異なる服装である人物の明確な整合（これは、その人物が新しい服装を着ていることの合図であり、異なるイベント又はサブイベントを示唆し、データベース１１４の人物プロファイル２３６とともにイベントマネージャ３６によって、記録し収集される）。

図５に示され、図８の列７に記録される画像の例では、レスリーが有する関連付けられる固有の特徴として、お下げ髪が識別される。

ステップ２１６は、識別された特徴を使用して残りの画像を探索して、特定人物の特定の画像を識別する。人物の明確な表示によって、固有の特徴は、単数又は複数の画像ファイルから抽出され、残りの画像において比較できる。メガネは、正面及び側面からはっきりと見ることができる。髪、帽子、シャツ、又はコートは、すべての角度から見ることができる。

特定人物に関連付けられる物体は、物体の種類によって様々な方法で整合できる。多くの部分又はセグメントを有する物体（自転車、車など）について、ZhangとChangとは、Proc. of IEEE CVPR 2006において、ランダムに起因する相関グラフ（Random Attributed Relational Graph（ＲＡＰＧ））と称されるモデルを説明する。この方法では、ランダム変数の確率密度関数を使用して、部分の出現及び関係の統計値を捕捉して、物体の部分を表すノードの変数番号を有するグラフを生成する。このグラフを使用して、異なる場面における物体を表示し整合する。

特定の部分及び形状がない物体（服装など）を使用する方法は、色、構造、及び端部に基づく情報のように整合に使用できるレベルが低い物体の特徴を含む。具体的には、Loweは、「International Journal of Computer Vision」（２００４年Vol.1、60、NO.2）において、画像のおける興味の対象の端部及び隅部を表す、大きさが不変の特徴（scale-invariant features、（ＳＩＦＴ））を説明する。また、Loweは、画像の他の部分が変化して、模様の大きさ及び方向が変化した場合でさえも、ＳＩＦＴを使用して模様を整合する方法を説明する。この方法を使用して、衣服、帽子、入れ墨、及び宝飾類の独特な模様を整合できる。

また、ＳＩＦＴ法は、局所的特徴を使用できる。「ＩＥＥＥ音響・音声・信号処理国際会議（ＩＣＡＳＳＰ）２００７年４月１５日〜２０日、ハワイ州ホノルル」において発行されたLuoらによる「顔認証のための人物特定ＳＩＦＩ特徴（Person Specific SIFT features for Face Recognition）」において、人物を特定するＳＩＦＩ特徴と、キーポイントとなるクラスタリングにおいて局所的類似性及びグローバルな類似性を組み合わせた単純且つ非飽和の整合戦略（matching strategy）とを使用して、顔認証の問題を解決する。

また、メガネのような、共通に生じる特定の物体を専ら見つけるためのさらなる方法がある。Wuらは、PAMI（２００４年、Vo1.3、No.26）におけるIEEE Transactionsにおいて、メガネを自動的に検出し、場所を見つける方法を説明する。この方法は、マルコフ連鎖モンテカルロ法を使用して、メガネのフレームにキーポイントを配置する。メガネが検出されると、その形状は特徴付けられて、ＩＥＥＥＣＶＰＲ２００５においてBergらが説明した方法を使用して、画像に亘って整合される。このアルゴリズムは、整数２次計画問題（integer quadratic programming problem）の解法として設定することによって、物体におけるキーポイント間の対応を見つける。

図８に記述される図５のイベント画像コレクションに戻り参照すると、色及び構造のマッピングを使用して、画像の形状をセグメント化し抽出するときに、お下げ髪は、画像１及び画像５のレスリーの明確な整合を提供できる。さらに、レスリーの髪の色及び構造と、衣服の色及び模様とに関連付けられるデータセットＱは、関連付けられた特定人物の特徴の画像に亘る水平の割り当ての確認を提供する。

特徴に関連付けられる固有性のこれらの種類の検出に基づいて、人物分類器２４４は、この例ではレスリーである特定人物に、先にラベルが付された識別をラベル付けする。

ステップ２１８は、特定人物を含む特定の画像から頭部の要素及び特徴をセグメント化し抽出する。この場合、身体と頭部とに関連付けられる要素は、適応Bayesian色セグメント化アルゴリズム（「写真用カラー画像の物理学に基づくセグメント化について（Towards physics-based segmentation of photographic color image）」（Luo他、１９９７年、Proceeding of the IEEE international conference on Image Processing））において説明される技術を使用してセグメント化し抽出する。このアルゴリズムを使用して、任意の形状の扱いやすい数の物理的に理解しやすい領域を生成する。このセグメント化方法は、好適であるが、当業者は、本発明の範囲から逸脱することなしに、異なるセグメント化方法を使用して物体の任意の形状の領域を取得できることは明らかである。任意の形状の領域のセグメント化は、（１）物体の大きさ、形状、位置、及び物体の空間的な関係の正確な測定、（２）物体の色及び構造の正確な測定、（３）キーとなる対象の正確な分類、という利点を提供する。

まず、画像を領域に初期セグメント化する。セグメント化は、画像のカラーヒストグラムをコンパイルして、画像内の典型的且つ目立つ色に対応する複数のクラスタリングにヒストグラムを区分することによって、遂行される。「写真用カラー画像の物理学に基づくセグメント化について（Towards physics-based segmentation of photographic color image）」（Luo他、１９９７年、Proceeding of the IEEE international conference on Image Processing））に記載されるように、画像のそれぞれのピクセルは、色のクラスタリングの平均値に対する、好適には物理ベースの色距離測定基準に従って、色空間において最も近いクラスタリングに分類される。この分類処理により、画像の初期セグメント化が終了する。近傍のウィンドウがぞれぞれのピクセルに配置されて、近傍のどのピクセルを使用して、このピクセルの局所的色ヒストグラムを計算するかを判定する。局所的色ヒストグラムが画像全体のヒストグラムと同一なときに再計算する必要がないように、このウィンドウの大きさは、最初は画像全体の大きさに設定される。

次に、現在のセグメント化に基づいてそれぞれの色分類の局所的な平均値を再計算する処理と、更新した色分類の平均値に従ってピクセルを再分類する処理という、交互に起こる２つの処理の間で相互作用手順が実行される。この相互作用手順は、収束に至るまで実行される。この相互作用手順の間、空間的な拘束の強さは、段階的な方法で調整できる（例えば、空間的な拘束の強さを示すβ値は、反復に従って直線的に増加する）。特定のウィンドウの大きさに収束が至った後に、色分類の局所的な平均値を推定するために使用するウィンドウは、半分の大きさに削減される。相互作業手順は、ウィンドウの大きさの削減を繰り返して、色分類の局所的な平均値をより正確に推定することが可能になる。この機構は、空間的に順応するようにセグメント化処理に導入される。最終的には、画像のセグメント化は、最小のウィンドウの大きさに相互作用手順が収束するときに取得される。

上述のセグメント化アルゴリズムは、構造セグメント化に拡張して実行できる。セグメント化の入力として色の値を使用する代わりに、構造の特徴を使用して、同一のフレームワークを使用する構造セグメント化を実行する。典型的な種類の構造の特徴は、ウェーブレット特徴である（「ウェーブレットを使用する画像の自動ロバスト・クラスティング・スキーム（A robust automatic clustering scheme for image segmentation using wavelet）」（R. Porter、N. Canagaraj ah、１９９６年４月、IEEE Transaction on Image Processing、vol.A5、Ａ６６２〜６６５ページ）。

さらに、色の特徴及び構造の特徴の両方に基づいた画像セグメント化を実行するために、色の値とウェーブレットの特徴とからなる合成入力を、説明した方法の入力として使用できる。色セグメント化と構造セグメント化との合成により、均質な色又は構造の領域がセグメント化される。

このように、画像のセグメントは、それぞれに関連付けられる特徴とともに、頭部と身体とから抽出され、人物プロファイル２３６に名前によりファイルされる。

ステップ２２０は、識別された要素と、抽出された特徴と、画像セグメントとを使用して、人物の頭部の少なくとも一部の合成モデルを構成する。合成モデル２３４は、画像コレクションに関連付けられる人物プロファイル２３６の情報のサブセットである。さらに合成モデル２３４は、人物の頭部及び身体から抽出された少なくとも１つの表示を含む、複雑且つ関連した部分で形成される概念的な全体として規定できる。さらに、合成モデル２３４は、特定人物から抽出され関連づけられた特徴を含むことができる。この特徴は、服装、メガネ類、宝飾類、耳の付属物（補聴器、電話の付属物）、入れ墨、化粧、顔髭、ほくろ及び火傷のような顔の欠陥、義肢、及び包帯などを規定する特徴を含むことができる。一般的に服装は、人が身に着ける衣服として規定される。服装は、シャツ、ズボン、ドレス、スカート、靴、靴下、水着、コート、縁なし帽子、スカーフ、手袋、帽子、及び制服を含むことができる。この色及び構造の特徴は、典型的には服装の項目に関連付けられる。典型的には、色と構造との組み合わせは、見本として参照される。服装の総称的な要素のアイコン又はグラフィック表示にこの特徴の見本を割り当てることにより、識別される人物の衣装棚に属しているかのように、衣服の項目などを視覚化することができる。衣服の項目のカタログ又はライブラリを作成することにより、識別される人物の色の好みを決定できる。この好みを使用して、人物の人物プロファイル２３６を生成し、又は向上できる。さらにこれを使用して、類似する又は補完的な品目を提示して、識別されプロファイル化される人物が購入できる。

帽子は、ランダムに頭部を覆うことができ、又は野球のような特定の活動を特定できる。ヘルメットは、帽子の他の形式であり、特定のスポーツを人物がしていることを示すことができる。スポーツでは、チームのロゴが帽子に印字されることが多い。これらのロゴの認証は、参照することによって開示が本明細書に包含される同一出願人による米国特許第６９５８８２１号に教示される。これらの技術を使用すると、人物プロファイル２３６を向上でき、このプロファイルを使用して、好みのスポーツ又は好みの品目に関連付けられる付加的な商品又はサービスを人物に提示できる。ネックレスもまた、生活様式又は文化に関連付けられる特徴的な模様を有して、ユーザのプロファイルをさらに向上できる。ネックレスは、色、生活様式、又は他の多くの好みに応じた個人の嗜好を反映できる。

ステップ２２２において、人物の識別は、イベントを撮影した画像コレクションにおいて識別可能な人々のすべての顔を分類するまで、双方向人別識別器２５０と人物分類器２４４とを使用して続けられる。ジョンとジェロームとが兄弟である場合、顔が類似するため、人物識別のためにさらなる解析が必要となる可能性がある。家族写真の領域では、顔認証の問題は、少数の（通常１０個以内）選択の中から所与の顔のために正確なクラス（人物）を見つけることが必要になる。この複数クラスの顔認証の問題は、対分類パラダイム（pair-wise classification paradigm）を使用して求めることができる。ここで、対分類パラダイムは、それぞれの対クラスについて策定される。対アプローチを使用する有利な点は、２人の人物間の実際の相違点が、他の人々とは別にデータの組において探求され、これによって、特定の一対の人物をより正しく区別する特徴及び特徴の重みを見つけることができる。家族写真の領域では、データベースにおいて、人々の間で類似することが多いので、このアプローチは、より適切である。また、データベースの主要な人物が少ない場合は、このアプローチを使用できる。このアプローチは、Guoらによって示されており（ＩＥＥＥＩＣＣＶ２００１）、すべての顔に同一の特徴の組を使用する標準的なアプローチによる顔認証性能を改良する。Guoらによって記される他の所見は、同一レベルの性能を取得するために必要な特徴の数は、グローバルな特徴の組を使用するときと比べて、対アプローチを使用すると非常に少なくなることである。一対の顔は、１つの特徴のみを使用して完全に分離できる場合があり、大部分では、必要とされるのは合計の特徴の組の１０％より少ない。使用する特徴は、特定の人物間の主要な相違点を対象とするため、このように考えられる。合成モデル２３４の有利な点は、非常に多様な顔の特徴を解析できることである。さらに、傾向が現れると、固有な特徴の適応システムによってその傾向を見つけることができる。さらに、髪は、一方の色そして他方の色、一方の顔髭そして他方の顔髭と２つのモードにできる。一般的には、この傾向は、多モード分布（multimodal distribution）に限定される。これらのいくつかのモードは、イベントにクラスタリングされる画像の合成モデルにおいてサポートできる。

Ｎ人の主要な人物をデータベースが有する場合、Ｎ（Ｎ−１）／２個の２クラス分類器（two-class classifiers）が必要である。分類器は、それぞれの対について、その特定の対が最大限に識別されるように重み付けた特徴の組を全体の特徴の組から使用する。これによって、異なる特徴の組を異なる一対の人に使用することが可能になる。この戦略は、すべての顔の比較に単一の特徴空間を使用する従来のアプローチとは異なる。人物を識別する実験で報告されるように、人間の視覚システムもまた異なる特徴を使用して異なる一対を区別するようである。これは、双生児など、とてもよく似ている人の間を人物が見分けようとするときにより明白になる。特定の特徴を使用して双生児の間を見分けることができるが、この特徴は、異なる対の間を見分けるために使用する単数又は複数の特徴とは異なる。顔のクエリ画像が着信するとき、Ｎ（Ｎ−１）／２個の分類器を通過する。それぞれの分類器Φm,nにおいて、クエリがクラスｍに分類される場合は、出力は１であり、クラスｎに分類される場合は０である。対分類器の出力は、いくつかの方法で組み合わせることができる。最も簡単な方法は、クエリの顔をＮ（Ｎ−１）／２個の分類器のなかで最も多い投票総数を集めるクラスに割り当てることである。ここでは、それぞれのクラスｍに対してクエリを最大投票総数に割り当てる投票総数

の計算のみが必要である。Φm,nは、Φn,mと同一の分類器であると仮定される。

使用される顔の特徴の組は、固有顔、フィッシャ顔（Fisher faces）、顔測定（facial measurements）、ガボールウェーブレット（Gabor wavelet）及び他のもの（Zhaoらが、ACM computing surveysにおいて２００３年１２月に顔認証技術の総括的な概説を行っている）を含む顔認証に一般的に使用される特徴のいずれかから選択できる。また、ペアワイズ、２クラスの分類問題に使用できる多くの種類の分類器がある。「ブースティング（Boosting）」は、一群の非力な分類器を組み合わせて、より強力な分類器を形成する方法である。（Eurocolt 1995でFreundとSchapireとが説明した）AdaBoostのようなマージンが大きい分類器は、訓練データの２つのクラスの間で最良の分類を提供して良好な一般化能力をもたらす決定戦略を見つけるので、本発明には好適な方法である。この分類戦略は、多量の手動によるラベル付けを消費者に強いるラベルが付された訓練例の多量の組を用意する必要がないため、本発明の応用にとても適当である。

実施例では、ジョンは、顔の点の整合及び固有顔を有し、人物分類器は、人物ジョンと名付ける。顔の形状ｙと、顔の点ｘと、顔髭の色及び構造ｚとを有する不明確な人物は、双方向人別識別器２５０を使用してユーザによってサラと識別される。代替的には、サラは、他のコンピュータ、カメラ、インターネットサーバ、又は取り外し可能なメモリに配置される異なるデータベースのデータを使用して、人物分類器２４４を使用して識別できる。

図５におけるイベントの画像の実施例において、新しい衣服は、サラに関連付けられ、新しいズボンは、ジョンに関連付けられる。これは、イベントが変化した可能性のマーカである。図９に示すように、画像のイベントへの分類をさらに改良するために、イベントマネージャ３６は、イベント表２６４を修正して、新しいイベント番号３３７２を生成する。その結果、図９に示すイベント表２６４は、人物分類をここで終了する。図１０に更新したクラスタリングを示す。図９におけるデータを図４に付加して、図１１に示すような更新された人物プロファイル２３６を得ることができる。なお、図１１の列６、行８〜１６において、データの組は、レスリーの顔／髪の色／構造が変更されている。人物プロファイル２３６に包含されるこのデータによって、１つのイベントから次のイベントに髪が色を変えることができる。

合成モデルは、最新の探索のために特定人物の頭部の一部が記憶されることと、特定人物を含む識別された画像のそれぞれにおいて頭部の姿勢を決定することと、特定人物の頭部の３次元モデルを作成することとを含む。図１２を参照すると、合成モデルを構成するフローチャートが説明される。ステップ２２４は、イベントから特定人物の頭部の少なくとも一部のセグメントを集める。これらのセグメントは、合成モデルとして別々に使用でき、イベント表２６４又は人物プロファイル２３６から獲得される。ステップ２２６は、それぞれの画像の人物の頭部の姿勢角度を決定する。頭部の姿勢は、顔の画像を処理する視覚システムの能力を向上する重要な視覚上のキューである。このステップは、人物が識別される前又は後に実行できる。

頭部の姿勢は、ヨー（yaw）、ピッチ（pitch）及びロール（roll）の３つの角度に関する要素を有する。ヨーは、垂直軸に対して左右に回転する頭部の角度に言及する。ピッチは、水平軸に対して上下を指し示す頭部の角度に言及する。ロールは、前頭面に垂直な軸に対して左右に傾ける頭部の角度に言及する。ヨーとビッチとは、前頭面に対して顔が向く方向を変更するので、面外の回転として言及される。反対に、ロールは、前頭面に対して顔が向く方向を変更しないので、面内の回転として言及される。参照することによって本明細書に包含される同一出願人による米国特許出願第２００５／０１０５８０５号は、物体の平面における回転方法を説明する。

一般的にはモデルに基づく姿勢推定の技術は、画像から人物の３次元頭部形状を再生して、３次元モデルを使用して頭部の方向を推定する。モデルに基づく典型的なシステムは、参照することによって本明細書に包含される「総称的モデルを使用する１つの画像からの頭部姿勢の決定（Head Pose Determination from One Image Using a Generic Model）」（Shimizu他、１９９８年、Proceedings IEEE International Conference on Automatic Face and Gesture Recognition）に開示される。開示されるシステムにおいて、端部の曲線（目、口、眉の輪郭など）は、３次元モデルにおいて最初に規定される。次に、入力画像は、モデルにおいて規定される端部の曲線に対応するカーブが探索される。モデルと入力画像とにおける端部の曲線の間の対応が確立した後に、頭部の姿勢は、様々な姿勢角度を通じて３次元モデルを双方向で調整し、入力画像に適合する最も近い曲線を示す調整を決定することによって推定される。最も近い曲線との適合を示す姿勢角度は、入力画像の姿勢角度に決定される。このように、合成３次元モデルの人物プロファイル２３６は、３次元モデルを改善し、人物識別を改良する姿勢推定を続けるための重要な道具である。

外観に基づく姿勢推定技術は、人物の頭部と、既知の方向における一式の顔のテンプレート画像とを比較することによって、頭部の姿勢を推定できる。人物の頭部は、最も共通点を有するテンプレート画像と同一の方向を共有すると考えられる。典型的なシステムは、「実施例に基づく頭部追跡（Example-based head tracking）」（S. Hiyogi、W. Freeman、１９９６年、「Technical Report TR96-34、MERL Cambridge Research」）において提案されるシステムである。

外観に基づく他の技術は、ニューラルネットワーク、サポートベクターマシン、又は他の分類方法を使用して、頭部の姿勢を分類できる。この方法の実施例は、「マシン学習によるロバスト頭部姿勢推定（Robust head pose estimation by machine leaning）」（Ce Wamg、Brandstein、M. Image Processing、2000、 Processing. 2000 International Conference on Volume 3、Issue、2000 page 210〜213 Vol.3）を含む。他の実施例は、「ニューラルネットワークを使用するマルチビュー頭部姿勢推定（Multi-View Head Pose Estimation using Neural Networks）」（Michael Voit、Kai Nickel、Rainer Stiefelhagen、The 2nd Canadian Conference on Computer and Robot Vision (CRV'05)、３４７〜３５２ページ）を含む。

ステップ２２８は、特定人物の頭部の単数又は複数の３次元表示を構成する。図１０において識別される３人の人物の頭部の例では、３次元モデルを生成するのに十分に異なるレスリーの写真がある。画像内の他の人物は、モデルを作成するためのデータを有するが、レスリーのモデルほど正確なモデルにはならないであろう。合成モデルを作成するために抽出される特徴のいくつかを反映し、認識できる。しかしながら、ジョンの人物プロファイル２３６は、先の画像を有し、このイベントと組み合せて先のイベントから合成３次元モデルを生成するのに先の画像を使用できることになる。

３次元表示は、次に行われる探索と人物識別とに有益である。これらの表示は、人物に関連付けられる具現（avatar）、ナレーション、ゲーム、及びアニメーションに使用できる。これら一連の３次元モデルは、姿勢推定と明暗ツール（lighting and shadow tools）とともに様々な表示から生成できる。ＧＰＳシステムから抽出されるカメラの角度によって、一致した照明が可能なので、３次元モデルの作成を改良できる。人が屋外にいる場合、カメラが太陽光に対して同一の方向を指示する場合と同様な照明にできる。さらに、人物のいくつかの写真で背景が同一な場合は、イベントマネージャ３６で確立されるときに、同様な照明とみなすことができる。また、人物の多くの表示から短い期間にコンパイルすることが望まれる。複数の表示は、人物のいくつかの異なる正面表示に基づいて交換可能な表情を有する３次元モデルに統合できる。

３次元モデルは、１枚、又は数枚の画像から生成でき、高い解像度を提供するのに十分な大きさの頭部を有する画像の合成数が増加することにより精度が上がる。参照することによって本明細書に包含される同一出願人による米国特許第７１２３２６３号、第７０６５２４２号、第６５３２０１１号、第７２１８７７４号、及び第７１０３２１１号に３次元モデル化方法がいくつか説明される。本発明は、メッシュ多角形アレイ（array of mesh polygon）、基線パラメータ（baseline parametric）、総称的頭部モデル（generic head model）を使用する公知のモデルを使用する。構造マップ又は頭部の特徴の画像部分は、生成された表面に適用されて、モデルを生成する。

ステップ２３０は、イベントからの少なくとも１つのメタデータ要素を有する、特定人物の識別に関連付けられた合成画像ファイルとして記憶する。これにより、写真コレクションにおいてイベントに亘る一連の合成モデルが可能になる。これらの合成モデルは、年齢、髪型、又は衣服によって特定人物の外観をグループ化するのに有用である。画像コレクションにおいて相当の時間の間隔がある場合、類似する姿勢角度を有する画像の一部を変形させて、時間の間隔を満たすことができる。後に、これによって、時間の間隔の写真を付加することによって、人物識別を助力できる。

図１３を参照すると、写真内の特定人物を識別するフローチャートによって、合成モデルの使用法が説明される。

ステップ４００は、特定人物の写真を受信する。

ステップ４０２は、特定人物を整合するために、頭部の特徴と関連付ける特徴とを探索する。

ステップ４０４は、画像内の人物の頭部の姿勢角度を決定する。

ステップ４０６は、人物プロファイルのすべての人々を姿勢角度によって探索する。

ステップ４０８は、受信写真の表情を決定し、人物データベースを探索する。

ステップ４１０は、受信した写真の姿勢に単数又は複数の３次元合成モデルを回転する。

ステップ４１２は、受信した写真の照明を決定し、３次元モデルを明るくするために再製する。

ステップ４１４は、整合のためにコレクションを探索する。

ステップ４１６は、手動、自動、又は提案する識別法によって写真内の人物を識別する。

図１４は、合成モデルの他の使用法のためにデジタル画像コレクション内の特定人物を探索するフローチャートである。

ステップ４２０は、特定人物の探索要求を受信する。

ステップ４２２は、特定人物の抽出された頭部要素を表示する。

ステップ４２４は、日付、イベント、姿勢、角度、表情などによって表示を体系化する。

当業者は、本発明の範囲から著しく逸脱することなしに、本発明の記述に多くの変形を行うことができることを理解することになるであろう。

３６イベントマネージャ
１０２デジタル画像コレクション
１０４ラベル器
１０６特徴抽出器
１０８人物探知器
１１０人物検出器
１１２デジタル画像コレクションサブセット
１１４データベース
１３０抽出及びセグメント化
２１０ブロック
２１２ブロック
２１４ブロック
２１６ブロック
２１８ブロック
２２０ブロック
２２２ブロック
２２４ブロック
２２６ブロック
２２８ブロック
２３０ブロック
２３４合成モデル
２３６人物プロファイル
２３８関連特徴検出器
２４０局所特徴検出器
２４２グローバル特徴検出器
２４４人物分類器
２４６グローバル特徴
２５０双方向人物識別器
２５２人物抽出器
２５４人物画像セグメント化器
２５８関連特徴セグメント化器
２６０姿勢推定器
２６２３次元モデル作成器
２６４イベント表
２７０顔検出器
２７２捕捉時間分析器
３０１デジタルカメラ付き携帯電話
３０３フラッシュ
３０５レンズ
３１１ＣＭＯＳ画像センサ
３１２タイミング生成器
３１４画像センサアレイ
３１６Ａ／Ｄコンバータ回路
３１８ＤＲＡＭバッファメモリ
３２０デジタルプロセッサ
３２２ＲＡＭメモリ
３２４リアルタイムクロック
３２５位置決定器
３２８ファームウェアメモリ
３３０画像／データメモリ
３３２カラー表示部
３３４ユーザ制御
３４０音声コーディク
３４２マイク
３４４スピーカ
３５０無線モデム
３５２無線チャネル
３５８携帯電話ネットワーク
３６２ドックインタフェース
３６４ドック／充電器
３７０インターネット
３７２サービスプロバイダ
３７５一般的な制御コンピュータ
４００ブロック
４０２ブロック
４０４ブロック
４０６ブロック
４０８ブロック
４１０ブロック
４１２ブロック
４１４ブロック
４１６ブロック
４２０ブロック
４２２ブロック
４２４ブロック

Claims

特定人物の頭部の少なくとも一部の合成モデルを構成することによって、画像内の特定人物の認証を改良する方法であって、
（ａ）特定のイベントの間に撮影した画像のコレクションを獲得するステップと、
（ｂ）前記コレクション内の特定人物を含む単数又は複数の画像を識別するステップと、
（ｃ）前記識別された単数又は複数の画像内の前記特定人物に関係付けられる１つ又は２つ以上の特徴を識別するステップと、
（ｄ）前記コレクションの他の画像中の前記特定人物を識別するために、前記識別された特徴を使用して前記コレクションを探索するステップと、
（ｅ）前記特定人物の識別された画像を使用して、前記特定人物の頭部の少なくとも一部の合成モデルを構成するステップと、
を含む方法。
前記特徴は、服装を含む請求項１に記載の方法。
前記合成モデルは、
（ｉ）最新の探索のために前記特定人物の前記頭部の一部が記憶されるステップと、
（ｉｉ）前記特定人物を含む前記識別された画像のそれぞれにおいて前記頭部の姿勢を決定するステップと、
（ｉｉｉ）前記特定人物の前記頭部の３次元モデルを作成するステップと、
を含む請求項１に記載の方法。
次のコレクションの探索に使用するために前記識別された特徴を記憶するステップをさらに含む請求項３に記載の方法。
前記合成モデル（ｉ）、又は（ｉｉｉ）を使用して、前記特定人物を識別するために他の画像コレクションを探索するステップをさらに含む請求項３に記載の方法。
前記記憶され識別された特徴を使用して、前記特定人物を識別するために他の画像コレクションを探索するステップをさらに含む請求項５に記載の方法。
前記合成モデル（ｉｉ）を使用し、頭部の特徴を抽出し、該抽出した頭部の特徴を使用して、前記特定人物を識別するために他の画像コレクションを探索するステップをさらに含む請求項３に記載の方法。
前記記憶され識別された特徴を使用して、前記特定人物を識別するために他の画像コレクションを探索するステップをさらに含む請求項７に記載の方法。