JP5612310B2

JP5612310B2 - 顔認識のためのユーザーインターフェース

Info

Publication number: JP5612310B2
Application number: JP2009537150A
Authority: JP
Inventors: チャールズギャラガー，アンドリュー; シー．ルイ，アレクサンダー; ディー．セロサレッティ，キャスリーン; エル．ヒビノ，ステイシー; ダス，マディラクシ; オー．ステュブラー，ピーター
Original assignee: インテレクチュアルベンチャーズファンド８３エルエルシー
Priority date: 2006-11-14
Filing date: 2007-11-05
Publication date: 2014-10-22
Anticipated expiration: 2027-11-05
Also published as: EP2092461A1; US8315463B2; JP2010509695A; US20080112621A1; WO2008076179A1

Description

本発明の分野は、デジタル画像及びビデオの収集物を管理、ラベル付け、及び探索することに関する。

デジタル写真技術の到来に伴って、消費者は、デジタル画像及びビデオの大量の収集物を蓄えつつある。１撮影者当たりのデジタルカメラによる画像キャプチャの平均数は、年々さらに増えつつある。結果として、画像及びビデオの整理及び検索は、典型的な消費者にとって既に問題である。目下のところ、典型的な消費者のデジタル画像収集歴は数年に過ぎない。平均的なデジタル画像及びビデオの収集歴が長くなるのに伴って、整理及び検索の問題は増大し続けることになる。

ユーザーは、該当する特定の人物を含有する画像及びビデオを見つけ出すことを望む。ユーザーは、該当人物を含有する画像及びビデオを見付けるために、手動検索を実施することができる。しかし、これは緩慢な、骨の折れるプロセスである。後から検索ができるように画像内の人々を指し示すラベルをユーザーが画像に付けるのを可能にする商業的ソフトウェア（例えばAdobe Systems Inc.によるAdobe Album）があるものの、最初のラベル付けプロセスは、依然として極めて退屈なものであり、また多大な時間がかかる。

顔認識ソフトウェアは、グラウンド・トゥルースラベル付け(ground-truth labeled)画像集合(set of image)(すなわち、対応する人物同一性を有する画像集合)の存在を想定する。ほとんどの消費者画像収集物は、同様のグラウンド・トゥルース集合を有していない。加えて、顔認識は一般に、トレーニング段階を必要とし、この段階で、ユーザーはその収集物から多くの画像にラベルを付けなければならない。このようなラベル付け段階は、退屈なものであり、また多大な時間がかかる。多くのユーザーは、画像収集物を準備するために自分の側では労力をほとんど又は全くかけずに、画像内の人物たちの同一性に基づいて、画像収集物全体にわたる何らかの探索ができることを望むようになる。

人々をセキュリティ又はその他の目的のために認識しようと試みる多くの画像処理パッケージが存在する。いくつかの例としては、Cognitec Systems GmbHのFaceVACS顔認識ソフトウェア、及びImagis Technologies Inc.及びIdentix Inc.のFacial Recognition SDKがある。これらのパッケージは主に、人物が均一の照明、正面のポーズ、及び無表情でカメラに向き合うセキュリティ・タイプ用途向きである。これらの方法は個人消費者の画像収集物とともに用いるには、ワークフローが不親切であるため、適していない。

本発明の目的は、画像収集物を探索し、収集物内の固有のオブジェクト又は顔を識別することである。

本発明は、画像収集物を整理する方法であって、画像収集物内の顔を検出すること、該検出された顔から特徴を抽出すること、該抽出された特徴を分析することにより、固有顔集合を決定すること、ここで該固有顔集合内のそれぞれの顔は、該集合内の他の顔とは異なる人物に由来するものと考えられる、そして該固有の顔をユーザーに表示することを含んで成る画像収集物を整理する方法によって達成される。

図面に示された態様を参照しながら、本発明の主題を説明する。

図１は、本発明を実施することができるカメラ付き電話機に基づく撮像システムを示すブロックダイヤグラムである。図２は、図１のシステムを使用する、デジタル画像収集物内の画像を探索してラベル付けするための本発明の態様を示すフローチャートである。図３は、検出される顔を含む収集物内の代表的な画像集合を示す図である。図４は、図３の収集物から導き出された代表的な固有アイコン集合を示す図である。図５は、ラベル付けされた画像と固有のアイコンとの収集物を示す図である。図６は、デジタル画像収集物の、ユーザー開始型のクエリー（アイコン又はラベル）によって見いだされる画像の部分集合を示す図である。図７は、図２の特徴抽出子１０６を示すフローチャートである。図８は、顔のジオメトリック特性を記述する特徴の視覚的表現を示す図である。図９は、アイコン４２４及び４２６が同じ顔である複数の顔のアイコンを示す図である。

下記において、本発明のいくつかの態様をソフトウェア・プログラムとして説明する。このような方法の等価のものを、本発明の範囲内でハードウェア又はソフトウェアとして構成することもできることは、当業者には容易に明らかであろう。

画像操作アルゴリズム及びシステムは良く知られているので、本説明は具体的には、本発明に基づく方法の一部を形成するか、又はこの方法とより直接的に協働するアルゴリズム及びシステムを対象とすることになる。このようなアルゴリズム及びシステムの他の観点、並びにここで具体的には図示又は記載されていない、これらと関与して画像信号を生成し、その他の形式で処理するためのハードウェア又はソフトウェアは、当業者に知られているこのようなシステム、アルゴリズム、成分、及び要素から選択することができる。下記明細書における記載内容を考えると、その全てのソフトウェアの実施は従来通りであり、当業者の通常の技術範囲内にある。

図１は、本発明を実施することができる、デジタルカメラ付き電話機３０１に基づく撮像システムのブロックダイヤグラムである。デジタルカメラ付き電話機３０１は、デジタルカメラの１つのタイプである。好ましくは、デジタルカメラ付き電話機３０１は、画像をキャプチャリングして見直すときにユーザーが容易に手で持つのに十分に小さな、携帯可能な電池動作型デバイスである。デジタルカメラ付き電話機３０１は、例えば内部フラッシュＥＰＲＯＭメモリー、又は取り外し可能なメモリーカードであることが可能な画像データ／メモリー３３０を使用して記憶されるデジタル画像を生成する。画像データ／メモリー３３０を提供するために、代わりに他のタイプのデジタル画像記憶媒体、例えば磁気ハードドライブ、磁気テープ、又は光デスクを使用することもできる。

デジタルカメラ付き電話機３０１は、シーン（図示せず）から相補型金属酸化膜半導体（ＣＭＯＳ）画像センサー３１１の画像センサーアレイ３１４上に光を集束するレンズ３０５を含む。画像センサーアレイ３１４は、よく知られたBayerカラーフィルター・パターンを使用してカラー画像情報を提供することができる。画像センサーアレイ３１４は、タイミング発生器３１２によって制御され、タイミング発生器３１２はまた、周囲の照明が暗いときにシーンを照らすために、フラッシュ３０３を制御する。画像センサーアレイ３１４は、例えば１２８０列×９６０行の画素を有することができる。

いくつかの態様の場合、デジタルカメラ付き電話機３０１は、低解像度ビデオ画像フレームを形成するために、画像センサーアレイ３１４の複数の画素を合計する（例えば画像センサーアレイ３１４の各４列×４行領域内部に同じ色の画素を合計する）ことによって、ビデオクリップを記憶することもできる。ビデオ画像フレームは、例えば１秒当たり２４フレームの読み出し速度を用いて、規則的なインターバルで、画像センサーアレイ３１４から読み取られる。

画像センサーアレイ３１４からのアナログ出力信号は増幅され、そしてＣＭＯＳ画像センサー３１１上のアナログ−デジタル（Ａ／Ｄ）変換器回路３１６によって、デジタルデータに変換される。デジタルデータは、ＤＲＡＭバッファメモリー３１８内に記憶され、そして続いて、フラッシュＥＰＲＯＭメモリーであってよいファームウェア・メモリー３２８内に記憶されたファームウェアによって制御されるデジタルプロセッサ３２０によって処理される。デジタルプロセッサ３２０は、デジタルカメラ付き電話機３０１及びデジタルプロセッサ３２０が低電力状態にある時にもデータ及び時間を保持するリアルタイム・クロック３２４を含む。

処理されたデジタル画像ファイルは、画像／データメモリー３３０内に記憶される。画像／データメモリー３３０は、ユーザーの個人情報、例えばアドレス帳、連絡先、及びカレンダーなどを記憶するために使用することもできる。画像／データメモリーは、他のタイプのデータ、例えば電話番号、しなければならないことのリストなどを記憶することもできる。

静止画像モードの場合、デジタルプロセッサ３２０は、レンダリングされたｓＲＧＢ画像データを生成するために、カラー補間、及びこれに続いてカラー及びトーンの補正を行う。デジタルプロセッサ３２０は、ユーザーによって選択された種々様々な画像サイズを提供することもできる。レンダリングされたｓＲＧＢ画像データは次いでＪＰＥＧ圧縮され、そして画像／データメモリー３３０内にＪＰＥＧ画像ファイルとして記憶される。ＪＰＥＧファイルは、前述のいわゆる「Ｅｘｉｆ」画像フォーマットを使用する。このフォーマットは、種々のＴＩＦＦタグを使用して特定の画像メタデータを記憶するＥｘｉｆアプリケーション・セグメントを含む。例えば、ピクチャがキャプチャリングされた日付及び時刻、レンズのｆ／ナンバー及びその他のカメラ設定値を記憶し、そして画像キャプションを記憶するために、別個のＴＩＦＦを使用することができる。具体的には、ラベルを記憶するためにＩｍａｇｅＤｅｓｃｒｉｐｔｉｏｎタグを使用することができる。リアルタイム・クロック３２４は、日付／時刻値を提供し、この値は、各Ｅｘｉｆ画像ファイル内に日付／時刻メタデータとして記憶される。

場所決定子３２５が、画像キャプチャと関連する地理的場所を提供する。場所は好ましくは、緯度及び経度の単位で記憶される。なお、場所決定子３２５は、画像キャプチャ時間とは僅かに異なる時間における地理的場所を決定することがある。その場合、場所決定子３２５は、画像と関連付けられた地理的場所として、最も近い時間から地理的場所を使用することができる。或いは、場所決定子３２５は、画像キャプチャと関連する地理的場所を決定するために、画像キャプチャの前及び／又は後の時間における複数の地理的場所間を補間することもできる。場所決定子３２５が地理的場所を決定することは常に可能というわけではないので、補間が必要とされることがある。例えば、ＧＰＳ受信器は、屋内にある時に信号を検出し損なうことがしばしばある。その場合、特定の画像キャプチャと関連する地理的場所を推定するために、最後に獲得に成功した地理的場所（すなわち建物に入る前）を、場所決定子３２５によって使用することができる。場所決定子３２５は、数多くの画像場所決定法のうちのいずれかを利用することができる。例えば、地理的場所は、よく知られた全地球測位システム衛星(ＧＰＳ）からの通信を受信することによって決定することができる。

デジタルプロセッサ３２０はまた、低解像度「サムネイル」サイズ画像を形成する。この画像は、同一譲受人による米国特許第５，１６４，８３１号明細書（Kuchta他）に記載されているように形成することができる。この開示内容を参考のため本明細書中に引用する。サムネイル画像は、ＲＡＭメモリー３２２内に記憶し、カラーディスプレイ３３２に供給することができる。カラーディスプレイは例えば、アクティブ・マトリックスＬＣＤ又は有機発光ダイオード（ＯＬＥＤ）であってよい。画像がキャプチャされた後、これらは、サムネイル画像データを使用することにより、カラーＬＣＤ画像ディスプレイ３３２上で素早く見直すことができる。

カラーディスプレイ３３２上に表示されたグラフィカル・ユーザー・インターフェイスは、ユーザーコントロール３３４によって制御される。ユーザーコントロール３３４は、電話番号をダイアルするための専用のプッシュボタン（例えば電話機キーパッド）、モード（例えば「電話」モード、「カメラ」モード）を設定するための制御装置、４方向制御手段（上、下、左、右）、及びプッシュボタン中央「ＯＫ」スイッチを含むジョイスティック・コントローラ、などを含むことができる。

デジタルプロセッサ３２０に接続された音声エンコーダ・デコーダ（コーデック）３４０は、マイクロフォン３４２から音声信号を受け取り、そしてスピーカー３４４に音声信号を提供する。これらの成分は、電話会話のためと、ビデオシーケンス又は静止画像と一緒に音声トラックを記録して再生するためとの両方の目的で使用することができる。スピーカー３４４は、電話着呼をユーザーに知らせるために使用することもできる。このことは、ファームウェア・メモリー３２８内に記憶された標準着信音を使用して、又は携帯電話ネットワーク３５８からダウンロードされ、そして画像／データメモリー３３０内に記憶されたカスタム着信音を使用することにより行うことができる。加えて、電話着呼のサイレント（例えば非可聴）通知を提供するために、振動デバイス（図示せず）を使用することができる。

汎用制御コンピュータ４０に接続されたドック／充電器３６４にデジタルカメラ付き電話機３０１を接続するために、ドック・インターフェイス３６２を使用することができ、ドック・インターフェイス３６２は汎用制御コンピュータ４０に接続される。ドック・インターフェイス３６２は例えば、周知のＵＳＢインターフェイス仕様に適合してよい。或いは、デジタルカメラ３０１と汎用制御コンピュータ４０との間のインターフェイスは、無線インターフェイス、例えば周知のＢｌｕｅｔｏｏｔｈ（登録商標）無線インターフェイス又は周知の８０２．１１ｂ無線インターフェイスであることが可能である。ドック・インターフェイス３６２は、画像／データメモリー３３０から汎用制御コンピュータ４０へ画像をダウンロードするために使用することができる。ドック・インターフェイス３６２は、汎用制御コンピュータ４０からデジタルカメラ付き電話機３０１内の画像／データメモリーへ、カレンダー情報を転送するために使用することもできる。ドック／充電器３６４は、デジタルカメラ付き電話機３０１内の電池（図示せず）を再充電するために使用することもできる。

デジタルプロセッサ３２０は、無線モデム３５０にカップリングされており、無線モデム３５０は、デジタルカメラ付き電話機３０１がＲＦチャネル３５２を介して情報を送信し受信するのを可能にする。無線モデム３５０は、ラジオ周波数（例えば無線）リンクを介して、携帯電話ネットワーク３５８、例えば３ＧＳＭネットワークと交信する。携帯電話ネットワーク３５８は、写真サービス・プロバイダー３７２と交信し、写真サービス・プロバイダー３７２は、デジタルカメラ付き電話機３０１からアップロードされたデジタル画像を記憶することができる。これらの画像は、汎用制御コンピュータ４０を含む他のデバイスによって、インターネット３７０を介してアクセスすることができる。携帯電話ネットワーク３５８はまた、通常の電話サービスを提供するために、標準的な電話ネットワーク（図示せず）に接続する。

本発明の態様が図２に示されている。本発明は、画像から固有顔集合を自動的に抽出することによって、人々を含有する画像及びビデオの集合を整理するのを助ける。抽出に続いて、それぞれの顔を表すアイコンがディスプレイ上に表示される。このアイコンは、特定の人物を含有する画像及びビデオをラベル付けし、そして当該特定の人物を含有する画像及びビデオに関してクエリーを行うプロセスを単純化するために使用される。図２は、図１の構造において具体化され、これらの機能のうちの多くが、デジタルプロセッサ３２０によって提供される。本発明は、図１に示された環境以外の多くの種々異なる環境においても適用することができ、デジタルカメラ又はコンピュータ又はその他の電子デバイス上で使用することができる。

デジタル画像収集物１０２及びデジタル画像収集物部分集合１１２は、画像及びビデオの両方を含む。便宜上、「画像」という用語は、単独フレーム画像及びビデオの両方を意味する。ビデオは、音声及び時にはテキストを伴う画像の集合体である。デジタル画像収集物部分集合１１２は、クエリー３３６を開始するためにユーザーコントロール３３４を使用するユーザーによって指示されるような、該当人物を含有すると考えられるデジタル画像収集物１０２からの画像集合である。クエリーエンジン３３８は、データベース１１４内に記憶された情報を使用して、クエリー３３６を満足させるデジタル画像収集物１０２からの画像を見付けることによりデジタル画像収集物部分集合１１２を生成する。デジタル画像収集物部分集合１１２は、人間のユーザーによって見直すためにディスプレイ３３２上に表示される。

人物たちを含有するデジタル画像収集物１０２は、画像及びビデオ内の人物たちを識別するために、人物検出子１１０によって検査される。人物検出子１１０は手動操作することができ、この操作の場合、ユーザーは、画像及びビデオ内の人物たちを輪郭付け、目の位置を示し、又はこれと類似のことを行うことにより、画像及びビデオ内の人物たちの位置を入力する。好ましくは、人物検出子１１０は、顔検出アルゴリズムを実施する。ヒトの顔を検出する方法が、デジタル画像処理の分野においてよく知られている。例えば、画像内の人間の顔を見付ける顔検出法が、下記論文に記載されている：Jones, M.J.; Viola, P.,“Fast Multi-view Face Detection”、IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、2003年6月。特徴抽出子１０６は、検出されたそれぞれの人物と関連付けられる特徴を抽出し、そして抽出された特徴をデータベース１１４内に記憶する。

固有顔ファインダー１０８は、検出された人物たちからの特徴集合を調べ、そして固有顔集合１２０を見付ける。理想的には、固有顔集合は、デジタル画像収集物１０２内に現れる各人物の、正確に１つのインスタンスを含有する。固有顔集合１２０内の各顔は、集合内の他の顔とは異なる人物のものであると考えられる。固有顔集合１２０は、Ｘ回よりも多い回数にわたってデジタル画像収集物１０２内に現れるか、又は画像及びビデオの少なくともＹ％に現れるそれぞれの人物の１つのインスタンスであってもよい。例えば、固有顔ファインダー１０８は、Chen及びDasによる米国特許出願公開第２００３／０２１０８０８号明細書に記載された顔クラスタリング法と類似するアルゴリズムを実行することができる。第１に、或る顔と関連付けられた特徴集合が、データベース１１４からランダムに選択され、固有の個人名で呼ばれる。第２に、別の特徴集合がフェッチされ、そして前に指定された全ての人物と比較され、相違スコアを生成する。この比較は、顔認識プログラム、例えばVisionics FaceIt Software Developer's Kit (SDK)によって、又は単に特徴ベクトル対の間のユークリッド距離を計算することにより行われる。相違スコアは、所定の閾値と比較され、そしてもしもスコアが十分に大きい場合（すなわち、新たにフェッチされた特徴集合が、前に指定された全ての人物と関連付けられた特徴集合とは十分に異なる場合）、新たにフェッチされた特徴集合は固有の個人名で呼ばれる。そうでない場合には、割り当て先のない顔は、最高相違スコアを有する顔を含有するクラスターに追加される。全ての特徴集合が調べられるまで、上記ステップ（第２ステップから）が繰り返される。例えば図３は、デジタル画像収集物１０２からの画像集合２２０を示す。検出された顔はボックス２２２で示される。

結果として得られた固有顔集合１２０は、アイコン・クリエーター１２２に入力され、アイコン・クリエーター１２２は、固有顔集合１２０内の各顔からアイコンを作成する。このことは、デジタル画像収集物１０２の元の画像又はビデオからの顔に対応する領域をトリミングしてサイズ変更することによって達成される。例えば図４は、図３に示された画像収集物１０２の固有の人物たちと関連付けられたアイコン２２４を含有する固有アイコン集合１２４を示している。

このような固有アイコン集合１２４は、画像収集物１０２の整理、ラベル付け、及びクエリーを行うための強力なユーザーコントロール集合を形成するために使用される。図５に示されているように、デジタル画像収集物１０２は、固有顔集合１２０のアイコン２２４に隣接して表示されている。ユーザーコントロール３３４を使用して、ユーザーは、固有顔集合１２０のアイコン２２４のうちのいずれか又は全てに対してラベル２２６を提供することができる。加えてユーザーは、例えば、特定のアイコン２２４によって示される特定の人物を含有する画像集合を、典型的なユーザーコントロール３３４、例えばタッチ・スクリーン、マウス、音声入力、テキスト入力、又はキーボード入力を用いて、そのアイコン２２４上にドラッグ・アンド・ドロップすることによって、デジタル画像収集物１０２内の他の画像を容易にラベル付けする。当業者には明らかなように、他のユーザーコントロール構成、例えばジェスチャに基づくシステムを使用することもできる。次いで図２のレベラー１０４が、データベース１１４内のこのような関連付けを記録する。或いは、デジタル画像収集物１０２の画像又はビデオ上にアイコン２２４をドロップすることにより、アイコンによって表された人物がターゲット画像又はビデオ内に位置していることを指示することもできる。加えて、ターゲット画像内に２人以上の人物が存在するときには、ターゲット画像内部の正確な場所が、アイコン２２４と関連付けられる人物の位置を指示する。

ラベラー１０４から提供されたラベルは、特定の画像又はビデオが該当人物を含有することを示す。ラベルは典型的には名前であってよく、また下記のもののうちの少なくとも１つを含む：
（１）画像又はビデオにおける該当人物の名前。人物の名前は、ニックネームを含む名、又は特定の関係又は人物の識別子（例えばママ）であってよい。
（２）該当人物と関連付けられた文字列のような識別子、又は「人物Ａ」又は「人物Ｂ」のような識別子。
（３）画像又はビデオ内部の該当人物の位置。

なお、「タグ」、「キャプション」、及び「注釈」という用語は、「ラベル」という用語と同義のものとして使用される。

該当人物に対する探索が、下記のようにユーザーによって開始される：
ユーザーは、相応の１つ又は２つ以上のアイコン２２４をクリックする（又は接触するか、又はその他の形でユーザーコントロール３３４を通して指示する）ことによって、該当する１人又は２人以上の人物の画像に関するクエリー３３６を示す。次いでクエリーエンジン３３８は、該当人物であることを示すラベルを有する、検出された人物を含有する画像に関して、又は指示されたアイコンの顔の特徴と関連付けられた特徴と類似する対応特徴を有する人物を含有する画像に関して、データベース１１４を探索する。

例えば、図５を再び参照して、ユーザーが、３つのアイコン２２４のうちの第１及び第２のアイコンをクリックすることにより、ハンナ及びジョーナの画像に関するクエリーを開始すると想定する。クエリーエンジン３３８は、ハンナ及びジョーナのラベルを付けられた人物たちを含有する画像、又はハンナ及びジョーナのアイコンの特徴と関連付けられた特徴と類似する特徴を有する人物を含有する画像を見付ける。アイコンのうちの１つはラベル付けされていない。特徴ベクトルの比較は、パターン認識の基本的なタスクであり、さらに論じることはしない。図６に示された、結果として生じたデジタル画像収集物部分集合１１２が、次いでディスプレイ３３２上でユーザーに示される。次いでユーザーは、デジタル画像収集物部分集合１１２の画像を容易にラベル付けして、事実上クエリーエンジン３３８の誤りを訂正することができる。前述の画像ラベル付け方法に加えて、デジタル画像収集物部分集合１１２がディスプレイ３３２上に示される探索終了時に、「これらの画像をラベル付けしますか？」というメッセージがディスプレイ上に現れ、そしてユーザーは、「はい」を選択することにより、デジタル画像収集物部分集合１１２の画像が該当人物（ハンナ及びジョーナ）を含有することを確認することができ、それと同時に、データベース１１４は、ハンナ及びジョーナのラベルを、デジタル画像収集物部分集合１１２の画像と関連付けるように更新される。或いは、ユーザーは「いいえ」を選択し、デジタル画像収集物部分集合１１２の画像に対するラベルを修正しないままにすることを選ぶこともできる。

図７は、図２の特徴抽出子１０６をより詳細に示している。特徴抽出子１０６は、デジタル画像収集物内の画像及びビデオの人物に関係する特徴を決定する。これらの特徴は次いで、該当人物を含有すると考えられるデジタル画像収集物１０２内の画像又はビデオを見付けるために、人物ファインダー１０８によって使用される。特徴抽出子１０６は、人物たちに関係する２つのタイプの特徴を決定する。グローバル特徴検出子２４２は、グローバル特徴２４６を決定する。グローバル特徴２４６は、ビデオの画像内のその人物の同一性又は位置とは無関係の特徴である。例えば撮影者の同一性はグローバル特徴である。なぜならば、撮影者の同一性は、いかに多くの人物たちが画像又はビデオ内に存在しようとも不変であり、またこれらの人物達の位置及び同一性とも同じく無関係であるからである。

追加のグローバル特徴２４６は下記のものを含む：
画像／ビデオのファイル名。
画像／ビデオ・キャプチャ時間。画像キャプチャ時間は、時刻において正確な分、例えば２００４年３月２７日午前１０：１７であることが可能である。或いは、画像キャプチャ時間はさほど正確でなくても、例えば２００４年又は２００４年３月であることも可能である。画像キャプチャ時間は、確率分布関数の形態、例えば９５％の信頼度で２００４年３月２７日±２日の形態であることが可能である。多くの場合、キャプチャ時間は、デジタル画像又はビデオのファイルヘッダ内に埋め込まれる。例えばＥＸＩＦ画像フォーマット（www.exif.orgに記載）は、画像又はビデオのキャプチャ・デバイスが、デジタル画像又はビデオと関連付けられる情報をファイルヘッダ内に記憶するのを可能にする。「日付＼時刻」の入力は、画像がキャプチャされた日付及び時刻と関連付けられる。いくつかの事例の場合、デジタル画像又はビデオは、フィルムの走査から生じ、そして画像キャプチャ時間は、（しばしばキャプチャ時に行われるように）通常は画像の左下コーナーの画像領域内にプリントされた日付を検出することによって決定される。写真がプリントされた日付はしばしば、プリントの裏側に印刷される。或いは、いくつかのフィルム系は、キャプチャ日付のような情報を記憶するために、フィルム内に磁気層を含有する。

キャプチャ条件メタデータ（例えばフラッシュ発光情報、シャッタースピード、絞り、ＩＳＯ、光景の明るさなど）

地理的場所。場所は好ましくは緯度及び経度の単位で記憶される。
シーン環境情報。シーン環境情報は、人物を含有しない領域内の画像又はビデオの画素値から導き出された情報である。例えば、画像又はビデオ内の人物を含有しない領域の平均値は、シーン環境情報の一例である。シーン環境情報の別の例は、テクスチャ・サンプルである（例えば画像内の壁紙領域からの画素値のサンプリング）。

地理的場所及びシーン環境情報は、関連画像内の人物の同一性に対する重要な手がかりである。例えば、撮影者が祖母の家を訪問した場合、この家は、祖母が撮影されている唯一の場所であり得る。２つの画像が同様の地理的場所及び環境でキャプチャされた時には、これら２つの画像内で検出される人物も同じである可能性はより高い。

シーン環境情報は、２つの画像を見当合わせするために、人物検出子１１０によって使用することができる。このことは、被撮影者たちはほとんど不動であるが、しかしカメラが連続した写真の間で僅かに動くときに有用である。シーン環境情報は、２つの画像を見当合わせし、これにより、２つのフレームにおける人物たちの位置を整合させるために使用される。この整合は人物ファインダー１０８によって行われる。なぜならば、２人が、時間的に接近してキャプチャされ見当合わせされた２つの画像内に同じ位置を占める場合には、２人は同一人物である尤度が高いからである。

ローカル特徴検出子２４０は、ローカル特徴２４４を算出する。ローカル特徴は、画像又はビデオ内の人物の外観に直接的に関係する特徴である。画像又はビデオ内の人物に対応するこれらの特徴を算出するためには、その人物の位置に関する知識が必要である。ローカル特徴検出子２４０は、人物検出子１１０、又はデータベース１１４、又はその両方から、画像又はビデオ内の人物の位置に関係する情報を渡される。

人物の位置が知られたら、ローカル特徴検出子２４０は、その人物と関連付けされたローカル特徴２４４を検出することができる。顔の位置が知られたら、顔特徴（例えば目、鼻、口など）を、よく知られた方法、例えばYuille他の“Feature Extraction from Faces Using Deformable Templates”、Int. Journal of Comp. Vis.,第8巻、第2号、1992年、第99-111頁によって記載された方法を用いて位置特定することもできる。この著者は、口、目、及び虹彩／強膜境界の位置を特定するためのテンプレート照合を用いた、エネルギー最小化法を記載している。顔特徴は、T.F. Cootes及びC.J. Taylor “Constrained active appearance models”、8th International Conference on Computer Vision、第1巻、第748-754頁、IEEE Computer Society Press、2001年7月に記載されているようなアクティブ外観モデルを使用して見付けることもできる。好ましい態様の場合、Bolin及びChenの“An automatic facial feature finding system for portrait images”、Proceedings of IS&T PICS Conference、2002年に記載されている人間の顔のアクティブ形状モデルに基づいた顔特徴点の位置特定方法が用いられる。

ローカル特徴２４４は、人物の定量的記述である。好ましくは、人物ファインダー特徴抽出子１０６は、ローカル特徴２４４の１集合と、グローバル特徴２４６の１集合とを、検出された人物毎に出力する。好ましくは、ローカル特徴２４４は、Cootes他の前述のアクティブ外観モデルと類似の方法を用いて見いだされた特定の顔特徴と関連付けられた８２個の特徴点の場所に基づいている。顔の画像に対応するローカル特徴点を視覚的に表したものが一例として図８に示されている。ローカル特徴は、具体的な特徴点間の距離、又は具体的な特徴点の集合を繋ぐ線によって形成された角度、又は顔の外観のばらつきを記述する主成分上への特徴点の投影係数であってもよい。

図７を再び参照すると、グローバル特徴２４６及びローカル特徴２４４は、データベース１１４内に記憶される。画像内の全ての人々と関連付けられたグローバル特徴は、Ｆ_Gによって表される。画像内のＮ人の人物たちと関連付けられたＮ個のローカル特徴集合は、Ｆ_L0、Ｆ_L1、…、F_LN-1として表される。画像内の人物ｎに対応する完全な特徴集合は、Ｆ_nとして表され、そして、グローバル特徴Ｆ_Gとローカル特徴Ｆ_Lnとを含む。画像と関連付けられるＭ個のラベルは、Ｆ₀、Ｆ₁、…、Ｆ_M-1として表される。ラベルが人物の位置を含まないときには、どのラベルが画像又はビデオ内の人物を表すどの特徴集合と関連付けられるかを知る上で曖昧さがある。例えば、画像内の２人を記述する２つの特徴集合、及び２つのラベルが存在する場合、どの特徴がどのラベルと関連するかは明らかではない。人物ファインダー１０８は、このラベルをローカル特徴集合と照合し、ラベル及びローカル特徴が単一の画像と関連付けられる、このような制約された分類の問題を解決する。任意の数のラベル及びローカル特徴があってよく、またそれぞれの数が異なっていてもよい。

ここで、データベース１１４における画像と関連付けられたラベル及び特徴の入力例を挙げる：
画像101-346.JPG
ラベルL₀：ハンナ
ラベルL₁：ジョーナ
特徴F₀：
グローバル特徴F_G：
キャプチャ時間：2005年8月7日、東部標準時午後6時41分
フラッシュ発光：なし
シャッタースピード：1/724秒
カメラ・モデル：Kodak C360 ズーム・デジタル・カメラ
絞り：F/2.7
環境：

ローカル特徴F_L0：
位置：左目：[1400 198] 右目：[1548 202]
C₀=[-0.8, -0.01]'；
眼鏡：なし

関連付けラベル：不明

特徴F₁：
グローバル特徴F_G：
キャプチャ時間：2005年8月7日、東部標準時午後6時41分
フラッシュ発光：なし
シャッタースピード：1/724秒
カメラ・モデル：Kodak C360 ズーム・デジタル・カメラ
絞り：F/2.7
環境：

ローカル特徴F_L0：
位置：左目：[810 192] 右目：[956 190]
C₀=[0.06, 0.26]'；
眼鏡：なし

関連付けラベル：不明

本発明の更なる態様において、図９は、固有顔ファインダー１０８による分析から決定された固有アイコン集合１２４を示している。大抵の現実世界の問題と同様に、アルゴリズムは完全な性能を有しているわけではなく、従ってアイコン４２４及び４２６は実際には、同じ人物の２つの異なるインスタンスである。ユーザーは、例えばアイコン４２４を（ユーザーコントロール３３４を介して）選択してこれをアイコン４２６上にドロップすることにより、これらのアイコン同士を組み合わせることができる。アイコン４２４及び４２６が組み合わされていれば、ディスプレイ３３２は、図５に示されているような３つのアイコンだけを示すことになる。この組み合わせのアクションはまた、アイコンが作成される際の起源となった２つの画像が同一人物を含有することをラベラー１０４に対して確立する。従って、アイコン４２４によって表された人物を含有する画像に関するクエリー３３６は、アイコン４２４に対応する画像、及びアイコン４２６が作成される際の起源となった画像の両方を戻すことにする。

さらに、デジタル画像収集物１０２内に存在する人物が固有顔集合１２０内には現れないという事態が生じる場合がある。この誤りは、ユーザーがデジタル画像収集物１０２内にその人物を見いだし、次いで固有の個人の存在を（例えば顔の周りにボックスを描くことによって）指示することにより改められる。次いで、アイコン・クリエーター１２２は、その人物と関連付けられたアイコンを作成し、そしてこれを固有アイコン集合１２４に加える。

４０汎用制御コンピュータ
１０２デジタル画像収集物
１０４ラベラー
１０６特徴抽出子
１０８固有顔ファインダー
１１０人物検出子
１１２デジタル画像収集物部分集合
１１４データベース
１２０固有顔集合
１２２アイコン・クリエーター
１２４固有アイコン集合
２２０画像
２２２検出された顔
２２４アイコン
２２６ラベル
２４０ローカル特徴検出子
２４２グローバル特徴検出子
２４４ローカル特徴
２４６グローバル特徴
３０１デジタルカメラ付き電話機
３０３フラッシュ
３０５レンズ
３１１ＣＭＯＳ画像センサー
３１２タイミング発生器
３１４画像センサーアレイ
３１６Ａ／Ｄ変換器回路
３１８ＤＲＡＭバッファメモリー
３２０デジタルプロセッサ
３２２ＲＡＭメモリー
３２４リアルタイム・クロック
３２５場所決定子
３２８ファームウェア・メモリー
３３０画像／データメモリー
３３２カラーディスプレイ
３３４ユーザーコントロール
３３６クエリー
３３８クエリーエンジン
３４０音声コーデック
３４２マイクロフォン
３４４スピーカー
３５０無線モデム
３５８携帯電話ネットワーク
３６２ドック・インターフェイス
３６４ドック／充電器
３７０インターネット
３７２写真サービス・プロバイダー
４２４アイコン
４２６アイコン

Claims

画像収集物を整理する方法であって：
ａ）該画像収集物内の顔を検出すること；
ｂ）特徴抽出子を用いて、該画像収集物内の各検出された顔から人物の外観に関係するローカル特徴並びにそれぞれ対応する画像からカメラ及びキャプチャ条件に関係するグ
ローバル特徴を抽出すること、該グローバル特徴は、フラッシュ発光情報、及びカメラ・モデルの少なくとも１つを含んでいる；
ｃ）該抽出されたローカル特徴及びグローバル特徴を分析することにより、固有顔集
合を決定すること、ここで該固有顔集合内のそれぞれの顔は、該集合内の他の顔とは異な
る人物に由来する；
ｄ）それぞれの固有の顔からアイコンを作成すること
ｅ）該アイコンの少なくとも１つをユーザーに表示すること、そして
ｆ）該アイコンの該少なくとも１つが選択され該アイコンの別の１つにドロップされると、該アイコンの該少なくとも１つに対応する画像が、該アイコンの該少なくとも１つに対応するようコントロールされること、
を含んで成る画像収集物を整理する方法。
該ユーザーが、タッチ・スクリーン、マウス、音声入力、テキスト入力、又はキーボー
ド入力を用いて、該固有の顔のうちの１つを選択すること
をさらに含む請求項１に記載の方法。
該ユーザーが、該選択された固有の顔と関連付けられるラベルを提供する、請求項２に
記載の方法。
該選択された固有の顔と類似する顔を含有する画像が、提供された名称によって注釈付けされる請求項３に記載の方法。