JP2010532022A - 画像コレクションの合成人物モデル - Google Patents

画像コレクションの合成人物モデル Download PDF

Info

Publication number
JP2010532022A
JP2010532022A JP2010510302A JP2010510302A JP2010532022A JP 2010532022 A JP2010532022 A JP 2010532022A JP 2010510302 A JP2010510302 A JP 2010510302A JP 2010510302 A JP2010510302 A JP 2010510302A JP 2010532022 A JP2010532022 A JP 2010532022A
Authority
JP
Japan
Prior art keywords
person
image
images
features
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010510302A
Other languages
English (en)
Inventor
シェルウッド ローザー,ジョエル
オー. ストゥブラー,ピーター
ダス,マディラクシ
シー. ロウイ,アレクサンダー
フレデリック マクインンタイル,デール
Original Assignee
イーストマン コダック カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イーストマン コダック カンパニー filed Critical イーストマン コダック カンパニー
Publication of JP2010532022A publication Critical patent/JP2010532022A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/179Human faces, e.g. facial parts, sketches or expressions metadata assisted face recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Collating Specific Patterns (AREA)

Abstract

特定人物の頭部の少なくとも一部の合成モデルを構成することによって、画像内の特定人物の認証を改良する方法であって、特定のイベントの間に撮影した画像のコレクションを獲得するステップと、前記コレクション内の特定人物を含む単数又は複数の画像を識別するステップと、前記識別された単数又は複数の画像内の特定人物に関係付けられる1つ又は2つ以上の特徴を識別するステップと、前記コレクションの他の画像中の前記特定人物を識別するために、前記識別された特徴を使用して、前記コレクションを探索するステップと、前記特定人物の識別された画像を使用して、前記特定人物の頭部の少なくとも一部の合成モデルを構成するステップとを含む方法。

Description

本発明は、画像コレクションの人物の合成モデルの生成、及びその合成モデルの使用に関する。
デジタル写真撮影の出現によって、消費者は、デジタル画像及びビデオの多くのコレクション(collection)を蓄積している。デジタルカメラで捕捉する画像の撮影者当たりの平均数は、未だに年々増加している。その結果として、画像及びビデオの体系化及び検索が一般的なユーザにとって問題となる。今のところ、一般的な消費者のデジタル画像のコレクションの時間は、数年だけである。平均的なデジタル画像及びビデオのコレクションの時間が増えるにつれて、体系化及び検索の問題は、引き続き大きくなってくるであろう。
興味の対象の特定人物を含む画像及びビデオをユーザが見つけようとすることが多々ある。ユーザは、手動で探索を実行して、興味の対象の人物を含む画像及びビデオを見つけることができる。しかしながら、これは、時間が掛かり且つ骨が折れる作業である。市販のソフトウェア(Adobe(登録商標) Albumなど)により、後に検索できるように画像内の人々を表示するラベルを付することによって画像をユーザが認識することができるが、それでも最初のラベル付け作業は、非常に退屈で時間が掛かる。
顔認証ソフトウェアは、グランドトルースによりラベル化(ground-truth labeled)された画像の組(すなわち、対応する人物識別(person identities)を有する画像の組)の存在を仮定する。消費者の画像コレクションの多くは、このようなグランドトルースの組を有しない。さらに、画像内の顔のラベル付けは、消費者の多くの画像が多くの人を含むため、複雑である。そして、人々の識別を有する画像に単にラベル付けすることが、画像内のどの人物とどの識別とを関係付けることを示すものではない。
セキュリティ又は他の目的のために、人々の認証を試みる画像処理パッケージが多く存在する。Cognitec(登録商標) Systems GmbHが生産するFaceVASC顔認証ソフトウェアと、Imagis Technologies社及びIdentix社が生産するFacial Recognition SDKsとがその例である。これらのソフトウェアパッケージは、主としてセキュリティ型のアプリケーション向けのものである。この場合、均一な照明の下で、正面を向いた姿勢で環状を表さない人物がカメラと向き合う。消費者の私的な画像は、画像内で非常に様々な姿勢、照明、表情、及び顔の大きさを有するため、これらの方法は、使用するには適当ではない。
さらに、このプログラムでは、長い時間に亘って人々の認証を効果的に実行するのに必要なライブラリが生成されない。人は、年を取ると、顔が変化して、場合によってはメガネをかけ、いろいろな衣服を着て、そして様々な髪型となる。さらに、人物に関係付けられる固有の特徴を記憶することによって、認証し識別探索し及び長い時間に亘って人物の画像コレクションを管理するための手掛りを提供するという未だ満たされてないニーズがある。
本発明の目的は、デジタル画像コレクション内の画像及びビデオにおいて、興味の対象の人物と、人物を特定するのに役立つ可能性がある特徴とを素早く特定することである。この目的は、その特定人物の頭部の少なくとも一部の合成モデルを構成することによって、画像内の特定人物の認証を改良する方法であって、
(a)特定のイベントの間に撮影した画像のコレクションを獲得するステップと、
(b)コレクション内の特定人物を含む単数又は複数の画像を識別するステップと、
(c)識別された単数又は複数の画像内の特定人物に関係付けられる1つ又は2つ以上の特徴を識別するステップと、
(d)コレクションの他の画像中の特定人物を識別するために、識別された特徴を使用して、コレクションを探索するステップと、
(e)特定人物の識別された画像を使用して、特定人物の頭部の少なくとも一部の合成モデルを構成するステップと、
を含む方法によって実現される。
この方法は、ある画像コレクションから、他の画像コレクションを探索するのに使用できる人物の合成モデルを生成するという、有利な点を有する。また、その人物がカメラの正面でなく、又はカメラの視界から見えにくいときに、合成特徴モデルを記憶することによって人物の認証が可能になる。
本発明は、図面に示す実施形態を参照することによって、説明される。
本発明を実施できるカメラ付き携帯電話に基づく画像システムのブロックを概略的に示す図である。 人物を識別するために抽出される合成画像セグメントについての本発明の実施形態のブロックを概略的に示す図である。 デジタル画像コレクションにおける人物の合成モデルを作成する本発明の実施形態のフローチャートを示す図である。 イベント画像に関連付けられる人物プロファイルの組を示す図である。 イベントから獲得される画像コレクションを示す図である。 人物の顔の点と顔の特徴とを示す図である。 イベントにおける画像の人及び特徴による体系化を示す図である。 イベントデータの中間物を示す図である。 決定されたイベントデータの組を示す図である。 決定されたイベントデータの組を画像で示す図である。 イベント画像に関連付けられた人物プロファイルの更新を示す図である。 合成画像ファイルを構成するフローチャートを示す図である。 写真の中の特定人物を識別するフローチャートを示す図である。 デジタル画像コレクション内の特定人物を探索するフローチャートを示す図である。
以下の説明において、本発明の実施形態がソフトウェアプログラムとしていくつか説明されることになる。当業者は、本発明の範囲内においてハードウェア又はソフトウェアによっても、本方法の均等を構成できることをすぐに理解するであろう。
画像操作アルゴリズム及びシステムは周知であるので、本明細書は、本発明に係る方法の一部を形成する、又は本発明に係る方法と直接的に協働する、アルゴリズム及びシステムに特に向けられることになる。このアルゴリズム及びシステム、並びにこれに含まれる画像信号を生成し、及び他の処理をするハードウェア及びソフトウェアの他の態様で、本明細書において明確に図示又は説明されていないものは、周知技術であるシステム、アルゴリズム、構成要素、及び要素から選択できる。以下の明細書に記載される説明を前提とすると、そのソフトウェアによる実現は、標準的なものであり、従来技術に含まれる。
図1は、本発明を実施できる画像システムに基づくデジタルカメラ付き携帯電話301のブロックを示す図である。デジタルカメラ付き携帯電話301は、デジタルカメラの一種である。好適には、デジタルカメラ付き携帯電話301は、携帯型電池で動作する機器であり、画像を捕捉し、及び見直すときにユーザが容易に手で持つことができるほど十分小さい。デジタルカメラ付き携帯電話301は、デジタル画像を生成して、内蔵のフラッシュEPROMメモリ、又は取り外しできるメモリカードなどにできる画像/データメモリ330を使用して記憶する。また、磁気ハードディスク、磁気テープ、又は光ディスクのような他の種類のデジタル画像記憶媒体を使用して、画像/データメモリ330を提供できる。
カメラ付き携帯電話301は、レンズ305を有し、CMOS画像センサ311の画像センサアレイ314上に場面(図示せず)からの光の焦点を合わせる。画像センサアレイ314は、周知のBayerカラーフィルタパターンを使用してカラー画像情報を提供できる。画像センサアレイ314は、タイミング生成器312によって制御される。また、タイミング生成器312は、フラッシュ303を制御して周囲の照明が暗いときに場面を明るくする。画像センサアレイ314は、1280列×960行のピクセルなどを有することができる。
いくつかの実施形態では、デジタルカメラ付き携帯電話301は、画像センサアレイ314の複数のピクセルを加算する(例えば、画像センサアレイ314のそれぞれの4列×4行の領域内部で同一色のピクセルを加算する)ことにより、ビデオクリップを記憶して、解像度が低いビデオ画像フレームを生成できる。ビデオ画像フレームは、毎秒24フレームの読み出しレートなどを使用して、一定の間隔で画像センサアレイ314から読み出す。
画像センサアレイ314からのアナログ出力信号は、CMOS画像センサ311上のアナログ‐デジタル(A/D)コンバータ回路316によって増幅され、デジタルデータに変換される。デジタルデータは、DRAMバッファメモリ318に記憶され、続いてファームウェアメモリ328に記憶されるファームウェアによって制御されるデジタルプロセッサ320によって処理される。ファームウェアメモリ328は、フラッシュEPROMメモリにできる。デジタルプロセッサ320は、リアルタイムクロック324を有し、デジタルカメラ付き携帯電話301とデジタルプロセッサ320とが低電圧状態のときでも、日付及び時間を保持する。
処理されたデジタル画像ファイルは、画像/データメモリ330に記憶される。また、画像/データメモリ330を使用して、人物プロファイル情報236をデータベース114に記憶できる。また、画像/データメモリ330は、電話番号、やることリストのような他の種類のデータを記憶できる。
静止画像モードにおいて、デジタルプロセッサ320は、カラー及びトーン補正のためのカラー補間を実行して、レンダリングされたsRGB画像データを生成する。また、デジタルプロセッサ320は、ユーザが選択する様々な画像サイズを提供できる。そして、レンダリングされたsRGB画像データは、JPEG圧縮されて、画像/データメモリ330にJPEG画像ファイルとして記憶される。JPEGファイルは、前述のいわゆるExif画像フォーマットを使用する。このフォーマットは、様々なTIFFタグを使用して特定の画像のメタデータを記憶するExifアプリケーションセグメントを含む。個々のTIFFタグを使用して、写真が捕捉された日時、レンズのF値、及び他のカメラの設定を記憶し、並びに画像の見出しを記憶するなどできる。特に、Image Descriptionタグを使用して、ラベルを記憶できる。リアルタイムクロック324は、捕捉した日付/時間の値を提供して、それぞれのExif画像ファイルに日付/時間のメタデータとして記憶される。
位置決定器325は、画像捕捉と関連付けられる地理的位置を提供する。好適には、位置は、緯度及び経度の単位で記憶される。なお、位置決定器325は、画像捕捉時間と若干異なった時間で地理的位置を決定できる。この場合、位置決定器325は、画像と関連付けられる地理的位置として最近の時点の地理的位置を使用できる。また、位置決定器325を画像捕捉時の前及び/又は後の時間における複数の地理的位置の間で補間して、画像捕捉と関連付けられる地理的位置を決定できる。位置決定器325が地理的位置を決定できない場合があるので、補間が必要になる可能性がある。例えばGPS受信機は、屋内で信号検出に失敗することが多々ある。この場合、最新の良好な地理的位置(すなわち、建物に入る前)の読み出しを位置決定器325が使用して、特定の画像捕捉に関連付けられる地理的位置を推定する。位置決定器325は、多くの方法のいずれかを使用して、画像の位置を決定する。例えば、地理的位置は、周知のグローバル・ポジショニング・システム(GPS)からの通信を受信して決定できる。
また、デジタルプロセッサ320は、解像度が低い「サムネイル」サイズの画像を生成する。これは、Kuchtaらに特許され、参照することによって開示の内容が本明細書に包含される同一出願人による米国特許第5164831号に説明されるように生成できる。サムネイル画像は、RAMメモリ322に記憶され、アクティブマトリックス型LCD、又は有機発光ダイオード(OLED)などにできるカラー表示部332に供給できる。画像が捕捉された後に、サムネイル画像データを使用して、カラーLCD画像表示部332で直ちに見直しできる。
カラー表示部332に表示されるグラフィカルユーザインタフェースは、ユーザ制御334により制御される。ユーザ制御334は、電話番号を選択する表示押下ボタン(電話のキー操作部)、(「電話」モード、「カメラ」モードなどの)モードを設定する制御、4方制御(上下左右)を含むジョイスティック制御器、「OK」を中心とする押下スイッチなどを含むことができる。
デジタルプロセッサ320に接続される音声コーディク340は、マイク342から音声信号を受信して、スピーカ344に音声信号を提供する。これら双方の構成要素は、電話の会話に使用し、ビデオ像列又は静止画像とともに音声トラックの記録、再生に使用できる。また、スピーカ344を使用して、電話呼出が入ったことをユーザに知らせることができる。これは、ファームウェアメモリ328に記憶される標準的な着信音を使用して実行でき、又は携帯電話ネットワーク358からダウンロードし、画像/データメモリ330に記憶するカスタムな着信音を使用して実行できる。さらに振動機器(図示せず)を使用して、無音の(可聴式でない)電話呼出による通知を提供できる。
ドックインタフェース(dock interface)362を使用して、デジタルカメラ付き携帯電話301と、一般的な制御コンピュータ375に接続されるドック/充電器364とを接続できる。ドックインタフェース362は、周知のUSBインタフェースの仕様などに適合できる。また、デジタルカメラ301と一般的な制御コンピュータ375との間のインタフェースは、周知のBluetooth(登録商標)、又は周知の802.11b無線インタフェースのような無線インタフェースにできる。ドックインタフェース362を使用して、画像/データメモリ330から一般的な制御コンピュータ375に画像をダウンロードできる。また、ドックインタフェース362を使用して一般的な制御コンピュータ375からデジタルカメラ付き携帯電話301の画像/データメモリ330に暦情報を送信できる。また、ドック/充電器364を使用して、デジタルカメラ付き携帯電話301の電池(図示せず)を充電できる。
デジタルプロセッサ320は、無線モデム350と接続され、無線チャネル352を介してデジタルカメラ付き携帯電話301が情報を送受信することを可能にする。無線モデム350は、3GSMネットワークのような携帯電話ネットワーク358に無線周波数(無線)のリンクによって通信する。携帯電話ネットワーク358は、写真サービスプロバイダ372に通信して、デジタルカメラ付き携帯電話301からアプロードしたデジタル画像を記憶できる。これらの画像は、一般的な制御コンピュータ375を含む他の機器によってインターネット370を介してアクセスできる。また、携帯電話ネットワーク358は、標準的な電話ネットワーク(図示せず)と接続して、通常の電話サービスを提供する。
図2に、本発明に係る実施形態のブロックを概略的に示す。図1を簡単に参照し直すと、画像/データメモリ330と、ファームウェア328と、RAM322と、デジタルプロセッサ330とを使用して、以下に説明する必要なデータ記憶機能を提供できる。まず、図2は、デジタル画像コレクション102を有するデータベース114を含む。画像及びカメラのメタデータのような画像に関する情報は、グローバル特徴(global feature)246として開示される。人物プロファイル236は、コレクション内の個々の人物についての情報を含む。この人物プロファイルは、人物の特徴を区別することに関する相関的なデータベースを含むことができる。相関的データベースの概念は、Communications of the ACMが発行したEdgar Frank Coddによる「大規模共有データバンクのためのデータの相関的モデル(A Relational Model of Data for Large Shared Data Bank)」(1970年6月、Vol.13 No.6、377〜87ページ)において開示される。さらなる相関的な人物データベースを作成する方法は、Seagravesらに特許され、参照することによって開示の内容が本明細書に包含される同一出願人による米国特許第5652880号に開示される。図4に、人物プロファイルの実施例を示す。
イベントマネージャ36は、捕捉時間分析器272を使用して、関連性のある期間内のデジタル画像のサブセットをクラスタリングする(clustering)ことによって、画像の管理及び体系化を改良できる。グローバル特徴検出器242は、データベース114からグローバル特徴246を読み取る。これによって、イベントマネージャ36は、デジタル画像コレクションサブセット112を生成する。人物探知器108は、人物検出器110を使用して、写真内の人物を見つける。顔検出器270は、局所特徴検出器240を使用して、顔又は顔の一部を見つける。人物に関連付けられる特徴は、関連特徴検出器238を使用して識別される。人物の識別は、コレクション内の興味の対象の特定人物に人物の名前を割り当てることである。これは、表示部332及びラベル器104と関連付けられる双方向人物識別器250を介して実現される。さらに、人物分類器244を使用して、コレクション内の先に識別された人物に名前のラベルを当てはめることができる。セグメント化及び抽出(Segmentation and Extraction)130は、人物画像セグメント化254に人物抽出器252を使用する。関連特徴セグメント化258と関連特徴抽出器106とは、関連付けられる人物の要素をセグメント化し、抽出することにより、合成モデル234として人物プロファイル236に記録できる。姿勢推定器260は、3次元(3D)モデル作成器262が使用する外観の作成のための詳細、すなわち人物の少なくとも頭部の要素のソリッド表示モデル(solid representation model)を3次元モデル作成器262に提供する。
図3は、特定人物の頭部の少なくとも一部の合成モデルを構成することによって、画像内の特定人物の認証を改良する方法を示すフローを概略的に示す図である。当業者は、カメラ、パーソナルコンピュータ、インターネットのようなネットワークによってアクセスされる遠隔コンピュータ、プリンタなどを本発明に使用する処理プラットフォームにできることを理解するであろう。
ステップ210において、イベントで撮影した画像のコレクションを獲得する。イベントは、誕生日パーティ、休暇、家族の時間の収集、又はサッカーの試合にできる。また、このイベントは、サブイベントに区分できる。誕生日パーティは、ケーキ、プレゼント、及び屋外活動を有することができる。休暇は、様々な都市、その日の時々、海岸への滞在などに関連付けられた一連のサブイベントにできる。図5に、イベントとして識別される一群の画像の例を示す。イベントは、手動でタグを付され、又は自動的にクラスタリングされる。同一出願人による米国特許第6606411号及び第6351556号は、時間によるイベント及びサブイベントによって、画像コンテンツをクラスタリングするアルゴリズムを開示する。上記特許の開示は、参照することによって本明細書に包含される。米国特許第6606411号は、イベントは、一様の色分布を有し、これにより写真は、同一の背景とともに撮影されている可能性があることを教示する。それぞれのサブイベントにおいて、単一の色及び構造表示が一緒に撮影されたすべての背景領域で見積もられる。上記発明は、時間によるイベント及びサブイベントにデジタル画像コレクションの画像及びビデオをクラスタリングする方法を教示する。用語「イベント」及び「サブイベント」は、客観的な判断において使用して、具体的な出来事(イベントに対応する)とこれらの出来事の一部(サブイベントに対応する)と、ユーザの主観的知覚とを整合するように試みるコンピュータ介在手順の成果物を示す。画像をクラスタリングする時間及び日付に基づいて画像コレクションの1つ又は2つ以上の最も大きい時間差を決定し、1つ又は2つ以上の最も大きい時間差をイベントの1つ又は2つ以上の境界に対応させて、イベント間に1つ又は2つ以上の境界を有することに基づいて大部分の画像をイベントに分離して、画像コレクションを1つ又は2つ以上のイベントに分類する。それぞれのイベントにおいて、(もしあれば)サブイベントは、米国特許第6351556号で説明されるように、連続的な画像のカラーヒストグラム情報を比較することによって、決定できる。画像を多くのブロックに分割して、それぞれのブロックのカラーヒストグラムを計算することによって、これは達成される。米国特許第6351556号で説明されるように、ブロックに基づくヒストグラム相関手順を使用して、サブイベントの境界を検出する。自動的にイベントに画像を体系化する他の方法は、参照することによって本明細書に包含される同一出願による米国特許第6915011号に開示される。この発明によると、イベントをクラスタリングする方法は、前景及び背景のセグメントを使用して、類似するイベントにグループから画像をクラスタリングする。多くのブロックにそれぞれの画像を当初はセグメント化することによって、ブロックに基づく画像を提供する。ブロック毎の比較を使用して、それぞれのブロックに基づく画像は、少なくとも前景と背景とを比較して、多くの領域にセグメント化される。1つ又は2つ以上の明度、色、位置、及び大きさの特徴が、領域から抽出され、抽出された特徴を利用して、グループ内の一連の画像の前景及び背景を比較して、領域の類似性を比較し推定する。一連の画像の間の全体の類似の程度を計算することによって、一連の画像の間の画像間距離(image distance)を提供する。そして、イベントのクラスタリングは、画像間距離で区切られる。
画像をイベントにクラスタリングするさらなる利点は、イベント、又はサブイベントの内部において、同一の衣服を人物が着ている、又は人物が特徴を関連付けられる尤度が高いことである。反対に、人物が衣服を着替えた場合は、これをサブイベントが変更されたことのマーカにできる。海岸への訪問は、休暇中のレストランへの訪問にすぐに続けることができる。例えば、休暇を最上位のイベントとして、海岸は、水着を着ているところを1つのサブイベントにでき、正装して外出するレストランが続く。
さらに、画像のイベントへのクラスタリングは、人物プロファイル236において合成モデル234を作成するために類似する照明、衣服、及び人物に関連付けられる他の特徴を統合するという利点がある。
ステップ212では、コレクション内の特定人物を含む画像の識別は、人物探知器108を使用する。参照することによって本明細書に包含されるLuoに特許された同一出願人による米国特許第6697502号で説明するような方法を使用して、人物探知器108は、人物を検出して、獲得したイベント画像コレクションのそれぞれの写真内の人物の数をイベントマネージャ36に提供する。
本発明において、顔検出アルゴリズムは、肌検出アルゴリズムの次に実行され、バレーアルゴリズム(valley algorithm)は、顔検出アルゴリズムの次に実行される。肌検出は、カラー画像のセグメント化と、好適な色空間測定基準(color space metric)Lstにおける所定の肌分布を利用する(Leeによる「物理学及び精神物理学に基づくカラー画像の量子化(color image quantization based on physics and psychophysics)」(1996年「Journal of Society of Photographic Science and Technology of Japan」Vol.59、No.1、212〜225ページ))。肌の領域は、セグメント化された領域の平均的な色の分類によって取得できる。また、人物の形状を構築する次のステップが2進数的な決定の代わりに確率を必要とする場合は、確率値を保持できる。この肌検出方法は、輝度及びクロミナンス成分における人物の肌の色の分布に基づく。要約すれば、RGBピクセルのカラー画像は、好適なLst測定基準に変換される。そして、3次元ヒストグラムが形成され、平準化される。次に3次元ヒストグラムにおけるピークを配置し、ヒストグラムのそれぞれのビンにピークを割り当てることによって、ビンクラスタリング(bin clustering)が実行される。それぞれのピクセルは、ピクセルの色に対応するビンに基づいて分類される。人物の肌の平均の色(Lst)の値と、関連する領域の平均の色とに基づいて、肌の確率が計算され、所定のしきい値よりも確率が大きい場合は、肌の領域と認識される。
顔検出器270は、局所特徴検出器240を使用して肌領域の候補内の主な顔の特徴(目、眉、鼻、及び口)の検出に基づいて、顔の可能性を識別する。肌検出ステップによって出力される肌マップ(flesh map)は、顔に関する他のヒューリスティクスと組み合わせて、画像内の顔の位置の概要(belief)を出力する。画像内の肌領域であると識別されるそれぞれの領域は、楕円と適合される。またここで、楕円の長軸及び短軸は、楕円の外部領域におけるピクセル数と領域の一部でない楕円内のピクセル数とによって計算される。アスペクト比は、長軸と短軸との比率によって計算される。顔の確率は、適合した楕円のアスペクト比、楕円の外部領域のエリア、及び領域の一部でない楕円内のエリアの関数である。さらに、確率値は、保持でき、又は所定のしきい値と比較して特定の領域が顔であるか否かに関する2進数的な決定を生成できる。さらに、顔の領域の候補における構造を使用して顔の尤度をさらに明らかにできる。バレー検出を使用して、顔の特徴(目、鼻孔、眉、及び口)がしばしば存在するバレーを識別できる。この処理は、顔の領域でない肌領域を顔の領域から分離するために必要である。
人物の顔を検出する他の方法は、デジタル画像処理の周知技術である。例えば、不可欠な画像に基づいて促進分類器(boosted classifiers)の直列接続を使用して人物の顔を見つける顔検出方法は、「多重視界高速顔検出(Fast Multi-View Face Detection)」(2003年、IEEE CVPR)においてJonesとViolaとによって説明される。
さらなる顔所在アルゴリズム(face localizing algorithms)は、「変形可能なテンプレートを使用する顔からの特徴抽出(Feature Extraction from Face Using Deformable Template)」(1992年、「Int. Journal of Comp. Vis」Vol.8、Iss.2、99から111ページ)においてJuilleらによって説明されるような周知の方法を使用する。ここでは、口、目、及び虹彩/強膜の境界の位置を整合するテンプレートによって、使用する力を最小限にする方法が説明される。また、顔の特徴は、「律則される能動的外観モデル(Constrained active appearance models」(2001年7月、IEEE Computer Society Press、第8回コンピューター・ビジョン会議第1巻748〜754ページ)において、T. F. CootesとC. J. Taylorとによって説明されるように能動的な外観モデルを使用して見つけることができる。好適な実施形態において、2002年のProceedings of IS & T PICS会議における「ポートレート画像において顔の特徴を自動的に見つけるシステム(An automatic facial feature finding system for portrait images)」によりBolinとChenとによって説明される、人間の顔の能動的な形状モデルに基づいて顔の特徴点を配置する方法を使用する。
局所的特徴(local features)は、人物の定量的な記述(quantitative description)である。好適には、人物探知器108と特徴抽出器106とは、検出したそれぞれの人物について、局所的特徴の1つの組とグローバル特徴246の1つの組とを出力する。好適には、局所的特徴は、特定の顔の特徴に関連付けられた82個の特徴点の配置に基づき、上述のCootesらの能動的外観モデルと同様な方法を使用して見つける。
図6に、顔の画像の局所的特徴点の視覚的な表示を示す。また、局所的特徴は、特定の特徴点の組を接続する線で形成される特徴点間の距離、又は特定の特徴点の組を結ぶ線により形成される角度、若しくは顔の外観の変動性を表現する主要な構成要素に特徴点を投射する係数にできる。
使用する特徴は、表1に記載され、その結果は、図6に番号を付されて示される顔の上の点を参照する。円弧(Pn、Pm)は、
Figure 2010532022
で規定される。ここで、||Pn-Pm||は、特徴点PnとPmとの間のユークリッド距離(Euclidean distance)である。円弧長特徴は、内眼距離によって分割されて、種々の顔の大きさに亘って標準化される。点PCは、点0及び1の重心(すなわち、まさに目の中間点)に位置する点である。ここで使用する顔の測定値は、性別、年齢、誘引性、民族性の関連性を示している人物の顔の身体計測値から抽出する(「頭部及び顔の人体測定(Anthropometry of the Head and Face)」(1994年、Farkas(Ed.)第2版、Raven Press、ニューヨーク)。
Figure 2010532022
Figure 2010532022
人物探知器106によって人物の顔の特徴が見つけられると、カラーキュー(color cues)は、デジタル画像又はビデオから容易に抽出される。
また、種々の局所的特徴も使用できる。例えば、ある実施形態では、「認証のための固有顔(Eigenfaces for Recognition)」(1991年「Journal of Cognitive Neuroscience」(Vol.3、No.1、71〜86)においてM. TurkとA. Pentlandとによって説明される顔の類似点の測定基準に基づくことができる。顔の記述子は、顔の外観の変動性を表現する主要な構成要素の関数の組に顔の画像を投射することによって取得される。2つの顔の類似性は、同一の関数の組にそれぞれの顔を投射することによって取得される特徴のユークリッド距離を計算することによって測定される。
局所的特徴は、固有顔、顔の測定、色/構造情報、ウェーブレット特徴などのような、いくつかの共通点のない特徴の型の組み合わせを含むことができる。またさらに、局所的特徴は、目の色、肌の色、髪の色/構造、及び顔の形状のような定量化可能な記述子とともに表すことができる。
人物がカメラに背を向けるときなど人物の顔が見えない場合がある。しかしながら、衣服の領域が整合したとき、整合した領域の上部の場所に髪検出及び解析を使用して、人物カウントの付加的なキューと、画像における人物の存在の認識とを提供する。YacoobとDavidとは、「髪の検出及び解析(Detection and Analysis of Hair)」(2006年7月、PAMI、IEEE Trans)において、髪の外観を検出し測定して種々の人々を比較する方法を説明する。この方法は、髪の色、構造、量、長さ、対称性、分け目の位置、髪に覆われる場所、及び生え際を含む髪の外観の多次元な表示を生成する。
ビデオを処理するために、顔追跡技術を使用してビデオのフレームに亘って人物の位置を見つける。ビデオにおける顔追跡の他の方法は、米国特許第6700999号において説明される。ここでは、動作解析を使用して顔を追跡する。
さらに、これらのアルゴリズムで識別可能な人の数に制限がある画像がある。一般的には、制限は、写真内の人々の解像度の制限によるものである。このような状況では、イベントマネージャ36は、イベントに重要な人々の数を近接する画像で評価するか、又は手動でカウントを入力するモードに移動する。
図5のそれぞれの画像における関連性がある人物の数のカウントが確立すると、イベントマネージャ36は、イベントに関連性があるデータを包含する図7、図8、及び図9に示すイベント表264を形成する。このデータは、画像の数と画像当たりの人物の数とを含むことができる。さらに、未知の人物について、頭部、頭部の姿勢、顔、髪、及びそれぞれの画像内のそれぞれの人物に関連付けられる特徴を、人物が誰かを知ることなしに判定できる。図7において、図4の人物プロファイル236に示される先のイベントデータを形成し、イベント番号は、3371に割り当てる。
データベース114に記録がない人物を画像が含む場合は、双方向人別識別器250は、識別した顔の周りに円を付した画像を表示する。これによって、上述の米国特許第5652880号において説明されるように、ユーザは、名前と他の種類のデータとを顔にラベル付けすることができる。ここで、用語「タグ」、「見出し」、及び「注釈」は、用語「ラベル」と同意語として使用される。しかしながら、先の画像に人物が現れていた場合は、人物に関連付けられるデータを読み出して、図4の行1に示す1つのような人物プロファイル236データベース114を使用する、先に識別した人物分類器244のアルゴリズムのいずれかを使用して整合できる。ここで、データは、カテゴリにセグメント化される。記録されるこの識別は、人物識別、イベント番号、画像番号、顔の形状、顔の点、顔/髪の色/構造、頭部画像セグメント、姿勢角度、3次元モデル、及び関連付けられる特徴である。コレクションにおいて先に識別されたそれぞれの人物は、頭部のデータ及び先の画像で検出され関連付けられた特徴と連関される。さらに、画像クラスタリングで生成された単数又は複数の合成モデルもまた、名前及び関連付けられたイベント検出器と併せて記憶される。このデータを使用して、人物分類器244は、特定人物を含むコレクション内の単数又は複数の画像を識別する。図5の画像1に戻ると、左側の人物は、82点の顔モデル又は固有顔のモデルを使用して識別できていない。第2の人物は、識別可能な82個の点と、固有顔の構造とを有すが、図4に示す人物プロファイル236にこの人物に整合するデータがない。画像2において、人物は、レスリーに属するデータの組「P」として顔のモデルとの結合に適合する。画像3と、画像4の右側ともまた、レスリーに属するデータの組「P」として顔のモデルとの結合と適合する。図8に、このイベントデータの中間の表示を示す。
ステップ214において、識別された単数又は複数の画像において特定人物に関連付けられる1つ又は2つ以上の固有の特徴が識別される。関連付けられる特徴は、人物に関連付けられ、人物を固有なものとする物体の存在である。この関連付けられる特徴は、メガネ、服装の種類などを含む。例えば、Wiskottは、「顔の解析のための実体のない顔(Phantom Faces for Face Analysis)」(1997年、Pattern Recognition、Vol.30、No.6、837から846ページ)において、顔におけるメガネの存在の検出方法を説明する。関連付けられる特徴は、メガネの存在と形状とに関連する情報を含む。
簡潔に述べると、人物分類器244は、2人又は3人以上の人物に関連付けられる特徴の組の間の類似点を測定して、人物の類似点を決定することによって、人物が同一である尤度を決定する。特徴の組の類似の測定は、特徴のサブセットの類似性を測定することによって、遂行される。例えば、関連付けられる特徴が衣服を記述するとき、以下の方法を使用して、2つの特徴の組を比較する。画像捕捉時間の差異が小さく(すなわち2、3時間よりも小さい)、2つの特徴の組のそれぞれにおいて衣服の定量的な記述が類似する場合、局所的特徴の2つのセットが同一の人物に属する尤度が大きくなる。さらに、双方の局所的特徴の組において、非常に固有な、又は特徴的な模様を服装が有する(大きな緑、赤、及び青のパッチのシャツなど)場合、関連付けられる人物が同一の人物である尤度がさらに大きくなる。
服装は、異なる方法で表示できる。ZhuとMehrotraとに特許された米国特許第6480840号で説明される色及び構造の表示及び類似点を使用できる。米国特許第6584465号における織物に見られるように、他の表示では、ZhuとMehrotraとは、表示し整合する模様を特に意図する方法を説明する。この方法は、色不変であり、端部方向のヒストグラムを特徴として使用する。また、端部のマップから抽出される特徴、又は服装のパッチの画像のフーリエ変換係数は、整合する特徴として使用できる。端部、又はフーリエに基づく特徴を計算する前に、パッチは、同一の大きさに標準化されて、カメラ/ズームから被写体への距離に対して不変である端部の周波数を形成する。検出した顔の内眼距離を標準の内眼距離に変換する乗法因子が計算される。パッチの大きさが内眼距離から計算されるので、服装のパッチは、サブサンプルされ、又は標準的な大きさの顔にこの因子が対応するまで拡大される。
固有性の測定は、人物の全体的な整合スコア(match score)に対する整合又は非整合の寄与を決定するそれぞれの服装の模様について計算される。固有性は、模様の固有性と色の固有性との合計として計算される。模様の固有性は、パッチのフーリエ変換における、しきい値を超えるフーリエ係数の数に比例する。例えば、無地のパッチと、一様の間隔を空けた単一のストライプを有するパッチとは、それぞれ1つ(直流のみ)と2つの係数を有し、固有性のスコアが低くなる。模様がより複雑になるにつれて、記述に必要な係数の数が増え、固有性のスコアが高くなる。色の固有性は、人々の画像の大きなデータベースから特定の色が衣服に現れる尤度を取得することによって測定される。例えば、白色のシャツを人物が着る尤度は、オレンジ色、及び緑色のシャツを人物が着る尤度よりも非常に大きい。また、飽和色は、稀であり、より明確に整合できるので、信頼できる統計上の尤度がない場合は、色の固有性は、飽和に基づく。このように、画像の捕捉時間を有する服装の類似点又は相違点、及び服装の固有性は、対象の人物を認証する人物分類器244にとって重要な特徴である。関連付けられる特徴の固有性は、人々の画像の大きなデータベースから特定の衣服が現れる尤度を取得することによって測定される。例えば、白色のシャツを人物が着る尤度は、オレンジ色、及び緑色の格子縞のシャツを人物が着る尤度よりも非常に大きい。このように、画像の捕捉時間を有する服装の類似点又は相違点、及び服装の固有性は、興味の対象の人物を認証する人物分類器244にとって重要な特徴である。
関連付けられた1つ又は2つ以上の特徴を人物に割り当てるとき、固有性を決定するために、さらなる照合ステップが必要になる可能性がある。すべての子供がサッカーのユニフォームを着ている可能性がある。この場合には、番号と顔との他に、メガネ、又は靴と靴下とによって区別されるのみである。固有性が識別されると、これらの特徴は、固有性として記憶される。1つの実施形態においては、正面から見て顔の中心から顔を見回す。ほくろが頬にある可能性がある。耳に宝飾類がある可能性があり、入れ墨又は化粧、及びメガネが目と関連付けられる可能性がある。額、顔、又は帽子は、頭部の上部又は周囲にある可能性がある。スカーフ、シャツ、水着、又はコートは、頭部の周囲又は下部にある可能性などがある。追加的な検査は、以下の通りである。
a)同一の画像に写る2人は、関連付けられる同一の特徴を含むが、異なる特徴を有する(これによって、同一人物の鏡像から除外される他、関連付けられる同一の特徴を固有の特徴として使用する)。
b)すべての画像において、関連付けられる同一の特徴を含む少なくとも2人の人物の異なる顔に対する少なくとも2つの明確な整合(これによって、これらの関連付けられる特徴が固有の特徴から除外される)。
c)異なる画像において、同一人物であるが大幅に異なる服装である人物の明確な整合(これは、その人物が新しい服装を着ていることの合図であり、異なるイベント又はサブイベントを示唆し、データベース114の人物プロファイル236とともにイベントマネージャ36によって、記録し収集される)。
図5に示され、図8の列7に記録される画像の例では、レスリーが有する関連付けられる固有の特徴として、お下げ髪が識別される。
ステップ216は、識別された特徴を使用して残りの画像を探索して、特定人物の特定の画像を識別する。人物の明確な表示によって、固有の特徴は、単数又は複数の画像ファイルから抽出され、残りの画像において比較できる。メガネは、正面及び側面からはっきりと見ることができる。髪、帽子、シャツ、又はコートは、すべての角度から見ることができる。
特定人物に関連付けられる物体は、物体の種類によって様々な方法で整合できる。多くの部分又はセグメントを有する物体(自転車、車など)について、ZhangとChangとは、Proc. of IEEE CVPR 2006において、ランダムに起因する相関グラフ(Random Attributed Relational Graph(RAPG))と称されるモデルを説明する。この方法では、ランダム変数の確率密度関数を使用して、部分の出現及び関係の統計値を捕捉して、物体の部分を表すノードの変数番号を有するグラフを生成する。このグラフを使用して、異なる場面における物体を表示し整合する。
特定の部分及び形状がない物体(服装など)を使用する方法は、色、構造、及び端部に基づく情報のように整合に使用できるレベルが低い物体の特徴を含む。具体的には、Loweは、「International Journal of Computer Vision」(2004年Vol.1、60、NO.2)において、画像のおける興味の対象の端部及び隅部を表す、大きさが不変の特徴(scale-invariant features、(SIFT))を説明する。また、Loweは、画像の他の部分が変化して、模様の大きさ及び方向が変化した場合でさえも、SIFTを使用して模様を整合する方法を説明する。この方法を使用して、衣服、帽子、入れ墨、及び宝飾類の独特な模様を整合できる。
また、SIFT法は、局所的特徴を使用できる。「IEEE音響・音声・信号処理国際会議(ICASSP)2007年4月15日〜20日、ハワイ州ホノルル」において発行されたLuoらによる「顔認証のための人物特定SIFI特徴(Person Specific SIFT features for Face Recognition)」において、人物を特定するSIFI特徴と、キーポイントとなるクラスタリングにおいて局所的類似性及びグローバルな類似性を組み合わせた単純且つ非飽和の整合戦略(matching strategy)とを使用して、顔認証の問題を解決する。
また、メガネのような、共通に生じる特定の物体を専ら見つけるためのさらなる方法がある。Wuらは、PAMI(2004年、Vo1.3、No.26)におけるIEEE Transactionsにおいて、メガネを自動的に検出し、場所を見つける方法を説明する。この方法は、マルコフ連鎖モンテカルロ法を使用して、メガネのフレームにキーポイントを配置する。メガネが検出されると、その形状は特徴付けられて、IEEE CVPR 2005においてBergらが説明した方法を使用して、画像に亘って整合される。このアルゴリズムは、整数2次計画問題(integer quadratic programming problem)の解法として設定することによって、物体におけるキーポイント間の対応を見つける。
図8に記述される図5のイベント画像コレクションに戻り参照すると、色及び構造のマッピングを使用して、画像の形状をセグメント化し抽出するときに、お下げ髪は、画像1及び画像5のレスリーの明確な整合を提供できる。さらに、レスリーの髪の色及び構造と、衣服の色及び模様とに関連付けられるデータセットQは、関連付けられた特定人物の特徴の画像に亘る水平の割り当ての確認を提供する。
特徴に関連付けられる固有性のこれらの種類の検出に基づいて、人物分類器244は、この例ではレスリーである特定人物に、先にラベルが付された識別をラベル付けする。
ステップ218は、特定人物を含む特定の画像から頭部の要素及び特徴をセグメント化し抽出する。この場合、身体と頭部とに関連付けられる要素は、適応Bayesian色セグメント化アルゴリズム(「写真用カラー画像の物理学に基づくセグメント化について(Towards physics-based segmentation of photographic color image)」(Luo他、1997年、Proceeding of the IEEE international conference on Image Processing))において説明される技術を使用してセグメント化し抽出する。このアルゴリズムを使用して、任意の形状の扱いやすい数の物理的に理解しやすい領域を生成する。このセグメント化方法は、好適であるが、当業者は、本発明の範囲から逸脱することなしに、異なるセグメント化方法を使用して物体の任意の形状の領域を取得できることは明らかである。任意の形状の領域のセグメント化は、(1)物体の大きさ、形状、位置、及び物体の空間的な関係の正確な測定、(2)物体の色及び構造の正確な測定、(3)キーとなる対象の正確な分類、という利点を提供する。
まず、画像を領域に初期セグメント化する。セグメント化は、画像のカラーヒストグラムをコンパイルして、画像内の典型的且つ目立つ色に対応する複数のクラスタリングにヒストグラムを区分することによって、遂行される。「写真用カラー画像の物理学に基づくセグメント化について(Towards physics-based segmentation of photographic color image)」(Luo他、1997年、Proceeding of the IEEE international conference on Image Processing))に記載されるように、画像のそれぞれのピクセルは、色のクラスタリングの平均値に対する、好適には物理ベースの色距離測定基準に従って、色空間において最も近いクラスタリングに分類される。この分類処理により、画像の初期セグメント化が終了する。近傍のウィンドウがぞれぞれのピクセルに配置されて、近傍のどのピクセルを使用して、このピクセルの局所的色ヒストグラムを計算するかを判定する。局所的色ヒストグラムが画像全体のヒストグラムと同一なときに再計算する必要がないように、このウィンドウの大きさは、最初は画像全体の大きさに設定される。
次に、現在のセグメント化に基づいてそれぞれの色分類の局所的な平均値を再計算する処理と、更新した色分類の平均値に従ってピクセルを再分類する処理という、交互に起こる2つの処理の間で相互作用手順が実行される。この相互作用手順は、収束に至るまで実行される。この相互作用手順の間、空間的な拘束の強さは、段階的な方法で調整できる(例えば、空間的な拘束の強さを示すβ値は、反復に従って直線的に増加する)。特定のウィンドウの大きさに収束が至った後に、色分類の局所的な平均値を推定するために使用するウィンドウは、半分の大きさに削減される。相互作業手順は、ウィンドウの大きさの削減を繰り返して、色分類の局所的な平均値をより正確に推定することが可能になる。この機構は、空間的に順応するようにセグメント化処理に導入される。最終的には、画像のセグメント化は、最小のウィンドウの大きさに相互作用手順が収束するときに取得される。
上述のセグメント化アルゴリズムは、構造セグメント化に拡張して実行できる。セグメント化の入力として色の値を使用する代わりに、構造の特徴を使用して、同一のフレームワークを使用する構造セグメント化を実行する。典型的な種類の構造の特徴は、ウェーブレット特徴である(「ウェーブレットを使用する画像の自動ロバスト・クラスティング・スキーム(A robust automatic clustering scheme for image segmentation using wavelet)」(R. Porter、N. Canagaraj ah、1996年4月、IEEE Transaction on Image Processing、vol.A5、A662〜665ページ)。
さらに、色の特徴及び構造の特徴の両方に基づいた画像セグメント化を実行するために、色の値とウェーブレットの特徴とからなる合成入力を、説明した方法の入力として使用できる。色セグメント化と構造セグメント化との合成により、均質な色又は構造の領域がセグメント化される。
このように、画像のセグメントは、それぞれに関連付けられる特徴とともに、頭部と身体とから抽出され、人物プロファイル236に名前によりファイルされる。
ステップ220は、識別された要素と、抽出された特徴と、画像セグメントとを使用して、人物の頭部の少なくとも一部の合成モデルを構成する。合成モデル234は、画像コレクションに関連付けられる人物プロファイル236の情報のサブセットである。さらに合成モデル234は、人物の頭部及び身体から抽出された少なくとも1つの表示を含む、複雑且つ関連した部分で形成される概念的な全体として規定できる。さらに、合成モデル234は、特定人物から抽出され関連づけられた特徴を含むことができる。この特徴は、服装、メガネ類、宝飾類、耳の付属物(補聴器、電話の付属物)、入れ墨、化粧、顔髭、ほくろ及び火傷のような顔の欠陥、義肢、及び包帯などを規定する特徴を含むことができる。一般的に服装は、人が身に着ける衣服として規定される。服装は、シャツ、ズボン、ドレス、スカート、靴、靴下、水着、コート、縁なし帽子、スカーフ、手袋、帽子、及び制服を含むことができる。この色及び構造の特徴は、典型的には服装の項目に関連付けられる。典型的には、色と構造との組み合わせは、見本として参照される。服装の総称的な要素のアイコン又はグラフィック表示にこの特徴の見本を割り当てることにより、識別される人物の衣装棚に属しているかのように、衣服の項目などを視覚化することができる。衣服の項目のカタログ又はライブラリを作成することにより、識別される人物の色の好みを決定できる。この好みを使用して、人物の人物プロファイル236を生成し、又は向上できる。さらにこれを使用して、類似する又は補完的な品目を提示して、識別されプロファイル化される人物が購入できる。
帽子は、ランダムに頭部を覆うことができ、又は野球のような特定の活動を特定できる。ヘルメットは、帽子の他の形式であり、特定のスポーツを人物がしていることを示すことができる。スポーツでは、チームのロゴが帽子に印字されることが多い。これらのロゴの認証は、参照することによって開示が本明細書に包含される同一出願人による米国特許第6958821号に教示される。これらの技術を使用すると、人物プロファイル236を向上でき、このプロファイルを使用して、好みのスポーツ又は好みの品目に関連付けられる付加的な商品又はサービスを人物に提示できる。ネックレスもまた、生活様式又は文化に関連付けられる特徴的な模様を有して、ユーザのプロファイルをさらに向上できる。ネックレスは、色、生活様式、又は他の多くの好みに応じた個人の嗜好を反映できる。
ステップ222において、人物の識別は、イベントを撮影した画像コレクションにおいて識別可能な人々のすべての顔を分類するまで、双方向人別識別器250と人物分類器244とを使用して続けられる。ジョンとジェロームとが兄弟である場合、顔が類似するため、人物識別のためにさらなる解析が必要となる可能性がある。家族写真の領域では、顔認証の問題は、少数の(通常10個以内)選択の中から所与の顔のために正確なクラス(人物)を見つけることが必要になる。この複数クラスの顔認証の問題は、対分類パラダイム(pair-wise classification paradigm)を使用して求めることができる。ここで、対分類パラダイムは、それぞれの対クラスについて策定される。対アプローチを使用する有利な点は、2人の人物間の実際の相違点が、他の人々とは別にデータの組において探求され、これによって、特定の一対の人物をより正しく区別する特徴及び特徴の重みを見つけることができる。家族写真の領域では、データベースにおいて、人々の間で類似することが多いので、このアプローチは、より適切である。また、データベースの主要な人物が少ない場合は、このアプローチを使用できる。このアプローチは、Guoらによって示されており(IEEE ICCV 2001)、すべての顔に同一の特徴の組を使用する標準的なアプローチによる顔認証性能を改良する。Guoらによって記される他の所見は、同一レベルの性能を取得するために必要な特徴の数は、グローバルな特徴の組を使用するときと比べて、対アプローチを使用すると非常に少なくなることである。一対の顔は、1つの特徴のみを使用して完全に分離できる場合があり、大部分では、必要とされるのは合計の特徴の組の10%より少ない。使用する特徴は、特定の人物間の主要な相違点を対象とするため、このように考えられる。合成モデル234の有利な点は、非常に多様な顔の特徴を解析できることである。さらに、傾向が現れると、固有な特徴の適応システムによってその傾向を見つけることができる。さらに、髪は、一方の色そして他方の色、一方の顔髭そして他方の顔髭と2つのモードにできる。一般的には、この傾向は、多モード分布(multimodal distribution)に限定される。これらのいくつかのモードは、イベントにクラスタリングされる画像の合成モデルにおいてサポートできる。
N人の主要な人物をデータベースが有する場合、N(N−1)/2個の2クラス分類器(two-class classifiers)が必要である。分類器は、それぞれの対について、その特定の対が最大限に識別されるように重み付けた特徴の組を全体の特徴の組から使用する。これによって、異なる特徴の組を異なる一対の人に使用することが可能になる。この戦略は、すべての顔の比較に単一の特徴空間を使用する従来のアプローチとは異なる。人物を識別する実験で報告されるように、人間の視覚システムもまた異なる特徴を使用して異なる一対を区別するようである。これは、双生児など、とてもよく似ている人の間を人物が見分けようとするときにより明白になる。特定の特徴を使用して双生児の間を見分けることができるが、この特徴は、異なる対の間を見分けるために使用する単数又は複数の特徴とは異なる。顔のクエリ画像が着信するとき、N(N−1)/2個の分類器を通過する。それぞれの分類器Φm,nにおいて、クエリがクラスmに分類される場合は、出力は1であり、クラスnに分類される場合は0である。対分類器の出力は、いくつかの方法で組み合わせることができる。最も簡単な方法は、クエリの顔をN(N−1)/2個の分類器のなかで最も多い投票総数を集めるクラスに割り当てることである。ここでは、それぞれのクラスmに対してクエリを最大投票総数に割り当てる投票総数
Figure 2010532022
の計算のみが必要である。Φm,nは、Φn,mと同一の分類器であると仮定される。
使用される顔の特徴の組は、固有顔、フィッシャ顔(Fisher faces)、顔測定(facial measurements)、ガボールウェーブレット(Gabor wavelet)及び他のもの(Zhaoらが、ACM computing surveysにおいて2003年12月に顔認証技術の総括的な概説を行っている)を含む顔認証に一般的に使用される特徴のいずれかから選択できる。また、ペアワイズ、2クラスの分類問題に使用できる多くの種類の分類器がある。「ブースティング(Boosting)」は、一群の非力な分類器を組み合わせて、より強力な分類器を形成する方法である。(Eurocolt 1995でFreundとSchapireとが説明した)AdaBoostのようなマージンが大きい分類器は、訓練データの2つのクラスの間で最良の分類を提供して良好な一般化能力をもたらす決定戦略を見つけるので、本発明には好適な方法である。この分類戦略は、多量の手動によるラベル付けを消費者に強いるラベルが付された訓練例の多量の組を用意する必要がないため、本発明の応用にとても適当である。
実施例では、ジョンは、顔の点の整合及び固有顔を有し、人物分類器は、人物ジョンと名付ける。顔の形状yと、顔の点xと、顔髭の色及び構造zとを有する不明確な人物は、双方向人別識別器250を使用してユーザによってサラと識別される。代替的には、サラは、他のコンピュータ、カメラ、インターネットサーバ、又は取り外し可能なメモリに配置される異なるデータベースのデータを使用して、人物分類器244を使用して識別できる。
図5におけるイベントの画像の実施例において、新しい衣服は、サラに関連付けられ、新しいズボンは、ジョンに関連付けられる。これは、イベントが変化した可能性のマーカである。図9に示すように、画像のイベントへの分類をさらに改良するために、イベントマネージャ36は、イベント表264を修正して、新しいイベント番号3372を生成する。その結果、図9に示すイベント表264は、人物分類をここで終了する。図10に更新したクラスタリングを示す。図9におけるデータを図4に付加して、図11に示すような更新された人物プロファイル236を得ることができる。なお、図11の列6、行8〜16において、データの組は、レスリーの顔/髪の色/構造が変更されている。人物プロファイル236に包含されるこのデータによって、1つのイベントから次のイベントに髪が色を変えることができる。
合成モデルは、最新の探索のために特定人物の頭部の一部が記憶されることと、特定人物を含む識別された画像のそれぞれにおいて頭部の姿勢を決定することと、特定人物の頭部の3次元モデルを作成することとを含む。図12を参照すると、合成モデルを構成するフローチャートが説明される。ステップ224は、イベントから特定人物の頭部の少なくとも一部のセグメントを集める。これらのセグメントは、合成モデルとして別々に使用でき、イベント表264又は人物プロファイル236から獲得される。ステップ226は、それぞれの画像の人物の頭部の姿勢角度を決定する。頭部の姿勢は、顔の画像を処理する視覚システムの能力を向上する重要な視覚上のキューである。このステップは、人物が識別される前又は後に実行できる。
頭部の姿勢は、ヨー(yaw)、ピッチ(pitch)及びロール(roll)の3つの角度に関する要素を有する。ヨーは、垂直軸に対して左右に回転する頭部の角度に言及する。ピッチは、水平軸に対して上下を指し示す頭部の角度に言及する。ロールは、前頭面に垂直な軸に対して左右に傾ける頭部の角度に言及する。ヨーとビッチとは、前頭面に対して顔が向く方向を変更するので、面外の回転として言及される。反対に、ロールは、前頭面に対して顔が向く方向を変更しないので、面内の回転として言及される。参照することによって本明細書に包含される同一出願人による米国特許出願第2005/0105805号は、物体の平面における回転方法を説明する。
一般的にはモデルに基づく姿勢推定の技術は、画像から人物の3次元頭部形状を再生して、3次元モデルを使用して頭部の方向を推定する。モデルに基づく典型的なシステムは、参照することによって本明細書に包含される「総称的モデルを使用する1つの画像からの頭部姿勢の決定(Head Pose Determination from One Image Using a Generic Model)」(Shimizu他、1998年、Proceedings IEEE International Conference on Automatic Face and Gesture Recognition)に開示される。開示されるシステムにおいて、端部の曲線(目、口、眉の輪郭など)は、3次元モデルにおいて最初に規定される。次に、入力画像は、モデルにおいて規定される端部の曲線に対応するカーブが探索される。モデルと入力画像とにおける端部の曲線の間の対応が確立した後に、頭部の姿勢は、様々な姿勢角度を通じて3次元モデルを双方向で調整し、入力画像に適合する最も近い曲線を示す調整を決定することによって推定される。最も近い曲線との適合を示す姿勢角度は、入力画像の姿勢角度に決定される。このように、合成3次元モデルの人物プロファイル236は、3次元モデルを改善し、人物識別を改良する姿勢推定を続けるための重要な道具である。
外観に基づく姿勢推定技術は、人物の頭部と、既知の方向における一式の顔のテンプレート画像とを比較することによって、頭部の姿勢を推定できる。人物の頭部は、最も共通点を有するテンプレート画像と同一の方向を共有すると考えられる。典型的なシステムは、「実施例に基づく頭部追跡(Example-based head tracking)」(S. Hiyogi、W. Freeman、1996年、「Technical Report TR96-34、MERL Cambridge Research」)において提案されるシステムである。
外観に基づく他の技術は、ニューラルネットワーク、サポートベクターマシン、又は他の分類方法を使用して、頭部の姿勢を分類できる。この方法の実施例は、「マシン学習によるロバスト頭部姿勢推定(Robust head pose estimation by machine leaning)」(Ce Wamg、Brandstein、M. Image Processing、2000、 Processing. 2000 International Conference on Volume 3、Issue、2000 page 210〜213 Vol.3)を含む。他の実施例は、「ニューラルネットワークを使用するマルチビュー頭部姿勢推定(Multi-View Head Pose Estimation using Neural Networks)」(Michael Voit、Kai Nickel、Rainer Stiefelhagen、The 2nd Canadian Conference on Computer and Robot Vision (CRV'05)、347〜352ページ)を含む。
ステップ228は、特定人物の頭部の単数又は複数の3次元表示を構成する。図10において識別される3人の人物の頭部の例では、3次元モデルを生成するのに十分に異なるレスリーの写真がある。画像内の他の人物は、モデルを作成するためのデータを有するが、レスリーのモデルほど正確なモデルにはならないであろう。合成モデルを作成するために抽出される特徴のいくつかを反映し、認識できる。しかしながら、ジョンの人物プロファイル236は、先の画像を有し、このイベントと組み合せて先のイベントから合成3次元モデルを生成するのに先の画像を使用できることになる。
3次元表示は、次に行われる探索と人物識別とに有益である。これらの表示は、人物に関連付けられる具現(avatar)、ナレーション、ゲーム、及びアニメーションに使用できる。これら一連の3次元モデルは、姿勢推定と明暗ツール(lighting and shadow tools)とともに様々な表示から生成できる。GPSシステムから抽出されるカメラの角度によって、一致した照明が可能なので、3次元モデルの作成を改良できる。人が屋外にいる場合、カメラが太陽光に対して同一の方向を指示する場合と同様な照明にできる。さらに、人物のいくつかの写真で背景が同一な場合は、イベントマネージャ36で確立されるときに、同様な照明とみなすことができる。また、人物の多くの表示から短い期間にコンパイルすることが望まれる。複数の表示は、人物のいくつかの異なる正面表示に基づいて交換可能な表情を有する3次元モデルに統合できる。
3次元モデルは、1枚、又は数枚の画像から生成でき、高い解像度を提供するのに十分な大きさの頭部を有する画像の合成数が増加することにより精度が上がる。参照することによって本明細書に包含される同一出願人による米国特許第7123263号、第7065242号、第6532011号、第7218774号、及び第7103211号に3次元モデル化方法がいくつか説明される。本発明は、メッシュ多角形アレイ(array of mesh polygon)、基線パラメータ(baseline parametric)、総称的頭部モデル(generic head model)を使用する公知のモデルを使用する。構造マップ又は頭部の特徴の画像部分は、生成された表面に適用されて、モデルを生成する。
ステップ230は、イベントからの少なくとも1つのメタデータ要素を有する、特定人物の識別に関連付けられた合成画像ファイルとして記憶する。これにより、写真コレクションにおいてイベントに亘る一連の合成モデルが可能になる。これらの合成モデルは、年齢、髪型、又は衣服によって特定人物の外観をグループ化するのに有用である。画像コレクションにおいて相当の時間の間隔がある場合、類似する姿勢角度を有する画像の一部を変形させて、時間の間隔を満たすことができる。後に、これによって、時間の間隔の写真を付加することによって、人物識別を助力できる。
図13を参照すると、写真内の特定人物を識別するフローチャートによって、合成モデルの使用法が説明される。
ステップ400は、特定人物の写真を受信する。
ステップ402は、特定人物を整合するために、頭部の特徴と関連付ける特徴とを探索する。
ステップ404は、画像内の人物の頭部の姿勢角度を決定する。
ステップ406は、人物プロファイルのすべての人々を姿勢角度によって探索する。
ステップ408は、受信写真の表情を決定し、人物データベースを探索する。
ステップ410は、受信した写真の姿勢に単数又は複数の3次元合成モデルを回転する。
ステップ412は、受信した写真の照明を決定し、3次元モデルを明るくするために再製する。
ステップ414は、整合のためにコレクションを探索する。
ステップ416は、手動、自動、又は提案する識別法によって写真内の人物を識別する。
図14は、合成モデルの他の使用法のためにデジタル画像コレクション内の特定人物を探索するフローチャートである。
ステップ420は、特定人物の探索要求を受信する。
ステップ422は、特定人物の抽出された頭部要素を表示する。
ステップ424は、日付、イベント、姿勢、角度、表情などによって表示を体系化する。
当業者は、本発明の範囲から著しく逸脱することなしに、本発明の記述に多くの変形を行うことができることを理解することになるであろう。
36 イベントマネージャ
102 デジタル画像コレクション
104 ラベル器
106 特徴抽出器
108 人物探知器
110 人物検出器
112 デジタル画像コレクションサブセット
114 データベース
130 抽出及びセグメント化
210 ブロック
212 ブロック
214 ブロック
216 ブロック
218 ブロック
220 ブロック
222 ブロック
224 ブロック
226 ブロック
228 ブロック
230 ブロック
234 合成モデル
236 人物プロファイル
238 関連特徴検出器
240 局所特徴検出器
242 グローバル特徴検出器
244 人物分類器
246 グローバル特徴
250 双方向人物識別器
252 人物抽出器
254 人物画像セグメント化器
258 関連特徴セグメント化器
260 姿勢推定器
262 3次元モデル作成器
264 イベント表
270 顔検出器
272 捕捉時間分析器
301 デジタルカメラ付き携帯電話
303 フラッシュ
305 レンズ
311 CMOS画像センサ
312 タイミング生成器
314 画像センサアレイ
316 A/Dコンバータ回路
318 DRAMバッファメモリ
320 デジタルプロセッサ
322 RAMメモリ
324 リアルタイムクロック
325 位置決定器
328 ファームウェアメモリ
330 画像/データメモリ
332 カラー表示部
334 ユーザ制御
340 音声コーディク
342 マイク
344 スピーカ
350 無線モデム
352 無線チャネル
358 携帯電話ネットワーク
362 ドックインタフェース
364 ドック/充電器
370 インターネット
372 サービスプロバイダ
375 一般的な制御コンピュータ
400 ブロック
402 ブロック
404 ブロック
406 ブロック
408 ブロック
410 ブロック
412 ブロック
414 ブロック
416 ブロック
420 ブロック
422 ブロック
424 ブロック

Claims (8)

  1. 特定人物の頭部の少なくとも一部の合成モデルを構成することによって、画像内の特定人物の認証を改良する方法であって、
    (a)特定のイベントの間に撮影した画像のコレクションを獲得するステップと、
    (b)前記コレクション内の特定人物を含む単数又は複数の画像を識別するステップと、
    (c)前記識別された単数又は複数の画像内の前記特定人物に関係付けられる1つ又は2つ以上の特徴を識別するステップと、
    (d)前記コレクションの他の画像中の前記特定人物を識別するために、前記識別された特徴を使用して前記コレクションを探索するステップと、
    (e)前記特定人物の識別された画像を使用して、前記特定人物の頭部の少なくとも一部の合成モデルを構成するステップと、
    を含む方法。
  2. 前記特徴は、服装を含む請求項1に記載の方法。
  3. 前記合成モデルは、
    (i)最新の探索のために前記特定人物の前記頭部の一部が記憶されるステップと、
    (ii)前記特定人物を含む前記識別された画像のそれぞれにおいて前記頭部の姿勢を決定するステップと、
    (iii)前記特定人物の前記頭部の3次元モデルを作成するステップと、
    を含む請求項1に記載の方法。
  4. 次のコレクションの探索に使用するために前記識別された特徴を記憶するステップをさらに含む請求項3に記載の方法。
  5. 前記合成モデル(i)、又は(iii)を使用して、前記特定人物を識別するために他の画像コレクションを探索するステップをさらに含む請求項3に記載の方法。
  6. 前記記憶され識別された特徴を使用して、前記特定人物を識別するために他の画像コレクションを探索するステップをさらに含む請求項5に記載の方法。
  7. 前記合成モデル(ii)を使用し、頭部の特徴を抽出し、該抽出した頭部の特徴を使用して、前記特定人物を識別するために他の画像コレクションを探索するステップをさらに含む請求項3に記載の方法。
  8. 前記記憶され識別された特徴を使用して、前記特定人物を識別するために他の画像コレクションを探索するステップをさらに含む請求項7に記載の方法。
JP2010510302A 2007-05-30 2008-05-23 画像コレクションの合成人物モデル Pending JP2010532022A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/755,343 US20080298643A1 (en) 2007-05-30 2007-05-30 Composite person model from image collection
PCT/US2008/006613 WO2008147533A1 (en) 2007-05-30 2008-05-23 Composite person model from image collection

Publications (1)

Publication Number Publication Date
JP2010532022A true JP2010532022A (ja) 2010-09-30

Family

ID=39590387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010510302A Pending JP2010532022A (ja) 2007-05-30 2008-05-23 画像コレクションの合成人物モデル

Country Status (5)

Country Link
US (1) US20080298643A1 (ja)
EP (1) EP2149106A1 (ja)
JP (1) JP2010532022A (ja)
CN (1) CN101681428A (ja)
WO (1) WO2008147533A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252644A (ja) * 2011-06-06 2012-12-20 Seiko Epson Corp 生体識別装置、及び、生体識別方法

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100982197B1 (ko) * 2004-06-21 2010-09-14 구글 인코포레이티드 얼굴 인식 방법, 얼굴 인식 장치 및 컴퓨터 판독 가능한 기록 매체
US8488023B2 (en) * 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
US8208694B2 (en) * 2006-06-06 2012-06-26 Thomas Jelonek Method and system for image and video analysis, enhancement and display for communication
JP4973393B2 (ja) * 2007-08-30 2012-07-11 セイコーエプソン株式会社 画像処理装置、画像処理方法、画像処理プログラムおよび画像処理システム
US8315430B2 (en) * 2007-11-07 2012-11-20 Viewdle Inc. Object recognition and database population for video indexing
WO2009128783A1 (en) * 2008-04-14 2009-10-22 Xid Technologies Pte Ltd An image synthesis method
US8171410B2 (en) * 2008-05-29 2012-05-01 Telcordia Technologies, Inc. Method and system for generating and presenting mobile content summarization
WO2009155092A2 (en) * 2008-05-29 2009-12-23 Telcordia Technologies, Inc. Method and system for multi-touch-based browsing of media summarizations on a handheld device
JP2010016621A (ja) * 2008-07-03 2010-01-21 Sony Corp 画像データ処理装置と画像データ処理方法およびプログラムと記録媒体
US20100007738A1 (en) * 2008-07-10 2010-01-14 International Business Machines Corporation Method of advanced person or object recognition and detection
US9405995B2 (en) * 2008-07-14 2016-08-02 Lockheed Martin Corporation Method and apparatus for facial identification
US20100077289A1 (en) 2008-09-08 2010-03-25 Eastman Kodak Company Method and Interface for Indexing Related Media From Multiple Sources
JP5212187B2 (ja) * 2009-03-06 2013-06-19 ブラザー工業株式会社 通信端末装置、表示制御方法、表示制御プログラム
US8296675B2 (en) * 2009-03-09 2012-10-23 Telcordia Technologies, Inc. System and method for capturing, aggregating and presenting attention hotspots in shared media
CN101853389A (zh) * 2009-04-01 2010-10-06 索尼株式会社 多类目标的检测装置及检测方法
US9155103B2 (en) 2009-06-01 2015-10-06 Qualcomm Incorporated Coexistence manager for controlling operation of multiple radios
US9185718B2 (en) 2009-06-29 2015-11-10 Qualcomm Incorporated Centralized coexistence manager for controlling operation of multiple radios
US9161232B2 (en) 2009-06-29 2015-10-13 Qualcomm Incorporated Decentralized coexistence manager for controlling operation of multiple radios
US20110007680A1 (en) * 2009-07-09 2011-01-13 Qualcomm Incorporated Sleep mode design for coexistence manager
US9135197B2 (en) 2009-07-29 2015-09-15 Qualcomm Incorporated Asynchronous interface for multi-radio coexistence manager
US9185719B2 (en) * 2009-08-18 2015-11-10 Qualcomm Incorporated Method and apparatus for mapping applications to radios in a wireless communication device
US8903314B2 (en) 2009-10-29 2014-12-02 Qualcomm Incorporated Bluetooth introduction sequence that replaces frequencies unusable due to other wireless technology co-resident on a bluetooth-capable device
JP5385759B2 (ja) * 2009-10-30 2014-01-08 キヤノン株式会社 画像処理装置及び画像処理方法
US20110157218A1 (en) * 2009-12-29 2011-06-30 Ptucha Raymond W Method for interactive display
US20120242803A1 (en) * 2010-01-13 2012-09-27 Kenjiro Tsuda Stereo image capturing device, stereo image capturing method, stereo image display device, and program
US20110182493A1 (en) * 2010-01-25 2011-07-28 Martin Huber Method and a system for image annotation
US8645287B2 (en) 2010-02-04 2014-02-04 Microsoft Corporation Image tagging based upon cross domain context
US20110211737A1 (en) * 2010-03-01 2011-09-01 Microsoft Corporation Event Matching in Social Networks
US9465993B2 (en) 2010-03-01 2016-10-11 Microsoft Technology Licensing, Llc Ranking clusters based on facial image analysis
JP2011188342A (ja) * 2010-03-10 2011-09-22 Sony Corp 情報処理装置、情報処理方法及びプログラム
JP2011237907A (ja) * 2010-05-07 2011-11-24 Sony Corp 画像処理装置、画像処理方法、およびプログラム
US8311337B2 (en) 2010-06-15 2012-11-13 Cyberlink Corp. Systems and methods for organizing and accessing feature vectors in digital images
US20130106900A1 (en) * 2010-07-06 2013-05-02 Sang Hyun Joo Method and apparatus for generating avatar
US8478048B2 (en) * 2010-07-08 2013-07-02 International Business Machines Corporation Optimization of human activity determination from video
WO2012015889A1 (en) * 2010-07-27 2012-02-02 Telcordia Technologies, Inc. Interactive projection and playback of relevant media segments onto facets of three-dimensional shapes
US8588548B2 (en) * 2010-07-29 2013-11-19 Kodak Alaris Inc. Method for forming a composite image
US9130656B2 (en) 2010-10-13 2015-09-08 Qualcomm Incorporated Multi-radio coexistence
US9251854B2 (en) * 2011-02-18 2016-02-02 Google Inc. Facial detection, recognition and bookmarking in videos
US9552637B2 (en) 2011-05-09 2017-01-24 Catherine G. McVey Image analysis for determining characteristics of groups of individuals
WO2012154841A2 (en) 2011-05-09 2012-11-15 Mcvey Catherine Grace Image analysis for determining characteristics of animal and humans
US9355329B2 (en) * 2011-05-09 2016-05-31 Catherine G. McVey Image analysis for determining characteristics of pairs of individuals
AU2012260619B2 (en) * 2011-05-20 2016-02-18 Bae Systems Plc Supervised data transfer
US8832080B2 (en) * 2011-05-25 2014-09-09 Hewlett-Packard Development Company, L.P. System and method for determining dynamic relations from images
US9336456B2 (en) 2012-01-25 2016-05-10 Bruno Delean Systems, methods and computer program products for identifying objects in video data
US8737767B2 (en) * 2012-02-28 2014-05-27 Disney Enterprises, Inc. Perceptually guided capture and stylization of 3D human figures
JP5949030B2 (ja) * 2012-03-26 2016-07-06 カシオ計算機株式会社 画像生成装置、画像生成方法及びプログラム
KR101385599B1 (ko) * 2012-09-26 2014-04-16 한국과학기술연구원 몽타주 추론 방법 및 장치
US9727586B2 (en) * 2012-10-10 2017-08-08 Samsung Electronics Co., Ltd. Incremental visual query processing with holistic feature feedback
JP6363608B2 (ja) 2012-10-12 2018-07-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 患者の顔面データにアクセスするためのシステム
US9465813B1 (en) * 2012-11-09 2016-10-11 Amazon Technologies, Inc. System and method for automatically generating albums
JP6098133B2 (ja) * 2012-11-21 2017-03-22 カシオ計算機株式会社 顔構成部抽出装置、顔構成部抽出方法及びプログラム
CN103870797A (zh) * 2012-12-14 2014-06-18 联想(北京)有限公司 信息处理方法及电子设备
US9330296B2 (en) * 2013-03-15 2016-05-03 Sri International Recognizing entity interactions in visual media
DE102013009958A1 (de) * 2013-06-14 2014-12-18 Sogidia AG Soziales Vernetzungssystem und Verfahren zu seiner Ausübung unter Verwendung einer Computervorrichtung die mit einem Benutzerprofil korreliert
US9953417B2 (en) 2013-10-04 2018-04-24 The University Of Manchester Biomarker method
US9519823B2 (en) * 2013-10-04 2016-12-13 The University Of Manchester Biomarker method
US9269017B2 (en) 2013-11-15 2016-02-23 Adobe Systems Incorporated Cascaded object detection
US9208404B2 (en) * 2013-11-15 2015-12-08 Adobe Systems Incorporated Object detection with boosted exemplars
CN104715227B (zh) 2013-12-13 2020-04-03 北京三星通信技术研究有限公司 人脸关键点的定位方法和装置
JP6323465B2 (ja) * 2014-01-15 2018-05-16 富士通株式会社 アルバム作成プログラム、アルバム作成方法およびアルバム作成装置
US9672412B2 (en) * 2014-06-24 2017-06-06 The Chinese University Of Hong Kong Real-time head pose tracking with online face template reconstruction
CN105335595A (zh) 2014-06-30 2016-02-17 杜比实验室特许公司 基于感受的多媒体处理
US20160093181A1 (en) * 2014-09-26 2016-03-31 Motorola Solutions, Inc Method and apparatus for generating a super-resolved image from multiple unsynchronized cameras
KR101635730B1 (ko) * 2014-10-08 2016-07-20 한국과학기술연구원 몽타주 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
US9734387B2 (en) 2015-03-12 2017-08-15 Facebook, Inc. Systems and methods for providing object recognition based on detecting and extracting media portions
CN106156692B (zh) * 2015-03-25 2019-12-13 阿里巴巴集团控股有限公司 一种用于人脸边缘特征点定位的方法及装置
CN104766065B (zh) * 2015-04-14 2018-04-27 中国科学院自动化研究所 基于多视角学习的鲁棒性前景检测方法
US20160307057A1 (en) * 2015-04-20 2016-10-20 3M Innovative Properties Company Fully Automatic Tattoo Image Processing And Retrieval
CN104794458A (zh) * 2015-05-07 2015-07-22 北京丰华联合科技有限公司 一种从模糊视频中识别人员的方法
CN104794459A (zh) * 2015-05-07 2015-07-22 北京丰华联合科技有限公司 一种从视频中进行人员身份判断的方法
US9904872B2 (en) 2015-11-13 2018-02-27 Microsoft Technology Licensing, Llc Visual representations of photo albums
US20180075317A1 (en) * 2016-09-09 2018-03-15 Microsoft Technology Licensing, Llc Person centric trait specific photo match ranking engine
US10297059B2 (en) 2016-12-21 2019-05-21 Motorola Solutions, Inc. Method and image processor for sending a combined image to human versus machine consumers
JP6520975B2 (ja) * 2017-03-16 2019-05-29 カシオ計算機株式会社 動画像処理装置、動画像処理方法及びプログラム
CN106960467A (zh) * 2017-03-22 2017-07-18 北京太阳花互动科技有限公司 一种带有骨骼信息的人脸重构方法和***
US10430966B2 (en) * 2017-04-05 2019-10-01 Intel Corporation Estimating multi-person poses using greedy part assignment
US10380413B2 (en) * 2017-07-13 2019-08-13 Robert Bosch Gmbh System and method for pose-invariant face alignment
CN107609506B (zh) * 2017-09-08 2020-04-21 百度在线网络技术(北京)有限公司 用于生成图像的方法和装置
US10795979B2 (en) * 2017-09-27 2020-10-06 International Business Machines Corporation Establishing personal identity and user behavior based on identity patterns
US10839003B2 (en) 2017-09-27 2020-11-17 International Business Machines Corporation Passively managed loyalty program using customer images and behaviors
US10803297B2 (en) 2017-09-27 2020-10-13 International Business Machines Corporation Determining quality of images for user identification
US10776467B2 (en) 2017-09-27 2020-09-15 International Business Machines Corporation Establishing personal identity using real time contextual data
US10565432B2 (en) 2017-11-29 2020-02-18 International Business Machines Corporation Establishing personal identity based on multiple sub-optimal images
US11093546B2 (en) * 2017-11-29 2021-08-17 The Procter & Gamble Company Method for categorizing digital video data
CN109977978B (zh) * 2017-12-28 2023-07-18 中兴通讯股份有限公司 一种多目标检测方法、装置及存储介质
CN110047101A (zh) * 2018-01-15 2019-07-23 北京三星通信技术研究有限公司 物体姿态估计方法、获得稠密深度图像的方法、相应装置
US10885659B2 (en) 2018-01-15 2021-01-05 Samsung Electronics Co., Ltd. Object pose estimating method and apparatus
CN108391063B (zh) * 2018-02-11 2021-02-02 北京优聚视微传媒科技有限公司 视频剪辑方法及装置
JP7028675B2 (ja) * 2018-02-28 2022-03-02 パナソニックi-PROセンシングソリューションズ株式会社 施設内監視システムおよび施設内監視方法
CN108257210A (zh) * 2018-02-28 2018-07-06 浙江神造科技有限公司 一种通过单张照片生成人脸三维模型的方法
CN109214292A (zh) * 2018-08-06 2019-01-15 广东技术师范学院 一种基于bp神经网络的人体屈体角度识别方法及设备
CN110321935B (zh) * 2019-06-13 2022-03-15 上海上湖信息技术有限公司 业务事件关系确定方法及装置、计算机可读存储介质
CN110737793A (zh) * 2019-09-19 2020-01-31 深圳云天励飞技术有限公司 一种图像搜索方法、装置、计算机可读存储介质及数据库
US11423308B1 (en) * 2019-09-20 2022-08-23 Apple Inc. Classification for image creation
WO2021096192A1 (en) * 2019-11-12 2021-05-20 Samsung Electronics Co., Ltd. Neural facial expressions and head poses reenactment with latent pose descriptors
US20220198861A1 (en) * 2020-12-18 2022-06-23 Sensormatic Electronics, LLC Access control system screen capture facial detection and recognition

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5164831A (en) * 1990-03-15 1992-11-17 Eastman Kodak Company Electronic still camera providing multi-format storage of full and reduced resolution images
US5652880A (en) * 1991-09-11 1997-07-29 Corel Corporation Limited Apparatus and method for storing, retrieving and presenting objects with rich links
US6345274B1 (en) * 1998-06-29 2002-02-05 Eastman Kodak Company Method and computer program product for subjective image content similarity-based retrieval
US6606411B1 (en) * 1998-09-30 2003-08-12 Eastman Kodak Company Method for automatically classifying images into events
IT1315446B1 (it) * 1998-10-02 2003-02-11 Cselt Centro Studi Lab Telecom Procedimento per la creazione di modelli facciali tridimensionali apartire da immagini di volti.
US6351556B1 (en) * 1998-11-20 2002-02-26 Eastman Kodak Company Method for automatically comparing content of images for classification into events
US6278460B1 (en) * 1998-12-15 2001-08-21 Point Cloud, Inc. Creating a three-dimensional model from two-dimensional images
US6584465B1 (en) * 2000-02-25 2003-06-24 Eastman Kodak Company Method and system for search and retrieval of similar patterns
US7065242B2 (en) * 2000-03-28 2006-06-20 Viewpoint Corporation System and method of three-dimensional image capture and modeling
US6700999B1 (en) * 2000-06-30 2004-03-02 Intel Corporation System, method, and apparatus for multiple face tracking
US6958821B1 (en) * 2000-11-21 2005-10-25 Eastman Kodak Company Analyzing images to determine third party product materials corresponding to the analyzed images
US6697502B2 (en) * 2000-12-14 2004-02-24 Eastman Kodak Company Image processing method for detecting human figures in a digital image
US6915011B2 (en) * 2001-03-28 2005-07-05 Eastman Kodak Company Event clustering of images using foreground/background segmentation
US7123263B2 (en) * 2001-08-14 2006-10-17 Pulse Entertainment, Inc. Automatic 3D modeling system and method
US7103211B1 (en) * 2001-09-04 2006-09-05 Geometrix, Inc. Method and apparatus for generating 3D face models from one camera
US7218774B2 (en) * 2003-08-08 2007-05-15 Microsoft Corp. System and method for modeling three dimensional objects from a single image
US7274832B2 (en) * 2003-11-13 2007-09-25 Eastman Kodak Company In-plane rotation invariant object detection in digitized images
WO2006048809A1 (en) * 2004-11-04 2006-05-11 Koninklijke Philips Electronics N.V. Face recognition
US7519200B2 (en) * 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US20070098303A1 (en) * 2005-10-31 2007-05-03 Eastman Kodak Company Determining a particular person from a collection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252644A (ja) * 2011-06-06 2012-12-20 Seiko Epson Corp 生体識別装置、及び、生体識別方法

Also Published As

Publication number Publication date
US20080298643A1 (en) 2008-12-04
CN101681428A (zh) 2010-03-24
EP2149106A1 (en) 2010-02-03
WO2008147533A1 (en) 2008-12-04

Similar Documents

Publication Publication Date Title
JP2010532022A (ja) 画像コレクションの合成人物モデル
US20090091798A1 (en) Apparel as event marker
US8897504B2 (en) Classification and organization of consumer digital images using workflow, and face detection and recognition
EP2238563B1 (en) Enabling persistent recognition of individuals in images
US7558408B1 (en) Classification system for consumer digital images using workflow and user interface modules, and face detection and recognition
US8199979B2 (en) Classification system for consumer digital images using automatic workflow and face detection and recognition
US7587068B1 (en) Classification database for consumer digital images
US7555148B1 (en) Classification system for consumer digital images using workflow, face detection, normalization, and face recognition
US20070098303A1 (en) Determining a particular person from a collection
US9323979B2 (en) Face recognition performance using additional image features
US20070177805A1 (en) Finding images with multiple people or objects
US7574054B2 (en) Using photographer identity to classify images
US8315463B2 (en) User interface for face recognition
US20060245624A1 (en) Using time in recognizing persons in images
Davis et al. Using context and similarity for face and location identification
KR101107308B1 (ko) 영상 검색 및 인식 방법
Matzen Computer vision for spatio-temporal analysis of internet photo collections
Hörster et al. Recognizing persons in images by learning from videos