JP4575917B2 - 構成要素に基づいて構成された物体を識別するシステムを訓練するシステム、方法及びプログラム - Google Patents

構成要素に基づいて構成された物体を識別するシステムを訓練するシステム、方法及びプログラム Download PDF

Info

Publication number
JP4575917B2
JP4575917B2 JP2006517819A JP2006517819A JP4575917B2 JP 4575917 B2 JP4575917 B2 JP 4575917B2 JP 2006517819 A JP2006517819 A JP 2006517819A JP 2006517819 A JP2006517819 A JP 2006517819A JP 4575917 B2 JP4575917 B2 JP 4575917B2
Authority
JP
Japan
Prior art keywords
component
classifier
components
recognition classifier
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006517819A
Other languages
English (en)
Other versions
JP2007524919A (ja
Inventor
へイゼル バーンド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority claimed from PCT/US2004/021158 external-priority patent/WO2005006278A2/en
Publication of JP2007524919A publication Critical patent/JP2007524919A/ja
Application granted granted Critical
Publication of JP4575917B2 publication Critical patent/JP4575917B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

関連出願の相互参照
この出願は、ここで参照によって引用されている、次の米国仮特許出願に基づいて優先権を主張する:シリアル番号60/484,201、2003年6月30日出願、題名“エクスペクテーション・マクシマイゼーション・オブ・プリフロンタル−スーペリアー・テンポラル・ネットワーク・バイ・インディケータ・コンポーネント−ベースト・アプローチ”(Serial No. 60/484,201, filed on June 30, 2003, entitled “Expectation Maximization of Prefrontal-Superior Temporal Network by Indicator Component-Based Approach.”)
発明の背景
1.発明の分野
本発明は構成要素に基づいた物体の同一性確認システムに関する。より具体的には、本発明は構成要素に基づいた顔認識システムの訓練に関する。
2.背景技術の説明
顔認識技術は一般に二つのカテゴリに分類される:即ち包括的技術と構成要素に基づく技術である。包括的な方法では、一つの顔のイメージが一つの特徴ベクトルによって表現される。この特徴ベクトルは認識分類器へ入力される。認識分類器は特徴ベクトルに基づいて人物の同一性を決定する。
構成要素に基づいた方法では、一つの顔のイメージが目、鼻および口のようないくつかの個々の顔の構成要素に分解される。個々の顔の構成要素は異なる構成要素認識分類器へ入力される。その後、構成要素認識分類器の出力は顔を認識するために使用される。
構成要素認識分類器が使用可能になる前に、それは訓練を受ける必要が有る。分類器がうまく訓練されれば、その分類器はそれだけより正確に機能する。分類器を訓練する一つの方法は、事例からなる集合を分類器に与えることである。個々の事例は、ある特定の入力が与えられた場合に、分類器が何を出力すべきかを示す入出力からなる一組である。換言すれば、分類器に示され、事例からなる集合は、分類器がどれだけ正確に機能するかを決定する。
その結果、構成要素に基づいた物体の同一性確認システムはいずれも、システムを訓練するためにどの構成要素を事例として使うかが重要になる。ある特定の物体を他から区別する際に、どの構成要素がシステムの精度を最大にするかを決定することが必要である。
発明の要約
構成要素に基づいた物体の同一性確認システムにとって、どの構成要素がシステムの訓練に事例として使用されるかが、いずれの場合も重要である。ある特定の物体を他から区別する際に、構成要素はシステムの精度を最大化する必要がある。構成要素に基づいた顔認識システムを訓練するために、事例として用いる構成要素を決定する、システムと方法が提示される。
一つの実施形態において、システムは、メインプログラムモジュール、初期化モジュール、抽出モジュール、訓練モジュール、予想モジュールおよび拡張モジュールからなる。初期化モジュールは、事前に選択されたポイントが与えられると、一つの構成要素(例えば、その構成要素の大きさと形状)を決定する。抽出モジュールは、イメージまたは特徴ベクトルから一つの構成要素を抽出する。訓練モジュールは、イメージからなる訓練集合を用いて、構成要素認識分類器を訓練する。予想モジュールは、構成要素認識分類器の精度を予想する。拡張モジュールは、上、下、左または右の4方向のうちの1方向に向けて拡張することにより、構成要素を拡張する。
一つの実施形態において、方法は、構成要素の初期形状及び大きさを決めること、訓練集合を構築すること、構成要素認識分類器を訓練すること、および分類器の精度を予想することを含む。次に、その構成要素は4方向(上、下、左および右)のそれぞれの方向に向かって暫定的に拡張され、分類器の精度に及ぼす影響が決定される。その後、構成要素は分類器の精度を最大化する方向に拡張される。この方法は分類器の精度を最大化するために多数回実行されても良い。
実施形態の詳細な説明
同じ番号が類似の要素を指示している添付の図面の図によって、本発明は説明のために図示されているのであって、限定するためではない。
以下の説明において、発明の完全な理解を促すために、説明の目的から、具体的な詳細事項が数多く示されている。しかしながら、当業者にとって、これらの具体的な詳細事項が無くても、発明が実施可能なことは明らかである。他の場合においては、発明を曖昧にすることが無いように、構造と装置がブロック図の形式で示されている。
明細書中の「一つの実施形態」又は「実施形態」の使用は、その実施形態との関連で説明された特定の特徴、構造又は特性が、本発明の少なくとも一つの実施形態に含まれることを意図している。明細書中のいくつかの個所で出現する「一つの実施形態において」は、必ずしも全てが同じ実施形態に言及するものではない。
以下に述べられる詳細な記述のある部分は、コンピュータメモリ内のデータビット上の動作について、アルゴリズムの形および記号表現の形で示されている。これらのアルゴリズムの説明および表現は、データ処理技術に携わる当業者が自分の成果の中身を最も効果的に他の当業者に対して伝達するために使用する手段である。ここでは、また一般にも、一つのアルゴリズムは所望の結果に導く自己矛盾の無い一連のステップと考えられる。ステップは物理量の物理的な操作を要求する。必ずというわけではないが、通常、これらの量は、保存、移動、結合、比較およびその他の操作が可能な、電気または磁気信号の形を取る。主に通常の使用にかかわる理由として、これらの信号を、ビット、数値、要素、記号、文字、項、番号等と呼ぶと便利な場合があることが分かっている。
しかしながら、これらおよび類似の用語の全てが、適切な物理量と関連付けられ、これらの量に適用される便宜的な表示に過ぎないことを記憶にとどめて置かれたい。具体的に宣言されない限り、以下の議論で明らかなように、説明を通して、「処理する」、「演算する」、「計算する」、「決定する」「表示する」等のような用語を用いた議論は、コンピュータシステムのレジスタおよびメモリ内に物理(電子)量として表されているデータを、コンピュータシステムのメモリ、レジスタ、あるいは他のそのような情報保存、伝送またはディスプレイ装置内で、同じように物理量として表わされる他のデータに、操作して変換するコンピュータシステムまたは類似の電子計算装置の実行および処理、に言及している。
本発明はここで動作を実行する装置にも関連する。この装置は要求された目的に合わせて組み立てられた専用機か、あるいはコンピュータ内に保存されたコンピュータプログラムによって、選択的に作動または再設定される汎用のコンピュータを含む。このようなコンピュータプログラムはコンピュータが読み出し可能な次のような保存媒体、以下に限定されないが例えば、フレキシブルディスク、光ディスク、CD−ROM、光磁気ディスクを含む任意のタイプのディスク、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気または光カード、または電子命令を保存可能な全てのタイプの媒体に保存され、以上の媒体はそれぞれコンピュータシステムバスに接続される。
ここで示されるアルゴリズムとディスプレイは特定のコンピュータまたは他の装置に固有に関連するものではない。要求される方法のステップを実行するために、多種の汎用目的のシステムが、ここでの教示事項に従ったプログラムと共に使用され、あるいはより特殊化された専用装置が構築される。これらのさまざまなシステムに要求される構成は以下の説明によって明らかになる。さらに、本発明は特定のプログラミング言語を参照することなく説明される。ここで説明される発明の教示事項を実施するために、さまざまなプログラミング言語が使用可能であると認識される。
1.物体検出、物体認識および顔認識
物体検出分野は、イメージに基づいて、特定のタイプの物体が現存するかの決定を扱う。物体のタイプは、例えば、自動車、動物あるいは人物である。物体検出システムは一つのイメージに対してバイナリ分類を実行する。検出分類は異なるタイプの物体を区別する。具体的には、検出分類は1)特定のタイプの物体(第一のクラス)と2)特定のタイプの物体が無い場合(第二のクラス)を区別する。
物体認識分野は、イメージに基づいて、特定のタイプの物体が現存するかの決定を扱う。物体は、例えば、自動車、動物あるいは人物である。物体認識システムは一つのイメージに対して多数クラスの分類を実行する。認識分類は同一のタイプの物体を区別する。具体的には、認識分類は一つのイメージがどの特定の物体を示しているのかを表す。例えば、一つのイメージが三つの物体の一つを示すとすると、認識分類はそのイメージが、第一の物体(第一のクラス)、第二の物体(第二のクラス)または第三の物体(第三のクラス)のいずれを表しているかを示す。
顔認識は物体の同一性確認の一形式である。長年にわたり顔認識を実行するためにたくさんのコンピュータシステムが開発されてきた。これらのシステムのあるものは、限定されたシナリオで成功を収めたにもかかわらず、顔認識の作業全般には、照明、表情および姿勢の変化に関して多くの課題が依然として残っている。
顔認識技術は一般に二つのカテゴリ、包括的技術および構成要素に基づく技術、に分けられる。包括的手法では、全体イメージを用いて分類がなされる。例えば、顔全体イメージを表す一つの特徴ベクトルが認識分類器へ入力される。認識分類器はその後特徴ベクトルに基づいて人物の同一性を決定する。固有空間における最小距離分類、Fisherの判別分析およびニューラルネットワークを含むいくつかのの認識分類器が提案されている。包括的技術は顔の前面ビューを分類するのに適している。しかしながら、それらは姿勢の変化に対してローバストでない。この理由は、包括的特徴が顔の並進および回転に対して非常に敏感に変化するからである。
この問題を回避するために、顔を分類する前にアラインメント段階を追加しても良い。入力された顔イメージを参照顔イメージと合わせるためには、二つの顔イメージ間の対応点を計算する必要が有る。眼の中央点、鼻孔または口の両端のような、少数の顔の代表点が、通常は対応点として決められる。これらの対応点に基づいて、入力された顔イメージを参照顔イメージへ移動することができる。
構成要素に基づいた手法では、一つのイメージの構成要素を用いて分類がなされる。構成要素は検出後分類システムへ入力される。構成要素に基づいた手法は、認識分類段階で構成要素間の幾何学的関係に自由度を許容することによって、姿勢の変化に対して補正を行う。いくつかの構成要素に基づいた認識技術が開発されている。一つの技術では、三つの顔の領域(両目、鼻および口)からなるテンプレートが独立に照合される。構成要素(顔の領域)のコンフィギュレーションは、システムが顔の幾何学的モデルを含んでいないので、分類を行う間に制約を受けない。もう一つの技術は類似しているが、アラインメント段階を持っている。さらに他の技術は、二次元の弾性グラフを用いて顔の幾何学的モデルを実現する。認識は、弾性グラフのノード上で計算されるウェーブレット係数に基づいて行われる。さらにもう一つの技術は、顔イメージにわたって窓をシフトし、その窓の中の離散余弦変換(DCT)係数を計算する。その後、係数は二次元の隠れマルコフモデル(Hidden Markov Model)へ送られる。
構成要素に基づいた物体の同一性確認手法に共通する主要な問題点は、物体の同一性を確認するために使用する構成要素からなる集合をどのように選択するかにある。必要なのはある特定の物体を他から区別する構成要素を決定する仕方である。
2.顔認識システム
以下の説明は顔認識システムに言及するものであるが、このシステムはどのようなタイプの物体を検出するためにも使用できる。物体のクラスは、例えば、自動車、動物および人を含むことが可能である。
a.アーキテクチャ
図1は本発明の一つの実施形態による、構成要素に基づいた技術を使用する顔認識を実行するためのシステムのブロック図である。顔認識器100は特定の人の同一性を確認できる多数クラスの分類器である。顔認識器100は一つ以上の構成要素認識分類器110を含む。図示の実施形態では、顔認識器100はN個の構成要素認識分類器110を含む。
構成要素認識分類器110は構成要素を分類する。例えば、個々の人物が一つのクラスであれば、構成要素認識分類器110は、所与の構成要素がどの人物に所属するかを決定する。構成要素認識分類器110への入力は所与の構成要素を含み、一方、構成要素認識分類器110の出力はその人物についての同一性を含む。
一つの実施形態において、構成要素認識分類器110への入力は所与の構成要素のイメージである。他の実施形態においては、入力は所与の構成要素の特徴ベクトルである。一つの実施形態において、構成要素認識分類器110の出力は、所与の構成要素がある特定の人物に所属する確率である。他の実施形態においては、構成要素認識分類器110の出力は、確率ベクトルのような確率の集合である。この集合は個々の人物に対して、所与の構成要素がその人物に所属する確率(0と1の間の数)を含んでいる。この実施形態において、集合内の確率の合計は1である。
上述のように、構成要素認識分類器110は所与の構成要素がどの人に属するかを決定する。このように、構成要素認識分類器110は多数クラスの分類を実行する。構成要素認識分類器110は多数クラスの分類器を含むことができるが、そうあらねばならない必要性は無い。その代わりに、構成要素認識分類器110はいくつかのバイナリ分類器を含んでも良い。
一つの実施形態において、構成要素認識分類器110がいくつかのバイナリ分類器を含めば、構成要素認識分類器110は一対全ての進め方に従って訓練される。具体的には、バイナリ分類器が訓練される。この実施形態において、バイナリ分類器は入力イメージに基づいて、一つのクラス(人物)を他の全てのクラス(人物)から分離する。この入力イメージは顔の構成要素からなるイメージである。換言すれば、一人の人物の構成要素は、訓練集合の他の全ての人物の構成要素に対して訓練される。一つの実施形態においては、個々のバイナリ分類器がそれぞれ異なる一人の人物の認識を受け持っている。この実施形態においては、訓練されるバイナリ分類器の数は、同一性の確認対象人物の数に等しい。従って、バイナリ分類器の数はクラスの数(例えば、認識対象の人物の数)に対応して線形的に増加する。
一つの実施形態において、構成要素認識分類器110がいくつかのバイナリ分類器を含む場合、ペアワイズ・アプローチに従って、この構成要素認識分類器110は訓練される。この実施形態では、認識対象の人物数がqの場合、訓練されるバイナリ分類器の数は、q(q−1)/2に等しい。個々のバイナリ分類器は1ペアのクラスを分離する。ペアワイズ・バイナリ分類器は、ツリーノードがバイナリ分類器を表すツリー内に配列される。一つの実施形態においては、ツリーはテニストーナメントで使用されるような、除外型のツリーに似たボトムアップツリーである。他の実施形態においては、ツリーはトップダウンツリー構造を持つ。
構成要素認識分類器110は、例えば、ニューラルネットワーク分類器(多数クラス)、最近傍分類器(多数クラス)あるいはサポートベクトルマシン分類器(バイナリ)を含んでも良い。
顔認識を実行するために使用される個々の構成要素に対して、顔認識器100は一つの構成要素認識分類器110を含む。図示された実施形態において、顔認識器100は顔認識を実行するためにN個の構成要素を使用する。一つの実施形態において、顔認識器100は14個の構成要素認識分類器110を含む。図2は、本発明の一つの実施形態による、14個の構成要素を有する顔イメージを示す。図示された実施形態において、ほとんどの構成要素が、目、鼻、口の近傍に配置されている。一つの実施形態においては、構成要素認識分類器110は個々に独立して動作する。
図1は、顔認識器100への入力120および顔認識器100からの出力130を示す。一つの実施形態において、入力120は構成要素からなるN個のイメージの集合、または構成要素からなるN個の特徴ベクトルの集合である。この実施形態においては、その集合内の個々の構成要素は、N個の構成要素認識分類器110の一つに対する入力である。他の実施形態においては、入力120は一つの顔からなる一つのイメージ、または一つの顔を表す一つの特徴ベクトルである。この実施形態においては、N個の構成要素は顔との同一性が確認された後抽出される。一つの実施形態においては、この処理が手動で行われる。他の実施形態においては、この処理は構成要素検出器(例えば分類器)によって自動的に実行される。一旦構成要素が抽出されれば、この実施形態は前述の実施形態と同様に、入力120は構成要素からなるN個のイメージの集合、または構成要素からなるN個の特徴ベクトルの集合である。
一つの実施形態においては、顔認識器100の出力130は、入力120と関連付けられた人物の名前である。出力130は構成要素認識分類器110からの出力に基づいて決定される。
一つの実施形態において、Pijは構成要素iが人物jに属する確率で、選択に用いるM個のクラス(人物)があるとすると、構成要素認識分類器110からの出力は、<pi1,pi2,...,piM>の形の確率ベクトルとして表現できる。この表記を用いれば、N個の構成要素認識分類器110からの出力は次のように表すことができる:<p11,p12,...,p1M>,<p21,p22,...,p2M>,...,<pN1,pN2,...,pNM
一つの実施形態において、標準的な分類器結合の技術を用いて、N個の構成要素認識分類器110からの出力を結合することによって、出力130が決定される。一つの実施形態において、出力130は、N個の構成要素認識分類器110からの出力の合計に基づいて決められる。この実施形態においては,出力の合計は次の和ベクトルとして表現できる:
<p11+p21+...+pN1,p12+p22+...+pN2, ...,p1M+p2M+...+pNM
この実施形態においては、出力130は、和ベクトル内の最大確率に対応する人物になる。
他の実施形態においては、出力130は、N個の構成要素認識分類器110からの出力の積に基づいて決められる。この実施形態においては、出力の積は次の積ベクトルとして表現できる:
<p11・p21・...・pN1,p12・p22・...・pN2, ...,p1M・p2M・...・pNM
出力130は、積ベクトル内の最大確率に対応する人物になる。
さらに他の実施形態においては、出力130は、N個の構成要素認識分類器110からの出力間の投票スキームに基づいて決められる。一つの実施形態においては、一人以上の人物に対して、個々の出力を投票数に変換するために、閾値が用いられる。例えば、閾値を0.5とした場合、構成要素認識分類器110による確率ベクトル出力の中で0.5以上の個々の確率がその人物に対する一票に対応する。もう一つの例では、個々の構成要素認識分類器110が一票のみの投票権を有し、その構成要素認識分類器110による確率ベクトル出力の中で、最大確率を持つ人物に対してその票が与えられる。その後、票は集計され、出力130は票が最も多い人物になる。
他の実施形態においては、出力130は決定分類器のような別の分類器を用いて決定される。
b.訓練
顔認識器100が顔認識を実行できるようになるには、訓練を受ける必要が有る。具体的には、構成要素認識分類器110が訓練を受ける必要がある。事例からの学習としても知られている教師付き学習を用いて、分類器は訓練を既に受けているので、分類器はタスクを実行できる(例えば、人物の構成要素に基づいてある特定の人物の同一性を確認する)。名称が示唆しているように、事例からなる集合を用いて、分類器は訓練を受ける。個々の事例は、ある特定の入力が与えられた場合に、分類器が何を出力すべきかを表す入出力の一ペアである。
上述のように、構成要素に基づいた物体の同一性確認システムのいずれにも当てはまる重要な特徴は、どの構成要素がシステムの訓練のために事例として用いられるかにある。ある特定の物体を他から区別する際に、訓練によってシステムの精度が最大化される必要がある。
3.顔認識のためのシステムを訓練するために事例として使用する構成要素の決定
一つの実施形態において、物体の構成要素は自動的に決定され、構成要素に基づいた顔認識システムを訓練するために事例として使用される。この点が、物体の構成要素が手動で選択される先行技術との差異である。
図3は、本発明の一つの実施形態による、構成要素に基づいた顔認識システムを訓練するために、事例として使用する構成要素を決定する装置のブロック図を示す。装置300は、システムバス320に接続されて通信可能な、プロセッサ310、メインメモリ320、データ保存装置330、および入出力制御器380を含むことが好ましい。装置300として、例えば、汎用コンピュータを用いても良い。
プロセッサ310はデータ信号を処理し、複合命令セットコンピュータ(CISC)アーキテクチャ、縮小命令セットコンピュータ(RISC)アーキテクチャ、または命令セットの組み合わせを実行するアーキテクチャを含む種々の計算アーキテクチャを含む。図3には単一のプロセッサだけが示されているが、多数のプロセッサが含まれても良い。
メインメモリ320は、プロセッサ310によって実行される命令および/またはデータを保存する。その命令および/またはデータは、ここで説明される何れかおよび/または全ての技術を実行するためのコードを含む。メインメモリ320は、ダイナミックランダムアクセスメモリ(DRAM)デバイス、スタティックランダムアクセスメモリ(SRAM)デバイス、または他の周知技術のメモリデバイスであることが望ましい。
データ保存装置330はプロセッサ310に対してデータおよび命令を保存し、ハードディスクドライブ、フレキシブルディスクドライブ、CD−ROMデバイス、DVD−ROMデバイス、DVD−RAMデバイス、DVD−RWデバイス、フラッシュメモリデバイスまたは他の周知技術のマスストレージデバイスを含めて、一つ以上のデバイスを含む。
ネットワーク制御器380は、装置300が他の装置と通信できるように、装置300をこれらの装置とリンクさせる。
システムバス340は装置300全体の情報およびデータを通信するための共有バスを表す。システムバス340は、工業標準アーキテクチャ(ISA)バス、周辺機器相互接続(PCI)バス、ユニバーサルシリアルバス(USB)または類似の機能を提供する周知技術の他のバスを含めて、一つ以上のバスを表す。
システムバス340を経由して装置300へ接続しても良い追加機器としては、ディスプレイ装置350、キーボード360およびカーソル制御装置370が含まれる。ディスプレイ装置350は、電子イメージおよびデータをローカルユーザまたは保守担当者に表示する機能を備えた装置であればどのようなものでも良い。ディスプレイ装置350は、陰極線管(CRT)、液晶ディスプレイ(LCD)または同じような機能を備えたディスプレイ装置、ディスプレイスクリーンまたはディスプレイモニタのいずれでも良い。キーボード360は、情報および命令の選択をプロセッサ310に伝達するために装置300に接続された、アルファベットと数字を組み合わせた入力装置を表す。カーソル制御装置370は、命令選択と位置データをプロセッサ310へ伝達するために備えられたユーザー用の入力装置を表す。カーソル制御装置370は、マウス、トラックボール、スタイラス、ペン、カーソル方向キー、またはカーソルに動きを与える他のメカニズムを含む。
本発明の意図と範囲を外れることなく、装置300が図3に示されているよりも多くのまたは少ない機器を含むことは、当業者にとっては明らかである。例えば、装置300は、第一レベルまたは第二レベルのキャッシュ、または一つまたは複数の特定用途向け集積回路(ASIC)のようなメモリを追加して含んでも良い。上述のように、装置300はASICだけをから構成されることも可能である。さらに、例えば、イメージ走査装置、デジタルスチルカメラまたはビデオカメラ、または、電子データを装置300へ/または装置300から取得および/またはダウンロードするために備えられた、または備えられていない他の装置を含めて、機器が装置300に接続されても良い
図4は図3のメモリユニットの内容について、より詳細を示したブロック図である。一般に、メモリユニット320は、構成要素に基づいた顔認識システムを訓練するために、事例として用いる構成要素を決定するためのいくつかのコードモジュールを含む。具体的には、メモリユニット320のコードモジュールは、メインプログラムモジュール400、初期化モジュール410、抽出モジュール420、訓練モジュール430、予想モジュール440および拡張モジュール450を含む。
一つの実施形態において、メモリユニット320は、小さなシード領域から始めて、反復的にその領域を拡張し、一つのイメージの構成要素を決定する。分類器がその拡張された構成要素を用いて訓練された時に、拡張された構成要素が分類器の精度に及ぼす影響に基づいて、拡張の方向が選択される。一旦、構成要素が決定されれば、それらの構成要素は構成要素認識分類器110を訓練するために使用される。
メインプログラムモジュール400は全てのコードモジュール410、420、430、440および450に接続されて通信可能になっている。メインプログラムモジュール400は装置300のオペレーションおよび処理フローを中央から制御して、それぞれのコードモジュール410、420、430、440および450からデータを受信するとともに、それぞれのコードモジュールへ命令およびデータを伝送する。メインプログラムモジュール400の詳細は図5を参照して以下に説明する。
初期化モジュール410は、事前に選択されたポイントが与えられると、構成要素(例えば、構成要素の大きさと形状)を決定する。一つの実施形態においては、その構成要素は事前に選択されたポイントを含む。他の実施形態においては、その構成要素の大きさは小さい。さらに他の実施形態では、初期構成要素は形状が長方形である。
抽出モジュール420はイメージまたは特徴ベクトルから構成要素を抽出する。一つの実施形態においては、構成要素は、その大きさ、形状および位置に基づいて抽出される。
訓練モジュール430はイメージからなる訓練集合を用いて構成要素認識分類器110を訓練する。上述のように、一台の分類器は事例からなる一つの集合を用いて訓練される。それぞれの事例は、ある特定の入力が与えられたときに分類器が何を出力すべきかを示す入出力の一ペアである。ここで一つの事例は、入力が訓練集合から得られた一つのイメージで、出力がそのイメージと関連付けられた人物の同一性である一ペアからなる。一つの実施形態においては、一つの事例が訓練集合の個々のイメージに対して存在する。訓練モジュール430は構成要素認識分類器110を訓練するためにこれらの事例を使用する。
予想モジュール440は構成要素認識分類器110の精度を予想する。一つの実施形態においては、訓練された構成要素認識分類器110が相互検証集合上で動作する場合、その精度は認識率に基づく。この実施形態においては、既知の参照ポイントに基づいて、相互検証集合内の全てのイメージから、構成要素が抽出される。訓練データと同様に、ポジティブな相互検証集合は、一人物の構成要素を含み、ネガティブな集合はその他の全ての人物の構成要素を含む。こうして、相互検証集合上での認識率が決定される。他の実施形態では、精度は構成要素認識分類器110のSVM誤差限界(予想誤差確率等)である。
拡張モジュール450は構成要素を、上、下、左および右の四方向のうちの一方向へ拡張することによって、構成要素を拡張する。一つの実施形態において、拡張モジュール450は特定の一方向へ1ピクセル分だけ構成要素を拡張する。
図5は本発明の一つの実施形態による、構成要素に基づいた顔の認識システムを訓練するために事例として使用する構成要素を決定するための方法を示す。一つの実施形態において、顔認識器100の個々の構成要素認識分類器110に対して、方法500は一回実行される。方法500のある特定の実行によって決定された構成要素は、教師付き学習によりその特定の構成要素認識分類器110を訓練するために用いられる。
方法500が開始する前に、一つのポイント位置が一つの物体イメージにおいて特定される。例えば物体が顔で、構成要素認識分類器110が目の領域に注目する場合、そのポイントは左目の中心に置くことが可能である。一つの実施形態において、そのポイント位置は手動によって入力される。他の実施形態において、その位置は自動的に、例えばイメージを目検出器へ入力することによって行われる。
方法500はメインプログラムモジュール400によって開始し、初期モジュール410を用いて、特定のポイントに基づいて構成要素の初期の大きさと形状を決定する(510)。メインプログラムモジュール400は、抽出モジュール420を使用して、個々の利用可能な顔のイメージから、決定された構成要素を抽出することによって、構成要素認識分類器110用の訓練集合を構築する(520)。メインプログラムモジュール400は、その訓練集合と訓練モジュール430を用いて、構成要素認識分類器110を訓練する(530)。訓練終了後、メインプログラムモジュール400は、予想モジュール440を用いて、構成要素認識分類器110の精度を予想する(540)。
次にメインプログラムモジュール400は、構成要素の拡張を四方向全て(上、下、左および右)に試みたか決定する(550)。メインプログラムモジュール400が構成要素の拡張を全ての方向で試行していない場合は、拡張モジュール450を用いて試行がなされていない方向の一つへ、メインプログラムモジュール400は構成要素を暫定的に拡張させる。構成要素が拡張された後、方法500はステップ520へ戻り(570)、訓練集合が構築される。
メインプログラム400が四方向の全てにおいて構成要素の拡張を試行していた場合は、メインプログラムモジュール400はどの方向(上、下、左および右)の拡張が、ステップ540で予想したように最高の精度となるか決定する。拡張モジュール450を用いて、構成要素はその決定された方向へ恒久的に拡張される(580)。
メインプログラムモジュール400は、さらに反復を行って精度を最大化するために構成要素をさらに拡張することを試行するか決定する(592)。もう一度反復が実行される場合、方法500はステップ520へ戻り(590)、訓練集合が構築される。もう一度反復が行われない場合、メインプログラムモジュール400は構成要素を出力し(594)、方法500は終了する。
一つの実施形態において、四方向のそれぞれに構成要素を拡張させた結果精度が低減する場合は、新たな反復は実施されない。他の実施形態において、四方向の何れかでの構成要素の拡張によって精度が低減する場合は、新たな反復は実行されない。これらの実施形態において、メインプログラムモジュール400は、精度低減を起こした構成要素に一つ前の構成要素を出力する(594)。
さらに他の実施形態では、反復の閾値に到達した場合には、新たな反復は実行されない。この実施形態では、メインプログラムモジュール400は、精度を最大化した構成要素であればどれも出力する(594)。
本発明はそのいくつかの実施形態を参照しながら相当な細部に及んで説明されたが、当業者によって理解されるように、他の実施形態も可能である。例えば、他の実施形態として、ここで引用して参照する“コンポーネント・フォー・フェース・レコグニション”B.ヘイゼルおよびT.コシゼン著、プロシーディングズ・オブ・ザ・コンファランス・オン・オートマティック・フェース・アンド・ジェスチャ・レコグニション、ソウル、韓国、2004、153−158頁(“Components for Face Recognition” by B. Heizel and T. Koshizen, Proceedings of the Conference on Automatic Face and Gesture Recognition, Seoul, Korea, 2004, pp. 153-158)に掲載されている。
図1は本発明の一つの実施形態による、構成要素に基づいた技術を用いて、顔認識を実行するためのシステムのブロック図を示す。 図2は本発明の一つの実施形態による、14の構成要素を有する顔イメージを示す。 図3は本発明の一つの実施形態による、構成要素に基づいた顔認識システムを訓練するために事例として用いる構成要素を決定する装置のブロック図を示す。 図4は図3のメモリユニットの内容のより詳細なブロック図を示す。 図5は本発明の一つの実施形態による、構成要素に基づいた顔認識システムを訓練するために、事例として用いる構成要素を決定するための方法を示す。

Claims (25)

  1. コンピュータを用いて構成要素を定める方法であって、
    前記構成要素は、
    物体の構成要素であって、
    物体の構成要素に基づいて前記物体を識別するシステムにおいて使用されるものであり、
    前記コンピュータは、
    所与の構成要素がどのクラスに属するかを決定する第一の構成要素認識分類器であって、第一の物体領域を表す第一の構成要素に基づいて訓練された第一の構成要素認識分類器の精度を決定し、
    前記第一の物体領域よりも大きい拡張構成要素であって、前記第一の物体領域を含む第二の物体領域を表し、前記第一の構成要素よりも大きい複数の拡張構成要素からなる集合を決定し、
    特定の構成要素がどのクラスに属するかを決定する第二の構成要素認識分類器であって、前記拡張構成要素に基づいて訓練された第二の構成要素認識分類器の精度を、前記複数の拡張構成要素からなる集合内の拡張構成要素ごとに決定し、
    前記第一の構成要素認識分類器及びそれぞれの第二の構成要素認識分類器のうちから、どの構成要素認識分類器が最も精度が高いかを決定し、
    前記最も精度が高い構成要素認識分類器を訓練するためにどの構成要素が使用されたかを決定する、
    ことを特徴とする方法。
  2. 前記第一の構成要素は、
    イメージであること、
    を特徴とする請求項1に記載の方法。
  3. 前記第一の構成要素は、
    特徴ベクトルであること、
    を特徴とする請求項1に記載の方法。
  4. 前記構成要素は、
    顔の部分を含み、
    前記構成要素の前記クラスは、
    特定の人物であること、
    を特徴とする請求項1に記載の方法。
  5. 前記物体を識別するシステムは、
    構成要素に基づいた顔認識システムを含むこと、
    を特徴とする請求項1に記載の方法。
  6. 前記複数の拡張構成要素からなる集合を決定することは、
    前記第一の構成要素を、上、下、左又は右の4方向のうちの1方向へ拡張することを含むこと、
    を特徴とする請求項1に記載の方法。
  7. 前記第一の構成要素は、
    手動で決定されること、
    を特徴とする請求項1に記載の方法。
  8. 前記第一の構成要素は、
    構成要素検出器によって自動的に決定されること、
    を特徴とする請求項1に記載の方法。
  9. 構成要素に基づいて訓練された構成要素認識分類器は、
    訓練集合を使用して訓練されたものであり、
    前記訓練集合は、
    構成要素イメージの集合と、
    前記構成要素イメージの集合のうちのそれぞれの構成要素イメージごとに、当該構成要素イメージに関連付けられたクラスを含むこと、
    を特徴とする請求項1に記載の方法。
  10. 構成要素イメージは、
    イメージから前記構成要素を抽出することによって生成されたものであること、
    を特徴とする請求項9に記載の方法。
  11. 構成要素認識分類器の精度は、
    前記構成要素認識分類器の認識率を含むこと、
    を特徴とする請求項1に記載の方法。
  12. 前記構成要素認識分類器の精度を決定することは、
    前記構成要素認識分類器を使用して、相互検証集合内の要素を分類すること、
    を特徴とする請求項11に記載の方法。
  13. 前記相互検証集合は、
    イメージから前記構成要素を抽出することによって生成された構成要素イメージの集合と、
    前記構成要素イメージの集合のうちのそれぞれの構成要素イメージごとに、当該構成要素イメージに関連付けられたクラスを含むこと、
    を特徴とする請求項12に記載の方法。
  14. 構成要素認識分類器の精度は、
    前記構成要素認識分類器の予想誤差確率に基づくこと、
    を特徴とする請求項1に記載の方法。
  15. 前記構成要素認識分類器の精度は、
    前記構成要素認識分類器の予想誤差確率についての推定上限に基づくこと、
    を特徴とする請求項1に記載の方法。
  16. 構成要素を定めるシステムであって、
    前記構成要素は、
    物体の構成要素であって、
    物体の構成要素に基づいて前記物体を識別するシステムにおいて使用されるものであり、
    前記構成要素を定めるシステムは、
    所与の構成要素がどのクラスに属するかを決定する第一の構成要素認識分類器であって、第一の物体領域を表す第一の構成要素に基づいて訓練された第一の構成要素認識分類器の精度を決定する手段と、
    前記第一の物体領域よりも大きい拡張構成要素であって、前記第一の物体領域を含む第二の物体領域を表し、前記第一の構成要素よりも大きい複数の拡張構成要素からなる集合を決定する手段と、
    特定の構成要素がどのクラスに属するかを決定する第二の構成要素認識分類器であって、前記拡張構成要素に基づいて訓練された第二の構成要素認識分類器の精度を、前記複数の拡張構成要素からなる集合内の拡張構成要素ごとに決定する手段と、
    前記第一の構成要素認識分類器及びそれぞれの第二の構成要素認識分類器のうちから、どの構成要素認識分類器が最も精度が高いかを決定する手段と、
    前記最も精度が高い構成要素認識分類器を訓練するためにどの構成要素が使用されたかを決定する手段と、
    を有することを特徴とする構成要素を定めるシステム。
  17. 前記第一の構成要素は、
    イメージであること、
    を特徴とする請求項16に記載のシステム。
  18. 前記第一の構成要素は、
    特徴ベクトルであること、
    を特徴とする請求項16に記載のシステム。
  19. 前記構成要素は、
    顔の部分を含み、
    前記構成要素の前記クラスは、
    特定の人物であり、
    前記物体を識別するシステムは、
    構成要素に基づいた顔認識システムを含むこと、
    を特徴とする請求項16に記載のシステム。
  20. 前記複数の拡張構成要素からなる集合を決定することは、
    前記第一の構成要素を、上、下、左又は右の4方向のうちの1方向へ拡張することを含むこと、
    を特徴とする請求項16に記載のシステム。
  21. 構成要素を定めるシステムを機能させるプログラムであって、
    前記構成要素は、
    物体の構成要素であって、
    物体の構成要素に基づいて前記物体を識別するシステムにおいて使用されるものであり、
    前記プログラムは、前記コンピュータに対し、
    所与の構成要素がどのクラスに属するかを決定する第一の構成要素認識分類器であって、第一の物体領域を表す第一の構成要素に基づいて訓練された第一の構成要素認識分類器の精度を決定し、
    前記第一の物体領域よりも大きい拡張構成要素であって、前記第一の物体領域を含む第二の物体領域を表し、前記第一の構成要素よりも大きい複数の拡張構成要素からなる集合を決定し、
    特定の構成要素がどのクラスに属するかを決定する第二の構成要素認識分類器であって、前記拡張構成要素に基づいて訓練された第二の構成要素認識分類器の精度を、前記複数の拡張構成要素からなる集合内の拡張構成要素ごとに決定し、
    前記第一の構成要素認識分類器及びそれぞれの第二の構成要素認識分類器のうちから、どの構成要素認識分類器が最も精度が高いかを決定し、
    前記最も精度が高い構成要素認識分類器を訓練するためにどの構成要素が使用されたかを決定する処理を実行させる、
    ことを特徴とするプログラム。
  22. 前記第一の構成要素は、
    イメージであること、
    を特徴とする請求項21に記載のプログラム。
  23. 前記第一の構成要素は、
    特徴ベクトルであること、
    を特徴とする請求項21に記載のプログラム。
  24. 前記構成要素は、
    顔の部分を含み、
    前記構成要素の前記クラスは、
    特定の人物であり、
    前記物体を識別するシステムは、
    構成要素に基づいた顔認識システムを含むこと、
    を特徴とする請求項21に記載のプログラム。
  25. 前記複数の拡張構成要素からなる集合を決定することは、
    前記第一の構成要素を、上、下、左又は右の4方向のうちの1方向へ拡張することを含むこと、
    を特徴とする請求項21に記載のプログラム。
JP2006517819A 2003-06-30 2004-06-30 構成要素に基づいて構成された物体を識別するシステムを訓練するシステム、方法及びプログラム Expired - Fee Related JP4575917B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US48420103P 2003-06-30 2003-06-30
PCT/US2004/021158 WO2005006278A2 (en) 2003-06-30 2004-06-30 Systems and methods for training component-based object identification systems

Publications (2)

Publication Number Publication Date
JP2007524919A JP2007524919A (ja) 2007-08-30
JP4575917B2 true JP4575917B2 (ja) 2010-11-04

Family

ID=33552096

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2006516619A Expired - Fee Related JP4571628B2 (ja) 2003-06-30 2004-06-30 顔認識システム及び方法
JP2006517819A Expired - Fee Related JP4575917B2 (ja) 2003-06-30 2004-06-30 構成要素に基づいて構成された物体を識別するシステムを訓練するシステム、方法及びプログラム
JP2010161500A Expired - Fee Related JP4972193B2 (ja) 2003-06-30 2010-07-16 顔認識システム及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2006516619A Expired - Fee Related JP4571628B2 (ja) 2003-06-30 2004-06-30 顔認識システム及び方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2010161500A Expired - Fee Related JP4972193B2 (ja) 2003-06-30 2010-07-16 顔認識システム及び方法

Country Status (5)

Country Link
US (1) US7783082B2 (ja)
EP (1) EP1639522B1 (ja)
JP (3) JP4571628B2 (ja)
DE (1) DE602004008282T2 (ja)
WO (1) WO2005001750A2 (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100543706B1 (ko) * 2003-11-28 2006-01-20 삼성전자주식회사 비젼기반 사람 검출방법 및 장치
US8995715B2 (en) * 2010-10-26 2015-03-31 Fotonation Limited Face or other object detection including template matching
US7197487B2 (en) * 2005-03-16 2007-03-27 Lg Chem, Ltd. Apparatus and method for estimating battery state of charge
JP4410732B2 (ja) * 2005-07-27 2010-02-03 グローリー株式会社 顔画像検出装置、顔画像検出方法および顔画像検出プログラム
US7817826B2 (en) * 2005-08-12 2010-10-19 Intelitrac Inc. Apparatus and method for partial component facial recognition
CN101030259B (zh) * 2006-02-28 2011-10-26 东软集团股份有限公司 Svm分类器、利用svm分类器识别车辆图像的方法和装置
US8315463B2 (en) * 2006-11-14 2012-11-20 Eastman Kodak Company User interface for face recognition
JP5010905B2 (ja) * 2006-12-13 2012-08-29 パナソニック株式会社 顔認証装置
US8154600B2 (en) * 2007-04-20 2012-04-10 Utc Fire & Security Americas Corporation, Inc. Method and system for distributed multiple target tracking
CN101373519B (zh) * 2007-08-20 2011-01-19 富士通株式会社 字符识别装置和方法
US7986828B2 (en) * 2007-10-10 2011-07-26 Honeywell International Inc. People detection in video and image data
JP5041229B2 (ja) * 2007-12-07 2012-10-03 ソニー株式会社 学習装置および方法、認識装置および方法、並びにプログラム
JP5121681B2 (ja) * 2008-04-30 2013-01-16 株式会社日立製作所 生体認証システム、認証クライアント端末、及び生体認証方法
KR101050687B1 (ko) 2008-06-04 2011-07-20 주식회사 만도 사후확률을 이용한 보행자 인식 장치 및 방법과 그를이용한 보행자 보호 장치
TWI382354B (zh) * 2008-12-02 2013-01-11 Nat Univ Tsing Hua 臉部辨識方法
US8306940B2 (en) * 2009-03-20 2012-11-06 Microsoft Corporation Interactive visualization for generating ensemble classifiers
JP5451883B2 (ja) * 2010-06-30 2014-03-26 Necソフト株式会社 頭部検出方法、頭部検出装置、属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
JP5565190B2 (ja) * 2010-08-11 2014-08-06 富士ゼロックス株式会社 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置
US8861870B2 (en) * 2011-02-25 2014-10-14 Microsoft Corporation Image labeling with global parameters
CN102393910B (zh) * 2011-06-29 2013-04-24 浙江工业大学 一种基于非负矩阵分解和隐马尔科夫模型的人体行为识别方法
WO2013020248A1 (en) * 2011-08-09 2013-02-14 Intel Corporation Image-based multi-view 3d face generation
JP5367037B2 (ja) * 2011-09-26 2013-12-11 本田技研工業株式会社 顔向き検出装置
KR20140095601A (ko) * 2013-01-18 2014-08-04 삼성전자주식회사 자세 분류 장치 및 자세 분류 방법
US9361411B2 (en) 2013-03-15 2016-06-07 Honeywell International, Inc. System and method for selecting a respirator
US20140341443A1 (en) * 2013-05-16 2014-11-20 Microsoft Corporation Joint modeling for facial recognition
CN105683724B (zh) * 2013-09-19 2018-09-14 欧莱雅公司 对表面的颜色和光谱进行测量及分类的***和方法
KR20150043795A (ko) * 2013-10-15 2015-04-23 삼성전자주식회사 영상처리장치 및 그 제어방법
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9639742B2 (en) 2014-04-28 2017-05-02 Microsoft Technology Licensing, Llc Creation of representative content based on facial analysis
US9773156B2 (en) 2014-04-29 2017-09-26 Microsoft Technology Licensing, Llc Grouping and ranking images based on facial recognition data
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9460493B2 (en) 2014-06-14 2016-10-04 Microsoft Technology Licensing, Llc Automatic video quality enhancement with temporal smoothing and user override
US9373179B2 (en) 2014-06-23 2016-06-21 Microsoft Technology Licensing, Llc Saliency-preserving distinctive low-footprint photograph aging effect
EP3183689A4 (en) * 2014-08-22 2017-08-23 Microsoft Technology Licensing, LLC Face alignment with shape regression
JP6041331B1 (ja) * 2016-02-26 2016-12-07 国立大学法人山口大学 情報処理装置と情報処理プログラム並びに情報処理方法
US10552968B1 (en) * 2016-09-23 2020-02-04 Snap Inc. Dense feature scale detection for image matching
CN107273872B (zh) * 2017-07-13 2020-05-05 北京大学深圳研究生院 用于图像或视频中行人重识别的深度判别网络模型方法
US20190332848A1 (en) 2018-04-27 2019-10-31 Honeywell International Inc. Facial enrollment and recognition system
US11113588B2 (en) 2019-10-02 2021-09-07 United States Of America As Represented By The Secretry Of The Navy Randomization-based hierarchical and associatively assisted vector learning for machine vision
KR20210066207A (ko) * 2019-11-28 2021-06-07 엘지전자 주식회사 객체를 인식하는 인공 지능 장치 및 그 방법
CN111126221B (zh) * 2019-12-16 2023-09-26 华中师范大学 一种融合双向视觉注意力机制的数学公式识别方法及装置
KR102454443B1 (ko) * 2020-12-02 2022-10-12 인하대학교 산학협력단 저해상도 얼굴 인식을 위한 생성적 도메인 적응 방법 및 장치
KR102641358B1 (ko) * 2021-11-01 2024-02-27 재단법인대구경북과학기술원 이미지 도메인 적응 장치 및 방법

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0831135B2 (ja) 1990-02-01 1996-03-27 富士通株式会社 画像認識方法
JP3329806B2 (ja) 1990-11-09 2002-09-30 株式会社日立製作所 ニューラルネット構築装置
JPH04264985A (ja) 1991-02-20 1992-09-21 Hamamatsu Photonics Kk 画像認識システム
JP2673871B2 (ja) 1993-08-26 1997-11-05 日本アイ・ビー・エム株式会社 ニューラル・ネットワークによるパターン認識方法及び装置
US5497430A (en) 1994-11-07 1996-03-05 Physical Optics Corporation Method and apparatus for image recognition using invariant feature signals
US5850470A (en) * 1995-08-30 1998-12-15 Siemens Corporate Research, Inc. Neural network for locating and recognizing a deformable object
JP3184092B2 (ja) 1996-05-27 2001-07-09 シャープ株式会社 画像処理方法
JP3894522B2 (ja) 1996-12-17 2007-03-22 本田技研工業株式会社 画像認識法
US6324532B1 (en) 1997-02-07 2001-11-27 Sarnoff Corporation Method and apparatus for training a neural network to detect objects in an image
US6108437A (en) * 1997-11-14 2000-08-22 Seiko Epson Corporation Face recognition apparatus, method, system and computer readable medium thereof
US6236749B1 (en) * 1998-03-23 2001-05-22 Matsushita Electronics Corporation Image recognition method
US6421463B1 (en) 1998-04-01 2002-07-16 Massachusetts Institute Of Technology Trainable system to search for objects in images
WO1999064983A1 (en) * 1998-06-08 1999-12-16 Washington University Method and apparatus for automatic shape characterization
AUPP400998A0 (en) 1998-06-10 1998-07-02 Canon Kabushiki Kaisha Face detection in digital images
JP2000099722A (ja) * 1998-09-22 2000-04-07 Toshiba Corp 人物顔認識装置及び人物顔認識方法
US6317517B1 (en) 1998-11-30 2001-11-13 Regents Of The University Of California Statistical pattern recognition
JP4543455B2 (ja) 1999-10-18 2010-09-15 パナソニック株式会社 パターン認識方法及びパターン認識装置、並びにパターン照合方法及びパターン照合装置
JP4443722B2 (ja) 2000-04-25 2010-03-31 富士通株式会社 画像認識装置及び方法
JP4387552B2 (ja) 2000-04-27 2009-12-16 富士通株式会社 画像照合処理システム
US6671391B1 (en) * 2000-05-26 2003-12-30 Microsoft Corp. Pose-adaptive face detection system and process
JP2004513462A (ja) * 2000-11-03 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 双方向スター型トポロジーの隠れマルコフモデルを用いた顔の表情の強さの推定方法及び装置
US7099510B2 (en) 2000-11-29 2006-08-29 Hewlett-Packard Development Company, L.P. Method and system for object detection in digital images
US6975750B2 (en) * 2000-12-01 2005-12-13 Microsoft Corp. System and method for face recognition using synthesized training images
US7280697B2 (en) * 2001-02-01 2007-10-09 California Institute Of Technology Unsupervised learning of object categories from cluttered images
US7113637B2 (en) * 2001-08-24 2006-09-26 Industrial Technology Research Institute Apparatus and methods for pattern recognition based on transform aggregation
US20030110038A1 (en) 2001-10-16 2003-06-12 Rajeev Sharma Multi-modal gender classification using support vector machines (SVMs)
JP2003150963A (ja) 2001-11-13 2003-05-23 Japan Science & Technology Corp 顔画像認識方法及び顔画像認識装置
US20030225526A1 (en) 2001-11-14 2003-12-04 Golub Todd R. Molecular cancer diagnosis using tumor gene expression signature
US7024033B2 (en) * 2001-12-08 2006-04-04 Microsoft Corp. Method for boosting the performance of machine-learning classifiers
US7203346B2 (en) * 2002-04-27 2007-04-10 Samsung Electronics Co., Ltd. Face recognition method and apparatus using component-based face descriptor
US7349917B2 (en) 2002-10-01 2008-03-25 Hewlett-Packard Development Company, L.P. Hierarchical categorization method and system with automatic local selection of classifiers
EP1649408B1 (en) 2003-06-30 2012-01-04 Honda Motor Co., Ltd. Systems and methods for training component-based object identification systems

Also Published As

Publication number Publication date
US7783082B2 (en) 2010-08-24
WO2005001750A2 (en) 2005-01-06
DE602004008282D1 (de) 2007-09-27
US20060280341A1 (en) 2006-12-14
JP4972193B2 (ja) 2012-07-11
EP1639522B1 (en) 2007-08-15
JP2007524919A (ja) 2007-08-30
DE602004008282T2 (de) 2008-05-15
WO2005001750A3 (en) 2005-06-02
JP4571628B2 (ja) 2010-10-27
JP2007521550A (ja) 2007-08-02
EP1639522A2 (en) 2006-03-29
JP2010282640A (ja) 2010-12-16

Similar Documents

Publication Publication Date Title
JP4575917B2 (ja) 構成要素に基づいて構成された物体を識別するシステムを訓練するシステム、方法及びプログラム
US10755120B2 (en) End-to-end lightweight method and apparatus for license plate recognition
US7734071B2 (en) Systems and methods for training component-based object identification systems
CN108629168B (zh) 脸部验证方法、设备以及计算设备
US10289897B2 (en) Method and a system for face verification
WO2021026805A1 (zh) 对抗样本检测方法、装置、计算设备及计算机存储介质
US7016881B2 (en) Method for boosting the performance of machine-learning classifiers
US20200097742A1 (en) Training neural networks for vehicle re-identification
US20190320103A1 (en) Fusion of inertial and depth sensors for movement measurements and recognition
Cohen et al. Facial expression recognition from video sequences: temporal and static modeling
US20180336439A1 (en) Novelty detection using discriminator of generative adversarial network
US20180114071A1 (en) Method for analysing media content
US9892326B2 (en) Object detection in crowded scenes using context-driven label propagation
US8266083B2 (en) Large scale manifold transduction that predicts class labels with a neural network and uses a mean of the class labels
US11915500B2 (en) Neural network based scene text recognition
WO2020238353A1 (zh) 数据处理方法和装置、存储介质及电子装置
WO2021179719A1 (zh) 人脸活体检测方法、装置、介质及电子设备
EP3786882A1 (en) Movement state recognition model learning device, movement state recognition device, method, and program
EP2535787B1 (en) 3D free-form gesture recognition system and method for character input
CN111694954B (zh) 图像分类方法、装置和电子设备
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及***
CN114764869A (zh) 利用每个对象的单个检测的多对象检测
JP4348202B2 (ja) 顔画像認識装置及び顔画像認識プログラム
JP2004178569A (ja) データ分類装置、物体認識装置、データ分類方法及び物体認識方法
CN114943873A (zh) 一种工地人员异常行为分类方法及装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100810

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100820

R150 Certificate of patent or registration of utility model

Ref document number: 4575917

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees