JP4575917B2

JP4575917B2 - 構成要素に基づいて構成された物体を識別するシステムを訓練するシステム、方法及びプログラム

Info

Publication number: JP4575917B2
Application number: JP2006517819A
Authority: JP
Inventors: へイゼルバーンド
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2003-06-30
Filing date: 2004-06-30
Publication date: 2010-11-04
Anticipated expiration: 2024-06-30
Also published as: US7783082B2; WO2005001750A2; DE602004008282D1; US20060280341A1; JP4972193B2; EP1639522B1; JP2007524919A; DE602004008282T2; WO2005001750A3; JP4571628B2; JP2007521550A; EP1639522A2; JP2010282640A

Description

関連出願の相互参照
この出願は、ここで参照によって引用されている、次の米国仮特許出願に基づいて優先権を主張する：シリアル番号６０／４８４，２０１、２００３年６月３０日出願、題名“エクスペクテーション・マクシマイゼーション・オブ・プリフロンタル−スーペリアー・テンポラル・ネットワーク・バイ・インディケータ・コンポーネント−ベースト・アプローチ”（Serial No. 60/484,201, filed on June 30, 2003, entitled “Expectation Maximization of Prefrontal-Superior Temporal Network by Indicator Component-Based Approach.”）

発明の背景
１．発明の分野
本発明は構成要素に基づいた物体の同一性確認システムに関する。より具体的には、本発明は構成要素に基づいた顔認識システムの訓練に関する。

２．背景技術の説明
顔認識技術は一般に二つのカテゴリに分類される：即ち包括的技術と構成要素に基づく技術である。包括的な方法では、一つの顔のイメージが一つの特徴ベクトルによって表現される。この特徴ベクトルは認識分類器へ入力される。認識分類器は特徴ベクトルに基づいて人物の同一性を決定する。

構成要素に基づいた方法では、一つの顔のイメージが目、鼻および口のようないくつかの個々の顔の構成要素に分解される。個々の顔の構成要素は異なる構成要素認識分類器へ入力される。その後、構成要素認識分類器の出力は顔を認識するために使用される。

構成要素認識分類器が使用可能になる前に、それは訓練を受ける必要が有る。分類器がうまく訓練されれば、その分類器はそれだけより正確に機能する。分類器を訓練する一つの方法は、事例からなる集合を分類器に与えることである。個々の事例は、ある特定の入力が与えられた場合に、分類器が何を出力すべきかを示す入出力からなる一組である。換言すれば、分類器に示され、事例からなる集合は、分類器がどれだけ正確に機能するかを決定する。

その結果、構成要素に基づいた物体の同一性確認システムはいずれも、システムを訓練するためにどの構成要素を事例として使うかが重要になる。ある特定の物体を他から区別する際に、どの構成要素がシステムの精度を最大にするかを決定することが必要である。

発明の要約
構成要素に基づいた物体の同一性確認システムにとって、どの構成要素がシステムの訓練に事例として使用されるかが、いずれの場合も重要である。ある特定の物体を他から区別する際に、構成要素はシステムの精度を最大化する必要がある。構成要素に基づいた顔認識システムを訓練するために、事例として用いる構成要素を決定する、システムと方法が提示される。

一つの実施形態において、システムは、メインプログラムモジュール、初期化モジュール、抽出モジュール、訓練モジュール、予想モジュールおよび拡張モジュールからなる。初期化モジュールは、事前に選択されたポイントが与えられると、一つの構成要素（例えば、その構成要素の大きさと形状）を決定する。抽出モジュールは、イメージまたは特徴ベクトルから一つの構成要素を抽出する。訓練モジュールは、イメージからなる訓練集合を用いて、構成要素認識分類器を訓練する。予想モジュールは、構成要素認識分類器の精度を予想する。拡張モジュールは、上、下、左または右の４方向のうちの１方向に向けて拡張することにより、構成要素を拡張する。

一つの実施形態において、方法は、構成要素の初期形状及び大きさを決めること、訓練集合を構築すること、構成要素認識分類器を訓練すること、および分類器の精度を予想することを含む。次に、その構成要素は４方向（上、下、左および右）のそれぞれの方向に向かって暫定的に拡張され、分類器の精度に及ぼす影響が決定される。その後、構成要素は分類器の精度を最大化する方向に拡張される。この方法は分類器の精度を最大化するために多数回実行されても良い。

実施形態の詳細な説明
同じ番号が類似の要素を指示している添付の図面の図によって、本発明は説明のために図示されているのであって、限定するためではない。

以下の説明において、発明の完全な理解を促すために、説明の目的から、具体的な詳細事項が数多く示されている。しかしながら、当業者にとって、これらの具体的な詳細事項が無くても、発明が実施可能なことは明らかである。他の場合においては、発明を曖昧にすることが無いように、構造と装置がブロック図の形式で示されている。

明細書中の「一つの実施形態」又は「実施形態」の使用は、その実施形態との関連で説明された特定の特徴、構造又は特性が、本発明の少なくとも一つの実施形態に含まれることを意図している。明細書中のいくつかの個所で出現する「一つの実施形態において」は、必ずしも全てが同じ実施形態に言及するものではない。

以下に述べられる詳細な記述のある部分は、コンピュータメモリ内のデータビット上の動作について、アルゴリズムの形および記号表現の形で示されている。これらのアルゴリズムの説明および表現は、データ処理技術に携わる当業者が自分の成果の中身を最も効果的に他の当業者に対して伝達するために使用する手段である。ここでは、また一般にも、一つのアルゴリズムは所望の結果に導く自己矛盾の無い一連のステップと考えられる。ステップは物理量の物理的な操作を要求する。必ずというわけではないが、通常、これらの量は、保存、移動、結合、比較およびその他の操作が可能な、電気または磁気信号の形を取る。主に通常の使用にかかわる理由として、これらの信号を、ビット、数値、要素、記号、文字、項、番号等と呼ぶと便利な場合があることが分かっている。

しかしながら、これらおよび類似の用語の全てが、適切な物理量と関連付けられ、これらの量に適用される便宜的な表示に過ぎないことを記憶にとどめて置かれたい。具体的に宣言されない限り、以下の議論で明らかなように、説明を通して、「処理する」、「演算する」、「計算する」、「決定する」「表示する」等のような用語を用いた議論は、コンピュータシステムのレジスタおよびメモリ内に物理（電子）量として表されているデータを、コンピュータシステムのメモリ、レジスタ、あるいは他のそのような情報保存、伝送またはディスプレイ装置内で、同じように物理量として表わされる他のデータに、操作して変換するコンピュータシステムまたは類似の電子計算装置の実行および処理、に言及している。

本発明はここで動作を実行する装置にも関連する。この装置は要求された目的に合わせて組み立てられた専用機か、あるいはコンピュータ内に保存されたコンピュータプログラムによって、選択的に作動または再設定される汎用のコンピュータを含む。このようなコンピュータプログラムはコンピュータが読み出し可能な次のような保存媒体、以下に限定されないが例えば、フレキシブルディスク、光ディスク、ＣＤ−ＲＯＭ、光磁気ディスクを含む任意のタイプのディスク、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気または光カード、または電子命令を保存可能な全てのタイプの媒体に保存され、以上の媒体はそれぞれコンピュータシステムバスに接続される。

ここで示されるアルゴリズムとディスプレイは特定のコンピュータまたは他の装置に固有に関連するものではない。要求される方法のステップを実行するために、多種の汎用目的のシステムが、ここでの教示事項に従ったプログラムと共に使用され、あるいはより特殊化された専用装置が構築される。これらのさまざまなシステムに要求される構成は以下の説明によって明らかになる。さらに、本発明は特定のプログラミング言語を参照することなく説明される。ここで説明される発明の教示事項を実施するために、さまざまなプログラミング言語が使用可能であると認識される。

１．物体検出、物体認識および顔認識
物体検出分野は、イメージに基づいて、特定のタイプの物体が現存するかの決定を扱う。物体のタイプは、例えば、自動車、動物あるいは人物である。物体検出システムは一つのイメージに対してバイナリ分類を実行する。検出分類は異なるタイプの物体を区別する。具体的には、検出分類は１）特定のタイプの物体（第一のクラス）と２）特定のタイプの物体が無い場合（第二のクラス）を区別する。

物体認識分野は、イメージに基づいて、特定のタイプの物体が現存するかの決定を扱う。物体は、例えば、自動車、動物あるいは人物である。物体認識システムは一つのイメージに対して多数クラスの分類を実行する。認識分類は同一のタイプの物体を区別する。具体的には、認識分類は一つのイメージがどの特定の物体を示しているのかを表す。例えば、一つのイメージが三つの物体の一つを示すとすると、認識分類はそのイメージが、第一の物体（第一のクラス）、第二の物体（第二のクラス）または第三の物体（第三のクラス）のいずれを表しているかを示す。

顔認識は物体の同一性確認の一形式である。長年にわたり顔認識を実行するためにたくさんのコンピュータシステムが開発されてきた。これらのシステムのあるものは、限定されたシナリオで成功を収めたにもかかわらず、顔認識の作業全般には、照明、表情および姿勢の変化に関して多くの課題が依然として残っている。

顔認識技術は一般に二つのカテゴリ、包括的技術および構成要素に基づく技術、に分けられる。包括的手法では、全体イメージを用いて分類がなされる。例えば、顔全体イメージを表す一つの特徴ベクトルが認識分類器へ入力される。認識分類器はその後特徴ベクトルに基づいて人物の同一性を決定する。固有空間における最小距離分類、Fisherの判別分析およびニューラルネットワークを含むいくつかのの認識分類器が提案されている。包括的技術は顔の前面ビューを分類するのに適している。しかしながら、それらは姿勢の変化に対してローバストでない。この理由は、包括的特徴が顔の並進および回転に対して非常に敏感に変化するからである。

この問題を回避するために、顔を分類する前にアラインメント段階を追加しても良い。入力された顔イメージを参照顔イメージと合わせるためには、二つの顔イメージ間の対応点を計算する必要が有る。眼の中央点、鼻孔または口の両端のような、少数の顔の代表点が、通常は対応点として決められる。これらの対応点に基づいて、入力された顔イメージを参照顔イメージへ移動することができる。

構成要素に基づいた手法では、一つのイメージの構成要素を用いて分類がなされる。構成要素は検出後分類システムへ入力される。構成要素に基づいた手法は、認識分類段階で構成要素間の幾何学的関係に自由度を許容することによって、姿勢の変化に対して補正を行う。いくつかの構成要素に基づいた認識技術が開発されている。一つの技術では、三つの顔の領域（両目、鼻および口）からなるテンプレートが独立に照合される。構成要素（顔の領域）のコンフィギュレーションは、システムが顔の幾何学的モデルを含んでいないので、分類を行う間に制約を受けない。もう一つの技術は類似しているが、アラインメント段階を持っている。さらに他の技術は、二次元の弾性グラフを用いて顔の幾何学的モデルを実現する。認識は、弾性グラフのノード上で計算されるウェーブレット係数に基づいて行われる。さらにもう一つの技術は、顔イメージにわたって窓をシフトし、その窓の中の離散余弦変換（DCT）係数を計算する。その後、係数は二次元の隠れマルコフモデル（Hidden Markov Model）へ送られる。

構成要素に基づいた物体の同一性確認手法に共通する主要な問題点は、物体の同一性を確認するために使用する構成要素からなる集合をどのように選択するかにある。必要なのはある特定の物体を他から区別する構成要素を決定する仕方である。

２．顔認識システム
以下の説明は顔認識システムに言及するものであるが、このシステムはどのようなタイプの物体を検出するためにも使用できる。物体のクラスは、例えば、自動車、動物および人を含むことが可能である。

ａ．アーキテクチャ
図１は本発明の一つの実施形態による、構成要素に基づいた技術を使用する顔認識を実行するためのシステムのブロック図である。顔認識器１００は特定の人の同一性を確認できる多数クラスの分類器である。顔認識器１００は一つ以上の構成要素認識分類器１１０を含む。図示の実施形態では、顔認識器１００はＮ個の構成要素認識分類器１１０を含む。

構成要素認識分類器１１０は構成要素を分類する。例えば、個々の人物が一つのクラスであれば、構成要素認識分類器１１０は、所与の構成要素がどの人物に所属するかを決定する。構成要素認識分類器１１０への入力は所与の構成要素を含み、一方、構成要素認識分類器１１０の出力はその人物についての同一性を含む。

一つの実施形態において、構成要素認識分類器１１０への入力は所与の構成要素のイメージである。他の実施形態においては、入力は所与の構成要素の特徴ベクトルである。一つの実施形態において、構成要素認識分類器１１０の出力は、所与の構成要素がある特定の人物に所属する確率である。他の実施形態においては、構成要素認識分類器１１０の出力は、確率ベクトルのような確率の集合である。この集合は個々の人物に対して、所与の構成要素がその人物に所属する確率（０と１の間の数）を含んでいる。この実施形態において、集合内の確率の合計は１である。

上述のように、構成要素認識分類器１１０は所与の構成要素がどの人に属するかを決定する。このように、構成要素認識分類器１１０は多数クラスの分類を実行する。構成要素認識分類器１１０は多数クラスの分類器を含むことができるが、そうあらねばならない必要性は無い。その代わりに、構成要素認識分類器１１０はいくつかのバイナリ分類器を含んでも良い。

一つの実施形態において、構成要素認識分類器１１０がいくつかのバイナリ分類器を含めば、構成要素認識分類器１１０は一対全ての進め方に従って訓練される。具体的には、バイナリ分類器が訓練される。この実施形態において、バイナリ分類器は入力イメージに基づいて、一つのクラス（人物）を他の全てのクラス（人物）から分離する。この入力イメージは顔の構成要素からなるイメージである。換言すれば、一人の人物の構成要素は、訓練集合の他の全ての人物の構成要素に対して訓練される。一つの実施形態においては、個々のバイナリ分類器がそれぞれ異なる一人の人物の認識を受け持っている。この実施形態においては、訓練されるバイナリ分類器の数は、同一性の確認対象人物の数に等しい。従って、バイナリ分類器の数はクラスの数（例えば、認識対象の人物の数）に対応して線形的に増加する。

一つの実施形態において、構成要素認識分類器１１０がいくつかのバイナリ分類器を含む場合、ペアワイズ・アプローチに従って、この構成要素認識分類器１１０は訓練される。この実施形態では、認識対象の人物数がｑの場合、訓練されるバイナリ分類器の数は、ｑ（ｑ−１）／２に等しい。個々のバイナリ分類器は１ペアのクラスを分離する。ペアワイズ・バイナリ分類器は、ツリーノードがバイナリ分類器を表すツリー内に配列される。一つの実施形態においては、ツリーはテニストーナメントで使用されるような、除外型のツリーに似たボトムアップツリーである。他の実施形態においては、ツリーはトップダウンツリー構造を持つ。

構成要素認識分類器１１０は、例えば、ニューラルネットワーク分類器（多数クラス）、最近傍分類器（多数クラス）あるいはサポートベクトルマシン分類器（バイナリ）を含んでも良い。

顔認識を実行するために使用される個々の構成要素に対して、顔認識器１００は一つの構成要素認識分類器１１０を含む。図示された実施形態において、顔認識器１００は顔認識を実行するためにＮ個の構成要素を使用する。一つの実施形態において、顔認識器１００は１４個の構成要素認識分類器１１０を含む。図２は、本発明の一つの実施形態による、１４個の構成要素を有する顔イメージを示す。図示された実施形態において、ほとんどの構成要素が、目、鼻、口の近傍に配置されている。一つの実施形態においては、構成要素認識分類器１１０は個々に独立して動作する。

図１は、顔認識器１００への入力１２０および顔認識器１００からの出力１３０を示す。一つの実施形態において、入力１２０は構成要素からなるＮ個のイメージの集合、または構成要素からなるＮ個の特徴ベクトルの集合である。この実施形態においては、その集合内の個々の構成要素は、Ｎ個の構成要素認識分類器１１０の一つに対する入力である。他の実施形態においては、入力１２０は一つの顔からなる一つのイメージ、または一つの顔を表す一つの特徴ベクトルである。この実施形態においては、Ｎ個の構成要素は顔との同一性が確認された後抽出される。一つの実施形態においては、この処理が手動で行われる。他の実施形態においては、この処理は構成要素検出器（例えば分類器）によって自動的に実行される。一旦構成要素が抽出されれば、この実施形態は前述の実施形態と同様に、入力１２０は構成要素からなるＮ個のイメージの集合、または構成要素からなるＮ個の特徴ベクトルの集合である。

一つの実施形態においては、顔認識器１００の出力１３０は、入力１２０と関連付けられた人物の名前である。出力１３０は構成要素認識分類器１１０からの出力に基づいて決定される。

一つの実施形態において、Ｐ_ｉｊは構成要素ｉが人物ｊに属する確率で、選択に用いるＭ個のクラス（人物）があるとすると、構成要素認識分類器１１０からの出力は、＜ｐ_ｉ１，ｐ_ｉ２，．．．，ｐ_ｉＭ＞の形の確率ベクトルとして表現できる。この表記を用いれば、Ｎ個の構成要素認識分類器１１０からの出力は次のように表すことができる：＜ｐ_１１，ｐ_１２，．．．，ｐ_１Ｍ＞，＜ｐ_２１，ｐ_２２，．．．，ｐ_２Ｍ＞，．．．，＜ｐ_Ｎ１，ｐ_Ｎ２，．．．，ｐ_ＮＭ＞

一つの実施形態において、標準的な分類器結合の技術を用いて、Ｎ個の構成要素認識分類器１１０からの出力を結合することによって、出力１３０が決定される。一つの実施形態において、出力１３０は、Ｎ個の構成要素認識分類器１１０からの出力の合計に基づいて決められる。この実施形態においては，出力の合計は次の和ベクトルとして表現できる：
＜ｐ_１１＋ｐ_２１＋．．．＋ｐ_Ｎ１，ｐ_１２＋ｐ_２２＋．．．＋ｐ_Ｎ２，．．．，ｐ_１Ｍ＋ｐ_２Ｍ＋．．．＋ｐ_ＮＭ＞
この実施形態においては、出力１３０は、和ベクトル内の最大確率に対応する人物になる。

他の実施形態においては、出力１３０は、Ｎ個の構成要素認識分類器１１０からの出力の積に基づいて決められる。この実施形態においては、出力の積は次の積ベクトルとして表現できる：
＜ｐ_１１・ｐ_２１・．．．・ｐ_Ｎ１，ｐ_１２・ｐ_２２・．．．・ｐ_Ｎ２，．．．，ｐ_１Ｍ・ｐ_２Ｍ・．．．・ｐ_ＮＭ＞
出力１３０は、積ベクトル内の最大確率に対応する人物になる。

さらに他の実施形態においては、出力１３０は、Ｎ個の構成要素認識分類器１１０からの出力間の投票スキームに基づいて決められる。一つの実施形態においては、一人以上の人物に対して、個々の出力を投票数に変換するために、閾値が用いられる。例えば、閾値を０．５とした場合、構成要素認識分類器１１０による確率ベクトル出力の中で０．５以上の個々の確率がその人物に対する一票に対応する。もう一つの例では、個々の構成要素認識分類器１１０が一票のみの投票権を有し、その構成要素認識分類器１１０による確率ベクトル出力の中で、最大確率を持つ人物に対してその票が与えられる。その後、票は集計され、出力１３０は票が最も多い人物になる。

他の実施形態においては、出力１３０は決定分類器のような別の分類器を用いて決定される。

ｂ．訓練
顔認識器１００が顔認識を実行できるようになるには、訓練を受ける必要が有る。具体的には、構成要素認識分類器１１０が訓練を受ける必要がある。事例からの学習としても知られている教師付き学習を用いて、分類器は訓練を既に受けているので、分類器はタスクを実行できる（例えば、人物の構成要素に基づいてある特定の人物の同一性を確認する）。名称が示唆しているように、事例からなる集合を用いて、分類器は訓練を受ける。個々の事例は、ある特定の入力が与えられた場合に、分類器が何を出力すべきかを表す入出力の一ペアである。

上述のように、構成要素に基づいた物体の同一性確認システムのいずれにも当てはまる重要な特徴は、どの構成要素がシステムの訓練のために事例として用いられるかにある。ある特定の物体を他から区別する際に、訓練によってシステムの精度が最大化される必要がある。

３．顔認識のためのシステムを訓練するために事例として使用する構成要素の決定
一つの実施形態において、物体の構成要素は自動的に決定され、構成要素に基づいた顔認識システムを訓練するために事例として使用される。この点が、物体の構成要素が手動で選択される先行技術との差異である。

図３は、本発明の一つの実施形態による、構成要素に基づいた顔認識システムを訓練するために、事例として使用する構成要素を決定する装置のブロック図を示す。装置３００は、システムバス３２０に接続されて通信可能な、プロセッサ３１０、メインメモリ３２０、データ保存装置３３０、および入出力制御器３８０を含むことが好ましい。装置３００として、例えば、汎用コンピュータを用いても良い。

プロセッサ３１０はデータ信号を処理し、複合命令セットコンピュータ（ＣＩＳＣ）アーキテクチャ、縮小命令セットコンピュータ（ＲＩＳＣ）アーキテクチャ、または命令セットの組み合わせを実行するアーキテクチャを含む種々の計算アーキテクチャを含む。図３には単一のプロセッサだけが示されているが、多数のプロセッサが含まれても良い。

メインメモリ３２０は、プロセッサ３１０によって実行される命令および／またはデータを保存する。その命令および／またはデータは、ここで説明される何れかおよび／または全ての技術を実行するためのコードを含む。メインメモリ３２０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）デバイス、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイス、または他の周知技術のメモリデバイスであることが望ましい。

データ保存装置３３０はプロセッサ３１０に対してデータおよび命令を保存し、ハードディスクドライブ、フレキシブルディスクドライブ、ＣＤ−ＲＯＭデバイス、ＤＶＤ−ＲＯＭデバイス、ＤＶＤ−ＲＡＭデバイス、ＤＶＤ−ＲＷデバイス、フラッシュメモリデバイスまたは他の周知技術のマスストレージデバイスを含めて、一つ以上のデバイスを含む。

ネットワーク制御器３８０は、装置３００が他の装置と通信できるように、装置３００をこれらの装置とリンクさせる。

システムバス３４０は装置３００全体の情報およびデータを通信するための共有バスを表す。システムバス３４０は、工業標準アーキテクチャ（ＩＳＡ）バス、周辺機器相互接続（ＰＣＩ）バス、ユニバーサルシリアルバス（ＵＳＢ）または類似の機能を提供する周知技術の他のバスを含めて、一つ以上のバスを表す。

システムバス３４０を経由して装置３００へ接続しても良い追加機器としては、ディスプレイ装置３５０、キーボード３６０およびカーソル制御装置３７０が含まれる。ディスプレイ装置３５０は、電子イメージおよびデータをローカルユーザまたは保守担当者に表示する機能を備えた装置であればどのようなものでも良い。ディスプレイ装置３５０は、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）または同じような機能を備えたディスプレイ装置、ディスプレイスクリーンまたはディスプレイモニタのいずれでも良い。キーボード３６０は、情報および命令の選択をプロセッサ３１０に伝達するために装置３００に接続された、アルファベットと数字を組み合わせた入力装置を表す。カーソル制御装置３７０は、命令選択と位置データをプロセッサ３１０へ伝達するために備えられたユーザー用の入力装置を表す。カーソル制御装置３７０は、マウス、トラックボール、スタイラス、ペン、カーソル方向キー、またはカーソルに動きを与える他のメカニズムを含む。

本発明の意図と範囲を外れることなく、装置３００が図３に示されているよりも多くのまたは少ない機器を含むことは、当業者にとっては明らかである。例えば、装置３００は、第一レベルまたは第二レベルのキャッシュ、または一つまたは複数の特定用途向け集積回路（ＡＳＩＣ）のようなメモリを追加して含んでも良い。上述のように、装置３００はＡＳＩＣだけをから構成されることも可能である。さらに、例えば、イメージ走査装置、デジタルスチルカメラまたはビデオカメラ、または、電子データを装置３００へ／または装置３００から取得および／またはダウンロードするために備えられた、または備えられていない他の装置を含めて、機器が装置３００に接続されても良い

図４は図３のメモリユニットの内容について、より詳細を示したブロック図である。一般に、メモリユニット３２０は、構成要素に基づいた顔認識システムを訓練するために、事例として用いる構成要素を決定するためのいくつかのコードモジュールを含む。具体的には、メモリユニット３２０のコードモジュールは、メインプログラムモジュール４００、初期化モジュール４１０、抽出モジュール４２０、訓練モジュール４３０、予想モジュール４４０および拡張モジュール４５０を含む。

一つの実施形態において、メモリユニット３２０は、小さなシード領域から始めて、反復的にその領域を拡張し、一つのイメージの構成要素を決定する。分類器がその拡張された構成要素を用いて訓練された時に、拡張された構成要素が分類器の精度に及ぼす影響に基づいて、拡張の方向が選択される。一旦、構成要素が決定されれば、それらの構成要素は構成要素認識分類器１１０を訓練するために使用される。

メインプログラムモジュール４００は全てのコードモジュール４１０、４２０、４３０、４４０および４５０に接続されて通信可能になっている。メインプログラムモジュール４００は装置３００のオペレーションおよび処理フローを中央から制御して、それぞれのコードモジュール４１０、４２０、４３０、４４０および４５０からデータを受信するとともに、それぞれのコードモジュールへ命令およびデータを伝送する。メインプログラムモジュール４００の詳細は図５を参照して以下に説明する。

初期化モジュール４１０は、事前に選択されたポイントが与えられると、構成要素（例えば、構成要素の大きさと形状）を決定する。一つの実施形態においては、その構成要素は事前に選択されたポイントを含む。他の実施形態においては、その構成要素の大きさは小さい。さらに他の実施形態では、初期構成要素は形状が長方形である。

抽出モジュール４２０はイメージまたは特徴ベクトルから構成要素を抽出する。一つの実施形態においては、構成要素は、その大きさ、形状および位置に基づいて抽出される。

訓練モジュール４３０はイメージからなる訓練集合を用いて構成要素認識分類器１１０を訓練する。上述のように、一台の分類器は事例からなる一つの集合を用いて訓練される。それぞれの事例は、ある特定の入力が与えられたときに分類器が何を出力すべきかを示す入出力の一ペアである。ここで一つの事例は、入力が訓練集合から得られた一つのイメージで、出力がそのイメージと関連付けられた人物の同一性である一ペアからなる。一つの実施形態においては、一つの事例が訓練集合の個々のイメージに対して存在する。訓練モジュール４３０は構成要素認識分類器１１０を訓練するためにこれらの事例を使用する。

予想モジュール４４０は構成要素認識分類器１１０の精度を予想する。一つの実施形態においては、訓練された構成要素認識分類器１１０が相互検証集合上で動作する場合、その精度は認識率に基づく。この実施形態においては、既知の参照ポイントに基づいて、相互検証集合内の全てのイメージから、構成要素が抽出される。訓練データと同様に、ポジティブな相互検証集合は、一人物の構成要素を含み、ネガティブな集合はその他の全ての人物の構成要素を含む。こうして、相互検証集合上での認識率が決定される。他の実施形態では、精度は構成要素認識分類器１１０のＳＶＭ誤差限界（予想誤差確率等）である。

拡張モジュール４５０は構成要素を、上、下、左および右の四方向のうちの一方向へ拡張することによって、構成要素を拡張する。一つの実施形態において、拡張モジュール４５０は特定の一方向へ１ピクセル分だけ構成要素を拡張する。

図５は本発明の一つの実施形態による、構成要素に基づいた顔の認識システムを訓練するために事例として使用する構成要素を決定するための方法を示す。一つの実施形態において、顔認識器１００の個々の構成要素認識分類器１１０に対して、方法５００は一回実行される。方法５００のある特定の実行によって決定された構成要素は、教師付き学習によりその特定の構成要素認識分類器１１０を訓練するために用いられる。

方法５００が開始する前に、一つのポイント位置が一つの物体イメージにおいて特定される。例えば物体が顔で、構成要素認識分類器１１０が目の領域に注目する場合、そのポイントは左目の中心に置くことが可能である。一つの実施形態において、そのポイント位置は手動によって入力される。他の実施形態において、その位置は自動的に、例えばイメージを目検出器へ入力することによって行われる。

方法５００はメインプログラムモジュール４００によって開始し、初期モジュール４１０を用いて、特定のポイントに基づいて構成要素の初期の大きさと形状を決定する（５１０）。メインプログラムモジュール４００は、抽出モジュール４２０を使用して、個々の利用可能な顔のイメージから、決定された構成要素を抽出することによって、構成要素認識分類器１１０用の訓練集合を構築する（５２０）。メインプログラムモジュール４００は、その訓練集合と訓練モジュール４３０を用いて、構成要素認識分類器１１０を訓練する（５３０）。訓練終了後、メインプログラムモジュール４００は、予想モジュール４４０を用いて、構成要素認識分類器１１０の精度を予想する（５４０）。

次にメインプログラムモジュール４００は、構成要素の拡張を四方向全て（上、下、左および右）に試みたか決定する（５５０）。メインプログラムモジュール４００が構成要素の拡張を全ての方向で試行していない場合は、拡張モジュール４５０を用いて試行がなされていない方向の一つへ、メインプログラムモジュール４００は構成要素を暫定的に拡張させる。構成要素が拡張された後、方法５００はステップ５２０へ戻り（５７０）、訓練集合が構築される。

メインプログラム４００が四方向の全てにおいて構成要素の拡張を試行していた場合は、メインプログラムモジュール４００はどの方向（上、下、左および右）の拡張が、ステップ５４０で予想したように最高の精度となるか決定する。拡張モジュール４５０を用いて、構成要素はその決定された方向へ恒久的に拡張される（５８０）。

メインプログラムモジュール４００は、さらに反復を行って精度を最大化するために構成要素をさらに拡張することを試行するか決定する（５９２）。もう一度反復が実行される場合、方法５００はステップ５２０へ戻り（５９０）、訓練集合が構築される。もう一度反復が行われない場合、メインプログラムモジュール４００は構成要素を出力し（５９４）、方法５００は終了する。

一つの実施形態において、四方向のそれぞれに構成要素を拡張させた結果精度が低減する場合は、新たな反復は実施されない。他の実施形態において、四方向の何れかでの構成要素の拡張によって精度が低減する場合は、新たな反復は実行されない。これらの実施形態において、メインプログラムモジュール４００は、精度低減を起こした構成要素に一つ前の構成要素を出力する（５９４）。

さらに他の実施形態では、反復の閾値に到達した場合には、新たな反復は実行されない。この実施形態では、メインプログラムモジュール４００は、精度を最大化した構成要素であればどれも出力する（５９４）。

本発明はそのいくつかの実施形態を参照しながら相当な細部に及んで説明されたが、当業者によって理解されるように、他の実施形態も可能である。例えば、他の実施形態として、ここで引用して参照する“コンポーネント・フォー・フェース・レコグニション”Ｂ．ヘイゼルおよびＴ．コシゼン著、プロシーディングズ・オブ・ザ・コンファランス・オン・オートマティック・フェース・アンド・ジェスチャ・レコグニション、ソウル、韓国、２００４、１５３−１５８頁(“Components for Face Recognition” by B. Heizel and T. Koshizen, Proceedings of the Conference on Automatic Face and Gesture Recognition, Seoul, Korea, 2004, pp. 153-158)に掲載されている。

図１は本発明の一つの実施形態による、構成要素に基づいた技術を用いて、顔認識を実行するためのシステムのブロック図を示す。図２は本発明の一つの実施形態による、１４の構成要素を有する顔イメージを示す。図３は本発明の一つの実施形態による、構成要素に基づいた顔認識システムを訓練するために事例として用いる構成要素を決定する装置のブロック図を示す。図４は図３のメモリユニットの内容のより詳細なブロック図を示す。図５は本発明の一つの実施形態による、構成要素に基づいた顔認識システムを訓練するために、事例として用いる構成要素を決定するための方法を示す。

Claims

コンピュータを用いて構成要素を定める方法であって、
前記構成要素は、
物体の構成要素であって、
物体の構成要素に基づいて前記物体を識別するシステムにおいて使用されるものであり、
前記コンピュータは、
所与の構成要素がどのクラスに属するかを決定する第一の構成要素認識分類器であって、第一の物体領域を表す第一の構成要素に基づいて訓練された第一の構成要素認識分類器の精度を決定し、
前記第一の物体領域よりも大きい拡張構成要素であって、前記第一の物体領域を含む第二の物体領域を表し、前記第一の構成要素よりも大きい複数の拡張構成要素からなる集合を決定し、
特定の構成要素がどのクラスに属するかを決定する第二の構成要素認識分類器であって、前記拡張構成要素に基づいて訓練された第二の構成要素認識分類器の精度を、前記複数の拡張構成要素からなる集合内の拡張構成要素ごとに決定し、
前記第一の構成要素認識分類器及びそれぞれの第二の構成要素認識分類器のうちから、どの構成要素認識分類器が最も精度が高いかを決定し、
前記最も精度が高い構成要素認識分類器を訓練するためにどの構成要素が使用されたかを決定する、
ことを特徴とする方法。
前記第一の構成要素は、
イメージであること、
を特徴とする請求項１に記載の方法。
前記第一の構成要素は、
特徴ベクトルであること、
を特徴とする請求項１に記載の方法。
前記構成要素は、
顔の部分を含み、
前記構成要素の前記クラスは、
特定の人物であること、
を特徴とする請求項１に記載の方法。
前記物体を識別するシステムは、
構成要素に基づいた顔認識システムを含むこと、
を特徴とする請求項１に記載の方法。
前記複数の拡張構成要素からなる集合を決定することは、
前記第一の構成要素を、上、下、左又は右の４方向のうちの１方向へ拡張することを含むこと、
を特徴とする請求項１に記載の方法。
前記第一の構成要素は、
手動で決定されること、
を特徴とする請求項１に記載の方法。
前記第一の構成要素は、
構成要素検出器によって自動的に決定されること、
を特徴とする請求項１に記載の方法。
構成要素に基づいて訓練された構成要素認識分類器は、
訓練集合を使用して訓練されたものであり、
前記訓練集合は、
構成要素イメージの集合と、
前記構成要素イメージの集合のうちのそれぞれの構成要素イメージごとに、当該構成要素イメージに関連付けられたクラスを含むこと、
を特徴とする請求項１に記載の方法。
構成要素イメージは、
イメージから前記構成要素を抽出することによって生成されたものであること、
を特徴とする請求項９に記載の方法。
構成要素認識分類器の精度は、
前記構成要素認識分類器の認識率を含むこと、
を特徴とする請求項１に記載の方法。
前記構成要素認識分類器の精度を決定することは、
前記構成要素認識分類器を使用して、相互検証集合内の要素を分類すること、
を特徴とする請求項１１に記載の方法。
前記相互検証集合は、
イメージから前記構成要素を抽出することによって生成された構成要素イメージの集合と、
前記構成要素イメージの集合のうちのそれぞれの構成要素イメージごとに、当該構成要素イメージに関連付けられたクラスを含むこと、
を特徴とする請求項１２に記載の方法。
構成要素認識分類器の精度は、
前記構成要素認識分類器の予想誤差確率に基づくこと、
を特徴とする請求項１に記載の方法。
前記構成要素認識分類器の精度は、
前記構成要素認識分類器の予想誤差確率についての推定上限に基づくこと、
を特徴とする請求項１に記載の方法。
構成要素を定めるシステムであって、
前記構成要素は、
物体の構成要素であって、
物体の構成要素に基づいて前記物体を識別するシステムにおいて使用されるものであり、
前記構成要素を定めるシステムは、
所与の構成要素がどのクラスに属するかを決定する第一の構成要素認識分類器であって、第一の物体領域を表す第一の構成要素に基づいて訓練された第一の構成要素認識分類器の精度を決定する手段と、
前記第一の物体領域よりも大きい拡張構成要素であって、前記第一の物体領域を含む第二の物体領域を表し、前記第一の構成要素よりも大きい複数の拡張構成要素からなる集合を決定する手段と、
特定の構成要素がどのクラスに属するかを決定する第二の構成要素認識分類器であって、前記拡張構成要素に基づいて訓練された第二の構成要素認識分類器の精度を、前記複数の拡張構成要素からなる集合内の拡張構成要素ごとに決定する手段と、
前記第一の構成要素認識分類器及びそれぞれの第二の構成要素認識分類器のうちから、どの構成要素認識分類器が最も精度が高いかを決定する手段と、
前記最も精度が高い構成要素認識分類器を訓練するためにどの構成要素が使用されたかを決定する手段と、
を有することを特徴とする構成要素を定めるシステム。
前記第一の構成要素は、
イメージであること、
を特徴とする請求項１６に記載のシステム。
前記第一の構成要素は、
特徴ベクトルであること、
を特徴とする請求項１６に記載のシステム。
前記構成要素は、
顔の部分を含み、
前記構成要素の前記クラスは、
特定の人物であり、
前記物体を識別するシステムは、
構成要素に基づいた顔認識システムを含むこと、
を特徴とする請求項１６に記載のシステム。
前記複数の拡張構成要素からなる集合を決定することは、
前記第一の構成要素を、上、下、左又は右の４方向のうちの１方向へ拡張することを含むこと、
を特徴とする請求項１６に記載のシステム。
構成要素を定めるシステムを機能させるプログラムであって、
前記構成要素は、
物体の構成要素であって、
物体の構成要素に基づいて前記物体を識別するシステムにおいて使用されるものであり、
前記プログラムは、前記コンピュータに対し、
所与の構成要素がどのクラスに属するかを決定する第一の構成要素認識分類器であって、第一の物体領域を表す第一の構成要素に基づいて訓練された第一の構成要素認識分類器の精度を決定し、
前記第一の物体領域よりも大きい拡張構成要素であって、前記第一の物体領域を含む第二の物体領域を表し、前記第一の構成要素よりも大きい複数の拡張構成要素からなる集合を決定し、
特定の構成要素がどのクラスに属するかを決定する第二の構成要素認識分類器であって、前記拡張構成要素に基づいて訓練された第二の構成要素認識分類器の精度を、前記複数の拡張構成要素からなる集合内の拡張構成要素ごとに決定し、
前記第一の構成要素認識分類器及びそれぞれの第二の構成要素認識分類器のうちから、どの構成要素認識分類器が最も精度が高いかを決定し、
前記最も精度が高い構成要素認識分類器を訓練するためにどの構成要素が使用されたかを決定する処理を実行させる、
ことを特徴とするプログラム。
前記第一の構成要素は、
イメージであること、
を特徴とする請求項２１に記載のプログラム。
前記第一の構成要素は、
特徴ベクトルであること、
を特徴とする請求項２１に記載のプログラム。
前記構成要素は、
顔の部分を含み、
前記構成要素の前記クラスは、
特定の人物であり、
前記物体を識別するシステムは、
構成要素に基づいた顔認識システムを含むこと、
を特徴とする請求項２１に記載のプログラム。
前記複数の拡張構成要素からなる集合を決定することは、
前記第一の構成要素を、上、下、左又は右の４方向のうちの１方向へ拡張することを含むこと、
を特徴とする請求項２１に記載のプログラム。