JP2008536211A

JP2008536211A - ニューラルネットワークを実現するオブジェクトイメージにおいて興味のあるポイントを位置決めするシステム及び方法

Info

Publication number: JP2008536211A
Application number: JP2008503506A
Authority: JP
Inventors: ガルシア，クリストフ; デュフネ，ステファン
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-03-31
Filing date: 2006-03-28
Publication date: 2008-09-04
Also published as: WO2006103241A3; EP1866834A2; CN101171598A; WO2006103241A2; FR2884008A1; US20080201282A1

Abstract

本発明は、オブジェクトイメージにおいて少なくとも２つの興味のあるポイントを位置決めするシステムに関する。本発明によれば、１つのそのようなシステムは、人工ニューラルネットワークを使用するとともに、前記オブジェクトイメージを受け取るインプットレイヤ（Ｅ）と、オブジェクトイメージ内の興味のある予め定められた異なるポイントにそれぞれ関連している少なくとも２つの特徴マップ（Ｒ_5m）を生成するために使用することができる複数のニューロン（Ｎ_4l）からなり、第１の中間レイヤとして知られている少なくとも１つの中間レイヤ（Ｎ₄）と、第１の中間レイヤ内の全てのニューロンにそれぞれ結合される複数のニューロンを備える前述した特徴マップ（Ｒ_5m）を含む少なくとも１つのアウトプットレイヤ（Ｒ₅）とを備えるレイヤ状のアーキテクチャを有する。本発明によれば、興味のあるポイントが、特徴マップの各々において全体における唯一の最大の位置（１７₁，１７₂，１７₃，１７₄）によって、オブジェクトイメージ内で位置決めされる。

Description

本発明の分野は、静止画又は動画をデジタル処理する分野に関する。更に詳しくは、本発明は、デジタルイメージで表されるオブジェクトにおいて興味のある１又は複数のポイントを位置決めする技術に関する。

本発明は、例えば、限定される訳ではないが、瞳孔、目尻、鼻の頭、口、眉等のような、人の顔におけるデジタルな又はデジタル化されたイメージにおいて、物理的な特徴を検出する分野に関する。確かに、顔のイメージにおいて興味のあるポイントを自動検出することは、顔の分析における主な問題である。

当分野では、幾つかの既知技術がある。そのほとんどは、専用の、特化されたフィルタによって、顔の特定の特徴の各々を独立して探索及び検出することからなる。

使用されているほとんどの検出器は、顔のクロミナンスの分析に依存し、顔の画素が、その色に従って、皮膚又は顔の要素に属するものとしてラベル付けされる。

他の検出器は、コントラスト変化を用いる。この目的のために、光のグラジエントの分析に依存する輪郭検出が適用される。したがって、検出された異なる輪郭から、顔の要素の識別が試みられる。

他のアプローチは、各要素の統計モデルを用いて、相関性による探索を実行する。これらのモデルは、一般に、求められる各要素のイメージ（すなわち、固有の特徴）を用いる主成分分析（ＰＣＡ）から構築される。

ある先行技術は、各要素の独立した検出を行う第１段階で決定された全ての候補位置に、幾何学的な顔モデルが適用される第２段階を実施する。第１段階で検出された要素は、候補位置の座標を形成し、モーファブル（ｍｏｒｐｈａｂｌｅ）になり得る幾何学モデルが、最良の座標を選択するために使用される。

最近の１つの方法は、古典的２段階スキーム（幾何学的規則の応用が続く顔要素に対する独立した探索を含む）以上に使用することが可能である。本方法は、アクティブ外観モデル（ＡＡＭ）の使用に依存し、特に、Ｄ．Ｃｒｉｓｔｉｎａｃｃｅ及びＴ．Ｃｏｏｔｅｓによる「Ａｃｏｍｐａｒｉｓｏｎｏｆｓｈａｐｅｃｏｎｓｔｒａｉｎｅｄｆａｃｉａｌｆｅａｔｕｒｅｄｅｔｅｃｔｏｒｓ」（Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｍａｔｉｃＦａｃｅａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ２００４，Ｓｅｏｕｌ，Ｋｏｒｅａ，ｐｐ３７５−３８０，２００４）に記述されている。これは、アクティブな顔モデルを、イメージ内の顔と一致させることによって、また形状とテクスチャとを組み合わせた線形モデルのパラメータを適用することによって、顔要素の位置を予測することからなる。この顔モデルは、興味のあるポイントが、興味のあるポイントの位置を符号化するベクトルと、関連する顔の軽いテクスチャとに関して、主成分分析（ＰＣＡ）によって注釈される顔から学習する。

これら様々な先行技術の主要な欠点は、顔イメージ、特にオブジェクトイメージに悪影響を与えるノイズの、顔における低ロバスト性である。

確かに、異なる顔要素を検出するために特別に設計された検出器は、例えば光過剰、又は光不足、側面光、下方光のような、イメージの極端な照明条件に耐えることはできない。また、イメージ品質の変化、特に、ビデオストリームから得られた（例えば、ウェブカム（ｗｅｂｃａｍ）によって得られた）か、又は、前の圧縮で行われた低解像度の場合に関し、低いロバスト性しか示さない。

更に、（皮膚の色のフィルタリングを適用する）クロミナンス分析に依存する方法は、光条件に敏感である。更に、グレーレベルのイメージに適用することができない。

興味のある異なるポイントの独立した検出に依存するこれら先行技術の別の欠点は、例えば、暗いメガネが着用されている場合の目や、顎鬚があり、あるいは、手によって隠されている口や、より一般的には、イメージの局部的な高い劣化がある場合のように、興味のあるポイントが隠されている場合、全く非効率的であることである。

いくつかの要素、又は、１つのみの要素の検出の失敗は、一般に、幾何学的な顔モデルのその後の使用によって修正されない。このモデルは、幾つかの候補位置から選択を行う必要がある場合のみ使用される。これは、前の段階で命令的に検出されているべきである。

これらの異なる欠点は、アクティブな顔に依存する方法において部分的に補償される。本方法は、形状及びテクスチャ情報を共に使用することによって、要素に対する一般的な探索を可能にする。しかしながら、これらの方法は、探索中、反復して決定されねばならない何百ものパラメータに依存する、時間のかかる不安定な最適化処理に依存し、特に長くて骨の折れる処理であるという別の欠点を有する。

更に、ＰＣＡによって生成された使用される統計モデルは線形であるので、イメージにおける全体的な変化、特に光の変化に関して低いロバスト性しか示さない。それらは、顔の隠された部分に関して低いロバスト性しか持たない。

本発明の目的は、特にこれら先行技術の欠点を克服することである。

更に詳しくは、本発明の目的は、位置決めする必要がある興味ある各ポイント、及びオブジェクトの各タイプに対して特有なフィルタの、時間を要しかつ骨の折れる開発を必要としないオブジェクトを表すイメージにおいて、興味のある幾つかのポイントを位置決めする技術を提供することである。

また、本発明の別の目的は、照明条件、色のバリエーション、部分的な隠れ等のように、イメージに悪影響を与える全てのノイズに関して特にロバストである位置決め技術を提案することである。

更に、本発明の別の目的は、イメージに部分的に悪影響を与える隠れを考慮し、隠されたポイントの位置の推測を可能にする技術を提供することである。

また、本発明の目的は、容易に適用でき、実施に費用がほとんどかからない技術を提供することである。

本発明の更に別の目的は、顔のイメージにおける顔要素の検出に特によく適した技術を提供することである。

本明細書で以下に説明するもの同様、これらの目的は、オブジェクトイメージにおいて興味のある少なくとも２つのポイントを位置決めし、人工的なニューラルネットワークを適用し、レイヤ状のアーキテクチャを示すシステムによって達成される。このシステムは、前記オブジェクトイメージを受け取るインプットレイヤと、第１の中間レイヤと称され、前記オブジェクトイメージのうち興味のある予め定められた別個のポイントにそれぞれ関連付けられた少なくとも２つの特徴マップの生成を可能にする複数のニューロンを備える少なくとも１つの中間レイヤと、それぞれが前記第１の中間レイヤの全てのニューロンに結合された複数のニューロンをそれら自体が備える特徴マップを備える少なくとも１つのアプトプットレイヤとを備える。

前記興味のあるポイントは、前記特徴マップの各々について、全体における唯一の最大値（unique overall maximum value）の位置によってオブジェクトイメージ内で位置決めされる。

従って、本発明は、オブジェクトを表すイメージにおいて興味のある幾つかのポイントを検出することに対する全く普通でかつ発明的なアプローチに基づいている。なぜなら、本発明は、最大値を求めるための簡単な探索によって、アプトプットにおける幾つかの特徴マップの生成を可能にし、位置決めされる興味のあるポイントの直接的な検出を可能にするニューラルレイヤアーキテクチャの使用を提案するからである。

従って、本発明は、オブジェクトイメージ全体において、ニューラルネットワークによって、興味のある異なるポイントの包括的な探索を提案し、特に、これらポイントのうち相対的な位置を考慮することを可能にするとともに、全体的又は部分的な隠れに関連する問題の解消を可能にする。

アウトプットレイヤは、それぞれが予め定められた別個の興味のあるポイントに関連付けられた少なくとも２つの特徴マップを備える。従って、各特徴マップを、興味のある特定のポイントに供することによって、同じイメージ内の興味のある幾つかのポイントを同時に探索することが可能となる。その後、このポイントは、各マップにおいて唯一の最大値を探索することにより位置決めされる。これは、興味のある全てのポイントに関連付けられた特徴マップ全体において幾つかの局部的な最大値を同時探索するよりも実施が簡単である。

更に、興味のある異なるポイントを検出するための専用のフィルタの設計及び開発はもはや不要である。これらフィルタは、予備的な学習段階の終了後に、ニューラルネットワークによって自動的に位置決めされる。

この種のニューラルアーキテクチャは更に、オブジェクトイメージの光に関して起こり得る問題に関し、従来技術よりもよりロバストであることを証明する。

この場合、「予め定められた興味のあるポイント」なる文言は、例えば、顔イメージの場合であれば目、鼻、口等、オブジェクトの顕著な要素を意味すると理解されることが明白であるに違いない。

従って、本発明は、イメージ内の輪郭ではなく、予め定められた識別された要素を探索することからなる。

有利な特性によれば、前記オブジェクトイメージは顔イメージである。そして、求められる興味あるポイントは、例えば、目、鼻、眉等のような不変の物理的特徴である。

有利なことに、この種の位置決めシステムはまた、複数のニューロンを備える少なくとも１つの第２の中間畳み込みレイヤを備える。そのようなレイヤは、例えば、オブジェクトイメージ内のコントラストラインのような低レベル要素の検出に特化することができる。

好ましくは、この種の位置決めシステムはまた、複数のニューロンを備える少なくとも１つの第３のサブサンプリング中間レイヤを備える。従って、作業が行われるイメージの大きさが低減される。

本発明の好ましい実施形態では、そのような位置決めシステムは、前記インプットレイヤと前記第１の中間レイヤとの間に、
複数のニューロンを備え、前記オブジェクトイメージ内の少なくとも１つのエレメンタリ・ラインタイプ(elementary line type)形状の検出を可能にする、畳み込まれたオブジェクトイメージを提供する第２の中間畳み込みレイヤと、
複数のニューロンを備え、前記畳み込まれたオブジェクトイメージのサイズの低減を可能にする、低減された畳み込まれたオブジェクトイメージを提供する第３の中間サブサンプリングレイヤと、
複数のニューロンを備え、前記低減された畳み込まれたオブジェクトイメージにおいて少なくとも１つのコーナタイプ複雑形状の検出を可能にする第４の中間畳み込みレイヤとを備える。

本発明はまた、本明細書に記載したように、オブジェクトイメージにおいて、興味のある少なくとも２つのポイントを位置決めするシステムのニューラルネットワークのための学習方法に関する。前記ニューロンの各々は、シナプス重み及びバイアスによって重み付けられた少なくとも１つのインプットを有する。このタイプの学習方法は、以下のステップを備える。すなわち、
位置決めされる前記興味のあるポイントの関数として注釈される複数のオブジェクトイメージを備える学習ベースを構築することと、
前記シナプス重み及び／又は前記バイアスを初期化することと、
前記学習ベースの注釈されたイメージの各々について、
前記イメージにおいて興味のある少なくとも２つの注釈され予め定められたポイントの各々から、アウトプットにおいて、前記少なくとも２つの所望の特徴マップを準備し、
前記位置決めシステムのインプットにおいて前記イメージを表して、アウトプットにおいて提供される少なくとも２つの特徴マップを決定し、
前記シナプス重み及び／又は前記最適なバイアスを決定できるように、前記学習ベースの前記注釈イメージの設定に関し、前記アウトプットにおいて提供される所望の特徴マップ間の相違を最小にすることとを備える。

従って、ユーザによってマニュアルで注釈された例に依存して、ニューラルネットワークは、オブジェクトイメージ内の興味のある、あるポイントを認識することを学習する。その後、ネットワークのインプットにおいて所与の任意のイメージ内においてそれらを位置決めすることができる。

有利なことに、前記最小にすることは、前記アウトプットにおいて提供された所望の特徴マップ間の平均平方誤差を最小化することであり、反復グラジエントバックプロパゲーションアルゴリズムを適用する。このアルゴリズムは、本明細書の付録２に詳細が記述され、異なるバイアスの最適値と、ネットワークのシナプス重みとを用いた高速収束を可能にする。

本発明はまた、オブジェクトイメージ内の興味のある少なくとも２つのポイントを位置決めする方法に関する。本方法は、
人工ニューラルネットワークを実現するレイヤ状のアーキテクチャのインプットにおいて前記オブジェクトイメージを表すことと、
複数のニューロンを備え、前記オブジェクトイメージのうち興味のある予め定められた異なるポイントにそれぞれ関連付けられた少なくとも２つの特徴マップの生成と、前記第１の中間レイヤの全てのニューロンにそれぞれ接続された複数のニューロンを備える前記特徴マップを備える少なくとも１つのアウトプットレイヤの生成とを可能にする第１の中間レイヤと呼ばれる少なくとも１つの中間レイヤを連続的にアクティベートすることと、
前記特徴マップにおいて、前記マップの各々の全体における唯一の最大値の位置を探索することによって、前記オブジェクトイメージ内の前記興味のあるポイントを位置決めすることとを有する各ステップを備える。

本発明の有利な特徴に従って、この種の位置決め方法は、
あらゆるイメージにおいて、前記オブジェクトを含み、前記オブジェクトイメージを構成するゾーンを検出することと、
前記オブジェクトイメージをリサイズすることと
を有する予備ステップを備える。

この検出は、当業者に周知な、例えば、複雑なイメージ内の顔を含むボックスを判定するために使用可能な顔検出器のような古典的検出器から行うことができる。リサイズは、検出器によって自動的に、あるいは、同じサイズの全てのイメージが、ニューラルネットワークのインプットにおいて与えられることを可能にする専用手段によって独立して行われ得る。

本発明はまた、プロセッサによって実行された場合、上述したニューラルネットワークのための学習方法を実行するプログラムコード命令を備えるコンピュータプログラムのみならず、プロセッサによって実行された場合、上述したようなオブジェクトイメージ内の興味のある少なくとも２つのポイントを位置決めする方法を実行するプログラムコード命令を備えるコンピュータプログラムに関する。

そのようなプログラムは、通信ネットワーク（例えば、インターネットワールドワイドネットワーク）からダウンロードされるか、および／あるいは、コンピュータ読取可能データキャリアに格納することができる。

本発明の他の特徴及び利点は、例示的で限定しない例によって与えられた好ましい実施形態の以下の記述から、及び、添付図面からより明らかになるものとする。

本発明の一般的な原理は、オブジェクトイメージ（更に詳しくは、半リジットなオブジェクト）、特に、顔のイメージにおいて興味のある幾つかのポイントの自動検出（目、鼻、又は口のような不変の特徴の検出）を可能にするニューラルアーキテクチャの使用に依存する。更に詳しくは、本発明の原理は、１つの動作で、オブジェクトイメージを幾つかの特徴マップに変換することを学習することが可能となるニューラルネットワークを構築することにある。特徴マップについては、最大値の位置が、インプットにおいて与えられたオブジェクトイメージ内のユーザによって選択される興味のあるポイントの位置に対応する。

このニューラルアーキテクチャは、ロバストな低レベル検出器の自動開発を可能にし、同時に、検出された要素のもっともらしい相対的な構成を管理するために使用される規則の学習のために備え、そして、もしあれば、利用可能な何れかの情報が、隠れた要素を位置決めするために考慮されることを可能にする幾つかの異質のレイヤからなる。

ニューロンの全ての結合重みは、学習段階の間、予めセグメント化されたオブジェクトイメージのセットから、及び、これらイメージ内の興味のあるポイントの位置から設定される。

その後、ニューラルアーキテクチャは、より大きなサイズのイメージで、又は、ビデオシーケンスで予備的に検出されるオブジェクトを含むイメージゾーンの、その要素が−１〜１との間の範囲にあるインプットイメージのサイズを有するデジタルマップのセットへの変換を可能にするフィルタのカスケードのように動作する。各マップは、興味のある特定のポイントに対応し、その位置は、値が最大値である要素の位置を求める簡単な探索によって識別される。

１つの顔イメージ上の幾つかの顔要素の検出に関し、本発明の典型的な実施形態をより具体的に記載するために、それは、本書の残り全体にわたって試みられる。しかしながら、もちろん本発明は、例えば、自動車の車体の要素や、ビルディングの設定のアーキテクチャルな特徴の検出のように、オブジェクトを表すイメージにおける興味のあるどのポイントの検出にも適用可能である。

顔イメージにおける物理的特性の検出に関し、本発明の方法は、恐らくは、要素を隠すことと、解像度、コントラスト、及び照明に関する高い不安定さを有するイメージ内に表れることとを含む変化した顔の表情を有する様々なポーズ（方向、半正面視）での、顔における顔要素のロバストな検出を可能にする。

７．１ニューラルアーキテクチャ
図１に示すように、本発明者らは、興味のあるポイントを位置決めするための本発明のシステムの人工的なニューラルネットワークのアーキテクチャを示す。そのような人工的なニューロンの動作原理は、その構造と同様に、本説明の不可欠な部分を形成する付録１に示される。この種のニューラルネットワークは、例えば、同様に付録１に記載されているマルチレイヤ認知タイプネットワークである。

このようなニューラルネットワークは、Ｅ，Ｃ₁，Ｓ₂，Ｃ₃，Ｎ₄，及びＲ₅として示される６つの相互に連結した異種混合レイヤからなる。このレイヤは、畳み込み演算及びサブサンプル演算の成功に由来する一連のマップを含む。それらの連続的かつ組み合わされた動作によって、これら異なるレイヤは、興味のあるポイントの位置が容易に判定されるアウトプットマップＲ_5mの生成に至るインプットにおいて表されるイメージにおいて、基本関数(primitives)を抽出する。

更に詳しくは、提案するアーキテクチャは、
インプットレイヤＥを備える。これは、Ｈが行数でありＬが列数であるＨ×Ｌのサイズのイメージマトリクスである網膜である。インプットレイヤＥは、同じサイズのイメージゾーンＨ×Ｌからなる要素を受け取る。グレーレベルにおけるニューラルネットワークのインプットにおいて表されるイメージの各ピクセルＰ_ij（Ｐ_ijは、０から２５５まで変化する）について、マトリクスＥの対応する要素はＥ_ij＝（Ｐ_ij−１２８）／１２８であり、値は、−１〜１との間で変化する。Ｈ＝５６及びＬ＝４６の値が選択される。従って、Ｈ×Ｌはまた、ニューラルネットワークのパラメータ化のために使用される学習ベースの顔イメージと、１又は複数の顔要素を検出することが望まれる顔イメージとのサイズでもある。このサイズは、より大きなサイズのイメージ又はビデオシーケンスから抽出する顔検出器のアウトプットにおいて、顔イメージから直接的に取得されるものである。それはまた、顔検出器による抽出後に顔イメージがリサイズされるサイズかもしれない。好ましくは、この種のリサイズは、顔の自然な大きさを維持する。
Ｃ_1iによって参照されるＮＣ₁個のマップによって構成される第１の畳み込みレイヤＣ₁。各マップＣ_1iは、インプットマップＥに結合されており（１０_i）、（付録１に示すように）複数の線形なニューロンを備えている。これらニューロンの各々は、図２に詳細を示すように、シナプスによって、マップＥ（受容フィールド）内のＭ₁×Ｍ₁の近隣要素のセットに結合される。これらのニューロンの各々は更にバイアスを受け取る。バイアスを加えたＭ₁×Ｍ₁のこれらのシナプスは、Ｃ_1iのニューロンのセットによって共有される。従って、各マップＣ_1iは、インプットマップＥ内において、バイアスによって増加されたＭ₁×Ｍ₁コア１１による畳み込み結果に対応する。この畳み込みは、例えば、イメージの方向付けられたコントラストラインのようなインプットマップ内のある低レベルな形状の検出器として特殊化する。従って、各マップＣ_1iは、畳み込みのエッジ効果を阻止するために、Ｈ₁×Ｌ₁のサイズとなる。ここで、Ｈ₁＝（Ｈ−Ｍ₁＋１）及びＬ₁＝（Ｌ−Ｍ₁＋１）となる。例えば、レイヤＣ₁は、ＮＮ₁×ＮＮ₁＝７×７のサイズの畳み込みコアを有する５０×４１のサイズのＮＣ₁＝４個のマップを含む。
ＮＳ２個のマップＳ_2jによって構成されるサブサンプリングレイヤＳ₂。各マップＳ_2jは、対応するマップＣ_1iに結合されている（１２_j）。マップＳ_2jの各ニューロンは、図２に詳細を例示するように、マップＣ_1i（受容フィールド）内のＭ₂×Ｍ₂近隣要素１３の平均を受け取る。各ニューロンは、この平均にシナプス重みを乗じ、それにバイアスを加える。最適値が学習段階において決定されるシナプス重みとバイアスは、各マップＳ_2jのニューロンのセットによって共有される。各ニューロンの出力は、Ｓ字関数への推移後に得られる。各マップＳ_2jは、Ｈ₂×Ｌ₂のサイズを有する。ここで、Ｈ₂＝Ｈ₁／Ｍ₂及びＬ₂＝Ｌ₁／Ｍ₂である。例えば、レイヤＳ₂は、ＮＮ₂×ＮＮ₂＝２×２のサブサンプリング１を有する２５×２０のサイズのＮＳ₂＝４個のマップを含む。
ＮＣ₃個のマップＣ_3Kからなる畳み込みレイヤＣ₃。各マップＣ_3Kは、サブサンプリングレイヤＳ₂のマップＳ_2jの各々に結合されている（１４_K）。マップＣ_3Kのニューロンは線形であり、これらニューロンの各々は、シナプスによって、マップＳ_2jの各々のＭ₃×Ｍ₃近隣要素１５のセットに結合される。それは更にバイアスを受け取る。マップあたりＭ₃×Ｍ₃のシナプスにバイアスＩを加えたものは、マップＣ_3Kのニューロンのセットによって共有される。マップＣ_3Kは、バイアスによって増加したコアＭ₃×Ｍ₃１５によるＮＣ₃個の畳み込みの総和の結果に一致する。これら畳み込みによって、インプットにおける寄与マップＣ_1iに関する抽出を組み合わせる際に、例えばコーナのような最も高レベルな特徴の抽出が可能となる。各マップＣ_3Kは、Ｈ₃×Ｌ₃のサイズを有する。ここでＨ₃＝（Ｈ₂−Ｍ₃＋１）及びＬ₃＝（Ｌ₂−Ｍ₃＋１）である。例えば、レイヤＣ₃は、ＮＮ₃×ＮＮ₃＝５×５のサイズを有する畳み込みコアを備える、２１×１６のサイズを有するＮＣ₃＝４個のマップを含む。
ＮＮ₄個のＳ字状ニューロンＮ_4lからなるレイヤＮ₄。レイヤＮ₄の各ニューロンは、レイヤＣ₃の全てのニューロンに結合され（１６_i）、バイアスを受け取る。これらニューロンＮ_4lは、マップＣ₃の全体を考慮しながら、これらマップの各々における興味のあるポイントの位置に関する応答を最大にする際、アウトプットマップＲ_5mの生成を学習するために使用される。これによって、他の検出を考慮する際に、興味のある特定のポイントを検出することが可能となる。選択された値は、例えば、ＮＮ₄＝１００個のニューロンであり、ハイパボリックタンジェント関数（ｔｈ又はｔａｎｈと称される）が、Ｓ字ニューロンの伝達関数のために選択される。
ユーザによって選択される興味のある各ポイント（右目、左目、鼻、口等）のためＮＲ₅個のマップＲ_5mによって構成されたマップのレイヤＲ₅。各マップＲ_5mは、レイヤＮ₄の全てのニューロンに結合されている。マップＲ_5mのニューロンは、Ｓ字状であり、それぞれが、レイヤＮ₄の全てのニューロンに結合されている。各マップＲ_5mは、Ｈ×Ｌのサイズを有する。これは、インプットレイヤＥのサイズである。例として選ばれた値は、５６×４６のサイズを有するＮＲ₅＝４個のマップであり、ニューラルネットワークの起動後、各マップＲ_5mにおいて最大のアウトプットを有するニューロン１７₁，１７₂，１７₃，１７₄の位置は、ネットワークのインプットにおいて表されたイメージ内の対応する顔要素の位置に対応する。本発明の実施形態の一つの変形例では、レイヤＲ₅は、イメージ内で位置決めされる興味のある全てのポイントが表される特徴マップを１つのみ有することが注目される。

図２は、２×２のサブサンプリング１３からなるマップＳ_2jが後に続く５×５畳み込み１１のマップＣ_1iを例示する。エッジ効果を阻止するために、実行される畳み込みは、マップＣ_1iのエッジ上に位置するピクセルを考慮しないことが注目され得る。

顔イメージにおける興味のあるポイントを検出できるために、後述する学習段階中に、図１のニューラルネットワークをパラメータ化する必要がある。

７．２イメージベースからの学習
上述したレイヤ状のニューラルアーキテクチャの構成後、学習によって、このアーキテクチャの全てのニューロンのシナプスの重みを調節できるように注釈イメージの学習ベースが構築される。

これを行うために、下記の処理が行われる。

第一に、顔のイメージのセットＴが、イメージの大型サイズの体からマニュアル抽出される。顔イメージはそれぞれ、好ましくは、顔の自然な特徴を維持したまま、Ｈ×ＬのサイズのニューラルアーキテクチャのインプットレイヤＥにリサイズされる。様々な外観の顔イメージが抽出されることがわかる。

顔において興味のある４つのポイント（特に、右目、左目、鼻、及び口）の検出に注目する具体的な実施形態では、目、鼻、及び、口の中心位置は、図３ａに例示するようにマニュアルで識別される。従って、位置決めのためにニューラルネットワークが学習しなければならない興味のあるポイントの機能として注釈されるイメージのセットが得られる。イメージにおいて位置決めされる興味のあるこれらのポイントは、ユーザによって自由に選択され得る。

更に変化する例を自動的に生成するために、注釈位置のみならず、これらイメージに対しても、例えば、列ワイズの変換及び行ワイズの変換（例えば、左、右、上、及び下へ最大６ピクセル）、イメージ中心に対して−２５°から＋２５°角度を変化させる回転、顔のサイズに対して０．８〜１．２倍の後方ズーム及び前方ズームのような変換セットが適用される。このようにして、所与のイメージから、図３ｂに示すように、変換された複数のイメージが得られる。顔のイメージに適用されるこれらバリエーションは、学習段階において、顔の可能な外観のみならず、顔の自動検出中に起こり得るセンタリング誤差をも考慮するために使用することができる。

このセットＴは学習セットと呼ばれる。

例えば、左目、右目、鼻、及び、口の中心位置の関数としてマニュアルで注釈された顔の、約２，５００イメージの学習ベースを使用することが可能である。これら注釈されたイメージ（変換、回転、ズーム等）に対して幾何学的な変形を加えた後、注釈された顔の例が約３２，０００得られ、高い可変性を示す。

したがって、ニューラルアーキテクチャのバイアスとシナプスの重みのセットが、自動的に学習される。この目的のために、第一に、ニューロンのセットのシナプス重みとバイアスとが、ランダムに、小さな値に初期化される。次いで、セットＴのＮ_T個のイメージＩが、ニューラルネットワークのインプットレイヤＥにおいて、無指定順に表される。表されたイメージＩのそれぞれについて、演算が最適であれば、ニューラルネットワークが、レイヤＲ₅において提供しなければならないアウトプットマップＤ_5mが準備される。これらマップＤ_5mは、所望のマップと称される。

これらマップＤ_5mの各々では、ポイントのセットの値は、その位置が、マップＤ_5mが位置決め可能なように再現し、その所望の値が１である顔要素の位置と一致するポイントに対する場合を除いて、−１に固定される。これらマップＤ_5mは、図３ａに例示される。ここで各ポイントは、値＋１を有するポイントに対応し、その位置は、位置決めされる顔要素（右目、左目、鼻、又は、口の中心）の位置に対応する。

一旦マップＤ_5mが準備されると、ニューラルネットワークのレイヤＣ₁，Ｓ₂，Ｃ₃，Ｎ₄，及びＲ₅とインプットレイヤＥとが、互いにアクティベートする。

そして、レイヤＲ₅において本発明者らは、イメージＩに対するニューロンネットワークの応答を得る。この目的は、所望のマップＤ_5mと同じマップＲ_5mを得ることである。従って本発明者らは、この目的を達成するために、最小化される目的関数を定義する。

ここで、（ｉ，ｊ）は、各マップＲ_5mの行ｉ及び列ｊにおける要素に対応する。従って、行われることは、学習セットＴの注釈マップセットに関して生成されたマップＲ_5mと所望のマップＤ_5mとの間の平均平方誤差を最小化することである。

目的関数Ｏを最小化するために、反復グラジエントバックプロバゲーションアルゴリズム(iterative gradient backpropagation algorithm)が使用される。このアルゴリズムの原理は、本説明の不可欠な部分である付録２で説明されている。このようにして、この種のグラジエントバックプロバゲーションアルゴリズムは、ネットワークのニューロンセットの全てのシナプス重み及び最適バイアスを決定するために使用することができる。

例えば、グラジエントバックプロバゲーションアルゴリズムにおいて以下のパラメータを使用することができる。
レイヤＣ₁，Ｓ₂，Ｃ₃のニューロンのための０．００５学習ステップ、
レイヤＮ₄のニューロンのための０．００１学習ステップ、
レイヤＲ₅のニューロンのための０．０００５学習ステップ、
アーキテクチャのニューロンのための０．２のモーメンタム。

したがって、グラジエントバックプロバゲーションアルゴリズムは、アルゴリズムの１つの反復が、学習セットＴの全てのイメージの表示と一致すると認められる場合、２５回の反復後、安定解に収束する。

バイアス及びシナプス重みの最適値が一旦決定されると、図１のニューラルネットワークは、学習セットＴのイメージ内の興味のある注釈ポイントを抽出するために、無指定のデジタル顔イメージを処理する準備ができる。

７．３イメージ内の興味のあるポイントの探索
今後は、顔イメージにおいて顔要素を探索するために、学習段階において設定した図１のニューラルネットワークを使用することが可能である。この種の位置決めを実行するために使用される方法が図４に示される。

本発明者らは、顔検出器を用いることによって、イメージ４６内に表される顔４４および４５を検出する（４０）。この顔検出器は、顔４４、４５の各々の内部を含むボックスを位置決めする。顔要素に対する探索がなされ、各ボックスに含まれるイメージのゾーンが抽出されて（４１）、顔４７、４８のイメージが構成される。

抽出された各顔イメージＩ４７，４８は、サイズＨ×Ｌにリサイズされ（４１）、図１のニューラルアーキテクチャのインプットＥに供される。インプットレイヤＥ、中間レイヤＣ₁，Ｓ₂，Ｃ₃，Ｎ₄、及びアウトプットレイヤＲ₅は、ニューラルアーキテクチャによるイメージＩ４７，４８のフィルタリング４２を行うために、互いにアクティベートされる。

レイヤＲ₅では、ニューラルネットワークからイメージＩ４７，４８への応答が、イメージＩ４７，４８の各々に対し、４つの特徴マップＲ_5mの形態で取得される。

したがって、各特徴マップＲ_5mにおいて最大値を探索することによって、顔イメージＩ４７，４８における興味のあるポイントが位置決めされる（４３）。更に詳しくは、マップＲ_5mの各々において、ｍ∈ＮＲ₅の場合、

になるように、位置

に対する探索がなされる。この位置は、このマップに対応する興味のあるポイント（例えば、右目）の要求位置に相当する。

本発明の好ましい実施形態では、顔は、Ｃ．Ｇａｒｃｉａ及びＭ．Ｄｅｌａｋｉｓによって２００４年１１月に「ＣｏｎｖｏｌｕｔｉｏｎａｌＦａｃｅＦｉｎｄｅｒ：ａＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅｆｏｒＦａｓｔａｎｄＲｏｂｕｓｔＦａｃｅＤｅｔｅｃｔｉｏｎ」ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２６（１１）：１４０８−１４２２で著された顔検出器ＣＦＦによって、イメージ４６内で検出される（４０）。

この種の顔ファインダは、確かに、複雑な背景シーン及び光の変化形態において、最小サイズ２０×２０、最大±２５度までの勾配、最大±６０度までの回転からなる顔のロバストな検出のために使用される。ＣＦＦファインダが、検出された顔４７、４８を含むボックスを決定し（４０）、このボックスの内部が抽出され、次いでＨ＝５６及びＬ＝４６を有するサイズにリサイズされる（４１）。したがって、各イメージは、図１のニューラルネットワークのインプットで表される。

図１の位置決め方法は、イメージ内に存在する顔の高い変動性に関し、特に高いロバスト性を有する。

図５に示すように、本発明者らは、オブジェクトイメージにおいて興味のあるポイントを位置決めするためのシステム又はデバイスの簡略ブロック図を示す。そのようなシステムは、メモリＭ５１と、コンピュータプログラムＰｇ５２によって駆動されるプロセッサμＰを備えた処理ユニット５０とを備える。

第１の学習段階では、処理ユニット５０が、インプットにおいて、学習している顔イメージのセットＴを受け取る。これは、本システムがイメージ内で位置決めできる興味あるポイントに従って注釈される。このセットから、マイクロプロセッサμＰは、プログラムＰｇ５２の命令に従って、ニューラルネットワークのシナプス重みとバイアスの値を最適化するために、グラジエントバックプロパゲーションアルゴリズムを適用する。

したがって、これらの最適値５４は、メモリＭ５１に格納される。

興味あるポイントを探索する第２段階では、シナプス重み及びバイアスの最適値がメモリＭ５１からロードされる。処理ユニット５０は、インプットにおいて、オブジェクトイメージＩを受け取る。このイメージから、プログラムＰｇ５２の命令に従って動作するマイクロプロセッサμＰは、ニューラルネットワークによるフィルタリングを行い、アプトプットにおいて取得された特徴マップにおける最大値を探索する。処理ユニット５０のアウトプットでは、イメージＩ内で求められる興味あるポイントの各々のための座標５３が取得される。

本発明を通じて検出された興味あるポイントの位置に基づいて、例えば、モデルによる顔の符号化、局部変形によって固定された顔イメージの合成アニメーション、特徴的機能（目、鼻、口）の局所分析に基づく形状認識又は感情認識の方法、及び、更に詳しくは、（ユーザが見ている、読唇等している方向に従った）人工的なビジョンを用いたマンマシンインタラクション(man-machine interaction)のような多くのアプリケーションが可能となる。

付録１：人工ニューロン及び多層パーセプトロンニューラルネットワーク
１．一般的ポイント
多層パーセプトロンは、インプットレイヤからアウトプットレイヤへ情報が１方向のみに移動するレイヤ内で体系化された人工ニューロンの適応ネットワークである。図６は、インプットレイヤ６０、２つの隠蔽レイヤ６１および６２、及びアウトプットレイヤ６３を含むネットワークの一例を示す。インプットレイヤＣは、システムのインプットに関連したバーチャルレイヤを常に表す。それはニューロンを含んでいない。次のレイヤ６１〜６３は、ニューラルレイヤである。概して多層パーセプトロンは、任意の数のレイヤを有し、レイヤ毎に任意の数のニューロン（又はインプット）を有することができる。

図６に示す例では、ニューラルネットワークは３つのインプット、第１の隠蔽レイヤ６１上の４つのニューロン、第２のレイヤ６２上の３つのニューロン、アウトプットレイヤ６３上の４つのニューロンを有する。最終レイヤ６３のニューロンのアウトプットは、システムのアウトプットに相当する。

人工ニューロンは、重み（実際の値ｗ_j）を有し、実際の値ｙにおいてアウトプットを提供するシナプスの条件によって、インプット信号（Ｘ、実際の値のベクトル）を受け取る計算ユニットである。図７は、その動作が、以下に示すパラグラフ§２に記載されているこの種の人工ニューロンの構造を示す。

図６のネットワークのニューロンは、重み付けられたシナプス結合によってレイヤからレイヤまで互いに接続される。ネットワークの動作を司り、非線形変換によってインプット空間からアウトプット空間へアプリケーションを「プログラム」するのがそれら結合の重みである。従って、問題を解決するために多層パーセプトロンを生成することは、所望のインプットベクトルとアウトプットベクトルとのペアによって構成される学習データのセットによって定義されるように、最も可能性の高いアプリケーションを推測することを必要とする。

２．人工ニューロン
上述したように、人工ニューロンは、Ｘ₀＝＋１に等しい固定値と同様に、ベクトルＸ、ｎ個の実際の値からなるベクトル［ｘ₁，．．，ｘ_i，．．，ｘ_n］を受け取る計算ユニットである。

インプットｘ_iの各々は、ｗ_iによって重み付けられるシナプスを励起する。加算ユニット７０は、アクティベーション関数

を通過した後、実際の値ｙを用いてアウトプットを与えるポテンシャルＶを計算する。ポテンシャルＶは、

のように与えられる。量ｗ₀ｘ₀はバイアスと呼ばれ、ニューロンの閾値に相当する。アウトプットｙは、

の形式で表現することができる。
関数

は、目的とするアプリケーションに応じて異なる形式をとることができる。興味あるポイントを位置決めする方法に関し、２タイプのアクティベーション関数が使用される。
線形アクティベーション関数を有するニューロンの場合、本発明者らは、

を採用する。これは、例えば、図１のネットワークのレイヤＣ₁及びレイヤＣ₃のニューロンを伴う場合である。
Ｓ字状の非線形アクティベーション関数を有するニューロンの場合、本発明者らは、例えば、その特性曲線が図８に例示されるように、−１〜１との間で実際の値を有するハイパボリックタンジェント関数

を選択する。これは、例えば、図１のネットワークのレイヤＳ₂，Ｎ₄，及びＲ₅のニューロンの場合である。

付録２：グラジエントバックプロバゲーションアルゴリズム
本書で上述したように、ニューラルネットワーク学習プロセスは、所望のアウトプットのベクトルＤを、インプットベクトルＸの関数として得ることができるように、シナプス条件の全ての重みを決定することにある。この目的のために、Ｋ個の対応するインプット／アウトプットペア（Ｘ_k，Ｄ_k）のリストからなる学習ベースが構成される。

インプットＸ_kのためのインスタントｔにおいて取得されるネットワークのアウトプットをＹ_kで示すと、アウトプットレイヤの平均平方誤差を最小にすることが要求される。

これを行うために、反復アルゴリズムによってグラジエント降下が行われる。

は、ネットワークのＰ個のシナプス結合重みのセットに関するインスタント（ｔ−１）における平均平方誤差のグラジエントである。ここでρは学習ステップである。

ニューラルネットワークにおけるこのグラジエント降下ステップの実施には、グラジエントバックプロパゲーションアルゴリズムを必要とする。

ニューラルネットワークを考慮する。ここでは、
ｃ＝０は、インプットレイヤのインデックスである。
ｃ＝１．．Ｃ−１は、中間レイヤのインデックスである。
ｃ＝Ｃは、アウトプットレイヤのインデックスである。
ｉ＝１〜ｎ_cは、ｃとインデックスされたレイヤのニューロンのインデックスである。
Ｓ_i,cは、ｃとインデックスされたレイヤのニューロンｉのインプットに結合され、ｃ−１とインデックスされたレイヤのニューロンのセットである。
ｗ_j,iは、ニューロンｊからニューロンｉへと伸びるシナプス結合の重みである。

グラジエントバックプロパゲーションアルゴリズムは、フォワードプロパゲーションとバックプロパゲーションとからなるステップである２つの連続するステップにおいて動作する。
プロパゲーションステップの間、インプット信号Ｘ_kは、ニューラルネットワークを通過し、アウトプット応答Ｙ_kをアクティベートする。
バックプロパゲーションの間、誤り信号Ｅ_kがネットワーク内でバックプロパゲートされ、シナプス重みが誤りＥ_kを最小にするように修正され得る。

更に詳しくは、そのようなアルゴリズムは以下のステップを備える。
学習ステップρを、十分小さな正の値（０．００１のオーダ）に固定する。
モーメンタムαを、０〜１との間（０．２のオーダ）の正の値に固定する。
ネットワークのシナプス重みをランダムに小さな値にリセットする。

反復
偶数パリティの例（Ｘ_k，Ｄ_k）を選択する。

プロパゲーション：レイヤのオーダでニューロンのアウトプットを計算する。
例Ｘ_kをインプットレイヤ：Ｙ₀＝Ｘ_Kにロードし、

を割り当てる。
レイヤについて１からＣまで、
レイヤｃの各ニューロンｉについて（ｉは、１からｎ_c）、
ポテンシャル

及びアウトプットを計算する。ここで、

である。

バックプロバゲーション：レイヤの反対順に計算する。
レイヤについてＣから１まで、
レイヤｃの各ニューロンｉについて（ｉは、１からｎ_c）、

を計算する。ここで、

である。
ニューロンｉにおいて到着するシナプスの重みを更新する。

ここで、ρは学習ステップであり、αはモーメンタムである
（第１の反復の間、

）。

Ｅ＜εまで、又は、最大反復回数に達するまで平均平方誤差Ｅを計算する（式１を比較）。

本発明のオブジェクトイメージにおいて興味のあるポイントを位置決めするシステムのニューラルアーキテクチャのブロック図である。図１のニューラルアーキテクチャ内のサブサンプリングマップに続く畳み込みマップのより正確な実例を与える。学習ベースの顔イメージの２〜３の例を示す。学習ベースの顔イメージの２〜３の例を示す。本発明に従って顔イメージにおける顔要素を位置決めする方法の主要ステップを記述している。本発明の位置決めシステムの簡略ブロック図である。マルチレイヤパーセプトロンタイプの人工ニューラルネットワークの一例である。人工ニューロン構造のより正確な実例を与える。Ｓ字状のニューロンのための伝達関数として使用されるハイパボリックタンジェント関数の特性を示す。

Claims

オブジェクトイメージにおいて興味ある少なくとも２つのポイントを位置決めするシステムであって、人工ニューラルネットワークを適用し、レイヤ状のアーキテクチャを示し、前記システムは、
前記オブジェクトイメージを受け取るインプットレイヤ（Ｅ）と、
第１の中間レイヤと称され、前記オブジェクトイメージのうち興味のある予め定められた別個のポイントにそれぞれ関連付けられた少なくとも２つの特徴マップ（Ｒ_5m）の生成を可能にする複数のニューロン（Ｎ_4l）を備える少なくとも１つの中間レイヤ（Ｎ₄）と、
前記特徴マップ（Ｒ_5m）を備える少なくとも１つのアウトプットレイヤ（Ｒ₅）とを備え、
前記特徴マップは、それぞれ前記第１の中間レイヤの全てのニューロンに結合された複数のニューロンを備え、
前記興味あるポイントは、前記特徴マップの各々において全体における唯一の最大値の位置（１７₁，１７₂，１７₃，１７₄）によって、前記オブジェクトイメージ内で位置決めされる、システム。
前記オブジェクトイメージは顔イメージであることを特徴とする、請求項１に記載の位置決めシステム。
複数のニューロン（Ｃ_1i，Ｃ_3k）を備える少なくとも１つの第２の中間畳み込みレイヤ（Ｃ₁，Ｃ₃）を更に備えることを特徴とする、請求項１及び２のいずれか一項に記載の位置決めシステム。
複数のニューロン（Ｓ_2j）を備える少なくとも１つの第３のサブサンプリング中間レイヤ（Ｓ₂）を更に備えることを特徴とする、請求項１〜３のいずれか一項に記載の位置決めシステム。
前記インプットレイヤ（Ｅ）と前記第１の中間レイヤ（Ｎ₄）との間に、
複数のニューロン（Ｃ_1i）を備え、前記オブジェクトイメージにおける少なくとも１つのエレメンタリ・ラインタイプ形状を検出することが可能であり、畳み込みオブジェクトイメージを提供する第２の中間畳み込みレイヤ（Ｃ₁）と、
複数のニューロン（Ｓ_2j）を備え、前記畳み込みオブジェクトイメージのサイズを低減することが可能であり、低減された畳み込みオブジェクトイメージを提供する第３の中間サブサンプリングレイヤ（Ｓ₂）と、
複数のニューロン（Ｃ_3k）を備え、前記低減された畳み込みオブジェクトイメージにおける少なくとも１つのコーナタイプ複雑形状を検出することが可能である第４の中間畳み込みレイヤ（Ｃ₃）と
を更に備えることを特徴とする、請求項１及び２のいずれか一項に記載の位置決めシステム。
システムのニューラルネットワークが、請求項１に記載のオブジェクトイメージにおける興味のある少なくとも２つのポイントを位置決めする学習方法であって、
前記ニューロンの各々は、シナプス重み（ｗ₁−ｗ_n）によって重み付けられた少なくとも１つのインプットと、バイアス（ｘ₀，ｗ₀）とを有し、
位置決めされる前記興味あるポイントの関数として注釈された複数のオブジェクトイメージを備える学習ベースを構築することと、
前記シナプス重み及び／又は前記バイアスを初期化することと
を含み、
前記学習ベースの注釈されたイメージの各々について、
前記イメージにおける前記少なくとも２つの注釈された予め定められた興味のあるポイントの各々から、アウトプット（Ｄ_5m）において、前記少なくとも２つの所望の特徴マップを準備し、
前記位置決めするシステムのインプットにおいて前記イメージを表し、前記アウトプット（Ｒ_5m）において提供される前記少なくとも２つの特徴マップを決定し、
前記シナプス重み（ｗ₁−ｗ_n）及び／又は最適バイアス（ｗ₀）を決定できるように、前記学習ベースの注釈されたイメージのセットにおけるアウトプットにおいて提供される（Ｒ_5m）前記所望の特徴マップ（Ｄ_5m）間の相違を最小化することと
を含む、方法。
前記最小化することは、アウトプット（Ｒ_5m）において提供された前記所望の特徴マップ（Ｄ_5m）間の平均平方誤差を最小化することであり、反復グラジエントバックプロパゲーションアルゴリズムを適用することを特徴とする、請求項６に記載の学習方法。
オブジェクトイメージにおいて少なくとも２つの興味のあるポイントを位置決めする方法であって、
人工ニューラルネットワークを実現するレイヤ状のアーキテクチャのインプットにおいて前記オブジェクトイメージを表すことと、
複数のニューロン（Ｎ_4l）を備え、前記オブジェクトイメージのうち興味のある予め定められた、別個のポイントにそれぞれ関連付けられた少なくとも２つの特徴マップ（Ｒ_5m）の生成と、前記第１の中間レイヤ（Ｎ₄）の全てのニューロンにそれぞれ結合された複数のニューロンを備える前記特徴マップ（Ｒ_5m）を備える少なくとも１つのアウトプットレイヤ（Ｒ₅）の生成とを可能にする第１の中間レイヤと称される少なくとも１つの中間レイヤ（Ｎ₄）を連続的にアクティベートすることと、
前記それぞれのマップの全体における唯一の最大値の位置（１７₁−１７₄）を前記特徴マップ（Ｒ_5m）から探索することによって、前記オブジェクトイメージにおける前記興味のあるポイントを位置決めすることと
を含む方法。
何れのイメージ（４６）においても、前記オブジェクトを含み、前記オブジェクトイメージ（４４，４５）を構成しているゾーンを検出すること（４０）と、
前記オブジェクトイメージをリサイズすること（４１）と
を有する予備ステップを備えることを特徴とする、請求項８に記載の位置決め方法。
プロセッサによって実行された場合、請求項６及び７の一項に記載のニューラルネットワークの学習方法を実行するためのプログラムコード命令を備えるコンピュータプログラム。
プロセッサによって実行された場合、請求項８及び９の一項に記載のオブジェクトイメージにおける興味ある少なくとも２つのポイントを位置決めする方法を実行するためのプログラムコード命令を備えるコンピュータプログラム。