JP2008536211A - ニューラルネットワークを実現するオブジェクトイメージにおいて興味のあるポイントを位置決めするシステム及び方法 - Google Patents

ニューラルネットワークを実現するオブジェクトイメージにおいて興味のあるポイントを位置決めするシステム及び方法 Download PDF

Info

Publication number
JP2008536211A
JP2008536211A JP2008503506A JP2008503506A JP2008536211A JP 2008536211 A JP2008536211 A JP 2008536211A JP 2008503506 A JP2008503506 A JP 2008503506A JP 2008503506 A JP2008503506 A JP 2008503506A JP 2008536211 A JP2008536211 A JP 2008536211A
Authority
JP
Japan
Prior art keywords
object image
interest
neurons
layer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008503506A
Other languages
English (en)
Inventor
ガルシア,クリストフ
デュフネ,ステファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2008536211A publication Critical patent/JP2008536211A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、オブジェクトイメージにおいて少なくとも2つの興味のあるポイントを位置決めするシステムに関する。本発明によれば、1つのそのようなシステムは、人工ニューラルネットワークを使用するとともに、前記オブジェクトイメージを受け取るインプットレイヤ(E)と、オブジェクトイメージ内の興味のある予め定められた異なるポイントにそれぞれ関連している少なくとも2つの特徴マップ(R5m)を生成するために使用することができる複数のニューロン(N4l)からなり、第1の中間レイヤとして知られている少なくとも1つの中間レイヤ(N4)と、第1の中間レイヤ内の全てのニューロンにそれぞれ結合される複数のニューロンを備える前述した特徴マップ(R5m)を含む少なくとも1つのアウトプットレイヤ(R5)とを備えるレイヤ状のアーキテクチャを有する。本発明によれば、興味のあるポイントが、特徴マップの各々において全体における唯一の最大の位置(171,172,173,174)によって、オブジェクトイメージ内で位置決めされる。

Description

本発明の分野は、静止画又は動画をデジタル処理する分野に関する。更に詳しくは、本発明は、デジタルイメージで表されるオブジェクトにおいて興味のある1又は複数のポイントを位置決めする技術に関する。
本発明は、例えば、限定される訳ではないが、瞳孔、目尻、鼻の頭、口、眉等のような、人の顔におけるデジタルな又はデジタル化されたイメージにおいて、物理的な特徴を検出する分野に関する。確かに、顔のイメージにおいて興味のあるポイントを自動検出することは、顔の分析における主な問題である。
当分野では、幾つかの既知技術がある。そのほとんどは、専用の、特化されたフィルタによって、顔の特定の特徴の各々を独立して探索及び検出することからなる。
使用されているほとんどの検出器は、顔のクロミナンスの分析に依存し、顔の画素が、その色に従って、皮膚又は顔の要素に属するものとしてラベル付けされる。
他の検出器は、コントラスト変化を用いる。この目的のために、光のグラジエントの分析に依存する輪郭検出が適用される。したがって、検出された異なる輪郭から、顔の要素の識別が試みられる。
他のアプローチは、各要素の統計モデルを用いて、相関性による探索を実行する。これらのモデルは、一般に、求められる各要素のイメージ(すなわち、固有の特徴)を用いる主成分分析(PCA)から構築される。
ある先行技術は、各要素の独立した検出を行う第1段階で決定された全ての候補位置に、幾何学的な顔モデルが適用される第2段階を実施する。第1段階で検出された要素は、候補位置の座標を形成し、モーファブル(morphable)になり得る幾何学モデルが、最良の座標を選択するために使用される。
最近の1つの方法は、古典的2段階スキーム(幾何学的規則の応用が続く顔要素に対する独立した探索を含む)以上に使用することが可能である。本方法は、アクティブ外観モデル(AAM)の使用に依存し、特に、D.Cristinacce及びT.Cootesによる「A comparison of shape constrained facial feature detectors」(Proceedings of the 6th International Conference on Automatic Face and Gesture Recognition 2004,Seoul,Korea,pp 375−380,2004)に記述されている。これは、アクティブな顔モデルを、イメージ内の顔と一致させることによって、また形状とテクスチャとを組み合わせた線形モデルのパラメータを適用することによって、顔要素の位置を予測することからなる。この顔モデルは、興味のあるポイントが、興味のあるポイントの位置を符号化するベクトルと、関連する顔の軽いテクスチャとに関して、主成分分析(PCA)によって注釈される顔から学習する。
これら様々な先行技術の主要な欠点は、顔イメージ、特にオブジェクトイメージに悪影響を与えるノイズの、顔における低ロバスト性である。
確かに、異なる顔要素を検出するために特別に設計された検出器は、例えば光過剰、又は光不足、側面光、下方光のような、イメージの極端な照明条件に耐えることはできない。また、イメージ品質の変化、特に、ビデオストリームから得られた(例えば、ウェブカム(webcam)によって得られた)か、又は、前の圧縮で行われた低解像度の場合に関し、低いロバスト性しか示さない。
更に、(皮膚の色のフィルタリングを適用する)クロミナンス分析に依存する方法は、光条件に敏感である。更に、グレーレベルのイメージに適用することができない。
興味のある異なるポイントの独立した検出に依存するこれら先行技術の別の欠点は、例えば、暗いメガネが着用されている場合の目や、顎鬚があり、あるいは、手によって隠されている口や、より一般的には、イメージの局部的な高い劣化がある場合のように、興味のあるポイントが隠されている場合、全く非効率的であることである。
いくつかの要素、又は、1つのみの要素の検出の失敗は、一般に、幾何学的な顔モデルのその後の使用によって修正されない。このモデルは、幾つかの候補位置から選択を行う必要がある場合のみ使用される。これは、前の段階で命令的に検出されているべきである。
これらの異なる欠点は、アクティブな顔に依存する方法において部分的に補償される。本方法は、形状及びテクスチャ情報を共に使用することによって、要素に対する一般的な探索を可能にする。しかしながら、これらの方法は、探索中、反復して決定されねばならない何百ものパラメータに依存する、時間のかかる不安定な最適化処理に依存し、特に長くて骨の折れる処理であるという別の欠点を有する。
更に、PCAによって生成された使用される統計モデルは線形であるので、イメージにおける全体的な変化、特に光の変化に関して低いロバスト性しか示さない。それらは、顔の隠された部分に関して低いロバスト性しか持たない。
本発明の目的は、特にこれら先行技術の欠点を克服することである。
更に詳しくは、本発明の目的は、位置決めする必要がある興味ある各ポイント、及びオブジェクトの各タイプに対して特有なフィルタの、時間を要しかつ骨の折れる開発を必要としないオブジェクトを表すイメージにおいて、興味のある幾つかのポイントを位置決めする技術を提供することである。
また、本発明の別の目的は、照明条件、色のバリエーション、部分的な隠れ等のように、イメージに悪影響を与える全てのノイズに関して特にロバストである位置決め技術を提案することである。
更に、本発明の別の目的は、イメージに部分的に悪影響を与える隠れを考慮し、隠されたポイントの位置の推測を可能にする技術を提供することである。
また、本発明の目的は、容易に適用でき、実施に費用がほとんどかからない技術を提供することである。
本発明の更に別の目的は、顔のイメージにおける顔要素の検出に特によく適した技術を提供することである。
本明細書で以下に説明するもの同様、これらの目的は、オブジェクトイメージにおいて興味のある少なくとも2つのポイントを位置決めし、人工的なニューラルネットワークを適用し、レイヤ状のアーキテクチャを示すシステムによって達成される。このシステムは、前記オブジェクトイメージを受け取るインプットレイヤと、第1の中間レイヤと称され、前記オブジェクトイメージのうち興味のある予め定められた別個のポイントにそれぞれ関連付けられた少なくとも2つの特徴マップの生成を可能にする複数のニューロンを備える少なくとも1つの中間レイヤと、それぞれが前記第1の中間レイヤの全てのニューロンに結合された複数のニューロンをそれら自体が備える特徴マップを備える少なくとも1つのアプトプットレイヤとを備える。
前記興味のあるポイントは、前記特徴マップの各々について、全体における唯一の最大値(unique overall maximum value)の位置によってオブジェクトイメージ内で位置決めされる。
従って、本発明は、オブジェクトを表すイメージにおいて興味のある幾つかのポイントを検出することに対する全く普通でかつ発明的なアプローチに基づいている。なぜなら、本発明は、最大値を求めるための簡単な探索によって、アプトプットにおける幾つかの特徴マップの生成を可能にし、位置決めされる興味のあるポイントの直接的な検出を可能にするニューラルレイヤアーキテクチャの使用を提案するからである。
従って、本発明は、オブジェクトイメージ全体において、ニューラルネットワークによって、興味のある異なるポイントの包括的な探索を提案し、特に、これらポイントのうち相対的な位置を考慮することを可能にするとともに、全体的又は部分的な隠れに関連する問題の解消を可能にする。
アウトプットレイヤは、それぞれが予め定められた別個の興味のあるポイントに関連付けられた少なくとも2つの特徴マップを備える。従って、各特徴マップを、興味のある特定のポイントに供することによって、同じイメージ内の興味のある幾つかのポイントを同時に探索することが可能となる。その後、このポイントは、各マップにおいて唯一の最大値を探索することにより位置決めされる。これは、興味のある全てのポイントに関連付けられた特徴マップ全体において幾つかの局部的な最大値を同時探索するよりも実施が簡単である。
更に、興味のある異なるポイントを検出するための専用のフィルタの設計及び開発はもはや不要である。これらフィルタは、予備的な学習段階の終了後に、ニューラルネットワークによって自動的に位置決めされる。
この種のニューラルアーキテクチャは更に、オブジェクトイメージの光に関して起こり得る問題に関し、従来技術よりもよりロバストであることを証明する。
この場合、「予め定められた興味のあるポイント」なる文言は、例えば、顔イメージの場合であれば目、鼻、口等、オブジェクトの顕著な要素を意味すると理解されることが明白であるに違いない。
従って、本発明は、イメージ内の輪郭ではなく、予め定められた識別された要素を探索することからなる。
有利な特性によれば、前記オブジェクトイメージは顔イメージである。そして、求められる興味あるポイントは、例えば、目、鼻、眉等のような不変の物理的特徴である。
有利なことに、この種の位置決めシステムはまた、複数のニューロンを備える少なくとも1つの第2の中間畳み込みレイヤを備える。そのようなレイヤは、例えば、オブジェクトイメージ内のコントラストラインのような低レベル要素の検出に特化することができる。
好ましくは、この種の位置決めシステムはまた、複数のニューロンを備える少なくとも1つの第3のサブサンプリング中間レイヤを備える。従って、作業が行われるイメージの大きさが低減される。
本発明の好ましい実施形態では、そのような位置決めシステムは、前記インプットレイヤと前記第1の中間レイヤとの間に、
複数のニューロンを備え、前記オブジェクトイメージ内の少なくとも1つのエレメンタリ・ラインタイプ(elementary line type)形状の検出を可能にする、畳み込まれたオブジェクトイメージを提供する第2の中間畳み込みレイヤと、
複数のニューロンを備え、前記畳み込まれたオブジェクトイメージのサイズの低減を可能にする、低減された畳み込まれたオブジェクトイメージを提供する第3の中間サブサンプリングレイヤと、
複数のニューロンを備え、前記低減された畳み込まれたオブジェクトイメージにおいて少なくとも1つのコーナタイプ複雑形状の検出を可能にする第4の中間畳み込みレイヤとを備える。
本発明はまた、本明細書に記載したように、オブジェクトイメージにおいて、興味のある少なくとも2つのポイントを位置決めするシステムのニューラルネットワークのための学習方法に関する。前記ニューロンの各々は、シナプス重み及びバイアスによって重み付けられた少なくとも1つのインプットを有する。このタイプの学習方法は、以下のステップを備える。すなわち、
位置決めされる前記興味のあるポイントの関数として注釈される複数のオブジェクトイメージを備える学習ベースを構築することと、
前記シナプス重み及び/又は前記バイアスを初期化することと、
前記学習ベースの注釈されたイメージの各々について、
前記イメージにおいて興味のある少なくとも2つの注釈され予め定められたポイントの各々から、アウトプットにおいて、前記少なくとも2つの所望の特徴マップを準備し、
前記位置決めシステムのインプットにおいて前記イメージを表して、アウトプットにおいて提供される少なくとも2つの特徴マップを決定し、
前記シナプス重み及び/又は前記最適なバイアスを決定できるように、前記学習ベースの前記注釈イメージの設定に関し、前記アウトプットにおいて提供される所望の特徴マップ間の相違を最小にすることとを備える。
従って、ユーザによってマニュアルで注釈された例に依存して、ニューラルネットワークは、オブジェクトイメージ内の興味のある、あるポイントを認識することを学習する。その後、ネットワークのインプットにおいて所与の任意のイメージ内においてそれらを位置決めすることができる。
有利なことに、前記最小にすることは、前記アウトプットにおいて提供された所望の特徴マップ間の平均平方誤差を最小化することであり、反復グラジエントバックプロパゲーションアルゴリズムを適用する。このアルゴリズムは、本明細書の付録2に詳細が記述され、異なるバイアスの最適値と、ネットワークのシナプス重みとを用いた高速収束を可能にする。
本発明はまた、オブジェクトイメージ内の興味のある少なくとも2つのポイントを位置決めする方法に関する。本方法は、
人工ニューラルネットワークを実現するレイヤ状のアーキテクチャのインプットにおいて前記オブジェクトイメージを表すことと、
複数のニューロンを備え、前記オブジェクトイメージのうち興味のある予め定められた異なるポイントにそれぞれ関連付けられた少なくとも2つの特徴マップの生成と、前記第1の中間レイヤの全てのニューロンにそれぞれ接続された複数のニューロンを備える前記特徴マップを備える少なくとも1つのアウトプットレイヤの生成とを可能にする第1の中間レイヤと呼ばれる少なくとも1つの中間レイヤを連続的にアクティベートすることと、
前記特徴マップにおいて、前記マップの各々の全体における唯一の最大値の位置を探索することによって、前記オブジェクトイメージ内の前記興味のあるポイントを位置決めすることとを有する各ステップを備える。
本発明の有利な特徴に従って、この種の位置決め方法は、
あらゆるイメージにおいて、前記オブジェクトを含み、前記オブジェクトイメージを構成するゾーンを検出することと、
前記オブジェクトイメージをリサイズすることと
を有する予備ステップを備える。
この検出は、当業者に周知な、例えば、複雑なイメージ内の顔を含むボックスを判定するために使用可能な顔検出器のような古典的検出器から行うことができる。リサイズは、検出器によって自動的に、あるいは、同じサイズの全てのイメージが、ニューラルネットワークのインプットにおいて与えられることを可能にする専用手段によって独立して行われ得る。
本発明はまた、プロセッサによって実行された場合、上述したニューラルネットワークのための学習方法を実行するプログラムコード命令を備えるコンピュータプログラムのみならず、プロセッサによって実行された場合、上述したようなオブジェクトイメージ内の興味のある少なくとも2つのポイントを位置決めする方法を実行するプログラムコード命令を備えるコンピュータプログラムに関する。
そのようなプログラムは、通信ネットワーク(例えば、インターネットワールドワイドネットワーク)からダウンロードされるか、および/あるいは、コンピュータ読取可能データキャリアに格納することができる。
本発明の他の特徴及び利点は、例示的で限定しない例によって与えられた好ましい実施形態の以下の記述から、及び、添付図面からより明らかになるものとする。
本発明の一般的な原理は、オブジェクトイメージ(更に詳しくは、半リジットなオブジェクト)、特に、顔のイメージにおいて興味のある幾つかのポイントの自動検出(目、鼻、又は口のような不変の特徴の検出)を可能にするニューラルアーキテクチャの使用に依存する。更に詳しくは、本発明の原理は、1つの動作で、オブジェクトイメージを幾つかの特徴マップに変換することを学習することが可能となるニューラルネットワークを構築することにある。特徴マップについては、最大値の位置が、インプットにおいて与えられたオブジェクトイメージ内のユーザによって選択される興味のあるポイントの位置に対応する。
このニューラルアーキテクチャは、ロバストな低レベル検出器の自動開発を可能にし、同時に、検出された要素のもっともらしい相対的な構成を管理するために使用される規則の学習のために備え、そして、もしあれば、利用可能な何れかの情報が、隠れた要素を位置決めするために考慮されることを可能にする幾つかの異質のレイヤからなる。
ニューロンの全ての結合重みは、学習段階の間、予めセグメント化されたオブジェクトイメージのセットから、及び、これらイメージ内の興味のあるポイントの位置から設定される。
その後、ニューラルアーキテクチャは、より大きなサイズのイメージで、又は、ビデオシーケンスで予備的に検出されるオブジェクトを含むイメージゾーンの、その要素が−1〜1との間の範囲にあるインプットイメージのサイズを有するデジタルマップのセットへの変換を可能にするフィルタのカスケードのように動作する。各マップは、興味のある特定のポイントに対応し、その位置は、値が最大値である要素の位置を求める簡単な探索によって識別される。
1つの顔イメージ上の幾つかの顔要素の検出に関し、本発明の典型的な実施形態をより具体的に記載するために、それは、本書の残り全体にわたって試みられる。しかしながら、もちろん本発明は、例えば、自動車の車体の要素や、ビルディングの設定のアーキテクチャルな特徴の検出のように、オブジェクトを表すイメージにおける興味のあるどのポイントの検出にも適用可能である。
顔イメージにおける物理的特性の検出に関し、本発明の方法は、恐らくは、要素を隠すことと、解像度、コントラスト、及び照明に関する高い不安定さを有するイメージ内に表れることとを含む変化した顔の表情を有する様々なポーズ(方向、半正面視)での、顔における顔要素のロバストな検出を可能にする。
7.1 ニューラルアーキテクチャ
図1に示すように、本発明者らは、興味のあるポイントを位置決めするための本発明のシステムの人工的なニューラルネットワークのアーキテクチャを示す。そのような人工的なニューロンの動作原理は、その構造と同様に、本説明の不可欠な部分を形成する付録1に示される。この種のニューラルネットワークは、例えば、同様に付録1に記載されているマルチレイヤ認知タイプネットワークである。
このようなニューラルネットワークは、E,C1,S2,C3,N4,及びR5として示される6つの相互に連結した異種混合レイヤからなる。このレイヤは、畳み込み演算及びサブサンプル演算の成功に由来する一連のマップを含む。それらの連続的かつ組み合わされた動作によって、これら異なるレイヤは、興味のあるポイントの位置が容易に判定されるアウトプットマップR5mの生成に至るインプットにおいて表されるイメージにおいて、基本関数(primitives)を抽出する。
更に詳しくは、提案するアーキテクチャは、
インプットレイヤEを備える。これは、Hが行数でありLが列数であるH×Lのサイズのイメージマトリクスである網膜である。インプットレイヤEは、同じサイズのイメージゾーンH×Lからなる要素を受け取る。グレーレベルにおけるニューラルネットワークのインプットにおいて表されるイメージの各ピクセルPij(Pijは、0から255まで変化する)について、マトリクスEの対応する要素はEij=(Pij−128)/128であり、値は、−1〜1との間で変化する。H=56及びL=46の値が選択される。従って、H×Lはまた、ニューラルネットワークのパラメータ化のために使用される学習ベースの顔イメージと、1又は複数の顔要素を検出することが望まれる顔イメージとのサイズでもある。このサイズは、より大きなサイズのイメージ又はビデオシーケンスから抽出する顔検出器のアウトプットにおいて、顔イメージから直接的に取得されるものである。それはまた、顔検出器による抽出後に顔イメージがリサイズされるサイズかもしれない。好ましくは、この種のリサイズは、顔の自然な大きさを維持する。
1iによって参照されるNC1個のマップによって構成される第1の畳み込みレイヤC1。各マップC1iは、インプットマップEに結合されており(10i)、(付録1に示すように)複数の線形なニューロンを備えている。これらニューロンの各々は、図2に詳細を示すように、シナプスによって、マップE(受容フィールド)内のM1×M1の近隣要素のセットに結合される。これらのニューロンの各々は更にバイアスを受け取る。バイアスを加えたM1×M1のこれらのシナプスは、C1iのニューロンのセットによって共有される。従って、各マップC1iは、インプットマップE内において、バイアスによって増加されたM1×M1コア11による畳み込み結果に対応する。この畳み込みは、例えば、イメージの方向付けられたコントラストラインのようなインプットマップ内のある低レベルな形状の検出器として特殊化する。従って、各マップC1iは、畳み込みのエッジ効果を阻止するために、H1×L1のサイズとなる。ここで、H1=(H−M1+1)及びL1=(L−M1+1)となる。例えば、レイヤC1は、NN1×NN1=7×7のサイズの畳み込みコアを有する50×41のサイズのNC1=4個のマップを含む。
NS2個のマップS2jによって構成されるサブサンプリングレイヤS2。各マップS2jは、対応するマップC1iに結合されている(12j)。マップS2jの各ニューロンは、図2に詳細を例示するように、マップC1i(受容フィールド)内のM2×M2近隣要素13の平均を受け取る。各ニューロンは、この平均にシナプス重みを乗じ、それにバイアスを加える。最適値が学習段階において決定されるシナプス重みとバイアスは、各マップS2jのニューロンのセットによって共有される。各ニューロンの出力は、S字関数への推移後に得られる。各マップS2jは、H2×L2のサイズを有する。ここで、H2=H1/M2及びL2=L1/M2である。例えば、レイヤS2は、NN2×NN2=2×2のサブサンプリング1を有する25×20のサイズのNS2=4個のマップを含む。
NC3個のマップC3Kからなる畳み込みレイヤC3。各マップC3Kは、サブサンプリングレイヤS2のマップS2jの各々に結合されている(14K)。マップC3Kのニューロンは線形であり、これらニューロンの各々は、シナプスによって、マップS2jの各々のM3×M3近隣要素15のセットに結合される。それは更にバイアスを受け取る。マップあたりM3×M3のシナプスにバイアスIを加えたものは、マップC3Kのニューロンのセットによって共有される。マップC3Kは、バイアスによって増加したコアM3×M315によるNC3個の畳み込みの総和の結果に一致する。これら畳み込みによって、インプットにおける寄与マップC1iに関する抽出を組み合わせる際に、例えばコーナのような最も高レベルな特徴の抽出が可能となる。各マップC3Kは、H3×L3のサイズを有する。ここでH3=(H2−M3+1)及びL3=(L2−M3+1)である。例えば、レイヤC3は、NN3×NN3=5×5のサイズを有する畳み込みコアを備える、21×16のサイズを有するNC3=4個のマップを含む。
NN4個のS字状ニューロンN4lからなるレイヤN4。レイヤN4の各ニューロンは、レイヤC3の全てのニューロンに結合され(16i)、バイアスを受け取る。これらニューロンN4lは、マップC3の全体を考慮しながら、これらマップの各々における興味のあるポイントの位置に関する応答を最大にする際、アウトプットマップR5mの生成を学習するために使用される。これによって、他の検出を考慮する際に、興味のある特定のポイントを検出することが可能となる。選択された値は、例えば、NN4=100個のニューロンであり、ハイパボリックタンジェント関数(th又はtanhと称される)が、S字ニューロンの伝達関数のために選択される。
ユーザによって選択される興味のある各ポイント(右目、左目、鼻、口等)のためNR5個のマップR5mによって構成されたマップのレイヤR5。各マップR5mは、レイヤN4の全てのニューロンに結合されている。マップR5mのニューロンは、S字状であり、それぞれが、レイヤN4の全てのニューロンに結合されている。各マップR5mは、H×Lのサイズを有する。これは、インプットレイヤEのサイズである。例として選ばれた値は、56×46のサイズを有するNR5=4個のマップであり、ニューラルネットワークの起動後、各マップR5mにおいて最大のアウトプットを有するニューロン171,172,173,174の位置は、ネットワークのインプットにおいて表されたイメージ内の対応する顔要素の位置に対応する。本発明の実施形態の一つの変形例では、レイヤR5は、イメージ内で位置決めされる興味のある全てのポイントが表される特徴マップを1つのみ有することが注目される。
図2は、2×2のサブサンプリング13からなるマップS2jが後に続く5×5畳み込み11のマップC1iを例示する。エッジ効果を阻止するために、実行される畳み込みは、マップC1iのエッジ上に位置するピクセルを考慮しないことが注目され得る。
顔イメージにおける興味のあるポイントを検出できるために、後述する学習段階中に、図1のニューラルネットワークをパラメータ化する必要がある。
7.2 イメージベースからの学習
上述したレイヤ状のニューラルアーキテクチャの構成後、学習によって、このアーキテクチャの全てのニューロンのシナプスの重みを調節できるように注釈イメージの学習ベースが構築される。
これを行うために、下記の処理が行われる。
第一に、顔のイメージのセットTが、イメージの大型サイズの体からマニュアル抽出される。顔イメージはそれぞれ、好ましくは、顔の自然な特徴を維持したまま、H×LのサイズのニューラルアーキテクチャのインプットレイヤEにリサイズされる。様々な外観の顔イメージが抽出されることがわかる。
顔において興味のある4つのポイント(特に、右目、左目、鼻、及び口)の検出に注目する具体的な実施形態では、目、鼻、及び、口の中心位置は、図3aに例示するようにマニュアルで識別される。従って、位置決めのためにニューラルネットワークが学習しなければならない興味のあるポイントの機能として注釈されるイメージのセットが得られる。イメージにおいて位置決めされる興味のあるこれらのポイントは、ユーザによって自由に選択され得る。
更に変化する例を自動的に生成するために、注釈位置のみならず、これらイメージに対しても、例えば、列ワイズの変換及び行ワイズの変換(例えば、左、右、上、及び下へ最大6ピクセル)、イメージ中心に対して−25°から+25°角度を変化させる回転、顔のサイズに対して0.8〜1.2倍の後方ズーム及び前方ズームのような変換セットが適用される。このようにして、所与のイメージから、図3bに示すように、変換された複数のイメージが得られる。顔のイメージに適用されるこれらバリエーションは、学習段階において、顔の可能な外観のみならず、顔の自動検出中に起こり得るセンタリング誤差をも考慮するために使用することができる。
このセットTは学習セットと呼ばれる。
例えば、左目、右目、鼻、及び、口の中心位置の関数としてマニュアルで注釈された顔の、約2,500イメージの学習ベースを使用することが可能である。これら注釈されたイメージ(変換、回転、ズーム等)に対して幾何学的な変形を加えた後、注釈された顔の例が約32,000得られ、高い可変性を示す。
したがって、ニューラルアーキテクチャのバイアスとシナプスの重みのセットが、自動的に学習される。この目的のために、第一に、ニューロンのセットのシナプス重みとバイアスとが、ランダムに、小さな値に初期化される。次いで、セットTのNT個のイメージIが、ニューラルネットワークのインプットレイヤEにおいて、無指定順に表される。表されたイメージIのそれぞれについて、演算が最適であれば、ニューラルネットワークが、レイヤR5において提供しなければならないアウトプットマップD5mが準備される。これらマップD5mは、所望のマップと称される。
これらマップD5mの各々では、ポイントのセットの値は、その位置が、マップD5mが位置決め可能なように再現し、その所望の値が1である顔要素の位置と一致するポイントに対する場合を除いて、−1に固定される。これらマップD5mは、図3aに例示される。ここで各ポイントは、値+1を有するポイントに対応し、その位置は、位置決めされる顔要素(右目、左目、鼻、又は、口の中心)の位置に対応する。
一旦マップD5mが準備されると、ニューラルネットワークのレイヤC1,S2,C3,N4,及びR5とインプットレイヤEとが、互いにアクティベートする。
そして、レイヤR5において本発明者らは、イメージIに対するニューロンネットワークの応答を得る。この目的は、所望のマップD5mと同じマップR5mを得ることである。従って本発明者らは、この目的を達成するために、最小化される目的関数を定義する。
Figure 2008536211
ここで、(i,j)は、各マップR5mの行i及び列jにおける要素に対応する。従って、行われることは、学習セットTの注釈マップセットに関して生成されたマップR5mと所望のマップD5mとの間の平均平方誤差を最小化することである。
目的関数Oを最小化するために、反復グラジエントバックプロバゲーションアルゴリズム(iterative gradient backpropagation algorithm)が使用される。このアルゴリズムの原理は、本説明の不可欠な部分である付録2で説明されている。このようにして、この種のグラジエントバックプロバゲーションアルゴリズムは、ネットワークのニューロンセットの全てのシナプス重み及び最適バイアスを決定するために使用することができる。
例えば、グラジエントバックプロバゲーションアルゴリズムにおいて以下のパラメータを使用することができる。
レイヤC1,S2,C3のニューロンのための0.005学習ステップ、
レイヤN4のニューロンのための0.001学習ステップ、
レイヤR5のニューロンのための0.0005学習ステップ、
アーキテクチャのニューロンのための0.2のモーメンタム。
したがって、グラジエントバックプロバゲーションアルゴリズムは、アルゴリズムの1つの反復が、学習セットTの全てのイメージの表示と一致すると認められる場合、25回の反復後、安定解に収束する。
バイアス及びシナプス重みの最適値が一旦決定されると、図1のニューラルネットワークは、学習セットTのイメージ内の興味のある注釈ポイントを抽出するために、無指定のデジタル顔イメージを処理する準備ができる。
7.3 イメージ内の興味のあるポイントの探索
今後は、顔イメージにおいて顔要素を探索するために、学習段階において設定した図1のニューラルネットワークを使用することが可能である。この種の位置決めを実行するために使用される方法が図4に示される。
本発明者らは、顔検出器を用いることによって、イメージ46内に表される顔44および45を検出する(40)。この顔検出器は、顔44、45の各々の内部を含むボックスを位置決めする。顔要素に対する探索がなされ、各ボックスに含まれるイメージのゾーンが抽出されて(41)、顔47、48のイメージが構成される。
抽出された各顔イメージI 47,48は、サイズH×Lにリサイズされ(41)、図1のニューラルアーキテクチャのインプットEに供される。インプットレイヤE、中間レイヤC1,S2,C3,N4、及びアウトプットレイヤR5は、ニューラルアーキテクチャによるイメージI 47,48のフィルタリング42を行うために、互いにアクティベートされる。
レイヤR5では、ニューラルネットワークからイメージI 47,48への応答が、イメージI 47,48の各々に対し、4つの特徴マップR5mの形態で取得される。
したがって、各特徴マップR5mにおいて最大値を探索することによって、顔イメージI 47,48における興味のあるポイントが位置決めされる(43)。更に詳しくは、マップR5mの各々において、m∈NR5の場合、
Figure 2008536211
になるように、位置
Figure 2008536211
に対する探索がなされる。この位置は、このマップに対応する興味のあるポイント(例えば、右目)の要求位置に相当する。
本発明の好ましい実施形態では、顔は、C.Garcia及びM.Delakisによって2004年11月に「Convolutional Face Finder:a Neural Architecture for Fast and Robust Face Detection」IEEE Transactions on Pattern Analysis and Machine Intelligence,26(11):1408−1422で著された顔検出器CFFによって、イメージ46内で検出される(40)。
この種の顔ファインダは、確かに、複雑な背景シーン及び光の変化形態において、最小サイズ20×20、最大±25度までの勾配、最大±60度までの回転からなる顔のロバストな検出のために使用される。CFFファインダが、検出された顔47、48を含むボックスを決定し(40)、このボックスの内部が抽出され、次いでH=56及びL=46を有するサイズにリサイズされる(41)。したがって、各イメージは、図1のニューラルネットワークのインプットで表される。
図1の位置決め方法は、イメージ内に存在する顔の高い変動性に関し、特に高いロバスト性を有する。
図5に示すように、本発明者らは、オブジェクトイメージにおいて興味のあるポイントを位置決めするためのシステム又はデバイスの簡略ブロック図を示す。そのようなシステムは、メモリM51と、コンピュータプログラムPg52によって駆動されるプロセッサμPを備えた処理ユニット50とを備える。
第1の学習段階では、処理ユニット50が、インプットにおいて、学習している顔イメージのセットTを受け取る。これは、本システムがイメージ内で位置決めできる興味あるポイントに従って注釈される。このセットから、マイクロプロセッサμPは、プログラムPg52の命令に従って、ニューラルネットワークのシナプス重みとバイアスの値を最適化するために、グラジエントバックプロパゲーションアルゴリズムを適用する。
したがって、これらの最適値54は、メモリM51に格納される。
興味あるポイントを探索する第2段階では、シナプス重み及びバイアスの最適値がメモリM51からロードされる。処理ユニット50は、インプットにおいて、オブジェクトイメージIを受け取る。このイメージから、プログラムPg52の命令に従って動作するマイクロプロセッサμPは、ニューラルネットワークによるフィルタリングを行い、アプトプットにおいて取得された特徴マップにおける最大値を探索する。処理ユニット50のアウトプットでは、イメージI内で求められる興味あるポイントの各々のための座標53が取得される。
本発明を通じて検出された興味あるポイントの位置に基づいて、例えば、モデルによる顔の符号化、局部変形によって固定された顔イメージの合成アニメーション、特徴的機能(目、鼻、口)の局所分析に基づく形状認識又は感情認識の方法、及び、更に詳しくは、(ユーザが見ている、読唇等している方向に従った)人工的なビジョンを用いたマンマシンインタラクション(man-machine interaction)のような多くのアプリケーションが可能となる。
付録1:人工ニューロン及び多層パーセプトロンニューラルネットワーク
1.一般的ポイント
多層パーセプトロンは、インプットレイヤからアウトプットレイヤへ情報が1方向のみに移動するレイヤ内で体系化された人工ニューロンの適応ネットワークである。図6は、インプットレイヤ60、2つの隠蔽レイヤ61および62、及びアウトプットレイヤ63を含むネットワークの一例を示す。インプットレイヤCは、システムのインプットに関連したバーチャルレイヤを常に表す。それはニューロンを含んでいない。次のレイヤ61〜63は、ニューラルレイヤである。概して多層パーセプトロンは、任意の数のレイヤを有し、レイヤ毎に任意の数のニューロン(又はインプット)を有することができる。
図6に示す例では、ニューラルネットワークは3つのインプット、第1の隠蔽レイヤ61上の4つのニューロン、第2のレイヤ62上の3つのニューロン、アウトプットレイヤ63上の4つのニューロンを有する。最終レイヤ63のニューロンのアウトプットは、システムのアウトプットに相当する。
人工ニューロンは、重み(実際の値wj)を有し、実際の値yにおいてアウトプットを提供するシナプスの条件によって、インプット信号(X、実際の値のベクトル)を受け取る計算ユニットである。図7は、その動作が、以下に示すパラグラフ§2に記載されているこの種の人工ニューロンの構造を示す。
図6のネットワークのニューロンは、重み付けられたシナプス結合によってレイヤからレイヤまで互いに接続される。ネットワークの動作を司り、非線形変換によってインプット空間からアウトプット空間へアプリケーションを「プログラム」するのがそれら結合の重みである。従って、問題を解決するために多層パーセプトロンを生成することは、所望のインプットベクトルとアウトプットベクトルとのペアによって構成される学習データのセットによって定義されるように、最も可能性の高いアプリケーションを推測することを必要とする。
2.人工ニューロン
上述したように、人工ニューロンは、X0=+1に等しい固定値と同様に、ベクトルX、n個の実際の値からなるベクトル[x1,..,xi,..,xn]を受け取る計算ユニットである。
インプットxiの各々は、wiによって重み付けられるシナプスを励起する。加算ユニット70は、アクティベーション関数
Figure 2008536211
を通過した後、実際の値yを用いてアウトプットを与えるポテンシャルVを計算する。ポテンシャルVは、
Figure 2008536211
のように与えられる。量w00はバイアスと呼ばれ、ニューロンの閾値に相当する。アウトプットyは、
Figure 2008536211
の形式で表現することができる。
関数
Figure 2008536211
は、目的とするアプリケーションに応じて異なる形式をとることができる。興味あるポイントを位置決めする方法に関し、2タイプのアクティベーション関数が使用される。
線形アクティベーション関数を有するニューロンの場合、本発明者らは、
Figure 2008536211
を採用する。これは、例えば、図1のネットワークのレイヤC1及びレイヤC3のニューロンを伴う場合である。
S字状の非線形アクティベーション関数を有するニューロンの場合、本発明者らは、例えば、その特性曲線が図8に例示されるように、−1〜1との間で実際の値を有するハイパボリックタンジェント関数
Figure 2008536211
を選択する。これは、例えば、図1のネットワークのレイヤS2,N4,及びR5のニューロンの場合である。
付録2:グラジエントバックプロバゲーションアルゴリズム
本書で上述したように、ニューラルネットワーク学習プロセスは、所望のアウトプットのベクトルDを、インプットベクトルXの関数として得ることができるように、シナプス条件の全ての重みを決定することにある。この目的のために、K個の対応するインプット/アウトプットペア(Xk,Dk)のリストからなる学習ベースが構成される。
インプットXkのためのインスタントtにおいて取得されるネットワークのアウトプットをYkで示すと、アウトプットレイヤの平均平方誤差を最小にすることが要求される。
Figure 2008536211
これを行うために、反復アルゴリズムによってグラジエント降下が行われる。
Figure 2008536211
は、ネットワークのP個のシナプス結合重みのセットに関するインスタント(t−1)における平均平方誤差のグラジエントである。ここでρは学習ステップである。
ニューラルネットワークにおけるこのグラジエント降下ステップの実施には、グラジエントバックプロパゲーションアルゴリズムを必要とする。
ニューラルネットワークを考慮する。ここでは、
c=0は、インプットレイヤのインデックスである。
c=1..C−1は、中間レイヤのインデックスである。
c=Cは、アウトプットレイヤのインデックスである。
i=1〜ncは、cとインデックスされたレイヤのニューロンのインデックスである。
i,cは、cとインデックスされたレイヤのニューロンiのインプットに結合され、c−1とインデックスされたレイヤのニューロンのセットである。
j,iは、ニューロンjからニューロンiへと伸びるシナプス結合の重みである。
グラジエントバックプロパゲーションアルゴリズムは、フォワードプロパゲーションとバックプロパゲーションとからなるステップである2つの連続するステップにおいて動作する。
プロパゲーションステップの間、インプット信号Xkは、ニューラルネットワークを通過し、アウトプット応答Ykをアクティベートする。
バックプロパゲーションの間、誤り信号Ekがネットワーク内でバックプロパゲートされ、シナプス重みが誤りEkを最小にするように修正され得る。
更に詳しくは、そのようなアルゴリズムは以下のステップを備える。
学習ステップρを、十分小さな正の値(0.001のオーダ)に固定する。
モーメンタムαを、0〜1との間(0.2のオーダ)の正の値に固定する。
ネットワークのシナプス重みをランダムに小さな値にリセットする。
反復
偶数パリティの例(Xk,Dk)を選択する。
プロパゲーション:レイヤのオーダでニューロンのアウトプットを計算する。
例Xkをインプットレイヤ:Y0=XKにロードし、
Figure 2008536211
を割り当てる。
レイヤについて1からCまで、
レイヤcの各ニューロンiについて(iは、1からnc)、
ポテンシャル
Figure 2008536211
及びアウトプットを計算する。ここで、
Figure 2008536211
である。
バックプロバゲーション:レイヤの反対順に計算する。
レイヤについてCから1まで、
レイヤcの各ニューロンiについて(iは、1からnc)、
Figure 2008536211
を計算する。ここで、
Figure 2008536211
である。
ニューロンiにおいて到着するシナプスの重みを更新する。
Figure 2008536211
ここで、ρは学習ステップであり、αはモーメンタムである
(第1の反復の間、
Figure 2008536211
)。
Figure 2008536211
E<εまで、又は、最大反復回数に達するまで平均平方誤差Eを計算する(式1を比較)。
本発明のオブジェクトイメージにおいて興味のあるポイントを位置決めするシステムのニューラルアーキテクチャのブロック図である。 図1のニューラルアーキテクチャ内のサブサンプリングマップに続く畳み込みマップのより正確な実例を与える。 学習ベースの顔イメージの2〜3の例を示す。 学習ベースの顔イメージの2〜3の例を示す。 本発明に従って顔イメージにおける顔要素を位置決めする方法の主要ステップを記述している。 本発明の位置決めシステムの簡略ブロック図である。 マルチレイヤパーセプトロンタイプの人工ニューラルネットワークの一例である。 人工ニューロン構造のより正確な実例を与える。 S字状のニューロンのための伝達関数として使用されるハイパボリックタンジェント関数の特性を示す。

Claims (11)

  1. オブジェクトイメージにおいて興味ある少なくとも2つのポイントを位置決めするシステムであって、人工ニューラルネットワークを適用し、レイヤ状のアーキテクチャを示し、前記システムは、
    前記オブジェクトイメージを受け取るインプットレイヤ(E)と、
    第1の中間レイヤと称され、前記オブジェクトイメージのうち興味のある予め定められた別個のポイントにそれぞれ関連付けられた少なくとも2つの特徴マップ(R5m)の生成を可能にする複数のニューロン(N4l)を備える少なくとも1つの中間レイヤ(N4)と、
    前記特徴マップ(R5m)を備える少なくとも1つのアウトプットレイヤ(R5)とを備え、
    前記特徴マップは、それぞれ前記第1の中間レイヤの全てのニューロンに結合された複数のニューロンを備え、
    前記興味あるポイントは、前記特徴マップの各々において全体における唯一の最大値の位置(171,172,173,174)によって、前記オブジェクトイメージ内で位置決めされる、システム。
  2. 前記オブジェクトイメージは顔イメージであることを特徴とする、請求項1に記載の位置決めシステム。
  3. 複数のニューロン(C1i,C3k)を備える少なくとも1つの第2の中間畳み込みレイヤ(C1,C3)を更に備えることを特徴とする、請求項1及び2のいずれか一項に記載の位置決めシステム。
  4. 複数のニューロン(S2j)を備える少なくとも1つの第3のサブサンプリング中間レイヤ(S2)を更に備えることを特徴とする、請求項1〜3のいずれか一項に記載の位置決めシステム。
  5. 前記インプットレイヤ(E)と前記第1の中間レイヤ(N4)との間に、
    複数のニューロン(C1i)を備え、前記オブジェクトイメージにおける少なくとも1つのエレメンタリ・ラインタイプ形状を検出することが可能であり、畳み込みオブジェクトイメージを提供する第2の中間畳み込みレイヤ(C1)と、
    複数のニューロン(S2j)を備え、前記畳み込みオブジェクトイメージのサイズを低減することが可能であり、低減された畳み込みオブジェクトイメージを提供する第3の中間サブサンプリングレイヤ(S2)と、
    複数のニューロン(C3k)を備え、前記低減された畳み込みオブジェクトイメージにおける少なくとも1つのコーナタイプ複雑形状を検出することが可能である第4の中間畳み込みレイヤ(C3)と
    を更に備えることを特徴とする、請求項1及び2のいずれか一項に記載の位置決めシステム。
  6. システムのニューラルネットワークが、請求項1に記載のオブジェクトイメージにおける興味のある少なくとも2つのポイントを位置決めする学習方法であって、
    前記ニューロンの各々は、シナプス重み(w1−wn)によって重み付けられた少なくとも1つのインプットと、バイアス(x0,w0)とを有し、
    位置決めされる前記興味あるポイントの関数として注釈された複数のオブジェクトイメージを備える学習ベースを構築することと、
    前記シナプス重み及び/又は前記バイアスを初期化することと
    を含み、
    前記学習ベースの注釈されたイメージの各々について、
    前記イメージにおける前記少なくとも2つの注釈された予め定められた興味のあるポイントの各々から、アウトプット(D5m)において、前記少なくとも2つの所望の特徴マップを準備し、
    前記位置決めするシステムのインプットにおいて前記イメージを表し、前記アウトプット(R5m)において提供される前記少なくとも2つの特徴マップを決定し、
    前記シナプス重み(w1−wn)及び/又は最適バイアス(w0)を決定できるように、前記学習ベースの注釈されたイメージのセットにおけるアウトプットにおいて提供される(R5m)前記所望の特徴マップ(D5m)間の相違を最小化することと
    を含む、方法。
  7. 前記最小化することは、アウトプット(R5m)において提供された前記所望の特徴マップ(D5m)間の平均平方誤差を最小化することであり、反復グラジエントバックプロパゲーションアルゴリズムを適用することを特徴とする、請求項6に記載の学習方法。
  8. オブジェクトイメージにおいて少なくとも2つの興味のあるポイントを位置決めする方法であって、
    人工ニューラルネットワークを実現するレイヤ状のアーキテクチャのインプットにおいて前記オブジェクトイメージを表すことと、
    複数のニューロン(N4l)を備え、前記オブジェクトイメージのうち興味のある予め定められた、別個のポイントにそれぞれ関連付けられた少なくとも2つの特徴マップ(R5m)の生成と、前記第1の中間レイヤ(N4)の全てのニューロンにそれぞれ結合された複数のニューロンを備える前記特徴マップ(R5m)を備える少なくとも1つのアウトプットレイヤ(R5)の生成とを可能にする第1の中間レイヤと称される少なくとも1つの中間レイヤ(N4)を連続的にアクティベートすることと、
    前記それぞれのマップの全体における唯一の最大値の位置(171−174)を前記特徴マップ(R5m)から探索することによって、前記オブジェクトイメージにおける前記興味のあるポイントを位置決めすることと
    を含む方法。
  9. 何れのイメージ(46)においても、前記オブジェクトを含み、前記オブジェクトイメージ(44,45)を構成しているゾーンを検出すること(40)と、
    前記オブジェクトイメージをリサイズすること(41)と
    を有する予備ステップを備えることを特徴とする、請求項8に記載の位置決め方法。
  10. プロセッサによって実行された場合、請求項6及び7の一項に記載のニューラルネットワークの学習方法を実行するためのプログラムコード命令を備えるコンピュータプログラム。
  11. プロセッサによって実行された場合、請求項8及び9の一項に記載のオブジェクトイメージにおける興味ある少なくとも2つのポイントを位置決めする方法を実行するためのプログラムコード命令を備えるコンピュータプログラム。
JP2008503506A 2005-03-31 2006-03-28 ニューラルネットワークを実現するオブジェクトイメージにおいて興味のあるポイントを位置決めするシステム及び方法 Pending JP2008536211A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0503177A FR2884008A1 (fr) 2005-03-31 2005-03-31 Systeme et procede de localisation de points d'interet dans une image d'objet mettant en oeuvre un reseau de neurones
PCT/EP2006/061110 WO2006103241A2 (fr) 2005-03-31 2006-03-28 Système et procédé de localisation de points d'intérêt dans une image d'objet mettant en œuvre un réseau de neurones

Publications (1)

Publication Number Publication Date
JP2008536211A true JP2008536211A (ja) 2008-09-04

Family

ID=35748862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008503506A Pending JP2008536211A (ja) 2005-03-31 2006-03-28 ニューラルネットワークを実現するオブジェクトイメージにおいて興味のあるポイントを位置決めするシステム及び方法

Country Status (6)

Country Link
US (1) US20080201282A1 (ja)
EP (1) EP1866834A2 (ja)
JP (1) JP2008536211A (ja)
CN (1) CN101171598A (ja)
FR (1) FR2884008A1 (ja)
WO (1) WO2006103241A2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101563569B1 (ko) * 2014-05-28 2015-10-28 한국과학기술원 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법
JP2017059207A (ja) * 2015-09-18 2017-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識方法
JP2017134853A (ja) * 2017-03-16 2017-08-03 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2018506168A (ja) * 2014-12-03 2018-03-01 ケーエルエー−テンカー コーポレイション サンプリング及びフィーチャ選択を伴わない自動欠陥分類
WO2018106005A1 (ko) * 2016-12-11 2018-06-14 딥바이오 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
WO2020044629A1 (ja) * 2018-08-31 2020-03-05 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
JP2020035290A (ja) * 2018-08-31 2020-03-05 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
WO2022019356A1 (ko) * 2020-07-23 2022-01-27 주식회사 딥바이오 준-지도학습을 이용하여 질병의 발병 영역에 대한 어노테이션을 수행하기 위한 방법 및 이를 수행하는 진단 시스템
US11368746B2 (en) 2018-02-08 2022-06-21 Beijing Sensetime Technology Development Co., Ltd. Method and device for generating special effect program file package, method and device for generating special effect, and electronic device
US11521389B2 (en) 2018-01-19 2022-12-06 Beijing Sensetime Technology Development Co., Ltd. Method for generating special effect program file package, method for generating special effect, electronic device, and storage medium
US11537839B2 (en) 2018-03-12 2022-12-27 Kabushiki Kaisha Toshiba Arithmetic processing device and system to realize multi-layer convolutional neural network circuit to perform process with fixed-point number format
WO2024085381A1 (ko) * 2022-10-21 2024-04-25 삼성전자주식회사 이미지에서 관심 영역을 식별하기 위한 전자 장치 및 그 제어 방법

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009155415A2 (en) * 2008-06-20 2009-12-23 Research Triangle Institute Training and rehabilitation system, and associated method and computer program product
US8374436B2 (en) * 2008-06-30 2013-02-12 Thomson Licensing Method for detecting layout areas in a video image and method for generating an image of reduced size using the detection method
US8290250B2 (en) 2008-12-26 2012-10-16 Five Apes, Inc. Method and apparatus for creating a pattern recognizer
US8229209B2 (en) * 2008-12-26 2012-07-24 Five Apes, Inc. Neural network based pattern recognizer
US8160354B2 (en) * 2008-12-26 2012-04-17 Five Apes, Inc. Multi-stage image pattern recognizer
KR101558553B1 (ko) * 2009-02-18 2015-10-08 삼성전자 주식회사 아바타 얼굴 표정 제어장치
CN101639937B (zh) * 2009-09-03 2011-12-14 复旦大学 一种基于人工神经网络的超分辨率方法
US9405975B2 (en) 2010-03-26 2016-08-02 Brain Corporation Apparatus and methods for pulse-code invariant object recognition
US9906838B2 (en) 2010-07-12 2018-02-27 Time Warner Cable Enterprises Llc Apparatus and methods for content delivery and message exchange across multiple content delivery networks
US8515127B2 (en) 2010-07-28 2013-08-20 International Business Machines Corporation Multispectral detection of personal attributes for video surveillance
US8532390B2 (en) 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video
US9134399B2 (en) 2010-07-28 2015-09-15 International Business Machines Corporation Attribute-based person tracking across multiple cameras
US10424342B2 (en) 2010-07-28 2019-09-24 International Business Machines Corporation Facilitating people search in video surveillance
CN102567397B (zh) * 2010-12-30 2014-08-06 高德软件有限公司 兴趣点、连锁店分店兴趣点关联标记的方法与装置
US9224090B2 (en) 2012-05-07 2015-12-29 Brain Corporation Sensory input processing apparatus in a spiking neural network
US9412041B1 (en) 2012-06-29 2016-08-09 Brain Corporation Retinal apparatus and methods
US9186793B1 (en) 2012-08-31 2015-11-17 Brain Corporation Apparatus and methods for controlling attention of a robot
US9311594B1 (en) 2012-09-20 2016-04-12 Brain Corporation Spiking neuron network apparatus and methods for encoding of sensory data
US9111226B2 (en) 2012-10-25 2015-08-18 Brain Corporation Modulated plasticity apparatus and methods for spiking neuron network
US9218563B2 (en) * 2012-10-25 2015-12-22 Brain Corporation Spiking neuron sensory processing apparatus and methods for saliency detection
US9183493B2 (en) 2012-10-25 2015-11-10 Brain Corporation Adaptive plasticity apparatus and methods for spiking neuron network
US9275326B2 (en) 2012-11-30 2016-03-01 Brain Corporation Rate stabilization through plasticity in spiking neuron network
US9436909B2 (en) 2013-06-19 2016-09-06 Brain Corporation Increased dynamic range artificial neuron network apparatus and methods
US9239985B2 (en) 2013-06-19 2016-01-19 Brain Corporation Apparatus and methods for processing inputs in an artificial neuron network
US9552546B1 (en) 2013-07-30 2017-01-24 Brain Corporation Apparatus and methods for efficacy balancing in a spiking neuron network
CN103489107B (zh) * 2013-08-16 2015-11-25 北京京东尚科信息技术有限公司 一种制作虚拟试衣模特图像的方法和装置
US10198689B2 (en) 2014-01-30 2019-02-05 Hrl Laboratories, Llc Method for object detection in digital image and video using spiking neural networks
US9984326B1 (en) * 2015-04-06 2018-05-29 Hrl Laboratories, Llc Spiking neural network simulator for image and video processing
US9533413B2 (en) 2014-03-13 2017-01-03 Brain Corporation Trainable modular robotic apparatus and methods
US9987743B2 (en) 2014-03-13 2018-06-05 Brain Corporation Trainable modular robotic apparatus and methods
US9195903B2 (en) 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
CN103955718A (zh) * 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法
US9373058B2 (en) 2014-05-29 2016-06-21 International Business Machines Corporation Scene understanding using a neurosynaptic system
US9400922B2 (en) * 2014-05-29 2016-07-26 Beijing Kuangshi Technology Co., Ltd. Facial landmark localization using coarse-to-fine cascaded neural networks
US10115054B2 (en) 2014-07-02 2018-10-30 International Business Machines Corporation Classifying features using a neurosynaptic system
US9798972B2 (en) 2014-07-02 2017-10-24 International Business Machines Corporation Feature extraction using a neurosynaptic system for object classification
US9881349B1 (en) 2014-10-24 2018-01-30 Gopro, Inc. Apparatus and methods for computerized object identification
KR102288280B1 (ko) 2014-11-05 2021-08-10 삼성전자주식회사 영상 학습 모델을 이용한 영상 생성 방법 및 장치
CN106033594B (zh) * 2015-03-11 2018-11-13 日本电气株式会社 基于卷积神经网络所获得特征的空间信息恢复方法及装置
WO2016149689A1 (en) * 2015-03-18 2016-09-22 Hrl Laboratories, Llc System and method for decoding spiking reservoirs with continuous synaptic plasticity
US9934437B1 (en) 2015-04-06 2018-04-03 Hrl Laboratories, Llc System and method for real-time collision detection
US9933264B2 (en) 2015-04-06 2018-04-03 Hrl Laboratories, Llc System and method for achieving fast and reliable time-to-contact estimation using vision and range sensor data for autonomous navigation
US9840003B2 (en) 2015-06-24 2017-12-12 Brain Corporation Apparatus and methods for safe navigation of robotic devices
US10614339B2 (en) * 2015-07-29 2020-04-07 Nokia Technologies Oy Object detection with neural network
CN105260776B (zh) * 2015-09-10 2018-03-27 华为技术有限公司 神经网络处理器和卷积神经网络处理器
CN105205504B (zh) * 2015-10-04 2018-09-18 北京航空航天大学 一种基于数据驱动的图像关注区域质量评价指标学习方法
US20170124409A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
KR102554149B1 (ko) * 2015-11-16 2023-07-12 삼성전자주식회사 오브젝트 인식 방법 및 장치, 인식 모델 학습 방법 및 장치
US10860887B2 (en) * 2015-11-16 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognition model
US10055652B2 (en) * 2016-03-21 2018-08-21 Ford Global Technologies, Llc Pedestrian detection and motion prediction with rear-facing camera
CN109375951B (zh) * 2016-04-27 2020-10-09 中科寒武纪科技股份有限公司 一种用于执行全连接层神经网络正向运算的装置和方法
US20190228268A1 (en) * 2016-09-14 2019-07-25 Konica Minolta Laboratory U.S.A., Inc. Method and system for cell image segmentation using multi-stage convolutional neural networks
KR101804840B1 (ko) 2016-09-29 2017-12-05 연세대학교 산학협력단 컨벌루션 신경망 기반의 표면 영상 처리 방법 및 장치
CN106778751B (zh) * 2017-02-20 2020-08-21 迈吉客科技(北京)有限公司 一种非面部roi识别方法及装置
US20190286988A1 (en) * 2018-03-15 2019-09-19 Ants Technology (Hk) Limited Feature-based selective control of a neural network
US11430084B2 (en) 2018-09-05 2022-08-30 Toyota Research Institute, Inc. Systems and methods for saliency-based sampling layer for neural networks
CN109491704A (zh) * 2018-11-08 2019-03-19 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
CN109744996B (zh) * 2019-01-11 2021-06-15 中南大学 Oct图像的bmo位置定位方法
US11080884B2 (en) * 2019-05-15 2021-08-03 Matterport, Inc. Point tracking using a trained network
CN112825115A (zh) * 2019-11-20 2021-05-21 北京眼神智能科技有限公司 基于单目图像的眼镜检测方法、装置、存储介质及设备
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US11532147B2 (en) * 2020-09-25 2022-12-20 Microsoft Technology Licensing, Llc Diagnostic tool for deep learning similarity models

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6012007225; Masakazu Matsugu: 'Subject independent facial expression recognition with robust face detection using a convolutional n' Neural Networks vol.16,no5-6, 200306, p.555-559, Elsevier Science *
JPN6012007229; Laurent Itti: 'Feature Combination Strategies for Saliency-Based Visual Attention System' Systems Journal of Electronic Imaging , 2001 *
JPN6012007232; Masakazu Matsugu: 'Convolutional spiking neural network model for robust face detection' Proceedings of the 9th international conference on neural information processing vol.2, 20021118, p.660-664 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101563569B1 (ko) * 2014-05-28 2015-10-28 한국과학기술원 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법
JP2018506168A (ja) * 2014-12-03 2018-03-01 ケーエルエー−テンカー コーポレイション サンプリング及びフィーチャ選択を伴わない自動欠陥分類
US10650508B2 (en) 2014-12-03 2020-05-12 Kla-Tencor Corporation Automatic defect classification without sampling and feature selection
JP2017059207A (ja) * 2015-09-18 2017-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識方法
US11074686B2 (en) 2016-12-11 2021-07-27 Deep Bio, Inc. System for diagnosing disease using neural network and method therefor
WO2018106005A1 (ko) * 2016-12-11 2018-06-14 딥바이오 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
KR20180066983A (ko) * 2016-12-11 2018-06-20 주식회사 딥바이오 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
KR101944536B1 (ko) 2016-12-11 2019-02-01 주식회사 딥바이오 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
JP2017134853A (ja) * 2017-03-16 2017-08-03 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
US11521389B2 (en) 2018-01-19 2022-12-06 Beijing Sensetime Technology Development Co., Ltd. Method for generating special effect program file package, method for generating special effect, electronic device, and storage medium
US11368746B2 (en) 2018-02-08 2022-06-21 Beijing Sensetime Technology Development Co., Ltd. Method and device for generating special effect program file package, method and device for generating special effect, and electronic device
US11537839B2 (en) 2018-03-12 2022-12-27 Kabushiki Kaisha Toshiba Arithmetic processing device and system to realize multi-layer convolutional neural network circuit to perform process with fixed-point number format
WO2020044630A1 (ja) * 2018-08-31 2020-03-05 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
JP6996455B2 (ja) 2018-08-31 2022-01-17 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
JP7035912B2 (ja) 2018-08-31 2022-03-15 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
JP2020035290A (ja) * 2018-08-31 2020-03-05 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
JP2020035289A (ja) * 2018-08-31 2020-03-05 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
WO2020044629A1 (ja) * 2018-08-31 2020-03-05 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
WO2022019356A1 (ko) * 2020-07-23 2022-01-27 주식회사 딥바이오 준-지도학습을 이용하여 질병의 발병 영역에 대한 어노테이션을 수행하기 위한 방법 및 이를 수행하는 진단 시스템
WO2024085381A1 (ko) * 2022-10-21 2024-04-25 삼성전자주식회사 이미지에서 관심 영역을 식별하기 위한 전자 장치 및 그 제어 방법

Also Published As

Publication number Publication date
WO2006103241A3 (fr) 2007-01-11
EP1866834A2 (fr) 2007-12-19
CN101171598A (zh) 2008-04-30
WO2006103241A2 (fr) 2006-10-05
FR2884008A1 (fr) 2006-10-06
US20080201282A1 (en) 2008-08-21

Similar Documents

Publication Publication Date Title
JP2008536211A (ja) ニューラルネットワークを実現するオブジェクトイメージにおいて興味のあるポイントを位置決めするシステム及び方法
US10002313B2 (en) Deeply learned convolutional neural networks (CNNS) for object localization and classification
Gordon et al. Re3: Real-Time Recurrent Regression Networks for Visual Tracking of Generic Objects.
JP6504590B2 (ja) 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体
CN113196289B (zh) 人体动作识别方法、人体动作识别***及设备
CN107229904B (zh) 一种基于深度学习的目标检测与识别方法
JP2005352900A (ja) 情報処理装置、情報処理方法、パターン認識装置、及びパターン認識方法
KR102224253B1 (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
WO2019227479A1 (zh) 人脸旋转图像的生成方法及装置
Oullette et al. Genetic algorithm optimization of a convolutional neural network for autonomous crack detection
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
RU2665273C2 (ru) Обучаемые визуальные маркеры и способ их продуцирования
CN109063626B (zh) 动态人脸识别方法和装置
Pavel et al. Recurrent convolutional neural networks for object-class segmentation of RGB-D video
CN114821764A (zh) 一种基于kcf追踪检测的手势图像识别方法及***
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
US11989888B2 (en) Image sensor with integrated efficient multiresolution hierarchical deep neural network (DNN)
CN113763417A (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN114863520A (zh) 一种基于c3d-sa的视频表情识别方法
Velte Semantic image segmentation combining visible and near-infrared channels with depth information
Singhal et al. Comparing cnn and rnn for prediction of judgement in video interview based on facial gestures
WO2008081152A2 (fr) Procede et systeme de reconnaissance d'un objet dans une image
CN111783802A (zh) 一种基于深度学习的金属断口图像识别的方法
Loos et al. 1-click learning of object models for recognition
Luetto People counting using detection networks and self calibrating cameras on edge computing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120921