JP2021089730A

JP2021089730A - 畳み込みニューラルネットワークによって、入力画像内で可視である少なくとも１つの対象要素を検出する方法

Info

Publication number: JP2021089730A
Application number: JP2020199636A
Authority: JP
Inventors: ギ・マビャラット; Mabyalaht Guy; ローラン・カツダヒリ; Kazdaghli Laurent
Original assignee: Idemia Identity and Security France SAS
Current assignee: Idemia Identity and Security France SAS
Priority date: 2019-12-03
Filing date: 2020-12-01
Publication date: 2021-06-10
Also published as: US11587341B2; FR3103938A1; FR3103938B1; EP3832535A1; US20210166092A1

Abstract

【課題】畳み込みニューラルネットワーク（ＣＮＮ）によって、入力画像内で可視である少なくとも１つの対象要素を検出する方法を提供する。【解決手段】方法は、特徴ピラミッドネットワーク（ＦＰＮ）タイプのＣＮＮの第１のサブネットワークの上昇分岐によって、異なるスケールで入力画像を表す複数の初期特徴マップを抽出するステップと、ＦＰＮの下降分岐によって異なるスケールで入力画像も表す複数のエンリッチ特徴マップを生成するステップと、検出ネットワークと呼ばれる当該ＣＮＮの第２のサブネットワークによって入力画像上で可視である少なくとも１つの対象要素を検出するステップとを含む。【選択図】図４

Description

本発明は、生体測定の分野に関し、具体的には、畳み込みニューラルネットワークによって、入力画像内で、特に少なくとも１つの生体紋様で可視である少なくとも１つの対象要素を検出するための方法、並びに畳み込みニューラルネットワークをトレーニングする方法を提案する。

生体認証／識別は、指紋（指紋認識）、掌紋、網膜紋、虹彩、顔（顔認識）などの個人の生体認証特性に基づく個人の認識で構成される。

従来の生体計測アプローチでは、取得した生体計測値から抽出された、特徴と呼ばれる生体認証特性の特性情報を使用し、これらの特性の比較に基づいてトレーニング／分類が行われる。

特に、指紋認識の場合、指先画像は、３つのカテゴリに分類され得る指紋の特徴を抽出するように処理される。
−レベル１は、この指紋の一般的なパターン（４つのクラスのうちの１つ、すなわち、右蹄状紋、左蹄状紋、弓状紋、及び渦巻き）、並びに***部の全体的なアウトライン（特に、指紋のそれぞれの点における***部の一般的な方向を表す「ＲｉｄｇｅＦｌｏｗＭａｔｒｉｘ」（ＲＦＭ）マップと呼ばれる向きマップが得られる）を定義する。
−レベル２は、***部に沿った「イベント」（***部の端部、分岐など）である、特徴点と呼ばれる指紋の特定の点を定義する。従来の認識アプローチは、本質的にこれらの特徴を使用する。
−レベル３は、***部の形状、皮膚の毛穴、瘢痕などのより複雑な情報を定義する。

指紋から（特徴マップの形態で）特徴を抽出する方法は、「符号化」と呼ばれ、これにより、分類の最終フェーズで有用な情報を符号化する「テンプレート」と呼ばれるシグネチャを構成することを可能にする。より具体的には、分類は、得られた特徴マップを、既知の個人に関連付けられた１つ以上の参照特徴マップと比較することによって行われる。

ここで、比較的標準化された方法で（例えば、生体計測システム端末で）得られた指紋からの特徴を抽出するこの操作を効率的に実行することができる利用可能な「エンコーダ」が存在するが、いわゆる潜在指紋、例えば、犯罪シーンで発見されたものには困難である。同じ識別情報の指紋の２つの画像は、互いに対して強い回転、掩蔽、及び歪みのセットを有することができる。加えて、潜在指紋の背景は、一般的に非常にノイズが多く、この背景において特徴点が誤って識別され得るリスクが存在する。

結果として、潜在指紋の自動処理は、それをエンコーダに提供する前に、分離しようとするそれぞれの潜在指紋を手動で「取り囲む」ことからなる、専門家によって実行されるタスクが現在、先行されている。このタスクは、潜在指紋のセグメンテーション操作に対する量になり、取り囲まれたゾーンは「セグメンテーションマスク」と呼ばれ、そのため、タスクは自動的に実行されることが望ましい。

専用の畳み込みニューラルネットワーク（ＣＮＮ）は、Ｕ−Ｎｅｔネットワーク（出版物、ＲＯＮＮＥＢＥＲＧＥＲ、Ｏｌａｆ、ＦＩＳＣＨＥＲ、Ｐｈｉｌｉｐｐ、及びＢＲＯＸ，Ｔｈｏｍａｓによる、Ｕ−Ｎｅｔ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｂｉｏｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ、用画像コンピューティング及びコンピュータ支援介入に関する国際会議、Ｓｐｒｉｎｇｅｒ、Ｃｈａｍ、２０１５．ｐ．２３４〜２４１を参照）、又はＭａｓｋＲ−ＣＮＮネットワーク（出版物、ＫａｉｍｇｉａＧｋｉｏｘａｒｉＰｉｏｔｒＤｏｌｌ’ａｒＲｏｓｓＧｉｒｓｈｉｃｋによる、ＭａｓｋＲ−ＣＮＮ，ＦａｃｅｂｏｏｋＡＩＲｅｓｅａｒｃｈ（ＦＡＩＲ），２０Ｍａｒ２０１７を参照）などから既知であるが、実際には、指紋の結果が期待に応えていないことが見出されている。

より最近では、ＣＮＮＦｉｎｇｅｒＮｅｔ（ＴＡＮＧ、Ｙａｏ、ＧＡＯ、Ｆｅｉ、ＦＥＮＧ、Ｊｕｆｕらによる、Ｆｉｎｇｅｒｎｅｔ：Ａｎｕｎｉｆｉｅｄｄｅｅｐｎｅｔｗｏｒｋｆｏｒｆｉｎｇｅｒｐｒｉｎｔｍｉｎｕｔｉａｅｅｘｔｒａｃｔｉｏｎ．２０１７ＩＥＥＥバイオメトリクスに関する国際合同会議（ＩＪＣＢ），ＥＥＥ，２０１７．ｐ．１０８〜１１６）を参照）、により、とりわけ、このセグメンテーションタスクを可能にするが、実際の使用には非常に面倒で複雑であることがわかっている。

したがって、それらの特徴を抽出するために、画像、特に潜在指紋などの生体紋様のセグメンテーションに対する、より効率的かつ厄介さが少ないソリューションを有することが望ましい。

第１の態様によれば、本発明は、畳み込みニューラルネットワーク、すなわちＣＮＮによって、入力画像上で可視である少なくとも１つの対象要素を検出する方法に関し、この方法は、クライアントのデータ処理手段によって、
（ａ）特徴ピラミッドネットワーク、ＦＰＮ、タイプの当該ＣＮＮの第１のサブネットワークの上昇分岐によって、異なるスケールで入力画像を表す複数の初期特徴マップを抽出することであって、当該ＦＰＮは、下降分岐及び上昇分岐と下降分岐との間の横方向接続を更に含み、少なくとも１つの横方向接続がアテンションモジュールを含む、初期特徴マップを抽出すること、
（ｂ）ＦＰＮの当該下降分岐によって、異なるスケールで入力画像も表す複数のエンリッチ特徴マップを生成することであって、それぞれのエンリッチ特徴マップは、より小さい又は等しいスケールの初期特徴マップからの情報を組み込んでいる、複数のエンリッチ特徴マップを生成すること、
（ｄ）検出ネットワークと呼ばれる、当該ＣＮＮの第２のサブネットワークによって、入力画像上で可視である少なくとも１つの対象要素を検出することであって、当該エンリッチ特徴マップを入力として使用する、少なくとも１つの対象要素を検出すること
の実施を含むことを特徴とする。

他の有利かつ非限定的な特性によれば、
それぞれのエンリッチ特徴マップに対して、同じスケールの初期特徴マップが、この初期特徴マップと一意的に関連付けられた横方向接続を介して、ＦＰＮの上昇分岐から下降分岐に伝達される。

初期のより大きいスケールの特徴マップは、ＦＰＮの上昇分岐から下降分岐に伝達されない。

最小スケールのエンリッチ特徴マップは、最小スケールの初期特徴マップから生成され、それぞれの他のエンリッチ特徴マップは、同じスケールの初期特徴マップ及びより小さいスケールのエンリッチ特徴マップから生成される。

それぞれの横方向接続は、当該横方向接続を介して伝達された初期特徴マップにフォーカスさせるための、アテンションモジュールを含む。

それぞれの他のエンリッチ特徴マップは、アテンションモジュールによってフォーカスされた初期特徴マップ、及び当該初期特徴マップと同じスケールにスケーリングされた最小スケールのエンリッチ特徴マップを追加することによって生成される。

最小スケールの初期特徴マップに関連付けられた横方向接続は、第１のアテンションモジュールを含み、それぞれの他の横方向接続は、第２のアテンションモジュールを含む。

第１のアテンションモジュールは、特徴ピラミッドアテンションモジュール、すなわちＦＰＡであり、及び／又は第２のアテンションモジュールは、アップサンプリングのためのグローバルアテンションモジュール、すなわちＧＡＵである。

本方法は、領域提案ネットワーク、すなわちＲＰＮ、タイプの当該ＣＮＮの第３のサブネットワークによって、エンリッチ特徴マップ内で、対象要素を潜在的に含む対象領域を識別するステップ（ｃ）を更に含む。

ステップ（ｃ）は、識別された対象領域に従って、それぞれのエンリッチ特徴マップのＣＮＮトリミングモジュールによる再アラインメントを含み、ステップ（ｄ）は、再アラインされたエンリッチ特徴マップ上で実施される。

本方法は、サーバのデータ処理手段による、当該ＣＮＮのパラメータの、既にアノテーションされた対象要素の画像データベースからの前のトレーニングステップ（ａ０）を含む。

ステップ（ｄ）は、入力画像をセグメント化することを含む。

対象要素は生体紋様であり、本方法は、当該入力画像によって表されるそれぞれの生体紋様から当該所望の特徴を抽出するための、当該セグメント化された入力画像の処理ステップ（ｅ）を含む。

当該生体紋様は指紋であり、当該入力画像によって表される少なくとも１つの指紋から抽出すべき所望の特徴は、特徴点の位置及び／又は向きを含む。

入力画像によって表される少なくとも１つの生体紋様は個人のものであり、本方法は、当該入力画像によって表される生体紋様から抽出された所望の特徴を、参照生体紋様特徴と比較することによって、当該個人を識別又は認証するステップ（ｆ）を更に含む。

第２及び第３の態様によれば、入力画像内で可視である少なくとも１つの対象要素を検出する第１の態様による方法を実行するためのコード命令と、コンピュータ機器によって読み取り可能な記憶手段と、を備えるコンピュータプログラム製品が提案され、記憶手段上でコンピュータプログラム製品が、入力画像内で可視である少なくとも１つの対象要素を検出する第１の態様による方法を実行するためのコード命令を含む。

本発明の他の特徴及び利点は、好ましい実施形態の以下の説明を読むと明らかになるであろう。この説明は、添付図面を参照して与えられる。
本発明による方法を実施するためのアーキテクチャの図である。ＭａｓｋＲ−ＣＮＮ畳み込みニューラルネットワークの既知の実施例を示す。ＭａｓｋＲ−ＣＮＮ畳み込みニューラルネットワークの特徴ピラミッドサブネットワークの既知の実施例を示す。本発明による方法の実施のための、畳み込みニューラルネットワークの特徴ピラミッドサブネットワークの一実施例を示す。本発明による方法の好ましい実施形態のステップを示す。アップサンプリングのためのグローバルアテンションモジュールの一実施例を示す。特徴ピラミッドアテンションモジュールの一実施例を示す。従来技術で得られたセグメンテーションマスクの実施例と、本発明による方法の実施形態とを比較している。

アーキテクチャ
本発明の２つの追加の態様によれば、以下が提案される。
−入力画像、特に少なくとも１つの生体紋様内で可視である少なくとも１つの対象要素を、畳み込みニューラルネットワーク、すなわちＣＮＮによって、及び必要に応じて、入力画像によって表される少なくとも１つの生体紋様から所望の特徴を抽出することによって検出する方法、
−当該ＣＮＮのパラメータのトレーニング方法。

入力データ又はトレーニングデータは画像タイプであり、その中で少なくとも１つの対象要素が可視である。

ここで、「対象要素」という用語は、画像内で検出が所望されるエンティティの画像内の任意の表現を指す。それぞれの対象要素は、セマンティックな意味でのタイプに対応する１つの所与のカテゴリからのものである。例えば、人、顔、車両、生体紋様などのカテゴリを考慮することができる。

それぞれの対象要素は、好ましくは、生体紋様、すなわち生体認証特性（換言すれば、これらは少なくとも１つの生体認証特性を表す画像である）であり、有利には、指紋、掌紋、網膜紋などから選択され、一般には、画像によって表され、個人に一意的に関連付けられ得る任意の模様から選択される。好ましくは、当該生体紋様は指紋であり、この実施例は、説明の残りの部分で取り上げられる（追って分かるように、本方法は、特に潜在指紋の場合に最も特に効果的である）。

「検出」又は「認識」は、最も基本的な操作であり、画像内の既知のカテゴリから対象要素の単純なマーキングを指定する。このように、検出は、位置特定（典型的には、対象要素を囲む、検出ボックスと呼ばれるボックスの位置及びサイズの決定）、及び分類（そのカテゴリの決定）を組み合わせる。

したがって、対象要素の検出は、実際には、生体紋様などの対象要素、例えば、（そのサイズ及び位置によって定義される）検出ボックスと呼ばれる、対象要素を取り囲むボックスを含む、ゾーン又は入力画像のゾーンを入力画像内で位置特定する、ある種の１つ以上の「アノテーション」の生成を含む。

検出がより具体的には「セグメンテーション」である好ましい場合では、生成されたアノテーションは、入力画像の「セグメンテーションマスク」（又はセグメンテーションマップ）（例えば、図６を参照）、すなわち、初期画像と同じサイズのバイナリ画像である。具体的には、セグメンテーションマスク内の対応する「白色」画素を有する入力画像内の画素は、対象要素の画素であるとみなされ、セグメンテーションマスク内の対応する「黒色」画素を有する入力画像内の画素は、背景画素（したがって、対象でない）であるとみなされる。

セグメンテーションマスク内の白色画素の関連するセットが、検出された対象要素であり、同じ入力画像上に生体紋様など、対象要素がいくつかあり得ると推測される場合（特に、個人がいくつかの指を隣同士で表面に配置し得る潜在指紋の場合）、入力画像にマスクを適用することにより、検出された各指紋を専門家が手動で取り囲むのと同じ方法で、そこに表されているそれぞれの生体紋様が分離される。セグメンテーションマスクの利点は、一方で、検出がより精緻化され（対象要素のアウトラインが利用可能である）、他方で、画像の背景が「隠され」、その結果、この背景の詳細によって影響を受けることなく他の画像処理アルゴリズムを実施することができることである。

特徴の基礎となる任意選択の抽出は、典型的には、マスクの結果として、検出された又は更には分離された指紋を「符号化する」ことを含み、すなわち、抽出される当該所望の特徴は、典型的には「生体計測」特徴であり、すなわち、分類（個人の識別／認証、以下を参照）を実行する目的で、指紋のテンプレートが個人の生体認証特性として構成されることを可能にする、「最終的な」特徴である。したがって、指紋の場合、当該所望の特徴は、典型的には特徴点を記述し、すなわち、特徴点の位置及び／又は向きを含む。しかしながら、本方法は、この実施形態に限定されるものではなく、生体計測で対象となり得る全ての特徴を抽出できることを理解されたい。

本方法は、サーバ１及びクライアント２によって、図１に示すようなアーキテクチャ内で実施される。サーバ１は、（トレーニング方法を実施する）トレーニングデバイスであり、クライアント２は、（検出／セグメンテーション方法、及び必要に応じて特徴抽出方法を実施する）使用デバイス、例えばユーザ端末である。

２つのデバイス１、２が組み合わされるが、好ましくは、サーバ１は、セキュリティソリューションプロバイダのものであり、クライアント２は、カスタマーデバイス、特に生体紋様スキャナだけでなく、スマートフォン、パーソナルコンピュータなどでもあることで、完全に実現可能である。クライアントデバイス２は、有利にも、典型的にはライブ処理のために、当該入力画像を直接キャプチャすることができるように、光学キャプチャ手段２３を含み、あるいは、入力画像は、クライアントデバイス２上にロードされる（例えば、潜在指紋は、法医学チームによって犯罪シーンで撮影され、次いで、これらの写真が、法医学施設における専用のクライアントデバイス２上にロードされ得る）。

いずれの場合も、それぞれのデバイス１、２は、典型的には、データ交換のためにインターネットなどの拡張ネットワーク１０に接続されたリモートコンピュータ機器である。それぞれは、プロセッサタイプのデータ処理手段１１、２１と、コンピュータメモリ、例えばフラッシュメモリ又はハードディスクなどのデータ記憶手段１２、２２と、を備える。

サーバ１は、実際に処理されることが求められるいわゆる入力画像とは対照的に、トレーニングデータベース、すなわち、既にアノテーションされている（すなわち、例えば、セグメンテーションマスクが既に利用可能である）画像のセットを記憶する。

ＭａｓｋＲ−ＣＮＮ
説明されるように、ＭａｓｋＲ−ＣＮＮネットワークは特に既知であり、そのアーキテクチャが図２に示されている。この図２を参照すると、ＭａｓｋＲ−ＣＮＮは、２つのセットに分割されたＣＮＮであり、マークされたステージ１及びステージ２である。本発明は、ＭａｓｋＲ−ＣＮＮと同様のアーキテクチャを有するＣＮＮにフォーカスさせる。

「ステージ１」は、入力画像の前処理を可能にし、本質的に、第１の特徴ピラミッドネットワーク（ＦＰＮ）サブネットワークを含み、その動作については、以下でより詳細に説明する。

「ステージ２」又は「ヘッド」は、検出を完了し、終了する（所望の出力、すなわち、検出された対象要素のセグメンテーションマスク、並びに／又は１つ以上の検出ボックス及び／若しくはクラスを生成する）。この点に関して、ヘッドは、検出ネットワークと呼ばれる第２のサブネットワークを構成し、多くのタイプの、特に完全接続ネットワーク（ＦＣＮ）であってもよい。

ＭａｓｋＲ−ＣＮＮのステージ１はまた、検出ネットワークでもある領域提案ネットワーク（ＲＰＮ）タイプの第３のサブネットワーク、及びトリミングモジュール（「ＲＯＩアライン、ＲＯＩは「対象領域」を意味する）を含む。ＦＰＮは、ＦＰＮ出力の特徴マップ（すなわち、対象要素を含む可能性が高い）の潜在的な対象領域を識別し、トリミングモジュールは、検出ネットワークの動作を容易にするために、これらの対象領域の座標に従って特徴マップを「再アライン」する。

追って分かるように、本ＣＮＮは、少なくとも第１のＦＰＮタイプネットワーク及び第２の検出ネットワークタイプサブネットワーク、並びに任意選択的に、第３のＲＰＮタイプサブネットワーク及びトリミングモジュールを含む。

ＦＰＮ
ＦＰＮ（第１のサブネットワーク）は、ＭａｓｋＲ−ＣＮＮネットワークの最も重要な部分である。それは、図３ａでより詳細に示されている。

ＦＰＮは、上昇分岐（「ボトムアップ」）、及び次いで下降分岐（「トップダウン」）、並びに上昇分岐と下降分岐との間の横方向接続で構成されるという点で異なる。

全体としてネットワークのバックボーンとしても既知である上昇分岐は、多くのタイプであり得る従来の特徴抽出ネットワーク、特に従来のＣＮＮ（畳み込み層の直接連続ブロックＣＯＮＶ、バッチ正規化層ＢＮ、及び非線形層ＮＬ）である。バックボーンは、異なるスケールで入力画像を表す複数の初期特徴マップＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５を、入力画像から抽出する。より正確には、バックボーンは、複数の連続する畳み込みブロックからなり、それによって第１のブロックが、入力画像から第１の初期特徴マップＣ１を生成し、次いで、第２のブロックが、第２の初期特徴マップＣ２を第１の初期特徴マップＣ１に対して生成する、などである。図示の実施例では、５つのブロックが存在する（したがって、５つの初期マップ、しかしそれよりも少ない又は多いブロックを有することも可能である）。

従来は、畳み込みニューラルネットワークの場合、それぞれの連続するマップでスケールがより小さくなる（換言すれば、分解能が低下すると、特徴マップが「より小さく」なり、したがって詳細度が低下する）が、ますます高レベルの構造の画像がキャプチャされているため、セマンティック深度がより増大することが理解されている。具体的には、初期特徴マップは、そのサイズが減少するにつれて、チャネルの数を増大させる。

実際には、プーリング層が２つのブロックの間に配置されて、サイズを２分の１に減少させ、１つのブロックから他のブロックに、使用される畳み込み層のフィルタの数（一般に、３×３畳み込み）が増大され（好ましくは２倍にされ）、図３ａの５レベルのケースでは、例えば、３２、６４、１２８、２５６、及び５１２の連続するチャネル番号、及び５１２ｘ５１２、２５６ｘ２５６、１２８ｘ１２８、６４ｘ６４、及び３２ｘ３２の（５１２ｘ５１２入力画像に対する）連続するマップサイズが存在する。

好ましい実施形態によれば、当該バックボーン（ＦＰＮの上昇分岐）は、残差ネットワークタイプのものである。残差ネットワーク、つまりＲｅｓＮｅｔは、脳のピラミッドニューロンに見られるものと類似していることから、少なくとも１つの「スキップ接続」（又は単純に「ショートカット」）、すなわち、少なくとも１つの層が「短絡される」接続を有するＣＮＮである。実際には、ブロック毎に少なくとも１つのスキップ接続が存在する。

実際に、層を追加してモデルをより複雑にすると、これらの層のうちのいくつかは、モデルの性能に悪影響を及ぼし得る。残差接続は、有用な変換が学習されない場合、１つの層は、最悪でも識別情報を学習しなければならず、他の層の性能を劣化させることを回避することを保証する。残差ネットワークの背後にある動作原理は、畳み込み層の入口及び出口を点ごとに追加し、信号が表層からより深い層に伝搬することを可能にすることである。

バックボーン（ＦＰＮの上昇分岐）は、「密に接続された」ネットワークタイプ（又は単純に高密度ネットワーク、つまりＤｅｎｓｅＮｅｔ）とすることもでき、すなわち、少なくとも１つのスキップ接続を有するだけでなく、各ブロックが高密度であると言われ、すなわち、全ての可能なスキップ接続が含まれ、すなわち、各スキップ接続が、ブロックの第１層の入力を、第１の層の下流のブロックの第２の層の出力にリンクする。

上昇分岐によって得られた特徴マップＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５は、下降分岐によって再処理されることになるため、初期であると言われる。実際に、説明されるように、「低」マップは、より高い空間分解能を有するが、浅いセマンティック深度を有する。下降分岐は、「高」マップにおける情報によって、それらのセマンティック深度を増大させることを目的とする。

したがって、ＦＰＮの当該下降分岐は、初期特徴マップＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５から、異なるスケールで入力画像を常に表す複数のエンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５を生成するが、初期特徴マップＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５からの情報をより小さい又は等しいスケールで組み込んでいる。

換言すれば、それぞれのエンリッチマップＰｉは、対応する初期マップＣｉ（すなわち、同じサイズ）のスケールを有するが、各ｊ≧ｉに対して、全てのマップ｛Ｃｊ｝の情報を組み込んでいる。実際には、それぞれのエンリッチマップＰｉは、対応する初期マップＣｉ及び／又は次のエンリッチマップＰｉ＋１、それゆえ、分岐の「上昇及び下降」の性質（すなわち、「Ｕ」字形状）に従って生成され、初期マップＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５は上昇順で取得され（Ｃ１次いでＣ２次いでＣ３次いでＣ４次いでＣ５）、その後、エンリッチマップは下降順（Ｐ５次いでＰ４次いでＰ３次いでＰ２）で取得される。

実際には、最大セマンティックレベルは、最後のマップＣ５において取得され、そこから、それぞれのＣｉマップが、既にエンリッチされたマップＣ５．．．Ｃｉ＋１の情報で再び戻る途中でエンリッチされる。上昇分岐と下降分岐との間の横方向接続は、様々な初期マップと共に下降分岐を提供する。

実際には、
−最後のエンリッチマップＰ５は、（後者が既に最大のセマンティック深度を有するため）最後の初期マップＣ５からのみ生成される。Ｐ５＝Ｃ５を有することが可能であるが、一般に、１×１畳み込みを使用して、チャネルの数）を（例えば、２分の１、すなわち２５６に低減させることが可能であることに留意されたい。
−最後から２番目のエンリッチマップＰ４は、（横方向接続を介して供給された）最後から２番目の初期マップＣ４及び最後のエンリッチマップＰ５から生成されて、エンリッチマップＰ５のセマンティック深度を初期マップＣ４に追加する、
−エンリッチマップＰ３は、（横方向接続を介して提供された）初期マップＣ３及びエンリッチマップＰ４から生成されて、エンリッチマップＰ４のセマンティック深度を初期マップＣ３に追加する、
−エンリッチマップＰ２は、（横方向接続を介して提供された）初期マップＣ２及びエンリッチマップＰ３から生成されて、エンリッチマップＰ３のセマンティック深度を初期マップＣ２に追加する、
−有利には、初期マップＣ１から生成されたエンリッチマップＰ１は存在せず、それは、後者が非常に高い空間分解能を有し、この任意選択のエンリッチマップＰ１が特に大きくなり得るからである。

好ましくは、対応する初期マップＣｉ及びより高いエンリッチマップＰｉ＋１に基づくエンリッチマップＰｉの生成は（すなわち、第２のエンリッチマップを除く全ての場合）、エンリッチマップＰｉ＋１の再スケーリングすること、例えば、最近傍法を介して、次いで、初期マップＣｉ（必要に応じて、１ｘ１畳み込みを介して適合されたチャネル数で）と、スケーリングされたエンリッチマップＰｉ＋１（ここでは、両方のマップが同じサイズであるため）との要素毎の合計によって、上昇分岐でスケールが半分になった（アップサンプリングと呼ばれる）場合に、典型的にはスケールを２倍にすることと、を含む。

したがって、全てのエンリッチマップＰ２、Ｐ３、Ｐ４、及びＰ５は、最終的に、同じ数のチャネル（図示の実施例では２５６）を有する。

原理
本発明者らは、ＭａｓｋＲ−ＣＮＮネットワーク「オーバーセグメント」を見出した。これは、背景の要素を対象要素と間違って見なすことを意味する。より正確には、対象要素は正確に検出され、画素レベルにおいて問題が生じる。

したがって、これは、単純な検出に必ずしも影響を及ぼすものではない（検出ボックスはちょっとだけ大きすぎてもよい）が、セグメンテーションマスクに対して特に明白である。例えば、図６を参照すると、上部のラインは潜在指紋を表し、中間のラインは、ＭａｓｋＲ−ＣＮＮそのままを介して得られたセグメンテーションマスクを表すが、これらのマスクが、左画像の背景からの文字「Ｅ」のフラグメントなどの偽の要素を組み込んでいることが明らかに分かる。セグメンテーションマスクは対象の要素を背景から可能な限り厳密に区別する必要があるため、これは問題である。

実際に、エンリッチ特徴マップ内に全ての情報を保持するという思想には、対象要素ではなく、背景に関連する「無用な」情報もまた保持され、それゆえ、オーバーセグメンテーションのリスクを意味することが観察される。

本方法の思想は、無用な情報を破壊するために、上昇分岐と下降分岐との間の「アテンション」を改善する手段を、ＦＰＮに組み込むことである。

それぞれの横方向接続は、初期特徴マップＣ２、Ｃ３、Ｃ４、Ｃ５に一意的に関連付けられ、この特徴マップを、ＦＰＮの上昇分岐から下降分岐に伝達することが想定されている。特に、少なくとも１つのエンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５（及び好ましくは、それぞれのエンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５）に対して、同じスケールの初期特徴マップＣ２、Ｃ３、Ｃ４、Ｃ５が、この初期特徴マップＣ２、Ｃ３、Ｃ４、Ｃ５と一意的に関連付けられた横方向接続を介して、ＦＰＮの上昇分岐から下降分岐に伝達される。

好ましくは、最大スケールの初期特徴マップＣ１以外のそれぞれの初期特徴マップＣ２、Ｃ３、Ｃ４、Ｃ５に対する横方向接続が存在し（すなわち、最大スケールの初期特徴マップＣ１は、ＦＰＮの上昇分岐から下降分岐に伝達されない）、かつ／又はそれぞれのエンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５としての、それぞれのエンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５に対する横方向接続は、少なくとも小さいスケールの初期特徴Ｃ２、Ｃ３、Ｃ４、Ｃ５から生成され、特に、最小スケールのエンリッチ特徴マップＰ５は、最小スケールの初期特徴マップＣ５からのみ生成され、それぞれの他のエンリッチ特徴マップＰ２、Ｐ３、Ｐ４が、カスケード内の同じスケール及びより小さいスケールのエンリッチ特徴マップＰ３、Ｐ４、Ｐ５の初期特徴マップＣ２、Ｃ３、Ｃ４から生成される。

具体的には、ＦＰＮの横方向接続のうちの少なくとも１つは、アテンションモジュール、特に、最小スケールの初期特徴マップＣ５以外の初期特徴マップＣ２、Ｃ３、Ｃ４に関連付けられた横方向接続を含み、有利には、最小スケールの初期特徴マップＣ５に関連付けられた横方向接続もまた、アテンションモジュール、好ましくはそれぞれの横方向接続を含む。横方向接続のアテンションモジュールは、当該横方向接続（すなわち、それが関連付けられている接続）を介して伝達された初期特徴マップＣ２、Ｃ３、Ｃ４、Ｃ５にフォーカスさせるためのものである。したがって、アテンションモジュールを備えた横方向接続を介して伝達された初期特徴マップＣ２、Ｃ３、Ｃ４、Ｃ５は、「フォーカスされた」ものと呼ばれる。典型的には、アテンションモジュールは、任意選択の１×１畳み込みを置き換える。

したがって、少なくとも１つの最小スケールのエンリッチ特徴マップＰ５以外のエンリッチ特徴マップＰ２、Ｐ３、Ｐ４（及び好ましくは、最小スケールのエンリッチ特徴マップＰ５以外のそれぞれのエンリッチ特徴マップＰ２、Ｐ３、Ｐ４）は、アテンションモジュールによってフォーカスされた（アテンションモジュールを備えた横方向接続に関連付けられた）初期特徴マップＣ２、Ｃ３、Ｃ４、及び当該初期特徴マップＣ２、Ｃ３、Ｃ４と同じスケールにスケーリングされたより小さいスケールのエンリッチ特徴マップＰ３、Ｐ４、Ｐ５を追加することによって生成される。

アテンションモジュールは、対象要素に関連しない（すなわち、背景に関連する）特徴マップ情報を破壊し、それによって、対象要素上の第２の検出サブネットワークのアテンションにフォーカスさせて、オーバーセグメンテーションを制限するモジュールである。

それぞれ、特徴ピラミッドアテンション（ＦＰＡ）モジュール及びグローバルアテンションアップサンプル（ＧＡＵ）モジュールとそれぞれ呼ばれる、第１及び第２のタイプの考え得るアテンションモジュールについてここで説明する。追って分かるように、有利には、ＦＰＮの最後の横方向接続（「Ｕ」のバー）は、第１のＦＰＡモジュールを含み、ＦＰＮのそれぞれの他の横方向接続は、図３ｂに示されるように、第２のＧＡＵモジュールを含む。しかしながら、本発明は、これらのアテンションモジュールの実施例に限定されるべきではない。

ＦＰＡモジュール及びＧＡＵモジュールは、当業者が参照することができる、文献、ＨａｎｃｈａｏＬｉ、ＰｅｎｇｆｅｉＸｉｏｎｇ、ＪｉｅＡｎ，ＬｉｎｇｘｕｅＷａｎｇによる、「ＰｙｒａｍｉｄＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋｆｏｒＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ」に記載されている。

この文献では、ＦＰＡモジュール及びＧＡＵモジュールは、本発明の意味ではアテンションモジュールとして厳密に使用されていないが、エンコーダとして直接使用されており、実際に、この文書では、記載されたネットワーク（「ピラミッドアテンションネットワーク」）は、直接的にセグメンテーションネットワークであり、第２の検出サブネットワークに対するエンリッチ特徴マップＰ２、Ｐ３、Ｐ４及びＰ５を生成するための第１のサブネットワークではないことに留意されたい。換言すれば、記載されたネットワークの下降分岐は、上昇分岐の初期特徴マップＣ１、Ｃ２、Ｃ３、Ｃ４、及びＣ５をエンリッチするように機能せず、初期特徴マップから（画像、したがってモジュールのエンコーダ機能である）セグメンテーションマスクを生成するのみである。そのようなセグメンテーションネットワークは、特に潜在指紋に対しては単純過ぎ、ＭａｓｋＲ−ＣＮＮ（図６の中間ライン）よりも良好な結果をもたらさない。

本発明者らは、マスクを生成するのではなく、初期特徴マップをピラミッドアーキテクチャにフォーカスさせることによって初期特徴マップのエンリッチメントを単に「制御」するアテンションモジュールとして、ＦＰＡ及びＧＡＵを使用することにより、別個の検出ネットワークの動作を大幅に容易にし、予期されたものを超え得る結果がもたらされることを見出した（特に、取得された高度に現実的なセグメンテーションマスクが見られる図６の最後のラインを参照）。

更に、処理時間が極めて短い。以下の表１（後で詳細に説明される）は、潜在物をセグメント化することが可能な現在は唯一のネットワークである（及びＦｉｎｇｅｒＮｅｔによって得られたマスクの品質が、図６において可視である結果には依然として達していない）ＦｉｎｇｅｒＮｅｔと比較して、本ＣＮＮ（ＭＲＣＮＮ−Ｉｄｅｍｉａと呼ばれる）をセグメンテーションに使用した場合、潜在指紋の識別時間が１０分の１に短縮され、リアルタイムでの使用が可能になることを示している。

表１

ＦＰＡ
図５ａを参照すると、ＦＰＡモジュールは、最後の横方向接続上に配置されている（最後の初期マップＣ５から最後のエンリッチマップＰ５が生成されることを可能にする）。

ＦＰＡモジュールは、有利には、「ミニ」ＦＰＮ（したがって、Ｕ字形状）を構成し、事実上数レベルで減少し続け、次いで特徴マップのサイズを再び増大させる（３２ｘ３２サイズのＣ５、１６ｘ１６、８×８、及び４×４のマップが生成される）。これにより、追加のステージＣ６、及びＣ７、及びＣ８の存在をシミュレートすることが可能になり、それにより、Ｐ５は、Ｃ５の単に転移でなく、Ｃ６、Ｃ７、及びＣ８からの情報を事実上の「組み込んでいる」。

これらのサイズは、本当に小さいため、７ｘ７畳み込み、５ｘ５畳み込み、及び３×３畳み込みを、処理時間に何ら影響を及ぼすことなく使用することができる（バックボーンに対して優先的に使用されるＲｅｓＮｅｔ、特にＲｅｓｔＮｅｔ−１０１では３×３畳み込みのみが存在することが想起される）。この情報は、元のＣ５特徴マップに追加されないが、要素毎に乗算されて、このＰ５マップ内の情報をＣ５マップに対して効果的にフォーカスさせる。したがって、Ｐ５マップは、実際にはＣ５よりも少ない情報を含むが、無用な情報が有用な情報によって置き換えられているため、「エンリッチされた」ままであることが理解されよう。

図５ａに示されるように、ミニＦＰＮに加えて、任意選択的に、グローバル平均プーリング分岐を存在させることができ（特徴マップは、１画素に低減されて取得されるが多数のチャネルを有する）、次いで、再サンプリングして入力サイズのマップを取得することができることに留意されたい。

ＧＡＵ
図５ｂを参照すると、ＧＡＵモジュールは、より高くスケーリングされたエンリッチマップＰｉ＋１の追加を伴う、他の初期マップＰｉ、ｉ＝２、３、又は４の生成のために、他の横方向接続上に配置される。

ＧＡＵモジュールは、横方向接続の初期マップＣｉと、入力としてのより高いエンリッチマップＰｉ＋１（まだスケーリングされていない）との両方を使用する。

このＧＡＵモジュールは、より高いエンリッチマップＰｉ＋１のグローバル平均プーリングを実施する。換言すれば、エンリッチマップは、次元１×１×Ｃ（多数のＣ個のチャネルを有する１つの画素）を備えたオブジェクトに低減され、１×１畳み込みを通じて、チャネルの数、バッチ正規化、及び非線形層（ＲｅＬＵ）を制御し、次いで、ＦＰＡ内において、最初の入力マップＣｉで要素毎に乗算して、より高いエンリッチマップＰｉ＋１で明らかなように対象要素にそのアテンションをフォーカスさせる。

この初期の「フォーカスされた」マップＣｉは、下降分岐で、（両方のマップが再び同じサイズであるため）スケーリングされたエンリッチマップＰｉ＋１と共に呼び出すことができ、それによって、それ自体が推移性によってフォーカスされるエンリッチマップＰｉを取得する。

方法
要約すれば、図４を参照すると、入力画像内の少なくとも１つの可視である対象要素（有利には、生体紋様タイプ）を検出する本方法は、当該ＣＮＮの第１のＦＰＮサブネットワークの上昇分岐によって、異なるスケールで入力画像を表す複数の初期特徴マップＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５を抽出するステップ（ａ）で開始し、当該ＦＰＮは、下降分岐及び上昇分岐と下降分岐との間の横方向接続を更に含み、少なくとも１つの（好ましくはそれぞれの）横方向接続は、説明されるようなアテンションモジュールを含む。

次いで、ステップ（ｂ）では、本方法は、ＦＰＮの当該下降分岐によって、異なるスケールで入力画像も表す複数のエンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５を生成することであって、それぞれのエンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５は、より小さい又は等しいスケールの初期特徴マップＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５からの情報を組み込んでいる、複数のエンリッチ特徴マップを生成することを含む。説明されるように、それぞれのアテンションモジュールは、それらがエンリッチマップＰ２、Ｐ３、Ｐ４、Ｐ５を生成する際に考慮されるときに、横方向接続を介して受け取られた初期特徴マップＣ２、Ｃ３、Ｃ４、Ｃ５が「フォーカスされる」ことを可能にすることが理解されよう。

任意選択のステップ（ｃ）では、当該ＣＮＮの第３のＲＰＮサブネットワークは、エンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５内で、対象要素を潜在的に含む対象領域のセットを識別し、必要に応じてトリミングモジュールが、識別された対象領域に従って、それぞれのエンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５を再アラインする。

次いで、ステップ（ｄ）において、本方法は、検出ネットワークと呼ばれる、当該ＣＮＮの第２のサブネットワークによる検出自体を含み、当該エンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５を、トリミングモジュールによって、必要に応じて入力として再アラインする。好ましくは、それぞれのエンリッチ特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５は、検出ネットワークへの入力として取得される。

当該検出ネットワークがセグメンテーションネットワークである場合、検出の結果（すなわち、第２のサブネットワークの出力）は、セグメンテーションマスクである。

任意選択のステップ（ｅ）では、当該セグメント化された（すなわち、説明されるようにセグメンテーションマスクが適用されている）入力画像は、有利には、当該入力画像上で可視である少なくとも１つの生体紋様から所望の特徴を抽出するように処理される。

トレーニング
有利には、本方法は、サーバ１のデータ処理手段１１による、既にアノテーションされた（すなわち、検出結果がボックス又はセグメンテーションマスクの利用可能な合計である）生体紋様画像のデータベースから、トレーニングステップ（ａ０）で開始する。全てのサブネットワークのパラメータは、同時にトレーニングすることができ、又はサブネットワークによって、必要に応じてサブネットワーク内のブロック毎に（他のブロックのパラメータを凍結することによって）サブネットワーク化できることに留意されたい。特に、検出ネットワーク全体及び任意選択のＲＰＮと同時に、終了から開始したＦＰＮのブロック（Ｃ５／Ｐ５、次いでＣ４／Ｐ４など）をトレーニングすることが可能である。

このトレーニングは、従来の方法で実行することができる。トレーニングコスト関数は、従来のデータへの添付（平均二重誤差）及び全変動の正規化で構成され得る。

従来、指紋タイプの生体紋様の場合、良好品質の指紋データベースを開始点として使用することができ、トレーニングデータベースのサイズを乗算し、（例えば、良好品質の指紋を歪めること、閉塞を形成するなどにより）潜在指紋を人為的に製造するために、拡張アルゴリズムを実施して、共通の取得欠陥に対するＣＮＮのロバスト性を確保することができる。

トレーニングされたＣＮＮは、検出で使用するために、クライアント２のデータ記憶手段２２上に必要に応じて記憶され得る。同じＣＮＮを多数のクライアント２に埋め込むことができ、１つのトレーニングのみが必要であることに留意されたい。

識別／認証
説明されるように、ステップ（ｅ）では、当該セグメント化された画像を、当該入力画像によって表される少なくとも１つの生体紋様から当該所望の特徴を抽出するように処理することができ、これには特に、指紋の場合、特徴点の位置及び／又は向きを含んでもよい。

説明されるように、ステップ（ｄ）は、表示された指紋（単数又は複数）を別個の画像として分離するために、入力画像に対して、取得されたセグメンテーションマスクを適用することを含み得る。実際に、単一の入力画像上にいくつかの生体紋様が存在し得る。ステップ（ｅ）は、有利には、それぞれの指紋が分離されるように実施される。

好ましくは、本方法は、当該入力画像によって表される生体紋様（又はそれぞれの生体紋様）から抽出された所望の特徴を、参照生体紋様の特徴と比較することによって、少なくとも１人の個人を識別又は認証するステップ（ｆ）を更に含み、これは、当業者に既知である任意の方法で実施され得る。

例えば、クライアント２は、潜在指紋を残した人物が識別され得るように、参照指紋として警察ファイルに入れられた１人以上の人物の指紋の特徴を記憶してもよく、抽出された特徴が既知の個人から予期されるものに対応する場合、その個人の識別情報が警察組織に伝達される。

あるいは、クライアント２は、個人の識別のために、抽出された特徴を、当該参照生体紋様特徴からリモートのデータベースに送信することができる。

ステップ（ｅ）及び／又は（ｆ）は、例えば、１つ以上の専用ＣＮＮを介して、分離された指紋の分類ステップとして実施することができ、必要に応じて、分離された指紋の拡張処理（特にフランス特許出願第１８６０３２３号を参照）を含むことに留意されたい。

結果：
上記の表１は、説明したように、ＦｉｎｇｅｒＮｅｔネットワーク及び本ＣＮＮＭＲＣＮＮ−Ｉｄｅｍｉａの性能を比較している。

実際には、これは、識別テスト（ステップ（ｆ））であり、我々がデータベースＡ及びデータベースＢと呼ぶことになる、生体紋様データベースのトレーニングに続いて実施される。データベースＡには、１，１１７個の潜在指紋、及び良好品質の同等物（ＴＰ）が含まれ、データベースＢには、１００，０００個の指紋ＴＰが含まれ、ノイズデータベースとして機能する。

表１は、潜在画像の処理に関して、ＭＲＣＮＮ−Ｉｄｅｍｉａがより高速であるだけでなく、ランク１０において、処理なし（「なし」）、「グラウンドトゥルース」（すなわち、手動でセグメント化された画像）、及びＦｉｎｇｅｒＮｅｔソリューション（従来技術）と比較して、精度が更に改善されることを示している。ランク１０（１０個の候補を調べる）は、ランク１（最良の候補のみを調べる）よりも、潜在物に対してより高い関連性を有していることが想起される。

これは、図６に示されるように、非常に高速の処理にもかかわらず得られるセグメンテーションマスクの品質に起因する。

コンピュータプログラム製品
第２及び第３の態様によれば、本発明は、（特にサーバ１及び／又はクライアント２のデータ処理手段１１、２１上で）入力画像上で可視である少なくとも１つの対象要素を検出する方法を実行するためのコード命令、並びにコンピュータプログラム製品が配置されているコンピュータ機器（サーバ１及び／又はクライアント２のメモリ１２、２２）によって読み取り可能な記憶手段、を含むコンピュータプログラム製品に関する。

Claims

畳み込みニューラルネットワーク、すなわちＣＮＮによって、入力画像上で可視である少なくとも１つの対象要素を検出する方法であって、前記方法は、クライアント（２）のデータ処理手段（２１）によって、
（ａ）特徴ピラミッドネットワーク、すなわちＦＰＮ、タイプの前記ＣＮＮの第１のサブネットワークの上昇分岐によって、異なるスケールで前記入力画像を表す複数の初期特徴マップ（Ｃ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５）を抽出するステップであって、前記ＦＰＮは、下降分岐及び前記上昇分岐と前記下降分岐との間の横方向接続を更に含み、それぞれの横方向接続は、前記ＦＰＮの前記上昇分岐から前記下降分岐に、一意的に関連付けられている初期特徴マップ（Ｃ２、Ｃ３、Ｃ４、Ｃ５）を伝達し、最小スケールの初期特徴マップ（Ｃ５）以外の初期特徴マップ（Ｃ２、Ｃ３、Ｃ４）に関連付けられた少なくとも１つの横方向接続は、アテンションモジュールを含む、初期特徴マップを抽出するステップと、
（ｂ）前記ＦＰＮの前記下降分岐によって、異なるスケールで前記入力画像も表す複数のエンリッチ特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５）を生成するステップであって、それぞれのエンリッチ特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５）は、より小さい又は等しいスケールの前記初期特徴マップ（Ｃ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５）から情報を組み込んでいる、複数のエンリッチ特徴マップを生成するステップと、
（ｄ）検出ネットワークと呼ばれる、前記ＣＮＮの第２のサブネットワークによって、入力画像上で可視である少なくとも１つの対象要素を検出するステップであって、前記エンリッチ特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５）を入力として使用する、少なくとも１つの対象要素を検出するステップと、
の実施を含むことを特徴とする、方法。
それぞれのエンリッチ特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５）に対して、同じスケールの初期特徴マップ（Ｃ２、Ｃ３、Ｃ４、Ｃ５）が、前記初期特徴マップ（Ｃ２、Ｃ３、Ｃ４、Ｃ５）と一意的に関連付けられた前記横方向接続を介して、前記ＦＰＮの前記上昇分岐から前記下降分岐に伝達される、請求項１に記載の方法。
最大スケールの初期特徴マップ（Ｃ１）は、前記ＦＰＮの前記上昇分岐から前記下降分岐に伝達されない、請求項１又は２に記載の方法。
最小スケールのエンリッチ特徴マップ（Ｐ５）は、最小スケールの初期特徴マップ（Ｃ５）から生成され、それぞれの他のエンリッチ特徴マップ（Ｐ２、Ｐ３、Ｐ４）は、同じスケールの前記初期特徴マップ（Ｃ２、Ｃ３、Ｃ４）及びより小さいスケールのエンリッチ特徴マップ（Ｐ２、Ｐ３、Ｐ４）から生成される、請求項１〜３のいずれか一項に記載の方法。
前記最小スケールのエンリッチ特徴マップ（Ｐ５）以外の少なくとも１つのエンリッチ特徴マップ（Ｐ２、Ｐ３、Ｐ４）は、前記アテンションモジュールによってフォーカスされた前記初期特徴マップ（Ｃ２、Ｃ３、Ｃ４）、及び前記初期特徴マップ（Ｃ２、Ｃ３、Ｃ４）と同じスケールにスケーリングされたより小さいスケールのエンリッチ特徴マップ（Ｐ３、Ｐ４、Ｐ５）を追加することによって生成される、請求項１〜４のいずれか一項に記載の方法。
前記最小スケールの初期特徴マップ（Ｃ５）に関連付けられた前記横方向接続は、第１のタイプのアテンションモジュールを含み、前記最小スケールの初期特徴マップ（Ｃ５）以外の初期特徴マップ（Ｃ２、Ｃ３、Ｃ４）に関連付けられた前記横方向接続の前記アテンションモジュールは、第２のタイプである、請求項１〜５のいずれか一項に記載の方法。
前記最小スケールの初期特徴マップ（Ｃ５）以外の初期特徴マップ（Ｃ２、Ｃ３、Ｃ４）に関連付けられたそれぞれの横方向接続は、前記第２のタイプのアテンションモジュールを含む、請求項６に記載の方法。
前記第１のタイプのアテンションモジュールは、特徴ピラミッドアテンション、すなわちＦＰＡ、モジュールであり、及び／又は前記第２のタイプのアテンションモジュールは、グローバルアテンションアップサンプル、すなわちＧＡＵ、モジュールである、請求項７に記載の方法。
領域提案ネットワーク、すなわちＲＰＮ、タイプの前記ＣＮＮの第３のサブネットワークによって、前記エンリッチ特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５）内で、対象要素を潜在的に含む対象領域を識別するステップ（ｃ）を更に含む、請求項１〜８のいずれか一項に記載の方法。
ステップ（ｃ）は、識別された対象領域に従って、それぞれのエンリッチ特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５）のＣＮＮトリミングモジュールによる前記再アラインメントを含み、ステップ（ｄ）は、前記再アラインされたエンリッチ特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５）上で実施される、請求項９に記載の方法。
サーバ（１）のデータ処理手段（１１）による、前記ＣＮＮのパラメータの、既にアノテーションされた対象要素の画像データベースからの前のトレーニングステップ（ａ０）を含む、請求項１〜１０のいずれか一項に記載の方法。
ステップ（ｄ）は、前記入力画像をセグメント化することを含む、請求項１〜１１のいずれか一項に記載の方法。
前記対象要素は生体紋様であり、前記方法は、前記入力画像によって表されるそれぞれの生体紋様から前記所望の特徴を抽出するための、前記セグメント化された入力画像の処理ステップ（ｅ）を含む、請求項１２に記載の方法。
前記生体紋様は指紋であり、前記入力画像によって表される前記少なくとも１つの指紋から抽出すべき前記所望の特徴は、特徴点の位置及び／又は向きを含む、請求項１３に記載の方法。
前記入力画像によって表される前記少なくとも１つの生体紋様は個人のものであり、前記方法は、前記入力画像によって表される前記生体紋様から抽出された前記所望の特徴を、前記参照生体紋様特徴と比較することによって、前記個人を識別又は認証するステップ（ｆ）を更に含む、請求項１３又は１４に記載の方法。
前記プログラムがコンピュータ上で実行されると、入力画像内で可視である少なくとも１つの対象要素を検出する、請求項１〜１５のいずれか一項に記載の方法を実行するためのコード命令を含むコンピュータプログラム製品。
コンピュータプログラム製品が入力画像内で可視である少なくとも１つの対象要素を検出する、請求項１〜１５のいずれか一項に記載の方法を実行するためのコード命令を含む、コンピュータ機器によって読み取り可能な記憶手段。