JP2021089730A - 畳み込みニューラルネットワークによって、入力画像内で可視である少なくとも1つの対象要素を検出する方法 - Google Patents
畳み込みニューラルネットワークによって、入力画像内で可視である少なくとも1つの対象要素を検出する方法 Download PDFInfo
- Publication number
- JP2021089730A JP2021089730A JP2020199636A JP2020199636A JP2021089730A JP 2021089730 A JP2021089730 A JP 2021089730A JP 2020199636 A JP2020199636 A JP 2020199636A JP 2020199636 A JP2020199636 A JP 2020199636A JP 2021089730 A JP2021089730 A JP 2021089730A
- Authority
- JP
- Japan
- Prior art keywords
- feature map
- enriched
- input image
- map
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/12—Fingerprints or palmprints
- G06V40/1347—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
【課題】畳み込みニューラルネットワーク(CNN)によって、入力画像内で可視である少なくとも1つの対象要素を検出する方法を提供する。【解決手段】方法は、特徴ピラミッドネットワーク(FPN)タイプのCNNの第1のサブネットワークの上昇分岐によって、異なるスケールで入力画像を表す複数の初期特徴マップを抽出するステップと、FPNの下降分岐によって異なるスケールで入力画像も表す複数のエンリッチ特徴マップを生成するステップと、検出ネットワークと呼ばれる当該CNNの第2のサブネットワークによって入力画像上で可視である少なくとも1つの対象要素を検出するステップとを含む。【選択図】図4
Description
本発明は、生体測定の分野に関し、具体的には、畳み込みニューラルネットワークによって、入力画像内で、特に少なくとも1つの生体紋様で可視である少なくとも1つの対象要素を検出するための方法、並びに畳み込みニューラルネットワークをトレーニングする方法を提案する。
生体認証/識別は、指紋(指紋認識)、掌紋、網膜紋、虹彩、顔(顔認識)などの個人の生体認証特性に基づく個人の認識で構成される。
従来の生体計測アプローチでは、取得した生体計測値から抽出された、特徴と呼ばれる生体認証特性の特性情報を使用し、これらの特性の比較に基づいてトレーニング/分類が行われる。
特に、指紋認識の場合、指先画像は、3つのカテゴリに分類され得る指紋の特徴を抽出するように処理される。
−レベル1は、この指紋の一般的なパターン(4つのクラスのうちの1つ、すなわち、右蹄状紋、左蹄状紋、弓状紋、及び渦巻き)、並びに***部の全体的なアウトライン(特に、指紋のそれぞれの点における***部の一般的な方向を表す「Ridge Flow Matrix」(RFM)マップと呼ばれる向きマップが得られる)を定義する。
−レベル2は、***部に沿った「イベント」(***部の端部、分岐など)である、特徴点と呼ばれる指紋の特定の点を定義する。従来の認識アプローチは、本質的にこれらの特徴を使用する。
−レベル3は、***部の形状、皮膚の毛穴、瘢痕などのより複雑な情報を定義する。
−レベル1は、この指紋の一般的なパターン(4つのクラスのうちの1つ、すなわち、右蹄状紋、左蹄状紋、弓状紋、及び渦巻き)、並びに***部の全体的なアウトライン(特に、指紋のそれぞれの点における***部の一般的な方向を表す「Ridge Flow Matrix」(RFM)マップと呼ばれる向きマップが得られる)を定義する。
−レベル2は、***部に沿った「イベント」(***部の端部、分岐など)である、特徴点と呼ばれる指紋の特定の点を定義する。従来の認識アプローチは、本質的にこれらの特徴を使用する。
−レベル3は、***部の形状、皮膚の毛穴、瘢痕などのより複雑な情報を定義する。
指紋から(特徴マップの形態で)特徴を抽出する方法は、「符号化」と呼ばれ、これにより、分類の最終フェーズで有用な情報を符号化する「テンプレート」と呼ばれるシグネチャを構成することを可能にする。より具体的には、分類は、得られた特徴マップを、既知の個人に関連付けられた1つ以上の参照特徴マップと比較することによって行われる。
ここで、比較的標準化された方法で(例えば、生体計測システム端末で)得られた指紋からの特徴を抽出するこの操作を効率的に実行することができる利用可能な「エンコーダ」が存在するが、いわゆる潜在指紋、例えば、犯罪シーンで発見されたものには困難である。同じ識別情報の指紋の2つの画像は、互いに対して強い回転、掩蔽、及び歪みのセットを有することができる。加えて、潜在指紋の背景は、一般的に非常にノイズが多く、この背景において特徴点が誤って識別され得るリスクが存在する。
結果として、潜在指紋の自動処理は、それをエンコーダに提供する前に、分離しようとするそれぞれの潜在指紋を手動で「取り囲む」ことからなる、専門家によって実行されるタスクが現在、先行されている。このタスクは、潜在指紋のセグメンテーション操作に対する量になり、取り囲まれたゾーンは「セグメンテーションマスク」と呼ばれ、そのため、タスクは自動的に実行されることが望ましい。
専用の畳み込みニューラルネットワーク(CNN)は、U−Netネットワーク(出版物、RONNEBERGER、Olaf、FISCHER、Philipp、及びBROX,Thomasによる、U−Net:Convolutional networks for biomedical image segmentation、用画像コンピューティング及びコンピュータ支援介入に関する国際会議、Springer、Cham、2015.p.234〜241を参照)、又はMask R−CNNネットワーク(出版物、Kaimgia Gkioxari Piotr Doll’ar Ross Girshickによる、Mask R−CNN,Facebook AI Research(FAIR),20 Mar 2017を参照)などから既知であるが、実際には、指紋の結果が期待に応えていないことが見出されている。
より最近では、CNN FingerNet(TANG、Yao、GAO、Fei、FENG、Jufuらによる、Fingernet:An unified deep network for fingerprint minutiae extraction.2017 IEEE バイオメトリクスに関する国際合同会議(IJCB),EEE,2017.p.108〜116)を参照)、により、とりわけ、このセグメンテーションタスクを可能にするが、実際の使用には非常に面倒で複雑であることがわかっている。
したがって、それらの特徴を抽出するために、画像、特に潜在指紋などの生体紋様のセグメンテーションに対する、より効率的かつ厄介さが少ないソリューションを有することが望ましい。
第1の態様によれば、本発明は、畳み込みニューラルネットワーク、すなわちCNNによって、入力画像上で可視である少なくとも1つの対象要素を検出する方法に関し、この方法は、クライアントのデータ処理手段によって、
(a)特徴ピラミッドネットワーク、FPN、タイプの当該CNNの第1のサブネットワークの上昇分岐によって、異なるスケールで入力画像を表す複数の初期特徴マップを抽出することであって、当該FPNは、下降分岐及び上昇分岐と下降分岐との間の横方向接続を更に含み、少なくとも1つの横方向接続がアテンションモジュールを含む、初期特徴マップを抽出すること、
(b)FPNの当該下降分岐によって、異なるスケールで入力画像も表す複数のエンリッチ特徴マップを生成することであって、それぞれのエンリッチ特徴マップは、より小さい又は等しいスケールの初期特徴マップからの情報を組み込んでいる、複数のエンリッチ特徴マップを生成すること、
(d)検出ネットワークと呼ばれる、当該CNNの第2のサブネットワークによって、入力画像上で可視である少なくとも1つの対象要素を検出することであって、当該エンリッチ特徴マップを入力として使用する、少なくとも1つの対象要素を検出すること
の実施を含むことを特徴とする。
(a)特徴ピラミッドネットワーク、FPN、タイプの当該CNNの第1のサブネットワークの上昇分岐によって、異なるスケールで入力画像を表す複数の初期特徴マップを抽出することであって、当該FPNは、下降分岐及び上昇分岐と下降分岐との間の横方向接続を更に含み、少なくとも1つの横方向接続がアテンションモジュールを含む、初期特徴マップを抽出すること、
(b)FPNの当該下降分岐によって、異なるスケールで入力画像も表す複数のエンリッチ特徴マップを生成することであって、それぞれのエンリッチ特徴マップは、より小さい又は等しいスケールの初期特徴マップからの情報を組み込んでいる、複数のエンリッチ特徴マップを生成すること、
(d)検出ネットワークと呼ばれる、当該CNNの第2のサブネットワークによって、入力画像上で可視である少なくとも1つの対象要素を検出することであって、当該エンリッチ特徴マップを入力として使用する、少なくとも1つの対象要素を検出すること
の実施を含むことを特徴とする。
他の有利かつ非限定的な特性によれば、
それぞれのエンリッチ特徴マップに対して、同じスケールの初期特徴マップが、この初期特徴マップと一意的に関連付けられた横方向接続を介して、FPNの上昇分岐から下降分岐に伝達される。
それぞれのエンリッチ特徴マップに対して、同じスケールの初期特徴マップが、この初期特徴マップと一意的に関連付けられた横方向接続を介して、FPNの上昇分岐から下降分岐に伝達される。
初期のより大きいスケールの特徴マップは、FPNの上昇分岐から下降分岐に伝達されない。
最小スケールのエンリッチ特徴マップは、最小スケールの初期特徴マップから生成され、それぞれの他のエンリッチ特徴マップは、同じスケールの初期特徴マップ及びより小さいスケールのエンリッチ特徴マップから生成される。
それぞれの横方向接続は、当該横方向接続を介して伝達された初期特徴マップにフォーカスさせるための、アテンションモジュールを含む。
それぞれの他のエンリッチ特徴マップは、アテンションモジュールによってフォーカスされた初期特徴マップ、及び当該初期特徴マップと同じスケールにスケーリングされた最小スケールのエンリッチ特徴マップを追加することによって生成される。
最小スケールの初期特徴マップに関連付けられた横方向接続は、第1のアテンションモジュールを含み、それぞれの他の横方向接続は、第2のアテンションモジュールを含む。
第1のアテンションモジュールは、特徴ピラミッドアテンションモジュール、すなわちFPAであり、及び/又は第2のアテンションモジュールは、アップサンプリングのためのグローバルアテンションモジュール、すなわちGAUである。
本方法は、領域提案ネットワーク、すなわちRPN、タイプの当該CNNの第3のサブネットワークによって、エンリッチ特徴マップ内で、対象要素を潜在的に含む対象領域を識別するステップ(c)を更に含む。
ステップ(c)は、識別された対象領域に従って、それぞれのエンリッチ特徴マップのCNNトリミングモジュールによる再アラインメントを含み、ステップ(d)は、再アラインされたエンリッチ特徴マップ上で実施される。
本方法は、サーバのデータ処理手段による、当該CNNのパラメータの、既にアノテーションされた対象要素の画像データベースからの前のトレーニングステップ(a0)を含む。
ステップ(d)は、入力画像をセグメント化することを含む。
対象要素は生体紋様であり、本方法は、当該入力画像によって表されるそれぞれの生体紋様から当該所望の特徴を抽出するための、当該セグメント化された入力画像の処理ステップ(e)を含む。
当該生体紋様は指紋であり、当該入力画像によって表される少なくとも1つの指紋から抽出すべき所望の特徴は、特徴点の位置及び/又は向きを含む。
入力画像によって表される少なくとも1つの生体紋様は個人のものであり、本方法は、当該入力画像によって表される生体紋様から抽出された所望の特徴を、参照生体紋様特徴と比較することによって、当該個人を識別又は認証するステップ(f)を更に含む。
第2及び第3の態様によれば、入力画像内で可視である少なくとも1つの対象要素を検出する第1の態様による方法を実行するためのコード命令と、コンピュータ機器によって読み取り可能な記憶手段と、を備えるコンピュータプログラム製品が提案され、記憶手段上でコンピュータプログラム製品が、入力画像内で可視である少なくとも1つの対象要素を検出する第1の態様による方法を実行するためのコード命令を含む。
本発明の他の特徴及び利点は、好ましい実施形態の以下の説明を読むと明らかになるであろう。この説明は、添付図面を参照して与えられる。
本発明による方法を実施するためのアーキテクチャの図である。
Mask R−CNN畳み込みニューラルネットワークの既知の実施例を示す。
Mask R−CNN畳み込みニューラルネットワークの特徴ピラミッドサブネットワークの既知の実施例を示す。
本発明による方法の実施のための、畳み込みニューラルネットワークの特徴ピラミッドサブネットワークの一実施例を示す。
本発明による方法の好ましい実施形態のステップを示す。
アップサンプリングのためのグローバルアテンションモジュールの一実施例を示す。
特徴ピラミッドアテンションモジュールの一実施例を示す。
従来技術で得られたセグメンテーションマスクの実施例と、本発明による方法の実施形態とを比較している。
アーキテクチャ
本発明の2つの追加の態様によれば、以下が提案される。
−入力画像、特に少なくとも1つの生体紋様内で可視である少なくとも1つの対象要素を、畳み込みニューラルネットワーク、すなわちCNNによって、及び必要に応じて、入力画像によって表される少なくとも1つの生体紋様から所望の特徴を抽出することによって検出する方法、
−当該CNNのパラメータのトレーニング方法。
本発明の2つの追加の態様によれば、以下が提案される。
−入力画像、特に少なくとも1つの生体紋様内で可視である少なくとも1つの対象要素を、畳み込みニューラルネットワーク、すなわちCNNによって、及び必要に応じて、入力画像によって表される少なくとも1つの生体紋様から所望の特徴を抽出することによって検出する方法、
−当該CNNのパラメータのトレーニング方法。
入力データ又はトレーニングデータは画像タイプであり、その中で少なくとも1つの対象要素が可視である。
ここで、「対象要素」という用語は、画像内で検出が所望されるエンティティの画像内の任意の表現を指す。それぞれの対象要素は、セマンティックな意味でのタイプに対応する1つの所与のカテゴリからのものである。例えば、人、顔、車両、生体紋様などのカテゴリを考慮することができる。
それぞれの対象要素は、好ましくは、生体紋様、すなわち生体認証特性(換言すれば、これらは少なくとも1つの生体認証特性を表す画像である)であり、有利には、指紋、掌紋、網膜紋などから選択され、一般には、画像によって表され、個人に一意的に関連付けられ得る任意の模様から選択される。好ましくは、当該生体紋様は指紋であり、この実施例は、説明の残りの部分で取り上げられる(追って分かるように、本方法は、特に潜在指紋の場合に最も特に効果的である)。
「検出」又は「認識」は、最も基本的な操作であり、画像内の既知のカテゴリから対象要素の単純なマーキングを指定する。このように、検出は、位置特定(典型的には、対象要素を囲む、検出ボックスと呼ばれるボックスの位置及びサイズの決定)、及び分類(そのカテゴリの決定)を組み合わせる。
したがって、対象要素の検出は、実際には、生体紋様などの対象要素、例えば、(そのサイズ及び位置によって定義される)検出ボックスと呼ばれる、対象要素を取り囲むボックスを含む、ゾーン又は入力画像のゾーンを入力画像内で位置特定する、ある種の1つ以上の「アノテーション」の生成を含む。
検出がより具体的には「セグメンテーション」である好ましい場合では、生成されたアノテーションは、入力画像の「セグメンテーションマスク」(又はセグメンテーションマップ)(例えば、図6を参照)、すなわち、初期画像と同じサイズのバイナリ画像である。具体的には、セグメンテーションマスク内の対応する「白色」画素を有する入力画像内の画素は、対象要素の画素であるとみなされ、セグメンテーションマスク内の対応する「黒色」画素を有する入力画像内の画素は、背景画素(したがって、対象でない)であるとみなされる。
セグメンテーションマスク内の白色画素の関連するセットが、検出された対象要素であり、同じ入力画像上に生体紋様など、対象要素がいくつかあり得ると推測される場合(特に、個人がいくつかの指を隣同士で表面に配置し得る潜在指紋の場合)、入力画像にマスクを適用することにより、検出された各指紋を専門家が手動で取り囲むのと同じ方法で、そこに表されているそれぞれの生体紋様が分離される。セグメンテーションマスクの利点は、一方で、検出がより精緻化され(対象要素のアウトラインが利用可能である)、他方で、画像の背景が「隠され」、その結果、この背景の詳細によって影響を受けることなく他の画像処理アルゴリズムを実施することができることである。
特徴の基礎となる任意選択の抽出は、典型的には、マスクの結果として、検出された又は更には分離された指紋を「符号化する」ことを含み、すなわち、抽出される当該所望の特徴は、典型的には「生体計測」特徴であり、すなわち、分類(個人の識別/認証、以下を参照)を実行する目的で、指紋のテンプレートが個人の生体認証特性として構成されることを可能にする、「最終的な」特徴である。したがって、指紋の場合、当該所望の特徴は、典型的には特徴点を記述し、すなわち、特徴点の位置及び/又は向きを含む。しかしながら、本方法は、この実施形態に限定されるものではなく、生体計測で対象となり得る全ての特徴を抽出できることを理解されたい。
本方法は、サーバ1及びクライアント2によって、図1に示すようなアーキテクチャ内で実施される。サーバ1は、(トレーニング方法を実施する)トレーニングデバイスであり、クライアント2は、(検出/セグメンテーション方法、及び必要に応じて特徴抽出方法を実施する)使用デバイス、例えばユーザ端末である。
2つのデバイス1、2が組み合わされるが、好ましくは、サーバ1は、セキュリティソリューションプロバイダのものであり、クライアント2は、カスタマーデバイス、特に生体紋様スキャナだけでなく、スマートフォン、パーソナルコンピュータなどでもあることで、完全に実現可能である。クライアントデバイス2は、有利にも、典型的にはライブ処理のために、当該入力画像を直接キャプチャすることができるように、光学キャプチャ手段23を含み、あるいは、入力画像は、クライアントデバイス2上にロードされる(例えば、潜在指紋は、法医学チームによって犯罪シーンで撮影され、次いで、これらの写真が、法医学施設における専用のクライアントデバイス2上にロードされ得る)。
いずれの場合も、それぞれのデバイス1、2は、典型的には、データ交換のためにインターネットなどの拡張ネットワーク10に接続されたリモートコンピュータ機器である。それぞれは、プロセッサタイプのデータ処理手段11、21と、コンピュータメモリ、例えばフラッシュメモリ又はハードディスクなどのデータ記憶手段12、22と、を備える。
サーバ1は、実際に処理されることが求められるいわゆる入力画像とは対照的に、トレーニングデータベース、すなわち、既にアノテーションされている(すなわち、例えば、セグメンテーションマスクが既に利用可能である)画像のセットを記憶する。
Mask R−CNN
説明されるように、Mask R−CNNネットワークは特に既知であり、そのアーキテクチャが図2に示されている。この図2を参照すると、Mask R−CNNは、2つのセットに分割されたCNNであり、マークされたステージ1及びステージ2である。本発明は、Mask R−CNNと同様のアーキテクチャを有するCNNにフォーカスさせる。
説明されるように、Mask R−CNNネットワークは特に既知であり、そのアーキテクチャが図2に示されている。この図2を参照すると、Mask R−CNNは、2つのセットに分割されたCNNであり、マークされたステージ1及びステージ2である。本発明は、Mask R−CNNと同様のアーキテクチャを有するCNNにフォーカスさせる。
「ステージ1」は、入力画像の前処理を可能にし、本質的に、第1の特徴ピラミッドネットワーク(FPN)サブネットワークを含み、その動作については、以下でより詳細に説明する。
「ステージ2」又は「ヘッド」は、検出を完了し、終了する(所望の出力、すなわち、検出された対象要素のセグメンテーションマスク、並びに/又は1つ以上の検出ボックス及び/若しくはクラスを生成する)。この点に関して、ヘッドは、検出ネットワークと呼ばれる第2のサブネットワークを構成し、多くのタイプの、特に完全接続ネットワーク(FCN)であってもよい。
Mask R−CNNのステージ1はまた、検出ネットワークでもある領域提案ネットワーク(RPN)タイプの第3のサブネットワーク、及びトリミングモジュール(「ROIアライン、ROIは「対象領域」を意味する)を含む。FPNは、FPN出力の特徴マップ(すなわち、対象要素を含む可能性が高い)の潜在的な対象領域を識別し、トリミングモジュールは、検出ネットワークの動作を容易にするために、これらの対象領域の座標に従って特徴マップを「再アライン」する。
追って分かるように、本CNNは、少なくとも第1のFPNタイプネットワーク及び第2の検出ネットワークタイプサブネットワーク、並びに任意選択的に、第3のRPNタイプサブネットワーク及びトリミングモジュールを含む。
FPN
FPN(第1のサブネットワーク)は、Mask R−CNNネットワークの最も重要な部分である。それは、図3aでより詳細に示されている。
FPN(第1のサブネットワーク)は、Mask R−CNNネットワークの最も重要な部分である。それは、図3aでより詳細に示されている。
FPNは、上昇分岐(「ボトムアップ」)、及び次いで下降分岐(「トップダウン」)、並びに上昇分岐と下降分岐との間の横方向接続で構成されるという点で異なる。
全体としてネットワークのバックボーンとしても既知である上昇分岐は、多くのタイプであり得る従来の特徴抽出ネットワーク、特に従来のCNN(畳み込み層の直接連続ブロックCONV、バッチ正規化層BN、及び非線形層NL)である。バックボーンは、異なるスケールで入力画像を表す複数の初期特徴マップC1、C2、C3、C4、C5を、入力画像から抽出する。より正確には、バックボーンは、複数の連続する畳み込みブロックからなり、それによって第1のブロックが、入力画像から第1の初期特徴マップC1を生成し、次いで、第2のブロックが、第2の初期特徴マップC2を第1の初期特徴マップC1に対して生成する、などである。図示の実施例では、5つのブロックが存在する(したがって、5つの初期マップ、しかしそれよりも少ない又は多いブロックを有することも可能である)。
従来は、畳み込みニューラルネットワークの場合、それぞれの連続するマップでスケールがより小さくなる(換言すれば、分解能が低下すると、特徴マップが「より小さく」なり、したがって詳細度が低下する)が、ますます高レベルの構造の画像がキャプチャされているため、セマンティック深度がより増大することが理解されている。具体的には、初期特徴マップは、そのサイズが減少するにつれて、チャネルの数を増大させる。
実際には、プーリング層が2つのブロックの間に配置されて、サイズを2分の1に減少させ、1つのブロックから他のブロックに、使用される畳み込み層のフィルタの数(一般に、3×3畳み込み)が増大され(好ましくは2倍にされ)、図3aの5レベルのケースでは、例えば、32、64、128、256、及び512の連続するチャネル番号、及び512x512、256x256、128x128、64x64、及び32x32の(512x512入力画像に対する)連続するマップサイズが存在する。
好ましい実施形態によれば、当該バックボーン(FPNの上昇分岐)は、残差ネットワークタイプのものである。残差ネットワーク、つまりResNetは、脳のピラミッドニューロンに見られるものと類似していることから、少なくとも1つの「スキップ接続」(又は単純に「ショートカット」)、すなわち、少なくとも1つの層が「短絡される」接続を有するCNNである。実際には、ブロック毎に少なくとも1つのスキップ接続が存在する。
実際に、層を追加してモデルをより複雑にすると、これらの層のうちのいくつかは、モデルの性能に悪影響を及ぼし得る。残差接続は、有用な変換が学習されない場合、1つの層は、最悪でも識別情報を学習しなければならず、他の層の性能を劣化させることを回避することを保証する。残差ネットワークの背後にある動作原理は、畳み込み層の入口及び出口を点ごとに追加し、信号が表層からより深い層に伝搬することを可能にすることである。
バックボーン(FPNの上昇分岐)は、「密に接続された」ネットワークタイプ(又は単純に高密度ネットワーク、つまりDenseNet)とすることもでき、すなわち、少なくとも1つのスキップ接続を有するだけでなく、各ブロックが高密度であると言われ、すなわち、全ての可能なスキップ接続が含まれ、すなわち、各スキップ接続が、ブロックの第1層の入力を、第1の層の下流のブロックの第2の層の出力にリンクする。
上昇分岐によって得られた特徴マップC1、C2、C3、C4、C5は、下降分岐によって再処理されることになるため、初期であると言われる。実際に、説明されるように、「低」マップは、より高い空間分解能を有するが、浅いセマンティック深度を有する。下降分岐は、「高」マップにおける情報によって、それらのセマンティック深度を増大させることを目的とする。
したがって、FPNの当該下降分岐は、初期特徴マップC1、C2、C3、C4、C5から、異なるスケールで入力画像を常に表す複数のエンリッチ特徴マップP2、P3、P4、P5を生成するが、初期特徴マップC1、C2、C3、C4、C5からの情報をより小さい又は等しいスケールで組み込んでいる。
換言すれば、それぞれのエンリッチマップPiは、対応する初期マップCi(すなわち、同じサイズ)のスケールを有するが、各j≧iに対して、全てのマップ{Cj}の情報を組み込んでいる。実際には、それぞれのエンリッチマップPiは、対応する初期マップCi及び/又は次のエンリッチマップPi+1、それゆえ、分岐の「上昇及び下降」の性質(すなわち、「U」字形状)に従って生成され、初期マップC1、C2、C3、C4、C5は上昇順で取得され(C1次いでC2次いでC3次いでC4次いでC5)、その後、エンリッチマップは下降順(P5次いでP4次いでP3次いでP2)で取得される。
実際には、最大セマンティックレベルは、最後のマップC5において取得され、そこから、それぞれのCiマップが、既にエンリッチされたマップC5...Ci+1の情報で再び戻る途中でエンリッチされる。上昇分岐と下降分岐との間の横方向接続は、様々な初期マップと共に下降分岐を提供する。
実際には、
−最後のエンリッチマップP5は、(後者が既に最大のセマンティック深度を有するため)最後の初期マップC5からのみ生成される。P5=C5を有することが可能であるが、一般に、1×1畳み込みを使用して、チャネルの数)を(例えば、2分の1、すなわち256に低減させることが可能であることに留意されたい。
−最後から2番目のエンリッチマップP4は、(横方向接続を介して供給された)最後から2番目の初期マップC4及び最後のエンリッチマップP5から生成されて、エンリッチマップP5のセマンティック深度を初期マップC4に追加する、
−エンリッチマップP3は、(横方向接続を介して提供された)初期マップC3及びエンリッチマップP4から生成されて、エンリッチマップP4のセマンティック深度を初期マップC3に追加する、
−エンリッチマップP2は、(横方向接続を介して提供された)初期マップC2及びエンリッチマップP3から生成されて、エンリッチマップP3のセマンティック深度を初期マップC2に追加する、
−有利には、初期マップC1から生成されたエンリッチマップP1は存在せず、それは、後者が非常に高い空間分解能を有し、この任意選択のエンリッチマップP1が特に大きくなり得るからである。
−最後のエンリッチマップP5は、(後者が既に最大のセマンティック深度を有するため)最後の初期マップC5からのみ生成される。P5=C5を有することが可能であるが、一般に、1×1畳み込みを使用して、チャネルの数)を(例えば、2分の1、すなわち256に低減させることが可能であることに留意されたい。
−最後から2番目のエンリッチマップP4は、(横方向接続を介して供給された)最後から2番目の初期マップC4及び最後のエンリッチマップP5から生成されて、エンリッチマップP5のセマンティック深度を初期マップC4に追加する、
−エンリッチマップP3は、(横方向接続を介して提供された)初期マップC3及びエンリッチマップP4から生成されて、エンリッチマップP4のセマンティック深度を初期マップC3に追加する、
−エンリッチマップP2は、(横方向接続を介して提供された)初期マップC2及びエンリッチマップP3から生成されて、エンリッチマップP3のセマンティック深度を初期マップC2に追加する、
−有利には、初期マップC1から生成されたエンリッチマップP1は存在せず、それは、後者が非常に高い空間分解能を有し、この任意選択のエンリッチマップP1が特に大きくなり得るからである。
好ましくは、対応する初期マップCi及びより高いエンリッチマップPi+1に基づくエンリッチマップPiの生成は(すなわち、第2のエンリッチマップを除く全ての場合)、エンリッチマップPi+1の再スケーリングすること、例えば、最近傍法を介して、次いで、初期マップCi(必要に応じて、1x1畳み込みを介して適合されたチャネル数で)と、スケーリングされたエンリッチマップPi+1(ここでは、両方のマップが同じサイズであるため)との要素毎の合計によって、上昇分岐でスケールが半分になった(アップサンプリングと呼ばれる)場合に、典型的にはスケールを2倍にすることと、を含む。
したがって、全てのエンリッチマップP2、P3、P4、及びP5は、最終的に、同じ数のチャネル(図示の実施例では256)を有する。
原理
本発明者らは、Mask R−CNNネットワーク「オーバーセグメント」を見出した。これは、背景の要素を対象要素と間違って見なすことを意味する。より正確には、対象要素は正確に検出され、画素レベルにおいて問題が生じる。
本発明者らは、Mask R−CNNネットワーク「オーバーセグメント」を見出した。これは、背景の要素を対象要素と間違って見なすことを意味する。より正確には、対象要素は正確に検出され、画素レベルにおいて問題が生じる。
したがって、これは、単純な検出に必ずしも影響を及ぼすものではない(検出ボックスはちょっとだけ大きすぎてもよい)が、セグメンテーションマスクに対して特に明白である。例えば、図6を参照すると、上部のラインは潜在指紋を表し、中間のラインは、Mask R−CNNそのままを介して得られたセグメンテーションマスクを表すが、これらのマスクが、左画像の背景からの文字「E」のフラグメントなどの偽の要素を組み込んでいることが明らかに分かる。セグメンテーションマスクは対象の要素を背景から可能な限り厳密に区別する必要があるため、これは問題である。
実際に、エンリッチ特徴マップ内に全ての情報を保持するという思想には、対象要素ではなく、背景に関連する「無用な」情報もまた保持され、それゆえ、オーバーセグメンテーションのリスクを意味することが観察される。
本方法の思想は、無用な情報を破壊するために、上昇分岐と下降分岐との間の「アテンション」を改善する手段を、FPNに組み込むことである。
それぞれの横方向接続は、初期特徴マップC2、C3、C4、C5に一意的に関連付けられ、この特徴マップを、FPNの上昇分岐から下降分岐に伝達することが想定されている。特に、少なくとも1つのエンリッチ特徴マップP2、P3、P4、P5(及び好ましくは、それぞれのエンリッチ特徴マップP2、P3、P4、P5)に対して、同じスケールの初期特徴マップC2、C3、C4、C5が、この初期特徴マップC2、C3、C4、C5と一意的に関連付けられた横方向接続を介して、FPNの上昇分岐から下降分岐に伝達される。
好ましくは、最大スケールの初期特徴マップC1以外のそれぞれの初期特徴マップC2、C3、C4、C5に対する横方向接続が存在し(すなわち、最大スケールの初期特徴マップC1は、FPNの上昇分岐から下降分岐に伝達されない)、かつ/又はそれぞれのエンリッチ特徴マップP2、P3、P4、P5としての、それぞれのエンリッチ特徴マップP2、P3、P4、P5に対する横方向接続は、少なくとも小さいスケールの初期特徴C2、C3、C4、C5から生成され、特に、最小スケールのエンリッチ特徴マップP5は、最小スケールの初期特徴マップC5からのみ生成され、それぞれの他のエンリッチ特徴マップP2、P3、P4が、カスケード内の同じスケール及びより小さいスケールのエンリッチ特徴マップP3、P4、P5の初期特徴マップC2、C3、C4から生成される。
具体的には、FPNの横方向接続のうちの少なくとも1つは、アテンションモジュール、特に、最小スケールの初期特徴マップC5以外の初期特徴マップC2、C3、C4に関連付けられた横方向接続を含み、有利には、最小スケールの初期特徴マップC5に関連付けられた横方向接続もまた、アテンションモジュール、好ましくはそれぞれの横方向接続を含む。横方向接続のアテンションモジュールは、当該横方向接続(すなわち、それが関連付けられている接続)を介して伝達された初期特徴マップC2、C3、C4、C5にフォーカスさせるためのものである。したがって、アテンションモジュールを備えた横方向接続を介して伝達された初期特徴マップC2、C3、C4、C5は、「フォーカスされた」ものと呼ばれる。典型的には、アテンションモジュールは、任意選択の1×1畳み込みを置き換える。
したがって、少なくとも1つの最小スケールのエンリッチ特徴マップP5以外のエンリッチ特徴マップP2、P3、P4(及び好ましくは、最小スケールのエンリッチ特徴マップP5以外のそれぞれのエンリッチ特徴マップP2、P3、P4)は、アテンションモジュールによってフォーカスされた(アテンションモジュールを備えた横方向接続に関連付けられた)初期特徴マップC2、C3、C4、及び当該初期特徴マップC2、C3、C4と同じスケールにスケーリングされたより小さいスケールのエンリッチ特徴マップP3、P4、P5を追加することによって生成される。
アテンションモジュールは、対象要素に関連しない(すなわち、背景に関連する)特徴マップ情報を破壊し、それによって、対象要素上の第2の検出サブネットワークのアテンションにフォーカスさせて、オーバーセグメンテーションを制限するモジュールである。
それぞれ、特徴ピラミッドアテンション(FPA)モジュール及びグローバルアテンションアップサンプル(GAU)モジュールとそれぞれ呼ばれる、第1及び第2のタイプの考え得るアテンションモジュールについてここで説明する。追って分かるように、有利には、FPNの最後の横方向接続(「U」のバー)は、第1のFPAモジュールを含み、FPNのそれぞれの他の横方向接続は、図3bに示されるように、第2のGAUモジュールを含む。しかしながら、本発明は、これらのアテンションモジュールの実施例に限定されるべきではない。
FPAモジュール及びGAUモジュールは、当業者が参照することができる、文献、Hanchao Li、Pengfei Xiong、Jie An,Lingxue Wangによる、「Pyramid Attention Network for Semantic Segmentation」 に記載されている。
この文献では、FPAモジュール及びGAUモジュールは、本発明の意味ではアテンションモジュールとして厳密に使用されていないが、エンコーダとして直接使用されており、実際に、この文書では、記載されたネットワーク(「ピラミッドアテンションネットワーク」)は、直接的にセグメンテーションネットワークであり、第2の検出サブネットワークに対するエンリッチ特徴マップP2、P3、P4及びP5を生成するための第1のサブネットワークではないことに留意されたい。換言すれば、記載されたネットワークの下降分岐は、上昇分岐の初期特徴マップC1、C2、C3、C4、及びC5をエンリッチするように機能せず、初期特徴マップから(画像、したがってモジュールのエンコーダ機能である)セグメンテーションマスクを生成するのみである。そのようなセグメンテーションネットワークは、特に潜在指紋に対しては単純過ぎ、Mask R−CNN(図6の中間ライン)よりも良好な結果をもたらさない。
本発明者らは、マスクを生成するのではなく、初期特徴マップをピラミッドアーキテクチャにフォーカスさせることによって初期特徴マップのエンリッチメントを単に「制御」するアテンションモジュールとして、FPA及びGAUを使用することにより、別個の検出ネットワークの動作を大幅に容易にし、予期されたものを超え得る結果がもたらされることを見出した(特に、取得された高度に現実的なセグメンテーションマスクが見られる図6の最後のラインを参照)。
更に、処理時間が極めて短い。以下の表1(後で詳細に説明される)は、潜在物をセグメント化することが可能な現在は唯一のネットワークである(及びFingerNetによって得られたマスクの品質が、図6において可視である結果には依然として達していない)FingerNetと比較して、本CNN(MRCNN−Idemiaと呼ばれる)をセグメンテーションに使用した場合、潜在指紋の識別時間が10分の1に短縮され、リアルタイムでの使用が可能になることを示している。
FPA
図5aを参照すると、FPAモジュールは、最後の横方向接続上に配置されている(最後の初期マップC5から最後のエンリッチマップP5が生成されることを可能にする)。
図5aを参照すると、FPAモジュールは、最後の横方向接続上に配置されている(最後の初期マップC5から最後のエンリッチマップP5が生成されることを可能にする)。
FPAモジュールは、有利には、「ミニ」FPN(したがって、U字形状)を構成し、事実上数レベルで減少し続け、次いで特徴マップのサイズを再び増大させる(32x32サイズのC5、16x16、8×8、及び4×4のマップが生成される)。これにより、追加のステージC6、及びC7、及びC8の存在をシミュレートすることが可能になり、それにより、P5は、C5の単に転移でなく、C6、C7、及びC8からの情報を事実上の「組み込んでいる」。
これらのサイズは、本当に小さいため、7x7畳み込み、5x5畳み込み、及び3×3畳み込みを、処理時間に何ら影響を及ぼすことなく使用することができる(バックボーンに対して優先的に使用されるResNet、特にRestNet−101では3×3畳み込みのみが存在することが想起される)。この情報は、元のC5特徴マップに追加されないが、要素毎に乗算されて、このP5マップ内の情報をC5マップに対して効果的にフォーカスさせる。したがって、P5マップは、実際にはC5よりも少ない情報を含むが、無用な情報が有用な情報によって置き換えられているため、「エンリッチされた」ままであることが理解されよう。
図5aに示されるように、ミニFPNに加えて、任意選択的に、グローバル平均プーリング分岐を存在させることができ(特徴マップは、1画素に低減されて取得されるが多数のチャネルを有する)、次いで、再サンプリングして入力サイズのマップを取得することができることに留意されたい。
GAU
図5bを参照すると、GAUモジュールは、より高くスケーリングされたエンリッチマップPi+1の追加を伴う、他の初期マップPi、i=2、3、又は4の生成のために、他の横方向接続上に配置される。
図5bを参照すると、GAUモジュールは、より高くスケーリングされたエンリッチマップPi+1の追加を伴う、他の初期マップPi、i=2、3、又は4の生成のために、他の横方向接続上に配置される。
GAUモジュールは、横方向接続の初期マップCiと、入力としてのより高いエンリッチマップPi+1(まだスケーリングされていない)との両方を使用する。
このGAUモジュールは、より高いエンリッチマップPi+1のグローバル平均プーリングを実施する。換言すれば、エンリッチマップは、次元1×1×C(多数のC個のチャネルを有する1つの画素)を備えたオブジェクトに低減され、1×1畳み込みを通じて、チャネルの数、バッチ正規化、及び非線形層(ReLU)を制御し、次いで、FPA内において、最初の入力マップCiで要素毎に乗算して、より高いエンリッチマップPi+1で明らかなように対象要素にそのアテンションをフォーカスさせる。
この初期の「フォーカスされた」マップCiは、下降分岐で、(両方のマップが再び同じサイズであるため)スケーリングされたエンリッチマップPi+1と共に呼び出すことができ、それによって、それ自体が推移性によってフォーカスされるエンリッチマップPiを取得する。
方法
要約すれば、図4を参照すると、入力画像内の少なくとも1つの可視である対象要素(有利には、生体紋様タイプ)を検出する本方法は、当該CNNの第1のFPNサブネットワークの上昇分岐によって、異なるスケールで入力画像を表す複数の初期特徴マップC1、C2、C3、C4、C5を抽出するステップ(a)で開始し、当該FPNは、下降分岐及び上昇分岐と下降分岐との間の横方向接続を更に含み、少なくとも1つの(好ましくはそれぞれの)横方向接続は、説明されるようなアテンションモジュールを含む。
要約すれば、図4を参照すると、入力画像内の少なくとも1つの可視である対象要素(有利には、生体紋様タイプ)を検出する本方法は、当該CNNの第1のFPNサブネットワークの上昇分岐によって、異なるスケールで入力画像を表す複数の初期特徴マップC1、C2、C3、C4、C5を抽出するステップ(a)で開始し、当該FPNは、下降分岐及び上昇分岐と下降分岐との間の横方向接続を更に含み、少なくとも1つの(好ましくはそれぞれの)横方向接続は、説明されるようなアテンションモジュールを含む。
次いで、ステップ(b)では、本方法は、FPNの当該下降分岐によって、異なるスケールで入力画像も表す複数のエンリッチ特徴マップP2、P3、P4、P5を生成することであって、それぞれのエンリッチ特徴マップP2、P3、P4、P5は、より小さい又は等しいスケールの初期特徴マップC1、C2、C3、C4、C5からの情報を組み込んでいる、複数のエンリッチ特徴マップを生成することを含む。説明されるように、それぞれのアテンションモジュールは、それらがエンリッチマップP2、P3、P4、P5を生成する際に考慮されるときに、横方向接続を介して受け取られた初期特徴マップC2、C3、C4、C5が「フォーカスされる」ことを可能にすることが理解されよう。
任意選択のステップ(c)では、当該CNNの第3のRPNサブネットワークは、エンリッチ特徴マップP2、P3、P4、P5内で、対象要素を潜在的に含む対象領域のセットを識別し、必要に応じてトリミングモジュールが、識別された対象領域に従って、それぞれのエンリッチ特徴マップP2、P3、P4、P5を再アラインする。
次いで、ステップ(d)において、本方法は、検出ネットワークと呼ばれる、当該CNNの第2のサブネットワークによる検出自体を含み、当該エンリッチ特徴マップP2、P3、P4、P5を、トリミングモジュールによって、必要に応じて入力として再アラインする。好ましくは、それぞれのエンリッチ特徴マップP2、P3、P4、P5は、検出ネットワークへの入力として取得される。
当該検出ネットワークがセグメンテーションネットワークである場合、検出の結果(すなわち、第2のサブネットワークの出力)は、セグメンテーションマスクである。
任意選択のステップ(e)では、当該セグメント化された(すなわち、説明されるようにセグメンテーションマスクが適用されている)入力画像は、有利には、当該入力画像上で可視である少なくとも1つの生体紋様から所望の特徴を抽出するように処理される。
トレーニング
有利には、本方法は、サーバ1のデータ処理手段11による、既にアノテーションされた(すなわち、検出結果がボックス又はセグメンテーションマスクの利用可能な合計である)生体紋様画像のデータベースから、トレーニングステップ(a0)で開始する。全てのサブネットワークのパラメータは、同時にトレーニングすることができ、又はサブネットワークによって、必要に応じてサブネットワーク内のブロック毎に(他のブロックのパラメータを凍結することによって)サブネットワーク化できることに留意されたい。特に、検出ネットワーク全体及び任意選択のRPNと同時に、終了から開始したFPNのブロック(C5/P5、次いでC4/P4など)をトレーニングすることが可能である。
有利には、本方法は、サーバ1のデータ処理手段11による、既にアノテーションされた(すなわち、検出結果がボックス又はセグメンテーションマスクの利用可能な合計である)生体紋様画像のデータベースから、トレーニングステップ(a0)で開始する。全てのサブネットワークのパラメータは、同時にトレーニングすることができ、又はサブネットワークによって、必要に応じてサブネットワーク内のブロック毎に(他のブロックのパラメータを凍結することによって)サブネットワーク化できることに留意されたい。特に、検出ネットワーク全体及び任意選択のRPNと同時に、終了から開始したFPNのブロック(C5/P5、次いでC4/P4など)をトレーニングすることが可能である。
このトレーニングは、従来の方法で実行することができる。トレーニングコスト関数は、従来のデータへの添付(平均二重誤差)及び全変動の正規化で構成され得る。
従来、指紋タイプの生体紋様の場合、良好品質の指紋データベースを開始点として使用することができ、トレーニングデータベースのサイズを乗算し、(例えば、良好品質の指紋を歪めること、閉塞を形成するなどにより)潜在指紋を人為的に製造するために、拡張アルゴリズムを実施して、共通の取得欠陥に対するCNNのロバスト性を確保することができる。
トレーニングされたCNNは、検出で使用するために、クライアント2のデータ記憶手段22上に必要に応じて記憶され得る。同じCNNを多数のクライアント2に埋め込むことができ、1つのトレーニングのみが必要であることに留意されたい。
識別/認証
説明されるように、ステップ(e)では、当該セグメント化された画像を、当該入力画像によって表される少なくとも1つの生体紋様から当該所望の特徴を抽出するように処理することができ、これには特に、指紋の場合、特徴点の位置及び/又は向きを含んでもよい。
説明されるように、ステップ(e)では、当該セグメント化された画像を、当該入力画像によって表される少なくとも1つの生体紋様から当該所望の特徴を抽出するように処理することができ、これには特に、指紋の場合、特徴点の位置及び/又は向きを含んでもよい。
説明されるように、ステップ(d)は、表示された指紋(単数又は複数)を別個の画像として分離するために、入力画像に対して、取得されたセグメンテーションマスクを適用することを含み得る。実際に、単一の入力画像上にいくつかの生体紋様が存在し得る。ステップ(e)は、有利には、それぞれの指紋が分離されるように実施される。
好ましくは、本方法は、当該入力画像によって表される生体紋様(又はそれぞれの生体紋様)から抽出された所望の特徴を、参照生体紋様の特徴と比較することによって、少なくとも1人の個人を識別又は認証するステップ(f)を更に含み、これは、当業者に既知である任意の方法で実施され得る。
例えば、クライアント2は、潜在指紋を残した人物が識別され得るように、参照指紋として警察ファイルに入れられた1人以上の人物の指紋の特徴を記憶してもよく、抽出された特徴が既知の個人から予期されるものに対応する場合、その個人の識別情報が警察組織に伝達される。
あるいは、クライアント2は、個人の識別のために、抽出された特徴を、当該参照生体紋様特徴からリモートのデータベースに送信することができる。
ステップ(e)及び/又は(f)は、例えば、1つ以上の専用CNNを介して、分離された指紋の分類ステップとして実施することができ、必要に応じて、分離された指紋の拡張処理(特にフランス特許出願第1860323号を参照)を含むことに留意されたい。
結果:
上記の表1は、説明したように、FingerNetネットワーク及び本CNN MRCNN−Idemiaの性能を比較している。
上記の表1は、説明したように、FingerNetネットワーク及び本CNN MRCNN−Idemiaの性能を比較している。
実際には、これは、識別テスト(ステップ(f))であり、我々がデータベースA及びデータベースBと呼ぶことになる、生体紋様データベースのトレーニングに続いて実施される。データベースAには、1,117個の潜在指紋、及び良好品質の同等物(TP)が含まれ、データベースBには、100,000個の指紋TPが含まれ、ノイズデータベースとして機能する。
表1は、潜在画像の処理に関して、MRCNN−Idemiaがより高速であるだけでなく、ランク10において、処理なし(「なし」)、「グラウンドトゥルース」(すなわち、手動でセグメント化された画像)、及びFingerNetソリューション(従来技術)と比較して、精度が更に改善されることを示している。ランク10(10個の候補を調べる)は、ランク1(最良の候補のみを調べる)よりも、潜在物に対してより高い関連性を有していることが想起される。
これは、図6に示されるように、非常に高速の処理にもかかわらず得られるセグメンテーションマスクの品質に起因する。
コンピュータプログラム製品
第2及び第3の態様によれば、本発明は、(特にサーバ1及び/又はクライアント2のデータ処理手段11、21上で)入力画像上で可視である少なくとも1つの対象要素を検出する方法を実行するためのコード命令、並びにコンピュータプログラム製品が配置されているコンピュータ機器(サーバ1及び/又はクライアント2のメモリ12、22)によって読み取り可能な記憶手段、を含むコンピュータプログラム製品に関する。
第2及び第3の態様によれば、本発明は、(特にサーバ1及び/又はクライアント2のデータ処理手段11、21上で)入力画像上で可視である少なくとも1つの対象要素を検出する方法を実行するためのコード命令、並びにコンピュータプログラム製品が配置されているコンピュータ機器(サーバ1及び/又はクライアント2のメモリ12、22)によって読み取り可能な記憶手段、を含むコンピュータプログラム製品に関する。
Claims (17)
- 畳み込みニューラルネットワーク、すなわちCNNによって、入力画像上で可視である少なくとも1つの対象要素を検出する方法であって、前記方法は、クライアント(2)のデータ処理手段(21)によって、
(a)特徴ピラミッドネットワーク、すなわちFPN、タイプの前記CNNの第1のサブネットワークの上昇分岐によって、異なるスケールで前記入力画像を表す複数の初期特徴マップ(C1、C2、C3、C4、C5)を抽出するステップであって、前記FPNは、下降分岐及び前記上昇分岐と前記下降分岐との間の横方向接続を更に含み、それぞれの横方向接続は、前記FPNの前記上昇分岐から前記下降分岐に、一意的に関連付けられている初期特徴マップ(C2、C3、C4、C5)を伝達し、最小スケールの初期特徴マップ(C5)以外の初期特徴マップ(C2、C3、C4)に関連付けられた少なくとも1つの横方向接続は、アテンションモジュールを含む、初期特徴マップを抽出するステップと、
(b)前記FPNの前記下降分岐によって、異なるスケールで前記入力画像も表す複数のエンリッチ特徴マップ(P2、P3、P4、P5)を生成するステップであって、それぞれのエンリッチ特徴マップ(P2、P3、P4、P5)は、より小さい又は等しいスケールの前記初期特徴マップ(C1、C2、C3、C4、C5)から情報を組み込んでいる、複数のエンリッチ特徴マップを生成するステップと、
(d)検出ネットワークと呼ばれる、前記CNNの第2のサブネットワークによって、入力画像上で可視である少なくとも1つの対象要素を検出するステップであって、前記エンリッチ特徴マップ(P2、P3、P4、P5)を入力として使用する、少なくとも1つの対象要素を検出するステップと、
の実施を含むことを特徴とする、方法。 - それぞれのエンリッチ特徴マップ(P2、P3、P4、P5)に対して、同じスケールの初期特徴マップ(C2、C3、C4、C5)が、前記初期特徴マップ(C2、C3、C4、C5)と一意的に関連付けられた前記横方向接続を介して、前記FPNの前記上昇分岐から前記下降分岐に伝達される、請求項1に記載の方法。
- 最大スケールの初期特徴マップ(C1)は、前記FPNの前記上昇分岐から前記下降分岐に伝達されない、請求項1又は2に記載の方法。
- 最小スケールのエンリッチ特徴マップ(P5)は、最小スケールの初期特徴マップ(C5)から生成され、それぞれの他のエンリッチ特徴マップ(P2、P3、P4)は、同じスケールの前記初期特徴マップ(C2、C3、C4)及びより小さいスケールのエンリッチ特徴マップ(P2、P3、P4)から生成される、請求項1〜3のいずれか一項に記載の方法。
- 前記最小スケールのエンリッチ特徴マップ(P5)以外の少なくとも1つのエンリッチ特徴マップ(P2、P3、P4)は、前記アテンションモジュールによってフォーカスされた前記初期特徴マップ(C2、C3、C4)、及び前記初期特徴マップ(C2、C3、C4)と同じスケールにスケーリングされたより小さいスケールのエンリッチ特徴マップ(P3、P4、P5)を追加することによって生成される、請求項1〜4のいずれか一項に記載の方法。
- 前記最小スケールの初期特徴マップ(C5)に関連付けられた前記横方向接続は、第1のタイプのアテンションモジュールを含み、前記最小スケールの初期特徴マップ(C5)以外の初期特徴マップ(C2、C3、C4)に関連付けられた前記横方向接続の前記アテンションモジュールは、第2のタイプである、請求項1〜5のいずれか一項に記載の方法。
- 前記最小スケールの初期特徴マップ(C5)以外の初期特徴マップ(C2、C3、C4)に関連付けられたそれぞれの横方向接続は、前記第2のタイプのアテンションモジュールを含む、請求項6に記載の方法。
- 前記第1のタイプのアテンションモジュールは、特徴ピラミッドアテンション、すなわちFPA、モジュールであり、及び/又は前記第2のタイプのアテンションモジュールは、グローバルアテンションアップサンプル、すなわちGAU、モジュールである、請求項7に記載の方法。
- 領域提案ネットワーク、すなわちRPN、タイプの前記CNNの第3のサブネットワークによって、前記エンリッチ特徴マップ(P2、P3、P4、P5)内で、対象要素を潜在的に含む対象領域を識別するステップ(c)を更に含む、請求項1〜8のいずれか一項に記載の方法。
- ステップ(c)は、識別された対象領域に従って、それぞれのエンリッチ特徴マップ(P2、P3、P4、P5)のCNNトリミングモジュールによる前記再アラインメントを含み、ステップ(d)は、前記再アラインされたエンリッチ特徴マップ(P2、P3、P4、P5)上で実施される、請求項9に記載の方法。
- サーバ(1)のデータ処理手段(11)による、前記CNNのパラメータの、既にアノテーションされた対象要素の画像データベースからの前のトレーニングステップ(a0)を含む、請求項1〜10のいずれか一項に記載の方法。
- ステップ(d)は、前記入力画像をセグメント化することを含む、請求項1〜11のいずれか一項に記載の方法。
- 前記対象要素は生体紋様であり、前記方法は、前記入力画像によって表されるそれぞれの生体紋様から前記所望の特徴を抽出するための、前記セグメント化された入力画像の処理ステップ(e)を含む、請求項12に記載の方法。
- 前記生体紋様は指紋であり、前記入力画像によって表される前記少なくとも1つの指紋から抽出すべき前記所望の特徴は、特徴点の位置及び/又は向きを含む、請求項13に記載の方法。
- 前記入力画像によって表される前記少なくとも1つの生体紋様は個人のものであり、前記方法は、前記入力画像によって表される前記生体紋様から抽出された前記所望の特徴を、前記参照生体紋様特徴と比較することによって、前記個人を識別又は認証するステップ(f)を更に含む、請求項13又は14に記載の方法。
- 前記プログラムがコンピュータ上で実行されると、入力画像内で可視である少なくとも1つの対象要素を検出する、請求項1〜15のいずれか一項に記載の方法を実行するためのコード命令を含むコンピュータプログラム製品。
- コンピュータプログラム製品が入力画像内で可視である少なくとも1つの対象要素を検出する、請求項1〜15のいずれか一項に記載の方法を実行するためのコード命令を含む、コンピュータ機器によって読み取り可能な記憶手段。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1913654 | 2019-12-03 | ||
FR1913654A FR3103938B1 (fr) | 2019-12-03 | 2019-12-03 | Procédé de détection d’au moins un élément d’intérêt visible dans une image d’entrée au moyen d’un réseau de neurones à convolution |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021089730A true JP2021089730A (ja) | 2021-06-10 |
Family
ID=70228124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020199636A Pending JP2021089730A (ja) | 2019-12-03 | 2020-12-01 | 畳み込みニューラルネットワークによって、入力画像内で可視である少なくとも1つの対象要素を検出する方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11587341B2 (ja) |
EP (1) | EP3832535A1 (ja) |
JP (1) | JP2021089730A (ja) |
FR (1) | FR3103938B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7313501B1 (ja) | 2022-03-03 | 2023-07-24 | ソフトバンク株式会社 | 画像認識装置、プログラム、画像認識方法、及び機械学習方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808122B (zh) * | 2021-09-26 | 2024-03-12 | 四川中烟工业有限责任公司 | 一种基于椭圆特征金字塔的烟草甲虫识别方法 |
US20230119918A1 (en) * | 2021-10-14 | 2023-04-20 | Thales Dis France Sas | Deep learning based fingerprint minutiae extraction |
CN113920468B (zh) * | 2021-12-13 | 2022-03-15 | 松立控股集团股份有限公司 | 一种基于跨尺度特征增强的多分支行人检测方法 |
CN114360127B (zh) * | 2021-12-16 | 2023-09-22 | 三峡大学 | 一种用于安检***的行人健康监测方法 |
US11983920B2 (en) * | 2021-12-20 | 2024-05-14 | International Business Machines Corporation | Unified framework for multigrid neural network architecture |
CN114782319A (zh) * | 2022-03-24 | 2022-07-22 | 什维新智医疗科技(上海)有限公司 | 一种用于超声图像的标尺的识别方法 |
CN117523550B (zh) * | 2023-11-22 | 2024-06-25 | 中化现代农业有限公司 | 苹果病虫害检测方法、装置、电子设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10878569B2 (en) * | 2018-03-28 | 2020-12-29 | International Business Machines Corporation | Systems and methods for automatic detection of an indication of abnormality in an anatomical image |
FR3085775B1 (fr) * | 2018-09-06 | 2020-10-09 | Idemia Identity & Security France | Procede d'extraction de caracteristiques d'une empreinte digitale representee par une image d'entree |
EP3864621A4 (en) * | 2018-10-12 | 2022-05-04 | Nokia Technologies Oy | METHOD AND APPARATUS FOR CONTEXT INTEGRATION AND REGION-BASED OBJECT DETECTION |
US11100352B2 (en) * | 2018-10-16 | 2021-08-24 | Samsung Electronics Co., Ltd. | Convolutional neural network for object detection |
KR102373264B1 (ko) * | 2019-02-08 | 2022-03-10 | 키리스 테크놀로지스 엘티디 | 인증 프로세싱 서비스 |
KR20220001821A (ko) * | 2020-06-30 | 2022-01-06 | 삼성전자주식회사 | 텐서 처리 방법, 가속기 및 이를 포함한 가속기 시스템 |
KR20220030474A (ko) * | 2020-09-01 | 2022-03-11 | 삼성디스플레이 주식회사 | 지문 인증 장치, 이를 포함하는 표시 장치, 및 표시 장치의 지문 인증 방법 |
-
2019
- 2019-12-03 FR FR1913654A patent/FR3103938B1/fr active Active
-
2020
- 2020-11-30 US US17/106,955 patent/US11587341B2/en active Active
- 2020-12-01 JP JP2020199636A patent/JP2021089730A/ja active Pending
- 2020-12-02 EP EP20211386.6A patent/EP3832535A1/fr not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7313501B1 (ja) | 2022-03-03 | 2023-07-24 | ソフトバンク株式会社 | 画像認識装置、プログラム、画像認識方法、及び機械学習方法 |
JP2023128430A (ja) * | 2022-03-03 | 2023-09-14 | ソフトバンク株式会社 | 画像認識装置、プログラム、画像認識方法、及び機械学習方法 |
JP7502518B2 (ja) | 2022-03-03 | 2024-06-18 | ソフトバンク株式会社 | 画像認識装置、プログラム、画像認識方法、及び機械学習方法 |
Also Published As
Publication number | Publication date |
---|---|
US11587341B2 (en) | 2023-02-21 |
FR3103938A1 (fr) | 2021-06-04 |
FR3103938B1 (fr) | 2021-11-12 |
EP3832535A1 (fr) | 2021-06-09 |
US20210166092A1 (en) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021089730A (ja) | 畳み込みニューラルネットワークによって、入力画像内で可視である少なくとも1つの対象要素を検出する方法 | |
JP5047005B2 (ja) | 画像処理方法、パターン検出方法、パターン認識方法及び画像処理装置 | |
WO2016054802A1 (en) | Hierarchical interlinked multi-scale convolutional network for image parsing | |
CN112437926B (zh) | 使用前馈卷积神经网络的快速鲁棒摩擦脊印痕细节提取 | |
Schmid et al. | Performance analysis of iris-based identification system at the matching score level | |
Diwakar et al. | An extraction and recognition of tongue-print images for biometrics authentication system | |
CN110570443B (zh) | 一种基于结构约束条件生成模型的图像线状目标提取方法 | |
CN111742342A (zh) | 图像生成方法、图像生成装置以及图像生成*** | |
Wrobel et al. | Personal identification utilizing lip print furrow based patterns. A new approach | |
US7848544B2 (en) | Robust face registration via multiple face prototypes synthesis | |
US11380127B2 (en) | Method of segmenting an input image representing at least one biometric trait by means of a convolutional neural network | |
KR20220023323A (ko) | 방사선 치료 계획 수립을 위한 인공지능 기반의 장기 및 종양 이미지 분할 시스템 및 방법 | |
US11315358B1 (en) | Method and system for detection of altered fingerprints | |
CN111368763A (zh) | 基于头像的图像处理方法、装置及计算机可读存储介质 | |
Seidlitz et al. | Generation of Privacy-friendly Datasets of Latent Fingerprint Images using Generative Adversarial Networks. | |
CN113792659B (zh) | 文档识别方法、装置及电子设备 | |
JP2005259049A (ja) | 顔面照合装置 | |
KR102254198B1 (ko) | 다중 초점 이미지 융합 방법 | |
Emeršič et al. | Towards accessories-aware ear recognition | |
Kaur et al. | Estimation towards the impact of contact lens in iris recognition: A study | |
Vishwakarma et al. | Biometric Iris Recognition using Sobel Edge Detection for Secured Authentication | |
Wyzykowski et al. | A Universal Latent Fingerprint Enhancer Using Transformers | |
CN108875612A (zh) | 一种足迹图像的处理方法 | |
Okarma et al. | A Hybrid Method for Objective Quality Assessment of Binary Images | |
Tareque et al. | Contour based face recognition process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20201214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20201214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210319 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20210322 |