JP2023521118A

JP2023521118A - 照明源を含むデバイスを使用する生体性検出

Info

Publication number: JP2023521118A
Application number: JP2022561401A
Authority: JP
Inventors: ヘスースアラゴン; ハーディックグプタ
Original assignee: アイデンティーインコーポレイテッド
Priority date: 2020-04-09
Filing date: 2021-04-09
Publication date: 2023-05-23
Anticipated expiration: 2041-04-09
Also published as: ZA202210744B; EP4246454A2; MX2022012036A; EP4246454A3; ES2971682T3; CA3176955A1; EP3893147B1; US20230162534A1; JP7445335B2; WO2021205016A1; EP3893147A1; KR20230004533A; BR112022020413A2

Abstract

ユーザを識別するためのコンピュータ実装方法であって、この方法は、作動されると可視光を発する照明源を有するコンピューティングデバイスを使用するものであり、この方法は、バイオメトリック特徴を有する生体部分を含む可能性のあるシーンの２つの画像を取得する工程であって、第１の画像を照明源を作動させずに取得し、第２の画像を照明源が作動している状態で取得する工程と、第１の画像及び第２の画像をニューラルネットワークに送る工程と、ニューラルネットワークによって第１の画像及び第２の画像を処理する工程と、を含み、処理する工程は、第１の画像と第２の画像とを比較することにより、第１の画像及び第２の画像が生体部分の画像であるか否かを判断することを含み、方法はさらに、第１の画像及び第２の画像が生体部分の画像であると判断された場合、ユーザを識別するためのバイオメトリック特徴を見つけるために識別アルゴリズムを実行し、第１の画像及び第２の画像が生体部分の画像でないと判断された場合、識別アルゴリズムを実行しないことを含む。【選択図】図１

Description

本発明は、請求項１に記載のユーザを識別するためのコンピュータ実装方法に関する。

スマートフォンをはじめとするモバイルコンピューティングデバイスはますます日常生活の一部となってきている。そのため、今日ではスマートフォンを使って銀行口座にログインしたりスマートフォンを使ってレストランで支払いしたりすることなども一般的である。

このような口座へのユーザのログインを容易にするために、欧州特許出願第３５４０６３５号により、例えばモバイルコンピューティングデバイスのカメラを用いてユーザを識別し、指紋のようなバイオメトリック特徴を抽出することによってユーザを識別するために得られた各画像を処理する手段が提供されている。

バイオメトリック特徴は偽造することが非常に困難であることからセキュリティの観点において大きな利点を有するものの、銀行口座のような各機密情報へのアクセスを得るために悪意のあるアタッカーによって（指先などの）各バイオメトリック特徴の画像がカメラの前に保持されこの画像が撮影されることによりカメラが騙されることがないよう、保証する必要がある。

従来技術の観点から、本発明の目的は、生体とそのような生体のスプーフ（ｓｐｏｏｆ）とを区別することができる方法を提供することである。

上記課題は、独立請求項１に記載のコンピュータ実装方法によって対処される。好ましい実施形態は従属請求項に示されている。

本発明によるユーザを識別するためのコンピュータ実装方法は、作動されると可視光を発する照明源を有するコンピューティングデバイスを使用し、本方法は、バイオメトリック特徴を有する生体部分を含む可能性のあるシーンの２つの画像を取得する工程であって、第１の画像を照明源を作動させずに取得し、第２の画像を照明源が作動している状態で取得する工程と、第１の画像及び第２の画像をニューラルネットワークに送る工程と、第１の画像及び第２の画像をニューラルネットワークによって処理する工程と、を含み、処理する工程は、第１の画像と第２の画像とを比較し、これにより、第１の画像及び第２の画像が生体部分の画像であるか否かを判断する工程を含み、本方法は、第１の画像及び第２の画像が生体部分の画像であると判断された場合、ユーザを識別するためのバイオメトリック特徴を見つけるために識別アルゴリズムを実行し、第１の画像及び第２の画像が生体部分の画像でないと判断された場合、識別アルゴリズムを実行しない工程をさらに含む。

本発明における意味での照明源は、例えば、スマートフォンの明かりと考えることができる。但し、本発明はこの点に関して限定されず、対応するコンピューティングデバイスの一部であるあらゆる照明源が、選択的に作動されて可視光を発することができる限り、適当であると考えられる。

この文脈において、第２の画像が照明源を作動させた状態で取得されるだけでなく、第２の画像が取得されるシーン（具体的には、物体）も照明源で照明されることも明らかである。

ニューラルネットワークは、好ましくは、本発明による各タスクを実行するように訓練された任意のニューラルネットワークとすることができる。この点に関して、好ましい実施形態では、ニューラルネットワークは、各画像を比較するよう特に適応された畳み込みニューラルネットワークである。これは、ニューラルネットワークが対応して訓練され、またネットワーク構造及びアーキテクチャ（例えば、層の数）がこのタスクに適応していることを意味する。

識別アルゴリズムは、（この画像情報が第１の画像又は第２の画像から取得されたかどうかにかかわらず）バイオメトリック特徴を分離するか又は少なくとも識別することができるように画像情報を処理するよう構成された任意のアルゴリズムとすることができる。例えば、ここでは、画像内の関心領域、例えば、指先の一部又は領域を画像の別の部分から分離するクロッピングアルゴリズムを使用することができる。

照明源を作動させずに指のような生体部分から取得された画像と、スマートフォンの明かりのような追加の照明源を作動させて同じ体部分から取得された対応する画像とを区別できるということが、本発明における知見である。これは、可視光の異なる部分（すなわち異なる波長）が生体部分によって異なるように反射されるためである。これは、例えば、赤色の光は青色の光とは異なるように発されることを意味する。このような画像を比較することにより、この差異を決定することができ、そして、対応する差異が観測されなければ、取得された２つの画像は、画像取得の際にカメラの前に保持された実際の生体部分の画像のようなスプーフから得られた可能性が非常に高い。

したがって、この方法を用いることで、スマートフォンのユーザが通常利用できない追加のコンポーネントを必要とせずに、物体のスプーフと生体とを確実に区別することができる。

別の実施形態では、本発明によるユーザを識別するためのコンピュータ実装方法は、作動されると可視光を発する照明源を有するデバイスを使用するものであり、本方法は、バイオメトリック特徴を有する生体部分を含む可能性のあるシーンの２つの画像を取得する工程であって、第１の画像を照明源を作動させずに取得し、第２の画像を照明源が作動している状態で取得する工程と、第１の画像及び第２の画像から差分画像を取得する工程と、差分画像をニューラルネットワークに送る工程と、差分画像をニューラルネットワークによって処理する工程と、を含み、処理する工程は、差分画像から輝度差分情報を決定する工程と、輝度差分情報から、第１の画像及び第２の画像が生体部分の画像であるか否かを判断する工程と、第１の画像及び第２の画像が生体部分の画像であると判断された場合、ユーザを識別するためのバイオメトリック特徴を見つけるために識別アルゴリズムを実行し、第１の画像及び第２の画像が生体部分の画像でないと判断された場合、識別アルゴリズムを実行しない工程をさらに含む。

差分画像は、好ましくは、第１の画像及び第２の画像のピクセル単位の差分画像と考えることができ、これは、好ましくは、各ピクセルの輝度値及び／又は色値が第１の画像及び第２の画像から取得され、互いに差し引かれることにより、第１の画像及び第２の画像の各ピクセルの色及び輝度の新しいピクセル値が得られることを意味する。この「新しい」画像は、本発明の文脈において差分画像と見なされる。

上で説明したように、カメラの前に保持された画像のような生体部分のスプーフと比較したときに、生体部分では、明かりのオン又はオフ時の光の反射特性に差がある。そして、ニューラルネットワークを用いた各処理から、生体部分又はスプーフから取得された第１の画像及び第２の画像の証拠を差分画像が成すか否かを判断することができる。

この方法では、両方の画像をニューラルネットワークによって処理して対応する比較を行う必要はなく、各情報を含む単一の画像を処理するだけでよいという利点がある。

一実施形態では、第１の画像と第２の画像とを比較することは、画像のピクセル輝度分布に関して画像を比較することを含む。

第１の画像と第２の画像について得られた輝度値は生体部分においては大きく異なるため、これにより、スプーフと生体との区別における信頼性を向上させることができる。

さらに、画像のピクセル輝度分布に関して画像を比較することは、第１の画像のピクセルの赤、青及び緑の輝度中央値と、第２の画像のピクセルの赤、青及び緑の輝度中央値とを取得し、第２の画像の輝度中央値が、所定の閾値だけ、第１の画像のピクセルの輝度中央値を超える場合、画像が生体部分の画像であると判断することを含む。

この閾値は、ニューラルネットワークがスプーフと本物の物体（生体）とを識別して区別できるようにする訓練された閾値とすることができ、何故なら、例えば、閾値を超えたとき（又は超えないとき）に物体がほぼ確実に本物の物体でなければならないように閾値の大きさを設定できるからである。

より具体的な実施形態では、赤、青及び緑のピクセルについてのピクセル輝度分布が第１の画像及び第２の画像について取得され、第１の画像の各色の取得されたピクセル輝度分布が、第２の画像の対応する色の取得されたピクセル輝度分布と比較される。

各色の輝度値を分離し、それらを別々に比較することにより、本物の物体とスプーフとを区別することにおける信頼性をさらに向上させることができる。

また、画像をニューラルネットワークによって処理する工程は、比較をする前に、ニューラルネットワークを使用して、体の一部を含む可能性が高い第１の画像及び／又は第２の画像の部分を特定し、第１の画像及び第２の画像からこの部分に対応するピクセル情報を抽出することを含むことができ、第１の画像と第２の画像とを比較することは、この部分に対応する第１の画像及び第２の画像から抽出されたピクセル情報のみを比較することを含むことができる。

これは、上に記載した第２の実施形態による方法にも適用でき、その際、差分画像を算出する前にこの実施形態による方法が実行され、すなわち、ニューラルネットワークを用いて、体の一部を含む可能性が高い第１の画像及び／又は第２の画像の部分が実行され、差分画像を算出するためにこの部分からのピクセル情報が第１の画像及び第２の画像から抽出される。これにより、処理されるべきピクセル量が減少し、したがって、方法の信頼性に悪影響を与えることなく、必要な計算リソースが低減される。

さらなる実施形態では、第１の画像及び第２の画像を取得する前に照明チェック工程が実行され、照明チェック工程は現在の照明条件をチェックすることを含み、前記方法は、現在の照明条件に対応する輝度が所定の閾値を超える場合、前記方法のさらなる工程は実行しないことをさらに含む。

これにより、環境条件の観点からも、生体性検出によって信頼性の高い結果が得られることが保証される。これにより、識別の誤検出又は検出漏れを回避することができる。

より具体的には、現在の照明条件に対応する輝度が所定の閾値を超える場合、現在の照明条件下では識別を行うことができない旨の情報をユーザに提示する。

この情報は、例えば、ユーザに本物の物体とその物体のスプーフとを区別するために別の手段を使用すべきことを示すことができ、あるいは、単に、第１の画像及び／又は第２の画像から得られたバイオメトリック特徴を使用する生体性検出又はユーザ識別のどちらも実行できないことを示すことができる。第１の代替的手段は、別の方法を採用することによって識別を依然として実行でき、一方、第２の代替的手段は、生体部分のスプーフを使用する悪意のあるユーザの誤識別を確実に不可能とする。

また、前記方法の各工程は、モバイルコンピューティングデバイス上で実行することができ、ニューラルネットワークがモバイルデバイスに完全にインストールされていてもよい。

これは、画像がモバイルコンピューティングデバイス上で取得されるだけでなく、ニューラルネットワークによるさらなる処理及び各後続工程がモバイルデバイス上で実行されることを意味する。これにより、例えば、モバイルインターネットへの永続的な接続は不要となり、これは、そのようなモバイルインターネットが常に利用可能ではない世界の領域において特に有利である。

さらなる実施形態では、ニューラルネットワークは３つのサブネットワークを含み、第１のサブネットワークが第１の画像を処理して第１の画像から第１の情報を抽出し、第２のサブネットワークが第２の画像を処理して第２の画像から第２の情報を抽出し、第３のサブネットワークが、第１の画像及び第２の画像が生体部分の画像であるか否かを判断するために、第１の情報と第２の情報とを比較する。

第１のサブネットワーク、第２のサブネットワーク及び第３のサブネットワークへのこの分離によって、画像の処理、及び取得された画像が本物の物体を示しているのか又はそのスプーフを示しているのかの決定における各タスクのために、（サブネットワークの形態の）ニューラルネットワークを特別に採用することができる。

さらに、第１の画像及び第２の画像が生体部分の画像であるか否かを判断する工程は、第１の画像及び第２の画像が紙上の画像の画像であるか否か、及び／又は、第１の画像及び第２の画像がスクリーン上に提示された画像の画像であるか否か、及び／又は、第１の画像及び第２の画像が生体部分の三次元スプーフの画像であるか否か、及び／又は、第１の画像及び第２の画像が生体部分の画像であるか否かを決定することを含む。

例えば紙上でカメラに提示された画像は、照らされているときと照らされていないときとで非常に特殊な特徴を示すので、ニューラルネットワークは対応する決定を行うことが可能であり、それによって、画像が本物の物体を示すか又は物体のスプーフを示すかを決定するだけでなく、スプーフが実際にどのような種類のものであるかを決定することも可能である。

第２の実施形態の一具現化において、輝度差分は、差分画像を取得する際に、第１の画像と第２の画像の輝度値のピクセル単位の引き算から得られる。

このピクセル単位の引き算は、色単位及びピクセル単位の引き算でも実行でき、つまり、各ピクセル及び各色値（緑、青、赤）について、輝度値が得られ、ピクセル単位の引き算が実行される。それにより、第１画像と第２画像の実際の特徴について詳細かつ精密な情報が得られ、この精密な情報が差分画像に用いられる。

一実施形態では、照明源はコンピューティングデバイスの明かり（ｔｏｒｃｈ）である。

このような明かりの形態の照明源は、ラップトップ、タブレットＰＣ及びスマートフォンのような最近のモバイルコンピューティングデバイスに設けられているので、本発明による方法を実行するためにさらなるデバイスを採用する必要がなく、これにより、ユーザによる各方法の適用が容易となる。

画像の取得及び対応する輝度の寄与を概略的に示す図である。本発明の一実施形態による方法のフローチャートを示す。一実施形態によるニューラルネットワークによる入力の処理方法を概略的に示す図である。ニューラルネットワークの訓練の一実施形態を示す。本発明の方法を実行するための例示的なモバイルデバイスを示す。

図１は、物体の２つの画像の取得を概略的に示す。図１における描写ではスマートフォンなどのモバイルコンピューティングデバイス１０１が示されており、モバイルコンピューティングデバイス１０１は、例えば同図に示される手１０２の画像などのシーンの画像を取得するための光学センサ（別々に図示はしていない）を含む。このようなシーンがいくらかの周囲環境も含み得ることは明らかである。但し、説明を簡単にするため、ここではこれらは示されていない。

方法が、ユーザの体部分（顔、目、手又は手のひらなど）の画像を取得することによってユーザを識別するのに採用される場合、後続の識別工程のために、取得した画像が実際に生体部分の画像であるか、生体部分のスプーフの画像であるかを知る必要がある。このようなスプーフは、例えば、悪意のあるユーザによって本物の人から取得され、カメラの前に保持された画像であり得る。この画像が十分な品質のものである場合、これは、今日、バイオメトリック特徴に関する今日使用されている識別メカニズムをスプーフィングすることが可能であり、それによって、本物の物体のスプーフを使うことによって、実際には権限が与えられていないユーザに銀行口座のような機密情報へのアクセス権が与えられてしまう可能性がある。

本発明によれば、これを防止することは、本物の物体の可能性がある物体の複数の画像（これが本物の物体の画像であるか、その物体のスプーフの画像でしかないかが分かっていないならば）を取得して、後述するようにこれらの画像をニューラルネットワークにより処理することによって、可能である。

これをより一般的な状況で説明するために、図１中の左側に、本物の物体の可能性がある物体１０２（この場合は手）の画像を取得しているスマートフォン等のモバイルコンピューティングデバイス１０１が示されている。通常の状態では、これは、どのような場合でも、図形１０３及び図形１０４に描かれているような輝度分布をもたらす。この輝度分布は、あらゆる考え得る照明条件の下で得られる輝度分布であるとは限らず、単に、モバイルコンピューティングデバイスの明かり（又は任意の他の適切な照明源）を作動させずに画像が取得されるような物体の照明条件を示す例示的な図でしかない。これだけからでは、画像が生体からのものであるのか生体のスプーフからのものであるのかを判断することはできない。

次に、図１中の右側に、同じシーンにおいて、モバイルコンピューティングデバイス１０１の照明源が作動されてライト１１１でシーンを照らすことによって、画像が取得される。

図形１０５及び図形１０６は、異なる色チャネル（赤、青及び緑など）における光分布及びこのシチュエーションについての各輝度値を示す。

図形１０５は図形１０３及び図形１０４に酷似しているのに対し、図形１０６は元の図形１０４と明確に区別されることがはっきり分かる。

画像が本物の物体の画像である場合、すなわち手１０２が実際に人間の本物の手である場合には、画像中のそれぞれの色値にわたって輝度分布における大きな差が得られることが、本発明における知見である。これとは対照的に、このような本物の物体のスプーフ、具体的には、図１のシーンにおいてカメラの前に保持されている本物の物体の画像の形態のスプーフは、図形１０３及び図形１０５をもたらし、これらにおいては、コンピューティングデバイスの照明源を作動させずに取得された画像と照明デバイスを作動させた状態で取得された画像との間には差がないか、あったとしてもわずかでしかない。

これを、本物の物体のスプーフしか撮影されなかった状況と本物の物体が撮影された状況とを区別するのに使用することができる。しかしながら、図形１０３から図形１０６は環境条件（バックライト、バックグラウンド、物体とカメラの距離など）に強く依存するので、画像が本物の物体の画像を構成するか物体のスプーフを構成するかに関し対応する決定をするために計算アルゴリズムによって簡単に処理することができない。

１つのシーンから取得された対応する第１の画像及び第２の画像を処理するために特別に訓練されたニューラルネットワークが、高い精度で各決定を行うためにより適切であること、すなわち誤検出及び検出漏れを少なくすることが、本発明における知見である。

図２は、取得された画像が本物の生体部分の画像であるか否かについての各決定をするために対応する第１の画像及び第２の画像を処理するための本発明による方法の概略的なフロー図である。

図２において、第１の工程２０１及び２０２では、第１の画像及び第２の画像が取得される。本発明に関しては、第１の画像が照明源が作動されている状態で取得された画像であるか、第２の画像が照明源が作動されている状態で取得された画像であるかは関係ない。本発明の文脈において重要なのは、画像のうちの１つが、照明源が作動されている状態で取得されたものであり、他の１つが、照明源を作動させずに取得されたものであるということである。単なる例として、取得された第１の画像は工程２０１において照明源を作動させずに取得され、工程２０２において取得された第２の画像は照明源が作動された状態で取得された画像であると仮定する。このことから、第１の画像と第２の画像が次々に取得されることは明らかである。条件を変えることによって画像の評価に悪影響が及ばないようにするために、工程１０１から工程１０２の間の時間は、好ましくは非常に短くすべきである。好ましくは、画像の取得間の時間は１秒未満であり、好ましくは０．５秒未満である。

上に記載したように、照明源は、例えば、スマートフォンやタブレットＰＣのような今日使用されているモバイルコンピューティングデバイスの明かりであってもよいが、場合によってはラップトップに設けられているものであってもよい。

工程１０１及び工程１０２で取得された２つの画像は、次いで工程２０３で前処理されてもよい。この前処理は、例えば、第１の画像及び第２の画像で取得された元のピクセル数を、２５６×２５６ピクセルなどの特定の数に減らすか、画像の一部分を分離してこれらをさらに処理し、画像の他の部分は破棄するなどといった、何らかの正規化又は他の処理工程を含むことができる。但し、工程２０３は必須ではなく、図２に示されている処理は、第１の画像及び第２の画像に前処理を適用せずに実行することもできる。さらに、画像のうちの１つだけを前処理することもでき、例えば、照明源を作動させた状態で取得した方の画像又は他方の画像のみを前処理することもできる。

次のこれもまたオプションでしかない工程２０４で、照明チェックを実行することができる。この照明チェックは、取得された画像から（あるいは第１の画像及び第２の画像から独立して取得された第３の画像から）照明条件をチェックする特定のソフトウェアを使用することによって実行することができる。代替的又は追加的に、スマートフォンなどのモバイルデバイスの特定のハードウェアを使用してもよい。モバイルデバイスが（例えば、カメラの一部として）輝度センサを備える場合、この輝度センサから得られる情報を使用して後述の照明チェックを実行してもよい。輝度センサからの情報は画像をまったく取得しなくても得ることができる。代替的に又は追加的に、画像が取得されている間又は画像が取得された後に、輝度センサを使用して照明チェックを実行してもよい。さらに、照明チェックの結果を向上させるために、輝度センサから情報を得ることと、（例えば、取得された画像に基づいて）照明チェックを実行するためのソフトウェアを採用することとを組み合わせて用いてもよい。

この照明チェックは画像が取得された後に実行されるが、この照明チェックを画像が取得される前に実行することもできる。照明チェックは、例えば、日中であるか夜間であるか、あるいは、図２に記載した方法を実行するために実際にモバイルコンピューティングデバイスを保持しているか又はそれを作動させている人が人工光を有する建物内にいるかなど、環境における周囲の明るさ又は照明条件をチェックすることを含むことができる。上で説明したように、実際に得られる輝度分布（図１参照）は環境条件に強く依存する。周囲の照明条件が、２つの画像を取得する際に一方の画像を照明源を作動させた状態で取得し他方の画像を照明源を作動させずに取得したときに区別可能な輝度値を妥当なレベルで得られない結果をもたらす可能性が非常に高い場合（例えば、日中の光が明るい場合）には、図２による方法をさらに実行することは、信頼できる結果が得られない可能性があることから、合理的でない場合がある。このような場合、照明チェック２０４を実行した後に、方法を妥当なレベルで適用することができないと判断することができる。このような場合、方法を中止する及び／又は工程２０５で情報をユーザに提供して、識別方法が信頼性をもって実行できるような照明条件ではないことをユーザに知らせることができる。これは、例えば、現在の照明条件の輝度値に基づいて判断することができる。この輝度値が場合によって予め設定された閾値を超える場合、工程２０５で情報をユーザに送ることができる及び／又は方法を中止することができる。

照明条件及び対応する輝度値がそれぞれの閾値未満である場合、方法は工程２０６に進むことができるか、あるいは、第１の画像及び第２の画像が取得される前に照明チェック２０４が実行される場合、方法は工程２０１及び工程２０２に進むことができる。

次の工程では、第１の画像及び第２の画像が生体部分の画像であるか否かを判断するために、画像がニューラルネットワークによって処理される。

本発明の一実施形態では、これは、ニューラルネットワークを介してピクセル輝度分布について画像を比較し、これから、画像が本物の物体から取得されたか否かを示す結果を得ることによって、第１の画像及び第２の画像を処理することを含む。これは、ニューラルネットワークがこの決定を行うために特別に訓練されているという事実から、ニューラルネットワークによって判断される。第１の画像及び第２の画像のピクセル輝度寄与はニューラルネットワークによって処理されてもよく、この処理中に、ニューラルネットワークはその１つ以上の層を介して各画像（又は両画像）を処理し、それによって具体的な結果が得られる。この結果は、本物の物体のスプーフから画像が取得された場合（図１参照）には第１の画像と第２の画像でほぼ同じになり、取得された画像が本物の物体の画像である場合には図１に関しても説明したように異なることになる。

しかしながら、これらの差は必ずしも常に同じとはならず、したがって、画像が本物の物体の画像であるか否かに依存して詳細でかつ明確に定義された結果を与えるような特別に訓練されたニューラルネットワーク（以下に図３に関して説明される）を有することが必要である。

具体的には、画像の各々、つまり第１の画像及び第２の画像の各々は、赤、青及び緑の各色値に分離される及び／又は赤、青及び緑の各色における輝度分布に分離されると考えることができる。これから、各画像に対して、各色について、各ピクセルの輝度中央値を得ることができる。次いで、これらの輝度中央値から、照明源が作動されている状態で取得された画像が、照明源が作動されずに取得された画像のピクセルの輝度中央値を超えるか否かを判断することができる。もしこれが、第２の画像（照明源が作動された状態で取得されたもの）の輝度中央値が、第１の画像の輝度中央値を、第２の画像及び第１の画像が生体部分から取得された画像であることを示す特定の閾値だけ超えると判断された場合、ニューラルネットワークは、第１の画像及び第２の画像が本物の物体の画像であってスプーフではないと判断することができる。しかしながら、輝度中央値が少なくとも上記閾値だけ異ならなければ、判断は否定的となり得、第１の画像及び第２の画像は生体部分の画像ではないと判断することができる。

より具体的には、第１の画像及び第２の画像について、赤、青及び緑の各ピクセルに関するピクセル輝度分布を求めることができ、第１の画像の各色の得られたピクセル輝度分布を、第２の画像における対応する色のピクセル輝度分布と比較することができる。これは、本発明の実施形態では実際には３つの比較工程があることを意味し、すなわち、第１の画像の赤色輝度分布が第２の画像の赤色輝度分布と比較され、第１の画像の緑色輝度分布が第２の画像の緑色輝度分布と比較され、第１の画像の青色輝度分布が第２の画像の青色輝度分布と比較される。これにより、基本的に独立した３つの判断が得られ、これは、第１の画像及び第２の画像が生体部分を示すか否かについてより信頼性の高い評価を得ることができる。

この処理のために、例えば、前処理２０３の間に、ニューラルネットワーク又は別の対応して適応されたニューラルネットワークを使用して、第１の画像及び第２の画像の中で、関心のある体部分、例えば、バイオメトリック特徴として指紋がさらなる識別のために抽出されるべき指先、を含む可能性が最も高い部分を分離する工程を適用することも考えられる。この場合、このいわゆる「関心領域」ＲＯＩは例えば前処理工程の間に分離することができ、その後、各ニューラルネットワークによってさらに処理することができる。

上で説明した実施形態について１つのニューラルネットワークのみを参照して説明したが、各工程を実行するために２つ以上のニューラルネットワークが採用される実施形態も考えることができる。

具体的には、上で記載したように、第１画像と第２画像の値の比較において各判断を実際に行う前に、各画像から輝度分布と同様の情報が得られる。輝度情報はニューラルネットワークを使用しなくても取得することができるが、他の情報は画像から取得することがより困難でありニューラルネットワークを使用する必要がある場合がある。このために、第１の「サブネットワーク」を用いて第１の画像から各情報を抽出することができるとともに、第２の「サブネットワーク」を用いて第２の画像から各情報を取得することができる。勿論、サブネットワークもまた特別に訓練されたニューラルネットワークである。より具体的には、第１のサブネットワークは、モバイルコンピューティングデバイスの照明源を作動させずに取得される画像から情報を得るために訓練され得るのに対し、第２のサブネットワークは、コンピューティングデバイスの照明源を作動させた状態で取得される画像から対応する情報を得るために特別に構成され訓練される。

ニューラルネットワークは、通常、それらが識別することができるはずのシーンの例示的な画像を使用して訓練されるので、それぞれのニューラルネットワーク（第１のサブネットワーク及び第２のサブネットワーク）のパラメータが少なくともわずかに異なる可能性があり、これにより、ニューラルネットワークの訓練に用いられた画像から対応する情報をより正確に抽出することができる。

次に、第１の画像から得られた情報と第２の画像から得られた情報とを比較することで各判断を行うために、第３のサブネットワーク（特別に訓練されたニューラルネットワークとも称される）を提供することができ、それによって、第１の画像及び第２の画像が本物の生体部分の画像であるか否かが判断される。

この判断もより洗練された判断を含むことができ、より洗練された判断においては、第１の画像と第２の画像が両方とも生体部分の画像であると判断されるか、あるいは、第１の画像と第２の画像がモバイルコンピューティングデバイスで撮影される紙上の画像であるか否か、及び／又は、第１の画像と第２の画像が画面上に提示された画像であるか否か、及び／又は第１の画像と第２の画像が生体部分の３次元スプーフ（例えば、シリコン模倣品）の画像であるか否かが決定される。この判断は対応して訓練されたニューラルネットワークを用いて可能であり、何故なら、各スプーフと実際の生体部分は特別な光反射特性を示すのでこれにニューラルネットワークを訓練することができるからである。その場合、各判断の結果は、その画像がスプーフの画像であるか生体部分の画像であるかを示すという意味の「バイナリ」ではなく、その結果はスプーフの種類も特定されるという点でより複雑になるであろう。

上記実施形態に対する代替的な実施形態では、第１の画像及び第２の画像が実際には工程２０６でニューラルネットワークによって処理されるのではなく、ニューラルネットワークによる処理が実際に実行される前に第１の画像及び第２の画像から差分画像が取得されてもよい。この差分画像は、例えば、第１の画像及び第２の画像の色値及び／又は輝度値のピクセル単位の引き算によって得られてもよい。例えば、画像内の各ピクセルについて、第２の画像の赤色値から第１の画像の赤色値を引き算し、これと対応することを他の色値についても行うことができる。加えて又は代替的に、第１の画像内のピクセルのそれぞれについて、対応する輝度値が、第２の画像内の各ピクセルの対応する輝度値から引き算されてもよい。これによって、第１の画像及び第２の画像と同じサイズを有するが、輝度地及び／又は色値の差のみを示す「差分画像」が得られる。これは、第１の画像と第２の画像が実物体の画像を構成するか否かを特定しようとするときに最も重要な情報を含む差であるため、この決定をニューラルネットワークでの処理が実行される前に行うことは合理的である。

そうすることにより、本発明の一実施形態において、この差分画像から輝度差分情報が得られ、この輝度差分情報がニューラルネットワークによって処理されることでこの輝度差分情報から第１の画像及び第２の画像が生体部分の画像であるか否かを判断することもできる。この判断は、２つの画像が互いに比較される上に記載した実施形態と基本的に同じ処理によって得られるが、ニューラルネットワークによって実際の比較が行われることを必要としない。これは、コンピューティングデバイスによって要求される処理能力及びニューラルネットワークの実際の能力に関して利点を有することができ、それにより、利用可能なコンピューティングリソースが少ないコンピューティングデバイスに実装することが容易となるとともに、特にモバイルインターネット接続を介して外部サーバのような外部コンピューティングリソースにアクセスできないコンピューティングデバイスにも実装することが容易となる。

なお、この実施形態については、２つの画像が比較される上に記載した実施形態についても同様であるが、それぞれの方法のすべての工程がモバイルデバイス上で実行され、これは以下に説明する工程に対しても成立する。これにより、本発明の方法は、モバイルコンピューティングデバイスのユーザが外部処理パワーにアクセスできないような状況に有利に適用できるようになる。しかしながら、本方法のすべての工程がモバイルデバイス上で実行されるのではなく、例えば、画像のみが実際にモバイルデバイスによって取得され、その後外部サーバに送られ、この外部サーバによってさらなる処理が実行されてこの処理の結果がモバイルデバイスに戻され、そこで、例えば、ユーザの識別又はバイオメトリック特徴の抽出を実行することができる。

工程２０６が実際にどのように実現されるか又は方法の工程がどこで実行されるかにかかわらず、方法は工程２０７に進み、第１の画像及び第２の画像が生体部分の画像であるか否かの判断が実際に行われる。第１の画像及び第２の画像が生体部分の画像ではない場合、本方法は単に工程２０９で終了することができるか、あるいは、情報が、例えば、第１の画像及び第２の画像に示されるこのバイオメトリック特徴で通常識別されるだろう人物に送られて、彼に、彼のバイオメトリック特徴のスプーフを使用して誰かが彼の機密情報への許されないアクセスを得ようとした旨の情報を提供することができる。

第１の画像及び第２の画像が本物の体部分の画像を構成すると判断された場合、本方法は、画像から（前処理中にまだ行われていない場合）バイオメトリック特徴を抽出する（工程２１０）よう進むことができる。これは、例えば、バイオメトリック特徴を含む画像の一部分（いわゆる関心領域ＲＯＩ）を画像の他の部分から分離し、画像のこの部分のみをさらに処理することによって、例えば、指先から特徴点を抽出したり、ユーザの顔又はユーザの目の虹彩又はユーザの手のひらの線から特定の情報を抽出したりすることによって行うことができる。

工程２１０でバイオメトリック特徴を抽出した後、本方法は次にオプションの工程２１１に進むことができ、ここで、画像から抽出されたバイオメトリック特徴が実際に使用される。このバイオメトリック特徴を使用することは、例えば、バイオメトリック特徴を提供するために使用された画像がユーザの本物の生体部分を示すということが証明されたユーザを、彼の銀行口座又は他の機密の制限されたアクセス情報と重ね合わせることを含むことができる。

図３は、２つの画像上の物体が生体であるか生体のスプーフであるかを決定するために採用することができるニューラルネットワークの１つの層３００における、受け取られた入力に対する内部処理を示す。本発明の一実施形態によれば、ネットワーク（以下においても参照されるであろう）は畳み込みニューラルネットワーク（ＣＮＮ）である。但し、出力を得るための入力の処理が使用されるニューラルネットワークの特定の構造に依存するような他のネットワークが使用されてもよい。

上述の層３００は、ニューラルネットワークを介する元の入力の処理順序において、例えば何らかの前処理の後に元の入力を受け取る第１の層である層であってもよい。受け取られる入力は、２つの画像、又は単一の画像、又は上で説明したような差分画像のいずれかであり得る。

いずれの場合でも、層３００は少なくとも元々取得された画像又は差分画像（又は何らかの前処理された対応物）に何らかの形で対応する入力３３０を受け取るであろう。この入力は、Ｎ及びＭが０より大きい整数である、次元Ｎ×Ｍを有する少なくとも１つの行列の形で提供されることが好ましい。行列は、例えば、少なくとも１つの色値（例えば、赤）及び／又は対応する輝度値について、画像内のピクセルを表すことができる。したがって、この行列の中の成分は、この特定のピクセルの各色（例では赤）の値及び／又はその輝度の値に対応する値を持つことがある。以下から明らかなように、入力は、取得された画像又は差分画像と同一ではない場合があるが、元の画像又は差分画像を表す行列から、ニューラルネットワークにおける先行層を介した何らかの処理によって又は何らかの前処理（例えば、上で説明したような解像度の低減）によって得られた行列Ｐであってもよい。

しかしながら、議論を簡単にするために、入力３３０は、元々取得された画像の少なくとも１つを表すＮ×Ｍ行列に対応するものと仮定され、このＮ×Ｍ行列の各成分は各画像におけるピクセルの色（例えば、赤）の値に対応する。この教示を、元のＮ×Ｍ行列に由来し、ニューラルネットワークの層でこの行列を処理することによって得られる任意の他の変換された行列に適用すること、又は対応する行列の各ピクセルについて輝度値（のみ）が提供されるケースに適用することは、簡単である。

次に、図３に例示したプロセスに沿って、入力３３０は、処理のために、ｄｅｐｔｈｗｉｓｅ畳み込み層３１１によって受け取られる。以下では、入力行列３３０がｄｅｐｔｈｗｉｓｅ畳み込み層によってどのように処理されるかに関して同程度シンプルな例を挙げる。これは、カーネルＫを使用して行列の内積を計算することを含む。カーネルはいわゆる「ストライド（ｓｔｒｉｄｅｓ）」で行列の上を移動する。次の例では、水平ストライド幅と鉛直ストライド幅に１の値を使用するが、ストライド幅が０より大きい整数である限り、１より大きい他の値を使用することができる。カーネルＫはＳ×Ｔのサイズであり、Ｓ及びＴは整数であってＮ及びＭよりも小さい。

さらに、Ｎ×Ｍのサイズの元の入力行列Ｉ（すなわち入力行列３３０）のみが、カーネルとの内積の計算に使用されると仮定する。但し、拡張行列（ｅｘｔｅｎｄｅｄｍａｔｒｉｘ）Ｚをカーネルとの内積を計算するために使用できることも意図されている。この拡張行列Ｚは、元の行列Ｉに、最初の行の上と最後の行の下及び最初の列の左と最後の列の右において、行及び列を「加える」ことによって得られる。

これを「パディング」と呼ぶ。パディングは通常、行方向に複数（Ｐ_Ｗ個）の行を追加し、列方向に複数（Ｐ_ｈ個）の列を追加することを含む。数Ｐ_ＷはＳ－１に等しくてもよく、数Ｐ_ｈはＴ－１に等しくてもよく、これにより、Ｚとカーネルの間で計算された内積が元の行列Ｉの少なくとも１つの成分を含むこととなる。結果として得られる行列Ｚはサイズが（Ｎ＋２Ｐ_Ｗ）×（Ｍ＋２Ｐ_ｈ）となる。このことを考慮すると、行列Ｚは次の成分を有するであろう。

この文脈において、すべての内積を計算し行と列に従って適切に配置することによって得られる新しい行列は、一般にサイズが

であり、式中、Ｗ_Ｗ及びＷ_ｈは、行の方向と列の方向におけるストライド幅をそれぞれ定義する。新しい行列のサイズが整数となるようなパディング及びストライド幅だけがＳ×ＴのサイズのカーネルＫに対して許されることは明らかである。さらに、ストライド幅Ｗ_Ｗ及びＷ_ｈは、好ましくは、それぞれＳ及びＴよりも小さく、そうでなければ、元の行列のいくつかの行又は列が新しい行列の計算において脱落するようにカーネルが行列Ｉ上を移動することになる。

議論を簡単にするために、以下では、元の行列Ｉにはパディングが行われず、ストライド幅は水平及び鉛直ストライドについて１であると仮定する。さらに、カーネルはＳ×Ｓのサイズの行列、すなわちＳ＝Ｔと仮定される特殊なケースであると仮定する。以下の説明を以下の教示を用いて任意のパディング及びストライド幅並びにカーネルサイズに適用することは簡単である。

ｄｅｐｔｈｗｉｓｅ畳み込み層３１１では、受け取られた入力行列３３０を使用して、サイズＳ×Ｓ（ここで、Ｓ＜Ｎ，Ｍである）を有するカーネルＫを用いて内積を形成する。元のＮ×Ｍ行列の各縮小行列（ｒｅｄｕｃｅｄｍａｔｒｉｘ）について内積を計算し、ここで縮小行列はサイズＳ×Ｓで、元のＮ×Ｍ行列にコヒーレントな成分を含む。例えば、Ｓ＝３を考えると、元のＮ×Ｍ行列の第１の縮小行列Ｒは、縮小行列（Ｎ×Ｍ）_Ｓが９個の成分で構成されるように成分ｉ＝１，２，３、ｊ＝１，２，３を含み、カーネルＫとの内積が計算されると結果が１つの数になる。元のＮ×Ｍ行列の行の方向の次の縮小行列は、ｉが１ずつ増加された行列であり、これにより、この方向の次の行列は、ｉ＝２，３，４、ｊ＝１，２，３である元のＮ×Ｍ行列の中の成分で構成される。次いで、この行列が、カーネルとの次の内積を計算するために使われてもよい。Ｓ＝３のＳ×Ｓ行列の所与の例は一例にすぎず、他のカーネルも使用できることに注意すべきである。

行／列の方向における（Ｎ×Ｍ）_Ｓのサイズの次の縮小行列Ｒを計算するために、元のＮ×Ｍ行列の成分のインデックスｊが１ずつ増加される。これが行の方向の最後の縮小行列まで行われ、ここで、Ｓ＝３の場合、ｉ＝Ｎ－Ｓ＋１、Ｎ－Ｓ＋２、Ｎ－Ｓ＋３である。列について、これは対応するやり方で行われ、ｊ＝Ｍ－Ｓ＋１、Ｍ－Ｓ＋２、Ｍ－Ｓ＋３となる。これらの内積を計算することにより、（Ｎ－Ｓ＋１）×（Ｍ－Ｓ＋１）のサイズを有する行列Ｐが計算される。その成分Ｐ_ｉｊは、元のＮ×Ｍ行列の対応する縮小行列とカーネルＫで計算された各内積に対応する。このサイズの行列が実際には層３００のｐｏｉｎｔｗｉｓｅ畳み込み層に送られることに注意すべきである。

カーネルＫは、本発明による場合、各画像に生体部分が示されているかどうかを見つけるために、意図された物体を適切に識別するためにニューラルネットワークが訓練される学習プロセスを介して得られる成分を構成する。ニューラルネットワークの層３００で使用されるカーネルＫは、各ニューラルネットワークの他の層で使用されるカーネルとサイズ及び成分が必ずしも同一ではない。さらに、カーネル内の成分は互いに同一である必要はなく、少なくとも、０以上の数を構成する。成分は、ニューラルネットワークの学習を介して得られる「重み」を表すと考えることができる。

行列３３０をｄｅｐｔｈｗｉｓｅ畳み込み層で処理した結果が行列３３１であり、行列３３１は、上で説明したように、カーネルが、行の方向にΔｉ＝１の距離、列の方向にΔｊ＝１の距離を有するストライドで、元のＮ×Ｍ行列上を移動された場合、（Ｎ－Ｓ＋１）×（Ｍ－Ｓ＋１）のサイズを有するものである。しかしながら、これらのストライドが、Δｉ＝２又はΔｉ＝３のように、より大きな距離を有する場合（場合によっては列についても同様）、これに応じて、上に説明したように、結果３３１の次元が変わる。

さらなる処理では、この結果３３１は、図３の矢印で描かれた処理順序に沿って、ｄｅｐｔｈｗｉｓｅ畳み込み層３１１の後の第１のバッチ正規化３１２に送られる。これらの構成要素は、ネットワークを介する、特に（複数の）層で使用される（複数の）カーネルを介する画像の処理によって、関連する可能性がある情報の意図しないダンピングをもたらすために提供される。

バッチ正規化部は、受信した結果行列３３１を正規化しようと試みる。これは、（Ｎ－Ｓ＋１）×（Ｍ－Ｓ＋１）行列の各成分の合計を計算し、それを（Ｎ－Ｓ＋１）×（Ｍ－Ｓ＋１）行列の成分の数で除算することによって達成される。（Ｎ－Ｓ＋１）×（Ｍ－Ｓ＋１）行列（以下ではＰと表記し、対応する成分Ｐ_ｉｊを有する）の平均値Ｖは次のように表される。

式中、ｎとｍは、Ｎ×Ｍ行列の行（ｌｉｎｅｓ）及び列（ｃｏｌｕｍｎｓ／ｒｏｗｓ）の数、あるいは行列Ｐ行及び列の数を表す。成分Ｐ_ｉｊは行列Ｐの成分であり、ここで、所与の成分Ｐ_ｉｊは行ｉと列ｊにある行列の要素である。

そして、バッチ正規化部は、Ｐ’_ｉｊ＝Ｐ_ｉｊ－Ｖのように、元の行列の各成分Ｐ_ｉｊから平均値Ｖを引き算して縮小行列Ｐ’を計算する。それによって、縮小行列Ｐ’の値が正規化され、一方向又は他方向の異常（極端に大きい値又は極端に低い値）が除去される。

第１のバッチ正規化部３１２によってもたらされた結果３３２は、（Ｎ－Ｓ＋１）×（Ｍ－Ｓ＋１）のサイズを（図４に示す例において）依然として有する行列であり、これは、ここまで行列のさらなる次元縮小が行われなかったからである。

次いで、結果３３２が、第１のバッチ正規化部３１２に続く第１の整流化線形ユニット３１３に提供される。

整流化線形ユニットは、新しい行列成分

を計算することによって行列３３２内の各成分をさらに修正し、
ここで、

である。

これにより、バッチ正規化部を通過した後に０より小さくなる値は０に設定されるので、以下で説明するｄｅｐｔｈｗｉｓｅ畳み込み層におけるさらなる処理に影響しない。つまり、例えば、バッチ正規化部で計算された平均値を下回る色値はそれ以上考慮されず、平均値Ｖに少なくとも対応する値のみが計算における次の工程の結果に影響する。

このようにして第１の整流化線形ユニット３１３によって出力される結果３３３は、依然として（Ｎ－Ｓ＋１）×（Ｍ－Ｓ＋１）の形状／サイズの行列であり、この行列がｐｏｉｎｔｗｉｓｅ畳み込み層３２１に送られる。

このｐｏｉｎｔｗｉｓｅ畳み込み層３２１によって結果３３４が生み出される。この結果３３４は、ｐｏｉｎｔｗｉｓｅ畳み込み層３２１によって、（Ｎ－Ｓ＋１）×（Ｍ－Ｓ＋１）行列３３３の各成分を取得しこの成分に重みαを乗算することにより作成される。αは、好ましくは、いずれの場合でも０より大きく、この数は、（Ｎ－Ｓ＋１）×（Ｍ－Ｓ＋１）行列の各成分について同一である。したがって、ｐｏｉｎｔｗｉｓｅ畳み込み層３２１から得られる結果３３４は、同じサイズ（Ｎ－Ｓ＋１）×（Ｍ－Ｓ＋１）を有するが、各成分が重みαで乗算された行列である。

次いで、結果３３４が第２のバッチ正規化部３２２に送られ、そこで第１のバッチ正規化部３１２について説明したように正規化され、結果３３５と同じ次元の正規化された行列Ｐ’が計算され、この行列／結果３３５が第２の整流化線形ユニット３２３に送られ、そこで整流化機能が適用されて結果／行列

２３６が得られ、これが、次いでニューラルネットワーク内の次の層に送られるか、あるいはニューラルネットワークにおいて他の層が次にない場合には、結果３３６が出力として提供される。

そして、入力画像の処理の結果によって、入力画像が生体部分の画像を構成するか否か（これは、照明源の光を用いる照明に対する生体部分の異なる挙動のために画像又は差分画像の処理中に見出される）、つまり生体部分のスプーフであるか否かを決定することが可能になる。使用されているニューラルネットワークがどの程度洗練されているかによって、実際に使用されているスプーフの種類がさらに区別され得る。

次に、図４に関し、カーネルＫの重みと、図３に関して説明した重みと、２つの画像が本物の生体部分を示しているのか又はこのスプーフを示しているだけなのかを実際に判断できるパターンとがニューラルネットワークによって学習されるように、ニューラルネットワークを適切に訓練することにについて、説明する。

図４の方法は、訓練データ４０１を提供することから開始する。訓練データは、例えば、他の物体と共に１つの画像に描かれた指先又は複数の指の複数の画像によって構成されてもよい。さらに、訓練データは、本物の指／他の生体部分の画像と、そのような生体部分のスプーフを示す画像、例えば指の画像、とを含む。さらに又は代替的に、訓練データは、上に記載したニューラルネットワークによって処理されるための差分画像を含んでもよい。

画像は、訓練データとして導入される、回転された、ハイライトされた、暗くされた、拡大された又は他の修正が施されたコピーを使用することによって、同じ画像から増やされてもよい。

さらに、入力に対応する結果４０８が提供され、この結果は、ニューラルネットワークが得るべき結果であり、したがって、学習において、実際の結果に対するニューラルネットワークによる処理の結果をチェックし、そしてそれに応じてニューラルネットワークのパラメータを調整するために使用される。

次の工程では、ニューラルネットワークに加えてオプティマイザ４０７及び損失関数計算部４０６が提供される訓練環境において、１つの特定の入力画像４０２がニューラルネットワークに提供される。

入力画像（又は一対の画像）は、第１のラウンドにおいて、ｄｅｐｔｈｗｉｓｅ畳み込み層、第１のバッチ正規化部及び第１の整流化線形ユニット４０３（ＤＣＢＲとしてまとめられている）を使用して処理され、次いで、ｐｏｉｎｔｗｉｓｅ畳み込み層、第２のバッチ正規化部及び第２の整流化線形ユニット（ＰＣＢＲとしてまとめられている）に送られ、ここで、図３に関する説明に沿って処理される。これは、図４に示された工程又はセクション４０３及び４０４が、各セクション４０３及び４０４において、ｐｏｉｎｔｗｉｓｅ畳み込み層（ＰＣ）及びｄｅｐｔｈｗｉｓｅ畳み込み層（ＤＣ）のカーネルＫについての対応する重みを使用して実行されることを意味する。第１及び第２のバッチ正規化部並びにアイテム４０３及び４０４の整流化線形ユニットは、図３に関して上で説明したように動作する。

その結果、図３に沿って、出力が提供される。出力は、ベクトル

のかたちを有してもよく、式中、ａ，ｂ，ｃ，ｄは、０≦ａ，ｂ，ｃ，ｄ≦１で、ａ，ｂ，ｃ，ｄは、各々、入力が、本物の生体部分（例えば値ａ）又はそのような生体部分のスプーフ（値ｂ，ｃ及びｄであり、ｂ，ｃ及びｄは各々異なる種類のスプーフの可能性を表す）のいずれかを表す可能性を表す。このような４つの値の代わりに、より多くの又はより少ない値を与えることができる。また、（例えば、１より小さい場合）画像が本物の生体部分を示すこと、及び（例えば、１より大きい場合）画像が生体部分のスプーフを示すことを示す１つの出力値のみが生成されてもよい。

この結果４０５は次に損失関数に提供され、結果４０５と正しい結果４０８との差異を決定するために結果４０８と比較される。損失関数４０６によって得られたこの差異は、次にオプティマイザ４０７に提供され、オプティマイザは、各ｐｏｉｎｔｗｉｓｅ畳み込み層及び各ｄｅｐｔｈｗｉｓｅ畳み込み層の重み、すなわちα、並びにカーネルＫの成分を修正する。これは、ネットワーク内のすべての層について一度に、又は分離された各層について、ｐｏｉｎｔｗｉｓｅ畳み込み層の重みα及びｄｅｐｔｈｗｉｓｅ畳み込み層のカーネルＫの成分が操作されることを意味する。

これらの新しい値により、全く同じ（複数の）画像についてサイクルが繰り返され、結果として得られるベクトル

が損失関数に提供され、正しい結果４０８と比較され、その結果がオプティマイザ４０７に提供され、オプティマイザ４０７が重みを修正する。

この手順は、結果として得られるベクトル

との間の差異、特に結果４０８との比較における画像が本物の生体部分を示すか又はそのスプーフを示すかについての決定が、実質的に意図されている識別精度に対応する所定の閾値を超えている限り、実行される。

その後、次の（複数の）入力画像４０２が訓練データ４０１から取得され、対応するバウンディングボックスが損失関数に提供される。次いで、説明した処理を新しい画像に対して再度繰り返し、ｐｏｉｎｔｗｉｓｅ畳み込み層とｄｅｐｔｈｗｉｓｅ畳み込み層についての最適な重みが得られる。これは、重みの特定の組み合わせが、すべての入力画像についての適切な識別精度をもたらすまで繰り返される。次に得られる重みの組み合わせは、最終重み４１０として出力される。

これらの最終重みは、次に、モバイルデバイス上で本発明の方法を実行するアプリケーションに導入される。

したがって、本発明のコンセプトでは、モバイルデバイスに提供されるニューラルネットワークは、生体部分及びそのような生体部分のスプーフの画像の識別にすでに十分に適合されており、したがって、さらなる学習を必要とせずに採用することができ、これにより、モバイルデバイスで必要とされるコンピュータリソースがさらに低減される。

全体として、上記の図及び実施形態を参照して上で説明したように、ｐｏｉｎｔｗｉｓｅ畳み込み層、ｄｅｐｔｈｗｉｓｅ畳み込み層、バッチ正規化部及び線形ユニットを使用することによって、サイズが小さいアプリケーションを提供することができ、したがって、インターネットなどを介して追加のデータソースにアクセスすることなく、分離されたモバイルデバイス上での利用が可能となる。これにより、無線ネットワーク等へのアクセスが不可能な環境でのアプリケーションに適したものとすることができる。さらに、このアプリケーションを実行するために必要なプロセッサ電力は、適切なスプーフ検出結果を依然として生成しつつ最小に低減され、これにより、確認された（すなわち、スプーフィングされていない）画像から生体部分のバイオメトリック特徴を抽出することができ、これが後に、上で説明したような実行されるバイオメトリック特徴によるユーザの識別に使用される。

本発明の方法を実行することができる状況を提供するために、図５は、本発明の一実施形態によるスマートフォンの形態におけるモバイルデバイスを示す。

モバイルデバイス５００は、現在知られているようなスマートフォンとして具体化されている。モバイルデバイス５００は、好ましくは、ディスプレイ５３０が設けられているモバイルデバイス５００の側とは反対であるモバイルデバイスの裏面に、光学センサ５２０（例えばカメラ）を備える。本発明によれば、照度源が（例えば、光学センサ５２０の一部として）設けられており、これは選択的に作動及び作動停止することができる。

このカメラは、解像度が１ＭＰ、２ＭＰ又はそれ以上のカメラ、例えば、ＨＤカメラとすることができる。カメラには照明源としてフラッシュライトが設けられていてもよいが、本発明はこれに限定されず、そのようなモバイルデバイスの適当な照明源を使用することができる。また、カメラは低解像度でリアルタイム画像を撮影するように構成することができ、カメラがいったん作動されると、ディスプレイ５３０は、カメラが実際に「見る」ものの描写を示すことができる。これは、例えば、手５１０とすることができる。

本発明の一実施形態では、本発明の方法が取得された画像に対して実行されると、判断の結果がディスプレイ（ここでは図示せず）に示されてもよい。

Claims

ユーザを識別するためのコンピュータ実装方法であって、
前記方法は、作動されると可視光を発する照明源を有するコンピューティングデバイスを使用するものであり、
前記方法は、
バイオメトリック特徴を有する生体部分を含む可能性のあるシーンの２つの画像を取得する工程であって、第１の画像を前記照明源を作動させずに取得し、第２の画像を前記照明源が作動している状態で取得する工程と、
前記第１の画像及び前記第２の画像をニューラルネットワークに送る工程と、
前記第１の画像及び前記第２の画像を前記ニューラルネットワークによって処理する工程と、を含み、
前記処理する工程は、前記第１の画像と前記第２の画像とを比較し、これにより、前記第１の画像及び前記第２の画像が生体部分の画像であるか否かを判断する工程を含み、
前記方法は、
前記第１の画像及び前記第２の画像が生体部分の画像であると判断された場合、前記ユーザを識別するためのバイオメトリック特徴を見つけるために識別アルゴリズムを実行し、前記第１の画像及び前記第２の画像が生体部分の画像でないと判断された場合、前記識別アルゴリズムを実行しないことをさらに含む、方法。
ユーザを識別するためのコンピュータ実装方法であって、
前記方法は、作動されると可視光を発する照明源を有するデバイスを使用するものであり、
前記方法は、
バイオメトリック特徴を有する生体部分を含む可能性のあるシーンの２つの画像を取得する工程であって、第１の画像を前記照明源を作動させずに取得し、第２の画像を前記照明源が作動している状態で取得する工程と、
前記第１の画像及び前記第２の画像から差分画像を取得する工程と、
前記差分画像をニューラルネットワークに送る工程と、
前記差分画像を前記ニューラルネットワークによって処理する工程と、を含み、
前記処理する工程は、
前記差分画像から輝度差分情報を決定する工程と、
前記輝度差分情報から、前記第１の画像及び前記第２の画像が生体部分の画像であるか否かを判断する工程と、
前記第１の画像及び前記第２の画像が生体部分の画像であると判断された場合、前記ユーザを識別するためのバイオメトリック特徴を見つけるために識別アルゴリズムを実行し、前記第１の画像及び前記第２の画像が生体部分の画像でないと判断された場合、前記識別アルゴリズムを実行しないことをさらに含む、方法。
前記第１の画像と前記第２の画像とを比較することが、前記画像のピクセル輝度分布に関して前記画像を比較することを含む、請求項１に記載の方法。
前記画像のピクセル輝度分布に関して前記画像を比較することが、
前記第１の画像のピクセルの赤、青及び緑の輝度中央値と、前記第２の画像のピクセルの赤、青及び緑の輝度中央値とを取得し、
前記第２の画像の前記輝度中央値が、所定の閾値だけ、前記第１の画像の前記ピクセルの前記輝度中央値を超える場合、前記画像が生体部分の画像であると判断することを含む、請求項３に記載の方法。
前記赤、青及び緑のピクセルの前記ピクセル輝度分布が、前記第１の画像と前記第２の画像について取得され、前記第１の画像の各色の取得された前記ピクセル輝度分布が、前記第２の画像の対応する色の取得された前記ピクセル輝度分布と比較される、請求項４に記載の方法。
前記画像を前記ニューラルネットワークによって処理する工程は、前記比較をする前に、前記ニューラルネットワークを使用して、体の一部を含む可能性が高い前記第１の画像及び／又は第２の画像の部分を特定し、前記部分に対応するピクセル情報を前記第１の画像及び前記第２の画像から抽出することを含み、
前記第１の画像と前記第２の画像とを比較することは、前記第１の画像及び前記第２の画像から抽出された前記部分に対応する前記ピクセル情報のみを比較することを含む、請求項１又は請求項３～５の何れか一項に記載の方法。
前記第１の画像及び前記第２の画像を取得する前に、照明チェック工程が実行され、
前記照明チェック工程は、現在の照明条件をチェックすることを含み、
前記方法は、前記現在の照明条件に対応する前記輝度が所定の閾値を超える場合、前記方法のさらなる工程は実行しないことをさらに含む、請求項１～６の何れか一項に記載の方法。
前記現在の照明条件に対応する前記輝度が所定の閾値を超える場合、前記現在の照明条件では前記識別を実行できない旨の情報を前記ユーザに提示する、請求項７に記載の方法。
前記方法の各工程は、モバイルコンピューティングデバイス上で実行され、
前記ニューラルネットワークが前記モバイルデバイスに完全にインストールされている、請求項１～８の何れか一項に記載の方法。
前記ニューラルネットワークは３つのサブネットワークを含み、
第１のサブネットワークが前記第１の画像を処理して前記第１の画像から第１の情報を抽出し、第２のサブネットワークが前記第２の画像を処理して前記第２の画像から第２の情報を抽出し、
第３のサブネットワークが、前記第１の画像及び前記第２の画像が生体部分の画像であるか否かを判断するために、前記第１の情報と前記第２の情報とを比較する、請求項１又は請求項１を引用する請求項３～９の何れか一項に記載の方法。
前記第１の画像及び前記第２の画像が生体部分の画像であるか否かを判断する工程は、前記第１の画像及び前記第２の画像が紙上の画像の画像であるか否か、及び／又は、前記第１の画像及び前記第２の画像がスクリーン上に提示された画像の画像であるか否か、及び／又は、前記第１の画像及び前記第２の画像が生体部分の三次元スプーフの画像であるか否か、及び／又は、前記第１の画像及び前記第２の画像が生体部分の画像であるか否かを決定することを含む、請求項１～１０の何れか一項に記載の方法。
前記輝度差分は、前記差分画像を取得する際に、前記第１の画像と前記第２の画像の輝度値のピクセル単位の引き算から得られる、請求項２に記載の方法。
前記照明源は前記コンピューティングデバイスの明かりである、請求項１～１２の何れか一項に記載の方法。