JP6345276B2

JP6345276B2 - 顔認証方法およびシステム

Info

Publication number: JP6345276B2
Application number: JP2016570873A
Authority: JP
Inventors: イースン，; ショウコウワン，; シャオオウタン，
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2014-06-16
Filing date: 2014-06-16
Publication date: 2018-06-20
Anticipated expiration: 2034-06-16
Also published as: US10289897B2; WO2015192263A1; JP2017517076A; CN106415594A; CN106415594B; US20170083755A1

Description

本発明は、顔認証方法およびそのシステムに関する。

初期の部分空間顔認識法（例えば、ＬＤＡおよびベイズ的な顔）は、姿勢、照明、表情、年齢、および遮蔽に起因した個人内変動を低減したと共に、個人間変動を拡大した。例えば、ＬＤＡは、２つの線形部分空間により、顔の個人間変動と顔の個人内変動とを近似させ、かつ両方の間の比率を最大化させる投影方向を見つける。

より最近の研究にも、明示的または暗黙的に同一標的を狙ってきた。例えば、距離学習（ｍｅｔｒｉｃｌｅａｒｎｉｎｇ）を提案して顔画像をいくつかの特徴表示にマッピングし、同じ身元の顔画像が互いに近くなる一方、異なる身元の顔画像が別々に離れるように維持する。しかしながら、このようなモデルは、それらの線形性質や浅層構造に非常に制限され、個人間変動および個人内変動が複雑で高非線形であり、かつ高次元画像空間内に観察される。

近年、深層モデルにより認識監視信号または認証監視信号を用いて顔認識に有効な特徴を学習するために、多大な努力をしてきた。認識信号を用いて学習された特徴は、既にＬＦＷにおいて約９７．４５％の精度が得られた。

分類タスクおよび認証タスクを共同で解決するという発想は、一般的な対象の認識に適用され、それは、隠された特徴表示ではなく固定の対象種類である分類精度を向上させることに焦点を当ててきた。

本発明の一態様によれば、特徴抽出ユニットおよび認証ユニットを備えてもよい顔認証装置を提供する。一実施形態において、特徴抽出ユニットは、異なる顔訓練セットを用いて訓練された複数の畳み込み特徴抽出システムを備えており、その中で、システムのそれぞれにおいて、複数のカスケードされた畳み込み特徴抽出ユニットと、プーリング特徴抽出ユニットと、局部接続特徴抽出ユニットと、完全接続特徴抽出ユニットとを備えており、これらの特徴抽出ユニットは、顔画像の顔領域から顔認証のための顔特徴を抽出するように構成される。その中で、本発明の一実施形態に係る完全接続ユニットとしてもよい、ユニットカスケードにおける出力ユニットは、前の畳み込みユニット、プーリングユニット、局部接続ユニット、または完全接続ユニットのうちの少なくとも１つに接続され、且つ、接続されたユニットにおける顔特徴から、顔認証のための顔特徴（深層認識−認証特徴またはＤｅｅｐＩＤ２と呼ばれ）を抽出するように構成される。

認証ユニットは、比較されるべき２つの顔画像から抽出して得られたＤｅｅｐＩＤ２を比較してこれらの２つの顔画像が同じ身元に由来するか否かを決定するように構成されてもよい。

本発明の別の態様によれば、顔認証方法を提供する。この方法は、それぞれ訓練された畳み込み特徴抽出システムを用いて顔画像の異なる領域からＤｅｅｐＩＤ２を抽出するステップと、比較されるべき２つの顔画像からそれぞれ抽出されたＤｅｅｐＩＤ２を比較してこれらの２つの顔画像が同じ身元に由来するか否かを決定するステップとを含んでもよく、し、その中で、前記畳み込み特徴抽出システムの出力層のニューロン活性化がＤｅｅｐＩＤ２として見なされる。

本発明によれば、上記装置には、訓練ユニットをさらに備えてもよい。当該訓練ユニットは、対になる位置合わせ顔領域を入力するとともに、認識監視信号および認証監視信号を同時に畳み込み特徴抽出システムに加えることにより、身元分類および身元認証を同時に行うための複数の畳み込み特徴抽出システムを訓練するように構成される。

本発明によれば、畳み込み特徴抽出システムを訓練するための方法をさらに含み、この方法は、
１）予備訓練セットから２つの顔領域−ラベルの対をサンプリングするステップと、
２）サンプリングされた２つの顔領域−ラベルの対における２つの顔領域からＤｅｅｐＩＤ２をそれぞれ抽出するステップと、
３）各顔領域から抽出されたＤｅｅｐＩＤ２を顔身元の全ての種類のうちの１種に分類するステップと、
４）分類された身元と所定の参照（ground-truth）身元とを比較して認識エラーを生成するステップと、
５）比較されるべき２つの顔領域からそれぞれ抽出された２つのＤｅｅｐＩＤ２ベクトルの間の非類似度を比較して認証エラーを生成するステップと、
６）生成された認証エラーおよび生成された認識エラーとの組み合わせを、畳み込み特徴抽出システムを通過させるように逆伝播して、畳み込み特徴抽出システムのニューロンの間の接続重みを調節するステップと、
７）訓練プロセスが収束するまで、ステップ１）〜６）を繰り返して畳み込み特徴抽出システムのニューロンの間の接続重みを決定するステップと、を含む。

本発明によれば、畳み込み特徴システムを訓練するためのシステムをさらに有し、このシステムは、
予備訓練セットから２つの顔領域−ラベルの対をサンプリングする装置と、
サンプリングされた２つの顔領域−ラベルの対における２つの顔領域からＤｅｅｐＩＤ２をそれぞれ抽出する装置と、
各顔領域から抽出されたＤｅｅｐＩＤ２を顔身元の全ての種類のうちの１種に分類する装置と、
分類された身元と所定の参照身元とを比較して認識エラーを生成する装置と、
比較されるべき２つの顔領域からそれぞれ抽出された２つのＤｅｅｐＩＤ２ベクトルの間の非類似度を比較して認証エラーを生成する装置と、
生成された認証エラーおよび生成された認識エラーとの組み合わせを、畳み込み特徴抽出システムを通過させるように逆伝播して、畳み込み特徴抽出システムのニューロンの間の接続重みを調節する装置と、
訓練プロセスが収束するまで、上記ステップを繰り返して畳み込み特徴抽出システムのニューロンの間の接続重みを決定する装置と、を備える。

本発明によれば、１つ以上のプロセッサにより、下記のステップ、すなわち、
１）予備訓練セットから２つの顔領域−ラベルの対をサンプリングするステップと、
２）サンプリングされた２つの顔領域−ラベルの対における２つの顔領域からＤｅｅｐＩＤ２をそれぞれ抽出するステップと、
３）各顔領域から抽出されたＤｅｅｐＩＤ２を顔身元の全ての種類のうちの１種に分類するステップと、
４）分類された身元と所定の参照身元とを比較して認識エラーを生成するステップと、
５）比較されるべき２つの顔領域からそれぞれ抽出された２つのＤｅｅｐＩＤ２ベクトルの間の非類似度を比較して認証エラーを生成するステップと、
６）生成された認証エラーおよび生成された認識エラーとの組み合わせを、畳み込み特徴抽出システムを通過させるように逆伝播して、畳み込み特徴抽出システムのニューロンの間の接続重みを調節するステップと、
７）訓練プロセスが収束するまで、ステップ１）〜６）を繰り返して畳み込み特徴抽出システムのニューロンの間の接続重みを決定するステップと、
を実行可能な命令を記憶するためのコンピュータ読み取り可能な媒体をさらに提供する。

従来方法に比べると、本発明は、深層畳み込み特徴抽出システムを用いて個人間の顔変動および個人内の顔変動を処理し、当該深層畳み込み特徴抽出システムは、その深層アーキテクチャと強力な学習能力を持っているため、分層非線形映射によって顔認識に有効に使用されるＤｅｅｐＩＤ２を学習することができる。

本発明は、２つの監視信号（すなわち、顔認識信号および顔認証信号）を同時に使用することによりＤｅｅｐＩＤ２を学習する。顔認識信号は、異なる身元から抽出されたＤｅｅｐＩＤ２を描画して個人間変動を増加させ、顔認証信号は、同じ身元から抽出されたＤｅｅｐＩＤ２を集まって個人内変動を低減させ、このような２種類の信号は、いずれも顔認識に不可欠なものである。

本発明は、複数種類の顔領域および解像度から相補的なＤｅｅｐＩＤ２を抽出して異なる面で顔を特徴付け、そしてこれらの特徴付けが組み合わせされてＰＣＡ次元縮小の後に、最終の顔特徴表示を形成した。このように学習されたＤｅｅｐＩＤ２は、下記の面において、従来の方法で学習された特徴よりも優れており、すなわち、学習されたＤｅｅｐＩＤ２は、異なる身元の間に差別化させるが、同じ身元の内に一貫性を維持し、したがって、下記の顔認識がより容易になる。

以下、図面を参照しながら、本発明の例示的な非限定的実施形態を説明する。図面は、例示的であり、通常正確なサイズを示すものではない。異なる図面における同一または類似の素子は、同じ符号で示される。

本発明のいくつかの実施形態に係る顔認証装置を示す模式図である。本発明のいくつかの実施形態に係る顔認証装置がソフトウェアで実施された場合を示す模式図である。本発明の第１の実施形態に係る１組の選択された顔領域を示す模式図であり、その中で、ＤｅｅｐＩＤ２は、この組の選択された顔領域から抽出される。本発明の第２の実施形態に係る畳み込み特徴抽出システムの具体的な構造を示す模式図である。畳み込み特徴抽出システムの出力層に添加されたＤｅｅｐＩＤ２の認識監視信号および認証監視信号を示す模式図である。本発明のいくつかの実施形態に係る顔認証を示す模式的フローチャートである。本発明のいくつかの実施形態に係るＤｅｅｐＩＤ２を抽出するための深層畳み込み特徴抽出システムの訓練プロセスを示す模式的フローチャートである。本発明のいくつかの実施形態に係る図１に示すような訓練ユニットを示す模式図である。

以下、例示的な実施形態を詳細に参照し、その中で、これらの例示的な実施形態の例を図面に示す。本明細書には、適切な場合、同じ符号を用いて同一または類似の部材を表す。図１は、本発明のいくつかの実施形態に係る顔認証用の例示的な装置１０００を示す模式図である。

装置１０００は特定のハードウェア、ソフトウェアまたはハードウェアとソフトウェアとの組み合わせを用いて実現できることを理解すべきである。また、本発明の実施形態は、コンピュータプログラムコードを有する１つ以上のコンピュータ読み取り可能な記憶媒体（ディスクメモリ、ＣＤ−ＲＯＭ、光メモリ等を含むがそれらに限定されない）において実現されるコンピュータプログラム製品に適応されてもよい。

ソフトウェアで装置１０００を実現する場合、装置１０００には、汎用コンピュータ、コンピュータクラスター、主流コンピュータ、オンラインコンテンツを提供する専用のコンピュータ装置、または集中型もしくは分散型の方式で実行されるコンピュータグループを含むコンピュータネットワークを備えてもよい。図２に示されるように、装置１０００は、１つ以上のプロセッサ（プロセッサ１０２、１０４、１０６等）、メモリ１１２、記憶機構１１６、通信インターフェース１１４、および装置１０００の各部材の間で情報を容易に交換するためのバスを備えてもよい。プロセッサ１０２〜１０６は、中央処理装置（「ＣＰＵ」）、グラフィック処理装置（「ＧＰＵ」）または他の適切な情報処理装置を備えてもよい。使用されるハードウェアのタイプに応じて、プロセッサ１０２〜１０６は、１つ以上のプリント回路基板、および／または１つ以上のマイクロプロセッサチップを備えてもよい。以下でより詳細に説明される各種類の方法を実行するために、プロセッサ１０２〜１０６は、コンピュータプログラム命令のシーケンスを実行することができる。

メモリ１１２は、ランダムアクセスメモリ（「ＲＡＭ」）および読み出し専用メモリ（「ＲＯＭ」）を備えてよい。コンピュータプログラム命令は、プロセッサ１０２〜１０６における１つ以上のプロセッサに実行されるように、メモリ１１２に記憶され、メモリ１１２からアクセスされたり、読み取られたりしてもよい。例えば、メモリ１１２は、１つ以上のソフトウェアアプリケーションを記憶してもよい。また、メモリ１１２は、すべてのソフトウェアアプリケーションを記憶してもよく、ソフトウェアアプリケーションにおける、プロセッサ１０２〜１０６のうちの１つ以上のプロセッサで実行可能な部分のみを記憶してもよい。なお、図１は、１つのブロックでメモリを示しているが、メモリ１１２は、中央計算装置または異なる計算装置に取り付けられる複数の物理的装置を備えてもよい。

図１を再度参照し、装置１０００は、ハードウェアによって実現される場合、特徴抽出ユニット１０および認証ユニット２０を備えてもよい。特徴抽出ユニット１０は、それぞれ訓練された畳み込み特徴抽出システムを使用することにより、顔画像の異なる領域からＤｅｅｐＩＤ２（深層認識−認証特徴）を抽出し、かつ前記畳み込み特徴抽出システムの出力層のニューロン活性化（neuron activation）をＤｅｅｐＩＤ２とするように構成される。認証ユニット２０は、比較されるべき２つの顔画像からそれぞれ抽出されたＤｅｅｐＩＤ２を比較してこれらの２つの顔画像が同じ身元に由来するか否かを決定するように構成される。

特徴抽出ユニット（抽出器）１０
特徴抽出ユニット１０は、複数の畳み込み特徴抽出システムを含み、かつ、特定の顔領域を畳み込み特徴抽出システムのいずれに入力してＤｅｅｐＩＤ２を抽出する働きをする。図３は、顔の位置合わせをしてから選択された、ＤｅｅｐＩＤ２を抽出するための入力顔領域の例を示し、その中で、顔領域は、位置、サイズ、カラーチャンネルおよび水平反転における大きな変動を含む。図４は、畳み込み特徴抽出システムの例を示し、それは、入力層（本明細書の中で、入力ユニットとも呼ばれ）３２、複数の畳み込み層（本明細書の中で、畳み込みユニットとも呼ばれ）３４、複数のプーリング層（本明細書の中で、プーリングユニットとも呼ばれ）３６、複数の局部接続層（本明細書の中で、局部接続ユニットとも呼ばれ）３８、および複数の完全接続層（本明細書の中で、完全接続ユニットとも呼ばれ）４０を備え、その中で、畳み込み特徴抽出システムの出力層（本発明の一実施形態において完全接続層４０であってもよく）は、１つまたは複数の前の畳み込み層、プーリング層、局部接続層、または完全接続層に接続される。畳み込み層、プーリング層、局部接続層、および完全接続層のそれぞれにおいて、局所受容野（receptive field）または全受容野を備える複数のニューロンを含み、且つ、ニューロンの間において接続重みを共有するか共有しないかである。畳み込み特徴抽出システムの出力層（完全接続層４０であってもよい）のニューロン活性化は、抽出されたＤｅｅｐＩＤ２であり、それは以下に議論される。

図４に示すような本発明の実施形態において、畳み込み特徴抽出システムのそれぞれにおいて、ｎ個（例えば、ｎ＝３）の畳み込み層３４を備え、その中で、このｎ個の畳み込み層３４のそれぞれの後に、いずれも最大プーリング層３６が続いている。第３の最大プーリング層の後に、局部接続層３８および完全接続層４０が続いている。完全接続層４０は、ＤｅｅｐＩＤ２層であり、それは、局部接続層３８および第３の最大プーリング層３６に完全に接続される。より高い畳み込み層における全ての特徴マップにおいて重みの共有を行う必要がない。具体的には、示された深層畳み込み特徴抽出システムの第３の畳み込み層において、例えば、各２×２局所領域において局所的にニューロン重みを共有する。畳み込み特徴抽出システムは、特徴抽出カスケードの最後の１層（ＤｅｅｐＩＤ２層４０）から多次元（例えば、１６０次元）ＤｅｅｐＩＤ２ベクトルを抽出する。畳み込み層３４、局所接続層３８、および完全接続ＤｅｅｐＩＤ２層４０において、ニューロンに対してＲｅＬＵ（Rectified liner unit：正規化線形ユニット）を使用する。図４に示すような実施形態において、サイズが、例えば、５５×４７であるＲＧＢ入力を使用した。入力領域のサイズを変更する際に、後続の層における特徴マップのサイズも相応に変更される。

以下、上記に説明された畳み込み特徴抽出システムにおける畳み込み動作、プーリング動作、局所接続動作、および完全接続動作をさらに議論する。

畳み込み層３４は、入力特徴マップ（前の層の出力特徴マップ）から局所顔特徴を抽出して現在の層の出力特徴マップを形成するように構成される。各特徴マップは、いずれも２Ｄで組織されたある種類の特徴である。同じ組のニューロン接続重みを使用して入力特徴マップから、同じ出力特徴マップにおける特徴または同じ特徴マップの局所領域における特徴を抽出する。図４に示すような畳み込み特徴抽出システムの各畳み込み層３４における畳み込み動作は、下記の式（１）で表現されてもよく、
（１）
式（１）中、
および
は、それぞれｉ番目の入力特徴マップおよびｊ番目の出力特徴マップである。
は、ｉ番目の入力特徴マップとｊ番目の出力特徴マップとの間の畳み込みコアである。
は、畳み込みを表す。
は、ｊ番目の出力特徴マップのオフセットである。本明細書において、ＲｅＬＵ非線形関数
は、ニューロンに使用され、ｓｉｇｍｏｉｄ関数に比べると、当該非線形関数は、多量の訓練データに対してよりよい適合能力を示した。ＣｏｎｖＮｅｔの比較的高い畳み込み層における重みは、局所的に共有されて異なる領域における異なる中級特徴または高級特徴を学習する。ｒは重みが共有された局所領域を表す。

プーリング層３６は、より全局的な、かつ変わらない顔特徴を抽出するように構成される。図４のプーリング層３６において最大プーリングが使用され、それは、下記の式（２）のように定式化され、
（２）
式（２）中、ｉ番目の出力特徴マップ
における各ニューロンは、ｉ番目の入力特徴マップ
における
の非重複局所領域の上にプーリングされる。

局所接続層３８は、入力特徴マップ（前の層の出力特徴マップ）から局所顔特徴を抽出して現在層の出力特徴マップを形成するように構成される。異なる組のニューロン接続重みを使用して入力特徴マップから出力特徴マップにおける特徴を抽出する。本発明の実施形態において、局所接続層３８は、第３のプーリング層３６の後に続いている。局所接続層３８の動作は、下記の式（３）で表現されてもよく、
（３）
式（３）中、ｊ番目の出力特徴マップにおける各ニューロンは、全ての前の特徴マップにおける同じｓ×ｓ局所領域におけるニューロンに局所に接続され、その後にＲｅＬＵ活性化関数が続いている。

完全接続層４０（本発明の実施形態において出力層またはＤｅｅｐＩＤ２層として用いられる）は、前の畳み込み層３４、プーリング層３６、局所接続層３８または完全接続層４０のうちの少なくとも１つに完全に接続されてもよい。図４に示すような実施形態において、ＤｅｅｐＩＤ２の完全接続層４０は、第３のプーリング層３６および局所接続層３８に完全に接続され、これにより、ＤｅｅｐＩＤ２の完全接続層４０に、マルチスケール特徴（局所接続層３８における特徴は、第３のプーリング層３６における特徴によりも全局的である）を認知させる。これは、特徴学習に不可欠であり、カスケードに沿って連続的にダウンサンプリングした後に、局所接続層３８は、過少なニューロンを含んでおり、且つ、情報伝播のボトルネックになる。第３のプーリング層３６（スキッピング層とも呼ばれ）とＤｅｅｐＩＤ２層４０との間にバイパス接続を加えることで局所接続層３８における可能な情報損失を低減した。出力ＤｅｅｐＩＤ２層４０は、下記の式（４）のようなルールにより、ＤｅｅｐＩＤ２ベクトルｙを得ることができ、
（４）
式（４）中、
、
はそれぞれ第３のプーリング層３６および局所接続層３８におけるニューロン出力（特徴）を表し、
および
は、対応の接続重みを表す。ＤｅｅｐＩＤ２層４０におけるニューロンは、前の２つの層（第３のプーリング層３６および局所接続層３８）における特徴を線形的に組み合わせ、その後にＲｅＬＵ非線形動作を行う。ｙ_ｊは、多次元実数値ベクトルｙのｊ番目の要素であり、すなわち、ＤｅｅｐＩＤ２ベクトルのｊ番目の要素である。

本発明の実施形態において、まず、ＥＧＭアルゴリズムで複数の顔特徴点（facial landmarks）を検出する。本明細書において、２１個の顔特徴点を取って例示として本発明を説明する。顔画像のそれぞれは、検出された標認点に基づいて相似変換により全局的に位置合わせされる。続いて、全局的に位置合わせされた顔画像および顔特徴点の位置に基づいて複数（例えば、４００個）の顔領域にクロップされ、これらの顔領域は、位置、サイズ、カラーチャネル、および水平反転において変動する。例示としては、４００個のクロップされた顔領域が存在する場合、合計２００個の深層畳み込み特徴抽出システムにより４００個のＤｅｅｐＩＤ２ベクトルを抽出し、これらの２００個の深層畳み込み特徴抽出システムのそれぞれは、各顔画像の１つの特定顔領域およびその水平反転に対応の顔領域の上にそれぞれ２つの１６０次元のＤｅｅｐＩＤ２ベクトルを抽出するために訓練される。多量のＤｅｅｐＩＤ２の間の冗長性を減少するために、前向き-後ろ向き貪欲アルゴリズム（forward-backward greedy algorithm）を使用して少量で効果的かつ相補的なＤｅｅｐＩＤ２ベクトル（図３に示すような実施形態において２５個であり）を選択し、これらの効果的かつ相補的なＤｅｅｐＩＤ２ベクトルから２５個の１６０次元のＤｅｅｐＩＤ２ベクトルを抽出し、かつ、これらの２５個の１６０次元のＤｅｅｐＩＤ２ベクトルを４０００次元のＤｅｅｐＩＤ２ベクトルに組み合わせる。当該４０００次元のベクトルは、ＰＣＡによってさらに圧縮され、さらなる顔認証に使用される。

認証ユニット（認証器）２０
本発明に係る実施形態によれば、抽出されたＤｅｅｐＩＤ２のそれぞれが特徴ベクトルを形成することができる。形成されたベクトルは、例えば、図４に示すような１６０次元を備えてもよい。認証ユニット２０は、各顔画像における複数の顔領域を選択してＤｅｅｐＩＤ２を抽出することができる。例えば、図３に示すような実施形態において、２５個の顔領域を選択したが、その他の数の顔領域でも適用できる。より長いＤｅｅｐＩＤ２ベクトルは、各顔画像で選択された顔領域から抽出されたＤｅｅｐＩＤ２を連結することにより形成される。例えば、図３および図４に示すような２５個の顔領域が選択された実施形態において、連結されたベクトルは、１６０×２５＝４０００次元のものであってもよい。顔認証アルゴリズムにより、比較されるべき２つの顔画像で選択された顔領域からそれぞれ抽出された２つの連結されたＤｅｅｐＩＤ２ベクトルを比較し、これにより、顔認証スコアが得られる。ＳＶＭ、ＬＤＡ、統合ベイズ（Joint Bayesian）、またはその他の顔認証モデルを使用して顔認証アルゴリズムを実現することが可能である。顔認証アルゴリズムで比較する前に、連結されたＤｅｅｐＩＤ２ベクトルに、次元縮小アルゴリズム（例えば、ＰＣＡ）が行われてもよい。選択された顔領域の異なる組から抽出された異なるＤｅｅｐＩＤ２ベクトルに対して顔認証アルゴリズムを実行することにより、複数の顔認証スコアが得られる。融合アルゴリズムにより、複数の顔認証スコアを統合して最終の顔認証判定を得る。

本発明の実施形態において、顔認証は、例えば、統合ベイズモデルにより行われることができ、その中で、比較されるべき２つの顔画像からそれぞれ抽出された２つの（連結された）ＤｅｅｐＩＤ２ベクトルを比較して顔認証スコアを出力する。統合ベイズモデルは、顔画像の特徴表示を個人間の変動および個人内変動の合計と仮定し、これらの２種類の変動のいずれも、ガウス分布としてモデル化され、かつ、訓練データから推定されることができる。顔認証は、２つの顔画像の同時確率の間の対数尤度比を測定し、そして個人間変動の仮定または個人内変動の仮定をそれぞれ提供する。

本発明の実施形態において、多量の顔領域から抽出されたＤｅｅｐＩＤ２の豊かなプール（rich pool）をさらに利用するために、特徴選択アルゴリズムは、複数回（例えば、７回）繰り返され、毎回、前の特徴選択ステップで選択されていなかった顔領域からＤｅｅｐＩＤ２を選択する。続いて、１組または複数の組（例えば、７組）の選択されたＤｅｅｐＩＤ２のそれぞれにおいて統合ベイズモデルを学習する。対ごとに比較された顔画像の統合ベイズスコアを、（例えば、ＳＶＭにより）統合して最終の顔認証判定が得られる。

訓練ユニット（訓練器）３０
装置１０００には、訓練ユニット３０をさらに備える。訓練ユニット３０は、対になる位置合わせ顔領域を入力し、かつ認識監視信号および認証監視信号を同時に畳み込み特徴抽出システムの出力層４０（図５に示すようなＤｅｅｐＩＤ２層）に加えることにより、身元分類および身元認証を同時に行うための複数の畳み込み特徴抽出システムを訓練するように構成される。図８に示すような本発明の一実施形態において、訓練ユニット３０は、顔領域選択器３０１、ベクトル抽出器３０２、認識器３０３、認証器３０４、および決定器３０５を備えてもよい。畳み込み特徴抽出システムのそれぞれについて、図７はいくつの開示された実施形態に係る訓練プロセスを模式的なフローチャートに示す。以下、図７を参照しながら、さらに、訓練ユニット３０の構成要素３０１〜３０５を説明する。

図7に示すように、ステップＳ７０１において、サンプル選択器３０１は、所定の訓練セットから２つの顔領域−ラベルの対を選択し、この２つの顔領域−ラベルの対は、対になる位置合わせの顔領域およびその対応する顔の身元ラベルである。一実施形態において、この２つの顔領域−ラベルの対を、同じ身元に属する確率と異なる身元に属する確率が等しい確率でランダムに選択してもよい。ステップＳ７０２において、ベクトル抽出器３０２は、初期化のニューロンの間の接続重みまたは前の学習のニューロンの間の接続重みを備える畳み込み特徴抽出システムを使用し、選択器３０１で２つのサンプリング顔領域−ラベルの対から選択された２つの顔領域から、２つのＤｅｅｐＩＤ２ベクトルをそれぞれ抽出し、図４に示すような実施形態において、この２つのＤｅｅｐＩＤ２ベクトルのそれぞれは、いずれも多次元（例えば、１６０次元）である。

また、続いてステップＳ７０３において、認識器３０３は、ＤｅｅｐＩＤ２層に続いているｓｏｆｔｍａｘ層（図示せず）により、２つの顔領域−ラベルの対における２つの顔領域のそれぞれを、ｎ個の身元における１つに分類する働きをする。その後、認識器３０３は、分類された身元と所定の参照身元との間の差異を比較することにより、認識エラー（認識監視信号）を生成する。生成された認識エラーを、畳み込み特徴抽出システムを通過させるように逆伝播して、畳み込み特徴抽出システムのニューロンの間の接続重みを調整する。

本発明の一実施形態において、ｓｏｆｔｍａｘ層を使用してｎ種類の顔身元の上の概率分布を出力することにより、各顔領域をｎ個（例えば、ｎ＝８１９２）の異なる顔身元の中の１つに分類する。ｓｏｆｔｍａｘ層は、下記の式（５）で定義され、
（５）
式（５）中、
はｉ番目の身元の予測確率であり、
は１６０次元のＤｅｅｐＩＤ２を線形的に組み合わせ、
はニューロンｊの入力であり、
はその出力である。畳み込み特徴抽出システムは、ｓｏｆｔｍａｘ層における交差エントロピー損失を最小化させるように訓練され、当該交差エントロピー損失は認識損失と呼ばれる。当該損失は下記の式（６）で表現され、
（６）
式（６）中、
はＤｅｅｐＩＤ２ベクトルであり、
はターゲット種類であり、および
はｎ−ｗａｙｓｏｆｔｍａｘ層のニューロンとの間の接続重みを表す。
はターゲット確率分布であり、その中で、ターゲット種類
について、
であるが、その他の全ての
について
である。
は、ｎ−ｗａｙｓｏｆｔｍａｘ層で予測された確率分布である。

認証器３０４は、比較されるべき２つの顔領域からそれぞれ抽出された２つのＤｅｅｐＩＤ２ベクトルｆ_ｉとｆ_ｊとの間の非類似度を比較して認証エラー（認証監視信号）を生成する働きをし、式５に示す通りである。一実施形態において、同じ身元の顔領域から抽出されたＤｅｅｐＩＤ２の間の非類似度を最小化すると共に、異なる身元の顔領域から抽出されたＤｅｅｐＩＤ２の間の非類似度を最大化する（または、異なる身元の顔領域から抽出されたＤｅｅｐＩＤ２の間の非類似度が閾値よりも大きいことを維持する）ことにより、認証エラーを生成する。ＤｅｅｐＩＤ２の間の非類似度は、Ｌ１ノルムの負数、Ｌ２ノルムおよびＤｅｅｐＩＤ２の間の余弦類似度であってもよいが、これらに限定されない。顔認証信号は、同じ身元の顔画像から抽出されたＤｅｅｐＩＤ２が類似になることを促進するために使用してもよい。信号を認証するために通常使用された拘束は、Ｌ１／Ｌ２ノルムおよび余弦類似度を含む。Ｌ２ノルム拘束は、下記の式（７）のように定式化され、
（７）
式（７）中、ｆ_ｉおよびｆ_ｊは、比較されるべき２つの顔領域から抽出されたＤｅｅｐＩＤ２である。
は、ｆ_ｉとｆ_ｊとが同じ身元に由来することを表す。このような場合、この２つのＤｅｅｐＩＤ２ベクトルの間のＬ２距離が最小化される。
は異なる身元を表し、およびＬ２ノルム拘束は、距離がマージンｍによりも大きいことが求められている。Ｌ１ノルムに基づく損失関数は、類似の式を有する。

余弦類似度拘束は、下記の式（８）のように定式化され、
（８）
式（８）中、
はＤｅｅｐＩＤ２の間の余弦類似度であり、ｗおよびｂは学習可能なサイズパラメータおよびシフトパラメータであり、
はシグモイド関数であり、かつ、ｙ_ｉｊは２つの比較された顔領域が同じ身元に属するか否かのバイナリターゲットである。

生成された認証エラーが畳み込み特徴抽出システムを通過するように逆伝播されることができ、したがって畳み込み特徴抽出システムのニューロンの間の接続重みが調整される。代わりに、本発明の一実施形態において、認識エラーおよび認証エラーの組み合わせが、前記畳み込み特徴抽出システムを通過するように逆伝播されてもよく、したがって畳み込み特徴抽出システムのニューロンの間の接続重みが調整される。

ステップＳ７０４において、認識エラーおよび認証エラーを、前記畳み込み特徴抽出システムの全ての層を通過させるように逆伝播して、畳み込み特徴抽出システムのニューロンの間の接続重みを調整する。ステップＳ７０５において、決定器３０５は訓練プロセスが収束するか否かを決定し、訓練プロセスが収束する場合、訓練プロセスが終了し、訓練プロセスが収束しない場合、訓練プロセスが収束するまで、ステップＳ７０１〜Ｓ７０４を繰り返して畳み込み特徴抽出システムのニューロンの間の接続重みを決定する。

図６は、本発明のいくつかの実施形態に係る顔認証方法を示すフローチャートである。図６において、プロセス２００は、データ処理動作を実現するために、プロセッサ１０２〜１０６の中の１つ以上、または装置１０００における各モジュール／ユニットによって実行することができる一連のステップを含んでいる。以下、説明の便宜上、装置１０００における各モジュール／ユニットがハードウェアまたはハードウェアとソフトウェアとの組み合せで構成された状況を参照しながら説明する。他の適切な装置またはシステムは、以下のプロセスを実行するために適用され、装置１０００は、単に当該プロセスを実行することを説明するために使用されることを、当業者にとって理解すべきである。

ステップＳ１０１において、装置１０００は、それぞれ訓練された畳み込み特徴抽出システムを用いて顔画像の異なる領域からＤｅｅｐＩＤ２を抽出する働きをし、その中で、前記畳み込み特徴抽出システムの出力層のニューロン活性化がＤｅｅｐＩＤ２と見なされる。一実施形態において、装置１０００のユニット１０は、従来技術で提案されたような顔の器官点検出方法を使用して２１個の顔特徴点（他の数の標認点でも可能であり）、例えば両目の中心、鼻の先および２つの口角などを検出してもよい。本発明の実施形態において、まず、ＥＧＭアルゴリズムで２１個の顔特徴点（他の数の標認点でも可能であり）を検出する。検出された標認点に基づいて相似変換により顔画像のそれぞれを全局的に位置合わせする。続いて、全局的に位置合わせされた顔画像および顔特徴点の位置に基づいて複数の顔領域にクロッピングされ、これらの顔領域は、位置、サイズ、カラーチャネル、および水平反転において変動する。それに応じて、それぞれ訓練された深層畳み込み特徴抽出システムにより複数のＤｅｅｐＩＤ２ベクトルを抽出し、当該複数の深層畳み込み特徴抽出システムのそれぞれは、各顔画像の１つの特定顔領域から１つの多次元ＤｅｅｐＩＤ２ベクトルを抽出する。

その後、ステップｓ１０２において、装置１０００（具体的には、ユニット１０）は、ＤｅｅｐＩＤ２ベクトルを連結する働きをする。連結された長いＤｅｅｐＩＤ２ベクターは、顔認証のためにＰＣＡによってさらに圧縮される。

その後、ステップＳ１０３において、顔認証は、統合ベイズモデルにより行われ、その中で、ユニット３０によって、比較されるべき２つの顔画像からそれぞれ抽出されたＤｅｅｐＩＤ２を比較し、そして顔認証スコアを出力する。統合ベイズモデルは、顔画像の特徴表示を個人間の変動および個人内変動の合計と設定し、これらの２種類の変動のいずれも、ガウス分布としてモデル化され、かつ、訓練データから推定されることができる。顔認証は、２つの顔画像の同時確率の間の対数尤度比を測定し、その中で、当該対数尤度比は、個人間変動の仮定または個人内変動の仮定をそれぞれ提供し、それは、閉形式解を有し、かつ有効である。

本発明の実施形態において、多量の顔領域から抽出されたＤｅｅｐＩＤ２の豊かなプールをさらに利用するために、特徴選択アルゴリズムは、複数回（例えば、７回）繰り返され、毎回、前の特徴選択ステップで選択されていなかった顔領域からＤｅｅｐＩＤ２を選択する。続いて、７組の選択されたＤｅｅｐＩＤ２のそれぞれにおいて統合ベイズモデルを学習する。対ごとに比較された顔画像の７つの統合ベイズスコアを、（例えば、ＳＶＭにより）統合して最終の顔認証判定が得られる。

本発明の好適な実施例を説明したが、当業者は、本発明の基本的な発明思想を知っている場合、これらの例を変更または修正することができる。添付の特許請求の範囲は、好ましい例および全ての本発明の範囲内に入る変更や修正を含んでいるものとして理解されるように目指した。

明らかに、当業者は、本発明の精神および範囲を逸脱しない限りにおいて、本発明を変更したり修正したりすることが可能である。したがって、これらの変更や修正が特許請求の範囲および均等物の範囲に属する場合、これらの変更も修正も本発明に係る範囲に入ることが可能である。

Claims

異なる顔訓練セットを用いて訓練された複数の畳み込み特徴抽出システムを含む特徴抽出ユニットであって、前記畳み込み特徴抽出システムのそれぞれが、複数の畳み込み層、複数のプーリング層、複数の局部接続層、および複数の完全接続層を有する層カスケードを含み、前記層カスケードの出力層が、その前の畳み込み層、プーリング層、局部接続層または完全接続層のうちの少なくとも１つに接続され、且つ、接続された層における顔特徴から顔特徴を抽出して顔認証のための顔特徴とするように構成されている、特徴抽出ユニットと、
前記出力層により、比較されるべき２つの顔画像から抽出された前記顔特徴を比較し、前記２つの顔画像が同じ身元に由来するか否かを決定するように構成される認証ユニットと、
対になる顔画像、認識監視信号、および認証監視信号を前記畳み込み特徴抽出システムに入力して前記畳み込み特徴抽出システムのニューロンの間の接続重みを調整するように構成される訓練ユニットと、を備える
ことを特徴とする顔認証装置。
前記出力層は、前記完全接続層を備える
ことを特徴とする請求項１に記載の装置。
各顔領域から抽出された前記顔特徴を顔身元の全ての種類のうちの１種に分類するために、前記出力層の後にｎ−ｗａｙｓｏｆｔｍａｘ層が続いており、
その中で、前記訓練ユニットは認識器を備え、前記認識器は、分類された身元を所定の参照身元と比較して認識エラーを生成し、生成された認識エラーが逆伝播されて前記畳み込み特徴抽出システムを通過して、前記畳み込み特徴抽出システムのニューロンの間の接続重みが調整されるように構成される
ことを特徴とする請求項１に記載の装置。
前記訓練ユニットは認証器を備え、前記認証器は、２つの顔領域からそれぞれ抽出された２つの顔特徴ベクトルの間の非類似度を比較して認証エラーを生成するように構成され、
その中で、生成された認証エラーが逆伝播されて前記畳み込み特徴抽出システムを通過して、前記畳み込み特徴抽出システムのニューロンの間の接続重みが調整される
ことを特徴とする請求項１に記載の装置。
前記畳み込み特徴抽出システムのそれぞれに対して、前記訓練ユニットおよび前記システムのそれぞれが協力し、以下のステップ、すなわち、
１）予備訓練セットから２つの顔領域−ラベルの対をサンプリングするステップと、
２）サンプリングされた２つの顔領域−ラベルの対における２つの顔領域から顔特徴をそれぞれ抽出するステップと、
３）前記２つの顔領域から抽出された顔特徴に基づいて認識エラーおよび認証エラーを生成するステップと、
４）前記認識エラーおよび前記認証エラーを、前記畳み込み特徴抽出システムを通過させるように逆伝播して、前記畳み込み特徴抽出システムのニューロンの間の接続重みを調整するステップと、
５）訓練プロセスが収束するまで、ステップ１）〜４）を繰り返して前記畳み込み特徴抽出システムのニューロンの間の接続重みを決定するステップと、を実行する
ことを特徴とする請求項１に記載の装置。
前記認証ユニットは、
抽出された顔特徴から１組または複数の組の顔特徴を選択するように構成される特徴選択ユニットと、
選択された１組または複数の組の顔特徴を比較して１つまたは複数の顔認証スコアを出力するように構成される比較ユニットと、
前記１つまたは複数の顔認証スコアを統合して単一の顔認証の判定をするように構成される統合ユニットと、を備えており、
ここで、各組の顔特徴が各顔画像の複数の顔領域から抽出された顔特徴を含む
ことを特徴とする請求項１に記載の装置。
前記畳み込み特徴抽出システムのいずれにおいても、局所受容野と、前記畳み込み特徴抽出システムにおけるニューロンまたは前記ニューロンのサブセットの間において共有される接続重みとを備える複数のニューロンを含む
ことを特徴とする請求項１に記載の装置。
２つの顔特徴ベクトルの間の前記非類似度は、Ｌ１ノルムの負数、Ｌ２ノルム、または前記２つの顔特徴ベクトルの間の余弦類似度を含む
ことを特徴とする請求項４に記載の装置。
それぞれ訓練された畳み込み特徴抽出システムを使用することにより顔画像の異なる領域から顔特徴を抽出する抽出ステップであって、前記システムのそれぞれが、複数の畳み込み層、複数のプーリング層、複数の局部接続層、および複数の完全接続層を有する層カスケードを含み、前記層カスケードの出力層が、その前の畳み込み層、プーリング層、局部接続層または完全接続層のうちの少なくとも１つに接続され、且つ、接続された層における顔特徴から顔特徴を抽出して顔認証のための顔特徴とするように構成されている、抽出ステップと、
２つの顔画像が同じ身元に由来するか否かを決定するために、比較されるべき２つの顔画像からそれぞれ抽出された顔特徴を比較する比較ステップと、
前記畳み込み特徴抽出システムのニューロンの間の接続重みを調整するために、対になる顔領域、認識監視信号、および認証監視信号を入力することにより、身元分類および身元認証を並行して実施するための複数の畳み込み特徴抽出システムを訓練する訓練ステップと、を含む
ことを特徴とする顔認証方法。
前記出力層は、前記完全接続層を備える
ことを特徴とする請求項９に記載の方法。
前記訓練ステップは、
各顔領域から抽出された前記顔特徴を顔身元の全ての種類のうちの１種に分類するステップと、
分類された身元を所定の参照身元と比較して認識エラーを生成するステップと、
生成された認識エラーを、前記畳み込み特徴抽出システムを通過させるように逆伝播して、前記畳み込み特徴抽出システムのニューロンの間の接続重みを調整するステップと、をさらに含む
ことを特徴とする請求項９に記載の方法。
前記訓練ステップは、
比較されるべき２つの顔領域からそれぞれ抽出された２つの顔特徴ベクトルの間の非類似度を比較して認証エラーを生成するステップと、
生成された認証エラーを、前記畳み込み特徴抽出システムを通過させるように逆伝播して、前記畳み込み特徴抽出システムのニューロンの間の接続重みを調整するステップと、をさらに含む
ことを特徴とする請求項９に記載の方法。
前記訓練ステップは、
各顔領域から抽出された前記顔特徴を顔身元の全ての種類のうちの１種に分類するステップと、
分類された身元を所定の参照身元と比較して認識エラーを生成するステップと、
比較されるべき２つの顔領域からそれぞれ抽出された２つの顔特徴ベクトルの間の非類似度を比較して認証エラーを生成するステップと、
生成された認証エラーおよび生成された認識エラーとの組み合わせを、前記畳み込み特徴抽出システムを通過させるように逆伝播して、畳み込み特徴抽出システムのニューロンの間の接続重みを調節するステップと、をさらに含む
ことを特徴とする請求項９に記載の方法。
前記比較ステップは、
抽出された顔特徴から１組または複数の組の顔特徴を選択する選択ステップと、
選択された１組または複数の組の顔特徴を比較して１つまたは複数の顔認証スコアを出力する比較ステップと、
前記１つまたは複数の顔認証スコアを統合して単一の顔認証の判定をする統合ステップと、をさらに含んでおり、
その中で、各組の顔特徴が各顔画像の複数の顔領域から抽出された顔特徴を含む
ことを特徴とする請求項１０に記載の方法。
前記畳み込み特徴抽出システムのいずれにおいても、局所受容野と、前記畳み込み特徴抽出システムにおけるニューロンまたは前記ニューロンのサブセットの間で共有される接続重みとを備える複数のニューロンを含む
ことを特徴とする請求項９に記載の方法。
前記畳み込み特徴抽出システムのそれぞれにおいて、前記訓練は、
１）予備訓練セットから２つの顔領域−ラベルの対をサンプリングするステップと、
２）前記畳み込み特徴抽出システムにより、サンプリングされた２つの顔領域−ラベルの対における２つの顔領域から顔特徴をそれぞれ抽出するステップと、
３）前記２つの顔領域から抽出された顔特徴を使用することにより認識エラーおよび認証エラーを生成するステップと、
４）前記認識エラーおよび前記認証エラーを、前記畳み込み特徴抽出システムを通過させるように逆伝播して、前記畳み込み特徴抽出システムのニューロンの間の接続重みを調整するステップと、
５）訓練プロセスが収束するまで、ステップ１）〜４）を繰り返して前記畳み込み特徴抽出システムのニューロンの間の接続重みを決定するステップと、をさらに含む
ことを特徴とする請求項９に記載の方法。
２つの顔特徴ベクトルの間の前記非類似度は、Ｌ１ノルムの負数、Ｌ２ノルム、または前記２つの顔特徴ベクトルの間の余弦類似度を含む
ことを特徴とする請求項１３に記載の方法。
１）予備訓練セットから２つの顔領域−ラベルの対をサンプリングするステップと、
２）サンプリングされた２つの顔領域−ラベルの対における２つの顔領域から顔特徴をそれぞれ抽出するステップと、
３）各顔領域から抽出された前記顔特徴を顔身元の全ての種類のうちの１種に分類するステップと、
４）分類された身元を所定の参照身元と比較して認識エラーを生成するステップと、
５）比較されるべき２つの顔領域からそれぞれ抽出された２つの顔特徴ベクトルの間の非類似度を比較して認証エラーを生成するステップと、
６）生成された認証エラーおよび生成された認識エラーとの組み合わせを、畳み込み特徴抽出システムを通過させるように逆伝播して、前記畳み込み特徴抽出システムのニューロンの間の接続重みを調節するステップと、
７）前記畳み込み特徴抽出システムのニューロンの間の接続重みを調整するために、対になる顔領域、認識監視信号、および認証監視信号を入力することにより、身元分類および身元認証を並行して実施するための複数の畳み込み特徴抽出システムを訓練する訓練ステップと、
８）訓練プロセスが収束するまで、ステップ１）〜７）を繰り返して前記畳み込み特徴抽出システムのニューロンの間の接続重みを決定するステップと、を含む
ことを特徴とする畳み込み特徴抽出システムを訓練するための方法。
プロセッサによって実行可能なコンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令がプロセッサによって実行される際に、前記プロセッサが、
それぞれ訓練された畳み込み特徴抽出システムを使用することにより顔画像の異なる領域から顔特徴を抽出し、
２つの顔画像が同じ身元に由来するか否かを決定するために、比較されるべき２つの顔画像からそれぞれ抽出された顔特徴を比較しており、
前記畳み込み特徴抽出システムのニューロンの間の接続重みを調整するために、対になる顔領域、認識監視信号、および認証監視信号を入力することにより、身元分類および身元認証を並行して実施するための複数の畳み込み特徴抽出システムを訓練する訓練し、
ここで、前記システムのそれぞれにおいて、複数の畳み込み層、複数のプーリング層、複数の局部接続層、および複数の完全接続層を有する層カスケードを含み、その中で、前記層カスケードの出力層がその前の畳み込み層、プーリング層、局部接続層または完全接続層のうちの少なくとも１つに接続され、且つ、接続された層における顔特徴から顔特徴を抽出して顔検証のための顔特徴とすることを特徴とする不揮発性コンピュータ記憶媒体。