JP2021107979A

JP2021107979A - データ処理装置、データ処理方法及び学習済みモデル

Info

Publication number: JP2021107979A
Application number: JP2019238682A
Authority: JP
Inventors: 長峯　隆; Takashi Nagamine; 隆長峯; 高田　直幸; Naoyuki Takada; 直幸高田
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2021-07-29
Anticipated expiration: 2039-12-27
Also published as: JP7423310B2

Abstract

【課題】ノイズを付加しても、多層ニューラルネットワークを用いたデータ処理タスクを精度よく行うことができるようにする。【解決手段】前記多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタ群と、前記ノイズブロックとが直交性を有するように学習される。そして、前記入力データに対してノイズブロックから求まるノイズデータを加算して得られたノイズ付加データを多層ニューラルネットワークに入力したときの出力に基づいて前記所定のデータ処理タスクの結果を求める。【選択図】図１１

Description

本発明は、データ処理装置及び学習済みモデルに係り、特に、入力データに対して所定のデータ処理タスクを行うデータ処理装置、データ処理方法及び学習済みモデルに関する。

特許文献１には、カメラ画像をそのまま送信するのではなく、画像を取得したローカル装置において照合に影響しないノイズを顔画像に付加することで目視にて識別困難なノイズ付加画像を生成し、当該ノイズ付加画像をサーバに送信して、サーバ側で当該ノイズ付加画像を用いて人物照合することにより、プライバシーに配慮したネットワーク型の認証システムが開示されている。

特に、サーバにおいて多層ニューラルネットワークによって人物照合などのデータ処理タスクを行う場合、ローカル装置は、当該多層ニューラルネットワークに含まれる畳み込み層のフィルタの成分とノイズの成分との積が０とみなせる範囲でノイズの成分を設定する条件によりノイズ付加画像を生成する例が開示されている。

特開２０１８−１２９７５０号公報

しかしながら、上記条件となるノイズ付加画像を生成するために、例えばフィルタの成分を学習により求め、その後に上記条件となるようノイズの成分を求める方法を用いた場合、上記条件を満たすノイズが求められることは保証されない。すなわち、多層ニューラルネットワークのような非線形識別器においては、上記条件を満たすノイズを解析的に求めることは困難な場合があった。

そこで、本発明は、ノイズを付加しても、多層ニューラルネットワークを用いたデータ処理タスクを精度よく行うことができるデータ処理装置、データ処理方法及び学習済みモデルを提供することを目的とする。

上記の目的を達成するために本発明に係るデータ処理装置は、入力データに対して所定のデータ処理タスクを行う多層ニューラルネットワークにおける各畳み込み層で用いられるフィルタと、前記入力データに加算されるノイズデータとを学習する学習部と、前記入力データに対して前記学習部により学習されたノイズデータを加算して得られたノイズ付加データを、前記多層ニューラルネットワークに入力して、前記多層ニューラルネットワークの出力に基づいて、前記データ処理タスクの結果を求める入力用データ処理部と、を含むデータ処理装置であって、前記学習部は、前記データ処理タスクの結果が予め付与された学習用データを前記多層ニューラルネットワークに入力して、前記ノイズデータと前記多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタとが直交性を有し、かつ、前記求められた前記データ処理タスクの結果と、前記学習用データに予め付与された前記データ処理タスクの結果とが一致するよう学習することを特徴とする。

本発明に係るデータ処理装置によれば、前記学習部は、前記データ処理タスクの結果が予め付与された学習用データを前記多層ニューラルネットワークに入力して、前記ノイズデータと前記多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタとが直交性を有し、かつ、前記求められた前記データ処理タスクの結果と、前記学習用データに予め付与された前記データ処理タスクの結果とが一致するよう学習する。そして、入力用データ処理部は、前記入力データに対して前記学習部により学習されたノイズデータを加算して得られたノイズ付加データを、前記多層ニューラルネットワークに入力して、前記多層ニューラルネットワークの出力に基づいて、前記データ処理タスクの結果を求める。

このように、ノイズデータと多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタとが直交性を有し、かつ、求められた所定のデータ処理タスクの結果と、学習用データに予め付与された所定のデータ処理タスクの結果とが一致するよう学習することにより、ノイズを付加しても、多層ニューラルネットワークを用いたデータ処理タスクを精度よく行うことができる。

また、前記学習部は、前記多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタ群と、当該前段の畳み込み層で用いられるフィルタ群のフィルタを所定のストライドで畳み込む場合における、該畳み込む各領域に対応する前記ノイズデータの領域とが直交性を有するように前記フィルタと前記ノイズデータとを学習することができる。

また、前記入力データは、画像であって、前記学習部は、所定の基準ノイズブロックと当該基準ノイズブロックを所定のシフトパターンに応じてシフトさせて得られる派生ノイズブロックとからなるノイズブロック群のうちの何れか一つを並べて配置することにより前記ノイズデータが生成されるよう学習することができる。

また、前記学習部は、前記ノイズブロック群の全てのノイズブロックと前記フィルタの夫々とが直交性を有するように学習することができる。

また、前記学習部は、前記所定のストライドに応じた前記シフトパターンにより前記ノイズブロックをシフトさせることにより前記派生ノイズブロックを得ることができる。

また、前記入力データは、画像であって、前記所定のストライドは前記フィルタのサイズの整数倍であって、前記学習部は、所定のノイズブロックと前記フィルタとが直交性を有するように学習し、前記ノイズデータは、学習により求めた一以上のノイズブロックを並べて配置したものであることができる。

また、前記入力データは、画像であって、前記ノイズ付加データは、前記入力データの画素のうちランダムに決定される画素を欠落させてから、前記ノイズデータを加算して得られたものであり、前記学習部は、前記学習用データの画素のうちランダムに決定される画素を欠落させてから前記多層ニューラルネットワークに入力して学習することができる。

また、前記入力データは、画像であって、前記ノイズ付加データは、前記入力データにランダムノイズを付加してから、前記ノイズデータを加算して得られたものであり、
前記学習部は、前記学習用データにランダムノイズを付加してから前記多層ニューラルネットワークに入力して学習することができる。

本発明に係るデータ処理方法は、学習部が、入力データに対して所定のデータ処理タスクを行う多層ニューラルネットワークにおける各畳み込み層で用いられるフィルタと、前記入力データに加算されるノイズデータとを学習し、入力用データ処理部が、前記入力データに対して前記学習部により学習されたノイズデータを加算して得られたノイズ付加データを、前記多層ニューラルネットワークに入力して、前記多層ニューラルネットワークの出力に基づいて、前記データ処理タスクの結果を求めるデータ処理方法であって、前記学習部は、前記データ処理タスクの結果が予め付与された学習用データを前記多層ニューラルネットワークに入力して、前記ノイズデータと前記多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタとが直交性を有し、かつ、前記求められた前記データ処理タスクの結果と、前記学習用データに予め付与された前記データ処理タスクの結果とが一致するよう学習することを特徴とする。

本発明に係る学習済みモデルは、入力データに対して所定のデータ処理タスクを行うための多層ニューラルネットワークであって、前記入力データに対してノイズデータを加算して得られたノイズ付加データを、前記多層ニューラルネットワークに入力したときの出力に基づいて前記データ処理タスクの結果を求めるための多層ニューラルネットワークである学習済みモデルであって、前記データ処理タスクの結果が予め付与された学習用データを前記多層ニューラルネットワークに入力して、前記ノイズデータと前記多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタとが直交性を有し、かつ、前記求められた前記データ処理タスクの結果と、前記学習用データに予め付与された前記データ処理タスクの結果とが一致するよう予め学習されたことを特徴とする。

本発明に係る学習済みモデルによれば、所定のデータ処理タスクの結果が予め付与された学習用データを前記多層ニューラルネットワークに入力して、ノイズデータと多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタとが直交性を有し、かつ、求められた所定のデータ処理タスクの結果と、学習用データに予め付与された所定のデータ処理タスクの結果とが一致するよう予め学習される。そして、入力データに対してノイズデータを加算して得られたノイズ付加データを、多層ニューラルネットワークに入力したときの出力に基づいて所定のデータ処理タスクの結果を求める。

このように、多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタ群と、ノイズデータとが直交性を有するように学習されることにより、ノイズを付加しても、多層ニューラルネットワークを用いたデータ処理タスクを精度よく行うことができる。

以上説明したように、本発明のデータ処理装置、データ処理方法及び学習済みモデルによれば、ノイズを付加しても、多層ニューラルネットワークを用いたデータ処理タスクを精度よく行うことができる、という効果が得られる。

本発明の実施の形態に係る顔認証システムの構成を示す概略図である。入力顔データの構成を示す図である。ノイズ付加入力顔データの構成を示す図である。ノイズブロックと多層ニューラルネットワークのフィルタを示す模式図である。ノイズ付加前の顔画像とノイズ付加後の顔画像を示す模式図である。フィルタとノイズ付加顔データとの畳み込みの特性を示す模式図である。ノイズ画像の例を示す図である。派生ノイズブロックの例を示す図である。登録顔データの構成を示す図である。認証済み登録顔データの構成を示す図である。画像処理タスクの学習と直交制約学習を同時に進める方法を説明するための図である。認証履歴データの構成を示す図である。報知用画像の例を示す図である。本発明の実施の形態に係る顔認証による学習処理の動作を示すフローチャートである。本発明の実施の形態に係る画像処理装置による検知処理の動作を示すフローチャートである。本発明の実施の形態に係る顔認証装置による照合処理の動作を示すフローチャートである。本発明の実施の形態に係る報知装置による報知処理の動作を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、ネットワーク型の顔認証システムに本発明を適用した場合を例に説明する。

＜システム構成＞
以下、本発明を適用した顔認証システム１０００の概略構成を示した図１を参照し、本発明の実施の形態の構成を説明する。

（顔認証システム１０００）
顔認証システム１０００は、撮像装置１１００、ネットワーク１２００、画像処理装置１３００、顔認証装置１４００、及び報知装置１５００を有する。なお、顔認証装置１４００が、データ処理装置の一例である。

（撮像装置１１００）
撮像装置１１００は、所定の領域を監視する目的で設置される監視カメラであり、監視対象領域内に滞在する人物の顔が撮影できる位置に取り付けられる。撮像装置１１００で撮影した監視画像は、画像処理装置１３００に送信される。

（ネットワーク１２００）
ネットワーク１２００は、画像処理装置１３００、顔認証装置１４００、及び報知装置１５００の間でデータの送受信を行なうために利用される回線である。ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や、インターネット等の公衆回線が本発明のネットワーク１２００として利用できる。ネットワーク１２００上の電文については、公知のＶＰＮ技術等を用いて、電文を暗号化する等の安全措置が講じられることが望ましい。

（画像処理装置１３００）
画像処理装置１３００は、ＣＰＵ、ＭＰＵ、周辺回路、端子、各種メモリなどから構成され、撮像装置１１００が撮影した画像に対して画像処理を施した結果を、ネットワーク１２００を介して顔認証装置１４００や報知装置１５００に送信する。以下、画像処理装置１３００を構成する画像処理部１３１０、記憶部１３２０、及び送受信部１３３０の各部について、詳細に説明する。

（画像処理部１３１０）
画像処理部１３１０は、顔画像取得手段１３１１及びノイズ付加手段１３１２から構成される。

（顔画像取得手段１３１１）
顔画像取得手段１３１１は、撮像装置１１００が撮影した監視画像から人物の顔画像を抽出し、入力顔画像とする。さらに入力顔画像に固有の顔画像識別子と撮影時刻を付与して、図２に示す構成の入力顔データ２００としてノイズ付加手段１３１２に送信するとともに、記憶部１３２０に格納する。

顔画像識別子２１０は入力顔画像２２０を一意に特定する為の識別子で、例えば１２８ビット整数を顔画像識別子２１０として用いて、初期値を０として、入力顔画像２２０に顔画像識別子２１０を付与するごとに顔画像識別子２１０の値をインクリメントする、等の方法がある。顔画像識別子２１０を不正に推定されないよう、顔画像識別子２１０にチェックサムなどを付与しても良い。監視画像中に複数の人物が存在する場合は、夫々の人物の顔画像を抽出して互いに異なる顔画像識別子２１０を付与し、ノイズ付加手段１３１２および記憶部１３２０に送信する。

顔画像の抽出方法については、従来から多数提案されており、適宜公知の方法を採用すれば良い。例えば、顔画像を学習した識別器と呼ばれるフィルタにて抽出する方法や、入力画像の二値化エッジ画像を生成し、当該エッジ画像において顔の形状である楕円形状を検出する方法などを採用すれば良い。

（ノイズ付加手段１３１２）
ノイズ付加手段１３１２は、被写体を目視で識別することが困難となるように、顔画像取得手段１３１１で抽出した人物の顔画像にノイズを付加したノイズ付加顔データ３２０を生成するとともに、顔画像取得手段１３１１が出力した顔画像と同一の顔画像識別子３１０を当該ノイズ付加顔データ３２０に付与して、図３に示す構成のノイズ付加入力顔データ３００として送受信部１３３０に送信する。なお、ノイズ付加顔データ３２０は、ノイズ付加データの一例である。

ノイズ付加顔データ３２０の作成法については、ノイズ付加顔データ３２０を入力とする、畳み込み層を含む多層ニューラルネットワーク１４４０、具体的には畳み込みニューラルネットワーク（ＣＮＮ；ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いる顔照合方式を適用する場合を例に説明する。当該多層ニューラルネットワーク１４４０は、後述するように、入力用データ処理部１４３０にて目視識別困難なノイズ付加顔データ３２０を入力され、記憶部１４２０に登録されている顔画像データと照合するための特徴量を出力する。なお、学習を終えた多層ニューラルネットワーク１４４０が、学習済みモデルの一例である。

この場合、図４に示す通り、多層ニューラルネットワーク１４４０の前段の畳み込み層で用いられるフィルタ３０１０と同一の構造（次元、要素数）を持つノイズブロック３０２０を、フィルタ３０１０と直交性を有するように設定し、顔画像取得手段１３１１で抽出した顔画像に並べて加算することにより、ノイズ付加画像３０３０を生成する。すなわち、ノイズブロック３０２０を並べて配置したノイズ画像を入力顔画像２２０に加算することにより、ノイズ付加画像３０３０を生成する。当該ノイズ付加画像３０３０を、被写体を目視で識別することが困難なノイズ付加顔データ３２０とすることができる。ここで、「フィルタとノイズブロックが直交性を有する」とは、両者の要素をベクトルとして表したとき、フィルタの要素ベクトルとノイズブロックの要素ベクトルがベクトル空間で直交することを意味する。当該フィルタ要素ベクトルと当該ノイズブロック要素ベクトルが直交するとき、両者の内積はゼロとなる。なお、ノイズ画像は、ノイズデータの一例である。

図５にノイズ付加前の顔画像４００とノイズ付加画像４１０の模式図を示す。ノイズ付加画像４１０は、ノイズ付加前の顔画像４００と比べて、目視識別困難な画像である。

ここで、このように生成した目視識別困難なノイズ付加顔データ３２０が、多層ニューラルネットワーク１４４０を用いた顔照合処理の精度を低下させない原理について説明する。

多層ニューラルネットワーク１４４０における畳み込み処理は、畳み込み層におけるフィルタ３０１０と、多層ニューラルネットワーク１４４０に入力される入力画像（ここではノイズ付加画像３０３０、すなわち目視識別困難なノイズ付加顔データ３２０）の画像ブロックの要素との内積マップを出力する。画像ブロックは、入力画像において特定の畳み込み位置における内積計算の対象要素を含む領域である。畳み込み処理では、フィルタの位置を所定のストライド（ずらし幅）で入力画像上を順次走査して各位置（畳み込み位置）における画像ブロックとの内積を計算し、最終的には入力画像全体に対する内積マップを出力する。

図６に示す通り、内積には「線形性」の特性があるため、フィルタ３０１０と目視識別困難なノイズ付加顔データ３１２０との畳み込みは、「フィルタ３０１０とノイズ付加前の顔画像３１３０との畳み込み」と「フィルタ３０１０とノイズブロックを並べたノイズ画像３１４０との畳み込み」との和となる。ストライドがフィルタ３０１０のサイズ（幅、高さ）の整数倍の場合、「フィルタ３０１０とノイズブロックを並べたノイズ画像３１４０」が直交性を有していれば、「フィルタ３０１０とノイズブロックを並べたノイズ画像３１４０との畳み込み」は任意の畳み込み位置で内積がゼロとなるため、「フィルタ３０１０とノイズ付加前の顔画像３１３０との畳み込み」の出力のみが残る。これは、ノイズブロックを付加していない顔画像との畳み込みであるから、多層ニューラルネットワーク１４４０からはノイズの有無に依らず同じ畳み込み結果（照合用の特徴）が出力される。すなわち、ここで述べたようなノイズを付加して目視識別困難なノイズ付加顔データ３２０を用いて照合処理を行っても照合精度の低下はない。

このように、ストライドがフィルタ３０１０のサイズの整数倍となる場合、ノイズ画像のうち、フィルタ３０１０が畳み込まれる領域のノイズパターンは一定となるため、ノイズブロック単体とフィルタ３０１０との直交性を有していればよい。しかし、フィルタ３０１０のストライドがフィルタ３０１０のサイズの整数倍でない場合、ノイズ画像３１４０において畳み込み位置がノイズブロック３０２０の境界をまたぐ場合が生じるため、このような場合、ノイズブロック３０２０単体でフィルタ３０１０との直交性を確保するだけでは不十分となる。

この様子を図７で説明する。図７（Ａ）ではノイズブロック３０２０の配置例として４種類のノイズブロックＮａ、Ｎｂ、Ｎｃ、Ｎｄを並べて配置したノイズ画像３２００が示されている。当該ノイズブロックＮａ、Ｎｂ、Ｎｃ、Ｎｄはフィルタ３０１０と直交する関係にある。このノイズ画像３２００に対してフィルタ３０１０を用いてストライド１で畳み込みを行うと、例えば、図７（Ｂ）に示すように、ノイズブロックをシフトさせて得られる、当該ノイズブロックＮａ、Ｎｂ、Ｎｃ、Ｎｄの要素の一部から構成される派生ノイズブロックＮｅに対しても畳み込みが行われる。このとき、当該ノイズブロックＮａ、Ｎｂ、Ｎｃ、Ｎｄがそれぞれノイズブロック単体でフィルタ３０１０と直交性を確保しているとはいえ、それだけでは当該派生ノイズブロックＮｅとフィルタ３０１０との直交性を有していることにはならない。

このような場合、フィルタのサイズとストライドとに基づいて、ノイズブロック３０２０を並べたノイズ画像３２００におけるフィルタを畳み込む各領域を求め、当該畳み込む各領域とフィルタ３０１０とが直交性を有するように設定する必要がある。ここで、図８（Ａ）のように、ノイズブロックＮａのみを並べて配置したノイズ画像３３１０の場合については、ノイズブロックＮａをシフトさせることにより、ノイズ画像における畳み込む各領域に相当するブロックを求めることができる。例えばフィルタのストライドを１とすると、フィルタの走査により、ノイズブロックＮａを並べたノイズ画像３３１０の、フィルタを畳み込む各領域は、ノイズブロックＮａの要素を行方向及び列方向にシフト（循環シフト）したものとなる。したがって、ノイズブロックＮａの要素を行方向及び列方向にシフトさせた複数の派生ノイズブロックを構成しておけば、ノイズブロックＮａを並べたノイズ画像３３１０では、任意の畳み込み位置でフィルタを畳み込む領域が、派生ノイズブロックのどれかと一致する。したがって、このようにノイズブロックＮａの要素を行方向及び列方向にシフトした派生ノイズブロックがフィルタ３０１０と直交するように設定すればよい。なお、派生ノイズブロックを作成する基準となるノイズブロックＮａは、基準ノイズブロックの一例である。また、ノイズブロックＮａとノイズブロックＮａをシフトさせた複数の派生ノイズブロックからなる一群は、ノイズブロック群の一例である。以下では、ノイズブロック群を構成する基準ノイズブロック及び派生ノイズブロックを、ノイズブロックと称することがある。

図８（Ａ）では、ノイズブロックＮａのサイズを３×３としている。図８（Ｂ）では、ノイズブロックＮａの各要素をＮａ１〜Ｎａ９で表し、フィルタ３０１０との畳み込みをストライド１で行う様子を示している。このとき、ノイズ画像３３１０のうちのフィルタを畳み込む各領域に対応する派生ノイズブロックのバリエーション３３３０は、図８（Ｃ）に示す通り、ノイズブロックＮａの要素を行方向及び列方向にシフトさせた９つのシフトのパターンとなる。したがって、単一のノイズブロック３０２０の一つをベースとして、その要素を行方向及び列方向にシフトさせた派生ノイズブロックを求め、派生ノイズブロックの各々がフィルタ３０１０と直交するように設定すればよい。

なお、ストライドが２以上であってもよく、その場合には、ストライドに応じてノイズブロック３０２０の要素を行方向及び列方向にシフトした派生ノイズブロックを用いればよい。

また、フィルタ３０１０とノイズブロック３０２０とが直交するように設定するためには、多層ニューラルネットワーク１４４０の学習時に、多層ニューラルネットワーク１４４０のフィルタ３０１０と、多層ニューラルネットワーク１４４０の学習用画像に付加されるノイズブロック３０２０とが直交するようにも制約をつけて学習を行い、その学習結果を適用する方法がある。

例えば、フィルタ３０１０の係数をｗｆとし、ノイズブロック３０２０の値をｗｎとすると、以下の（１）式で表すような非直交度を表す直交制約用損失値ｌｏｓｓＣを定義することができる。ここで、ｉはフィルタのバリエーションを表し、ｊはストライド位置に応じたノイズブロック３０２０のバリエーションを表す。「・」は内積を表す。多層ニューラルネットワーク１４４０の学習の過程で当該非直交度もあわせて最小化することで、フィルタ３０１０と直交するノイズブロック３０２０が得られる。

（１）

なお、派生ノイズブロックを用いる方法においては、ノイズブロック３０２０のサイズは必ずしもフィルタ３０１０のサイズと一致させる必要はなく、フィルタ３０１０よりも小さいサイズ、あるいは大きいサイズでノイズブロック３０２０を想定し、ノイズブロック３０２０の要素をシフトさせて派生ノイズブロックを作成することも可能である。ただし、畳み込み処理の単位はあくまでフィルタ３０１０のサイズに対応する領域単位となるため、ノイズブロック３０２０を並べて作成したノイズ画像から切り出される、フィルタ３０１０と同じサイズの任意の領域が、フィルタ３０１０と直交するように学習を行う必要がある。

例えば、図８（Ａ）（Ｂ）に示すフィルタのサイズを４×４とした場合、ノイズ画像３３１０においてフィルタで畳み込む領域に対応する領域の一つとして、同図（Ｂ）の左上隅から４×４の要素が切り出されるが、当該領域がフィルタ群の各フィルタと直交性を有するように学習する。この際、当該領域において同じ識別子を有する要素は同じ値になるよう制約を課して学習する。

（送受信部１３３０）
送受信部１３３０は、ノイズ付加手段１３１２が作成したノイズ付加入力顔データ３００を、ネットワーク１２００を介して顔認証装置１４００の送受信部１４１０に送信する。

また、後述するように顔認証装置１４００の送受信部１４１０から送信された、認証済み顔画像識別子の情報を受信し、認証済み顔画像識別子に対応する入力顔データ２００を記憶部１３２０から読み出して、ネットワーク１２００を介して報知装置１５００の受信部１５１０に送信する。

（顔認証装置１４００）
顔認証装置１４００は、ＣＰＵ、ＭＰＵ、周辺回路、端子、各種メモリなどから構成され、画像処理装置１３００が送信したノイズ付加入力顔データ３００を受信し、当該ノイズ付加入力顔データ３００が、顔登録済み人物の顔データであるか否かを、記憶部１４２０に予め格納された登録済み顔データを参照して、入力用データ処理部１４３０で判定する。なお、顔登録済み人物の顔データであるか否かを判定する顔認証タスクが、データ処理タスクの一例である。

入力用データ処理部１４３０には、事前に学習された多層ニューラルネットワーク１４４０が実装されており、ノイズ付加入力顔データ３００のノイズ付加顔データ３２０を多層ニューラルネットワーク１４４０に入力して出力される特徴量と、記憶部１４２０に予め格納された登録顔データを当該多層ニューラルネットワーク１４４０に入力して出力される特徴量との類似度を比較することにより、ノイズ付加入力顔データ３００が当該登録顔データと一致するか否かを判定する。

入力用データ処理部１４３０は、顔認証タスクにて一致と判定したノイズ付加入力顔データ３００に紐付けられた顔画像識別子を、認証済み顔画像識別子として、送受信部１４１０およびネットワーク１２００を介して、報知装置１５００の受信部１５１０に送信する。

以下、顔認証装置１４００を構成する送受信部１４１０、入力用データ処理部１４３０、及び記憶部１４２０の各部について、詳細に説明する。

（送受信部１４１０）
送受信部１４１０は、画像処理装置１３００が送信したノイズ付加入力顔データ３００を、ネットワーク１２００を介して受信し、入力用データ処理部１４３０に出力する。

また、入力用データ処理部１４３０が出力した認証済み顔画像識別子を、ネットワーク１２００を介して画像処理装置１３００の送受信部１３３０に送信する。

（記憶部１４２０）
記憶部１４２０には、予め顔登録された人物の顔データが、登録顔画像識別子が付与された登録顔データとして格納される。図９に示すように、登録顔データ６００は、登録顔画像識別子６１０、登録顔画像６２０、及び登録属性情報６３０から構成される。登録顔データ６００は、１人の登録人物に対して少なくとも１データが記憶される。複数の登録人物が存在する場合、記憶部１４２０には、異なる登録顔画像識別子６１０が付与された登録顔データ６００が複数記憶される。

登録顔画像識別子６１０は、登録顔画像６２０を一意に特定する為の識別子で、例えば１２８ビット整数を用いる。例えば、初期値を０として新規に登録顔データ６００を作成する度に登録顔画像識別子６１０の値をインクリメントする、等の方法がある。登録顔画像識別子６１０を不正に推定されないよう、チェックサムなどを登録顔画像識別子６１０に付与しても良い。

登録顔画像６２０は、登録人物の顔画像であり、顔認証タスクにおける多層ニューラルネットワーク１４４０への入力データ、および報知装置１５００における報知用画像として利用される。

登録属性情報６３０は、氏名や性別、年齢、所属組織などの登録人物に付随する属性情報を表す。

（入力用データ処理部１４３０）
入力用データ処理部１４３０は、画像処理装置１３００が出力したノイズ付加入力顔データ３００と、記憶部１４２０に予め格納された登録顔データ６００とを照合し、当該ノイズ付加入力顔データ３００が登録顔データ６００のいずれかと一致するか否かを判定する。そして、当該ノイズ付加入力顔データ３００と一致する登録顔データ６００が存在する場合は、一致した登録顔データ６００の登録顔画像６２０および登録属性情報６３０に、認証済み顔画像識別子７１０を付与して、図１０に示す認証済み登録顔データ７００を作成し、送受信部１４１０およびネットワーク１２００を介して、報知装置１５００の受信部１５１０に送信する。

入力用データ処理部１４３０におけるノイズ付加入力顔データ３００と登録顔データ６００との一致判定は、ノイズ付加入力顔データ３００のノイズ付加顔データ３２０と登録顔データ６００の登録顔画像６２０とを照合し、多層ニューラルネットワーク１４４０から出力される特徴量の類似度の閾値判定などによって行う。

入力用データ処理部１４３０は、画像処理装置１３００が出力したノイズ付加入力顔データ３００のノイズ付加顔データ３２０を学習済みの多層ニューラルネットワーク１４４０に入力して、照合用に入力画像特徴量を抽出し、さらに、記憶部１４２０に格納されている登録顔データ６００の登録顔画像６２０を当該多層ニューラルネットワーク１４４０に入力して照合用に登録画像特徴量を抽出し、当該入力画像特徴量と当該登録画像特徴量を照合して、両者の一致判定を行う。

多層ニューラルネットワーク１４４０に予め用意した大量の学習用顔画像データを入力して特徴量を算出し、当該特徴量のペアが同一人物のものである場合は類似度が大きくなり、異なる人物のものであれば類似度が小さくなるように、多層ニューラルネットワーク１４４０を学習しておく（データ処理タスクの学習）。

具体的には、顔画像がどの人物のものであるかを識別するための人物識別子が予め付与された大量の学習用顔画像データを入力部１６１０により受け付け、学習部１６３０が、多層ニューラルネットワーク１４４０を学習し、学習結果を、記憶部１４２０に格納する。なお、人物識別子が、データ処理タスクの学習結果の一例である。

学習部１６３０は、データ処理タスクの学習に加え、さらに、ノイズ付加手段１３１２の説明で述べたように、当該多層ニューラルネットワーク１４４０の前段の畳み込み層のフィルタ３０１０と、ノイズブロック３０２０とが直交するようにも学習を行う（直交制約学習）。

データ処理タスクの学習では、例えばＶＧＧ１６等の一般的な深層学習用モデルに、学習用顔画像データに含まれる人物識別子と同数の出力をもつ全結合層を接続し、人物識別子に対応した出力を１としたｏｎｅ−ｈｏｔベクトルを教師データとしてデータ処理タスク用損失値ｌｏｓｓＭを算出し、ｌｏｓｓＭが小さくなるように学習を進めればよい。

具体的には、ソフトマックス関数を用いて全結合層の出力を確率出力に変換し、教師データとのクロスエントロピーを、ｌｏｓｓＭと定義する。そして、フィルタ３０１０毎に、ｌｏｓｓＭを、当該フィルタ３０１０の要素の値で微分した微分値に基づいて、ｌｏｓｓＭが小さくなるように、フィルタ３０１０の要素の値を学習すればよい。

直交制約学習では、多層ニューラルネットワーク１４４０の前段の畳み込み層におけるフィルタ３０１０の重みベクトルと、ノイズブロック３０２０の重みベクトルとの非直交度を表す直交制約用損失値ｌｏｓｓＣを、上記（１）式に従って算出し、ｌｏｓｓＣが小さくなるように学習を進めればよい。

あるいは、多層ニューラルネットワーク１４４０の前段の畳み込み層におけるフィルタ３０１０の重みベクトルと、ノイズブロック３０２０の重みベクトルとの成す角度θの余弦値（ｃｏｓθ）を非直交度の指標とし、当該余弦値の絶対値と、直角の場合の正解の余弦値（ゼロ）との差分絶対値を直交制約用損失値ｌｏｓｓＣとして算出し、ｌｏｓｓＣが小さくなるように学習を進めてもよい。

具体的には、ノイズブロック３０２０毎に、全てのフィルタ３０１０に関するｌｏｓｓＣの和を、当該ノイズブロック３０２０の要素の値で微分した微分値に基づいて、ｌｏｓｓＣの和が小さくなるように、当該ノイズブロック３０２０の要素の値を学習すればよい。

なお、データ処理タスク用損失値ｌｏｓｓＭと直交制約用損失値ｌｏｓｓＣを、バランス係数αを用いて統合した全体損失値ｌｏｓｓＴを求め、当該全体損失値ｌｏｓｓＴが小さくなるように学習を行うことにより、データ処理タスクの学習と直交制約学習を同時に進めることができる。

（２）

以上の制約付き学習の様子を図１１に示す。

具体的には、学習部１６３０は、図１１に示すように、多層ニューラルネットワーク１４４０に大量の学習用顔画像データを入力して算出される特徴量を用いて計算されるデータ処理タスク用損失値ｌｏｓｓＭと、多層ニューラルネットワーク１４４０の前段の畳み込み層におけるフィルタ３０１０の重みベクトルと、ノイズブロック３０２０の重みベクトルとを用いて計算される直交制約用損失値ｌｏｓｓＣとを統合した全体損失値ｌｏｓｓＴが小さくなるように、多層ニューラルネットワーク１４４０及びノイズブロック３０２０の学習を行う。

例えば、フィルタ３０１０毎に、全てのノイズブロック３０２０に関する全体損失値ｌｏｓｓＴの和を、当該フィルタ３０１０の要素の値で微分した微分値に基づいて、全体損失値ｌｏｓｓＴの和が小さくなるように、当該フィルタ３０１０の要素の値を学習すること（図１１の１１１１参照）と、ノイズブロック３０２０毎に、全てのフィルタ３０１０に関するｌｏｓｓＴの和を、当該ノイズブロック３０２０の要素の値で微分した微分値に基づいて、ｌｏｓｓＴの和が小さくなるように、当該ノイズブロック３０２０の要素の値を学習し、フィルタ３０１０毎に、全てのノイズブロック３０２０に関するｌｏｓｓＴの和を、当該フィルタ３０１０の要素の値で微分した微分値に基づいて、ｌｏｓｓＴの和が小さくなるように、当該フィルタ３０１０の要素の値を学習すること（図１１の１１１２参照）と、を交互に繰り返す。

（報知装置１５００）
報知装置１５００は、ＣＰＵ、ＭＰＵ、周辺回路、端子、各種メモリ、表示用モニタなどから構成され、画像処理装置１３００から送信された入力顔データ２００と、顔認証装置１４００から送信された認証済み登録顔データ７００から、認証履歴作成部１５２０で認証履歴データを作成し、記憶部１５３０に格納する。記憶部１５３０に格納した認証履歴データは、報知部１５４０に表示される。

（受信部１５１０）
受信部１５１０は、画像処理装置１３００が送信した入力顔データ２００、および、顔認証装置１４００が送信した認証済み登録顔データ７００を受信し、認証履歴作成部１５２０に出力する。

（認証履歴作成部１５２０）
認証履歴作成部１５２０は、受信部１５１０を介して受信した入力顔データ２００と認証済み登録顔データ７００から認証履歴データを作成し、記憶部１５３０に格納する。

図１２に認証履歴データ８００の構成を示す。認証履歴データ８００の作成に際しては、まず、入力顔データ２００の顔画像識別子２１０と、認証済み登録顔データ７００の認証済み顔画像識別子７１０を突合し、同一の顔画像識別子を持つ入力顔データ２００と認証済み登録顔データ７００を選択する。そして、選択した入力顔データ２００の入力顔画像２２０と撮影時刻２３０、認証済み登録顔データ７００の登録顔画像６２０と登録属性情報６３０を連結し、入力顔画像８１０、撮影時刻８２０、登録顔画像８３０、及び登録属性情報８４０から構成される認証履歴データ８００を作成する。

（記憶部１５３０）
記憶部１５３０は、認証履歴作成部１５２０が作成した認証履歴データ８００を格納する。格納する認証履歴データ８００の上限数は、記憶部１５３０の容量に基づいて決定し、格納している認証履歴データ８００の数が上限を超えた場合は、認証履歴データ８００の撮影時刻８２０を参照して、認証履歴データ８００の数が上限数に戻るまで古い履歴から順に削除する。

（報知部１５４０）
報知部１５４０は、記憶部１５３０に格納された認証履歴データ８００から、報知用画像を作成し、報知部１５４０を構成する表示用モニタ等に表示する。

図１３に報知用画像９００の作成例を示す。図１３の例では、認証履歴データ８００に含まれる入力顔画像８１０、登録顔画像８３０、撮影時刻８２０、登録属性情報８４０を、夫々報知情報９１０、９２０、９３０、９４０として並べて配置し、画像化している。これにより、オペレータが、目視で、登録人物が検知されたか否かを確認する。

＜顔認証システムの動作＞
以下、図１４〜図１７に示したフローチャートを参照しつつ、本発明を適用した顔認証システム１０００の動作を説明する。なお、顔認証装置１４００の記憶部１４２０に登録顔データ６００が予め格納されている場合を例に説明する。

図１４に示す顔認証装置１４００の学習処理は事前に実行される。学習処理では、最初に、入力部１６１０により、顔認証システム１０００の撮像装置１１００から取得した、監視対象領域を映した監視画像から抽出された顔画像であって、一致すべき登録顔データ６００の登録顔画像識別子６１０が予め付与された、大量の学習用顔画像データを受け付ける（ステップＳ１０１０）。

そして、学習用顔画像データ毎に、顔画像を、多層ニューラルネットワーク１４４０に入力して、学習用に画像特徴量を抽出する（ステップＳ１０３０）。

そして、学習用の画像特徴量とノイズブロックとを用いて、ｌｏｓｓＴを計算する（ステップＳ１０４０）。計算されたｌｏｓｓＴに基づいて、ｌｏｓｓＴを最適化するように、ノイズブロック及び多層ニューラルネットワーク１４４０のフィルタ群を学習する（ステップＳ１０５０）。

そして、ノイズブロック及び多層ニューラルネットワーク１４４０のフィルタ群の学習が収束したか否かを判定し（ステップＳ１０６０）、例えば、上記ステップＳ１０３０〜Ｓ１０５０の繰り返し回数が上限回数に到達した場合に、当該学習が収束したと判定し、ステップＳ１０７０へ移行する。一方、上記ステップＳ１０３０〜Ｓ１０５０の繰り返し回数が上限回数に到達していない場合に、当該学習が収束していないと判定し、上記ステップＳ１０３０へ戻る。

そして、最終的に学習されたノイズブロック及び多層ニューラルネットワーク１４４０のフィルタ群を記憶部１４２０に格納し、学習処理を終了する。

そして、記憶部１４２０に格納されたノイズブロックのデータが、送受信部１４１０により、ネットワーク１２００を介して、画像処理装置１３００へ送信され、画像処理装置１３００の記憶部１３２０に、ノイズブロックのデータが格納される。

図１５に示す画像処理装置１３００の検知処理は、監視画像を１枚取得するごとに実行される。検知処理では、最初に、撮像装置１１００から、監視対象領域を映した監視画像を取得する（ステップＳ１１１０）。そして、画像処理部１３１０の顔画像取得手段１３１１は当該監視画像から顔画像を抽出する（ステップＳ１１２０）。顔画像取得手段１３１１は、１つ以上の顔画像が抽出されたか否かを判定し（ステップＳ１１３０）、顔画像が全く抽出されなかった場合には以降の処理を行わず、検知処理を終了する。一方、１つ以上の顔画像が抽出された場合、顔画像取得手段１３１１は検出した顔画像から入力顔データ２００を作成して記憶部１３２０に記憶した後、ステップＳ１１４０に処理を移行させる。

以下のステップＳ１１４０〜Ｓ１１５０の処理は、顔画像取得手段１３１１が抽出した顔画像ごとに行われる。

ノイズ付加手段１３１２は、記憶部１３２０に記憶されているノイズブロックのデータを用いて、顔画像取得手段１３１１が作成した入力顔データ２００にノイズを付加し、ノイズ付加入力顔データ３００を作成する（ステップＳ１１４０）。この際、入力顔データ２００の入力顔画像２２０に対して、ノイズブロックを並べて配置したノイズ画像を加算することにより、目視による識別が困難なノイズ付加顔データ３２０を含むノイズ付加入力顔データ３００を作成する。次に、作成したノイズ付加入力顔データ３００を顔認証装置１４００に送信する（ステップＳ１１５０）。

全ての顔画像についてステップＳ１１４０〜１１５０の処理が終わると、画像処理部１３１０は、検知処理を終了する。

ノイズ付加入力顔データ３００を受信した顔認証装置１４００は、図１６に示す照合処理を行う。なお、以下に説明する図１６の顔認証装置１４００の動作は、ノイズ付加入力顔データ３００を１つ受信するごとに実行される。

顔認証装置１４００は、記憶部１４２０に予め登録されている全ての登録顔データ６００と、受信したノイズ付加入力顔データ３００とを照合する（ステップＳ１２１０）。照合には、学習済みの多層ニューラルネットワーク１４４０を使用して、受信したノイズ付加入力顔データ３００の特徴量と登録顔データ６００の特徴量とを比較し、両者の類似度を計算する。照合の結果得られた最大の類似度が所定の認証閾値以上であるかを判定し（ステップＳ１２２０）、認証閾値以上であった場合、受信したノイズ付加入力顔データ３００と最大の類似度を示した登録顔データ６００は同一人物に由来すると判定し、当該登録顔データ６００を報知装置１５００に送信し（ステップＳ１２３０）、照合処理を終了する。

また、入力顔データ２００と登録顔データ６００とを受信した報知装置１５００は、図１７に示す報知処理を行う。なお、以下に説明する図１７の報知装置１５００の動作は、入力顔データ２００と登録顔データ６００のペアを１つ受信するごとに実行される。

入力顔データ２００と登録顔データ６００を受信した報知装置１５００は、入力顔データ２００と登録顔データ６００を用いて認証履歴データ８００を作成し（Ｓ１３１０）、認証履歴データ８００に係る特定人物の検知を報知して（Ｓ１３２０）、報知処理を終了する。例えば、報知装置１５００が備える表示部（図示しない）から認証履歴データ８００に係る報知用画像９００を表示出力することにより報知する。

以上説明してきたように、本発明の実施の形態に係る顔認証システム１０００では、画像処理装置１３００は、入力顔画像に対してノイズ画像を加算して得られたノイズ付加顔データを、顔認証装置１４００へ送信する。顔認証装置１４００は、ノイズ付加顔データと登録顔画像とを、多層ニューラルネットワークを用いて照合する。ここで、顔認証装置１４００は、予め、学習用顔画像データを畳み込みニューラルネットワークに入力して、多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタと、ノイズ画像（フィルタを所定のストライドで畳み込む場合は、当該畳み込む各領域に対応するノイズ画像の領域）とが直交性を有し、かつ、多層ニューラルネットワークにより求められる登録人物に対応した確率出力と、同一人物に対応する出力要素のみ１となるｏｎｅ−ｈｏｔベクトルの教師データとのクロスエントロピーとして算出する損失値が小さくなるように学習しておく。これにより、入力顔データにノイズを付加しても、多層ニューラルネットワークを用いた顔認証タスクを精度よく行うことができる。

また、画像処理装置１３００は、撮像画像から抽出した人物画像に対して顔認証装置１４００にて照合を行う多層ニューラルネットワーク１４４０に含まれる前段の畳み込み層のフィルタ３０１０と直交性を有するよう予め学習されたノイズブロック３０２０に基づくノイズ画像を付加することにより生成される、顔画像の被写体を目視で識別することが困難なノイズ付加入力顔データ３００を顔認証装置１４００に送信する。これにより、多層ニューラルネットワーク１４４０を用いた照合処理を、精度を低下させずに実行するとともに、顔認証装置１４００から、ノイズ付加入力顔データ３００に対応する認証済み顔画像識別子を受信した場合、当該認証済み顔画像識別子に対応する入力顔データ２００を報知装置１５００に送信することにより、無関係な人物のプライバシーに配慮して検知対象者の顔画像データを取得することができる。すなわち、監視画像に映る人物が、予め顔登録済みの人物であるか否かを、目視による識別性が低いノイズ付加情報によって判定し、顔登録済みの人物の情報に限って、顔画像などの識別性の高い情報を記録、報知することが可能となる。なお、本実施の形態では、顔画像を用いて顔認証しているが、これに限らず、人物領域を示す人物画像を用いて、顔だけでなく体格や服装等の類似度も含めた人物認証を行ってもよい。

また、ローカルに設置した撮像装置１１００で撮影した人物画像を、ネットワーク経由で顔認証装置１４００に伝送し、特定人物の認証や検知を行うネットワーク型の顔認証システム１０００に関し、被撮影者のプライバシーに配慮したデータ伝送方式を実現することができる。

＜変形例＞
以上、本発明の好適な実施形態について説明してきたが、本発明はこれらの実施形態に限定されるものではない。例えば、本実施形態では、画像処理装置１３００が、認証済み顔画像識別子に対応する入力顔データ２００を報知装置１５００に送信する場合を例に説明したが、これに限定されるものではなく、他の装置、例えば、顔認証装置１４００に送信するようにしてもよい。

また、本実施形態では、ノイズ付加手段１３１２は、顔画像取得手段１３１１が作成した入力顔画像２２０に対してノイズブロック３０２０に基づくノイズ画像を付加したが、それに先立ち、入力顔画像２２０に対してランダム画素欠落又はランダムノイズ付加を施したうえで、ノイズブロック３０２０を付加してもよい。例えば、入力顔画像２２０の画素のうちランダムに決定される画素を欠落させてから、ノイズブロック３０２０を並べたノイズ画像を加算したり、入力顔画像２２０にランダムノイズを付加してから、ノイズブロック３０２０を並べたノイズ画像を加算するようにしてもよい。

ただし、入力顔画像２２０に対してランダム画素欠落又はランダムノイズ付加を施した画像に対する照合精度は、多層ニューラルネットワーク１４４０の学習時に確保しておくことが好ましい。すなわち、学習用顔画像データに対して、ランダム画素欠落やランダムノイズ付加を施した上で、多層ニューラルネットワーク１４４０に、学習用顔画像データを入力して登録人物に対応した照合確率を出力し、同一人物に対応する出力要素のみ１となるｏｎｅ−ｈｏｔベクトルの教師データとのクロスエントロピーとして算出する損失値が小さくなるように学習しておけばよい。この際、入力顔画像２２０に対して施されるランダム画素欠落の割合（全画素数に対する欠落の割合）又はランダムノイズ付加の強さは、学習用画像データに対して施されたものと同程度とすることが好適である。このように、入力顔画像２２０に対してランダム画素欠落やランダムノイズ付加を施す処理を行うことで、入力顔画像２２０に対するノイズ付加に加え、さらにノイズブロック３０２０自体の周期性などの特性をも隠すことが可能となり、ノイズブロックの値を解析しにくくすることができる。

また、本実施形態では、ノイズ付加手段１３１２は、顔画像取得手段１３１１が作成した入力顔画像２２０に対してノイズブロック３０２０を付加したが、複数の異なるサイズのノイズブロック３０２０を同時に、かつ同様に学習しておき、それぞれのノイズブロック３０２０を配置したノイズ画像の各々を、重畳して入力顔画像２２０に付加してもよい。複数の異なるサイズのどちらの当該ノイズブロックも多層ニューラルネットワーク１４４０のフィルタ３０１０と直交するよう学習できているため、両者を重畳してもそのノイズの影響を排除でき、データ処理タスクに影響しない。このように、一つのノイズブロック群に含まれる各ノイズブロック以外のノイズ画像のバリエーションを増やすことができる。また、異なるサイズのノイズブロックから作成したノイズ画像を合成することにより、見かけのノイズ周期を大きくカモフラージュすることができ、ノイズの特性を目視で推測しにくくすることが可能となる。例えば、ノイズブロックのサイズとして、５×５、３×３の２つのバリエーションを考える。すると、単独のノイズブロックとしてはそれぞれ、５、および３のノイズ周期であるが、各ノイズブロックを重畳加算した合成ノイズ画像ではノイズ周期が５×３＝１５となり、また、当該合成ノイズ画像を構成するペアのバリエーションも、２５パターン（５×５）×９パターン（３×３）＝２２５パターンに増やすことができる。

また、ノイズ画像全体に任意の重みを乗じた上で入力顔画像２２０に付加してもよい。フィルタの畳み込む領域に対応する当該ノイズ画像の領域は、多層ニューラルネットワーク１４４０のフィルタ３０１０と直交性を有するよう学習できているため、ノイズ画像全体に任意の重みを乗算しても直交性を有したままであるため、そのノイズの影響を排除でき、データ処理タスクに影響しない。同様に、複数種類のノイズブロックの夫々に基づいて生成されたノイズ画像の各々を重畳して入力顔画像２２０に付加する場合についても、各ノイズ画像全体に任意の重みを乗じた上で重畳して入力顔画像２２０に付加してもよい。ノイズ画像に乗じる重みにより、ノイズ付加による目視識別困難性を調節できる。従って、所定のＳ／Ｎ比に基づいて任意の重みの値を設定したり、Ｓ／Ｎ比を基準に任意の重みの値を決定すればよい。さらに、重みの値をランダムに設定してもよいし、抽出した顔画像領域毎に異なる重みの値を設定してもよい。

さらに、本実施形態では、ノイズ付加手段１３１２は、顔画像取得手段１３１１が作成した入力顔画像２２０に対してノイズブロック３０２０を付加したが、ノイズブロック３０２０の学習の際に、ノイズブロックの各要素の値の大きさや空間的バラツキが所定の範囲に収まるような制約を追加することでノイズブロックの特定の要素が目立つことがないように、すなわちノイズブロックの周期性を目立ちにくくしてもよい。

また、本実施形態では、データ処理タスクとして、顔画像を用いた顔認証を行っているが、これに限らず、データ処理タスクとして、顔画像や人物領域画像から、性別や年齢、体格や服装等の属性情報を推定するようにしても良い。

また、本実施の形態では、監視カメラ画像から顔画像を検出して、当該顔画像にノイズ付加を施し画像処理を行うとしたが、監視カメラ画像全体にノイズ付加を施し、顔領域検出や人物の姿勢推定、人物の密度推定といった画像処理を、ノイズ付加画像に対して行う構成としても良い。

また、学習部１６３０が、顔認証装置１４００とは別の学習装置に設けられ、当該学習装置で学習された多層ニューラルネットワーク１４４０が、顔認証装置１４００に記憶されるようにしてもよい。

また、入力データが、画像である場合を例に説明したが、これに限定されるものではなく、入力データが、画像以外のデータであってもよい。例えば、入力データが、音声データであって、データ処理タスクが、音声認識又は話者認識であってもよい。この場合には、音声データから求められるスペクトルデータに対してノイズブロックを並べたノイズデータを加算することによりノイズ付加し、畳み込み層を含む多層ニューラルネットワークを用いて、音声認識又は話者認識を行えばよい。あるいは、音声信号に対してノイズブロックを時系列方向に並べたノイズデータを加算することによりノイズ付加し、畳み込み層を含む多層ニューラルネットワークを用いて、特徴量を求め、当該特徴量から、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）を用いて、音声認識を行えばよい。

また、ノイズブロックを左上から隙間なく敷き詰めるように並べて配置したノイズ画像を加算してノイズ付加を行う場合を例に説明したが、これに限定されるものではない。例えば、多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタ群のストライドが該フィルタサイズを超える場合、フィルタをずらす前後で、フィルタ間には「ストライド値−フィルタサイズ」の隙間が生じる。例えば、フィルタのサイズが３×３、ストライドが４とすると、畳み込み演算時に適用されるフィルタ間には、４−３＝１の隙間が生じる。この隙間の部分では畳み込み演算がスキップされるため、ノイズブロックをこの隙間の分だけ離して配置したノイズ画像を加算してノイズ付加を行ってもよい。この場合に、ノイズ画像に配置されたノイズブロックの隙間となる部分の値は所定値（例えば、０）又はランダムに設定された画素値となる。なお、このようにノイズブロックを離して配置可能なストライドの場合は、複数のノイズブロックをまたぐような畳み込み演算を回避できるため、ノイズブロック学習の際、必ずしもノイズブロックの要素をシフトさせて派生ノイズブロックを生成する必要はない。

また、入力画像とノイズ画像との位置を合わせて加算する場合を例に説明したが、これに限定されるものではない。例えば、ノイズ画像を、オフセット値だけＸ軸方向及びＹ軸方向の少なくとも一方向にずらしてから、入力画像に加算するようにしてもよい。これにより、入力画像とノイズ画像の同じペアであっても、ノイズ付加画像のバリエーションを増やすことができる。ただし、ノイズ付加画像中で、当該オフセットに相当する部分では、ノイズが付加されていない領域（ノイズ未適用領域）が生じるため、フィルタとの直交性は確保されなくなる。したがって、当該ノイズ付加画像を多層ニューラルネットワークに入力して、多層ニューラルネットワークに含まれる前段の畳み込み層で畳み込み演算を行う際は、このノイズ未適用領域とノイズ適用領域が混在する領域の畳み込み演算結果は、データ処理タスクの性能を低下させる可能性がある。そこで、例えば、畳み込み層のフィルタを、オフセット分ずらした位置より適用開始し、ノイズ画像を加算した領域でのみ畳み込み処理を実行するようにすればよい。そのためには、オフセット分ずらしてデータ処理タスクの学習を行い、同じオフセットの条件下でデータ処理タスク精度を高めておくことが望ましい。以上の処理で、このオフセットの影響を排除可能となる。

以上のように、当業者は本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。

１０００顔認証システム
１１００撮像装置
１１１０顔画像
１１２０人物
１２００ネットワーク
１３００画像処理装置
１３１０画像処理部
１３１１顔画像取得手段
１３１２ノイズ付加手段
１３２０記憶部
１３３０送受信部
１４００顔認証装置
１４１０送受信部
１４２０記憶部
１４３０入力用データ処理部
１４４０多層ニューラルネットワーク
１６１０入力部
１６３０学習部
３０１０フィルタ
３０２０ノイズブロック
３０３０ノイズ付加画像
３２００、３３１０ノイズ画像

Claims

入力データに対して所定のデータ処理タスクを行う多層ニューラルネットワークにおける各畳み込み層で用いられるフィルタと、前記入力データに加算されるノイズデータとを学習する学習部と、
前記入力データに対して前記学習部により学習されたノイズデータを加算して得られたノイズ付加データを、前記多層ニューラルネットワークに入力して、前記多層ニューラルネットワークの出力に基づいて、前記データ処理タスクの結果を求める入力用データ処理部と、
を含むデータ処理装置であって、
前記学習部は、前記データ処理タスクの結果が予め付与された学習用データを前記多層ニューラルネットワークに入力して、前記ノイズデータと前記多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタとが直交性を有し、かつ、前記求められた前記データ処理タスクの結果と、前記学習用データに予め付与された前記データ処理タスクの結果とが一致するよう学習することを特徴とするデータ処理装置。
前記学習部は、前記多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタ群と、当該前段の畳み込み層で用いられるフィルタ群のフィルタを所定のストライドで畳み込む場合における、該畳み込む各領域に対応する前記ノイズデータの領域とが直交性を有するように前記フィルタと前記ノイズデータとを学習する請求項１記載のデータ処理装置。
前記入力データは、画像であって、
前記学習部は、所定の基準ノイズブロックと当該基準ノイズブロックを所定のシフトパターンに応じてシフトさせて得られる派生ノイズブロックとからなるノイズブロック群のうちの何れか一つを並べて配置することにより前記ノイズデータが生成されるよう学習する請求項２記載のデータ処理装置。
前記学習部は、前記ノイズブロック群の全てのノイズブロックと前記フィルタの夫々とが直交性を有するように学習する請求項３記載のデータ処理装置。
前記学習部は、前記ストライドに応じた前記シフトパターンにより前記ノイズブロックをシフトさせることにより前記派生ノイズブロックを得る請求項４記載のデータ処理装置。
前記入力データは、画像であって、
前記ストライドは前記フィルタのサイズの整数倍であって、
前記学習部は、所定のノイズブロックと前記フィルタとが直交性を有するように学習し、
前記ノイズデータは、学習により求めた一以上のノイズブロックを並べて配置したものである請求項２記載のデータ処理装置。
前記入力データは、画像であって、
前記ノイズ付加データは、前記入力データの画素のうちランダムに決定される画素を欠落させてから、前記ノイズデータを加算して得られたものであり、
前記学習部は、前記学習用データの画素のうちランダムに決定される画素を欠落させてから前記多層ニューラルネットワークに入力して学習する請求項１〜請求項６の何れか１項記載のデータ処理装置。
前記入力データは、画像であって、
前記ノイズ付加データは、前記入力データにランダムノイズを付加してから、前記ノイズデータを加算して得られたものであり、
前記学習部は、前記学習用データにランダムノイズを付加してから前記多層ニューラルネットワークに入力して学習する請求項１〜請求項６の何れか１項記載のデータ処理装置。
学習部が、入力データに対して所定のデータ処理タスクを行う多層ニューラルネットワークにおける各畳み込み層で用いられるフィルタと、前記入力データに加算されるノイズデータとを学習し、
入力用データ処理部が、前記入力データに対して前記学習部により学習されたノイズデータを加算して得られたノイズ付加データを、前記多層ニューラルネットワークに入力して、前記多層ニューラルネットワークの出力に基づいて、前記データ処理タスクの結果を求める
データ処理方法であって、
前記学習部は、前記データ処理タスクの結果が予め付与された学習用データを前記多層ニューラルネットワークに入力して、前記ノイズデータと前記多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタとが直交性を有し、かつ、前記求められた前記データ処理タスクの結果と、前記学習用データに予め付与された前記データ処理タスクの結果とが一致するよう学習することを特徴とするデータ処理方法。
入力データに対して所定のデータ処理タスクを行うための多層ニューラルネットワークであって、前記入力データに対してノイズデータを加算して得られたノイズ付加データを、前記多層ニューラルネットワークに入力したときの出力に基づいて前記データ処理タスクの結果を求めるための多層ニューラルネットワークである学習済みモデルであって、
前記データ処理タスクの結果が予め付与された学習用データを前記多層ニューラルネットワークに入力して、前記ノイズデータと前記多層ニューラルネットワークに含まれる前段の畳み込み層で用いられるフィルタとが直交性を有し、かつ、前記求められた前記データ処理タスクの結果と、前記学習用データに予め付与された前記データ処理タスクの結果とが一致するよう予め学習された
ことを特徴とする学習済みモデル。