JP7475192B2

JP7475192B2 - 識別器学習装置及び識別器学習方法

Info

Publication number: JP7475192B2
Application number: JP2020080736A
Authority: JP
Inventors: 陽介加賀; 健太高橋; 正和藤尾; 渉中村; 慶子安村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2024-04-26
Anticipated expiration: 2040-04-30
Also published as: JP2021174471A

Description

本発明は、識別器学習装置及び識別器学習に関する。

データを分類する識別器は、様々な用途に活用されている。例えば、顔画像が誰の顔かを識別器は、顔画像に基づき本人を認証することができ、近年急速に普及している。また、カメラ映像から歩行者、車、道路、標識などを識別器が識別して認識することで、ＡＩが自動的に運転動作を行うことができる。このような画像認識技術は、予め大量の画像を用意して識別器を学習することで、未知の画像に対する識別が可能である。

しかしながら、識別器が高精度な識別を行うためには、識別器に入力され得る網羅的なパターンの画像が、学習画像に含まれている必要があった。例えば、顔認証を行う識別器に対しては、横を向いている顔、影ができている顔、加齢でしわが増えている顔、メガネやマスクを着用している顔、といった様々な画像が入力されることが予想されるため、そのような画像を予め大量に識別器が学習しておかないと、高い精度で認証することはできない。また、このような大量の画像を収集するためには膨大なコストがかかる。

非特許文献１に記載の技術は、Ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋによって画像を特徴ベクトルへ変換し、当該特徴ベクトルに対して誤差を付与し、当該誤差を学習する。特徴ベクトル上の誤差の方向は、顔が横を向く、影ができる、加齢するなどの意味に対応しているため、非特許文献１に記載の技術は、一枚の画像に誤差を付与して当該画像から複数のパターンの画像を生成する。

特許文献１に記載の技術は、画像をニューラルネットへ入力して特徴を抽出し、その特徴からニューラルネットを用いて識別しにくい敵対的特徴を生成し、前記敵対的特徴を用いてニューラルネットワークを学習する。これにより、特許文献１に記載の技術は、特徴に対して一定範囲の摂動を加えて生成できる特徴の中で、最も識別しにくい特徴を自動的に生成し、効率的な学習が行う。

国際公開第２０１８／１６７９００号

ＹｕｌｉｎＷａｎｇ，ＸｕｒａｎＰａｎ，ＳｈｉｊｉＳｏｎｇＨｏｎｇＺｈａｎｇ，ＧａｏＨｕａｎｇ，ＣｈｅｎｇＷｕ，"ＩｍｐｌｉｃｉｔＳｅｍａｎｔｉｃＤａｔａＡｕｇｍｅｎｔａｔｉｏｎｆｏｒＤｅｅｐＮｅｔｗｏｒｋｓ"，Ｔｈｉｒｔｙ-ｔｈｉｒｄＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，２０１９

非特許文献１に記載の技術は、一枚の画像から複数のパターンの画像を生成することができるが、そのパターンは無数に存在し、網羅的に識別器の学習を行うためには膨大な計算量が必要となる。従って、非特許文献１に記載の技術は、現実的な計算時間の範囲内で学習を行う場合、考慮できるパターンが限定されて大きな精度向上は見込まれない。

また、特許文献１に記載の技術は、特徴空間上の一定範囲の摂動を設ける。この特徴空間は、識別対象の全てのクラスで共通の空間であるため、特許文献１に記載の技術において、あるデータから得られた特徴に対して摂動を大きくすると別のクラスに近い特徴が出現し、識別器の精度劣化の原因になる。つまり、特許文献１に記載の技術においては、特徴に対する摂動の範囲は十分に小さい必要がある。

例えば、特許文献１に記載の技術が、顔認証をする識別器を学習する場合、ある人間の顔画像から得られた特徴に対して摂動を大きくとると他人の顔を示す特徴まで範囲が拡大してしまうため、摂動を限定して顔の微細な変化に対するロバスト性の向上を行うことになる。しかしながら、顔画像はその個人性を保ったまま、横を向いたり、顔に影ができたり、加齢でしわが増えたり、メガネやマスクを掛けたりというように、大きく変動することがあるが、特許文献１に記載の技術は、これらのような大きな変動に対応する学習を行うことは困難である。

そこで本発明の一態様は、現実的な計算時間で高精度な識別器を学習することを目的とする。

上記課題を解決するために本発明の一態様は以下の構成を採用する。識別器を学習する識別器学習装置は、プロセッサとメモリとを有し、前記メモリは、前記識別器と、学習対象データと、前記学習対象データのラベルと、を保持し、前記プロセッサは、前記学習対象データを、前記識別器による識別対象の属性を示す第１特徴ベクトルと、前記識別器による識別対象の属性とは異なる属性を示す第２特徴ベクトルと、を含む複数の特徴ベクトルへ変換し、前記学習対象データを前記識別器に入力して前記識別器からの出力を算出し、前記出力と前記ラベルとに基づいて、前記第２特徴ベクトルに摂動を加え、前記摂動を加えた第２特徴ベクトルを用いて前記識別器を学習する。

本発明の一態様によれば、現実的な計算時間で高精度な識別器を学習することができる。

上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

実施例１における学習端末及び識別端末の構成例を示すブロック図である。実施例１における特徴分解器学習処理と識別器学習処理の一例を示すフローチャートである。実施例１における学習端末による特徴分解器学習処理の詳細を示すフローチャートである。実施例１における特徴分解器学習データ格納部及び識別器学習データ格納部に格納されている学習データのデータ構造の一例である。実施例１における識別端末による識別処理の一例を示すフローチャートである。実施例１における学習端末及び識別端末それぞれを構成する計算機のハードウェア構成例を示すブロック図である。実施例２における特徴分解器学習処理と識別器学習処理の一例を示すフローチャートである。

以下、本発明の実施形態を図面に基づいて詳細に説明する。本実施形態において、同一の構成には原則として同一の符号を付け、繰り返しの説明は省略する。なお、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。

本実施例の学習端末は、特徴分解器学習データを用いて特徴分解器としてエンコーダとデコーダを学習し、その後識別器学習データ中のデータをエンコーダで特徴ベクトルに分解し、当該特徴ベクトルに対する摂動を求めて付与し、当該特徴ベクトルをデコーダでデータに再構成し、当該再構成データを用いて識別器を学習し、当該識別器を用いてデータを識別する。

学習データのうち識別平面に近いデータは識別平面の決定に大きく寄与するため学習において重要なデータであり、逆に識別平面から遠い画像は識別平面の決定に寄与しないため、学習において重要性が低い。このため、本実施例の学習端末は、１つのデータから生成可能な複数のデータのうち、識別平面に近く識別器の学習にとって重要なデータを効率的に生成して、現実的な計算時間の範囲で識別器の精度を大きく向上させることができる。

図１は、学習端末及び識別端末の構成例を示すブロック図である。学習端末１０００及び識別端末１１００は、例えば、インターネット等のネットワークを介して接続されていることが望ましい。また、学習端末１０００と識別端末１１００とが一体化されていてもよい。学習端末１０００は、例えば、それぞれ機能部である、エンコード部１０１０、デコード部１０２０、ロス算出部１０３０、パラメータ更新部１０４０及び学習判定部１０５０を含む。

また、学習端末１０００は、例えば、それぞれデータを格納する格納部である、特徴分解器学習データ格納部１０９０、識別器学習データ格納部１０９１、特徴分解器パラメータ格納部１０９２、及び識別器パラメータ格納部１０９３、を含む。以降では、画像データに対する学習及び識別が行われる例を述べるが、画像データに限定されず、音声データ、センサデータ、及び動画像データなどのあらゆるデータに、本実施例の学習及び識別が適用可能である。

エンコード部１０１０は、画像が入力されるとけ、入力された画像を単一又は複数の特徴ベクトルへ変換する。エンコード部１０１０は特徴分解器の構成要素であると捉えることもできる。デコード部１０２０は、単一又は複数の特徴ベクトルを入力されると、入力された特徴ベクトルから画像を再構成する。デコード部１０２０は特徴分解器の構成要素であると捉えることもできる。

ロス算出部１０３０は、特徴分解器及び識別器に対するロスを算出する。パラメータ更新部１０４０は、特徴分解器パラメータ格納部１０９２、識別器パラメータ格納部１０９３に格納されたパラメータ、並びに特徴分解器が分解した特徴ベクトルをロスに基づき更新する。学習判定部１０５０は、特徴分解器及び識別器の学習が完了したかを判定する。

特徴分解器学習データ格納部１０９０は、特徴分解器の学習に用いられる画像データを格納する。識別器学習データ格納部１０９１は、識別器の学習に用いられる画像データを格納する。なお、識別器の学習に用いられるデータは、特徴分解器の学習に用いられるデータと同じでもあってもよいし、異なっていてもよい。

特徴分解器パラメータ格納部１０９２は、学習した特徴分解器（エンコーダとデコーダ）のパラメータを格納する。識別器パラメータ格納部１０９３は、学習した識別器のパラメータを格納する。

識別端末１１００は、例えば、それぞれ機能部である、データ取得部１１１０、データ生成部１１２０、データ照合部１１３０、及び結果出力部１１４０を含み、さらにデータを格納する格納部である登録データ格納部１１９０を含む。

データ取得部１１１０は、識別対象の画像を、例えばカメラやネットワークから取得する。データ生成部１１２０は、画像を識別器へ入力することで特徴ベクトルを生成する。データ照合部１１３０は、データ生成部１１２０が生成した複数の画像の特徴ベクトルから、画像間の類似度または距離を算出する。

結果出力部１１４０は、データ照合部１１３０が算出した類似度又は距離に基づく識別結果を出力する。登録データ格納部１１９０は、データ生成部１１２０が生成した特徴ベクトルを登録データとして格納する。

図６は、学習端末１０００及び識別端末１１００それぞれを構成する計算機のハードウェア構成例を示すブロック図である。計算機６０００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０１０、メモリ６０２０、補助記憶装置６０３０、入力装置６０４０、出力装置６０５０、及び通信装置６０６０を含む。

ＣＰＵ６０１０は、プロセッサを含み、メモリ６０２０に格納されたプログラムを実行する。メモリ６０２０は、不揮発性の記憶素子であるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及び揮発性の記憶素子であるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ））などを格納する。ＲＡＭは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、ＣＰＵ６０１０が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

補助記憶装置６０３０は、例えば、磁気記憶装置（ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ））、フラッシュメモリ（ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ））等の大容量かつ不揮発性の記憶装置であり、ＣＰＵ６０１０が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置６０３０から読み出されて、メモリ６０２０にロードされて、ＣＰＵ６０１０によって実行される。

入力装置６０４０は、キーボードやマウスなどの、オペレータからの入力を受ける装置である。また、入力装置６０４０は、画像を撮像するためのカメラ、音声を取得するためのマイク等の各種センサを含んでもよい。出力装置６０５０は、プリンタなどの表示装置が接続され、プログラムの実行結果をオペレータが視認可能な形式で出力する装置である。通信装置６０６０は、所定のプロトコルに従って、他の装置との通信を制御する装置である。また、通信装置６０６０は、例えば、ＵＳＢ等のシリアルインターフェースを含んでもよい。

ＣＰＵ６０１０が実行するプログラムは、リムーバブルメディア（ＣＤ－ＲＯＭ、フラッシュメモリなど）又はネットワークを介して計算機６０００に提供され、非一時的記憶媒体である不揮発性の補助記憶装置６０３０に格納される。このため、計算機６０００は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。

学習端末１０００及び識別端末１１００はいずれも、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。

学習端末１０００が有する機能部は、学習端末１０００を構成する計算機６０００のＣＰＵ６０１０に含まれ、識別端末１１００が有する機能部は、識別端末１１００を構成する計算機６０００のＣＰＵ６０１０に含まれる。

例えば、学習端末１０００を構成する計算機６０００のＣＰＵ６０１０は、当該計算機６０００のメモリ６０２０にロードされたエンコードプログラムに従って動作することで、エンコード部１０１０として機能し、当該計算機６０００のメモリ６０２０にロードされたデコードプログラムに従って動作することで、デコード部１０２０として機能する。学習端末１０００を構成する計算機６０００のＣＰＵ６０１０に含まれる他の機能部についても、プログラムと機能部の関係は同様である。識別端末１１００を構成する計算機６０００のＣＰＵ６０１０に含まれる後述する機能部についても、プログラムと機能部の関係は同様である。

なお、学習端末１０００を構成する計算機６０００のＣＰＵ６０１０に含まれる機能部による機能の一部又は全部が、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアによって実現されてもよい。識別端末１１００を構成する計算機６０００のＣＰＵ６０１０に含まれる機能部についても同様である。

学習端末１０００が有する格納部は、学習端末１０００を構成する計算機６０００の補助記憶装置６０３０が提供する記憶領域によって実現され、識別端末１１００が有する格納部は、識別端末１１００を構成する計算機６０００の補助記憶装置６０３０が提供する記憶領域によって実現される。

なお、補助記憶装置６０３０に格納されている一部又は全部の情報は、メモリ６０２０に格納されていてもよいし、計算機６０００に接続されているデータベースに格納されていてもよい。

なお、本実施形態において、学習端末１０００及び識別端末１１００が使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。本実施形態ではテーブル形式で情報が表現されているが、例えば、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。

以下、本実施例における処理手順を、図２～図５を参照して説明する。図２は、特徴分解器学習処理と識別器学習処理の一例を示すフローチャートである。図２の処理は学習端末１０００による処理であり、後述するステップＳ２０１０が特徴分解器学習処理であり、ステップＳ２０２０～Ｓ２３００が識別器学習処理である。

まず、学習端末１０００は、予め収集され、特徴分解器学習データ格納部１０９０に格納されている特徴分解器学習データ２００を読み込み、当該特徴分解器学習データ２００に基づき画像を単一又は複数の特徴ベクトルへ分解するエンコーダ２１０と、特徴ベクトルから画像を再構成するデコーダ２２０と、を学習する（Ｓ２０１０）。特徴分解器学習データ２００の仕様は、図４を参照して後述する。ステップＳ２０１０の詳細は、図３を参照して後述する。

エンコーダ２１０が画像を複数の特徴ベクトルへ分解する場合は、Ｄｉｓｅｎｔａｎｇｌｅｍｅｎｔと呼ばれる技術を適用できる。Ｄｉｓｅｎｔａｎｇｌｅｍｅｎｔは、入力データを意味の異なる複数の特徴ベクトルへ分解することができる方式である。

例えば、エンコーダ２１０に顔画像を入力してＤｉｓｅｎｔａｎｇｌｅｍｅｎｔが適用された場合は、顔画像を、個人性を示す特徴ベクトルと個人性以外の属性を示す特徴ベクトルに分解することができる。

個人性を示す特徴ベクトルは、特定の個人と紐づいているため、特定の人物が写っている複数の画像がエンコーダ２１０に入力されると類似する特徴ベクトルが得られる。これに対して属性を示す特徴ベクトルは、顔が横を向いていたり、顔に影が映っていたり、髪型が変わったり、サングラスや眼鏡をかけていたり、といった、個人性以外の属性を示す特徴ベクトルである。

このとき、パラメータ更新部１０４０が属性を示す特徴ベクトルに摂動を加えて、個人性を示す特徴ベクトルは不変（特徴ベクトルに加える摂動よりも微小な摂動を加えてもよい）とすると、個人性を保ったまま様々なパターンの画像を生成することができる。また、個人性と属性とで特徴空間を分離しているため、パラメータ更新部１０４０が属性を示す特徴ベクトルに大きな摂動を加えたとしても、個人性は変わらないため、大きな摂動を加えることが可能となる。

なお、摂動の加え方はこれに限定されるものではなく、パラメータ更新部１０４０は、単一の特徴ベクトルに対して摂動を加えてもよいし、Ｄｉｓｅｎｔａｎｇｌｅｍｅｎｔにより特徴ベクトルを分解した上で、個人性を示す特徴ベクトルにも摂動を加えてもよい（但し、特徴ベクトルに加える摂動よりも微小な摂動を加えることが望ましい）。また、エンコード部１０１０が入力データを分解する際に、属性を示す特徴ベクトルを複数定義してもよく（つまり属性を示す複数の特徴ベクトルが生成される）、複数の特徴ベクトルそれぞれに対して摂動を加えてもよい。

なお、本実施形態では人間が誰であるかを識別する識別器について主に説明しているため「個人性」という単語を用いているが、人間以外の生物や物体の識別に対しても本実施形態がそのまま適用できることは明らかである。この場合、入力データは、「個体性」を示す特徴ベクトルと、個体性以外の属性を示す特徴ベクトルと、に分解される。

さらに、本実施形態は、生物や物体に対する識別だけでなく、属性の識別（例えば、入力データとして人間の顔画像が入力されたときに、当該顔画像の表情（例えば、笑っているのか、怒っているのか、又は悲しんでいるのか等）や、当該人間の性別や年齢等を識別する等）に対してもそのまま適用可能であることは明らかである。この場合、入力データは、識別対象の属性を示す特徴ベクトルと、識別対象以外の属性を示す特徴ベクトルと、に分解される。

次に、識別器学習処理について説明する。パラメータ更新部１０４０は、識別器２８０のパラメータを初期化する（Ｓ２２１０）。識別器２８０は、画像が入力されると、画像に対する識別結果を出力し、例えば、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ、サポートベクターマシン、又は線形識別関数など、一般に機械学習に用いられる識別器が適用可能である。

エンコード部１０１０は、識別器学習データ格納部１０９１に格納された識別器学習データ２５０から、画像情報を取得する（Ｓ２２２０）。識別器学習データ２５０のデータ構成例については、図４を参照して後述する。ここでは、エンコード部１０１０は、識別器学習データ２５０に含まれる画像のうち、１枚又は複数枚の画像を学習対象として抽出して、その後の処理を行う例（Ｄｅｅｐｌｅａｒｎｉｎｇによって学習が行われる場合においては、ｍｉｎｉ－ｂａｔｃｈと呼ばれる学習データのサブセットに対応する）を説明する。

エンコード部１０１０は、ステップＳ２２２０で取得した画像に対して、エンコーダ２１０を適用して、単一又は複数の特徴ベクトルを生成する（Ｓ２２３０）。デコード部１０２０は、ステップＳ２２３０で得られた特徴ベクトルに対してデコーダ２２０を適用して、特徴ベクトルから画像を再構成する（Ｓ２２４０）。

ロス算出部１０３０は、ステップＳ２２４０でデコードされた画像を識別器２８０へ入力して、ロスを算出する（Ｓ２２５０）。ロス算出部１０３０は、例えば、ロスとして、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋを最適化する際のロス関数を出力する。例えば、画像分類に対するロスとして一般的に用いられるＳｏｆｔｍａｘ関数とＣｒｏｓｓＥｎｔｒｏｐｙ関数の組み合わせの出力はロス関数の出力の一例である。ただし、ロスはこの組み合わせに限定されるものではなく、サポートベクターマシンにおけるマージンの値や、線形識別関数の二乗誤差など、様々な識別器に対応する誤差の値が適用できる。

また、ステップＳ２２５０でロス算出部１０３０が求めるロスは、一般に識別器の学習で用いられるロスとは異なっていてもよい。例えば、ステップＳ２０１０の特徴分解器学習処理でロス算出部１０３０は特徴ベクトルの分布関数を求めておき、当該分布関数を考慮した識別精度の期待値を求めて、当該期待値をロスとしてもよい。

さらに、ロス算出部１０３０は、１枚の画像に対して複数のロスを求めることもできる。例えば、ロス算出部１０３０は、識別器にある人物の画像を入力したと仮定した場合に、本人を誤って他人と判定してしまう確率と、他人を誤って本人と判定してしまう確率をそれぞれ求めて、これらの確率それぞれをロスとすることもできる。

また、ロス算出部１０３０は、予め特徴ベクトルに与える摂動の方向を複数定義しておき、当該複数の方向それぞれに対してロスを求めてもよい。特徴空間上の方向は画像の意味に対応するため、例えば第一のベクトルは加齢、第二のベクトルはメガネの着脱、等というように方向ごとに意味が異なる特徴ベクトルを生成して学習に用いてもよい。

続いて、パラメータ更新部１０４０は、ステップＳ２２５０で算出したロスの値に基づき、特徴ベクトルに対する勾配を求める（Ｓ２２６０）。パラメータ更新部１０４０は、例えば、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋで一般的に用いられるバックプロパゲーションを使って勾配を求めることができるが、これに限定されない。

一般にはＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋではロスの値が小さくなるような勾配を求めて最適化が行われるが、ここでは逆に、パラメータ更新部１０４０はロスの値を大きくする勾配を求める。これにより、識別器２８０にとって識別しにくい、すなわち識別平面に近い画像を生成することができる。

パラメータ更新部１０４０は、ステップＳ２２６０で得られた勾配の値に基づき、特徴ベクトルに対して摂動を加える（Ｓ２２７０）。パラメータ更新部１０４０は、勾配の値に学習率を考慮した方向へ、特徴ベクトルを更新することで摂動を加える。

なお、前述したようにステップＳ２２５０のロス算出処理、ステップＳ２２６０の勾配算出処理、及びステップＳ２２７０の摂動付与処理は、属性を示す特徴ベクトル（識別対象以外の属性を示す特徴ベクトル）にのみ行われ、個人性を示す特徴ベクトル（識別対象の属性を示す特徴ベクトル）には行われないようにしてもよい。また、これらの処理が、個人性を示す特徴ベクトル（識別対象の属性を示す特徴ベクトル）には行われるようにしてもよいが、属性を示す特徴ベクトル（識別対象以外の属性を示す特徴ベクトル）と比較して、識別器２８０のロスが大きくならないように（付与される摂動が大きくならないように）することが望ましい。

学習判定部１０５０は、ステップＳ２２７０で更新された特徴ベクトルに対する摂動が十分収束したかどうかを判定する（Ｓ２２８０）。学習判定部１０５０は、勾配や摂動の量に応じて適応的に判定を行ってもよいし（例えば勾配や摂動の変化量が所定の関数が示す増加量を下回る、又は所定値を下回る等）、予め定められた回数のステップＳ２２７０の処理が行われたかを判定してもよいし。

学習判定部１０５０は、摂動が収束していないと判定した場合には（Ｓ２２８０：継続）、ステップＳ２２４０に戻る。学習判定部１０５０が、摂動が収束したと判定した場合には（Ｓ２２８０：収束）、パラメータ更新部１０４０は、ステップＳ２２４０で再構成された画像、又はステップＳ２２８０の後改めて再構成された画像を入力データとして、識別器の学習を行う（Ｓ２２９０）。パラメータ更新部１０４０は、識別器の種類に応じて適切な最適化を行うことで識別器の学習を行う。

例えば、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋが用いられている場合、パラメータ更新部１０４０は、ロスの値を算出してそれを最小化するようなバックプロパゲーションを行うことで学習を行う。また、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）が用いられている場合、パラメータ更新部１０４０は、識別平面と、その周囲のサポートベクターと呼ばれるデータと、のマージンを最大化するパラメータを探索することで学習を行う。線形識別関数が用いられている場合、パラメータ更新部１０４０は、識別関数とデータとで定義される二乗誤差を最小化することで学習を行う。

なお、図２の例ではステップＳ２２８０において摂動が収束した後にステップＳ２２９０へ進んでいるが、ステップＳ２２７０の処理の後にステップＳ２２９０の処理を実施して、摂動を与えつつ識別器の学習を同時に行うこともできる。

続いて、学習判定部１０５０は、識別器の学習が終了したかを判定する（Ｓ２３００）。学習判定部１０５０は、例えばステップＳ２２９０の処理を行った回数が所定以上であるか否か、ステップＳ２２９０における識別器のパラメータの更新量が所定値以下であるか等によって、識別器の学習が収束したかを判定する。

学習判定部１０５０は、識別器の学習が終了していないと判定した場合には（Ｓ２３００：継続）、ステップＳ２２２０に戻る。学習判定部１０５０は、識別器の学習が終了したと判定した場合には（Ｓ２３００：終了）、識別器学習処理を終了して、図２の処理が終了する。なお、ステップＳ２２８０における更新終了判定とステップＳ２３００の学習終了判定と、の実施順序が入れ替わってもよい。

以上により、識別器の学習が完了する。本実施例では、学習端末１０００は、特徴分解器学習処理において画像を特徴ベクトルへ分解するエンコーダ２１０を学習し、識別器学習処理において、特徴ベクトルに対して摂動を加えることで学習に寄与する画像を効率的に生成し、それを使って識別器２８０を学習する。これにより、非特許文献１に記載の技術のようにランダムに画像を生成して識別器を学習するよりも、効率的に識別器を学習し、現実的な計算量で高い精度を達成することができる。

なお、図２の処理で生成されたエンコーダ２１０、デコーダ２２０、及び識別器２８０は、学習端末１０００を構成する計算機６０００及び識別端末１１００を構成する計算機６０００それぞれのメモリ６０２０及び／又は補助記憶装置６０３０に格納されるとよい。

図３は、学習端末１０００による特徴分解器学習処理の詳細を示すフローチャートである。まず、エンコード部１０１０は特徴分解器の構成要素であるエンコーダ２１０を初期化し、デコード部１０２０は特徴分解器の構成要素であるデコーダ２２０のパラメータを初期化する（Ｓ３０１０）。エンコーダ２１０とデコーダ２２０がＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋで構成される場合は、エンコード部１０１０及びデコード部１０２０は各層のパラメータに乱数を代入することでエンコーダ２１０及びデコーダ２２０を初期化することができる。また、予め別のデータで学習したパラメータが初期値として用いられることもできる。

エンコード部１０１０は、特徴分解器学習データ格納部１０９０に格納されている特徴分解器学習データ２００から学習データを抽出する（Ｓ３０２０）。Ｄｅｅｐｌｅａｒｎｉｎｇが用いられる場合、エンコード部１０１０はｍｉｎｉ－ｂａｔｃｈと呼ばれる学習データのサブセットを抽出する。

エンコード部１０１０は、エンコーダ２１０を用いて、学習データに含まれる画像を単一又は複数の特徴ベクトルに変換する（Ｓ３０３０）。デコード部１０２０は、デコーダ２２０を用いて、ステップＳ３０３０で変換された特徴ベクトルから画像を再構成する（Ｓ３０４０）。

ロス算出部１０３０は、ステップＳ３０４０で再構成された画像及びステップＳ３０３０で得られた特徴ベクトルに基づき、ロスを算出する（Ｓ３０５０）。ロス算出部１０３０は、例えば、エンコード前とデコード後の画像の誤差や、特徴ベクトルを使った画像分類の誤差や、特徴ベクトル間の相関などを用いて、ロスを算出する。

具体的には、例えば、ロス算出部１０３０は、第一の特徴ベクトルの画像分類誤差と第二の特徴ベクトルの画像分類誤差をロスに含めて、第一の特徴ベクトルの画像分類誤差を最小化して、第二の特徴ベクトルの画像分類誤差を最大化する場合は、第一の特徴ベクトルのみに個人性が含まれ、第二の特徴ベクトルに属性が含まれるようになる。

続いて、パラメータ更新部１０４０は、ロスが小さくなるようなパラメータの勾配を求めて、当該勾配に基づきパラメータを更新する（Ｓ３０６０）。学習判定部１０５０は、ステップＳ３０５０で算出されたロスやステップＳ３０６０におけるパラメータの更新量などに基づき、特徴分解器の学習が収束したかを判定する（Ｓ３０７０）。

学習判定部１０５０は、特徴分解器の学習が収束していないと判定した場合は（Ｓ３０７０：継続）、ステップＳ３０２０に戻る。学習判定部１０５０は、特徴分解器の学習が収束した場合は、特徴分解器学習処理を完了する。以上により、画像を特徴ベクトルに分解するエンコーダ２１０と、特徴ベクトルから画像を再構成するデコーダ２２０と、が得られる。

図４は、特徴分解器学習データ格納部１０９０及び識別器学習データ格納部１０９１に格納されている学習データのデータ構造の一例である。学習データ４００は、学習画像４１０、ラベル４２０を含む。

学習画像４１０は、識別器２８０が識別する画像と同じ種類の画像を含んでおり、例えば識別器２８０に顔画像が入力されて、当該顔画像が誰の顔かを識別器２８０が識別するのであれば、様々な人の顔写真を含むとよい。また、例えば、識別器２８０に一般画像認識を行わせたいのであれば、学習画像４１０は、犬や猫、道路、標識等の識別対象の様々な画像を含むとよい。

ラベル４２０は、学習画像４１０に対する正解値であり、例えば識別器２８０が顔認証を行う場合には顔画像に対応する人を識別するＩＤである。また、例えば、識別器２８０が一般画像認識を行う場合には、ラベル４２０は、画像それぞれのクラスに割り当てられたＩＤである。

図５は、識別端末１１００による識別処理の一例を示すフローチャートである。識別端末１１００は、学習済みの識別器２８０を用いて登録処理（Ｓ５１１０～Ｓ５１３０）と識別処理（Ｓ５１４０～Ｓ５１７０）を行う。

図５では、例えば顔認証のように、識別端末１１００が事前に登録処理を行った後に、識別処理において入力画像が登録データのどれに該当するかを識別する手順を示すが、例えば道路標識の認識のように、予め決められたクラスのどれに該当するかを識別する問題を識別端末１１００が解決する場合であれば、登録処理（Ｓ５１１０～Ｓ５１３０）及び認証データ生成処理（Ｓ５１５０）は不要となり、識別端末１１００は、ステップＳ５１６０において画像を識別器２８０へ直接入力すれば識別を行うことができる。

識別端末１１００は、まず登録処理を行う。データ取得部１１１０は登録対象の画像を取得し（Ｓ５１１０）、データ生成部１１２０は取得した画像を識別器２８０へ入力することで、登録データを生成する（Ｓ５１２０）。識別器２８０が、登録対象の画像を特徴ベクトルへ変換することにより、登録データ５１０が生成される。データ生成部１１２０は、ステップＳ５１２０で生成した登録データ５１０を、登録データ格納部１１９０へ格納する（Ｓ５１３０）。

以上により、登録処理が完了する。学習端末１０００及び識別端末１１００が例えば顔認証システムに適用される場合、登録処理は識別端末１１００が登録者から顔画像を取得して、取得した顔画像を特徴ベクトルへ変換して登録する処理に相当する。

次に、識別端末１１００は識別処理を行う。データ取得部１１１０は、識別対象の画像を取得し（Ｓ５１４０）、データ生成部１１２０は識別対象の画像を識別器２８０に入力することで、認証データを生成する（Ｓ５１５０）。

データ照合部１１３０は、ステップＳ５１５０で生成された認証データと、ステップＳ５１３０で生成された登録データ５１０と、を照合することで、識別結果を得る（Ｓ５１６０）。データ照合部１１３０は、例えば、登録データ５１０と認証データの特徴ベクトル間の距離又は類似度を算出することでステップＳ５１３０の照合処理を実施することできるが、それに限定されず、登録データ５１０と認証データの間の類似性を評価するあらゆる手法が適用可能である。

また、識別端末１１００は、予め定められたクラスの識別を行う場合には、識別器２８０から直接識別結果としてクラスを出力することができるため、登録データ５１０を使って照合をせずに識別器２８０の出力を直接識別結果とすることもできる。

結果出力部１１４０は、ステップＳ５１６０で得られた識別結果を出力する（Ｓ５１７０）。例えば、学習端末１０００及び識別端末１１００が顔認証システムに適用される場合であれば、結果出力部１１４０は、認証されたユーザを示すＩＤ及び氏名などの情報を出力する。また、例えば、学習端末１０００及び識別端末１１００が道路標識のような画像認識システムに適用される場合であれば、結果出力部１１４０は、画像が示す標識の種別を出力する。以上により、識別端末１１００による登録処理と識別処理が完了する。

本実施例の学習端末１０００は、実施例１における特徴分解器学習処理と識別器学習処理とを分けて行わず、同時に行うものである。実施例１の学習端末１０００は、まず特徴分解器学習処理でエンコーダ２１０とデコーダ２２０を生成して、エンコーダ２１０及びデコーダ２２０を用いて識別器学習処理を行うことにより、識別精度の高い識別器２８０を生成することができる。

一方、学習端末１０００が、特徴分解器学習データ２００と識別器学習データ２５０として同じデータを用いる場合は、分解器学習処理と識別器学習処理とに重複する処理があるため、これらの処理における学習を同時に行うことで、処理を効率化することができる（計算量を低下させることができる）。以下、実施例１との相違点（図２との相違点）を説明し、実施例１と同様の構成及び処理については説明を省略する。

図７は、本実施例における特徴分解器学習処理と識別器学習処理の一例を示すフローチャートである。図７の手順では、図２の特徴分解器学習処理（Ｓ２０１０）は事前に行わない。まず、パラメータ更新部１０４０は、識別器２８０のパラメータだけではなく、エンコーダ２１０、及びデコーダ２２０のパラメータも初期化して、学習の準備をする（Ｓ７２１０）。

学習判定部１０５０が、摂動が収束したと判定した場合には（Ｓ２２８０：収束）、パラメータ更新部１０４０は、ステップＳ２２９０と同様に識別器２８０の最適化を行うが、識別器２８０に加えてエンコーダ２１０及びデコーダ２２０についても最適化を行う（Ｓ７２９０）。

これにより、学習端末１０００は、識別器２８０と特徴分解器を同時に学習し、効率的に高精度な識別器２８０を生成することができる。ただし、図７の処理では、学習の序盤は、エンコーダ２１０及びデコーダ２２０が初期パラメータであり、入力画像がエンコーダ２１０に入力された出力された特徴ベクトルをデコーダ２２０に入力しても当該入力画像に近い画像が出力されないため、識別器２８０の学習を行っても意味のある学習が行えないおそれもある。

このため、学習端末１０００は、学習の序盤（例えば、ロスがある程度収束するまで（例えば、ステップＳ３０７０における収束判定条件よりも緩い収束判定条件を用いて判定するとよい））は、実施例１ように特徴分解器のみを学習して識別器２８０に対するフィードバックを行わずに、デコーダ２２０で意味のある画像が出力されるようになってきてから、識別器２８０に対する学習に用いることで、さらに無駄な処理を省略することができる。

また、識別器２８０が特徴ベクトルを出力してその距離に応じて識別を行うタイプの識別器である場合は、エンコーダ２１０と識別器２８０は同じ挙動をするため共通化することができる。この場合、ステップＳ２２３０でエンコード部１０１０がエンコードする際に識別器２８０を使って特徴ベクトルを生成する。なお、この場合、ステップＳ２２４０のデコード部１０２０によるデコーダ２２０を用いた画像を再構成処理、ロス算出部１０３０はエンコーダ２１０から出力された特徴ベクトルを識別器２８０の出力とみなしてステップＳ２２５０におけるロス算出処理を実行することができる。

以上により、本実施例の学習端末１０００は、特徴分解器と識別器２８０とを同時に学習することで、少ない計算量で学習を行うことができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

２００特徴分解器学習データ、２１０エンコーダ、２２０デコーダ、２５０識別器学習データ、２６０特徴ベクトル、２８０識別器、１０００学習端末、１０１０エンコード部、１０２０デコード部、１０３０ロス算出部、１０４０パラメータ更新部、１０５０学習判定部、１０９０特徴分解器学習データ格納部、１０９１識別器学習データ格納部、１０９２特徴分解器パラメータ格納部、１０９３識別器パラメータ格納部、１１００識別端末、１１１０データ取得部、１１２０データ生成部、１１３０データ照合部、１１４０結果出力部１１４０、１１９０登録データ格納部、６０００計算機、６０１０ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、６０２０メモリ、６０３０補助記憶装置、６０４０入力装置、６０５０出力装置、６０６０通信装置

Claims

識別器を学習する識別器学習装置であって、
プロセッサとメモリとを有し、
前記メモリは、前記識別器と、学習対象データと、前記学習対象データのラベルと、を保持し、
前記プロセッサは、
前記学習対象データを、前記識別器による識別対象の属性を示す第１特徴ベクトルと、前記識別器による識別対象の属性とは異なる属性を示す第２特徴ベクトルと、を含む複数の特徴ベクトルへ変換し、
前記学習対象データを前記識別器に入力して前記識別器からの出力を算出し、
前記第１特徴ベクトル、又は前記出力と前記ラベルとに基づいて第１摂動を加えた前記第１特徴ベクトル、のいずれかと、
前記出力と前記ラベルとに基づいて第２摂動を加えた前記第２特徴ベクトルと、を用いて前記識別器を学習し、
前記第１摂動は前記第２摂動より小さい、識別器学習装置。
請求項１に記載の識別器学習装置であって、
前記プロセッサは、
前記出力と前記ラベルとに基づいて、前記識別器の誤差を算出し、
前記第２特徴ベクトルに加える前記第２摂動を前記誤差が大きくなるように決定する、識別器学習装置。
請求項１に記載の識別器学習装置であって、
前記プロセッサは、
前記出力と前記ラベルとに基づいて、前記複数の特徴ベクトルそれぞれに異なる摂動を加え、
前記摂動を加えた前記複数の特徴ベクトルを用いて前記識別器を学習する、識別器学習装置。
請求項１に記載の識別器学習装置であって、
前記プロセッサは、
前記識別器を用いて、前記複数の特徴ベクトルからデータを再構成し、
前記再構成したデータを前記識別器に入力して得られる出力に基づいて、前記第２特徴ベクトルに加える前記第２摂動を決定する、識別器学習装置。
請求項１に記載の識別器学習装置であって、
前記メモリは、前記学習対象データを前記複数の特徴ベクトルに変換するエンコーダを保持し、
前記プロセッサは、
前記学習対象データを、前記エンコーダに入力して前記複数の特徴ベクトルを生成し、
前記複数の特徴ベクトルからデータを再構成し、
前記再構成したデータと、前記ラベルと、に基づいて、前記エンコーダを学習する、識別器学習装置。
請求項１に記載の識別器学習装置であって、
前記プロセッサは、前記学習対象データを、前記識別器に入力して前記複数の特徴ベクトルを生成する、識別器学習装置。
請求項１に記載の識別器学習装置であって、
前記メモリは、前記学習対象データを前記複数の特徴ベクトルに変換するエンコーダを保持し、
前記プロセッサは、前記出力と前記ラベルと、に基づいて、前記エンコーダを学習する、識別器学習装置。
請求項１に記載の識別器学習装置であって、
前記識別器は、個体を示すデータが入力されると、個体の識別結果を出力し、
前記第１特徴ベクトルは、個体を識別するための個体性を示し、
前記第２特徴ベクトルは、前記個体性とは異なる属性を示す、識別器学習装置。
識別器を学習する識別器学習装置による識別器学習方法であって、
前記識別器学習装置は、プロセッサとメモリとを有し、
前記メモリは、前記識別器と、学習対象データと、前記学習対象データのラベルと、を保持し、
前記識別器学習方法は、
前記プロセッサが、前記学習対象データを、前記識別器による識別対象の属性を示す第１特徴ベクトルと、前記識別器による識別対象の属性とは異なる属性を示す第２特徴ベクトルと、を含む複数の特徴ベクトルへ変換し、
前記プロセッサが、前記学習対象データを前記識別器に入力して前記識別器からの出力を算出し、
前記プロセッサが、
前記第１特徴ベクトル、又は前記出力と前記ラベルとに基づいて第１摂動を加えた前記第１特徴ベクトル、のいずれかと、
前記出力と前記ラベルとに基づいて第２摂動を加えた前記第２特徴ベクトルと、を用いて前記識別器を学習し、
前記第１摂動は前記第２摂動より小さい、識別器学習方法。