JP6763408B2 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP6763408B2
JP6763408B2 JP2017562814A JP2017562814A JP6763408B2 JP 6763408 B2 JP6763408 B2 JP 6763408B2 JP 2017562814 A JP2017562814 A JP 2017562814A JP 2017562814 A JP2017562814 A JP 2017562814A JP 6763408 B2 JP6763408 B2 JP 6763408B2
Authority
JP
Japan
Prior art keywords
pattern
preprocessing
neural network
variation
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017562814A
Other languages
English (en)
Other versions
JPWO2017126482A1 (ja
Inventor
雅人 石井
雅人 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2017126482A1 publication Critical patent/JPWO2017126482A1/ja
Application granted granted Critical
Publication of JP6763408B2 publication Critical patent/JP6763408B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置、情報処理方法、及び、記録媒体に関し、特にニューラルネットワークを学習する情報処理装置、情報処理方法、及び、記録媒体に関する。
パターン認識技術とは、入力されたパターンがどのクラスに属するパターンであるかを推定する技術である。具体的なパターン認識の例としては、入力された画像に写っている物体を推定する物体認識や、入力された音声の発話内容を推定する音声認識などが挙げられる。
パターン認識技術としては、統計的機械学習が広く利用されている。統計的機械学習の内、特にニューラルネットワークは、近年、ディープラーニング(deep learning)と呼ばれる学習技術の発達により、認識に無関係なパターン変動に頑健な(ロバストな)認識を行うことができる学習方法として知られている。
ニューラルネットワークを用いたパターン認識では、認識に無関係なパターン変動に対してロバストな認識を行うことができる一方で、認識に有用な微小なパターン変動(微小な特徴の違い)を捉えた認識を行うことが難しい。例えば、顔画像から個人の識別を行う顔認証では、個人の識別に有用な特徴の違い(個人間の目や鼻の位置や形の違い)よりも、個人の識別に無関係なパターン変動(画像の位置ずれや、表情変動による顔の位置や形の違い)の方が大きい。このため、認識に無関係なパターン変動にロバストなニューラルネットワークを学習すると、個人の識別に有用な特徴の違いを捉えることが困難になる。
このような認識に無関係なパターン変動を、画像の位置変動(位置ずれ)を例に説明する。一般的に、ニューラルネットワークでは、位置変動に対するロバスト性を向上させるために、例えば、特許文献1に開示されているような、プーリング(pooling)層が導入される。プーリング層は、局所領域毎に、画素値の値を統合し、出力する、プーリングを行う。図5は、プーリング層によるプーリングの例を示す図である。図5において、矩形は画素、矩形内の数字は画素値を表す。図5の例では、プーリングとして、最大値プーリングが行われている。最大値プーリングでは、局所領域(図5では2×2画素の領域)の画素値の最大値が、プーリング後の画素値として出力される。プーリングにより、局所領域のサイズ以下の位置ずれに対して、ほぼ同じ画素値が出力される。したがって、プーリング層を含むニューラルネットワークを学習することにより、位置ずれに対してロバストな認識を行うことができる。
図6は、顔認識に対するプーリングの例を示す図である。図6における2つの画像は、異なる人物の顔画像である。これらの顔画像では、局所的な領域における微小な特徴は異なるため、これら微小な特徴の違いを捉えることで、2つの画像の人物を見分けることができる。しかしながら、プーリング層を用いた場合、これら微小な特徴の違いは失われ、それぞれの顔画像に対して、同じ画素値が出力される。このため、位置ずれに対してロバストな認識を行うことはできるものの、微小な特徴の違いを捉えた認識を行うことができない。
特開2015−158582号公報
上述のように、特許文献1に開示されているようなロバスト性を有するニューラルネットワークでは、認識に有用な微小なパターン変動を捉えることが難しいという課題があった。本発明の目的は、上述の課題を解決し、認識に無関係なパターン変動に対するロバスト性を保ちつつ、認識に有用な微小なパターン変動を捉えたニューラルネットワークを学習できる、情報処理装置、情報処理方法、及び、記録媒体を提供することである。
本発明の一態様における情報処理装置は、特定のパターン変動を含む、学習対象のパターン集合に対して、処理後の前記特定のパターン変動の大きさが異なるような複数の前処理を行う前処理手段と、前記複数の前処理の各々について、当該前処理後の前記特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワークのネットワーク構造を決定するネットワーク構造決定手段と、前記複数の前処理の各々について、当該前処理後のパターン集合を用いて、当該前処理に対応するネットワーク構造のニューラルネットワークを学習するネットワーク学習手段と、を備える。
本発明の一態様における情報処理方法は、特定のパターン変動を含む、学習対象のパターン集合に対して、処理後の前記特定のパターン変動の大きさが異なるような複数の前処理を行い、前記複数の前処理の各々について、当該前処理後の前記特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワークのネットワーク構造を決定し、前記複数の前処理の各々について、当該前処理後のパターン集合を用いて、当該前処理に対応するネットワーク構造のニューラルネットワークを学習する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、特定のパターン変動を含む、学習対象のパターン集合に対して、処理後の前記特定のパターン変動の大きさが異なるような複数の前処理を行い、前記複数の前処理の各々について、当該前処理後の前記特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワークのネットワーク構造を決定し、前記複数の前処理の各々について、当該前処理後のパターン集合を用いて、当該前処理に対応するネットワーク構造のニューラルネットワークを学習する、処理を実行させるプログラムを格納する。
本発明の効果は、認識に無関係なパターン変動に対するロバスト性を保ちつつ、認識に有用な微小なパターン変動を捉えたニューラルネットワークを学習できることである。
本発明の第1の実施形態の特徴的な構成を示すブロック図である。 本発明の第1の実施形態における、学習装置100の構成を示すブロック図である。 本発明の第1の実施の形態における、コンピュータにより実現された学習装置100の構成を示すブロック図である。 本発明の第1の実施の形態における、学習装置100の学習処理を示すフローチャートである。 プーリング層によるプーリングの例を示す図である。 顔認識に対するプーリングの例を示す図である。 本発明の第1の実施の形態における、ロバスト性制御部130の処理を示す図である。 本発明の第1の実施の形態における、特定のパターン変動の大きさに応じた、ニューラルネットワーク220のネットワーク構造210の違いを示す図である。 本発明の第1の実施の形態における、統合ニューラルネットワーク230の例を示す図である。 本発明の第2の実施の形態における、学習装置100の構成を示すブロック図である。 本発明の第2の実施の形態における、学習装置100の認識処理を示すフローチャートである。
発明を実施するための形態について図面を参照して詳細に説明する。なお、各図面、及び、明細書記載の各実施形態において、同様の構成要素には同一の符号を付与し、説明を適宜省略する。
また、図面中の一方向性の矢印は、データの流れの方向を端的に示したもので、双方向性を排除するものではない。
(第1の実施の形態)
はじめに、本発明の第1の実施形態における学習装置100の構成を説明する。
図2は、本発明の第1の実施形態における、学習装置100の構成を示すブロック図である。学習装置100は、本発明の情報処理装置の一実施形態である。
図2を参照すると、学習装置100は、学習パターン記憶部110、前処理部120、ロバスト性制御部130、ネットワーク学習部140、ネットワーク統合部150、及び、ネットワーク記憶部160を含む。
学習パターン記憶部110は、入力された学習対象のパターン201の集合(以下、パターン集合とも記載)を記憶する。パターン201の集合は、画像や音声等、パターン認識における学習対象のパターンの集合である。各パターン201には、例えば、当該パターンに係る認識対象の識別子が付与される。パターン201の集合に含まれるパターン201間では、認識に関係するパターン変動に加えて、認識に無関係なパターン変動が存在する。ここで、パターン変動とは、パターン201間の差異(違い)である。
認識に関係するパターン変動(以下、第1のパターン変動とも記載する)とは、例えば、個人間の顔の特徴や音声の特徴により生じるパターン変動等、認識対象の違いにより生じる(認識対象の違いに依存した)パターン変動である。認識に関係するパターン変動は、認識に有用な微小なパターン変動でもよい。ニューラルネットワークを用いたパターン認識では、学習対象のパターンの集合を用いて、認識に関係するパターン変動が識別できるように、ニューラルネットワークが学習される必要がある。
認識に無関係なパターン変動(以下、第2のパターン変動とも記載する)は、例えば、画像の位置ずれ、輝度変化(照明条件の変化)等、認識対象の違い以外の要因により生じる(認識対象の違いに依存しない)パターン変動である。以下、認識に無関係なパターン変動を、特定のパターン変動とも記載する。
前処理部120は、学習対象のパターン201の各々に対して、特定のパターン変動を低減するための、所定の複数種類(n種類(nは2以上の整数))の前処理を行う。複数種類の前処理による、特定のパターン変動の低減効果は、互いに異なる。すなわち、複数種類の前処理による処理後のパターン202(202_1、…、202_n)の集合における、特定のパターン変動の大きさは、互いに異なる。
ロバスト性制御部130は、変動推定部131、及び、ネットワーク構造決定部132を含む。変動推定部131は、複数種類の前処理の各々について、当該前処理後のパターン202の集合における特定のパターン変動の大きさを推定する。ネットワーク構造決定部132は、複数種類の前処理の各々について、当該前処理後のパターン202の集合における特定のパターン変動の大きさに応じたロバスト性を持つネットワーク構造210(210_1、…、210_n)を決定する。
ネットワーク学習部140は、複数種類の前処理の各々について、当該前処理後のパターン202の集合を用いて、当該前処理に対応するネットワーク構造210のニューラルネットワーク220(220_1、…、220_n)を学習する。
ネットワーク統合部150は、複数種類の前処理について学習したニューラルネットワーク220を統合する。
ネットワーク記憶部160は、統合されたニューラルネットワーク(以下、統合ニューラルネットワーク230とも記載)を記憶する。
なお、学習装置100は、CPU(Central Processing Unit)とプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。
図3は、本発明の第1の実施の形態における、コンピュータにより実現された学習装置100の構成を示すブロック図である。
この場合、学習装置100は、CPU101、ハードディスクやメモリ等の記憶デバイス102(記憶媒体)、キーボード、ディスプレイ等の入出力デバイス103、及び、他の装置等と通信を行う通信デバイス104を含む。CPU101は、前処理部120、ロバスト性制御部130、ネットワーク学習部140、及び、ネットワーク統合部150を実現するためのプログラムを実行する。記憶デバイス102は、学習パターン記憶部110、及び、ネットワーク記憶部160のデータを記憶する。入出力デバイス103は、ユーザからの学習対象のパターン201の集合の入力、及び、ユーザへの統合ニューラルネットワーク230の出力を行ってもよい。また、通信デバイス104が、他の装置等から学習対象のパターン201の集合を受信する、或いは、他の装置等へ統合ニューラルネットワーク230を送信してもよい。
また、図2における学習装置100の各構成要素の一部または全部は、汎用または専用の回路(circuitry)やプロセッサ、これらの組み合わせによって実現されてもよい。これらの回路やプロセッサは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。また、学習装置100の各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
各構成要素の一部または全部が、複数の情報処理装置や回路等により実現される場合、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本発明の第1の実施の形態における学習装置100の動作を説明する。図4は、本発明の第1の実施の形態における、学習装置100の学習処理を示すフローチャートである。
ここでは、学習対象のパターン201が顔画像であり、認識に無関係なパターン変動(特定のパターン変動)が、位置ずれに起因する変動である場合を例に動作を説明する。学習するニューラルネットワーク220のタスクは、顔画像を入力とし、個人のID(Identifier)毎に、顔画像が当該個人である確率(当該IDの本人確率)を出力することである。
学習パターン記憶部110には、学習対象のパターン201の集合が予め、ユーザや他の装置等から入力され、記憶されていると仮定する。
はじめに、前処理部120は、学習パターン記憶部110から学習対象のパターン201の集合を読み出す(ステップS101)。
次に、前処理部120は、読み出した各パターン201について、複数種類(n種類)の前処理を行う(ステップS102)。前処理部120は、各前処理についての前処理後のパターン202(202_1、…、202_n)の集合を、ロバスト性制御部130とネットワーク学習部140に出力する。
ここで、前処理部120は、前処理として、例えば、顔画像における顔特徴点を用いた位置合わせを行う。前処理部120は、例えば、顔の平均的なモデルにおける所定の特徴点(例えば、目や口、鼻等)の位置(平均位置)に、所定の画像変換を用いて、各パターン201の対応する特徴点を合わせる(移動させる)ことにより、位置合わせを行う。この場合、位置合わせに用いる特徴点の数が多いほど、また、位置合わせに用いる画像変換の自由度が高いほど、位置合わせが精緻に行われるため、前処理後のパターン202の位置ずれ量はより小さくなる。前処理部120は、複数種類の前処理として、特徴点の数や画像変換の自由度が異なる前処理を行う。
次に、ロバスト性制御部130の変動推定部131は、複数種類の前処理の各々について、前処理後のパターン202(202_1、…、202_n)の集合における特定のパターン変動の大きさを推定する(ステップS103)。
図7は、本発明の第1の実施の形態における、ロバスト性制御部130の処理を示す図である。
ここで、変動推定部131は、特定のパターン変動の大きさとして、前処理後のパターン202の位置ずれ量の大きさを算出する。位置ずれ量の大きさは、位置合わせ後の各特徴点の位置の標準偏差の、全特徴点についての平均により推定できる。特徴点の数をM(Mは1以上の整数)、学習対象のパターンの数をN(Nは1以上の整数)、位置合わせ後の特徴点の位置をpij(i=1,…,M、j=1,…,N)とすると、位置合わせ後の顔特徴点の位置の標準偏差の平均は、数1式により算出される。
Figure 0006763408
数1式において、ave(pi)はi番目の特徴点の平均位置である。また、pij、ave(pi)は、例えば、2次元座標で表される。この場合、||pij−ave(pi)||は、2次元座標pij、ave(pi)間の距離である。2次元座標としては、例えば、画素の位置が用いられる。
次に、ネットワーク構造決定部132は、複数種類の前処理の各々について、推定した特定のパターン変動の大きさに応じたロバスト性を持つネットワーク構造210(210_1、…、210_n)を決定する(ステップS104)。ネットワーク構造決定部132は、決定したネットワーク構造210をネットワーク学習部140に出力する。
ここで、ネットワーク構造決定部132は、図7に示すように、ニューラルネットワーク220の位置ずれに対するロバスト性を、プーリング層の層数により調整する。プーリング層におけるプーリングとしては、例えば、図5に示したような最大値プーリングを、画像全体に対して、均一に適用する。プーリングにおける局所領域の一辺のサイズをsとすると、パターンにs画素以内の位置ずれがあっても、ほぼ同じ画素値が、プーリングの結果として出力される。このようなプーリング層をk層導入することで、s^k(sのk乗)画素以内の位置ずれにロバストなネットワークを構成できる。一般的に、サイズsとして、図5に示したように、s=2が用いられる。ネットワーク構造決定部132は、特定のパターン変動の大きさ(位置ずれ量の大きさ)の推定値rを用いて、数2式により、プーリング層の数kを決定する。
Figure 0006763408
ネットワーク構造決定部132は、さらに、決定した数kのプーリング層の配置位置を決定する。ネットワーク構造決定部132は、例えば、図7に示すように、入力層に近い方から、中間層(畳み込み層)とプーリング層との組がk回並ぶように、プーリング層を配置し、さらに、それらの組と出力層との間に、中間層(全結合層)を配置する。
なお、ネットワーク構造決定部132は、図7の配置位置に限らず、決定した数kのプーリング層が配置できれば、他の位置にプーリング層や中間層を配置してもよい。
図8は、本発明の第1の実施の形態における、特定のパターン変動の大きさに応じた、ニューラルネットワーク220のネットワーク構造210の違いを示す図である。
ステップS104の処理により、図8に示すように、推定した位置ずれ量が大きい前処理に対しては、位置ずれに対するロバスト性が高くなるように、プーリング層を多数配置したネットワーク構造210が生成される。逆に、推定した位置ずれ量が小さい前処理に対しては、位置ずれに対するロバスト性が低くてもよいため、プーリング層を少数配置したネットワーク構造210が生成される。
なお、本発明の第1の実施の形態では、プーリングとして、最大値プーリングを用いたが、これに限らず、プーリングとして、一般に用いられる他のプーリング(平均値プーリング、Lpプーリング等)が用いられてもよい。最大値プーリングは非線形な処理を行うため、プーリング層の層数に応じて学習の傾向が大きく変化する。したがって、プーリングとして最大値プーリングを用いた方が、他のプーリングを用いた場合に比べて、統合ニューラルネットワーク230における認識性能が向上しやすい。
また、本発明の第1の実施の形態では、画像全体で均一なプーリングを行ったが、推定される特定のパターン変動の大きさが画像全体で不均一な場合、画像上の位置によって、サイズが異なるプーリングを行ってもよい。この場合、例えば、特定のパターン変動の大きさが大きい位置については、局所領域の一辺のサイズsが、特定のパターン変動の大きさが小さい位置よりも大きくなるように決定される。
次に、ネットワーク学習部140は、複数種類の前処理の各々について、ロバスト性制御部130から入力されたネットワーク構造210のニューラルネットワーク220(220_1、…、220_n)を学習する(ステップS105)。ここで、ネットワーク学習部140は、前処理部120から入力された前処理後のパターン202の集合を用いて、当該前処理に対応するネットワーク構造210のニューラルネットワーク220を学習する。ネットワーク学習部140は、例えば、一般的なニューラルネットワークの学習手法である、誤差逆伝播法を用いて、ニューラルネットワーク220を学習する。ネットワーク学習部140は、学習したニューラルネットワーク220をネットワーク統合部150に出力する。
次に、ネットワーク統合部150は、ネットワーク学習部140から入力された、複数種類の前処理についてのニューラルネットワーク220(220_1、…、220_n)を統合する(ステップS106)。ここで、ネットワーク統合部150は、各前処理に対応するニューラルネットワーク220による認識結果を統合した認識結果が出力されるように、ニューラルネットワーク220を統合する。ネットワーク統合部150は、統合により得られた統合ニューラルネットワーク230を、ネットワーク記憶部160に保存する。なお、ネットワーク統合部150は、統合ニューラルネットワーク230を、ユーザや他の装置等に出力してもよい。
図9は、本発明の第1の実施の形態における、統合ニューラルネットワーク230の例を示す図である。
例えば、ネットワーク統合部150は、図9に示すように、ニューラルネットワーク220_1、…、220_nと、これらから得られる本人確率の平均値を算出する平均値算出処理を、統合ニューラルネットワーク230として生成する。
以上により、本発明の第1の実施の形態の動作が完了する。
なお、本発明の第1の実施の形態では、認識に無関係なパターン変動(特定のパターン変動)が位置ずれに起因する変動である場合を例に説明した。しかしながら、これに限らず、認識に無関係なパターン変動が、位置ずれ以外の他の要因に起因する変動でもよい。
例えば、認識に無関係なパターン変動(特定のパターン変動)が、画像の輝度変化(照明条件の変化)に起因する変動でもよい。この場合、前処理部120は、特定のパターン変動を低減するための複数種類の前処理として、例えば、異なる方法で、輝度の正規化(画像の明るさを合わせる処理)を行う。変動推定部131は、前処理後のパターン202の集合における、特定のパターン変動の大きさとして、前処理後の輝度のずれの大きさを推定する。ネットワーク構造決定部132は、輝度のずれに対するニューラルネットワーク220のロバスト性を、局所領域の隠れ値正規化層(LRN(Local Response Normalization)層)の層数により調整する。
さらに、認識に無関係なパターン変動(特定のパターン変動)が、位置ずれと輝度変化の両方に起因する変動でもよい。この場合、プーリング層とLRN層の両方の層数を調整することで、位置ずれと輝度変化の両方に対するロバスト性を同時に制御できる。
また、本発明の第1の実施の形態では、変動推定部131が、前処理後のパターン202の集合における特定のパターン変動の大きさを推定した。しかしながら、これに限らず、前処理部120が当該前処理後のパターン202の集合における特定のパターン変動の大きさを指定できる場合は、変動推定部131は省略されてもよい。この場合、ネットワーク構造決定部132は、前処理部120により指定された特定のパターン変動の大きさに応じて、ネットワーク構造210を決定する。
また、本発明の第1の実施の形態では、学習対象のパターン201が画像のパターンである場合を例に説明した。しかしながら、これに限らず、学習対象のパターン201に対してニューラルネットワークを学習できれば、パターン201は音声のパターンでもよい。
次に、本発明の第1の実施の形態の特徴的な構成を説明する。
図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。図1を参照すると、学習装置100(情報処理装置)は、前処理部120(前処理手段)、ネットワーク構造決定部132(ネットワーク構造決定手段)、及び、ネットワーク学習部140(ネットワーク学習手段)を含む。
前処理部120は、特定のパターン変動を含む、学習対象のパターン201の集合に対して、処理後の特定のパターン変動の大きさが異なるような複数の前処理を行う。ネットワーク構造決定部132は、複数の前処理の各々について、当該前処理後の特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワーク220のネットワーク構造210を決定する。ネットワーク学習部140は、複数の前処理の各々について、当該前処理後のパターン202の集合を用いて、当該前処理に対応するネットワーク構造210のニューラルネットワーク220を学習する。
次に、本発明の第1の実施の形態の効果を説明する。
本発明の第1の実施の形態によれば、認識に無関係なパターン変動に対するロバスト性を保ちつつ、認識に有用な微小なパターン変動を捉えたニューラルネットワークを学習できる。その理由は、学習装置100が、特定のパターン変動を含むパターン201の集合に複数の前処理を行い、各前処理について、当該前処理後の特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワーク220を学習するためである。これにより、認識に無関係な特定のパターン変動が大きい前処理に対しては、当該特定のパターン変動に対するロバスト性の高いニューラルネットワーク220が学習され、特定のパターン変動に頑健な認識が行われる。一方、特定のパターン変動が小さい前処理に対しては、当該特定のパターン変動に対するロバスト性が低いニューラルネットワーク220が学習され、認識に有用な微小なパターン変動を捉えた認識が行われる。このように、学習された複数のニューラルネットワーク220は、互いに認識の傾向が大きく異なるため、一般にアンサンブル学習として知られているように、これらを統合することによって、認識の性能を大きく向上することができる。すなわち、学習された複数のニューラルネットワーク220を統合することにより、認識に無関係なパターン変動に対するロバスト性を保ちつつ、認識に有用な微小なパターン変動を捉えた統合ニューラルネットワーク230を得ることができる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
本発明の第2の実施の形態においては、統合ニューラルネットワーク230を用いて、認識対象のパターン251に対するパターン認識を行う。
はじめに、本発明の第2の実施における学習装置100の構成を説明する。
図10は、本発明の第2の実施の形態における、学習装置100の構成を示すブロック図である。本発明の第2の実施の形態の学習装置100は、本発明の第1の実施の形態の学習装置100の構成要素(図2)に加えて、認識対象パターン記憶部170、及び、認識部180を含む。
認識対象パターン記憶部170は、認識対象のパターン251を記憶する。認識部180は、統合ニューラルネットワーク230を用いて、認識対象のパターン251に対するパターン認識を行う。
次に、本発明の第2の実施の形態における学習装置100の動作を説明する。
図11は、本発明の第2の実施の形態における、学習装置100の認識処理を示すフローチャートである。認識処理は、上述の学習処理(ステップS101〜S106)により、統合ニューラルネットワーク230が生成された後に行われる。
ここでは、図9のような統合ニューラルネットワーク230が、ネットワーク記憶部160に保存されていると仮定する。
はじめに、前処理部120は、認識対象パターン記憶部170から認識対象のパターン251を読み出す(ステップS201)。
次に、前処理部120は、読み出したパターン251について、複数種類(n種類)の前処理を行う(ステップS202)。前処理部120は、各前処理についての前処理後のパターン252(252_1、…、252_n)を認識部180に出力する。
認識部180は、統合ニューラルネットワーク230を、ネットワーク記憶部160から読み出す(ステップS203)。例えば、認識部180は、図9に示す統合ニューラルネットワーク230を読み出す。
認識部180は、読み出した統合ニューラルネットワーク230を用いて、認識対象のパターン251に対するパターン認識を実行する(ステップS204)。ここで、認識部180は、前処理部120から入力された、複数種類の前処理の各々の処理後のパターン252(252_1、…、252_n)について、対応するニューラルネットワーク220(222_1、…、222_n)を用いてパターン認識を実行する。そして、認識部180は、統合ニューラルネットワーク230に従って、各ニューラルネットワーク220(222_1、…、222_n)による認識結果を統合する。例えば、認識部180は、図9の統合ニューラルネットワーク230に従って、各ニューラルネットワーク220(222_1、…、222_n)から出力される本人確率の平均値を算出する。
認識部180は、パターン認識の結果(認識結果260)を、ユーザや他の装置等に出力する(ステップS204)。例えば、認識部180は、本人確率の平均値を、認識結果260として出力する。
以上により、本発明の第2の実施の形態の動作が完了する。
次に、本発明の第2の実施の形態の効果を説明する。
本発明の第2の実施の形態によれば、認識に無関係なパターン変動が存在する場合でも、高い認識性能を得ることができる。その理由は、学習装置100が、認識対象のパターン251を、認識に無関係なパターン変動に対するロバスト性を保ちつつ、認識に有用な微小なパターン変動を捉えるように学習された統合ニューラルネットワーク230を用いて認識するためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されない。本願発明の構成や詳細に対して、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
特定のパターン変動を含む、学習対象のパターン集合に対して、処理後の前記特定のパターン変動の大きさが異なるような複数の前処理を行う前処理手段と、
前記複数の前処理の各々について、当該前処理後の前記特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワークのネットワーク構造を決定するネットワーク構造決定手段と、
前記複数の前処理の各々について、当該前処理後のパターン集合を用いて、当該前処理に対応するネットワーク構造のニューラルネットワークを学習するネットワーク学習手段と、
を備える情報処理装置。
(付記2)
さらに、前記複数の前処理の各々について、当該前処理後のパターン集合の前記特定のパターン変動の大きさを推定する、変動推定手段を備える、
付記1に記載の情報処理装置。
(付記3)
前記パターン集合に含まれるパターンは画像であり、前記特定のパターン変動は画像の位置ずれである、
付記1または2に記載の情報処理装置。
(付記4)
前記パターン集合に含まれるパターンは画像であり、前記特定のパターン変動は画像の輝度変化である、
付記1または2に記載の情報処理装置。
(付記5)
さらに、認識対象のパターンに対する前記複数の前処理の各々の処理後のパターンを、当該前処理に対して学習されたニューラルネットワークを用いて認識することにより、前記認識対象のパターンの認識を行う、認識手段を備える、
付記1乃至4の内のいずれか一つに記載の情報処理装置。
(付記6)
特定のパターン変動を含む、学習対象のパターン集合に対して、処理後の前記特定のパターン変動の大きさが異なるような複数の前処理を行い、
前記複数の前処理の各々について、当該前処理後の前記特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワークのネットワーク構造を決定し、
前記複数の前処理の各々について、当該前処理後のパターン集合を用いて、当該前処理に対応するネットワーク構造のニューラルネットワークを学習する、
情報処理方法。
(付記7)
さらに、前記複数の前処理の各々について、当該前処理後のパターン集合の前記特定のパターン変動の大きさを推定する、
付記6に記載の情報処理方法。
(付記8)
前記パターン集合に含まれるパターンは画像であり、前記特定のパターン変動は画像の位置ずれである、
付記6または7に記載の情報処理方法。
(付記9)
さらに、認識対象のパターンに対する前記複数の前処理の各々の処理後のパターンを、当該前処理に対して学習されたニューラルネットワークを用いて認識することにより、前記認識対象のパターンの認識を行う、
付記6乃至8の内のいずれか一つに記載の情報処理方法。
(付記10)
コンピュータに、
特定のパターン変動を含む、学習対象のパターン集合に対して、処理後の前記特定のパターン変動の大きさが異なるような複数の前処理を行い、
前記複数の前処理の各々について、当該前処理後の前記特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワークのネットワーク構造を決定し、
前記複数の前処理の各々について、当該前処理後のパターン集合を用いて、当該前処理に対応するネットワーク構造のニューラルネットワークを学習する、
処理を実行させるプログラムを格納する、コンピュータが読み取り可能な記録媒体。
(付記11)
さらに、前記複数の前処理の各々について、当該前処理後のパターン集合の前記特定のパターン変動の大きさを推定する、
処理を実行させる付記10に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
(付記12)
前記パターン集合に含まれるパターンは画像であり、前記特定のパターン変動は画像の位置ずれである、
付記10または11に記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
(付記13)
さらに、認識対象のパターンに対する前記複数の前処理の各々の処理後のパターンを、当該前処理に対して学習されたニューラルネットワークを用いて認識することにより、前記認識対象のパターンの認識を行う、
処理を実行させる付記10乃至12の内のいずれか一つに記載のプログラムを格納する、コンピュータが読み取り可能な記録媒体。
この出願は、2016年1月19日に出願された日本出願特願2016−007755を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 学習装置
101 CPU
102 記憶デバイス
103 入出力デバイス
104 通信デバイス
110 学習パターン記憶部
120 前処理部
130 ロバスト性制御部
131 変動推定部
132 ネットワーク構造決定部
140 ネットワーク学習部
150 ネットワーク統合部
160 ネットワーク記憶部
170 認識対象パターン記憶部
180 認識部
201 パターン
202 パターン
210 ネットワーク構造
220 ニューラルネットワーク
230 統合ニューラルネットワーク
251 パターン
252 パターン
260 認識結果

Claims (10)

  1. 特定のパターン変動を含む、学習対象のパターン集合に対して、処理後の前記特定のパターン変動の大きさが異なるような複数の前処理を行う前処理手段と、
    前記複数の前処理の各々について、当該前処理後の前記特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワークのネットワーク構造を決定するネットワーク構造決定手段と、
    前記複数の前処理の各々について、当該前処理後のパターン集合を用いて、当該前処理に対応するネットワーク構造のニューラルネットワークを学習するネットワーク学習手段と、
    を備える情報処理装置。
  2. さらに、前記複数の前処理の各々について、当該前処理後のパターン集合の前記特定のパターン変動の大きさを推定する、変動推定手段を備える、
    請求項1に記載の情報処理装置。
  3. 前記パターン集合に含まれるパターンは画像であり、前記特定のパターン変動は画像の位置ずれである、
    請求項1または2に記載の情報処理装置。
  4. 前記パターン集合に含まれるパターンは画像であり、前記特定のパターン変動は画像の輝度変化である、
    請求項1または2に記載の情報処理装置。
  5. さらに、認識対象のパターンに対する前記複数の前処理の各々の処理後のパターンを、当該前処理に対して学習されたニューラルネットワークを用いて認識することにより、前記認識対象のパターンの認識を行う、認識手段を備える、
    請求項1乃至4の内のいずれか1項に記載の情報処理装置。
  6. コンピュータに具備された前処理手段が、特定のパターン変動を含む、学習対象のパターン集合に対して、処理後の前記特定のパターン変動の大きさが異なるような複数の前処理を行い、
    前記コンピュータに具備されたネットワーク構造決定手段が、前記複数の前処理の各々について、当該前処理後の前記特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワークのネットワーク構造を決定し、
    前記コンピュータに具備されたネットワーク学習手段が、前記複数の前処理の各々について、当該前処理後のパターン集合を用いて、当該前処理に対応するネットワーク構造のニューラルネットワークを学習する、
    情報処理方法。
  7. さらに、前記コンピュータに具備された変動推定手段が、前記複数の前処理の各々について、当該前処理後のパターン集合の前記特定のパターン変動の大きさを推定する、
    請求項6に記載の情報処理方法。
  8. 前記パターン集合に含まれるパターンは画像であり、前記特定のパターン変動は画像の位置ずれである、
    請求項6または7に記載の情報処理方法。
  9. さらに、前記コンピュータに具備された認識手段が、認識対象のパターンに対する前記複数の前処理の各々の処理後のパターンを、当該前処理に対して学習されたニューラルネットワークを用いて認識することにより、前記認識対象のパターンの認識を行う、
    請求項6乃至8の内のいずれか1項に記載の情報処理方法。
  10. コンピュータに、
    特定のパターン変動を含む、学習対象のパターン集合に対して、処理後の前記特定のパターン変動の大きさが異なるような複数の前処理を行い、
    前記複数の前処理の各々について、当該前処理後の前記特定のパターン変動の大きさに応じたロバスト性を持つニューラルネットワークのネットワーク構造を決定し、
    前記複数の前処理の各々について、当該前処理後のパターン集合を用いて、当該前処理に対応するネットワーク構造のニューラルネットワークを学習する、
    処理を実行させるプログラム。
JP2017562814A 2016-01-19 2017-01-17 情報処理装置、情報処理方法、及び、プログラム Active JP6763408B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016007755 2016-01-19
JP2016007755 2016-01-19
PCT/JP2017/001299 WO2017126482A1 (ja) 2016-01-19 2017-01-17 情報処理装置、情報処理方法、及び、記録媒体

Publications (2)

Publication Number Publication Date
JPWO2017126482A1 JPWO2017126482A1 (ja) 2018-11-15
JP6763408B2 true JP6763408B2 (ja) 2020-09-30

Family

ID=59361628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017562814A Active JP6763408B2 (ja) 2016-01-19 2017-01-17 情報処理装置、情報処理方法、及び、プログラム

Country Status (3)

Country Link
US (1) US11003954B2 (ja)
JP (1) JP6763408B2 (ja)
WO (1) WO2017126482A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3734519A4 (en) 2017-12-26 2021-09-15 Aising Ltd. PROCESS FOR GENERATING A UNIVERSAL LEARNED MODEL
KR20210051920A (ko) * 2019-10-31 2021-05-10 삼성전자주식회사 신경망의 커널들을 정렬하는 전자 장치 및 이의 동작 방법
JP7520753B2 (ja) 2021-03-05 2024-07-23 株式会社東芝 学習装置、方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6236296B2 (ja) * 2013-11-14 2017-11-22 株式会社デンソーアイティーラボラトリ 学習装置、学習プログラム、及び学習方法
CN105849747B (zh) * 2013-11-30 2018-08-17 北京市商汤科技开发有限公司 用于人脸图像识别的方法和***
JP6327745B2 (ja) 2014-02-24 2018-05-23 日本放送協会 音声認識装置、及びプログラム
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법

Also Published As

Publication number Publication date
US20190012580A1 (en) 2019-01-10
WO2017126482A1 (ja) 2017-07-27
US11003954B2 (en) 2021-05-11
JPWO2017126482A1 (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
CN108764048B (zh) 人脸关键点检测方法及装置
US10776470B2 (en) Verifying identity based on facial dynamics
WO2018028546A1 (zh) 一种关键点的定位方法及终端、计算机存储介质
CN110147721B (zh) 一种三维人脸识别方法、模型训练方法和装置
WO2017088432A1 (zh) 图像识别方法和装置
CN109145717B (zh) 一种在线学习的人脸识别方法
US9984280B2 (en) Object recognition system using left and right images and method
WO2016138838A1 (zh) 基于投影极速学习机的唇语识别方法和装置
US9443325B2 (en) Image processing apparatus, image processing method, and computer program
JPWO2006049237A1 (ja) 法線情報推定装置、登録画像群作成装置および画像照合装置ならびに法線情報推定方法
JP5675145B2 (ja) パターン認識装置及びパターン認識方法
TW201403498A (zh) 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人
CN111626246B (zh) 口罩遮挡下的人脸对齐方法
CN107704813B (zh) 一种人脸活体识别方法及***
WO2021031817A1 (zh) 情绪识别方法、装置、计算机装置及存储介质
KR20110064117A (ko) 얼굴 정면포즈 판단 방법
KR20200029659A (ko) 얼굴 인식 방법 및 장치
JP6071002B2 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
JP6763408B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2009157767A (ja) 顔画像認識装置、顔画像認識方法、顔画像認識プログラムおよびそのプログラムを記録した記録媒体
US20140093142A1 (en) Information processing apparatus, information processing method, and information processing program
KR100899804B1 (ko) 2차원 정준상관 분석법을 이용한 얼굴 인식 방법
Li et al. A head pose tracking system using RGB-D camera
EP2998928B1 (en) Apparatus and method for extracting high watermark image from continuously photographed images
KR100955255B1 (ko) 얼굴 인식 장치 및 그 방법, 얼굴의 내외적 환경 변화 정도추정 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180621

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200824

R150 Certificate of patent or registration of utility model

Ref document number: 6763408

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150