JP2017049996A

JP2017049996A - 画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置

Info

Publication number: JP2017049996A
Application number: JP2016169239A
Authority: JP
Inventors: チェヌ・リ; Li Chen; ワン・ソォン; Song Wang; ファヌ・ウエイ; Wei Fan; 俊孫; Shun Son; 直井　聡; Satoshi Naoi; 聡直井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-09-02
Filing date: 2016-08-31
Publication date: 2017-03-09
Anticipated expiration: 2036-08-31
Also published as: US20170061246A1; EP3139310A1; JP6825269B2; CN106485192B; CN106485192A; US10296813B2

Abstract

【課題】本発明は画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を提供する。
【解決手段】該方法は、サンプル画像を高次元空間における点の集合として表現するステップであって、高次元空間の大きさはサンプル画像の空間領域の大きさとサンプル画像の強度領域の大きさとの積である、ステップと、高次元空間の大きさと同じ大きさの第１ランダム摂動行列を生成するステップと、第１ランダム摂動行列を平滑化するステップと、平滑化後の第１ランダム摂動行列を用いて高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップとを含む。
【選択図】図２

Description

本発明は、文字認識の分野に関し、具体的に、画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置に関する。

現在、手書き文字認識の分野では、畳み込みニューラルネットワーク（ＣＮＮ）に基づく方法は、従来の認識方法に比べて、より良い性能を達成した。従来のニューラルネットワークの構成は図１に示した通り、その認識プロセスは（手書き数字６を例にして）、１つの画像（サンプル）を入力し、畳み込み、空間最大サンプリング及び全連結の処理を複数回繰り返した後で、ＣＮＮが各数字についての信頼度を出力し、信頼度の最も高い出力が認識結果である。従来のＣＮＮモデルでは、各処理は１つ層で表される。例えば、畳み込み処理は畳み込み層に対応し、空間最大サンプリング処理はプーリング（ｐｏｏｌｉｎｇ）層に対応し、全連結処理は全連結層に対応する。畳み込み層及びプーリング層の出力は二次元の行列であり、特徴図（ｆｅａｔｕｒｅｍａｐ）と称される。図１において、各ブロックは１つの特徴図を表す。

近年では、多くの公開の実験的証拠によると、ＣＮＮの層数が大きいほど、各層のニューロンの数が大きくなり、ＣＮＮの性能が良くなる。しかし、ＣＮＮのモデルが大きいほど、訓練し難くなる。主な困難点は下記２点となる。

ａ）モデルが大きいほど、そのパラメータが多くなり、訓練する必要なサンプルが多くなる。

ｂ）モデルが大きいほど、オーバーフィッティングの可能性が高くなる。

上記２つの困難点について、訓練セットが設定された場合は、従来の解決手段は以下の通りである。

ａ）訓練セットのサンプルに対してランダム摂動を行い、より多くの訓練サンプルを生成する。

ｂ）訓練プロセスにおいてモデルに対してランダム摂動を行い、モデルの汎化能力を強化し、この方法を正則化方法と称する。

上記２つの問題点を１つの枠組み内に統合して解決する、より効率的な方法及び装置が求められている。

以下、本発明の主旨を理解させるため、本発明を簡単に説明する。なお、これらの説明は、本発明を限定するものではない。以下の説明は、本発明の肝心又は重要な部分を決定するものではなく、本発明の範囲を限定することではない。その目的は、その後の詳しい説明の前文として、ある概念を簡単に説明するものに過ぎない。

本発明は、画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を提供することを１つの主な目的とする。

本発明の一の態様では、画像認識に用いられるニューラルネットワークの訓練方法であって、サンプル画像を高次元空間における点の集合として表現するステップであって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、ステップと、前記高次元空間の大きさと同じ大きさの第１ランダム摂動行列を生成するステップと、前記第１ランダム摂動行列を平滑化するステップと、平滑化後の第１ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法を提供する。

本発明の他の態様では、画像認識に用いられるニューラルネットワークの訓練方法であって、サンプル画像を変換して、前記サンプル画像の変換領域の表現を取得するステップと、変換後のサンプル画像を高次元空間における点の集合として表現するステップと、前記高次元空間の大きさと同じ大きさのランダム摂動行列を生成するステップと、前記ランダム摂動行列を平滑化するステップと、平滑化後のランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、摂動後の点の集合を前記高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得するステップと、前記摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得するステップと、前記摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法を提供する。

本発明の他の態様では、画像認識に用いられるニューラルネットワークの訓練装置であって、サンプル画像を高次元空間における点の集合として表現する高次元空間表現手段であって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、高次元空間表現手段と、前記高次元空間の大きさと同じ大きさの第１ランダム摂動行列を生成する第１ランダム摂動行列生成手段と、前記第１ランダム摂動行列を平滑化する第１平滑化手段と、平滑化後の第１ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得する第１摂動手段と、摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練する訓練サンプル決定手段と、を含む、訓練装置を提供する。

また、本発明の実施例は、上記の方法を実施するコンピュータプログラムをさらに提供する。

また、本発明の実施例は、上記の方法を実施するコンピュータコードを記録する、少なくともコンピュータ読み取り可能な媒体の形式のコンピュータプログラムプロダクトをさらに提供する。

図面による本発明に対する以下の説明を参照すると、本発明の上記及び他利点がより明らかになるであろう。

下記図面の詳細の説明を通じて、本発明の実施例の上記の目的、他の目的、特徴及び利点はより明確になる。図面におけるユニットは、単なる本発明の原理を示すものである。図面において、同一又は類似する技術的特徴又はユニットは、同一又は類似する記号で示されている。
従来のニューラルネットワークの構成を示す図である。本発明の１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法２００の例示的なプロセスのフローチャートである。本発明のもう１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法３００の例示的なプロセスのフローチャートである。本発明のもう１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法４００の例示的なプロセスのフローチャートである。３チャネル画像を周波数領域表現に変換することを示す図である。３チャネル画像のＤＦＴ逆変換プロセスを示す図である。本発明の１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置７００の例示的な構成を示すブロック図である。本発明のもう１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置８００の例示的な構成を示すブロック図である。本発明のもう１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置９００の例示的な構成を示すブロック図である。本発明の画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を実施するためのコンピュータ装置の例示的な構成を示す図である。

以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。

なお、本発明を明確にするために、図面には本発明に密に関連する装置の構成要件及び／又は処理のステップのみが示され、本発明と関係のない細部が省略される。

本発明は、画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を提供する。これによって、畳み込みニューラルネットワーク（ＣＮＮ）により多くの訓練サンプルを提供できると共に、オーバーフィッティングの問題点を回避できる。

本発明の方法では、背景技術の２つの問題点、即ちａ）モデルが大きいほど、そのパラメータが多くなり、訓練する必要なサンプルが多くなること、及びｂ）モデルが大きいほど、オーバーフィッティングの可能性が高くなることを１つの枠組み内に統合して解決し、従来の方法に比べて、本発明は以下の利点を有する。

（１）より普遍的なサンプル生成方法を用いるため、生成されたサンプルのカバレッジがより広い。

（２）新しい正則化方法を用い、従来の方法に比べて、オーバーフィッティングの問題点をよりよく解決できる。

以下は、図面を参照しながら本発明の実施例に係る画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を詳細に説明する。以下の説明は下記の順序で説明する。

１．画像認識に用いられるニューラルネットワークの訓練方法
２．画像認識に用いられるニューラルネットワークの訓練装置
３．本願の方法及び装置を実施するためのコンピュータ装置
＜１．画像認識に用いられるニューラルネットワークの訓練方法＞
本発明の方法では、訓練セットのサンプルについてランダム変形の方法を用い、即ち訓練セットのサンプルに対してランダム摂動を行うことで、訓練セットを拡張するという目的を達成する。

ランダム変形の処理対象は大きさがＷ＊Ｈの二次元画像であり、Ｗは画像の幅であり、Ｈは画像の高さである（図１に示すＣＮＮモデルの入力）。画像の種類に応じて、画像は異なるチャネル数（チャネル数は強度領域の次元数とも称される）を有してもよい。例えば、グレースケール画像のチャネル数は１であり、カラー画像のチャネル数は３である。Ｄ１＊Ｄ２＊…×Ｄｎで画像の強度領域空間の大きさを表してもよく、ここで、ｎはチャネル数であり、Ｄ１、Ｄ２、…Ｄｎは各チャネルの強度の値範囲である。グレースケール画像の場合は、強度領域の大きさが２５５であり、カラー画像の場合は、強度領域の大きさが２５５＊２５５＊２５５である。ここで、サンプル画像を二次元空間Ｗ＊Ｈの点の集合と見なし、点（ｗ，ｈ）における画素値は（ｄ１，ｄ２，…，ｄｎ）である。本発明の方法では、サンプル画像の各画素を高次元空間Ｗ＊Ｈ＊Ｄ１＊Ｄ２＊…＊Ｄｎにおける点を表し、点（ｗ，ｈ）における対応する点は（ｗ，ｈ，ｄ１，ｄ２，…，ｄｎ）である。原画像に対してランダム摂動を行う場合は、下記式（１）に示すように、点の集合における全ての点に摂動を加えればよい。

ここで、
（外１）

は該点のランダム摂動である。

上記の考え方に基づいて、図２は本発明の１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法２００の例示的なプロセスのフローチャートを示している。

まず、ステップＳ２０２において、サンプル画像Ｉを高次元空間における点の集合Ｐとして表現する。高次元空間の大きさは、サンプル画像の空間領域の大きさとサンプル画像の強度領域の大きさとの積、即ちＷ＊Ｈ＊Ｄ１＊Ｄ２＊…＊Ｄｎである。

そして、ステップＳ２０４において、高次元空間の大きさと同じ大きさのランダム摂動行列Ｍを生成する。即ち、Ｍの大きさもＷ＊Ｈ＊Ｄ１＊Ｄ２＊…＊Ｄｎである。

１つの例では、所定の確率分布によりランダム摂動行列を生成する。該所定の確率分布は、ガウス分布、一様分布、又は他の連続的な分布である。

ステップＳ２０６において、ランダム摂動行列Ｍを平滑化する。

具体的には、ｎ＋２次元（即ちランダム摂動行列Ｍの次元数と同じ次元数）の低域フィルタを用いてランダム摂動行列Ｍをフィルタリングし、行列Ｍ’を生成する。ここで、低域フィルタは、ガウスフィルタ、平均値フィルタ、又はメディアンフィルタ等であってもよい。

ステップＳ２０８において、平滑化後のランダム摂動行列Ｍ’を用いて点の集合Ｐを摂動させて、摂動後の点の集合Ｐ’を取得する。

１つの例では、上記式（１）を用いて点の集合Ｐを摂動させてもよい。

最後に、ステップＳ２１０において、摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練する。

１つの例では、ステップＳ２１０は、具体的に、摂動後の点の集合Ｐ’を高次元空間の二次元又は三次元の空間に投影して投影後の画像Ｉ’を取得し、投影後の画像Ｉ’を新しいサンプルとしてニューラルネットワークを訓練するステップ、をさらに含む。

本発明のもう１つの実施例では、上記ランダム変形の方法を、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図に用いることで、本発明の正則化方法を得る。特徴図は、数学的に二次元の行列で表されてもよい。一般的には、畳み込み層は複数の同一の大きさの特徴図を出力する。本発明では、これらの特徴図を三次元の行列Ｆと表し、その大きさがＷ＊Ｈ＊Ｎであり、ここで、Ｗ及びＨは該特徴図の幅及び高さを表し、Ｎは特徴図の数を表す。本発明の正則法の基本的思想は、訓練プロセスにおいて、畳み込み層により出力された特徴図にランダム雑音を追加することで、ＣＮＮモデルに雑音のあるデータにおける有用な知識を学習させ、ＣＮＮモデルの汎化能力を強化する。

図３は本発明のもう１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法３００の例示的なプロセスのフローチャートである。

図３の訓練方法３００のステップＳ３０２乃至Ｓ３１０と図２の訓練方法２００のステップＳ２０２乃至Ｓ２１０と類似し、ここでその説明が省略される。

図３に示す訓練方法は、下記のステップＳ３１２乃至Ｓ３１６をさらに含む。

ステップＳ３１２において、大きさのＷ＊Ｈ＊Ｎのランダム摂動行列Ｌを生成する。

１つの例では、所定の確率分布によりランダム摂動行列を生成する。該所定の確率分布は、ガウス分布、一様分布又は他の連続的な分布であってもよい。

ステップＳ３１４において、三次元の低域フィルタを用いてランダム摂動行列Ｌをフィルタリングし、行列Ｌ’を生成する。

低域フィルタは、ガウスフィルタ、平均値フィルタ又はメディアンフィルタ等であってもよい。

ステップＳ３１６において、平滑化後のランダム摂動行列Ｌ’を用いて特徴図Ｆを摂動させて、摂動された特徴図Ｆ’を取得する。

一般的には、特徴図の値に、重み付けされたランダム摂動行列の対応値を加算することで特徴図を摂動させる。ここで、特徴図の絶対値が大きいほど、重み付け係数が大きくなる。

１つの例では、下記の式に従って特徴図Ｆを摂動させてもよい。

図３の訓練方法３００では、ステップＳ３１２乃至Ｓ３１６により、畳み込み層により出力された特徴図にランダム雑音を追加することで、ＣＮＮモデルに雑音のあるデータにおける有用な知識を学習させ、ＣＮＮモデルの汎化能力を強化できる。

本発明のもう１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法では、上記の方法を基にして、原画像を周波数領域に変換し、周波数領域で同様な方法を用いて画像を摂動させ、最後に画像を周波数領域から空間領域に変換してもよい。図４は本発明のもう１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法４００の例示的なプロセスのフローチャートである。

訓練方法４００は、ステップＳ４０２、即ちサンプル画像を変換して、サンプル画像の変換領域の表現を取得するステップと、ステップ４０４、即ち変換後のサンプル画像を高次元空間における点の集合として表現するステップと、ステップ４０６、即ち高次元空間の大きさと同じ大きさのランダム摂動行列を生成するステップと、ステップ４０８、即ちランダム摂動行列を平滑化するステップと、ステップ４１０、即ち平滑化後のランダム摂動行列を用いて高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、ステップ４１２、即ち摂動後の点の集合を高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得するステップと、ステップＳ４１４、即ち摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得するステップと、ステップ４１６、即ち摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む。

ステップＳ４０４、Ｓ４０６、Ｓ４０８及びＳ４１０は図２における訓練方法２００のステップＳ２０２、Ｓ２０４、Ｓ２０６及びＳ２０８とそれぞれ類似し、ここでその説明が省略される。

ここで、主にステップＳ４０２、Ｓ４１２及びＳ４１４を説明する。

まず、ステップＳ４０２（サンプル画像を変換して、サンプル画像の変換領域の表現を取得する）を詳細に説明する。

明細書では、原画像を周波数領域に変換することを例にして説明する。離散フーリエ変換（ＤＦＴ）又は離散コサイン変換（ＤＣＴ）を用いて、原画像を周波数領域の表現に変換してもよい。ここで、ＤＦＴの例を説明し、ＤＣＴのステップはＤＦＴのステップと同様である。ＤＦＴは通常二次元画像で機能するため、単一チャネルの画像について、直接ＤＦＴによりスペクトログラムを取得してもよく、マルチチャネルの画像について、各チャネルについてＤＦＴをそれぞれ行って各チャネルのスペクトログラムを取得し、各チャネルのスペクトログラムを併合してもよい。スペクトログラムを離散の多次元空間の点の集合として表現するために、ここで、各チャネルのスペクトログラムを正規化する。

図５は３チャネル画像を周波数領域表現に変換することを示す図である。まず、原画像をチャネルごとに３つの単一チャネルの画像に分けて、そして、各チャネル画像に対してＤＦＴをそれぞれ行い、対応するスペクトログラムを取得し、そして、各チャネルのスペクトログラムに対して正規化処理を行い、最後に、正規化後のスペクトログラムをチャネルごとに併合し、原画像に対応するスペクトログラムを形成する。説明の便宜上、図５において原画像及びそのスペクトログラムごとに表している。

各チャネルのスペクトログラムの正規化のプロセスは以下の通りである。

１）スペクトログラムの各画素点の値ｄについて下記の対数変換を行う。

２）変換後のスペクトログラムの全ての画素点の値を［０，ＭＡＸ］に線形で変形し、その最も近い整数を取得し、ここで、ＭＡＸは所定の正整数である。

図５に示すようにスペクトログラムを取得した後に、該スペクトログラムを高次元空間における１つの点と見なしてもよい。具体的な方法は図２におけるランダム変形方法と同様である。

そして、ステップＳ４１２、即ち摂動後の点の集合を前記高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得するステップ、及びステップＳ４１４、即ち摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得するステップを詳細に説明する。

ステップＳ４１２及びＳ４１４に示すプロセスは、ステップＳ４０２及びＳ４０４に示すプロセスの逆処理である。ステップＳ４１２において、摂動後の点の集合をサブ空間に投影して、摂動後の画像の変換領域の表現を取得する。原画像を周波数領域に変換する場合は、該サブ空間は周波数領域である。

以下は図６を参照しながらステップＳ４１４を説明する。図６は３チャネル画像のＤＦＴ逆変換プロセスを示す図である。

１）変形後のマルチチャネルのスペクトログラムを単一チャネルのスペクトログラムに分ける。

２）各単一チャネルのスペクトログラムを逆正規化し、逆正規化後のスペクトログラムを取得する。

３）上記ステップ２）において取得された結果をＤＦＴ逆変換し、単一チャネルの空間領域画像を取得する。

４）全ての単一チャネルの空間領域画像をチャネルごとに併合し、ランダム摂動後の画像を取得する。

なお、図５及び図６における同一テクスチャを有する矩形は同一特性の画像を表さなく、図６におけるテクスチャの構成は、単なる図６に示すプロセスが図５に示すプロセスの逆プロセスであることを示すためのものである。

ここで、逆正規化処理は、上記図５に説明した正規化処理の逆プロセスとして、下記のステップを有する。

１）単一チャネルのスペクトログラムにおける各点の値を、関数ｙ＝ｈ（ｘ）に従ってマッピングする。正規化処理の線形変換関数がｙ＝ｆ（ｘ）である場合は、ｈ（ｘ）＝ｆ^−１（ｘ）となる。

２）マッピング後の結果を、式ｄ’＝ｅ^ｄ−１に従って変換し、逆正規化の結果を取得する。

最後に、ステップＳ４１６において、摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練する。

当業者が分かるように、本発明のもう１つの実施例では、訓練方法４００のステップＳ４１６の後に、図３に示す訓練方法３００と同様に、畳み込み層により取得された特徴図に対してランダム摂動を行うステップを含んでもよく、ここでその説明が省略される。

なお、上述した訓練セットのサンプルに対してランダム摂動を行うランダム変形方法、及び特徴図にランダム雑音を追加する正則化方法は、ニューラルネットワークの訓練段階にのみ用いられる。訓練段階で上記２つの方法を用いて得られたモデルについて、テスト段階で上記方法を除去すればよく、即ちテスト段階でサンプルに対して摂動を行い、或いは特徴図にランダム雑音を追加する必要がない。

＜２．画像認識に用いられるニューラルネットワークの訓練装置＞
図７は本発明の１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置７００の例示的な構成を示すブロック図である。

図７に示すように、画像認識に用いられるニューラルネットワークの訓練装置７００は、高次元空間表現部７０２、第１ランダム摂動行列生成部７０４、第１平滑化部７０６、第１摂動部７０８、及び訓練サンプル決定部７１０を含む。

高次元空間表現部７０２は、サンプル画像を高次元空間における点の集合として表現する。高次元空間の大きさは、サンプル画像の空間領域の大きさとサンプル画像の強度領域の大きさとの積である。

第１ランダム摂動行列生成部７０４は、高次元空間の大きさと同じ大きさの第１ランダム摂動行列を生成する。

第１平滑化部７０６は、第１ランダム摂動行列を平滑化する。

第１摂動部７０８は、平滑化後の第１ランダム摂動行列を用いて高次元空間における点の集合を摂動させて、摂動後の点の集合を取得する。

訓練サンプル決定部７１０は、摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練する。

ここで、空間領域の大きさはサンプル画像の幅と高さとの積であり、強度領域の大きさはＤ１×Ｄ２×…×Ｄｎであり、ｎは強度領域の次元数であり、Ｄ１、Ｄ２、…Ｄｎはそれぞれ各次元の大きさである。

ここで、訓練サンプル決定部７１０は、摂動後の点の集合を高次元空間の二次元又は三次元の空間に投影して投影後の画像を取得し、投影後の画像を新しいサンプルとしてニューラルネットワークを訓練する。

ここで、第１ランダム摂動行列は、所定の確率分布によりを生成され、所定の確率分布は、ガウス分布又は一様分布である。

第１平滑化部７０６は、第１ランダム摂動行列と同じ次元数の低域フィルタを用いて第１ランダム摂動行列を平滑化し、低域フィルタは、ガウスフィルタ、平均値フィルタ及びメディアンフィルタのうち１つである。

第１摂動部７０８は、高次元空間における点の集合の各点の値に、平滑化後の第１ランダム摂動行列における対応要素の値を加算する。

図８は本発明のもう１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置８００の例示的な構成を示すブロック図である。

図８に示すように、訓練装置８００は、高次元空間表現部８０２、第１ランダム摂動行列生成部８０４、第１平滑化部８０６、第１摂動部８０８、訓練サンプル決定部８１０、第２ランダム摂動行列生成部８１２、第２平滑化部８１４、及び第２摂動部８１６を含む。

言い換えれば、図８に示す訓練装置８００は、図７に示す訓練装置７００の各構成部以外、第２ランダム摂動行列生成部８１２、第２平滑化部８１４、及び第２摂動部８１６をさらに含む。

図８における高次元空間表現部８０２、第１ランダム摂動行列生成部８０４、第１平滑化部８０６、第１摂動部８０８、訓練サンプル決定部８１０は、図７を参照しながら説明された高次元空間表現部７０２、第１ランダム摂動行列生成部７０４、第１平滑化部７０６、第１摂動部７０８、訓練サンプル決定部７１０と類似し、ここでその説明が省略される。

図８に示す訓練装置８００では、第２ランダム摂動行列生成部８１２は、第２ランダム摂動行列を生成する。

ここで、第２ランダム摂動行列の大きさは、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図の長さと幅と前記特徴図の数との積である。

１つの例では、所定の確率分布により前記第１ランダム摂動行列を生成する。該所定の確率分布は、ガウス分布、一様分布、又は他の連続的な分布であってもよい。

第２平滑化部８１４は、第２ランダム摂動行列を平滑化する。

具体的には、三次元の低域フィルタを用いて第２ランダム摂動行列を平滑化する。

ここで、低域フィルタは、ガウスフィルタ、平均値フィルタ、又はメディアンフィルタ等であってもよい。

第２摂動部８１６は、平滑化後の第２ランダム摂動行列を用いて、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させる。

ここで、第２摂動部８１６は、特徴図の値に、重み付けされた第２ランダム摂動行列の対応値を加算する。特徴図の絶対値が大きいほど、重み付け係数が大きくなる。

図９は本発明のもう１つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置９００の例示的な構成を示すブロック図である。

図９に示すように、訓練装置９００は、変換部９０２、高次元空間表現部９０４、ランダム摂動行列生成部９０６、平滑化部９０８、摂動部９１０、投影部９１２、逆変換部９１４、及び訓練サンプル決定部９１６を含む。

変換部９０２は、サンプル画像を変換して、前記サンプル画像の変換領域の表現を取得する。高次元空間表現部９０４は、変換後のサンプル画像を高次元空間における点の集合として表現する。ランダム摂動行列生成部９０６は、高次元空間の大きさと同じ大きさのランダム摂動行列を生成する。平滑化部９０８は、ランダム摂動行列を平滑化する。摂動部９１０は、平滑化後のランダム摂動行列を用いて高次元空間における点の集合を摂動させて、摂動後の点の集合を取得する。投影部９１２は、摂動後の点の集合を高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得する。逆変換部９１４は、摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得する。訓練サンプル決定部９１６は、摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練する。

画像認識に用いられるニューラルネットワークの訓練装置７００、８００及び９００の各部の処理及び機能の詳細は、図１〜図６を参照しながら説明された本発明の画像認識に用いられるニューラルネットワークの訓練方法の実施例を参照してもよく、ここで詳細な説明が省略される。

なお、図７〜図９に示す装置及びその構成部の構成は単なる例示的なものであり、当業者は必要に応じて図７〜図９に示す構成のブロック図を変更してもよい。

本発明は、画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を提供する。本発明は、２つの面で従来のＣＮＮモデルの分類性能を改善した。まず、ＣＮＮ訓練サンプルが不十分であるという問題点について、本発明は、従来のランダム変形方法を拡張し、該方法により広い範囲にカバーさせるため、より多くの訓練サンプルを生成できる。また、ＣＮＮモデルのオーバーフィッティングの問題点について、本発明は新しい正則化方法を提供する。該方法は、訓練プロセスにおいて畳み込み層により出力された特徴図に対して摂動を行い、ノイズのよりロバストな方向においてＣＮＮモデルを訓練することで、オーバーフィッティングの影響を低減し、ＣＮＮモデルの汎化能力を強化した。

＜３．本願の方法及び装置を実施するためのコンピュータ装置＞
以上、具体的な実施例を用いて本発明の基本原理について説明したが、強調すべきなのは、本発明の方法と装置の全て又はいずれのステップ又は構成要素が、任意の計算装置（プロセッサや記憶媒体等を含む）または計算装置のネットワークにおいて、ハードウェア、ファームウェア、ソフトウェアまたはそれらの組合せにより実現できることは、当業者にとって理解されるところである。また、これは当業者が本発明の明細書を読んだ上で彼らの基本的なプログラミングスキルを利用して実現できるものである。

従って、本発明の目的は、任意の計算装置において１つ又は１組のプログラムを実行することにより実現することができる。前記計算装置は従来の汎用装置であってもよい。また、本発明の目的は、前記方法又は装置を実現するプログラムコードを含むプログラム製品を提供するだけで実現される。即ち、このようなプログラム製品も本発明を構成するものであり、且つこのようなプログラム製品を格納した記憶媒体も本発明を構成するものである。もとろん、前記記憶媒体は、任意の従来の記憶媒体又は将来開発される任意の記憶媒体であってもよい。

ソフトウェアおよび/またはファームウェアを通じて本発明の実施例を実現する場合、記憶媒体またはネットワークを通じて専用ハードウェア構造を有するコンピュータ、例えば、図１０に示されたような汎用コンピュータ１０００に当該ソフトウェアを構成するプログラムをインストールし、当該コンピュータは、各種類のプログラムがインストールされたときに、各種の機能等を実行することができる。

図１０では、セントラル・プロセッシング・ユニット(ＣＰＵ)１００１は、読み取り専用メモリ（ＲＯＭ)１００２に格納されたプログラムまたは記憶部１００８からランダム・アクセス・メモリ(ＲＡＭ)１００３にアップロードされたプログラムにより各種の処理を実行する。ＲＡＭ１００３には、必要に応じてＣＰＵ１００１が各種の処理を実行するときに必要なデータを記憶する。ＣＰＵ１００１、ＲＯＭ１００２とＲＡＭ１００３はバス１００４を介して互いに連結する。入力/出力インターフェース１００５もバス１００４に接続される。

以下の要素も入力/出力インターフェース１００５に接続される：キーボードやマウス等を含む入力部１００６；例えばブラウン管（ＣＲＴ）や液晶ディスプレイ（ＬＣＤ）等のモニタやスピーカー等を含む出力部１００７；ハードディスク等を含む記録部１００８；例えばLANカード等のネットワークインタフェースカードやモデム等を含む通信部１００９。また、通信部１００９はネットワーク、例えばインターネットを介して通信処理を行う。必要に応じて、ドライブ部１０１０も入力/出力インターフェース１００５に接続される。取り外し可能な媒体１０１１、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体記憶装置等を、必要に応じてドライブ部１０１０に挿入し、その中から読み出されたコンピュータプログラムは必要に応じて記録部１００８にインストールされる。

ソフトウェアを通じて前記一連の処理を実現する場合、ネットワーク、例えばインターネット、または記憶媒体、例えば取り外し可能な媒体１０１１からソフトウェアを構成するプログラムをインストールする。

当業者が理解されるように、ここでの記録媒体は、図１０に示されたような、中にプログラムが記録され、設備と分離して配布しユーザにプログラムを提供する取り外し可能な媒体１０１１には限らない。取り外し可能な媒体１０１１の例として、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(コンパクトディスク（ＣＤ）による読み出し専用メモリ(ＣＤ−ＲＯＭ)とデジタル多用途ディスク(ＤＶＤ)を含む)、光磁気ディスク（ミニディスク(ＭＤ)(登録商標)を含む)と半導体記憶装置などを含む。また、記録媒体は、ＲＯＭ１００２や記録部１００８に含まれるハードディスクであっても良い。その中にプログラムが記録され、且つそれを記録する設備と一緒にユーザに配布される。

本発明は、機器が読み取り可能な命令コードを格納したプログラム製品を提供する。命令コードが機器に読み取りされ、且つ実行されるときに、上記本発明の実施例の方法を実行することができる。

また、上記機器が読み取り可能な命令コードを格納したプログラム製品の記憶媒体も本発明の開示に含まれる。記憶媒体はフロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含む。

ここでの実施例は例示的なものであり、本発明はこれらの実施例に限定されないことは、当業者に理解されるところである。

本明細書にある「第１」、「第２」及び「第Ｎ」等の記載は、関連特徴を文字上区別し、本発明をより明瞭に記載するためである。従って、限定的な意味合いは有しない。

一例として、上記方法の各ステップおよび前記設備の各構成モジュールおよび/またはユニットは、ソフトウェア、ファームウェア、ハードウェアまたはその組合せによって実現でき、且つその設備の中の一部となる。上記装置の各構成モジュールやユニットがソフトウェア、ファームウェア、ハードウェアまたはその組合せにより結合されるときに使用可能な手段または方式は、当業者に熟知されているため、ここでは、その説明を省略した。

一例として、ソフトウェアまたはファームウェアを通じて本発明を実現する場合、記憶媒体またはネットワークから専用ハードウェア構造を有するコンピュータ（例えば、図１０に示された汎用コンピュータ１０００）に当該ソフトウェアを構成するプログラムをインストールすることができる。当該コンピュータは、各種のプログラムがインストールされたときに、各種の機能を実現できる。

１つの実施形態について記載および/または図示した特徴は同一または類似の方法で１つまたは複数の他の実施形態で使用することができ、また、その他の実施形態の中の特徴と組合せ、または他の実施形態の特徴を代替することもできる。

強調すべきなのは、用語「含む/備える」は、本明細書において特徴、要素、ステップまたはモジュールの存在を表し、１つまたは複数の他の特徴、要素、ステップまたはモジュールの存在または付加を排除しない。

また、本発明の方法は、明細書に説明された時間順で行なわれることに限らず、他の時間順で、又は並行して、又は単独で実行することもできる。従って、本発明の技術的範囲は、明細書に記載の方法の実行順序に限定されない。

本発明は、添付の請求の範囲の要旨と範囲内に本発明に対する様々な変更、改善又は均等物を設計することができるものと認めるべきである。且つ、本発明の範囲は明細書に記載の過程、装置、手段、方法とステップの具体的な実施例に限定されない。当業者は、本発明に開示された内容から本発明の実施例に基本的に同じ機能を有し、基本的に同じ効果を奏する既存の、または将来開発される過程、装置、手段、方法またはステップを使用又は実行することができる。従って、添付の請求の範囲の要旨は、このような過程、装置、手段、方法またはステップを含む。

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
画像認識に用いられるニューラルネットワークの訓練方法であって、
サンプル画像を高次元空間における点の集合として表現するステップであって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、ステップと、
前記高次元空間の大きさと同じ大きさの第１ランダム摂動行列を生成するステップと、
前記第１ランダム摂動行列を平滑化するステップと、
平滑化後の第１ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、
摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法。
（付記２）
前記空間領域の大きさは前記サンプル画像の幅と高さとの積であり、前記強度領域の大きさはＤ１×Ｄ２×…×Ｄｎであり、ｎは前記強度領域の次元数であり、Ｄ１、Ｄ２、…Ｄｎはそれぞれ各次元の大きさである、付記１に記載の訓練方法。
（付記３）
摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップは、
前記摂動後の点の集合を前記高次元空間の二次元又は三次元の空間に投影して投影後の画像を取得し、投影後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップ、を含む、付記１に記載の訓練方法。
（付記４）
所定の確率分布により前記第１ランダム摂動行列を生成し、
前記所定の確率分布は、ガウス分布又は一様分布である、付記１に記載の訓練方法。
（付記５）
前記第１ランダム摂動行列と同じ次元数の低域フィルタを用いて前記第１ランダム摂動行列を平滑化し、
前記低域フィルタは、ガウスフィルタ、平均値フィルタ及びメディアンフィルタのうち１つである、付記１に記載の訓練方法。
（付記６）
平滑化後の第１ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させるステップは、
前記高次元空間における点の集合の各点の値に、前記平滑化後の第１ランダム摂動行列における対応要素の値を加算するステップ、を含む、付記１に記載の訓練方法。
（付記７）
第２ランダム摂動行列を生成するステップと、
前記第２ランダム摂動行列を平滑化するステップと、
平滑化後の第２ランダム摂動行列を用いて、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させるステップと、をさらに含み、
前記第２ランダム摂動行列の大きさは、前記特徴図の長さと幅と前記特徴図の数との積である、付記１に記載の訓練方法。
（付記８）
平滑化後の第２ランダム摂動行列を用いてニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させるステップは、
前記特徴図の値に、重み付けされた第２ランダム摂動行列の対応値を加算するステップ、を含み、
前記特徴図の絶対値が大きいほど、重み付け係数が大きくなる、付記７に記載の訓練方法。
（付記９）
画像認識に用いられるニューラルネットワークの訓練方法であって、
サンプル画像を変換して、前記サンプル画像の変換領域の表現を取得するステップと、
変換後のサンプル画像を高次元空間における点の集合として表現するステップと、
前記高次元空間の大きさと同じ大きさのランダム摂動行列を生成するステップと、
前記ランダム摂動行列を平滑化するステップと、
平滑化後のランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、
摂動後の点の集合を前記高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得するステップと、
前記摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得するステップと、
前記摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法。
（付記１０）
前記変換は、離散フーリエ変換又は離散コサイン変換である、付記９に記載の訓練方法。
（付記１１）
画像認識に用いられるニューラルネットワークの訓練装置であって、
サンプル画像を高次元空間における点の集合として表現する高次元空間表現手段であって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、高次元空間表現手段と、
前記高次元空間の大きさと同じ大きさの第１ランダム摂動行列を生成する第１ランダム摂動行列生成手段と、
前記第１ランダム摂動行列を平滑化する第１平滑化手段と、
平滑化後の第１ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得する第１摂動手段と、
摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練する訓練サンプル決定手段と、を含む、訓練装置。
（付記１２）
前記空間領域の大きさは前記サンプル画像の幅と高さとの積であり、前記強度領域の大きさはＤ１×Ｄ２×…×Ｄｎであり、ｎは前記強度領域の次元数であり、Ｄ１、Ｄ２、…Ｄｎはそれぞれ各次元の大きさである、付記１１に記載の訓練装置。
（付記１３）
前記訓練サンプル決定手段は、前記摂動後の点の集合を前記高次元空間の二次元又は三次元の空間に投影して投影後の画像を取得し、投影後の画像を新しいサンプルとしてニューラルネットワークを訓練する、付記１１に記載の訓練装置。
（付記１４）
前記第１ランダム摂動行列は、所定の確率分布によりを生成され、
前記所定の確率分布は、ガウス分布又は一様分布である、請求項１に記載の訓練方法。
（付記１５）
前記第１平滑化手段は、前記第１ランダム摂動行列と同じ次元数の低域フィルタを用いて前記第１ランダム摂動行列を平滑化し、
前記低域フィルタは、ガウスフィルタ、平均値フィルタ及びメディアンフィルタのうち１つである、付記１１に記載の訓練装置。
（付記１６）
前記第１摂動手段は、前記高次元空間における点の集合の各点の値に、前記平滑化後の第１ランダム摂動行列における対応要素の値を加算する、付記１１に記載の訓練装置。
（付記１７）
第２ランダム摂動行列を生成する第２ランダム摂動行列生成手段と、
前記第２ランダム摂動行列を平滑化する第２平滑化手段と、
平滑化後の第２ランダム摂動行列を用いて、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させる第２摂動手段と、をさらに含み、
前記第２ランダム摂動行列の大きさは、前記特徴図の長さと幅と前記特徴図の数との積である、付記１１に記載の訓練装置。
（付記１８）
前記第２摂動手段は、前記特徴図の値に、重み付けされた第２ランダム摂動行列の対応値を加算し、
前記特徴図の絶対値が大きいほど、重み付け係数が大きくなる、付記１７に記載の訓練装置。

Claims

画像認識に用いられるニューラルネットワークの訓練方法であって、
サンプル画像を高次元空間における点の集合として表現するステップであって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、ステップと、
前記高次元空間の大きさと同じ大きさの第１ランダム摂動行列を生成するステップと、
前記第１ランダム摂動行列を平滑化するステップと、
平滑化後の第１ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、
摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法。
前記空間領域の大きさは前記サンプル画像の幅と高さとの積であり、前記強度領域の大きさはＤ１×Ｄ２×…×Ｄｎであり、ｎは前記強度領域の次元数であり、Ｄ１、Ｄ２、…Ｄｎはそれぞれ各次元の大きさである、請求項１に記載の訓練方法。
摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップは、
前記摂動後の点の集合を前記高次元空間の二次元又は三次元の空間に投影して投影後の画像を取得し、投影後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップ、を含む、請求項１に記載の訓練方法。
所定の確率分布により前記第１ランダム摂動行列を生成し、
前記所定の確率分布は、ガウス分布又は一様分布である、請求項１に記載の訓練方法。
前記第１ランダム摂動行列と同じ次元数の低域フィルタを用いて前記第１ランダム摂動行列を平滑化し、
前記低域フィルタは、ガウスフィルタ、平均値フィルタ及びメディアンフィルタのうち１つである、請求項１に記載の訓練方法。
第２ランダム摂動行列を生成するステップと、
前記第２ランダム摂動行列を平滑化するステップと、
平滑化後の第２ランダム摂動行列を用いて、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させるステップと、をさらに含み、
前記第２ランダム摂動行列の大きさは、前記特徴図の長さと幅と前記特徴図の数との積である、請求項１に記載の訓練方法。
平滑化後の第２ランダム摂動行列を用いてニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させるステップは、
前記特徴図の値に、重み付けされた第２ランダム摂動行列の対応値を加算するステップ、を含み、
前記特徴図の絶対値が大きいほど、重み付け係数が大きくなる、請求項６に記載の訓練方法。
画像認識に用いられるニューラルネットワークの訓練方法であって、
サンプル画像を変換して、前記サンプル画像の変換領域の表現を取得するステップと、
変換後のサンプル画像を高次元空間における点の集合として表現するステップと、
前記高次元空間の大きさと同じ大きさのランダム摂動行列を生成するステップと、
前記ランダム摂動行列を平滑化するステップと、
平滑化後のランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、
摂動後の点の集合を前記高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得するステップと、
前記摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得するステップと、
前記摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法。
前記変換は、離散フーリエ変換又は離散コサイン変換である、請求項８に記載の訓練方法。
画像認識に用いられるニューラルネットワークの訓練装置であって、
サンプル画像を高次元空間における点の集合として表現する高次元空間表現手段であって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、高次元空間表現手段と、
前記高次元空間の大きさと同じ大きさの第１ランダム摂動行列を生成する第１ランダム摂動行列生成手段と、
前記第１ランダム摂動行列を平滑化する第１平滑化手段と、
平滑化後の第１ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得する第１摂動手段と、
摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練する訓練サンプル決定手段と、を含む、訓練装置。