JP2017049996A - 画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置 - Google Patents

画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置 Download PDF

Info

Publication number
JP2017049996A
JP2017049996A JP2016169239A JP2016169239A JP2017049996A JP 2017049996 A JP2017049996 A JP 2017049996A JP 2016169239 A JP2016169239 A JP 2016169239A JP 2016169239 A JP2016169239 A JP 2016169239A JP 2017049996 A JP2017049996 A JP 2017049996A
Authority
JP
Japan
Prior art keywords
dimensional space
size
training
points
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016169239A
Other languages
English (en)
Other versions
JP6825269B2 (ja
Inventor
チェヌ・リ
Li Chen
ワン・ソォン
Song Wang
ファヌ・ウエイ
Wei Fan
俊 孫
Shun Son
俊 孫
直井 聡
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2017049996A publication Critical patent/JP2017049996A/ja
Application granted granted Critical
Publication of JP6825269B2 publication Critical patent/JP6825269B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】本発明は画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を提供する。
【解決手段】該方法は、サンプル画像を高次元空間における点の集合として表現するステップであって、高次元空間の大きさはサンプル画像の空間領域の大きさとサンプル画像の強度領域の大きさとの積である、ステップと、高次元空間の大きさと同じ大きさの第1ランダム摂動行列を生成するステップと、第1ランダム摂動行列を平滑化するステップと、平滑化後の第1ランダム摂動行列を用いて高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップとを含む。
【選択図】図2

Description

本発明は、文字認識の分野に関し、具体的に、画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置に関する。
現在、手書き文字認識の分野では、畳み込みニューラルネットワーク(CNN)に基づく方法は、従来の認識方法に比べて、より良い性能を達成した。従来のニューラルネットワークの構成は図1に示した通り、その認識プロセスは(手書き数字6を例にして)、1つの画像(サンプル)を入力し、畳み込み、空間最大サンプリング及び全連結の処理を複数回繰り返した後で、CNNが各数字についての信頼度を出力し、信頼度の最も高い出力が認識結果である。従来のCNNモデルでは、各処理は1つ層で表される。例えば、畳み込み処理は畳み込み層に対応し、空間最大サンプリング処理はプーリング(pooling)層に対応し、全連結処理は全連結層に対応する。畳み込み層及びプーリング層の出力は二次元の行列であり、特徴図(feature map)と称される。図1において、各ブロックは1つの特徴図を表す。
近年では、多くの公開の実験的証拠によると、CNNの層数が大きいほど、各層のニューロンの数が大きくなり、CNNの性能が良くなる。しかし、CNNのモデルが大きいほど、訓練し難くなる。主な困難点は下記2点となる。
a)モデルが大きいほど、そのパラメータが多くなり、訓練する必要なサンプルが多くなる。
b)モデルが大きいほど、オーバーフィッティングの可能性が高くなる。
上記2つの困難点について、訓練セットが設定された場合は、従来の解決手段は以下の通りである。
a)訓練セットのサンプルに対してランダム摂動を行い、より多くの訓練サンプルを生成する。
b)訓練プロセスにおいてモデルに対してランダム摂動を行い、モデルの汎化能力を強化し、この方法を正則化方法と称する。
上記2つの問題点を1つの枠組み内に統合して解決する、より効率的な方法及び装置が求められている。
以下、本発明の主旨を理解させるため、本発明を簡単に説明する。なお、これらの説明は、本発明を限定するものではない。以下の説明は、本発明の肝心又は重要な部分を決定するものではなく、本発明の範囲を限定することではない。その目的は、その後の詳しい説明の前文として、ある概念を簡単に説明するものに過ぎない。
本発明は、画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を提供することを1つの主な目的とする。
本発明の一の態様では、画像認識に用いられるニューラルネットワークの訓練方法であって、サンプル画像を高次元空間における点の集合として表現するステップであって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、ステップと、前記高次元空間の大きさと同じ大きさの第1ランダム摂動行列を生成するステップと、前記第1ランダム摂動行列を平滑化するステップと、平滑化後の第1ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法を提供する。
本発明の他の態様では、画像認識に用いられるニューラルネットワークの訓練方法であって、サンプル画像を変換して、前記サンプル画像の変換領域の表現を取得するステップと、変換後のサンプル画像を高次元空間における点の集合として表現するステップと、前記高次元空間の大きさと同じ大きさのランダム摂動行列を生成するステップと、前記ランダム摂動行列を平滑化するステップと、平滑化後のランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、摂動後の点の集合を前記高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得するステップと、前記摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得するステップと、前記摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法を提供する。
本発明の他の態様では、画像認識に用いられるニューラルネットワークの訓練装置であって、サンプル画像を高次元空間における点の集合として表現する高次元空間表現手段であって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、高次元空間表現手段と、前記高次元空間の大きさと同じ大きさの第1ランダム摂動行列を生成する第1ランダム摂動行列生成手段と、前記第1ランダム摂動行列を平滑化する第1平滑化手段と、平滑化後の第1ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得する第1摂動手段と、摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練する訓練サンプル決定手段と、を含む、訓練装置を提供する。
また、本発明の実施例は、上記の方法を実施するコンピュータプログラムをさらに提供する。
また、本発明の実施例は、上記の方法を実施するコンピュータコードを記録する、少なくともコンピュータ読み取り可能な媒体の形式のコンピュータプログラムプロダクトをさらに提供する。
図面による本発明に対する以下の説明を参照すると、本発明の上記及び他利点がより明らかになるであろう。
下記図面の詳細の説明を通じて、本発明の実施例の上記の目的、他の目的、特徴及び利点はより明確になる。図面におけるユニットは、単なる本発明の原理を示すものである。図面において、同一又は類似する技術的特徴又はユニットは、同一又は類似する記号で示されている。
従来のニューラルネットワークの構成を示す図である。 本発明の1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法200の例示的なプロセスのフローチャートである。 本発明のもう1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法300の例示的なプロセスのフローチャートである。 本発明のもう1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法400の例示的なプロセスのフローチャートである。 3チャネル画像を周波数領域表現に変換することを示す図である。 3チャネル画像のDFT逆変換プロセスを示す図である。 本発明の1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置700の例示的な構成を示すブロック図である。 本発明のもう1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置800の例示的な構成を示すブロック図である。 本発明のもう1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置900の例示的な構成を示すブロック図である。 本発明の画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を実施するためのコンピュータ装置の例示的な構成を示す図である。
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。
なお、本発明を明確にするために、図面には本発明に密に関連する装置の構成要件及び/又は処理のステップのみが示され、本発明と関係のない細部が省略される。
本発明は、画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を提供する。これによって、畳み込みニューラルネットワーク(CNN)により多くの訓練サンプルを提供できると共に、オーバーフィッティングの問題点を回避できる。
本発明の方法では、背景技術の2つの問題点、即ちa)モデルが大きいほど、そのパラメータが多くなり、訓練する必要なサンプルが多くなること、及びb)モデルが大きいほど、オーバーフィッティングの可能性が高くなることを1つの枠組み内に統合して解決し、従来の方法に比べて、本発明は以下の利点を有する。
(1)より普遍的なサンプル生成方法を用いるため、生成されたサンプルのカバレッジがより広い。
(2)新しい正則化方法を用い、従来の方法に比べて、オーバーフィッティングの問題点をよりよく解決できる。
以下は、図面を参照しながら本発明の実施例に係る画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を詳細に説明する。以下の説明は下記の順序で説明する。
1.画像認識に用いられるニューラルネットワークの訓練方法
2.画像認識に用いられるニューラルネットワークの訓練装置
3.本願の方法及び装置を実施するためのコンピュータ装置
<1.画像認識に用いられるニューラルネットワークの訓練方法>
本発明の方法では、訓練セットのサンプルについてランダム変形の方法を用い、即ち訓練セットのサンプルに対してランダム摂動を行うことで、訓練セットを拡張するという目的を達成する。
ランダム変形の処理対象は大きさがW*Hの二次元画像であり、Wは画像の幅であり、Hは画像の高さである(図1に示すCNNモデルの入力)。画像の種類に応じて、画像は異なるチャネル数(チャネル数は強度領域の次元数とも称される)を有してもよい。例えば、グレースケール画像のチャネル数は1であり、カラー画像のチャネル数は3である。D1*D2*…×Dnで画像の強度領域空間の大きさを表してもよく、ここで、nはチャネル数であり、D1、D2、…Dnは各チャネルの強度の値範囲である。グレースケール画像の場合は、強度領域の大きさが255であり、カラー画像の場合は、強度領域の大きさが255*255*255である。ここで、サンプル画像を二次元空間W*Hの点の集合と見なし、点(w,h)における画素値は(d1,d2,…,dn)である。本発明の方法では、サンプル画像の各画素を高次元空間W*H*D1*D2*…*Dnにおける点を表し、点(w,h)における対応する点は(w,h,d1,d2,…,dn)である。原画像に対してランダム摂動を行う場合は、下記式(1)に示すように、点の集合における全ての点に摂動を加えればよい。
Figure 2017049996
ここで、
(外1)
Figure 2017049996
は該点のランダム摂動である。
上記の考え方に基づいて、図2は本発明の1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法200の例示的なプロセスのフローチャートを示している。
まず、ステップS202において、サンプル画像Iを高次元空間における点の集合Pとして表現する。高次元空間の大きさは、サンプル画像の空間領域の大きさとサンプル画像の強度領域の大きさとの積、即ちW*H*D1*D2*…*Dnである。
そして、ステップS204において、高次元空間の大きさと同じ大きさのランダム摂動行列Mを生成する。即ち、Mの大きさもW*H*D1*D2*…*Dnである。
1つの例では、所定の確率分布によりランダム摂動行列を生成する。該所定の確率分布は、ガウス分布、一様分布、又は他の連続的な分布である。
ステップS206において、ランダム摂動行列Mを平滑化する。
具体的には、n+2次元(即ちランダム摂動行列Mの次元数と同じ次元数)の低域フィルタを用いてランダム摂動行列Mをフィルタリングし、行列M’を生成する。ここで、低域フィルタは、ガウスフィルタ、平均値フィルタ、又はメディアンフィルタ等であってもよい。
ステップS208において、平滑化後のランダム摂動行列M’を用いて点の集合Pを摂動させて、摂動後の点の集合P’を取得する。
1つの例では、上記式(1)を用いて点の集合Pを摂動させてもよい。
最後に、ステップS210において、摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練する。
1つの例では、ステップS210は、具体的に、摂動後の点の集合P’を高次元空間の二次元又は三次元の空間に投影して投影後の画像I’を取得し、投影後の画像I’を新しいサンプルとしてニューラルネットワークを訓練するステップ、をさらに含む。
本発明のもう1つの実施例では、上記ランダム変形の方法を、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図に用いることで、本発明の正則化方法を得る。特徴図は、数学的に二次元の行列で表されてもよい。一般的には、畳み込み層は複数の同一の大きさの特徴図を出力する。本発明では、これらの特徴図を三次元の行列Fと表し、その大きさがW*H*Nであり、ここで、W及びHは該特徴図の幅及び高さを表し、Nは特徴図の数を表す。本発明の正則法の基本的思想は、訓練プロセスにおいて、畳み込み層により出力された特徴図にランダム雑音を追加することで、CNNモデルに雑音のあるデータにおける有用な知識を学習させ、CNNモデルの汎化能力を強化する。
図3は本発明のもう1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法300の例示的なプロセスのフローチャートである。
図3の訓練方法300のステップS302乃至S310と図2の訓練方法200のステップS202乃至S210と類似し、ここでその説明が省略される。
図3に示す訓練方法は、下記のステップS312乃至S316をさらに含む。
ステップS312において、大きさのW*H*Nのランダム摂動行列Lを生成する。
1つの例では、所定の確率分布によりランダム摂動行列を生成する。該所定の確率分布は、ガウス分布、一様分布又は他の連続的な分布であってもよい。
ステップS314において、三次元の低域フィルタを用いてランダム摂動行列Lをフィルタリングし、行列L’を生成する。
低域フィルタは、ガウスフィルタ、平均値フィルタ又はメディアンフィルタ等であってもよい。
ステップS316において、平滑化後のランダム摂動行列L’を用いて特徴図Fを摂動させて、摂動された特徴図F’を取得する。
一般的には、特徴図の値に、重み付けされたランダム摂動行列の対応値を加算することで特徴図を摂動させる。ここで、特徴図の絶対値が大きいほど、重み付け係数が大きくなる。
1つの例では、下記の式に従って特徴図Fを摂動させてもよい。
Figure 2017049996
図3の訓練方法300では、ステップS312乃至S316により、畳み込み層により出力された特徴図にランダム雑音を追加することで、CNNモデルに雑音のあるデータにおける有用な知識を学習させ、CNNモデルの汎化能力を強化できる。
本発明のもう1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法では、上記の方法を基にして、原画像を周波数領域に変換し、周波数領域で同様な方法を用いて画像を摂動させ、最後に画像を周波数領域から空間領域に変換してもよい。図4は本発明のもう1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練方法400の例示的なプロセスのフローチャートである。
訓練方法400は、ステップS402、即ちサンプル画像を変換して、サンプル画像の変換領域の表現を取得するステップと、ステップ404、即ち変換後のサンプル画像を高次元空間における点の集合として表現するステップと、ステップ406、即ち高次元空間の大きさと同じ大きさのランダム摂動行列を生成するステップと、ステップ408、即ちランダム摂動行列を平滑化するステップと、ステップ410、即ち平滑化後のランダム摂動行列を用いて高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、ステップ412、即ち摂動後の点の集合を高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得するステップと、ステップS414、即ち摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得するステップと、ステップ416、即ち摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む。
ステップS404、S406、S408及びS410は図2における訓練方法200のステップS202、S204、S206及びS208とそれぞれ類似し、ここでその説明が省略される。
ここで、主にステップS402、S412及びS414を説明する。
まず、ステップS402(サンプル画像を変換して、サンプル画像の変換領域の表現を取得する)を詳細に説明する。
明細書では、原画像を周波数領域に変換することを例にして説明する。離散フーリエ変換(DFT)又は離散コサイン変換(DCT)を用いて、原画像を周波数領域の表現に変換してもよい。ここで、DFTの例を説明し、DCTのステップはDFTのステップと同様である。DFTは通常二次元画像で機能するため、単一チャネルの画像について、直接DFTによりスペクトログラムを取得してもよく、マルチチャネルの画像について、各チャネルについてDFTをそれぞれ行って各チャネルのスペクトログラムを取得し、各チャネルのスペクトログラムを併合してもよい。スペクトログラムを離散の多次元空間の点の集合として表現するために、ここで、各チャネルのスペクトログラムを正規化する。
図5は3チャネル画像を周波数領域表現に変換することを示す図である。まず、原画像をチャネルごとに3つの単一チャネルの画像に分けて、そして、各チャネル画像に対してDFTをそれぞれ行い、対応するスペクトログラムを取得し、そして、各チャネルのスペクトログラムに対して正規化処理を行い、最後に、正規化後のスペクトログラムをチャネルごとに併合し、原画像に対応するスペクトログラムを形成する。説明の便宜上、図5において原画像及びそのスペクトログラムごとに表している。
各チャネルのスペクトログラムの正規化のプロセスは以下の通りである。
1)スペクトログラムの各画素点の値dについて下記の対数変換を行う。
Figure 2017049996
2)変換後のスペクトログラムの全ての画素点の値を[0,MAX]に線形で変形し、その最も近い整数を取得し、ここで、MAXは所定の正整数である。
図5に示すようにスペクトログラムを取得した後に、該スペクトログラムを高次元空間における1つの点と見なしてもよい。具体的な方法は図2におけるランダム変形方法と同様である。
そして、ステップS412、即ち摂動後の点の集合を前記高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得するステップ、及びステップS414、即ち摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得するステップを詳細に説明する。
ステップS412及びS414に示すプロセスは、ステップS402及びS404に示すプロセスの逆処理である。ステップS412において、摂動後の点の集合をサブ空間に投影して、摂動後の画像の変換領域の表現を取得する。原画像を周波数領域に変換する場合は、該サブ空間は周波数領域である。
以下は図6を参照しながらステップS414を説明する。図6は3チャネル画像のDFT逆変換プロセスを示す図である。
1)変形後のマルチチャネルのスペクトログラムを単一チャネルのスペクトログラムに分ける。
2)各単一チャネルのスペクトログラムを逆正規化し、逆正規化後のスペクトログラムを取得する。
3)上記ステップ2)において取得された結果をDFT逆変換し、単一チャネルの空間領域画像を取得する。
4)全ての単一チャネルの空間領域画像をチャネルごとに併合し、ランダム摂動後の画像を取得する。
なお、図5及び図6における同一テクスチャを有する矩形は同一特性の画像を表さなく、図6におけるテクスチャの構成は、単なる図6に示すプロセスが図5に示すプロセスの逆プロセスであることを示すためのものである。
ここで、逆正規化処理は、上記図5に説明した正規化処理の逆プロセスとして、下記のステップを有する。
1)単一チャネルのスペクトログラムにおける各点の値を、関数y=h(x)に従ってマッピングする。正規化処理の線形変換関数がy=f(x)である場合は、h(x)=f−1(x)となる。
2)マッピング後の結果を、式d’=e−1に従って変換し、逆正規化の結果を取得する。
最後に、ステップS416において、摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練する。
当業者が分かるように、本発明のもう1つの実施例では、訓練方法400のステップS416の後に、図3に示す訓練方法300と同様に、畳み込み層により取得された特徴図に対してランダム摂動を行うステップを含んでもよく、ここでその説明が省略される。
なお、上述した訓練セットのサンプルに対してランダム摂動を行うランダム変形方法、及び特徴図にランダム雑音を追加する正則化方法は、ニューラルネットワークの訓練段階にのみ用いられる。訓練段階で上記2つの方法を用いて得られたモデルについて、テスト段階で上記方法を除去すればよく、即ちテスト段階でサンプルに対して摂動を行い、或いは特徴図にランダム雑音を追加する必要がない。
<2.画像認識に用いられるニューラルネットワークの訓練装置>
図7は本発明の1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置700の例示的な構成を示すブロック図である。
図7に示すように、画像認識に用いられるニューラルネットワークの訓練装置700は、高次元空間表現部702、第1ランダム摂動行列生成部704、第1平滑化部706、第1摂動部708、及び訓練サンプル決定部710を含む。
高次元空間表現部702は、サンプル画像を高次元空間における点の集合として表現する。高次元空間の大きさは、サンプル画像の空間領域の大きさとサンプル画像の強度領域の大きさとの積である。
第1ランダム摂動行列生成部704は、高次元空間の大きさと同じ大きさの第1ランダム摂動行列を生成する。
第1平滑化部706は、第1ランダム摂動行列を平滑化する。
第1摂動部708は、平滑化後の第1ランダム摂動行列を用いて高次元空間における点の集合を摂動させて、摂動後の点の集合を取得する。
訓練サンプル決定部710は、摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練する。
ここで、空間領域の大きさはサンプル画像の幅と高さとの積であり、強度領域の大きさはD1×D2×…×Dnであり、nは強度領域の次元数であり、D1、D2、…Dnはそれぞれ各次元の大きさである。
ここで、訓練サンプル決定部710は、摂動後の点の集合を高次元空間の二次元又は三次元の空間に投影して投影後の画像を取得し、投影後の画像を新しいサンプルとしてニューラルネットワークを訓練する。
ここで、第1ランダム摂動行列は、所定の確率分布によりを生成され、所定の確率分布は、ガウス分布又は一様分布である。
第1平滑化部706は、第1ランダム摂動行列と同じ次元数の低域フィルタを用いて第1ランダム摂動行列を平滑化し、低域フィルタは、ガウスフィルタ、平均値フィルタ及びメディアンフィルタのうち1つである。
第1摂動部708は、高次元空間における点の集合の各点の値に、平滑化後の第1ランダム摂動行列における対応要素の値を加算する。
図8は本発明のもう1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置800の例示的な構成を示すブロック図である。
図8に示すように、訓練装置800は、高次元空間表現部802、第1ランダム摂動行列生成部804、第1平滑化部806、第1摂動部808、訓練サンプル決定部810、第2ランダム摂動行列生成部812、第2平滑化部814、及び第2摂動部816を含む。
言い換えれば、図8に示す訓練装置800は、図7に示す訓練装置700の各構成部以外、第2ランダム摂動行列生成部812、第2平滑化部814、及び第2摂動部816をさらに含む。
図8における高次元空間表現部802、第1ランダム摂動行列生成部804、第1平滑化部806、第1摂動部808、訓練サンプル決定部810は、図7を参照しながら説明された高次元空間表現部702、第1ランダム摂動行列生成部704、第1平滑化部706、第1摂動部708、訓練サンプル決定部710と類似し、ここでその説明が省略される。
図8に示す訓練装置800では、第2ランダム摂動行列生成部812は、第2ランダム摂動行列を生成する。
ここで、第2ランダム摂動行列の大きさは、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図の長さと幅と前記特徴図の数との積である。
1つの例では、所定の確率分布により前記第1ランダム摂動行列を生成する。該所定の確率分布は、ガウス分布、一様分布、又は他の連続的な分布であってもよい。
第2平滑化部814は、第2ランダム摂動行列を平滑化する。
具体的には、三次元の低域フィルタを用いて第2ランダム摂動行列を平滑化する。
ここで、低域フィルタは、ガウスフィルタ、平均値フィルタ、又はメディアンフィルタ等であってもよい。
第2摂動部816は、平滑化後の第2ランダム摂動行列を用いて、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させる。
ここで、第2摂動部816は、特徴図の値に、重み付けされた第2ランダム摂動行列の対応値を加算する。特徴図の絶対値が大きいほど、重み付け係数が大きくなる。
図9は本発明のもう1つの実施例に係る画像認識に用いられるニューラルネットワークの訓練装置900の例示的な構成を示すブロック図である。
図9に示すように、訓練装置900は、変換部902、高次元空間表現部904、ランダム摂動行列生成部906、平滑化部908、摂動部910、投影部912、逆変換部914、及び訓練サンプル決定部916を含む。
変換部902は、サンプル画像を変換して、前記サンプル画像の変換領域の表現を取得する。高次元空間表現部904は、変換後のサンプル画像を高次元空間における点の集合として表現する。ランダム摂動行列生成部906は、高次元空間の大きさと同じ大きさのランダム摂動行列を生成する。平滑化部908は、ランダム摂動行列を平滑化する。摂動部910は、平滑化後のランダム摂動行列を用いて高次元空間における点の集合を摂動させて、摂動後の点の集合を取得する。投影部912は、摂動後の点の集合を高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得する。逆変換部914は、摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得する。訓練サンプル決定部916は、摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練する。
画像認識に用いられるニューラルネットワークの訓練装置700、800及び900の各部の処理及び機能の詳細は、図1〜図6を参照しながら説明された本発明の画像認識に用いられるニューラルネットワークの訓練方法の実施例を参照してもよく、ここで詳細な説明が省略される。
なお、図7〜図9に示す装置及びその構成部の構成は単なる例示的なものであり、当業者は必要に応じて図7〜図9に示す構成のブロック図を変更してもよい。
本発明は、画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置を提供する。本発明は、2つの面で従来のCNNモデルの分類性能を改善した。まず、CNN訓練サンプルが不十分であるという問題点について、本発明は、従来のランダム変形方法を拡張し、該方法により広い範囲にカバーさせるため、より多くの訓練サンプルを生成できる。また、CNNモデルのオーバーフィッティングの問題点について、本発明は新しい正則化方法を提供する。該方法は、訓練プロセスにおいて畳み込み層により出力された特徴図に対して摂動を行い、ノイズのよりロバストな方向においてCNNモデルを訓練することで、オーバーフィッティングの影響を低減し、CNNモデルの汎化能力を強化した。
<3.本願の方法及び装置を実施するためのコンピュータ装置>
以上、具体的な実施例を用いて本発明の基本原理について説明したが、強調すべきなのは、本発明の方法と装置の全て又はいずれのステップ又は構成要素が、任意の計算装置(プロセッサや記憶媒体等を含む)または計算装置のネットワークにおいて、ハードウェア、ファームウェア、ソフトウェアまたはそれらの組合せにより実現できることは、当業者にとって理解されるところである。また、これは当業者が本発明の明細書を読んだ上で彼らの基本的なプログラミングスキルを利用して実現できるものである。
従って、本発明の目的は、任意の計算装置において1つ又は1組のプログラムを実行することにより実現することができる。前記計算装置は従来の汎用装置であってもよい。また、本発明の目的は、前記方法又は装置を実現するプログラムコードを含むプログラム製品を提供するだけで実現される。即ち、このようなプログラム製品も本発明を構成するものであり、且つこのようなプログラム製品を格納した記憶媒体も本発明を構成するものである。もとろん、前記記憶媒体は、任意の従来の記憶媒体又は将来開発される任意の記憶媒体であってもよい。
ソフトウェアおよび/またはファームウェアを通じて本発明の実施例を実現する場合、記憶媒体またはネットワークを通じて専用ハードウェア構造を有するコンピュータ、例えば、図10に示されたような汎用コンピュータ1000に当該ソフトウェアを構成するプログラムをインストールし、当該コンピュータは、各種類のプログラムがインストールされたときに、各種の機能等を実行することができる。
図10では、セントラル・プロセッシング・ユニット(CPU)1001は、読み取り専用メモリ(ROM)1002に格納されたプログラムまたは記憶部1008からランダム・アクセス・メモリ(RAM)1003にアップロードされたプログラムにより各種の処理を実行する。RAM1003には、必要に応じてCPU1001が各種の処理を実行するときに必要なデータを記憶する。CPU1001、ROM1002とRAM1003はバス1004を介して互いに連結する。入力/出力インターフェース1005もバス1004に接続される。
以下の要素も入力/出力インターフェース1005に接続される:キーボードやマウス等を含む入力部1006;例えばブラウン管(CRT)や液晶ディスプレイ(LCD)等のモニタやスピーカー等を含む出力部1007;ハードディスク等を含む記録部1008;例えばLANカード等のネットワークインタフェースカードやモデム等を含む通信部1009。また、通信部1009はネットワーク、例えばインターネットを介して通信処理を行う。必要に応じて、ドライブ部1010も入力/出力インターフェース1005に接続される。取り外し可能な媒体1011、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体記憶装置等を、必要に応じてドライブ部1010に挿入し、その中から読み出されたコンピュータプログラムは必要に応じて記録部1008にインストールされる。
ソフトウェアを通じて前記一連の処理を実現する場合、ネットワーク、例えばインターネット、または記憶媒体、例えば取り外し可能な媒体1011からソフトウェアを構成するプログラムをインストールする。
当業者が理解されるように、ここでの記録媒体は、図10に示されたような、中にプログラムが記録され、設備と分離して配布しユーザにプログラムを提供する取り外し可能な媒体1011には限らない。取り外し可能な媒体1011の例として、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(コンパクトディスク(CD)による読み出し専用メモリ(CD−ROM)とデジタル多用途ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標)を含む)と半導体記憶装置などを含む。また、記録媒体は、ROM1002や記録部1008に含まれるハードディスクであっても良い。その中にプログラムが記録され、且つそれを記録する設備と一緒にユーザに配布される。
本発明は、機器が読み取り可能な命令コードを格納したプログラム製品を提供する。命令コードが機器に読み取りされ、且つ実行されるときに、上記本発明の実施例の方法を実行することができる。
また、上記機器が読み取り可能な命令コードを格納したプログラム製品の記憶媒体も本発明の開示に含まれる。記憶媒体はフロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含む。
ここでの実施例は例示的なものであり、本発明はこれらの実施例に限定されないことは、当業者に理解されるところである。
本明細書にある「第1」、「第2」及び「第N」等の記載は、関連特徴を文字上区別し、本発明をより明瞭に記載するためである。従って、限定的な意味合いは有しない。
一例として、上記方法の各ステップおよび前記設備の各構成モジュールおよび/またはユニットは、ソフトウェア、ファームウェア、ハードウェアまたはその組合せによって実現でき、且つその設備の中の一部となる。上記装置の各構成モジュールやユニットがソフトウェア、ファームウェア、ハードウェアまたはその組合せにより結合されるときに使用可能な手段または方式は、当業者に熟知されているため、ここでは、その説明を省略した。
一例として、ソフトウェアまたはファームウェアを通じて本発明を実現する場合、記憶媒体またはネットワークから専用ハードウェア構造を有するコンピュータ(例えば、図10に示された汎用コンピュータ1000)に当該ソフトウェアを構成するプログラムをインストールすることができる。当該コンピュータは、各種のプログラムがインストールされたときに、各種の機能を実現できる。
1つの実施形態について記載および/または図示した特徴は同一または類似の方法で1つまたは複数の他の実施形態で使用することができ、また、その他の実施形態の中の特徴と組合せ、または他の実施形態の特徴を代替することもできる。
強調すべきなのは、用語「含む/備える」は、本明細書において特徴、要素、ステップまたはモジュールの存在を表し、1つまたは複数の他の特徴、要素、ステップまたはモジュールの存在または付加を排除しない。
また、本発明の方法は、明細書に説明された時間順で行なわれることに限らず、他の時間順で、又は並行して、又は単独で実行することもできる。従って、本発明の技術的範囲は、明細書に記載の方法の実行順序に限定されない。
本発明は、添付の請求の範囲の要旨と範囲内に本発明に対する様々な変更、改善又は均等物を設計することができるものと認めるべきである。且つ、本発明の範囲は明細書に記載の過程、装置、手段、方法とステップの具体的な実施例に限定されない。当業者は、本発明に開示された内容から本発明の実施例に基本的に同じ機能を有し、基本的に同じ効果を奏する既存の、または将来開発される過程、装置、手段、方法またはステップを使用又は実行することができる。従って、添付の請求の範囲の要旨は、このような過程、装置、手段、方法またはステップを含む。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
画像認識に用いられるニューラルネットワークの訓練方法であって、
サンプル画像を高次元空間における点の集合として表現するステップであって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、ステップと、
前記高次元空間の大きさと同じ大きさの第1ランダム摂動行列を生成するステップと、
前記第1ランダム摂動行列を平滑化するステップと、
平滑化後の第1ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、
摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法。
(付記2)
前記空間領域の大きさは前記サンプル画像の幅と高さとの積であり、前記強度領域の大きさはD1×D2×…×Dnであり、nは前記強度領域の次元数であり、D1、D2、…Dnはそれぞれ各次元の大きさである、付記1に記載の訓練方法。
(付記3)
摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップは、
前記摂動後の点の集合を前記高次元空間の二次元又は三次元の空間に投影して投影後の画像を取得し、投影後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップ、を含む、付記1に記載の訓練方法。
(付記4)
所定の確率分布により前記第1ランダム摂動行列を生成し、
前記所定の確率分布は、ガウス分布又は一様分布である、付記1に記載の訓練方法。
(付記5)
前記第1ランダム摂動行列と同じ次元数の低域フィルタを用いて前記第1ランダム摂動行列を平滑化し、
前記低域フィルタは、ガウスフィルタ、平均値フィルタ及びメディアンフィルタのうち1つである、付記1に記載の訓練方法。
(付記6)
平滑化後の第1ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させるステップは、
前記高次元空間における点の集合の各点の値に、前記平滑化後の第1ランダム摂動行列における対応要素の値を加算するステップ、を含む、付記1に記載の訓練方法。
(付記7)
第2ランダム摂動行列を生成するステップと、
前記第2ランダム摂動行列を平滑化するステップと、
平滑化後の第2ランダム摂動行列を用いて、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させるステップと、をさらに含み、
前記第2ランダム摂動行列の大きさは、前記特徴図の長さと幅と前記特徴図の数との積である、付記1に記載の訓練方法。
(付記8)
平滑化後の第2ランダム摂動行列を用いてニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させるステップは、
前記特徴図の値に、重み付けされた第2ランダム摂動行列の対応値を加算するステップ、を含み、
前記特徴図の絶対値が大きいほど、重み付け係数が大きくなる、付記7に記載の訓練方法。
(付記9)
画像認識に用いられるニューラルネットワークの訓練方法であって、
サンプル画像を変換して、前記サンプル画像の変換領域の表現を取得するステップと、
変換後のサンプル画像を高次元空間における点の集合として表現するステップと、
前記高次元空間の大きさと同じ大きさのランダム摂動行列を生成するステップと、
前記ランダム摂動行列を平滑化するステップと、
平滑化後のランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、
摂動後の点の集合を前記高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得するステップと、
前記摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得するステップと、
前記摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法。
(付記10)
前記変換は、離散フーリエ変換又は離散コサイン変換である、付記9に記載の訓練方法。
(付記11)
画像認識に用いられるニューラルネットワークの訓練装置であって、
サンプル画像を高次元空間における点の集合として表現する高次元空間表現手段であって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、高次元空間表現手段と、
前記高次元空間の大きさと同じ大きさの第1ランダム摂動行列を生成する第1ランダム摂動行列生成手段と、
前記第1ランダム摂動行列を平滑化する第1平滑化手段と、
平滑化後の第1ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得する第1摂動手段と、
摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練する訓練サンプル決定手段と、を含む、訓練装置。
(付記12)
前記空間領域の大きさは前記サンプル画像の幅と高さとの積であり、前記強度領域の大きさはD1×D2×…×Dnであり、nは前記強度領域の次元数であり、D1、D2、…Dnはそれぞれ各次元の大きさである、付記11に記載の訓練装置。
(付記13)
前記訓練サンプル決定手段は、前記摂動後の点の集合を前記高次元空間の二次元又は三次元の空間に投影して投影後の画像を取得し、投影後の画像を新しいサンプルとしてニューラルネットワークを訓練する、付記11に記載の訓練装置。
(付記14)
前記第1ランダム摂動行列は、所定の確率分布によりを生成され、
前記所定の確率分布は、ガウス分布又は一様分布である、請求項1に記載の訓練方法。
(付記15)
前記第1平滑化手段は、前記第1ランダム摂動行列と同じ次元数の低域フィルタを用いて前記第1ランダム摂動行列を平滑化し、
前記低域フィルタは、ガウスフィルタ、平均値フィルタ及びメディアンフィルタのうち1つである、付記11に記載の訓練装置。
(付記16)
前記第1摂動手段は、前記高次元空間における点の集合の各点の値に、前記平滑化後の第1ランダム摂動行列における対応要素の値を加算する、付記11に記載の訓練装置。
(付記17)
第2ランダム摂動行列を生成する第2ランダム摂動行列生成手段と、
前記第2ランダム摂動行列を平滑化する第2平滑化手段と、
平滑化後の第2ランダム摂動行列を用いて、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させる第2摂動手段と、をさらに含み、
前記第2ランダム摂動行列の大きさは、前記特徴図の長さと幅と前記特徴図の数との積である、付記11に記載の訓練装置。
(付記18)
前記第2摂動手段は、前記特徴図の値に、重み付けされた第2ランダム摂動行列の対応値を加算し、
前記特徴図の絶対値が大きいほど、重み付け係数が大きくなる、付記17に記載の訓練装置。

Claims (10)

  1. 画像認識に用いられるニューラルネットワークの訓練方法であって、
    サンプル画像を高次元空間における点の集合として表現するステップであって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、ステップと、
    前記高次元空間の大きさと同じ大きさの第1ランダム摂動行列を生成するステップと、
    前記第1ランダム摂動行列を平滑化するステップと、
    平滑化後の第1ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、
    摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法。
  2. 前記空間領域の大きさは前記サンプル画像の幅と高さとの積であり、前記強度領域の大きさはD1×D2×…×Dnであり、nは前記強度領域の次元数であり、D1、D2、…Dnはそれぞれ各次元の大きさである、請求項1に記載の訓練方法。
  3. 摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練するステップは、
    前記摂動後の点の集合を前記高次元空間の二次元又は三次元の空間に投影して投影後の画像を取得し、投影後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップ、を含む、請求項1に記載の訓練方法。
  4. 所定の確率分布により前記第1ランダム摂動行列を生成し、
    前記所定の確率分布は、ガウス分布又は一様分布である、請求項1に記載の訓練方法。
  5. 前記第1ランダム摂動行列と同じ次元数の低域フィルタを用いて前記第1ランダム摂動行列を平滑化し、
    前記低域フィルタは、ガウスフィルタ、平均値フィルタ及びメディアンフィルタのうち1つである、請求項1に記載の訓練方法。
  6. 第2ランダム摂動行列を生成するステップと、
    前記第2ランダム摂動行列を平滑化するステップと、
    平滑化後の第2ランダム摂動行列を用いて、ニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させるステップと、をさらに含み、
    前記第2ランダム摂動行列の大きさは、前記特徴図の長さと幅と前記特徴図の数との積である、請求項1に記載の訓練方法。
  7. 平滑化後の第2ランダム摂動行列を用いてニューラルネットワークの訓練プロセスにおいて畳み込み層により出力された特徴図を摂動させるステップは、
    前記特徴図の値に、重み付けされた第2ランダム摂動行列の対応値を加算するステップ、を含み、
    前記特徴図の絶対値が大きいほど、重み付け係数が大きくなる、請求項6に記載の訓練方法。
  8. 画像認識に用いられるニューラルネットワークの訓練方法であって、
    サンプル画像を変換して、前記サンプル画像の変換領域の表現を取得するステップと、
    変換後のサンプル画像を高次元空間における点の集合として表現するステップと、
    前記高次元空間の大きさと同じ大きさのランダム摂動行列を生成するステップと、
    前記ランダム摂動行列を平滑化するステップと、
    平滑化後のランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得するステップと、
    摂動後の点の集合を前記高次元空間の変換領域のサブ空間に投影して、摂動後のサンプル画像の変換領域の表現を取得するステップと、
    前記摂動後のサンプル画像の変換領域の表現を逆変換して、摂動後の画像を取得するステップと、
    前記摂動後の画像を新しいサンプルとしてニューラルネットワークを訓練するステップと、を含む、訓練方法。
  9. 前記変換は、離散フーリエ変換又は離散コサイン変換である、請求項8に記載の訓練方法。
  10. 画像認識に用いられるニューラルネットワークの訓練装置であって、
    サンプル画像を高次元空間における点の集合として表現する高次元空間表現手段であって、前記高次元空間の大きさは前記サンプル画像の空間領域の大きさと前記サンプル画像の強度領域の大きさとの積である、高次元空間表現手段と、
    前記高次元空間の大きさと同じ大きさの第1ランダム摂動行列を生成する第1ランダム摂動行列生成手段と、
    前記第1ランダム摂動行列を平滑化する第1平滑化手段と、
    平滑化後の第1ランダム摂動行列を用いて前記高次元空間における点の集合を摂動させて、摂動後の点の集合を取得する第1摂動手段と、
    摂動後の点の集合を新しいサンプルとしてニューラルネットワークを訓練する訓練サンプル決定手段と、を含む、訓練装置。
JP2016169239A 2015-09-02 2016-08-31 画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置 Active JP6825269B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510556368.0A CN106485192B (zh) 2015-09-02 2015-09-02 用于图像识别的神经网络的训练方法和装置
CN201510556368.0 2015-09-02

Publications (2)

Publication Number Publication Date
JP2017049996A true JP2017049996A (ja) 2017-03-09
JP6825269B2 JP6825269B2 (ja) 2021-02-03

Family

ID=56684444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016169239A Active JP6825269B2 (ja) 2015-09-02 2016-08-31 画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置

Country Status (4)

Country Link
US (1) US10296813B2 (ja)
EP (1) EP3139310A1 (ja)
JP (1) JP6825269B2 (ja)
CN (1) CN106485192B (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018174438A1 (en) * 2017-03-23 2018-09-27 Samsung Electronics Co., Ltd. Electronic apparatus for operating machine learning and method for operating machine learning
JP2018156632A (ja) * 2017-12-25 2018-10-04 株式会社コナミデジタルエンタテインメント サーバ装置、及びそれに用いられるコンピュータプログラム
JP2019153293A (ja) * 2018-02-28 2019-09-12 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 人工ニューラルネットワークを用いたocrシステムのための、線認識最大−最小プーリングを用いたテキスト画像の処理
JP2020508531A (ja) * 2017-09-08 2020-03-19 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド 画像品質の評価方法及び画像品質の評価システム
WO2021049005A1 (ja) 2019-09-13 2021-03-18 三菱電機株式会社 情報処理装置およびそれを備えた電子機器
CN113554179A (zh) * 2020-04-23 2021-10-26 丰田自动车株式会社 信息处理***
JP2021530777A (ja) * 2018-07-18 2021-11-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 人工知能に基づく医療ソリューションを開発するための患者のシミュレーション
JP2022553768A (ja) * 2020-06-10 2022-12-26 上▲海▼商▲湯▼智能科技有限公司 顔画像の真偽を識別する方法、装置、デバイス及び媒体並びにコンピュータプログラム

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102347204B1 (ko) * 2016-05-20 2022-01-03 매직 립, 인코포레이티드 콘볼루셔널 이미지 변환 추정을 수행하기 위한 방법 및 시스템
CN106157307B (zh) * 2016-06-27 2018-09-11 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN108932459B (zh) * 2017-05-26 2021-12-10 富士通株式会社 脸部识别模型训练方法和装置及脸部识别方法
KR102301232B1 (ko) * 2017-05-31 2021-09-10 삼성전자주식회사 다채널 특징맵 영상을 처리하는 방법 및 장치
US10783393B2 (en) * 2017-06-20 2020-09-22 Nvidia Corporation Semi-supervised learning for landmark localization
CN107463960A (zh) * 2017-08-07 2017-12-12 石林星 一种图像识别方法及装置
CN107564063B (zh) * 2017-08-30 2021-08-13 广州方硅信息技术有限公司 一种基于卷积神经网络的虚拟物显示方法及装置
CN107563434B (zh) * 2017-08-30 2020-12-15 山东大学 一种基于三维卷积神经网络的脑部mri图像分类方法、装置
CN107644428A (zh) * 2017-09-29 2018-01-30 广东电网有限责任公司中山供电局 一种基于多域度重映射的输电线路漂浮物图像分割方法
US10650072B2 (en) * 2017-10-30 2020-05-12 Facebook, Inc. System and method for determination of a digital destination based on a multi-part identifier
US10810277B1 (en) 2017-10-30 2020-10-20 Facebook, Inc. System and method for determination of a digital destination based on a multi-part identifier
CN108090451B (zh) * 2017-12-20 2019-12-24 湖北工业大学 一种人脸识别方法及***
KR102174777B1 (ko) 2018-01-23 2020-11-06 주식회사 날비컴퍼니 이미지의 품질 향상을 위하여 이미지를 처리하는 방법 및 장치
WO2019147020A1 (ko) * 2018-01-23 2019-08-01 주식회사 날비컴퍼니 이미지의 품질 향상을 위하여 이미지를 처리하는 방법 및 장치
CN108845759B (zh) * 2018-04-28 2021-08-24 北京猎户星空科技有限公司 一种数据序列构建方法、装置及电子设备
CN108615071B (zh) * 2018-05-10 2020-11-24 创新先进技术有限公司 模型测试的方法及装置
CN111542841A (zh) * 2018-06-08 2020-08-14 北京嘀嘀无限科技发展有限公司 一种内容识别的***和方法
US12014267B2 (en) * 2018-07-13 2024-06-18 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for sequential event prediction with noise-contrastive estimation for marked temporal point process
CN110795976B (zh) * 2018-08-03 2023-05-05 华为云计算技术有限公司 一种训练物体检测模型的方法、装置以及设备
US10719737B2 (en) 2018-08-23 2020-07-21 Denso International America, Inc. Image classification system for resizing images to maintain aspect ratio information
WO2020261552A1 (en) * 2019-06-28 2020-12-30 Nec Corporation Spoofing detection apparatus, spoofing detection method, and computer-readable storage medium
CN110728661A (zh) * 2019-09-18 2020-01-24 清华大学 基于随机生成样本的图像畸变评价网络训练方法及装置
CN111652966B (zh) * 2020-05-11 2021-06-04 北京航空航天大学 一种基于无人机多视角的三维重建方法及装置
CN111652330B (zh) * 2020-08-05 2020-11-13 深圳市优必选科技股份有限公司 图像处理方法、装置、***、电子设备及可读存储介质
CN112101294B (zh) 2020-09-29 2022-08-09 支付宝(杭州)信息技术有限公司 针对图像识别模型的增强训练方法及装置
US11615782B2 (en) * 2020-11-12 2023-03-28 Sony Interactive Entertainment Inc. Semi-sorted batching with variable length input for efficient training
CN112784494B (zh) * 2021-01-27 2024-02-06 中国科学院苏州生物医学工程技术研究所 假阳性识别模型的训练方法、目标识别方法及装置
CN113066165B (zh) * 2021-03-19 2022-06-21 北京邮电大学 多阶段无监督学习的三维重建方法、装置和电子设备
CN112990205B (zh) * 2021-05-11 2021-11-02 创新奇智(北京)科技有限公司 手写字符样本的生成方法及装置、电子设备、存储介质
CN113222873B (zh) * 2021-06-01 2023-06-16 平安科技(深圳)有限公司 基于二维高斯分布的图像数据增强方法、装置及存储介质
CN113343295B (zh) * 2021-06-07 2023-01-24 支付宝(杭州)信息技术有限公司 基于隐私保护的图像处理方法、装置、设备和存储介质
CN113627475A (zh) * 2021-07-07 2021-11-09 厦门市美亚柏科信息股份有限公司 一种对样本进行不确定性估计的方法及装置
CN113284142B (zh) * 2021-07-16 2021-10-29 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机可读存储介质及计算机设备
CN115861740B (zh) * 2023-02-27 2023-05-30 常州微亿智造科技有限公司 工业检测中的样本生成方法、样本生成装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863601A (ja) * 1994-08-22 1996-03-08 Nec Corp 領域分割方法および装置
JP2008009745A (ja) * 2006-06-29 2008-01-17 Mitsubishi Electric Corp 顔検出装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903884A (en) * 1995-08-08 1999-05-11 Apple Computer, Inc. Method for training a statistical classifier with reduced tendency for overfitting
US7130776B2 (en) * 2002-03-25 2006-10-31 Lockheed Martin Corporation Method and computer program product for producing a pattern recognition training set
US6859764B2 (en) * 2003-04-03 2005-02-22 The United States Of America As Represented By The Secretary Of The Army Detecting, classifying and localizing minor amounts of an element within a sample of material
US7558622B2 (en) * 2006-05-24 2009-07-07 Bao Tran Mesh network stroke monitoring appliance
US9907473B2 (en) * 2015-04-03 2018-03-06 Koninklijke Philips N.V. Personal monitoring system
CN101231672A (zh) * 2008-02-02 2008-07-30 湖南大学 基于改进型bp神经网络的模拟电路软故障诊断方法
US8588286B2 (en) * 2010-05-25 2013-11-19 Xw, Llc Processor, modem and method for cancelling alien noise in coordinated digital subscriber lines
WO2012089288A1 (en) * 2011-06-06 2012-07-05 Bridge Mediatech, S.L. Method and system for robust audio hashing
JP5897343B2 (ja) * 2012-02-17 2016-03-30 株式会社日立製作所 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム
CN103034868B (zh) * 2012-11-29 2015-07-08 中国地质大学(武汉) 一种针对小样本以及高维图像的分类方法
US9251437B2 (en) * 2012-12-24 2016-02-02 Google Inc. System and method for generating training cases for image classification
CN104346622A (zh) * 2013-07-31 2015-02-11 富士通株式会社 卷积神经网络分类器及其分类方法和训练方法
CN105849804A (zh) * 2013-12-23 2016-08-10 美国亚德诺半导体公司 过滤噪声的计算高效方法
CN104765728B (zh) * 2014-01-08 2017-07-18 富士通株式会社 训练神经网络的方法和装置以及确定稀疏特征向量的方法
US10417554B2 (en) * 2014-05-22 2019-09-17 Lee J. Scheffler Methods and systems for neural and cognitive processing
CN103984959B (zh) * 2014-05-26 2017-07-21 中国科学院自动化研究所 一种基于数据与任务驱动的图像分类方法
US20150369756A1 (en) * 2014-06-20 2015-12-24 Manchester Metropolitan University Scanning apparatus
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
US9717417B2 (en) * 2014-10-29 2017-08-01 Spectral Md, Inc. Reflective mode multi-spectral time-resolved optical imaging methods and apparatuses for tissue classification
CN104504362A (zh) * 2014-11-19 2015-04-08 南京艾柯勒斯网络科技有限公司 基于卷积神经网络的人脸检测方法
US10839510B2 (en) * 2015-08-19 2020-11-17 Colorado Seminary, Which Owns And Operates The University Of Denver Methods and systems for human tissue analysis using shearlet transforms

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863601A (ja) * 1994-08-22 1996-03-08 Nec Corp 領域分割方法および装置
JP2008009745A (ja) * 2006-06-29 2008-01-17 Mitsubishi Electric Corp 顔検出装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PATRICE Y. SIMARD, ET AL.: "Best practices for convolutional neural networks applied to visual document analysis", SEVENTH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION, 2003. PROCEEDINGS., JPN6020024530, 6 August 2003 (2003-08-06), US, ISSN: 0004302592 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018174438A1 (en) * 2017-03-23 2018-09-27 Samsung Electronics Co., Ltd. Electronic apparatus for operating machine learning and method for operating machine learning
US11907826B2 (en) 2017-03-23 2024-02-20 Samsung Electronics Co., Ltd Electronic apparatus for operating machine learning and method for operating machine learning
JP2020508531A (ja) * 2017-09-08 2020-03-19 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド 画像品質の評価方法及び画像品質の評価システム
JP2018156632A (ja) * 2017-12-25 2018-10-04 株式会社コナミデジタルエンタテインメント サーバ装置、及びそれに用いられるコンピュータプログラム
JP7252009B2 (ja) 2018-02-28 2023-04-04 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 人工ニューラルネットワークを用いたocrシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理
JP2019153293A (ja) * 2018-02-28 2019-09-12 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 人工ニューラルネットワークを用いたocrシステムのための、線認識最大−最小プーリングを用いたテキスト画像の処理
JP7446278B2 (ja) 2018-07-18 2024-03-08 メラティヴ ユーエス エル.ピー. 人工知能に基づく医療ソリューションを開発するための患者のシミュレーション
JP2021530777A (ja) * 2018-07-18 2021-11-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 人工知能に基づく医療ソリューションを開発するための患者のシミュレーション
WO2021049005A1 (ja) 2019-09-13 2021-03-18 三菱電機株式会社 情報処理装置およびそれを備えた電子機器
JP2021174199A (ja) * 2020-04-23 2021-11-01 トヨタ自動車株式会社 情報処理システム
JP7279685B2 (ja) 2020-04-23 2023-05-23 トヨタ自動車株式会社 情報処理システム
CN113554179B (zh) * 2020-04-23 2024-02-09 丰田自动车株式会社 信息处理***
CN113554179A (zh) * 2020-04-23 2021-10-26 丰田自动车株式会社 信息处理***
JP7251000B2 (ja) 2020-06-10 2023-04-03 上▲海▼商▲湯▼智能科技有限公司 顔画像の真偽を識別する方法、装置、デバイス及び媒体並びにコンピュータプログラム
JP2022553768A (ja) * 2020-06-10 2022-12-26 上▲海▼商▲湯▼智能科技有限公司 顔画像の真偽を識別する方法、装置、デバイス及び媒体並びにコンピュータプログラム

Also Published As

Publication number Publication date
US20170061246A1 (en) 2017-03-02
EP3139310A1 (en) 2017-03-08
JP6825269B2 (ja) 2021-02-03
CN106485192B (zh) 2019-12-06
CN106485192A (zh) 2017-03-08
US10296813B2 (en) 2019-05-21

Similar Documents

Publication Publication Date Title
JP6825269B2 (ja) 画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置
WO2020155907A1 (zh) 用于生成漫画风格转换模型的方法和装置
US9767596B2 (en) Method and apparatus for processing depth image
CN110929780A (zh) 视频分类模型构建、视频分类的方法、装置、设备及介质
US20130208967A1 (en) Probability Density Function Estimation
JP2021524973A (ja) パタン認識装置、パタン認識方法、及びプログラム
CN109902763B (zh) 用于生成特征图的方法和装置
CN113377909B (zh) 释义分析模型训练方法、装置、终端设备及存储介质
US11636575B2 (en) Method and apparatus for acquiring feature data from low-bit image
CN108921801B (zh) 用于生成图像的方法和装置
WO2023103887A1 (zh) 图像分割标签的生成方法、装置、电子设备及存储介质
CN106663210A (zh) 基于感受的多媒体处理
US8433145B2 (en) Coefficient learning apparatus and method, image processing apparatus and method, program, and recording medium
CN115239655A (zh) 一种甲状腺超声影像肿瘤分割分类方法及装置
JP6787981B2 (ja) 機械学習タスクを容易にするための最適なマザーウェーブレットを得るためのシステムおよび方法
US9558554B1 (en) Defining basis function requirements for image reconstruction
KR20200110255A (ko) 영상의 특징을 측정하는 방법 및 장치
CN112101396A (zh) 一种分类方法、装置、设备和存储介质
US11526691B2 (en) Learning device, learning method, and storage medium
Qin et al. Hybrid NSS features for no‐reference image quality assessment
Emchinov et al. Research and Development of Deep Learning Algorithms for the Classification of Pneumonia Type and Detection of Ground-Glass Loci on Radiological Images
US8208735B2 (en) Image processing device, image processing method, learning device, learning method, and program
Chesseboeuf A greedy algorithm for brain MRI’s registration
Anver et al. Learning Based Image Super Resolution Using Sparse Online Greedy Support Vector Regression
Huang et al. Dynamic Neural Networks for Adaptive Implicit Image Compression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201228

R150 Certificate of patent or registration of utility model

Ref document number: 6825269

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150