JP5214679B2 - 学習装置、方法及びプログラム - Google Patents

学習装置、方法及びプログラム Download PDF

Info

Publication number
JP5214679B2
JP5214679B2 JP2010192253A JP2010192253A JP5214679B2 JP 5214679 B2 JP5214679 B2 JP 5214679B2 JP 2010192253 A JP2010192253 A JP 2010192253A JP 2010192253 A JP2010192253 A JP 2010192253A JP 5214679 B2 JP5214679 B2 JP 5214679B2
Authority
JP
Japan
Prior art keywords
learning
groups
unit
image
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010192253A
Other languages
English (en)
Other versions
JP2012048624A (ja
Inventor
達夫 小坂谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010192253A priority Critical patent/JP5214679B2/ja
Priority to US13/215,462 priority patent/US9058748B2/en
Publication of JP2012048624A publication Critical patent/JP2012048624A/ja
Application granted granted Critical
Publication of JP5214679B2 publication Critical patent/JP5214679B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明の実施形態は、学習装置、方法及びプログラムに関する。
近年、識別器の学習手法において、学習データ中の各学習サンプルに当該学習サンプルに応じた属性を人間が予め教示しておき、教示した属性を識別する識別基準である2クラス識別器を学習する手法が提案されている。学習サンプルに与える属性としては、例えば学習サンプルが人間の顔の画像であれば、性別などが該当する。
このような学習手法では、各学習サンプルに予め様々な属性を教示しておき、教示した属性毎の2クラス識別器を学習する。そして、学習された複数の2クラス識別器は、各2クラス識別器の出力値を物体の特徴量として利用することにより、物体認識などに用いられる。
Neeraj Kumar, Alexander C. Berg, Peter N. Belhumeur, and Shree K. Nayar, "Attribute and Simile Classifiers for Face Verification," International Conference on Computer Vision (ICCV), 2009.
しかしながら、従来技術では、学習サンプルに対して属性を人間が教示しなければならないため、コストがかかってしまう。
実施形態の学習装置は、学習サンプル記憶部と、選択部と、学習部とを、備える。学習サンプル記憶部は、各学習サンプルが複数のカテゴリのいずれかに分類される複数の学習サンプルを記憶する。選択部は、学習サンプル記憶部から学習サンプルを1以上含むグループを複数選択する選択処理を複数回行う。学習部は、選択された複数のグループ毎に当該複数のグループを識別する識別基準を学習し、学習した複数の識別基準を含む評価基準を生成する。選択部は、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数のグループ間の差が予め定められた範囲内に収まるように、複数のグループを無作為に選択する。
第1実施形態の学習装置の構成例を示すブロック図。 第1実施形態の評価基準の生成手法の一例を示す説明図。 第1実施形態の学習装置の学習処理例を示すフローチャート図。 第2実施形態の学習装置の構成例を示すブロック図。 第2実施形態の画像の特徴量の計算手法の一例を示す説明図。 第2実施形態の学習装置の特徴量計算処理例を示すフローチャート図。 第3実施形態の学習装置の構成例を示すブロック図。 第3実施形態の学習装置の特徴量計算処理例を示すフローチャート図。 第4実施形態の学習装置の構成例を示すブロック図。 第4実施形態の類似度の計算手法の一例を示す説明図。 第4実施形態の学習装置の類似度計算処理例を示すフローチャート図。 変形例2の学習装置の構成例を示すブロック図。 各実施形態及び各変形例の学習装置のハードウェア構成例を示すブロック図。
(第1実施形態)
第1各実施形態では、画像に含まれる物体の認識に用いられる評価基準の生成(学習)を例に取り、学習装置について説明する。
図1は、第1実施形態の学習装置100の構成の一例を示すブロック図である。図1に示すように、学習装置100は、学習サンプル記憶部112と、選択部114と、学習部116と、評価基準記憶部118とを、備える。
学習サンプル記憶部112は、各学習サンプルが複数のカテゴリのいずれかに分類される複数の学習サンプルを記憶する。ここで、カテゴリとは、学習サンプルの種類を示すものである。第1実施形態では、学習サンプルが、物体が含まれる画像である場合を例に取り説明するが、学習サンプルはこれに限定されるものではない。なお学習サンプル記憶部112は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカードなどの磁気的、光学的、又は電気的に記憶可能な既存の記憶装置の少なくともいずれかにより実現できる。
第1実施形態では、学習サンプル記憶部112は、M(M≧2)枚の画像を記憶している。なお、画像のカテゴリはC(C≧2)用意され、M枚の画像はカテゴリ毎にM(1≦h≦C)枚の画像に分類されるものとする。つまり、M=M+…+Mとなる。ここでは、カテゴリは、画像に含まれる物体の種類を示す。例えば、人間の顔の画像を対象として人物の認識を行う場合、カテゴリは人物の種類となる。つまり、M枚の画像内にαの顔の画像とβの顔の画像とγの顔の画像との計3名が含まれていれば、C=3となる。
選択部114は、学習サンプル記憶部112から学習サンプルを1以上含むグループを複数選択する選択処理を複数回行う。特に選択部114は、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数又はサンプル数が略同数となるように、当該複数のグループを選択する。具体的には、選択部114は、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数又はサンプル数のグループ間の差が予め定められた範囲内に収まるように、当該複数のグループを選択する。なお第1実施形態では、選択部114が、学習サンプル記憶部112から学習サンプルを無作為に選択(ランダムサンプリング)するものとする。これにより、選択部114により選択される複数のグループに含まれる学習サンプルのカテゴリは、選択部114の選択処理毎に異なることが期待できる。但し、学習サンプルの選択手法はこれに限定されるものではなく、選択する複数のグループに含まれる学習サンプルのカテゴリが選択処理毎に異なることが期待できれば、どのような選択基準で選択してもよい。
第1実施形態では、選択部114は、学習サンプル記憶部112から、各グループが画像を1枚以上含むようにK(K≧2)個のグループを無作為に選択する選択処理をN(N≧2)回行う。特に選択部114は、選択処理を行う際、K個のグループのそれぞれに含まれる画像のカテゴリ数が同数となるように、K個のグループを無作為に選択する。
このため選択部114は、学習サンプル記憶部112から画像を完全に無作為に選択するのではなく、カテゴリの画像枚数に応じて重み付けを行ってK個のグループ間の画像枚数の差を小さくするように調整したり、カテゴリの画像枚数に関わらずある一定の枚数の画像を抽出するようにしたりしてもよい。なお、画像枚数を一定にする場合、選択部114は、さらに単純にカテゴリから画像を無作為に選択するようにしてもよいし、学習サンプルとしてまだ選択されていない未選択画像をカテゴリから優先的に選択するようにしてもよい。
学習部116は、選択部114により選択された複数のグループ毎に当該複数のグループを識別する識別基準を学習し、学習した複数の識別基準を含む評価基準を生成する。第1実施形態では、学習部116は、選択部114により選択されたK個のグループ毎に当該K個のグループを識別する識別器F(x)(1≦i≦N)を学習し、学習したN個の識別器を含む評価基準{F(x),F(x),…,F(x)}を生成する。
学習部116により生成された評価基準{F(x),F(x),…,F(x)}は、画像内に含まれる物体の物体認識などに用いられる。具体的には、評価基準{F(x),F(x),…,F(x)}に含まれるN個の識別器F(x)のそれぞれが、認識対象の画像に対する評価値を出力する。評価値は、例えば、識別器が予め学習したいずれのクラスに属するかを示す尤度やクラス番号などが該当する。そして、出力された複数の評価値が画像内に含まれる物体の特徴量として利用されることにより、物体認識などに用いられる。物体認識など評価基準の利用方法は、第2実施形態以降で詳細に説明する。
なお、学習部116は、既存の学習手法を用いて、K個のグループを識別する識別器F(x)を学習することができる。例えば、選択部114により選択された2個のグループを識別する識別器を学習する場合であれば、学習部116は、サポートベクターマシンやブースティングなどの学習手法を用いることができる。また例えば、選択部114により選択された3個のグループを識別する識別器を学習する場合であれば、学習部116は、k近傍識別器、ベイズ分類、又はニューラルネットワークなどの学習手法を用いることができる。
評価基準記憶部118には、学習部116により生成された評価基準が記憶される。具体的には、学習部116が、生成した評価基準{F(x),F(x),…,F(x)}を評価基準記憶部118に格納する(記憶させる)。なお評価基準記憶部118は、学習サンプル記憶部112同様、既存の記憶装置の少なくともいずれかにより実現できる。
図2は、評価基準の生成手法の一例を示す説明図である。なお、図2に示す例では、S〜S(M≧11)が、学習サンプル(物体が含まれる画像)を示し、C=Mであるものとする。つまり、図2に示す例では、全ての学習サンプルのカテゴリが異なるものとする。また、図2に示す例では、K=2であるものとする。つまり、図2に示す例では、選択部114は、各グループに含まれる学習サンプルのカテゴリ数が2となるように、即ち、C=Mであるため、各グループに含まれる学習サンプル数が2となるように、2個のグループを選択する。
図2に示す例では、選択部114は、1回目の選択処理で、学習サンプルS及びSを含むグループ151aと、学習サンプルS及びSを含むグループ151bとを、選択している。また、選択部114は、2回目の選択処理で、学習サンプルS及びSを含むグループ152aと、学習サンプルS10及びSを含むグループ152bとを、選択している。また、選択部114は、N回目の選択処理で、学習サンプルS及びSを含むグループ153aと、学習サンプルS及びSを含むグループ153bとを、選択している。
また、学習部116は、選択部114により1回目の選択処理で選択されたグループ151aとグループ151bとを識別する識別器F(x)を学習している。また、学習部116は、選択部114により2回目の選択処理で選択されたグループ152aとグループ152bとを識別する識別器F(x)を学習している。また、学習部116は、選択部114によりN回目の選択処理で選択されたグループ153aとグループ153bとを識別する識別器F(x)を学習している。これにより、学習部116は、学習したN個の識別器を含む評価基準{F(x),F(x),…,F(x)}を生成する。
図3は、第1実施形態の学習装置100で行われる学習処理の手順の流れの一例を示すフローチャート図である。
まず、選択部114は、学習サンプル記憶部112から画像を1枚以上含むグループを複数選択する(ステップS100)。この際、選択部114は、選択する複数のグループのそれぞれに含まれる画像のカテゴリ数又はサンプル数のグループ間の差が予め定められた範囲内に収まるように、当該複数のグループを選択する。
続いて、学習部116は、選択部114により選択された複数のグループを識別する識別基準を学習する(ステップS102)。
続いて、選択部114は、例えば、選択がN回行われていない場合には、選択を続行すると判定し(ステップS104でYes)、ステップS100に戻り、選択がN回行われている場合には、選択を続行しないと判定し(ステップS104でNo)、ステップS106へ進む。
続いて、学習部116は、ステップS102で学習した複数の識別基準を含む評価基準を生成し、評価基準記憶部118に格納する(ステップS106)。
以上のように、第1実施形態の学習装置100では、複数のグループ毎に、当該複数のグループを識別する識別基準、即ち各グループに含まれる学習サンプルのカテゴリ又はカテゴリの組み合わせをグループ間で識別する識別基準を学習する。そして第1実施形態の学習装置100では、複数のグループの選択、即ち、各グループに含まれる学習サンプルのカテゴリ又はカテゴリの組み合わせの選択は、選択部114により自動的に行われる。このため第1実施形態の学習装置100によれば、人間が識別基準を教示する必要がなく、識別基準の学習に伴うコストを削減することができる。これに対し、従来技術の手法では、識別基準となる属性を人間が教示しなければならないため、識別基準の学習に伴うコストがかかってしまう。
また第1実施形態の学習装置100では、グループの組み合わせ数、即ち、グループに含まれる学習サンプルのカテゴリ又はカテゴリの組み合わせのグループ間の組み合わせ数は、膨大な数になる傾向にある。このため第1実施形態の学習装置100によれば、上限にとらわれず、必要なだけ識別基準を学習して、評価基準を生成することができる。これに対し、従来技術の手法では、識別基準は、例えば性別や人種、年代など、教示する人間にとって明確に判断可能なものに限られるため、学習可能な識別基準の数に限界がある。
また第1実施形態の学習装置100では、選択部114は、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数又はサンプル数のグループ間の差が予め定められた範囲内に収まるように、当該複数のグループを無作為に選択する。つまり第1実施形態の学習装置100では、識別対象の複数のグループのそれぞれを無作為かつ均等な分布を有するように選択する。このようにして選択された複数のグループを識別するように学習された識別基準は、認識対象の物体が含まれる画像に対する評価値、即ち、学習に用いた複数のグループのいずれに属すると判定されるかが完全にランダムとなる。
従って、例えば、物体が含まれる2枚の画像に同一の識別基準を用いると、2枚の画像に含まれる物体が同一である場合は、評価値の値が同一となること、即ち、両物体が識別対象の複数のグループのうちのいずれかのグループに類似することが期待できる。一方、2枚の画像に含まれる物体が異なる場合は、評価値の値がどのような値となるかは不定、即ち、無相関となる。ここで、互いに異なる物体を含む2枚の画像に対する評価値が無相関であるということは、例えば、物体認識を行う際の類似度計算に正規化相関などを利用した場合、類似度がゼロになるということを示す。
つまり、第1実施形態の学習装置100では、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数又はサンプル数のグループ間の差が予め定められた範囲内に収まるように、当該複数のグループを無作為に選択することにより、この複数のグループを識別する識別基準には、異なる物体の類似度を分離するような変換が、組み込まれているという特徴を持つ。
従って、第1実施形態の学習装置100によれば、画像に含まれる物体を認識するために有効、即ち、物体認識の認識精度において好適な識別基準を含む評価基準を学習サンプルから効率的に学習することができる。これに対し、従来技術の手法では、識別基準となる属性(例えば、ある人物とそれ以外の人物)によっては、学習サンプルが一方(それ以外の人物)に偏って学習されるため、識別基準の評価値の分布にも偏りが出てしまい、画像に含まれる物体を認識するために有効な評価基準とならない場合がある。
(第2実施形態)
第2実施形態では、第1実施形態で生成した評価基準を用いて画像の特徴量を計算する例について説明する。以下では、第1実施形態との相違点の説明を主に行い、第1実施形態と同様の機能を有する構成要素については、第1実施形態と同様の名称・符号を付し、その説明を省略する。
図4は、第2実施形態の学習装置200の構成の一例を示すブロック図であり、図5は、画像の特徴量の計算手法の一例を示す説明図である。図4に示すように、第2実施形態の学習装置200では、入力部222、入力受付部224、及び特徴量計算部226を更に備える点が第1実施形態の学習装置100と相違する。
入力部222は、認識対象の物体が含まれる画像を入力する。例えば、入力部222は、人間の顔が含まれる画像を入力する。なお入力部222は、例えば顔検出などにより人間の顔と関係のない背景などを予め取り除いた画像を入力するようにしてもよい。
第2実施形態では、入力部222により入力される画像が、Ds(Ds≧1)次元のベクトルで表されるデータであり、ベクトルの各要素が輝度値である場合を例に取り説明する。例えば、入力部222により入力される画像Xは、図5に示すように、(X,X,…,XDs)で表されるものとする。但し、入力部222により入力される画像は、これに限定されるものではない。
入力部222は、例えば、USB(Universal Serial Bus)カメラやデジタルカメラなどの撮像装置、ビデオテープやDVD(Digital Versatile Disk)などの記録装置、スキャナなどの読取装置、又は、ネットワークI/Fなどの通信装置などにより実現できる。
入力受付部224は、入力部222から物体が含まれる画像の入力を受け付ける。
特徴量計算部226は、評価基準記憶部118に記憶されている評価基準を用いて、入力受付部224により受け付けられた画像の特徴量を計算する。これにより、画像に含まれる物体が有する固有の特徴量が計算され、計算された特徴量を利用することにより、画像に含まれる物体を認識できる。
ここで、第2実施形態では、評価基準記憶部118に記憶されている評価基準{F(x),F(x),…,F(x)}に含まれるそれぞれの識別器F(x)が、画像Xに対し、数式(1)に示すように評価値sを返却するものとする。ここで、学習部116により、いずれの学習手法を用いて識別器F(x)が学習された場合であっても、識別器F(x)の出力は、識別対象のグループに属する尤度などとして表されるため、数式(1)を満たす。
(X)=s …(1)
なお第2実施形態では、評価値sがスカラー量である場合を例に取り説明するが、これに限定されるものではなく、例えば、複数の要素を持つベクトルであってもよい。また、後述する内容は、評価値sがベクトルであっても同様に適用できる。例えば、学習部116により、3個以上のグループを識別する学習手法を用いて識別器F(x)が学習された場合、識別器F(x)の出力は、識別対象のグループに含まれる各カテゴリに帰属する尤度を要素に持つようなベクトルとなる。
特徴量計算部226は、具体的には、図5に示すように、入力受付部224により受け付けられた画像Xを評価基準記憶部118に記憶されている評価基準{F(x),F(x),…,F(x)}に適用して、評価値sを取得し、取得した評価値sから画像Xの特徴量v(X)を計算する。第2実施形態では、特徴量計算部226は、図5及び数式(2)に示すように全ての評価値sを1つに並べることで画像Xの特徴量v(X)を計算するものとする。
v(X)=(s,s,…,s) …(2)
例えば、識別器F(x)が2つのクラスを判別し、評価値sとして0又は1を出力する関数であるとする。この場合、特徴量計算部226は、入力受付部224により受け付けられた画像Xの特徴量を、例えば、v(X)=(1,1,0,1,0,…,1)のように、0と1との組み合わせで表現されたベクトルとして計算する。また特徴量計算部226は、入力受付部224により受け付けられた画像Y(Y≠X)の特徴量を計算すると、例えば、v(Y)=(0,1,1,1,0,…,0)のように、やはり0と1との組み合わせで表現されたベクトルとして計算するが、計算した特徴量は画像Xの特徴量と異なるものなる。つまり、この例では、0と1との組み合わせで表現されたベクトルが、画像に含まれる物体が有する固有の特徴量となる。なお、識別器F(x)が2つ以上のクラスを判別し、評価値sとして0及び1以外の実数を出力する関数である場合であっても、上記と同様である。
但し、特徴量の計算手法は上述の手法に限定されるものではなく、取得した評価値sをどのように用いて特徴量を計算しても構わない。
なお、評価値sがベクトルの場合、画像Xの特徴量v(X)は、評価値sが持つ各要素を並べたものとなる。つまり、評価値sの次元数をdとすると、画像Xの特徴量v(X)の次元数Dは、次元数dの総和となる(D=d+…+d)。なお、各評価値sの次元数dは、全て同じ値でもよいし、それぞれ異なっていてもよい。
また、特徴量計算部226は、特徴量v(x)を評価値sのヒストグラムとして計算するようにしてもよい。具体的には、特徴量計算部226は、評価値sを離散化(必要なら要素毎に)しておき、その値に該当するビンに対して投票することでヒストグラム特徴量v(x)を計算することができる。
なお、評価値sがベクトルの場合、特徴量計算部226は、次元数dのヒストグラムとすることでヒストグラム特徴量v(x)を計算することができる。また、スカラー量とベクトルのように次元数の異なる評価値sが混在している場合、特徴量計算部226は、同種の評価値s毎にヒストグラム特徴量を計算しておき、計算したヒストグラム特徴量を1つのベクトルとして並べることでヒストグラム特徴量v(x)を計算することができる。
また、特徴量計算部226は、評価値sを1つに並べてベクトル化した特徴量と、評価値sをヒストグラム化したヒストグラム特徴量とを、更に1つのベクトルとして並べる(連結する)ことで特徴量v(x)を計算するようにしてもよい。また、特徴量計算部226は、評価値sに非線形な変換を施して特徴量を計算するようにしてもよい。また、特徴量計算部226は、計算した特徴量に対して、平均を0にしたり、2乗平均を1にしたりするなどの正規化を行うようにしてもよい。
図6は、第2実施形態の学習装置200で行われる特徴量計算処理の手順の流れの一例を示すフローチャート図である。
まず、入力部222は、認識対象の物体が含まれる画像を入力する(ステップS200)。
続いて、入力受付部224は、入力部222から物体が含まれる画像の入力を受け付ける(ステップS202)。
続いて、特徴量計算部226は、評価基準記憶部118に記憶されている評価基準を用いて、入力受付部224により受け付けられた画像の特徴量を計算し、出力する(ステップS204)。
以上のように、第2実施形態の学習装置200では、第1実施形態で生成された評価基準を用いて、認識対象の物体の特徴を適切に表す特徴量を計算することができる。
(第3実施形態)
第3実施形態では、入力された画像の画像特徴を抽出し、抽出した画像特徴の特徴量を計算する例について説明する。以下では、第2実施形態との相違点の説明を主に行い、第2実施形態と同様の機能を有する構成要素については、第2実施形態と同様の名称・符号を付し、その説明を省略する。
図7は、第3実施形態の学習装置300の構成の一例を示すブロック図である。図7に示すように、第3実施形態の学習装置300では、学習サンプル記憶部312及び特徴量計算部326の内容、並びに抽出部332を更に備える点が第2実施形態の学習装置200と相違する。
学習サンプル記憶部312は、学習サンプルとして、物体が含まれる画像の画像特徴を記憶する。つまり、第3実施形態では、学習サンプル記憶部112は、M枚の画像の画像特徴を記憶している。ここで、画像特徴は、例えば、エッジ特徴、色ヒストグラム、又は画素の輝度差の勾配方向ヒストグラムなどが該当する。この場合、学習部116により学習される識別器及び学習された複数の識別器を含む評価基準は、画像特徴に適した評価基準となる。つまり、第3実施形態では、評価基準記憶部118に記憶されている評価基準は、画像特徴の特徴量の計算に適した評価基準となっている。
抽出部332は、入力受付部224により受け付けられた画像の画像特徴を抽出する。なお抽出部332は、入力受付部224により受け付けられた画像から、学習サンプル記憶部312に記憶されている画像特徴に対応した画像特徴を抽出する。例えば、学習サンプル記憶部312に記憶されている画像特徴がエッジ特徴であれば、抽出部332は、入力受付部224により受け付けられた画像から画像特徴としてエッジ特徴を抽出する。
特徴量計算部326は、評価基準記憶部118に記憶されている評価基準を用いて、抽出部332により抽出された画像特徴の特徴量を計算する。
図8は、第3実施形態の学習装置300で行われる特徴量計算処理の手順の流れの一例を示すフローチャート図である。
まず、ステップS300〜S302までの処理は、図6のフローチャートのステップS200〜S202までの処理と同様である。
続いて、抽出部332は、入力受付部224により受け付けられた画像の画像特徴を抽出する(ステップS304)。
続いて、特徴量計算部326は、評価基準記憶部118に記憶されている評価基準を用いて、抽出部332により抽出された画像特徴の特徴量を計算する(ステップS306)。
以上のように、第3実施形態の学習装置300では、入力された画像から画像特徴を抽出し、抽出した画像特徴を評価基準に適用して特徴量を計算する。従って第3実施形態の学習装置300により計算された特徴量を物体認識に用いることにより、入力された画像の輝度変化や物体の撮影条件の変動などに対して頑健な認識を行うことが可能となる。
また第3実施形態の学習装置300では、抽出した画像特徴を評価基準に適用して特徴量を計算しているので、画像特徴の次元数よりも特徴量の次元数の方が小さければ、画像特徴から直接特徴量を計算する場合に比べ、特徴量のサイズが小さくなり、より効率的に物体を表現することができる。
(第4実施形態)
第4実施形態では、特徴量の類似度を計算する例について説明する。以下では、第3実施形態との相違点の説明を主に行い、第3実施形態と同様の機能を有する構成要素については、第3実施形態と同様の名称・符号を付し、その説明を省略する。
図9は、第4実施形態の学習装置400の構成の一例を示すブロック図であり、図10は、特徴量の類似度の計算手法の一例を示す説明図である。図9に示すように、第4実施形態の学習装置400では、基準特徴量記憶部442及び類似度計算部444を更に備える点が第3実施形態の学習装置300と相違する。
基準特徴量記憶部442は、物体認識の認識基準となる基準特徴量を記憶する。基準特徴量記憶部442は、例えば、図10及び数式(3)に示すように、画像Xに含まれる物体の認識基準となる基準特徴量v’(X)を記憶する。なお基準特徴量記憶部442は、学習サンプル記憶部112同様、既存の記憶装置の少なくともいずれかにより実現できる。
v’(X)=(t,t,…,t) …(3)
類似度計算部444は、特徴量計算部326により計算された特徴量と、基準特徴量記憶部442に記憶されている基準特徴量との類似度を計算する。例えば、類似度計算部444は、特徴量計算部326により計算された特徴量v(X)と基準特徴量記憶部442に記憶されている基準特徴量v’(X)との間の、正規化相関やベクトル間のユークリッド距離やマハラノビス距離などを計算することにより、類似度を計算する。但し、類似度の計算手法はこれに限定されるものではない。
図11は、第4実施形態の学習装置400で行われる類似度計算処理の手順の流れの一例を示すフローチャート図である。
まず、ステップS400〜S406までの処理は、図8のフローチャートのステップS300〜S306までの処理と同様である。
続いて、類似度計算部444は、特徴量計算部326により計算された特徴量と、基準特徴量記憶部442に記憶されている基準特徴量との類似度を計算し、出力する(ステップS408)。
以上のように、第4実施形態の学習装置400によれば、入力された画像から画像特徴を抽出し、抽出した画像特徴を評価基準に適用して特徴量を計算し、計算した特徴量と基準特徴量との類似度を計算するので、認識精度において好適な物体認識を行うことができる。
特に第4実施形態の学習装置400では、抽出した画像特徴から類似度を計算するのではなく、抽出した画像特徴を評価基準に適用して計算した特徴量と基準特徴量との類似度を計算する。画像特徴から類似度を計算する場合、画像特徴の次元数が高くなるにつれ、球面集中現象によりお互いの類似度が近くなり、適切に類似性を測ることができない場合があった。これに対し第4実施形態の学習装置400では、類似度の計算において、高次元の画像特徴であっても評価基準を用いて低次元の特徴量に一度変換したのちに類似度を計算するため、画像特徴の次元数に関わらず、任意の画像特徴を用いて類似度を計算することが可能となる。
また第4実施形態の学習装置400では、抽出した画像特徴を評価基準に適用して特徴量を計算しているので、特徴量の次元数、即ち特徴量を保持するために必要なメモリサイズが小さくなり、基準特徴量のサイズも小さくできる。このため第4実施形態の学習装置400によれば、基準特徴量記憶部442で特徴量を記憶するために必要な記憶容量を削減することができる。また、一般的に特徴量の次元数と類似度計算に必要な処理時間は比例関係にあることから、類似度計算部444による類似度計算速度を高速化することができる。
(変形例1)
上記各実施形態において、学習部116は、複数種類の学習方法を切り替えて識別基準を学習するようにしてもよい。例えば学習部116は、上述したサポートベクターマシンやブースティングなど複数種類の既存の学習手法を切り替えて識別器を学習するようにしてもよい。
また学習部116は、学習対象の識別器に応じて、識別器の学習手法を切り替えるようにしてもよい。例えば、選択部114がl(1≦l≦N)番目の選択処理を行う場合には、選択部114が2個のグループを選択して学習部116がサポートベクターマシンを用いて識別器を学習し、選択部114がm(1≦m≦N)番目の選択処理を行う場合には、選択部114が3個のグループを選択して学習部116がk近傍識別器を用いて識別器を学習するようにしてもよい。
このように、選択したグループ数や学習サンプルに応じて適応的に学習手法を変更することで、より適切に識別基準を学習して評価基準を生成することができる。これにより、入力された画像又は画像特徴の特徴量をより効率的に精度良く求めることができる。
(変形例2)
上記各実施形態において、学習部により生成された評価基準を用いて、学習サンプルの特徴量を計算し、計算した特徴量を学習サンプルとして学習サンプル記憶部に格納するようにしてもよい。つまり、学習サンプルを学習して生成した評価基準を用いて計算した学習サンプルの特徴量を、更に学習サンプルに用いることで、評価基準の学習を再帰的に行うようにしてもよい。以下では、第1実施形態との相違点の説明を主に行い、第1実施形態と同様の機能を有する構成要素については、第2実施形態と同様の名称・符号を付し、その説明を省略する。
図12は、変形例2の学習装置500の構成の一例を示すブロック図である。図12に示すように、変形例2の学習装置500では、サンプル特徴量計算部552を更に備える点が第1実施形態の学習装置100と相違する。
サンプル特徴量計算部552は、学習部116により生成された評価基準を用いて、学習サンプル(画像)の特徴量を計算し、計算した特徴量を学習サンプルとして学習サンプル記憶部112に格納する。これにより、学習サンプルを学習して生成した評価基準を用いて計算した学習サンプルの特徴量が更に学習サンプルに用いられ、評価基準の学習が再帰的に行われる。なお、サンプル特徴量計算部552の特徴量の計算手法は、特徴量計算部と同様である。また変形例2では、特徴量計算対象の学習サンプルは、学習サンプル記憶部112に記憶されている学習サンプルである場合を例に取り説明するが、これに限定されるものではなく、学習サンプル記憶部112に記憶されている学習サンプル以外の学習サンプルを用意して用いてもよい。
また学習部116は、学習サンプル記憶部112に記憶されている画像、学習サンプル記憶部112に記憶されている画像の画像特徴の種類やパラメータ、学習手法の種類など、様々な条件で評価基準を生成しておき、サンプル特徴量計算部552は、これらの評価基準で特徴量を計算し、計算した特徴量を学習サンプルとして学習サンプル記憶部112に格納するようにしてもよい。具体的には、サンプル特徴量計算部552は、計算した複数の特徴量を1つのベクトルに連結した新たな特徴量を学習サンプルとして学習サンプル記憶部112に格納する。
変形例2によれば、評価基準の再帰的な学習が可能となる。特に変形例2によれば、計算した複数の特徴量を1つの新たな特徴量として統合し、統合した新たな特徴量を評価基準学習用の学習サンプルに利用することで、新たな特徴量から評価基準を学習することが可能となる。複数の異なる特徴量を統合する場合、出力される値域や平均などの統計的性質の異なる複数の特徴量をどのように統合するかが課題となる。これに対し変形例2によれば、新たな特徴量として統合する前の複数の特徴量における統計的な性質の差が、識別基準を学習する際の識別器が学習サンプルから自動的に吸収するため、統合方法を考慮することなく統合でき、これにより、認識精度の高い評価基準の生成が可能となる。
(変形例3)
上記第3〜第4実施形態において、学習サンプル記憶部312は、学習サンプルとして、画像毎に複数種類の画像特徴を記憶するようにしてもよい。この場合、選択部114は、どの画像特徴を選択するかだけでなく、どの種類の画像特徴を用いるのかも選択し、抽出部332は、画像から複数画像の画像特徴を抽出する。選択部114の選択方法はどのような方法を用いてもよい。例えば、選択部114は、画像特徴の種類を無作為に選択してもよいし、これまで選択されていない画像特徴を優先的に選択するようにしてもよい。
(変形例4)
上記各実施形態及び上記各変形例では、画像に含まれる物体認識に用いられる評価基準の生成(学習)を例に取り、学習サンプルが画像や画像特徴である例について説明した。但し、これに限定されるものではなく、例えば音声認識など様々な分野に適用可能である。例えば、音声認識に適用する場合であれば、学習サンプルを音声信号とすればよい。この場合も認識対象の音声信号をDs次元のベクトルで表すことができ、ベクトルの要素を音声信号の値とすればよい。このように、認識対象に応じた学習サンプルを用意し、認識対象のデータをDs次元のベクトルで表し、ベクトルの要素を認識対象に応じた値とすれば、どのような分野においても容易に適用することができる。
図13は、上記各実施形態及び上記各変形例の学習装置のハードウェア構成の一例を示すブロック図である。図13に示すように、上記各実施形態及び上記各変形例の学習装置は、CPU(Central Processing Unit)などの制御装置902と、ROMやRAMなどの記憶装置904と、HDDやSSDなどの外部記憶装置906と、ディスプレイなどの表示装置908と、撮像装置、記録装置、読取装置、又はネットワークI/F、及びキーボード又はマウスなどの入力装置910とを備えており、通常のコンピュータを利用したハードウェア構成となっている。
上記各実施形態及び上記各変形例の学習装置で実行される学習プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、CD−R、メモリカード、DVD、フレキシブルディスク(FD)等のコンピュータで読み取り可能な記憶媒体に記憶されて提供される。
また、上記各実施形態及び上記各変形例の学習装置で実行される学習プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記各実施形態及び上記各変形例の学習装置で実行される学習プログラムを、インターネット等のネットワーク経由で提供または配布するようにしてもよい。また、上記各実施形態及び上記各変形例の学習装置で実行される学習プログラムを、ROM等に予め組み込んで提供するようにしてもよい。
上記各実施形態及び上記各変形例の学習装置で実行される学習プログラムは、上述した各部をコンピュータ上で実現させるためのモジュール構成となっている。実際のハードウェアとしては、例えば、CPUがHDDから学習プログラムをRAM上に読み出して実行することにより、上記各部がコンピュータ上で実現されるようになっている。
以上説明したとおり、上記各実施形態及び上記各変形例によれば、識別基準の学習に伴うコストを削減することができる。
なお本発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。
100、200、300、400、500 学習装置
112 学習サンプル記憶部
114 選択部
116 学習部
118 評価基準記憶部
222 入力部
224 入力受付部
226 特徴量計算部
332 抽出部
442 基準特徴量記憶部
444 類似度計算部
552 サンプル特徴量計算部

Claims (9)

  1. 各学習サンプルが複数のカテゴリのいずれかに分類される複数の学習サンプルを記憶する学習サンプル記憶部と、
    前記学習サンプル記憶部から学習サンプルを1以上含むグループを複数選択する選択処理を複数回行う選択部と、
    選択された複数のグループ毎に当該複数のグループを識別する識別基準を学習し、学習した複数の識別基準を含む評価基準を生成する学習部と、
    を備え
    前記選択部は、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数のグループ間の差が予め定められた範囲内に収まるように、前記複数のグループを無作為に選択することを特徴とする学習装置。
  2. 前記学習サンプルは、画像であり、
    物体が含まれる画像の入力を受け付ける入力受付部と、
    前記評価基準を用いて、前記画像の特徴量を計算する特徴量計算部と、を更に備えることを特徴とする請求項1に記載の学習装置。
  3. 前記学習サンプルは、画像特徴であり、
    前記画像の画像特徴を抽出する抽出部を、更に備え、
    前記特徴量計算部は、前記評価基準を用いて、前記画像特徴の特徴量を計算することを特徴とする請求項に記載の学習装置。
  4. 前記特徴量と認識基準となる基準特徴量との類似度を計算する類似度計算部を更に備えることを特徴とする請求項2又は3に記載の学習装置。
  5. 前記学習部は、複数種類の学習方法を切り替えて前記識別基準を学習することを特徴とする請求項1〜のいずれか1つに記載の学習装置。
  6. 前記評価基準を用いて、学習サンプルの特徴量を計算し、計算した特徴量を学習サンプルとして前記学習サンプル記憶部に格納するサンプル特徴量計算部を更に備えることを特徴とする請求項1〜のいずれか1つに記載の学習装置。
  7. 前記学習サンプル記憶部は、前記学習サンプルとして、複数種類の画像特徴を記憶することを特徴とする請求項又はに記載の学習装置。
  8. 選択部が、各学習サンプルが複数のカテゴリのいずれかに分類される複数の学習サンプルを記憶する学習サンプル記憶部から学習サンプルを1以上含むグループを複数選択する選択処理を複数回行う選択ステップと、
    学習部が、選択された複数のグループ毎に当該複数のグループを識別する識別基準を学
    習し、学習した複数の識別基準を含む評価基準を生成する学習ステップと、
    を含み、
    前記選択ステップでは、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数のグループ間の差が予め定められた範囲内に収まるように、前記複数のグループを無作為に選択することを特徴とする学習方法。
  9. 各学習サンプルが複数のカテゴリのいずれかに分類される複数の学習サンプルを記憶する学習サンプル記憶部から学習サンプルを1以上含むグループを複数選択する選択処理を複数回行う選択ステップと、
    選択された複数のグループ毎に当該複数のグループを識別する識別基準を学習し、学習した複数の識別基準を含む評価基準を生成する学習ステップと、
    をコンピュータに実行させ
    前記選択ステップでは、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数のグループ間の差が予め定められた範囲内に収まるように、前記複数のグループを無作為に選択することを特徴とする学習プログラム。
JP2010192253A 2010-08-30 2010-08-30 学習装置、方法及びプログラム Active JP5214679B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010192253A JP5214679B2 (ja) 2010-08-30 2010-08-30 学習装置、方法及びプログラム
US13/215,462 US9058748B2 (en) 2010-08-30 2011-08-23 Classifying training method and apparatus using training samples selected at random and categories

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010192253A JP5214679B2 (ja) 2010-08-30 2010-08-30 学習装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012048624A JP2012048624A (ja) 2012-03-08
JP5214679B2 true JP5214679B2 (ja) 2013-06-19

Family

ID=45697736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010192253A Active JP5214679B2 (ja) 2010-08-30 2010-08-30 学習装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US9058748B2 (ja)
JP (1) JP5214679B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5214760B2 (ja) 2011-03-23 2013-06-19 株式会社東芝 学習装置、方法及びプログラム
JP5214762B2 (ja) 2011-03-25 2013-06-19 株式会社東芝 認識装置、方法及びプログラム
JP6017335B2 (ja) 2013-02-06 2016-10-26 株式会社東芝 パターン認識装置、その方法、及び、そのプログラム
JP2015133085A (ja) * 2014-01-15 2015-07-23 キヤノン株式会社 情報処理装置およびその方法
WO2016117358A1 (ja) * 2015-01-21 2016-07-28 三菱電機株式会社 検査データ処理装置および検査データ処理方法
CN105513597B (zh) * 2015-12-30 2018-07-10 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
US10528889B2 (en) * 2016-03-25 2020-01-07 Futurewei Technologies, Inc. Stereoscopic learning for classification

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3833430B2 (ja) * 2000-02-14 2006-10-11 三菱電機株式会社 データ照合装置及びデータ照合方法
JP2006268825A (ja) 2005-02-28 2006-10-05 Toshiba Corp オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム
JP4767595B2 (ja) * 2005-06-15 2011-09-07 パナソニック株式会社 対象物検出装置及びその学習装置
JP4956273B2 (ja) * 2007-05-17 2012-06-20 日本放送協会 投球球種識別装置、識別器生成装置、投球球種識別プログラム及び識別器生成プログラム

Also Published As

Publication number Publication date
US20120052473A1 (en) 2012-03-01
US9058748B2 (en) 2015-06-16
JP2012048624A (ja) 2012-03-08

Similar Documents

Publication Publication Date Title
US10909455B2 (en) Information processing apparatus using multi-layer neural network and method therefor
JP5214760B2 (ja) 学習装置、方法及びプログラム
JP5214679B2 (ja) 学習装置、方法及びプログラム
US9070041B2 (en) Image processing apparatus and image processing method with calculation of variance for composited partial features
JP6798619B2 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
US10783402B2 (en) Information processing apparatus, information processing method, and storage medium for generating teacher information
WO2019158015A1 (zh) 样本获取方法、目标检测模型生成方法、目标检测方法
US9633044B2 (en) Apparatus and method for recognizing image, and method for generating morphable face images from original image
JP6448325B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN110717554B (zh) 图像识别方法、电子设备及存储介质
JP5214716B2 (ja) 識別装置
CN109919252B (zh) 利用少数标注图像生成分类器的方法
JP2016134175A (ja) ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム
JP2011013732A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2014232533A (ja) Ocr出力検証システム及び方法
CN105760488B (zh) 基于多层次特征融合的图像表达方法和装置
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
WO2012132418A1 (ja) 属性推定装置
JP2011096136A (ja) オブジェクト識別装置及びオブジェクト識別方法
WO2021042505A1 (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
JP5776694B2 (ja) 物体識別向けの学習装置、学習システム、学習方法、及び学習プログラム
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
CN115620083A (zh) 模型训练方法、人脸图像质量评价方法、设备及介质
KR102321039B1 (ko) 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램
Robbins Robustness to Atmospheric Turbulence with Improved Feature Invariance in Deep Learning-Based Face Recognition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130227

R151 Written notification of patent or utility model registration

Ref document number: 5214679

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350