JP5214679B2

JP5214679B2 - 学習装置、方法及びプログラム

Info

Publication number: JP5214679B2
Application number: JP2010192253A
Authority: JP
Inventors: 達夫小坂谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-08-30
Filing date: 2010-08-30
Publication date: 2013-06-19
Anticipated expiration: 2030-08-30
Also published as: US20120052473A1; US9058748B2; JP2012048624A

Description

本発明の実施形態は、学習装置、方法及びプログラムに関する。

近年、識別器の学習手法において、学習データ中の各学習サンプルに当該学習サンプルに応じた属性を人間が予め教示しておき、教示した属性を識別する識別基準である２クラス識別器を学習する手法が提案されている。学習サンプルに与える属性としては、例えば学習サンプルが人間の顔の画像であれば、性別などが該当する。

このような学習手法では、各学習サンプルに予め様々な属性を教示しておき、教示した属性毎の２クラス識別器を学習する。そして、学習された複数の２クラス識別器は、各２クラス識別器の出力値を物体の特徴量として利用することにより、物体認識などに用いられる。

ＮｅｅｒａｊＫｕｍａｒ，ＡｌｅｘａｎｄｅｒＣ．Ｂｅｒｇ，ＰｅｔｅｒＮ．Ｂｅｌｈｕｍｅｕｒ，ａｎｄＳｈｒｅｅＫ．Ｎａｙａｒ， "ＡｔｔｒｉｂｕｔｅａｎｄＳｉｍｉｌｅＣｌａｓｓｉｆｉｅｒｓｆｏｒＦａｃｅＶｅｒｉｆｉｃａｔｉｏｎ，" ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ），２００９．

しかしながら、従来技術では、学習サンプルに対して属性を人間が教示しなければならないため、コストがかかってしまう。

実施形態の学習装置は、学習サンプル記憶部と、選択部と、学習部とを、備える。学習サンプル記憶部は、各学習サンプルが複数のカテゴリのいずれかに分類される複数の学習サンプルを記憶する。選択部は、学習サンプル記憶部から学習サンプルを１以上含むグループを複数選択する選択処理を複数回行う。学習部は、選択された複数のグループ毎に当該複数のグループを識別する識別基準を学習し、学習した複数の識別基準を含む評価基準を生成する。選択部は、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数のグループ間の差が予め定められた範囲内に収まるように、複数のグループを無作為に選択する。

第１実施形態の学習装置の構成例を示すブロック図。第１実施形態の評価基準の生成手法の一例を示す説明図。第１実施形態の学習装置の学習処理例を示すフローチャート図。第２実施形態の学習装置の構成例を示すブロック図。第２実施形態の画像の特徴量の計算手法の一例を示す説明図。第２実施形態の学習装置の特徴量計算処理例を示すフローチャート図。第３実施形態の学習装置の構成例を示すブロック図。第３実施形態の学習装置の特徴量計算処理例を示すフローチャート図。第４実施形態の学習装置の構成例を示すブロック図。第４実施形態の類似度の計算手法の一例を示す説明図。第４実施形態の学習装置の類似度計算処理例を示すフローチャート図。変形例２の学習装置の構成例を示すブロック図。各実施形態及び各変形例の学習装置のハードウェア構成例を示すブロック図。

（第１実施形態）
第１各実施形態では、画像に含まれる物体の認識に用いられる評価基準の生成（学習）を例に取り、学習装置について説明する。

図１は、第１実施形態の学習装置１００の構成の一例を示すブロック図である。図１に示すように、学習装置１００は、学習サンプル記憶部１１２と、選択部１１４と、学習部１１６と、評価基準記憶部１１８とを、備える。

学習サンプル記憶部１１２は、各学習サンプルが複数のカテゴリのいずれかに分類される複数の学習サンプルを記憶する。ここで、カテゴリとは、学習サンプルの種類を示すものである。第１実施形態では、学習サンプルが、物体が含まれる画像である場合を例に取り説明するが、学習サンプルはこれに限定されるものではない。なお学習サンプル記憶部１１２は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカードなどの磁気的、光学的、又は電気的に記憶可能な既存の記憶装置の少なくともいずれかにより実現できる。

第１実施形態では、学習サンプル記憶部１１２は、Ｍ（Ｍ≧２）枚の画像を記憶している。なお、画像のカテゴリはＣ（Ｃ≧２）用意され、Ｍ枚の画像はカテゴリ毎にＭ_ｈ（１≦ｈ≦Ｃ）枚の画像に分類されるものとする。つまり、Ｍ＝Ｍ_１＋…＋Ｍ_Ｃとなる。ここでは、カテゴリは、画像に含まれる物体の種類を示す。例えば、人間の顔の画像を対象として人物の認識を行う場合、カテゴリは人物の種類となる。つまり、Ｍ枚の画像内にαの顔の画像とβの顔の画像とγの顔の画像との計３名が含まれていれば、Ｃ＝３となる。

選択部１１４は、学習サンプル記憶部１１２から学習サンプルを１以上含むグループを複数選択する選択処理を複数回行う。特に選択部１１４は、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数又はサンプル数が略同数となるように、当該複数のグループを選択する。具体的には、選択部１１４は、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数又はサンプル数のグループ間の差が予め定められた範囲内に収まるように、当該複数のグループを選択する。なお第１実施形態では、選択部１１４が、学習サンプル記憶部１１２から学習サンプルを無作為に選択（ランダムサンプリング）するものとする。これにより、選択部１１４により選択される複数のグループに含まれる学習サンプルのカテゴリは、選択部１１４の選択処理毎に異なることが期待できる。但し、学習サンプルの選択手法はこれに限定されるものではなく、選択する複数のグループに含まれる学習サンプルのカテゴリが選択処理毎に異なることが期待できれば、どのような選択基準で選択してもよい。

第１実施形態では、選択部１１４は、学習サンプル記憶部１１２から、各グループが画像を１枚以上含むようにＫ（Ｋ≧２）個のグループを無作為に選択する選択処理をＮ（Ｎ≧２）回行う。特に選択部１１４は、選択処理を行う際、Ｋ個のグループのそれぞれに含まれる画像のカテゴリ数が同数となるように、Ｋ個のグループを無作為に選択する。

このため選択部１１４は、学習サンプル記憶部１１２から画像を完全に無作為に選択するのではなく、カテゴリの画像枚数に応じて重み付けを行ってＫ個のグループ間の画像枚数の差を小さくするように調整したり、カテゴリの画像枚数に関わらずある一定の枚数の画像を抽出するようにしたりしてもよい。なお、画像枚数を一定にする場合、選択部１１４は、さらに単純にカテゴリから画像を無作為に選択するようにしてもよいし、学習サンプルとしてまだ選択されていない未選択画像をカテゴリから優先的に選択するようにしてもよい。

学習部１１６は、選択部１１４により選択された複数のグループ毎に当該複数のグループを識別する識別基準を学習し、学習した複数の識別基準を含む評価基準を生成する。第１実施形態では、学習部１１６は、選択部１１４により選択されたＫ個のグループ毎に当該Ｋ個のグループを識別する識別器Ｆ_ｉ（ｘ）（１≦ｉ≦Ｎ）を学習し、学習したＮ個の識別器を含む評価基準｛Ｆ_１（ｘ），Ｆ_２（ｘ），…，Ｆ_Ｎ（ｘ）｝を生成する。

学習部１１６により生成された評価基準｛Ｆ_１（ｘ），Ｆ_２（ｘ），…，Ｆ_Ｎ（ｘ）｝は、画像内に含まれる物体の物体認識などに用いられる。具体的には、評価基準｛Ｆ_１（ｘ），Ｆ_２（ｘ），…，Ｆ_Ｎ（ｘ）｝に含まれるＮ個の識別器Ｆ_ｉ（ｘ）のそれぞれが、認識対象の画像に対する評価値を出力する。評価値は、例えば、識別器が予め学習したいずれのクラスに属するかを示す尤度やクラス番号などが該当する。そして、出力された複数の評価値が画像内に含まれる物体の特徴量として利用されることにより、物体認識などに用いられる。物体認識など評価基準の利用方法は、第２実施形態以降で詳細に説明する。

なお、学習部１１６は、既存の学習手法を用いて、Ｋ個のグループを識別する識別器Ｆ_ｉ（ｘ）を学習することができる。例えば、選択部１１４により選択された２個のグループを識別する識別器を学習する場合であれば、学習部１１６は、サポートベクターマシンやブースティングなどの学習手法を用いることができる。また例えば、選択部１１４により選択された３個のグループを識別する識別器を学習する場合であれば、学習部１１６は、ｋ近傍識別器、ベイズ分類、又はニューラルネットワークなどの学習手法を用いることができる。

評価基準記憶部１１８には、学習部１１６により生成された評価基準が記憶される。具体的には、学習部１１６が、生成した評価基準｛Ｆ_１（ｘ），Ｆ_２（ｘ），…，Ｆ_Ｎ（ｘ）｝を評価基準記憶部１１８に格納する（記憶させる）。なお評価基準記憶部１１８は、学習サンプル記憶部１１２同様、既存の記憶装置の少なくともいずれかにより実現できる。

図２は、評価基準の生成手法の一例を示す説明図である。なお、図２に示す例では、Ｓ_１〜Ｓ_Ｍ（Ｍ≧１１）が、学習サンプル（物体が含まれる画像）を示し、Ｃ＝Ｍであるものとする。つまり、図２に示す例では、全ての学習サンプルのカテゴリが異なるものとする。また、図２に示す例では、Ｋ＝２であるものとする。つまり、図２に示す例では、選択部１１４は、各グループに含まれる学習サンプルのカテゴリ数が２となるように、即ち、Ｃ＝Ｍであるため、各グループに含まれる学習サンプル数が２となるように、２個のグループを選択する。

図２に示す例では、選択部１１４は、１回目の選択処理で、学習サンプルＳ_１及びＳ_５を含むグループ１５１ａと、学習サンプルＳ_２及びＳ_７を含むグループ１５１ｂとを、選択している。また、選択部１１４は、２回目の選択処理で、学習サンプルＳ_３及びＳ_８を含むグループ１５２ａと、学習サンプルＳ_１０及びＳ_Ｍを含むグループ１５２ｂとを、選択している。また、選択部１１４は、Ｎ回目の選択処理で、学習サンプルＳ_４及びＳ_９を含むグループ１５３ａと、学習サンプルＳ_６及びＳ_７を含むグループ１５３ｂとを、選択している。

また、学習部１１６は、選択部１１４により１回目の選択処理で選択されたグループ１５１ａとグループ１５１ｂとを識別する識別器Ｆ_１（ｘ）を学習している。また、学習部１１６は、選択部１１４により２回目の選択処理で選択されたグループ１５２ａとグループ１５２ｂとを識別する識別器Ｆ_２（ｘ）を学習している。また、学習部１１６は、選択部１１４によりＮ回目の選択処理で選択されたグループ１５３ａとグループ１５３ｂとを識別する識別器Ｆ_Ｎ（ｘ）を学習している。これにより、学習部１１６は、学習したＮ個の識別器を含む評価基準｛Ｆ_１（ｘ），Ｆ_２（ｘ），…，Ｆ_Ｎ（ｘ）｝を生成する。

図３は、第１実施形態の学習装置１００で行われる学習処理の手順の流れの一例を示すフローチャート図である。

まず、選択部１１４は、学習サンプル記憶部１１２から画像を１枚以上含むグループを複数選択する（ステップＳ１００）。この際、選択部１１４は、選択する複数のグループのそれぞれに含まれる画像のカテゴリ数又はサンプル数のグループ間の差が予め定められた範囲内に収まるように、当該複数のグループを選択する。

続いて、学習部１１６は、選択部１１４により選択された複数のグループを識別する識別基準を学習する（ステップＳ１０２）。

続いて、選択部１１４は、例えば、選択がＮ回行われていない場合には、選択を続行すると判定し（ステップＳ１０４でＹｅｓ）、ステップＳ１００に戻り、選択がＮ回行われている場合には、選択を続行しないと判定し（ステップＳ１０４でＮｏ）、ステップＳ１０６へ進む。

続いて、学習部１１６は、ステップＳ１０２で学習した複数の識別基準を含む評価基準を生成し、評価基準記憶部１１８に格納する（ステップＳ１０６）。

以上のように、第１実施形態の学習装置１００では、複数のグループ毎に、当該複数のグループを識別する識別基準、即ち各グループに含まれる学習サンプルのカテゴリ又はカテゴリの組み合わせをグループ間で識別する識別基準を学習する。そして第１実施形態の学習装置１００では、複数のグループの選択、即ち、各グループに含まれる学習サンプルのカテゴリ又はカテゴリの組み合わせの選択は、選択部１１４により自動的に行われる。このため第１実施形態の学習装置１００によれば、人間が識別基準を教示する必要がなく、識別基準の学習に伴うコストを削減することができる。これに対し、従来技術の手法では、識別基準となる属性を人間が教示しなければならないため、識別基準の学習に伴うコストがかかってしまう。

また第１実施形態の学習装置１００では、グループの組み合わせ数、即ち、グループに含まれる学習サンプルのカテゴリ又はカテゴリの組み合わせのグループ間の組み合わせ数は、膨大な数になる傾向にある。このため第１実施形態の学習装置１００によれば、上限にとらわれず、必要なだけ識別基準を学習して、評価基準を生成することができる。これに対し、従来技術の手法では、識別基準は、例えば性別や人種、年代など、教示する人間にとって明確に判断可能なものに限られるため、学習可能な識別基準の数に限界がある。

また第１実施形態の学習装置１００では、選択部１１４は、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数又はサンプル数のグループ間の差が予め定められた範囲内に収まるように、当該複数のグループを無作為に選択する。つまり第１実施形態の学習装置１００では、識別対象の複数のグループのそれぞれを無作為かつ均等な分布を有するように選択する。このようにして選択された複数のグループを識別するように学習された識別基準は、認識対象の物体が含まれる画像に対する評価値、即ち、学習に用いた複数のグループのいずれに属すると判定されるかが完全にランダムとなる。

従って、例えば、物体が含まれる２枚の画像に同一の識別基準を用いると、２枚の画像に含まれる物体が同一である場合は、評価値の値が同一となること、即ち、両物体が識別対象の複数のグループのうちのいずれかのグループに類似することが期待できる。一方、２枚の画像に含まれる物体が異なる場合は、評価値の値がどのような値となるかは不定、即ち、無相関となる。ここで、互いに異なる物体を含む２枚の画像に対する評価値が無相関であるということは、例えば、物体認識を行う際の類似度計算に正規化相関などを利用した場合、類似度がゼロになるということを示す。

つまり、第１実施形態の学習装置１００では、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数又はサンプル数のグループ間の差が予め定められた範囲内に収まるように、当該複数のグループを無作為に選択することにより、この複数のグループを識別する識別基準には、異なる物体の類似度を分離するような変換が、組み込まれているという特徴を持つ。

従って、第１実施形態の学習装置１００によれば、画像に含まれる物体を認識するために有効、即ち、物体認識の認識精度において好適な識別基準を含む評価基準を学習サンプルから効率的に学習することができる。これに対し、従来技術の手法では、識別基準となる属性（例えば、ある人物とそれ以外の人物）によっては、学習サンプルが一方（それ以外の人物）に偏って学習されるため、識別基準の評価値の分布にも偏りが出てしまい、画像に含まれる物体を認識するために有効な評価基準とならない場合がある。

（第２実施形態）
第２実施形態では、第１実施形態で生成した評価基準を用いて画像の特徴量を計算する例について説明する。以下では、第１実施形態との相違点の説明を主に行い、第１実施形態と同様の機能を有する構成要素については、第１実施形態と同様の名称・符号を付し、その説明を省略する。

図４は、第２実施形態の学習装置２００の構成の一例を示すブロック図であり、図５は、画像の特徴量の計算手法の一例を示す説明図である。図４に示すように、第２実施形態の学習装置２００では、入力部２２２、入力受付部２２４、及び特徴量計算部２２６を更に備える点が第１実施形態の学習装置１００と相違する。

入力部２２２は、認識対象の物体が含まれる画像を入力する。例えば、入力部２２２は、人間の顔が含まれる画像を入力する。なお入力部２２２は、例えば顔検出などにより人間の顔と関係のない背景などを予め取り除いた画像を入力するようにしてもよい。

第２実施形態では、入力部２２２により入力される画像が、Ｄｓ（Ｄｓ≧１）次元のベクトルで表されるデータであり、ベクトルの各要素が輝度値である場合を例に取り説明する。例えば、入力部２２２により入力される画像Ｘは、図５に示すように、（Ｘ_１，Ｘ_２，…，Ｘ_Ｄｓ）で表されるものとする。但し、入力部２２２により入力される画像は、これに限定されるものではない。

入力部２２２は、例えば、ＵＳＢ（Universal Serial Bus）カメラやデジタルカメラなどの撮像装置、ビデオテープやＤＶＤ（Digital Versatile Disk）などの記録装置、スキャナなどの読取装置、又は、ネットワークＩ／Ｆなどの通信装置などにより実現できる。

入力受付部２２４は、入力部２２２から物体が含まれる画像の入力を受け付ける。

特徴量計算部２２６は、評価基準記憶部１１８に記憶されている評価基準を用いて、入力受付部２２４により受け付けられた画像の特徴量を計算する。これにより、画像に含まれる物体が有する固有の特徴量が計算され、計算された特徴量を利用することにより、画像に含まれる物体を認識できる。

ここで、第２実施形態では、評価基準記憶部１１８に記憶されている評価基準｛Ｆ_１（ｘ），Ｆ_２（ｘ），…，Ｆ_Ｎ（ｘ）｝に含まれるそれぞれの識別器Ｆ_ｉ（ｘ）が、画像Ｘに対し、数式（１）に示すように評価値ｓ_ｉを返却するものとする。ここで、学習部１１６により、いずれの学習手法を用いて識別器Ｆ_ｉ（ｘ）が学習された場合であっても、識別器Ｆ_ｉ（ｘ）の出力は、識別対象のグループに属する尤度などとして表されるため、数式（１）を満たす。

Ｆ_ｉ（Ｘ）＝ｓ_ｉ …（１）

なお第２実施形態では、評価値ｓ_ｉがスカラー量である場合を例に取り説明するが、これに限定されるものではなく、例えば、複数の要素を持つベクトルであってもよい。また、後述する内容は、評価値ｓ_ｉがベクトルであっても同様に適用できる。例えば、学習部１１６により、３個以上のグループを識別する学習手法を用いて識別器Ｆ_ｉ（ｘ）が学習された場合、識別器Ｆ_ｉ（ｘ）の出力は、識別対象のグループに含まれる各カテゴリに帰属する尤度を要素に持つようなベクトルとなる。

特徴量計算部２２６は、具体的には、図５に示すように、入力受付部２２４により受け付けられた画像Ｘを評価基準記憶部１１８に記憶されている評価基準｛Ｆ_１（ｘ），Ｆ_２（ｘ），…，Ｆ_Ｎ（ｘ）｝に適用して、評価値ｓ_ｉを取得し、取得した評価値ｓ_ｉから画像Ｘの特徴量ｖ（Ｘ）を計算する。第２実施形態では、特徴量計算部２２６は、図５及び数式（２）に示すように全ての評価値ｓ_ｉを１つに並べることで画像Ｘの特徴量ｖ（Ｘ）を計算するものとする。

ｖ（Ｘ）＝（ｓ_１，ｓ_２，…，ｓ_Ｎ） …（２）

例えば、識別器Ｆ_ｉ（ｘ）が２つのクラスを判別し、評価値ｓ_ｉとして０又は１を出力する関数であるとする。この場合、特徴量計算部２２６は、入力受付部２２４により受け付けられた画像Ｘの特徴量を、例えば、ｖ（Ｘ）＝（１，１，０，１，０，…，１）のように、０と１との組み合わせで表現されたベクトルとして計算する。また特徴量計算部２２６は、入力受付部２２４により受け付けられた画像Ｙ（Ｙ≠Ｘ）の特徴量を計算すると、例えば、ｖ（Ｙ）＝（０，１，１，１，０，…，０）のように、やはり０と１との組み合わせで表現されたベクトルとして計算するが、計算した特徴量は画像Ｘの特徴量と異なるものなる。つまり、この例では、０と１との組み合わせで表現されたベクトルが、画像に含まれる物体が有する固有の特徴量となる。なお、識別器Ｆ_ｉ（ｘ）が２つ以上のクラスを判別し、評価値ｓ_ｉとして０及び１以外の実数を出力する関数である場合であっても、上記と同様である。

但し、特徴量の計算手法は上述の手法に限定されるものではなく、取得した評価値ｓ_ｉをどのように用いて特徴量を計算しても構わない。

なお、評価値ｓ_ｉがベクトルの場合、画像Ｘの特徴量ｖ（Ｘ）は、評価値ｓ_ｉが持つ各要素を並べたものとなる。つまり、評価値ｓ_ｉの次元数をｄ_ｉとすると、画像Ｘの特徴量ｖ（Ｘ）の次元数Ｄは、次元数ｄ_ｉの総和となる（Ｄ＝ｄ_１＋…＋ｄ_Ｎ）。なお、各評価値ｓ_ｉの次元数ｄ_ｉは、全て同じ値でもよいし、それぞれ異なっていてもよい。

また、特徴量計算部２２６は、特徴量ｖ（ｘ）を評価値ｓ_ｉのヒストグラムとして計算するようにしてもよい。具体的には、特徴量計算部２２６は、評価値ｓ_ｉを離散化（必要なら要素毎に）しておき、その値に該当するビンに対して投票することでヒストグラム特徴量ｖ（ｘ）を計算することができる。

なお、評価値ｓ_ｉがベクトルの場合、特徴量計算部２２６は、次元数ｄ_ｉのヒストグラムとすることでヒストグラム特徴量ｖ（ｘ）を計算することができる。また、スカラー量とベクトルのように次元数の異なる評価値ｓ_ｉが混在している場合、特徴量計算部２２６は、同種の評価値ｓ_ｉ毎にヒストグラム特徴量を計算しておき、計算したヒストグラム特徴量を１つのベクトルとして並べることでヒストグラム特徴量ｖ（ｘ）を計算することができる。

また、特徴量計算部２２６は、評価値ｓ_ｉを１つに並べてベクトル化した特徴量と、評価値ｓ_ｉをヒストグラム化したヒストグラム特徴量とを、更に１つのベクトルとして並べる（連結する）ことで特徴量ｖ（ｘ）を計算するようにしてもよい。また、特徴量計算部２２６は、評価値ｓ_ｉに非線形な変換を施して特徴量を計算するようにしてもよい。また、特徴量計算部２２６は、計算した特徴量に対して、平均を０にしたり、２乗平均を１にしたりするなどの正規化を行うようにしてもよい。

図６は、第２実施形態の学習装置２００で行われる特徴量計算処理の手順の流れの一例を示すフローチャート図である。

まず、入力部２２２は、認識対象の物体が含まれる画像を入力する（ステップＳ２００）。

続いて、入力受付部２２４は、入力部２２２から物体が含まれる画像の入力を受け付ける（ステップＳ２０２）。

続いて、特徴量計算部２２６は、評価基準記憶部１１８に記憶されている評価基準を用いて、入力受付部２２４により受け付けられた画像の特徴量を計算し、出力する（ステップＳ２０４）。

以上のように、第２実施形態の学習装置２００では、第１実施形態で生成された評価基準を用いて、認識対象の物体の特徴を適切に表す特徴量を計算することができる。

（第３実施形態）
第３実施形態では、入力された画像の画像特徴を抽出し、抽出した画像特徴の特徴量を計算する例について説明する。以下では、第２実施形態との相違点の説明を主に行い、第２実施形態と同様の機能を有する構成要素については、第２実施形態と同様の名称・符号を付し、その説明を省略する。

図７は、第３実施形態の学習装置３００の構成の一例を示すブロック図である。図７に示すように、第３実施形態の学習装置３００では、学習サンプル記憶部３１２及び特徴量計算部３２６の内容、並びに抽出部３３２を更に備える点が第２実施形態の学習装置２００と相違する。

学習サンプル記憶部３１２は、学習サンプルとして、物体が含まれる画像の画像特徴を記憶する。つまり、第３実施形態では、学習サンプル記憶部１１２は、Ｍ枚の画像の画像特徴を記憶している。ここで、画像特徴は、例えば、エッジ特徴、色ヒストグラム、又は画素の輝度差の勾配方向ヒストグラムなどが該当する。この場合、学習部１１６により学習される識別器及び学習された複数の識別器を含む評価基準は、画像特徴に適した評価基準となる。つまり、第３実施形態では、評価基準記憶部１１８に記憶されている評価基準は、画像特徴の特徴量の計算に適した評価基準となっている。

抽出部３３２は、入力受付部２２４により受け付けられた画像の画像特徴を抽出する。なお抽出部３３２は、入力受付部２２４により受け付けられた画像から、学習サンプル記憶部３１２に記憶されている画像特徴に対応した画像特徴を抽出する。例えば、学習サンプル記憶部３１２に記憶されている画像特徴がエッジ特徴であれば、抽出部３３２は、入力受付部２２４により受け付けられた画像から画像特徴としてエッジ特徴を抽出する。

特徴量計算部３２６は、評価基準記憶部１１８に記憶されている評価基準を用いて、抽出部３３２により抽出された画像特徴の特徴量を計算する。

図８は、第３実施形態の学習装置３００で行われる特徴量計算処理の手順の流れの一例を示すフローチャート図である。

まず、ステップＳ３００〜Ｓ３０２までの処理は、図６のフローチャートのステップＳ２００〜Ｓ２０２までの処理と同様である。

続いて、抽出部３３２は、入力受付部２２４により受け付けられた画像の画像特徴を抽出する（ステップＳ３０４）。

続いて、特徴量計算部３２６は、評価基準記憶部１１８に記憶されている評価基準を用いて、抽出部３３２により抽出された画像特徴の特徴量を計算する（ステップＳ３０６）。

以上のように、第３実施形態の学習装置３００では、入力された画像から画像特徴を抽出し、抽出した画像特徴を評価基準に適用して特徴量を計算する。従って第３実施形態の学習装置３００により計算された特徴量を物体認識に用いることにより、入力された画像の輝度変化や物体の撮影条件の変動などに対して頑健な認識を行うことが可能となる。

また第３実施形態の学習装置３００では、抽出した画像特徴を評価基準に適用して特徴量を計算しているので、画像特徴の次元数よりも特徴量の次元数の方が小さければ、画像特徴から直接特徴量を計算する場合に比べ、特徴量のサイズが小さくなり、より効率的に物体を表現することができる。

（第４実施形態）
第４実施形態では、特徴量の類似度を計算する例について説明する。以下では、第３実施形態との相違点の説明を主に行い、第３実施形態と同様の機能を有する構成要素については、第３実施形態と同様の名称・符号を付し、その説明を省略する。

図９は、第４実施形態の学習装置４００の構成の一例を示すブロック図であり、図１０は、特徴量の類似度の計算手法の一例を示す説明図である。図９に示すように、第４実施形態の学習装置４００では、基準特徴量記憶部４４２及び類似度計算部４４４を更に備える点が第３実施形態の学習装置３００と相違する。

基準特徴量記憶部４４２は、物体認識の認識基準となる基準特徴量を記憶する。基準特徴量記憶部４４２は、例えば、図１０及び数式（３）に示すように、画像Ｘに含まれる物体の認識基準となる基準特徴量ｖ’（Ｘ）を記憶する。なお基準特徴量記憶部４４２は、学習サンプル記憶部１１２同様、既存の記憶装置の少なくともいずれかにより実現できる。

ｖ’（Ｘ）＝（ｔ_１，ｔ_２，…，ｔ_Ｎ） …（３）

類似度計算部４４４は、特徴量計算部３２６により計算された特徴量と、基準特徴量記憶部４４２に記憶されている基準特徴量との類似度を計算する。例えば、類似度計算部４４４は、特徴量計算部３２６により計算された特徴量ｖ（Ｘ）と基準特徴量記憶部４４２に記憶されている基準特徴量ｖ’（Ｘ）との間の、正規化相関やベクトル間のユークリッド距離やマハラノビス距離などを計算することにより、類似度を計算する。但し、類似度の計算手法はこれに限定されるものではない。

図１１は、第４実施形態の学習装置４００で行われる類似度計算処理の手順の流れの一例を示すフローチャート図である。

まず、ステップＳ４００〜Ｓ４０６までの処理は、図８のフローチャートのステップＳ３００〜Ｓ３０６までの処理と同様である。

続いて、類似度計算部４４４は、特徴量計算部３２６により計算された特徴量と、基準特徴量記憶部４４２に記憶されている基準特徴量との類似度を計算し、出力する（ステップＳ４０８）。

以上のように、第４実施形態の学習装置４００によれば、入力された画像から画像特徴を抽出し、抽出した画像特徴を評価基準に適用して特徴量を計算し、計算した特徴量と基準特徴量との類似度を計算するので、認識精度において好適な物体認識を行うことができる。

特に第４実施形態の学習装置４００では、抽出した画像特徴から類似度を計算するのではなく、抽出した画像特徴を評価基準に適用して計算した特徴量と基準特徴量との類似度を計算する。画像特徴から類似度を計算する場合、画像特徴の次元数が高くなるにつれ、球面集中現象によりお互いの類似度が近くなり、適切に類似性を測ることができない場合があった。これに対し第４実施形態の学習装置４００では、類似度の計算において、高次元の画像特徴であっても評価基準を用いて低次元の特徴量に一度変換したのちに類似度を計算するため、画像特徴の次元数に関わらず、任意の画像特徴を用いて類似度を計算することが可能となる。

また第４実施形態の学習装置４００では、抽出した画像特徴を評価基準に適用して特徴量を計算しているので、特徴量の次元数、即ち特徴量を保持するために必要なメモリサイズが小さくなり、基準特徴量のサイズも小さくできる。このため第４実施形態の学習装置４００によれば、基準特徴量記憶部４４２で特徴量を記憶するために必要な記憶容量を削減することができる。また、一般的に特徴量の次元数と類似度計算に必要な処理時間は比例関係にあることから、類似度計算部４４４による類似度計算速度を高速化することができる。

（変形例１）
上記各実施形態において、学習部１１６は、複数種類の学習方法を切り替えて識別基準を学習するようにしてもよい。例えば学習部１１６は、上述したサポートベクターマシンやブースティングなど複数種類の既存の学習手法を切り替えて識別器を学習するようにしてもよい。

また学習部１１６は、学習対象の識別器に応じて、識別器の学習手法を切り替えるようにしてもよい。例えば、選択部１１４がｌ（１≦ｌ≦Ｎ）番目の選択処理を行う場合には、選択部１１４が２個のグループを選択して学習部１１６がサポートベクターマシンを用いて識別器を学習し、選択部１１４がｍ（１≦ｍ≦Ｎ）番目の選択処理を行う場合には、選択部１１４が３個のグループを選択して学習部１１６がｋ近傍識別器を用いて識別器を学習するようにしてもよい。

このように、選択したグループ数や学習サンプルに応じて適応的に学習手法を変更することで、より適切に識別基準を学習して評価基準を生成することができる。これにより、入力された画像又は画像特徴の特徴量をより効率的に精度良く求めることができる。

（変形例２）
上記各実施形態において、学習部により生成された評価基準を用いて、学習サンプルの特徴量を計算し、計算した特徴量を学習サンプルとして学習サンプル記憶部に格納するようにしてもよい。つまり、学習サンプルを学習して生成した評価基準を用いて計算した学習サンプルの特徴量を、更に学習サンプルに用いることで、評価基準の学習を再帰的に行うようにしてもよい。以下では、第１実施形態との相違点の説明を主に行い、第１実施形態と同様の機能を有する構成要素については、第２実施形態と同様の名称・符号を付し、その説明を省略する。

図１２は、変形例２の学習装置５００の構成の一例を示すブロック図である。図１２に示すように、変形例２の学習装置５００では、サンプル特徴量計算部５５２を更に備える点が第１実施形態の学習装置１００と相違する。

サンプル特徴量計算部５５２は、学習部１１６により生成された評価基準を用いて、学習サンプル（画像）の特徴量を計算し、計算した特徴量を学習サンプルとして学習サンプル記憶部１１２に格納する。これにより、学習サンプルを学習して生成した評価基準を用いて計算した学習サンプルの特徴量が更に学習サンプルに用いられ、評価基準の学習が再帰的に行われる。なお、サンプル特徴量計算部５５２の特徴量の計算手法は、特徴量計算部と同様である。また変形例２では、特徴量計算対象の学習サンプルは、学習サンプル記憶部１１２に記憶されている学習サンプルである場合を例に取り説明するが、これに限定されるものではなく、学習サンプル記憶部１１２に記憶されている学習サンプル以外の学習サンプルを用意して用いてもよい。

また学習部１１６は、学習サンプル記憶部１１２に記憶されている画像、学習サンプル記憶部１１２に記憶されている画像の画像特徴の種類やパラメータ、学習手法の種類など、様々な条件で評価基準を生成しておき、サンプル特徴量計算部５５２は、これらの評価基準で特徴量を計算し、計算した特徴量を学習サンプルとして学習サンプル記憶部１１２に格納するようにしてもよい。具体的には、サンプル特徴量計算部５５２は、計算した複数の特徴量を１つのベクトルに連結した新たな特徴量を学習サンプルとして学習サンプル記憶部１１２に格納する。

変形例２によれば、評価基準の再帰的な学習が可能となる。特に変形例２によれば、計算した複数の特徴量を１つの新たな特徴量として統合し、統合した新たな特徴量を評価基準学習用の学習サンプルに利用することで、新たな特徴量から評価基準を学習することが可能となる。複数の異なる特徴量を統合する場合、出力される値域や平均などの統計的性質の異なる複数の特徴量をどのように統合するかが課題となる。これに対し変形例２によれば、新たな特徴量として統合する前の複数の特徴量における統計的な性質の差が、識別基準を学習する際の識別器が学習サンプルから自動的に吸収するため、統合方法を考慮することなく統合でき、これにより、認識精度の高い評価基準の生成が可能となる。

（変形例３）
上記第３〜第４実施形態において、学習サンプル記憶部３１２は、学習サンプルとして、画像毎に複数種類の画像特徴を記憶するようにしてもよい。この場合、選択部１１４は、どの画像特徴を選択するかだけでなく、どの種類の画像特徴を用いるのかも選択し、抽出部３３２は、画像から複数画像の画像特徴を抽出する。選択部１１４の選択方法はどのような方法を用いてもよい。例えば、選択部１１４は、画像特徴の種類を無作為に選択してもよいし、これまで選択されていない画像特徴を優先的に選択するようにしてもよい。

（変形例４）
上記各実施形態及び上記各変形例では、画像に含まれる物体認識に用いられる評価基準の生成（学習）を例に取り、学習サンプルが画像や画像特徴である例について説明した。但し、これに限定されるものではなく、例えば音声認識など様々な分野に適用可能である。例えば、音声認識に適用する場合であれば、学習サンプルを音声信号とすればよい。この場合も認識対象の音声信号をＤｓ次元のベクトルで表すことができ、ベクトルの要素を音声信号の値とすればよい。このように、認識対象に応じた学習サンプルを用意し、認識対象のデータをＤｓ次元のベクトルで表し、ベクトルの要素を認識対象に応じた値とすれば、どのような分野においても容易に適用することができる。

図１３は、上記各実施形態及び上記各変形例の学習装置のハードウェア構成の一例を示すブロック図である。図１３に示すように、上記各実施形態及び上記各変形例の学習装置は、ＣＰＵ（Central Processing Unit）などの制御装置９０２と、ＲＯＭやＲＡＭなどの記憶装置９０４と、ＨＤＤやＳＳＤなどの外部記憶装置９０６と、ディスプレイなどの表示装置９０８と、撮像装置、記録装置、読取装置、又はネットワークＩ／Ｆ、及びキーボード又はマウスなどの入力装置９１０とを備えており、通常のコンピュータを利用したハードウェア構成となっている。

上記各実施形態及び上記各変形例の学習装置で実行される学習プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、ＣＤ−Ｒ、メモリカード、ＤＶＤ、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されて提供される。

また、上記各実施形態及び上記各変形例の学習装置で実行される学習プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記各実施形態及び上記各変形例の学習装置で実行される学習プログラムを、インターネット等のネットワーク経由で提供または配布するようにしてもよい。また、上記各実施形態及び上記各変形例の学習装置で実行される学習プログラムを、ＲＯＭ等に予め組み込んで提供するようにしてもよい。

上記各実施形態及び上記各変形例の学習装置で実行される学習プログラムは、上述した各部をコンピュータ上で実現させるためのモジュール構成となっている。実際のハードウェアとしては、例えば、ＣＰＵがＨＤＤから学習プログラムをＲＡＭ上に読み出して実行することにより、上記各部がコンピュータ上で実現されるようになっている。

以上説明したとおり、上記各実施形態及び上記各変形例によれば、識別基準の学習に伴うコストを削減することができる。

なお本発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。

１００、２００、３００、４００、５００学習装置
１１２学習サンプル記憶部
１１４選択部
１１６学習部
１１８評価基準記憶部
２２２入力部
２２４入力受付部
２２６特徴量計算部
３３２抽出部
４４２基準特徴量記憶部
４４４類似度計算部
５５２サンプル特徴量計算部

Claims

各学習サンプルが複数のカテゴリのいずれかに分類される複数の学習サンプルを記憶する学習サンプル記憶部と、
前記学習サンプル記憶部から学習サンプルを１以上含むグループを複数選択する選択処理を複数回行う選択部と、
選択された複数のグループ毎に当該複数のグループを識別する識別基準を学習し、学習した複数の識別基準を含む評価基準を生成する学習部と、
を備え、
前記選択部は、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数のグループ間の差が予め定められた範囲内に収まるように、前記複数のグループを無作為に選択することを特徴とする学習装置。
前記学習サンプルは、画像であり、
物体が含まれる画像の入力を受け付ける入力受付部と、
前記評価基準を用いて、前記画像の特徴量を計算する特徴量計算部と、を更に備えることを特徴とする請求項１に記載の学習装置。
前記学習サンプルは、画像特徴であり、
前記画像の画像特徴を抽出する抽出部を、更に備え、
前記特徴量計算部は、前記評価基準を用いて、前記画像特徴の特徴量を計算することを特徴とする請求項２に記載の学習装置。
前記特徴量と認識基準となる基準特徴量との類似度を計算する類似度計算部を更に備えることを特徴とする請求項２又は３に記載の学習装置。
前記学習部は、複数種類の学習方法を切り替えて前記識別基準を学習することを特徴とする請求項１〜４のいずれか１つに記載の学習装置。
前記評価基準を用いて、学習サンプルの特徴量を計算し、計算した特徴量を学習サンプルとして前記学習サンプル記憶部に格納するサンプル特徴量計算部を更に備えることを特徴とする請求項１〜５のいずれか１つに記載の学習装置。
前記学習サンプル記憶部は、前記学習サンプルとして、複数種類の画像特徴を記憶することを特徴とする請求項３又は４に記載の学習装置。
選択部が、各学習サンプルが複数のカテゴリのいずれかに分類される複数の学習サンプルを記憶する学習サンプル記憶部から学習サンプルを１以上含むグループを複数選択する選択処理を複数回行う選択ステップと、
学習部が、選択された複数のグループ毎に当該複数のグループを識別する識別基準を学
習し、学習した複数の識別基準を含む評価基準を生成する学習ステップと、
を含み、
前記選択ステップでは、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数のグループ間の差が予め定められた範囲内に収まるように、前記複数のグループを無作為に選択することを特徴とする学習方法。
各学習サンプルが複数のカテゴリのいずれかに分類される複数の学習サンプルを記憶する学習サンプル記憶部から学習サンプルを１以上含むグループを複数選択する選択処理を複数回行う選択ステップと、
選択された複数のグループ毎に当該複数のグループを識別する識別基準を学習し、学習した複数の識別基準を含む評価基準を生成する学習ステップと、
をコンピュータに実行させ、
前記選択ステップでは、選択する複数のグループのそれぞれに含まれる学習サンプルのカテゴリ数のグループ間の差が予め定められた範囲内に収まるように、前記複数のグループを無作為に選択することを特徴とする学習プログラム。