JP6338781B2

JP6338781B2 - 学習装置および学習識別システム

Info

Publication number: JP6338781B2
Application number: JP2017535217A
Authority: JP
Inventors: 孝之瀬光; 信明本山; 関口　俊一; 俊一関口
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-08-20
Filing date: 2015-08-20
Publication date: 2018-06-06
Anticipated expiration: 2035-08-20
Also published as: US20180039822A1; WO2017029758A1; CN107924493A; DE112015006815T5; JPWO2017029758A1

Description

この発明は、例えば、画像中の対象物体が属するクラスを識別するための識別器を学習する学習装置および学習識別システムに関する。

画像処理技術分野では、画像データに対して特徴抽出を行い、この画像データから抽出された特徴ベクトルにより特定されるパターンを学習して、画像中の対象物体を識別するパターン認識の技術がさかんに研究開発されている。
特徴抽出では、画像データの画素値をそのまま特徴ベクトルとして抽出してもよいし、画像を加工して得られたデータを特徴ベクトルとしてもよい。このような特徴抽出により得られる特徴量は、一般的に複数次元のデータになるので、この特徴量は特徴ベクトルと呼ばれている。ただし、特徴量は単一次元のデータであってもよい。
例えば、非特許文献１には、画像における濃淡レベルの頻度をヒストグラムとして求める技術が記載されている。このような処理も上記特徴抽出処理の一例である。

また、画像識別処理では、パターン認識における学習の１つである教師あり学習を使用した学習方法が数多く提案されている。教師あり学習とは、入力画像に対応するラベルが付与された学習サンプルを用意し、この学習サンプルに基づいて画像または特徴ベクトルから対応するラベルを推定する計算式を求める学習方法である。

非特許文献１には、この教師あり学習の１つである最短距離法を用いた画像識別処理が記載されている。最短距離法では、分類単位として各クラスとの特徴空間における距離を求め、この距離が最小となるクラスに属すると判定するものである。
このとき、画像データのクラスは複数個あればよく、一般的にクラスが多いほど識別が難しくなり、少ないほど簡単になる。

非特許文献２には、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ（以下、ＣＮＮと記載する）と呼ばれるニューラルネットワークを用いて、画像に写った顔の表情を学習する方法が記載されている。この方法では、分類対象となる画像に対して各クラスに属する確率が求められ、この確率が最大のクラスを当該画像が属するクラスであると判定する。

また、非特許文献３には、画像に写る人物の表情を認識する表情認識について記載されている。表情認識では、画像に写る人物の表情が、一般的に喜び、悲しみ、怒り、真顔、驚き、恐れ、嫌悪という７つのクラスに分類され、例えば、ある画像に写る人物の表情は喜び度が８０であるというような識別結果が得られる。この他、表情認識の出力形式は、７つのクラスのそれぞれについて確信度を求める形式もあり得る。いずれの場合にせよ、識別対象の画像がどのクラスに属するかを示す基準が設定される。

高木幹雄、下田陽久監修、"新編画像解析ハンドブック"、東京大学出版会、２００４年、ｐｐ．１６００−１６０３． Wei Li, Min Li, Zhong Su, Zhigang Zhu, "A Deep-Learning Approach to Facial Expression Recognition with Candid Images", 14th IAPR Conference on Machine Vision Applications（MVA 2015），pp. 279-282, Tokyo. Michael Lyons, Shigeru Akamatsu, Miyuki Kamachi, Jiro Gyoba, "Coding Facial Expressions with Gabor Wavelets", 3rd IEEE International Conference on Automatic Face and Gesture Recognition, pp. 200-205, 1998.

このような識別技術が適用される分野において、多クラス識別で各クラスに分類されている学習サンプルを用いて、より少ないクラスの識別結果を得たい場合がある。
例えば、広告を見た人物の画像の表情認識において７クラス（喜び、悲しみ、怒り、真顔、驚き、恐れ、嫌悪）に分類された識別結果から、広告の効果を判断するために、広告を見た人物が肯定的な表情であるか否かを検出したいことがある。

しかしながら、Ｎ（Ｎは３以上の自然数）クラス識別問題では、各クラスの識別基準で識別結果が得られる。このため、Ｎクラス識別の結果が、Ｎよりも少ないＭ（Ｍは２以上Ｎ未満の自然数）クラス識別問題の各クラスの識別基準でどのような値になるのかを判別できない。また、Ｎクラス識別の結果が個々のクラスについて数値化されている場合は、異なるクラスの識別結果同士を、Ｍクラス識別の識別基準で比較することができない。
このように、従来では、Ｎクラス識別の結果をＭクラス識別問題として比較することができなかった。

この発明は上記課題を解決するもので、Ｎクラス識別の結果をＮよりも少ないＭクラス識別問題の識別基準で比較することができる学習装置および学習識別システムを得ることを目的とする。

この発明に係る学習装置は、学習サンプル取得部、分類部および学習部を備える。学習サンプル取得部は、Ｎクラス識別で各クラスに分類された学習サンプルを取得する。分類部は、学習サンプル取得部により取得された学習サンプルを、Ｎよりも少ないＭクラス識別の対象となるクラスに再分類する。学習部は、分類部により再分類された学習サンプルに基づいて、Ｍクラス識別を行うための識別器を学習する。

この発明によれば、Ｎクラス識別で各クラスに分類された学習サンプルを、Ｎよりも少ないＭクラス識別のクラスに再分類してＭクラス識別の識別基準を与える識別器を学習するので、Ｎクラス識別の結果をＮよりも少ないＭクラス識別問題の識別基準で比較することができる。

表情認識における画像識別の概要を示す図である。表情認識における７クラス識別の結果を、２クラス識別の識別基準で比較する場合の問題点を示す図である。６個のクラスが規定された特徴空間を示す図である。図３の特徴空間にクラス間の識別境界を設定した様子を示す図である。この発明の実施の形態１に係る学習識別システムの機能構成を示すブロック図である。実施の形態１に係る学習装置のハードウェア構成を示すブロック図である。図６（ａ）は、学習装置の機能を実現するハードウェアの処理回路を示し、図６（ｂ）は、学習装置の機能を実現するソフトウェアを実行するハードウェア構成を示している。実施の形態１に係る学習装置の動作を示すフローチャートである。表情認識における７クラス識別の結果を用いて２クラス識別を行う処理の概要を示す図である。図８（ａ）は、７クラスから２クラスに再分類された学習サンプルを示し、図８（ｂ）は、２クラス識別の結果を示している。この発明の実施の形態２に係る学習装置の機能構成を示すブロック図である。実施の形態２に係る学習装置の動作を示すフローチャートである。クラス間の学習サンプルのサンプル数の割合を調整する処理を示す図である。図１１（ａ）はサンプル数の調整をしていない場合を示し、図１１（ｂ）はサンプル数の調整をした場合を示している。

以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、表情認識における画像識別の概要を示す図である。前述したように、表情認識では、喜び、悲しみ、怒り、真顔、驚き、恐れ、嫌悪という７つの分類ラベルが一般的であり、Ｎ＝７である。この７クラス識別問題において、識別対象の画像は、各クラスの識別器に入力されたときに最も高い識別スコアを出力した識別器のクラスに分類され、個々のクラスの識別基準で識別結果が得られる。

なお、図１では、画像１００ａがラベル“喜び”のクラスに分類され、画像１００ｂがラベル“悲しみ”のクラスに分類され、画像１００ｃがラベル“怒り”のクラスに分類されている。また、識別結果として、例えば、画像１００ａについて“喜び度８０”というような結果が出力される。喜び度は、識別対象の画像がラベル“喜び”のクラスに属する確信度に相当し、０から１００までの値とする。

図２は、表情認識における７クラス識別の結果を、２クラス識別の識別基準で比較する場合の問題点を示す図である。図２において、表情認識の７クラス識別で画像１００ａについて“喜び度８０”、画像１００ｂについて“悲しみ度８０”、画像１００ｄについて“驚き度８０”、画像１００ｅについて“恐れ度８０”という識別結果が得られたものとする。なお、悲しみ度は、識別対象の画像がラベル“悲しみ”のクラスに属する確信度に相当し、０から１００までの値とする。驚き度は、識別対象の画像がラベル“驚き”のクラスに属する確信度に相当し、０から１００までの値とする。恐れ度は、識別対象の画像がラベル“恐れ”のクラスに属する確信度に相当し、０から１００までの値とする。

表情認識における喜び、悲しみ、怒り、真顔、驚き、恐れ、嫌悪の７クラス識別問題の識別結果で“肯定的な表情をしているかどうか”という２クラス識別問題を考える。
この場合、７クラス識別問題の個々の識別結果を“肯定的な表情をしているかどうか”という識別基準でそれぞれ比較する必要がある。
しかしながら、７クラス識別問題の個々の識別結果は、７クラス識別問題で対象となるクラスの識別基準で判断された結果であるため、“肯定的な表情をしているかどうか”という識別基準で比較することができない。

例えば、喜び度８０の識別結果と驚き度８０の識別結果とでは、どちらがより肯定的であるか否かの優劣を付けられず、これらの識別結果を図２に示す肯定度の軸上で比較することができない。すなわち、“喜び度１００の識別結果の肯定度が１００であると、驚き度１００の識別結果の肯定度は８０である”というような対応関係が分からない。

図３は、６（Ｎ＝６）個のクラスが規定された特徴空間を示す図である。学習サンプルの特徴ベクトルは、変量（ｘ_１，ｘ_２）で表される。図３において、クラスＣ１〜Ｃ６は点線の円で表され、各クラスに分類された学習サンプルの特徴ベクトルの平均ベクトルが円の中心点となる。また、円の半径は５０とし、各クラスで同じ半径である。
ここで、クラスＣ１〜Ｃ３をポジティブクラスに分類し、クラスＣ４〜Ｃ６をネガティブクラスに分類した２（Ｍ＝２）クラスの識別問題を想定する。

ポジティブクラスは、検出対象のデータが分類されるクラスである。例えば、前述した“肯定的な表情をしているかどうか”の２クラス識別問題において、被写体の人物が肯定的な表情であると識別された画像が分類される。
また、ネガティブクラスは、検出対象ではないデータが分類されるクラスである。例えば、前述した“肯定的な表情をしているかどうか”の２クラス識別問題において、被写体の人物が肯定的な表情ではないと識別された画像が分類される。

図４は、図３の特徴空間に対してクラス間の識別境界を設定した様子を示す図である。
識別境界とは、特徴空間内のクラス間でデータが分類されるクラスが入れ替わる境界であり、クラスＣ１〜Ｃ６のそれぞれの境界となる識別境界Ｅ１〜Ｅ６が設定される。
また、ここでは最短距離法を適用して６クラス識別問題を解いており、学習サンプルの特徴ベクトルがクラスＣ１〜Ｃ６のいずれの平均ベクトルに近いかが判定され、最も近いクラスのラベルが、この学習サンプルの識別結果となる。

識別結果同士を比較するための確信度は、図４に示すように線分で規定された識別境界と学習サンプルの特徴ベクトルとの間の距離を用いている。例えば、点Ａの特徴ベクトルは、クラスＣ２の平均ベクトルに一致し、クラスＣ２の円とクラスＣ１，Ｃ３の各円との接点からの距離が５０であるので、クラスＣ２における確信度５０のデータとなる。

一方、点Ｂは、クラスＣ２の円とクラスＣ３の円との接点であるため、この点Ｂの特徴ベクトルは、クラスＣ２またはクラスＣ３における確信度０のデータとなる。このように２つのクラスの確信度が等しいため、最短距離法では点ＢのデータがクラスＣ２かクラスＣ３であるかを判別できない。

クラスＣ１〜Ｃ３をポジティブクラスに分類し、クラスＣ４〜Ｃ６をネガティブクラスに分類した２クラス識別問題を想定した場合、ポジティブクラスの平均ベクトルの中心点は点Ｃであり、ネガティブクラスの平均ベクトルの中心点は点Ｄである。
従って、２クラス識別問題におけるポジティブクラスとネガティブクラスの識別境界は識別境界Ｅ４となる。

また、識別境界Ｅ４からの距離を確信度とする場合、６クラス識別でクラスＣ２に分類された確信度５０のデータである点Ａの特徴ベクトルと、クラスＣ２またはクラスＣ３に分類された確信度０のデータである点Ｂの特徴ベクトルとが、２クラス識別問題としては同じ確信度５０のデータとなる。
すなわち、識別境界Ｅ４に平行な線分Ｆ上の各点の特徴ベクトルは、２クラス識別問題を考えたときに同じ確信度となる。このため、６クラス識別の結果と２クラス識別の結果との間の対応関係を定義できない。

図４の例では２クラスで識別境界が１つだけの場合を示したが、実際には、Ｍが３以上Ｎ未満の場合もあり、複数の識別境界が設定され、クラス間の位置関係も複雑になる。
この場合においても、Ｍクラス識別問題の識別基準でＮクラス識別問題の個々の識別結果同士を比較する必要が生じ、Ｎクラス識別の結果とＭクラス識別の結果との対応関係を定義できないことが問題となる。

そこで、この発明に係る学習装置では、Ｎクラス識別で各クラスに分類された学習サンプルをＭクラス識別のクラスに再分類し、再分類された学習サンプルに基づいてＭクラス識別を行うための識別器を学習する。これにより、Ｎクラス識別で各クラスに分類された学習サンプルからＭクラス識別の識別基準で識別を行う識別器を学習することができる。以下に詳細に説明する。

図５は、この発明の実施の形態１に係る学習識別システム１の機能構成を示すブロック図である。学習識別システム１は、例えば、表情認識、物体検出などのパターン認識による識別処理を行うシステムであり、学習装置２、記憶装置３および識別装置４を備える。
実施の形態１に係る学習装置２は、学習サンプル取得部２ａ、分類部２ｂおよび学習部２ｃを備える。記憶装置３は、学習装置２により学習された識別器を記憶する記憶装置である。識別装置４は、学習装置２により学習された識別器を用いて識別対象データを識別する装置であり、特徴抽出部４ａおよび識別部４ｂを備える。
なお、図５では、学習装置２と識別装置４が別々の装置である場合を示したが、両者の機能を有した１つの装置であってもよい。

学習装置２において、学習サンプル取得部２ａは、学習サンプルを取得する構成要素であり、例えば、ビデオカメラ、ハードディスクドライブなどの外部記憶装置から学習サンプルを取得する。
学習サンプルは、学習対象データから抽出された特徴ベクトルとこれに付随するラベルのペアから構成される。学習対象データとしては、例えば、画像データ、映像データ、音声データ、テキストデータなどのマルチメディアデータが挙げられる。

特徴ベクトルは、学習対象データの特徴量を示すデータである。学習対象データが画像データである場合、画像データを特徴ベクトルとして使用してもよい。
また、画像データに対して一次微分フィルタまたは平均値フィルタなどの特徴抽出処理を施した加工データを、特徴ベクトルとして使用してもよい。

ラベルは、学習サンプルが属するクラスを識別するための情報であり、例えば、被写体が犬である画像データのクラスに対してラベル“犬”が付される。
学習サンプルは、Ｎクラス識別でＮ個のクラスにそれぞれ分類されているものとする。ただし、Ｎは、３以上の自然数である。
なお、学習サンプルは、識別装置４がＮクラス識別を行って得られた識別結果であってもよい。

分類部２ｂは、学習サンプル取得部２ａによって取得された学習サンプルを、Ｎよりも少ないＭクラス識別の対象となるクラスに再分類する。ただし、Ｍは、２以上Ｎ未満の自然数である。
例えば、分類部２ｂは、Ｎクラス識別の対象となるクラスのラベルと、Ｍクラス識別の対象となるクラスのラベルとの対応関係が規定された参照データに基づいて上記学習サンプルをＭクラス識別の対応するラベルのクラスに再分類する。
すなわち、分類部２ｂは、このようにラベル同士の対応関係が規定された参照データに基づいて、学習サンプルが分類されたクラスのラベルを、Ｍクラス識別で対象となるクラスのラベルのうち、対応するラベルに振り分ける。学習サンプルは、このように振り分けられたラベルのクラスに分類される。
このようなラベルの再振り分けと分類を全ての学習サンプルに対して行うことにより、Ｎクラス識別で各クラスに分類された学習サンプルがＭクラス識別で対象となるクラスに再分類される。

学習部２ｃは、分類部２ｂにより再分類された学習サンプルに基づいて、Ｍクラス識別を行うための識別器を学習する。ここで、複数の学習サンプルの特徴ベクトルとラベルの関係が学習されて、Ｍクラス識別の識別基準が決定される。学習方法としては、例えば、最短距離法またはＣＮＮを用いた学習方法が挙げられる。
識別器は、識別対象データの特徴ベクトルが入力されたとき、識別対象データが属するクラスをＭクラス識別の各クラスの識別基準で識別して出力する。

記憶装置３は、前述したように、学習装置２によって学習された識別器を記憶する記憶装置である。例えば、ハードディスクドライブなどの外部記憶装置によって実現される。
また、記憶装置３は、学習装置２または識別装置４に内蔵されていてもよい。
なお、学習識別システム１は、記憶装置３を備えない構成であってもよい。すなわち、学習装置２の学習部２ｃが、識別装置４の識別部４ｂに対して識別器を直接設定することにより、記憶装置３を省略することができる。

識別装置４において、特徴抽出部４ａは、識別対象データの特徴量である特徴ベクトルを抽出する。識別部４ｂは、学習装置２により学習された識別器および特徴抽出部４ａにより取得された特徴ベクトルに基づいて識別対象データのＭクラス識別を行う。
例えば、識別部４ｂは、識別器を用いて識別対象データがどのクラスに属するかを識別し、このクラスのラベルを識別結果として出力する。

学習装置２における、学習サンプル取得部２ａ、分類部２ｂ、学習部２ｃの各機能は、処理回路により実現される。すなわち、学習装置２は、後述する図７に示すステップＳＴ１からステップＳＴ３までの処理を行うための処理回路を備えている。
処理回路は、専用のハードウェアであっても、メモリに格納されるプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよい。

図６は、実施の形態１に係る学習装置２のハードウェア構成を示すブロック図である。図６（ａ）は学習装置２の機能を実現するハードウェアの処理回路を示し、図６（ｂ）は学習装置２の機能を実現するソフトウェアを実行するハードウェア構成を示している。
図６（ａ）に示すように、上記処理回路が専用のハードウェアの処理回路１００である場合、処理回路１００は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、または、これらを組み合わせたものが該当する。
学習サンプル取得部２ａ、分類部２ｂ、学習部２ｃの各部の機能をそれぞれ処理回路で実現してもよいし、各部の機能をまとめて１つの処理回路で実現してもよい。

図６（ｂ）に示すように、上記処理回路がＣＰＵ１０１である場合、学習サンプル取得部２ａ、分類部２ｂ、学習部２ｃの機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせにより実現される。
ソフトウェアとファームウェアはプログラムとして記述され、メモリ１０２に格納される。ＣＰＵ１０１は、メモリ１０２に格納されたプログラムを読み出して実行することにより、各部の機能を実現する。
すなわち、学習装置２は、ＣＰＵ１０１によって実行されるときに、図７に示すステップＳＴ１からステップＳＴ３までの処理が結果的に実行されるプログラムを格納するためのメモリ１０２を備える。また、これらのプログラムは、学習サンプル取得部２ａ、分類部２ｂ、学習部２ｃの手順または方法をコンピュータに実行させるものである。

ここで、メモリとは、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ）などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）などが該当する。

なお、学習サンプル取得部２ａ、分類部２ｂ、学習部２ｃの各機能について一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。
例えば、学習サンプル取得部２ａは、専用のハードウェアの処理回路１００でその機能を実現し、分類部２ｂおよび学習部２ｃは、ＣＰＵ１０１がメモリ１０２に格納されたプログラム実行することによりその機能を実現する。
このように、上記処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって前述の機能を実現することができる。

また、識別装置４における特徴抽出部４ａおよび識別部４ｂの各機能についても、学習装置２と同様に、専用のハードウェアで実現してもよく、ソフトウェアまたはファームウェアで実現してもよい。また、これらの機能の一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。

次に動作について説明する。
図７は、学習装置２の動作を示すフローチャートである。
まず、学習サンプル取得部２ａは、Ｎクラス識別で各クラスに分類された学習サンプルを取得する（ステップＳＴ１）。
例えば、広告を見る人物の画像を識別対象データとして、７（Ｎ＝７）クラス（喜び、悲しみ、怒り、真顔、驚き、恐れ、嫌悪）に分類された識別結果が、学習サンプルとして取得される。

次に、分類部２ｂは、学習サンプル取得部２ａによって取得された学習サンプルを、Ｍクラス識別の対象となるクラスに再分類する（ステップＳＴ２）。
例えば、７クラスに分類された学習サンプルが２（Ｍ＝２）クラス（肯定的、否定的）に再分類される。

再分類は、ラベル同士の対応関係に基づいて実行される。
例えば、分類部２ｂには、７クラス識別の対象となるクラスのラベルと２クラス識別の対象となるクラスのラベルとの対応関係が規定された参照データが予め設定されている。
分類部２ｂは、上記参照データに基づいて、学習サンプルのクラスのラベルを、２クラス識別で対象となるクラスのラベルのうち、対応するラベルに振り分ける。学習サンプルは、分類部２ｂに振り分けられたラベルのクラスに分類される。
このようなラベルの再振り分けと分類を全ての学習サンプルに対して行うことにより、７クラス識別で各クラスに分類された学習サンプルが、２クラス識別で対象となるクラスに再分類される。

Ｎクラス識別の対象となるクラスのラベルとＭクラス識別の対象となるクラスのラベルとの対応関係は、学習識別システム１を利用した情報処理を行うためのアプリケーションの目的によって異なる。
アプリケーションが広告を見る人物の画像から肯定的な表情を検出することを目的としている場合、例えば、表情認識における“喜び”、“驚き”、“真顔”のラベルが“肯定的”のラベルに対応付けられ、“悲しみ”、“怒り”、“恐れ”、“嫌悪”のラベルが“否定的”のラベルに対応付けられる。

また、この他、アプリケーションがホラー映画を見る人物の画像から当該人物が恐怖を感じているかどうかを検出することを目的としている場合、表情認識における“恐れ”、“嫌悪”、“悲しみ”、“怒り”、“驚き”のラベルが“恐怖効果あり”のラベルに対応付けられ、“喜び”、“真顔”のラベルが“恐怖効果なし”のラベルに対応付けられる。

なお、ラベル同士の対応関係は、学習装置２が自動で決定してもよいが、ユーザが設定してもよい。例えば、分類部２ｂが、アプリケーションの処理アルゴリズムを解析して、このアプリケーションで実施されるＭクラス識別を特定して、このＭクラス識別で対象となるクラスのラベルとＮクラス識別で対象となるクラスのラベルとの対応付けを行ってもよい。また、ユーザが、入力装置を用いてラベル同士の対応関係を設定してもよい。

この後、学習部２ｃが、分類部２ｂにより再分類された上記学習サンプルに基づいて、Ｍクラス識別を行うための識別器を学習する（ステップＳＴ３）。
例えば、識別対象データの特徴ベクトルが入力されたときに、２クラス識別のクラス（肯定的、否定的）のうち、この識別対象データが属するクラスを識別する識別器が生成される。このようにして得られた識別器は、記憶装置３に記憶される。

広告を見る人物の画像から肯定的な表情を検出する場合、識別装置４の特徴抽出部４ａが、広告を見る人物が写った画像を入力し、この画像から特徴ベクトルを抽出する。
次に、識別部４ｂは、記憶装置３から読み出した上記識別器と上記画像の特徴ベクトルに基づいて、この画像が肯定的のクラスまたは否定的のクラスのいずれに属するかを識別し、そのクラスのラベルを識別結果として出力する。

図８は、表情認識における７クラス識別の結果を用いて２クラス識別を行う処理の概要を示す図である。図８（ａ）は、７クラス（喜び、驚き、真顔、悲しみ、怒り、恐れ、嫌悪）から２クラス（肯定的、否定的）に再分類された学習サンプルを示し、図８（ｂ）は２クラス識別の結果を示している。

図８（ｂ）に示す画像１００ａは、ラベル“喜び”のクラスに分類され、喜び度８０という識別結果が得られた画像であり、画像１００ｂは、ラベル“悲しみ”のクラスに分類され、悲しみ度８０という識別結果が得られた画像である。また、画像１００ｄは、ラベル“驚き”のクラスに分類され、驚き度８０という識別結果が得られた画像であり、画像１００ｅは、ラベル“恐れ”のクラスに分類され、恐れ度８０という識別結果が得られた画像である。

実施の形態１に係る学習装置２では、ラベル同士の対応関係に応じて、７クラス識別で各クラスに分類されたデータが２クラス識別で対象となるクラスに再分類される。
例えば、画像１００ａ，１００ｄの特徴ベクトルとラベルのペアからなる各データは、喜び度８０と驚き度８０によらず、ラベル“喜び”とラベル“驚き”がラベル“肯定的”に振り分けられてラベル“肯定的”のクラスに再分類される。
同様に、画像１００ｂ，１００ｅの特徴ベクトルとラベルのペアからなる各データは、悲しみ度８０と恐れ度８０によらず、ラベル“悲しみ”とラベル“恐れ”がラベル“否定的”に振り分けられてラベル“否定的”のクラスに再分類される。

学習装置２は、このように“肯定的”のクラスと“否定的”のクラスとに再分類された学習サンプルに基づいて、肯定的な表情であることを識別基準とした識別器を学習する。
この識別器を使用して２クラス識別を行うことで、図８（ｂ）に示すように、７クラス識別で各クラスに分類されていた画像１００ａ，１００ｂ，１００ｄ，１００ｅのデータを、肯定度という２クラス識別の識別基準で比較することが可能となる。
例えば、喜び度８０であった画像１００ａのデータは肯定度８０、驚き度８０であった画像１００ｄのデータは肯定度７０となる。悲しみ度８０であった画像１００ｂのデータは肯定度４０となり、恐れ度８０であった画像１００ｅのデータは肯定度３０となる。

以上のように、この実施の形態１に係る学習装置２は、学習サンプル取得部２ａ、分類部２ｂおよび学習部２ｃを備える。
学習サンプル取得部２ａは、Ｎクラス識別で各クラスに分類された学習サンプルを取得する。分類部２ｂは、学習サンプル取得部２ａにより取得された学習サンプルを、Ｎよりも少ないＭクラス識別の対象となるクラスに再分類する。学習部２ｃは、分類部２ｂにより再分類された学習サンプルに基づいて、Ｍクラス識別を行うための識別器を学習する。
このようにＮクラス識別で各クラスに分類された学習サンプルをＭクラス識別のクラスに再分類してＭクラス識別の識別器が学習されるので、Ｎクラス識別の結果を、Ｎよりも少ないＭクラス識別問題の識別基準で比較することができる。

また、実施の形態１に係る学習装置２において、分類部２ｂは、Ｎクラス識別の対象となるクラスのラベルとＭクラス識別の対象となるクラスのラベルとの対応関係を示す参照データに基づいて、学習サンプル取得部２ａにより取得された学習サンプルを、Ｍクラス識別の対応するラベルのクラスに再分類する。これにより、参照データに規定された対応関係でＮクラス識別の対象となるクラスを、Ｍクラス識別の対象となるクラスにまとめることができる。

さらに、実施の形態１に係る学習識別システム１は、学習装置２および識別装置４を備える。識別装置４は、学習装置２により学習された識別器を用いて、Ｍクラス識別の対象となるクラスのうち、識別対象データが属するクラスを識別する。
このように構成することで、上記と同様の効果が得られる。また、Ｎクラス識別の結果で学習されたＭクラス識別器を用いてＭクラス識別を行うことができる。

実施の形態２．
図９は、この発明の実施の形態２に係る学習装置２Ａの機能構成を示すブロック図である。図９において、図１と同一の構成要素には、同一の符号を付して説明を省略する。
学習装置２Ａは、学習サンプル取得部２ａ、分類部２ｂ、学習部２ｃおよび調整部２ｄを備える。調整部２ｄは、分類部２ｂにより再分類された学習サンプルのクラス間のサンプル数の割合をＭクラス識別の誤識別が減少するように調整する。

また、学習装置２Ａにおける学習サンプル取得部２ａ、分類部２ｂ、学習部２ｃおよび調整部２ｄの各機能についても、実施の形態１と同様に、専用のハードウェアで実現してもよく、ソフトウェアまたはファームウェアで実現してもよい。
また、これらの機能の一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。

次に動作について説明する。
図１０は、学習装置２Ａの動作を示すフローチャートである。図１０におけるステップＳＴ１ａおよびステップＳＴ２ａの処理は、図７のステップＳＴ１およびステップＳＴ２と同様の処理であるので説明を省略する。
調整部２ｄは、ステップＳＴ２ａで再分類された学習サンプルのクラス間のサンプル数の割合をＭクラス識別の誤識別が減少するように調整する（ステップＳＴ３ａ）。
次に、学習部２ｃは、調整部２ｄによりクラス間のサンプル数の割合が調整された学習サンプルに基づいて識別器を学習する（ステップＳＴ４ａ）。

図１１はクラス間の学習サンプルのサンプル数の割合を調整する処理を示す図であり、肯定的クラスと否定的クラスとの間に学習サンプルが分布している様子を示している。
肯定的クラスと否定的クラスの間の学習サンプルのサンプル数の割合を調整せずに学習すると、図１１（ａ）に示す識別境界Ｌ１が得られる。
肯定的サンプルとは、肯定的クラスに識別されるべき学習サンプルであり、否定的サンプルとは、否定的クラスに識別されるべき学習サンプルである。

学習サンプルのサンプル数の割合を調整せずに学習すると、識別境界Ｌ１を跨いで肯定的クラス側に誤って識別された否定的サンプル（ＦａｌｅＰｏｓｉｔｉｖｅ；以下、ＦＰと記載する）の数と、識別境界Ｌ１を跨いで否定的クラス側に誤って識別された肯定的サンプル（ＦａｌｅＮｅｇａｔｉｖｅ；以下、ＦＮと記載する）の数とが決まる。
識別精度を向上するには、このようなＦＮとＦＰが減るように学習する必要がある。

そこで、調整部２ｄは、例えば、図１１（ｂ）に矢印ａで示すように、肯定的クラスと否定的クラスとの間の否定的サンプルを間引く。このように肯定的クラスと否定的クラスの間の学習サンプルのサンプル数の割合を調整して学習を行うことで、識別境界Ｌ１から識別境界Ｌ２に移動する。識別境界Ｌ２では、識別境界Ｌ１よりも多くの学習サンプルが肯定的クラスと判定され、Ｍクラス識別の識別基準が肯定的クラスに判定されやすい基準に調整されている。
なお、機械学習ではクラス間に識別境界を設定しない場合もあるが、この場合においても、クラス間の識別基準に基づいて学習サンプルのクラス識別の成功と失敗を判定するので、上記のような効果を得ることができる。

サンプル数の割合の調整方法としては、例えば、あるクラス間に分類されている全ての学習サンプルを選択した状態から、ランダムに一方のサンプル選択を解除する操作を予め定めたサンプル数になるまで繰り返すことが挙げられる。また、クラス間に分類されている全てのサンプルから、学習サンプルとして残すサンプルが予め定めたサンプル数になるまでランダムに選択を繰り返してもよい。さらに、ブートストラップ法と呼ばれる方法を採用してもよい。

以上のように、実施の形態２に係る学習装置２Ａは、分類部２ｂにより再分類された学習サンプルのクラス間のサンプル数の割合をＭクラス識別の誤識別が減少するように調整する調整部２ｄを備える。学習部２ｃは、調整部２ｄによりクラス間のサンプル数の割合が調整された学習サンプルに基づいて識別器を学習する。
これにより、クラス間の一方に学習サンプルが識別されやすい識別基準に調整することができるので、クラス間での誤識別が減少し、Ｍクラス識別の識別精度を向上させることができる。

なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明に係る学習装置は、Ｎクラス識別問題の個々の識別結果を学習サンプルとしてＭクラス識別問題を解く識別器を学習することができるので、表情認識、物体検出などのパターン認識による様々な識別を行う情報処理システムに適用可能である。

１学習識別システム、２，２Ａ学習装置、２ａ学習サンプル取得部、２ｂ分類部、２ｃ学習部、２ｄ調整部、３記憶装置、４識別装置、４ａ特徴抽出部、４ｂ識別部、３０肯定度、１００処理回路、１００ａ〜１００ｅ画像、１０１ＣＰＵ、１０２メモリ。

Claims

Ｎ（Ｎは３以上の自然数）クラス識別で各クラスに分類された学習サンプルを取得する学習サンプル取得部と、
前記学習サンプル取得部により取得された学習サンプルを、Ｎよりも少ないＭ（Ｍは２以上Ｎ未満の自然数）クラス識別の対象となるクラスに再分類する分類部と、
前記分類部により再分類された学習サンプルに基づいて前記Ｍクラス識別を行うための識別器を学習する学習部と
を備えたことを特徴とする学習装置。
前記分類部により再分類された学習サンプルのクラス間のサンプル数の割合を、前記Ｍクラス識別の誤識別が減少するように調整する調整部を備え、
前記学習部は、前記クラス間のサンプル数の割合が調整された学習サンプルに基づいて前記識別器を学習することを特徴とする請求項１記載の学習装置。
前記分類部は、前記Ｎクラス識別の対象となるクラスのラベルと、前記Ｍクラス識別の対象となるクラスのラベルとの対応関係を示すデータに基づいて、前記学習サンプル取得部により取得された学習サンプルを前記Ｍクラス識別の対応するラベルのクラスに再分類することを特徴とする請求項１記載の学習装置。
Ｎ（Ｎは３以上の自然数）クラス識別で各クラスに分類された学習サンプルを取得する学習サンプル取得部と、前記学習サンプル取得部により取得された学習サンプルを、Ｎよりも少ないＭ（Ｍは２以上Ｎ未満の自然数）クラス識別の対象となるクラスに再分類する分類部と、前記分類部により再分類された学習サンプルに基づいて、前記Ｍクラス識別を行うための識別器を学習する学習部とを有する学習装置と、
識別対象データの特徴量を抽出する特徴抽出部と、前記学習装置により学習された前記識別器および前記特徴抽出部により取得された特徴量に基づいて、前記識別対象データの前記Ｍクラス識別を行う識別部とを有する識別装置と
を備えたことを特徴とする学習識別システム。
前記学習装置は、前記分類部により再分類された学習サンプルのクラス間のサンプル数の割合を、前記Ｍクラス識別の誤識別が減少するように調整する調整部を有し、
前記学習部は、前記クラス間のサンプル数の割合が調整された学習サンプルに基づいて前記識別器を学習することを特徴とする請求項４記載の学習識別システム。