JPWO2017188048A1

JPWO2017188048A1 - 作成装置、作成プログラム、および作成方法

Info

Publication number: JPWO2017188048A1
Application number: JP2018514508A
Authority: JP
Inventors: 充敏熊谷; 具治岩田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-04-28
Filing date: 2017-04-17
Publication date: 2018-08-16
Anticipated expiration: 2037-04-17
Also published as: WO2017188048A1; JP6535134B2; US20190213445A1; US11164043B2

Abstract

サンプルの生成分布の経時変化と学習データに現れなかった新しい特徴とを考慮して分類精度が維持された分類器を作成することを目的として、特徴相関学習部（１３）が、ラベルあり学習データのサンプルの特徴と、ラベルなし学習データのサンプルのみに現れる特徴との相関関係を学習し、分類器作成部（１５）が、相関関係を用いてラベルあり学習データのサンプルの特徴にラベルなし学習データのサンプルのみに現れる特徴を付加し、ラベルなし学習データのサンプルのみに現れる特徴を付加したラベルあり学習データのサンプルを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成する。

Description

本発明は、作成装置、作成プログラム、および作成方法に関する。

機械学習において、あるサンプルが入力された場合に、そのサンプルの属性を表すラベルを出力する分類器が知られている。例えば、サンプルとして新聞記事が分類器に入力された場合に、政治、経済、あるいはスポーツ等のラベルが出力される。分類器の作成すなわち学習は、学習用のサンプルとこのサンプルのラベルとの組み合わせの集合であるラベルあり学習データを用いて行われる。すなわち、ラベルあり学習データは、｛（サンプル１、ラベル１），（サンプル２、ラベル２），…｝のように表される。

なお、以下では、ラベルが付与されていないサンプルの集合をラベルなし学習データと称する。また、ラベルあり学習データおよびラベルなし学習データを学習データと総称する。

分類器の分類基準は時間経過とともに変化する場合がある。例えば、スパムメールの作成者は、スパムメールの分類器であるスパムフィルタをすり抜けるために、常に新しい特徴を有するスパムメールを作成している。そのため、スパムメールの分類基準は時間経過とともに変化して、分類器の分類精度が大きく低下してしまう。

分類器の分類精度の経時劣化は、主に以下の２つの要因により生じると考えられる。一つ目の主な要因は、学習データには現れなかった特徴が時間経過とともに出現する場合があることである。例えば、スパムメールをサンプルとして分類する場合、一般に、メール中に出現する単語を特徴として、サンプルが単語の集合に変換される。この場合に、分類器の作成は単語を利用して行われるため、学習データに現れなかった単語は分類器による分類に利用できない。したがって、このような学習データに現れなかった新しい特徴が増加すれば、分類器は入力されるサンプルを正しく分類することが困難になる。

二つ目の分類器の分類精度の経時劣化の主な要因は、サンプルの生成分布が時間経過とともに変化する場合があることである。ここで、サンプルの生成分布とは、各サンプルが生起し得る確率（以下、生成確率と称する。）が記述されたものを意味する。そして、例えば、あるサンプルの生成確率が、学習時には０．３であったものが作成された分類器のテスト時には０．５に変化している場合がある。分類器の学習は、学習データの生成分布に基づいて行われるため、学習時とテスト時とでサンプルの生成分布が異なれば、サンプルを正しく分類することが困難になる。

このような分類器の分類精度の経時劣化に対応するため、ラベルあり学習データに加え、低コストで収集できるラベルなし学習データを利用して分類器の再学習すなわち分類基準が更新された分類器の作成を行う技術が開示されている（非特許文献１，２参照）。

Y.Grandvalet and Y.Bengio，"Semi-supervised Learning by Entropy Minimization"，In Advances in Newral Information Processing Systems，2004年，p.529-536 H.Shimodaira，"Improving predictive inference under covariate shift by weighting the log-likelihood function"，Journal of Statistical Planning and Inference 90(2000)，2000年，p.227-244

しかしながら、非特許文献１に記載の技術では、サンプルの生成分布の経時変化が考慮されていなかった。一方、非特許文献２に記載の技術では、サンプルの生成分布の経時変化は考慮されているものの、ラベルあり学習データに現れなかった特徴が考慮されていなかった。

本発明は、上記に鑑みてなされたものであって、サンプルの生成分布の経時変化と学習データに現れなかった新しい特徴とを考慮して分類精度が維持された分類器を作成することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る作成装置は、サンプルの属性を表すラベルを出力する分類器を作成する作成装置であって、前記ラベルが付与されたサンプルであるラベルありサンプルの特徴と、前記ラベルが付与されていないサンプルであるラベルなしサンプルのみに現れる特徴との相関関係を学習する学習部と、前記相関関係を用いて前記ラベルありサンプルの特徴に前記ラベルなしサンプルのみに現れる特徴を付加し、前記ラベルなしサンプルのみに現れる特徴を付加した該ラベルありサンプルを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成する作成部と、を備えることを特徴とする。

本発明によれば、サンプルの生成分布の経時変化と学習データに現れなかった新しい特徴とを考慮して分類精度が維持された分類器を作成することができる。

図１は、第１の実施形態に係る作成装置の概略構成を示す模式図である。図２は、第１の実施形態の特徴の相関関係を説明するための説明図である。図３は、第１の実施形態の特徴の相関関係を説明するための説明図である。図４は、第１の実施形態の特徴の相関関係を説明するための説明図である。図５は、第１の実施形態のサンプルの生成分布を説明するための説明図である。図６は、第１の実施形態の作成処理手順を示すフローチャートである。図７は、第１の実施形態の分類処理手順を示すフローチャートである。図８は、第２の実施形態の作成処理手順を示すフローチャートである。図９は、作成プログラムを実行するコンピュータを例示する図である。

［第１の実施形態］
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［作成装置の構成］
まず、図１を参照して、本実施形態に係る作成装置の概略構成を説明する。本実施形態に係る作成装置１は、ワークステーションやパソコン等の汎用コンピュータで実現され、後述する作成処理を実行して、入力されたデータの属性を表すラベルを出力する分類器を作成する。

なお、図１に示すように、本実施形態の作成装置１は、作成処理を行う作成部１０に加え、分類処理を行う分類部２０を有する。分類部２０は、作成部１０により作成された分類器を用いて入力されたサンプルを分類してラベルを出力する分類処理を行う。分類部２０は、作成部１０と同一のハードウェアに実装されてもよいし、異なるハードウェアに実装されてもよい。

［作成部］
作成部１０は、学習データ入力部１１、データ変換部１２、特徴相関学習部１３、重要度算出部１４、分類器作成部１５、および分類器格納部１６を有する。

学習データ入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、後述する制御部に対して各種指示情報を入力する。本実施形態において、学習データ入力部１１は、作成処理に用いられる学習データすなわちラベルあり学習データおよびラベルなし学習データを受け付ける。

ここで、ラベルあり学習データとは、サンプルとこのサンプルのラベルとの組み合わせの集合を意味する。例えば、サンプルがテキストである場合、各テキストに政治、経済、あるいはスポーツ等のテキストの内容を表すラベルが付与される。一方、ラベルなし学習データとは、ラベルが付与されていないサンプルの集合を意味する。例えば、サンプルがテキストの場合には、テキストの集合で表される。本実施形態において、このラベルなし学習データは、ラベルあり学習データより後に収集された新しい学習データとする。

なお、ラベルあり学習データおよびラベルなし学習データは、ＮＩＣ（Network Interface Card）等で実現される図示しない通信制御部を介して、外部のサーバ装置等から作成部１０に入力されてもよい。

制御部は、処理プログラムを実行するＣＰＵ（Central Processing Unit）等を用いて実現され、データ変換部１２、特徴相関学習部１３、重要度算出部１４、および分類器作成部１５として機能する。

データ変換部１２は、後述する特徴相関学習部１３および重要度算出部１４における処理の準備として、受け付けられたラベルあり学習データの各サンプルを、特徴ベクトル、および数値ラベルの組み合わせのデータに変換する。同様に、データ変換部１２は、受け付けられたラベルなし学習データの各サンプルを、特徴ベクトルのデータに変換する。以下の作成部１０の処理におけるラベルあり学習データまたはラベルなし学習データとは、データ変換部１２による変換後のデータを意味する。

ここで、数値ラベルとは、ラベルあり学習データの各サンプルに付与されているラベルが数値に変換されたものである。また、特徴ベクトルとは、受け付けられた各サンプルの特徴をｎ次元の数ベクトルで表記したものであり、機械学習における汎用手法により変換される。例えば、サンプルがテキストである場合には、形態素解析、ｎ−ｇｒａｍ、または区切り文字により変換される。

特徴相関学習部１３は、学習部として機能する。すなわち、特徴相関学習部１３は、ラベルあり学習データのサンプルの特徴と、ラベルなし学習データのサンプルのみに現れる特徴との相関関係を学習する。

ここで、図２〜図４を参照して、特徴の相関関係について説明する。まず、図２に例示するラベルあり学習データおよびラベルなし学習データが入力された場合について説明する。図２に示す例では、例えば、ラベルあり学習データのＮ個のサンプルのうち、１番目のサンプルの特徴ベクトルＸ_Ｏ，１＝（シュート、本多）に、ラベルＹ_１＝「サッカー」が付与されている。ここで、Ｘ_Ｏ，ｎは、ラベルあり学習データのｎ番目のサンプルの特徴ベクトルを意味する。

また、図２には、Ｎ個のサンプルを含むラベルあり学習データの後に収集されたラベルなし学習データの１番目のサンプルの特徴ベクトルＸ_Ｎ＋１＝（Ｘ_{ｏ，Ｎ＋１}，Ｘ_{ｈ，Ｎ＋１}）＝（シュート、本多、フットボール、ＡＤミラン）が例示されている。ここで、Ｘ_Ｎ＋ｍは、ラベルなし学習データのｍ番目のサンプルの特徴ベクトルを意味する。また、Ｘ_{ｏ，Ｎ＋ｍ}は、ラベルなし学習データのｍ番目のサンプルの特徴ベクトルのうち、ラベルあり学習データに出現した特徴を意味する。また、Ｘ_{ｈ，Ｎ＋ｍ}は、ラベルなし学習データのｍ番目のサンプルの特徴ベクトルのうち、ラベルなし学習データのみに出現する特徴を意味する。

この場合に、図３に例示するように、特徴相関学習部１３は、ラベルなし学習データを用いて、ラベルあり学習データにも現れる特徴Ｘ_{ｏ，Ｎ＋ｍ}とラベルなし学習データのみに現れる特徴Ｘ_{ｈ，Ｎ＋ｍ}との相関関係を学習する。図３には、例えば、特徴相関学習部１３は、ラベルなし学習データの１番目のサンプルの特徴Ｘ_Ｎ＋１のうち、ラベルあり学習データにも現れる特徴Ｘ_{ｏ，Ｎ＋１}と、ラベルなし学習データのみに現れる特徴Ｘ_{ｈ，Ｎ＋１}との相関関係を学習することが例示されている。すなわち、特徴相関学習部１３は、ラベルあり学習データに現れる特徴Ｘ_{ｏ，Ｎ＋１}＝（シュート、本多）が現れたら、ラベルなし学習データのみに現れる特徴Ｘ_{ｈ，Ｎ＋１}＝（フットボール、ＡＤミラン）が同一サンプルに同時に現れる確率を学習する。

そして、図４に例示するように、後述する分類器作成部１５が、学習された相関関係を用いて、ラベルあり学習データのサンプルの特徴Ｘ_Ｏ，ｎに、ラベルなし学習データのサンプルのみに現れる特徴を付加する。図４に示す例では、ラベルあり学習データの１番目のサンプルの特徴ベクトルＸ_Ｏ，１＝（シュート、本多）に、これと相関関係があるラベルなし学習データのサンプルのみに現れる特徴（フットボール、ＡＤミラン）が付加されている。このようにして、分類器作成部１５が、ラベルあり学習データの特徴を拡張する。

なお、相関関係のモデルは特に限定されず、例えば、ガウス分布やガウス混合分布等が適用される。

図１の説明に戻る。重要度算出部１４は、算出部として機能する。すなわち、重要度算出部１４は、ラベルあり学習データのサンプルが分類器の作成に及ぼす影響度合いを表す、ラベルあり学習データのサンプルのテスト時の生成分布における重要度を算出する。

ここで、図５を参照して、サンプルが生起する確率について説明する。図５は、サンプルの生成分布を説明するための説明図である。上述したように、サンプルの生成分布とは、各サンプルが生起する確率の分布を意味する。図５において、ラベルあり学習データのサンプルの生成分布は、学習用分布（training distribution）ｐ（ｘ^ｏ）で表されている。また、ラベルなし学習データのサンプルの生成分布は、テスト用分布（test distribution）ｐ’（ｘ^ｏ，ｘ^ｈ）で表されている。ここで、ｘ^ｏは、ラベルあり学習データだけでなくラベルなし学習データにも現れる特徴を表す。また、ｘ^ｈは、ラベルあり学習データより後に収集されたラベルなし学習データのみに現れる新しい特徴を表す。図５に例示するように、サンプルの生成分布は時間経過とともに変化する場合があり、ラベルあり学習データのサンプルの生成分布と、それより後に収集されたラベルなし学習データのサンプルの生成分布とは異なる。

そこで、重要度算出部１４は、重要度τ（ｘ^ｏ）＝ｐ’（ｘ^ｏ）／ｐ（ｘ^ｏ）を算出する。この重要度は、ラベルあり学習データのサンプルが後述する分類器作成部１５による分類器の作成に及ぼす影響力を表す。

図１の説明に戻る。分類器作成部１５は、作成部として機能する。すなわち、分類器作成部１５は、学習された相関関係を用いてラベルあり学習データのサンプルの特徴にラベルなし学習データのサンプルのみに現れる特徴を付加する。また、分類器作成部１５は、ラベルなし学習データのサンプルのみに現れる特徴を付加したラベルあり学習データのサンプルを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成する。また、本実施形態において、分類器作成部１５は、ラベルなし学習データのサンプルのみに現れる特徴を付加したラベルあり学習データのサンプルと重要度とを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成する。分類器作成部１５の具体的な処理については後述する。

なお、本実施形態では、分類器においてあるラベルが付与される事象が所定の確率分布で発生するものとして、分類器のモデルにロジスティック回帰が適用される。また、分類器のモデルはロジスティック回帰に限定されず、サポートベクターマシン（ＳＶＭ）、ブースティング等でもよい。

分類器格納部１６は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、作成された分類器を格納する。格納形式は特に限定されず、例えば、ＭｙＳＱＬやＰｏｓｔｇｒｅＳＱＬ等のデータベース形式、表形式、またはテキスト形式等が例示される。

次に、特徴相関学習部１３、重要度算出部１４および分類器作成部１５の処理について、具体的に説明する。本実施形態では、上述した特徴の相関関係のモデルには、多変量正規分布が適用される。また、重要度の算出には、確率密度比推定（Density Ratio Estimation）の一手法であるUnconstrained Least-Squares Importance Fitting approachが用いられる。

まず、ある時刻までに収集され作成装置１に入力されたＮ個のサンプルを含むラベルあり学習データＤを、次式（１）のように定義する。また、ある時刻以降に収集され作成装置１に入力されたＭ個のサンプルを含むラベルなし学習データＤ’を、次式（２）のように定義する。なお、次式（２）には、ラベルあり学習データより後に収集された新しいラベルなし学習データＤ’に新しい特徴ｘ_ｍ ^ｈが現れている。

ここで、学習用分布ｐとテスト用分布ｐ’との間には、次式（３）が成立するものと仮定する。すなわち、サンプルの生成分布は学習用とテスト用とで異なるが、サンプルが与えられた状況で、ラベルの生成分布は学習用とテスト用とで変化しないと仮定する共変量シフト（covariate shift）が適用される。

本実施形態において、分類器作成部１５は、テスト用分布ｐ’に従って生成されるサンプル（ｘ^ｏ，ｘ^ｈ）を精度よく分類する分類器Ｃｌｓ（ｘ^ｏ，ｘ^ｈ）を作成する。この分類器Ｃｌｓ（ｘ^ｏ，ｘ^ｈ）は、次式（４）に示す汎化誤差Ｇを最小にする。

ここで、ｌｏｓｓ（ｙ，ｙ’）は、ｙとｙ’との差を定義する任意の損失関数を表す。損失関数には、例えば、（ｙ−ｙ’）^２で表される二乗誤差や、一致すれば０を、そうでなければ１を出力する０−１損失（0-1 loss）等が適用される。

上記式（４）の汎化誤差Ｇは、次式（５）のように変形できる。

また、本実施形態においては、次式（６）の成立を仮定する。すなわち、ｘ^ｏが与えられた状況においてｘ^ｈが生起する確率は、学習用分布ｐとテスト用分布ｐ’とで変化しないものと仮定する。この仮定は、ラベルあり学習データには現れない新たな特徴と重要度とを同時に扱うためのキーとなるものである。

上記式（６）を用いると、汎化誤差Ｇは次式（７）のように変形できる。

ここで、τ（ｘ^ｏ）は重要度を意味し、上述のとおり、次式（８）のように定義される。なお、重要度τはｘ^ｏにのみ依存し、新しい特徴ｘ^ｈには依存しない。

上記式（７）は、非特許文献２に記載の汎化誤差に対して新たな特徴Ｘ^ｈが組み込まれた形式になっており、非特許文献２に記載の汎化誤差の拡張となっている。そのため、非特許文献２に提案されているサンプルの生成分布の変化に対応するためのフレームワークの中で、新たな特徴ｘ^ｈを加味して分類器の作成を行うことが可能となる。すなわち、上記式（６）の成立を仮定したことにより、ラベルあり学習データには現れない新たな特徴と重要度とを同時に扱うことが可能となる。

まず、特徴の相関関係ｐ（ｘ^ｈ｜ｘ^ｏ）は、以下のように学習される。特徴の相関関係のモデルに多変量正規分布を適用した場合、次式（９）が成立する。

この場合に、特徴相関学習部１３は、学習データからＡ，ａ，Λを推定することにより特徴の相関関係を学習する。

本実施形態において、Ａは低ランク行列と仮定する。すなわち、ある正の自然数Ｋを用いて、Ａは次式（１０）のように分解できる。

ここで、十分に小さいＫを選択することにより、推定するパラメタの数を少なくすることができる。また、簡単化のため、Λは次式（１１）で与えられるものと仮定する。

これらのパラメタＢ，Ｃ，ａ，λは、ＭＡＰ推定（Maximum A Posteriori estimation）により求められる。具体的に、パラメタＢ，Ｃ，ａ，λは、次式（１２）で表される目的関数Ｆを最大化する点として得ることができる。ここで、ｅおよびｂは、λ^２の確率分布ｐ（λ^２）のパラメタであり、ｐ（λ^２）＝Ｇａｍ（λ^２｜ｅ，ｂ）が成立する。

上記式（１２）により表される目的関数Ｆを最大化する点の数値は、例えば、準ニュートン法により求められる。なお、次式（１３）は、準ニュートン法を適用する際に必要となる目的関数Ｆの微分の情報を表す。

次に、重要度算出部１４による重要度τの算出方法について説明する。重要度τは、次式（１４）のように表すことができると仮定する。

基底関数（basis function）は特に限定されないが、例えば、ガウシアンカーネルを用いれば、重要度τは次式（１５）のように表される。

この場合に、パラメタαは、次式（１６）に示す目的関数Ｊを最小化する解より得ることができる。

すなわち、上記式（１６）の目的関数Ｊを解析して最小化する解を求めることにより、次式（１７）のようにパラメタαを得ることができる。

以上のようにして求められた特徴の相関関係ｐ（ｘ^ｈ｜ｘ^ｏ）および重要度τを用いて、分類器作成部１５が分類器を作成する。具体的に、ロジスティック回帰でモデル化された分類器にｐ（ｘ^ｈ｜ｘ^ｏ）が与えられた場合に、そのラベルｙが１である確率は、次式（１８）のように表される。

ここで、ロジスティック回帰の非線形性の取り扱いを簡単化するため、次式（１９）の近似式を用いる。

上記式（１９）の近似式を用いることにより、Ｌ２正則化項を付加した汎化誤差Ｇは、次式（２０）のように近似される。

分類器は、汎化誤差Ｇを最小化する点として得ることができる。汎化誤差Ｇの最小化には、上述した特徴の相関関係の学習と同様に、準ニュートン法を適用できる。次式（２１）は、準ニュートン法を適用する際に必要となる汎化誤差Ｇの微分の情報を表す。

［分類部］
図１の説明に戻る。分類部２０は、データ入力部２１、データ変換部２２、分類部２３、および分類結果出力部２４を有し、上述したように、作成部１０により作成された分類器を用いてサンプルを分類してラベルを出力する分類処理を行う。

データ入力部２１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部に対して各種指示情報を入力したり、分類処理対象のサンプルを受け付けたりする。データ入力部２１は、学習データ入力部１１と同一のハードウェアでもよい。

制御部は、処理プログラムを実行するＣＰＵ（Central Processing Unit）等を用いて実現され、データ変換部２２および分類部２３として機能する。

データ変換部２２は、作成部１０のデータ変換部１２と同様に、データ入力部２１が受け付けた分類処理対象のサンプルを特徴ベクトルに変換する。

分類部２３は、分類器格納部１６を参照し、分類処理対象のサンプルの分類処理を行う。例えば、上記のように分類器のモデルにロジスティック回帰が適用された場合には、上記式（１８）により当該サンプルのラベルが１である確率が得られる。分類部２３は、得られた確率が予め設定された所定の閾値以上であれば、ラベル＝１とし、該閾値より小さい場合には、ラベル＝０とする。

分類結果出力部２４は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、分類処理の結果を操作者に対して出力する。例えば、入力されたサンプルに対する数値への変換前のラベルを出力したり、入力されたサンプルに数値への変換前のラベルを付与して出力したりする。

［作成処理］
次に、図６を参照して、作成装置１の作成部１０による作成処理について説明する。図６のフローチャートは、例えば、ユーザによる作成処理の開始を指示する操作入力があったタイミングで開始される。

まず、学習データ入力部１１が、例えば、ある時刻までに収集されたラベルあり学習データと、それ以降に収集されたラベルなし学習データとを受け付ける（ステップＳ１）。次に、データ変換部１２が、受け付けたラベルあり学習データおよびラベルなし学習データの各サンプルを、特徴ベクトルおよび数値ラベルの組み合わせのデータに変換する（ステップＳ２）。

次に、特徴相関学習部１３が、ラベルなし学習データを用いて、ラベルあり学習データのサンプルにも現れる特徴と、ラベルなし学習データのみに現れる特徴との相関関係を学習する（ステップＳ３）。

次に、重要度算出部１４が、ラベルあり学習データのサンプルの重要度を算出する（ステップＳ４）。

次に、分類器作成部１５が、特徴の相関関係を用いてラベルあり学習データのサンプルの特徴を拡張し、特徴を拡張したラベルあり学習データと重要度とを用いて分類器を作成する（ステップＳ５）。また分類器作成部１５が、作成した分類器を分類器格納部１６に格納する。

［分類処理］
次に図７を参照して、作成装置１の分類部２０による分類処理について説明する。図７のフローチャートは、例えば、ユーザによる分類処理の開始を指示する操作入力があったタイミングで開始される。

まず、データ入力部２１が、分類処理対象の現在の時刻のサンプルを受け付け（ステップＳ６）、データ変換部２２が、受け付けたサンプルを特徴ベクトルに変換する（ステップＳ７）。

次に、分類部２３が、分類器格納部１６を参照し、格納されている分類器を用いてサンプルの分類処理を行う（ステップＳ８）。そして、分類結果出力部２４が、分類結果の出力すなわち分類されたサンプルのラベルの出力を行う（ステップＳ９）。

以上、説明したように、本実施形態の作成装置１では、特徴相関学習部１３が、ラベルあり学習データのサンプルの特徴と、ラベルなし学習データのサンプルのみに現れる特徴との相関関係を学習する。また、重要度算出部１４が、ラベルあり学習データのサンプルの分類器の作成に及ぼす影響度合いを表す重要度を算出する。また、分類器作成部１５が、相関関係を用いてラベルあり学習データのサンプルの特徴にラベルなし学習データのみに現れる特徴を付加する。そして、分類器作成部１５が、ラベルなし学習データのみに現れる特徴を付加することにより特徴を拡張したラベルあり学習データと重要度とを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成する。

このように、本実施形態の作成装置１における作成部１０の作成処理によれば、例えばある時刻までに収集されたラベルあり学習データのサンプルの生成分布および特徴を、それ以降に収集された新しいラベルなし学習データのサンプルの生成分布および特徴に適合させることができる。このラベルあり学習データを用いて分類器を作成することにより、サンプルの生成分布の経時変化と学習データに現れなかった新しい特徴とを考慮して、最新の分類基準を保持して分類精度が維持された分類器を作成することができる。

なお、分類器作成部１５は、ラベルあり学習データのサンプルが生起する確率とラベルなし学習データのサンプルが生起する確率との関係に対して、上記式（６）が成立するという条件を設定し、該条件を満たした上で、ラベルなし学習データのみに現れる特徴を付加したラベルあり学習データと重要度とを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成する。これにより、ラベルあり学習データには現れない新たな特徴と重要度とを同時に扱うことが可能となる。

また、本発明の作成処理は、ラベルをクラス等の離散値とした分類問題に限定されない。例えば、ラベルを実数値とした回帰問題に適用してもよい。あるいは、ラベルを順序としたランキング問題に適用してもよい。あるいは、ラベルを構造データとした構造学習問題に適用してもよい。これにより、多様な分類器の分類基準を最新の状態に保持することができる。

［第２の実施形態］
上記の第１の実施形態の分類器作成部１５は、学習された特徴の相関関係を用いて分類器を作成しているが、学習された特徴の相関関係のうち、所定の条件を満たす一部を用いて分類器を作成してもよい。本実施形態は、上記の第１の実施形態とは、分類器作成部１５の処理の一部が異なる。その他は第１の実施形態と同一であるので、説明を省略する。

本実施形態の分類器作成部１５は、学習された相関関係のうち、所定の条件を満たす一部の情報の一例として、学習された特徴の相関関係の平均μ^ｈ（ｘ^ｏ）を用いてラベルありサンプルにラベルなしサンプルのみに現れる特徴を付加する。この場合、上記式（７）で表される汎化誤差Ｇは、次式（２２）のように近似することができる。

分類器は、上記式（２２）の汎化誤差Ｇを最小化する点として得ることができる。汎化誤差Ｇの最小化には、上述した第１の実施形態と同様に、準ニュートン法を適用できる。

次に、図８を参照して、本実施形態の作成装置１の作成部１０による作成処理について説明する。図８は、本実施形態の作成処理手順を例示するフローチャートである。上記した第１の実施形態とは、ステップＳ５１の処理のみが異なる。

ステップＳ５１の処理では、分類器作成部１５が、学習された特徴の相関関係の一部を用いてラベルありサンプルにラベルなしサンプルのみに現れる特徴を付加して特徴を拡張し、特徴を拡張したラベルあり学習データと重要度とを用いて分類器を作成する。

このように、本実施形態の作成装置１の作成部１０の作成処理によれば、学習された特徴の相関関係の一部を用いて分類器を作成する。これにより、分類器の作成にかかる時間が短縮される。

［プログラム］
上記実施形態に係る作成装置１が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、作成装置１は、パッケージソフトウェアやオンラインソフトウェアとして上記の作成処理を実行する作成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の作成プログラムを情報処理装置に実行させることにより、情報処理装置を作成装置１として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の作成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、作成装置１は、ラベルあり学習データおよびラベルなし学習データを入力とし、分類器を出力する作成処理サービスを提供するサーバ装置として実装される。この場合、作成装置１は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の作成処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、作成装置１と同様の機能を実現する作成プログラムを実行するコンピュータの一例を説明する。

図９に示すように、作成プログラムを実行するコンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

ここで、図９に示すように、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各テーブルは、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

また、作成プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した作成装置１が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、作成プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、作成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、作成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

１作成装置
１０作成部
１１学習データ入力部
１２データ変換部
１３特徴相関学習部
１４重要度算出部
１５分類器作成部
１６分類器格納部
２０分類部
２１データ入力部
２２データ変換部
２３分類部
２４分類結果出力部

Claims

サンプルの属性を表すラベルを出力する分類器を作成する作成装置であって、
前記ラベルが付与されたサンプルであるラベルありサンプルの特徴と、前記ラベルが付与されていないサンプルであるラベルなしサンプルのみに現れる特徴との相関関係を学習する学習部と、
前記相関関係を用いて前記ラベルありサンプルの特徴に前記ラベルなしサンプルのみに現れる特徴を付加し、前記ラベルなしサンプルのみに現れる特徴を付加した該ラベルありサンプルを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成する作成部と、
を備えることを特徴とする作成装置。
さらに、前記ラベルありサンプルが分類器の作成に及ぼす影響度合いを表す重要度を算出する算出部を備え、
前記作成部は、前記ラベルなしサンプルのみに現れる特徴を付加した該ラベルありサンプルと前記重要度とを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成することを特徴とする請求項１に記載の作成装置。
前記作成部は、前記ラベルありサンプルが生起する確率と前記ラベルなしサンプルが生起する確率との関係に対して所定の条件を設定し、該条件を満たした上で、前記ラベルなしサンプルのみに現れる特徴を付加した前記ラベルありサンプルと前記重要度とを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成することを特徴とする請求項２に記載の作成装置。
前記作成部は、学習された前記相関関係のうち、所定の条件を満たす一部の情報を用いて前記ラベルありサンプルに前記ラベルなしサンプルのみに現れる特徴を付加することを特徴とする請求項１〜３のいずれか１項に記載の作成装置。
前記作成部は、学習された前記相関関係の平均値を用いて前記ラベルありサンプルに前記ラベルなしサンプルのみに現れる特徴を付加することを特徴とする請求項４に記載の作成装置。
コンピュータに、
サンプルの属性を表すラベルが付与されたサンプルであるラベルありサンプルの特徴と、前記ラベルが付与されていないサンプルであるラベルなしサンプルのみに現れる特徴との相関関係を学習する学習ステップと、
前記相関関係を用いて前記ラベルありサンプルの特徴に前記ラベルなしサンプルのみに現れる特徴を付加し、前記ラベルなしサンプルのみに現れる特徴を付加した該ラベルありサンプルを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成する作成ステップと、
を実行させることを特徴とする作成プログラム。
サンプルの属性を表すラベルを出力する分類器を作成する作成装置で実行される作成方法であって、
前記ラベルが付与されたサンプルであるラベルありサンプルの特徴と、前記ラベルが付与されていないサンプルであるラベルなしサンプルのみに現れる特徴との相関関係を学習する学習工程と、
前記相関関係を用いて前記ラベルありサンプルの特徴に前記ラベルなしサンプルのみに現れる特徴を付加し、前記ラベルなしサンプルのみに現れる特徴を付加した該ラベルありサンプルを用いて、入力されたサンプルに対応するラベルを出力する分類器を作成する作成工程と、
を含んだことを特徴とする作成方法。