JP6859247B2

JP6859247B2 - 学習装置、分析システム、学習方法および学習プログラム

Info

Publication number: JP6859247B2
Application number: JP2017207227A
Authority: JP
Inventors: 大志高橋; 具治岩田; 哲哉塩田; 内山　寛之; 寛之内山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2021-04-14
Anticipated expiration: 2037-10-26
Also published as: JP2019079392A

Description

本発明は、学習装置、分析システム、学習方法および学習プログラムに関する。

近年、様々な物をインターネットに接続するいわゆるＩｏＴの普及に伴い、大規模かつ多種多様なデータが生成され流通している。また、このようなデータを活用するため、データが持つ規則を自動的に発見する機械学習の技術が注目されている。

従来、機械学習の技術を用いるには専門的な知識が必要であったが、機械学習の自動化技術（非特許文献１参照）により、専門家でなくても機械学習を用いてデータを活用することが可能になっている。

機械学習の自動化技術では、例えば、入力されたデータのラベルを予測するクラス分類問題において、ベイズ最適化等の最適化技術を用いて、欠損値の補完、数値ベクトルへの変換等のフェーズのそれぞれに最適なアルゴリズムとハイパーパラメータが選択される。また、一連のフェーズを意味するパイプラインを表すモデルを複数組み合わせて予測精度の向上を図る、アンサンブルと呼ばれる手法が知られている。

Matthias Feurer，et al.、"Efficient and Robust Automated Machine Learning"、Neural Information Processing Systems、[online]、2015年、［２０１７年１０月５日検索]、インターネット＜URL:https://papers.nips.cc/paper/5872-efficient-and-robust-automated-machine-learning＞

しかしながら、従来の機械学習の自動化技術は、いまだ研究段階にあり予測精度が低いため、データ活用の際に要求される予測精度を満たせない可能性が高い。例えば、アンサンブルでは、同じデータを誤分類するモデルを組み合わせても精度は向上しない。すなわち、どのパイプラインを表すモデル同士を組み合わせるかによって、予測精度向上の可否が左右されていた。

本発明は、上記に鑑みてなされたものであって、複数のパイプラインを表すモデルを組み合わせて、高精度な予測モデルを構築することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、入力されたデータのラベルを予測する予測モデルを構築する際に実行される複数の処理を組み合わせたパイプラインであって、各処理の設定内容がそれぞれ異なる複数のパイプラインを生成する生成部と、生成されたパイプラインのそれぞれを表すモデルを重み付けして組み合わせたモデルのうち、予測精度が最も高いモデルを予測モデルとして探索する探索部と、を備えることを特徴とする。

本発明によれば、複数のパイプラインを表すモデルを組み合わせて、高精度な予測モデルを構築することができる。

図１は、クラス分類について説明するための説明図である。図２は、機械学習の自動化技術について説明するための説明図である。図３は、学習装置の概要について説明するための説明図である。図４は、学習装置の概略構成を例示する模式図である。図５は、探索部の処理を説明するための説明図である。図６は、学習処理手順を示すフローチャートである。図７は、学習装置の学習処理による効果を説明するための説明図である。図８は、学習装置の学習処理による効果を説明するための説明図である。図９は、学習装置を含む分析システムの概略構成を例示する模式図である。図１０は、分析システムの処理を説明するための説明図である。図１１は、学習プログラムを実行するコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［学習装置の概要］
本実施形態の学習装置は、入力されたデータのラベルを予測するクラス分類問題について、学習データを用いて機械学習を行って、自動的に予測モデルを構築する。ここで、図１は、クラス分類について説明するための説明図である。クラス分類とは、入力されたデータのラベルを予測する技術である。一般にクラス分類は、図１に示すように、欠損値の補完、カテゴリ変数の変換、各特徴の正規化、データの再変換および推定の５つのフェーズで構成される。図１に示すクラス分類において、データが入力され、ラベルが出力される。

ここで、欠損値の補完とは、データを構成する複数の特徴量のうち、欠損している値がある場合に平均値等を用いて補完する処理である。また、カテゴリ変数の変換とは、性別や曜日等の数値的に測れない特徴量であるカテゴリ変数を数値ベクトルに変換する処理である。また、各特徴の正規化とは、予測精度を向上させるために、データに含まれる複数の特徴量の尺度を揃える処理である。

また、データの再変換とは、予測精度を向上させるために、データに含まれる特徴量のうち、効果的な特徴量を選択する、あるいは特徴量を組み合わせて新しい特徴量を導出するというように、データを再変換する処理である。また、推定とは、学習用のデータとラベルとを用いて、データのクラス分類を行うモデルを学習し、未知のデータのラベルを予測する処理である。

次に、図２は、機械学習の自動化技術について説明するための説明図である。機械学習の自動化技術とは、図２に示すように、各フェーズに選択肢として存在する多数のアルゴリズムと、各アルゴリズムに存在する多数のハイパーパラメータの中から、最適なアルゴリズムおよびハイパーパラメータを選択する技術である。以下、この技術をＣＡＳＨ問題（Combined Algorithm Selection and Hyperparameter Optimization Problem）と記す。最適なアルゴリズムおよびハイパーパラメータの選択には、ベイズ最適化等の最適化技術が用いられる。機械学習の自動化技術により、図２に矢印で連結して示すように、一連のフェーズを意味するパイプラインが生成される。

図２に示すパイプラインにおいて、例えば、フェーズ１ではＣ_３ ^（１）で表されるアルゴリズムおよびハイパーパラメータが選択されている。また、このパイプラインにおいて、フェーズ２ではＣ_３ ^（２）で表されるアルゴリズムおよびハイパーパラメータが選択されている。すなわち、図２に示すパイプラインは、フェーズ１がＣ_３ ^（１）、フェーズ２がＣ_３ ^（２）、フェーズ３がＣ_２ ^（３）、フェーズ４がＣ_１ ^（４）、フェーズ５がＣ_２ ^（５）で表されるアルゴリズムおよびハイパーパラメータで構成されるモデルで表される。

また、図３は、学習装置の概要について説明するための説明図である。学習装置は、パイプラインを表すモデルを複数組み合わせるアンサンブルと呼ばれる技術を用いて、予測モデルの精度を向上させる。特に、本実施形態の学習装置は、複数のモデルを組み合わせる際、図３に示すように、各モデルに重み付けして組み合わせる。図３に示す例では、学習装置は、モデル１に重みａ、モデル２に重みｂ、・・・、モデルＭに重みｍというように、Ｍ個のモデルのそれぞれに異なる重みを付加して組み合わせることにより、予測モデルを構築している。すなわち、本実施形態の学習装置は、Ｍ個のパイプラインを表すモデルの重み付けした組み合わせのうち、最適なモデルの組み合わせおよび重みを探索する。以下、この技術をＣＥＳＨ問題（Combined Ensemble Selection and Hyperparameter Optimization Problem）と記す。本実施形態の学習装置は、クラス分類問題をＣＥＳＨ問題として取り扱うことにより、組み合わせるモデルが限定されることなく、複数のモデルを組み合わせて、高精度な予測モデルを構築することが可能となる。

［学習装置の構成］
図４は、学習装置の概略構成を例示する模式図である。図４に例示するように、学習装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。

通信制御部１３は、ＮＩＣ（Network Interface Card）等で実現され、ネットワークＮを介したサーバ等の外部の装置と制御部１５との通信を制御する。

記憶部１４は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、後述する学習処理により構築された予測モデルを構成するアルゴリズムおよびハイパーパラメータ等が記憶される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。

制御部１５は、ＣＰＵ（Central Processing Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図４に例示するように、生成部１５ａおよび探索部１５ｂとして機能する。なお、これらの機能部は、異なるハードウェアに実装されてもよい。

生成部１５ａは、入力されたデータのラベルを予測する予測モデルを構築する際に実行される複数の処理を組み合わせたパイプラインであって、各処理の設定内容がそれぞれ異なる複数のパイプラインを生成する。具体的には、生成部１５ａは、図２に示したように、各フェーズのアルゴリズムおよびハイパーパラメータが異なる複数のパイプラインを生成する。

探索部１５ｂは、生成されたパイプラインのそれぞれを表すモデルを重み付けして組み合わせたモデルのうち、予測精度が最も高いモデルを予測モデルとして探索する。

例えば、探索部１５ｂは、生成部１５ａが生成した複数のパイプラインを表すモデルのうち、予測精度が最も高いモデルに、生成部１５ａが再度生成した複数のモデルのうちのいずれかを重み付けして組み合わせ、予測精度が最も高くなる組み合わせおよび重みを探索する。また、探索部１５ｂは、予測精度が最も高い該組み合わせおよび重みに対し、生成部１５ａが再度生成した複数のパイプラインを表すモデルのうちのいずれかを重み付けして組み合わせ、予測精度が最も高くなる組み合わせおよび重みを探索する処理を所定の回数繰り返す。これにより、探索部１５ｂは、予測精度が最も高い予測モデルを探索する。

図５は、探索部１５ｂの処理を説明するための説明図である。具体的には、探索部１５ｂは、図５に示すように、まず、生成部１５ａが生成した複数のパイプラインを表すモデルのうち、予測精度が最も高いモデルを探索する。図５に示す例では、予測精度が最も高いモデルとして、モデル１が探索されている。

次に、探索部１５ｂは、モデル１と、生成部１５ａが改めて生成した複数のパイプラインを表すモデルのうちのいずれか１つを重み付けして組み合わせてアンサンブルを作成し、作成したアンサンブルのうち予測精度が最も高くなるものを探索する。図５に示す例では、予測精度が最も高いアンサンブルとして、モデル１にモデル２を重み付けして組み合わせたアンサンブルが探索されている。

このように、探索部１５ｂは、探索されたアンサンブルと、生成部１５ａが改めて生成した複数のパイプラインを表すモデルのうちのいずれか１つを重み付けして組み合わせて新たなアンサンブルを生成し、予測精度が最も高くなるものを探索する処理を、所定の回数繰り返す。図５に示す例では、このような処理をＭ回繰り返して、予測精度が最も高くなるアンサンブルとして、モデル１、モデル２、…、モデルＭのＭ個のモデルをそれぞれ重み付けして組み合わせたアンサンブルを探索している。探索部１５ｂは、探索したこのアンサンブルを予測モデルとする。このようにして、探索部１５ｂは、予測精度が最も高い予測モデルを構築することができる。

なお、探索部１５ｂは、生成部１５ａが生成した所定数のパイプラインを表すモデルを、予測精度が高い順に大きい重み付けして組み合わせることにより、予測精度が最も高い予測モデルを探索してもよい。例えば、図５に示す例において、探索部１５ｂは、生成部１５ａが生成したＭ個のパイプラインを表すモデルを用いて、まず、予測精度が最も高いモデルとしてモデル１を探索する。次に、探索部１５ｂは、モデル１と、モデル１より予測精度の低いモデル２〜モデルＭのうちのいずれか１つを重み付けして組み合わせてアンサンブルを作成し、作成したアンサンブルのうち予測精度が最も高くなるものを探索する。図５に示す例では、予測精度が最も高いアンサンブルとして、モデル１にモデル２を重み付けして組み合わせたアンサンブルが探索されている。

次に、探索部１５ｂは、探索されたアンサンブルと、モデル３〜モデルＭのうちのいずれか１つを重み付けして組み合わせて新たなアンサンブルを作成し、予測精度が最も高くなるものを探索する。探索部１５ｂは、同様の処理を繰り返して、生成部１５ａが生成したＭ個のパイプラインを表すモデルを重み付けして組み合わせたアンサンブルを探索し、予測モデルとする。このようにして、探索部１５ｂは、処理負荷を軽減して、予測精度が最も高い予測モデルを構築することができる。

［学習処理］
次に、図６を参照して、本実施形態に係る学習装置１０による学習処理について説明する。図６は、学習処理手順を示すフローチャートである。図６のフローチャートは、例えば、学習処理の開始を指示する操作入力があったタイミングで開始される。

まず、探索部１５ｂは、ｉ＝１として（ステップＳ１）、生成部１５ａが生成したｉ個のパイプラインを表すモデルＰのうち予測精度（Performance（P））が最も高いモデルＰ_１を探索する（ステップＳ２）。

次に、探索部１５ｂは、モデルＰ_１を構成要素として含むアンサンブルＥ_１を作成する（ステップＳ３）。また、探索部１５ｂは、ｉが所定数Ｍより小さい場合に（ステップＳ４，Ｙｅｓ）、ステップＳ５に処理を進める。

ステップＳ５の処理では、探索部１５ｂは、（ｉ−１）個のモデルを含むアンサンブルＥ_ｉ−１を作成し、作成したアンサンブルＥ_ｉ―１にモデルＰ_ｉを重み付けして組み合わせた場合に、予測精度が最も高くなるモデルＰ_ｉを探索する（ステップＳ５）。次に、探索部１５ｂは、探索したモデルＰ_１、Ｐ_２、…、Ｐ_ｉを含むアンサンブルＥ_ｉを作成する（ステップＳ６）。また、探索部１５ｂは、ｉに１を加算して（ステップＳ７）、ステップＳ４に処理を戻す。探索部１５ｂは、ｉが所定数Ｍに達した場合に（ステップＳ４，Ｎｏ）、一連の学習処理を終了する。

以上の処理により、探索部１５ｂは、生成部１５ａが生成したＭ個のモデルＰを重み付けして組み合わせたアンサンブルを作成し、アンサンブルによる予測精度が最も良いものを探索して予測モデルとする。

以上、説明したように、本実施形態の学習装置１０において、生成部１５ａが、入力されたデータのラベルを予測する予測モデルを構築する際に実行される複数の処理を組み合わせたパイプラインであって、各処理の設定内容がそれぞれ異なる複数のパイプラインを生成する。また、探索部１５ｂが、生成されたパイプラインのそれぞれを表すモデルを重み付けして組み合わせたモデルのうち、予測精度が最も高いモデルを予測モデルとして探索する。これにより、学習装置１０は、複数のパイプラインを表すモデルを組み合わせて、高精度な予測モデルを構築することが可能となる。

ここで、図７は本実施形態の学習装置の学習処理による効果を説明するための説明図である。複数のパイプラインを表すモデルを組み合わせる場合に、従来は、重みが考慮されていなかった。そのため、図７（ａ）に破線で囲んで示すように、同じデータを誤分類するモデル（モデル３とモデル４）を組み合わせても、予測モデルの精度を上げることはできなかった。したがって、図７（ｂ）に破線で囲んで示すように、誤分類するデータが異なるモデル（モデル１とモデル２）を組み合わせた場合に限って、予測モデルの精度を上げることが可能であった。すなわち、どのモデル同士を組み合わせるかによって精度向上の可否が左右されていた。

これに対し、本実施形態の学習装置１０の学習処理では、重みを考慮してモデルを組み合わせる。そのため、図７（ｃ）に示すように、例えば精度の高いモデル（モデル１）の重みを大きく、精度の低いモデル（モデル５）の重みを小さくして組み合わせることにより、予測モデルの精度を向上させることが可能である。このように、本実施形態の学習処理によれば、組み合わせるモデルが限定されることなく、複数のモデルを組み合わせて高精度な予測モデルを構築することが可能となった。なお、図７（ｂ）に示す従来の手法は、均一な重みを付加することに相当する。

［実施例］
図８は、本実施形態の学習装置の学習処理による効果を説明するための説明図である。図８には、yeast、abalone、krvskp等の１０種のデータセットのそれぞれに対するクラス分類について、従来技術による予測精度と本発明の学習処理による予測精度とが例示されている。ここで、従来技術とは、ＣＡＳＨ問題＋重みを考慮しないアンサンブル（ＥＳ、Ensemble Selection）を意味する。また、本発明の学習処理とは、ＣＥＳＨ問題を意味する。図８に示すように、本発明の学習処理により、従来技術より予測精度が平均で約１．２％向上することが確認された。

［分析システム］
本実施形態の学習装置１０は、推薦、分類、または異常検知等の分析タスクを実行する分析システムに用いることができる。図９は、学習装置を含む分析システムの概略構成を示す模式図である。図９に示す例において、分析システム１００は、学習装置１０と分析装置２０とを有し、ネットワークＮを介して相互にデータ通信可能に接続される。

分析装置２０は、パソコン等の汎用のコンピュータで実現され、入力されたデータに対して分析タスクを実行する。例えば、分析装置２０は、ＣＰＵ等を用いて実現される制御部内に予測部２１を備え、学習装置１０が探索した予測モデルを用いて、入力されたデータのラベルを予測する。なお、予測部２１は、学習装置１０と同一のハードウェアに実装されてもよい。

図１０は、分析システム１００の処理を説明するための説明図である。図１０に示すように、分析システム１００は、入力されたデータを用いて、自動的に機械学習を行ってデータを分類する。図１０に示す例において、操作者が分析タスクのうち「分類」を選択して開始を指示すると、分析結果を表示する等して出力する。例えば、学習データが入力された場合に、学習装置１０が機械学習を行って、予測モデルを構築し、構築した予測モデルの予測精度を出力する。また、分析対象のデータが入力された場合に、分析装置２０が、構築された予測モデルを用いて、入力されたデータの分類を行ってラベルを出力する。

［プログラム］
上記実施形態に係る学習装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、学習装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）などのスレート端末などがその範疇に含まれる。

また、学習装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、学習装置１０は、学習用のデータを入力とし、予測モデルを出力する学習処理サービスを提供するサーバ装置として実装される。この場合、学習装置１０は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、学習装置１０と同様の機能を実現する学習プログラムを実行するコンピュータの一例を説明する。

図１１は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各テーブルは、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

また、学習プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した学習装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、学習プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、学習プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、学習プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

１０学習装置
１１入力部
１２出力部
１３通信制御部
１４記憶部
１５制御部
１５ａ生成部
１５ｂ探索部
２０分析装置
２１予測部
１００分析システム

Claims

入力されたデータのラベルを予測する予測モデルを構築する際に実行される複数の処理を組み合わせたパイプラインであって、各処理の設定内容がそれぞれ異なる複数のパイプラインを生成する生成部と、
生成されたパイプラインのそれぞれを表すモデルを重み付けして組み合わせたモデルのうち、予測精度が最も高いモデルを予測モデルとして探索する探索部と、
を備え、
前記探索部は、前記生成部が生成した複数の前記パイプラインを表すモデルのうち、予測精度が最も高いモデルに、前記生成部が再度生成した複数の前記パイプラインを表すモデルのうちのいずれかを重み付けして組み合わせ、予測精度が最も高くなる組み合わせおよび重みを探索し、予測精度が最も高い該組み合わせおよび重みに対し、前記生成部が再度生成した複数の前記パイプラインを表すモデルのうちのいずれかを重み付けして組み合わせ、予測精度が最も高くなる組み合わせおよび重みを探索する処理を所定の回数繰り返すことにより、予測精度が最も高い前記予測モデルを探索することを特徴とする学習装置。
学習装置と分析装置とを有する分析システムであって、
前記学習装置は、
入力されたデータのラベルを予測する予測モデルを構築する際に実行される複数の処理を組み合わせたパイプラインであって、各処理の設定内容がそれぞれ異なる複数のパイプラインを生成する生成部と、
生成されたパイプラインのそれぞれを表すモデルを重み付けして組み合わせたモデルのうち、予測精度が最も高いモデルを予測モデルとして探索する探索部と、を備え、
前記探索部は、前記生成部が生成した複数の前記パイプラインを表すモデルのうち、予測精度が最も高いモデルに、前記生成部が再度生成した複数の前記パイプラインを表すモデルのうちのいずれかを重み付けして組み合わせ、予測精度が最も高くなる組み合わせおよび重みを探索し、予測精度が最も高い該組み合わせおよび重みに対し、前記生成部が再度生成した複数の前記パイプラインを表すモデルのうちのいずれかを重み付けして組み合わせ、予測精度が最も高くなる組み合わせおよび重みを探索する処理を所定の回数繰り返すことにより、予測精度が最も高い前記予測モデルを探索し、
前記分析装置は、
前記学習装置が探索した前記予測モデルを用いて、入力されたデータのラベルを予測する予測部を備える
ことを特徴とする分析システム。
学習装置が実行する学習方法であって、
入力されたデータのラベルを予測する予測モデルを構築する際に実行される複数の処理を組み合わせたパイプラインであって、各処理の設定内容がそれぞれ異なる複数のパイプラインを生成する生成工程と、
生成されたパイプラインのそれぞれを表すモデルを重み付けして組み合わせたモデルのうち、予測精度が最も高いモデルを予測モデルとして探索する探索工程と、
を含み、
前記探索工程は、前記生成工程が生成した複数の前記パイプラインを表すモデルのうち、予測精度が最も高いモデルに、前記生成工程が再度生成した複数の前記パイプラインを表すモデルのうちのいずれかを重み付けして組み合わせ、予測精度が最も高くなる組み合わせおよび重みを探索し、予測精度が最も高い該組み合わせおよび重みに対し、前記生成工程が再度生成した複数の前記パイプラインを表すモデルのうちのいずれかを重み付けして組み合わせ、予測精度が最も高くなる組み合わせおよび重みを探索する処理を所定の回数繰り返すことにより、予測精度が最も高い前記予測モデルを探索することを特徴とする学習方法。
入力されたデータのラベルを予測する予測モデルを構築する際に実行される複数の処理を組み合わせたパイプラインであって、各処理の設定内容がそれぞれ異なる複数のパイプラインを生成する生成ステップと、
生成されたパイプラインのそれぞれを表すモデルを重み付けして組み合わせたもののうち、予測精度が最も高いモデルを予測モデルとして探索する探索ステップと、
をコンピュータに実行させ、
前記探索ステップは、前記生成ステップが生成した複数の前記パイプラインを表すモデルのうち、予測精度が最も高いモデルに、前記生成ステップが再度生成した複数の前記パイプラインを表すモデルのうちのいずれかを重み付けして組み合わせ、予測精度が最も高くなる組み合わせおよび重みを探索し、予測精度が最も高い該組み合わせおよび重みに対し、前記生成ステップが再度生成した複数の前記パイプラインを表すモデルのうちのいずれかを重み付けして組み合わせ、予測精度が最も高くなる組み合わせおよび重みを探索する処理を所定の回数繰り返すことにより、予測精度が最も高い前記予測モデルを探索することを特徴とする学習プログラム。