JP7071624B2 - Search program, search method and search device - Google Patents
Search program, search method and search device Download PDFInfo
- Publication number
- JP7071624B2 JP7071624B2 JP2018045283A JP2018045283A JP7071624B2 JP 7071624 B2 JP7071624 B2 JP 7071624B2 JP 2018045283 A JP2018045283 A JP 2018045283A JP 2018045283 A JP2018045283 A JP 2018045283A JP 7071624 B2 JP7071624 B2 JP 7071624B2
- Authority
- JP
- Japan
- Prior art keywords
- hyperparameter
- value
- prediction performance
- performance
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は探索プログラム、探索方法および探索装置に関する。 The present invention relates to a search program, a search method, and a search device.
コンピュータを利用したデータ分析の1つとして、機械学習が行われることがある。機械学習では、複数の既知の事例を示す訓練データをコンピュータに入力する。コンピュータは、訓練データを分析して、要因(説明変数や独立変数と言うことがある)と結果(目的変数や従属変数と言うことがある)との間の関係を一般化したモデルを生成する。生成されたモデルを用いることで未知の事例の結果を予測することができる。機械学習では、生成されるモデルの正確さ、すなわち、未知の事例の結果を正確に予測する能力(予測性能と言うことがある)が高いことが好ましい。 Machine learning may be performed as one of the data analysis using a computer. In machine learning, training data showing multiple known cases is input to a computer. The computer analyzes the training data to generate a generalized model of the relationship between factors (sometimes referred to as explanatory or independent variables) and outcomes (sometimes referred to as objective or dependent variables). .. The results of unknown cases can be predicted by using the generated model. In machine learning, it is preferable that the accuracy of the generated model, that is, the ability to accurately predict the result of an unknown case (sometimes referred to as prediction performance) is high.
機械学習では、同じ訓練データを使用する場合であっても、ハイパーパラメータ値を変えることで予測性能の異なるモデルが生成される。ハイパーパラメータは、機械学習の挙動を調整する設定項目である。ハイパーパラメータ値は、機械学習を通じて決定されるモデル内の係数とは異なり、モデル生成の開始前に指定される。ハイパーパラメータには、例えば、ロジスティック回帰分析、サポートベクタマシン(SVM:Support Vector Machine)、ランダムフォレストなどの機械学習アルゴリズムを示すものが含まれる。また、ハイパーパラメータには、例えば、RBF(Radial Basis Function)カーネルSVMという機械学習アルゴリズムで使用される「C」や「γ」が含まれる。 In machine learning, even when the same training data is used, models with different prediction performance are generated by changing the hyperparameter values. Hyperparameters are setting items that adjust the behavior of machine learning. Hyperparameter values are specified before the start of model generation, unlike the coefficients in the model that are determined through machine learning. Hyperparameters include, for example, those showing machine learning algorithms such as logistic regression analysis, Support Vector Machine (SVM), and Random Forest. Further, the hyperparameters include, for example, "C" and "γ" used in a machine learning algorithm called RBF (Radial Basis Function) kernel SVM.
ある訓練データに対して、モデルの予測性能が最も高くなるようなハイパーパラメータ値が事前にわからないこともある。そこで、予測性能が高くなるハイパーパラメータ値をコンピュータが探索することが考えられる。例えば、ハイパーパラメータ値を設定する設定装置が提案されている。提案の設定装置は、データセットからサンプリングした小さなサイズの訓練データを用いて、異なるハイパーパラメータ値に対応する複数のモデルを生成し、これら複数のモデルの予測性能を測定する。設定装置は、複数のハイパーパラメータ値を予測性能の高いグループと予測性能の低いグループとに分類し、予測性能の高いグループに分類される確率に基づいて、次に使用するハイパーパラメータ値を選択する。 For some training data, we may not know in advance the hyperparameter values that give the best prediction performance of the model. Therefore, it is conceivable that the computer searches for hyperparameter values that improve the prediction performance. For example, a setting device for setting hyperparameter values has been proposed. The proposed setup device uses small size training data sampled from a dataset to generate multiple models corresponding to different hyperparameter values and measure the predictive performance of these multiple models. The setting device classifies multiple hyperparameter values into a group with high prediction performance and a group with low prediction performance, and selects the hyperparameter value to be used next based on the probability of being classified into the group with high prediction performance. ..
ところで、ハイパーパラメータは、値の大小関係が規定されないハイパーパラメータと値の大小関係が規定されるハイパーパラメータの組み合わせであることがある。前者は名義尺度に相当し、カテゴリカルハイパーパラメータと言うことがある。カテゴリカルハイパーパラメータの例として、機械学習アルゴリズムや、ランダムフォレストのクラス分類方法(ジニ係数とエントロピーの二者択一)が挙げられる。後者は順序尺度や比例尺度や間隔尺度に相当し、連続量ハイパーパラメータと言うことがある。連続量ハイパーパラメータの例として、RBFカーネルSVMの「C」や「γ」が挙げられる。 By the way, a hyperparameter may be a combination of a hyperparameter in which the magnitude relation of values is not defined and a hyperparameter in which the magnitude relation of values is defined. The former corresponds to a nominal scale and is sometimes called a categorical hyperparameter. Examples of categorical hyperparameters include machine learning algorithms and random forest classification methods (Gini coefficient and entropy alternatives). The latter corresponds to an ordinal scale, a proportional scale, and an interval scale, and is sometimes called a continuous quantity hyperparameter. Examples of continuous quantity hyperparameters include "C" and "γ" of RBF kernel SVM.
この場合、モデルの予測性能が高くなるハイパーパラメータ値を探索するにあたり、カテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値の適切な組み合わせを探すことになる。連続量ハイパーパラメータについては、その性質から、近い値を用いて生成されたモデルは近い予測性能をもつ可能性が高い。そのため、カテゴリカルハイパーパラメータ値を1つに固定すると、選択可能な全ての連続量ハイパーパラメータ値を試行しなくても予測性能が高くなる連続量ハイパーパラメータ値を推定し得る。 In this case, when searching for hyperparameter values that improve the prediction performance of the model, it is necessary to search for an appropriate combination of categorical hyperparameter values and continuous quantity hyperparameter values. For continuous quantity hyperparameters, due to their nature, models generated with close values are likely to have close predictive performance. Therefore, if the categorical hyperparameter values are fixed to one, it is possible to estimate the continuous quantity hyperparameter values that improve the prediction performance without trying all the continuous quantity hyperparameter values that can be selected.
これに対し、カテゴリカルハイパーパラメータについては、その性質から、近い値を用いて生成されたモデルが近い予測性能をもつという仮定は成立しない。ただし、連続量ハイパーパラメータ値が同一でカテゴリカルハイパーパラメータ値が異なるモデルの予測性能の間に、何らかの関係性が存在する場合もあり完全に無関係であるとは限らない。そこで、異なるカテゴリカルハイパーパラメータ値を用いて生成されたモデルの予測性能をどの様に利用すれば、予測性能が高くなるようなカテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値の組み合わせを効率的に探索できるかが問題となる。 On the other hand, for categorical hyperparameters, the assumption that models generated using close values have close predictive performance does not hold due to their nature. However, there may be some relationship between the prediction performance of models with the same continuous quantity hyperparameter values but different categorical hyperparameter values, and it is not always completely irrelevant. Therefore, how to use the prediction performance of the model generated using different categorical hyperparameter values efficiently to combine the categorical hyperparameter values and the continuous quantity hyperparameter values so that the prediction performance becomes high. The question is whether it can be searched.
1つの側面では、本発明は、ハイパーパラメータ値の探索を効率化することができる探索プログラム、探索方法および探索装置を提供することを目的とする。 In one aspect, it is an object of the present invention to provide a search program, a search method, and a search device capable of streamlining the search for hyperparameter values.
1つの態様では、コンピュータに以下の処理を実行させる探索プログラムが提供される。異なる値の間に大小関係が規定されない第1のハイパーパラメータと異なる値の間に大小関係が規定される第2のハイパーパラメータとに基づいて制御される機械学習を、複数のデータセットに対して過去に実行した結果について、第1のハイパーパラメータに第1の値を設定した場合の予測性能と第1のハイパーパラメータに第2の値を設定した場合の予測性能との間の差を示す予測性能差情報を取得する。複数のデータセットと異なる他のデータセットに対して、第1のハイパーパラメータに第1の値を設定し第2のハイパーパラメータに第3の値を設定して機械学習を実行させることで第1の予測性能を算出する。第1の予測性能と予測性能差情報とに基づいて、他のデータセットに対して次に機械学習を実行するときに使用する第1のハイパーパラメータの値と第2のハイパーパラメータの値の組み合わせを選択する。 In one embodiment, a search program is provided that causes a computer to perform the following processing. Machine learning controlled based on a first hyperparameter with no magnitude relationship between different values and a second hyperparameter with a magnitude relationship between different values for multiple datasets. Prediction showing the difference between the predicted performance when the first value is set for the first hyperparameter and the predicted performance when the second value is set for the first hyperparameter for the results executed in the past. Acquire performance difference information. For other data sets that are different from multiple data sets, the first hyperparameter is set to the first value and the second hyperparameter is set to the third value to execute machine learning. Calculate the prediction performance of. A combination of the values of the first hyperparameters and the values of the second hyperparameters to be used the next time machine learning is performed on other data sets based on the first prediction performance and the prediction performance difference information. Select.
また、1つの態様では、コンピュータが実行する探索方法が提供される。また、1つの態様では、記憶部と処理部とを有する探索装置が提供される。 Also, in one aspect, a search method performed by a computer is provided. Further, in one embodiment, a search device having a storage unit and a processing unit is provided.
1つの側面では、ハイパーパラメータ値の探索を効率化することができる。 In one aspect, the search for hyperparameter values can be streamlined.
以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
第1の実施の形態を説明する。
Hereinafter, the present embodiment will be described with reference to the drawings.
[First Embodiment]
The first embodiment will be described.
図1は、第1の実施の形態の探索装置を説明する図である。
第1の実施の形態の探索装置10は機械学習の進行を管理する。機械学習では、既知の事例を示す訓練データを分析することで、未知の事例の結果を予測するモデル(学習モデルと言うことがある)を生成する。探索装置10が自ら機械学習を行ってもよいし、探索装置10が他の装置に機械学習を行わせてもよい。探索装置10は、ユーザが操作するクライアントコンピュータでもよいし、クライアントコンピュータからネットワーク経由でアクセスされるサーバコンピュータでもよい。
FIG. 1 is a diagram illustrating a search device according to the first embodiment.
The
探索装置10は、記憶部11および処理部12を有する。記憶部11は、RAM(Random Access Memory)などの揮発性の半導体メモリでもよいし、HDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性のストレージでもよい。処理部12は、例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)などのプロセッサである。ただし、処理部12は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの特定用途の電子回路を含んでもよい。プロセッサは、RAMなどのメモリ(記憶部11でもよい)に記憶されたプログラムを実行する。プログラムには探索プログラムが含まれる。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。
The
機械学習によって生成されるモデルに対しては、既知の事例を示すテストデータを用いることで、未知の事例の結果を予測する精度を示す予測性能を算出することができる。予測性能を示す指標としては、例えば、正答率(Accuracy)、適合率(Precision)、F値、平均二乗誤差(MSE:Mean Squared Error)、平均二乗誤差平方根(RMSE:Root Mean Squared Error)などが用いられる。機械学習では予測性能の高いモデルが生成されることが好ましい。生成されるモデルの予測性能は、訓練データとして使用するデータセット(データ母集合)や機械学習の方法に依存する。 For the model generated by machine learning, by using the test data showing the known case, it is possible to calculate the prediction performance showing the accuracy of predicting the result of the unknown case. Examples of indicators of predictive performance include accuracy, precision, F value, mean squared error (MSE), and root mean squared error (RMSE). Used. In machine learning, it is preferable to generate a model with high prediction performance. The predictive performance of the generated model depends on the dataset (data set) used as training data and the method of machine learning.
第1の実施の形態の機械学習は、ハイパーパラメータ14(第1のハイパーパラメータ)とハイパーパラメータ15(第2のハイパーパラメータ)とに基づいてその挙動が制御される。ハイパーパラメータ14,15は、モデルに含まれる係数のように機械学習を通じて値が決定されるものではなく、モデル生成の開始前に値が設定されるものである。ハイパーパラメータ14,15の値を変えると、生成されるモデルが変わって予測性能が変わる。そこで、探索装置10は、予測性能が高くなるようなハイパーパラメータ14の値とハイパーパラメータ15の値の組み合わせを、機械学習を繰り返して探索する。
The behavior of the machine learning of the first embodiment is controlled based on hyperparameter 14 (first hyperparameter) and hyperparameter 15 (second hyperparameter). The
ハイパーパラメータ14は、異なる値の間に大小関係が規定されないハイパーパラメータである。ハイパーパラメータ14は、カテゴリカルハイパーパラメータと言うことができ、名義尺度に相当すると言うこともできる。ハイパーパラメータ14に設定可能な異なる値を比較しても、大小関係に意味が無く、両者の差や比にも意味が無い。よって、ハイパーパラメータ14については、近い値を用いて生成されたモデルは近い予測性能をもつという仮定が成立しない。ハイパーパラメータ14の例として、機械学習アルゴリズムや、ランダムフォレストのクラス分類方法(ジニ係数とエントロピーの二者択一)などが挙げられる。機械学習アルゴリズムの例としては、ロジスティック回帰分析、RBFカーネルSVM、ランダムフォレストなどが挙げられる。
The
ハイパーパラメータ15は、異なる値の間に大小関係が規定されるハイパーパラメータである。ハイパーパラメータ15は、連続量ハイパーパラメータと言うことができ、順序尺度や間隔尺度や比例尺度に相当すると言うこともできる。ハイパーパラメータ15に設定可能な異なる値を比較したとき、大小関係は判定可能であるものの、両者の差や比に意味が無いことがある(順序尺度)。また、異なる値を比較したとき、両者の差(距離)は定義されるものの比に意味が無いことがある(間隔尺度)。また、異なる値を比較したとき、両者の差だけでなく比も定義されることがある(比例尺度)。ハイパーパラメータ15は、異なる値の間の距離を算出可能であることが好ましい。ハイパーパラメータ15に設定可能な値は、実数のような連続値でもよいし整数のような離散値でもよい。ハイパーパラメータ15の例として、RBFカーネルSVMの変数「C」と「γ」、ランダムフォレストの木の深さを示す整数などが挙げられる。
The
なお、ハイパーパラメータ14は、単一のハイパーパラメータ要素でもよいし、上記の性質を満たす2以上のハイパーパラメータ要素の集合でもよい。よって、ハイパーパラメータ14の値は、単一のハイパーパラメータ要素の値であるスカラ値でもよいし、2以上のハイパーパラメータ要素の値を含むベクトル値でもよい。同様に、ハイパーパラメータ15は、単一のハイパーパラメータ要素でもよいし2以上のハイパーパラメータ要素の集合でもよい。ハイパーパラメータ15の値は、スカラ値でもよいしベクトル値でもよい。
The
記憶部11は、予測性能差情報13を記憶する。予測性能差情報13は、複数のデータセットに対して過去に機械学習を実行した結果から生成される。予測性能差情報13は、探索装置10によって生成されてもよいし他の装置によって生成されてもよい。
The
予測性能差情報13は、ハイパーパラメータ14に値14a(第1の値)を設定した場合の予測性能と、ハイパーパラメータ14に値14b(第2の値)を設定した場合の予測性能との間の差を示す。予測性能差情報13は、ハイパーパラメータ15の値に関係なく、値14aを使用した場合の予測性能と値14bを使用した場合の予測性能との間の差の傾向を示す情報であってもよい。また、予測性能差情報13は、ハイパーパラメータ15に設定可能な値それぞれに対応させて、値14aを使用した場合の予測性能と値14bを使用した場合の予測性能との間の差を示す情報であってもよい。
The prediction
すなわち、予測性能差情報13は、ハイパーパラメータ14に値14aを設定しハイパーパラメータ15に特定の値を設定した場合の予測性能と、ハイパーパラメータ14に値14bを設定しハイパーパラメータ15に上記特定の値を設定した場合の予測性能との間の差を示してもよい。予測性能差情報13は、データセット毎の差を上記複数のデータセットの間で平均化して求めた期待値を含んでもよい。また、予測性能差情報13は、差のばらつきの程度を示す分散度(例えば、分散や標準偏差)を含んでもよい。
That is, the prediction
処理部12は、記憶部11に記憶された予測性能差情報13を利用して、予測性能差情報13の生成に用いた複数のデータセットと異なる他のデータセットに対する機械学習を制御する。このとき、処理部12は、モデルの予測性能が高くなるハイパーパラメータ14の値とハイパーパラメータ15の値の組み合わせを探索する。
The
処理部12は、ハイパーパラメータ14に値14aを設定しハイパーパラメータ15に値15a(第3の値)を設定して、上記他のデータセットに対して機械学習を実行させることで予測性能16(第1の予測性能)を算出する。例えば、値14aと値15aを使用してモデルが生成され、生成されたモデルに対して予測性能16が算出される。すると、処理部12は、算出した予測性能16と予測性能差情報13とに基づいて、上記他のデータセットに対して次に機械学習を実行するときに使用するハイパーパラメータ14の値とハイパーパラメータ15の値の組み合わせを選択する。この組み合わせは、値14aと値15aの組み合わせとは異なるものである。
The
例えば、処理部12は、予測性能16と予測性能差情報13とに基づいて、ハイパーパラメータ14に値14bを設定しハイパーパラメータ15に値15aを設定した場合の予測性能(第2の予測性能)を推定する。処理部12は、ハイパーパラメータ14に値14aを設定したときのハイパーパラメータ15に対する予測性能の変化を、予測性能16を用いて推定する。一方、処理部12は、ハイパーパラメータ14に値14bを設定したときのハイパーパラメータ15に対する予測性能の変化を、上記第2の予測性能を用いて推定する。これは、ハイパーパラメータ14については近い値を使用しても予測性能が近似するわけではない一方、ハイパーパラメータ15については近い値を使用すると予測性能が近似するという仮定が成立することを利用している。処理部12は、例えば、最も予測性能の推定値が高くなるような組み合わせを選択する。
For example, the
第1の実施の形態の探索装置10によれば、ハイパーパラメータ14に値14aを設定した場合の予測性能とハイパーパラメータ14に値14bを設定した場合の予測性能との間の差を示す予測性能差情報13が取得される。ハイパーパラメータ14に値14aを設定しハイパーパラメータ15に値15aを設定して、他のデータセットに対して機械学習が試行されて予測性能16が算出される。そして、算出された予測性能16と予測性能差情報13とに基づいて、上記他のデータセットに対して次に試行するハイパーパラメータ14の値とハイパーパラメータ15の値の組み合わせが選択される。これにより、予測性能が高くなるハイパーパラメータ値の探索が効率化される。
According to the
例えば、ハイパーパラメータ14に値14bを設定した場合の予測性能の推定において予測性能16を使用せず、値14aに関する探索と値14bに関する探索とを独立に行う方法も考えられる。しかし、この方法は、ハイパーパラメータ14の値が異なりハイパーパラメータ15の値が同一または近似する組み合わせを別個に試行することになり、ハイパーパラメータ14の異なる値でハイパーパラメータ15の予測性能が類似している場合、探索の効率性に改善の余地がある。また、ハイパーパラメータ14に値14bを設定した場合の予測性能の推定に、予測性能差情報13を使用せずに予測性能16をそのまま適用する方法も考えられる。しかし、この方法は、ハイパーパラメータ14の値の違いによる予測性能のずれを考慮しておらず、予測性能の推定精度に改善の余地があり、結果として探索の効率性に改善の余地がある。これに対し、過去の機械学習から得られた予測性能差情報13を参照することで、ハイパーパラメータ値の探索を効率化できる。
For example, it is conceivable that the prediction performance 16 is not used in the estimation of the prediction performance when the value 14b is set for the
[第2の実施の形態]
次に、第2の実施の形態を説明する。
図2は、機械学習装置のハードウェア例を示すブロック図である。
[Second Embodiment]
Next, a second embodiment will be described.
FIG. 2 is a block diagram showing a hardware example of a machine learning device.
機械学習装置100は、CPU101、RAM102、HDD103、画像信号処理部104、入力信号処理部105、媒体リーダ106および通信インタフェース107を有する。上記ユニットはバスに接続されている。機械学習装置100は、第1の実施の形態の探索装置10に対応する。CPU101は、第1の実施の形態の処理部12に対応する。RAM102またはHDD103は、第1の実施の形態の記憶部11に対応する。
The
CPU101は、プログラムの命令を実行するプロセッサである。CPU101は、HDD103に記憶されたプログラムやデータの少なくとも一部をRAM102にロードし、プログラムを実行する。なお、CPU101は複数のプロセッサコアを含んでもよく、機械学習装置100は複数のプロセッサを有してもよく、以下で説明する処理を複数のプロセッサまたはプロセッサコアを用いて並列に実行してもよい。また、複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。
The
RAM102は、CPU101が実行するプログラムやCPU101が演算に用いるデータを一時的に記憶する揮発性の半導体メモリである。なお、機械学習装置100は、RAM以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。
The
HDD103は、オペレーティングシステム(OS:Operating System)やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。プログラムには探索プログラムが含まれる。なお、機械学習装置100は、フラッシュメモリやSSD(Solid State Drive)などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。
The
画像信号処理部104は、CPU101からの命令に従って、機械学習装置100に接続されたディスプレイ111に画像を出力する。ディスプレイ111としては、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD:Liquid Crystal Display)、プラズマディスプレイ、有機EL(OEL:Organic Electro-Luminescence)ディスプレイなど、任意の種類のディスプレイを用いることができる。
The image
入力信号処理部105は、機械学習装置100に接続された入力デバイス112から入力信号を取得し、CPU101に出力する。入力デバイス112としては、マウスやタッチパネルやタッチパッドやトラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、機械学習装置100に、複数の種類の入力デバイスが接続されていてもよい。
The input
媒体リーダ106は、記録媒体113に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体113として、例えば、磁気ディスク、光ディスク、光磁気ディスク(MO:Magneto-Optical disk)、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク(FD:Flexible Disk)やHDDが含まれる。光ディスクには、CD(Compact Disc)やDVD(Digital Versatile Disc)が含まれる。
The
媒体リーダ106は、例えば、記録媒体113から読み取ったプログラムやデータを、RAM102やHDD103などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、CPU101によって実行される。なお、記録媒体113は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体113やHDD103を、コンピュータ読み取り可能な記録媒体と言うことがある。
The
通信インタフェース107は、ネットワーク114に接続され、ネットワーク114を介して他の装置と通信を行うインタフェースである。通信インタフェース107は、例えば、スイッチやルータなどの通信装置とケーブルで接続される。
The
次に、機械学習における予測性能およびハイパーパラメータについて説明する。
第2の実施の形態の機械学習では、既知の事例を示す複数の単位データ(インスタンスやレコードと言うことがある)を含むデータセットを予め用意しておく。機械学習装置100または他の装置が、センサデバイスなどの各種デバイスからネットワーク114経由でインスタンスを収集してもよい。データセットは「ビッグデータ」と言われるサイズの大きなデータセットであってもよい。各インスタンスは、1以上の説明変数の値と目的変数の値とを含む。説明変数および目的変数それぞれを属性と言うことがあり、説明変数の値および目的変数の値それぞれを属性値と言うことがある。
Next, the prediction performance and hyperparameters in machine learning will be described.
In the machine learning of the second embodiment, a data set including a plurality of unit data (sometimes referred to as an instance or a record) indicating a known case is prepared in advance. The
機械学習装置100は、データセットの中から一部のインスタンスを訓練データとしてサンプリングし、訓練データを用いてモデルを生成する。モデルは、説明変数と目的変数との間の関係を示し、1以上の係数を含む。モデルは、線形式、二次以上の多項式、指数関数、対数関数などの各種数式によって表されることがある。数式の形は、機械学習の前にユーザによって指定されてもよい。係数は、機械学習を通じて訓練データに基づいて決定される。生成されたモデルを用いることで、未知の事例の説明変数の値(要因)から、未知の事例の目的変数の値(結果)を予測することができる。モデルによって予測される結果は、0以上1以下の確率値などの連続値であってもよいし、YES/NOの2値などの離散値であってもよい。
The
生成されたモデルに対しては予測性能を算出することができる。予測性能は、未知の事例の結果を正確に予測する能力であり、精度と言うこともできる。機械学習装置100は、データセットの中から訓練データ以外のインスタンスをテストデータとしてサンプリングし、テストデータを用いて予測性能を算出する。テストデータのサイズは、例えば、訓練データのサイズの1/2程度とする。機械学習装置100は、テストデータに含まれる説明変数の値をモデルに入力し、モデルが出力する目的変数の値(予測値)とテストデータに含まれる目的変数の値(実績値)とを比較する。なお、生成したモデルの予測性能を検証することを「バリデーション」と言うことがある。
Prediction performance can be calculated for the generated model. Prediction performance is the ability to accurately predict the results of unknown cases, and can also be called accuracy. The
予測性能の指標として、正答率、適合率、F値、平均二乗誤差、平均二乗誤差平方根などが挙げられる。例えば、結果がYES/NOの2値で表されるとする。また、N件のテストデータの事例のうち、予測値=YESかつ実績値=YESの件数をTp、予測値=YESかつ実績値=NOの件数をFp、予測値=NOかつ実績値=YESの件数をFn、予測値=NOかつ実績値=NOの件数をTnとする。この場合、正答率は予測が当たった割合であり、(Tp+Tn)/Nと算出される。適合率は「YES」の予測を間違えない確率であり、Tp/(Tp+Fp)と算出される。F値は、(2×再現率×適合率)/(再現率+適合率)と算出される。再現率は、Tp/(Tp+Fn)と算出される。各事例の実績値をyと表し予測値をy^と表すと、平均二乗誤差はsum(y-y^)2/Nと算出され、平均二乗誤差平方根は(sum(y-y^)2/N)1/2と算出される。 Examples of the predictive performance index include the correct answer rate, the precision rate, the F value, the mean square error, and the square root of the mean square error. For example, assume that the result is represented by two values of YES / NO. Of the N test data cases, the number of cases where the predicted value = YES and the actual value = YES is Tp, the number of cases where the predicted value = YES and the actual value = NO is Fp, and the predicted value = NO and the actual value = YES. Let Fn be the number of cases, and let Tn be the number of cases where the predicted value = NO and the actual value = NO. In this case, the correct answer rate is the rate at which the prediction is correct, and is calculated as (Tp + Tn) / N. The precision rate is a probability that the prediction of "YES" is not mistaken, and is calculated as Tp / (Tp + Fp). The F value is calculated as (2 × recall rate × precision rate) / (recall rate + precision rate). The recall rate is calculated as Tp / (Tp + Fn). When the actual value of each case is expressed as y and the predicted value is expressed as y ^, the mean square error is calculated as sum (y−y ^) 2 / N, and the mean square error square root is (sum (y−y ^) 2 ). / N) Calculated as 1/2 .
機械学習装置100は、ハイパーパラメータθの値を変更することで機械学習の挙動を調整する。ハイパーパラメータθは、モデルに含まれる係数のように機械学習を通じて値が決定されるものではなく、モデル生成の開始前に値が指定されるものである。ハイパーパラメータθの値を変えると、生成されるモデルが変わり予測性能が変わる。第2の実施の形態では、ハイパーパラメータθは、カテゴリカルハイパーパラメータcと連続量ハイパーパラメータxの組である。すなわちθ=(c,x)である。
The
カテゴリカルハイパーパラメータは、大小関係を定義できない値をとるハイパーパラメータである。カテゴリカルハイパーパラメータについては、近い値を用いて生成されたモデルは近い予測性能をもつという仮定が成立しない。カテゴリカルハイパーパラメータの例として、機械学習アルゴリズムやランダムフォレストのクラス分類方法が挙げられる。カテゴリカルハイパーパラメータは、2以上のハイパーパラメータ要素を含むベクトルでもよい。ただし、以下では説明を簡単にするため、カテゴリカルハイパーパラメータは単一のハイパーパラメータ要素であるスカラであると想定する場合がある。 Categorical hyperparameters are hyperparameters that take values whose magnitude relationship cannot be defined. For categorical hyperparameters, the assumption that models generated with close values have close predictive performance does not hold. Examples of categorical hyperparameters include machine learning algorithms and random forest classification methods. The categorical hyperparameter may be a vector containing two or more hyperparameter elements. However, for the sake of simplicity, we may assume that the categorical hyperparameters are scalars, which are single hyperparameter elements.
連続量ハイパーパラメータは、カテゴリカルハイパーパラメータ以外のハイパーパラメータであり、大小関係を定義できる値をとるハイパーパラメータである。連続量ハイパーパラメータは、好ましくは、異なる値の間の距離を定義できるハイパーパラメータである。連続量ハイパーパラメータについては、近い値を用いて生成されたモデルは近い予測性能をもつという仮定が成立する。連続量ハイパーパラメータの値は、実数のような連続値でもよいし整数のような離散値でもよい。連続量ハイパーパラメータの例として、RBFカーネルSVMの変数「C」と「γ」やランダムフォレストの木の深さが挙げられる。連続量ハイパーパラメータは、2以上のハイパーパラメータ要素を含むベクトルでもよい。ただし、以下では説明を簡単にするため、連続量ハイパーパラメータは単一のハイパーパラメータ要素であるスカラであると想定する場合がある。 The continuous quantity hyperparameter is a hyperparameter other than the categorical hyperparameter, and is a hyperparameter that takes a value that can define a magnitude relationship. A continuous quantity hyperparameter is preferably a hyperparameter that can define the distance between different values. For continuous quantity hyperparameters, the assumption holds that models generated with close values have close predictive performance. The value of the continuous quantity hyperparameter may be a continuous value such as a real number or a discrete value such as an integer. Examples of continuous quantity hyperparameters include the variables "C" and "γ" of the RBF kernel SVM and the depth of the tree in the random forest. The continuous quantity hyperparameter may be a vector containing two or more hyperparameter elements. However, in the following, for the sake of simplicity, it may be assumed that the continuous quantity hyperparameter is a scalar which is a single hyperparameter element.
上記のように、カテゴリカルハイパーパラメータでは機械学習アルゴリズムを指定することができる。機械学習装置100が実行可能な機械学習アルゴリズムの例として、ロジスティック回帰分析、SVM、ランダムフォレストなどが挙げられる。
As mentioned above, machine learning algorithms can be specified by categorical hyperparameters. Examples of machine learning algorithms that can be executed by the
ロジスティック回帰分析は、目的変数yの値と説明変数x1,x2,…,xkの値をS字曲線にフィッティングする回帰分析である。目的変数yおよび説明変数x1,x2,…,xkは、log(y/(1-y))=a1x1+a2x2+…+akxk+bの関係を満たすと仮定される。a1,a2,…,ak,bは係数であり、回帰分析によって決定される。 Logistic regression analysis is a regression analysis that fits the value of the objective variable y and the values of the explanatory variables x 1 , x 2 , ..., X k to an S-shaped curve. It is assumed that the objective variable y and the explanatory variables x 1 , x 2 , ..., X k satisfy the relationship of log (y / (1-y)) = a 1 x 1 + a 2 x 2 + ... + a k x k + b. Will be done. a 1 , a 2 , ..., Ak, b are coefficients , which are determined by regression analysis.
サポートベクタマシンは、N次元空間に配置されたインスタンスの集合を、2つのクラスに最も明確に分割するような境界面を算出する機械学習アルゴリズムである。境界面は、各クラスとの距離(マージン)が最大になるように算出される。 A support vector machine is a machine learning algorithm that calculates a boundary surface that most clearly divides a set of instances arranged in N-dimensional space into two classes. The boundary surface is calculated so that the distance (margin) from each class is maximized.
ランダムフォレストは、複数のインスタンスを適切に分類するためのモデルを生成する機械学習アルゴリズムである。ランダムフォレストでは、データセットからインスタンスをランダムにサンプリングする。説明変数の一部をランダムに選択し、選択した説明変数の値に応じてサンプリングしたインスタンスを分類する。説明変数の選択とインスタンスの分類を繰り返すことで、複数の説明変数の値に基づく階層的な決定木を生成する。インスタンスのサンプリングと決定木の生成を繰り返すことで複数の決定木を取得し、複数の決定木を合成することでインスタンスを分類するための最終的なモデルを生成する。 Random forest is a machine learning algorithm that creates a model for properly classifying multiple instances. Random forest randomly samples instances from a dataset. Randomly select some of the explanatory variables and classify the sampled instances according to the value of the selected explanatory variable. By repeating the selection of explanatory variables and the classification of instances, a hierarchical decision tree based on the values of multiple explanatory variables is generated. Multiple decision trees are obtained by repeating instance sampling and decision tree generation, and the final model for classifying instances is generated by synthesizing multiple decision trees.
次に、ハイパーパラメータの調整による予測性能の変化について説明する。
図3は、ハイパーパラメータと予測性能との関係例を示すグラフである。
曲線21aは、カテゴリカルハイパーパラメータ値をc1に固定してデータセットD1に対して機械学習を行ったときにおける、連続量ハイパーパラメータ値と予測性能との間の関係を示している。カテゴリカルハイパーパラメータ値とデータセットが同一でも、連続量ハイパーパラメータ値を変えると予測性能が変わる。ただし、曲線21aは連続的曲線であり、近い連続量ハイパーパラメータ値からは近い予測性能が得られる。
Next, changes in prediction performance due to hyperparameter adjustment will be described.
FIG. 3 is a graph showing an example of the relationship between hyperparameters and prediction performance.
The
曲線21bは、カテゴリカルハイパーパラメータ値をc2に固定してデータセットD1に対して機械学習を行ったときにおける、連続量ハイパーパラメータ値と予測性能との間の関係を示している。曲線21aと曲線21bとは、データセットが同一であるもののカテゴリカルハイパーパラメータ値が異なる。データセットと連続量ハイパーパラメータ値が同一でも、カテゴリカルハイパーパラメータ値を変えると予測性能が変わる。ただし、曲線21aと曲線21bとは類似した予測性能の分布を示している。
The
曲線21cは、カテゴリカルハイパーパラメータ値をc1に固定してデータセットD2に対して機械学習を行ったときにおける、連続量ハイパーパラメータ値と予測性能との間の関係を示している。曲線21aと曲線21cとは、カテゴリカルハイパーパラメータ値が同一であるもののデータセットが異なる。カテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値が同一でも、データセットを変えると予測性能が変わる。曲線21aと曲線21cとは類似しない予測性能の分布を示している。
The
曲線21dは、カテゴリカルハイパーパラメータ値をc2に固定してデータセットD2に対して機械学習を行ったときにおける、連続量ハイパーパラメータ値と予測性能との間の関係を示している。曲線21bと曲線21dとは、カテゴリカルハイパーパラメータ値が同一であるもののデータセットが異なる。曲線21bと曲線21dとは類似しない予測性能の分布を示している。一方で、曲線21cと曲線21dとは、データセットが同一であるもののカテゴリカルハイパーパラメータ値が異なる。曲線21cと曲線21dとは類似した予測性能の分布を示している。
The
このように、生成されるモデルの予測性能は、カテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値とデータセットの影響を受ける。あるデータセットからモデルを生成するとき、予測性能が最大になるカテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値の組を予め特定することは難しい。そこで、機械学習装置100は、同一のデータセットに対して機械学習を繰り返して、最適なカテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値の組を探索する。探索では、可能な組み合わせを網羅的に試行するのではなく、予測性能が高くなる可能性がある組み合わせに絞って機械学習を試行することが好ましい。よって、最適なカテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値の組を探索する方法が問題となる。
Thus, the predictive performance of the generated model is affected by the categorical hyperparameter values, the continuous quantity hyperparameter values and the dataset. When generating a model from a certain data set, it is difficult to specify in advance the pair of categorical hyperparameter values and continuous quantity hyperparameter values that maximize the prediction performance. Therefore, the
あるカテゴリカルハイパーパラメータ値について幾つかの連続量ハイパーパラメータ値を試行した場合、算出された予測性能を用いて、回帰分析などにより他の連続量ハイパーパラメータ値の予測性能を推定することは可能である。これは、近い値からは近い予測性能が得られるという連続量ハイパーパラメータの性質を利用したものである。例えば、カテゴリカルハイパーパラメータ値c1について幾つかの異なる連続量ハイパーパラメータ値を試行した場合、その試行結果から曲線21aを推定することができる。
When several continuous-quantity hyperparameter values are tried for a certain categorical hyperparameter value, it is possible to estimate the prediction performance of other continuous-quantity hyperparameter values by regression analysis etc. using the calculated prediction performance. be. This utilizes the property of continuous quantity hyperparameters that close prediction performance can be obtained from close values. For example, when several different continuous quantity hyperparameter values are tried for the categorical hyperparameter value c 1 , the
一方で、あるカテゴリカルハイパーパラメータ値について予測性能の分布を推定するときに、他のカテゴリカルハイパーパラメータ値の試行結果をそのまま利用することは難しい。カテゴリカルハイパーパラメータ値が異なると予測性能が変わるためである。例えば、カテゴリカルハイパーパラメータ値c1の曲線21aを推定するときに、カテゴリカルハイパーパラメータ値c2で算出された予測性能をそのまま利用することは難しい。
On the other hand, when estimating the distribution of prediction performance for a certain categorical hyperparameter value, it is difficult to use the trial result of another categorical hyperparameter value as it is. This is because the prediction performance changes when the categorical hyperparameter values are different. For example, when estimating the
ただし、特定の2つのカテゴリカルハイパーパラメータ値の間では、データセットが変わっても予測性能差が概ね一定範囲に収まることがある。図3の例では、カテゴリカルパラメータ値c1,c2それぞれの予測性能の分布自体は、データセットが変わると大きく変化する。その一方で、カテゴリカルパラメータ値c1の予測性能とカテゴリカルハイパーパラメータ値c2の予測性能の差は、データセットに関係なく十分小さい。予測性能の分布が近似するカテゴリカルパラメータ値の例としては、ランダムフォレストで使用する「ジニ係数」と「エントロピー」というクラス分類方法が挙げられる。 However, the prediction performance difference between two specific categorical hyperparameter values may be within a generally constant range even if the data set changes. In the example of FIG. 3, the distribution itself of the prediction performance of each of the categorical parameter values c 1 and c 2 changes greatly when the data set changes. On the other hand, the difference between the prediction performance of the categorical parameter value c 1 and the prediction performance of the categorical hyperparameter value c 2 is sufficiently small regardless of the data set. Examples of categorical parameter values that approximate the distribution of predictive performance include the "Gini coefficient" and "entropy" classification methods used in random forests.
そこで、機械学習装置100は、過去の機械学習の履歴から、2つのカテゴリカルハイパーパラメータ値の間の予測性能差の傾向を分析しておく。そして、機械学習装置100は、この分析結果を利用して、あるカテゴリカルハイパーパラメータ値の予測性能から別のカテゴリカルハイパーパラメータ値の予測性能を推定する。
Therefore, the
図4は、予測性能差の期待値および標準偏差の例を示すグラフである。
曲線22aは、カテゴリカルハイパーパラメータ値c1の予測性能とカテゴリカルハイパーパラメータ値c2の予測性能の差の期待値(平均値)を示している。曲線22bは、カテゴリカルハイパーパラメータ値c1の予測性能とカテゴリカルハイパーパラメータ値c2の予測性能の差の標準偏差(分散度)を示している。予測性能差の期待値および標準偏差は、連続量ハイパーパラメータ値それぞれに対して算出される。ただし、連続量ハイパーパラメータ値に対する期待値および標準偏差の変化が小さい場合、連続量ハイパーパラメータ値に関係なく代表して1つの期待値および標準偏差を算出してもよい。
FIG. 4 is a graph showing an example of the expected value and standard deviation of the predicted performance difference.
The
機械学習装置100は、複数のデータセットそれぞれについて、カテゴリカルハイパーパラメータ値c1の予測性能とカテゴリカルハイパーパラメータ値c2の予測性能との差を算出する。機械学習装置100は、複数のデータセットの間で予測性能差の平均値を算出することで曲線22aを求める。また、機械学習装置100は、複数のデータセットの間で予測性能差の標準偏差を算出することで曲線22bを求める。なお、使用するデータセットによってモデルの予測性能の変動範囲は異なる。このため、予測性能差の期待値と標準偏差を算出するにあたっては、機械学習装置100は、データセット毎の予測性能の変動範囲(例えば、最大値と最小値)に基づいて予測性能を正規化しておく。
The
予測性能差の期待値および標準偏差を複数の連続量ハイパーパラメータ値それぞれに対して算出しておく場合、機械学習装置100は、例えば、グリッド法またはランダム法によって複数の連続量ハイパーパラメータ値を選択する。グリッド法は、連続量ハイパーパラメータの空間の中から一定間隔毎に値を選択する方法である。ランダム法は、連続量ハイパーパラメータの空間の中からランダムに値を選択する方法である。ただし、機械学習装置100は、グリッド法を採用することが好ましい。
When the expected value and standard deviation of the predicted performance difference are calculated for each of a plurality of continuous quantity hyperparameter values, the
次に、予測性能差の情報を利用したハイパーパラメータ探索について説明する。
図5は、ハイパーパラメータ探索の進行例を示す図である。
一例として、機械学習装置100は、カテゴリカルハイパーパラメータ値c1と連続量ハイパーパラメータ値x1の組を用いて機械学習を行い、予測性能23aを算出する。予測性能23aは測定値であるため、不確かさを示す分散(エラーバー)をもたない。また、機械学習装置100は、カテゴリカルハイパーパラメータ値c2と連続量ハイパーパラメータ値x2の組を用いて機械学習を行い、予測性能23bを算出する。予測性能23bは測定値であるため、不確かさを示す分散をもたない。
Next, the hyperparameter search using the information of the predicted performance difference will be described.
FIG. 5 is a diagram showing an example of progress of hyperparameter search.
As an example, the
次に、機械学習装置100は、予測性能23bと予測性能差情報を用いて、カテゴリカルハイパーパラメータ値c1と連続量ハイパーパラメータ値x2の組の予測性能23cを推定する。予測性能23cは推定値であるため、不確かさを示す分散をもつ。予測性能23cの期待値は、連続量ハイパーパラメータx2におけるカテゴリカルハイパーパラメータ値c1から見た予測性能差を、予測性能23bに加えたものである。予測性能23cの標準偏差は、連続量ハイパーパラメータx2における予測性能差の標準偏差である。
Next, the
すると、機械学習装置100は、予測性能23a,23cを用いて、回帰分析手法などによりカテゴリカルハイパーパラメータ値c1の予測性能曲線を推定する。このとき、機械学習装置100は、推定の不確かさに起因して予測性能が高くなる連続ハイパーパラメータ値を見逃してしまうリスクを下げるため、予測性能曲線の示す推定値がばらつく確率も算出しておく。例えば、機械学習装置100は、回帰分析手法などにより予測性能曲線に対して95%信頼区間を算出しておく。95%信頼区間を算出するにあたっては、推定された予測性能である予測性能23cの不確かさも考慮される。
Then, the
また、機械学習装置100は、予測性能23aと予測性能差情報を用いて、カテゴリカルハイパーパラメータ値c2と連続量ハイパーパラメータ値x1の組の予測性能23dを推定する。予測性能23dは推定値であるため、不確かさを示す分散をもつ。予測性能23dの期待値は、連続量ハイパーパラメータx1におけるカテゴリカルハイパーパラメータ値c2から見た予測性能差を、予測性能23aに加えたものである。予測性能23dの標準偏差は、連続量ハイパーパラメータx1における予測性能差の標準偏差である。
Further, the
すると、機械学習装置100は、予測性能23b,23dを用いて、回帰分析手法などによりカテゴリカルハイパーパラメータ値c2の予測性能曲線を推定する。このとき、機械学習装置100は、予測性能曲線の示す推定値がばらつく確率も算出しておく。
Then, the
機械学習装置100は、カテゴリカルハイパーパラメータ値c1の予測性能曲線とカテゴリカルハイパーパラメータ値c2の予測性能曲線に基づいて、予測性能が高い可能性があるカテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値の組を選択する。例えば、機械学習装置100は、算出した95%信頼区間の上限値(UCB:Upper Confidence Bound)が最も高いカテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値の組を選択する。ここでは、機械学習装置100は、カテゴリカルハイパーパラメータ値c2と連続量ハイパーパラメータ値x3の組を選択する。
The
次に、機械学習装置100は、選択したカテゴリカルハイパーパラメータ値c2と連続量ハイパーパラメータ値x3の組を用いて機械学習を行い、予測性能23eを算出する。予測性能23eは測定値であるため、不確かさを示す分散をもたない。すると、機械学習装置100は、予測性能23b,23d,23eを用いて、回帰分析手法などによりカテゴリカルハイパーパラメータ値c2の予測性能曲線を更新する。
Next, the
図6は、ハイパーパラメータ探索の進行例を示す図(続き)である。
機械学習装置100は、前述の予測性能23eと予測性能差情報を用いて、カテゴリカルハイパーパラメータ値c1と連続量ハイパーパラメータ値x3の組の予測性能23fを推定する。予測性能23fは推定値であるため、不確かさを示す分散をもつ。予測性能23fの期待値は、連続量ハイパーパラメータx3におけるカテゴリカルハイパーパラメータ値c1から見た予測性能差を、予測性能23eに加えたものである。予測性能23fの標準偏差は、連続量ハイパーパラメータx3における予測性能差の標準偏差である。機械学習装置100は、予測性能23a,23c,23fを用いて、回帰分析手法などによりカテゴリカルハイパーパラメータ値c1の予測性能曲線を更新する。
FIG. 6 is a diagram (continued) showing an example of progress of hyperparameter search.
The
次に、機械学習装置100は、カテゴリカルハイパーパラメータ値c1の予測性能曲線とカテゴリカルハイパーパラメータ値c2の予測性能曲線に基づいて、予測性能が高い可能性があるカテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値の組を選択する。ここでは、機械学習装置100は、カテゴリカルハイパーパラメータ値c1と連続量ハイパーパラメータ値x4の組を選択する。
Next, the
機械学習装置100は、選択したカテゴリカルハイパーパラメータ値c1と連続量ハイパーパラメータ値x4の組を用いて機械学習を行い、予測性能23gを算出する。予測性能23gは測定値であるため、不確かさを示す分散をもたない。機械学習装置100は、予測性能23a,23c,23f,23gを用いて、回帰分析手法などによりカテゴリカルハイパーパラメータ値c1の予測性能曲線を更新する。
The
次に、機械学習装置100は、予測性能23gと予測性能差情報を用いて、カテゴリカルハイパーパラメータ値c2と連続量ハイパーパラメータ値x4の組の予測性能23hを推定する。予測性能23hは推定値であるため、不確かさを示す分散をもつ。予測性能23hの期待値は、連続量ハイパーパラメータx4におけるカテゴリカルハイパーパラメータ値c2から見た予測性能差を、予測性能23gに加えたものである。予測性能23hの標準偏差は、連続量ハイパーパラメータx4における予測性能差の標準偏差である。機械学習装置100は、予測性能23b,23d,23e,23hを用いて、回帰分析手法などによりカテゴリカルハイパーパラメータ値c2の予測性能曲線を更新する。
Next, the
このように、1回のモデル生成および予測性能の測定によって、カテゴリカルハイパーパラメータ値c1の予測性能曲線とカテゴリカルハイパーパラメータ値c2の予測性能曲線の両方が更新される。これを繰り返すことで予測性能の推定精度が向上し、予測性能が最大になるハイパーパラメータ値に近づくことができる。 In this way, both the prediction performance curve of the categorical hyperparameter value c 1 and the prediction performance curve of the categorical hyperparameter value c 2 are updated by one model generation and measurement of the prediction performance. By repeating this, the estimation accuracy of the prediction performance is improved, and it is possible to approach the hyperparameter value that maximizes the prediction performance.
図7は、共有度と推定予測性能との関係例を示す図である。
ここでは、カテゴリカルハイパーパラメータ値c2の試行結果に基づいてカテゴリカルハイパーパラメータ値c1の予測性能曲線が更新されることに着目する。カテゴリカルハイパーパラメータ値c1の予測性能曲線の95%信頼区間の広さは、カテゴリカルハイパーパラメータ値c1,c2の間の共有度(予測性能の類似度)に依存する。共有度は、予測性能差の標準偏差に反比例していると言える。
FIG. 7 is a diagram showing an example of the relationship between the degree of sharing and the estimated prediction performance.
Here, it is noted that the prediction performance curve of the categorical hyperparameter value c 1 is updated based on the trial result of the categorical hyperparameter value c 2 . The width of the 95% confidence interval of the prediction performance curve of the categorical hyperparameter values c 1 depends on the degree of sharing (similarity of prediction performance) between the categorical hyperparameter values c 1 and c 2 . It can be said that the degree of sharing is inversely proportional to the standard deviation of the predicted performance difference.
共有度が強い(類似度が高い)とき、連続量ハイパーパラメータ値x3に対して予測性能24aが推定され、連続量ハイパーパラメータ値x2に対して予測性能24bが推定される。予測性能24a,24bの分散は比較的狭い。一方、共有度が弱い(類似度が低い)とき、連続量ハイパーパラメータ値x3に対して予測性能24cが推定され、連続量ハイパーパラメータ値x2に対して予測性能24dが推定される。予測性能24c,24dの分散は予測性能24a,24bと比べて広い。
When the degree of sharing is strong (high similarity), the
よって、共有度が強いときは予測性能曲線の推定の不確かさが小さいとみなされる。一方、共有度が弱いときは予測性能曲線の推定の不確かさが大きいとみなされ、予測性能が予想外に高くなる可能性が表現される。このように、予測性能差の標準偏差に応じて、カテゴリカルハイパーパラメータ値c1,c2の間で機械学習の試行結果を共有して予測性能曲線を連動させる強度が自動的に調整されることになる。 Therefore, when the degree of sharing is strong, the uncertainty of estimation of the prediction performance curve is considered to be small. On the other hand, when the degree of sharing is weak, the uncertainty of estimation of the prediction performance curve is considered to be large, and the possibility that the prediction performance becomes unexpectedly high is expressed. In this way, the strength of sharing the machine learning trial results between the categorical hyperparameter values c 1 and c 2 and linking the prediction performance curves is automatically adjusted according to the standard deviation of the prediction performance difference. It will be.
なお、カテゴリカルハイパーパラメータ値c1,c2の間で機械学習の試行結果を単純に共有する方法も考えられる。この方法では、カテゴリカルハイパーパラメータ値の違いによる予測性能の変化を無視することになり、推定された予測性能の分散が考慮されない。単純共有では、連続量ハイパーパラメータ値x3に対して予測性能24eが推定され、連続量ハイパーパラメータ値x2に対して予測性能24fが推定される。予測性能24e,24fの分散は0であるとみなされる。よって、単純共有では予測性能曲線の推定の不確かさが過小評価されてしまい、予測性能が予想外に高くなる可能性が表現されない。
A method of simply sharing the machine learning trial results between the categorical hyperparameter values c 1 and c 2 is also conceivable. In this method, the change in the prediction performance due to the difference in the categorical hyperparameter values is ignored, and the variance of the estimated prediction performance is not taken into consideration. In simple sharing, the
また、カテゴリカルハイパーパラメータ値c1,c2の間で機械学習の試行結果を共有しない方法も考えられる。この方法では、異なるカテゴリカルハイパーパラメータ値の間では予測性能に全く関連性がないと仮定することになり、他のカテゴリカルハイパーパラメータ値の試行によって得られた情報が利用されない。無共有では、連続量ハイパーパラメータ値x2,x3に対して何ら情報がないとみなして予測性能曲線が推定される。よって、無共有では予測性能曲線の推定の不確かさが過大評価されてしまい、予測性能がばらつく可能性を早期に絞り込むことが難しい。 It is also conceivable that the machine learning trial results are not shared between the categorical hyperparameter values c 1 and c 2 . In this method, it is assumed that there is no relation in prediction performance between different categorical hyperparameter values, and the information obtained by trials of other categorical hyperparameter values is not utilized. With no sharing , the prediction performance curve is estimated assuming that there is no information for the continuous quantity hyperparameter values x2 and x3 . Therefore, without sharing, the uncertainty of estimation of the prediction performance curve is overestimated, and it is difficult to narrow down the possibility of variation in prediction performance at an early stage.
次に、機械学習装置100の処理について説明する。
図8は、機械学習装置の機能例を示すブロック図である。
機械学習装置100は、サンプル履歴記憶部121、統計情報記憶部122、データセット記憶部123および学習結果記憶部124を有する。また、機械学習装置100は、サンプル履歴分析部131、制限時間入力部132、学習制御部133、学習実行部134および予測性能推定部135を有する。サンプル履歴記憶部121、統計情報記憶部122、データセット記憶部123および学習結果記憶部124は、例えば、RAM102またはHDD103の記憶領域を用いて実装される。サンプル履歴分析部131、制限時間入力部132、学習制御部133、学習実行部134および予測性能推定部135は、例えば、CPU101が実行するプログラムを用いて実装される。
Next, the processing of the
FIG. 8 is a block diagram showing a functional example of the machine learning device.
The
サンプル履歴記憶部121は、過去に様々なデータセットに対して実行された機械学習の結果を示すサンプル履歴を記憶する。サンプル履歴を生成するための機械学習は、機械学習装置100によって実行されてもよいし他の装置によって実行されてもよい。サンプル履歴は、ユーザからの要求に応じて実行された運用上の機械学習で生成されたものでもよいし、サンプル履歴生成のために実行された試験的な機械学習で生成されたものでもよい。ただし、ハイパーパラメータ値の網羅性の観点から、試験的な機械学習によってサンプル履歴を生成しておくことが好ましい。サンプル履歴は、1回のモデル生成毎にデータセットIDとハイパーパラメータ値と予測性能と実行時間とを含む。
The sample
統計情報記憶部122は、サンプル履歴から生成された統計情報を記憶する。統計情報は、2つのカテゴリカルハイパーパラメータ値と1つの連続量ハイパーパラメータ値の組み合わせ毎に、予測性能差の期待値と予測性能差の標準偏差とを含む。また、統計情報は、2つのカテゴリカルハイパーパラメータ値と1つの連続量ハイパーパラメータ値の組み合わせ毎に、実行時間差の期待値と実行時間差の標準偏差とを含む。実行時間差は、前述の予測性能差と同様の考え方に基づいて算出されるものである。ただし、後述するように第2の実施の形態では、機械学習の制御に実行時間は参照されないため、統計情報は実行時間差の期待値と実行時間差の標準偏差とを含まなくてもよい。
The statistical
データセット記憶部123は、今回の機械学習に用いるデータセット(インスタンスの集合)を記憶する。データセット記憶部123に記憶されるデータセットは、サンプル履歴を生成するために過去に使用されたデータセットとは異なる。
The data
学習結果記憶部124は、データセット記憶部123に記憶されたデータセットに対する機械学習の学習結果を記憶する。学習結果は、予測性能が最も高かったモデルと、そのモデルの生成に使用したハイパーパラメータ値と、そのモデルの予測性能とを含む。
The learning
サンプル履歴分析部131は、サンプル履歴記憶部121に記憶されたサンプル履歴を分析し、統計情報を生成して統計情報記憶部122に保存する。サンプル履歴分析部131は、ユーザからの要求に応じて統計情報を生成してもよいし、一定時間毎に統計情報を生成するなど継続的に統計情報を更新してもよい。
The sample
サンプル履歴分析部131は、2つのカテゴリカルハイパーパラメータ値と1つの連続量ハイパーパラメータ値の組み合わせ毎に、各データセットにおける予測性能差を算出し、複数のデータセットの間でその期待値と標準偏差とを算出する。また、サンプル履歴分析部131は、2つのカテゴリカルハイパーパラメータ値と1つの連続量ハイパーパラメータ値の組み合わせ毎に、各データセットにおける実行時間差を算出し、複数のデータセットの間でその期待値と標準偏差とを算出する。ただし、第2の実施の形態ではサンプル履歴分析部131は、実行時間差については算出しなくてもよい。
The sample
制限時間入力部132は、データセット記憶部123に記憶されたデータセットに対する機械学習を開始してからの経過時間の閾値として、制限時間を学習制御部133に対して入力する。制限時間の範囲内で、できる限り予測性能の高いモデルが生成されることになる。ハイパーパラメータ探索の性質上、制限時間が長い方がモデルの予測性能が高くなることが多い。制限時間は、例えば、今回のデータセットに対する機械学習の開始前に、ユーザによって入力デバイス112から入力される。
The time
学習制御部133は、今回のデータセットに対する機械学習を制御する。学習制御部133は、ハイパーパラメータ値、すなわち、カテゴリカルハイパーパラメータ値と連続量ハイパーパラメータ値の組を1つ選択し、選択したハイパーパラメータ値を学習実行部134に通知して機械学習を実行させる。学習制御部133は、当該ハイパーパラメータ値を使用した機械学習が終了すると、他のハイパーパラメータ値を使用した場合の予測性能を予測性能推定部135に推定させる。学習制御部133は、現在までに達成された最大の予測性能(達成予測性能)を超える予測性能が得られる可能性のある他のハイパーパラメータ値を次に選択する。学習制御部133は、以上の処理を経過時間が制限時間に到達するまで繰り返し、学習結果を学習結果記憶部124に保存する。
The
学習実行部134は、学習制御部133から指定されたハイパーパラメータ値を使用した機械学習を実行する。学習実行部134が使用する機械学習アルゴリズムは、カテゴリカルハイパーパラメータ値の中で指定されることがある。機械学習アルゴリズムが指定されなかった場合、学習実行部134は所定の機械学習アルゴリズムを使用してもよい。
The learning
学習実行部134は、データセット記憶部123に記憶されたデータセットの中から一部のインスタンスを訓練データとして抽出し、他の一部のインスタンスをテストデータとして抽出する。学習実行部134は、抽出した訓練データと指定されたハイパーパラメータ値を用いて機械学習を実行してモデルを生成する。学習実行部134は、生成したモデルと抽出したテストデータを用いてバリデーションを行い、モデルの予測性能を測定する。また、学習実行部134は、指定されたハイパーパラメータ値を用いた機械学習を開始してから終了するまでの実行時間を測定する。学習実行部134は、生成したモデルと測定した予測性能と測定した実行時間とを学習制御部133に出力する。ただし、第2の実施の形態では学習実行部134は、実行時間を測定しなくてもよい。
The learning
予測性能推定部135は、今回のデータセットに対するハイパーパラメータ探索の履歴(探索履歴)に基づいて、カテゴリカルハイパーパラメータ値毎に予測性能曲線を推定し、カテゴリカルハイパーパラメータ値毎に予測性能改善量を算出する。予測性能改善量は、予測性能の推定値と現在の達成予測性能との差であり、次に特定のハイパーパラメータ値を選択した場合に期待される達成予測性能の上昇の程度を示す指標である。予測性能推定部135は、算出した予測性能改善量を学習制御部133に通知する。学習制御部133では、予測性能改善量が最大になるハイパーパラメータ値が次に選択される。なお、第2の実施の形態では予測性能改善量がハイパーパラメータ探索の指標として使用されるため、予測性能推定部135では実行時間に関する計算は行われない。
The prediction
図9は、サンプル履歴テーブルの例を示す図である。
サンプル履歴テーブル141は、サンプル履歴記憶部121に記憶される。サンプル履歴テーブル141は、複数回のモデル生成の履歴を示す。サンプル履歴テーブル141は、データセットID、カテゴリカルハイパーパラメータ値(カテゴリカルHP値)、連続量ハイパーパラメータ値(連続量HP値)、予測性能および実行時間の項目を有する。
FIG. 9 is a diagram showing an example of a sample history table.
The sample history table 141 is stored in the sample
データセットIDの項目には、モデル生成に使用したデータセットの識別子が登録される。カテゴリカルハイパーパラメータ値の項目には、モデル生成に使用したカテゴリカルハイパーパラメータ値が登録される。連続量ハイパーパラメータ値の項目には、モデル生成に使用した連続量ハイパーパラメータ値が登録される。予測性能の項目には、測定された予測性能が登録される。実行時間の項目には、モデル生成に要した時間が登録される。 In the data set ID item, the identifier of the data set used for model generation is registered. In the item of categorical hyperparameter value, the categorical hyperparameter value used for model generation is registered. In the item of continuous quantity hyperparameter value, the continuous quantity hyperparameter value used for model generation is registered. The measured prediction performance is registered in the prediction performance item. The time required to generate the model is registered in the execution time item.
サンプル履歴テーブル141は、カテゴリカルハイパーパラメータ値および連続量ハイパーパラメータ値が同一でデータセットが異なる複数のレコードを含む。また、サンプル履歴テーブル141は、データセットIDおよび連続量ハイパーパラメータ値が同一でカテゴリカルハイパーパラメータ値が異なる複数のレコードを含む。また、サンプル履歴テーブル141は、データセットIDおよびカテゴリカルハイパーパラメータ値が同一で連続量ハイパーパラメータ値が異なる複数のレコードを含む。 The sample history table 141 includes a plurality of records having the same categorical hyperparameter value and continuous quantity hyperparameter value but different data sets. Further, the sample history table 141 includes a plurality of records having the same data set ID and continuous quantity hyperparameter values but different categorical hyperparameter values. Further, the sample history table 141 includes a plurality of records having the same data set ID and categorical hyperparameter values but different continuous quantity hyperparameter values.
予測性能推定部135は、今回のデータセットに対する探索履歴としてサンプル履歴テーブル141と同様のテーブルを保持する。ただし、探索履歴はデータセットIDを含まなくてよい。よって、探索履歴は、カテゴリカルハイパーパラメータ値、連続量ハイパーパラメータ値、予測性能および実行時間をそれぞれ含む1以上のレコードを有する。なお、第2の実施の形態では探索履歴は実行時間を含まなくてもよい。
The prediction
図10は、統計テーブルの例を示す図である。
統計テーブル142は、統計情報記憶部122に記憶される。統計テーブル142は、カテゴリカルハイパーパラメータ値、連続量ハイパーパラメータ値、予測性能期待値、予測性能標準偏差、実行時間期待値および実行時間標準偏差の項目を有する。
FIG. 10 is a diagram showing an example of a statistical table.
The statistical table 142 is stored in the statistical
カテゴリカルハイパーパラメータ値の項目には、異なる2つのカテゴリカルハイパーパラメータ値の組(ci,cj)が登録される。ここでは、2つの値の順序も区別される。よって、(c1,c2)と(c2,c1)は別の組として認識される。連続量ハイパーパラメータ値の項目には、1つの連続量ハイパーパラメータ値が登録される。 Two different sets of categorical hyperparameter values ( ci , c j ) are registered in the item of categorical hyperparameter values. Here, the order of the two values is also distinguished. Therefore, (c 1 , c 2 ) and (c 2 , c 1 ) are recognized as different sets. One continuous quantity hyperparameter value is registered in the item of continuous quantity hyperparameter value.
予測性能期待値の項目には、カテゴリカルハイパーパラメータ値ciから見たカテゴリカルハイパーパラメータ値cjとの間の予測性能差の期待値(平均値)が登録される。(ci,cj)の予測性能差は、カテゴリカルハイパーパラメータ値ciの予測性能からカテゴリカルハイパーパラメータ値cjの予測性能を引いたものに相当する。ただし、前述のように予測性能差は正規化されている。予測性能標準偏差の項目には、カテゴリカルハイパーパラメータ値ci,cjの間の予測性能差の標準偏差が登録される。ただし、予測性能差のばらつきを示す指標として分散などの他の指標を用いることもできる。 In the item of predicted performance expected value, the expected value (average value) of the predicted performance difference between the categorical hyperparameter value c i and the categorical hyperparameter value c j is registered. The difference in prediction performance of (c i , c j ) corresponds to the prediction performance of the categorical hyperparameter value c i minus the prediction performance of the categorical hyperparameter value c j . However, as described above, the predicted performance difference is normalized. In the item of predicted performance standard deviation, the standard deviation of the predicted performance difference between the categorical hyperparameter values c i and c j is registered. However, other indexes such as variance can also be used as an index showing the variation in the predicted performance difference.
実行時間期待値の項目には、カテゴリカルハイパーパラメータ値ciから見たカテゴリカルハイパーパラメータ値cjとの間の実行時間差の期待値(平均値)が登録される。(ci,cj)の実行時間差は、カテゴリカルハイパーパラメータ値ciの実行時間からカテゴリカルハイパーパラメータ値cjの実行時間を引いたものに相当する。ただし、実行時間差は正規化されている。実行時間標準偏差の項目には、カテゴリカルハイパーパラメータ値ci,cjの間の実行時間差の標準偏差が登録される。ただし、実行時間差のばらつきを示す指標として分散などの他の指標を用いることもできる。 In the item of expected execution time, the expected value (mean value) of the execution time difference between the categorical hyperparameter value c i and the categorical hyperparameter value c j is registered. The execution time difference of (c i , c j ) corresponds to the execution time of the categorical hyperparameter value c i minus the execution time of the categorical hyperparameter value c j . However, the execution time difference is normalized. In the item of execution time standard deviation, the standard deviation of the execution time difference between the categorical hyperparameter values c i and c j is registered. However, other indicators such as variance can also be used as an indicator of variation in execution time difference.
図11は、統計情報生成の手順例を示すフローチャートである。
(S10)サンプル履歴分析部131は、サンプル履歴テーブル141の中から1つのデータセットID(データセットDdのデータセットID)を選択し、選択したデータセットIDを含むレコードをサンプル履歴テーブル141から抽出する。
FIG. 11 is a flowchart showing an example of a procedure for generating statistical information.
(S10) The sample
(S11)サンプル履歴分析部131は、ステップS10で抽出したレコードから予測性能の最大値pmax=maxc,x(f(x;Dd,c))と予測性能の最小値pmin=minc,x(f(x;Dd,c))を検索する。f(x;D,c)は、カテゴリカルハイパーパラメータcと連続量ハイパーパラメータxとデータセットDから特定される予測性能を表す。サンプル履歴分析部131は、検索した最大値pmaxと最小値pminに基づいて、予測性能の正規化関数hp()を決定する。例えば、hp(f(x;Dd,c))=(f(x;Dd,c)-pmin)/(pmax-pmin)と決定する。なお、正規化関数を、予測性能の平均と標準偏差を用いて定義することもできる。また、予測性能の中央値と四分位範囲を用いて定義することもできる。また、予測性能の中央値と中央絶対偏差(MAD:Median Absolute Deviation)を用いて定義することもできる。
(S11) The sample
(S12)サンプル履歴分析部131は、ステップS10で抽出したレコードに含まれる各予測性能を、ステップS11で決定した正規化関数hp()を用いて正規化する。
(S13)サンプル履歴分析部131は、ステップS10で抽出したレコードから実行時間の最大値tmax=maxc,x(t(x;Dd,c))と実行時間の最小値tmin=minc,x(t(x;Dd,c))を検索する。t(x;D,c)は、カテゴリカルハイパーパラメータcと連続量ハイパーパラメータxとデータセットDから特定される実行時間を表す。サンプル履歴分析部131は、検索した最大値tmaxと最小値tminに基づいて、実行時間の正規化関数ht()を決定する。例えば、ht(t(x;Dd,c))=(t(x;Dd,c)-tmin)/(tmax-tmin)と決定する。なお、正規化関数を、実行時間の平均と標準偏差を用いて定義することもできる。また、実行時間の中央値と四分位範囲を用いて定義することもできる。また、実行時間の中央値と中央絶対偏差を用いて定義することもできる。
(S12) The sample
(S13) The sample
(S14)サンプル履歴分析部131は、ステップS10で抽出したレコードに含まれる各実行時間を、ステップS13で決定した正規化関数ht()を用いて正規化する。なお、第2の実施の形態ではステップS13,S14を省略してもよい。
(S14) The sample
(S15)サンプル履歴分析部131は、ステップS10で全てのデータセットIDを選択したか判断する。全てのデータセットIDを選択した場合はステップS16に処理が進み、未選択のデータセットIDがある場合はステップS10に処理が進む。
(S15) The sample
図12は、統計情報生成の手順例を示すフローチャート(続き)である。
(S16)サンプル履歴分析部131は、1つのカテゴリカルハイパーパラメータ値(カテゴリカルハイパーパラメータ値ci)を選択する。
FIG. 12 is a flowchart (continued) showing an example of a procedure for generating statistical information.
(S16) The sample
(S17)サンプル履歴分析部131は、ステップS16と異なる他の1つのカテゴリカルハイパーパラメータ値(カテゴリカルハイパーパラメータ値cj)を選択する。
(S18)サンプル履歴分析部131は、サンプル履歴テーブル141に現れる1つの連続量ハイパーパラメータ値(連続量ハイパーパラメータ値xk)を選択する。
(S17) The sample
(S18) The sample
(S19)サンプル履歴分析部131は、ステップS12で正規化した予測性能(正規化予測性能)のうち、カテゴリカルハイパーパラメータ値ciと連続量ハイパーパラメータ値xkの組に対応する正規化予測性能を抽出する。また、サンプル履歴分析部131は、カテゴリカルハイパーパラメータ値cjと連続量ハイパーパラメータ値xkの組に対応する正規化予測性能を抽出する。サンプル履歴分析部131は、データセットID毎に2つの正規化予測性能の差(正規化予測性能差)を算出し、正規化予測性能差の期待値pμij(xk)を算出する。pμij(xk)=ED[hp(f(xk;D,ci))-hp(f(xk;D,cj))]と算出される。そして、サンプル履歴分析部131は、(ci,cj),xkの組に対応付けて期待値pμij(xk)を統計テーブル142に登録する。
(S19) The sample
(S20)サンプル履歴分析部131は、正規化予測性能差の標準偏差pσij(xk)を算出する。pσij(xk)=SDD[hp(f(xk;D,ci))-hp(f(xk;D,cj))]と算出される。そして、サンプル履歴分析部131は、(ci,cj),xkの組に対応付けて標準偏差pσij(xk)を統計テーブル142に登録する。
(S20) The sample
(S21)サンプル履歴分析部131は、ステップS14で正規化した実行時間(正規化実行時間)のうち、カテゴリカルハイパーパラメータ値ciと連続量ハイパーパラメータ値xkの組に対応する正規化実行時間を抽出する。また、サンプル履歴分析部131は、カテゴリカルハイパーパラメータ値cjと連続量ハイパーパラメータ値xkの組に対応する正規化実行時間を抽出する。サンプル履歴分析部131は、データセットID毎に2つの正規化実行時間の差(正規化実行時間差)を算出し、正規化実行時間差の期待値tμij(xk)を算出する。tμij(xk)=ED[ht(t(xk;D,ci))-ht(t(xk;D,cj))]と算出される。そして、サンプル履歴分析部131は、(ci,cj),xkの組に対応付けて期待値tμij(xk)を統計テーブル142に登録する。
(S21) The sample
(S22)サンプル履歴分析部131は、正規化実行時間差の標準偏差tσij(xk)を算出する。tσij(xk)=SDD[ht(f(xk;D,ci))-ht(f(xk;D,cj))]と算出される。そして、サンプル履歴分析部131は、(ci,cj),xkの組に対応付けて標準偏差tσij(xk)を統計テーブル142に登録する。なお、第2の実施の形態ではステップS21,S22を省略してもよい。
(S22) The sample
(S23)サンプル履歴分析部131は、ステップS18でサンプル履歴テーブル141に現れる全ての連続量ハイパーパラメータ値を選択したか判断する。全ての連続量ハイパーパラメータ値を選択した場合はステップS24に処理が進み、未選択の連続量ハイパーパラメータ値が存在する場合はステップS18に処理が進む。
(S23) The sample
(S24)サンプル履歴分析部131は、ステップS17で全ての他のカテゴリカルハイパーパラメータ値を選択したか判断する。全ての他のカテゴリカルハイパーパラメータ値を選択した場合はステップS25に処理が進み、未選択の他のカテゴリカルハイパーパラメータ値が存在する場合はステップS17に処理が進む。
(S24) The sample
(S25)サンプル履歴分析部131は、ステップS16で全てのカテゴリカルハイパーパラメータ値を選択したか判断する。全てのカテゴリカルハイパーパラメータ値を選択した場合は統計情報生成が終了し、未選択のカテゴリカルハイパーパラメータ値が存在する場合はステップS16に処理が進む。
(S25) The sample
図13は、第2の実施の形態の機械学習の手順例を示すフローチャートである。
(S30)学習制御部133は、データセットD、制限時間Tおよびハイパーパラメータ探索範囲Θを特定する。ハイパーパラメータ探索範囲Θは、カテゴリカルハイパーパラメータ探索範囲Cと連続量ハイパーパラメータ探索範囲Xとを含む。
FIG. 13 is a flowchart showing an example of the machine learning procedure of the second embodiment.
(S30) The
(S31)予測性能推定部135は、探索履歴Sを空集合φに初期化する。
(S32)予測性能推定部135は、探索履歴Sを参照して、カテゴリカルハイパーパラメータ探索範囲Cの各カテゴリカルハイパーパラメータ値について、最大の予測性能改善量g(x;c)を算出し、その予測性能改善量が得られる連続量ハイパーパラメータ値を特定する。予測性能改善量の推定方法については後述する。
(S31) The prediction
(S32) The prediction
(S33)学習制御部133は、ステップS32で算出された複数のカテゴリカルハイパーパラメータ値に対応する複数の予測性能改善量の中から、最大の予測性能改善量を選択する。学習制御部133は、選択した予測性能改善量が得られるカテゴリカルハイパーパラメータ値ciと連続量ハイパーパラメータ値xciを特定する。
(S33) The
(S34)学習実行部134は、データセット記憶部123に記憶されたデータセットの中から訓練データとテストデータとを抽出する。学習実行部134は、ステップS33で選択されたカテゴリカルハイパーパラメータ値ciと連続量ハイパーパラメータ値xciに基づいて機械学習を実行し、訓練データからモデルを生成する。学習実行部134は、テストデータを用いて、生成したモデルの予測性能f(xci;ci)を測定する。学習制御部133は、モデルと予測性能f(xci;ci)を取得する。
(S34) The
(S35)予測性能推定部135は、カテゴリカルハイパーパラメータ値ciと連続量ハイパーパラメータ値xciと予測性能f(xci;ci)を取得する。予測性能推定部135は、探索履歴Sに(ci,xci,f(xci;ci))というレコードを追加する。
(S35) The prediction
(S36)学習制御部133は、ステップS30の実行からの経過時間が制限時間Tを超えたか判断する。経過時間が制限時間Tを超えた場合はステップS37に処理が進み、経過時間が制限時間T以下である場合はステップS32に処理が進む。
(S36) The
(S37)学習制御部133は、これまでに生成されたモデルのうち予測性能が最大のモデルを学習結果記憶部124に保存する。また、学習制御部133は、そのモデルの予測性能(達成予測性能)と、そのモデルの生成に使用したカテゴリカルハイパーパラメータ値および連続量ハイパーパラメータ値とを、学習結果記憶部124に保存する。
(S37) The
図14は、性能改善量推定の手順例を示すフローチャートである。
この性能改善量推定は、上記のステップS32で実行される。
(S40)予測性能推定部135は、1つのカテゴリカルハイパーパラメータ値(カテゴリカルハイパーパラメータ値ci)を選択する。
FIG. 14 is a flowchart showing an example of a procedure for estimating the amount of performance improvement.
This performance improvement amount estimation is executed in step S32 described above.
(S40) The prediction
(S41)予測性能推定部135は、探索履歴Sの中から、選択したカテゴリカルハイパーパラメータ値ciを含むレコードの集合である探索履歴Siを検索する。
(S42)予測性能推定部135は、点集合Riを空集合φに初期化する。また、予測性能推定部135は、探索履歴Siに含まれる予測性能f(x;ci)を正規化する。ここで正規化に用いる正規化関数は、探索履歴Siの予測性能の分布に基づいて決定される。例えば、探索履歴Siの中から最大値pmaxと最小値pminが検索され、正規化関数がhp(f(x;ci))=(f(x;ci)-pmin)/(pmax-pmin)と決定される。ただし、他のカテゴリカルハイパーパラメータ値のレコードも含む探索履歴Sの予測性能の分布に基づいて正規化関数を決定してもよい。予測性能推定部135は、探索履歴Siに現れる連続量ハイパーパラメータ値それぞれについて、(x,hp(f(x;ci)),0)というレコードを点集合Riに追加する。第1項は連続量ハイパーパラメータ値を表し、第2項は正規化予測性能を表し、第3項は標準偏差を表す。
(S41) The prediction
(S42) The prediction
(S43)予測性能推定部135は、ステップS40と異なる他の1つのカテゴリカルハイパーパラメータ値(カテゴリカルハイパーパラメータ値cj)を選択する。
(S44)予測性能推定部135は、探索履歴Sの中から、選択したカテゴリカルハイパーパラメータ値cjを含むレコードの集合である探索履歴Sjを検索する。
(S43) The prediction
(S44) The prediction
(S45)予測性能推定部135は、探索履歴Sjに含まれる予測性能f(x;cj)を正規化する。ここで正規化に用いる正規化関数は、探索履歴Sjの予測性能の分布に基づいて決定される。例えば、探索履歴Sjの中から最大値pmaxと最小値pminが検索され、正規化関数がhp(f(x;cj))=(f(x;cj)-pmin)/(pmax-pmin)と決定される。ただし、探索履歴Sの予測性能の分布に基づいて正規化関数を決定してもよく、ステップS42と同じ正規化関数を使用してもよい。
(S45) The prediction
また、予測性能推定部135は、探索履歴Sjに現れる連続量ハイパーパラメータ値それぞれについて、統計テーブル142から(ci,cj)に対応する正規化予測性能差の期待値pμij(x)と標準偏差pσij(x)を検索する。このとき、統計テーブル142の中には、探索履歴Sjに現れる連続量ハイパーパラメータ値と完全に一致するレコードが存在しない場合もある。その場合、例えば、所望の連続量ハイパーパラメータ値に最も近いレコードを使用する方法が考えられる。また、所望の連続量ハイパーパラメータ値の前後のレコードから線形補間により、所望の連続量ハイパーパラメータ値のpμij(x),pσij(x)を推定する方法も考えられる。
Further, the prediction
(S46)予測性能推定部135は、探索履歴Sjに現れる連続量ハイパーパラメータ値それぞれについて、(x,hp(f(x;cj))+pμij(x),pσij(x))というレコードを点集合Riに追加する。第2項の正規化予測性能は、カテゴリカルハイパーパラメータ値cjの正規化予測性能に正規化予測性能差の期待値を加えたものである。第3項の標準偏差は、正規化予測性能差の標準偏差である。
(S46) The prediction
(S47)予測性能推定部135は、ステップS43で全ての他のカテゴリカルハイパーパラメータ値を選択したか判断する。全ての他のカテゴリカルハイパーパラメータ値を選択した場合はステップS48に処理が進み、未選択の他のカテゴリカルハイパーパラメータ値が存在する場合はステップS43に処理が進む。
(S47) The prediction
図15は、性能改善量推定の手順例を示すフローチャート(続き)である。
(S48)予測性能推定部135は、連続量ハイパーパラメータ探索範囲Xの中から連続量ハイパーパラメータ値を1つサンプリングする(連続量ハイパーパラメータ値xk)。好ましくは、探索履歴Siに現れていない連続量ハイパーパラメータ値を選択する。サンプリングは、グリッド法やランダム法などによって行う。
FIG. 15 is a flowchart (continued) showing an example of a procedure for estimating the amount of performance improvement.
(S48) The prediction
(S49)予測性能推定部135は、点集合Riが示す複数の点に基づいて、ステップS48で選択した連続量ハイパーパラメータ値xkに対する正規化予測性能hp(f(xk;ci))の期待値と標準偏差を推定する。点集合Riの中に0でない標準偏差が与えられた点、すなわち、推定された点が存在しない場合、hp(f(xk;ci))の期待値および標準偏差は通常の回帰分析によって算出することが可能である。一方、点集合Riの中に0でない標準偏差が与えられた点が存在する場合、この点の推定の不確かさを考慮してhp(f(xk;ci))の期待値および標準偏差が算出される。推定された点が存在すると、hp(f(xk;ci))の標準偏差は大きくなることが多い。
(S49) The prediction
例えば、予測性能推定部135は、0でない標準偏差をもつ正規化予測性能の分布の中からサンプル値を抽出し、抽出したサンプル値を用いて回帰分析を行う。予測性能推定部135は、これをモンテカルロシミュレーションとして多数回繰り返し、回帰分析結果を平均化することで、hp(f(xk;ci))の期待値および標準偏差を求める。また、例えば、予測性能推定部135は、ガウス過程を用いた推定方法により、数式的にhp(f(xk;ci))の期待値および標準偏差を求める。ガウス過程を用いた推定方法については、例えば、次の文献に記載されている。P.W.Goldberg, C.K.I. Williams and C.M.Bishop, "Regression with Input-dependent Noise: A Gaussian Process Treatment", In Advances in Neural Information Processing 11 (NIPS 1997), 1997。
For example, the prediction
(S50)予測性能推定部135は、ステップS49で推定したhp(f(xk;ci))の期待値と標準偏差に基づいて、カテゴリカルハイパーパラメータ値ciと連続量ハイパーパラメータ値xkの組に対する予測性能改善量g(xk;ci)を算出する。例えば、予測性能推定部135は、hp(f(xk;ci))の期待値と標準偏差から、95%信頼区間の上限値(UCB)を算出し、UCBから現在の達成予測性能を引いた値を予測性能改善量g(xk;ci)とする。このとき、達成予測性能についても正規化しておく。hp(f(xk;ci))の期待値より大きい値を用いて予測性能改善量を算出しているのは、推定の不確かさにより、高い予測性能を達成し得るハイパーパラメータ値を誤って切り捨ててしまうことを回避するためである。
(S50) The prediction
なお、予測性能推定部135は、UCBに代えて、推定される予測性能の分布を積分して、予測性能が達成予測性能を超える確率(PI:Probability of Improvement)を算出してもよい。また、推定される予測性能の分布を積分して、予測性能が達成予測性能を超える期待値(EI:Expected Improvement)を算出してもよい。
Instead of UCB, the prediction
(S51)予測性能推定部135は、ステップS48において十分な数の連続量ハイパーパラメータ値をサンプリングしたか、すなわち、サンプリングした連続量ハイパーパラメータ値の数が所定の閾値に達したか判断する。サンプリングした連続量ハイパーパラメータ値の数が十分である場合はステップS52に処理が進み、連続量ハイパーパラメータ値の数が不十分である場合はステップS48に処理が進む。
(S51) The prediction
(S52)予測性能推定部135は、ステップS50で算出された複数の予測性能改善量のうち、最大の予測性能改善量を選択する。この予測性能改善量が、カテゴリカルハイパーパラメータciについての予測性能改善量になる。また、予測性能推定部135は、この予測性能改善量が得られる連続ハイパーパラメータ値を選択する。
(S52) The prediction
(S53)予測性能推定部135は、ステップS40で全てのカテゴリカルハイパーパラメータ値を選択したか判断する。全てのカテゴリカルハイパーパラメータ値を選択した場合は性能改善量推定が終了し、未選択のカテゴリカルハイパーパラメータ値が存在する場合はステップS40に処理が進む。
(S53) The prediction
第2の実施の形態の機械学習装置100によれば、過去の機械学習の履歴から、異なるカテゴリカルハイパーパラメータ値の間の予測性能差の情報が生成される。そして、新たなデータセットに対して機械学習を行うとき、予測性能差の情報に基づいて、異なるカテゴリカルハイパーパラメータ値の間でハイパーパラメータ探索の試行結果が相互に変換されて共有される。これにより、ハイパーパラメータ探索が効率化される。
According to the
例えば、個々のカテゴリカルハイパーパラメータ値について独立にハイパーパラメータ探索を行う場合と比べて、推定される予測性能曲線の不確かさを早期に低減することができ、制限時間内に予測性能が十分高いハイパーパラメータ値に到達することが容易となる。また、異なるカテゴリカルハイパーパラメータ値の間で生じる予測性能差を考慮せずに試行結果を単純共有する場合と比べて、予測性能曲線の推定精度が向上する。また、予測性能差の標準偏差を利用することで、予測性能曲線の推定の不確かさを適切に反映させることができ、予測性能が高くなるハイパーパラメータ値を見逃すリスクを低減できる。 For example, the uncertainty of the estimated prediction performance curve can be reduced earlier than when hyperparameter search is performed independently for each categorical hyperparameter value, and the prediction performance is sufficiently high within the time limit. It becomes easy to reach the parameter value. In addition, the estimation accuracy of the prediction performance curve is improved as compared with the case where the trial results are simply shared without considering the prediction performance difference that occurs between different categorical hyperparameter values. Further, by using the standard deviation of the prediction performance difference, the uncertainty of estimation of the prediction performance curve can be appropriately reflected, and the risk of overlooking the hyperparameter value that improves the prediction performance can be reduced.
[第3の実施の形態]
次に、第3の実施の形態を説明する。第2の実施の形態との違いを中心に説明し、第2の実施の形態と同様の事項については説明を省略することがある。
[Third Embodiment]
Next, a third embodiment will be described. The differences from the second embodiment will be mainly described, and the same matters as those of the second embodiment may be omitted.
第2の実施の形態の機械学習では、ハイパーパラメータ値の評価基準として予測性能改善量を使用したのに対し、第3の実施の形態の機械学習では、ハイパーパラメータ値の評価基準として予測性能改善速度を使用する。予測性能改善速度は、単位時間当たりの予測性能改善量であり、推定される予測性能改善量を実行時間の推定値で割ったものである。第3の実施の形態の機械学習装置は、図2,8~10に示した第2の実施の形態の機械学習装置100と同様の構成によって実現できる。そこで、以下の第3の実施の形態の説明では、図2,8~10と同様の符号を使用することがある。
In the machine learning of the second embodiment, the predicted performance improvement amount was used as the evaluation standard of the hyperparameter value, whereas in the machine learning of the third embodiment, the predicted performance improvement was used as the evaluation standard of the hyperparameter value. Use speed. The predicted performance improvement speed is the predicted performance improvement amount per unit time, and is the estimated predicted performance improvement amount divided by the estimated value of the execution time. The machine learning device of the third embodiment can be realized by the same configuration as the
図16は、第3の実施の形態の機械学習の手順例を示すフローチャートである。
(S60)学習制御部133は、データセットD、制限時間Tおよびハイパーパラメータ探索範囲Θを特定する。ハイパーパラメータ探索範囲Θは、カテゴリカルハイパーパラメータ探索範囲Cと連続量ハイパーパラメータ探索範囲Xとを含む。
FIG. 16 is a flowchart showing an example of the machine learning procedure of the third embodiment.
(S60) The
(S61)予測性能推定部135は、探索履歴Sを空集合φに初期化する。
(S62)予測性能推定部135は、探索履歴Sを参照して、カテゴリカルハイパーパラメータ探索範囲Cの各カテゴリカルハイパーパラメータ値について、最大の予測性能改善速度v(x;c)を算出し、その予測性能改善速度が得られる連続量ハイパーパラメータ値を特定する。予測性能改善速度の推定方法については後述する。
(S61) The prediction
(S62) The prediction
(S63)学習制御部133は、ステップS62で算出された複数のカテゴリカルハイパーパラメータ値に対応する複数の予測性能改善速度の中から、最大の予測性能改善速度を選択する。学習制御部133は、選択した予測性能改善速度が得られるカテゴリカルハイパーパラメータ値ciと連続量ハイパーパラメータ値xciを特定する。
(S63) The
(S64)学習実行部134は、データセット記憶部123に記憶されたデータセットの中から訓練データとテストデータとを抽出する。学習実行部134は、ステップS63で選択されたカテゴリカルハイパーパラメータ値ciと連続量ハイパーパラメータ値xciに基づいて機械学習を実行し、訓練データからモデルを生成する。学習実行部134は、テストデータを用いて、生成したモデルの予測性能f(xci;ci)を測定する。また、学習実行部134は、実行時間t(xci;ci)を測定する。学習制御部133は、モデルと予測性能f(xci;ci)と実行時間t(xci;ci)を取得する。
(S64) The
(S65)予測性能推定部135は、カテゴリカルハイパーパラメータ値ciと連続量ハイパーパラメータ値xciと予測性能f(xci;ci)と実行時間t(xci;ci)を取得する。予測性能推定部135は、探索履歴Sに(ci,xci,f(xci;ci),t(xci;ci))というレコードを追加する。
(S65) The prediction
(S66)学習制御部133は、ステップS60の実行からの経過時間が制限時間Tを超えたか判断する。経過時間が制限時間Tを超えた場合はステップS67に処理が進み、経過時間が制限時間T以下である場合はステップS62に処理が進む。
(S66) The
(S67)学習制御部133は、これまでに生成されたモデルのうち予測性能が最大のモデルを学習結果記憶部124に保存する。また、学習制御部133は、そのモデルの予測性能(達成予測性能)と、そのモデルの生成に使用したカテゴリカルハイパーパラメータ値および連続量ハイパーパラメータ値とを、学習結果記憶部124に保存する。学習制御部133は、そのモデルの生成に要した実行時間を更に保存してもよい。
(S67) The
図17は、性能改善速度推定の手順例を示すフローチャートである。
(S70)予測性能推定部135は、1つのカテゴリカルハイパーパラメータ値(カテゴリカルハイパーパラメータ値ci)を選択する。
FIG. 17 is a flowchart showing a procedure example of performance improvement speed estimation.
(S70) The prediction
(S71)予測性能推定部135は、探索履歴Sの中から、選択したカテゴリカルハイパーパラメータ値ciを含むレコードの集合である探索履歴Siを検索する。
(S72)予測性能推定部135は、点集合pRiを空集合φに初期化する。また、予測性能推定部135は、探索履歴Siに含まれる予測性能f(x;ci)を正規化する。予測性能推定部135は、探索履歴Siに現れる連続量ハイパーパラメータ値それぞれについて(x,hp(f(x;ci)),0)というレコードを点集合pRiに追加する。
(S71) The prediction
(S72) The prediction
(S73)予測性能推定部135は、点集合tRiを空集合φに初期化する。また、予測性能推定部135は、探索履歴Siに含まれる実行時間t(x;ci)を正規化する。ここで正規化に用いる正規化関数は、探索履歴Siの実行時間の分布に基づいて決定される。例えば、探索履歴Siの中から最大値tmaxと最小値tminが検索され、正規化関数がht(t(x;ci))=(t(x;ci)-tmin)/(tmax-tmin)と決定される。ただし、他のカテゴリカルハイパーパラメータ値のレコードも含む探索履歴Sの実行時間の分布に基づいて正規化関数を決定してもよい。予測性能推定部135は、探索履歴Siに現れる連続量ハイパーパラメータ値それぞれについて(x,ht(t(x;ci)),0)というレコードを点集合tRiに追加する。第1項は連続量ハイパーパラメータ値を表し、第2項は正規化実行時間を表し、第3項は標準偏差を表す。
(S73) The prediction
(S74)予測性能推定部135は、ステップS70と異なる他の1つのカテゴリカルハイパーパラメータ値(カテゴリカルハイパーパラメータ値cj)を選択する。
(S75)予測性能推定部135は、探索履歴Sの中から、選択したカテゴリカルハイパーパラメータ値cjを含むレコードの集合である探索履歴Sjを検索する。
(S74) The prediction
(S75) The prediction
(S76)予測性能推定部135は、探索履歴Sjに含まれる予測性能f(x;cj)を正規化する。また、予測性能推定部135は、探索履歴Sjに現れる連続量ハイパーパラメータ値それぞれについて、統計テーブル142から(ci,cj)に対応する正規化予測性能差の期待値pμij(x)と標準偏差pσij(x)を検索する。
(S76) The prediction
(S77)予測性能推定部135は、探索履歴Sjに現れる連続量ハイパーパラメータ値それぞれについて、(x,hp(f(x;cj))+pμij(x),pσij(x))というレコードを点集合pRiに追加する。第2項の正規化予測性能は、カテゴリカルハイパーパラメータ値cjの正規化予測性能に正規化予測性能差の期待値を加えたものである。第3項の標準偏差は、正規化予測性能差の標準偏差である。
(S77) The prediction
(S78)予測性能推定部135は、探索履歴Sjに含まれる実行時間t(x;cj)を正規化する。ここで正規化に用いる正規化関数は、探索履歴Sjの実行時間の分布に基づいて決定される。例えば、探索履歴Sjの中から最大値tmaxと最小値tminが検索され、正規化関数がht(t(x;cj))=(t(x;cj)-tmin)/(tmax-tmin)と決定される。ただし、探索履歴Sの予測性能の分布に基づいて正規化関数を決定してもよく、ステップS73と同じ正規化関数を使用してもよい。
(S78) The prediction
また、予測性能推定部135は、探索履歴Sjに現れる連続量ハイパーパラメータ値それぞれについて、統計テーブル142から(ci,cj)に対応する正規化実行時間差の期待値tμij(x)と標準偏差tσij(x)を検索する。このとき、統計テーブル142の中には、探索履歴Sjに現れる連続量ハイパーパラメータ値と完全に一致するレコードが存在しない場合もある。その場合、例えば、所望の連続量ハイパーパラメータ値に最も近いレコードを使用する方法が考えられる。また、所望の連続量ハイパーパラメータ値の前後のレコードから線形補間により、所望の連続量ハイパーパラメータ値のtμij(x),tσij(x)を推定する方法も考えられる。
Further, the prediction
(S79)予測性能推定部135は、探索履歴Sjに現れる連続量ハイパーパラメータ値それぞれについて、(x,ht(t(x;cj))+tμij(x),tσij(x))というレコードを点集合tRiに追加する。第2項の正規化予測性能は、カテゴリカルハイパーパラメータ値cjの正規化実行時間に正規化実行時間差の期待値を加えたものである。第3項の標準偏差は、正規化実行時間差の標準偏差である。
(S79) The prediction
(S80)予測性能推定部135は、ステップS74で全ての他のカテゴリカルハイパーパラメータ値を選択したか判断する。全ての他のカテゴリカルハイパーパラメータ値を選択した場合はステップS81に処理が進み、未選択の他のカテゴリカルハイパーパラメータ値が存在する場合はステップS74に処理が進む。
(S80) The prediction
図18は、性能改善速度推定の手順例を示すフローチャート(続き)である。
(S81)予測性能推定部135は、連続量ハイパーパラメータ探索範囲Xの中から連続量ハイパーパラメータ値を1つサンプリングする(連続量ハイパーパラメータ値xk)。好ましくは、探索履歴Siに現れていない連続量ハイパーパラメータ値を選択する。
FIG. 18 is a flowchart (continued) showing an example of the procedure for estimating the performance improvement speed.
(S81) The prediction
(S82)予測性能推定部135は、点集合pRiが示す複数の点に基づいて、ステップS81で選択した連続量ハイパーパラメータ値xkに対する正規化予測性能hp(f(xk;ci))の期待値と標準偏差を推定する。
(S82) The prediction
(S83)予測性能推定部135は、ステップS82で推定したhp(f(xk;ci))の期待値と標準偏差に基づいて、カテゴリカルハイパーパラメータ値ciと連続量ハイパーパラメータ値xkの組に対する予測性能改善量g(xk;ci)を算出する。
(S83) The prediction
(S84)予測性能推定部135は、点集合tRiが示す複数の点に基づいて、ステップS81で選択した連続量ハイパーパラメータ値xkに対する正規化実行時間ht(t(xk;ci))の期待値を推定する。正規化実行時間ht(t(xk;ci))の期待値の推定は、ステップS82の正規化予測性能hp(f(xk;ci))の期待値の推定と同様の方法で行うことができる。ただし、正規化実行時間ht(t(xk;ci))の期待値の推定では、推定された点の不確かさ(標準偏差)を考慮しなくてもよい。
(S84) The prediction
(S85)予測性能推定部135は、ステップS83で算出した予測性能改善量g(xk;ci)を、ステップS84で算出した正規化実行時間の期待値で割ることで、予測性能改善速度v(xk;ci)を算出する。
(S85) The prediction
(S86)予測性能推定部135は、ステップS81において十分な数の連続量ハイパーパラメータ値をサンプリングしたか、すなわち、サンプリングした連続量ハイパーパラメータ値の数が所定の閾値に達したか判断する。サンプリングした連続量ハイパーパラメータ値の数が十分である場合はステップS87に処理が進み、連続量ハイパーパラメータ値の数が不十分である場合はステップS81に処理が進む。
(S86) The prediction
(S87)予測性能推定部135は、ステップS85で算出された複数の予測性能改善速度のうち、最大の予測性能改善速度を選択する。この予測性能改善速度が、カテゴリカルハイパーパラメータciについての予測性能改善速度になる。また、予測性能推定部135は、この予測性能改善速度が得られる連続ハイパーパラメータ値を選択する。
(S87) The prediction
(S88)予測性能推定部135は、ステップS70で全てのカテゴリカルハイパーパラメータ値を選択したか判断する。全てのカテゴリカルハイパーパラメータ値を選択した場合は性能改善量推定が終了し、未選択のカテゴリカルハイパーパラメータ値が存在する場合はステップS70に処理が進む。
(S88) The prediction
第3の実施の形態の機械学習装置によれば、第2の実施の形態と同様の効果が得られる。更に、第3の実施の形態では、推定される予測性能改善速度が最大のハイパーパラメータ値が次に選択される。よって、制限時間が短い場合でも、予測性能が高くなるハイパーパラメータ値を効率的に探索することができる。 According to the machine learning device of the third embodiment, the same effect as that of the second embodiment can be obtained. Further, in the third embodiment, the hyperparameter value with the maximum estimated predicted performance improvement rate is selected next. Therefore, even if the time limit is short, it is possible to efficiently search for hyperparameter values that improve the prediction performance.
10 探索装置
11 記憶部
12 処理部
13 予測性能差情報
14,15 ハイパーパラメータ
14a,14b,15a 値
16 予測性能
10
Claims (7)
異なる値の間に大小関係が規定されない第1のハイパーパラメータと異なる値の間に大小関係が規定される第2のハイパーパラメータとに基づいて制御される機械学習を、複数のデータセットに対して過去に実行した結果について、前記第1のハイパーパラメータに第1の値を設定した場合の予測性能と前記第1のハイパーパラメータに第2の値を設定した場合の予測性能との間の差を示す予測性能差情報を取得し、
前記複数のデータセットと異なる他のデータセットに対して、前記第1のハイパーパラメータに前記第1の値を設定し前記第2のハイパーパラメータに第3の値を設定して前記機械学習を実行させることで第1の予測性能を算出し、
前記第1の予測性能と前記予測性能差情報とに基づいて、前記他のデータセットに対して次に前記機械学習を実行するときに使用する前記第1のハイパーパラメータの値と前記第2のハイパーパラメータの値の組み合わせを選択する、
処理を実行させる探索プログラム。 On the computer
Machine learning controlled based on a first hyperparameter with no magnitude relationship between different values and a second hyperparameter with a magnitude relationship between different values for multiple datasets. Regarding the results executed in the past, the difference between the predicted performance when the first value is set for the first hyperparameter and the predicted performance when the second value is set for the first hyperparameter. Obtain the predicted performance difference information shown, and
For other data sets different from the plurality of data sets, the first hyperparameter is set to the first value, the second hyperparameter is set to the third value, and the machine learning is executed. By letting it calculate the first prediction performance,
Based on the first prediction performance and the prediction performance difference information, the value of the first hyperparameter and the second hyperparameter to be used when the machine learning is next executed for the other data set. Select a combination of hyperparameter values,
A search program that executes processing.
請求項1記載の探索プログラム。 In the selection of the combination, the second value is set in the first hyperparameter and the third value is set in the second hyperparameter based on the first predicted performance and the predicted performance difference information. The second prediction performance calculated when is set is estimated, and the combination is selected based on the first prediction performance and the second prediction performance.
The search program according to claim 1.
前記組み合わせの選択では、前記予測性能差情報が示す前記複数の値に対応する複数の差のうち前記第3の値に対応する差に基づいて前記第2の予測性能を推定する、
請求項2記載の探索プログラム。 The predicted performance difference information sets the predicted performance when the first value is set in the first hyperparameter and the second value for each of the plurality of values that can be set in the second hyperparameter. Shows the difference from the predicted performance when
In the selection of the combination, the second predicted performance is estimated based on the difference corresponding to the third value among the plurality of differences corresponding to the plurality of values indicated by the predicted performance difference information.
The search program according to claim 2.
前記複数のデータセットに対して前記機械学習を実行させることで複数の予測性能を算出し、前記複数の予測性能をデータセット毎の予測性能の分布に基づいて正規化することで前記予測性能差情報を生成する処理を実行させる、
請求項1記載の探索プログラム。 Further to the computer
The machine learning is executed for the plurality of data sets to calculate a plurality of prediction performances, and the plurality of prediction performances are normalized based on the distribution of the prediction performances for each data set to obtain the prediction performance difference. Execute the process to generate information,
The search program according to claim 1.
請求項4記載の探索プログラム。 In the generation of the prediction performance difference information, the plurality of prediction performances are normalized based on the maximum value and the minimum value of the prediction performance for each data set.
The search program according to claim 4 .
異なる値の間に大小関係が規定されない第1のハイパーパラメータと異なる値の間に大小関係が規定される第2のハイパーパラメータとに基づいて制御される機械学習を、複数のデータセットに対して過去に実行した結果について、前記第1のハイパーパラメータに第1の値を設定した場合の予測性能と前記第1のハイパーパラメータに第2の値を設定した場合の予測性能との間の差を示す予測性能差情報を取得し、
前記複数のデータセットと異なる他のデータセットに対して、前記第1のハイパーパラメータに前記第1の値を設定し前記第2のハイパーパラメータに第3の値を設定して前記機械学習を実行させることで第1の予測性能を算出し、
前記第1の予測性能と前記予測性能差情報とに基づいて、前記他のデータセットに対して次に前記機械学習を実行するときに使用する前記第1のハイパーパラメータの値と前記第2のハイパーパラメータの値の組み合わせを選択する、
探索方法。 It ’s a computer-executed search method.
Machine learning controlled based on a first hyperparameter with no magnitude relationship between different values and a second hyperparameter with a magnitude relationship between different values for multiple datasets. Regarding the results executed in the past, the difference between the predicted performance when the first value is set for the first hyperparameter and the predicted performance when the second value is set for the first hyperparameter. Obtain the predicted performance difference information shown, and
For other data sets different from the plurality of data sets, the first hyperparameter is set to the first value, the second hyperparameter is set to the third value, and the machine learning is executed. By letting it calculate the first prediction performance,
Based on the first prediction performance and the prediction performance difference information, the value of the first hyperparameter and the second hyperparameter to be used when the machine learning is next executed for the other data set. Select a combination of hyperparameter values,
Search method.
前記複数のデータセットと異なる他のデータセットに対して、前記第1のハイパーパラメータに前記第1の値を設定し前記第2のハイパーパラメータに第3の値を設定して前記機械学習を実行させることで第1の予測性能を算出し、前記第1の予測性能と前記予測性能差情報とに基づいて、前記他のデータセットに対して次に前記機械学習を実行するときに使用する前記第1のハイパーパラメータの値と前記第2のハイパーパラメータの値の組み合わせを選択する処理部と、
を有する探索装置。 Machine learning controlled based on a first hyperparameter with no magnitude relationship between different values and a second hyperparameter with a magnitude relationship between different values for multiple datasets. Regarding the results executed in the past, the difference between the predicted performance when the first value is set for the first hyperparameter and the predicted performance when the second value is set for the first hyperparameter. A storage unit that stores the predicted performance difference information shown, and
For other data sets different from the plurality of data sets, the first hyperparameter is set to the first value, the second hyperparameter is set to the third value, and the machine learning is executed. By doing so, the first prediction performance is calculated, and based on the first prediction performance and the prediction performance difference information, the said machine learning to be used next time for the other data set is performed. A processing unit that selects a combination of the value of the first hyperparameter and the value of the second hyperparameter, and
Search device with.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018045283A JP7071624B2 (en) | 2018-03-13 | 2018-03-13 | Search program, search method and search device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018045283A JP7071624B2 (en) | 2018-03-13 | 2018-03-13 | Search program, search method and search device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159769A JP2019159769A (en) | 2019-09-19 |
JP7071624B2 true JP7071624B2 (en) | 2022-05-19 |
Family
ID=67997055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018045283A Active JP7071624B2 (en) | 2018-03-13 | 2018-03-13 | Search program, search method and search device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7071624B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6774129B1 (en) * | 2020-02-03 | 2020-10-21 | 望 窪田 | Analytical equipment, analysis method and analysis program |
JP7292235B2 (en) * | 2020-03-24 | 2023-06-16 | 株式会社日立製作所 | Analysis support device and analysis support method |
CN111553482B (en) * | 2020-04-09 | 2023-08-08 | 哈尔滨工业大学 | Machine learning model super-parameter tuning method |
CN111931946B (en) * | 2020-08-13 | 2024-04-16 | 北京达佳互联信息技术有限公司 | Data processing method, device, computer equipment and storage medium |
JP7450570B2 (en) | 2021-03-05 | 2024-03-15 | Lineヤフー株式会社 | Information processing device, information processing method, and information processing program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017049674A (en) | 2015-08-31 | 2017-03-09 | 富士通株式会社 | Prediction performance curve estimation program, prediction performance curve estimation device and prediction performance curve estimation method |
JP2017228068A (en) | 2016-06-22 | 2017-12-28 | 富士通株式会社 | Machine learning management program, machine learning management method and machine learning management device |
JP2018010475A (en) | 2016-07-13 | 2018-01-18 | 富士通株式会社 | Machine learning management program, machine learning management device and machine learning management method |
-
2018
- 2018-03-13 JP JP2018045283A patent/JP7071624B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017049674A (en) | 2015-08-31 | 2017-03-09 | 富士通株式会社 | Prediction performance curve estimation program, prediction performance curve estimation device and prediction performance curve estimation method |
JP2017228068A (en) | 2016-06-22 | 2017-12-28 | 富士通株式会社 | Machine learning management program, machine learning management method and machine learning management device |
JP2018010475A (en) | 2016-07-13 | 2018-01-18 | 富士通株式会社 | Machine learning management program, machine learning management device and machine learning management method |
Also Published As
Publication number | Publication date |
---|---|
JP2019159769A (en) | 2019-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6974712B2 (en) | Search method, search device and search program | |
JP7071624B2 (en) | Search program, search method and search device | |
JP6555015B2 (en) | Machine learning management program, machine learning management apparatus, and machine learning management method | |
US11334813B2 (en) | Method and apparatus for managing machine learning process | |
JP6536295B2 (en) | Prediction performance curve estimation program, prediction performance curve estimation device and prediction performance curve estimation method | |
JP6697159B2 (en) | Machine learning management program, machine learning management device, and machine learning management method | |
JP6839342B2 (en) | Information processing equipment, information processing methods and programs | |
US20180285694A1 (en) | Comparison method and comparison apparatus | |
US20180260531A1 (en) | Training random decision trees for sensor data processing | |
JP6947981B2 (en) | Estimating method, estimation device and estimation program | |
US8010535B2 (en) | Optimization of discontinuous rank metrics | |
US20080228744A1 (en) | Method and a system for automatic evaluation of digital files | |
JP6821614B2 (en) | Model learning device, model learning method, program | |
Gogolou et al. | Data series progressive similarity search with probabilistic quality guarantees | |
US20210182602A1 (en) | Flexible imputation of missing data | |
US7895198B2 (en) | Gradient based optimization of a ranking measure | |
Echihabi et al. | ProS: data series progressive k-NN similarity search and classification with probabilistic quality guarantees | |
CN110716761A (en) | Automatic and self-optimizing determination of execution parameters of software applications on an information processing platform | |
KR20210143460A (en) | Apparatus for feature recommendation and method thereof | |
US20180253677A1 (en) | Method for Performing Dynamic Data Analytics | |
CN113656292B (en) | Multi-dimensional cross-space-time basic software performance bottleneck detection method | |
JP2008165572A (en) | Data classification device and data classification program | |
US20210073651A1 (en) | Model generating method and model generating apparatus | |
US20230281275A1 (en) | Identification method and information processing device | |
Basak et al. | Model building for dynamic multi-tenant provider environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201210 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20201217 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20201217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7071624 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |