JP5071475B2

JP5071475B2 - 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム

Info

Publication number: JP5071475B2
Application number: JP2009508760A
Authority: JP
Inventors: 浩太郎湯田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-03-27
Filing date: 2007-03-27
Publication date: 2012-11-14
Anticipated expiration: 2027-03-27
Also published as: KR20090087485A; US8255342B2; KR101109913B1; WO2008126209A1; US20100070441A1; JPWO2008126209A1

Description

本発明は、サンプルの物理的、化学的あるいは生理学的な特性に関するデータが連続量である場合に、そのデータの予測を行うための、フィッティング手法による予測モデル（予測式）の作成方法、作成装置および作成プログラムに関し、特に、予測信頼性の高い予測モデルを作成するための方法、装置およびプログラムに関する。

サンプルの物理的、化学的あるいは生理学的な特性（目的変数）を予測するためのモデルを作成するにあたって、目的変数が数値的に連続量である場合、適用されるデータ解析手法は一般的にフィッティング手法と言われる。このための、代表的な解析手法として回帰分析手法がある。これは、目的変数が既知のサンプルについて、適宜に設定した説明変数を適用して回帰分析を行い、目的変数と説明変数間の関係を規定する回帰式を算出し、この式に基づいて、目的変数が未知のサンプルについて目的変数の値を予測するものである。説明変数が複数個ある場合を、重回帰分析と呼ぶ。フィッティング手法には、線形重回帰分析法および非線形重回帰分析法、その他としてＰＬＳ（Partial Least Squares）、ニューラルネットワークがあるが、本発明の方法は、何れの分析方法でも適用可能である。

未知サンプルの予測信頼度は、線形重回帰手法の適用によって算出された重回帰式の良否による。重回帰式の良否は、相関係数Ｒあるいは決定係数Ｒ２の値で評価される。これらの値が１に近づくほど良好な回帰式となり、０に近づくほど粗悪な回帰式となる。

図１に、あるサンプルセットを線形重回帰分析した結果を示す。この図は、サンプルの目的変数について、実測値と計算値（予測モデルを用いて計算された値）の相関関係を示している。図の横軸は、各サンプルの目的変数についての実測値を示し、縦軸は、重回帰分析の結果として得られた重回帰式（予測モデル）に基づいて計算された、各サンプルの目的変数Ｙの値を示す。この場合の重回帰式は、以下の式（１）で示される。

Ｙ＝±ａ１・ｘ１±ａ２・ｘ２±・・・±ａｎ・ｘｎ±Ｃ（１）
式（１）において、Ｙは各サンプルの目的変数の計算値を示し、ｘ１、ｘ２・・・ｘｎは説明変数の値を、ａ１、ａ２・・・ａｎは係数を、Ｃは定数をそれぞれ示している。各サンプルについて、説明変数の値を式（１）に入力することによって、各サンプルの目的変数Ｙの値が算出される。式（１）に基づいて算出した目的変数Ｙの値が、サンプルの実測値と一致した場合、サンプル○は図１の回帰線Ｙ上に乗る。したがって、サンプルが回帰線Ｙの周りに密集して分布すればするほど、その回帰式は良好（信頼性の高い）な回帰式であると判断される。重回帰式の信頼性は、相関係数Ｒによって決定される。相関係数Ｒが１の場合、サンプルは回帰線上に載る。図１では、相関係数Ｒが０．７の場合を示している。

一般に、サンプル数が少ない場合は、サンプルを比較的簡単に回帰線上に乗せることができる。ところが、サンプル数が多くなるとノイズとなるサンプルが相対的に増えるために、全てのサンプルを一つの回帰線上に分布させることが極めて困難となる。したがって、サンプル数が多い場合の解析手法として、全サンプルをより小さなサブセットに分類し、これらのサブセット単位で回帰式を求めることが行われている。このようなサブセット毎の回帰分析を実行する場合、全サンプルをどのようにして複数のサブセットに分類するかが極めて重要となり、結果として得られる回帰式の信頼度や予測性に大きな影響を与える。また、未知サンプルの目的変数の予測を行う場合、予測対象のサンプルに対して、どのサブセットについて作成された回帰式を適用するかの選択も重要であり、この選択を誤ると全く信頼性のない予測結果、すなわち、実際の値と大きくかけ離れた値、が得られる。

一般的に、回帰式の信頼性を上げることはデータ解析において極めて重要である。このための手法の一つとして、回帰線から離れたサンプル、すなわち、実測値と予測値が大きく異なるサンプルを、サンプルセットから取り除くことが、良い重回帰式作成のための重要な作業として行われている。回帰線から遠く離れて存在するサンプルはアウトライヤーサンプルと呼ばれ、このようなサンプルを取り除けば確実に相関係数Ｒの値を向上させることができる。重回帰式（予測モデル）を作成するための一般的な線形重回帰プログラムでは、このようなアウトライヤーサンプルの発生が最小限となるような重回帰式を、自動的に作成するように設計されている。

したがって、サンプルセット内に、一個でも他とは目的変数の値が大きく外れたサンプルが存在すると、重回帰式がそのようなアウトライヤーサンプルに大きく引きずられ、その影響を強く受けた重回帰式が生成される。したがって、通常のデータ解析では、このようなアウトライヤーサンプルを発見し、これをサンプルセットから取出して残りのサンプルを用いて重回帰式を作成するようにしている。この場合、取り出されたアウトライヤーサンプルはデータ解析的にはノイズと判断され、データ解析過程では２度と利用されることはない。すなわち、アウトライヤーサンプルとして取り出されたサンプルに関する情報はデータ解析上、切り捨てられることとなる。この結果、作成された重回帰式の相関係数が高くとも、アウトライヤーサンプルに類似・関連したサンプルを予測する場合の予測信頼性が低下し、結果的に適用範囲の狭い重回帰式となり、汎用性が大きく低下する。したがって、重回帰分析では、このようなアウトライヤーサンプルを可能な限り少なくしつつ、相関係数の高い重回帰式を作成することが求められる。

図２は、サンプルの実測値（横軸）と計算値（縦軸）の相関を示す図であり、重回帰分析の結果からアウトライヤーサンプルを取り出して、相関係数Ｒを向上させる手法を説明するための図である。図２において、１はアウトライヤーサンプルであり、このようなアウトライヤーサンプルを取り除いて、回帰線２の周辺に残ったサンプルだけを用いて重回帰式を作成することにより、相関係数Ｒが向上する。ところが、このようにして重回帰式の改良が行われた場合は、上述したように、ノイズとして取り出されたサンプルの情報は新たな重回帰式に反映されることは無いので、アウトライヤーサンプルが有する情報は無視される。

したがって、図２に示すように、比較的サンプル数が少ない場合は、このような重回帰式の改良が効果を有するが、図１に示す場合のようにサンプル数が多くなると、相対的にこのようなアウトライヤーサンプルも増大するので、単純にサンプルセットを取り出して解析を行うと、現実とは大きくかけ離れ、普遍性を欠いた局所解に近い重回帰式が作成される。その結果、サンプルの解析や、予測等を高い信頼性で行う事は不可能となる。

さらに、重回帰分析の目的が単に要因解析である場合は、図２に示すようなアウトライヤーサンプルを取り除いた分析手法でも意味を持つが、目的変数が未知のサンプルについて予測を行う事が主目的であり、その予測信頼性が重要となる場合は、このような分析手法では情報の欠落による適用限界が生じるため、不適切である。

例えば、化合物の毒性予測等の問題では、重回帰式作成時に利用するサンプル数は往々にして極めて大きくなり、したがって、高い相関係数を得ることが極めて困難となる。また、サンプルの多様性も大きい場合が多く、アウトライヤーサンプルとなる比率が大きくなりやすく、やはり高い相関係数を得ることが困難となりやすい。このために、比較的少ない数のサンプルについて重回帰分析を行う場合であっても、予測は極めて困難となる。このように、アウトライヤーサンプルを除去し、再利用しない重回帰手法では、得られた重回帰式による予測信頼性は大きく低下する。したがって、サンプルセットを複数のサブセットに分類する手法でもなく、またアウトライヤーサンプルを除去する分析手法でもない、新たな重回帰分析手法が求められている。

なお、線形、非線形重回帰分析を用いた化合物の毒性や薬理活性予測については、これまでに多くの事例が報告されている（例えば、非特許文献１、２参照）。

永松朝文、他；フラビン及び５−デアザフラビン類縁化合物の抗腫瘍活性分子設計とＰＴＫ阻害に関するＡｕｔｏＤｏｃｋ研究、第２５回メディシナルケミストリーシンポジウム講演要旨集、１Ｐ−２０，ｐｐ．８２−８３、名古屋（２００６）馬場暁子、他；１−β−Ｏ−Ａｃｙｌｇｌｕｃｕｒｏｎｉｄｅｓの親電子反応性に関する構造−活性相関、第３４回構造−活性相関シンポジウム講演要旨集、ＫＰ２０，ｐｐ．１２３−１２６、新潟（２００６）

したがって、本発明によって解決しようとする課題は、サンプル数が多くかつサンプルの多様性が大きい場合であっても、相関度の高い重回帰分析を行って、予測精度の高い予測モデルを作成することができる、予測モデルの作成方法、装置およびプログラムを提供することである。

上記課題を解決するために、第１の発明は、コンピュータによって重回帰分析に基づいた予測モデルを作成するために、ａ）目的変数の実測値が既知のサンプルによって初期サンプルセットを準備し、ｂ）前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、ｃ）前記実測値と前記計算値との差が第１の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、ｄ）前記相関係数または決定係数が第２の値を超えるまで、前記第１の値を変更してステップｃ）を繰り返し、ｅ）ステップｄ）の終了時の前記サブサンプルセットを第１のサブサンプルセットとし、残りのサンプルを第２のサブサンプルセットとして２クラス分類を行い、クラス分類のための判別関数を算出し、ｆ）ステップｄ）の終了時の前記重回帰分析における重回帰式とステップｅ）における判別関数とを予測モデルとして設定し、ｇ）前記第２のサブサンプルセットを前記初期サンプルセットに設定して、ステップｂ）からステップｆ）を繰り返して実行することにより複数の前記予測モデルを獲得する、各ステップを実行することによって、コンピュータによって目的変数が未知のサンプルに対する予測モデルを作成する。

上記第１の発明では、まず、目的変数の実測値が既知である複数のサンプルによって学習データが構成される。この学習データに対して重回帰分析を行って各サンプルの目的変数の計算値を算出する。算出された目的変数の計算値と実測値とを比較し、その差が第１の値以下であるサンプルを取り出して仮のサブサンプルセットを構成する。この第１の値を、例えば最大残差値の１／２に設定することによって、仮のサブサンプルセットは残差値が大きなサンプルを含まなくなる。残差値とは、計算値と実測値との差を示す値であり、残差値が小さいサンプル程、重回帰式によく適合する。

次に、上記サブサンプルセットに対して重回帰分析を実施し、相関係数または決定係数を算出する。この相関係数または決定係数が予め定めた第２の値を超えるまで、上記第１の値を変化させながら上記仮のサブサンプルセットを構成する処理を繰り返す。第２の値を、例えば決定係数に対して９０とした場合、この繰り返しの処理により、決定係数が９０以上であるサブサンプルセットが得られると、これを第１のサブサンプルセットに設定する。さらに、初期サンプルセットから第１のサブサンプルセットを除いた残りを第２のサブサンプルセットとする。第１のサブサンプルセットは、例えば９０以上である高い決定係数を有するため、このサブサンプルセットを特定するために作成した重回帰式を、第１ＳＴＡＧＥの予測モデルに設定する。

同時に、第１および第２のサブサンプルセットを用いて、２クラス分類のための判別関数を算出し、これを上記重回帰式と同様に第１段階の予測モデルとする。なお、第２のサブサンプルセットは残差値が比較的大きいサンプルで構成されるため、その決定係数は低く、したがって第２のサブサンプルセットからは精度の高い重回帰式を得ることができない。

しかしながら、本発明では、次の段階で、第２のサブサンプルセットを初期サンプルセットに設定して、上記第１段階の予測モデルを得る工程を繰り返し、第２の段階における第１のサブサンプルセットを構成する。この第１のサブサンプルセットは高い決定係数を有し、したがって精度の高い重回帰式となる。したがってこの重回帰式を第２段階の予測モデルとする。同時に第１、第２のサブサンプルセットを分類する判別関数を作成しておく。以下、同様にして、第３段階、第４段階の予測モデルを順次形成することによって、殆ど全てのサンプルの情報を含んだ、精度の高い予測モデルを作成することができる。

なお、段階毎の予測モデルの作成工程は、第２のサブサンプルセットに含まれるサンプル数と、そのサンプルセットを特定するために行われた重回帰分析時に使用された初期パラメータ数との比が一定値以下、例えば５以下、となった場合に、その後の予測モデルの作成を行わない。あるいは、段階数が予め規定した一定数を超えた場合に、処理を中止するようにしてもよい。

上記課題を解決するために、第２の発明は、ａ）目的変数の実測値が既知のサンプルによって初期サンプルセットを準備し、ｂ）前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、ｃ）前記実測値と前記計算値との差が第１の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、ｄ）前記相関係数または決定係数が第２の値を超えるまで、前記第１の値を変更してステップｃ）を繰り返し、ｅ）ステップｄ）の終了時の前記サブサンプルセットを第１のサブサンプルセットとし、残りのサンプルを第２のサブサンプルセットとして２クラス分類を行い、クラス分類のための判別関数を算出し、ｆ）ステップｄ）の終了時の前記重回帰分析における重回帰式とステップｅ）における判別関数とを予測モデルとして設定し、ｇ）前記第２のサブサンプルセットを前記初期サンプルセットに設定して、ステップｂ）からステップｆ）を繰り返して実行することにより複数の前記予測モデルを獲得する、各ステップをコンピュータに実行させる、重回帰分析による予測モデルの作成プログラムを提供する。

上記課題を解決するために、第３の発明は、ａ）化合物の任意の毒性を目的変数とし、当該目的変数の実測値が既知の化合物によって初期サンプルセットを準備し、ｂ）前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、ｃ）前記実測値と前記計算値との差が第１の値以下である化合物を取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、ｄ）前記相関係数または決定係数が第２の値を超えるまで、前記第１の値を変更してステップｃ）を繰り返し、ｅ）ステップｄ）の終了時の前記サブサンプルセットを第１のサブサンプルセットとし、残りのサンプルを第２のサブサンプルセットとして２クラス分類を行い、クラス分類のための判別関数を算出し、ｆ）ステップｄ）の終了時の前記重回帰分析における重回帰式とステップｅ）における判別関数とを予測モデルとして設定し、ｇ）前記第２のサブサンプルセットを前記初期サンプルセットに設定して、ステップｂ）からステップｆ）を繰り返して実行することにより複数の前記予測モデルを獲得する、重回帰分析による化合物の毒性予測モデルの作成方法を提供する。

上記課題を解決するために、第４の発明は、目的変数の実測値が既知のサンプルによって初期サンプルセットを準備する第１の手段と、前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得する第２の手段と、前記実測値と前記計算値との差が第１の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出する第３の手段と、前記相関係数または決定係数が第２の値を超えるまで、前記第１の値を変更して前記第３の手段の処理を続行させる第４の手段と、前記第４の手段の処理終了時の前記サブサンプルセットを第１のサブサンプルセットとし、残りのサンプルを第２のサブサンプルセットとして２クラス分類を行い、クラス分類のための判別関数を算出する第５の手段と、前記第４の手段の処理終了時の前記重回帰分析における重回帰式と前記第５の手段によって算出された判別関数とを予測モデルとして設定する第６の手段と、前記第２のサブサンプルセットを前記初期サンプルセットに設定して、前記第２、第３、第４、第５および第６の手段による処理を繰り返して実行させる第７の手段と、を備える、重回帰分析による予測モデルの作成装置を提供する。

本発明の方法、プログラムおよび装置によれば、上述したように、サンプル数が多くかつサンプルの多様性が大きい場合であっても、相関度の高い重回帰分析を行って、予測精度の高い予測モデルを作成することができる。したがって、例えば化合物の毒性予測など、サンプル数が１０００以上もありかつサンプルの多様性が大きい場合であってもの、精度の高い予測モデルを作成することが可能でとなり、その効果は大きい。特に、目的変数が連続して変化するような半数阻害濃度、半数影響濃度、半数致死濃度、さらには化合物の生分解性、生体蓄積性などの予測を行う場合に顕著な効果を示す。

図１は、従来の重回帰分析を説明するための図であって、重回帰分析によって得られたサンプルの計算値と実測値の関係を示す図である。図２は、従来の重回帰分析の一手法を説明するための図であって、アウトライヤーサンプルを取り除いた重回帰分析結果を示す図である。本発明の原理を説明するための図であって、重回帰分析結果をインナー領域とアウター領域に分類した状態を示している。図３に示すインナー領域のサンプルの除去により形成された新たなサンプルセットについての重回帰分析を説明するための図である。図４に示すアウター領域のサンプルによる重回帰分析の結果を示す図である。本発明の一実施形態にかかる予測モデル作成方法の手順を示すフローチャートである。最終パラメータセットを保存するデータテーブルを示す。重回帰分析情報を示すデータテーブルである。重回帰分析結果をグラフィック表示で示す図である。図６のステップＳ８における詳細を示すフローチャートである。図６のステップＳ８における他の実施形態を示すフローチャートである。図６のステップＳ１２の詳細を示すフローチャートである。図６のステップＳ１２で特定されたインナーサンプルのセットにおける重回帰分析の結果をグラフィック表示する図である。図６のステップＳ１２の他の実施形態を示すフローチャートである。各ＳＴＡＧＥにおいて得られた重回帰情報を示す図である。予測モデル保存テーブルを示す。本発明の方法において得られた予測モデルを使用して、目的変数の値が未知であるサンプルについて、予測を実施するためのフローチャートを示す図である。本発明の一実施形態にかかる予測モデル作成装置の構成を示すブロック図である。

符号の説明

３重回帰線
４インナー領域
５アウター領域
６重回帰線
２００予測モデル作成装置
２１０入力装置
２２０出力装置
３００記憶装置
４００解析部

［発明の原理］
本発明の実施形態を説明する前に、まず、本発明の原理について説明する。

上述したように、全サンプル空間からアウトライヤーサンプルを除去した新たなサンプルセットに対して重回帰分析を行うことにより、相関係数Ｒの高い重回帰式を得ることができる。しかしながら、この方法では、アウトライヤーサンプルが有する各種の情報が失われる。そこで、本発明者は、図３に示すように、初期の重回帰分析によるサンプル空間を２個の領域４、５に分離し、それぞれの領域に属するサンプルのサブセットについて個別に重回帰分析を行うことを考えた。

領域４は、初期重回帰分析による回帰線３の近辺の領域であり、領域５は回帰線３から離れた領域である。ここで、回帰線３の近辺の領域４を「インナー領域」と命名し、領域５を「アウター領域」と命名する。さらにインナー領域に属するサンプルを「インナーサンプル」、アウター領域に属するサンプルを「アウターサンプル」と呼ぶ。

インナー領域４とアウター領域５は、重回帰線３からの距離によって決定される。実際は、初期重回帰分析の結果としての、各サンプルの残差を基に決定される。「残差」とは、重回帰式に基づいた計算値（計算値）と実測値の差を意味する。今、初期重回帰分析における最大の残差値の例えば半分の値を閾値とし、閾値以下の残差値を有するサンプルを取り出して新たなサンプルセットを構成し、このサンプルセットについて重回帰分析を行い、相関係数Ｒを得る。

この値Ｒが、例えば９５（相関係数の１００％表示）以下であれば、残差値の閾値をさらに低下させてサンプル数をさらに絞込み、絞り込んだサンプルセットについて再び重回帰分析を行う。このときの相関係数Ｒの値が９５を超えれば、その重回帰分析の対象となったサンプルセットをインナー領域４のサンプル、すなわちインナーサンプルと決定する。インナー領域４の決定によって、アウター領域５は自動的に決定される。

以上のようにして、相関係数Ｒの値が９５を超えるインナーサンプルが特定されると、本発明では、このようなインナーサンプルをサンプルセット全体から取り除き、アウター領域５に属するサンプルによって新たなサンプルセットを構成し、このサンプルセットについて新たな重回帰分析を行う。

図４は、アウター領域５のサンプルについての重回帰分析結果を説明するための図である。図４に示すように、インナーサンプルを全体のサンプルセットから取り除くことによって、アウター領域中に存在するサンプルは、空っぽとなった以前のインナー領域に落ち込み、新たな重回帰線６を形成する。図５は、このようにして形成された、新たなサンプルセットによる相関図を示している。

図５に示す重回帰分析の結果において、重回帰式６による相関係数Ｒの値が例えば９５以下であると、図３に示す第１回目のインナーサンプル、アウターサンプルの特定方法と同様にして、重回帰式６に対するインナー領域４１、アウター領域５１の特定が可能である。そのため、特定されたインナーサンプルについて高い相関係数値、例えば９５以上、を示す重回帰式と、さらにその後の重回帰分析のためのサンプルセット（アウターサンプルのセット）を得ることができる。

以上の手順を、例えばアウター領域に存在するサンプル数が一定値以下となるまで繰り返して行うことにより、高い相関係数値を有する複数の重回帰式が得られる。この重回帰式のセットには、ほとんど全てのサンプルが有する情報が、除去されること無く含まれている。また、サンプル数がどんなに大きな値となっても、この手順を繰り返すことで、殆ど総てのサンプルを用いて重回帰式を作成することが出来る。したがって、この重回帰式セットを予測モデルとして用いることによって、高い信頼性で未知サンプルの予測を行うことができる。この手法はサンプル数の大きさに影響されず、またサンプルの多様性が大きいサンプル群を扱う場合であっても、高い相関係数を持つ重回帰式を容易に構築することが出来る。

［実施形態］
以下に、本発明の一実施形態について説明する。

図６は、本発明の一実施形態にかかる予測モデルの作成方法の全体手順を示すフローチャートである。まず、ステップＳ１において、解析対象である目的変数の値が既知であるサンプルを用意する。本実施形態では、ＩＣ５０を目的変数とする。ＩＣ５０とは半数阻害濃度を意味し、これは、ある化合物が、一セットの実験生物に対してその５０％の遊泳、増殖、成長（藻類では生長）や酵素活性等を阻害すると予想される濃度を意味し、環境毒性を評価する上で非常に重要な指標である。

次のステップＳ２では、各サンプルについて、重回帰分析に使用する初期パラメータ（説明変数）を発生させる。富士通株式会社で販売するＡＤＭＥＷＯＲＫＳ−ＭＯＤＥＬＢＵＩＬＤＥＲ（登録商標）では、化合物の２次元あるいは３次元構造式、各種の物性などに基づいて、８００種類以上のパラメータを自動的に発生させることができる。次に、ＳＴＡＧＥを０に設定し（ステップＳ３）、ステップＳ２で発生させた初期パラメータに対して特徴抽出を行って重回帰分析に必要のないノイズパラメータを除去し（ステップＳ４）、最終パラメータセットを決定する（ステップＳ５）。

図７に最終パラメータセットのデータテーブルを示す。図７のコラム１０は化合物であるサンプルを特定するためのＩＤを示す。コラム１１は、各サンプルの目的変数の値をμＭｏｌの単位で示している。この実施形態では、目的変数をＩＣ５０の値としている。コラム１２は最終パラメータセットを構成する説明変数の名前を示す。この実施形態では、サンプルの総原子数（ｘ１）、炭素原子数（ｘ２）、酸素原子数（ｘ３）、窒素原子数（ｘ４）、硫黄原子数（ｘ５）、フッ素原子数（ｘ６）、塩素原子数（ｘ７）、臭素原子数（ｘ８）などを説明変数として採用している。

図７の表における各セル内に記載された数値が、各サンプルについてのパラメータ値である。例えば、サンプルＩＤが３の化合物は、ＩＣ５０の値が３．２μモル（μＭ）であり、その化合物の総原子数は２１、そのうち炭素原子数は１５、酸素原子数は６であり、窒素、硫黄、フッ素、塩素、臭素原子を含まないことを示している。

図６のステップＳ６では、図７のデータテーブルに示されたデータを用いて重回帰分析を行い、初期重回帰式を形成する。初期重回帰式は、以下のように示される。

Ｙ０＝ａ１・ｘ１＋ａ２・ｘ２＋・・・＋ａｎ・ｘｎ＋Ｃ０（２）
ここで、ａ１、ａ２・・・ａｎは各パラメータｘ１、ｘ２・・・ｘｎに対する係数であり、Ｃ０は定数である。各サンプルについての目的変数の計算値は、式（２）に図７に示す各サンプルのパラメータ値を代入することによって求められる。このようにして算出した各サンプルの目的変数の値を、実測値に対してプロットすることにより、図１に示すようなサンプルの計算値と実測値の相関を示す図が得られる。

図８は、ステップＳ６の初期重回帰分析実施において作成された重回帰式および関連データを示すテーブルである。このデータは、ステップＳ７で出力される。初期重回帰分析の結果、各パラメータに対する係数ａ１、ａ２・・・および定数Ｃ０が決定され、さらに各種の統計情報が算出される。統計情報としては、サンプル数、パラメータ数、信頼性指標（サンプル数／パラメータ数）、決定係数Ｒ２の値、相関係数Ｒの値、Ｆ検定値、クロスバリデーション（％）等がある。ここで、信頼性指標とは、サンプル数をパラメータ数で除した値であり、この値が小さくなるとこのサンプルとパラメータから得られる重回帰式はほとんど科学的及びデータ解析的な意味を持たず、どんなに高いＲ２値やＲ値を得たとしても解析は失敗したと判断される。通常、この値が５よりも大きい場合は意味のあるデータ解析（成功解析）とされ、５よりも大きければ大きい程信頼性の高い重回帰式と見なされる。５に達しない条件下で得られた重回帰式は意味の無いデータ解析より得られたものと判断され、データ解析は失敗解析と見なされる。したがってこの信頼性指標は、重回帰分析においてはＲ２やＲ値よりも重要な指標となる。

本実施形態では、信頼性指標の最低値を５として解析を行った。決定係数Ｒ２、相関係数Ｒ、Ｆ検定値、クロスバリデーションの定義については、重回帰分析の分野において周知であるので、ここでは詳細に説明しない。なお、本実施形態では、重回帰分析の良否を判定するために、決定係数Ｒ２の値を採用しているが、相関係数Ｒを決定係数Ｒ２に代わって用いてもよいことは明らかである。以下では、決定係数Ｒ２は１００％表示でその値を示している。

図８には示していないが、ステップＳ７では、図８に示す係数ａ１、ａ２、・・・および定数Ｃ０の値と、図７に示すパラメータ値を用いて、式（２）にしたがって各サンプルの目的変数Ｙの値が算出され、データテーブルに記憶され出力される。さらに、各サンプルについての残差値が算出され、記憶される。残差値とは、計算された目的変数の値（計算値）と、目的変数の実測値との差を示す値である。

図９は、ステップＳ６における初期重回帰分析の結果をグラフィック表示として示したものである。図９において、２０は、各サンプルについて、目的変数の実測値に対して計算値をプロットしたグラフを示し、２２は、各サンプルの残差値をプロットしたグラフを示している。グラフ２０の横軸は目的変数の実測値を、縦軸は目的変数の計算値を示す。グラフ２２の横軸はサンプルＩＤを、縦軸は残差値を示している。サンプルの残差値が大きい程、そのサンプルはステップＳ６で求めた初期重回帰式に当てはまらない。すなわち、図１の重回帰式で示されるＸ軸(横軸)とＹ軸(縦軸)の対角線上から大きく離れて存在するサンプルとなる。

ステップＳ８において、以降の重回帰分析を必要とするか否かの判定、すなわち終了条件のチェックが実施される。本実施形態では、終了条件として次の３条件を指定している。まず、１）ステップＳ６で行った重回帰分析の結果が充分に精度の高いものであって、これ以上の分析を要しない場合である。この条件は、例えば、決定係数Ｒ２が９０以上であることとして設定される。あるいは、相関係数Ｒが９５以上であるとして設定してもよい。このような条件が満足されると、ステップＳ７で行った重回帰分析は充分な精度を有するものであると判断できるので、それ以降の分析を行わず、ステップＳ７で得られたデータを最終データとして出力し（ステップＳ９）、処理を終了する（ステップＳ１０）。

第２の条件は、ステップＳ６で行った重回帰分析の信頼性指標が５未満であるか否かである。信頼性指標、すなわち、分析に用いたサンプル数が少なくなり、パラメータ数の例えば５倍以下となった場合は、その重回帰分析は科学的に意味を持たなくなる。したがって、信頼性指標が５未満となった場合、ステップＳ８ではＹＥＳと判定し、処理を終了する。なお、信頼性指標に代わって、単にサンプルの最小数を終了条件としてもよい。第３の条件は、ＳＴＡＧＥ数が予め定めた回数を超えたことである。これは、一種の強制終了であって、何らかの原因により分析結果が収束しない場合に、処理を強制的に終了させるための条件である。

図１０Ａおよび図１０Ｂは、ステップＳ８の詳細を示すフローチャートである。図１０Ａでは、まず、ステップＳ８０１で、ＳＴＡＧＥ数が予め定めた回数Ｎを超えたか否かが判定される。ステップＳ８０１でＹＥＳの場合、ステップＳ９、Ｓ１０に移行して処理を終了する。ステップＳ８０１でＮＯの場合、ステップＳ８０２で信頼性指標が５未満であるか否かが判定される。ステップＳ８０２でＹＥＳの場合、ステップＳ９、Ｓ１０に移行して処理を終了する。なお、この実施形態では、信頼性指標の最小値を５としているが、この値は分析の目的によって任意に設定することができる。

ステップＳ８０２でＮＯの場合、ステップＳ８０３で決定係数Ｒ２の値が９０以上であるか否かが判定される。ステップＳ８０３でＹＥＳの場合、ステップＳ９、Ｓ１０に移行して処理を終了する。ステップＳ８０３でＮＯの場合、すなわち、ＳＴＡＧＥ数が所定回数Ｎを超えず、信頼性指標が５以上であって、しかも決定係数Ｒ２が９０未満である場合は、本発明に基づく更なる重回帰分析が必要であるため、ステップＳ１１以降を実行する。

図１０Ｂの場合は、ステップＳ８０４で信頼性指標の代わりに、最小サンプル数Ｓを定義し、分析対象であるサンプル数が予め決定した最小数Ｓ以下となった場合に、処理を終了する。さらに、ステップＳ８０５において、決定係数Ｒ２の代わりに相関係数Ｒを判定に用い、Ｒが９５以上となった場合に処理を終了するようにしている。なお、図１０Ａ、１０Ｂに示すフローチャートにおいて、各種の数値は、重回帰分析の目的などに対応して任意に設定することができる。

図６に戻って、ステップＳ８でＮＯの場合、ステップＳ１１でＳＴＡＧＥ数を１だけ増加させ、ステップＳ１２でアウターサンプル、インナーサンプルの特定を実行する。アウターサンプルは、図３の領域５内のサンプルであり、インナーサンプルは領域４内のサンプルである。図示するように、インナーサンプルとアウターサンプルは、重回帰線３からの距離の大小、すなわち各サンプルの残差の値によって区別される。インナーサンプル、アウターサンプルの特定方法については、図１１を参照して後述するが、ここでは、残差値の大小に基づいて仮のインナーサンプルを設定し、このインナーサンプルセットについて重回帰分析を行ない、決定係数Ｒ２が９０以上となる重回帰式が得られるか否かを見る。

９０以上の決定係数Ｒ２が得られれば、この仮のインナーサンプルセットを最終的なインナーサンプルセットとして特定する。決定係数が９０以下であれば、仮のインナーサンプルセットから残差値の大きいサンプルをさらに除去して、次の仮のインナーサンプルセットを作成し、重回帰分析を行って決定係数を算出する。このような手順を、決定係数が９０以上となるまで繰り返すことによって、最終的なインナーサンプルセットが特定される。インナーサンプルセットが特定されれば、初期サンプルセットからインナーサンプルセットを取り除くことによって、アウターサンプルセットが特定される。インナーサンプルセットの特定に用いられた重回帰式をＳＴＡＧＥ１での予測モデル（重回帰式）の一部とする。

ステップＳ１２において、インナーサンプル、アウターサンプルが特定されると、ステップＳ１３においてインナーサンプルセットを一つのクラスとし、アウターサンプルセットを残る一つのクラスとした２クラス分類を実行し、インナーサンプル、アウターサンプルを分類するための判別式Ｚを作成し、これを記憶する。２クラス分類の手法はどのようなものでもよいが、例えば、発明者が既に特願２００６−３０７２７７において提案している分類手法を用いれば、より精度の高い判別式を得ることができる。このようにして作成された判別式は、ステップＳ１２で得られた重回帰式とともに、ＳＴＡＧＥ１の予測モデルセットを構成する。

ステップＳ１４では、アウターサンプルのみを取出し、新たなサンプルセットを構築し、このサンプルセットについてステップＳ４以下を繰り返して実行する。このとき、ステップＳ８で、アウターサンプルについて新たに行った重回帰分析の結果が終了条件を満足すると判定されると（ステップＳ８のＹＥＳ）、上述したＳＴＡＧＥ１の予測モデルが最終データとして出力され（ステップＳ９）、一連の重回帰分析を終了する（ステップＳ１０）。ステップＳ８で終了条件が満足されない場合（ステップＳ８のＮＯ）、ステップＳ１１以下を実行することにより、ＳＴＡＧＥ２の予測モデルが作成される。以下、同様にして、ステップＳ４からステップＳ１４を、ステップＳ８において終了条件が満足されるまで繰り返すことによって、ＳＴＡＧＥ数に応じた一連の予測モデルセットが作成される。

なお、図６のフローチャートにおいて、ステップＳ１４の次のステップとしてステップＳ４を指定することにより、再度、初期パラメータによる特徴抽出を行っているが、多少の精度を犠牲にすることによって、ステップＳ４を省略することも可能である。この場合、ステップＳ１４からステップＳ５に移行して、ＳＴＡＧＥ０で作成された最終パラメータセットを用いてそれ以降の分析を行う。この手順によれば、初期パラメータセットに対する特徴抽出の行程が不要になるため、処理時間が大幅に短縮される。

図１１は、インナーサンプル、アウターサンプルの特定手順を示すフローチャートであり、図６のステップＳ１２の詳細を示す図である。本実施形態では、上述したように、インナーサンプル、アウターサンプルの特定のために、残差値を利用する。残差値は、図９のグラフ２２に示すように、各サンプルについて個別に算出される。そこで、図１１のステップＳ１２０において残差値を最大残差値の１／２に設定し、設定された残差値以上の残差値を有するサンプルを仮のアウターサンプルに設定し、設定された残差値以下の残差値を有するサンプルを仮のインナーサンプルに設定する（ステップＳ１２１）。

ステップＳ１２２からステップＳ１２５までは、ステップＳ１２１で設定された仮のインナーサンプルのセットに対して、重回帰分析を行い、重回帰情報を出力する手順を示している。これらのステップの詳細は、図６のフローチャートにおけるステップＳ４からステップＳ７と同様であるので、その説明は省略する。なお、図１１のフローチャートにおいても、ステップＳ１２２の省略が可能であることは上述したとおりである。ステップＳ１２５で、仮のインナーサンプルのセットに対する重回帰情報が出力されると、ステップＳ１２６において、信頼性指標が５以上であるか否かが調べられる。

ステップＳ１２６で信頼性指標が５未満であると判定されると（ステップＳ１２６のＮＯ）、そのサンプルセットは重回帰分析に不適当であると判定されるため、ステップＳ１２７において残差値に定数αが加えられる。定数αは、残差値をあまり大きくない範囲で上げるために任意で選択された定数である。ステップＳ１２７を終了するとステップＳ１２１に戻り、定数αが加えられた残差値を用いて、改めて仮のインナーサンプルのセットを設定する。この仮のインナーサンプルセットを用いてステップＳ１２２からステップＳ１２５を実行し、ステップＳ１２６において、再度信頼性指標をチェックする。

ステップＳ１２６でＹＥＳとなった場合、ステップＳ１２８で決定係数Ｒ２がチェックされる。ここで、決定係数Ｒ２が９０以上の場合（ステップＳ１２８のＹＥＳ）、ステップＳ１２９で現在の仮のインナーサンプルをインナーサンプルとして決定し、ステップＳ１３０でアウターサンプルを特定する。アウターサンプルは、ステップＳ１２９でインナーサンプルと決定されたサンプルを、図１１のフローを開始するときの全サンプルセットから取り除くことによって、特定される。

ステップＳ１２８でＮＯの場合、すなわち作成された重回帰式による決定係数Ｒ２が９０以下である場合は、ステップＳ１３１において残差値をαだけ小さくし、さらに多くのサンプルを除去した後、再度ステップＳ１２１以下を実行する。ステップＳ１３１の定数αは、ステップＳ１２７の定数αと必ずしも同じである必要は無く、任意に設定が可能である。

以上のような手順を経て、ステップＳ１２９において最終的なインナーサンプルのセットが特定されると、この特定のためにステップＳ１２４で作成された重回帰式が、そのＳＴＡＧＥの予測モデルとして設定される。

図１２は、ステップＳ１２９で特定されたインナーサンプルのセットについて、重回帰式情報を、図９の場合と同様にしてグラフィック表示させたものである。図１２の２４は、各サンプルについて目的変数の実測値に対して計算値をプロットしたグラフを示し、２６は、各サンプルの残差値をプロットしたグラフを示している。グラフ２４の横軸は目的変数の実測値を、縦軸は目的変数の計算値を示す。グラフ２６の横軸はサンプルＩＤを、縦軸は残差値を示している。図１２のグラフ２６では、図８のグラフ２２において存在していた残差値の高いサンプルが取り除かれており、その結果、グラフ２４に示すように、インナーサンプルは重回帰線の周辺に集まって分布し、高い相関を示すようになる。なお、図９のグラフ２２と図１２のグラフ２６における縦軸は同じスケールを示すものではない。

図１３は、図１１に示すインナーサンプル、アウターサンプルの特定手順の他の実施形態を示す図である。本実施形態では、ステップＳ１３５において、残差値として最大残差値から一定数βを引いた値を設定し、この残差値以下の残差値を有するサンプルを仮のインナーサンプルとして設定するようにしている。この場合、ステップＳ１２６で信頼性指標が５以下であると判定されると（ステップＳ１２６のＮＯ）、ステップＳ１３６で、残差値にγだけ加算し、新たな残差値としてステップＳ１２１以下を実行する。ステップＳ１２８で、決定係数Ｒ２が９０以下であると判定されると（ステップＳ１２８のＮＯ）、ステップＳ１３７で、残差値からさらに定数βを差し引いて新たな残差値とし、ステップＳ１２１以下を実行する。

すなわち、図１３に示す実施形態では、最大残差値を徐々に低下させることによって、インナーサンプルセット、アウターサンプルセットを特定しようとするものである。

図１４は、以上のようにして特定された各ＳＴＡＧＥのインナーサンプル、アウターサンプルについての重回帰式情報を示すデータテーブルである。ＳＴＡＧＥ０では、７７９個のサンプルについて２８個のパラメータを適用し、重回帰分析を行った結果、決定係数Ｒ２として７２．８の値が得られたことを示している。ＳＴＡＧＥ１では、インナーサンプルとして３９８個のサンプルが特定され、このサンプルに２２個のパラメータを適用して重回帰分析を行った結果、決定係数として９６．２の値が得られたことを示している。ＳＴＡＧＥ１のアウターサンプルでは、決定係数が６４．７であった。

ＳＴＡＧＥ２の分析は、ＳＴＡＧＥ１で特定されたアウターサンプルをサンプルセットとして行われている。ＳＴＡＧＥｎでは、アウターサンプルセットについての信頼性指標が５以下であるので、このサンプルセットを新たなサンプルセットとする重回帰分析は行われない。したがって、ＳＴＡＧＥｎではインナーサンプルのみに関する重回帰式情報のみが出力され、アウターサンプルは通常実施される重回帰分析同様にアウトライヤーサンプルとして扱われ、データ解析に再利用されることはない。

図１５は、以上のようにして作成された予測モデルセットを保存するテーブルを示す。図示するように、各ＳＴＡＧＥのインナーサンプルについての重回帰式Ｙｉｎｎが、各ＳＴＡＧＥにおける予測モデルとして記憶される。同時に、図６のフローチャートの説明の部分で述べたように、各ＳＴＡＧＥのインナーサンプルとアウターサンプルについて行った２クラス分類の判別関数Ｚも、予測モデルとして記憶される。なお、図１５において、α１１〜αｎｎは重回帰式Ｙにおける各パラメータに対する係数、Ｃ（１）〜Ｃ（ｎ）は重回帰式Ｙの定数、β１１〜βｎｎは２クラス判別関数Ｚの各パラメータに対する係数、Ｋ（１）〜Ｋ（ｎ）は判別関数Ｚの定数をそれぞれ示している。

図１６は、このようにして形成された予測モデルを使用して、目的変数の値が未知であるサンプルの予測を行う場合の手順を示すフローチャートである。まず、ステップＳ３０において、目的変数が未知のサンプルＷについてパラメータを準備する。ステップＳ３１ではＳＴＡＧＥを１に設定し、ステップＳ３２においてＳＴＡＧＥ１の予測モデルとして設定されている２クラス判別関数をサンプルＷに適用する。ステップＳ３３では、２クラス判別関数の適用によって、サンプルＷがインナーサンプルのクラスに属するか、アウターサンプルのクラスに属するかがチェックされる。

ステップＳ３３で、サンプルＷがインナーサンプルのクラスに属すると判定されると（ステップＳ３３のＹＥＳ）、ステップＳ３４においてＳＴＡＧＥ１の予測モデルとして設定されている、インナーサンプルについての重回帰式をサンプルＷに適用し、目的変数を算出する。算出された値がサンプルＷについての最終予測値であり、したがってステップＳ３５において予測処理を終了する。一方、ステップＳ３３でサンプルＷがアウターサンプルのクラスに属すると決定されると（ステップＳ３３のＮＯ）、ステップＳ３６においてＳＴＡＧＥ数が処理を終了する回数であるＮを超えていないことを確認した後（ステップＳ３６のＹＥＳ）、ステップＳ３７においてＳＴＡＧＥを１だけ増加させて、ステップＳ３２以下を再度、実行する。

ステップＳ３２、ステップＳ３３、ステップＳ３６、ステップＳ３７のループは、ステップＳ３３においてサンプルＷがインナーサンプルのクラスに属すると決定されるか、あるいはステップＳ３６においてＳＴＡＧＥ数がＮを超えるまで、繰り返される。このようにして、いずれかのＳＴＡＧＥにおいてサンプルＷがインナーサンプルのクラスに所属するとして特定されると、ステップＳ３４においてそのＳＴＡＧＥのインナーサンプルについての重回帰式を適用して目的変数を算出し、これをそのサンプルの最終予測値として決定する。

以上の結果、アウターサンプルについての情報を失うことなく、高い信頼性で未知サンプルの目的変数の予測が可能となる。なお、上記実施形態は、化合物のＩＣ５０、即ち半数阻害濃度の予測モデル作成について記載しているが、半数影響濃度（ＥＣ５０）、半数致死濃度（ＬＣ５０）などを目的変数としても本発明が実施できることはもちろんである。また、化合物の生分解性、生体蓄積性についても、効果的な予測が可能である。さらに、上述した実施形態では、例えばステップＳ８０３（図１０Ａ参照）、ステップＳ１２８（図１１参照）で、決定係数Ｒ２の値が９０以上を判定基準としているが、この値は絶対的ではない。発明者の実験では、決定係数Ｒ２が８０程度以上で、充分に精度の高い予測モデルを作成することが可能であった。同様に、ステップＳ８０５（図１０Ｂ参照）の相関係数Ｒも、９０程度で充分に精度の高い予測モデルの作成が可能である。

［システム構成］
図１７は、本発明の一実施形態に係る予測モデル作成装置のシステム構成を示すブロック図である。なお、この装置は、作成され保存された予測モデルを使用して、目的変数が未知のサンプルについて、予測値を算出する機能も供えている。本実施形態の予測モデル作成装置２００は、サンプルデータを入力する入力装置２１０、予測モデルあるいは処理途中でユーザが必要とするデータを出力する出力装置２２０を備えている。入力装置２１０から、重回帰分析による予測モデル作成に必要なサンプル情報が記憶装置３００の入力データテーブル３１０に入力される。入力装置２１０は、同様に初期パラメータセットのデータを初期パラメータセットテーブル３２０に入力する。なお、解析部４００が入力されたサンプルについて初期パラメータを自動的に発生するためのエンジン４１０を有している場合は、初期パラメータセットデータを入力装置２１０から入力する必要はない。

図１７において、３３０は最終パラメータセットを保存するテーブルであり、初期パラメータセットに対して特徴抽出を行った結果としての最終パラメータセットを保存する。３４０は、解析の結果作成された予測モデルを保存するためのテーブルであり、具体的にはＳＴＡＧＥごとに決定されたインナーサンプル／アウターサンプルの２クラス分類のための判別関数と、ＳＴＡＧＥごとに決定されたインナーサンプルのセットに対する重回帰式を保存する。

解析部４００は、制御部４２０と、初期パラメータ発生エンジン４１０、特徴抽出エンジン４３０、重回帰式作成エンジン４４０、インナーサンプルセットの設定部４５０、２クラス分類のための判別関数作成エンジン４６０、新たなサンプルセット設定部４７０および解析終了条件検出部４８０を備えている。初期パラメータを本装置の外部で発生させる場合は、初期パラメータ発生エンジン４１０は必要とされない。また、初期パラメータ発生エンジン４１０、特徴抽出エンジン４３０は、既存のものを使用することができる。

特徴抽出エンジン４３０は、初期パラメータセットに対して特徴抽出を行って最終パラメータセットを決定し、これを最終パラメータセットテーブル３３０に保存する。重回帰式作成エンジン４４０は、種々の既存の重回帰式作成プログラムを備えており、ユーザによって指定された重回帰式作成プログラムあるいはシステムが適宜選択したプログラムを用いて、最終パラメータセットテーブル３３０を参照しながら、入力サンプルセットについての重回帰分析を行い、初期重回帰式を作成する。インナーサンプルセット設定部４７０は、作成された初期重回帰式の結果からインナーサンプルのセットを特定する。この特定は、サンプルの残差値および決定係数に基づいて実行される。インナーサンプルセットの特定によって、アウターサンプルセットも特定される。

判別関数作成エンジン４６０は、種々の既存の判別関数作成プログラムを備えており、ユーザによって指定された判別関数作成プログラムあるいはシステムが適宜選択したプログラムを用いて、インナーサンプルセットおよびアウターサンプルセットに対して２クラス分類を行って、インナーサンプルとアウターサンプルとを分類するための判別関数を作成する。新たなサンプルセット設定部４７０は、インナーサンプルセット設定部４５０によって特定されたアウターサンプルセットを、次のＳＴＡＧＥのサンプルセットとして設定する。

初期パラメータ発生エンジン４１０、特徴抽出エンジン４３０、重回帰式作成エンジン４４０、インナーサンプルセット設定部４５０、判別関数作成エンジン４６０、新たなサンプルセット設定部４７０、解析終了条件検出部４８０は、制御部４２０の制御下で作動し、図６および図１１（あるいは図１３）に示す処理を実行する。なお、解析終了条件検出部４８０は、図１０Ａあるいは１０Ｂに示す処理を実行する。なお、解析終了条件は、システムによって予め設定しておいてもよく、あるいは、入力装置２１０を介してユーザが適宜設定するようにしてもよい。

予測値算出エンジン４９０は、入力装置２１０より入力された目的変数が未知のサンプルについて、予測モデル保存テーブル３４０に保存された判別関数と重回帰式および最終パラメータセットテーブル３３０に保存されたデータを参照しながら、そのサンプルの目的変数の値（予測値）を計算する。

解析部４００で得られた各ＳＴＡＧＥのインナーサンプルセット／アウターサンプルセットに関する２クラス分類の判別関数、インナーサンプルセットについての重回帰式、さらに予測結果は、記憶装置３００の予測モデル保存テーブル３４０にあるいは出力装置２２０を介して外部に出力される。出力の形態は、ＵＳＢファイル、ディスプレイ、プリントアウト等が適宜選択可能である。

本発明は、重回帰分析が適用可能な全ての産業分野に適用可能である。以下に、主な適用分野を列挙する。

１）化学データ解析
２）バイオ関連研究
３）蛋白質関連研究
４）医療関連研究
５）食品関連研究
６）経済関連研究
７）工学関連研究
８）生産歩留まり向上等を目的としたデータ解析
９）環境関連研究
１）の化学データ解析分野では、より詳細には、下記のような研究に適用できる。
（１）構造−活性／ＡＤＭＥ／毒性／物性相関の研究
（２）構造−スペクトル相関研究
（３）メタボノミクス関連研究
（４）ケモメトリクス研究

例えば、構造−毒性相関研究分野では、化合物の半数阻害濃度（ＩＣ５０）、半数影響濃度（ＥＣ５０）、半数致死濃度（ＬＣ５０）、分解性試験、濃縮性試験、２８日間反復投与毒性試験等の予測を行うことが極めて重要である。これらは毒性化合物規制関連の化合物審査法や労働安全衛生法等の国レベルの化合物規制に、最重要項目の一つして組み込まれているからである。この濃度基準をクリアしなければ、日本国内での化合物生産はできなくなり、企業の生産活動自体がストップする。また、海外での生産や輸出等も対象国の安全性規制により活動できなくなる。例えば、ヨーロッパ議会におけるＲＥＡＣＨ規則では、化合物を使用する企業が、その化合物についてこれらの濃度を予測し、評価する義務を負っている。従って、高い予測精度で、これらの濃度を予測することが可能な本発明の方法、装置、プログラムは、ＲＥＡＣＨ規則を実行する上で、有効なツールとなる。

Claims

コンピュータによる重回帰分析に基づいた予測モデルの作成方法であって、
ａ）目的変数の実測値が既知のサンプルによって初期サンプルセットを準備し、
ｂ）前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、
ｃ）前記実測値と前記計算値との差が第１の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、
ｄ）前記相関係数または決定係数が第２の値を超えるまで、前記第１の値を変更してステップｃ）を繰り返し、
ｅ）ステップｄ）の終了時の前記サブサンプルセットを第１のサブサンプルセットとし、残りのサンプルを第２のサブサンプルセットとして２クラス分類を行い、クラス分類のための判別関数を算出し、
ｆ）ステップｄ）の終了時の前記重回帰分析における重回帰式とステップｅ）における判別関数とを予測モデルとして設定し、
ｇ）前記第２のサブサンプルセットを前記初期サンプルセットに設定して、ステップｂ）からステップｆ）を繰り返して実行することにより複数の前記予測モデルを獲得する、各ステップを含む、コンピュータによる重回帰分析に基づいた予測モデルの作成方法。
請求項１に記載の方法において、
ステップｇ）は、サブサンプルセットに含まれるサンプルの数と重回帰分析に使用するパラメータ数との比が一定値以下となったとき、前記繰り返しを停止することを特徴とする、コンピュータによる重回帰分析に基づいた予測モデルの作成方法。
請求項１に記載の方法において、
ステップｇ）は、前記繰り返しの回数が予め定めた回数に達したとき、前記繰り返しを停止することを特徴とする、コンピュータによる重回帰分析に基づいた予測モデルの作成方法。
請求項１に記載の方法において、
ステップｄ）における前記決定係数についての前記第２の値は、決定係数が１であるときを１００とした場合に、８０以上であることを特徴とする、コンピュータによる重回帰分析に基づいた予測モデルの作成方法。
ａ）目的変数の実測値が既知のサンプルによって初期サンプルセットを準備し、
ｂ）前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、
ｃ）前記実測値と前記計算値との差が第１の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、
ｄ）前記相関係数または決定係数が第２の値を超えるまで、前記第１の値を変更してステップｃ）を繰り返し、
ｅ）ステップｄ）の終了時の前記サブサンプルセットを第１のサブサンプルセットとし、残りのサンプルを第２のサブサンプルセットとして２クラス分類を行い、クラス分類のための判別関数を算出し、
ｆ）ステップｄ）の終了時の前記重回帰分析における重回帰式とステップｅ）における判別関数とを予測モデルとして設定し、
ｇ）前記第２のサブサンプルセットを前記初期サンプルセットに設定して、ステップｂ）からステップｆ）を繰り返して実行することにより複数の前記予測モデルを獲得する、各ステップをコンピュータに実行させる、重回帰分析に基づいた予測モデルの作成プログラム。
コンピュータによる重回帰分析に基づいた化合物の毒性予測モデルの作成方法であって、
ａ）化合物の任意の毒性を目的変数とし、当該目的変数の実測値が既知の化合物によって初期サンプルセットを準備し、
ｂ）前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、
ｃ）前記実測値と前記計算値との差が第１の値以下である化合物を取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、
ｄ）前記相関係数または決定係数が第２の値を超えるまで、前記第１の値を変更してステップｃ）を繰り返し、
ｅ）ステップｄ）の終了時の前記サブサンプルセットを第１のサブサンプルセットとし、残りのサンプルを第２のサブサンプルセットとして２クラス分類を行い、クラス分類のための判別関数を算出し、
ｆ）ステップｄ）の終了時の前記重回帰分析における重回帰式とステップｅ）における判別関数とを予測モデルとして設定し、
ｇ）前記第２のサブサンプルセットを前記初期サンプルセットに設定して、ステップｂ）からステップｆ）を繰り返して実行することにより複数の前記予測モデルを獲得する、コンピュータによる重回帰分析に基づいた化合物の毒性予測モデルの作成方法。
目的変数の実測値が既知のサンプルによって初期サンプルセットを準備する第１の手段と、
前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得する第２の手段と、
前記実測値と前記計算値との差が第１の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出する第３の手段と、
前記相関係数または決定係数が第２の値を超えるまで、前記第１の値を変更して前記第３の手段の処理を続行させる第４の手段と、
前記第４の手段の処理終了時の前記サブサンプルセットを第１のサブサンプルセットとし、残りのサンプルを第２のサブサンプルセットとして２クラス分類を行い、クラス分類のための判別関数を算出する第５の手段と、
前記第４の手段の処理終了時の前記重回帰分析における重回帰式と前記第５の手段によって算出された判別関数とを予測モデルとして設定する第６の手段と、
前記第２のサブサンプルセットを前記初期サンプルセットに設定して、前記第２、第３、第４、第５および第６の手段による処理を繰り返して実行させる第７の手段と、を備える、重回帰分析に基づいた予測モデルの作成装置。
コンピュータによって目的変数が未知のサンプルの目的変数を予測するための方法であって、
重回帰式と２クラス分類の判別関数とをセットとする予測モデルを複数個用意する第１のステップであって、前記複数の予測モデルのセットは、
ａ）目的変数の実測値が既知のサンプルによって初期サンプルセットを準備し、
ｂ）前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、
ｃ）前記実測値と前記計算値との差が第１の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、
ｄ）前記相関係数または決定係数が第２の値を超えるまで、前記第１の値を変更してステップｃ）を繰り返し、
ｅ）ステップｄ）の終了時の前記サブサンプルセットを第１のサブサンプルセットとし、残りのサンプルを第２のサブサンプルセットとして２クラス分類を行い、クラス分類のための判別関数を算出し、
ｆ）ステップｄ）の終了時の前記重回帰分析における重回帰式とステップｅ）における判別関数とを予測モデルとして設定し、
ｇ）前記第２のサブサンプルセットを前記初期サンプルセットに設定して、ステップｂ）からステップｆ）を繰り返して複数の前記予測モデルを獲得する、各ステップを実行することによって生成される、前記第１のステップと、
目的変数が未知のサンプルに対して、当該サンプルが前記第１のサブサンプルセットに属すると判定されるまで、前記複数の予測モデルにおける判別関数を、形成された順序にしたがって順次適用する第２のステップと、
前記第２のステップにおいて、前記未知サンプルが前記第１のサブサンプルセットに属すると判定されると、当該判定に使用した判別関数と同じ予測モデルのセットに属する重回帰式を、前記未知サンプルに適用して目的変数を算出する第３のステップと、を備える、目的変数の値が未知のサンプルについて目的変数を予測するための方法。