JP5071475B2 - 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム - Google Patents

重回帰分析による予測モデルの作成方法、作成装置、作成プログラム Download PDF

Info

Publication number
JP5071475B2
JP5071475B2 JP2009508760A JP2009508760A JP5071475B2 JP 5071475 B2 JP5071475 B2 JP 5071475B2 JP 2009508760 A JP2009508760 A JP 2009508760A JP 2009508760 A JP2009508760 A JP 2009508760A JP 5071475 B2 JP5071475 B2 JP 5071475B2
Authority
JP
Japan
Prior art keywords
multiple regression
value
sample set
sample
regression analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009508760A
Other languages
English (en)
Other versions
JPWO2008126209A1 (ja
Inventor
浩太郎 湯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2008126209A1 publication Critical patent/JPWO2008126209A1/ja
Application granted granted Critical
Publication of JP5071475B2 publication Critical patent/JP5071475B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、サンプルの物理的、化学的あるいは生理学的な特性に関するデータが連続量である場合に、そのデータの予測を行うための、フィッティング手法による予測モデル(予測式)の作成方法、作成装置および作成プログラムに関し、特に、予測信頼性の高い予測モデルを作成するための方法、装置およびプログラムに関する。
サンプルの物理的、化学的あるいは生理学的な特性(目的変数)を予測するためのモデルを作成するにあたって、目的変数が数値的に連続量である場合、適用されるデータ解析手法は一般的にフィッティング手法と言われる。このための、代表的な解析手法として回帰分析手法がある。これは、目的変数が既知のサンプルについて、適宜に設定した説明変数を適用して回帰分析を行い、目的変数と説明変数間の関係を規定する回帰式を算出し、この式に基づいて、目的変数が未知のサンプルについて目的変数の値を予測するものである。説明変数が複数個ある場合を、重回帰分析と呼ぶ。フィッティング手法には、線形重回帰分析法および非線形重回帰分析法、その他としてPLS(Partial Least Squares)、ニューラルネットワークがあるが、本発明の方法は、何れの分析方法でも適用可能である。
未知サンプルの予測信頼度は、線形重回帰手法の適用によって算出された重回帰式の良否による。重回帰式の良否は、相関係数Rあるいは決定係数R2の値で評価される。これらの値が1に近づくほど良好な回帰式となり、0に近づくほど粗悪な回帰式となる。
図1に、あるサンプルセットを線形重回帰分析した結果を示す。この図は、サンプルの目的変数について、実測値と計算値(予測モデルを用いて計算された値)の相関関係を示している。図の横軸は、各サンプルの目的変数についての実測値を示し、縦軸は、重回帰分析の結果として得られた重回帰式(予測モデル)に基づいて計算された、各サンプルの目的変数Yの値を示す。この場合の重回帰式は、以下の式(1)で示される。
Y=±a1・x1±a2・x2±・・・±an・xn±C (1)
式(1)において、Yは各サンプルの目的変数の計算値を示し、x1、x2・・・xnは説明変数の値を、a1、a2・・・anは係数を、Cは定数をそれぞれ示している。各サンプルについて、説明変数の値を式(1)に入力することによって、各サンプルの目的変数Yの値が算出される。式(1)に基づいて算出した目的変数Yの値が、サンプルの実測値と一致した場合、サンプル○は図1の回帰線Y上に乗る。したがって、サンプルが回帰線Yの周りに密集して分布すればするほど、その回帰式は良好(信頼性の高い)な回帰式であると判断される。重回帰式の信頼性は、相関係数Rによって決定される。相関係数Rが1の場合、サンプルは回帰線上に載る。図1では、相関係数Rが0.7の場合を示している。
一般に、サンプル数が少ない場合は、サンプルを比較的簡単に回帰線上に乗せることができる。ところが、サンプル数が多くなるとノイズとなるサンプルが相対的に増えるために、全てのサンプルを一つの回帰線上に分布させることが極めて困難となる。したがって、サンプル数が多い場合の解析手法として、全サンプルをより小さなサブセットに分類し、これらのサブセット単位で回帰式を求めることが行われている。このようなサブセット毎の回帰分析を実行する場合、全サンプルをどのようにして複数のサブセットに分類するかが極めて重要となり、結果として得られる回帰式の信頼度や予測性に大きな影響を与える。また、未知サンプルの目的変数の予測を行う場合、予測対象のサンプルに対して、どのサブセットについて作成された回帰式を適用するかの選択も重要であり、この選択を誤ると全く信頼性のない予測結果、すなわち、実際の値と大きくかけ離れた値、が得られる。
一般的に、回帰式の信頼性を上げることはデータ解析において極めて重要である。このための手法の一つとして、回帰線から離れたサンプル、すなわち、実測値と予測値が大きく異なるサンプルを、サンプルセットから取り除くことが、良い重回帰式作成のための重要な作業として行われている。回帰線から遠く離れて存在するサンプルはアウトライヤーサンプルと呼ばれ、このようなサンプルを取り除けば確実に相関係数Rの値を向上させることができる。重回帰式(予測モデル)を作成するための一般的な線形重回帰プログラムでは、このようなアウトライヤーサンプルの発生が最小限となるような重回帰式を、自動的に作成するように設計されている。
したがって、サンプルセット内に、一個でも他とは目的変数の値が大きく外れたサンプルが存在すると、重回帰式がそのようなアウトライヤーサンプルに大きく引きずられ、その影響を強く受けた重回帰式が生成される。したがって、通常のデータ解析では、このようなアウトライヤーサンプルを発見し、これをサンプルセットから取出して残りのサンプルを用いて重回帰式を作成するようにしている。この場合、取り出されたアウトライヤーサンプルはデータ解析的にはノイズと判断され、データ解析過程では2度と利用されることはない。すなわち、アウトライヤーサンプルとして取り出されたサンプルに関する情報はデータ解析上、切り捨てられることとなる。この結果、作成された重回帰式の相関係数が高くとも、アウトライヤーサンプルに類似・関連したサンプルを予測する場合の予測信頼性が低下し、結果的に適用範囲の狭い重回帰式となり、汎用性が大きく低下する。したがって、重回帰分析では、このようなアウトライヤーサンプルを可能な限り少なくしつつ、相関係数の高い重回帰式を作成することが求められる。
図2は、サンプルの実測値(横軸)と計算値(縦軸)の相関を示す図であり、重回帰分析の結果からアウトライヤーサンプルを取り出して、相関係数Rを向上させる手法を説明するための図である。図2において、1はアウトライヤーサンプルであり、このようなアウトライヤーサンプルを取り除いて、回帰線2の周辺に残ったサンプルだけを用いて重回帰式を作成することにより、相関係数Rが向上する。ところが、このようにして重回帰式の改良が行われた場合は、上述したように、ノイズとして取り出されたサンプルの情報は新たな重回帰式に反映されることは無いので、アウトライヤーサンプルが有する情報は無視される。
したがって、図2に示すように、比較的サンプル数が少ない場合は、このような重回帰式の改良が効果を有するが、図1に示す場合のようにサンプル数が多くなると、相対的にこのようなアウトライヤーサンプルも増大するので、単純にサンプルセットを取り出して解析を行うと、現実とは大きくかけ離れ、普遍性を欠いた局所解に近い重回帰式が作成される。その結果、サンプルの解析や、予測等を高い信頼性で行う事は不可能となる。
さらに、重回帰分析の目的が単に要因解析である場合は、図2に示すようなアウトライヤーサンプルを取り除いた分析手法でも意味を持つが、目的変数が未知のサンプルについて予測を行う事が主目的であり、その予測信頼性が重要となる場合は、このような分析手法では情報の欠落による適用限界が生じるため、不適切である。
例えば、化合物の毒性予測等の問題では、重回帰式作成時に利用するサンプル数は往々にして極めて大きくなり、したがって、高い相関係数を得ることが極めて困難となる。また、サンプルの多様性も大きい場合が多く、アウトライヤーサンプルとなる比率が大きくなりやすく、やはり高い相関係数を得ることが困難となりやすい。このために、比較的少ない数のサンプルについて重回帰分析を行う場合であっても、予測は極めて困難となる。このように、アウトライヤーサンプルを除去し、再利用しない重回帰手法では、得られた重回帰式による予測信頼性は大きく低下する。したがって、サンプルセットを複数のサブセットに分類する手法でもなく、またアウトライヤーサンプルを除去する分析手法でもない、新たな重回帰分析手法が求められている。
なお、線形、非線形重回帰分析を用いた化合物の毒性や薬理活性予測については、これまでに多くの事例が報告されている(例えば、非特許文献1、2参照)。
永松朝文、他;フラビン及び5−デアザフラビン類縁化合物の抗腫瘍活性分子設計とPTK阻害に関するAutoDock研究、第25回メディシナルケミストリーシンポジウム講演要旨集、1P−20,pp.82−83、名古屋(2006) 馬場暁子、他;1−β−O−Acyl glucuronidesの親電子反応性に関する構造−活性相関、第34回構造−活性相関シンポジウム講演要旨集、KP20,pp.123−126、新潟(2006)
したがって、本発明によって解決しようとする課題は、サンプル数が多くかつサンプルの多様性が大きい場合であっても、相関度の高い重回帰分析を行って、予測精度の高い予測モデルを作成することができる、予測モデルの作成方法、装置およびプログラムを提供することである。
上記課題を解決するために、第1の発明は、コンピュータによって重回帰分析に基づいた予測モデルを作成するために、a)目的変数の実測値が既知のサンプルによって初期サンプルセットを準備し、b)前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、c)前記実測値と前記計算値との差が第1の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、d)前記相関係数または決定係数が第2の値を超えるまで、前記第1の値を変更してステップc)を繰り返し、e)ステップd)の終了時の前記サブサンプルセットを第1のサブサンプルセットとし、残りのサンプルを第2のサブサンプルセットとして2クラス分類を行い、クラス分類のための判別関数を算出し、f)ステップd)の終了時の前記重回帰分析における重回帰式とステップe)における判別関数とを予測モデルとして設定し、g)前記第2のサブサンプルセットを前記初期サンプルセットに設定して、ステップb)からステップf)を繰り返して実行することにより複数の前記予測モデルを獲得する、各ステップを実行することによって、コンピュータによって目的変数が未知のサンプルに対する予測モデルを作成する。
上記第1の発明では、まず、目的変数の実測値が既知である複数のサンプルによって学習データが構成される。この学習データに対して重回帰分析を行って各サンプルの目的変数の計算値を算出する。算出された目的変数の計算値と実測値とを比較し、その差が第1の値以下であるサンプルを取り出して仮のサブサンプルセットを構成する。この第1の値を、例えば最大残差値の1/2に設定することによって、仮のサブサンプルセットは残差値が大きなサンプルを含まなくなる。残差値とは、計算値と実測値との差を示す値であり、残差値が小さいサンプル程、重回帰式によく適合する。
次に、上記サブサンプルセットに対して重回帰分析を実施し、相関係数または決定係数を算出する。この相関係数または決定係数が予め定めた第2の値を超えるまで、上記第1の値を変化させながら上記仮のサブサンプルセットを構成する処理を繰り返す。第2の値を、例えば決定係数に対して90とした場合、この繰り返しの処理により、決定係数が90以上であるサブサンプルセットが得られると、これを第1のサブサンプルセットに設定する。さらに、初期サンプルセットから第1のサブサンプルセットを除いた残りを第2のサブサンプルセットとする。第1のサブサンプルセットは、例えば90以上である高い決定係数を有するため、このサブサンプルセットを特定するために作成した重回帰式を、第1STAGEの予測モデルに設定する。
同時に、第1および第2のサブサンプルセットを用いて、2クラス分類のための判別関数を算出し、これを上記重回帰式と同様に第1段階の予測モデルとする。なお、第2のサブサンプルセットは残差値が比較的大きいサンプルで構成されるため、その決定係数は低く、したがって第2のサブサンプルセットからは精度の高い重回帰式を得ることができない。
しかしながら、本発明では、次の段階で、第2のサブサンプルセットを初期サンプルセットに設定して、上記第1段階の予測モデルを得る工程を繰り返し、第2の段階における第1のサブサンプルセットを構成する。この第1のサブサンプルセットは高い決定係数を有し、したがって精度の高い重回帰式となる。したがってこの重回帰式を第2段階の予測モデルとする。同時に第1、第2のサブサンプルセットを分類する判別関数を作成しておく。以下、同様にして、第3段階、第4段階の予測モデルを順次形成することによって、殆ど全てのサンプルの情報を含んだ、精度の高い予測モデルを作成することができる。
なお、段階毎の予測モデルの作成工程は、第2のサブサンプルセットに含まれるサンプル数と、そのサンプルセットを特定するために行われた重回帰分析時に使用された初期パラメータ数との比が一定値以下、例えば5以下、となった場合に、その後の予測モデルの作成を行わない。あるいは、段階数が予め規定した一定数を超えた場合に、処理を中止するようにしてもよい。
上記課題を解決するために、第2の発明は、a)目的変数の実測値が既知のサンプルによって初期サンプルセットを準備し、b)前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、c)前記実測値と前記計算値との差が第1の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、d)前記相関係数または決定係数が第2の値を超えるまで、前記第1の値を変更してステップc)を繰り返し、e)ステップd)の終了時の前記サブサンプルセットを第1のサブサンプルセットとし、残りのサンプルを第2のサブサンプルセットとして2クラス分類を行い、クラス分類のための判別関数を算出し、f)ステップd)の終了時の前記重回帰分析における重回帰式とステップe)における判別関数とを予測モデルとして設定し、g)前記第2のサブサンプルセットを前記初期サンプルセットに設定して、ステップb)からステップf)を繰り返して実行することにより複数の前記予測モデルを獲得する、各ステップをコンピュータに実行させる、重回帰分析による予測モデルの作成プログラムを提供する。
上記課題を解決するために、第3の発明は、a)化合物の任意の毒性を目的変数とし、当該目的変数の実測値が既知の化合物によって初期サンプルセットを準備し、b)前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、c)前記実測値と前記計算値との差が第1の値以下である化合物を取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、d)前記相関係数または決定係数が第2の値を超えるまで、前記第1の値を変更してステップc)を繰り返し、e)ステップd)の終了時の前記サブサンプルセットを第1のサブサンプルセットとし、残りのサンプルを第2のサブサンプルセットとして2クラス分類を行い、クラス分類のための判別関数を算出し、f)ステップd)の終了時の前記重回帰分析における重回帰式とステップe)における判別関数とを予測モデルとして設定し、g)前記第2のサブサンプルセットを前記初期サンプルセットに設定して、ステップb)からステップf)を繰り返して実行することにより複数の前記予測モデルを獲得する、重回帰分析による化合物の毒性予測モデルの作成方法を提供する。
上記課題を解決するために、第4の発明は、目的変数の実測値が既知のサンプルによって初期サンプルセットを準備する第1の手段と、前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得する第2の手段と、前記実測値と前記計算値との差が第1の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出する第3の手段と、前記相関係数または決定係数が第2の値を超えるまで、前記第1の値を変更して前記第3の手段の処理を続行させる第4の手段と、前記第4の手段の処理終了時の前記サブサンプルセットを第1のサブサンプルセットとし、残りのサンプルを第2のサブサンプルセットとして2クラス分類を行い、クラス分類のための判別関数を算出する第5の手段と、前記第4の手段の処理終了時の前記重回帰分析における重回帰式と前記第5の手段によって算出された判別関数とを予測モデルとして設定する第6の手段と、前記第2のサブサンプルセットを前記初期サンプルセットに設定して、前記第2、第3、第4、第5および第6の手段による処理を繰り返して実行させる第7の手段と、を備える、重回帰分析による予測モデルの作成装置を提供する。
本発明の方法、プログラムおよび装置によれば、上述したように、サンプル数が多くかつサンプルの多様性が大きい場合であっても、相関度の高い重回帰分析を行って、予測精度の高い予測モデルを作成することができる。したがって、例えば化合物の毒性予測など、サンプル数が1000以上もありかつサンプルの多様性が大きい場合であってもの、精度の高い予測モデルを作成することが可能でとなり、その効果は大きい。特に、目的変数が連続して変化するような半数阻害濃度、半数影響濃度、半数致死濃度、さらには化合物の生分解性、生体蓄積性などの予測を行う場合に顕著な効果を示す。
図1は、従来の重回帰分析を説明するための図であって、重回帰分析によって得られたサンプルの計算値と実測値の関係を示す図である。 図2は、従来の重回帰分析の一手法を説明するための図であって、アウトライヤーサンプルを取り除いた重回帰分析結果を示す図である。 本発明の原理を説明するための図であって、重回帰分析結果をインナー領域とアウター領域に分類した状態を示している。 図3に示すインナー領域のサンプルの除去により形成された新たなサンプルセットについての重回帰分析を説明するための図である。 図4に示すアウター領域のサンプルによる重回帰分析の結果を示す図である。 本発明の一実施形態にかかる予測モデル作成方法の手順を示すフローチャートである。 最終パラメータセットを保存するデータテーブルを示す。 重回帰分析情報を示すデータテーブルである。 重回帰分析結果をグラフィック表示で示す図である。 図6のステップS8における詳細を示すフローチャートである。 図6のステップS8における他の実施形態を示すフローチャートである。 図6のステップS12の詳細を示すフローチャートである。 図6のステップS12で特定されたインナーサンプルのセットにおける重回帰分析の結果をグラフィック表示する図である。 図6のステップS12の他の実施形態を示すフローチャートである。 各STAGEにおいて得られた重回帰情報を示す図である。 予測モデル保存テーブルを示す。 本発明の方法において得られた予測モデルを使用して、目的変数の値が未知であるサンプルについて、予測を実施するためのフローチャートを示す図である。 本発明の一実施形態にかかる予測モデル作成装置の構成を示すブロック図である。
符号の説明
3 重回帰線
4 インナー領域
5 アウター領域
6 重回帰線
200 予測モデル作成装置
210 入力装置
220 出力装置
300 記憶装置
400 解析部
[発明の原理]
本発明の実施形態を説明する前に、まず、本発明の原理について説明する。
上述したように、全サンプル空間からアウトライヤーサンプルを除去した新たなサンプルセットに対して重回帰分析を行うことにより、相関係数Rの高い重回帰式を得ることができる。しかしながら、この方法では、アウトライヤーサンプルが有する各種の情報が失われる。そこで、本発明者は、図3に示すように、初期の重回帰分析によるサンプル空間を2個の領域4、5に分離し、それぞれの領域に属するサンプルのサブセットについて個別に重回帰分析を行うことを考えた。
領域4は、初期重回帰分析による回帰線3の近辺の領域であり、領域5は回帰線3から離れた領域である。ここで、回帰線3の近辺の領域4を「インナー領域」と命名し、領域5を「アウター領域」と命名する。さらにインナー領域に属するサンプルを「インナーサンプル」、アウター領域に属するサンプルを「アウターサンプル」と呼ぶ。
インナー領域4とアウター領域5は、重回帰線3からの距離によって決定される。実際は、初期重回帰分析の結果としての、各サンプルの残差を基に決定される。「残差」とは、重回帰式に基づいた計算値(計算値)と実測値の差を意味する。今、初期重回帰分析における最大の残差値の例えば半分の値を閾値とし、閾値以下の残差値を有するサンプルを取り出して新たなサンプルセットを構成し、このサンプルセットについて重回帰分析を行い、相関係数Rを得る。
この値Rが、例えば95(相関係数の100%表示)以下であれば、残差値の閾値をさらに低下させてサンプル数をさらに絞込み、絞り込んだサンプルセットについて再び重回帰分析を行う。このときの相関係数Rの値が95を超えれば、その重回帰分析の対象となったサンプルセットをインナー領域4のサンプル、すなわちインナーサンプルと決定する。インナー領域4の決定によって、アウター領域5は自動的に決定される。
以上のようにして、相関係数Rの値が95を超えるインナーサンプルが特定されると、本発明では、このようなインナーサンプルをサンプルセット全体から取り除き、アウター領域5に属するサンプルによって新たなサンプルセットを構成し、このサンプルセットについて新たな重回帰分析を行う。
図4は、アウター領域5のサンプルについての重回帰分析結果を説明するための図である。図4に示すように、インナーサンプルを全体のサンプルセットから取り除くことによって、アウター領域中に存在するサンプルは、空っぽとなった以前のインナー領域に落ち込み、新たな重回帰線6を形成する。図5は、このようにして形成された、新たなサンプルセットによる相関図を示している。
図5に示す重回帰分析の結果において、重回帰式6による相関係数Rの値が例えば95以下であると、図3に示す第1回目のインナーサンプル、アウターサンプルの特定方法と同様にして、重回帰式6に対するインナー領域41、アウター領域51の特定が可能である。そのため、特定されたインナーサンプルについて高い相関係数値、例えば95以上、を示す重回帰式と、さらにその後の重回帰分析のためのサンプルセット(アウターサンプルのセット)を得ることができる。
以上の手順を、例えばアウター領域に存在するサンプル数が一定値以下となるまで繰り返して行うことにより、高い相関係数値を有する複数の重回帰式が得られる。この重回帰式のセットには、ほとんど全てのサンプルが有する情報が、除去されること無く含まれている。また、サンプル数がどんなに大きな値となっても、この手順を繰り返すことで、殆ど総てのサンプルを用いて重回帰式を作成することが出来る。したがって、この重回帰式セットを予測モデルとして用いることによって、高い信頼性で未知サンプルの予測を行うことができる。この手法はサンプル数の大きさに影響されず、またサンプルの多様性が大きいサンプル群を扱う場合であっても、高い相関係数を持つ重回帰式を容易に構築することが出来る。
[実施形態]
以下に、本発明の一実施形態について説明する。
図6は、本発明の一実施形態にかかる予測モデルの作成方法の全体手順を示すフローチャートである。まず、ステップS1において、解析対象である目的変数の値が既知であるサンプルを用意する。本実施形態では、IC50を目的変数とする。IC50とは半数阻害濃度を意味し、これは、ある化合物が、一セットの実験生物に対してその50%の遊泳、増殖、成長(藻類では生長)や酵素活性等を阻害すると予想される濃度を意味し、環境毒性を評価する上で非常に重要な指標である。
次のステップS2では、各サンプルについて、重回帰分析に使用する初期パラメータ(説明変数)を発生させる。富士通株式会社で販売するADMEWORKS−MODELBUILDER(登録商標)では、化合物の2次元あるいは3次元構造式、各種の物性などに基づいて、800種類以上のパラメータを自動的に発生させることができる。次に、STAGEを0に設定し(ステップS3)、ステップS2で発生させた初期パラメータに対して特徴抽出を行って重回帰分析に必要のないノイズパラメータを除去し(ステップS4)、最終パラメータセットを決定する(ステップS5)。
図7に最終パラメータセットのデータテーブルを示す。図7のコラム10は化合物であるサンプルを特定するためのIDを示す。コラム11は、各サンプルの目的変数の値をμMolの単位で示している。この実施形態では、目的変数をIC50の値としている。コラム12は最終パラメータセットを構成する説明変数の名前を示す。この実施形態では、サンプルの総原子数(x1)、炭素原子数(x2)、酸素原子数(x3)、窒素原子数(x4)、硫黄原子数(x5)、フッ素原子数(x6)、塩素原子数(x7)、臭素原子数(x8)などを説明変数として採用している。
図7の表における各セル内に記載された数値が、各サンプルについてのパラメータ値である。例えば、サンプルIDが3の化合物は、IC50の値が3.2μモル(μM)であり、その化合物の総原子数は21、そのうち炭素原子数は15、酸素原子数は6であり、窒素、硫黄、フッ素、塩素、臭素原子を含まないことを示している。
図6のステップS6では、図7のデータテーブルに示されたデータを用いて重回帰分析を行い、初期重回帰式を形成する。初期重回帰式は、以下のように示される。
Y0=a1・x1+a2・x2+・・・+an・xn+C0 (2)
ここで、a1、a2・・・anは各パラメータx1、x2・・・xnに対する係数であり、C0は定数である。各サンプルについての目的変数の計算値は、式(2)に図7に示す各サンプルのパラメータ値を代入することによって求められる。このようにして算出した各サンプルの目的変数の値を、実測値に対してプロットすることにより、図1に示すようなサンプルの計算値と実測値の相関を示す図が得られる。
図8は、ステップS6の初期重回帰分析実施において作成された重回帰式および関連データを示すテーブルである。このデータは、ステップS7で出力される。初期重回帰分析の結果、各パラメータに対する係数a1、a2・・・および定数C0が決定され、さらに各種の統計情報が算出される。統計情報としては、サンプル数、パラメータ数、信頼性指標(サンプル数/パラメータ数)、決定係数R2の値、相関係数Rの値、F検定値、クロスバリデーション(%)等がある。ここで、信頼性指標とは、サンプル数をパラメータ数で除した値であり、この値が小さくなるとこのサンプルとパラメータから得られる重回帰式はほとんど科学的及びデータ解析的な意味を持たず、どんなに高いR2値やR値を得たとしても解析は失敗したと判断される。通常、この値が5よりも大きい場合は意味のあるデータ解析(成功解析)とされ、5よりも大きければ大きい程信頼性の高い重回帰式と見なされる。5に達しない条件下で得られた重回帰式は意味の無いデータ解析より得られたものと判断され、データ解析は失敗解析と見なされる。したがってこの信頼性指標は、重回帰分析においてはR2やR値よりも重要な指標となる。
本実施形態では、信頼性指標の最低値を5として解析を行った。決定係数R2、相関係数R、F検定値、クロスバリデーションの定義については、重回帰分析の分野において周知であるので、ここでは詳細に説明しない。なお、本実施形態では、重回帰分析の良否を判定するために、決定係数R2の値を採用しているが、相関係数Rを決定係数R2に代わって用いてもよいことは明らかである。以下では、決定係数R2は100%表示でその値を示している。
図8には示していないが、ステップS7では、図8に示す係数a1、a2、・・・および定数C0の値と、図7に示すパラメータ値を用いて、式(2)にしたがって各サンプルの目的変数Yの値が算出され、データテーブルに記憶され出力される。さらに、各サンプルについての残差値が算出され、記憶される。残差値とは、計算された目的変数の値(計算値)と、目的変数の実測値との差を示す値である。
図9は、ステップS6における初期重回帰分析の結果をグラフィック表示として示したものである。図9において、20は、各サンプルについて、目的変数の実測値に対して計算値をプロットしたグラフを示し、22は、各サンプルの残差値をプロットしたグラフを示している。グラフ20の横軸は目的変数の実測値を、縦軸は目的変数の計算値を示す。グラフ22の横軸はサンプルIDを、縦軸は残差値を示している。サンプルの残差値が大きい程、そのサンプルはステップS6で求めた初期重回帰式に当てはまらない。すなわち、図1の重回帰式で示されるX軸(横軸)とY軸(縦軸)の対角線上から大きく離れて存在するサンプルとなる。
ステップS8において、以降の重回帰分析を必要とするか否かの判定、すなわち終了条件のチェックが実施される。本実施形態では、終了条件として次の3条件を指定している。まず、1)ステップS6で行った重回帰分析の結果が充分に精度の高いものであって、これ以上の分析を要しない場合である。この条件は、例えば、決定係数R2が90以上であることとして設定される。あるいは、相関係数Rが95以上であるとして設定してもよい。このような条件が満足されると、ステップS7で行った重回帰分析は充分な精度を有するものであると判断できるので、それ以降の分析を行わず、ステップS7で得られたデータを最終データとして出力し(ステップS9)、処理を終了する(ステップS10)。
第2の条件は、ステップS6で行った重回帰分析の信頼性指標が5未満であるか否かである。信頼性指標、すなわち、分析に用いたサンプル数が少なくなり、パラメータ数の例えば5倍以下となった場合は、その重回帰分析は科学的に意味を持たなくなる。したがって、信頼性指標が5未満となった場合、ステップS8ではYESと判定し、処理を終了する。なお、信頼性指標に代わって、単にサンプルの最小数を終了条件としてもよい。第3の条件は、STAGE数が予め定めた回数を超えたことである。これは、一種の強制終了であって、何らかの原因により分析結果が収束しない場合に、処理を強制的に終了させるための条件である。
図10Aおよび図10Bは、ステップS8の詳細を示すフローチャートである。図10Aでは、まず、ステップS801で、STAGE数が予め定めた回数Nを超えたか否かが判定される。ステップS801でYESの場合、ステップS9、S10に移行して処理を終了する。ステップS801でNOの場合、ステップS802で信頼性指標が5未満であるか否かが判定される。ステップS802でYESの場合、ステップS9、S10に移行して処理を終了する。なお、この実施形態では、信頼性指標の最小値を5としているが、この値は分析の目的によって任意に設定することができる。
ステップS802でNOの場合、ステップS803で決定係数R2の値が90以上であるか否かが判定される。ステップS803でYESの場合、ステップS9、S10に移行して処理を終了する。ステップS803でNOの場合、すなわち、STAGE数が所定回数Nを超えず、信頼性指標が5以上であって、しかも決定係数R2が90未満である場合は、本発明に基づく更なる重回帰分析が必要であるため、ステップS11以降を実行する。
図10Bの場合は、ステップS804で信頼性指標の代わりに、最小サンプル数Sを定義し、分析対象であるサンプル数が予め決定した最小数S以下となった場合に、処理を終了する。さらに、ステップS805において、決定係数R2の代わりに相関係数Rを判定に用い、Rが95以上となった場合に処理を終了するようにしている。なお、図10A、10Bに示すフローチャートにおいて、各種の数値は、重回帰分析の目的などに対応して任意に設定することができる。
図6に戻って、ステップS8でNOの場合、ステップS11でSTAGE数を1だけ増加させ、ステップS12でアウターサンプル、インナーサンプルの特定を実行する。アウターサンプルは、図3の領域5内のサンプルであり、インナーサンプルは領域4内のサンプルである。図示するように、インナーサンプルとアウターサンプルは、重回帰線3からの距離の大小、すなわち各サンプルの残差の値によって区別される。インナーサンプル、アウターサンプルの特定方法については、図11を参照して後述するが、ここでは、残差値の大小に基づいて仮のインナーサンプルを設定し、このインナーサンプルセットについて重回帰分析を行ない、決定係数R2が90以上となる重回帰式が得られるか否かを見る。
90以上の決定係数R2が得られれば、この仮のインナーサンプルセットを最終的なインナーサンプルセットとして特定する。決定係数が90以下であれば、仮のインナーサンプルセットから残差値の大きいサンプルをさらに除去して、次の仮のインナーサンプルセットを作成し、重回帰分析を行って決定係数を算出する。このような手順を、決定係数が90以上となるまで繰り返すことによって、最終的なインナーサンプルセットが特定される。インナーサンプルセットが特定されれば、初期サンプルセットからインナーサンプルセットを取り除くことによって、アウターサンプルセットが特定される。インナーサンプルセットの特定に用いられた重回帰式をSTAGE1での予測モデル(重回帰式)の一部とする。
ステップS12において、インナーサンプル、アウターサンプルが特定されると、ステップS13においてインナーサンプルセットを一つのクラスとし、アウターサンプルセットを残る一つのクラスとした2クラス分類を実行し、インナーサンプル、アウターサンプルを分類するための判別式Zを作成し、これを記憶する。2クラス分類の手法はどのようなものでもよいが、例えば、発明者が既に特願2006−307277において提案している分類手法を用いれば、より精度の高い判別式を得ることができる。このようにして作成された判別式は、ステップS12で得られた重回帰式とともに、STAGE1の予測モデルセットを構成する。
ステップS14では、アウターサンプルのみを取出し、新たなサンプルセットを構築し、このサンプルセットについてステップS4以下を繰り返して実行する。このとき、ステップS8で、アウターサンプルについて新たに行った重回帰分析の結果が終了条件を満足すると判定されると(ステップS8のYES)、上述したSTAGE1の予測モデルが最終データとして出力され(ステップS9)、一連の重回帰分析を終了する(ステップS10)。ステップS8で終了条件が満足されない場合(ステップS8のNO)、ステップS11以下を実行することにより、STAGE2の予測モデルが作成される。以下、同様にして、ステップS4からステップS14を、ステップS8において終了条件が満足されるまで繰り返すことによって、STAGE数に応じた一連の予測モデルセットが作成される。
なお、図6のフローチャートにおいて、ステップS14の次のステップとしてステップS4を指定することにより、再度、初期パラメータによる特徴抽出を行っているが、多少の精度を犠牲にすることによって、ステップS4を省略することも可能である。この場合、ステップS14からステップS5に移行して、STAGE0で作成された最終パラメータセットを用いてそれ以降の分析を行う。この手順によれば、初期パラメータセットに対する特徴抽出の行程が不要になるため、処理時間が大幅に短縮される。
図11は、インナーサンプル、アウターサンプルの特定手順を示すフローチャートであり、図6のステップS12の詳細を示す図である。本実施形態では、上述したように、インナーサンプル、アウターサンプルの特定のために、残差値を利用する。残差値は、図9のグラフ22に示すように、各サンプルについて個別に算出される。そこで、図11のステップS120において残差値を最大残差値の1/2に設定し、設定された残差値以上の残差値を有するサンプルを仮のアウターサンプルに設定し、設定された残差値以下の残差値を有するサンプルを仮のインナーサンプルに設定する(ステップS121)。
ステップS122からステップS125までは、ステップS121で設定された仮のインナーサンプルのセットに対して、重回帰分析を行い、重回帰情報を出力する手順を示している。これらのステップの詳細は、図6のフローチャートにおけるステップS4からステップS7と同様であるので、その説明は省略する。なお、図11のフローチャートにおいても、ステップS122の省略が可能であることは上述したとおりである。ステップS125で、仮のインナーサンプルのセットに対する重回帰情報が出力されると、ステップS126において、信頼性指標が5以上であるか否かが調べられる。
ステップS126で信頼性指標が5未満であると判定されると(ステップS126のNO)、そのサンプルセットは重回帰分析に不適当であると判定されるため、ステップS127において残差値に定数αが加えられる。定数αは、残差値をあまり大きくない範囲で上げるために任意で選択された定数である。ステップS127を終了するとステップS121に戻り、定数αが加えられた残差値を用いて、改めて仮のインナーサンプルのセットを設定する。この仮のインナーサンプルセットを用いてステップS122からステップS125を実行し、ステップS126において、再度信頼性指標をチェックする。
ステップS126でYESとなった場合、ステップS128で決定係数R2がチェックされる。ここで、決定係数R2が90以上の場合(ステップS128のYES)、ステップS129で現在の仮のインナーサンプルをインナーサンプルとして決定し、ステップS130でアウターサンプルを特定する。アウターサンプルは、ステップS129でインナーサンプルと決定されたサンプルを、図11のフローを開始するときの全サンプルセットから取り除くことによって、特定される。
ステップS128でNOの場合、すなわち作成された重回帰式による決定係数R2が90以下である場合は、ステップS131において残差値をαだけ小さくし、さらに多くのサンプルを除去した後、再度ステップS121以下を実行する。ステップS131の定数αは、ステップS127の定数αと必ずしも同じである必要は無く、任意に設定が可能である。
以上のような手順を経て、ステップS129において最終的なインナーサンプルのセットが特定されると、この特定のためにステップS124で作成された重回帰式が、そのSTAGEの予測モデルとして設定される。
図12は、ステップS129で特定されたインナーサンプルのセットについて、重回帰式情報を、図9の場合と同様にしてグラフィック表示させたものである。図12の24は、各サンプルについて目的変数の実測値に対して計算値をプロットしたグラフを示し、26は、各サンプルの残差値をプロットしたグラフを示している。グラフ24の横軸は目的変数の実測値を、縦軸は目的変数の計算値を示す。グラフ26の横軸はサンプルIDを、縦軸は残差値を示している。図12のグラフ26では、図8のグラフ22において存在していた残差値の高いサンプルが取り除かれており、その結果、グラフ24に示すように、インナーサンプルは重回帰線の周辺に集まって分布し、高い相関を示すようになる。なお、図9のグラフ22と図12のグラフ26における縦軸は同じスケールを示すものではない。
図13は、図11に示すインナーサンプル、アウターサンプルの特定手順の他の実施形態を示す図である。本実施形態では、ステップS135において、残差値として最大残差値から一定数βを引いた値を設定し、この残差値以下の残差値を有するサンプルを仮のインナーサンプルとして設定するようにしている。この場合、ステップS126で信頼性指標が5以下であると判定されると(ステップS126のNO)、ステップS136で、残差値にγだけ加算し、新たな残差値としてステップS121以下を実行する。ステップS128で、決定係数R2が90以下であると判定されると(ステップS128のNO)、ステップS137で、残差値からさらに定数βを差し引いて新たな残差値とし、ステップS121以下を実行する。
すなわち、図13に示す実施形態では、最大残差値を徐々に低下させることによって、インナーサンプルセット、アウターサンプルセットを特定しようとするものである。
図14は、以上のようにして特定された各STAGEのインナーサンプル、アウターサンプルについての重回帰式情報を示すデータテーブルである。STAGE0では、779個のサンプルについて28個のパラメータを適用し、重回帰分析を行った結果、決定係数R2として72.8の値が得られたことを示している。STAGE1では、インナーサンプルとして398個のサンプルが特定され、このサンプルに22個のパラメータを適用して重回帰分析を行った結果、決定係数として96.2の値が得られたことを示している。STAGE1のアウターサンプルでは、決定係数が64.7であった。
STAGE2の分析は、STAGE1で特定されたアウターサンプルをサンプルセットとして行われている。STAGEnでは、アウターサンプルセットについての信頼性指標が5以下であるので、このサンプルセットを新たなサンプルセットとする重回帰分析は行われない。したがって、STAGEnではインナーサンプルのみに関する重回帰式情報のみが出力され、アウターサンプルは通常実施される重回帰分析同様にアウトライヤーサンプルとして扱われ、データ解析に再利用されることはない。
図15は、以上のようにして作成された予測モデルセットを保存するテーブルを示す。図示するように、各STAGEのインナーサンプルについての重回帰式Yinnが、各STAGEにおける予測モデルとして記憶される。同時に、図6のフローチャートの説明の部分で述べたように、各STAGEのインナーサンプルとアウターサンプルについて行った2クラス分類の判別関数Zも、予測モデルとして記憶される。なお、図15において、α11〜αnnは重回帰式Yにおける各パラメータに対する係数、C(1)〜C(n)は重回帰式Yの定数、β11〜βnnは2クラス判別関数Zの各パラメータに対する係数、K(1)〜K(n)は判別関数Zの定数をそれぞれ示している。
図16は、このようにして形成された予測モデルを使用して、目的変数の値が未知であるサンプルの予測を行う場合の手順を示すフローチャートである。まず、ステップS30において、目的変数が未知のサンプルWについてパラメータを準備する。ステップS31ではSTAGEを1に設定し、ステップS32においてSTAGE1の予測モデルとして設定されている2クラス判別関数をサンプルWに適用する。ステップS33では、2クラス判別関数の適用によって、サンプルWがインナーサンプルのクラスに属するか、アウターサンプルのクラスに属するかがチェックされる。
ステップS33で、サンプルWがインナーサンプルのクラスに属すると判定されると(ステップS33のYES)、ステップS34においてSTAGE1の予測モデルとして設定されている、インナーサンプルについての重回帰式をサンプルWに適用し、目的変数を算出する。算出された値がサンプルWについての最終予測値であり、したがってステップS35において予測処理を終了する。一方、ステップS33でサンプルWがアウターサンプルのクラスに属すると決定されると(ステップS33のNO)、ステップS36においてSTAGE数が処理を終了する回数であるNを超えていないことを確認した後(ステップS36のYES)、ステップS37においてSTAGEを1だけ増加させて、ステップS32以下を再度、実行する。
ステップS32、ステップS33、ステップS36、ステップS37のループは、ステップS33においてサンプルWがインナーサンプルのクラスに属すると決定されるか、あるいはステップS36においてSTAGE数がNを超えるまで、繰り返される。このようにして、いずれかのSTAGEにおいてサンプルWがインナーサンプルのクラスに所属するとして特定されると、ステップS34においてそのSTAGEのインナーサンプルについての重回帰式を適用して目的変数を算出し、これをそのサンプルの最終予測値として決定する。
以上の結果、アウターサンプルについての情報を失うことなく、高い信頼性で未知サンプルの目的変数の予測が可能となる。なお、上記実施形態は、化合物のIC50、即ち半数阻害濃度の予測モデル作成について記載しているが、半数影響濃度(EC50)、半数致死濃度(LC50)などを目的変数としても本発明が実施できることはもちろんである。また、化合物の生分解性、生体蓄積性についても、効果的な予測が可能である。さらに、上述した実施形態では、例えばステップS803(図10A参照)、ステップS128(図11参照)で、決定係数R2の値が90以上を判定基準としているが、この値は絶対的ではない。発明者の実験では、決定係数R2が80程度以上で、充分に精度の高い予測モデルを作成することが可能であった。同様に、ステップS805(図10B参照)の相関係数Rも、90程度で充分に精度の高い予測モデルの作成が可能である。
[システム構成]
図17は、本発明の一実施形態に係る予測モデル作成装置のシステム構成を示すブロック図である。なお、この装置は、作成され保存された予測モデルを使用して、目的変数が未知のサンプルについて、予測値を算出する機能も供えている。本実施形態の予測モデル作成装置200は、サンプルデータを入力する入力装置210、予測モデルあるいは処理途中でユーザが必要とするデータを出力する出力装置220を備えている。入力装置210から、重回帰分析による予測モデル作成に必要なサンプル情報が記憶装置300の入力データテーブル310に入力される。入力装置210は、同様に初期パラメータセットのデータを初期パラメータセットテーブル320に入力する。なお、解析部400が入力されたサンプルについて初期パラメータを自動的に発生するためのエンジン410を有している場合は、初期パラメータセットデータを入力装置210から入力する必要はない。
図17において、330は最終パラメータセットを保存するテーブルであり、初期パラメータセットに対して特徴抽出を行った結果としての最終パラメータセットを保存する。340は、解析の結果作成された予測モデルを保存するためのテーブルであり、具体的にはSTAGEごとに決定されたインナーサンプル/アウターサンプルの2クラス分類のための判別関数と、STAGEごとに決定されたインナーサンプルのセットに対する重回帰式を保存する。
解析部400は、制御部420と、初期パラメータ発生エンジン410、特徴抽出エンジン430、重回帰式作成エンジン440、インナーサンプルセットの設定部450、2クラス分類のための判別関数作成エンジン460、新たなサンプルセット設定部470および解析終了条件検出部480を備えている。初期パラメータを本装置の外部で発生させる場合は、初期パラメータ発生エンジン410は必要とされない。また、初期パラメータ発生エンジン410、特徴抽出エンジン430は、既存のものを使用することができる。
特徴抽出エンジン430は、初期パラメータセットに対して特徴抽出を行って最終パラメータセットを決定し、これを最終パラメータセットテーブル330に保存する。重回帰式作成エンジン440は、種々の既存の重回帰式作成プログラムを備えており、ユーザによって指定された重回帰式作成プログラムあるいはシステムが適宜選択したプログラムを用いて、最終パラメータセットテーブル330を参照しながら、入力サンプルセットについての重回帰分析を行い、初期重回帰式を作成する。インナーサンプルセット設定部470は、作成された初期重回帰式の結果からインナーサンプルのセットを特定する。この特定は、サンプルの残差値および決定係数に基づいて実行される。インナーサンプルセットの特定によって、アウターサンプルセットも特定される。
判別関数作成エンジン460は、種々の既存の判別関数作成プログラムを備えており、ユーザによって指定された判別関数作成プログラムあるいはシステムが適宜選択したプログラムを用いて、インナーサンプルセットおよびアウターサンプルセットに対して2クラス分類を行って、インナーサンプルとアウターサンプルとを分類するための判別関数を作成する。新たなサンプルセット設定部470は、インナーサンプルセット設定部450によって特定されたアウターサンプルセットを、次のSTAGEのサンプルセットとして設定する。
初期パラメータ発生エンジン410、特徴抽出エンジン430、重回帰式作成エンジン440、インナーサンプルセット設定部450、判別関数作成エンジン460、新たなサンプルセット設定部470、解析終了条件検出部480は、制御部420の制御下で作動し、図6および図11(あるいは図13)に示す処理を実行する。なお、解析終了条件検出部480は、図10Aあるいは10Bに示す処理を実行する。なお、解析終了条件は、システムによって予め設定しておいてもよく、あるいは、入力装置210を介してユーザが適宜設定するようにしてもよい。
予測値算出エンジン490は、入力装置210より入力された目的変数が未知のサンプルについて、予測モデル保存テーブル340に保存された判別関数と重回帰式および最終パラメータセットテーブル330に保存されたデータを参照しながら、そのサンプルの目的変数の値(予測値)を計算する。
解析部400で得られた各STAGEのインナーサンプルセット/アウターサンプルセットに関する2クラス分類の判別関数、インナーサンプルセットについての重回帰式、さらに予測結果は、記憶装置300の予測モデル保存テーブル340にあるいは出力装置220を介して外部に出力される。出力の形態は、USBファイル、ディスプレイ、プリントアウト等が適宜選択可能である。
本発明は、重回帰分析が適用可能な全ての産業分野に適用可能である。以下に、主な適用分野を列挙する。
1)化学データ解析
2)バイオ関連研究
3)蛋白質関連研究
4)医療関連研究
5)食品関連研究
6)経済関連研究
7)工学関連研究
8)生産歩留まり向上等を目的としたデータ解析
9)環境関連研究
1)の化学データ解析分野では、より詳細には、下記のような研究に適用できる。
(1)構造−活性/ADME/毒性/物性相関の研究
(2)構造−スペクトル相関研究
(3)メタボノミクス関連研究
(4)ケモメトリクス研究
例えば、構造−毒性相関研究分野では、化合物の半数阻害濃度(IC50)、半数影響濃度(EC50)、半数致死濃度(LC50)、分解性試験、濃縮性試験、28日間反復投与毒性試験等の予測を行うことが極めて重要である。これらは毒性化合物規制関連の化合物審査法や労働安全衛生法等の国レベルの化合物規制に、最重要項目の一つして組み込まれているからである。この濃度基準をクリアしなければ、日本国内での化合物生産はできなくなり、企業の生産活動自体がストップする。また、海外での生産や輸出等も対象国の安全性規制により活動できなくなる。例えば、ヨーロッパ議会におけるREACH規則では、化合物を使用する企業が、その化合物についてこれらの濃度を予測し、評価する義務を負っている。従って、高い予測精度で、これらの濃度を予測することが可能な本発明の方法、装置、プログラムは、REACH規則を実行する上で、有効なツールとなる。

Claims (8)

  1. コンピュータによる重回帰分析に基づいた予測モデルの作成方法であって、
    a)目的変数の実測値が既知のサンプルによって初期サンプルセットを準備し、
    b)前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、
    c)前記実測値と前記計算値との差が第1の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、
    d)前記相関係数または決定係数が第2の値を超えるまで、前記第1の値を変更してステップc)を繰り返し、
    e)ステップd)の終了時の前記サブサンプルセットを第1のサブサンプルセットとし、残りのサンプルを第2のサブサンプルセットとして2クラス分類を行い、クラス分類のための判別関数を算出し、
    f)ステップd)の終了時の前記重回帰分析における重回帰式とステップe)における判別関数とを予測モデルとして設定し、
    g)前記第2のサブサンプルセットを前記初期サンプルセットに設定して、ステップb)からステップf)を繰り返して実行することにより複数の前記予測モデルを獲得する、各ステップを含む、コンピュータによる重回帰分析に基づいた予測モデルの作成方法。
  2. 請求項1に記載の方法において、
    ステップg)は、サブサンプルセットに含まれるサンプルの数と重回帰分析に使用するパラメータ数との比が一定値以下となったとき、前記繰り返しを停止することを特徴とする、コンピュータによる重回帰分析に基づいた予測モデルの作成方法。
  3. 請求項1に記載の方法において、
    ステップg)は、前記繰り返しの回数が予め定めた回数に達したとき、前記繰り返しを停止することを特徴とする、コンピュータによる重回帰分析に基づいた予測モデルの作成方法。
  4. 請求項1に記載の方法において、
    ステップd)における前記決定係数についての前記第2の値は、決定係数であるときを100とした場合に、80以上であることを特徴とする、コンピュータによる重回帰分析に基づいた予測モデルの作成方法。
  5. a)目的変数の実測値が既知のサンプルによって初期サンプルセットを準備し、
    b)前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、
    c)前記実測値と前記計算値との差が第1の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、
    d)前記相関係数または決定係数が第2の値を超えるまで、前記第1の値を変更してステップc)を繰り返し、
    e)ステップd)の終了時の前記サブサンプルセットを第1のサブサンプルセットとし、残りのサンプルを第2のサブサンプルセットとして2クラス分類を行い、クラス分類のための判別関数を算出し、
    f)ステップd)の終了時の前記重回帰分析における重回帰式とステップe)における判別関数とを予測モデルとして設定し、
    g)前記第2のサブサンプルセットを前記初期サンプルセットに設定して、ステップb)からステップf)を繰り返して実行することにより複数の前記予測モデルを獲得する、各ステップをコンピュータに実行させる、重回帰分析に基づいた予測モデルの作成プログラム。
  6. コンピュータによる重回帰分析に基づいた化合物の毒性予測モデルの作成方法であって、
    a)化合物の任意の毒性を目的変数とし、当該目的変数の実測値が既知の化合物によって初期サンプルセットを準備し、
    b)前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、
    c)前記実測値と前記計算値との差が第1の値以下である化合物を取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、
    d)前記相関係数または決定係数が第2の値を超えるまで、前記第1の値を変更してステップc)を繰り返し、
    e)ステップd)の終了時の前記サブサンプルセットを第1のサブサンプルセットとし、残りのサンプルを第2のサブサンプルセットとして2クラス分類を行い、クラス分類のための判別関数を算出し、
    f)ステップd)の終了時の前記重回帰分析における重回帰式とステップe)における判別関数とを予測モデルとして設定し、
    g)前記第2のサブサンプルセットを前記初期サンプルセットに設定して、ステップb)からステップf)を繰り返して実行することにより複数の前記予測モデルを獲得する、コンピュータによる重回帰分析に基づいた化合物の毒性予測モデルの作成方法。
  7. 目的変数の実測値が既知のサンプルによって初期サンプルセットを準備する第1の手段と、
    前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得する第2の手段と、
    前記実測値と前記計算値との差が第1の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出する第3の手段と、
    前記相関係数または決定係数が第2の値を超えるまで、前記第1の値を変更して前記第3の手段の処理を続行させる第4の手段と、
    前記第4の手段の処理終了時の前記サブサンプルセットを第1のサブサンプルセットとし、残りのサンプルを第2のサブサンプルセットとして2クラス分類を行い、クラス分類のための判別関数を算出する第5の手段と、
    前記第4の手段の処理終了時の前記重回帰分析における重回帰式と前記第5の手段によって算出された判別関数とを予測モデルとして設定する第6の手段と、
    前記第2のサブサンプルセットを前記初期サンプルセットに設定して、前記第2、第3、第4、第5および第6の手段による処理を繰り返して実行させる第7の手段と、を備える、重回帰分析に基づいた予測モデルの作成装置。
  8. コンピュータによって目的変数が未知のサンプルの目的変数を予測するための方法であって、
    重回帰式と2クラス分類の判別関数とをセットとする予測モデルを複数個用意する第1のステップであって、前記複数の予測モデルのセットは、
    a)目的変数の実測値が既知のサンプルによって初期サンプルセットを準備し、
    b)前記初期サンプルセットを重回帰分析して、前記目的変数の計算値を獲得し、
    c)前記実測値と前記計算値との差が第1の値以下であるサンプルを取り出したサブサンプルセットを重回帰分析して、相関係数または決定係数を算出し、
    d)前記相関係数または決定係数が第2の値を超えるまで、前記第1の値を変更してステップc)を繰り返し、
    e)ステップd)の終了時の前記サブサンプルセットを第1のサブサンプルセットとし、残りのサンプルを第2のサブサンプルセットとして2クラス分類を行い、クラス分類のための判別関数を算出し、
    f)ステップd)の終了時の前記重回帰分析における重回帰式とステップe)における判別関数とを予測モデルとして設定し、
    g)前記第2のサブサンプルセットを前記初期サンプルセットに設定して、ステップb)からステップf)を繰り返して複数の前記予測モデルを獲得する、各ステップを実行することによって生成される、前記第1のステップと、
    目的変数が未知のサンプルに対して、当該サンプルが前記第1のサブサンプルセットに属すると判定されるまで、前記複数の予測モデルにおける判別関数を、形成された順序にしたがって順次適用する第2のステップと、
    前記第2のステップにおいて、前記未知サンプルが前記第1のサブサンプルセットに属すると判定されると、当該判定に使用した判別関数と同じ予測モデルのセットに属する重回帰式を、前記未知サンプルに適用して目的変数を算出する第3のステップと、を備える、目的変数の値が未知のサンプルについて目的変数を予測するための方法。
JP2009508760A 2007-03-27 2007-03-27 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム Expired - Fee Related JP5071475B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/056478 WO2008126209A1 (ja) 2007-03-27 2007-03-27 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム

Publications (2)

Publication Number Publication Date
JPWO2008126209A1 JPWO2008126209A1 (ja) 2010-07-22
JP5071475B2 true JP5071475B2 (ja) 2012-11-14

Family

ID=39863392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009508760A Expired - Fee Related JP5071475B2 (ja) 2007-03-27 2007-03-27 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム

Country Status (4)

Country Link
US (1) US8255342B2 (ja)
JP (1) JP5071475B2 (ja)
KR (1) KR101109913B1 (ja)
WO (1) WO2008126209A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011163017A (ja) * 2010-02-10 2011-08-25 Kajima Corp トンネル健全度判定装置、トンネル健全度判定セット、トンネル健全度判定方法
US8571830B2 (en) * 2010-06-28 2013-10-29 General Electric Company Method and system for detection of collector flashover
JP5699713B2 (ja) * 2011-03-17 2015-04-15 富士通株式会社 データ解析プログラム、データ解析方法、およびデータ解析装置
US9069725B2 (en) 2011-08-19 2015-06-30 Hartford Steam Boiler Inspection & Insurance Company Dynamic outlier bias reduction system and method
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
US20130166337A1 (en) * 2011-12-26 2013-06-27 John MacGregor Analyzing visual representation of data
CA2843276A1 (en) * 2013-02-20 2014-08-20 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
KR20230030044A (ko) 2014-04-11 2023-03-03 하트포드 스팀 보일러 인스펙션 앤드 인슈어런스 컴퍼니 시스템 조작 및 수행 데이터 모델링에 기초한 미래 신뢰도 예측 개선
CN107194795A (zh) 2016-03-15 2017-09-22 腾讯科技(深圳)有限公司 信用分数模型训练方法、信用分数计算方法及装置
JP6782923B2 (ja) * 2016-05-31 2020-11-11 株式会社イチカワ 測定装置の作動方法
WO2019190401A1 (en) * 2018-03-28 2019-10-03 Agency For Science, Technology And Research Method and system for predicting a port-stay duration of a vessel at a port
CN109299826A (zh) * 2018-09-28 2019-02-01 上海中信信息发展股份有限公司 一种进馆档案数量预测方法、装置、电子设备及存储介质
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
JP7056497B2 (ja) * 2018-10-03 2022-04-19 トヨタ自動車株式会社 重回帰分析装置及び重回帰分析方法
CN111307798B (zh) * 2018-12-11 2023-03-17 成都智叟智能科技有限公司 采用多种采集技术的物品查验方法
KR102242937B1 (ko) * 2019-01-08 2021-04-21 에스케이텔레콤 주식회사 회귀 분석 장치 및 회귀 분석 장치를 생성하는 방법
CN110096737B (zh) * 2019-03-21 2023-04-07 国网内蒙古东部电力有限公司电力科学研究院 绝缘子寿命预测方法、装置、计算机装置及存储介质
CN110276493A (zh) * 2019-06-25 2019-09-24 北京月新时代科技股份有限公司 一种油井检泵周期预测方法、装置及存储介质
CN112183802A (zh) * 2019-07-02 2021-01-05 北京林业大学 中国28种乔木树种相对生长预测预报方法
CN112444376A (zh) * 2019-08-30 2021-03-05 致伸科技股份有限公司 激光功率校准方法及***
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
EP4022532A1 (en) 2019-09-18 2022-07-06 Hartford Steam Boiler Inspection and Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
CN111177218B (zh) * 2019-12-25 2022-08-30 深圳市东深电子股份有限公司 一种基于大数据分析的大坝安全分析方法
CN111178756B (zh) * 2019-12-29 2024-02-27 杭州拓深科技有限公司 一种基于环境大数据的多元线性回归火灾风险评估方法
JP7214672B2 (ja) * 2020-03-13 2023-01-30 株式会社東芝 情報処理装置、情報処理方法及びコンピュータプログラム
CN111461304B (zh) * 2020-03-31 2023-09-15 北京小米松果电子有限公司 分类神经网络的训练方法、文本分类方法、装置及设备
CN112001104B (zh) * 2020-08-12 2023-09-12 郑州大学 一种埋地管道服役性能评估方法、计算机可读介质和设备
CN112837178A (zh) * 2021-01-13 2021-05-25 国家电网有限公司客户服务中心 一种电力客户用电数据的分析方法
US11269627B1 (en) 2021-01-29 2022-03-08 Coupa Software Incorporated System and method of resource management and performance prediction of computing resources
CN113035287B (zh) * 2021-03-09 2022-11-04 清华大学 一种蒸汽热裂解过程的预测方法
CN113191037B (zh) * 2021-03-23 2023-03-10 深圳市信维通信股份有限公司 一种基于形位公差的插损预测方法及终端
CN113298874B (zh) * 2021-07-26 2021-11-02 广东工业大学 基于无人机巡检的输电线路安全距离风险评估方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086897A (ja) * 2002-08-06 2004-03-18 Fuji Electric Holdings Co Ltd モデル構築方法およびモデル構築システム
JP2004157814A (ja) * 2002-11-07 2004-06-03 Fuji Electric Holdings Co Ltd 決定木生成方法およびモデル構造生成装置
JP2006330988A (ja) * 2005-05-25 2006-12-07 Toshiba Corp データ分割装置、データ分割方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282279A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
WO2008059624A1 (fr) * 2006-11-13 2008-05-22 Fujitsu Limited Procédé, programme et dispositif de réalisation d'un modèle de classification/prévision à deux classes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086897A (ja) * 2002-08-06 2004-03-18 Fuji Electric Holdings Co Ltd モデル構築方法およびモデル構築システム
JP2004157814A (ja) * 2002-11-07 2004-06-03 Fuji Electric Holdings Co Ltd 決定木生成方法およびモデル構造生成装置
JP2006330988A (ja) * 2005-05-25 2006-12-07 Toshiba Corp データ分割装置、データ分割方法およびプログラム

Also Published As

Publication number Publication date
KR20090087485A (ko) 2009-08-17
US8255342B2 (en) 2012-08-28
KR101109913B1 (ko) 2012-03-13
WO2008126209A1 (ja) 2008-10-23
US20100070441A1 (en) 2010-03-18
JPWO2008126209A1 (ja) 2010-07-22

Similar Documents

Publication Publication Date Title
JP5071475B2 (ja) 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
JP5293739B2 (ja) 重回帰分析による予測モデルの作成方法、作成システムおよび作成プログラム
JP6686056B2 (ja) コンピュータ実装方法、コンピュータシステム及びコンピュータ装置
US11216741B2 (en) Analysis apparatus, analysis method, and non-transitory computer readable medium
JP4739447B2 (ja) 不良要因の分析表示方法および不良要因の分析表示装置
US11880192B2 (en) Method for analyzing effects of operator actions in industrial plants
JP2010211684A (ja) データ処理方法、データ処理プログラム、データ処理装置
WO2010029627A1 (ja) 重回帰分析による予測モデルの作成方法、作成プログラム、作成装置
JP2008128690A (ja) 打切り試験における打切り時間および試験中止基準見積もり方法・装置
US9773090B2 (en) Method computer program and system to analyze mass spectra
JP4253024B2 (ja) 波形パターンデータから製品の良品・不良品の検査のための特徴を抽出する方法及びプログラム
JP2010044605A (ja) 鋼板製造実績データベース検索装置,鋼板製造実績データベース検索プログラム
KR101964454B1 (ko) 데이터에 내재된 문제점 제거를 통한 데이터 정제 장치 및 방법
JP6641096B2 (ja) パラメータ演算装置及びプログラム
JP2019191634A (ja) データ分析方法、データ分析プログラムおよびデータ分析システム
Shacham et al. A General Procedure for Linear and Quadratic Regression Model Identification
JP2004227279A (ja) マハラノビス距離を利用した異常原因診断方法及びプログラム
Alagic Test pattern extraction for semiconductor wafer test data
JP2016192024A (ja) 時系列データ処理方法、時系列データ処理プログラム、および、時系列データ処理装置
Yelten A heuristic sensitivity analysis technique for high-dimensional systems
석은실 A Review of Sequential Changepoint Detection in Quality Control and Dynamical Systems
JP2009289083A (ja) テストデータ作成システム及びテストデータ作成方法
JP2016095163A (ja) データ解析方法およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120806

R150 Certificate of patent or registration of utility model

Ref document number: 5071475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150831

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees