JP2007513391A - システムの複数の構成要素のうちのサブセットを識別する方法 - Google Patents

システムの複数の構成要素のうちのサブセットを識別する方法 Download PDF

Info

Publication number
JP2007513391A
JP2007513391A JP2006529447A JP2006529447A JP2007513391A JP 2007513391 A JP2007513391 A JP 2007513391A JP 2006529447 A JP2006529447 A JP 2006529447A JP 2006529447 A JP2006529447 A JP 2006529447A JP 2007513391 A JP2007513391 A JP 2007513391A
Authority
JP
Japan
Prior art keywords
components
model
distribution
subset
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006529447A
Other languages
English (en)
Inventor
ハリー・キーベリ
アルバート・トラジュストマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commonwealth Scientific and Industrial Research Organization CSIRO
Original Assignee
Commonwealth Scientific and Industrial Research Organization CSIRO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commonwealth Scientific and Industrial Research Organization CSIRO filed Critical Commonwealth Scientific and Industrial Research Organization CSIRO
Publication of JP2007513391A publication Critical patent/JP2007513391A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

システムからの少なくとも1つのトレーニングサンプルを使用し、システムから取得されたデータに基づき上記システムの構成要素のうちのサブセットを識別する。本方法は、システムの構成要素とその重み係数との一次結合を取得するステップを含み、重み係数は、既知の特徴を有する少なくとも1つのトレーニングサンプルから取得されるデータに基づく値を有する。本方法は、構成要素の一次結合を条件とする、既知の特徴の確率分布モデルを取得するステップと、構成要素の一次結合に係る重み係数の事前分布を取得するステップとを含み、事前分布は、ゼロに近い高い確率密度を有しかつジェフリーズの超事前分布ではない超事前分布を含む。本方法は、事前分布とモデルとを組み合わせて事後分布を生成するステップと、事後分布を最大化する複数の重み係数にてなるセットに基づいて構成要素のうちのサブセットを識別するステップとを含む。

Description

本発明は、システムの複数のサンプルから生成されるデータから、システムの複数の構成要素(又は成分)を識別するための方法及び装置に関し、ここで上記構成要素はシステム内のサンプルの特徴を予測することができるものである。また特に、本発明は、生物学的方法によって生成されるデータから、生物学的システムの複数の構成要素を識別するための方法及び装置に関するが、ただしそれ以外を除外するものではない。ここで、上記構成要素は、生物学的システムに適用されるサンプルに関連づけられる、関心対象の特徴を予測することができるものである。
固有の1つ又は複数の特徴によって分類可能なシステムが、いくつも存在している。本明細書を通じて使用される「システム」という用語は、それからデータ(例えば統計データ)を取得することのできる全てのタイプのシステムを包含するものとされる。このようなシステムの例には、化学システム、財務システム及び地質学的システムがある。システムから取得されるデータを利用してシステムからの複数のサンプルに係る特定の特徴を識別できること、例えば、財務システムの分析を支援して信用のあるグループと信用リスクのあるグループとを識別できることが望ましい。システムから取得されるデータは比較的大量であることが多く、よってそのデータからシステムの複数の構成要素を識別することが望ましい。上記構成要素は、システムからの複数のサンプルに係る特定の特徴を予測するものである。しかしながら、データの量が比較的多い場合には、処理すべき大量のデータが存在することになるので、構成要素を識別することは困難になる可能性がある。その大量のデータのうちのほとんどは、データの取得元である特定のサンプルの特徴を全く示していないか、ほとんど示していない可能性もある。さらに、試験サンプルデータがトレーニングサンプルデータに関して高い可変度を有する場合には、トレーニングサンプルを用いて識別される構成要素は、試験サンプルデータに関する特徴の識別に際して有効でない場合が多い。個々のソースからデータを収集する際の条件を制御することはしばしば困難であるので、例えば、異なる多くのソースからデータが取得されるような状況ではよくこうした事態になる。
これらの問題点が特に顕著であるシステムのタイプの一例は、構成要素が例えば特定の遺伝子又はタンパク質を含む可能性のある生物学的システムである。バイオテクノロジーの最近の進歩は、大規模なシステムスクリーニング及びサンプル分析のための生物学的方法の開発をもたらしている。このような方法には、例えば、DNA又はRNAを用いるマイクロアレイ解析と、プロテオミクス(proteomics)解析と、プロテオミクスにおける電気泳動ゲル解析と、高スループットスクリーニング技術とが含まれる。これらのタイプの方法は、検査される各サンプルについて30,000個以上もの構成要素を有する可能性のあるデータを生成させる場合が多い。
生物学的システムからのサンプルにおいて、例えば「病気を持っている」及び「病気を持たない」等のグループに分類するというように、関心対象の特徴を識別することができれば、かなり望ましい。これらの生物学的方法の多くは、生物学的システムにおけるサンプルの特徴を予測する診断ツールとして、例えば、組織もしくは体液をスクリーニングして病気を識別する診断ツールとして有用であり、あるいは、例えば医薬化合物の効力を決定するためのツールとしても有用であろう。
今日まで、このようなアプリケーションにおけるバイオテクノロジーアレイ等の生物学的方法の使用は、これらのタイプの方法から生成されるデータが大量であることと、有意義な結果をもたらすデータの効率的なスクリーニング方法がないこととに起因して限定的であった。その結果、既存の方法を用いる生物学的データの解析は時間がかかり、間違った結果になりやすく、また、データから有意義な結果を得ようとすれば大量のコンピュータメモリが必要である。このことは、高速かつ正確なスクリーニングが要求される大規模スクリーニングのシナリオにおいて問題となる。
従って、特に生物学的データを解析する方法、そしてより一般的には、システムからのサンプルに関して関心対象の特徴を予測するためにシステムからのデータを解析する改良された方法を有することが望ましい。
本発明の第1の態様によれば、システムからの少なくとも1つのトレーニングサンプルを使用し、システムから取得されるデータに基づいて上記システムの複数の構成要素のうちのサブセットを識別する方法が提供されていて、上記方法は、
上記システムの複数の構成要素と、上記複数の構成要素の一次結合に係る複数の重み係数との一次結合を取得するステップを含み、上記重み係数は、上記少なくとも1つのトレーニングサンプルを用いて上記システムから取得されるデータに基づく値を有し、上記少なくとも1つのトレーニングサンプルは既知の特徴を有し、
上記既知の特徴の確率分布のモデルを取得するステップを含み、上記モデルは上記複数の構成要素の一次結合を条件とし、
上記複数の構成要素の一次結合に係る重み係数の事前分布を取得するステップを含み、上記事前分布は、ゼロに近い高い確率密度を有する超事前分布(hyperprior)を含み、上記超事前分布はジェフリーズ(Jeffreys)の超事前分布ではないようなものであり、
上記事前分布と上記モデルとを組み合わせて事後分布を生成するステップと、
上記事後分布を最大化する複数の重み係数にてなるセットに基づいて上記複数の構成要素のうちのサブセットを識別するステップとを含む。
本方法は、既知の特徴を有する複数のトレーニングサンプルを利用して、あるトレーニングサンプルの特徴を予測することのできる複数の構成要素のうちのサブセットを識別する。続いて、複数の構成要素のうちのサブセットについての知識は、試験のために、例えば臨床試験のために使用可能であり、それにより、組織サンプルが悪性であるか良性であるか、もしくは腫瘍の重さはどの程度かといった特徴を予測することができ、又は特定の状態を有する患者の推定生存期間を決めることができる。
本明細書を通じて使用される「特徴」という用語は、あるサンプルに関連づけられる任意の応答又は識別可能な特性又は性質を示す。例えば特徴は、特定のサンプルに関するイベントまでの特定の時間である場合もあれば、サンプルのサイズもしくは量であってもよく、又はサンプルを分類するために使用可能なクラスもしくはグループであってもよい。
好適には、上記一次結合を取得するステップは、ベイズの統計的方法を用いて複数の重み係数を推定するステップを含む。
好適には、本方法はさらに、大部分の構成要素は、複数の構成要素のうちのサブセットの一部を形成する構成要素にはなりそうにない、という先験的仮定(アプリオリな仮定)を立てるステップを含む。
先験的仮定は、システムから取得される構成要素が大量に存在する場合において特に適用される。先験的仮定は、本質的には、大部分の重み係数はゼロになるであろう、というものである。先験的仮定に留意して、重み係数が、観測されるデータに与えられる重み係数の事後確率が最大化されるようなものであるように、モデルは構成される。予め決められたしきい値を下回る重み係数を有する構成要素(先験的仮定によるものの大部分はこれになる)は、無視される。このプロセスは、正しい診断構成要素が識別されるまで反復される。従って本方法は、主として、結果的に大部分の構成要素の迅速な除去をもたらす先験的仮定に起因して、高速になる可能性を有する。
好適には、超事前分布は、ゼロに近い事前分布が変更されることを可能にする、1つ又は複数の調節可能なパラメータを含む。
システムの大部分の特徴は典型的には所定の確率分布を提示し、上記特徴の確率分布は、複数のトレーニングサンプルから生成されるデータに基づく複数の統計モデルを用いてモデル化されることが可能である。本発明は、関心対象の特徴又は関心対象の一連の特徴について確率分布をモデル化する統計モデルを使用する。従って、特定の確率分布を有する関心対象の特徴について、その分布をモデル化する適切なモデルが画成される。
好適には、本方法は、少なくとも1つのトレーニングサンプルから取得されるデータに基づいて確率分布を提供する尤度関数の形式の数式を含む。
好適には、尤度関数は、何らかの確率分布を記述するための以前に記述されたモデルに基づく。
好適には、上記モデルを取得するステップは、多項又は2項ロジスティック回帰と、一般化線形モデルと、コックス(Cox)の比例ハザードモデルと、加速度故障モデル(accelerated failure model)と、パラメトリック生存モデルとを含むグループから上記モデルを選択するステップを含む。
第1の実施形態では、尤度関数は多項又は2項ロジスティック回帰に基づく。多項又は2項ロジスティック回帰は、好適には、多項又は2項分布を有する特徴をモデル化する。2項分布は、オン/オフ状態等の2つの可能なクラス又はグループを有する統計分布である。このようなグループの例には、死亡/生存、改良/未改良、抑制(depressed)/非抑制(not depressed)が含まれる。多項分布は2項分布の一般化であり、複数のサンプルの各々について複数のクラス又はグループが可能なものであり、又は言い替えれば、1つのサンプルが複数のクラス又はグループのうちの1つに分類されることが可能なものである。従って、多項又は2項ロジスティック回帰に基づいて尤度関数を定義すれば、あるサンプルを複数の予め定義されたグループ又はクラスのうちの1つに分類することができる複数の構成要素にてなるサブセットを識別することが可能である。これを行うために、複数のトレーニングサンプルは、トレーニングサンプルの予め決められた特徴に基づいて複数のサンプルグループ(又は「クラス」)にグループ化されるが、ここで、各サンプルグループの要素は共通の特徴を有しかつ共通のグループ識別子の割り当てを受ける。尤度関数は、(グループ化された複数のトレーニングサンプルから生成されるデータを組み込んだ)一次結合を条件とする多項又は2項ロジスティック回帰に基づいて定式化される。特徴は、トレーニングサンプルをグループ化すべき際に使用される、所望される任意の分類であることが可能である。例えば組織サンプルを分類するための特徴は、その組織が正常、悪性、良性、白血病細胞、健康細胞であるという場合もあれば、所定の状態を有するかもしくは持たない患者らの血液から複数のトレーニングサンプルが採取されるという場合もあり、又は、正常細胞に比較されるいくつかのタイプの癌のうちの1つの細胞から複数のトレーニングサンプルが採取されるという場合もある。
上記第1の実施形態において、多項又は2項ロジスティック回帰に基づく尤度関数は、次式の形式である。
Figure 2007513391
ここで、x βは、構成要素の複数の重み係数βとともにトレーニングサンプルiの入力データから生成される一次結合であり、x はXのi番目の行の要素であり、βはサンプルクラスgに係る構成要素の複数の重み係数にてなるセットであり、Xはp個の要素を含むn個のトレーニングサンプルからのデータであり、eikは本明細書内で後に定義される。
第2の実施形態では、尤度関数は順序分類ロジスティック回帰(ordered categorical logistic regression)に基づく。順序分類ロジスティック回帰は、複数のクラスが特定の順序で存在する(例えば、病気の重さが次第に重くなるか又は次第に軽くなる複数のクラス等の、順序付けられたクラスが存在する)2項又は多項分布をモデル化する。順序分類ロジスティック回帰に基づいて尤度関数を定義すれば、複数の予め定義された順序付けられたクラスのうちの1つであるクラスにサンプルを分類することができる複数の構成要素のうちのサブセットを識別することが可能である。順序付けられたクラスの要素にそれぞれ相当する一連のグループ識別子を定義して、複数のトレーニングサンプルの予め決められた特徴に基づいて当該複数のトレーニングサンプルを順序付けられたクラスのうちの1つにグループ化することにより、尤度関数は、(グループ化された複数のトレーニングサンプルから生成されるデータを組み込んだ)一次結合を条件とする順序分類ロジスティック回帰に基づいて定式化されることが可能である。
上記第2の実施形態では、順序分類ロジスティック回帰に基づく尤度関数は、次式の形式である。
Figure 2007513391
ここで、γikは、k以下の識別子を有するクラスにトレーニングサンプルiが属する確率である(ここで、順序付けられたクラスの総計はGである。)。rは本明細書において後に定義される。
本発明の第3の実施形態では、尤度関数は一般化線形モデルに基づく。一般化線形モデルは、好適には、通常の指数型分布族(regular exponential family of distributions)として分布される特徴をモデル化する。通常の指数型分布族の例には、正規分布、ガウス分布、ポアソン分布、ガンマ分布、及び逆ガウス分布が含まれる。従って、本発明の方法に係るもう1つの実施形態では、予測されるべき特徴をモデル化する一般化線形モデルを定義することによって特に、通常の指数型分布族に属する分布を有するサンプルの予め定義された特性を予測することができる、複数の構成要素のうちのサブセットが識別される。一般化線形モデルを用いて予測される可能性のある特性の例には、例えばサンプルの重さ、サイズ又は他の寸法もしくは量などの指定された分布を呈示する、サンプルに係る任意の量が含まれる。
上記第3の実施形態では、一般化線形モデルは、次式の形式である。
Figure 2007513391
ここで、y=(y,…,yであり、a(φ)=φ/wであり、このときwは既知の重み係数にてなる固定されたセットであり、φは単一のスケールパラメータである。この式における他の項は本明細書において後に定義される。
第4の実施形態では、本発明の方法は、ハザードモデルに基づく尤度関数を利用することにより、あるサンプルに係るイベントまでの時間を予測するために使用可能であり、これは好適には、上記イベントがデータ取得時点において発生していないことを条件にイベントまでの時間の確率を推定する。この第4の実施形態では、尤度関数は、コックスの比例ハザードモデル、パラメトリック生存モデル、及び加速度故障回数モデルを含むグループから選択される。コックスの比例ハザードモデルは、イベントまでの時間が、時間に関して制限的仮定を行うことなしに複数の構成要素と構成要素に係る複数の重み係数とのセットに基づいてモデル化されることを可能にする。加速度故障モデルは、複数の生存時間より成るデータのための一般モデルであって、ここでは、構成要素に係る複数の測定値は、時間スケールに対して乗法的に増大するように作用し、よって時間軸に沿って個々に進行する速度(レート)に影響を与えることが仮定される。従って加速度生存モデルは、例えば病気の進行速度に置き換えて解釈されることが可能である。パラメトリック生存モデルは、イベントまでの時間(例えば生存時間)の分布関数が既知の分布によってモデル化されたり、又は特定の(指定された)パラメトリックな定式化を有したりするというものである。一般に使用されている生存分布には、ワイブル(Weibull)分布、指数分布、及び極値分布がある。
上記第4の実施形態では、あるサンプルに係るイベントまでの時間を予測することができる複数の構成要素のうちのサブセットが、コックスの比例標準(proportional standards)モデル、パラメトリック生存モデル、又は加速度生存時間モデルに基づいて尤度を定義することにより識別される。これには、複数のサンプルに関する、サンプルの取得時刻からイベント発生時刻までの経過時間を測定することが含まれる。
上記第4の実施形態では、イベントまでの時間を予測するための尤度関数は、次式の形式である。
Figure 2007513391
ここで、
Figure 2007513391
及び
Figure 2007513391
はモデルパラメータであり、yは観測された複数の時刻にてなるベクトルであり、cは、ある時間が真の生存時間であるか、それとも打ち切り生存時間(censored survival time)であるかを示す指示子ベクトルである。
上記第4の実施形態では、コックスの比例ハザードモデルに基づく尤度関数は、次式の形式である。
Figure 2007513391
ここで、観測された時刻は昇順で並べられて
Figure 2007513391
で表され、ZはXの行の並べ替えであるN×p行列を示し、Zの行の順序づけは
Figure 2007513391
の順序づけによって導かれた順序づけに対応する。また、
Figure 2007513391
であり、zはzのj番目の行であり、
Figure 2007513391
は、j番目の順序を有するイベント時刻t(j)に設定されるリスクである。
尤度関数がパラメトリック生存モデルに基づく第4の実施形態では、尤度関数は、次式の形式である。
Figure 2007513391
ここで、
Figure 2007513391
であり、Λは積分されたパラメトリックハザード関数を示す。
定義される任意のモデルについて、重み係数は、典型的には、ベイズ統計モデルを用いて推定され(コッツ及びジョンソン(Kots and Johnson),1983年)、この場合、構成要素に係る複数の重み係数の事後分布であって、尤度関数と事前分布とを組み合わせる事後分布が定式化される。構成要素に係る複数の重み係数は、少なくとも1つのトレーニングサンプルに関して生成されるデータを所与として、複数の重み係数の事後分布を最大化することにより推定される。従って、最大化されるべき目的関数は、先に論じたような特徴に関するモデルに基づく尤度関数と、複数の重み係数の事前分布とから成る。
好適には、事前分布は、次式の形式である。
Figure 2007513391
ここで、vは複数のハイパーパラメータにてなるp×1ベクトルであり、p(β│v)はN(0,diag{v})であり、p(v)はvに関する何らかの超事前分布(hyperprior distribution)である。
好適には、超事前分布は、指定された形状及びスケールパラメータを有するガンマ分布を含む。
この超事前分布(これは、好適には本方法の全ての実施形態に関して同じである。)は、異なる表記法を用いて表されることが可能であり、実施形態の詳細な説明(下記参照)では、単に便宜上、特定の実施形態に関して次のような表記法を採用している。
本明細書で使用しているように、確率分布の尤度関数が多項又は2項ロジスティック回帰に基づく場合、事前分布は次式のように表記される。
Figure 2007513391
ここで、β=(β ,…,βG−1 )及びτ=(τ ,…,τG−1 )であり、p(β│τ )はN(0,diag{τ })であり、P(τ )はτ に関する何らかの超事前分布である。
本明細書で使用しているように、確率分布の尤度関数が順序分類ロジスティック回帰に基づく場合、事前分布は次式のように表記される。
Figure 2007513391
ここで、β,β,…,βは構成要素の重み係数であり、P(β│v)はN(0,v )であり、P(v)はvに関する何らかの超事前分布である。
本明細書で使用しているように、上記分布の尤度関数が一般化線形モデルに基づく場合、事前分布は次式のように表記される。
Figure 2007513391
ここで、vは複数のハイパーパラメータに係るp×1ベクトルであり、p(β│v)はN(0,diag{v})であり、p(v)はvに関する何らかの超事前分布である。
本明細書で使用しているように、上記分布の尤度関数がハザードモデルに基づく場合、事前分布は次式のように表記される。
Figure 2007513391
ここで、p(β│τ)はN(0,diag{τ})であり、p(τ)はτに関する何らかの超事前分布である。
事前分布は、可能であればいつでもゼロの重み係数が使用されることを保証する、超事前分布を含む。
ある代替実施形態では、超事前分布は、t =1/v が各々独立したガンマ分布を有する逆ガンマ分布である。
あるさらなる代替実施形態では、超事前分布は、(コンテキストに依存して)v 、τ又はτ が各々独立したガンマ分布を有するガンマ分布である。
先に論じたように、事前分布と尤度関数とは組み合わされて事後分布を生成する。事後分布は、好適には、
[数1]
p(βφv│y)αL(y│βφ)p(β│v)p(v)
又は、
Figure 2007513391
の形式である。ここで、
Figure 2007513391
は尤度関数である。
好適には、複数の構成要素のうちのサブセットを識別するステップは、事後分布の確率密度が最大化されるように反復手順を使用するステップを含む。
上記反復手順の実行中において、予め決められたしきい値を下回る値を有する、構成要素に係る複数の重み係数は、好適にはこれらの構成要素の重み係数をゼロに設定することにより除去される。これにより、対応する構成要素は実質上除去されることになる。
好適には、上記反復手順はEMアルゴリズムである。
EMアルゴリズムは、事後分布の確率密度を最大化する重み係数を構成要素に与えるように収束する、構成要素の重み係数に係る一連の推定値を生成する。EMアルゴリズムは、Eステップ又は期待値計算ステップと、Mステップ又は最大化ステップとして知られた2つのステップより成る。Eステップでは、観測データを条件とする対数事後関数の期待値が決定される。Mステップでは、更新された構成要素の重み係数に係る複数の期待値であってかつ事後分布を増大させる推定値を与えるように、期待される対数事後関数が最大化される。2つのステップは、Eステップ及びMステップの収束が達成されるまで、又は言い替えれば、期待値と、期待される対数事後関数の最大値とが収束するまで交互に行われる。
本発明に係る方法は、測定値の取得先とすることが可能な任意のシステムに適用され得ること、また好適には膨大な量のデータの生成元となるシステムに適用され得ることが想定されている。本発明の方法を適用可能なシステムの例には、生物学的システムと、化学システムと、農業システムと、気象システムと、例えば信用リスク評価システム、保険システム、マーケティングシステム又は企業記録システムを含む財務システムと、電子的システムと、物理的システムと、宇宙物理的システムと、機械的システムとが含まれる。例えば、財務システムでは、サンプルは特定の株式であることが可能であり、構成要素は、企業収益、従業員数、さまざまな都市の降水量、株主数などの、株価に影響を与える可能性のある任意個数のファクタに関して求められる測定値である可能性がある。
本発明の方法は、特に、生物学的システムの分析における使用に適している。本発明の方法は、構成要素の測定可能値を生成する任意の生物学的システムからのサンプルを分類するための複数の構成要素にてなる複数のサブセットであって、構成要素が一意的にラベリングされることが可能なサブセットを識別するために使用可能である。言い替えれば、上記複数の構成要素は、1つの構成要素からのデータを別の構成要素からのデータから区別できるようにラベリングされるか又は編成される。例えば、複数の構成要素は、各構成要素からのデータを空間的位置によって別のものから区別できるように空間的に編成される、例えばアレイ状に編成される場合もあれば、各構成要素は、識別信号又はタグ等の、当該構成要素に関連づけられる何らかの一意的な識別を有する場合もある。例えば、構成要素は、検出可能な識別サインをそれぞれ有する個々のキャリアに拘束される場合もある。識別サインとしては、例えば、量子ドット(例えば、「ローゼンソール,2001年,ネイチャーバイオテック19:621−622(Rosenthal, 2001, Nature Biotech 19: 621-622)」、「ハンほか(2001年)ネイチャーバイオテクノロジー19:631−635(Han et al. (2001) Nature Biotechnology 19: 631-635)」を参照)、蛍光マーカ(例えば、「フーほか(1999年)ネイチャーバイオテクノロジー17:1109−1111(Fu et al. (1999) Nature Biotechnology 17: 1109-1111)」を参照)、バーコード付きタグ(例えば、「ロックハート及びトラルソン(2001年)ネイチャーバイオテクノロジー19:1122−1123参照(Lockhart and trulson (2001) Nature Biotechnology 19: 1122-1123)」を参照)がある。
ある特に好適な実施形態では、生物学的システムはバイオテクノロジーアレイである。バイオテクノロジーアレイの例には、オリゴヌクレオチドアレイ、DNAアレイ、DNAマイクロアレイ、RNAアレイ、RNAマイクロアレイ、DNAマイクロチップ、RNAマイクロチップ、タンパク質アレイ、タンパク質マイクロチップ、抗体アレイ、化学アレイ、炭水化物アレイ、プロテオミクスアレイ、脂質アレイが含まれる。別の実施形態では、生物学的システムは、例えば、DNA又はRNA電気泳動ゲルと、タンパク又はプロテオミクス電気泳動ゲルと、ビアコア(Biacore)分析等の生体分子間相互作用の分析と、アミノ酸分析と、ADMEToxスクリーニング(例えば、フェレンツ・ダルバシュ及びジェルジ・ドルマーン編,「ハイスループットADMETox推定法:インビトロ及びインシリコ的アプローチ」,バイオテクニークスプレス,2002年(High-throughput ADMETox estimation: In Vitro and In Silico approaches (2002), Ferenc Darvas and Gyorgy Dorman (Eds), Biotechniques Press)を参照)と、タンパク質電気泳動ゲルと、プロテオミクス電気泳動ゲルとを含むグループから選択されることが可能である。
構成要素は、システムに係る測定可能な任意の構成要素であってよい。生物学的システムのケースでは、構成要素は、例えば、遺伝子もしくはその一部、DNA配列、RNA配列、ペプチド、タンパク質、炭水化物分子、脂質もしくはその混合物、生理学的構成要素、解剖学的構成要素、疫学的構成要素、又は化学的構成要素である可能性がある。
トレーニングサンプルは、サンプルの特徴が既知であるシステムから取得される任意のデータであることが可能である。例えばトレーニングサンプルは、生物学的システムに適用されるサンプルから生成されるデータである可能性がある。例えば、生物学的システムがDNAマイクロアレイであれば、トレーニングサンプルは、そのアレイと、既知の特徴を有する細胞から抽出されたRNAとのハイブリダイゼーション、又は細胞から抽出されたRNAから合成されたcDNAとのハイブリダイゼーションに続いて当該アレイから取得されるデータである場合もあり、生物学的システムがプロテオミクス電気泳動ゲルであれば、トレーニングサンプルは、システムに適用されるタンパク質又は細胞抽出物から生成される場合もある。
本発明の方法の実施形態は、試験処理剤への反応において雑多な結果を示した検査対象からの試験データを再評価する、又は評価する際に使用され得ることが想定される。こうして、本発明には第2の態様が存在する。
第2の態様は、検査対象を複数の予め定義されたグループのうちの1つに分類することができる、検査対象に係る複数の構成要素のうちのサブセットを識別するための方法を提供し、各グループは試験処理剤への反応によって定義され、上記方法は、
複数の検査対象を試験処理剤にさらし、上記処理剤に対する反応に基づいて上記検査対象を複数の反応グループにグループ化するステップと、
上記検査対象の複数の構成要素を測定するステップと、
統計解析方法を用いて、上記検査対象を反応グループに分類することのできる構成要素のうちのサブセットを識別するステップとを含む。
好適には、上記統計解析方法は本発明の第1の態様に係る方法を含む。
いったん複数の構成要素のうちのサブセットが識別されると、そのサブセットは、試験処理剤に反応する可能性のあるグループとそうでないグループ等の複数のグループに検査対象を分類するために使用可能である。このようにして、本発明の方法は、母集団のうちの一部に有効である可能性のある処理剤の識別を可能にし、また、その試験処理剤に反応する母集団のその一部の識別を可能にする。
本発明の第3の態様によれば、検査対象に係る複数の構成要素のうちのサブセットを識別するための装置が提供されていて、上記サブセットは、上記検査対象を複数の予め定義された反応グループのうちの1つに分類するために使用可能であり、各反応グループは、複数の検査対象を試験処理剤にさらしかつ上記処理剤に対する反応に基づいて上記検査対象を複数の反応グループにグループ化することによって形成され、上記装置は、
上記検査対象に係る測定された複数の構成要素を受信するための入力と、
統計解析方法を用いて、上記検査対象を反応グループに分類するために使用可能な構成要素のうちのサブセットを識別する処理手段とを備える。
好適には、上記統計解析方法は上記第1又は第2の態様に係る方法を含む。
本発明の第4の態様によれば、試験化合物による処理に対して反応するもの又は反応しないものとして検査対象を分類することができる検査対象に係る複数の構成要素のうちのサブセットを識別するための方法が提供されていて、上記方法は、
複数の検査対象を試験化合物にさらし、上記試験化合物に対する各検査対象の反応に基づいて上記検査対象を複数の反応グループにグループ化するステップと、
上記検査対象に係る複数の構成要素を測定するステップと、
統計解析方法を用いて、上記検査対象を反応グループに分類するために使用可能な複数の構成要素のうちのサブセットを識別するステップとを含む。
好適には、上記統計解析方法は上記第1の態様に係る方法を含む。
本発明の第5の態様によれば、検査対象に係る複数の構成要素のうちのサブセットを識別するための装置が提供されていて、上記サブセットは、上記検査対象を複数の予め定義された反応グループのうちの1つに分類するために使用可能であり、各反応グループは、複数の検査対象を化合物にさらしかつ上記化合物に対する反応に基づいて上記検査対象を複数の反応グループにグループ化することによって形成され、上記装置は、
上記検査対象に係る測定された複数の構成要素を受信する入力と、
統計解析方法を用いて、上記検査対象を反応グループに分類することができる複数の構成要素のうちのサブセットを識別する処理手段とを備える。
好適には、上記統計解析方法は本発明の第1又は第2の態様に係る方法を含む。
本発明の上記第2乃至第5の態様において測定される構成要素は、例えば、遺伝子もしくは小塩基多型(small nucleotide polymorphism:SNP)、タンパク質、抗体、炭水化物、脂質、又は検査対象の他の任意の測定可能な構成要素であることが可能である。
上記第5の態様の特別な実施形態では、化合物は、医薬化合物であるか、又は医薬化合物と薬剤を受容可能なキャリアとを備えた組成物である。
本発明に係る識別方法は、適切なコンピュータソフトウェア及びハードウェアによって実装されることが可能である。
本発明の第6の態様によれば、システムの複数のサンプルから生成されるデータからシステムに係る複数の構成要素のうちのサブセットを識別するための装置が提供されていて、上記サブセットは試験サンプルの特徴を予測するために使用可能であり、
上記装置は処理手段を備え、上記処理手段は、
上記システムに係る複数の構成要素の一次結合を取得し、上記複数の構成要素の一次結合に係る複数の重み係数を取得するように動作し、上記重み係数の各々は少なくとも1つのトレーニングサンプルから取得されるデータに基づく値を有し、上記少なくとも1つのトレーニングサンプルは既知の特徴を有し、
第2の特徴の確率分布のモデルを取得するように動作し、上記モデルは上記複数の構成要素の一次結合を条件とし、
上記複数の構成要素の一次結合に係る複数の重み係数に関する事前分布を取得するように動作し、上記事前分布は、ゼロに近い事前確率質量が変更されることを可能にする調節可能な超事前分布を含み、上記超事前分布はジェフリーズの超事前分布ではなく、
上記事前分布と上記モデルとを組み合わせて事後分布を生成するように動作し、
上記事後分布を最大化する構成要素の重み係数を有する複数の構成要素のうちのサブセットを識別するように動作する。
好適には、上記処理手段はソフトウェアを実行するように構成されたコンピュータを備える。
本発明の第7の態様によれば、計算装置によって実行されたときに、本発明の第1の態様に係る方法を上記計算装置に実行させるコンピュータプログラムが提供されている。
上記コンピュータプログラムは、好適なアルゴリズムと、先に論じた本発明の第1又は第2の態様に係る方法ステップとのうちの任意のものを実施することができる。
本発明の第8の態様によれば、本発明の上記第7の態様によるコンピュータプログラムを備えた、コンピュータが読み取り可能な媒体が提供されている。
本発明の第9の態様によれば、システムからのサンプルを検査してサンプルの特徴を識別する方法が提供されていて、
上記方法は、上記特徴の症状を示す複数の構成要素のうちのサブセットについて検査するステップを含み、上記複数の構成要素のうちのサブセットは本発明の第1又は第2の態様に係る方法を用いて決定されている。
好適には、上記システムは生物学的システムである。
本発明の第10の態様によれば、システムからのサンプルを検査してサンプルの特徴を決定するための装置が提供されていて、上記装置は、本発明の第1又は第2の態様に係る方法に従って識別される構成要素を検査するための手段を備える。
本発明の第11の態様によれば、計算装置によって実行されたときに、システムからの試験サンプルの特徴を予測するために使用可能なシステムからの構成要素を識別する方法を上記計算装置に実行させるコンピュータプログラムが提供されていて、上記方法においては、
複数のトレーニングサンプルから生成されるデータから複数の構成要素と構成要素に係る複数の重み係数との一次結合が生成され、各トレーニングサンプルは既知の特徴を有し、
ゼロに近い確率質量が変更されることを可能にする調節可能な超事前分布を含む構成要素に係る複数の重み係数の事前分布と、上記一次結合を条件とするモデルとを組み合わせ、上記事後分布を最大化する構成要素に係る複数の重み係数を推定することによって、事後分布が生成される。ここで、上記超事前分布はジェフリーズの超事前分布ではない。
本発明の態様は計算装置によって実装されるが、任意の適切なコンピュータハードウェア、例えばPC又はメインフレームあるいはネットワークで接続されたコンピューティングインフラストラクチャが使用可能であることは認識されるであろう。
本発明の第12の態様によれば、生物学的システムに係る複数の構成要素のうちのサブセットを識別する方法が提供されていて、上記サブセットは上記生物学的システムからの試験サンプルの特徴を予測することができ、上記方法は、
上記システムに係る複数の構成要素と、上記複数の構成要素の一次結合に係る複数の重み係数との一次結合を取得するステップを含み、上記重み係数の各々は少なくとも1つのトレーニングサンプルから取得されるデータに基づく値を有し、上記少なくとも1つのトレーニングサンプルは既知の第1の特徴を有し、
第2の特徴の確率分布のモデルを取得するステップを含み、上記モデルは上記複数の構成要素の一次結合を条件とし、
上記複数の構成要素の一次結合に係る複数の重み係数に関する事前分布を取得するステップを含み、上記事前分布は、ゼロに近い確率質量が変更されることを可能にする調節可能な超事前分布を含み、
上記事前分布と上記モデルとを組み合わせて事後分布を生成するステップと、
上記事後分布を最大化する重み係数に基づいて複数の構成要素のうちのサブセットを識別するステップとを含む。
本発明の範囲内にある可能性のある他の任意の実施形態に関わりなく、以下、添付の図面を参照して、本発明の実施形態を単なる例示としてのみ説明する。
本発明の実施形態は、特定のトレーニングサンプルがある特徴を有するか否かを識別するために使用可能な、比較的少数の構成要素を識別する。これらの構成要素はその特徴の「症状」を示し、又はこれらの構成要素は、異なる特徴を有するサンプル間での区別を可能にする。本方法によって選択される構成要素の数は、超事前分布におけるパラメータの選択によって制御されることが可能である。超事前分布は、指定された形状とスケールパラメータとを有するガンマ分布であることが知られている。本質的に本発明の方法は、システムから生成される全てのデータから、特定の特徴の検査に使用可能な比較的少数の構成要素の識別を可能にする。いったん本方法によりこれらの構成要素が識別されると、上記構成要素は、将来に新たなサンプルを評価するために使用可能である。本発明の方法は統計的方法を利用して、特徴を正しく予測するためには不要である構成要素を除去する。
本発明者らは、複数のトレーニングサンプルから生成されるデータに係る複数の構成要素の一次結合における構成要素に係る複数の重み係数が、トレーニングサンプルの特徴を正しく予測するためには不要である構成要素を除去するような方法で推定され得ることを発見している。その結果、トレーニングサンプルの特徴を正しく予測することのできる複数の構成要素のうちのサブセットが識別される。従って本発明の方法は、大量のデータから、ある特徴を正しく予測することができる比較的少なくかつ制御可能な個数の構成要素を識別することを可能にする。
また本発明の方法は、必要とするコンピュータメモリの使用量が従来技術の方法よりも少ないという優位点を有する。従って、本発明の方法は、例えばラップトップマシン等のコンピュータ上で高速に実行されることが可能である。より少ないメモリの使用により、本発明の方法はまた、本方法が、例えば生物学的データを解析するために複数の構成要素に関する(周辺的(marginal)情報でなく)同時的(joint)情報を用いる他の方法より高速で実行されることを可能にする。
本発明の方法はまた、解析のために複数の構成要素に関する周辺的情報ではなく同時的情報を用いるという優位点をも有する。
次に、マルチクラスのロジスティック回帰モデルに関する第1の実施形態について説明する。
A.マルチクラスロジスティック回帰モデル.
この実施形態に係る方法は、複数のトレーニングサンプルを用いて、上記トレーニングサンプルを複数の予め定義されたグループに分類することのできる複数の構成要素のうちのサブセットを識別する。続いて上記構成要素のうちのサブセットについての知識は、複数のサンプルを疾病クラス等の複数のグループに分類するための試験、例えば臨床試験に使用可能である。例えば、DNAマイクロアレイの複数の構成要素のうちのサブセットは、複数の臨床サンプルを、例えば健康又は病気等の臨床に関連した複数のクラスにグループ化するために使用可能である。
このようにして、本発明は、特定のトレーニングサンプルがある特定のグループに属するか否かを識別するために使用可能な、好適には少量かつ制御可能な個数の構成要素を識別する。選択される構成要素はそのグループの「症状」を示し、又は、それらの選択される構成要素は複数のグループ間での区別を可能にする。本質的に本発明の方法は、システムから生成される全てのデータから、特定のグループの検査に使用可能な少数の構成要素の識別を可能にする。いったん本方法によりこれらの構成要素が識別されると、上記構成要素は、将来に新たなサンプルをグループに分類する際に使用可能である。本発明の方法は好適には、統計的方法を用いて、上記サンプルが属するグループを正しく識別するためには不要である構成要素を除去する。
複数のサンプルは、予め決められた分類法に基づいて複数のサンプルグループ(又は「クラス」)にグループ化される。この分類法は、トレーニングサンプルがグループ化されるときに使用される、任意の所望の分類法であってよい。例えば分類法は、トレーニングサンプルが白血病細胞からのものかそれとも健康な細胞からのものかという場合もあれば、トレーニングサンプルが、所定の状態を有する患者又は有していない患者の血液から取得されること、あるいは、トレーニングサンプルが、正常な細胞との比較でいくつかのタイプの癌のうちの1つからの細胞によるものであることという場合もある。
ある実施形態では、入力データは、n個のトレーニングサンプル及びp個の構成要素が存在する場合のn×pデータ行列X=(xij)に編成される。典型的には、pはnよりずっと大きくなる。
別の実施形態では、データ行列Xは、線形予測量ではなく、予測量としてXの滑らかな関数を得るためにn×n核行列Kで置換されることが可能である。核行列Kの一例は、次式になる。
[数2]
ij=exp(−0.5*(x−x(x−x)/σ
ここで、xの下付き添字は行列Xにおける行の番号を示す。理想的には、Kの列のうちのサブセットは、これらの滑らかな関数の疎な表現を与えるものが選択される。
各サンプルクラス(グループ)に付随して、トレーニングサンプルがG個のサンプルクラスのうちのどれに属するかを示すクラスラベルyが存在する。ここで、y=k,k∈{1,…,G}である。ここでは、要素yを備えたn×1ベクトルをy.と記す。ベクトル
Figure 2007513391
を所与とすると、指示子変数を次式のように定義することができる。
Figure 2007513391
(A1)
ある実施形態では、構成要素の重み係数はベイズ統計モデルを用いて推定される(コッツ及びジョンソン,1983年を参照)。好適には、上記重み係数は、各トレーニングサンプルから生成されるデータを所与として、上記重み係数の事後分布を最大化することにより推定される。これにより、最大化される目的関数は2つの部分からなる。その第1の部分は尤度関数であり、その第2の部分は複数の重み係数の事前分布であり、これは可能であればいつでもゼロの重み係数が好適であることを保証する。ある好適な実施形態では、尤度関数はマルチクラスのロジスティックモデルから導出される。好適には、尤度関数は次式の確率から計算される。
Figure 2007513391
(A2)
及び、
Figure 2007513391
(A3)
ここで、Pigは、入力データXを有するトレーニングサンプルがサンプルクラスg内に存在することになる確率であり、x βは、構成要素の重み係数βを有するトレーニングサンプルiからの入力データから生成される一次結合であり、x は、Xのi番目の行の要素であり、βはサンプルクラスgの構成要素に係る複数の重み係数のセットである。
典型的には、先に論じたように、構成要素の重み係数は、大部分の構成要素の重み係数がゼロであるという先験的仮定を考慮した方法で推定される。
ある実施形態では、式(A2)における構成要素の重み係数βgは、大部分の値がゼロであるように推定されるが、それでもなおサンプルは正確に分類されることが可能である
ある実施形態では、構成要素に係る複数の重み係数は、先に言及したベイズモデルにおけるデータを所与として、それらの重み係数の事後分布を最大化することにより推定される。
好適には、構成要素の重み係数は、
(a)構成要素の重み係数β,…,βG−1の階層的事前分布を指定することと、
(b)入力データの尤度関数を指定することと、
(c)上記データが与えられたときの重み係数の事後分布を、(A5)を用いて決定することと、
(d)上記事後分布を最大化する構成要素の重み係数を決定することと
により推定される。
ある実施形態では、パラメータβ,…,βG−1に関して指定される階層的事前分布は、次式の形式である。
Figure 2007513391
(A4)
ここで、β=(β ,…,βG−1 )及びτ=(τ ,…,τG−1 )であり、p(β│τ )はN(0,diag{τ })であり、p(τ )は適切な事前分布である。
ある実施形態では、
Figure 2007513391
である。ここで、p(τig )は事前分布であり、tig =1/τig は独立なガンマ分布を有する。
別の実施形態では、p(τig )は事前分布であり、τig が独立なガンマ分布を有する。
ある実施形態では、尤度関数は式(8)における形式の
Figure 2007513391
であり、yを所与とするβ及び
Figure 2007513391
の事後分布は、次式になる。
Figure 2007513391
(A5)
ある実施形態では、尤度関数は1階及び2階の導関数を有する。
ある実施形態では、上記1階の導関数は、次のようなアルゴリズムから決定される。
Figure 2007513391
(A6)
ここで、
Figure 2007513391
は、サンプルクラスgの帰属関係と、クラスgの確率とをそれぞれ示すベクトルである。
ある実施形態では、上記2階の導関数は、次のようなアルゴリズムから決定される。
Figure 2007513391
(A7)
ここでδhgは、hがgに等しければ1であり、そうでなければゼロである。
式A6及び式A7は、次のようにして導出されることが可能である。
(a)データの尤度関数は、(A1)、(A2)及び(A3)を用いて、
Figure 2007513391
(A8)
のように書き表すことができる。
(b)式(A6)の対数をとり、また全てのiについて
Figure 2007513391
であるという事実を用いると、
Figure 2007513391
(A9)
が与えられる。
(c)式(A8)をβgに関して微分すると、
Figure 2007513391
(A10)
が与えられる。ここで、
Figure 2007513391
は、サンプルクラスgの帰属関係と、クラスgの確率とをそれぞれ示すベクトルである。
(d)式(9)の2階の導関数は、要素、
Figure 2007513391
(A11)
を有する。ここで、
Figure 2007513391
である。
尤度関数の事後分布を最大化する構成要素の重み係数は、EステップとMステップとを含むEMアルゴリズムを用いて特定されることが可能である。
EMアルゴリズムの実行に際しては、Eステップは好適には、次式の形式の項を計算するステップを含む。
Figure 2007513391
(A11a)
ここで、
Figure 2007513391
Figure 2007513391
であり、
Figure 2007513391
であれば
Figure 2007513391
である。
好適には、p(βig│τig )がN(0,τig )でありかつp(τig )が指定された事前分布を有するとき、式(11a)はtig =1/τig の条件付き期待値を計算することによって演算される。条件付き期待値の明示的な式は、後に提示する。
典型的には、EMアルゴリズムは下記のようなステップを含む。
(a)関数
Figure 2007513391
(A12)
を用いて、構成要素に係る複数の重み係数の事後分布の条件付き期待値を計算することにより、Eステップを実行する。ここで、式(8)においてx β=x γであり、
Figure 2007513391
であり、
Figure 2007513391

Figure 2007513391
で評価された式(11a)の場合と同様に定義される。この場合のPは、γで示されるβの非ゼロ要素をP βが選択するように、恒等行列から導出されるゼロ及び1を要素とする行列である。
(b)反復手順を適用してγの関数としてQを最大化することにより、Mステップを実行する。よって、
Figure 2007513391
(A13)
となる。ここで、αは0≦α≦1であるようなステップ長であり、γ=(γ,g=1,…,G−1)である。
式(A12)は、次のように導出されることが可能である。
観測データyと、パラメータ推定値のセット
Figure 2007513391
とを所与として、(A5)の条件付き期待値を計算する。
Figure 2007513391
β(及び
Figure 2007513391
)の要素がゼロに設定されるときの、すなわち、g=1,…,G−1についてβ=Pγ及び
Figure 2007513391
であるケースについて考察する。
γを含まない項を無視しかつ(A4)、(A5)、(A9)を使用すれば、次式が得られる。
Figure 2007513391
(A14)
ここで、(A8)において
Figure 2007513391
であり、
Figure 2007513391
であり、
Figure 2007513391

Figure 2007513391
で評価された式(A11a)の場合と同様に定義される。
条件付き期待値は、(A4)で与えられる第1の原則から評価され得ることに留意されたい。明示的な式については、後にいくつか述べる。
反復手順は、次のようにして導出されることが可能である。
(11)で必要とされる導関数を得るためには、まず、
Figure 2007513391
と表記するときに、(A8)、(A9)及び(A10)から次式が得られることに留意されたい。
Figure 2007513391
(A15)
及び、
Figure 2007513391
(A16)
ここで、
Figure 2007513391
であり、かつ、
[数3]
=P ,g=1,…,G−1
(A17)
である。
ある好適な実施形態では、上記反復手順は、式(A13)において式(A16)のブロックの対角要素のみを用いることにより簡略化されることが可能である。するとこれは、g=1,…,G−1について、次式を与える。
Figure 2007513391
(A18)
式(A18)を変形すると、次式が得られる。
Figure 2007513391
(A19)
ここで、
Figure 2007513391
である。
の列の数をp(g)と書くと、(A19)は、p(g)×p(g)行列の逆行列の演算を必要とし、これは非常に大規模なものになる可能性がある。これは、p(g)>nのときに、
Figure 2007513391
(A20)
に注目することにより、n×n行列まで縮小されることが可能である。ここで、Z=Δgg である。好適には、(A19)はp(g)>nのときに使用され、式(A19)へ(A20)が代入された形の(A19)は、p(g)≦nのときに使用される。
τig がジェフリーズ(Jeffreys)の事前分布を有するとき、次式が得られることに留意されたい。
Figure 2007513391
ある実施形態では、tig =1/τig は、スケールパラメータがb>0であり形状パラメータがk>0である独立なガンマ分布を有し、よってtig の密度は次式になる。
Figure 2007513391
表記を簡単化するために下付き添字を省略し、
[数4]
E{t|β}=(2k+1)/(2/b+β
(A21)
となることを証明することができる。その手順は、下記の通りである。
Figure 2007513391
を定義する。すると、
Figure 2007513391
になる。
証明.
s=β/2とすると、
Figure 2007513391
になる。ここで、u=t/bを代入すると、
Figure 2007513391
が得られる。次に、s’=bsとして、γ(u,l,k)の式を代入すると、
Figure 2007513391
が得られる。結果は、例えばアブラモビッツ(Abramowitz)及びステガン(Stegun)のラプラス変換表を参照することによって得られる。
条件付き期待値は、
[数5]
E{t|β}=I(1,b,k)/I(0,b,k)
=(2k+1)/(2/b+β
から得られる。
kはゼロへ向かい、bは無限大へ向かうとき、ジェフリーズの事前分布を用いる場合と同等の結果が得られる。例えば、k=0.005及びb=2×10の場合、
[数6]
E{t|β}=(1.01)/(10−5+β
となる。
従って、この適正な事前分布により、ジェフリーズの事前分布へ任意に近づくことができる。
このモデルのアルゴリズムは、
Figure 2007513391
を有する。ここで、期待値は上述の方法で計算される。
別の実施形態では、τig は、スケールパラメータがb>0であり形状パラメータがk>0である独立なガンマ分布を有する。次式が成り立つことを示すことができる。
Figure 2007513391
(A22)
ここで、γig=βig /2bであり、Kは変形ベッセル関数を表す。式(A22)において、k=1のとき、
Figure 2007513391
であり、式(A22)において、K=0.5のとき、
Figure 2007513391
であり、又はこれと等価であるが、
Figure 2007513391
である。
(A.1)の証明.
条件付き期待値の定義から、γ=β/2bと書くと、
Figure 2007513391
が得られる。式変形と、簡単化と、u=τ/bの代入とにより、(A22)における第1の式が得られる。
(22)における積分は、
Figure 2007513391
という結果を用いて評価されることが可能である。ここで、Kは変形ベッセル関数を表す。ワトソン(Watson:1966年)を参照されたい。
このクラスの要素の例はk=1であり、この場合は、
Figure 2007513391
である。これは、ティブシラニ(Tibshirani)のラッソ技術(Lasso technique:1996年)で使用される事前分布に相当する。フィゲイレド(Figueiredo:2001年)も参照されたい。
k=0.5の場合は、
Figure 2007513391
になり、又はこれに等価であるが、
Figure 2007513391
になる。ここで、K及びKは変形ベッセル関数である。アブラモビッツ及びステガン(1970年)を参照されたい。これらのベッセル関数を評価するための多項近似式が、アブラモビッツ及びステガン(1970年、379ページ)に記述されている。上述の各式は、ラッソモデル及びジェフリーズの事前分布モデルとの関連を実証するものである。
当業者には、kがゼロに向かいかつbが無限大に向かうにつれて、事前分布はジェフリーズの特異事前分布(improper prior)に向かうことが認識されるであろう。
ある実施形態では、0<k≦1かつb>0である事前分布は、ラッソの事前分布とジェフリーズの超事前分布を用いた仕様との間にあるように、ペナルティー的な非ゼロ係数として解釈される場合もある、事前分布のクラスを形成する。
ハイパーパラメータb及びkは、本方法によって選択される構成要素の数を制御するように変更されることが可能である。bが固定されたときにkがゼロに向かうと、選択される構成要素の数はこれに伴って減少可能であり、逆にkが1へ向かうと、選択される構成要素の数はこれに伴って増加可能である。
ある好適な実施形態では、EMアルゴリズムは下記のように実行される。
1. n=0,P=Iを設定し、
Figure 2007513391
の初期値を選ぶ。式(A22)におけるb及びkの値を選ぶ。例えば、b=1e7及びk=0は、優れた近似度でジェフリーズの事前分布モデルを与える。これは、xに関するlog(pig/piG)のリッジ(ridge)回帰によって行われる。ここでpigは、グループgにおける観測量について1に近い値であるように選択され、そうでなければ、すべての確率の和が1になるという拘束条件のもとで、0より大きい値を有する小さな量であるように選択される。
2. Eステップを実行する。すなわち
Figure 2007513391
を評価する。これもまた、k及びbの値に依存することに留意する。
3. t=0を設定する。g=1,…,G−1について、
a) p(g)≧nのとき、(A20)が代入された(A19)を用いて、δ =γ t+1−γ を計算する。
b) δ=(δ ,g=1,…,G−1)と表すとき、ラインサーチを行って、αの関数として(12)を最大化する(又は単に増大させる)
Figure 2007513391
におけるαの値を見つける。
c)
Figure 2007513391
を設定し、
[数7]
t=t+1
を設定する。
ステップ(a)及び(b)を収束するまで反復する。
これは、例えばγの関数として流れQの関数を最大化するγ*n+1を生成する。
g=1,…,G−1について、
Figure 2007513391
を決定する。ここで、ε≪1、例えば10−5である。Pを、i∈Sについてβig=0でありかつ
Figure 2007513391
であるように定義する。このステップは、モデルから、小さな係数値を有する変数を除去する。
4. n=n+1を設定し、収束するまでは2へ進む。
次に、順序分類ロジスティック回帰に関する第2の実施形態について説明する。
B.順序付きカテゴリーモデル.
この実施形態に係る方法は、複数のトレーニングサンプルを用いて、試験サンプルがある特定のクラスに属するか否かを決定するために使用可能な複数の構成要素のうちのサブセットを識別する。例えば、マイクロアレイ解析を用いて組織生検サンプルを評価するための遺伝子を識別するためには、昇順又は降順で並んだ病気の重症度のクラスへ予め順序付けられ、例えば正常な組織、良性の組織、局所的な腫瘍及び転移した腫瘍組織として予め順序付けられている組織の一連のサンプルからのマイクロアレイデータが、複数のトレーニングサンプルとして使用され、上記トレーニングサンプルに関連づけられた病気の重症度を示すことができる複数の構成要素のうちのサブセットを識別する。この構成要素のうちのサブセットは、続いて、前もって分類されていない試験サンプルが正常、良性、局所的な腫瘍又は転移した腫瘍として分類されることが可能であるか否かを決定するために使用可能である。従って、複数の構成要素のうちのサブセットは、複数のクラスにてなる順序付けられたセットのうちの特定のクラスに試験サンプルが属するか否かを診断するものとなる。いったん複数の構成要素のうちのサブセットが識別されれば、サンプルがどの順序付けられたクラスに属するかを決定するための将来の診断手順では、上記複数の構成要素のうちのサブセットのみを試験すればよいことは明らかであろう。
本発明の方法は、特に膨大な量のデータの解析に適している。典型的には、試験サンプルから取得される大量のデータ・セットは大幅に変化し、多くの場合、トレーニングサンプルから取得されるものとは著しく異なる。本発明に係る方法は、複数のトレーニングサンプルから生成される膨大な量のデータから複数の構成要素にてなる複数のサブセットを識別することが可能であり、本方法によって識別される複数の構成要素にてなるサブセットは、試験サンプルから生成されるデータが同じクラスに属するトレーニングサンプルから生成されるデータに比べて著しく可変的であっても、次には試験サンプルの分類に使用可能である。従って本発明の方法は、データ品質が悪い場合及び/又は同じ順序のクラスにおけるサンプル間に高いばらつきが存在する場合であってもサンプルを正しく分類する可能性が高い、複数の構成要素のうちのサブセットを識別することができる。
上記構成要素は、その特定の順序のクラスを「予測」する。基本的には、本発明に係る方法は、システムから生成される全てのデータから、トレーニングデータの分類に使用可能な比較的少数の構成要素を識別することを可能にする。いったん本方法によりこれらの構成要素が識別されると、上記構成要素は将来において試験サンプルを分類するために使用可能である。本発明に係る方法は好適には統計的方法を用いて、順序付けされたクラスのうちの要素であるクラスへサンプルを正しく分類するためには必要でない構成要素を除去する。
以下の説明では、N個のサンプルが存在し、y,z及びμ等のベクトルは、i=1,…,Nについて要素y,z及びμを有する。ベクトルの乗算及び除算は要素に関して定義され、diag{・}は、引数に等しい対角成分を有する対角行列を示す。また、‖・‖はユークリッドノルムを示すために使用される。
好適には、N個の観測値y が存在する。ここで、y は整数値1,…,Gをとる。これらの値は、例えば病気の重症度等の、何らかの方法で順序付けられたクラスを示す。各観測値に付随して、n個の行及びp個の列を有する行列X内に配列される複数の共変量(covariate:変数、例えば遺伝子発現値)のセットが存在する。ここで、nはサンプル数であり、pは構成要素の個数である。x *Tという表記は、Xのi番目の行を示す。個々の値(サンプル)iは、πik=π(x )により与えられるクラスkに属する確率を有する。
累積確率を定義する。
Figure 2007513391
γikは、単に、k以下のインデックスを有するクラスに観測値iが属する確率であることに留意されたい。Cを、
Figure 2007513391
で与えられる要素cijを備えたN×p行列とし、Rを、
Figure 2007513391
で与えられる要素γijを備えたn×p行列とする。
これらは、行内のCの列の累積和である。
独立な観測値(サンプル)の場合、データの尤度は、
Figure 2007513391
と書き表すことが可能であり、対数尤度Lは、
Figure 2007513391
と書き表すことができる。
これには、k=2,…,Gについて、次のような継続比(continuation ratio:又は逐次ロジット)モデルを採用することができる。
Figure 2007513391
マクロー及びネルダー(McCullagh and Nelder:1989年)、マクロー(1980年)及びその論考を参照されたい。ここで、次式が成り立つことに注意する。
Figure 2007513391
尤度は、次式の反応ベクトルy及び共変量行列Xを有するロジスティック回帰の尤度と等価である。
Figure 2007513391
ここで、IG−1は(G−1)×(G−1)の恒等行列であり、1G−1は1を要素とする(G−1)×1ベクトルである。ここでvec{ }は引数として行列をとり、1行毎にベクトルを形成する。
典型的には、先に論じたように、構成要素に係る複数の重み係数は、大部分の構成要素の重み係数がゼロであるという先験的仮定を考慮した方法で推定される。
フィゲイレド(2001年)に従って、冗長な変数(共変量)を除去するために、複数のハイパーパラメータにてなるp×1ベクトルを導入することによりパラメータβの事前分布が指定される。
好適には、構成要素の重み係数に関して指定される事前分布は、次式の形式である。
Figure 2007513391
(B1)
ここで、p(β│v)はN(0,diag{v})であり、p(v)は適切に選ばれた超事前分布である。例えば、
Figure 2007513391
は、適切な形式のジェフリーズの事前分布である。
別の実施形態では、p(v )は、t =1/v が独立なガンマ分布を有する事前分布である。
別の実施形態では、p(v )は、v が独立なガンマ分布を有する事前分布である。
シータの要素は、役立つ情報を持たない事前分布を有する。
尤度関数を
Figure 2007513391
と書き表すと、ベイズフレームワークにおいては、yを所与とするβ,θ及びvの事後分布は、次式になる。
[数8]
p(βφv│y)αL(y│βφ)p(β│v)p(v)
(2)
vを,失われたデータのベクトルとして扱うことにより、EMアルゴリズム(デンプスター(Dempster)ほか,1977年)等の反復アルゴリズムは、(2)を最大化してβ及びθの最大事後推定値を生成するために使用可能である。上述の事前分布は、最大事後推定値が疎になるようにされる、すなわち多数のパラメータが余分であればβの多くの要素がゼロになるようにされる。
好適には、下記においてβ=(θ,β*T)である。
上述の順序付けられたカテゴリーモデルについては、
Figure 2007513391
(11)
Figure 2007513391
(12)
であることを証明することができる。ここで、μ=exp(x β)/(1+exp(x β))及びβ=(θ,…,θ,β*T)である。
複数の構成要素と構成要素に係る複数の重み係数との事後分布を最大化するための反復手順は、例えばデンプスターほか,1977年、に記載されているようなEMアルゴリズムである。好適には、EMアルゴリズムは下記のように実行される。
1. 超事前分布を選択し、またそのパラメータとして値b及びkを選択する。n=0,S={1,2,…,p},φ(0)及びε=10−5(例えば)を設定する。正則化パラメータκを、1よりずっと大きい値、例えば100に設定する。これは、以下のMステップにおいて2階の導関数行列の最初のG−1個の対角要素に対して1/κを加算することに相当する。
p≦Nであれば、
Figure 2007513391
(B2)
により初期値βを計算し、p>Nであれば、
Figure 2007513391
(B3)
により初期値βを計算する。ここで、リッジパラメータλは0<λ≦1を満足し、ζは小さな値であり、かつζは、リンク関数g(z)=log(z/(1−z))がz=y+ζにおいてうまく定義されているように選ばれる。
2.
Figure 2007513391
を定義し、Pを、β(n)の非ゼロ要素γ(n)が、
Figure 2007513391
を満足するような、ゼロ及び1を要素とする行列であるとする。
Figure 2007513391
であるように
β=(wβi,i=1,p)を定義し、wγ=Pβとする。
3.
Figure 2007513391
(15)
を計算してEステップを実行する。ここで、Lはyの対数尤度関数であり、
Figure 2007513391
Figure 2007513391
であり、簡単化のために、
Figure 2007513391
であれば
Figure 2007513391
であると定義する。β=Pγ及びβ(n)=Pγ(n)を用いると、(15)は、
Figure 2007513391
(B4)
と書くことができる。ここで、β(n)=Pγ(n)のときにd(γ(n))=P (n)と評価される。
4. Mステップを実行する。これは、ニュートン=ラフソン法の反復により次のように実行されることが可能である。γ=γ(n)を設定し、r=0,1,2,…についてγr+1=γ+αδを設定する。ここで、α
Figure 2007513391
を保証するようにラインサーチアルゴリズムによって選ばれる。
p≦Nの場合、
Figure 2007513391
(B5)
を用いる。ここで、
Figure 2007513391
Figure 2007513391
Figure 2007513391
Figure 2007513391
及び
Figure 2007513391
である。
p>Nの場合、
Figure 2007513391
(B6)
を用いる。ここで、V及びzは先に定義した通りである。
γを、何らかの収束基準、例えば、
[数9]
‖γ−γr+1‖<ε(例えば10−5
が満足されるときのγの値であるとする。
5. β=Pγ,及び
Figure 2007513391
を定義する。ここで、εは小値の定数、例えば1e−5である。n=n+1を設定する。
6. 収束を確認する。εが十分に小さな値であるときに‖γ−γ(n)‖<εであれば停止し、そうでなければ上記ステップ2へ進む。
確率の復元.
パラメータβの推定値を取得すると、i=1,…,N及びk=2,…,Gについて、
Figure 2007513391
を計算する。
好適には、確率を取得するために、帰納法
Figure 2007513391
と、i=1,…,Nについて確率の総和は1になるという事実とを用いる。
ある実施形態では、行x を有する共変量行列Xは、何らかの核関数κに対してkij=κ(x−x)のときにij番目の要素としてkijを有する行列Kで置き換え可能である。この行列は、複数個の1にてなるベクトルによって拡大されることも可能である。以下の表1に核関数のいくつかの例を示す。エブゲニウ(Evgeniou)ほか(1999年)を参照されたい。
Figure 2007513391
表1における最後の2つの核関数は、好適には1次元のものである。すなわち、Xがただ1つの列を有する場合のものである。これらの核関数の積から多変量バージョンを導出することができる。B2n+1の定義は、デ・ボーア(De Boor:1978年)に記載されている。核関数の使用は、共変量Xの滑らかな関数(線形変換の場合とは対照的である)である平均値をもたらす。このようなモデルは、データに対して実質的により優れた適合性を与えることができる。
次に、一般化線形モデルに関する第3の実施形態について説明する。
C.一般化線形モデル.
この実施形態に係る方法は複数のトレーニングサンプルを用いて、サンプルの特性を予測することのできる複数の構成要素のうちのサブセットを識別する。続いて、この構成要素のうちのサブセットについての知識は、関心対象の特性に係る未知の値を予測するための試験、例えば臨床試験に使用可能である。例えば、DNAマイクロアレイに係る複数の構成要素のうちのサブセットは、例えば血糖レベル、白血球の数、腫瘍の大きさ、腫瘍の成長速度又は生存時間等の、臨床に関連した特性を予測するために使用可能である。
このようにして、本発明は、特定のサンプルの特性を予測するために使用可能な、好適には比較的少数の構成要素を識別する。選択される構成要素は、その特性を「予測」させるものである。超事前分布におけるハイパーパラメータを適正に選ぶことにより、本アルゴリズムは、さまざまなサイズのサブセットを選択できるようになる。本質的に本発明の方法は、システムから生成される全てのデータから、特定の特性を予測するために使用可能な少数の構成要素の識別を可能にする。いったん本方法によりこれらの構成要素が識別されると、上記構成要素は将来において新たなサンプルの特性を予測するために使用可能である。本発明の方法は好適には統計的方法を用いて、上記サンプルの特性を正しく予測するためには不要である構成要素を除去する。
本発明者らは、複数のトレーニングサンプルから生成されるデータに係る複数の構成要素の一次結合に関する構成要素に係る複数の重み係数が、あるトレーニングサンプルの特性を予測するためには不要である構成要素を除去するような方法で推定され得ることを発見している。その結果、トレーニングセットにおける複数の重み係数のサンプルの特性を正しく予測することのできる複数の構成要素のうちのサブセットが識別される。従って本発明の方法は、例えば関心対象の量であるトレーニングサンプルの特性を正しく予測することができる比較的少数の構成要素を、大量のデータから識別することを可能にする。
上記特性は、どのような関心対象の特性であってもよい。ある実施形態では、特性は量又は測定値である。別の実施形態では、これらはあるグループのインデックス番号であってもよく、このとき、複数のサンプルは、予め決められた分類法に基づいて2つのサンプルグループ(又は「クラス」)にグループ化される。この分類法は、複数のトレーニングサンプルがグループ化されるべきときに使用される、所望される任意の分類法であることが可能である。例えば分類法は、トレーニングサンプルが白血病細胞からのものかそれとも健康な細胞からのものかという場合もあれば、トレーニングサンプルが、所定の状態を有する患者又は有していない患者の血液から取得されること、あるいは、トレーニングサンプルが、正常な細胞との比較でいくつかのタイプの癌のうちの1つからの細胞によるものであることという場合もある。別の実施形態では、特性は、特定の患者が少なくとも所定の日数に渡って生存していることを示す打ち切り生存時間である場合もある。別の実施形態では、上記量は、測定可能なサンプルの連続的に可変な任意の特性、例えば血圧であることが可能である。
ある実施形態では、データは、i∈{1,…,N}とするときに、量yであることが可能である。ここでは、要素yを備えたn×1ベクトルをyと書き表す。構成要素に係る複数の重み係数(そのうち多数はゼロであると期待される)にてなるp×1パラメータベクトルβと、複数のパラメータφ(ゼロであると期待されるわけではない)にてなるq×1ベクトルとを定義する。qはゼロである可能性もある(すなわち、ゼロであると期待されないパラメータの集合は空である可能性がある)ことに留意されたい。
ある実施形態では、入力データは、n個の試験トレーニングサンプル及びp個の構成要素が存在するときのn×pデータ行列X=(xij)に編成される。典型的には、pはnよりずっと大きくなる。
別の実施形態では、データ行列Xは、線形予測量ではなく、予測量としてXの滑らかな関数を得るためにn×n核行列Kで置換されることが可能である。核行列Kの一例は、次式になる。
[数10]
ij=exp(−0.5*(x−x(x−x)/σ
xの下付き添字は行列Xにおける行の番号を示す。理想的には、Kの列のうちのサブセットは、これらの滑らかな関数の疎な表現を与えるものが選択される。
典型的には、先に論じたように、構成要素に係る複数の重み係数は、大部分の構成要素の重み係数がゼロであるという先験的仮定を考慮した方法で推定される。
ある実施形態では、構成要素の重み係数に関して指定される事前分布は、次式の形式である。
Figure 2007513391
(C1)
ここで、vは複数のハイパーパラメータにてなるp×1ベクトルであり、p(β│v)はN(0,diag{v})であり、p(v)はvに関する何らかの超事前分布である。
超事前分布の適切な形式は、ジェフリーズの
Figure 2007513391
である。
別の実施形態では、超事前分布p(v)は、各t =1/v が独立なガンマ分布を有するようなものである。
別の実施形態では、超事前分布p(v)は、各v が独立なガンマ分布を有するようなものである。
好適には、φに係る情報価値のない事前分布が指定される。
尤度関数は、データ分布のモデルから定義される。好適には、一般に尤度関数は適切な任意の尤度関数である。例えば、尤度関数
Figure 2007513391
は、例えばネルダー及びウェダーバーン(Nelder and Wedderburn:1972年)によって記載されているもののような、一般化線形モデル(GLM)に適切な形式である可能性があるが、これに制限されるものではない。この場合好適には、尤度関数は、次式の形式である。
Figure 2007513391
(C2)
ここで、y=(y,…,y及びa(φ)=φ/wであり、wは既知の重み係数にてなる固定されたセットであり、φは単一のスケールパラメータである。
好適には、尤度関数は次のように指定される。次式が所与であるとする。
Figure 2007513391
(C3)
各観測値は、複数の共変量xにてなるセットと、線形予測量η=x βとを有する。i番目の観測値の平均とその線形予測量との関係は、リンク関数η=g(μ)=g(b’(θ))で与えられる。上記リンク関数の逆はhで表され、すなわち次式になる。
[数11]
μ=b’(θ)=h(η
スケールパラメータに加えて、一般化線形モデルは、下記の4つの構成要素によって指定されることが可能である。
・尤度関数又は(スケーリングされた)逸脱度関数(deviance function)
・リンク関数
・リンク関数の導関数
・分散関数
一般化線形モデルの共通の例をいくつか次の表に挙げる。
Figure 2007513391
別の実施形態では、リンク関数及び分散関数のみが定義される擬似尤度モデルが指定される。例によっては、このような仕様が上記表内のモデルをもたらす。他の例では、分布は特定されない。
ある実施形態では、yを所与とするβ,φ及びvの事後分布は、次式を用いて推定される。
[数12]
p(βφv│y)αL(y│βφ)p(β│v)p(v)
(C4)
ここで、
Figure 2007513391
は尤度関数である。
ある実施形態では、vは失われたデータのベクトルとして扱われることが可能であり、反復手順は、式(C4)を最大化してβの最大事後推定値を生成するために使用可能である。式(C1)の事前分布は、最大事後推定値が疎になるようにされる、すなわち多数のパラメータが余分であればβの多くの要素がゼロになるようにされる。
先に述べたように、事後分布を最大化する構成要素の重み係数は、反復手順を用いて決定されることが可能である。好適には、複数の構成要素と構成要素に係る複数の重み係数との事後分布を最大化するための反復手順は、例えばデンプスターほか,1977年、に記載されているような、EステップとMステップとを含むEMアルゴリズムである。
EMアルゴリズムの実行に際しては、Eステップは好適には、次式の形式の項を計算するステップを含む。
Figure 2007513391
(C4a)
ここで、
Figure 2007513391
であり、簡単化のために、
Figure 2007513391
であれば
Figure 2007513391
を定義する。以下、
Figure 2007513391
と記す。同様に、例えばd(β(n))及びd(γ(n))=P d(Pγ(n))を定義する。ここで、β(n)=Pγ(n)であり、Pはp×p恒等行列からβ (n)=0である列jを削除して得られる。
好適には、P(β│v )がN(0,v )でありかつp(v )が指定された事前分布を有するとき、式(C4a)はt =1/v の条件付き期待値を計算することによって演算される。特定の例及び式は、後に提示する。
任意の適切な尤度関数に適する一般的な実施形態では、EMアルゴリズムは下記のようなステップを含む。
(a)超事前分布及びそのパラメータの値を選択する。n=0,S={1,2,…,p}を設定してアルゴリズムを初期化し、φ(0),βを初期化し、εに対して、例えばε=10−5等の値を適用する。
(b)
Figure 2007513391
(C5)
を定義し、Pnを、β(n)の非ゼロ要素γ(n)が、
Figure 2007513391
を満足するような、ゼロ及び1を要素とする行列であるとする。
(c)関数、
Figure 2007513391
(C6)
を用いて構成要素の重み係数の事後分布の条件付き期待値を計算することにより、推定(E)ステップを実行する。ここで、Lはyの対数尤度関数である。(C4a)に定義されているようにβ=Pγ及びd(γ(n))を用いると、(C6)は、
Figure 2007513391
(C7)
と書くことができる。
(d)反復手順を適用してγの関数としてQを最大化することにより最大化(M)ステップを実行する。ここで、γ=γ(n)であり、r=0,1,2,…に対してγr+1=γ+αδrであり、αrは、
Figure 2007513391
及び
Figure 2007513391
(C8)
を保証するようにラインサーチアルゴリズムによって選ばれる。
ここで、(C4a)におけるように、d(γ(n))=P d(Pγ(n))であり、かつβ=Pγに関して、
Figure 2007513391
である。
(e)γを、何らかの収束基準が満足されるとき、例えば、‖γr−γr+1‖<ε(例えば10−5)であるときのγrの値であるとする。
(f)β=Pγ
Figure 2007513391
を定義する。ここで、εは小値の定数、例えば1e−5である。
(g)n=n+1を設定し、φ(n+1)=φ(n)+κ(φ−φ(n))を選ぶ。ここで、φ
Figure 2007513391
を満足し、κは0<κ≦1であるような減衰係数(damping factor)である。
(h)収束を確認する。εが十分に小さな値であるときに‖γ−γ(n)‖<εであれば停止し、そうでなければ上記ステップ(b)へ進む。
別の実施形態では、t =1/v は、スケールパラメータがb>0であり形状パラメータがk>0である独立なガンマ分布を有し、そのためt の密度は次式になる。
Figure 2007513391
次式
[数13]
E{t|β}=(2k+1)/(2/b+β
が成り立つことは、次のようにして証明することができる。
Figure 2007513391
を定義すると、
Figure 2007513391
になる。
証明.
s=β/2とすると、
Figure 2007513391
になる。ここでu=t/bを代入すると、
Figure 2007513391
が得られる。次に、s’=bsとし、γ(u,l,k)の式を代入すると、
Figure 2007513391
になる。結果は、例えばアブラモビッツ及びステガンのラプラス変換表を参照することによって得られる。
条件付き期待値は、
[数14]
E{t|β}=I(1,b,k)/I(0,b,k)
=(2k+1)/(2/b+β
から得られる。
kはゼロへ向かい、bは無限大へ向かうとき、ジェフリーズの事前分布を用いる場合と同等の結果が得られる。例えば、k=0.005及びb=2×10の場合、
[数15]
E{t|β}=(1.01)/(10−5+β
となる。
従って、この適正な事前分布により、ジェフリーズの超事前分布によるアルゴリズムへ任意に近づくことができる。
別の実施形態では、v は、スケールパラメータがb>0であり形状パラメータがk>0である独立なガンマ分布を有する。次式がは証明可能である。
Figure 2007513391
(C9)
ここでλ=β /2bであり、Kは変形ベッセル関数を示す。これは、次のように証明することができる。
式(C9)において、k=1であれば、
Figure 2007513391
である。式(C9)において、K=0.5であれば、
Figure 2007513391
であり、又はこれに等価であるが、
Figure 2007513391
である。
証明.
条件付き期待値の定義から、λ=β /2bと書くと、
Figure 2007513391
が得られる。式変形と、簡単化と、u=v /bの代入とにより、A.1が得られる。
A.1における積分は、
Figure 2007513391
という結果を用いて評価されることが可能である。ここで、Kは変形ベッセル関数を表す。ワトソン(1966年)を参照されたい。
このクラスの要素の例はk=1であり、この場合は、
Figure 2007513391
である。これは、ラッソ技術、ティブシラニ(1996年)で使用される事前分布に相当する。フィゲイレド(2001年)も参照されたい。
k=0.5の場合は、
Figure 2007513391
であり、又はこれに等価であるが、
Figure 2007513391
になる。ここで、K及びKは変形ベッセル関数である。アブラモビッツ及びステガン(1970年)を参照されたい。これらのベッセル関数を評価するための多項近似式は、アブラモビッツ及びステガン(1970年、379ページ)に記載されている。上述の計算の詳細は付録(Appendix)に記されている。
上述の各式は、ラッソモデル及びジェフリーズの事前分布モデルとの関連を実証するものである。
当業者には、kがゼロに向かいかつbが無限大に向かうにつれて、事前分布はジェフリーズの特異事前分布に向かうことが認識されるであろう。
ある実施形態では、0<k≦1及びb>0である事前分布は、ラッソ事前分布とジェフリーズの超事前分布を用いた元の仕様との間にあるような、ペナルティー的な非ゼロ係数として解釈される場合もある事前分布のクラスを形成する。
別の実施形態では、一般化線形モデルのケースの場合、最大化ステップにおけるステップ(d)は、
Figure 2007513391
をその期待値
Figure 2007513391
で置換することによって推定され得る。これは、データモデルが一般化線形モデルである場合に好適である。
一般化線形モデルでは、期待値
Figure 2007513391
は次のように計算されることが可能である。次式
Figure 2007513391
(C10)
から開始する。ここで、Xは、i番目の行をx とするN×p行列であり、また
Figure 2007513391
(C11)
である。このとき、
Figure 2007513391
が得られる。
式(C10)及び(C11)は、
Figure 2007513391
(C12)
Figure 2007513391
(C13)
と書くことができる。ここで、
Figure 2007513391
である。
好適には、一般化線形モデルの場合、EMアルゴリズムは下記のステップを含む。
(a)超事前分布及びそのパラメータを選ぶ。n=0,S={1,2,…,p},φ(0)を設定してアルゴリズムを初期化し、εに対して、例えばε=10−5等の値を適用する。
p≦Nであれば、
Figure 2007513391
(C14)
によって初期値βを計算し、
p>Nであれば、
Figure 2007513391
(C15)
によって初期値βを計算する。ここで、リッジパラメータλは0<λ≦1を満足し、ζは、小さな値でありかつリンク関数がy+ζでうまく定義されているように選ばれる。
(b)
Figure 2007513391
を定義し、Pnを、β(n)の非ゼロ要素γ(n)が、
Figure 2007513391
を満足するような、ゼロ及び1を要素とする行列であるとする。
(c)関数
Figure 2007513391
(C16)
を用いて構成要素の重み係数の事後分布の条件付き期待値を計算することにより、推定(E)ステップを実行する。ここで、Lはyの対数尤度関数である。β=Pγ及びβ(n)=Pγ(n)を用いると、(C16)は、
Figure 2007513391
(C17)
と書くことができる。
(d)例えばニュートン=ラフソン法の反復である反復手順を適用して、γの関数としてQを最大化することにより最大化(M)ステップを実行する。ここで、γ=γ(n)であり、r=0,1,2,…に対してγr+1=γ+αδであり、αは、
Figure 2007513391
であることを保証するようにラインサーチアルゴリズムによって選ばれる。このとき、p≦Nについて、
Figure 2007513391
(C18)
を使用し、ここで、
Figure 2007513391
Figure 2007513391
Figure 2007513391
であり、下付き添字rはこれらの量がμ=h(XPγ)で評価されたことを示す。
p>Nに関しては、
Figure 2007513391
(C19)
を用いる。ここで、V及びzは先に定義した通りである。
(e)γを、何らかの収束基準が満足されるとき、例えば‖γ−γr+1‖<ε(例えば10−5)であるときのγの値であるとする。
(f)β=Pγ
Figure 2007513391
を定義する。ここで、εは小値の定数、例えば1e−5である。n=n+1を設定し、φn+1=φ+κ(φ−φ)を選ぶ。ここで、φ
Figure 2007513391
を満足し、κは0<κ≦1であるような減衰係数である。ただし、場合によっては、スケールパラメータが既知であることという点に、又はφの更新式を得るためにこの式が明示的に解かれることもある点に注意されたい。
上述の実施形態は、擬似尤度方法を組み込むために拡張されることが可能である(ウェダーバーン(1974年)、及びマクロー及びネルダー(1983年))。このような実施形態においては、先に詳述したものと同じ反復手順が適切であろうが、Lは、先に示したような、また例えばマクロー及びネルダー(1983年)の表8.1におけるような擬似尤度によって置換される。ある実施形態では、スケールパラメータφのための変形された更新方法が存在する。これらのモデルを定義するためには、分散関数τ、リンク関数g及びリンク関数
Figure 2007513391
の導関数の仕様が必要である。これらが定義されると、上述のアルゴリズムを適用可能である。
擬似尤度モデルの場合の実施形態では、上述のアルゴリズムのステップ5は、
Figure 2007513391
を計算することによってスケールパラメータが更新されるように変形される。ここで、μ及びτはβ=Pγにおいて評価される。好適には、この更新は、モデル内のパラメータ数sがN未満であれば実行される。Nの序数sは、sがNよりずっと小さい場合に使用可能である
別の実施形態では、一般化線形モデル及び擬似尤度モデルの双方に関して、行x を有する共変量行列Xは、何らかの核関数κについてkij=κ(x−x)とするときに、ij番目の要素kijを有する行列Kで置換されることが可能である。またこの行列は、複数の1にてなるベクトルで拡大される場合もある。いくつかの例示的な核関数を以下の表2に示す。エブゲニウほか(1999年)を参照されたい。
Figure 2007513391
表2における最後の2つの核関数は、1次元のものである。すなわち、Xがただ1つの列を有する場合のものである。これらの核関数の積から多変量バージョンを導出可能である。B2n+1の定義は、デ・ボーア(1978年)に記載されている。一般化線形モデル又は擬似尤度モデルの何れにおいても、核関数の使用は共変量Xの滑らかな(線形変換の場合とは対照的である)関数である平均値をもたらす。このようなモデルは、データに対して実質的により優れた適合性を与えることができる。
次に、比例ハザードモデルに関する第4の実施形態について説明する。
D.比例ハザードモデル.
この実施形態に係る方法は、複数のトレーニングサンプルを用いて、定義されたイベント(例えば死亡、回復)が所定の時間期間内に発生する確率に影響を与える可能性のある複数の構成要素のうちのサブセットを識別することができる。トレーニングサンプルはシステムから取得され、トレーニングサンプルの取得からイベント発生までの時間が測定される。イベントまでの時間を複数のトレーニングサンプルから取得されるデータに関連づける統計的方法を用いて、イベントまでの時間の分布を予測することができる複数の構成要素のうちのサブセットが識別され得る。続いてこの構成要素のうちのサブセットについての知識は、例えば臨床試験である試験に使用可能であり、例えば、死亡までの時間又は病気再発までの時間の統計的特徴が予測される。例えば、システムに係る複数の構成要素のうちのサブセットからのデータは、DNAマイクロアレイから取得される可能性がある。このデータは、例えば、患者の生存時間の期待値又は中央値等の臨床に関連したイベントを予測するために、あるいは所定の症状の発現又は病気の再発を予測するために使用可能である。
このようにして、本発明は、システムのイベントまでの時間の分布を予測するために使用され得る好適には比較的少数の構成要素を識別する。選択される構成要素は、そのイベントまでの時間を「予測」させるものである。本質的に本発明の方法は、システムから生成される全てのデータから、イベントまでの時間を予測するために使用可能な少数の構成要素の識別を可能にする。いったん本方法によりこれらの構成要素が識別されると、上記構成要素は、将来に、新たなサンプルから、システムのイベントまでの時間の統計的特徴を予測するために使用可能である。本発明の方法は好適には、統計的方法を用いて、システムのイベントまでの時間を正しく予測するためには不要である構成要素を除去する。選択されるサブセットのサイズに関する何らかの制御は、モデルにおけるハイパーパラメータを適切に選択することにより達成されることが可能である。
本明細書で使用しているように、「イベントまでの時間」とは、本発明の方法が適用されるサンプルの取得から、イベント発生時刻までの、時間の尺度(単位)を示す。イベントは、観測可能な任意のイベントであることが可能である。システムが生物学的システムである場合、イベントは、例えば、システムに障害が生じるまでの時間、死亡までの時間、特定の1つ又は複数の症状の発現、状態又は病気の発現又は再発、表現型又は遺伝子型の変化、生化学上の変化、有機体又は組織の形態変化、行動の変化、である可能性がある。
サンプルは、先行する1つのイベントまでの複数の時間からの、特定の1つのイベントまでの時間に関連づけられる。イベントまでの時間は、例えば、サンプリングから死亡までの時間が分かっている患者から取得されたデータから決定される時間、言い替えれば「真正の」生存時間であってもよく、また、最後にサンプルが取得された時点では患者は生存していたという情報のみのみを有する患者から取得されたデータから決定される時間、言い替えれば、その特定の患者は少なくとも所定の日数は生存していたことを示す「打ち切りされた」生存時間であってもよい。
ある実施形態では、入力データは、n個の試験トレーニングサンプル及びp個の構成要素が存在するときのn×pデータ行列X=(xij)に編成される。典型的には、pはnよりずっと大きくなる。
例として、例えば、N個の個体(又はサンプル)とその各個体対するp個の遺伝子と
が存在するときのマイクロアレイ実験からの、N×pデータ行列X=(xij)について考察する。好適には、各個体i(i=1,2,…,N)に関連付けられた変数であって、例えば生存時間であるイベントまでの時間を示す変数y(y≧0)が存在する。また、各個体に関して、その個体の生存時間が真正の生存時間であるかそれとも打ち切りされた生存時間であるかを示す変数が定義されていてもよい。打ち切り指示子をcと表示する。ここで、次式のように定義する。
Figure 2007513391
生存時間yを備えたN×1ベクトルは
Figure 2007513391
と表記され、打ち切り指示子cを備えたN×1ベクトルは
Figure 2007513391
と表記されることが可能である。
典型的には、先に論じたように、構成要素の重み係数は、大部分の構成要素の重み係数がゼロであるという先験的仮定を考慮した方法で推定される。
好適には、構成要素の重み係数に関して指定される事前分布は、次式の形式である。
Figure 2007513391
(D1)
ここで、β,β,…,βは構成要素の重み係数であり、p(β│τ)はN(0,τ )であり、p(τ)は、ジェフリーズの超事前分布ではない、何らかの超事前分布
Figure 2007513391
である。
ある実施形態では、事前分布はτの逆ガンマ事前分布であり、上記分布におけるt =1/τ は、スケールパラメータがb>0であり形状パラメータがk>0であるような独立なガンマ分布を有し、そのためt の密度は次式になる。
Figure 2007513391
次式が成り立つことを証明することができる。
[数16]
E{t|β}=(2k+1)/(2/b+β
(A)
式Aは、次のようにして証明することができる。
Figure 2007513391
を定義すると、
Figure 2007513391
になる。
証明.
s=β/2とすると、
Figure 2007513391
になる。ここでu=t/bを代入すると、
Figure 2007513391
が得られる。次に、s’=bsとし、γ(u,l,k)の式を代入すると、
Figure 2007513391
になる。結果は、例えばアブラモビッツ及びステガンのラプラス変換表を参照することによって得られる。
条件付き期待値は、
[数17]
E{t|β}=I(1,b,k)/I(0,b,k)
=(2k+1)/(2/b+β
から得られる。
kはゼロへ向かい、bは無限大へ向かうとき、ジェフリーズの事前分布を用いる場合と同等の結果が得られる。例えば、k=0.005及びb=2×10の場合、
[数18]
E{t|β}=(1.01)/(10−5+β
となる。
従って、この適正な事前分布により、ジェフリーズの超事前分布へと任意に近づくことができる。
このモデルの変更されたアルゴリズムは、
[数19]
(n)=E{t|β(n)−0.5
を有する。ここで、期待値は上述の方法で計算される。
さらに別の実施形態では、事前分布はτig のガンマ分布である。好適には、上記ガンマ分布はスケールパラメータb>0及び形状パラメータk>0を有する。
次式が成り立つことを証明することができる。
Figure 2007513391
ここで、γ=β /2bであり、Kは変形ベッセル関数を表す。このクラスのいくつかの特別な要素はk=1であり、この場合、
Figure 2007513391
である。これは、ラッソ技術、ティブシラニ(1996年)で使用される事前分布に相当する。フィゲイレド(2001年)も参照されたい。
k=0.5の場合は、
Figure 2007513391
であり、又はこれに等価であるが、
Figure 2007513391
になる。ここで、K及びKは変形ベッセル関数である。アブラモビッツ及びステガン(1970年)を参照されたい。これらのベッセル関数を評価するための多項近似式は、アブラモビッツ及びステガン(1970年,379ページ)に記載されている。
上述の各式は、ラッソモデル及びジェフリーズの事前分布モデルとの関連を実証するものである。
上述の計算の詳細は、次のようなものである。
上述のガンマ事前分布及びγ=β /2bの場合、
Figure 2007513391
(D2)
である。ここで、Kは変形ベッセル関数を表す。
(D2)において、k=2の場合、
Figure 2007513391
である。
(D2)において、K=0.5の場合、
Figure 2007513391
であり、又はこれに等価であるが、
Figure 2007513391
である。
証明.
条件付き期待値の定義から、γ=β /2bと書くと、
Figure 2007513391
が得られる。式変形と、簡単化と、u=v /bの代入とにより、A.1が得られる。
A.1における積分は、
Figure 2007513391
という結果を用いて評価されることが可能である。ここで、Kは変形ベッセル関数を表す。ワトソン(1966年)を参照されたい。
ある特に好適な実施形態では、p(τ)α1/τ は、コッツ及びジョンソン(1983年)における、ジェフリーズの事前分布である。
尤度関数は、データの分布に基づいてそのデータに適合するモデルを定義する。好適には、尤度関数は、次式の形式である。
Figure 2007513391
ここで、
Figure 2007513391
及び
Figure 2007513391
はモデルパラメータである。上記尤度関数によって定義されるモデルは、システムのイベントまでの時間を予測するための任意のモデルであることが可能である。
ある実施形態では、尤度によって定義されるモデルはコックスの比例ハザードモデルである。コックスの比例ハザードモデルはコックスによって導入され(1972年)、好適には生存データの回帰モデルとして使用可能である。コックスの比例ハザードモデルでは、
Figure 2007513391
は、複数の構成要素に関連づけられる(説明的な)複数のパラメータにてなるベクトルである。好適には、本発明の方法は、データX,
Figure 2007513391
及び
Figure 2007513391
を所与とするコックスの比例ハザードモデルのパラメータ
Figure 2007513391
からの、節約志向(parsimonious)の選択(及び推定)を提供する。
コックスの比例ハザードモデルの適用は、同じ生存時間に関して、言い替えれば拘束された生存時間(tied survival time)に関してシステムから異なるデータが取得されるような状況においては問題がある可能性がある。よって拘束された生存時間に対しては、一意的な生存時間をもたらす前置処理ステップが実行されてもよい。提案される前置処理は後続のコードを簡単化し、よってコックスの比例ハザードモデルを続いて適用する際における拘束された生存時間に関する懸念を回避する。
生存時間の前置処理は、極めて少量の微小なランダムノイズを付加することによって行われる。好適には、本手順は、拘束された時間にてなる複数のセットを使用し、かつ、拘束された時間にてなるあるセット内の各拘束された時間に対して、ゼロ平均と、ソーティングされた生存時間の間における非ゼロの最小距離に比例した分散とを有する正規分布から引き出されたランダム量を付加する。このような前置処理は、生存時間の過酷な摂動をもたらすことなく、拘束された時間の除去を達成する。
前置処理は、明確に区別される別個の生存時間をもたらす。好適には、これらの時間は、
Figure 2007513391
で表されるように、大きさに関して昇順で順序付けられることが可能である。
Zの行の順序づけが、
Figure 2007513391
の順序づけにより導出される順序づけに対応している場合の、Xの行の並べ替えであるN×p行列をZで示し、また行列Zのj番目の行をZで示す。dを、
Figure 2007513391
の順序づけに必要とされるものと同じ順列を用いてcを順序づけした結果であるとする。
拘束された生存時間の前置処理が考慮されかつ生存データ解析に関する標準的文書(例えばコックス及びオークス(Cox and Oakes:1984年))が参照された後には、比例ハザードモデルの尤度関数は、好適には、次式で表すことができる。
Figure 2007513391
(D3)
ここで、
Figure 2007513391
であり、zはZのj番目の行であり、
Figure 2007513391
は、j番目の順序を有するイベント時刻t(j)において設定されるリスクである。
尤度の対数(すなわちL=log(l))は、好適には、次式で表すことができる。
Figure 2007513391
(D4)
ここで、
Figure 2007513391
である。
モデルはノンパラメトリックであり、ここで、生存分布のパラメトリック形式は指定されず、好適には(リスクセットの決定において)生存時間の順序付けに係る特性のみが使用されるということに留意されたい。これはノンパラメトリックなケースであるので、
Figure 2007513391
は不要である(すなわちq=0)。
本発明の方法の別の実施形態では、尤度関数によって定義されるモデルはパラメトリック生存モデルである。好適には、パラメトリック生存モデルにおいて、
Figure 2007513391
は、複数の構成要素に関連づけられる複数の(説明的)パラメータにてなるベクトルであり、
Figure 2007513391
は、生存密度関数の関数形式に関連づけられる複数のパラメータにてなるベクトルである。
好適には、本発明の方法は、データX,
Figure 2007513391
及び
Figure 2007513391
を所与とするときのパラメトリック生存モデルに関する、パラメータ
Figure 2007513391
と、
Figure 2007513391
)の推定とからの、節約志向の選択(及び推定)を提供する。
パラメトリック生存モデルの適用において、生存時間は前置処理を必要とせず、
Figure 2007513391
で示される。パラメトリック生存モデルは、次のように適用される。
生存時間のパラメトリック密度関数を
Figure 2007513391
で表し、その生存関数を
Figure 2007513391
で表す。ここで、
Figure 2007513391
は密度関数のパラメトリック形式に関連するパラメータであり、
Figure 2007513391
,Xは先に定義した通りである。ハザード関数は、
Figure 2007513391
と定義される。
好適には、打ち切りされたデータを考慮した対数尤度関数の一般的な定式化は、次式になる。
Figure 2007513391
パラメトリック回帰生存モデルを用いた生存時間データの解析に関する標準的文書を参照すると、使用可能な多数の生存時間分布が存在することがわかる。使用可能な生存分布には、例えばワイブル分布、指数分布又は極値分布が含まれる。
ハザード関数を、
Figure 2007513391
と書くことができれば、
Figure 2007513391
及び
Figure 2007513391
となる。ここで、
Figure 2007513391
は積分されたハザード関数であり、
Figure 2007513391
であり、XはXのi番目の行である。
ワイブル分布、指数分布又は極値分布は、直前の段落に提示した形式で書き表すことのできる密度及びハザード関数を有する。
その適用についての詳細は、部分的には、エイトケン及びクレイトン(Aitken and Clayton:1980年)のアルゴリズムに依存するが、ユーザは基本となるパラメトリックハザード関数を任意に指定することができる。
エイトケン及びクレイトン(1980年)によると、パラメトリック生存モデルをモデリングする好適な尤度関数は、次式になる。
Figure 2007513391
(D5)
ここで、
Figure 2007513391
である。エイトケン及びクレイトン(1980年)は、式(11)の結果として、cは平均値μを有するポワソン変量として扱われることが可能であり、式(11)の最後の項は
Figure 2007513391
に依存しない(ただし
Figure 2007513391
に依存する)と述べている。
好適には、
Figure 2007513391
を所与とする
Figure 2007513391
Figure 2007513391
Figure 2007513391
の事後分布は、次式になる。
Figure 2007513391
(D6)
ここで、
Figure 2007513391
は尤度関数である。
ある実施形態では、
Figure 2007513391
は、失われたデータのベクトルとして扱われることが可能であり、反復手順は、式(D6)を最大化して
Figure 2007513391
の事後推定値を生成するために使用可能である。式(D1)の事前分布は、最大事後推定値が疎になるような、すなわち多数のパラメータが余分であれば、
Figure 2007513391
の多くの要素がゼロになるようなものである。
Figure 2007513391
の多くの要素はゼロである、という事前の期待が存在するので、推定は、推定されるβの大部分がゼロであり、その他の非ゼロ推定値が生存時間についての適切な説明となるように実行されることが可能である。
マイクロアレイデータのコンテキストにおいては、この実行は、イベント時間に関して適切な説明をもたらす複数の遺伝子にてなる節約志向のセットを識別することへと移行する。
先に述べたように、事後分布を最大化する構成要素の重み係数は、反復手順を用いて決定されることが可能である。好適には、複数の構成要素と構成要素に係る複数の重み係数との事後分布を最大化するための反復手順は、例えばデンプスターほか,1977年に記載されているようなEMアルゴリズムである。
ベータを含まない項を無視した(D6)から、EMアルゴリズムのEステップを調べる場合、次式を計算する必要がある。
Figure 2007513391
(D7)
ここで、
Figure 2007513391
であり、簡単化のために
Figure 2007513391
であれば
Figure 2007513391
であると定義する。以下、
Figure 2007513391
と記す。同様に、例えばd(β(n))及びd(γ(n))=P d(Pγ(n))を定義する。ここで、β(n)=Pγ(n)であり、Pは、p×p恒等行列から、β (n)=0である列jを除去して得られる。
従って、Eステップを実行するためには、p(β│τ )がN(0,τ )でありかつp(τ )が先に論じたような指定された事前分布を有するときの、t =1/τ の条件付き期待値を計算する必要がある。
ある実施形態では、EMアルゴリズムは下記のようなステップを含む。
1. 超事前分布及びそのパラメータの値、すなわちb及びkを選ぶ。n=0,S={1,2,…,p}を設定してアルゴリズムを初期化し、
Figure 2007513391
Figure 2007513391
を初期化する。
2.
Figure 2007513391
を定義し、Pを、
Figure 2007513391
の非ゼロ要素
Figure 2007513391
が、
Figure 2007513391
(D8)
を満足するような、ゼロ及び1を要素とする行列であるとする。
3. 構成要素の重み係数の事後分布の期待値を計算することにより、推定ステップを実行する。これは、関数、
Figure 2007513391
(D9)
を用いて実行されることが可能である。ここで、Lは
Figure 2007513391
の対数尤度関数である。β=Pγ及びβ(n)=Pγ(n)を用いると、
Figure 2007513391
(D10)
が得られる。
4. 最大化ステップを実行する。これは、ニュートン=ラフソン法の反復を用いて下記のように実行されることが可能である。
Figure 2007513391
を設定し、r=0,1,2,…に関して
Figure 2007513391
とする。ここで、αは、
Figure 2007513391
を保証するようにラインサーチアルゴリズムによって選ばれ、また、
Figure 2007513391
(D11)
である。ここで、
Figure 2007513391
の場合、
Figure 2007513391
である。
Figure 2007513391
を、何らかの収束基準が満足されるとき、例えば、
Figure 2007513391
(例えばε=10−5)のときの
Figure 2007513391
の値であるとする。
5.
Figure 2007513391
Figure 2007513391
を定義する。ここで、εは小値の定数、例えば10−5である。n=n+1を設定し、
Figure 2007513391
を選ぶ。ここで、
Figure 2007513391

Figure 2007513391
を満足し、κは0<κ<1であるような減衰係数である。
6. 収束を確認する。εが十分に小さな値であるときに
Figure 2007513391
であれば停止し、そうでなければ上記ステップ2へ進む。
別の実施形態では、最大化ステップにおけるステップ(D11)は、
Figure 2007513391
をその期待値
Figure 2007513391
で置き換えることによって推定されてもよい。
ある実施形態では、EMアルゴリズムは、モデルがコックスの比例ハザードモデルである場合に、事後分布を最大化するために適用される。
モデルがコックスの比例ハザードモデルである場合におけるEMアルゴリズムの適用についての説明の助けとするために、「動的重み係数」及びこれらの重み係数に基づく行列を定義することが好適である。上記重み係数は、次式になる。
Figure 2007513391
これらの重み係数に基づく行列は、次式になる。
Figure 2007513391
重み係数行列の観点から、Lの1階及び2階の導関数は、次式のように書き表すことができる。
Figure 2007513391
(D12)
ここで、K=W−Δ(W)である。従って、EMアルゴリズムのステップ(2)の一部で説明した変換行列P(式D8)から、次式が得られることに留意されたい(式D11も参照)。
Figure 2007513391
(D13)
好適には、上記モデルがコックスの比例ハザードモデルである場合、EMアルゴリズムのEステップ及びMステップは下記のようなものになる。
1. 超事前分布及びそのパラメータb及びkを選ぶ。n=0,S={1,2,…,p}を設定する。vを、何らかの小さな値ε、例えば.001に関して、要素
Figure 2007513391
を備えたベクトルであるとする。fを、log(v/t)であると定義する。
p≦Nであれば、
Figure 2007513391
により初期値
Figure 2007513391
を計算する。
p>Nであれば、
Figure 2007513391
により初期値
Figure 2007513391
を計算する。ここで、リッジパラメータλは0<λ≦1を満足する。
2.
Figure 2007513391
を定義する。Pを、
Figure 2007513391
の非ゼロ要素
Figure 2007513391
が、
Figure 2007513391
を満足するような、ゼロ及び1を要素とする行列であるとする。
3.
Figure 2007513391
を計算してEステップを実行する。ここで、Lは式(8)によって与えられる
Figure 2007513391
の対数尤度関数である。β=Pγ及びβ(n)=Pγ(n)を用いると、
Figure 2007513391
が得られる。
4. Mステップを実行する。これは、ニュートン=ラフソン法の反復を用いて下記のように実行されることが可能である。
Figure 2007513391
を設定し、r=0,1,2,…に関して
Figure 2007513391
とする。ここで、αは、
Figure 2007513391
を保証するようにラインサーチアルゴリズムによって選ばれる。
p≦Nである場合、
Figure 2007513391
を用いる。ここで、
Figure 2007513391
である。
p>Nである場合、
Figure 2007513391
を用いる。
γを、何らかの収束基準が満足されるとき、例えば‖γ−γr+1‖<ε(例えば10−5)のときにおけるγの値であるとする。
5.
Figure 2007513391
Figure 2007513391
を定義する。ここで、εは小値の定数、例えば10−5である。このステップは、非常に小さな係数を有する変数を除去する。
6. 収束を確認する。εが十分に小さな値であるとき
Figure 2007513391
であれば停止し、そうでなければn=n+1を設定して上記ステップ2へ進み、収束が起こるまで手順を反復する。
別の実施形態では、EMアルゴリズムは、上記モデルがパラメトリック生存モデルである場合に、事後分布を最大化すべく適用される。
パラメトリック生存モデルにEMアルゴリズムを適用する際には、式(11)の結果として、cは、平均値μiiを有するポワソン変量として扱われることが可能であり、式(11)の最後の項はβに依存しない(ただしφに依存する)。
Figure 2007513391
であり、よって問題点をポワソン型の平均値(Poisson-like mean)の対数線形モデルの形で表現することが可能である点に留意されたい。好適には、対数尤度関数の反復的最大化は、
Figure 2007513391
の初期推定値が与えられたときに
Figure 2007513391
の推定値が取得される場合に実行される。次に、
Figure 2007513391
のこれらの推定値を所与として、
Figure 2007513391
の更新された推定値が取得される。本手順は、収束が起きるまで継続される。
先に述べた事後分布の適用に際しては、(固定された
Figure 2007513391
に関して)
Figure 2007513391
(D14)
に留意する。
結果的に、式(11)及び(12)から、
Figure 2007513391
及び
Figure 2007513391
が得られる。
式(12)の、パラメトリック生存モデルに関連したバージョンは、次式になる。
Figure 2007513391
(D15)
EMアルゴリズムの各Mステップの後に
Figure 2007513391
について解くために(下記のステップ5を参照)、好適には、
Figure 2007513391
とする。ここで、0<κ≦1である場合、
Figure 2007513391

Figure 2007513391
を満足し、βは以前のMステップから取得された値に固定される。
パラメータ選択のためのEMアルゴリズムを、パラメトリック生存モデル及びマイクロアレイデータのコンテキストにおいて提供することが可能である。好適には、上記EMアルゴリズムは下記の通りである。
1. 超事前分布及びそのパラメータb及びkを選択し、例えばb=1e7及びk=0.5とする。n=0,S={1,2,…,p},
Figure 2007513391
を設定する。vを、何らかの小値ε、例えば、.001に関して、要素
Figure 2007513391
を備えたベクトルであるとする。fを、log(v/Λ(y,φ))であると定義する。
p≦Nであれば、
Figure 2007513391
により初期値
Figure 2007513391
を計算する。
p>Nであれば、
Figure 2007513391
により初期値
Figure 2007513391
を計算する。
ここで、リッジパラメータλは0<λ≦1を満足する。
2.
Figure 2007513391
を定義する。Pを、
Figure 2007513391
の非ゼロ要素
Figure 2007513391
が、
Figure 2007513391
を満足するような、ゼロ及び1を要素とする行列であるとする。
3.
Figure 2007513391
を計算してEステップを実行する。ここで、Lは
Figure 2007513391
及び
Figure 2007513391
の対数尤度関数である。
β=Pγ及びβ(n)=Pγ(n)を用いると、
Figure 2007513391
が得られる。
4. Mステップを実行する。これは、ニュートン=ラフソン法の反復を用いて下記のように実行されることが可能である。
Figure 2007513391
を設定し、r=0,1,2,…に関して
Figure 2007513391
とする。ここで、αは、
Figure 2007513391
を保証するようにラインサーチアルゴリズムによって選ばれる。
p≦Nである場合、
Figure 2007513391
を用いる。ここで、
Figure 2007513391
である。
p>Nである場合、
Figure 2007513391
を用いる。
γを、何らかの収束基準が満足されるとき、例えば‖γ−γr+1‖<ε(例えば10−5)のときにおけるγの値であるとする。
5.
Figure 2007513391
Figure 2007513391
を定義する。ここで、εは小値の定数、例えば10−5である。n=n+1を設定し、
Figure 2007513391
を選ぶ。ここで、
Figure 2007513391

Figure 2007513391
を満足し、κは0<κ<1であるような減衰係数である。
6. 収束を確認する。εが十分に小さな値であるとき
Figure 2007513391
であれば停止し、そうでなければステップ2へ進む。
別の実施形態では、生存時間はワイブル生存密度関数によって記述される。ワイブルのケースでは、
Figure 2007513391
は好適には1次元であり、かつ、
Figure 2007513391
である。
好適には、αの更新された値を供給するために、各Mステップの後に
Figure 2007513391
が解かれる。
コックスの比例ハザードモデルに関して適用されるステップによれば、αを推定することができ、また、生存時間がワイブル分布に従うならば生存時間に関する適切な説明を提供することのできる複数のパラメータにてなる節約志向のサブセットを、
Figure 2007513391
から選択することができる。次に、数値的な例を挙げる。
ここで、以下の限定的ではない例のみを参照して本発明の好適な実施形態について説明する。ただし、以下の例は単に例示的なものであり、いかなる点でも、以上説明した本発明の一般性を限定するものとして解釈されるべきでないことは理解される必要がある。
201個のデータポイントと41個の基礎関数(basis function)に係る全正規回帰(Full normal regression)の例.
k=0及びb=1e7
正しい4つの基礎関数が以下に識別される。
2 12 24 34
推定された分散は0.67である。
k=0.2及びb=1e7の場合。
8つの基礎関数が以下に識別される。
2 8 12 16 19 24 34
推定された分散は0.63である。基礎関数の正しいセットはこのセット内に含まれることに留意されたい。
k=0.2及びb=1e7に対する反復の結果を以下に示す。
[表1]
――――――――――――――――――――――――――――――
EM Iteration: 0 expected post: 2 basis fns 41

sigma squared 0.6004567
EM Iteration: 1 expected post: -63.91024 basis fns 41

sigma squared 0.6037467
EM Iteration: 2 expected post: -52.76575 basis fns 41

sigma squared 0.6081233
EM Iteration: 3 expected post: -53.10084 basis fns 30

sigma squared 0.6118665
EM Iteration: 4 expected post: -53.55141 basis fns 22

sigma squared 0.6143482
EM Iteration: 5 expected post: -53.79887 basis fns 18

sigma squared 0.6155
EM Iteration: 6 expected post: -53.91096 basis fns 18

sigma squared 0.6159484
EM Iteration: 7 expected post: -53.94735 basis fns 16

sigma squared 0.6160951
EM Iteration: 8 expected post: -53.92469 basis fns 14

sigma squared 0.615873
EM Iteration: 9 expected post: -53.83668 basis fns 13

sigma squared 0.6156233
EM Iteration: 10 expected post: -53.71836 basis fns 13

sigma squared 0.6156616
EM Iteration: 11 expected post: -53.61035 basis fns 12

sigma squared 0.6157966
EM Iteration: 12 expected post: -53.52386 basis fns 12

sigma squared 0.6159524
EM Iteration: 13 expected post: -53.47354 basis fns 12

sigma squared 0.6163736
EM Iteration: 14 expected post: -53.47986 basis fns 12

sigma squared 0.6171314
EM Iteration: 15 expected post: -53.53784 basis fns 11

sigma squared 0.6182353
EM Iteration: 16 expected post: -53.63423 basis fns 11

sigma squared 0.6196385
EM Iteration: 17 expected post: -53.75112 basis fns 11

sigma squared 0.621111
EM Iteration: 18 expected post: -53.86309 basis fns 11

sigma squared 0.6224584
EM Iteration: 19 expected post: -53.96314 basis fns 11

sigma squared 0.6236203
EM Iteration: 20 expected post: -54.05662 basis fns 11

sigma squared 0.6245656
EM Iteration: 21 expected post: -54.1382 basis fns 10

sigma squared 0.6254182
EM Iteration: 22 expected post: -54.21169 basis fns 10

sigma squared 0.6259266
EM Iteration: 23 expected post: -54.25395 basis fns 9

sigma squared 0.6259266
EM Iteration: 24 expected post: -54.26136 basis fns 9

sigma squared 0.6260238
EM Iteration: 25 expected post: -54.25962 basis fns 9

sigma squared 0.6260203
EM Iteration: 26 expected post: -54.25875 basis fns 8

sigma squared 0.6260179
EM Iteration: 27 expected post: -54.25836 basis fns 8

sigma squared 0.626017
EM Iteration: 28 expected post: -54.2582 basis fns 8

sigma squared 0.6260166
――――――――――――――――――――――――――――――
201個の観測値と10個の変数とを備えた削減されたデータセットに対して、k=0及びb=1e7。
正しい基礎関数、すなわち1 2 3 4を与える。k=0.5及びb=1e7のとき、7個の基礎関数、すなわち1 2 3 4 6 8 9が選択される。反復の記録を以下に示す。このセットもまた正しいセットを含むということに留意されたい。
[表2]
――――――――――――――――――――――――――――――
EM Iteration: 0 expected post: 2 basis fns 10

sigma squared 0.6511711
EM Iteration: 1 expected post: -66.18153 basis fns 10

sigma squared 0.6516289
EM Iteration: 2 expected post: -57.69118 basis fns 10

sigma squared 0.6518373
EM Iteration: 3 expected post: -57.72295 basis fns 9

sigma squared 0.6518373
EM Iteration: 4 expected post: -57.74616 basis fns 8

sigma squared 0.65188
EM Iteration: 5 expected post: -57.75293 basis fns 7

sigma squared 0.6518781
――――――――――――――――――――――――――――――
順序付きカテゴリーの例.
15個のサンプル及び9605個の遺伝子に係るルオ(Luo)の前立腺データ。k=0及びb=1e7に対して、以下の結果を得る。
[表3]
――――――――――――――――――――――――――――――
misclassification table
pred
y 1 2 3 4
1 4 0 0 0
2 0 2 1 0
3 0 0 4 0
4 0 0 0 4

Identifiers of variables left in ordered categories model
6611
――――――――――――――――――――――――――――――
k=0.25及びb=1e7に対して、以下の結果を得る。
[表4]
――――――――――――――――――――――――――――――
misclassification table
pred
y 1 2 3 4
1 4 0 0 0
2 0 3 0 0
3 0 0 4 0
4 0 0 0 4

Identifiers of variables left in ordered categories model
6611 7188
――――――――――――――――――――――――――――――
ここでは、余分なデータの付加により、トレーニングデータは完全に区別されていることに留意されたい。アルゴリズムの反復の記録を以下に示す。
[表5]
――――――――――――――――――――――――――――――
***********************************************
Iteration 1 : 11 cycles, criterion -4.661957

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 Number of basis functions in model : 9608
――――――――――――――――――――――――――――――
[表6]
――――――――――――――――――――――――――――――
***********************************************
Iteration 2 : 5 cycles, criterion -9.536942

misclassification matrix
fhat
f 1 2
1 23 0
2 1 21
row =true class

Class 1 Number of basis functions in model : 6431
――――――――――――――――――――――――――――――
[表7]
――――――――――――――――――――――――――――――
***********************************************
Iteration 3 : 4 cycles, criterion -9.007843

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 Number of basis functions in model : 508
――――――――――――――――――――――――――――――
[表8]
――――――――――――――――――――――――――――――
***********************************************
Iteration 4 : 5 cycles, criterion -6.47555

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 Number of basis functions in model : 62
――――――――――――――――――――――――――――――
[表9]
――――――――――――――――――――――――――――――
***********************************************
Iteration 5 : 6 cycles, criterion -4.126996

misclassification matrix
fhat
f 1 2
1 23 0
2 1 21
row =true class

Class 1 Number of basis functions in model : 20
――――――――――――――――――――――――――――――
[表10]
――――――――――――――――――――――――――――――
***********************************************
Iteration 6 : 6 cycles, criterion -3.047699

misclassification matrix
fhat
f 1 2
1 23 0
2 1 21
row =true class

Class 1 Number of basis functions in model : 12
――――――――――――――――――――――――――――――
[表11]
――――――――――――――――――――――――――――――
***********************************************
Iteration 7 : 5 cycles, criterion -2.610974

misclassification matrix
fhat
f 1 2
1 23 0
2 1 21
row =true class

Class 1 : Variables left in model
1 2 3 408 846 6614 7191 8077
regression coefficients
28.81413 14.27784 7.025863 -1.086501e-06 4.553004e-09 -16.25844 0.1412991 -0.04101412

――――――――――――――――――――――――――――――
[表12]
――――――――――――――――――――――――――――――
***********************************************
Iteration 8 : 5 cycles, criterion -2.307441

misclassification matrix
fhat
f 1 2
1 23 0
2 1 21
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191 8077
regression coefficients
32.66699 15.80614 7.86011 -18.53527 0.1808061 -0.006728619

――――――――――――――――――――――――――――――
[表13]
――――――――――――――――――――――――――――――
***********************************************
Iteration 9 : 5 cycles, criterion -2.028043

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191 8077
regression coefficients
36.11990 17.21351 8.599812 -20.52450 0.2232955 -0.0001630341

――――――――――――――――――――――――――――――
[表14]
――――――――――――――――――――――――――――――
***********************************************
Iteration 10 : 6 cycles, criterion -1.808861

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191 8077
regression coefficients
39.29053 18.55341 9.292612 -22.33653 0.260273 -8.696388e-08

――――――――――――――――――――――――――――――
[表15]
――――――――――――――――――――――――――――――
***********************************************
Iteration 11 : 6 cycles, criterion -1.656129

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
42.01569 19.73626 9.90312 -23.89147 0.2882204

――――――――――――――――――――――――――――――
[表16]
――――――――――――――――――――――――――――――
***********************************************
Iteration 12 : 6 cycles, criterion -1.554494

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
44.19405 20.69926 10.40117 -25.1328 0.3077712
――――――――――――――――――――――――――――――
[表17]
――――――――――――――――――――――――――――――
***********************************************
Iteration 13 : 6 cycles, criterion -1.487778

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
45.84032 21.43537 10.78268 -26.07003 0.3209974

――――――――――――――――――――――――――――――
[表18]
――――――――――――――――――――――――――――――
***********************************************
Iteration 14 : 6 cycles, criterion -1.443949

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
47.03702 21.97416 11.06231 -26.75088 0.3298526

――――――――――――――――――――――――――――――
[表19]
――――――――――――――――――――――――――――――
***********************************************
Iteration 15 : 6 cycles, criterion -1.415

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
47.88472 22.35743 11.26136 -27.23297 0.3357765

――――――――――――――――――――――――――――――
[表20]
――――――――――――――――――――――――――――――
***********************************************
Iteration 16 : 6 cycles, criterion -1.395770

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
48.47516 22.62508 11.40040 -27.56866 0.3397475

――――――――――――――――――――――――――――――
[表21]
――――――――――――――――――――――――――――――
***********************************************
Iteration 17 : 5 cycles, criterion -1.382936

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
48.88196 22.80978 11.49636 -27.79991 0.3424153

――――――――――――――――――――――――――――――
[表22]
――――――――――――――――――――――――――――――
***********************************************
Iteration 18 : 5 cycles, criterion -1.374340

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.16029 22.93629 11.56209 -27.95811 0.3442109

――――――――――――――――――――――――――――――
[表23]
――――――――――――――――――――――――――――――
***********************************************
Iteration 19 : 5 cycles, criterion -1.368567

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.34987 23.02251 11.60689 -28.06586 0.3454208

――――――――――――――――――――――――――――――
[表24]
――――――――――――――――――――――――――――――
***********************************************
Iteration 20 : 5 cycles, criterion -1.364684

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.47861 23.08109 11.63732 -28.13903 0.3462368

――――――――――――――――――――――――――――――
[表25]
――――――――――――――――――――――――――――――
***********************************************
Iteration 21 : 5 cycles, criterion -1.362068

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.56588 23.12080 11.65796 -28.18862 0.3467873

――――――――――――――――――――――――――――――
[表26]
――――――――――――――――――――――――――――――
***********************************************
Iteration 22 : 5 cycles, criterion -1.360305

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.62496 23.14769 11.67193 -28.22219 0.3471588

――――――――――――――――――――――――――――――
[表27]
――――――――――――――――――――――――――――――
***********************************************
Iteration 23 : 4 cycles, criterion -1.359116

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.6649 23.16588 11.68137 -28.2449 0.3474096

――――――――――――――――――――――――――――――
[表28]
――――――――――――――――――――――――――――――
***********************************************
Iteration 24 : 4 cycles, criterion -1.358314

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.69192 23.17818 11.68776 -28.26025 0.3475789

――――――――――――――――――――――――――――――
[表29]
――――――――――――――――――――――――――――――
***********************************************
Iteration 25 : 4 cycles, criterion -1.357772

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.71017 23.18649 11.69208 -28.27062 0.3476932

――――――――――――――――――――――――――――――
[表30]
――――――――――――――――――――――――――――――
***********************************************
Iteration 26 : 4 cycles, criterion -1.357407

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.72251 23.19211 11.695 -28.27763 0.3477704

――――――――――――――――――――――――――――――
[表31]
――――――――――――――――――――――――――――――
***********************************************
Iteration 27 : 4 cycles, criterion -1.35716

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.73084 23.19590 11.69697 -28.28237 0.3478225

――――――――――――――――――――――――――――――
[表32]
――――――――――――――――――――――――――――――
***********************************************
Iteration 28 : 3 cycles, criterion -1.356993

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.73646 23.19846 11.6983 -28.28556 0.3478577

――――――――――――――――――――――――――――――
[表33]
――――――――――――――――――――――――――――――
***********************************************
Iteration 29 : 3 cycles, criterion -1.356881

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.74026 23.20019 11.6992 -28.28772 0.3478814

――――――――――――――――――――――――――――――
[表34]
――――――――――――――――――――――――――――――
***********************************************
Iteration 30 : 3 cycles, criterion -1.356805

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 6614 7191
regression coefficients
49.74283 23.20136 11.69981 -28.28918 0.3478975

1

misclassification table
pred
y 1 2 3 4
1 4 0 0 0
2 0 3 0 0
3 0 0 4 0
4 0 0 0 4

Identifiers of variables left in ordered categories model
6611 7188
――――――――――――――――――――――――――――――――――――
順序付きカテゴリーの例.
15個のサンプル及び50個の遺伝子に係るルオの前立腺データ。k=0及びb=1e7に対して、以下の結果を得る。
[表35]
――――――――――――――――――――――――――――――
misclassification table
pred
y 1 2 3 4
1 4 0 0 0
2 0 2 1 0
3 0 0 4 0
4 0 0 0 4

Identifiers of variables left in ordered categories model
1
――――――――――――――――――――――――――――――
k=0.25及びb=1e7に対して、以下の結果を得る。
[表36]
――――――――――――――――――――――――――――――
misclassification table
pred
y 1 2 3 4
1 4 0 0 0
2 0 3 0 0
3 0 0 4 0
4 0 0 0 4

Identifiers of variables left in ordered categories model
1 42
――――――――――――――――――――――――――――――
k=0.25及びb=1e7のときの反復の記録を以下に示す。
[表37]
――――――――――――――――――――――――――――――
***********************************************
Iteration 1 : 19 cycles, criterion -0.4708706

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 Number of basis functions in model : 53
――――――――――――――――――――――――――――――
[表38]
――――――――――――――――――――――――――――――
***********************************************
Iteration 2 : 7 cycles, criterion -1.536822

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 Number of basis functions in model : 53
――――――――――――――――――――――――――――――
[表39]
――――――――――――――――――――――――――――――
***********************************************
Iteration 3 : 5 cycles, criterion -2.032919

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 Number of basis functions in model : 42
――――――――――――――――――――――――――――――
[表40]
――――――――――――――――――――――――――――――
***********************************************
Iteration 4 : 5 cycles, criterion -2.132546

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 Number of basis functions in model : 18
――――――――――――――――――――――――――――――
[表41]
――――――――――――――――――――――――――――――
***********************************************
Iteration 5 : 5 cycles, criterion -1.978462

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 Number of basis functions in model : 13
――――――――――――――――――――――――――――――
[表42]
――――――――――――――――――――――――――――――
***********************************************
Iteration 6 : 5 cycles, criterion -1.668212

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 10 41 43 45
regression coefficients
34.13253 22.30781 13.04342 -16.23506 0.003213167 0.006582334 -0.0005943874 -3.557023

――――――――――――――――――――――――――――――
[表43]
――――――――――――――――――――――――――――――
***********************************************
Iteration 7 : 5 cycles, criterion -1.407871

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 10 41 43 45
regression coefficients
36.90726 24.69518 14.61792 -17.16723 1.112172e-05 5.949931e-06 -3.892181e-08 -4.2906

――――――――――――――――――――――――――――――
[表44]
――――――――――――――――――――――――――――――
***********************************************
Iteration 8 : 5 cycles, criterion -1.244166

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 10 45
regression coefficients
39.15038 26.51011 15.78594 -17.99800 1.125451e-10 -4.799167

――――――――――――――――――――――――――――――
[表45]
――――――――――――――――――――――――――――――
***********************************************
Iteration 9 : 5 cycles, criterion -1.147754

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
40.72797 27.73318 16.56101 -18.61816 -5.115492

――――――――――――――――――――――――――――――
[表46]
――――――――――――――――――――――――――――――
***********************************************
Iteration 10 : 5 cycles, criterion -1.09211

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
41.74539 28.49967 17.04204 -19.03293 -5.302421

――――――――――――――――――――――――――――――
[表47]
――――――――――――――――――――――――――――――
***********************************************
Iteration 11 : 5 cycles, criterion -1.060238

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
42.36866 28.96076 17.32967 -19.29261 -5.410496

――――――――――――――――――――――――――――――
[表48]
――――――――――――――――――――――――――――――
***********************************************
Iteration 12 : 5 cycles, criterion -1.042037

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
42.73908 29.23176 17.49811 -19.44894 -5.472426

――――――――――――――――――――――――――――――
[表49]
――――――――――――――――――――――――――――――
***********************************************
Iteration 13 : 5 cycles, criterion -1.031656

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
42.95536 29.38894 17.59560 -19.54090 -5.507787

――――――――――――――――――――――――――――――
[表50]
――――――――――――――――――――――――――――――
***********************************************
Iteration 14 : 4 cycles, criterion -1.025738

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
43.08034 29.47941 17.65163 -19.59428 -5.527948

――――――――――――――――――――――――――――――
[表51]
――――――――――――――――――――――――――――――
***********************************************
Iteration 15 : 4 cycles, criterion -1.022366

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
43.15213 29.53125 17.68372 -19.62502 -5.539438

――――――――――――――――――――――――――――――
[表52]
――――――――――――――――――――――――――――――
***********************************************
Iteration 16 : 4 cycles, criterion -1.020444

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
43.19322 29.56089 17.70206 -19.64265 -5.545984

――――――――――――――――――――――――――――――
[表53]
――――――――――――――――――――――――――――――
***********************************************
Iteration 17 : 4 cycles, criterion -1.019349

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
43.21670 29.57780 17.71252 -19.65272 -5.549713

――――――――――――――――――――――――――――――
[表54]
――――――――――――――――――――――――――――――
***********************************************
Iteration 18 : 3 cycles, criterion -1.018725

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
43.23008 29.58745 17.71848 -19.65847 -5.551837

――――――――――――――――――――――――――――――
[表55]
――――――――――――――――――――――――――――――
***********************************************
Iteration 19 : 3 cycles, criterion -1.01837

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
43.23772 29.59295 17.72188 -19.66176 -5.553047

――――――――――――――――――――――――――――――
[表56]
――――――――――――――――――――――――――――――
***********************************************
Iteration 20 : 3 cycles, criterion -1.018167

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
43.24208 29.59608 17.72382 -19.66363 -5.553737

――――――――――――――――――――――――――――――
[表57]
――――――――――――――――――――――――――――――
***********************************************
Iteration 21 : 3 cycles, criterion -1.018052

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
43.24456 29.59787 17.72493 -19.66469 -5.55413

――――――――――――――――――――――――――――――
[表58]
――――――――――――――――――――――――――――――
***********************************************
Iteration 22 : 3 cycles, criterion -1.017986

misclassification matrix
fhat
f 1 2
1 23 0
2 0 22
row =true class

Class 1 : Variables left in model
1 2 3 4 45
regression coefficients
43.24598 29.59889 17.72556 -19.6653 -5.554354

1

misclassification table
pred
y 1 2 3 4
1 4 0 0 0
2 0 3 0 0
3 0 0 4 0
4 0 0 0 4
Identifiers of variables left in ordered categories model
1 42
――――――――――――――――――――――――――――――
本発明の実施形態に係る方法のフローチャートである。 本発明の実施形態に係る別の方法のフローチャートである。 本発明の実施形態に係る装置のブロック図である。 本発明の実施形態に係るさらなる方法のフローチャートである。 本発明の実施形態に係る追加の方法を示すフローチャートである。 本発明の実施形態に係るさらに別の方法を示すフローチャートである。

Claims (30)

  1. システムからの少なくとも1つのトレーニングサンプルを使用し、上記システムから取得されるデータに基づいて上記システムの複数の構成要素のうちのサブセットを識別する方法であって、
    上記システムの複数の構成要素と、上記複数の構成要素の一次結合に係る複数の重み係数との一次結合を取得するステップを含み、上記重み係数は上記少なくとも1つのトレーニングサンプルから取得されるデータに基づく値を有し、上記少なくとも1つのトレーニングサンプルは既知の特徴を有し、
    上記既知の特徴の確率分布のモデルを取得するステップを含み、上記モデルは上記複数の構成要素の一次結合を条件とし、
    上記複数の構成要素の一次結合に係る重み係数の事前分布を取得するステップを含み、上記事前分布はゼロに近い高い確率密度を有する超事前分布を含み、上記超事前分布はジェフリーズの超事前分布ではないようなものであり、
    上記事前分布と上記モデルとを組み合わせて事後分布を生成するステップと、
    上記事後分布を最大化する複数の重み係数にてなるセットに基づいて上記複数の構成要素のうちのサブセットを識別するステップとを含む方法。
  2. 上記一次結合を取得するステップは、ベイズの統計的方法を用いて上記複数の重み係数を推定するステップを含む請求項1記載の方法。
  3. 上記複数の構成要素のうちの大部分は上記複数の構成要素のうちのサブセットの一部を形成する構成要素にはなりそうにない、という先験的仮定を立てるステップをさらに含む請求項1又は2記載の方法。
  4. 上記超事前分布は、ゼロに近い事前分布が変更されることを可能にする1つ又は複数の調節可能なパラメータを含む、先行する請求項のうちのいずれか1つに記載の方法。
  5. 上記モデルは、上記少なくとも1つのトレーニングサンプルから取得されるデータに基づいて確率分布を提供する尤度関数の形式である数式を含む、先行する請求項のうちのいずれか1つに記載の方法。
  6. 上記尤度関数は、何らかの確率分布を記述するための先述のモデルに基づく請求項5記載の方法。
  7. 上記モデルを取得するステップは、多項又は2項ロジスティック回帰、一般化線形モデル、コックスの比例ハザードモデル、加速度故障モデル、及びパラメトリック生存モデルを含むグループから上記モデルを選択するステップを含む、先行する請求項のうちのいずれか1つに記載の方法。
  8. 上記多項又は2項ロジスティック回帰に基づくモデルは、
    Figure 2007513391
    の形式である請求項7記載の方法。
  9. 上記一般化線形モデルに基づくモデルは、
    Figure 2007513391
    の形式である請求項7記載の方法。
  10. 上記コックスの比例ハザードモデルに基づくモデルは、
    Figure 2007513391
    の形式である請求項7記載の方法。
  11. 上記パラメトリック生存モデルに基づくモデルは、
    Figure 2007513391
    の形式である請求項7記載の方法。
  12. 上記複数の構成要素のうちのサブセットを識別するステップは、上記事後分布の確率密度が最大化されるように反復手順を使用するステップを含む、先行する請求項のうちのいずれか1つに記載の方法。
  13. 上記反復手順はEMアルゴリズムである請求項12記載の方法。
  14. 検査対象を複数の予め定義されたグループのうちの1つに分類することができる上記検査対象に係る複数の構成要素のうちのサブセットを識別するための方法であって、各グループは試験処理剤への反応によって定義され、上記方法は、
    複数の検査対象を上記試験処理剤にさらし、上記処理剤に対する反応に基づいて上記複数の検査対象を複数の反応グループにグループ化するステップと、
    上記複数の検査対象に係る複数の構成要素を測定するステップと、
    統計解析方法を用いて、上記複数の検査対象を複数の反応グループに分類することのできる複数の構成要素のうちのサブセットを識別するステップとを含む方法。
  15. 上記統計解析方法は請求項1乃至13のうちのいずれか1つに記載の方法を含む請求項14記載の方法。
  16. 検査対象に係る複数の構成要素のうちのサブセットを識別するための装置であって、上記サブセットは上記検査対象を複数の予め定義された反応グループのうちの1つに分類するために使用可能であり、各反応グループは、複数の検査対象を試験処理剤にさらしかつ上記処理剤に対する反応に基づいて上記複数の検査対象を複数の反応グループにグループ化することによって形成され、上記装置は、
    上記複数の検査対象に係る測定された複数の構成要素を受信するための入力と、
    統計解析方法を用いて、上記複数の検査対象を複数の反応グループに分類するために使用可能な複数の構成要素のうちのサブセットを識別する処理手段とを備える装置。
  17. 上記統計解析方法は請求項1乃至15のうちのいずれか1つに記載の方法を含む請求項16記載の装置。
  18. 試験化合物による処理に対して反応するもの又は反応しないものとして検査対象を分類することができる上記検査対象に係る複数の構成要素のうちのサブセットを識別するための方法であって、上記方法は、
    複数の検査対象を上記試験化合物にさらし、各検査対象の上記試験化合物に対する反応に基づいて上記複数の検査対象を複数の反応グループにグループ化するステップと、
    上記複数の検査対象に係る複数の構成要素を測定するステップと、
    統計解析方法を用いて、上記複数の検査対象を複数の反応グループに分類するために使用可能な複数の構成要素のうちのサブセットを識別するステップとを含む方法。
  19. 上記統計解析方法は請求項1乃至13のうちのいずれか1つに記載の方法を含む請求項18記載の方法。
  20. 検査対象に係る複数の構成要素のうちのサブセットを識別するための装置であって、上記サブセットは上記検査対象を複数の予め定義された反応グループのうちの1つに分類するために使用可能であり、各反応グループは、複数の検査対象を化合物にさらしかつ上記化合物に対する反応に基づいて上記複数の検査対象を複数の反応グループにグループ化することによって形成され、上記装置は、
    上記検査対象に係る測定された複数の構成要素を受信するように動作する入力と、
    統計解析方法を用いて、上記複数の検査対象を複数の反応グループに分類することができる複数の構成要素のうちのサブセットを識別するように動作する処理手段とを備える装置。
  21. 上記統計解析方法は請求項1乃至15のうちのいずれか1つに記載の方法を含む請求項20記載の装置。
  22. システムの複数のサンプルから生成されるデータから上記システムの構成要素のうちのサブセットを識別するための装置であって、上記サブセットは試験サンプルの特徴を予測するために使用可能であり、
    上記装置は処理手段を備え、上記処理手段は、
    上記システムの複数の構成要素の一次結合を取得し、上記複数の構成要素の一次結合に係る複数の重み係数を取得するように動作し、上記重み係数の各々は少なくとも1つのトレーニングサンプルから取得されるデータに基づく値を有し、上記少なくとも1つのトレーニングサンプルは既知の特徴を有し、
    第2の特徴の確率分布のモデルを取得するように動作し、上記モデルは上記複数の構成要素の一次結合を条件とし、
    上記複数の構成要素の一次結合に係る複数の重み係数に関する事前分布を取得するように動作し、上記事前分布は、ゼロに近い事前確率質量が変更されることを可能にする調節可能な超事前分布を含み、上記超事前分布はジェフリーズの超事前分布ではなく、
    上記事前分布と上記モデルとを組み合わせて事後分布を生成するように動作し、
    上記事後分布を最大化する構成要素の重み係数を有する、複数の構成要素のうちのサブセットを識別するように動作する装置。
  23. 上記処理手段は、ソフトウェアを実行するように構成されたコンピュータを備える請求項22記載の装置。
  24. 計算装置によって実行されたとき、上記計算装置に請求項1乃至13のうちのいずれか1つに記載の方法を実行させるコンピュータプログラム。
  25. 請求項24記載のコンピュータプログラムを備えた、コンピュータが読み取り可能な媒体。
  26. システムからのサンプルを検査して上記サンプルの特徴を識別する方法であって、上記特徴の症状を示す複数の構成要素のうちのサブセットについて検査するステップを含み、上記複数の構成要素のうちのサブセットは請求項1乃至15のうちのいずれか1つに記載の方法を用いて決定されている方法。
  27. 上記システムは生物学的システムである請求項26記載の方法。
  28. システムからのサンプルを検査して上記サンプルの特徴を決定するための装置であって、請求項1乃至15のうちのいずれか1つに記載の方法に従って識別される複数の構成要素を検査するための手段を備える装置。
  29. 計算装置によって実行されたときに、システムからの試験サンプルの特徴を予測するために使用可能な上記システムからの複数の構成要素を識別する方法を上記計算装置に実行させるコンピュータプログラムであって、
    複数のトレーニングサンプルから生成されるデータから複数の構成要素と構成要素に係る複数の重み係数との一次結合が生成され、各トレーニングサンプルは既知の特徴を有し、
    事後分布は、ゼロに近い確率質量が変更されることを可能にする調節可能な超事前分布を含む構成要素に係る複数の重み係数の事前分布であって、上記超事前分布はジェフリーズの超事前分布ではない事前分布と、上記一次結合を条件とするモデルとを組み合わせて、上記事後分布を最大化する構成要素に係る複数の重み係数を推定することによって生成されるコンピュータプログラム。
  30. 生物学的システムの複数の構成要素のうちのサブセットを識別する方法であって、上記サブセットは上記生物学的システムからの試験サンプルの特徴を予測することができ、上記方法は、
    上記システムの複数の構成要素と、上記複数の構成要素の一次結合に係る複数の重み係数との一次結合を取得するステップを含み、上記重み係数の各々は少なくとも1つのトレーニングサンプルから取得されるデータに基づく値を有し、上記少なくとも1つのトレーニングサンプルは既知の特徴を有し、
    上記既知の特徴の確率分布のモデルを取得するステップを含み、上記モデルは上記複数の構成要素の一次結合を条件とし、
    上記複数の構成要素の一次結合に係る複数の重み係数に関する事前分布を取得するステップを含み、上記事前分布は、ゼロに近い確率質量が変更されることを可能にする調節可能な超事前分布を含み、
    上記事前分布と上記モデルとを組み合わせて事後分布を生成するステップと、
    上記事後分布を最大化する複数の重み係数に基づいて複数の構成要素のうちのサブセットを識別するステップとを含む方法。
JP2006529447A 2003-05-26 2004-05-26 システムの複数の構成要素のうちのサブセットを識別する方法 Withdrawn JP2007513391A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU2003902589A AU2003902589A0 (en) 2003-05-26 2003-05-26 A method for identifying a subset of components of a system
PCT/AU2004/000696 WO2004104856A1 (en) 2003-05-26 2004-05-26 A method for identifying a subset of components of a system

Publications (1)

Publication Number Publication Date
JP2007513391A true JP2007513391A (ja) 2007-05-24

Family

ID=31953632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006529447A Withdrawn JP2007513391A (ja) 2003-05-26 2004-05-26 システムの複数の構成要素のうちのサブセットを識別する方法

Country Status (7)

Country Link
US (1) US20060117077A1 (ja)
EP (1) EP1631919A1 (ja)
JP (1) JP2007513391A (ja)
AU (1) AU2003902589A0 (ja)
CA (1) CA2520085A1 (ja)
NZ (1) NZ544387A (ja)
WO (1) WO2004104856A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064054A (ja) * 2007-09-04 2009-03-26 Sumitomo Metal Ind Ltd 製品品質の制御方法及び制御装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8744883B2 (en) * 2006-12-19 2014-06-03 Yahoo! Inc. System and method for labeling a content item based on a posterior probability distribution
US8301497B2 (en) * 2008-04-17 2012-10-30 Aol Advertising Inc. Method and system for media initialization via data sharing
CN101609326B (zh) * 2008-06-20 2012-09-19 鸿富锦精密工业(深圳)有限公司 加减速控制装置及加减速控制方法
JP2011138194A (ja) * 2009-12-25 2011-07-14 Sony Corp 情報処理装置、情報処理方法およびプログラム
US20140149174A1 (en) * 2012-11-26 2014-05-29 International Business Machines Corporation Financial Risk Analytics for Service Contracts
US9361274B2 (en) * 2013-03-11 2016-06-07 International Business Machines Corporation Interaction detection for generalized linear models for a purchase decision
US20150294249A1 (en) * 2014-04-11 2015-10-15 International Business Machines Corporation Risk prediction for service contracts vased on co-occurence clusters
JP6704390B2 (ja) * 2014-09-29 2020-06-03 バイオサーフィット、 ソシエダッド アノニマ 血球計数
US10110486B1 (en) 2014-10-30 2018-10-23 Pearson Education, Inc. Automatic determination of initial content difficulty
US10218630B2 (en) 2014-10-30 2019-02-26 Pearson Education, Inc. System and method for increasing data transmission rates through a content distribution network
US10116563B1 (en) 2014-10-30 2018-10-30 Pearson Education, Inc. System and method for automatically updating data packet metadata
US10333857B1 (en) 2014-10-30 2019-06-25 Pearson Education, Inc. Systems and methods for data packet metadata stabilization
WO2016070124A1 (en) 2014-10-30 2016-05-06 Pearson Education, Inc. Content database generation
US10735402B1 (en) 2014-10-30 2020-08-04 Pearson Education, Inc. Systems and method for automated data packet selection and delivery
US9667321B2 (en) 2014-10-31 2017-05-30 Pearson Education, Inc. Predictive recommendation engine
US10318499B2 (en) 2014-10-30 2019-06-11 Pearson Education, Inc. Content database generation
EP3251024A4 (en) * 2015-01-27 2018-06-06 National ICT Australia Limited Group infrastructure components
US10614368B2 (en) 2015-08-28 2020-04-07 Pearson Education, Inc. System and method for content provisioning with dual recommendation engines
US10817796B2 (en) * 2016-03-07 2020-10-27 D-Wave Systems Inc. Systems and methods for machine learning
US10789316B2 (en) 2016-04-08 2020-09-29 Pearson Education, Inc. Personalized automatic content aggregation generation
US10642848B2 (en) 2016-04-08 2020-05-05 Pearson Education, Inc. Personalized automatic content aggregation generation
US11188841B2 (en) 2016-04-08 2021-11-30 Pearson Education, Inc. Personalized content distribution
US10043133B2 (en) 2016-04-08 2018-08-07 Pearson Education, Inc. Systems and methods of event-based content provisioning
CN109636193A (zh) * 2018-12-14 2019-04-16 厦门大学 基于着色脉冲神经膜***的先验设计时间工作流建模方法
US11182688B2 (en) * 2019-01-30 2021-11-23 International Business Machines Corporation Producing a formulation based on prior distributions of a number of ingredients used in the formulation
CN111767856B (zh) * 2020-06-29 2023-11-10 烟台哈尔滨工程大学研究院 基于灰度值统计分布模型的红外小目标检测算法
WO2023223315A1 (en) * 2022-05-15 2023-11-23 Pangea Biomed Ltd. Methods for identifying gene interactions, and uses thereof

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6059724A (en) * 1997-02-14 2000-05-09 Biosignal, Inc. System for predicting future health
US6408321B1 (en) * 1999-03-24 2002-06-18 International Business Machines Corporation Method and apparatus for mapping components of descriptor vectors to a space that discriminates between groups
US6633857B1 (en) * 1999-09-04 2003-10-14 Microsoft Corporation Relevance vector machine
US7392199B2 (en) * 2001-05-01 2008-06-24 Quest Diagnostics Investments Incorporated Diagnosing inapparent diseases from common clinical tests using Bayesian analysis
JP2005524124A (ja) * 2001-10-17 2005-08-11 コモンウェルス サイエンティフィック アンド インダストリアル リサーチ オーガニゼーション システムの診断構成要素を識別するための方法および装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064054A (ja) * 2007-09-04 2009-03-26 Sumitomo Metal Ind Ltd 製品品質の制御方法及び制御装置

Also Published As

Publication number Publication date
NZ544387A (en) 2008-05-30
EP1631919A1 (en) 2006-03-08
US20060117077A1 (en) 2006-06-01
AU2003902589A0 (en) 2003-06-12
CA2520085A1 (en) 2004-12-02
WO2004104856A1 (en) 2004-12-02

Similar Documents

Publication Publication Date Title
JP2007513391A (ja) システムの複数の構成要素のうちのサブセットを識別する方法
Whalen et al. Navigating the pitfalls of applying machine learning in genomics
Fleming et al. Unsupervised removal of systematic background noise from droplet-based single-cell experiments using CellBender
Gayoso et al. Joint probabilistic modeling of single-cell multi-omic data with totalVI
Wei et al. Spatial charting of single-cell transcriptomes in tissues
JP2005524124A (ja) システムの診断構成要素を識別するための方法および装置
Caldas et al. The molecular outlook
Huerta et al. A hybrid LDA and genetic algorithm for gene selection and classification of microarray data
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
US20030233197A1 (en) Discrete bayesian analysis of data
EP1498825A1 (en) Apparatus and method for analyzing data
JP2013505730A (ja) 患者を分類するためのシステムおよび方法
Angelini et al. BATS: a Bayesian user-friendly software for analyzing time series microarray experiments
AU2002332967A1 (en) Method and apparatus for identifying diagnostic components of a system
KR20220069943A (ko) 단일 세포 rna-seq 데이터 처리
US20140180599A1 (en) Methods and apparatus for analyzing genetic information
KR101067352B1 (ko) 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체
Scarpa et al. Bayesian hierarchical functional data analysis via contaminated informative priors
Li et al. Benchmarking computational methods to identify spatially variable genes and peaks
Mallick et al. Bayesian analysis of gene expression data
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及***
Zucknick et al. Nonidentical twins: comparison of frequentist and Bayesian lasso for Cox models
US20090006055A1 (en) Automated Reduction of Biomarkers
Dobra Dependency networks for genome-wide data
Raimúndez et al. Posterior marginalization accelerates Bayesian inference for dynamical models of biological processes

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090508