JP2007520829A

JP2007520829A - アレイｃｇｈデータ及び遺伝子発現データの連携解析のための方法及びシステム

Info

Publication number: JP2007520829A
Application number: JP2006552253A
Authority: JP
Inventors: ヤキーニ，ゾハル・エイチ; リプソン，ドロン; ベン‐ドール，アミル
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2004-02-03
Filing date: 2005-02-02
Publication date: 2007-07-26
Also published as: US20050170378A1; EP1711815A2; WO2005074646A3; WO2005074646A2

Abstract

スコアが高く、有意に変化したゲノムの一連の部分行列を特定する方法、システム、及びコンピューター読み取り可能媒体であって、それぞれのゲノムの一連の部分行列は、ＤＮＡコピー数データ行列（Ｃ）及び遺伝子発現データ行列（Ｅ）を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含む。遺伝子のサブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために測定されたサンプルのセットのサブセットを含む。
【選択図】図６

Description

本発明は、ＤＮＡコピー数データ及び遺伝子発現データを連携解析(co-analyze)する方法及びシステムに関する。

ＤＮＡのコピー数における変動は多くのガンタイプの特徴であり、いくつかのガンの病原化プロセスを促進すると考えられている。これらの変動には大きな染色体の増加及び／又は損失並びに、より小さいスケールでの増幅及び／又は欠失が含まれる。

共通のゲノム異常（aberration）のマッピングは、ガン関連遺伝子を発見するための有用な一方法である。ゲノムの不安定性は、発ガン遺伝子の過剰発現又は活性化を引き起こす可能性を有し、また、腫瘍抑制遺伝子及びＤＮＡ修復遺伝子のサイレンシング（silencing）を引き起こす可能性を有する。ＤＮＡのコピー数における変動測定において、局所蛍光ｉｎ−ｓｉｔｕハイブリダイゼーションに基づく技術が早期に使用された。

ガンにおける染色体変化を同定するために、比較ゲノムハイブリダイゼーション（ＣＧＨ）と称されるゲノム全体に関する測定技術が現在使用されている（例えば、Balsara他著「Chromosomal imbalances in human lung cancer」， Oncogene， 21<45>:6877-83, 2002、及びMertens他著「Chromosomal imbalance maps of malignant solid tumors: a cytogenetic survey of 3185 neoplasms」， Cancer Research， 57<13>:2765-80， 1997を参照されたい）。ＣＧＨを使用して、異なる標識を施された腫瘍及び正常ＤＮＡを正常な***中期染色体に対し共ハイブリダイゼーションを行う。腫瘍と正常標識との割合（比）が、ガン遺伝子及び腫瘍抑制遺伝子を含み得る領域における染色体の増幅及び欠失の検出を可能にする。しかし、この方法は、約１０〜２０Ｍｂｐ（メガベースペア）のみの限定された回答量（又は分解能。以下同じ）を有する。提供されるこの回答量は染色体の変化の境界を決定可能にするには、或いは、単一遺伝子及び小さなゲノム領域のコピー数における変化を同定するためには不十分である。

アレイＣＧＨ（ａＣＧＨ）と称されるより先進的な測定技術は、比較的小さな染色体領域のＤＮＡのコピー数における変化を決定することができる。ａＣＧＨを使用して、腫瘍及び正常ＤＮＡを、数千のＢＡＣプローブ、ｃＤＮＡプローブ又はオリゴヌクレオチドプローブのゲノムクローンのマイクロアレイに対し共ハイブリダイゼーションさせる（例えば、Pollack他著「Genome-wide analysis of dna copy number changes using cdna microarrays」， Nature Genetics， 23<1>:41-6， 1999、Pinkel他著「High resolution analysis of dna copy number variation using comparative genomic hybridization to microarrays」， Nature Genetics， 20<2>:207-211， 1998、及びHedenfalk他著「Molecular classification of familial non-brca1/brca2 breast cancer」，ＰＮＡＳを参照されたい）。オリゴヌクレオチドアレイを使用することにより、提供される回答量は、単一遺伝子を同定するのに必要な回答量よりも、理論上優れたものとなり得る。

ＤＮＡコピー数変化の高分解能マッピングの開発及び発現プロファイリング技術によって、細胞プロセスへの染色体変化の影響を調査すること、及び、変化領域に存在する遺伝子の変化した発現によってその影響がどのように媒介されるかを調査することが可能になった。ＤＮＡコピー数及び同じサンプルのセットに関するｍＲＮＡ発現レベルの測定値は、それらが、変化する発現プロファイルにおいてどのように明示されるかになるかに対する、コピー数変化の関係を示すことができる情報を提供する。発現データ及びＤＮＡコピー数データを、連携して(jointly)解析する調査は、今まで、同じ遺伝子相関、すなわち、同じ遺伝子の発現レベルベクトルとＤＮＡコピー数ベクトルの間の相関を考慮するに過ぎなかった。

「Silence of chromosomal amplifications in colon cancer」Cancer Research, 62(4):1134-8, 2002で報告されるように、Platzer他は、転移性(metastatic)結腸ガンサンプルにおいてＤＮＡコピー数データ及び発現データを平行して使用し、発現レベルの増加への染色体の増幅の影響は小さいと結論付けた。しかし、この調査は、結論について根拠のある統計的な裏付けを提供しない。一般的な増幅が見出された領域のそれぞれ１つについて、その領域に存在した遺伝子の中央発現レベルが、９個の正常コントロール結腸サンプル内の同じ遺伝子の中央発現レベルと比較された。特定された領域に存在する２，１４６個の遺伝子のうちの８１個の遺伝子において、２倍の過剰発現が見出された。これらの結果の定量的統計的解析も提供されず、上述した２倍の結果の外に、発現の所定倍の変化についての結果も提供されなかった。明らかに過剰発現した増幅領域における特定の遺伝子が特定された。

Pollack他は、「Microarray analysis reveals a major direct role of dna copy number alteration in the transcriptional program of human breast tumors」PNAS, 99(20):12963-8, 2002において、***ガンサンプルに関する逆の観測を報告している。すなわち、Pollack他は、コピー数変化と発現レベル変動の間の強い大域的な相関を報告している。同様に、Hyman他は、「Impact of dna amplification on gene expression patterns in breast cancer」Cancer Research, 62:6240-5, 2002において、１４個の***ガン細胞ラインのコピー数変化を調査し、統計的に意味のある方法で、遺伝子増幅に系統的に起因する(systematically attributable)発現レベルを有する２７０の遺伝子を特定した。Pollack他及びHyman他の先の調査によって使用された統計量は、シミュレーションに基づき、局所領域効果ではなく、単一遺伝子相関を考慮した。

Linn他著「Gene expression patterns and gene copy number changes in dfsp」American Journal of Pathology, 163(6):2383-2395, 2003は、ＤＦＳＰにおける発現パターン及びゲノム変化を調査し、存在遺伝子(resident gene)の発現の上昇を伴う、共通の１７ｑと２２ｑの増幅を発見した。

転写に対するコピー数の関係の理解を改善するように設計されたデータ解析を統計的に裏付ける(support)方法についての継続した必要性が存在する。こうした必要性は、ａＣＧＨデータの裏付け及びａＣＧＨデータの解析について特に顕著である。

［発明の概要］
ゲノムＤＮＡの変化(alteration)と遺伝子の変化の間の有意な関係であって、こうした変化によって機能的にもたらされる、有意な関係を特定するために、ＤＮＡコピー数データと遺伝子発現データを連携解析する方法、システム、及びコンピューター読み取り可能媒体が提供される。複数のサンプルにわたって、遺伝子のセットについてＤＮＡコピー数データ及び遺伝子発現データが提供される。遺伝子セットのそれぞれの遺伝子について、遺伝子発現データベクトル及びＤＮＡコピー数データベクトルが生成される。遺伝子発現データベクトルが選択され、選択された遺伝子、及び当該選択された遺伝子の規定された染色体近傍の遺伝子に相当する、選択された遺伝子発現データベクトルとＤＮＡコピー数ベクトルの間の相関値が求められ、染色体近傍は少なくとも２つの遺伝子を含む。

一貫して偏倚(consistently biased)したＤＮＡコピー数測定値及び対応する遺伝子発現測定値が、一貫して偏倚したＤＮＡコピー数測定値について予想される程度を超えて相関する、染色体領域を特定する方法、システム、及びコンピューター読み取り可能媒体が提供される。選択された遺伝子の周りに位置する遺伝子座のセットからなる染色体近傍が特定される。さらに、整数Ｌによってシミュレーションサイズが規定され、複数のサンプルにわたって測定された遺伝子発現データによって生成された発現データ行列から、Ｌ−１個の遺伝子発現ベクトルが無作為に取り出される。上記特定するステップにおいて特定された染色体近傍において、それぞれの遺伝子のそれぞれについて、複数のサンプルにわたってＤＮＡコピー数データによって生成されたＤＮＡコピー数ベクトルに対する、それぞれ無作為に取り出された遺伝子発現ベクトルの相関が計算される。ＤＮＡコピー数ベクトルの近傍に対して、選択された遺伝子について計算された相関値を基準にして、無作為に取り出された発現ベクトルに関して計算された、計算された相関値が分類され、選択された遺伝子の遺伝子発現ベクトルに対する、染色体近傍からのＤＮＡコピー数ベクトルの領域相関の程度のインジケータが計算される。

ＤＮＡコピー数データと遺伝子発現データの連携解析に基づいて、ゲノム異常が起こった染色***置、それぞれのゲノム異常によって影響を受けるサンプル、及び異常の転写効果を検出する方法、システム、及びコンピューター読み取り可能媒体が提供され、提供されるＤＮＡコピー数データ行列は、サンプルのセットにわたる、遺伝子のセットについてのＤＮＡコピー数測定値を含み、提供される遺伝子発現データ行列は、同じサンプルにわたる、同じ遺伝子のセットについての遺伝子発現測定値を含む。ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために測定された遺伝子のセットのサブセットを含むゲノムの一連の部分行列が特定され、ここで、遺伝子のサブセットはゲノム遺伝子の一連のセット(genomic-continuous set of genes)であり、ゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために測定されたサンプルのセットのサブセットを含む。ＤＮＡコピー数データ行列及び遺伝子発現データ行列は、遺伝子のサブセット及びサンプルのサブセットの上に射影され、それぞれ、ゲノムの一連の部分行列に相当するＤＮＡコピー数データ部分行列及び遺伝子発現データ部分行列が生成される。ゲノムの一連の部分行列内の同じ遺伝子のサブセット及びゲノムの一連の部分行列内のサンプルのサブセットの補体(complement)によって規定される補体部分行列に相当する補体ＤＮＡコピー数データ部分行列及び補体遺伝子発現データ部分行列を基準にして、ゲノムの一連の部分行列に相当する部分行列がスコアリングされ、ゲノムの一連の部分行列が有意に増幅されているかどうかが判定される。

ＤＮＡコピー数データと遺伝子発現データの連携解析に基づいて、ゲノム異常が起こった染色***置、それぞれのゲノム異常によって影響を受けるサンプル、及び異常の転写効果を検出する方法、システム、及びコンピューター読み取り可能媒体が提供され、提供されるＤＮＡコピー数データ行列は、サンプルのセットにわたる、遺伝子のセットについてのＤＮＡコピー数測定値を含み、提供される遺伝子発現データ行列は、同じサンプルにわたる、同じ遺伝子のセットについての遺伝子発現測定値を含む。ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために測定された遺伝子のセットのサブセットを含むゲノムの一連の部分行列が特定され、遺伝子のサブセットはゲノム遺伝子の一連のセットであり、ゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために測定されたサンプルのセットのサブセットを含む。ゲノムの一連の部分行列内の同じ遺伝子のサブセット及びゲノムの一連の部分行列内のサンプルのサブセットの補体によって、補体部分行列が特定され、規定される。ＤＮＡコピー数データ行列及び遺伝子発現データ行列が、遺伝子のサブセット及びサンプルのサブセットの上に射影され、それぞれ、ゲノムの一連の部分行列に相当するＤＮＡコピー数データ部分行列及び遺伝子発現データ部分行列が生成される。補体部分行列に相当するＤＮＡコピー数データ部分行列及び遺伝子発現データ部分行列を基準にして、ゲノムの一連の部分行列に相当する部分行列がスコアリングされ、ゲノムの一連の部分行列において、有意な欠失が起こったかどうかが判定される。

スコアが高く、有意に変化したゲノムの一連の部分行列を特定する方法、システム、及びコンピューター読み取り可能媒体が提供され、それぞれのゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、遺伝子のサブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために測定されたサンプルのセットのサブセットを含む。遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントが特定され、サンプルのセットのそれぞれのサンプルについて、それぞれ、ＤＮＡコピー数データ行列がサンプル、及び遺伝子のサブセットの上に射影され、各サンプルに相当するＤＮＡコピー数データ列ベクトルが形成される。形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値より大きい値の数がカウントされ、それぞれのＤＮＡコピー数ベクトルのカウントに従ってサンプルが順序付けられる。次いで、対応するＤＮＡコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、対応するＤＮＡコピー数部分行列において特徴付けられるサンプルのサブセットの補体は特徴付けない測定値を含む、対応する補体ＤＮＡコピー数部分行列を基準にして、対応するＤＮＡコピー数部分行列内において、所定の閾値より大きい値の過剰さに基づいて増幅の程度に関してサンプルのセットの順序接頭部(order prefix)がスコアリングされる。増幅スコアの程度から最大スコアが求められる。求められた最大スコアが所定の有意性閾値より大きい場合、最大スコアが計算されたサンプルのサブセットに対応するゲノムの一連の部分行列は、有意に増幅されたゲノムの一連の部分行列であると結論付けられる。

スコアが高く、有意に変化したゲノムの一連の部分行列を特定する方法、システム、及びコンピューター読み取り可能媒体が提供され、それぞれのゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、遺伝子のサブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために測定されたサンプルのセットのサブセットを含む。遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントが特定される。サンプルのセットのそれぞれのサンプルについて、それぞれ、ＤＮＡコピー数データ行列がサンプル、及び遺伝子のサブセットの上に射影され、各サンプルに相当するＤＮＡコピー数データ列ベクトルが形成される。形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値より小さい値の数がカウントされる。次いで、それぞれのＤＮＡコピー数ベクトルのカウントに従ってサンプルが順序付けられ、対応する補体ＤＮＡコピー数部分行列を基準にして、対応するＤＮＡコピー数部分行列内において、所定の閾値より小さい値の過剰さに基づいて欠失の程度に関してサンプルのセットの順序接頭部がスコアリングされ、対応する補体ＤＮＡコピー数行列は、当該対応するＤＮＡコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、当該対応するＤＮＡコピー部分行列(DNA copy submatrix)において特徴付けられるサンプルのサブセットの補体は特徴付けない測定値を含む。欠失スコアの程度から最大スコアが求められ、当該求められた最大スコアが所定の有意性閾値より大きい場合、最大スコアが計算されたサンプルのサブセットに対応するゲノムの一連の部分行列は、有意に欠失したゲノムの一連の部分行列であると結論付けられる。

本発明はまた、本明細書に述べる方法の任意の方法からの結果を、転送すること、送信すること、及び／又は、受信することを包含する。

本発明の上記の利点及び特徴並びにその他の利点及び特徴は、以下により完全に記載される、方法、システム、及びコンピューター読み取り可能媒体の詳細についての詳細を読むことにより、当業者には明らかになるであろう。

［発明の詳細な説明］
本発明の方法、システム、及びコンピューター読み取り可能媒体について説明する前に、本発明は、記載される特定の実施例又は実施形態に限定されるものでなく、こうした実施例又は実施形態は当然、変更し得るものであることを理解すべきである。また、本明細書中で使用される用語は、特定の実施形態を説明することのみを目的とするものであり、限定を意図するものではないことを理解すべきである。本発明の範囲は、添付の特許請求の範囲によってのみ限定されるからである。

ある範囲の値が与えられた場合、文脈上別様に明確に示されていない限り、下限値の単位の１／１０までの各介在値もまた、その範囲の上限値及び下限値の間で明確に開示されることを理解されたい。ある規定された範囲における任意の規定値又は介在値の間の、より小さい各々の範囲、及び、その規定された範囲における任意のその他の規定値若しくは介在値が、本発明の範囲内に包含される。これらのより小さい範囲における上限値及び下限値を個別にこの範囲に含めることも、含まれないようにすることもでき、より小さい範囲内にいずれかの限界値が含まれ、又は、いずれの限界値も含まれず、又は、両方の限界値が含まれるといった各範囲もまた本発明の範囲内に包含されるものであり、規定された範囲において任意の限界値を明確に除外することができる。規定された範囲が一方又は両方の限界値を含む場合、含まれるこれらの限界値のいずれか若しくは両方を除外する範囲もまた、本発明に包含される。

別様に定義しない限り、本明細書中で使用する全ての技術的用語及び科学的用語は、本発明が属する技術分野の当業者に一般的に理解されるものと同じ意味を有する。本明細書に記載されるものと類似又は等価な任意の方法及び材料を、本発明の実施又は試験において使用することができるが、好ましい方法及び材料について以下に記載する。本明細書中で言及する全ての刊行物は、引用した刊行物と関連する方法及び／又は材料を開示及び説明するために、参照により本明細書に援用されるものとする。

本明細書及び添付の特許請求の範囲で使用する場合、単数形の「１つの」（ａ又はａｎｄ）、及び、「その」、「前記」、又は「上記」（ｔｈｅ）は、文脈上別様に明確に指示していない限り、複数の対象も含むことに留意すべきである。したがって、例えば、「ベクトル」と言及した場合には複数のベクトルセルを含み、また、「その（又は前記若しくは上記）遺伝子」と言及した場合には、１つ又は複数の遺伝子及び当業者には既知のその均等物等への参照を含む。

本明細書中において参照した刊行物は、本出願の出願日前のその内容の開示のみのために提供される。本明細書において、先行発明に基づいて本発明が該刊行物の内容に先行する資格を有しないことを認めるものとして解釈すべきものは何もない。さらに、示された出版日は、実際の出版日と異なるかもしれず、個別に確認する必要がある場合がある。

定義
「マイクロアレイ」、「バイオアレイ」又は「アレイ」とは、他の意図が明らかでない限り、関連する特定の化学的部分（又は特定の複数の化学的部分）を担持（又は保持）するアドレス指定可能な領域の任意の１次元、２次元、又は３次元的配列を包含する。マイクロアレイ上の特定の所定位置にある領域が、特定の標的又は標的群を検出するように複数の領域の部分を有するという点において、マイクロアレイは「アドレス指定可能」である（一つの特徴部がその特徴部の標的でないものを偶然に検出する場合はあるが）。アレイの特徴部は通常、（必ずしもその必要はないが）介在する空間により分離されている。アレイの場合、「標的」とは、プローブによって検出される移動相中の部分を意味し、プローブは様々な領域において基質と結合する。しかしながら、「標的」又は「標的プローブ」の一方は、他方により評価されるものでありえる。

アレイの製造方法については、米国特許第６,２４２,２６６号、同６,２３２,０７２号、同６,１８０,３５１号、同６,１７１,７９７号及び同６,３２３,０４３号に詳細に記載されている。すでに述べたように、これらの参考文献は参照により本明細書中に援用されるものとする。本明細書中で従前に記載したように、その他の滴下沈着方法も製造に使用することができる。また、滴下沈着方法の代わりに、フォトリソグラフィーアレイ製造方法を使用してもよい。上記特許文献中に記載されているように、特に、アレイがフォトリソグラフィー法によって製造されている場合には、特徴間の領域は存在する必要はない。

ユーザーによる受け取り後、通常、アレイはサンプルに曝され、次に読み取られる。アレイの読み取りは、アレイに光を照射し、該アレイの各特徴部における複数の領域で、生じた蛍光の位置及び強度を読み取ることにより行うことができる。例えば、本目的のために使用し得るスキャナーは、Agilent Technologies社（カリフォルニア州パロアルト）によって製造されたＡＧＩＬＥＮＴＭＩＣＲＯＡＲＲＡＹＳＣＡＮＮＥＲ、又はその他の同様のスキャナーである。その他の好適な装置及び方法については、米国特許第６,５１８,５５６号、同６,４８６,４５７号、同６,４０６,８４９号、同６,３７１,３７０号、同６,３５５,９２１号、同６,３２０,１９６号、同６,２５１,６８５号、及び同６,２２２,６６４号に記載されている。しかしながら、アレイは、上記以外の任意の他の方法又は装置により読み取ることもでき、その他の読み取り方法としては他の光学的技法又は電気的技法（この場合、米国特許第６,２５１,６８５号、同６,２２１,５８３号、及び他の文献に開示されているように、各特徴部には、その特徴部における結合を検出するための電極が設けられる）が含まれる。

「遺伝子発現応答特性」、「遺伝子発現データベクトル」、又は「発現データベクトル」は、いくつかのサンプルにわたって同じ遺伝子の発現値によって生成されるベクトルを意味する。

「全ての測定された遺伝子座のセット」は、究明中の調査において、それについて測定データが得られた全ての遺伝子座を意味する。

「遺伝子座のゲノムの一連のセット」は、全ての測定された遺伝子座のセットのサブセットであり、それによって、サブセットの全ての構成要素が、染色体内に存在し、所与の第１ゲノム位置と所与の第２ゲノム位置の間（すなわち、「ゲノム位置ａ」と「ゲノム位置ｂ」との間）にゲノム位置を有する、まさに遺伝子座であるような染色体が存在する。

「ＤＮＡコピー数データベクトル」又は「コピー数データベクトル」は、いくつかのサンプルにわたって同じ遺伝子のＤＮＡコピー数値によって生成されるベクトルを意味する。

用語「浸透率(penetrance)」は、サンプル内の細胞が、調査される現象によって影響を受けた程度を意味する。そのため、例えば、浸透率の低いサンプル内の腫瘍細胞母集団は、全てではない、又は、比較的低い割合の腫瘍細胞が、ゲノムを変化させた腫瘍細胞母集団である。

用語「有病率(prevalence)」は、調査時のサンプルが全て、調査される現象によって影響を受けた程度を意味する。そのため、例えば、低い有病率を示す調査は、全てではない、又は、比較的低い割合の調査時のサンプルが、ゲノムを変化させた調査である。

１つの要素がもう一方から「離れた」ものとして示される場合、これは、２つの要素が少なくとも異なる構造物中にあり、少なくとも１．６０９ｋｍ（１マイル）、１６．０９ｋｍ（１０マイル）、又は少なくとも１６０．９ｋｍ（１００マイル）離れている場合があることを意味する。

情報を「伝達する」とは、適切な伝達チャネル（例えば、民間又は公共のネットワーク）上の電気信号として、その情報を表すデータを伝達することを意味する。

要素を「転送する」とは、その要素を物理的に移動させるか、又は（可能であれば）その他の方法により、その要素を１つの位置から次の位置へ移動させる任意の手段を意味し、少なくともデータの場合には、データを運搬する媒体又はデータを伝達する媒体を物理的に移動させることを含む。

「プロセッサー」とは、要求された機能を実行する任意のハードウェア及び／又はソフトウェアの組合せを意味する。例えば、本明細書における任意のプロセッサーは、メインフレーム、サーバー、又はパーソナルコンピューターの形態で利用可能であるような、プログラム可能なデジタルマイクロプロセッサーであってもよい。該プロセッサーがプログラム可能である場合、適切なプログラミングを、離れた場所からこのプロセッサーに伝達するか、又はコンピュータープログラム製品中に予め保存しておくことができる。例えば、磁気的なディスク又は光学的なディスクはプログラミングを運搬することができるとともに、各プロセッサーとその対応する位置（station）において交信する適切なディスクリーダーにより、読み取られることができる。

単数の要素について言及した場合には、複数の同一の要素が存在する可能性が含まれる。

「ことができる」、「場合がある」、又は「得る」(May)とは、任意選択的であることを意味する。

本明細書において記載した方法は、記載の事象を記載の順序ばかりでなく、論理的に可能な任意の順番で実行することができる。

本出願において引用した全ての特許文献及びその他の参考文献は、本出願の内容と矛盾する場合を除き（その場合には、本出願が優先する）、参照により本出願に援用されるものとする。

本発明は、遺伝子の染色体近傍において、所定の数の（通常、ほとんどの）遺伝子ＤＮＡコピー数測定値と有意に相関する発現パターンを示す遺伝子を特定するための、方法、システム、及びコンピューター読み取り可能媒体を提供する。統計的観点から、こうした領域ベースの解析は、発現値とＤＮＡコピー数値との単一遺伝子比較と比べて、発現に対するコピー数の相関に対してずっと強力な裏付けを与える。

本発明は、全てのデータセットについて得られる相関値、及び領域的な現象へのその依存性を統計的に評価するシステム、方法、及びコンピューター読み取り可能媒体をさらに提供する。

ここで、図１を参照すると、Ｍ個の遺伝子に関するｎ個のサンプルから生成された遺伝子発現（ＧＥ）値の行列Ｅが示される。各サンプルＸについて、同じ遺伝子ｇが測定され、発現値が、それに応じて値Ｅ_ijとして行列Ｅに記録される。ここで、行列Ｅの（ｉ，ｊ）番目のエントリは、ｊ番目のサンプルのｉ番目の遺伝子についての発現データを表す。例えば、発現データ値Ｅ₂₃（又は、別法として、Ｅ（２，３）として注釈される）は、サンプルＸ₃の場合の遺伝子ｇ２についての発現値を示す。

同様に、図２は、Ｍ個の遺伝子に関するｎ個のサンプルから生成されたＤＮＡコピー数（ＤＣＮ）値の行列Ｃを示す。各サンプルＸについて、同じ遺伝子ｇが、ＤＮＡコピー数について測定され、ＤＣＮ値が、それに応じて値Ｃ_ijとして行列Ｃに記録される。ここで、行列Ｃの（ｉ，ｊ）番目のエントリは、ｊ番目のサンプルのｉ番目の遺伝子についてのＤＮＡコピー数データ値を表す。例えば、ＤＣＮデータ値Ｃ₃₃（又は、別法として、Ｃ（３，３）として注釈される）は、サンプルＸ₃の場合の遺伝子ｇ３についてのＤＣＮ値を示す。図１及び図２で表される行列Ｃ及びＥ（並びに、それらが表すそれぞれのマイクロアレイ）は、同じ遺伝子（プローブ）を含むが、本発明は、こうした行列が同じ遺伝子（プローブ）を含むことを必要としないことが留意される。さらに、ＤＮＡコピー数行列Ｃは、非コーディング(non-coding)ゲノム遺伝子座に相当するエントリを含んでもよい。

上述したように、行列Ｃ及びＥは、同じ遺伝子比較を計算する（例えば、ベクトルＥ（３，・）とベクトルＣ（３，・）とを比較する）のに使用されてもよく、ここで、「・」は、特定の行についての各列値、この例では、列値１〜ｎが、ベクトルの計算に含まれることを示すが、ゲノム構造の不安定性がどのように細胞プロセスに影響を及ぼすか、特に、この影響が、変化した発現を通してどのように媒介されるかを、よりよく理解するために、単一遺伝子だけでなく、染色体領域を解析することが必要であり、且つ、有益である。ゲノム変化は、多数の遺伝子にわたる場合があるゲノムの長いストレッチ(stretch)に適用されることが多い。こうした異常によって影響を受ける遺伝子の発現パターンは、それ自身のコーディングＤＮＡのコピー数レベルに相関するだけでなく、近傍遺伝子のコピー数レベルにも相関することが予想される。さらに、測定誤差によって、遺伝子自身のＤＮＡコピー数測定レベルに対して計算される時よりも、近傍遺伝子のＤＮＡコピー数測定レベルに対して計算される時の方が、遺伝子の測定された発現レベルの相関は強い場合がある。したがって、測定雑音、及び／又は、低有病率及び低浸透率の曖昧にする効果を相殺することができる、よりよい結果をもたらすために、領域の効果を考慮する解析方法、システム、及びコンピューター読み取り可能媒体が、本明細書で説明される。低浸透率及び／又は低有病率のＤＮＡコピー数の変化は、領域の効果が考慮される時の統計的に有意な方法においてであるが、２倍のマークより低い(below the 2-fold mark)発現をもたらす場合がある。

領域ベースの解析は、統計的観点から、適切に修正されたヌルモデルに対してベンチマークされる(benchmark)と、発現に対するコピー数の相関に対して強固な裏付けを与える。ＤＮＡコピー数ベクトルの変動が全て、実験誤差から生じる場合、発現データベクトルとその対応する（同じ遺伝子、又は、その領域の他の遺伝子）ＤＮＡコピー数データベクトルとの間の相関は、完全に無作為に振舞うべきである。

参照によりその全体が本明細書に援用される、Benjamini他著「Stepdown tests that control the false discovery rate when test statistics are independent」Journal of Statistical Planning and Inference, 82:163-70, 1999に説明された偽検出レート（ＦＤＲ）カットオフ、並びに、他の統計的比較は、異常な染色体領域に存在する遺伝子を特定するとともに、相関したパターンに従う発現レベルを生成するために実施される。領域ベースの相関解析は、自己相関解析（同じ遺伝子の発現レベルに対するＤＮＡコピー数）に比べて、所与のＦＤＲ閾値においてより相関の高い多くの遺伝子を生み出すことが決まっている。

相関スコアリング
２つのベクトル間の依存性についての最も一般的な目安の１つは、ピアソン相関係数(Pearson correlation coefficient)である。ピアソン相関係数は、２つのベクトル、μ及びνの間の依存性を以下のように測定する。

ここで、ｒは、２つのベクトルが、線形関係を維持する程度を測定する。したがって、この相関メトリックは、ＤＮＡコピー数データ値と遺伝子発現データ値がある非線形な関係に従う時にはあまり適さない場合がある。従来の大規模ＤＣＮ−ＧＥ比較調査は、依存性を評価するための唯一のスコアリング方法としてピアソン相関を使用したため、観測されたピアソン相関スコアの有意性は、シミュレーションを使用して以下で解析される。しかし、他の線形相関メトリック又は非線形相関メトリックが採用されてもよいため、本発明は、ピアソン相関解析の使用に限定されない。

遺伝子コピー測定値を遺伝子発現レベルと比較するための異なる方法は、ＤＮＡコピー数測定値を「欠失した(deleted)」又は「増幅された」として分類する(classify)ためにユーザーが選択した閾値を利用し、遺伝子発現測定値を過小発現した、又は、過剰発現したとして分類するためにユーザーが選択した閾値をさらに利用する。この手法は、ＤＣＮ測定ベクトルとＧＳ測定ベクトルとの間の線形性の仮定には全くよらないが、ユーザーが割り当てた閾値についての特定の好みに、ある程度依存する。２つのベクトル間の依存性の閾値ベースの解析に対する一般化された手法は、以降で述べる分離クロス(separating-crosses)スコアリング方法を特徴とする。

２つのベクトルの成分μとνは、平面内のｎ個の点（μ_i，ν_i）と考えられる。（ｘ，ｙ）を中心とするｔ＝ｔ_x,yによって規定される軸平行クロス(axis parallel cross)は、平面をＡ_t、Ｂ_t、Ｃ_t、及びＤ_tで示す４つの象限に分割する（図５を参照されたい）。象限Ａ_tに入る（μ_i，ν_i）からの点の数はａ_tで示され、象限Ｂ_tに入る（μ_i，ν_i）からの点の数はｂ_tで示され、象限Ｃ_tに入る（μ_i，ν_i）からの点の数はｃ_tで示され、象限Ｄ_tに入る（μ_i，ν_i）からの点の数はｄ_tで示され、それによって、ａ_t＋ｂ_t＋ｃ_t＋ｄ_t＝ｎとなる。ベクトルμとνは、ａ_tとｄ_tが共に、ｂ_tとｃ_tに比較して大きくなるようなクロスｔが存在する場合、相関すると判定される。より一般的には、象限カウントの関数（すなわち、クロス関数ｆ（ａ，ｂ，ｃ，ｄ））が与えられると、分離クロススコア関数は、閾値ｔの全ての可能な選択にわたって、Ｆで示す、ｆの得られる最大値を規定する。すなわち、

である。

μ（π^-1（１））＜μ（π^-1（２））＜…＜μ（π^-1（ｎ））であるように、変数πの値として示されるベクトルμのサンプルの値を分類し(rank)、且つ、サンプルをτによって示すことによって、ベクトルνによって誘導される置換は、
Ｆ（μ，ν）＝Ｆ（π，τ）（３）
を与える。その理由は、クロス関数、したがって、スコア関数が、各象限内の点のカウントだけに依存し、点の実際のロケーションには依存しないからである。そのため、全ての関数ｆ（π，τ，ｔ）について、関数Ｆ（π，τ）は、（ｎ−１）²個の可能なクロスを調べることによって計算することができる。

最大対角積(MDP:Maximal Diagonal Product)スコアと呼ばれる分離クロススコア関数の変形は、対角積（ＤＰ）とも呼ばれる分離クロス関数
ＤＰ（π，τ，ｔ）＝ａ_t・ｄ_t （４）
を考える。最大対角積（ＭＤＰ）と呼ぶ、対角積の対応するスコア関数は、以下のように与えられる。

ＭＤＰスコアの有益な属性は、ＭＤＰスコアが、最大スコアに寄与するサンプル（すなわち、象限Ａ_tとＤ_t内の点）と最大スコアに寄与しないサンプル（すなわち、象限Ｂ_tとＣ_t内の点）との差異を提供することである。したがって、この属性は、影響を受けないサンプルに対して影響を受けたサンプルを特定するのに有益である。このスコアの組み合わせの特質によって、その統計的特性の厳密な計算が可能である。

分離クロススコア関数の別の変形は、対角積の和(ＳＤＰ：Sum of Diagonal Product)と呼ばれ、
ＳＤＰ（π，τ）＝Σ_t｛ＤＰ（π，τ，ｔ）｝（６）
によって規定される。

領域解析
ＤＣＮデータとＧＥデータの連携解析についての生物学的基礎は、ｍＲＮＡコピー数に直接影響を及ぼし、おそらく、下流の機能欠損(functional deficiency)をもたらすゲノムＤＮＡの変化の存在である。こうした変化の存在は、以下の局面の１つ又は複数に局在化される可能性が最も高い。すなわち、ゲノムＤＮＡの変化は、ある染色体セグメントに限定されること、特定のゲノムセグメントを有する全ての遺伝子の発現は、同じ程度には実施されない場合があること、サンプルが、必ずしも、同じ、又は、類似のゲノム変化を含むわけではないこと、及び／又は、特定のサンプル内で、ある変化が、いろいろな浸透率レベルで起きる場合があることである。

上述したように、ＤＣＮ−ＧＥデータ関係を使用した従来の調査及び解析は、単一遺伝子の遺伝子発現レベルとそれぞれのＤＮＡコピー数測定値との間の相関のみを考慮してきた。ＣＧＨベースの調査は、染色体変化が、多数の遺伝子にわたる場合があるゲノムの長いストレッチに適用されることが多いことを示す。したがって、こうした異常によって影響を受ける遺伝子の発現パターンは、それ自身のコーディングＤＮＡのコピー数に相関するだけでなく、近傍遺伝子のＤＣＮ測定値にも相関することになることを予想することができる。本発明の原理を適用することによって、解析は、データ内の雑音或いは一部又は全てのサンプルにおける異常の低浸透率の負の効果を相殺することができる、よりよい結果をもたらすために、領域の効果を考慮する。以下で述べるように、ゲノム変化と遺伝子発現レベルの分散との局在化した相関の出現(appearance)を考慮することは、近傍遺伝子に関する遺伝子の遺伝子変化の領域の影響を反映する。

図１及び図２の発現データ行列Ｅ及びＤＮＡコピー数データ行列Ｃを再び参照すると、これらの行列の構成要素の値として、比、絶対値、又は対数値が一貫して提供されてもよい。遺伝子ｇ_iのＤＮＡコピー値のベクトルとｇ_iの遺伝子発現値のベクトルとの間のピアソン相関は、以下のように計算されてもよい。

ここで、ｒ（ｉ，ｊ）＝Ｃｏｒｒ（Ｅ（ｉ，・），Ｃ（ｊ，・））は、Ｅ行列（発現データ値行列Ｅ）のｉ番目の行とＣ行列（ＤＮＡコピー数データ値行列Ｃ）のｊ番目の行との間で計算されたピアソン相関係数であり、Ｅ（ｉ，ｋ）は、行列Ｅの行ｉ、列ｋの発現データ値であり、

は、行の全てのサンプル値にわたって（図１の例では、全てのサンプル値１〜ｎにわたって）平均された、発現データ値行列Ｅのｉ番目の行についての平均発現データ値であり、Ｃ（ｊ，ｋ）は、行列Ｃの行ｉ、列ｋのＤＮＡコピー数データ値であり、

は、行の全てのサンプル値にわたって（図２の例では、全てのサンプル値１〜ｎにわたって）平均された、ＤＮＡコピー数データ値行列Ｃのｊ番目の行についての平均ＤＮＡコピー数データ値である。

上記手法は、特定される遺伝子の染色体近傍において、ほとんどの遺伝子ＤＮＡコピー数測定値と有意に相関する発現パターンを示す遺伝子を特定しようと試みる。遺伝子の「染色体近傍」又は「ｋ−近傍」は、
Γ_k（ｉ）＝（ｉ−ｋ，ｉ−（ｋ−１），…，ｉ，ｉ＋１，…，ｉ＋ｋ）（８）
によって指示される遺伝子の連続配列として規定され、ここで、Γ_k（ｉ）は、ｉによって指示される遺伝子のｋ−近傍における遺伝子の指示を表し、ｋは、解析される染色体近傍のサイズを規定するのに使用される所定の整数である。

別法として、染色体近傍は、所与の遺伝子ｇ_iを囲むゲノムフラグメントの物理的長さによって規定されてもよい。例えば、染色体近傍は、遺伝子ｇ_iの両側に１Ｍｂｐを追加することによって規定されてもよい。こうして規定されると、近傍のサイズは、近傍に関して解析されるデータによって一定ではないが、染色体近傍として規定された染色体セグメント内に存在するプローブの密度（数）に依存する。

染色体近傍を規定することを対象とする(toward)、上述した第１の手法を使用すると、染色体近傍は、（２ｋ＋1）個の要素（遺伝子）からなる。染色体近傍Γ_k（ｉ）における遺伝子ｉの発現ベクトルＥ（ｉ，・）とＤＮＡコピー数ベクトルとの相関を定量化する１つの手法は、

のように、それぞれのＤＮＡコピー数ベクトルのそれぞれに対してＥ（ｉ，・）の平均相関を計算することである。

領域相関に対する代替の手法は、例えば、近傍Γ_k（ｉ）において、重み付き又は一様平均ＤＮＡコピー数のベクトルに対するＥ（ｉ，・）の相関、又は、それぞれの相関のｐ値の積を考慮してもよい。

置換されるデータ
遺伝子順序を考慮する解析を実施する時、解析結果は、近傍遺伝子が互いに独立であると仮定するヌルモデルと比較される。ヌルモデルは、正常な（異常でない）ゲノムデータのみを含むモデルである。正常な（異常でない）ゲノムデータに関して、ＤＮＡコピー数測定値の変動は、実験的誤差によってだけ起こることになり、したがって、近傍遺伝子座のＤＮＡコピー数ベクトルに関する所与の発現ベクトルの相関スコアは、独立であると予想される。

実際のゲノムデータにおいて、近傍遺伝子は、独立であるとは予想されない。ゲノム異常が起こる場合、変化した領域内のＤＮＡコピー数測定値は、正に相関すると予想される。同様に、異常範囲内の近傍遺伝子座のＤＮＡコピー数ベクトルに関する所与の発現ベクトルの相関スコアは、正であると予想される。すなわち、ゲノム異常がゲノムセグメント内で起こる場合、存在遺伝子座（resident loci）／遺伝子のＤＮＡコピー数及び発現レベルは、正に相関することになる。近傍遺伝子の独立性は、ヌルモデルについてだけ仮定される。さらなる解析が、遺伝子置換行列Ｅ'及びＣ'について実施されてもよい。

行列Ｅ'及びＣ'を得るために、行列Ｃの行に適用されるように、同じ置換が、行列Ｅの行に適用される。データの行は、実施されるそれぞれの解析のために、行列Ｅ及びＣのそれぞれにおいて、同じように無作為に再配置される。図３及び図４は、それぞれ、置換されたＥ'及びＣ'の１つの非制限的な例を示す。ここで、この例ではＭ＝ｋ＋１であり、遺伝子の近傍を示す。領域の効果の結果は、遺伝子の元々の染色体順序に依存すると予想されるため、置換された行列に基づいて計算すると領域の効果が大幅に減少する時に、領域の効果についての結果が確証される。

ｐ値の計算
一貫して偏倚したＤＮＡコピー数測定値と対応する発現レベルとが、一貫したコピー数値について予想される程度を超えて相関する領域を特定するために、シミュレーション解析が実施されて、染色体領域について遺伝子座依存のｐ値が評価されてもよい。一貫して偏倚したＤＮＡコピー数測定値と対応する発現レベルは、上述した予想される挙動と関連し(refer to)、ここでは異常なゲノム領域内のＤＮＡコピー測定値が、正に相関すると予想される。非常に一貫したＤＮＡコピー数測定値が観測される領域における相関は、領域において無作為であると予想される分布が大きな変動を有するため、ＤＮＡコピー数測定値が一貫しない領域における相関と比べて、有意となるためにかなり高い閾値を交差する必要がある。特に、一貫したＤＮＡコピー数値によって、一貫したＤＮＡコピー数測定値の場合において平均化の比較的弱い平滑化効果が存在する。

シミュレーションを始めるために、シミュレーションのサイズは、イベント６０２においてＬとして設定される（図６を参照されたい）。シミュレーションサイズＬは、正確なｐ値を得るために、（例えば、時間と費用因子を考慮して）研究者が進んで実行してもよいと考える計算量又は計算回数である。例えば、１，０００のＬ値は、０．００５までほぼ正確であるｐ値をもたらし、１０，０００のＬ値は、０．０００５までほぼ正確であるｐ値をもたらすことになる。Ｌを設定した後、イベント６０４において、Ｌ−１個の無作為の発現ベクトルが、システムのユーザーによって作成されるか、又は、選択される。無作為の発現ベクトルを、種々の方法で提供することができる。例えば、Ｌ−１個の発現ベクトルは、行列Ｅ（すなわち、行列Ｅの行）から無作為に取り出されてもよく、或いは、別法として、Ｌ−１個の発現ベクトルは、行列Ｅから無作為に取り出されるか、又は、値の正規分布等から無作為に取り出された値を使用して作成されてもよい。無作為に取り出された各発現ベクトルについて、近傍Γ_k（ｉ）に対する無作為の発現ベクトルの相関は、イベント６０６において、
ｒ_l＝ｒ（ｉ_l，Γ_k（ｉ））（１０）
によって計算される。

イベント６０８において、実際にはｉにおいて観測される相関ｒ_*＝ｒ（ｉ，Γ_k（ｉ））は、ｒ₁、ｒ₂、…、ｒ_L-1の中で、１〜Ｌのランクに相当し、且つ、ｒ_*以上である、ｒ₁、ｒ₂、…、ｒ_L-1、及びｒ_*の中の相関値の数を表す、ランクρを割り当てられる。イベント６１０において、ｉにおいて観測される領域相関についてのｐ値は、
ｐＶ（ｉ）＝ρ／Ｌ（１１）
によって与えられる。
ここで、ｐＶ（ｉ）は、ｉ番目の項についてのｐ値であり、ｐ値は、対応する染色体領域のコピー数値しだいである。

遺伝子座依存のｐ値を求める上記技法は、発現に対するコピー数の相関を調査するために、Pollack他著「Genome-wide analysis of dna copy-number changes using cdna microarrays」Nature Genetics, 23(1):41-6, 1999に提供されるＤＮＣデータ及びＧＥデータ値に適用された。Pollack他著「Genome-wide analysis of dna copy-number changes using cdna microarrays」Nature Genetics, 23(1):41-6, 1999は、参照によりその全体が本明細書に援用される。図７は、ｉが、データセット内の全ての遺伝子にわたる範囲である、ｐＶ（ｉ）の累積分布を示す。予想されるように、データセットを無作為に置換することによって、基準曲線として使用することができる直線７１０が得られ、一方、有意な単一遺伝子相関（すなわち、ｒ（ｉ，ｉ）、曲線７２０を参照されたい）は、全てのｐ値において過剰である。有意な相関は、サイズｋ＝２（曲線７３０）及びｋ＝１０（曲線７４０）の近傍について計算されると、益々過剰である。これらの結果は、染色体順序とＧＥに対するダイレクト(direct)ＤＣＮの相関との両方に依存することに留意されたい。染色体順序への依存性は、遺伝子データの無作為置換（曲線７１０）が、単一遺伝子相関（曲線７２０）よりも、有意な相関スコアの豊富さ(abundance)を少なくすることによって立証される。ＧＥに対するダイレクトＤＣＮの相関への依存性は、ｐＶ（ｉ）を計算する方法によって表される。

領域依存性ｐＶ（ｉ）スコアは、遺伝子発現レベルが、高い統計的な信頼を持ってＤＣＮ測定値と有意に相関する、遺伝子座の特定を可能にする。例えば、（先に参照したPollack他からのデータに関して）図７に示す結果に関して０．００１の閾値を考える。６，０００個の遺伝子の無作為データセットは、このスコアを持つ６個の遺伝子を含むことが予想されるが、単一遺伝子相関は、１６４個のこうした遺伝子をもたらす（ＦＤＲ＝３．７％）。Γ₂（ｉ）近傍に対する平均化相関を考慮すると、２１４個の有意な遺伝子座が得られ（ＦＤＲ＝２．８％）、Γ₁₀（ｉ）近傍に対する平均化相関を考慮すると、２８９個の有意な遺伝子座が得られる（ＦＤＲ＝２．１％）。そのため、領域ベースの解析は、ＤＣＮに対するＧＥの相関が、高い信頼を持って特定されることができる、ほとんど８０％を超える遺伝子座を与える。

ゲノムの一連の部分行列
上述したように、ゲノム変化は、サンプルのサブセットに、並びに、影響を受けるサンプルの染色体物質の特定の染色体セグメントに局在化されることが多い。以下の説明は、異常が起こったゲノムセグメント、影響を受けたサンプル、及び異常の転写効果（transcriptional effect）の検出に対処する。

ＤＣＮ行列ＣとＧＥ行列Ｅの所与の対について、それぞれ、遺伝子Ｇの順序付けられたセットとサンプルＸのセットにわたって、ゲノムの一連の部分行列（ＧＣＳＭ）は、
Ｍ＝Ｇ'×Ｘ' （１２）
として規定することができる。ここで、ＭはＧＣＳＭであり、Ｇ'⊂Ｇであり、遺伝子の連続セグメントであり、Ｘ'⊆Ｘである（Ｘ'は、全セットＸまでで、且つ、全セットＸを含むＸのサブセットである）。

ＧＣＳＭの補体部分行列は、

として規定される。Ｃ（Ｍ）及びＥ（Ｍ）は、行列Ｃ及びＥのサブセットＧ'及びＸ'（すなわち、Ｍに相当するＤＣＮ部分行列及びＧＥ部分行列）上への射影を示す。

所与の染色体セグメント及び所与のサンプルにおけるゲノム変化は、所与の染色体セグメントのＤＮＡコピー測定値のほとんどに影響を及ぼすべきであるが、それぞれの遺伝子発現測定値の一部のみに影響を及ぼすべきである（すなわち、影響を受けるＤＮＡコピー測定値の数より少ない）。これは、セグメントにおける任意の存在遺伝子のＤＣＮは、異常セグメントによって直接影響を受け、一方、存在遺伝子のＧＥは、その遺伝子の調節を決定する異なる因子に応じて修正されてもよく、又は、修正されなくてもよいことによる。セットＣ（Ｍ）内のほとんどのＤＮＡコピー値が正であり、且つ、一部の遺伝子Ｇ_i∈Ｇ'が、ＧＣＳＭ内に無い発現値

に比較して高い発現値｛Ｅ（ｉ，ｊ）：Ｘ_j∈Ｘ'｝を有する時に、ＧＣＳＭＭは、有意に増幅されると判定される。用語「ほとんど」及び「一部」は、特定されるように求められる定性的イベントを伝えるために正式ではなく使用される。これらのイベントの正式な確率論的規定の例は、以下で述べられ、その例において、超幾何分布又は二項分布が、Ｃにおいて正の値が過剰なｐ値(p-value of the overabundance of positive values in C)を規定するのに使用され、Ｅにおいて良好な分離子(separator)が過剰なｐ値を規定するために、ＴＮｏＭ２項サプライズ解析(binomial surprise analysis)が実行されてもよい。

Ｍが有意に増幅された程度を測定するスコアリングメカニズムは、以下の通りである。スコアＦ（Ｍ；Ｃ）は、超幾何分布を使用して、

と比較して、Ｃ（Ｍ）において正の値の過剰さを反映するように規定される。Ｆは、

で与えられる超幾何累積分布関数である。

超幾何分布関数は、Ｋ個の黒オブジェクトとＭ−Ｋ個の白オブジェクトの集合から、置換することなく、オブジェクトを取り出す時に、最初に取り出したｍ個のオブジェクトからｘ個以下が黒である確率を表す。

超幾何分布関数をスコアＦ（Ｍ；Ｃ）に適用して、

で、且つ、ｎ＝｜Ｃ（Ｍ）｜であるとする。さらに、Ｋは、

における正の値の数であり、ｋは、Ｃ（Ｍ）における正の値の数であるとする。Ｎ、ｎ、Ｋが与えられると、Ｃ（Ｍ）においてｋ個以上の正の値を見出す超幾何確率は、

である。

別法として、Ｃ（Ｍ）における正の値の過剰さは、完備行列(complete matrix)Ｃにおける正の値の一部が与えられると、Ｃ（Ｍ）における正の値の一部分(the fraction of)についての二項サプライズ解析を使用して評価されてもよい。二項サプライズ解析は、完備行列Ｃにおける正の値の一部分が与えられると、Ｃ（Ｍ）において少なくとも観測される数の正の値に遭遇する二項テール確率（binomial tail probability）を使用して実行されてもよい。

同様に、スコア関数Ｆ（Ｍ；Ｅ）は、ＸとＸ'における発現値を比較する時、すなわち、Ｘ−Ｘ'の発現レベルより有意に高いＸ'の発現レベルを特定する時に、かなり差別的に発現するｇ'内の遺伝子の過剰さを反映するように規定される。ＴＮｏＭ（誤分類の閾値数(Threshold Number of Misclassifications)）スコアは、Ｘ−Ｘ'に対するＸ'の分類子(classifier)として、その性能に従って各遺伝子に割り当てられてもよい。

ＴＮｏＭスコアは、未知数のラベルを予測するために、所与の遺伝子について、所与の発現レベルを使用する単純なルールを探索することに基づく。正式には、ルールは、２つのパラメータａとｂによって規定される。予測されるクラスは、単に、ｓｉｇｎ（ａｘ＋ｂ）である。一次式の符号のみが問題であるため、配慮を、ａ∈｛−１，＋１｝に限定することができる。自然な手法は、誤差の数を最小にするように、ａとｂの値を選択することである。

ここで、ｘ_i［ｇ］は、ｉ番目のサンプルにおける遺伝子ｇの発現値である。全部で２（ｍ＋１）個の可能なルールを網羅的に試すことによって最適値が見出される。実際の発現値の間の中間点である閾値に、配慮が限定される。

遺伝子のＴＮｏＭスコアは、

として規定され、最良ルールによって誤差の数を規定する。直観によれば、この数は、この遺伝子の発現レベルのみに基づいて行われる決定の質を反映する。ＴＮｏＭスコアのさらに詳細な説明とその応用は、２００４年４月３日に出願され、「Visualizing Expression Data on Chromosomal Graphic Schemes」という名称の同時係属中の、同一譲受人に譲渡された出願第１０／８１７，２４４号に見出すことができる。出願第１０／８１７，２４４号は、参照によりその全体が本明細書に援用される。

厳密なｐ値を、ＴＮｏＭスコアのために計算することができる。ヌルモデルの下で、ｓ以上によいスコアを得る、単一遺伝子についての確率がｐ（ｓ）である場合、調べられる｜ｇ'｜遺伝子の中の、ｓ以上によいスコアを有する遺伝子の数は、二項分布となる（ｎ，ｐ（ｓ））。ｎ（ｓ）は、データ内で実際に観測されるｓ以上によいスコアを有する遺伝子の数を示し、σ（ｓ）は、ｎ（ｓ）における二項分布（ｎ，ｐ（ｓ））のテール確率を示すとする。したがって、Ｆ（Ｍ；Ｅ）は、ｍａｘ₀≦_s≦_|X'|−ｌｏｇ（σ（ｓ））であるように規定される。

ヌルモデルによれば、ＤＣＮ及びＧＥベクトルは、完全に無相関である。Ｍにおける増幅についての総スコアは、
Ｆ（Ｍ；Ｃ，Ｅ）＝−［ｌｏｇ₁₀Ｆ（Ｍ；Ｃ）＋ｌｏｇ₁₀Ｆ（Ｍ；Ｅ）］（１８）
によって与えられる。上記解析は、遺伝子物質の増幅に対処することに限定されず、欠失にも対処することが留意されるべきである。サブセットＸ'における任意の欠失は、Ｆの下では、Ｘ−Ｘ'における増幅と等価である。

スコアが高く、有意に変化したＧＣＳＭをもたらす分割の探索（locating）
所与の遺伝子のセットについてＴＮｏＭ過剰さを最大化するサンプルの分割を探索するタスクは、それ自身、発見的方法を使用してアプローチされてきた難しいタスクである。超幾何過剰スコアとＴＮｏＭ過剰スコアの組み合わせを最大にする分割を探索するタスクは、明らかに少なくとも難しく、その結果、有意に変化したＧＣＳＭを探索するために、ここでは、発見的方法が適用される。遺伝子の連続セグメントのみを探すことが重要であるため、全ての可能なセグメントが、Ｏ（ｎ²）において列挙されてもよい。ここで、項「Ｏ」は、コンピューターシステム上でのアルゴリズムの複雑さ（又は、実行時間）に関する上限を示し、ｎは、データセット内の遺伝子の数である。例えば、アルゴリズムが、Ｏ（ｆ（ｎ））時間で実行される場合、これは、全てのｎ＞ｎ₀について、アルゴリズムの実行時間が、ある定数ｎ₀とｃについて、ｃ^*ｆ（ｎ）より短いことを意味する。難しいタスクは、可能な２^|X|分割のうちの、どの分割Ｘ'が、所与のセグメントＧ'について、有意なスコアＸ（（Ｇ'×Ｘ'）；Ｃ，Ｅ）を最大にするかを判定することである。スコアが高く、有意に変化したＧＣＳＭをもたらす分割を探索する２つの手法が、以下で述べられる。

第１の手法は、最大超幾何(Max-Hypergeometric)アルゴリズムと呼ばれるものを採用する。ＧＣＳＭＭのスコアの規定は、２つの部分（すなわち、超幾何部分とＴＮｏＭ部分）からなるため、スコアが高いＧＣＳＭを探索することに対するこの手法は、それぞれの可能なセグメントについて、スコア、この場合、超幾何スコアの一部分を最大にするサンプル分割を選択し、次に、選択されたサンプル分割について組み合せたスコアを計算する。所与のセグメントＧ'について、ｍａｘ_X'⊆_X［−ｌｏｇ（Ｆ（Ｇ'×Ｘ'）；Ｃ）］の計算は、以下のように、（Ｏ（｜Ｘ｜））時間で実施されてもよい（したがって、アルゴリズムの実行時間は、Ｘ内の要素の数に線形に比例する）。ｐ_iがベクトルＣ（Ｇ'，ｓ_i）内の正のエントリの数に等しいとする。次に、サンプルは、ｐπ₍₁₎≧ｐπ₍₂₎≧…≧ｐπ_|X|になるように再順序付けされる。スコア［−ｌｏｇ（Ｆ（Ｇ'×Ｘ'）；Ｃ）］を最大にするサブセットＸ'は、集合｛（ｓπ₍₁₎），（ｓπ₍₁₎，ｓπ₍₂₎），…，（ｓπ₍₁₎，ｓπ₍₂₎，…，ｓπ_(|X|-1)）｝内のサブセットの１つである。

ここで、図８を参照すると、最大超幾何解析を適用する時に実行することができるイベントのフローチャートが示される。イベント８０２にて、行列ＣとＥ、並びに、有意な閾値を指定する、変数ｔについての値、及び、最大セグメント長を設定する、ｌについての値が入力される。イベント８０４にて、ｌ以下のセグメント長を有する全てのセグメントＧ'⊂Ｇが特定される。先に述べたように、特定された全てのセグメントは、連続セグメントでなければならない。イベント８０６にて、最初か、又は次の特定されたセグメントについて、ｐ_iは、Ｃ（Ｇ'，ｓ_i）内の正のエントリの数に等しくなるように設定される。イベント８０８にて、サンプルは、ｐπ₍₁₎≧ｐπ₍₂₎≧…≧ｐπ_|X|になるように順序付けされる。以下に従って、イベント８１０にて、最大スコアが求められる。
ｍａｘＳｃｏｒｅ＝ｍａｘ₁≦_i≦_|X|Ｆ（（Ｇ'，｛ｓπ₍₁₎，…，ｓπ_(i)｝）；Ｃ，Ｅ）（１９）
イベント８１２にて、最大スコアが有意な閾値より大きいかどうかが判定される。ｍａｘＳｃｏｒｅ＞ｔである場合、イベント８１４にて、その時規定されたＧＣＳＭがＬに追加され（すなわち、Ｍ＝（Ｇ'×Ｘ'）をＬに追加する）、Ｌは、プロセス／システムによって出力されるスコアが高いＧＣＳＭのリストである。Ｓｃｏｒｅ＞ｔでない場合、その時のＧＣＳＭは、イベント８１６にて、スコアが高く、有意に変化したＧＣＳＭであるとは考えられない。

全ての特定されたセグメントが、イベント８０６〜８１６に従って処理されたと、イベント８１８にて判定される場合、リストＬは、システムによって（ユーザーインタフェース、記憶デバイスに）出力され、（且つ／又は、プリントアウトされ、）処理は、イベント８２０にて終了する。全ての特定されたセグメントが処理されていない場合、次の特定されたセグメントに関して作業するために、処理は、イベント８０６に戻る。

上述した最大超幾何手法の１つの欠点は、最大超幾何手法が、スコアが高く、有意に変化したＧＣＳＭを検出するために、ＤＣＮ測定値の十分に強いパターンのみに依存することである。しかし、場合によっては、ＤＣＮパターンとＧＥパターンとの間の有意な相関は、ＤＣＮ信号自身がたとえ弱くても染色体異常を示す。スコアが高く、有意に変化したＧＣＳＭを探索するための、述べられる次の技法は、所与のセグメントＧ'について候補分割（Ｘ'）を特定するためにＤＣＮ−ＧＥ相関に頼る。これらのセグメントは、スコアが高いＧＣＳＭをもたらすと予想される。

この手法は、上述したＭＤＰ相関スコアの有用な属性を利用する。すなわち、所与の遺伝子ｇ_iについて、スコアＭＤＰ（ｉ）は、積Ａ_t・Ｄ_tが最大になるように、｜Ｘ｜サンプルを複数の象限に分離するクロス閾値ｔを規定する。そのため、スコアＭＤＰ（ｉ）に寄与するサンプル（すなわち、Ａ_t又はＤ_t内にあるサンプル）を、スコアに寄与しないサンプル（すなわち、Ｂ_t又はＣ_t内にあるサンプル）から容易に分離することができる。遺伝子ｇ_iの染色体近傍を考慮すると、特定のサンプル内のｇ_iの発現レベルが異常によって影響を受けるという確信が増す可能性がある。

例えば、Γ_k（ｉ）に対するＥ（ｉ）の全ての相関について、同じサンプルｓが、それぞれのＭＤＰクロス閾値の象限Ｄ_tに入ると仮定する。こうしたイベントが偶然に起こる確率は、近傍サイズｋと共に指数関数的に減少する。したがって、遺伝子ｇ_iとサンプルｓ∈Ｘについて、サンプルＭＤＰスコア（ＳＭＤＰ）は、

として規定される。ここで、Ａ_t（ｉ，ｊ）及びＤ_t（ｉ，ｊ）は、ベクトルＥ（ｉ）及びＣ（ｊ）について最大ＭＤＰスコアをもたらす閾値ｔについて、それぞれ、象限Ａ_t及びＤ_tに入るサンプルのセットである。
−ＭＤＰ（ｉ，Γ_k（ｉ））≦ＳＭＤＰ（ｓ，ｉ）≦ＭＤＰ（ｉ，Γ_k（ｉ））（２１）
であり、ｓが、クロスの全てにおいて、象限Ａ_tかＤ_tのいずれかに入る場合、極値が得られる。

この技法は、サンプルのセットｓ∈Ｘを、サンプルのセットが変化（増幅／欠失）によって影響を受けた確率の増加に従って分類することを可能にする。この分類は、評価されるべきＯ（｜Ｘ｜）の可能な分割を提案する。実際には、上述した領域解析処理からの統計的結果に従って、ある最小領域相関閾値をパスする遺伝子

のフィルタリング済みセットについて処理が実行されてもよい。

ここで、図９を参照すると、上述したように、一貫相関解析(consistent correlation analysis)を適用する時に実行することができるイベントのフローチャートが示される。イベント９０２にて、行列Ｃ及びＥ、並びに、近傍サイズを規定するｋについての値、有意な閾値を規定するｔについての値、最大セグメント長を設定するｌについての値、また、任意選択で、行列Ｃ及びＥ（上述した）によって表される全ての遺伝子を解析したくない場合には解析されるべき遺伝子

のフィルタリング済みセットが入力される。イベント９０４にて、遺伝子が、遺伝子（場合によって、Ｇ又は

）のセットから選択され、ＳＭＤＰスコアが、各サンプルｓ_j∈Ｘに関し、選択された遺伝子に関して計算される。スコアは、ｐ_i＝ＳＭＤＰ（ｓ_j，ｉ）で計算される。イベント９０６にて、サンプルは、ｐπ₍₁₎≧ｐπ₍₂₎≧…≧ｐπ_|X|のように順序付けされる。ｇ_i∈Ｇ'であるような、ｌ以下の長さを有する最初か、又は次のセグメント（連続セグメント）Ｇ'⊂Ｇが、イベント９０８にて選択され、最大スコアが、イベント９１０にて、以下のように計算される。
ｍａｘＳｃｏｒｅ＝ｍａｘ₁≦_i≦_|X|Ｆ（（Ｇ'，｛Ｘπ₍₁₎，…，Ｘπ_(i)｝）；Ｃ，Ｅ）（１９）

イベント９１２にて、最大スコアが有意な閾値より大きいかどうかが判定される。ｍａｘＳｃｏｒｅ＞ｔである場合、イベント９１４にて、その時規定されたＧＣＳＭがＬに追加される（すなわち、Ｍ＝（Ｇ'×Ｘ'）をＬに追加する）。Ｌは、システムによって出力されるスコアが高いＧＣＳＭのリストである。（この例は、有意な増幅の特定に関して述べられるが、有意な欠失が、同様なプロセスによって特定されてもよい。例えば、欠失を考えると、ＧＣＳＭスコアが有意な閾値を超える時にＧＣＳＭがＬに追加される。）ｍａｘＳｃｏｒｅ＞ｔでない場合、その時のＧＣＳＭは、イベント９１２にて、スコアが高く、有意に変化したＧＣＳＭであるとは考えられず、リストＬに追加されない。

いずれの場合も、イベント９１２にて、その時のＧＣＳＭをリストＬに追加するかどうかの判定が行われた後、イベント９１６にて、全てのセグメントＧ'が、その時選択した遺伝子ｇ_iに関して処理されたかどうかのチェックが行われる。特定されたセグメントＧ'が全て、その時選択した遺伝子に関してまだ処理されていない場合、処理は、イベント９０８に戻って、特定された次のセグメントを選択し、処理する。

特定されたセグメントが全て、イベント９０８〜９１４に従って、その時選択した遺伝子に関して処理されたと、イベント９１６にて判定される場合、セット（場合によって、Ｇ又は

）からの全ての遺伝子が処理されたかどうかが判定される。全ての遺伝子ｇ_iがまだ処理されていない場合、処理はイベント９０４に戻り、セットからの次の遺伝子ｇ_iが、処理のために選択され、処理は、上述した方法で、引き続きイベント９０６に進む。他方、全ての遺伝子ｇ_iが処理されたと判定される場合、リストＬが、システムによって（ユーザーインタフェース、記憶デバイスに提供され／出力され、（且つ／又は、プリントアウトされ）、処理は、イベント９２０にて終了する。

上述した最大超幾何技法及び一貫相関技法は、異なる生物学的動機を有するスコアが高いＧＣＳＭの場合に適する。最大超幾何技法は、Ｆ（Ｍ；Ｃ）が総合スコアについて支配的な因子である時、すなわち、染色体異常のために、ＤＣＮ測定値のみが有意なパターンを含む時により優れている。一貫相関技法は、Ｅ（Ｍ）及びＣ（Ｍ）間に強い相関が存在し、Ｆ（Ｍ；Ｃ）とＦ（Ｍ；Ｅ）が共に、総合スコアに大きな影響を及ぼすことを示唆する時に適する。この状況は、染色体変化が転写活動に大きな影響を及ぼすときに起こり得る。

図１０は、本発明の一実施形態による典型的なコンピューターシステムを示す。コンピューターシステム１０００は、任意の数のプロセッサー１００２（中央演算装置（ＣＰＵ）とも称される）を含み、それらは、一次記憶装置１００６（通常、ランダムアクセスメモリー（ＲＡＭ））、一次記憶装置１００４（通常、読み取り専用メモリ（ＲＯＭ））等の記憶装置と接続している。当該技術分野においては既知であるように、一次記憶装置１００４はデータと命令をＣＰＵへ一方向で転送するように機能し、一次記憶装置１００６は通常、データと命令を双方向で転送するために使用される。これら両方の一次記憶装置は、上記したような任意の適切なコンピューター読み取り可能媒体を含んでもよい。大容量記憶装置１００８も双方向的にＣＰＵ１００２に接続し、付加的データ記憶容量を提供し、上記したコンピューター読み取り可能媒体の任意のものを含むことができる。大容量記憶装置１００８は、プログラム、データ等を保存するために使用されることができ、通常は、一次記憶装置よりは遅いハードディスク等の二次的な記憶媒体である。適切なケースにおいては、大容量記憶装置１００８内に保持されている情報を、仮想メモリとしての一次記憶装置１００６の一部として、標準的な様式で組み込めることが理解されるであろう。ＣＤ−ＲＯＭ又はＤＶＤ−ＲＯＭ１０１４等の特定の大容量記憶装置もデータをＣＰＵへ一方向に伝達することができる。

また、ＣＰＵ１００２は、例えば、ビデオモニター、トラックボール、マウス、キーボード、マイクロフォン、タッチセンシティブ・ディスプレイ、トランスデューサーカード・リーダー、磁気テープ若しくは紙テープリーダー、タブレット、スタイラス、音声又は手書き認識装置、又は他のよく知られた入力装置（当然、例えば、他のコンピューター）等の１つ又は複数の入力／出力装置を含むインターフェース１０１０と接続している。最後に、オプションとして、ＣＰＵ１００２は、１０１２において一般的に示されるようなネットワーク接続を用いてコンピューター又は電気通信ネットワークに接続していてもよい。そのようなネットワーク接続を用いることにより、ＣＰＵが、上述の方法ステップを実行している間に、ネットワークから情報を受信するか、又はネットワークへ情報を発信し得ることが意図されている。上記装置及び物質（materials：材料）は、コンピューターハードウェア及びソフトウェア技術分野の当業者にはよく知られたものであろう。

上記ハードウェア要素は、本発明の動作を実行するための複数のソフトウェアモジュールの命令を実行することができる。例えば、ステンシルの集合（population）のための命令を、大容量記憶装置１００８又は１０１４に保存し、一次メモリ１００６と協働してＣＰＵ１００８において実行することができる。

また、本発明の実施形態はさらに、コンピューターで実行される各種処理を実行するための、プログラム命令及び／又はデータ（データ構造を含む）を含む、コンピューター読み取り可能媒体又はコンピュータープログラム製品に関する。媒体及びプログラム命令は、本発明の目的のために特別に設計され、作成されたものであってもよく、又は、コンピューターソフトウエア分野における当業者には既知であると共に利用可能な種類のものであってもよい。コンピューター読み取り可能媒体の例は、限定はしないが、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープ等の磁気的な媒体、ＣＤ−ＲＯＭ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、又はＤＶＤ−ＲＷディスクのような光学的な媒体、フロプティカル・ディスクのような光磁気的な媒体、及び読み取り専用記憶媒体（ＲＯＭ）及びランダムアクセスメモリー（ＲＡＭ）等の、プログラム命令を保存及び実行するために特別に構成されたハードウエアデバイスを含む。プログラム命令の例は、コンパイラにより作成されるような機械コードと、インタープリタ（interpreter：解釈プログラム）を用いてコンピューターによって実行することができるより高レベルのコードを含むファイルとの両方を含む。

本発明を特定の実施形態を参照して説明したが、当業者には、各種の変更が可能であり、本発明の真の精神及び範囲を逸脱することなく均等物での置換が可能であることが理解されるべきである。さらに、本発明の目的、精神及び範囲に対して、特定の状況、素材、物質の組成、処理、処理ステップ（複数も含む）に適合させるための多くの変更が可能である。このような全ての変更は本明細書に添付の特許請求の範囲内であることが意図されている。

Ｍ個の遺伝子に関するｎ個のサンプルから生成された遺伝子発現（ＧＥ）値を表す行列Ｅを示す図である。Ｍ個の遺伝子に関するｎ個のサンプルから生成されたＤＮＡコピー数（ＤＣＮ）値を表す行列Ｃを示す図である。行列の行が置換された、無作為に置換した行列Ｅ'の例を示す図である。行列の行が置換された、無作為に置換した行列Ｃ'の例を示す図である。分離クロススコアリング方法を使用する時に形成される象限を示す図である。染色体領域について遺伝子座依存のｐ値を評価するために、常に偏倚したＤＮＡコピー数測定値及び対応する発現レベルが、一貫したコピー数値について予想される程度を超えて相関する染色体領域を特定するため、シミュレーション解析を実施するときにとることができる方法を示す図である。遺伝子データセットの種々の構成についてのｐ値の累積分布のプロットである。本明細書で述べる最大超幾何解析を適用する時に実行することができるイベントを示すフローチャートである。本明細書で述べる一貫相関解析を適用する時に実行することができるイベントのフローチャートである。本発明の一実施形態による典型的なコンピューターシステムを示す構成図である。

Claims

ゲノムＤＮＡの変化と遺伝子の変化の間の有意な関係であって、該変化によって機能的にもたらされる、有意な関係を特定するために、ＤＮＡコピー数データ及び遺伝子発現データを連携解析する方法であって、
複数のサンプルにわたって、遺伝子のセットについてＤＮＡコピー数データ及び遺伝子発現データを提供するステップと、
前記遺伝子セットのそれぞれの遺伝子について、遺伝子発現データベクトル及びＤＮＡコピー数データベクトルを生成するステップと、
遺伝子発現データベクトルを選択するステップと、
前記選択された遺伝子、及び該選択された遺伝子の規定された染色体近傍の遺伝子に相当する、前記選択された遺伝子発現データベクトルとＤＮＡコピー数ベクトルとの間の相関値を求めるステップであって、前記染色体近傍は少なくとも２つの遺伝子を含む、求めるステップと
を含む方法。
前記規定された染色体近傍はゲノム遺伝子の一連のセットである請求項１に記載の方法。
前記規定された染色体近傍は、
Γ_k（ｉ）＝（ｉ−ｋ，ｉ−（ｋ−１），…，ｉ，ｉ＋１，…，ｉ＋ｋ）（８）
によって指示される（２ｋ＋１）個の遺伝子からなる遺伝子によって規定されたｋ−近傍であり、
ここで、Γ_k（ｉ）は、ｉによって指示される前記選択された遺伝子の前記ｋ−近傍における前記遺伝子の指示を表し、ｋは、解析される前記染色体近傍のサイズを規定するのに使用される所定の整数である請求項１に記載の方法。
一貫して偏倚したＤＮＡコピー数測定値及び対応する遺伝子発現測定値が、前記一貫して偏倚したＤＮＡコピー数測定値について予想される程度を超えて相関する、染色体領域を特定する方法であって、
選択された遺伝子の周りに位置する遺伝子座のセットからなる染色体近傍を特定するステップと、
整数Ｌによってシミュレーションサイズを規定するステップ（６０２）と、
複数のサンプルにわたって測定された遺伝子発現データによって生成された発現データ行列から、Ｌ−１個の遺伝子発現ベクトルを無作為に取り出すステップ（６０４）と、
前記特定するステップにおいて特定された前記染色体近傍で、前記それぞれの遺伝子について、前記複数のサンプルにわたってＤＮＡコピー数データによって生成されたＤＮＡコピー数ベクトルに対する、それぞれ無作為に取り出された遺伝子発現ベクトルの相関を計算するステップ（６０６）と、
前記ＤＮＡコピー数ベクトルの前記近傍に対して、前記選択された遺伝子について計算された相関値を基準にして、前記無作為に取り出された発現ベクトルに関して計算された前記計算された相関値を分類するステップ（６０８）と、
前記選択された遺伝子の前記遺伝子発現ベクトルに対する、前記染色体近傍からの前記ＤＮＡコピー数ベクトルの領域相関の程度のインジケータを計算するステップ（６１０）と
を含む方法。
ＤＮＡコピー数データと遺伝子発現データの連携解析に基づいて、ゲノム異常が起こった染色***置、前記ゲノム異常によって影響を受けるサンプル、及び前記異常の前記転写効果を検出する方法であって、提供されるＤＮＡコピー数データ行列は、サンプルのセットにわたる、遺伝子のセットについてのＤＮＡコピー数測定値を含み、提供される遺伝子発現データ行列は、同じサンプルにわたる、同じ遺伝子のセットについての遺伝子発現測定値を含んでおり、該方法は、
前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記遺伝子のセットのサブセットを含むゲノムの一連の部分行列を特定するステップであって、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、前記ゲノムの一連の部分行列は、前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含む、特定するステップと、
前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を、前記遺伝子のサブセット及び前記サンプルのサブセットの上に射影するとともに、前記ゲノムの一連の部分行列に相当するＤＮＡコピー数データ部分行列及び遺伝子発現データ部分行列をそれぞれ生成する、射影するとともに生成するステップと、
前記ゲノムの一連の部分行列内の同じ遺伝子のサブセット及び前記ゲノムの一連の部分行列内の前記サンプルのサブセットの補体によって規定される補体部分行列に相当する補体ＤＮＡコピー数データ部分行列及び補体遺伝子発現データ部分行列を基準にして、前記ゲノムの一連の部分行列に相当する前記部分行列をスコアリングするステップであって、それによって、前記ゲノムの一連の部分行列が有意に増幅されているかどうかを判定する、スコアリングするステップと
を含む方法。
前記ゲノムの一連の部分行列は、該ゲノムの一連の部分行列に相当する前記ＤＮＡコピー数データ部分行列内のＤＮＡコピー数値の統計的に有意な部分が、所定の閾値（ｔ）より大きく、且つ、前記ゲノムの一連の部分行列に相当する前記遺伝子発現データ部分行列内のいくつかの遺伝子発現値が、前記補体遺伝子発現データ部分行列内の対応する遺伝子発現値より大きい場合、有意に増幅されていると判定される請求項５に記載の方法。
ＤＮＡコピー数データと遺伝子発現データの連携解析に基づいて、ゲノム異常が起こった染色***置、前記ゲノム異常によって影響を受けるサンプル、及び前記異常の前記転写効果を検出する方法であって、提供されるＤＮＡコピー数データ行列は、サンプルのセットにわたる、遺伝子のセットについてのＤＮＡコピー数測定値を含み、提供される遺伝子発現データ行列は、同じサンプルにわたる、同じ遺伝子のセットについての遺伝子発現測定値を含んでおり、該方法は、
前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記遺伝子のセットのサブセットを含むゲノムの一連の部分行列を特定するステップであって、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、前記ゲノムの一連の部分行列は、前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含む、特定するステップと、
前記ゲノムの一連の部分行列内の同じ遺伝子のサブセット及び前記ゲノムの一連の部分行列内の前記サンプルのサブセットの補体によって規定される補体部分行列を特定するステップと、
前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を、前記遺伝子のサブセット及び前記サンプルのサブセットの上に射影するとともに、前記ゲノムの一連の部分行列に相当するＤＮＡコピー数データ部分行列及び遺伝子発現データ部分行列をそれぞれ生成する、射影するとともに生成するステップと、
前記補体部分行列に相当するＤＮＡコピー数データ部分行列及び遺伝子発現データ部分行列を基準にして、前記ゲノムの一連の部分行列に相当する前記部分行列をスコアリングするステップであって、それによって、前記ゲノムの一連の部分行列において、有意な欠失が起こったかどうかを判定する、スコアリングするステップと
を含む方法。
前記ゲノムの一連の部分行列における有意な欠失は、該ゲノムの一連の部分行列に相当する前記ＤＮＡコピー数データ部分行列内のＤＮＡコピー数値の統計的に有意な部分が、所定の閾値より小さく、且つ、前記ゲノムの一連の部分行列に相当する前記遺伝子発現データ部分行列内のいくつかの遺伝子発現値が、前記補体遺伝子発現データ部分行列内の対応する遺伝子発現値より小さい場合、起こったと判定される請求項７に記載の方法。
スコアが高く、有意に変化したゲノムの一連の部分行列を特定する方法であって、それぞれのゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含んでおり、該方法は、
前記遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントを特定するステップ（８０４）と、
前記サンプルのセットのそれぞれのサンプルについて、それぞれ、前記ＤＮＡコピー数データ行列を前記サンプル、及び前記遺伝子のサブセットの上に射影するとともに、各サンプルに相当するＤＮＡコピー数データ列ベクトルを形成する、射影するとともに形成するステップと、
前記形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値（ｔ）より大きい値の数をカウントするステップと、
前記それぞれのＤＮＡコピー数ベクトルの前記カウントに従って前記サンプルを順序付けるステップ（８０８）と、
前記対応するＤＮＡコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、前記対応するＤＮＡコピー部分行列において特徴付けられる前記サンプルのサブセットの前記補体は特徴付けない測定値を含む、対応する補体ＤＮＡコピー数部分行列を基準にして、前記対応するＤＮＡコピー数部分行列内において、前記所定の閾値より大きい値の過剰さに基づいて増幅の程度に関して前記サンプルのセットの順序接頭部をスコアリングするステップと、
前記増幅スコアの程度から最大スコアを求めるステップ（８１０）と、
前記求められた最大スコアが所定の有意性閾値より大きい場合（８１２）、最大スコアが計算された前記サンプルのサブセットに対応する前記ゲノムの一連の部分行列は、有意に増幅されたゲノムの一連の部分行列であると結論付けるステップ（８１４）と
を含む方法。
前記所定のセグメント長以下のセグメント長を有する遺伝子の全ての連続セグメントを特定するステップ、並びに、前記特定された連続セグメントのそれぞれについて、前記射影するステップ、前記形成するステップ、前記ＤＮＡコピー数部分行列をスコアリングするステップ、前記サンプルを順序付けるステップ、該順序付けられたサンプルをスコアリングするステップ、前記最大スコアを求めるステップ、及び前記結論付けるステップを繰り返すステップをさらに含む請求項９に記載の方法。
有意に増幅されていると結論付けられた全てのゲノムの一連の部分行列を特定する結果を提供すること（８２０）をさらに含む請求項９に記載の方法。
前記スコアリングすることは、前記補体データ部分行列内のサンプルついてよりも、前記データ部分行列内のサンプルについて発現値が高い前記遺伝子のサブセットにおいて遺伝子の前記過剰さをスコアリングすることを含む請求項９〜１１のいずれか１項に記載の方法。
スコアが高く、有意に変化したゲノムの一連の部分行列を特定する方法であって、それぞれのゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含んでおり、該方法は、
前記遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントを特定するステップ（８０４）と、
前記サンプルのセットのそれぞれのサンプルについて、それぞれ、前記ＤＮＡコピー数データ行列を前記サンプル、及び前記遺伝子のサブセットの上に射影するとともに、各サンプルに相当するＤＮＡコピー数データ列ベクトルを形成する、射影するとともに形成するステップと、
前記形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値より小さい値の数をカウントするステップと、
前記それぞれのＤＮＡコピー数ベクトルの前記カウントに従って前記サンプルを順序付けるステップ（８０８）と、
対応する補体ＤＮＡコピー数部分行列を基準にして、前記対応するＤＮＡコピー数部分行列内において、前記所定の閾値より小さい値の過剰さに基づいて欠失の程度に関して前記サンプルのセットの順序接頭部をスコアリングするステップであって、前記対応する補体ＤＮＡコピー数部分行列は、前記対応するＤＮＡコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、該対応するＤＮＡコピー部分行列において特徴付けられる前記サンプルのサブセットの前記補体は特徴付けない測定値を含む、スコアリングするステップと、
前記欠失スコアの程度から最大スコアを求めるステップ（８１０）と、
前記求められた最大スコアが所定の有意性閾値より大きい場合（８１２）、最大スコアが計算された前記サンプルのサブセットに対応する前記ゲノムの一連の部分行列は、有意に欠失したゲノムの一連の部分行列であると結論付けるステップ（８１４）と
を含む方法。
請求項１〜１３のいずれかに記載の方法から得られる結果を遠隔ロケーションに転送することを含む方法。
請求項１〜１３のいずれかに記載の方法から得られる結果を表すデータを遠隔ロケーションに送信することを含む方法。
請求項１〜１３のいずれかに記載の方法から得られる結果を遠隔ロケーションから受信することを含む方法。
ゲノムＤＮＡの変化と遺伝子の変化の間の有意な関係であって、該変化によって機能的にもたらされる、有意な関係を特定するために、ＤＮＡコピー数データと遺伝子発現データを連携解析するシステムであって、
ＤＮＡコピー数データ及び遺伝子発現データが、複数のサンプルにわたって提供される遺伝子のセットのそれぞれの遺伝子について、遺伝子発現データベクトル及びＤＮＡコピー数データベクトルを生成する手段と、
遺伝子発現データベクトルを選択するとともに、前記選択された遺伝子、及び該選択された遺伝子の規定された染色体近傍の遺伝子に相当する、前記選択された遺伝子発現データベクトルとＤＮＡコピー数ベクトルの間の相関値を求める手段であって、前記染色体近傍は少なくとも２つの遺伝子を含む、選択するとともに求める手段とを
備えるシステム。
一貫して偏倚したＤＮＡコピー数測定値及び対応する遺伝子発現測定値が、前記一貫して偏倚したＤＮＡコピー数測定値について予想される程度を超えて相関する、染色体領域を特定するシステムであって、
選択された遺伝子の周りに位置する遺伝子座のセットからなる染色体近傍を特定する手段と、
整数Ｌによってシミュレーションサイズを規定する手段と、
複数のサンプルにわたって測定された遺伝子発現データによって生成された発現データ行列から、Ｌ−１個の遺伝子発現ベクトルを無作為に取り出す手段と、
前記特定するステップにおいて特定された前記染色体近傍において、前記それぞれの遺伝子について、前記複数のサンプルにわたってＤＮＡコピー数データによって生成されたＤＮＡコピー数ベクトルに対する、それぞれ無作為に取り出された遺伝子発現ベクトルの相関を計算する手段と、
前記ＤＮＡコピー数ベクトルの近傍に対して、前記選択された遺伝子について計算された相関値を基準にして、前記無作為に取り出された発現ベクトルに関して計算された前記計算された相関値を分類する手段と、
前記選択された遺伝子の前記遺伝子発現ベクトルに対する、前記染色体近傍からの前記ＤＮＡコピー数ベクトルの領域相関の程度のインジケータを計算する手段と
を備えるシステム。
ＤＮＡコピー数データと遺伝子発現データの連携解析に基づいて、ゲノム異常が起こった染色***置、前記ゲノム異常によって影響を受けるサンプル、及び前記異常の前記転写効果を検出するシステムであって、提供されるＤＮＡコピー数データ行列は、サンプルのセットにわたる、遺伝子のセットについてのＤＮＡコピー数測定値を含み、提供される遺伝子発現データ行列は、同じサンプルにわたる、同じ遺伝子のセットについての遺伝子発現測定値を含んでおり、該システムは、
前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記遺伝子のセットのサブセットを含むゲノムの一連の部分行列を特定する手段であって、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、前記ゲノムの一連の部分行列は、前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含む、特定する手段と、
前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を、前記遺伝子のサブセット及び前記サンプルのサブセットの上に射影するとともに、前記ゲノムの一連の部分行列に相当するＤＮＡコピー数データ部分行列及び遺伝子発現データ部分行列をそれぞれ生成する、射影するとともに生成する手段と、
前記ゲノムの一連の部分行列内の同じ遺伝子のサブセット及び前記ゲノムの一連の部分行列内の前記サンプルのサブセットの補体によって規定される補体部分行列に相当する補体ＤＮＡコピー数データ部分行列及び補体遺伝子発現データ部分行列を基準にして、前記ゲノムの一連の部分行列に相当する前記部分行列をスコアリングする手段であって、それによって、前記ゲノムの一連の部分行列が有意に増幅されているかどうか、又は、有意な欠失が前記ゲノムの一連の部分行列において起こったかどうかを判定する、スコアリングする手段と
を備えるシステム。
スコアが高く、有意に変化したゲノムの一連の部分行列を特定するシステムであって、それぞれのゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含んでおり、該システムは、
前記遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントを特定する手段と、
前記サンプルのセットのそれぞれのサンプルについて、それぞれ、前記ＤＮＡコピー数データ行列を前記サンプル、及び前記遺伝子のサブセットの上に射影するとともに、各サンプルに相当するＤＮＡコピー数データ列ベクトルを形成する、射影するとともに形成する手段と、
前記形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値より大きい値の数をカウントする手段と、
前記それぞれのＤＮＡコピー数ベクトルの前記カウントに従って前記サンプルを順序付ける手段と、
前記対応するＤＮＡコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、前記対応するＤＮＡコピー部分行列において特徴付けられる前記サンプルのサブセットの前記補体は特徴付けない測定値を含む、対応する補体ＤＮＡコピー数部分行列を基準にして、前記対応するＤＮＡコピー数部分行列内において、前記所定の閾値より大きい値の過剰さに基づいて増幅の程度に関して前記サンプルのセットの順序接頭部をスコアリングする手段と、
前記増幅スコアの程度から最大スコアを求める手段と、
前記求められた最大スコアが所定の有意性閾値より大きい場合、最大スコアが計算された前記サンプルのサブセットに対応する前記ゲノムの一連の部分行列は、有意に増幅されたゲノムの一連の部分行列であると結論付ける手段と
を備えるシステム。
スコアが高く、有意に変化したゲノムの一連の部分行列を特定するシステムであって、それぞれのゲノムの一連の部分行列は、ＤＮＡコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、前記ＤＮＡコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含んでおり、該システムは、
前記遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントを特定する手段と、
前記サンプルのセットのそれぞれのサンプルについて、それぞれ、前記ＤＮＡコピー数データ行列を前記サンプル、及び前記遺伝子のサブセットの上に射影するとともに、各サンプルに相当するＤＮＡコピー数データ列ベクトルを形成する、射影するとともに形成する手段と、
前記形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値より小さい値の数をカウントする手段と、
前記それぞれのＤＮＡコピー数ベクトルの前記カウントに従って前記サンプルを順序付ける手段と、
対応する補体ＤＮＡコピー数部分行列を基準にして、前記対応するＤＮＡコピー数部分行列内において、前記所定の閾値より小さい値の過剰さに基づいて欠失の程度に関して前記サンプルのセットの順序接頭部をスコアリングする手段であって、前記対応する補体ＤＮＡコピー数部分行列は、前記対応するＤＮＡコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、該対応するＤＮＡコピー部分行列において特徴付けられる前記サンプルのサブセットの前記補体は特徴付けない測定値を含む、スコアリングする手段と、
前記欠失スコアの程度から最大スコアを求める手段と、
前記求められた最大スコアが所定の有意性閾値より大きい場合、最大スコアが計算された前記サンプルのサブセットに対応する前記ゲノムの一連の部分行列は、有意に欠失したゲノムの一連の部分行列であると結論付ける手段と
を備えるシステム。
命令の１つ又は複数のシーケンスを保持するコンピューター読み取り可能媒体であって、１つ又は複数のプロセッサーによる、命令の１つ又は複数のシーケンスの実行によって、前記１つ又は複数のプロセッサーが、請求項１〜１６のいずれかに記載のステップを実行する、コンピューター読み取り可能媒体。