JP2007520829A - アレイcghデータ及び遺伝子発現データの連携解析のための方法及びシステム - Google Patents

アレイcghデータ及び遺伝子発現データの連携解析のための方法及びシステム Download PDF

Info

Publication number
JP2007520829A
JP2007520829A JP2006552253A JP2006552253A JP2007520829A JP 2007520829 A JP2007520829 A JP 2007520829A JP 2006552253 A JP2006552253 A JP 2006552253A JP 2006552253 A JP2006552253 A JP 2006552253A JP 2007520829 A JP2007520829 A JP 2007520829A
Authority
JP
Japan
Prior art keywords
copy number
dna copy
genes
subset
gene expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006552253A
Other languages
English (en)
Inventor
ヤキーニ,ゾハル・エイチ
リプソン,ドロン
ベン‐ドール,アミル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agilent Technologies Inc
Original Assignee
Agilent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agilent Technologies Inc filed Critical Agilent Technologies Inc
Publication of JP2007520829A publication Critical patent/JP2007520829A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

スコアが高く、有意に変化したゲノムの一連の部分行列を特定する方法、システム、及びコンピューター読み取り可能媒体であって、それぞれのゲノムの一連の部分行列は、DNAコピー数データ行列(C)及び遺伝子発現データ行列(E)を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含む。遺伝子のサブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために測定されたサンプルのセットのサブセットを含む。
【選択図】 図6

Description

本発明は、DNAコピー数データ及び遺伝子発現データを連携解析(co-analyze)する方法及びシステムに関する。
DNAのコピー数における変動は多くのガンタイプの特徴であり、いくつかのガンの病原化プロセスを促進すると考えられている。これらの変動には大きな染色体の増加及び/又は損失並びに、より小さいスケールでの増幅及び/又は欠失が含まれる。
共通のゲノム異常(aberration)のマッピングは、ガン関連遺伝子を発見するための有用な一方法である。ゲノムの不安定性は、発ガン遺伝子の過剰発現又は活性化を引き起こす可能性を有し、また、腫瘍抑制遺伝子及びDNA修復遺伝子のサイレンシング(silencing)を引き起こす可能性を有する。DNAのコピー数における変動測定において、局所蛍光in−situハイブリダイゼーションに基づく技術が早期に使用された。
ガンにおける染色体変化を同定するために、比較ゲノムハイブリダイゼーション(CGH)と称されるゲノム全体に関する測定技術が現在使用されている(例えば、Balsara他著「Chromosomal imbalances in human lung cancer」, Oncogene, 21<45>:6877-83, 2002、及びMertens他著「Chromosomal imbalance maps of malignant solid tumors: a cytogenetic survey of 3185 neoplasms」, Cancer Research, 57<13>:2765-80, 1997を参照されたい)。CGHを使用して、異なる標識を施された腫瘍及び正常DNAを正常な***中期染色体に対し共ハイブリダイゼーションを行う。腫瘍と正常標識との割合(比)が、ガン遺伝子及び腫瘍抑制遺伝子を含み得る領域における染色体の増幅及び欠失の検出を可能にする。しかし、この方法は、約10〜20Mbp(メガベースペア)のみの限定された回答量(又は分解能。以下同じ)を有する。提供されるこの回答量は染色体の変化の境界を決定可能にするには、或いは、単一遺伝子及び小さなゲノム領域のコピー数における変化を同定するためには不十分である。
アレイCGH(aCGH)と称されるより先進的な測定技術は、比較的小さな染色体領域のDNAのコピー数における変化を決定することができる。aCGHを使用して、腫瘍及び正常DNAを、数千のBACプローブ、cDNAプローブ又はオリゴヌクレオチドプローブのゲノムクローンのマイクロアレイに対し共ハイブリダイゼーションさせる(例えば、Pollack他著「Genome-wide analysis of dna copy number changes using cdna microarrays」, Nature Genetics, 23<1>:41-6, 1999、Pinkel他著「High resolution analysis of dna copy number variation using comparative genomic hybridization to microarrays」, Nature Genetics, 20<2>:207-211, 1998、及びHedenfalk他著「Molecular classification of familial non-brca1/brca2 breast cancer」, PNASを参照されたい)。オリゴヌクレオチドアレイを使用することにより、提供される回答量は、単一遺伝子を同定するのに必要な回答量よりも、理論上優れたものとなり得る。
DNAコピー数変化の高分解能マッピングの開発及び発現プロファイリング技術によって、細胞プロセスへの染色体変化の影響を調査すること、及び、変化領域に存在する遺伝子の変化した発現によってその影響がどのように媒介されるかを調査することが可能になった。DNAコピー数及び同じサンプルのセットに関するmRNA発現レベルの測定値は、それらが、変化する発現プロファイルにおいてどのように明示されるかになるかに対する、コピー数変化の関係を示すことができる情報を提供する。発現データ及びDNAコピー数データを、連携して(jointly)解析する調査は、今まで、同じ遺伝子相関、すなわち、同じ遺伝子の発現レベルベクトルとDNAコピー数ベクトルの間の相関を考慮するに過ぎなかった。
「Silence of chromosomal amplifications in colon cancer」Cancer Research, 62(4):1134-8, 2002で報告されるように、Platzer他は、転移性(metastatic)結腸ガンサンプルにおいてDNAコピー数データ及び発現データを平行して使用し、発現レベルの増加への染色体の増幅の影響は小さいと結論付けた。しかし、この調査は、結論について根拠のある統計的な裏付けを提供しない。一般的な増幅が見出された領域のそれぞれ1つについて、その領域に存在した遺伝子の中央発現レベルが、9個の正常コントロール結腸サンプル内の同じ遺伝子の中央発現レベルと比較された。特定された領域に存在する2,146個の遺伝子のうちの81個の遺伝子において、2倍の過剰発現が見出された。これらの結果の定量的統計的解析も提供されず、上述した2倍の結果の外に、発現の所定倍の変化についての結果も提供されなかった。明らかに過剰発現した増幅領域における特定の遺伝子が特定された。
Pollack他は、「Microarray analysis reveals a major direct role of dna copy number alteration in the transcriptional program of human breast tumors」PNAS, 99(20):12963-8, 2002において、***ガンサンプルに関する逆の観測を報告している。すなわち、Pollack他は、コピー数変化と発現レベル変動の間の強い大域的な相関を報告している。同様に、Hyman他は、「Impact of dna amplification on gene expression patterns in breast cancer」Cancer Research, 62:6240-5, 2002において、14個の***ガン細胞ラインのコピー数変化を調査し、統計的に意味のある方法で、遺伝子増幅に系統的に起因する(systematically attributable)発現レベルを有する270の遺伝子を特定した。Pollack他及びHyman他の先の調査によって使用された統計量は、シミュレーションに基づき、局所領域効果ではなく、単一遺伝子相関を考慮した。
Linn他著「Gene expression patterns and gene copy number changes in dfsp」American Journal of Pathology, 163(6):2383-2395, 2003は、DFSPにおける発現パターン及びゲノム変化を調査し、存在遺伝子(resident gene)の発現の上昇を伴う、共通の17qと22qの増幅を発見した。
転写に対するコピー数の関係の理解を改善するように設計されたデータ解析を統計的に裏付ける(support)方法についての継続した必要性が存在する。こうした必要性は、aCGHデータの裏付け及びaCGHデータの解析について特に顕著である。
[発明の概要]
ゲノムDNAの変化(alteration)と遺伝子の変化の間の有意な関係であって、こうした変化によって機能的にもたらされる、有意な関係を特定するために、DNAコピー数データと遺伝子発現データを連携解析する方法、システム、及びコンピューター読み取り可能媒体が提供される。複数のサンプルにわたって、遺伝子のセットについてDNAコピー数データ及び遺伝子発現データが提供される。遺伝子セットのそれぞれの遺伝子について、遺伝子発現データベクトル及びDNAコピー数データベクトルが生成される。遺伝子発現データベクトルが選択され、選択された遺伝子、及び当該選択された遺伝子の規定された染色体近傍の遺伝子に相当する、選択された遺伝子発現データベクトルとDNAコピー数ベクトルの間の相関値が求められ、染色体近傍は少なくとも2つの遺伝子を含む。
一貫して偏倚(consistently biased)したDNAコピー数測定値及び対応する遺伝子発現測定値が、一貫して偏倚したDNAコピー数測定値について予想される程度を超えて相関する、染色体領域を特定する方法、システム、及びコンピューター読み取り可能媒体が提供される。選択された遺伝子の周りに位置する遺伝子座のセットからなる染色体近傍が特定される。さらに、整数Lによってシミュレーションサイズが規定され、複数のサンプルにわたって測定された遺伝子発現データによって生成された発現データ行列から、L−1個の遺伝子発現ベクトルが無作為に取り出される。上記特定するステップにおいて特定された染色体近傍において、それぞれの遺伝子のそれぞれについて、複数のサンプルにわたってDNAコピー数データによって生成されたDNAコピー数ベクトルに対する、それぞれ無作為に取り出された遺伝子発現ベクトルの相関が計算される。DNAコピー数ベクトルの近傍に対して、選択された遺伝子について計算された相関値を基準にして、無作為に取り出された発現ベクトルに関して計算された、計算された相関値が分類され、選択された遺伝子の遺伝子発現ベクトルに対する、染色体近傍からのDNAコピー数ベクトルの領域相関の程度のインジケータが計算される。
DNAコピー数データと遺伝子発現データの連携解析に基づいて、ゲノム異常が起こった染色***置、それぞれのゲノム異常によって影響を受けるサンプル、及び異常の転写効果を検出する方法、システム、及びコンピューター読み取り可能媒体が提供され、提供されるDNAコピー数データ行列は、サンプルのセットにわたる、遺伝子のセットについてのDNAコピー数測定値を含み、提供される遺伝子発現データ行列は、同じサンプルにわたる、同じ遺伝子のセットについての遺伝子発現測定値を含む。DNAコピー数データ行列及び遺伝子発現データ行列を生成するために測定された遺伝子のセットのサブセットを含むゲノムの一連の部分行列が特定され、ここで、遺伝子のサブセットはゲノム遺伝子の一連のセット(genomic-continuous set of genes)であり、ゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために測定されたサンプルのセットのサブセットを含む。DNAコピー数データ行列及び遺伝子発現データ行列は、遺伝子のサブセット及びサンプルのサブセットの上に射影され、それぞれ、ゲノムの一連の部分行列に相当するDNAコピー数データ部分行列及び遺伝子発現データ部分行列が生成される。ゲノムの一連の部分行列内の同じ遺伝子のサブセット及びゲノムの一連の部分行列内のサンプルのサブセットの補体(complement)によって規定される補体部分行列に相当する補体DNAコピー数データ部分行列及び補体遺伝子発現データ部分行列を基準にして、ゲノムの一連の部分行列に相当する部分行列がスコアリングされ、ゲノムの一連の部分行列が有意に増幅されているかどうかが判定される。
DNAコピー数データと遺伝子発現データの連携解析に基づいて、ゲノム異常が起こった染色***置、それぞれのゲノム異常によって影響を受けるサンプル、及び異常の転写効果を検出する方法、システム、及びコンピューター読み取り可能媒体が提供され、提供されるDNAコピー数データ行列は、サンプルのセットにわたる、遺伝子のセットについてのDNAコピー数測定値を含み、提供される遺伝子発現データ行列は、同じサンプルにわたる、同じ遺伝子のセットについての遺伝子発現測定値を含む。DNAコピー数データ行列及び遺伝子発現データ行列を生成するために測定された遺伝子のセットのサブセットを含むゲノムの一連の部分行列が特定され、遺伝子のサブセットはゲノム遺伝子の一連のセットであり、ゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために測定されたサンプルのセットのサブセットを含む。ゲノムの一連の部分行列内の同じ遺伝子のサブセット及びゲノムの一連の部分行列内のサンプルのサブセットの補体によって、補体部分行列が特定され、規定される。DNAコピー数データ行列及び遺伝子発現データ行列が、遺伝子のサブセット及びサンプルのサブセットの上に射影され、それぞれ、ゲノムの一連の部分行列に相当するDNAコピー数データ部分行列及び遺伝子発現データ部分行列が生成される。補体部分行列に相当するDNAコピー数データ部分行列及び遺伝子発現データ部分行列を基準にして、ゲノムの一連の部分行列に相当する部分行列がスコアリングされ、ゲノムの一連の部分行列において、有意な欠失が起こったかどうかが判定される。
スコアが高く、有意に変化したゲノムの一連の部分行列を特定する方法、システム、及びコンピューター読み取り可能媒体が提供され、それぞれのゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、遺伝子のサブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために測定されたサンプルのセットのサブセットを含む。遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントが特定され、サンプルのセットのそれぞれのサンプルについて、それぞれ、DNAコピー数データ行列がサンプル、及び遺伝子のサブセットの上に射影され、各サンプルに相当するDNAコピー数データ列ベクトルが形成される。形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値より大きい値の数がカウントされ、それぞれのDNAコピー数ベクトルのカウントに従ってサンプルが順序付けられる。次いで、対応するDNAコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、対応するDNAコピー数部分行列において特徴付けられるサンプルのサブセットの補体は特徴付けない測定値を含む、対応する補体DNAコピー数部分行列を基準にして、対応するDNAコピー数部分行列内において、所定の閾値より大きい値の過剰さに基づいて増幅の程度に関してサンプルのセットの順序接頭部(order prefix)がスコアリングされる。増幅スコアの程度から最大スコアが求められる。求められた最大スコアが所定の有意性閾値より大きい場合、最大スコアが計算されたサンプルのサブセットに対応するゲノムの一連の部分行列は、有意に増幅されたゲノムの一連の部分行列であると結論付けられる。
スコアが高く、有意に変化したゲノムの一連の部分行列を特定する方法、システム、及びコンピューター読み取り可能媒体が提供され、それぞれのゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、遺伝子のサブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために測定されたサンプルのセットのサブセットを含む。遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントが特定される。サンプルのセットのそれぞれのサンプルについて、それぞれ、DNAコピー数データ行列がサンプル、及び遺伝子のサブセットの上に射影され、各サンプルに相当するDNAコピー数データ列ベクトルが形成される。形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値より小さい値の数がカウントされる。次いで、それぞれのDNAコピー数ベクトルのカウントに従ってサンプルが順序付けられ、対応する補体DNAコピー数部分行列を基準にして、対応するDNAコピー数部分行列内において、所定の閾値より小さい値の過剰さに基づいて欠失の程度に関してサンプルのセットの順序接頭部がスコアリングされ、対応する補体DNAコピー数行列は、当該対応するDNAコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、当該対応するDNAコピー部分行列(DNA copy submatrix)において特徴付けられるサンプルのサブセットの補体は特徴付けない測定値を含む。欠失スコアの程度から最大スコアが求められ、当該求められた最大スコアが所定の有意性閾値より大きい場合、最大スコアが計算されたサンプルのサブセットに対応するゲノムの一連の部分行列は、有意に欠失したゲノムの一連の部分行列であると結論付けられる。
本発明はまた、本明細書に述べる方法の任意の方法からの結果を、転送すること、送信すること、及び/又は、受信することを包含する。
本発明の上記の利点及び特徴並びにその他の利点及び特徴は、以下により完全に記載される、方法、システム、及びコンピューター読み取り可能媒体の詳細についての詳細を読むことにより、当業者には明らかになるであろう。
[発明の詳細な説明]
本発明の方法、システム、及びコンピューター読み取り可能媒体について説明する前に、本発明は、記載される特定の実施例又は実施形態に限定されるものでなく、こうした実施例又は実施形態は当然、変更し得るものであることを理解すべきである。また、本明細書中で使用される用語は、特定の実施形態を説明することのみを目的とするものであり、限定を意図するものではないことを理解すべきである。本発明の範囲は、添付の特許請求の範囲によってのみ限定されるからである。
ある範囲の値が与えられた場合、文脈上別様に明確に示されていない限り、下限値の単位の1/10までの各介在値もまた、その範囲の上限値及び下限値の間で明確に開示されることを理解されたい。ある規定された範囲における任意の規定値又は介在値の間の、より小さい各々の範囲、及び、その規定された範囲における任意のその他の規定値若しくは介在値が、本発明の範囲内に包含される。これらのより小さい範囲における上限値及び下限値を個別にこの範囲に含めることも、含まれないようにすることもでき、より小さい範囲内にいずれかの限界値が含まれ、又は、いずれの限界値も含まれず、又は、両方の限界値が含まれるといった各範囲もまた本発明の範囲内に包含されるものであり、規定された範囲において任意の限界値を明確に除外することができる。規定された範囲が一方又は両方の限界値を含む場合、含まれるこれらの限界値のいずれか若しくは両方を除外する範囲もまた、本発明に包含される。
別様に定義しない限り、本明細書中で使用する全ての技術的用語及び科学的用語は、本発明が属する技術分野の当業者に一般的に理解されるものと同じ意味を有する。本明細書に記載されるものと類似又は等価な任意の方法及び材料を、本発明の実施又は試験において使用することができるが、好ましい方法及び材料について以下に記載する。本明細書中で言及する全ての刊行物は、引用した刊行物と関連する方法及び/又は材料を開示及び説明するために、参照により本明細書に援用されるものとする。
本明細書及び添付の特許請求の範囲で使用する場合、単数形の「1つの」(a又はand)、及び、「その」、「前記」、又は「上記」(the)は、文脈上別様に明確に指示していない限り、複数の対象も含むことに留意すべきである。したがって、例えば、「ベクトル」と言及した場合には複数のベクトルセルを含み、また、「その(又は前記若しくは上記)遺伝子」と言及した場合には、1つ又は複数の遺伝子及び当業者には既知のその均等物等への参照を含む。
本明細書中において参照した刊行物は、本出願の出願日前のその内容の開示のみのために提供される。本明細書において、先行発明に基づいて本発明が該刊行物の内容に先行する資格を有しないことを認めるものとして解釈すべきものは何もない。さらに、示された出版日は、実際の出版日と異なるかもしれず、個別に確認する必要がある場合がある。
定義
「マイクロアレイ」、「バイオアレイ」又は「アレイ」とは、他の意図が明らかでない限り、関連する特定の化学的部分(又は特定の複数の化学的部分)を担持(又は保持)するアドレス指定可能な領域の任意の1次元、2次元、又は3次元的配列を包含する。マイクロアレイ上の特定の所定位置にある領域が、特定の標的又は標的群を検出するように複数の領域の部分を有するという点において、マイクロアレイは「アドレス指定可能」である(一つの特徴部がその特徴部の標的でないものを偶然に検出する場合はあるが)。アレイの特徴部は通常、(必ずしもその必要はないが)介在する空間により分離されている。アレイの場合、「標的」とは、プローブによって検出される移動相中の部分を意味し、プローブは様々な領域において基質と結合する。しかしながら、「標的」又は「標的プローブ」の一方は、他方により評価されるものでありえる。
アレイの製造方法については、米国特許第6,242,266号、 同6,232,072号、 同6,180,351号、 同6,171,797号及び同6,323,043号に詳細に記載されている。すでに述べたように、これらの参考文献は参照により本明細書中に援用されるものとする。本明細書中で従前に記載したように、その他の滴下沈着方法も製造に使用することができる。また、滴下沈着方法の代わりに、フォトリソグラフィーアレイ製造方法を使用してもよい。上記特許文献中に記載されているように、特に、アレイがフォトリソグラフィー法によって製造されている場合には、特徴間の領域は存在する必要はない。
ユーザーによる受け取り後、通常、アレイはサンプルに曝され、次に読み取られる。アレイの読み取りは、アレイに光を照射し、該アレイの各特徴部における複数の領域で、生じた蛍光の位置及び強度を読み取ることにより行うことができる。例えば、本目的のために使用し得るスキャナーは、Agilent Technologies社(カリフォルニア州パロアルト)によって製造されたAGILENT MICROARRAY SCANNER、又はその他の同様のスキャナーである。その他の好適な装置及び方法については、米国特許第6,518,556号、同6,486,457号、同6,406,849号、同6,371,370号、同6,355,921号、同6,320,196号、同6,251,685号、及び同6,222,664号に記載されている。しかしながら、アレイは、上記以外の任意の他の方法又は装置により読み取ることもでき、その他の読み取り方法としては他の光学的技法又は電気的技法(この場合、米国特許第6,251,685号、同6,221,583号、及び他の文献に開示されているように、各特徴部には、その特徴部における結合を検出するための電極が設けられる)が含まれる。
「遺伝子発現応答特性」、「遺伝子発現データベクトル」、又は「発現データベクトル」は、いくつかのサンプルにわたって同じ遺伝子の発現値によって生成されるベクトルを意味する。
「全ての測定された遺伝子座のセット」は、究明中の調査において、それについて測定データが得られた全ての遺伝子座を意味する。
「遺伝子座のゲノムの一連のセット」は、全ての測定された遺伝子座のセットのサブセットであり、それによって、サブセットの全ての構成要素が、染色体内に存在し、所与の第1ゲノム位置と所与の第2ゲノム位置の間(すなわち、「ゲノム位置a」と「ゲノム位置b」との間)にゲノム位置を有する、まさに遺伝子座であるような染色体が存在する。
「DNAコピー数データベクトル」又は「コピー数データベクトル」は、いくつかのサンプルにわたって同じ遺伝子のDNAコピー数値によって生成されるベクトルを意味する。
用語「浸透率(penetrance)」は、サンプル内の細胞が、調査される現象によって影響を受けた程度を意味する。そのため、例えば、浸透率の低いサンプル内の腫瘍細胞母集団は、全てではない、又は、比較的低い割合の腫瘍細胞が、ゲノムを変化させた腫瘍細胞母集団である。
用語「有病率(prevalence)」は、調査時のサンプルが全て、調査される現象によって影響を受けた程度を意味する。そのため、例えば、低い有病率を示す調査は、全てではない、又は、比較的低い割合の調査時のサンプルが、ゲノムを変化させた調査である。
1つの要素がもう一方から「離れた」ものとして示される場合、これは、2つの要素が少なくとも異なる構造物中にあり、少なくとも1.609km(1マイル)、16.09km(10マイル)、又は少なくとも160.9km(100マイル)離れている場合があることを意味する。
情報を「伝達する」とは、適切な伝達チャネル(例えば、民間又は公共のネットワーク)上の電気信号として、その情報を表すデータを伝達することを意味する。
要素を「転送する」とは、その要素を物理的に移動させるか、又は(可能であれば)その他の方法により、その要素を1つの位置から次の位置へ移動させる任意の手段を意味し、少なくともデータの場合には、データを運搬する媒体又はデータを伝達する媒体を物理的に移動させることを含む。
「プロセッサー」とは、要求された機能を実行する任意のハードウェア及び/又はソフトウェアの組合せを意味する。例えば、本明細書における任意のプロセッサーは、メインフレーム、サーバー、又はパーソナルコンピューターの形態で利用可能であるような、プログラム可能なデジタルマイクロプロセッサーであってもよい。該プロセッサーがプログラム可能である場合、適切なプログラミングを、離れた場所からこのプロセッサーに伝達するか、又はコンピュータープログラム製品中に予め保存しておくことができる。例えば、磁気的なディスク又は光学的なディスクはプログラミングを運搬することができるとともに、各プロセッサーとその対応する位置(station)において交信する適切なディスクリーダーにより、読み取られることができる。
単数の要素について言及した場合には、複数の同一の要素が存在する可能性が含まれる。
「ことができる」、「場合がある」、又は「得る」(May)とは、任意選択的であることを意味する。
本明細書において記載した方法は、記載の事象を記載の順序ばかりでなく、論理的に可能な任意の順番で実行することができる。
本出願において引用した全ての特許文献及びその他の参考文献は、本出願の内容と矛盾する場合を除き(その場合には、本出願が優先する)、参照により本出願に援用されるものとする。
本発明は、遺伝子の染色体近傍において、所定の数の(通常、ほとんどの)遺伝子DNAコピー数測定値と有意に相関する発現パターンを示す遺伝子を特定するための、方法、システム、及びコンピューター読み取り可能媒体を提供する。統計的観点から、こうした領域ベースの解析は、発現値とDNAコピー数値との単一遺伝子比較と比べて、発現に対するコピー数の相関に対してずっと強力な裏付けを与える。
本発明は、全てのデータセットについて得られる相関値、及び領域的な現象へのその依存性を統計的に評価するシステム、方法、及びコンピューター読み取り可能媒体をさらに提供する。
ここで、図1を参照すると、M個の遺伝子に関するn個のサンプルから生成された遺伝子発現(GE)値の行列Eが示される。各サンプルXについて、同じ遺伝子gが測定され、発現値が、それに応じて値Eijとして行列Eに記録される。ここで、行列Eの(i,j)番目のエントリは、j番目のサンプルのi番目の遺伝子についての発現データを表す。例えば、発現データ値E23(又は、別法として、E(2,3)として注釈される)は、サンプルX3の場合の遺伝子g2についての発現値を示す。
同様に、図2は、M個の遺伝子に関するn個のサンプルから生成されたDNAコピー数(DCN)値の行列Cを示す。各サンプルXについて、同じ遺伝子gが、DNAコピー数について測定され、DCN値が、それに応じて値Cijとして行列Cに記録される。ここで、行列Cの(i,j)番目のエントリは、j番目のサンプルのi番目の遺伝子についてのDNAコピー数データ値を表す。例えば、DCNデータ値C33(又は、別法として、C(3,3)として注釈される)は、サンプルX3の場合の遺伝子g3についてのDCN値を示す。図1及び図2で表される行列C及びE(並びに、それらが表すそれぞれのマイクロアレイ)は、同じ遺伝子(プローブ)を含むが、本発明は、こうした行列が同じ遺伝子(プローブ)を含むことを必要としないことが留意される。さらに、DNAコピー数行列Cは、非コーディング(non-coding)ゲノム遺伝子座に相当するエントリを含んでもよい。
上述したように、行列C及びEは、同じ遺伝子比較を計算する(例えば、ベクトルE(3,・)とベクトルC(3,・)とを比較する)のに使用されてもよく、ここで、「・」は、特定の行についての各列値、この例では、列値1〜nが、ベクトルの計算に含まれることを示すが、ゲノム構造の不安定性がどのように細胞プロセスに影響を及ぼすか、特に、この影響が、変化した発現を通してどのように媒介されるかを、よりよく理解するために、単一遺伝子だけでなく、染色体領域を解析することが必要であり、且つ、有益である。ゲノム変化は、多数の遺伝子にわたる場合があるゲノムの長いストレッチ(stretch)に適用されることが多い。こうした異常によって影響を受ける遺伝子の発現パターンは、それ自身のコーディングDNAのコピー数レベルに相関するだけでなく、近傍遺伝子のコピー数レベルにも相関することが予想される。さらに、測定誤差によって、遺伝子自身のDNAコピー数測定レベルに対して計算される時よりも、近傍遺伝子のDNAコピー数測定レベルに対して計算される時の方が、遺伝子の測定された発現レベルの相関は強い場合がある。したがって、測定雑音、及び/又は、低有病率及び低浸透率の曖昧にする効果を相殺することができる、よりよい結果をもたらすために、領域の効果を考慮する解析方法、システム、及びコンピューター読み取り可能媒体が、本明細書で説明される。低浸透率及び/又は低有病率のDNAコピー数の変化は、領域の効果が考慮される時の統計的に有意な方法においてであるが、2倍のマークより低い(below the 2-fold mark)発現をもたらす場合がある。
領域ベースの解析は、統計的観点から、適切に修正されたヌルモデルに対してベンチマークされる(benchmark)と、発現に対するコピー数の相関に対して強固な裏付けを与える。DNAコピー数ベクトルの変動が全て、実験誤差から生じる場合、発現データベクトルとその対応する(同じ遺伝子、又は、その領域の他の遺伝子)DNAコピー数データベクトルとの間の相関は、完全に無作為に振舞うべきである。
参照によりその全体が本明細書に援用される、Benjamini他著「Stepdown tests that control the false discovery rate when test statistics are independent」Journal of Statistical Planning and Inference, 82:163-70, 1999に説明された偽検出レート(FDR)カットオフ、並びに、他の統計的比較は、異常な染色体領域に存在する遺伝子を特定するとともに、相関したパターンに従う発現レベルを生成するために実施される。領域ベースの相関解析は、自己相関解析(同じ遺伝子の発現レベルに対するDNAコピー数)に比べて、所与のFDR閾値においてより相関の高い多くの遺伝子を生み出すことが決まっている。
相関スコアリング
2つのベクトル間の依存性についての最も一般的な目安の1つは、ピアソン相関係数(Pearson correlation coefficient)である。ピアソン相関係数は、2つのベクトル、μ及びνの間の依存性を以下のように測定する。
Figure 2007520829
ここで、rは、2つのベクトルが、線形関係を維持する程度を測定する。したがって、この相関メトリックは、DNAコピー数データ値と遺伝子発現データ値がある非線形な関係に従う時にはあまり適さない場合がある。従来の大規模DCN−GE比較調査は、依存性を評価するための唯一のスコアリング方法としてピアソン相関を使用したため、観測されたピアソン相関スコアの有意性は、シミュレーションを使用して以下で解析される。しかし、他の線形相関メトリック又は非線形相関メトリックが採用されてもよいため、本発明は、ピアソン相関解析の使用に限定されない。
遺伝子コピー測定値を遺伝子発現レベルと比較するための異なる方法は、DNAコピー数測定値を「欠失した(deleted)」又は「増幅された」として分類する(classify)ためにユーザーが選択した閾値を利用し、遺伝子発現測定値を過小発現した、又は、過剰発現したとして分類するためにユーザーが選択した閾値をさらに利用する。この手法は、DCN測定ベクトルとGS測定ベクトルとの間の線形性の仮定には全くよらないが、ユーザーが割り当てた閾値についての特定の好みに、ある程度依存する。2つのベクトル間の依存性の閾値ベースの解析に対する一般化された手法は、以降で述べる分離クロス(separating-crosses)スコアリング方法を特徴とする。
2つのベクトルの成分μとνは、平面内のn個の点(μi,νi)と考えられる。(x,y)を中心とするt=tx,yによって規定される軸平行クロス(axis parallel cross)は、平面をAt、Bt、Ct、及びDtで示す4つの象限に分割する(図5を参照されたい)。象限Atに入る(μi,νi)からの点の数はatで示され、象限Btに入る(μi,νi)からの点の数はbtで示され、象限Ctに入る(μi,νi)からの点の数はctで示され、象限Dtに入る(μi,νi)からの点の数はdtで示され、それによって、at+bt+ct+dt=nとなる。ベクトルμとνは、atとdtが共に、btとctに比較して大きくなるようなクロスtが存在する場合、相関すると判定される。より一般的には、象限カウントの関数(すなわち、クロス関数f(a,b,c,d))が与えられると、分離クロススコア関数は、閾値tの全ての可能な選択にわたって、Fで示す、fの得られる最大値を規定する。すなわち、
Figure 2007520829
である。
μ(π-1(1))<μ(π-1(2))<…<μ(π-1(n))であるように、変数πの値として示されるベクトルμのサンプルの値を分類し(rank)、且つ、サンプルをτによって示すことによって、ベクトルνによって誘導される置換は、
F(μ,ν)=F(π,τ) (3)
を与える。その理由は、クロス関数、したがって、スコア関数が、各象限内の点のカウントだけに依存し、点の実際のロケーションには依存しないからである。そのため、全ての関数f(π,τ,t)について、関数F(π,τ)は、(n−1)2個の可能なクロスを調べることによって計算することができる。
最大対角積(MDP:Maximal Diagonal Product)スコアと呼ばれる分離クロススコア関数の変形は、対角積(DP)とも呼ばれる分離クロス関数
DP(π,τ,t)=at・dt (4)
を考える。最大対角積(MDP)と呼ぶ、対角積の対応するスコア関数は、以下のように与えられる。
Figure 2007520829
MDPスコアの有益な属性は、MDPスコアが、最大スコアに寄与するサンプル(すなわち、象限AtとDt内の点)と最大スコアに寄与しないサンプル(すなわち、象限BtとCt内の点)との差異を提供することである。したがって、この属性は、影響を受けないサンプルに対して影響を受けたサンプルを特定するのに有益である。このスコアの組み合わせの特質によって、その統計的特性の厳密な計算が可能である。
分離クロススコア関数の別の変形は、対角積の和(SDP:Sum of Diagonal Product)と呼ばれ、
SDP(π,τ)=Σt{DP(π,τ,t)} (6)
によって規定される。
領域解析
DCNデータとGEデータの連携解析についての生物学的基礎は、mRNAコピー数に直接影響を及ぼし、おそらく、下流の機能欠損(functional deficiency)をもたらすゲノムDNAの変化の存在である。こうした変化の存在は、以下の局面の1つ又は複数に局在化される可能性が最も高い。すなわち、ゲノムDNAの変化は、ある染色体セグメントに限定されること、特定のゲノムセグメントを有する全ての遺伝子の発現は、同じ程度には実施されない場合があること、サンプルが、必ずしも、同じ、又は、類似のゲノム変化を含むわけではないこと、及び/又は、特定のサンプル内で、ある変化が、いろいろな浸透率レベルで起きる場合があることである。
上述したように、DCN−GEデータ関係を使用した従来の調査及び解析は、単一遺伝子の遺伝子発現レベルとそれぞれのDNAコピー数測定値との間の相関のみを考慮してきた。CGHベースの調査は、染色体変化が、多数の遺伝子にわたる場合があるゲノムの長いストレッチに適用されることが多いことを示す。したがって、こうした異常によって影響を受ける遺伝子の発現パターンは、それ自身のコーディングDNAのコピー数に相関するだけでなく、近傍遺伝子のDCN測定値にも相関することになることを予想することができる。本発明の原理を適用することによって、解析は、データ内の雑音或いは一部又は全てのサンプルにおける異常の低浸透率の負の効果を相殺することができる、よりよい結果をもたらすために、領域の効果を考慮する。以下で述べるように、ゲノム変化と遺伝子発現レベルの分散との局在化した相関の出現(appearance)を考慮することは、近傍遺伝子に関する遺伝子の遺伝子変化の領域の影響を反映する。
図1及び図2の発現データ行列E及びDNAコピー数データ行列Cを再び参照すると、これらの行列の構成要素の値として、比、絶対値、又は対数値が一貫して提供されてもよい。遺伝子giのDNAコピー値のベクトルとgiの遺伝子発現値のベクトルとの間のピアソン相関は、以下のように計算されてもよい。
Figure 2007520829
ここで、r(i,j)=Corr(E(i,・),C(j,・))は、E行列(発現データ値行列E)のi番目の行とC行列(DNAコピー数データ値行列C)のj番目の行との間で計算されたピアソン相関係数であり、E(i,k)は、行列Eの行i、列kの発現データ値であり、
Figure 2007520829
は、行の全てのサンプル値にわたって(図1の例では、全てのサンプル値1〜nにわたって)平均された、発現データ値行列Eのi番目の行についての平均発現データ値であり、C(j,k)は、行列Cの行i、列kのDNAコピー数データ値であり、
Figure 2007520829
は、行の全てのサンプル値にわたって(図2の例では、全てのサンプル値1〜nにわたって)平均された、DNAコピー数データ値行列Cのj番目の行についての平均DNAコピー数データ値である。
上記手法は、特定される遺伝子の染色体近傍において、ほとんどの遺伝子DNAコピー数測定値と有意に相関する発現パターンを示す遺伝子を特定しようと試みる。遺伝子の「染色体近傍」又は「k−近傍」は、
Γk(i)=(i−k,i−(k−1),…,i,i+1,…,i+k) (8)
によって指示される遺伝子の連続配列として規定され、ここで、Γk(i)は、iによって指示される遺伝子のk−近傍における遺伝子の指示を表し、kは、解析される染色体近傍のサイズを規定するのに使用される所定の整数である。
別法として、染色体近傍は、所与の遺伝子giを囲むゲノムフラグメントの物理的長さによって規定されてもよい。例えば、染色体近傍は、遺伝子giの両側に1Mbpを追加することによって規定されてもよい。こうして規定されると、近傍のサイズは、近傍に関して解析されるデータによって一定ではないが、染色体近傍として規定された染色体セグメント内に存在するプローブの密度(数)に依存する。
染色体近傍を規定することを対象とする(toward)、上述した第1の手法を使用すると、染色体近傍は、(2k+1)個の要素(遺伝子)からなる。染色体近傍Γk(i)における遺伝子iの発現ベクトルE(i,・)とDNAコピー数ベクトルとの相関を定量化する1つの手法は、
Figure 2007520829
のように、それぞれのDNAコピー数ベクトルのそれぞれに対してE(i,・)の平均相関を計算することである。
領域相関に対する代替の手法は、例えば、近傍Γk(i)において、重み付き又は一様平均DNAコピー数のベクトルに対するE(i,・)の相関、又は、それぞれの相関のp値の積を考慮してもよい。
置換されるデータ
遺伝子順序を考慮する解析を実施する時、解析結果は、近傍遺伝子が互いに独立であると仮定するヌルモデルと比較される。ヌルモデルは、正常な(異常でない)ゲノムデータのみを含むモデルである。正常な(異常でない)ゲノムデータに関して、DNAコピー数測定値の変動は、実験的誤差によってだけ起こることになり、したがって、近傍遺伝子座のDNAコピー数ベクトルに関する所与の発現ベクトルの相関スコアは、独立であると予想される。
実際のゲノムデータにおいて、近傍遺伝子は、独立であるとは予想されない。ゲノム異常が起こる場合、変化した領域内のDNAコピー数測定値は、正に相関すると予想される。同様に、異常範囲内の近傍遺伝子座のDNAコピー数ベクトルに関する所与の発現ベクトルの相関スコアは、正であると予想される。すなわち、ゲノム異常がゲノムセグメント内で起こる場合、存在遺伝子座(resident loci)/遺伝子のDNAコピー数及び発現レベルは、正に相関することになる。近傍遺伝子の独立性は、ヌルモデルについてだけ仮定される。さらなる解析が、遺伝子置換行列E'及びC'について実施されてもよい。
行列E'及びC'を得るために、行列Cの行に適用されるように、同じ置換が、行列Eの行に適用される。データの行は、実施されるそれぞれの解析のために、行列E及びCのそれぞれにおいて、同じように無作為に再配置される。図3及び図4は、それぞれ、置換されたE'及びC'の1つの非制限的な例を示す。ここで、この例ではM=k+1であり、遺伝子の近傍を示す。領域の効果の結果は、遺伝子の元々の染色体順序に依存すると予想されるため、置換された行列に基づいて計算すると領域の効果が大幅に減少する時に、領域の効果についての結果が確証される。
p値の計算
一貫して偏倚したDNAコピー数測定値と対応する発現レベルとが、一貫したコピー数値について予想される程度を超えて相関する領域を特定するために、シミュレーション解析が実施されて、染色体領域について遺伝子座依存のp値が評価されてもよい。一貫して偏倚したDNAコピー数測定値と対応する発現レベルは、上述した予想される挙動と関連し(refer to)、ここでは異常なゲノム領域内のDNAコピー測定値が、正に相関すると予想される。非常に一貫したDNAコピー数測定値が観測される領域における相関は、領域において無作為であると予想される分布が大きな変動を有するため、DNAコピー数測定値が一貫しない領域における相関と比べて、有意となるためにかなり高い閾値を交差する必要がある。特に、一貫したDNAコピー数値によって、一貫したDNAコピー数測定値の場合において平均化の比較的弱い平滑化効果が存在する。
シミュレーションを始めるために、シミュレーションのサイズは、イベント602においてLとして設定される(図6を参照されたい)。シミュレーションサイズLは、正確なp値を得るために、(例えば、時間と費用因子を考慮して)研究者が進んで実行してもよいと考える計算量又は計算回数である。例えば、1,000のL値は、0.005までほぼ正確であるp値をもたらし、10,000のL値は、0.0005までほぼ正確であるp値をもたらすことになる。Lを設定した後、イベント604において、L−1個の無作為の発現ベクトルが、システムのユーザーによって作成されるか、又は、選択される。無作為の発現ベクトルを、種々の方法で提供することができる。例えば、L−1個の発現ベクトルは、行列E(すなわち、行列Eの行)から無作為に取り出されてもよく、或いは、別法として、L−1個の発現ベクトルは、行列Eから無作為に取り出されるか、又は、値の正規分布等から無作為に取り出された値を使用して作成されてもよい。無作為に取り出された各発現ベクトルについて、近傍Γk(i)に対する無作為の発現ベクトルの相関は、イベント606において、
l=r(il,Γk(i)) (10)
によって計算される。
イベント608において、実際にはiにおいて観測される相関r*=r(i,Γk(i))は、r1、r2、…、rL-1の中で、1〜Lのランクに相当し、且つ、r*以上である、r1、r2、…、rL-1、及びr*の中の相関値の数を表す、ランクρを割り当てられる。イベント610において、iにおいて観測される領域相関についてのp値は、
pV(i)=ρ/L (11)
によって与えられる。
ここで、pV(i)は、i番目の項についてのp値であり、p値は、対応する染色体領域のコピー数値しだいである。
遺伝子座依存のp値を求める上記技法は、発現に対するコピー数の相関を調査するために、Pollack他著「Genome-wide analysis of dna copy-number changes using cdna microarrays」Nature Genetics, 23(1):41-6, 1999に提供されるDNCデータ及びGEデータ値に適用された。Pollack他著「Genome-wide analysis of dna copy-number changes using cdna microarrays」Nature Genetics, 23(1):41-6, 1999は、参照によりその全体が本明細書に援用される。図7は、iが、データセット内の全ての遺伝子にわたる範囲である、pV(i)の累積分布を示す。予想されるように、データセットを無作為に置換することによって、基準曲線として使用することができる直線710が得られ、一方、有意な単一遺伝子相関(すなわち、r(i,i)、曲線720を参照されたい)は、全てのp値において過剰である。有意な相関は、サイズk=2(曲線730)及びk=10(曲線740)の近傍について計算されると、益々過剰である。これらの結果は、染色体順序とGEに対するダイレクト(direct)DCNの相関との両方に依存することに留意されたい。染色体順序への依存性は、遺伝子データの無作為置換(曲線710)が、単一遺伝子相関(曲線720)よりも、有意な相関スコアの豊富さ(abundance)を少なくすることによって立証される。GEに対するダイレクトDCNの相関への依存性は、pV(i)を計算する方法によって表される。
領域依存性pV(i)スコアは、遺伝子発現レベルが、高い統計的な信頼を持ってDCN測定値と有意に相関する、遺伝子座の特定を可能にする。例えば、(先に参照したPollack他からのデータに関して)図7に示す結果に関して0.001の閾値を考える。6,000個の遺伝子の無作為データセットは、このスコアを持つ6個の遺伝子を含むことが予想されるが、単一遺伝子相関は、164個のこうした遺伝子をもたらす(FDR=3.7%)。Γ2(i)近傍に対する平均化相関を考慮すると、214個の有意な遺伝子座が得られ(FDR=2.8%)、Γ10(i)近傍に対する平均化相関を考慮すると、289個の有意な遺伝子座が得られる(FDR=2.1%)。そのため、領域ベースの解析は、DCNに対するGEの相関が、高い信頼を持って特定されることができる、ほとんど80%を超える遺伝子座を与える。
ゲノムの一連の部分行列
上述したように、ゲノム変化は、サンプルのサブセットに、並びに、影響を受けるサンプルの染色体物質の特定の染色体セグメントに局在化されることが多い。以下の説明は、異常が起こったゲノムセグメント、影響を受けたサンプル、及び異常の転写効果(transcriptional effect)の検出に対処する。
DCN行列CとGE行列Eの所与の対について、それぞれ、遺伝子Gの順序付けられたセットとサンプルXのセットにわたって、ゲノムの一連の部分行列(GCSM)は、
M=G'×X' (12)
として規定することができる。ここで、MはGCSMであり、G'⊂Gであり、遺伝子の連続セグメントであり、X'⊆Xである(X'は、全セットXまでで、且つ、全セットXを含むXのサブセットである)。
GCSMの補体部分行列は、
Figure 2007520829
として規定される。C(M)及びE(M)は、行列C及びEのサブセットG'及びX'(すなわち、Mに相当するDCN部分行列及びGE部分行列)上への射影を示す。
所与の染色体セグメント及び所与のサンプルにおけるゲノム変化は、所与の染色体セグメントのDNAコピー測定値のほとんどに影響を及ぼすべきであるが、それぞれの遺伝子発現測定値の一部のみに影響を及ぼすべきである(すなわち、影響を受けるDNAコピー測定値の数より少ない)。これは、セグメントにおける任意の存在遺伝子のDCNは、異常セグメントによって直接影響を受け、一方、存在遺伝子のGEは、その遺伝子の調節を決定する異なる因子に応じて修正されてもよく、又は、修正されなくてもよいことによる。セットC(M)内のほとんどのDNAコピー値が正であり、且つ、一部の遺伝子Gi∈G'が、GCSM内に無い発現値
Figure 2007520829
に比較して高い発現値{E(i,j):Xj∈X'}を有する時に、GCSM Mは、有意に増幅されると判定される。用語「ほとんど」及び「一部」は、特定されるように求められる定性的イベントを伝えるために正式ではなく使用される。これらのイベントの正式な確率論的規定の例は、以下で述べられ、その例において、超幾何分布又は二項分布が、Cにおいて正の値が過剰なp値(p-value of the overabundance of positive values in C)を規定するのに使用され、Eにおいて良好な分離子(separator)が過剰なp値を規定するために、TNoM2項サプライズ解析(binomial surprise analysis)が実行されてもよい。
Mが有意に増幅された程度を測定するスコアリングメカニズムは、以下の通りである。スコアF(M;C)は、超幾何分布を使用して、
Figure 2007520829
と比較して、C(M)において正の値の過剰さを反映するように規定される。Fは、
Figure 2007520829
で与えられる超幾何累積分布関数である。
超幾何分布関数は、K個の黒オブジェクトとM−K個の白オブジェクトの集合から、置換することなく、オブジェクトを取り出す時に、最初に取り出したm個のオブジェクトからx個以下が黒である確率を表す。
超幾何分布関数をスコアF(M;C)に適用して、
Figure 2007520829
で、且つ、n=|C(M)|であるとする。さらに、Kは、
Figure 2007520829
における正の値の数であり、kは、C(M)における正の値の数であるとする。N、n、Kが与えられると、C(M)においてk個以上の正の値を見出す超幾何確率は、
Figure 2007520829
である。
別法として、C(M)における正の値の過剰さは、完備行列(complete matrix)Cにおける正の値の一部が与えられると、C(M)における正の値の一部分(the fraction of)についての二項サプライズ解析を使用して評価されてもよい。二項サプライズ解析は、完備行列Cにおける正の値の一部分が与えられると、C(M)において少なくとも観測される数の正の値に遭遇する二項テール確率(binomial tail probability)を使用して実行されてもよい。
同様に、スコア関数F(M;E)は、XとX'における発現値を比較する時、すなわち、X−X'の発現レベルより有意に高いX'の発現レベルを特定する時に、かなり差別的に発現するg'内の遺伝子の過剰さを反映するように規定される。TNoM(誤分類の閾値数(Threshold Number of Misclassifications))スコアは、X−X'に対するX'の分類子(classifier)として、その性能に従って各遺伝子に割り当てられてもよい。
TNoMスコアは、未知数のラベルを予測するために、所与の遺伝子について、所与の発現レベルを使用する単純なルールを探索することに基づく。正式には、ルールは、2つのパラメータaとbによって規定される。予測されるクラスは、単に、sign(ax+b)である。一次式の符号のみが問題であるため、配慮を、a∈{−1,+1}に限定することができる。自然な手法は、誤差の数を最小にするように、aとbの値を選択することである。
Figure 2007520829
ここで、xi[g]は、i番目のサンプルにおける遺伝子gの発現値である。全部で2(m+1)個の可能なルールを網羅的に試すことによって最適値が見出される。実際の発現値の間の中間点である閾値に、配慮が限定される。
遺伝子のTNoMスコアは、
Figure 2007520829
として規定され、最良ルールによって誤差の数を規定する。直観によれば、この数は、この遺伝子の発現レベルのみに基づいて行われる決定の質を反映する。TNoMスコアのさらに詳細な説明とその応用は、2004年4月3日に出願され、「Visualizing Expression Data on Chromosomal Graphic Schemes」という名称の同時係属中の、同一譲受人に譲渡された出願第10/817,244号に見出すことができる。出願第10/817,244号は、参照によりその全体が本明細書に援用される。
厳密なp値を、TNoMスコアのために計算することができる。ヌルモデルの下で、s以上によいスコアを得る、単一遺伝子についての確率がp(s)である場合、調べられる|g'|遺伝子の中の、s以上によいスコアを有する遺伝子の数は、二項分布となる(n,p(s))。n(s)は、データ内で実際に観測されるs以上によいスコアを有する遺伝子の数を示し、σ(s)は、n(s)における二項分布(n,p(s))のテール確率を示すとする。したがって、F(M;E)は、max0s|X'|−log(σ(s))であるように規定される。
ヌルモデルによれば、DCN及びGEベクトルは、完全に無相関である。Mにおける増幅についての総スコアは、
F(M;C,E)=−[log10F(M;C)+log10F(M;E)](18)
によって与えられる。上記解析は、遺伝子物質の増幅に対処することに限定されず、欠失にも対処することが留意されるべきである。サブセットX'における任意の欠失は、Fの下では、X−X'における増幅と等価である。
スコアが高く、有意に変化したGCSMをもたらす分割の探索(locating)
所与の遺伝子のセットについてTNoM過剰さを最大化するサンプルの分割を探索するタスクは、それ自身、発見的方法を使用してアプローチされてきた難しいタスクである。超幾何過剰スコアとTNoM過剰スコアの組み合わせを最大にする分割を探索するタスクは、明らかに少なくとも難しく、その結果、有意に変化したGCSMを探索するために、ここでは、発見的方法が適用される。遺伝子の連続セグメントのみを探すことが重要であるため、全ての可能なセグメントが、O(n2)において列挙されてもよい。ここで、項「O」は、コンピューターシステム上でのアルゴリズムの複雑さ(又は、実行時間)に関する上限を示し、nは、データセット内の遺伝子の数である。例えば、アルゴリズムが、O(f(n))時間で実行される場合、これは、全てのn>n0について、アルゴリズムの実行時間が、ある定数n0とcについて、c*f(n)より短いことを意味する。難しいタスクは、可能な2|X|分割のうちの、どの分割X'が、所与のセグメントG'について、有意なスコアX((G'×X');C,E)を最大にするかを判定することである。スコアが高く、有意に変化したGCSMをもたらす分割を探索する2つの手法が、以下で述べられる。
第1の手法は、最大超幾何(Max-Hypergeometric)アルゴリズムと呼ばれるものを採用する。GCSM Mのスコアの規定は、2つの部分(すなわち、超幾何部分とTNoM部分)からなるため、スコアが高いGCSMを探索することに対するこの手法は、それぞれの可能なセグメントについて、スコア、この場合、超幾何スコアの一部分を最大にするサンプル分割を選択し、次に、選択されたサンプル分割について組み合せたスコアを計算する。所与のセグメントG'について、maxX'X[−log(F(G'×X');C)]の計算は、以下のように、(O(|X|))時間で実施されてもよい(したがって、アルゴリズムの実行時間は、X内の要素の数に線形に比例する)。piがベクトルC(G',si)内の正のエントリの数に等しいとする。次に、サンプルは、pπ(1)≧pπ(2)≧…≧pπ|X|になるように再順序付けされる。スコア[−log(F(G'×X');C)]を最大にするサブセットX'は、集合{(sπ(1)),(sπ(1),sπ(2)),…,(sπ(1),sπ(2),…,sπ(|X|-1))}内のサブセットの1つである。
ここで、図8を参照すると、最大超幾何解析を適用する時に実行することができるイベントのフローチャートが示される。イベント802にて、行列CとE、並びに、有意な閾値を指定する、変数tについての値、及び、最大セグメント長を設定する、lについての値が入力される。イベント804にて、l以下のセグメント長を有する全てのセグメントG'⊂Gが特定される。先に述べたように、特定された全てのセグメントは、連続セグメントでなければならない。イベント806にて、最初か、又は次の特定されたセグメントについて、piは、C(G',si)内の正のエントリの数に等しくなるように設定される。イベント808にて、サンプルは、pπ(1)≧pπ(2)≧…≧pπ|X|になるように順序付けされる。以下に従って、イベント810にて、最大スコアが求められる。
maxScore=max1i|X|F((G',{sπ(1),…,sπ(i)});C,E)(19)
イベント812にて、最大スコアが有意な閾値より大きいかどうかが判定される。maxScore>tである場合、イベント814にて、その時規定されたGCSMがLに追加され(すなわち、M=(G'×X')をLに追加する)、Lは、プロセス/システムによって出力されるスコアが高いGCSMのリストである。Score>tでない場合、その時のGCSMは、イベント816にて、スコアが高く、有意に変化したGCSMであるとは考えられない。
全ての特定されたセグメントが、イベント806〜816に従って処理されたと、イベント818にて判定される場合、リストLは、システムによって(ユーザーインタフェース、記憶デバイスに)出力され、(且つ/又は、プリントアウトされ、)処理は、イベント820にて終了する。全ての特定されたセグメントが処理されていない場合、次の特定されたセグメントに関して作業するために、処理は、イベント806に戻る。
上述した最大超幾何手法の1つの欠点は、最大超幾何手法が、スコアが高く、有意に変化したGCSMを検出するために、DCN測定値の十分に強いパターンのみに依存することである。しかし、場合によっては、DCNパターンとGEパターンとの間の有意な相関は、DCN信号自身がたとえ弱くても染色体異常を示す。スコアが高く、有意に変化したGCSMを探索するための、述べられる次の技法は、所与のセグメントG'について候補分割(X')を特定するためにDCN−GE相関に頼る。これらのセグメントは、スコアが高いGCSMをもたらすと予想される。
この手法は、上述したMDP相関スコアの有用な属性を利用する。すなわち、所与の遺伝子giについて、スコアMDP(i)は、積At・Dtが最大になるように、|X|サンプルを複数の象限に分離するクロス閾値tを規定する。そのため、スコアMDP(i)に寄与するサンプル(すなわち、At又はDt内にあるサンプル)を、スコアに寄与しないサンプル(すなわち、Bt又はCt内にあるサンプル)から容易に分離することができる。遺伝子giの染色体近傍を考慮すると、特定のサンプル内のgiの発現レベルが異常によって影響を受けるという確信が増す可能性がある。
例えば、Γk(i)に対するE(i)の全ての相関について、同じサンプルsが、それぞれのMDPクロス閾値の象限Dtに入ると仮定する。こうしたイベントが偶然に起こる確率は、近傍サイズkと共に指数関数的に減少する。したがって、遺伝子giとサンプルs∈Xについて、サンプルMDPスコア(SMDP)は、
Figure 2007520829
として規定される。ここで、At(i,j)及びDt(i,j)は、ベクトルE(i)及びC(j)について最大MDPスコアをもたらす閾値tについて、それぞれ、象限At及びDtに入るサンプルのセットである。
−MDP(i,Γk(i))≦SMDP(s,i)≦MDP(i,Γk(i))(21)
であり、sが、クロスの全てにおいて、象限AtかDtのいずれかに入る場合、極値が得られる。
この技法は、サンプルのセットs∈Xを、サンプルのセットが変化(増幅/欠失)によって影響を受けた確率の増加に従って分類することを可能にする。この分類は、評価されるべきO(|X|)の可能な分割を提案する。実際には、上述した領域解析処理からの統計的結果に従って、ある最小領域相関閾値をパスする遺伝子
Figure 2007520829
のフィルタリング済みセットについて処理が実行されてもよい。
ここで、図9を参照すると、上述したように、一貫相関解析(consistent correlation analysis)を適用する時に実行することができるイベントのフローチャートが示される。イベント902にて、行列C及びE、並びに、近傍サイズを規定するkについての値、有意な閾値を規定するtについての値、最大セグメント長を設定するlについての値、また、任意選択で、行列C及びE(上述した)によって表される全ての遺伝子を解析したくない場合には解析されるべき遺伝子
Figure 2007520829
のフィルタリング済みセットが入力される。イベント904にて、遺伝子が、遺伝子(場合によって、G又は
Figure 2007520829
)のセットから選択され、SMDPスコアが、各サンプルsj∈Xに関し、選択された遺伝子に関して計算される。スコアは、pi=SMDP(sj,i)で計算される。イベント906にて、サンプルは、pπ(1)≧pπ(2)≧…≧pπ|X|のように順序付けされる。gi∈G'であるような、l以下の長さを有する最初か、又は次のセグメント(連続セグメント)G'⊂Gが、イベント908にて選択され、最大スコアが、イベント910にて、以下のように計算される。
maxScore=max1i|X|F((G',{Xπ(1),…,Xπ(i)});C,E)(19)
イベント912にて、最大スコアが有意な閾値より大きいかどうかが判定される。maxScore>tである場合、イベント914にて、その時規定されたGCSMがLに追加される(すなわち、M=(G'×X')をLに追加する)。Lは、システムによって出力されるスコアが高いGCSMのリストである。(この例は、有意な増幅の特定に関して述べられるが、有意な欠失が、同様なプロセスによって特定されてもよい。例えば、欠失を考えると、GCSMスコアが有意な閾値を超える時にGCSMがLに追加される。)maxScore>tでない場合、その時のGCSMは、イベント912にて、スコアが高く、有意に変化したGCSMであるとは考えられず、リストLに追加されない。
いずれの場合も、イベント912にて、その時のGCSMをリストLに追加するかどうかの判定が行われた後、イベント916にて、全てのセグメントG'が、その時選択した遺伝子giに関して処理されたかどうかのチェックが行われる。特定されたセグメントG'が全て、その時選択した遺伝子に関してまだ処理されていない場合、処理は、イベント908に戻って、特定された次のセグメントを選択し、処理する。
特定されたセグメントが全て、イベント908〜914に従って、その時選択した遺伝子に関して処理されたと、イベント916にて判定される場合、セット(場合によって、G又は
Figure 2007520829
)からの全ての遺伝子が処理されたかどうかが判定される。全ての遺伝子giがまだ処理されていない場合、処理はイベント904に戻り、セットからの次の遺伝子giが、処理のために選択され、処理は、上述した方法で、引き続きイベント906に進む。他方、全ての遺伝子giが処理されたと判定される場合、リストLが、システムによって(ユーザーインタフェース、記憶デバイスに提供され/出力され、(且つ/又は、プリントアウトされ)、処理は、イベント920にて終了する。
上述した最大超幾何技法及び一貫相関技法は、異なる生物学的動機を有するスコアが高いGCSMの場合に適する。最大超幾何技法は、F(M;C)が総合スコアについて支配的な因子である時、すなわち、染色体異常のために、DCN測定値のみが有意なパターンを含む時により優れている。一貫相関技法は、E(M)及びC(M)間に強い相関が存在し、F(M;C)とF(M;E)が共に、総合スコアに大きな影響を及ぼすことを示唆する時に適する。この状況は、染色体変化が転写活動に大きな影響を及ぼすときに起こり得る。
図10は、本発明の一実施形態による典型的なコンピューターシステムを示す。コンピューターシステム1000は、任意の数のプロセッサー1002(中央演算装置(CPU)とも称される)を含み、それらは、一次記憶装置1006(通常、ランダムアクセスメモリー(RAM))、一次記憶装置1004(通常、読み取り専用メモリ(ROM))等の記憶装置と接続している。当該技術分野においては既知であるように、一次記憶装置1004はデータと命令をCPUへ一方向で転送するように機能し、一次記憶装置1006は通常、データと命令を双方向で転送するために使用される。これら両方の一次記憶装置は、上記したような任意の適切なコンピューター読み取り可能媒体を含んでもよい。大容量記憶装置1008も双方向的にCPU1002に接続し、付加的データ記憶容量を提供し、上記したコンピューター読み取り可能媒体の任意のものを含むことができる。大容量記憶装置1008は、プログラム、データ等を保存するために使用されることができ、通常は、一次記憶装置よりは遅いハードディスク等の二次的な記憶媒体である。適切なケースにおいては、大容量記憶装置1008内に保持されている情報を、仮想メモリとしての一次記憶装置1006の一部として、標準的な様式で組み込めることが理解されるであろう。CD−ROM又はDVD−ROM 1014等の特定の大容量記憶装置もデータをCPUへ一方向に伝達することができる。
また、CPU1002は、例えば、ビデオモニター、トラックボール、マウス、キーボード、マイクロフォン、タッチセンシティブ・ディスプレイ、トランスデューサーカード・リーダー、磁気テープ若しくは紙テープリーダー、タブレット、スタイラス、音声又は手書き認識装置、又は他のよく知られた入力装置(当然、例えば、他のコンピューター)等の1つ又は複数の入力/出力装置を含むインターフェース1010と接続している。最後に、オプションとして、CPU1002は、1012において一般的に示されるようなネットワーク接続を用いてコンピューター又は電気通信ネットワークに接続していてもよい。そのようなネットワーク接続を用いることにより、CPUが、上述の方法ステップを実行している間に、ネットワークから情報を受信するか、又はネットワークへ情報を発信し得ることが意図されている。上記装置及び物質(materials:材料)は、コンピューターハードウェア及びソフトウェア技術分野の当業者にはよく知られたものであろう。
上記ハードウェア要素は、本発明の動作を実行するための複数のソフトウェアモジュールの命令を実行することができる。例えば、ステンシルの集合(population)のための命令を、大容量記憶装置1008又は1014に保存し、一次メモリ1006と協働してCPU 1008において実行することができる。
また、本発明の実施形態はさらに、コンピューターで実行される各種処理を実行するための、プログラム命令及び/又はデータ(データ構造を含む)を含む、コンピューター読み取り可能媒体又はコンピュータープログラム製品に関する。媒体及びプログラム命令は、本発明の目的のために特別に設計され、作成されたものであってもよく、又は、コンピューターソフトウエア分野における当業者には既知であると共に利用可能な種類のものであってもよい。コンピューター読み取り可能媒体の例は、限定はしないが、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープ等の磁気的な媒体、CD−ROM、CD−RW、DVD−ROM、又はDVD−RWディスクのような光学的な媒体、フロプティカル・ディスクのような光磁気的な媒体、及び読み取り専用記憶媒体(ROM)及びランダムアクセスメモリー(RAM)等の、プログラム命令を保存及び実行するために特別に構成されたハードウエアデバイスを含む。プログラム命令の例は、コンパイラにより作成されるような機械コードと、インタープリタ(interpreter:解釈プログラム)を用いてコンピューターによって実行することができるより高レベルのコードを含むファイルとの両方を含む。
本発明を特定の実施形態を参照して説明したが、当業者には、各種の変更が可能であり、本発明の真の精神及び範囲を逸脱することなく均等物での置換が可能であることが理解されるべきである。さらに、本発明の目的、精神及び範囲に対して、特定の状況、素材、物質の組成、処理、処理ステップ(複数も含む)に適合させるための多くの変更が可能である。このような全ての変更は本明細書に添付の特許請求の範囲内であることが意図されている。
M個の遺伝子に関するn個のサンプルから生成された遺伝子発現(GE)値を表す行列Eを示す図である。 M個の遺伝子に関するn個のサンプルから生成されたDNAコピー数(DCN)値を表す行列Cを示す図である。 行列の行が置換された、無作為に置換した行列E'の例を示す図である。 行列の行が置換された、無作為に置換した行列C'の例を示す図である。 分離クロススコアリング方法を使用する時に形成される象限を示す図である。 染色体領域について遺伝子座依存のp値を評価するために、常に偏倚したDNAコピー数測定値及び対応する発現レベルが、一貫したコピー数値について予想される程度を超えて相関する染色体領域を特定するため、シミュレーション解析を実施するときにとることができる方法を示す図である。 遺伝子データセットの種々の構成についてのp値の累積分布のプロットである。 本明細書で述べる最大超幾何解析を適用する時に実行することができるイベントを示すフローチャートである。 本明細書で述べる一貫相関解析を適用する時に実行することができるイベントのフローチャートである。 本発明の一実施形態による典型的なコンピューターシステムを示す構成図である。

Claims (22)

  1. ゲノムDNAの変化と遺伝子の変化の間の有意な関係であって、該変化によって機能的にもたらされる、有意な関係を特定するために、DNAコピー数データ及び遺伝子発現データを連携解析する方法であって、
    複数のサンプルにわたって、遺伝子のセットについてDNAコピー数データ及び遺伝子発現データを提供するステップと、
    前記遺伝子セットのそれぞれの遺伝子について、遺伝子発現データベクトル及びDNAコピー数データベクトルを生成するステップと、
    遺伝子発現データベクトルを選択するステップと、
    前記選択された遺伝子、及び該選択された遺伝子の規定された染色体近傍の遺伝子に相当する、前記選択された遺伝子発現データベクトルとDNAコピー数ベクトルとの間の相関値を求めるステップであって、前記染色体近傍は少なくとも2つの遺伝子を含む、求めるステップと
    を含む方法。
  2. 前記規定された染色体近傍はゲノム遺伝子の一連のセットである請求項1に記載の方法。
  3. 前記規定された染色体近傍は、
    Γk(i)=(i−k,i−(k−1),…,i,i+1,…,i+k) (8)
    によって指示される(2k+1)個の遺伝子からなる遺伝子によって規定されたk−近傍であり、
    ここで、Γk(i)は、iによって指示される前記選択された遺伝子の前記k−近傍における前記遺伝子の指示を表し、kは、解析される前記染色体近傍のサイズを規定するのに使用される所定の整数である請求項1に記載の方法。
  4. 一貫して偏倚したDNAコピー数測定値及び対応する遺伝子発現測定値が、前記一貫して偏倚したDNAコピー数測定値について予想される程度を超えて相関する、染色体領域を特定する方法であって、
    選択された遺伝子の周りに位置する遺伝子座のセットからなる染色体近傍を特定するステップと、
    整数Lによってシミュレーションサイズを規定するステップ(602)と、
    複数のサンプルにわたって測定された遺伝子発現データによって生成された発現データ行列から、L−1個の遺伝子発現ベクトルを無作為に取り出すステップ(604)と、
    前記特定するステップにおいて特定された前記染色体近傍で、前記それぞれの遺伝子について、前記複数のサンプルにわたってDNAコピー数データによって生成されたDNAコピー数ベクトルに対する、それぞれ無作為に取り出された遺伝子発現ベクトルの相関を計算するステップ(606)と、
    前記DNAコピー数ベクトルの前記近傍に対して、前記選択された遺伝子について計算された相関値を基準にして、前記無作為に取り出された発現ベクトルに関して計算された前記計算された相関値を分類するステップ(608)と、
    前記選択された遺伝子の前記遺伝子発現ベクトルに対する、前記染色体近傍からの前記DNAコピー数ベクトルの領域相関の程度のインジケータを計算するステップ(610)と
    を含む方法。
  5. DNAコピー数データと遺伝子発現データの連携解析に基づいて、ゲノム異常が起こった染色***置、前記ゲノム異常によって影響を受けるサンプル、及び前記異常の前記転写効果を検出する方法であって、提供されるDNAコピー数データ行列は、サンプルのセットにわたる、遺伝子のセットについてのDNAコピー数測定値を含み、提供される遺伝子発現データ行列は、同じサンプルにわたる、同じ遺伝子のセットについての遺伝子発現測定値を含んでおり、該方法は、
    前記DNAコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記遺伝子のセットのサブセットを含むゲノムの一連の部分行列を特定するステップであって、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、前記ゲノムの一連の部分行列は、前記DNAコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含む、特定するステップと、
    前記DNAコピー数データ行列及び前記遺伝子発現データ行列を、前記遺伝子のサブセット及び前記サンプルのサブセットの上に射影するとともに、前記ゲノムの一連の部分行列に相当するDNAコピー数データ部分行列及び遺伝子発現データ部分行列をそれぞれ生成する、射影するとともに生成するステップと、
    前記ゲノムの一連の部分行列内の同じ遺伝子のサブセット及び前記ゲノムの一連の部分行列内の前記サンプルのサブセットの補体によって規定される補体部分行列に相当する補体DNAコピー数データ部分行列及び補体遺伝子発現データ部分行列を基準にして、前記ゲノムの一連の部分行列に相当する前記部分行列をスコアリングするステップであって、それによって、前記ゲノムの一連の部分行列が有意に増幅されているかどうかを判定する、スコアリングするステップと
    を含む方法。
  6. 前記ゲノムの一連の部分行列は、該ゲノムの一連の部分行列に相当する前記DNAコピー数データ部分行列内のDNAコピー数値の統計的に有意な部分が、所定の閾値(t)より大きく、且つ、前記ゲノムの一連の部分行列に相当する前記遺伝子発現データ部分行列内のいくつかの遺伝子発現値が、前記補体遺伝子発現データ部分行列内の対応する遺伝子発現値より大きい場合、有意に増幅されていると判定される請求項5に記載の方法。
  7. DNAコピー数データと遺伝子発現データの連携解析に基づいて、ゲノム異常が起こった染色***置、前記ゲノム異常によって影響を受けるサンプル、及び前記異常の前記転写効果を検出する方法であって、提供されるDNAコピー数データ行列は、サンプルのセットにわたる、遺伝子のセットについてのDNAコピー数測定値を含み、提供される遺伝子発現データ行列は、同じサンプルにわたる、同じ遺伝子のセットについての遺伝子発現測定値を含んでおり、該方法は、
    前記DNAコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記遺伝子のセットのサブセットを含むゲノムの一連の部分行列を特定するステップであって、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、前記ゲノムの一連の部分行列は、前記DNAコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含む、特定するステップと、
    前記ゲノムの一連の部分行列内の同じ遺伝子のサブセット及び前記ゲノムの一連の部分行列内の前記サンプルのサブセットの補体によって規定される補体部分行列を特定するステップと、
    前記DNAコピー数データ行列及び前記遺伝子発現データ行列を、前記遺伝子のサブセット及び前記サンプルのサブセットの上に射影するとともに、前記ゲノムの一連の部分行列に相当するDNAコピー数データ部分行列及び遺伝子発現データ部分行列をそれぞれ生成する、射影するとともに生成するステップと、
    前記補体部分行列に相当するDNAコピー数データ部分行列及び遺伝子発現データ部分行列を基準にして、前記ゲノムの一連の部分行列に相当する前記部分行列をスコアリングするステップであって、それによって、前記ゲノムの一連の部分行列において、有意な欠失が起こったかどうかを判定する、スコアリングするステップと
    を含む方法。
  8. 前記ゲノムの一連の部分行列における有意な欠失は、該ゲノムの一連の部分行列に相当する前記DNAコピー数データ部分行列内のDNAコピー数値の統計的に有意な部分が、所定の閾値より小さく、且つ、前記ゲノムの一連の部分行列に相当する前記遺伝子発現データ部分行列内のいくつかの遺伝子発現値が、前記補体遺伝子発現データ部分行列内の対応する遺伝子発現値より小さい場合、起こったと判定される請求項7に記載の方法。
  9. スコアが高く、有意に変化したゲノムの一連の部分行列を特定する方法であって、それぞれのゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、前記DNAコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含んでおり、該方法は、
    前記遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントを特定するステップ(804)と、
    前記サンプルのセットのそれぞれのサンプルについて、それぞれ、前記DNAコピー数データ行列を前記サンプル、及び前記遺伝子のサブセットの上に射影するとともに、各サンプルに相当するDNAコピー数データ列ベクトルを形成する、射影するとともに形成するステップと、
    前記形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値(t)より大きい値の数をカウントするステップと、
    前記それぞれのDNAコピー数ベクトルの前記カウントに従って前記サンプルを順序付けるステップ(808)と、
    前記対応するDNAコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、前記対応するDNAコピー部分行列において特徴付けられる前記サンプルのサブセットの前記補体は特徴付けない測定値を含む、対応する補体DNAコピー数部分行列を基準にして、前記対応するDNAコピー数部分行列内において、前記所定の閾値より大きい値の過剰さに基づいて増幅の程度に関して前記サンプルのセットの順序接頭部をスコアリングするステップと、
    前記増幅スコアの程度から最大スコアを求めるステップ(810)と、
    前記求められた最大スコアが所定の有意性閾値より大きい場合(812)、最大スコアが計算された前記サンプルのサブセットに対応する前記ゲノムの一連の部分行列は、有意に増幅されたゲノムの一連の部分行列であると結論付けるステップ(814)と
    を含む方法。
  10. 前記所定のセグメント長以下のセグメント長を有する遺伝子の全ての連続セグメントを特定するステップ、並びに、前記特定された連続セグメントのそれぞれについて、前記射影するステップ、前記形成するステップ、前記DNAコピー数部分行列をスコアリングするステップ、前記サンプルを順序付けるステップ、該順序付けられたサンプルをスコアリングするステップ、前記最大スコアを求めるステップ、及び前記結論付けるステップを繰り返すステップをさらに含む請求項9に記載の方法。
  11. 有意に増幅されていると結論付けられた全てのゲノムの一連の部分行列を特定する結果を提供すること(820)をさらに含む請求項9に記載の方法。
  12. 前記スコアリングすることは、前記補体データ部分行列内のサンプルついてよりも、前記データ部分行列内のサンプルについて発現値が高い前記遺伝子のサブセットにおいて遺伝子の前記過剰さをスコアリングすることを含む請求項9〜11のいずれか1項に記載の方法。
  13. スコアが高く、有意に変化したゲノムの一連の部分行列を特定する方法であって、それぞれのゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、前記DNAコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含んでおり、該方法は、
    前記遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントを特定するステップ(804)と、
    前記サンプルのセットのそれぞれのサンプルについて、それぞれ、前記DNAコピー数データ行列を前記サンプル、及び前記遺伝子のサブセットの上に射影するとともに、各サンプルに相当するDNAコピー数データ列ベクトルを形成する、射影するとともに形成するステップと、
    前記形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値より小さい値の数をカウントするステップと、
    前記それぞれのDNAコピー数ベクトルの前記カウントに従って前記サンプルを順序付けるステップ(808)と、
    対応する補体DNAコピー数部分行列を基準にして、前記対応するDNAコピー数部分行列内において、前記所定の閾値より小さい値の過剰さに基づいて欠失の程度に関して前記サンプルのセットの順序接頭部をスコアリングするステップであって、前記対応する補体DNAコピー数部分行列は、前記対応するDNAコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、該対応するDNAコピー部分行列において特徴付けられる前記サンプルのサブセットの前記補体は特徴付けない測定値を含む、スコアリングするステップと、
    前記欠失スコアの程度から最大スコアを求めるステップ(810)と、
    前記求められた最大スコアが所定の有意性閾値より大きい場合(812)、最大スコアが計算された前記サンプルのサブセットに対応する前記ゲノムの一連の部分行列は、有意に欠失したゲノムの一連の部分行列であると結論付けるステップ(814)と
    を含む方法。
  14. 請求項1〜13のいずれかに記載の方法から得られる結果を遠隔ロケーションに転送することを含む方法。
  15. 請求項1〜13のいずれかに記載の方法から得られる結果を表すデータを遠隔ロケーションに送信することを含む方法。
  16. 請求項1〜13のいずれかに記載の方法から得られる結果を遠隔ロケーションから受信することを含む方法。
  17. ゲノムDNAの変化と遺伝子の変化の間の有意な関係であって、該変化によって機能的にもたらされる、有意な関係を特定するために、DNAコピー数データと遺伝子発現データを連携解析するシステムであって、
    DNAコピー数データ及び遺伝子発現データが、複数のサンプルにわたって提供される遺伝子のセットのそれぞれの遺伝子について、遺伝子発現データベクトル及びDNAコピー数データベクトルを生成する手段と、
    遺伝子発現データベクトルを選択するとともに、前記選択された遺伝子、及び該選択された遺伝子の規定された染色体近傍の遺伝子に相当する、前記選択された遺伝子発現データベクトルとDNAコピー数ベクトルの間の相関値を求める手段であって、前記染色体近傍は少なくとも2つの遺伝子を含む、選択するとともに求める手段とを
    備えるシステム。
  18. 一貫して偏倚したDNAコピー数測定値及び対応する遺伝子発現測定値が、前記一貫して偏倚したDNAコピー数測定値について予想される程度を超えて相関する、染色体領域を特定するシステムであって、
    選択された遺伝子の周りに位置する遺伝子座のセットからなる染色体近傍を特定する手段と、
    整数Lによってシミュレーションサイズを規定する手段と、
    複数のサンプルにわたって測定された遺伝子発現データによって生成された発現データ行列から、L−1個の遺伝子発現ベクトルを無作為に取り出す手段と、
    前記特定するステップにおいて特定された前記染色体近傍において、前記それぞれの遺伝子について、前記複数のサンプルにわたってDNAコピー数データによって生成されたDNAコピー数ベクトルに対する、それぞれ無作為に取り出された遺伝子発現ベクトルの相関を計算する手段と、
    前記DNAコピー数ベクトルの近傍に対して、前記選択された遺伝子について計算された相関値を基準にして、前記無作為に取り出された発現ベクトルに関して計算された前記計算された相関値を分類する手段と、
    前記選択された遺伝子の前記遺伝子発現ベクトルに対する、前記染色体近傍からの前記DNAコピー数ベクトルの領域相関の程度のインジケータを計算する手段と
    を備えるシステム。
  19. DNAコピー数データと遺伝子発現データの連携解析に基づいて、ゲノム異常が起こった染色***置、前記ゲノム異常によって影響を受けるサンプル、及び前記異常の前記転写効果を検出するシステムであって、提供されるDNAコピー数データ行列は、サンプルのセットにわたる、遺伝子のセットについてのDNAコピー数測定値を含み、提供される遺伝子発現データ行列は、同じサンプルにわたる、同じ遺伝子のセットについての遺伝子発現測定値を含んでおり、該システムは、
    前記DNAコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記遺伝子のセットのサブセットを含むゲノムの一連の部分行列を特定する手段であって、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、前記ゲノムの一連の部分行列は、前記DNAコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含む、特定する手段と、
    前記DNAコピー数データ行列及び前記遺伝子発現データ行列を、前記遺伝子のサブセット及び前記サンプルのサブセットの上に射影するとともに、前記ゲノムの一連の部分行列に相当するDNAコピー数データ部分行列及び遺伝子発現データ部分行列をそれぞれ生成する、射影するとともに生成する手段と、
    前記ゲノムの一連の部分行列内の同じ遺伝子のサブセット及び前記ゲノムの一連の部分行列内の前記サンプルのサブセットの補体によって規定される補体部分行列に相当する補体DNAコピー数データ部分行列及び補体遺伝子発現データ部分行列を基準にして、前記ゲノムの一連の部分行列に相当する前記部分行列をスコアリングする手段であって、それによって、前記ゲノムの一連の部分行列が有意に増幅されているかどうか、又は、有意な欠失が前記ゲノムの一連の部分行列において起こったかどうかを判定する、スコアリングする手段と
    を備えるシステム。
  20. スコアが高く、有意に変化したゲノムの一連の部分行列を特定するシステムであって、それぞれのゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、前記DNAコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含んでおり、該システムは、
    前記遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントを特定する手段と、
    前記サンプルのセットのそれぞれのサンプルについて、それぞれ、前記DNAコピー数データ行列を前記サンプル、及び前記遺伝子のサブセットの上に射影するとともに、各サンプルに相当するDNAコピー数データ列ベクトルを形成する、射影するとともに形成する手段と、
    前記形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値より大きい値の数をカウントする手段と、
    前記それぞれのDNAコピー数ベクトルの前記カウントに従って前記サンプルを順序付ける手段と、
    前記対応するDNAコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、前記対応するDNAコピー部分行列において特徴付けられる前記サンプルのサブセットの前記補体は特徴付けない測定値を含む、対応する補体DNAコピー数部分行列を基準にして、前記対応するDNAコピー数部分行列内において、前記所定の閾値より大きい値の過剰さに基づいて増幅の程度に関して前記サンプルのセットの順序接頭部をスコアリングする手段と、
    前記増幅スコアの程度から最大スコアを求める手段と、
    前記求められた最大スコアが所定の有意性閾値より大きい場合、最大スコアが計算された前記サンプルのサブセットに対応する前記ゲノムの一連の部分行列は、有意に増幅されたゲノムの一連の部分行列であると結論付ける手段と
    を備えるシステム。
  21. スコアが高く、有意に変化したゲノムの一連の部分行列を特定するシステムであって、それぞれのゲノムの一連の部分行列は、DNAコピー数データ行列及び遺伝子発現データ行列を生成するために、サンプルのセットにわたって測定された遺伝子のセットのサブセットを含み、前記遺伝子の前記サブセットはゲノム遺伝子の一連のセットであり、それぞれのゲノムの一連の部分行列は、前記DNAコピー数データ行列及び前記遺伝子発現データ行列を生成するために測定された前記サンプルのセットのサブセットを含んでおり、該システムは、
    前記遺伝子のサブセットとして、所定のセグメント長以下のセグメント長を有する遺伝子の連続セグメントを特定する手段と、
    前記サンプルのセットのそれぞれのサンプルについて、それぞれ、前記DNAコピー数データ行列を前記サンプル、及び前記遺伝子のサブセットの上に射影するとともに、各サンプルに相当するDNAコピー数データ列ベクトルを形成する、射影するとともに形成する手段と、
    前記形成されたデータ列ベクトルのそれぞれにおいて、所定の閾値より小さい値の数をカウントする手段と、
    前記それぞれのDNAコピー数ベクトルの前記カウントに従って前記サンプルを順序付ける手段と、
    対応する補体DNAコピー数部分行列を基準にして、前記対応するDNAコピー数部分行列内において、前記所定の閾値より小さい値の過剰さに基づいて欠失の程度に関して前記サンプルのセットの順序接頭部をスコアリングする手段であって、前記対応する補体DNAコピー数部分行列は、前記対応するDNAコピー数部分行列内にあるものと同じ遺伝子のサブセットを特徴付けるが、該対応するDNAコピー部分行列において特徴付けられる前記サンプルのサブセットの前記補体は特徴付けない測定値を含む、スコアリングする手段と、
    前記欠失スコアの程度から最大スコアを求める手段と、
    前記求められた最大スコアが所定の有意性閾値より大きい場合、最大スコアが計算された前記サンプルのサブセットに対応する前記ゲノムの一連の部分行列は、有意に欠失したゲノムの一連の部分行列であると結論付ける手段と
    を備えるシステム。
  22. 命令の1つ又は複数のシーケンスを保持するコンピューター読み取り可能媒体であって、1つ又は複数のプロセッサーによる、命令の1つ又は複数のシーケンスの実行によって、前記1つ又は複数のプロセッサーが、請求項1〜16のいずれかに記載のステップを実行する、コンピューター読み取り可能媒体。
JP2006552253A 2004-02-03 2005-02-02 アレイcghデータ及び遺伝子発現データの連携解析のための方法及びシステム Pending JP2007520829A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US54171204P 2004-02-03 2004-02-03
US10/964,207 US20050170378A1 (en) 2004-02-03 2004-10-12 Methods and systems for joint analysis of array CGH data and gene expression data
PCT/US2005/003522 WO2005074646A2 (en) 2004-02-03 2005-02-02 Methods and systems for joint analysis or array cgh data and gene expression data

Publications (1)

Publication Number Publication Date
JP2007520829A true JP2007520829A (ja) 2007-07-26

Family

ID=34811463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006552253A Pending JP2007520829A (ja) 2004-02-03 2005-02-02 アレイcghデータ及び遺伝子発現データの連携解析のための方法及びシステム

Country Status (4)

Country Link
US (1) US20050170378A1 (ja)
EP (1) EP1711815A2 (ja)
JP (1) JP2007520829A (ja)
WO (1) WO2005074646A2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100580656B1 (ko) * 2004-11-06 2006-05-16 삼성전자주식회사 측정 데이터 오류 검출 방법 및 장치.
EP2691539B1 (en) 2011-03-31 2018-04-25 The Procter and Gamble Company Methods for identifying and evaluating skin-active agents effective for treating dandruff
US20130217589A1 (en) * 2012-02-22 2013-08-22 Jun Xu Methods for identifying agents with desired biological activity
KR101987477B1 (ko) * 2012-05-07 2019-06-10 엘지전자 주식회사 바이오마커 발굴 방법
US9920357B2 (en) 2012-06-06 2018-03-20 The Procter & Gamble Company Systems and methods for identifying cosmetic agents for hair/scalp care compositions

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5670314A (en) * 1994-02-22 1997-09-23 Regents Of The University Of California Genetic alterations that correlate with lung carcinomas
FR2741218B1 (fr) * 1995-11-09 1997-12-12 Thomson Broadcast Systems Procede et dispositif d'estimation de non-linearite
US6096273A (en) * 1996-11-05 2000-08-01 Clinical Micro Sensors Electrodes linked via conductive oligomers to nucleic acids
US6453241B1 (en) * 1998-12-23 2002-09-17 Rosetta Inpharmatics, Inc. Method and system for analyzing biological response signal data
US6320196B1 (en) * 1999-01-28 2001-11-20 Agilent Technologies, Inc. Multichannel high dynamic range scanner
US6251685B1 (en) * 1999-02-18 2001-06-26 Agilent Technologies, Inc. Readout method for molecular biological electronically addressable arrays
US6323043B1 (en) * 1999-04-30 2001-11-27 Agilent Technologies, Inc. Fabricating biopolymer arrays
US6242266B1 (en) * 1999-04-30 2001-06-05 Agilent Technologies Inc. Preparation of biopolymer arrays
US6355921B1 (en) * 1999-05-17 2002-03-12 Agilent Technologies, Inc. Large dynamic range light detection
US6371370B2 (en) * 1999-05-24 2002-04-16 Agilent Technologies, Inc. Apparatus and method for scanning a surface
US6222664B1 (en) * 1999-07-22 2001-04-24 Agilent Technologies Inc. Background reduction apparatus and method for confocal fluorescence detection systems
US6486457B1 (en) * 1999-10-07 2002-11-26 Agilent Technologies, Inc. Apparatus and method for autofocus
US6232072B1 (en) * 1999-10-15 2001-05-15 Agilent Technologies, Inc. Biopolymer array inspection
US6171797B1 (en) * 1999-10-20 2001-01-09 Agilent Technologies Inc. Methods of making polymeric arrays
US6406849B1 (en) * 1999-10-29 2002-06-18 Agilent Technologies, Inc. Interrogating multi-featured arrays
US20020165180A1 (en) * 2000-09-18 2002-11-07 Zoe Weaver Process for identifying anti-cancer therapeutic agents using cancer gene sets
US20030101002A1 (en) * 2000-11-01 2003-05-29 Bartha Gabor T. Methods for analyzing gene expression patterns

Also Published As

Publication number Publication date
US20050170378A1 (en) 2005-08-04
EP1711815A2 (en) 2006-10-18
WO2005074646A3 (en) 2006-02-09
WO2005074646A2 (en) 2005-08-18

Similar Documents

Publication Publication Date Title
Su et al. iLoc-lncRNA: predict the subcellular location of lncRNAs by incorporating octamer composition into general PseKNC
US9898578B2 (en) Visualizing expression data on chromosomal graphic schemes
Lu et al. Hotelling's T 2 multivariate profiling for detecting differential expression in microarrays
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
Van de Wiel et al. Preprocessing and downstream analysis of microarray DNA copy number profiles
Broët et al. Detection of gene copy number changes in CGH microarrays using a spatially correlated mixture model
Li et al. Bayesian modeling of spatial molecular profiling data via Gaussian process
US20120253960A1 (en) Methods, software arrangements, storage media, and systems for providing a shrinkage-based similarity metric
US20020169730A1 (en) Methods for classifying objects and identifying latent classes
US20150186596A1 (en) Population classification of genetic data set using tree based spatial data structure
Walter et al. DiNAMIC: a method to identify recurrent DNA copy number aberrations in tumors
JP2006114037A (ja) 比較ゲノムハイブリダイゼーション(cgh)データの見かけ上の異常を統計的に分析しプロットするためのシステムおよび方法
Wu et al. Detecting independent and recurrent copy number aberrations using interval graphs
JP2007520829A (ja) アレイcghデータ及び遺伝子発現データの連携解析のための方法及びシステム
Choi et al. Hierarchical hidden Markov model with application to joint analysis of ChIP-chip and ChIP-seq data
Dennis et al. Hunting the primary: novel strategies for defining the origin of tumours
JPWO2008007630A1 (ja) 蛋白質探索方法及び装置
US20080102453A1 (en) Methods and systems and analysis of CGH data
Shah et al. Model-based clustering of array CGH data
Wrobel et al. Statistical analysis of multiplex immunofluorescence and immunohistochemistry imaging data
Shah Computational methods for identification of recurrent copy number alteration patterns by array CGH
US20070031883A1 (en) Analyzing CGH data to identify aberrations
Rasche et al. ARH: predicting splice variants from genome-wide data with modified entropy
Campos-Martin et al. Reliable genotyping of recombinant genomes using a robust hidden Markov model
Nicholson et al. DNA lesion bypass and the stochastic dynamics of transcription-coupled repair