JP4229647B2

JP4229647B2 - 大腸癌の肝転移を予測するための遺伝子セット

Info

Publication number: JP4229647B2
Application number: JP2002193381A
Authority: JP
Inventors: 伊知朗竹政; 浩文樋口; 謙一松原; 利次岡山; 卓郎田村
Original assignee: Chemo Sero Therapeutic Research Institute Kaketsuken; DNA Chip Research Inc
Current assignee: Chemo Sero Therapeutic Research Institute Kaketsuken; DNA Chip Research Inc
Priority date: 2002-07-02
Filing date: 2002-07-02
Publication date: 2009-02-25
Anticipated expiration: 2022-07-02
Also published as: JP2004033082A

Description

【０００１】
【発明の属する技術分野】
本願発明は、大腸癌の肝転移に関与する遺伝子セットに関する。より詳細には、ＤＮＡマイクロアレイ法により大腸癌原発巣組織に特異的に発現した遺伝子群の発現情報を遺伝子判別分析手法に基づく統計解析処理することにより、大腸癌の肝転移の予測に有効な遺伝子セットを同定する方法、当該方法によって同定された遺伝子セット及び大腸癌原発巣組織における当該遺伝子セットの発現情報を用いて大腸癌の肝転移を予測する方法に関する。
【０００２】
【従来の技術】
大腸癌は世界的に発生率が高く、本邦でも年々増加の一途を辿っている。現在、臨床における大腸癌の悪性度分類は、Ｄｕｋｅｓ分類をはじめ、癌の大腸壁深達度や所属リンパ節への転移の程度などの病理学的な事項により判定されている。しかし、このような臨床病理学的分類では同じ病気でもその予後にはばらつきがあり、大腸癌の最たる予後規定因子である異時性肝転移の予測は困難である。そのため現状では、進行癌に対し異時性肝転移予防のために抗癌剤投与など画一的な術後治療が施されている。
【０００３】
一方、大腸癌は、多段階発癌の構造など分子生物学的な研究がもっともよく進んでいる癌の一つで、これまでＡＰＣ, Ｋ−ｒａｓ, ｐ５３, ＤＣＣなどの個々の遺伝子についての報告が多数みられる。しかし、これらの遺伝子のいずれかに注目するだけでは、大腸癌の個性を表現するには不十分であるため、近年は後述するように、ＤＮＡマイクロアレイなどを用いることにより、一度に極めて多数の遺伝子の発現情報を得ることにより有用な新規知見を得る試みがなされ始めている。
【０００４】
Alizadehらは、びまん性大細胞型Ｂ細胞リンパ腫患者の末梢血から分取したＢリンパ球を試料としてＤＮＡマイクロアレイによる測定を行い、得られた遺伝子発現データの階層的クラスタリングを行うことにより、同病患者の末梢血Ｂリンパ球には、リンパ組織の胚中心に存在するＢ細胞に類似した遺伝子発現パターンを示す場合と、in vitroで活性化したＢ細胞に類似した遺伝子発現パターンを示す場合の２種類があることを見出した（Nature, vol. 403, p503-511 (2000)）。両者の生存率をKaplan-Meierプロットで調べた結果、後者の発現パターンを示すＢ細胞を持つ患者は、前者の発現パターンを示すＢ細胞を持つ患者と比べて予後が悪いことが明らかとなった。加えて、従来からの病理学的診断に基づく予後予測に従うよりも、著者らの行った遺伝子発現情報のクラスタリングで得られた結果の方が予後との相関性が高かった。Alizadehらの研究結果は、遺伝子発現情報から臨床的に利用可能な有用な法則性を導き出せたという点で意義のあるものといえる。しかし、その法則が全く新たな臨床例についても適用できるかどうかについての検証はなされておらず、この論文の範囲でのみ成立する結果である可能性は否定できない。
【０００５】
Khanらは、組織学的には区別が難しい小円形青色細胞腫に属する４種類の癌が、人工ニューラルネットワークを利用した遺伝子発現情報の解析により正確に区別されることを報告した（Nature Medicine, vol.7, p673-679 (2001)）。この報告の中では、全体のデータから無作為に抜き出した一部のデータを用いて導き出した人工ニューラルネットワークモデルに対して、テストサンプルのデータを入力した場合にも、正確な判定結果が得られることが検証されている。したがって、ここで導き出された人工ニューラルネットワークモデルは、この論文内のデータの範囲に限定されるものではなく、小円形青色細胞腫に属する４種類の癌を区別するために一般的に適用可能なものであることが示唆される。しかしながら、人工ニューラルネットワークモデルで得られる判定結果は、数学的な根拠を明確に説明できないという点で一般には受け入れられにくい。
【０００６】
上述したＤＮＡマイクロアレイの測定で得られる大量の遺伝子発現データを統計学的手法により処理することで目的に叶う情報を導き出す方法については、確立された一般的なものとして認められていないのが現状である。
大腸癌の肝転移に関わる分子標的を同定することを目的としてＤＮＡマイクロアレイを用いて行われた最近の研究例としては、柳川らの報告（Neoplasia, vol.3, No.5, p395-401 (2001)）がある。著者らは、公共の遺伝子データベースに登録されているヒトｃＤＮＡの塩基配列に基づいて設計したオリゴＤＮＡをプライマーとして用い、ヒトのｃＤＮＡを鋳型としてＰＣＲを行い、９,１２１種類の増幅ｃＤＮＡ断片を得た。次いで、これらのｃＤＮＡ断片をプローブとしてプリントしたＤＮＡマイクロアレイを使って、１０症例の大腸癌患者より分離した大腸癌原発巣及び大腸癌肝転移巣の遺伝子発現プロファイルを調べた。その結果、原発巣に対して肝転移巣で発現が上昇している４０種類の遺伝子と、原発巣に対して肝転移巣で発現が低下している７種類の遺伝子を明らかにし、大腸癌の肝転移に関わる可能性がある候補遺伝子セットを同定した。
【０００７】
【発明が解決しようとする課題】
しかしながら、これらの遺伝子セットは、本願発明で開示するところの、大腸癌の異時性肝転移の予測に有用な情報を提供するものではない。また、上記の９,１２１種類のプローブは、公共のデータベースに登録されている配列の中から無作為に選択されたものであるため、ヒトの遺伝子発現プロファイルを解析するために広く使用できるという利点がある反面、大腸癌で特異的に発現している重要な遺伝子を同定するための材料としては好ましいものではない。上述したように、大腸癌の肝転移を予測することができる遺伝子セットは、未だ開発されていない。
【０００８】
【課題を解決するための手段】
本願発明の目的は、大腸癌の肝転移予測に利用可能な遺伝子セットを選択する方法及び当該方法によって得られる遺伝子セットを提供することにある。
また，本願発明の他の目的は、大腸癌原発巣組織における当該遺伝子セットの発現情報に基づき、大腸癌原発巣組織切除手術後の肝転移を予測する方法を提供することにある。
本発明者らは、上記の目的を達成するために鋭意研究を重ねた結果、大腸癌原発巣組織、大腸癌肝転移巣組織及び正常大腸粘膜組織を材料として作製したｃＤＮＡライブラリーから選択したプローブを用いてオリジナルのＤＮＡマイクロアレイを作製し、それを用いて大腸癌組織における遺伝子発現解析を行うことにより、大腸癌の発育・進展に関連すると考えられる候補遺伝子の同定が可能であることを発見した（竹政ら，Biochem. Biophys. Res. Commun., vol.285, p1244-1249 (2001)）。
【０００９】
本願発明においては、上記のＤＮＡマイクロアレイを用いて、異時性肝転移を起こした患者と異時性肝転移を起こさなかった患者に由来する大腸癌原発巣における遺伝子発現データを取得し、それらを統計解析したところ、大腸癌の肝転移予測に利用可能な有用な遺伝子セットを同定することに成功し、本願発明を完成するに至った。
したがって、本願発明は、大腸癌原発巣組織に特異的に発現している遺伝子について、肝転移した症例と肝転移しなかった症例の遺伝子発現データを統計解析処理することからなる、大腸癌の肝転移予測に利用可能な有用な遺伝子セットの選択方法を包含する。
また、本願発明は、斯かる方法により選択された遺伝子セットを包含する。
さらに、本願発明は、大腸癌原発巣組織における当該遺伝子セットの発現情報を統計解析処理した情報に基づき、大腸癌の肝転移を予測する方法を包含する。
【００１０】
【発明の実施の形態】
以下、本願発明について詳述する。
本願発明の方法は、正常大腸粘膜との比較における大腸癌原発巣組織の遺伝子発現データを取得する第１の工程、大腸癌原発巣組織摘出後に肝転移が認められた症例と肝転移が認められなかった症例（それぞれ「肝転移あり症例」、「肝転移なし症例」と呼称することがある）の当該遺伝子の発現情報について統計学的処理を行う第２の工程により得られる大腸癌の肝転移予測に利用可能な遺伝子セットを決定する方法、当該方法によって同定された遺伝子セット及び当該遺伝子セットの大腸癌原発巣組織における発現情報を肝転移の予測に使用する方法によって特徴付けられる。
【００１１】
上記の第１の工程には、ＤＮＡマイクロアレイ法、Northern解析法、アダプター付加競合ＰＣＲ法（Kato K, Nucl. Acids Res., vol.25, p4694-4696 (1997)）及びTaq Man ＰＣＲ法（Applied Biosystems社）等の方法を利用することができるが、好ましくは、ＤＮＡマイクロアレイ法が使用される。本願発明においてＤＮＡマイクロアレイ法とは、一般に使用されるｃＤＮＡマイクロアレイ及びＤＮＡチップを用いた方法を含むものとする。
【００１２】
ＤＮＡマイクロアレイ法を利用する場合、第１の工程は、ＤＮＡマイクロアレイにプリントされたプローブに標識遺伝子をハイブリダイズさせ、これを検出するステップからなる。ＤＮＡマイクロアレイにプリントされるプローブとして、ヒト大腸癌原発巣細胞、ヒト大腸癌肝転移巣細胞及びヒト正常大腸粘膜細胞から調製されたｃＤＮＡまたはその断片が使用される。前記細胞は、他の動物種由来の細胞であってもよい。具体的には、TRIzol試薬（GIBCO BRL社）、ISOGEN（ニッポンジーン社）などの試薬を用い、各試薬の添付文書に記載された方法に従って、上記のそれぞれの細胞から全ＲＮＡが抽出される。次いで、例えば、mRNA Purification Kit（Amersham BioSciences社）などの市販のキットにより、添付の方法に従って、該全ＲＮＡからポリアデニン付加ＲＮＡ（以下、「ｍＲＮＡ」と称することもある）が精製される。ｍＲＮＡは、例えば、SuperScript plasmid system for cDNA synthesis and plasmid cloning（GIBCO BRL社）などの市販のｃＤＮＡライブラリー作製キットによりｃＤＮＡライブラリーに変換される。こうして得られたｃＤＮＡライブラリーの各ｃＤＮＡは、最終的には、大腸菌にクローニングされる。クローニングの方法は、サムブルック（Sambrook）らが述べている一般的な方法（Molecular Cloning, A Laboratory Manual, 第２版、Cold Spring Harbor Laboratory Press, New York, 1989）に従って行われる。
【００１３】
クローン化されたｃＤＮＡの増幅と精製は、以下のように行われる。クローン化した前記大腸菌をヘルパーファージ（GIBCO BRL社）と共に培養し、一本鎖ｃＤＮＡを有するファージを得、ＰＣＲ法により該ファージのｃＤＮＡを増幅させる。培養に使用される培地として、一般に市販されている培地、例えば、CIRCLEGROW培地（BIO 101社）、ＬＢ培地（BECTON DICKINSON社）などが挙げられるが、いずれを使用してもよい。大腸菌とヘルパーファージの混合比は、大腸菌量に対して１／１０００〜１／１００量、好ましくは、１／５００量が使用される。培養は、植菌した菌量に依存するが、一般に大腸菌が増殖する条件、例えば、３７℃、ｐＨ６〜８、１２〜１６時間で行われる。ＰＣＲ法によるｃＤＮＡの増幅は、遠心分離により一本鎖ｃＤＮＡを有するファージ含有培養上清と大腸菌とを分離した後、培養上清に含まれるファージ中の一本鎖ｃＤＮＡを鋳型として行われる。具体的には、上記の培養上清、ヒトｃＤＮＡと連結されているベクター部分の配列に対して相補的なプライマー及び、例えばTaKaRa Z-Taq ＤＮＡポリメラーゼ（タカラ社）のような耐熱性ＤＮＡポリメーラーゼを用いて行われる。
【００１４】
増幅ＤＮＡ断片は、ガラスビーズ法、QIAquick PCR Purification Kit（QIAGEN社）等の市販のＰＣＲ産物精製キットによって精製される。例えば、ガラスビーズ法によるｃＤＮＡの精製は、活性化SILICAビーズ（SIGMA社）添加ヨウ化カリウム液にＰＣＲ後の反応液を加えて攪拌した後、フィルター付９６ウェルプレートMultiScreen-GV（MILLIPORE社）に移し遠心分離を行い、フィルター上のガラスビーズを洗浄バッファーで洗浄後、ＴＥバッファーで増幅ｃＤＮＡを回収することによって達成される。
【００１５】
このようにして得られたｃＤＮＡ断片の塩基配列は、例えばBig Dye Terminator Cycle Sequencing FS Ready Reaction Kit（Applied Biosystems社）などのシークエンシングキット及び、例えばABI PRISM 3700 Genetic Analyzer（Aplied Biosystems社）などのＤＮＡシークエンサーを用いてシークエンシングを行うことにより決定することができる。得られた塩基配列は、例えば、GenBankに登録されているデータ−ベースとホモロジーを比較することにより，既知の配列か否かを判定することができる。かくして、遺伝子名が同定された約３０００種類及び遺伝子名が同定されなかった１４００種類のクローン化ｃＤＮＡ断片を取得することができた。
【００１６】
ＤＮＡマイクロアレイは、上記のｃＤＮＡ断片含有溶液をマイクロウェルプレートに注入した後、例えばＳＰＢＩＯ−２０００マイクロアレイヤー（日立ソフトウェアエンジニアリング社）などの機器を用い、一般に市販されているシランコートスライドガラスやポリリジンコートガラスにプリントすることにより作製される。ｃＤＮＡ溶液は、０.０５μｇ／μｌ〜１μｇ／μｌの濃度で用いられる。市販の既知遺伝子のｃＤＮＡ断片を含め全部で４,６０８種類のｃＤＮＡ断片をプリントしたＤＮＡマイクロアレイを調製した。ここで得られたｃNDA断片（プローブ）のシリアル番号、遺伝子名、GenBankへのアクセス番号をまとめたデータベースを作成した。
【００１７】
ｃＤＮＡライブラリからＰＣＲで増幅したＤＮＡ断片の代わりにハイブリダイゼーションのために有効な鎖長を持つ合成ＤＮＡを用いても同様の結果を得ることができる。すなわち、本発明で開示された遺伝子名あるいは配列情報に基づいて、その一部の配列からなる約２０ヌクレオチド以上の長さを持つ合成ＤＮＡをプローブとして、同様の解析を行うことができる。
大腸癌で特異的に発現している遺伝子の解析に使用される標識ｃＤＮＡは、インフォームドコンセントを経て収集された２０３症例の大腸癌原発巣組織から抽出されたそれぞれの全ＲＮＡを用いて調製される。１２７例は大腸癌原発巣の除去手術後に肝転移が認められず予後が良好であった症例、５１症例は除去手術後に肝転移が認められた症例、２５例は肝臓以外の臓器や粘膜に転移が認められた症例である。コントロールとして使用される標識ｃＤＮＡは、前記２０３例中、４０症例の大腸癌原発巣組織周辺の正常大腸粘膜組織の全ＲＮＡから調製される。
【００１８】
ｃＤＮＡの標識は、Brownらの方法（http://cmgm.stａnford.edu/pbrown/protocols/4_human_RＮA.html）に従って、前述のＤＮＡマイクロアレイにプリントされるプローブと同じ方法により大腸癌原発巣組織から抽出された全ＲＮＡまたは更に精製されたｍＲＮＡ、あるいはＴ７ＲＮＡポリメラーゼを用いたＲＮＡの増幅法（http://cmgm.stanford.edu/pbrown/protocolsａmpprotocol_3.html）により増幅したＲＮＡを、ｃＤＮＡに変換するときに標識ヌクレオチドを取り込ませることによって行われる。標識ヌクレオチドとして、蛍光色素標識、ビオチン標識されたものなどを使用できるが、好ましくは、蛍光色素標識されたヌクレオチドが使用される。蛍光色素としては、一般にＣｙ３及び／又はＣｙ５が使用される。ビオチン標識ヌクレオチドを用いる場合には、蛍光物質フィコエリスリンで標識した標識アビジンが使用される。
【００１９】
具体的には、大腸癌原発巣組織由来のＣｙ３標識ｃＤＮＡ（以下、「Ｃｙ３ｃＤＮＡ」と称することもある）は、上記の全ＲＮＡ、オリゴｄＴプライマー、ｄＮＴＰ及びＣｙ３標識ｄＵＴＰを含む混合液に逆転写酵素を加えた後、３７〜４５℃、好ましくは、４２℃で、１〜３時間、好ましくは、１時間加温することにより調製される。コントロールとして使用される正常大腸粘膜由来のＣｙ５標識ｃＤＮＡ（以下、「Ｃｙ５ｃＤＮＡ」と称することもある）の調製も、正常大腸粘膜組織の全ＲＮＡを用いて同様の方法により行われる。こうして得られたＣｙ３ｃＤＮＡ及びＣｙ５ｃＤＮＡは、それぞれ変性溶液中で６５〜７０℃、好ましくは、７０℃で、１０〜２０分間、好ましくは、１０分間加熱処理し、中和後、等量混合される（以下、「Ｃｙ５・Ｃｙ３ｃＤＮＡ」と称することもある）。変性溶液として、５０ｍＭＥＤＴＡを含む０.５ＮＮａＯＨ又は１ＮＮａＯＨなどを用いることができるが、５０ｍＭＥＤＴＡを含む０.５ＮＮａＯＨを使用するのが好ましい。Ｃｙ５・Ｃｙ３ｃＤＮＡの精製は、例えばMicrocon-30（Amicon社）などの市販キットを用い、添付の方法に従って行われる。
【００２０】
Ｃｙ５・Ｃｙ３ｃＤＮＡとＤＮＡマイクロアレイにプリントされたプローブとのハイブリダイゼーションは、Brownらの方法（http://cmgm.stａnford.edu/pbrown/protocols/5_hyb_human.html）に準じて行われる。先ず、プローブを熱変性させるためにＤＮＡマイクロアレイを加熱処理し、これに１００℃で２分間加熱処理したＣｙ５・Ｃｙ３ｃＤＮＡ含有ハイブリダイゼーション液を滴下し、カバーガラスで覆った後、ＤＮＡマイクロアレイを密閉容器に入れ、ハイブリダイゼーションを行う。ハイブリダイゼーション条件としては、ハイブリダイゼーション液がホルムアミドを含む場合には、４２℃で１２時間以上のハイブリダイゼーションが行われ、ホルムアミドを含まない場合には約６８℃で１２時間以上のハイブリダイゼーションが行われる。ハイブリダイゼーションの終了後、例えばScan Array 4000（GSI Lumonics社）などの機器によりＣｙ３とＣｙ５の蛍光をスキャンし、蛍光パターンを画像データとして得る。
【００２１】
続いて、これらの画像データを、例えばQuantarrayソフトウェア（GSI Lumonics社）などのマイクロアレイデータ専用解析ソフトを用いて解析することにより、全プローブについてのＣｙ３とＣｙ５の蛍光強度をテキスト形式の数値データとして得る。蛍光強度の低い部分はバックグラウンドの影響を大きく受けるので、例えば蛍光強度が高い方から３,０００データポイントだけを残すなどの方法により、蛍光強度がカットオフを超えるデータのみを残し、蛍光強度の低いプローブのデータは棄却される。各プローブのＣｙ３とＣｙ５の蛍光強度値の比を算出し、検出感度の補正を行った標準化数値データを得る。上記の標準化数値データのうち、ハイブリダイゼーションに供した２０３症例の８５％にあたる１７３症例以上についてデータが取得できており、且つ２０３症例の大腸癌原発巣のデータ内での分散値（variance）が、１２例の正常大腸粘膜についてのデータ内での分散値の１.１倍を超えていた、合計２,０６９種類のプローブに対応するデータのみを選択する。これらのデータ中に存在する欠損値を何らかの方法で補完して以降の解析に使用する必要がある。補完の方法としては様々なものが適用可能であるが、例えば、補完する欠損値を含む症例についての全データの平均値に、その欠損値を含む遺伝子の全症例についてのデータの平均値を加えた値から、全症例についての全遺伝子のデータの平均値を引いた値をもって補完する方法がある。他にはTroyanskayaらの報告（Bioinformatics, vol.17, p520-525 (2001)）において３種類の補完方法、すなわち、K-Nearest Neighbors (KNN) method、Singular Value Decomposition (SVD) based method及びrow average methodによる補完の例が示されている。これらのうちのいずれかの方法を適用することにより、全ての欠損値を補完することが可能である。かくして選択される標準化数値データ（以下、「標準化遺伝子発現データ」と称することもある）は、バックグラウンドの影響を受けておらず、Ｃｙ３とＣｙ５の検出感度の違いによる誤差を含まず、解析した症例の大半においてデータが取得されており、かつ、正常大腸粘膜との比較における大腸癌原発巣の遺伝子発現の変動幅が個人差に起因する遺伝子発現の変動幅を超えている遺伝子の発現情報を有しており、以後の統計解析の信頼性を確保することができるものである。
【００２２】
本願発明の第２の工程には、上記の標準化遺伝子発現データのうち、大腸癌原発巣の除去手術後に肝転移が認められなかった１２７例及び肝転移が認められた５１症例の標準化遺伝子発現データが使用される。本工程における統計学的処理は、標準化遺伝子発現データを多変量解析することによって行われる。多変量解析の手法として、判別分析、主成分分析などを用いることができるが、好ましくは、判別分析である。
【００２３】
図１は、遺伝子判別分析手法の概略を示す。
手順１０１：上記の標準化遺伝子発現データ、標準化遺伝子発現データ中の数値のそれぞれに対応するＤＮＡマイクロアレイ上のプローブ番号のリスト（以下、「対象遺伝子セット」と称するすることもある）と症例番号のリスト（以下、「対象サンプルセット」と称することもある）からなる標準化データマトリックスを用意する。
手順１０２：標準化遺伝子発現データ中の多重共線性の問題を除去するために、ピアソンの相関係数を指標として対象遺伝子セットの中から遺伝子発現のパターンが各症例間で似通った遺伝子同士をグループ化し、グループの代表遺伝子以外の遺伝子を対象遺伝子セットから除去する。
【００２４】
手順１０３：後述の高判別能遺伝子の順位付け処理によって、高い判別能力を持つ順番に遺伝子を並べたリスト（高判別能遺伝子リスト）を生成する。高判別能遺伝子リストを生成する工程は、以降の解析における計算量を減らすために効果的であるが、この工程の導入は、計算機の能力が十分であれば必ずしも必要ではない。
手順１０４：後述の高判別能遺伝子セット決定手法により、高い判別能力を持つ１つの遺伝子セット（以下、「総合高判別能遺伝子セット」と称することもある）を得る。
手順１０５：総合高判別能遺伝子セットの判別能力を評価基準に基づき評価する。評価基準はより高い方が好ましい。具体的には、判別能力値が５０％以上、好ましくは７０％以上、より好ましくは８５％以上である。
【００２５】
手順１０７：評価基準を満すならば得られた総合高判別能遺伝子セットを採択する。
手順１０８：高判別能遺伝子リストの先頭の遺伝子を除く。手順１０４に戻り、次の総合高判別能遺伝子セットを得る。総合高判別能遺伝子セットの判別能力が評価基準以上であるならば、得られたその総合高判別能遺伝子セットを採択し、判別能力が評価基準以下である場合、その総合高判別能遺伝子セットは採用せず、処理を終了する。以上の手順を繰り返すことによって、総合高判別能遺伝子セットの組を得ることができる。
【００２６】
図１における手順１０２の多重共線性の問題を除去する処理は、手順２０１〜２０４に従って実施される（図２参照）。本処理は、対象遺伝子セットのうち、遺伝子発現のパターンが各症例間で似通った遺伝子同士をグループ化し、グループの代表遺伝子以外の遺伝子を対象遺伝子セットから除去することにより、遺伝子発現プロファイルの多重共線性の問題を回避するために行われる。
手順２０１：遺伝子セットに含まれる全遺伝子の組（遺伝子対）において、各症例における標準化発現量を説明変量としたピアソンの相関係数を求める。
手順２０３：相関係数が０.８以上の遺伝子の組を探索する。
【００２７】
手順２０４：最も多くの遺伝子対に含まれる遺伝子を代表遺伝子とし、その遺伝子と遺伝子対を作る遺伝子を対象遺伝子セットから除く。この処理によって、遺伝子発現プロファイルの多重共線性の問題が排除されたデータセットが生成される。代表遺伝子との間に多重共線性があるとして解析対象から外された遺伝子（高相関遺伝子）は、解析の過程において、代表遺伝子の代替遺伝子として用いることが可能である。また、解析によって得られる総合高判別能遺伝子セットに含まれる代表遺伝子は、高相関遺伝子によって代替可能である。
【００２８】
図１における手順１０３の高判別能遺伝子の順位付けの概略を図３に示す。肝転移あり症例群と肝転移なし症例群の標準化遺伝子発現データを、それぞれＳ、Ｔとするとき、Ｓ及びＴの各標準化遺伝子発現データを更にサンプルグループａ、ｂに２分割し、計４組のサンプルグループの集合を得る。これらについて統計解析し、判別遺伝子集合の決定を行う（図３：３０１）。この過程を、十分な回数繰り返し（図３：３０２）、各過程において決定された判別遺伝子集合に含まれる遺伝子の出現回数を集計する（図３：３０３）。ブートストラップ法と呼ばれるこの処理によってデータに含まれるノイズに影響されることなく、普遍的に高判別能を有する遺伝子のリストを得ることが可能である。
【００２９】
より具体的には、高判別能遺伝子の順位付け処理は手順４０１〜４０８に従って実施される（図４参照）。
手順４０１：高判別能遺伝子セットを求める処理の繰り返し回数を記憶するカウンタＩを０に初期化する。
手順４０２：上記の２つの集合、Ｓ，Ｔそれぞれをランダムに２つの集合ａ，ｂに２分割し、Ｓａ，Ｓｂ，Ｔａ，Ｔｂの４つのサンプル集合を得る。サンプルセットのランダムな選択において、ランダムサンプリングに因らず、ランダム分割を採用することにより、各サンプルの解析に供せられる頻度を正確に一致させることが可能となる。
【００３０】
手順４０３：後述する高判別能遺伝子セット採択手法により、Ｓａ，Ｔａ２つの集合を対象とした高判別能遺伝子セットを得る。
手順４０４：Ｓｂ, Ｔｂ２つの集合を対象とした高判別能遺伝子セットを得る。
手順４０５：手順４０３、４０４によって得られた高判別能遺伝子セットに含まれる遺伝子を蓄積する。
手順４０６：Ｉを１増加し、Ｉが５,０００より小さい間、手順４０２以降を繰り返す。
手順４０７：Ｉが５,０００に達することで繰り返しを完了する。
手順４０８：蓄積された遺伝子を集計して、高判別能遺伝子セットに含まれた回数の多い遺伝子ほど高い判別能力を持った遺伝子であると判断して順位付けを行う。
【００３１】
このような高判別能遺伝子セットに含まれる回数の多い遺伝子の上位１００種類を表１〜３に記載した。
【表１】

【表２】

【表３】

【００３２】
表１〜３におけるシリアル番号は、本願発明で用いたプローブの任意の番号を示す。また、アクセス番号及び遺伝子名は、データベース（GenBank）に登録されたものである。ホモロジー検索の結果、既知の遺伝子やＥＳＴに合致しなかったプローブについては、表１〜３中に記載の通り遺伝子名を未知遺伝子とし、それぞれの配列番号１〜１３における塩基配列を配列表の配列番号１〜１３に記載した。表１〜３に記載の遺伝子は、出現する頻度が高いほど大腸癌の肝転移への関与が深いと考えられ、大腸癌の肝転移抑制のための薬剤開発あるいは治療法開発の標的としての利用が期待される。また、表１〜３中に記載の遺伝子のうち、遺伝子名をＥＳＴ及び未知遺伝子としてその配列を開示したものは、新規な遺伝子の一部分の配列であることから、遺伝子全長をクローニングするための情報、すなわちＰＣＲプライマーのデザインのためや、サザンハイブリダイゼーションやノーザンハイブリダイゼーション用のプローブデザインのための情報として利用可能である。更に、将来的にこれらの配列の上流または下流部分の配列が解読されれば、本発明で開示した範囲意外の部分配列をプローブとして使用し、本発明と同様の肝転移予測診断を行うことが可能である。また、これらの遺伝子についても全長がクローニングされ、該遺伝子がコードするタンパクの機能が解明されれば、表１〜３に記載の既知の遺伝子と同様に肝転移抑制の標的遺伝子として利用できる可能性がある。
【００３３】
高判別能遺伝子セットを採択する手法は、図４における手順４０３及び４０４において行う高判別能遺伝子セットを採択する手法の一例を示すもので、手順５０１〜５０５に従って実施される（図５参照）。この際、ロジスティック回帰における遺伝子の組み合わせを評価する基準として、最尤法（maximun likelihood method）の範疇に属するＡＩＣ値（赤池情報量規準）又はSchwarzのＢＩＣ値などの指標が用いられるが、好ましくはＡＩＣ値が採用される。また、全く異なる評価基準として、症例データの判別成績を利用することもできる。
手順５０１：空の遺伝子集合Ｇを用意する。
手順５０２：ＧとＧに含まれない全ての遺伝子ｅの組について、後述の手法により、対象サンプルにおける判別対象となる状態Ｓ，Ｔに関するロジスティック回帰を行い、ＡＩＣ値が最小となる遺伝子ｅ’を見つける。
手順５０３：（Ｇ＋ｅ’）のＡＩＣ値をＧのＡＩＣ値と比較する。
手順５０４：（Ｇ＋ｅ’）のＡＩＣ値の方が小さな場合は要素ｅ’を遺伝子集合Ｇに加え、手順５０２以降を繰り返す。
手順５０５：手順５０３において、（Ｇ＋ｅ’）のＡＩＣ値の方が小さくない場合は、繰り返し処理を終了し、Ｇに含まれる遺伝子を高判別能遺伝子セットとする。
【００３４】
図１における手順１０４の総合高判別能遺伝子セットの決定は、手順６０１〜６０８に従って実施される（図６参照）。
手順６０１：総合高判別能遺伝子セットを求める処理の繰り返し回数を記憶するカウンタＩを０に初期化する。
手順６０２：繰り返しの間に発生する最小ＡＩＣ値：Ａとその際の遺伝子数：Ｗを初期化する。
手順６０３：Ｉを１増加する。
手順６０４：順位付けられた遺伝子の１〜Ｉ番目を対象として、手順１０３におけると同様の手順により、判別対象となる２つの集合Ｓ，集合Ｔに対するロジスティック回帰を行い、ＡＩＣ値Ａ’を求める。
手順６０６：Ａ’がＡよりも小さな場合、Ａ’の値をＡに、ＩをＷに記憶する。
手順６０７：Ｉが１００より小さい間、手順６０３以下を繰り返す。
手順６０８：順位付けられた遺伝子の１〜１００番目の組における最小のＡＩＣ値を持つ組として、１〜Ｗ番目の遺伝子を得、これを総合高判別能遺伝子セットとして採択する。
【００３５】
図１における手順１０５の総合高判別能遺伝子セットの判別能力評価の手順は、手順７０１〜７０７に従って実施される（図７参照）。
手順７０１：処理の繰り返し回数を記憶するカウンタＩを０に初期化する。
手順７０２：肝転移あり症例群と肝転移なし症例群の集合であるＳ，Ｔのそれぞれをランダムに２分割して部分集合Ｓａ、Ｓｃ及びＴａ、Ｔｃを得る。ここで、２分割するかわりに、適当な数の症例データをランダムにサンプリングして部分集合Ｓａ、Ｓｃ及びＴａ、Ｔｃを得ることもできる。
手順７０３：２つの部分集合、ＳａとＴａを用いて、総合高判別能遺伝子セットによって集合Ｓ，Ｔを判別する判別式を求める。
手順７０４：ＳｃとＴｃを用いて、判別式の検証を行って結果を蓄積する。すなわち、判別式は前記のロジスティック回帰により求め、その式を使ってＳｃとＴｃに含まれるサンプルが、正確に判別されるかを判定する。これは、判定式による判定結果が各サンプルの実際の臨床情報と一致しているかどうかを判定することを意味する。
手順７０５及び７０６：Ｉを１増加し、Ｉが１０,０００より小さい間、手順７０２以下を繰り返す。
手順７０７：１症例についてのＩの検証判定回数に対し、その９５％以上の回数が臨床情報と合致していた症例を正解と判定する。正解と判定された症例の、全解析症例数に占める割合を判別能力値と定義し、これを求める。
手順７０５及び７０６のＩの繰り返し回数は、統計的な意味を持たせるのに十分な回数であれば特に限定されるものではないが、好ましくは、I＝１０,０００である。
手順７０２〜７０６までの一連の手順の繰り返しは、手順１０３で選出した総合高判別遺伝子セットの判別能力を評価するためのクロスバリデーションに相当する。この操作により、普遍的に正しい判別能力を有する総合高判別遺伝子セットを採択することができる。
【００３６】
以上の手順により表４から表１５までに記載の総合高判別能遺伝子セットの組を決定することができる。また、表５及び表６に含まれるシリアル番号３０１７のプローブについては、図２に記載した手順により高相関遺伝子が６種類同定された。表１６はこれらのプローブ遺伝子を示す。これらは、３０１７番と等価なものと考えられる。したがって、表５及び表６の総合高判別能遺伝子セットのうち、３０１７は、表１６のプローブ遺伝子のいずれとも置換することが可能である。
【００３７】
【表４】

【００３８】
【表５】

【００３９】
【表６】

【００４０】
【表７】

【００４１】
【表８】

【００４２】
【表９】

【００４３】
【表１０】

【００４４】
【表１１】

【００４５】
【表１２】

【００４６】
【表１３】

【００４７】
【表１４】

【００４８】
【表１５】

【００４９】
【表１６】

【００５０】
表４から表１５までに開示した総合高判別能遺伝子セットの各々、及び、表５と表６の中のシリアル番号３０１７の遺伝子を、表１６に含まれる遺伝子のいずれかと置換して生成される総合高判別能遺伝子セットの各々の発現情報は大腸癌の肝転移予測に利用される。すなわち、例えば、新たな大腸癌患者の大腸癌原発巣組織における総合高判別能遺伝子セットの遺伝子発現データを取得し、そのデータを実施例で求めた上記の回帰式の全部または一部に代入して判定結果を得ることにより、その大腸癌患者が将来的に肝転移を起こす可能性が高いか否かを予測することができる。複数の総合高判別能遺伝子セットについて上記の判別解析を行うことにより、判定精度の向上も期待できる。
【００５１】
また、新たにロジスティック回帰式などの回帰式を作成するのに十分な数の別の症例について本願発明で開示した総合高判別能遺伝子セットの発現データを解析すれば、本実施例で作成したロジスティック回帰式そのものを使わなくとも、新たな回帰式を作成し、肝転移の予測判定に利用することもできる。
【００５２】
また、上記の総合高判別能遺伝子セットは、種々の統計解析処理する手法を用いて、新規な症例について肝転移の予測判定に有効に利用される。このような統計解析処理法として、ロジスティック回帰式による手法のみならず、階層的クラスタリング、人工ニューラルネットワーク（ANN）モデル、Self-Organizing Map (SOM)、Support Vector Machine（SVM）などの手法が挙げられる。例えば、新規な症例について、総合高判別能遺伝子セットの遺伝子発現データを取得し、そのデータを本実施例で使用した遺伝子発現データに追加して上記のクラスタリングを行うことにより、追加した新規な症例のデータが、肝転移あり症例を多く含むクラスターと肝転移なし症例を多く含むクラスターのどちらに含まれるかを調べることによって、その新規な症例が肝転移を起こす可能性が高いか否かを予測判定することができる。
【００５３】
また、新たに階層的クラスタリングを行うのに十分な数の別の症例について本願発明で開示した総合高判別能遺伝子セットの発現データを解析すれば、本実施例で取得した遺伝子発現データそのものを使わなくとも、新たなクラスタリングを行い肝転移の予測判定に利用することもできる。同様に、ANNモデル、SOM、SVMについても、十分な数の新たな症例に対して、本願発明で開示した総合高判別能遺伝子セットの発現データを解析すれば、本実施例で取得した遺伝子発現データそのものは必ずしも必要ではない。
また、本願発明で開示する上記の各々の総合高判別能遺伝子セットは、肝転移予測に必要な最小限の数の遺伝子を含むものであり、他のいくつかの遺伝子を加えて新たな遺伝子セットを生成し、それを用いて肝転移予測に利用することも可能である。逆に、各遺伝子セットから１〜数個の遺伝子を抜いても肝転移を予測することは可能である。更には、各遺伝子セットの遺伝子を相互に組み合わせて新たな遺伝子セットを構築することもできる。これらを実施する際には、上述した方法に従って、新規な遺伝子セットの判別能力評価を行うことが望ましい。このとき、遺伝子セットは、判別能力値が５０％以上、好ましくは、７０％以上、更に好ましくは、８５％以上になる場合に採択される。
【００５４】
【実施例】
以下に本発明に至るまでの実施例を示すが、本実施例によって本願発明は何ら制約を受けることはない。なお、実施例において使用した試薬類は特にことわりのない限り、ナカライテスク株式会社より購入したものを使用した。
実施例１
ｃＤＮＡライブラリーの作製
大腸癌における遺伝子発現プロファイル解析に特化したＤＮＡマイクロアレイを作製するためには、プリントするプローブを大腸癌そのものから単離するのが最良と考えた。そこで、プローブの元となる３つのｃＤＮＡライブラリーすなわち、大腸癌原発巣ｃＤＮＡライブラリー、大腸癌肝転移巣ｃＤＮＡライブラリー、及び正常大腸粘膜ｃＤＮＡライブラリーを作製した。方法は、まず、インフォームドコンセントを経て収集されたヒト大腸癌原発巣細胞、ヒト大腸癌肝転移巣細胞及びヒト正常大腸粘膜細胞のそれぞれからTRIzol試（GIBCO BRL社より購入）を用いて全ＲＮＡを抽出した。次に、これらの全ＲＮＡの中に存在するポリアデニン付加ＲＮＡ（以下、「ｍＲＮＡ」と記載する）を、mRNA Purification Kit（Amersham BioSciences社より購入）を用いて精製した。精製手順は、本キットに添付のマニュアルに従った。さらにこれらのｍＲＮＡを材料に、市販のキットSuperScript plasmid system for cDNA synthesis and plasmid cloning（GIBCO BRL社より購入）を用いて上述の３種類のｃＤＮＡライブラリーを作製した。最終的には、作製したｃＤＮＡライブラリーを大腸菌XL2-Blue株（STRATAGENE社より購入）に導入することによりｃＤＮＡライブラリークローンを得た。
【００５５】
実施例２
ｃＤＮＡライブラリークローンにクローニングされているｃＤＮＡの増幅と精製
実施例１に記載の方法で作製した３種類のｃＤＮＡライブラリーのそれぞれのライブラリーから、各１０,０００クローンずつの大腸菌コロニーを、予め１５０μLのCIRCLEGROW培地（BIO 101社より購入）を分注しておいた９６ウェルプレートのそれぞれのウェルに植菌した。なお、本CIRCLEGROW培地には、分注する前に予め１／５００量のＭ１３ＫＯ７ヘルパーファージ（GIBCO BRL社より購入）を添加しておいた。大腸菌コロニーを植菌したプレートは３７℃のインキュベーター内で１２〜１６時間培養した。培養後、プレート遠心機を用いて遠心分離することにより菌体を沈殿させた。こうして得られた培養上清中には、各ｃＤＮＡライブラリークローンにクローニングされているヒトｃＤＮＡに由来する一本鎖ＤＮＡを含むファージが含まれている。従って、この培養上清と、ヒトｃＤＮＡと連結されているベクター部分の配列に対して相補的なプライマーＤＮＡを用いてＰＣＲを行うことにより、各ｃＤＮＡライブラリークローンにクローニングされているヒトｃＤＮＡを増幅ＤＮＡ断片として得ることができる。
【００５６】
実際には、０.２ｍＬ用のマイクロチューブ内で、１μLの上記培養上清、３μLの１０ｘＺ−Ｔａｑバッファー、２.５μLの２.５ｍＭｄＮＴＰ、０.５μLの１０ｐｍｏｌ／μL Ｍ１３ forwardプライマー（配列；5’-GTTTTCCCAGTCACGACGTT）（配列番号１４）、０.５μLの１０ｐｍｏｌ／μL Ｍ１３ reverseプライマー（配列；5’-AGCGGATAACAATTTCACAC）（配列番号１５）、０.２５μLのTaKaRa Z-Taq ＤＮＡポリメラーゼ及び２２.２５μLの滅菌蒸留水を混合し、サーマルサイクラーGeneAmp PCR System 9700（Applied Biosystems社より購入）上でＰＣＲ増幅した。反応サイクルは、９６℃で３０秒、４８℃で３０秒、７２℃で４分間の３ステップを１サイクルとして３５サイクル行った。増幅されたＤＮＡ断片はガラスビーズ法によって精製した。すなわち、増幅後のＰＣＲ反応液に対して、塩酸処理によって活性化したSILICAビーズ（SIGMA社より購入）を添加した６Ｍヨウ化ナトリウム溶液を１５０μL加えてよく攪拌し、フィルター付９６ウェルプレートMultiScreen-GV（MILLIPORE社より購入）に移し遠心分離により濾過を行った。フィルター上に残ったガラスビーズに１００μLの洗浄バッファー（２０ｍＭＴｒｉｓ−ＨＣｌ、１ｍＭＥＤＴＡ、１００ｍＭＮａＣｌ、５０％エタノール）を添加して再び遠心分離することにより洗浄した。再度同じようにして洗浄を行った後、フィルター上に残ったガラスビーズに対して２５μLのＴＥバッファー（１０ｍＭＴｒｉｓ−ＨＣｌ、１ｍＭＥＤＴＡ）を添加して遠心分離することにより、濾液中に精製された増幅ＤＮＡを回収した。
【００５７】
実施例３
ライブラリークローン由来ｃＤＮＡの塩基配列解析
前述のようにして精製した、各ｃＤＮＡライブラリークローン由来の増幅ｃＤＮＡ断片の塩基配列を決定した。すなわち、精製ＤＮＡ溶液４μLを鋳型ＤＮＡとして用い、Big Dye Terminator Cycle Sequencing FS Ready Reaction Kit（Applied Biosystems社より購入）を用いてサイクルシークエンシング反応を行った。反応溶液の調製及び反応条件は上記キットに添付のマニュアルに従った。反応生成物の精製はMILLIPORE社のウェブサイト（http://www.millipore.com/nihon\analytical\jppubdbase.nsf/docs/tn053JA.html）に紹介されている「マルチスクリーン９６ウェルプレートを用いたダイターミネーターおよびシークエンシング反応物のクリーンアップ」法に従って行った。
【００５８】
その後、精製済シークエンシング反応物の電気泳動及び塩基配列の自動解析にはABI PRISM 3700 Genetic Analyzer（Applied Biosystems社より購入）を用いた。このようにして決定された各ｃＤＮＡの塩基配列について、遺伝子配列データベースであるGenBankに登録されている配列に対してホモロジー検索プログラムであるBLASTを利用したホモロジー検索を行うことにより、各ｃＤＮＡライブラリークローンにクローニングされているｃＤＮＡの遺伝子名とGenBank中でのアクセス番号を明らかにした。このホモロジー検索で同定したGenBank中でのアクセス番号を指標に、同じ遺伝子断片を含むクローンを重複して選ばないようにしながらＤＮＡマイクロアレイにプリントする４,４３０種類のクローンを選択した。その内訳は、遺伝子名が同定できた断片が約３,０００種類、遺伝子名を同定できなかった未知遺伝子断片が約１,４００種類であった。
【００５９】
実施例４
ＤＮＡマイクロアレイにプリントするｃＤＮＡの調製
実施例３に記載の手順で選択した４,４３０クローンについて、前述と同様にしてＰＣＲによるｃＤＮＡの増幅を行った。ただし、今回は反応容量が１００μLで反応を行った。すなわち、０.２ｍＬ用のマイクロチューブ内で、３μLのｃＤＮＡライブラリークローン培養上清、１０μLの１０ｘZ-Taqバッファー、８μLの２.５ｍＭｄＮＴＰ、１μLの１０ｐｍｏｌ／μL Ｍ１３ forwardプライマー（配列；5’-GTTTTCCCAGTCACGACGTT）（配列番号１４）、１μLの１０ｐｍｏｌ／μL Ｍ１３ reverseプライマー（配列；5’-AGCGGATAACAATTTCACAC）（配列番号１５）、０.５μLのTaKaRa Z-Taq ＤＮＡポリメラーゼ及び７６.５μLの滅菌蒸留水を混合し、サーマルサイクラーGeneAmp PCR System 9700（Applied Biosystems社より購入）上でＰＣＲ増幅した。反応サイクルは、９６℃で３０秒、４８℃で３０秒、７２℃で４分間の３ステップを１サイクルとして３５サイクル行った。この反応で使用した１０ｘZ-Taqバッファー、２.５ｍＭｄＮＴＰ及びTaKaRa Z-Taq ＤＮＡポリメラーゼは、いずれも宝酒造株式会社より購入した。反応後は、通常のエタノール沈殿を行うことにより増幅ＤＮＡの精製を行った。最終的には、増幅ＤＮＡを３０μLの３ｘＳＳＣ（０.４５Ｍ塩化ナトリウム，４５ｍＭクエン酸ナトリウム，ｐＨ７.０）溶液に溶解した。
【００６０】
さらに、今回発明者らが作製したライブラリーに含まれていなかったものの、論文などで癌との関連が示唆されていた約１７０種類の既知遺伝子についてもｃＤＮＡ断片を準備した。実際には、１７０種類のうち１４０種類については米国Research Genetics社で販売されていたクローンを購入して前述と同様のＰＣＲを行うことにより目的のｃＤＮＡ断片を得た。残り３０種類については、市販のクローンがなかったため、GenBankに登録されている配列に基づいてデザインした、各遺伝子配列に特異的なＰＣＲプライマーを用いて、ヒト正常大腸粘膜及び大腸癌より抽出したｍＲＮＡを材料として通常のＲＴ−ＰＣＲを行うことにより、目的とする増幅ｃＤＮＡ断片を得た。これらの増幅ＤＮＡ断片についてもエタノール沈殿を行うことにより精製し、最終的に３０μLの３ｘＳＳＣに溶解した。
【００６１】
実施例５
ＤＮＡマイクロアレイの作製
実施例１〜４に記載した方法で増幅したｃＤＮＡ断片（合計４,６０８種類）をＤＮＡマイクロアレイにプリントするプローブとして使用した。具体的には、これらのｃＤＮＡの溶液を３８４ウェルプレート（Applied Biosystems社より購入）に移し、ＳＰＢＩＯ−２０００マイクロアレイヤー（日立ソフトウェアエンジニアリング）を使ってシランコートスライドガラス（ＢＭ機器）にプリントすることにより大腸癌解析用ＤＮＡマイクロアレイを完成した。また、プリントした各ｃＤＮＡプローブ（以下、単に「プローブ」と記載することがある）にはシリアル番号を付与し、前述の方法で調べた各プローブの塩基配列、遺伝子名及びGenBankにおけるアクセス番号に加えて、スライドガラス上でのプローブの位置情報の照合が可能なようにデータベースを作製した。このデータベースにおいては、前述のホモロジー検索でGenBank中の既知のｃＤＮＡと合致しなかったプローブについては、便宜上、遺伝子名を未知遺伝子とし、ＥＳＴのみと合致したものについては遺伝子名をＥＳＴとした。
【００６２】
実施例６
試料からの全ＲＮＡ調製
ＤＮＡマイクロアレイを用いた、大腸癌における遺伝子発現解析を行うための試料として、インフォームドコンセントを経て収集された、大腸癌手術時に切除された大腸癌原発巣組織試料２０３症例分及びその周辺部より分離された正常大腸粘膜組織試料５２症例分を用いた。大腸癌原発巣組織試料は全て、日本における大腸癌の病期分類において第ＩＩ期及び第ＩＩＩ期に属するものであり、うち１２７症例は原発巣の除去手術後に異時性肝転移が見られず予後が良好であった患者（以下、「肝転移なし症例」と記載する）に由来するものであり、５１症例は原発巣の除去手術後数年以内に肝臓への転移が見られた患者（以下、「肝転移あり症例」と記載する）、残り２５症例は肝臓以外の臓器や腹膜への転移が見られた症例に由来するものであった。各試料より前述のようにしてTRIzol試薬を用いて全ＲＮＡを抽出した。５２例分の正常大腸粘膜試料由来の全ＲＮＡのうち４０人分を混合して、全ての実験を通して使用する標準正常大腸粘膜全ＲＮＡとした。これらのＲＮＡサンプルの濃度は、定法通りに分光光度計を用いて測定した波長２６０ｎｍでの吸光度に基づいて算出した。
【００６３】
実施例７
蛍光ラベルターゲットの調製
ＤＮＡマイクロアレイにハイブリダイズさせる蛍光ラベルターゲットは以下の手順で作製した。まず、２５μｇの大腸癌原発巣組織由来全ＲＮＡ（以下、「大腸癌ＲＮＡ」と記す）と２５μｇの標準正常大腸粘膜全ＲＮＡ（以下、「標準大腸粘膜ＲＮＡ」と記す）を別々のチューブに入れ、それぞれに２μｇの１８ヌクレオチドから成るオリゴｄＴプライマーを加え、滅菌蒸留水にて容量を１４μLとし、７０℃で１０分間加熱した後、直ちに氷上に移して急冷した。その後、それぞれのチューブに、６μLの５ｘFirst Strand Buffer、３μLの０.１ＭＤＴＴ、１.５μLの２０ｘｄＮＴＰｍｉｘ（１０ｍＭのｄＡＴＰ，ｄＣＴＰ，ｄＧＴＰ及び６ｍＭのｄＴＴＰの混合物）及び０.５μLのＲＮＡguardを添加した。さらに、大腸癌ＲＮＡを入れた方のチューブに蛍光色素Ｃｙ３でラベルされたｄＵＴＰ（以下、「Ｃｙ３−ｄＵＴＰ」と記す；濃度１ｍＭ）を３μL、標準大腸粘膜ＲＮＡを入れた方のチューブにＣｙ５でラベルされたｄＵＴＰ（以下、「Ｃｙ５−ｄＵＴＰ」と記す；濃度１ｍＭ）を３μL加えて、４２℃にて２分間保温した。
【００６４】
その後、逆転写酵素であるSuperScriptIIを各チューブに２μL加えて、４２℃にてさらに１時間保温することによりラベル反応を行った。この反応により、大腸癌ＲＮＡと標準大腸粘膜ＲＮＡを鋳型としてｃＤＮＡ合成が起こる際に、それぞれＣｙ３−ｄＵＴＰとＣｙ５−ｄＵＴＰが取り込まれることにより、それぞれＣｙ３とＣｙ５で蛍光ラベルされた大腸癌ラベルターゲットと標準大腸粘膜ラベルターゲットが生成する。この反応で使用した５ｘFirst Strand Buffer、０.１ＭＤＴＴ及びSuperScriptIIは、いずれもGIBCO BRL社より購入した。また、ｄＡＴＰ，ｄＣＴＰ，ｄＧＴＰ及びｄＴＴＰ、Ｃｙ５−ｄＵＴＰ及びＣｙ３−ｄＵＴＰ、そしてＲＮＡguardはいずれもAmersham BioSciences社より購入した。反応後は、各チューブに５μLの変性溶液（０.５ＮＮａＯＨ，５０ｍＭＥＤＴＡ）を添加して７０℃で１０分間加熱した後、７.５μLの１ＭＴｒｉｓ−ＨＣｌ（ｐＨ７.５）を加えることにより中和した。これらの処理を行った段階で、大腸癌ラベルターゲットと標準大腸粘膜ラベルターゲットを混合し、ここに１０μｇのhuman COT-1 ＤＮＡ（GIBCO BRL社より購入）を添加した。この混合液にＴＥバッファーを加えて５００μLに調整し、Microcon-30（Amicon社より購入）を用いて精製・濃縮することにより、未反応のＣｙ５−ｄＵＴＰ及びＣｙ３−ｄＵＴＰなどを除去した。精製・濃縮の手順はMicrocon-30に添付のマニュアルに従った。最終的には、全容量が５μLとなるまで濃縮し、これをＤＮＡマイクロアレイにハイブリダイズさせるラベルターゲットとした。
【００６５】
実施例８
ＤＮＡマイクロアレイの前処理
ＤＮＡマイクロアレイをマスキング溶液（３ｇの無水コハク酸、１９０ｍＬのＮ−メチル−２−ピロリドン及び２１ｍＬの０.２Ｍホウ酸ナトリウムの混合液）に５分間浸すことによりマスキングを行った後、９５℃の蒸留水に３分間浸すことにより、マイクロアレイ上にプリントされているｃＤＮＡを熱変性させた。その後直ちに９５％以上のエタノールに１分間浸して脱水し風乾させた。
【００６６】
実施例９
ラベルターゲットとＤＮＡマイクロアレイとのハイブリダイゼーション
実施例８のようにして調製したラベルターゲット溶液５μLに対して、２.５μLの１０ｍｇ／ｍＬのポリアデニン（Roche社より購入）、０.５μLの１０％ＳＤＳ溶液、３μLの２０ｘＰＭ溶液（０.４％ＢＳＡと１％ＳＤＳの混合液）、１５μLのホルムアミド、３μLの２０ｘＳＳＣ（３Ｍ塩化ナトリウム，０.３Ｍクエン酸ナトリウム，ｐＨ７.０）及び滅菌蒸留水１μLを添加し、１００℃で２分間加熱した後、暗所にて約３０分間室温で静置した。その後、前項に記載の方法で前処理したＤＮＡマイクロアレイのｃＤＮＡがプリントされている部分に滴下し、２４ｘ４０ミリメートルのカバーガラス（マツナミガラス工業より購入）で覆い、マイクロアレイを密閉容器に入れ、その容器ごと４２℃のインキュベーターに約１６時間入れておくことにより、ラベルターゲットをマイクロアレイ上のｃＤＮＡにハイブリダイズさせた。ハイブリダイゼーションの後、マイクロアレイを０.１％ＳＤＳを含む２ｘＳＳＣに浸して１０分間洗浄し、次に、０.１％ＳＤＳを含む０.１ｘＳＳＣに浸して１０分間洗浄した。さらに、０.１ｘＳＳＣに浸して５分間の洗浄を２回行った後、滴を切って暗所で風乾させた。
【００６７】
実施例１０
マイクロアレイのスキャンとデータ解析
洗浄後風乾させたマイクロアレイを、マイクロアレイ専用共焦点レーザースキャナであるScanArray 4000（GSI Lumonics社製）を使ってＣｙ３とＣｙ５の蛍光を独立にスキャンすることにより、マイクロアレイ上の各プローブにハイブリダイズした大腸癌ターゲットと標準大腸ターゲットに由来するＣｙ３とＣｙ５の蛍光パターンを１６ビットのTiff形式のスキャン画像データとして得た。続いて、それらの画像データをマイクロアレイデータ専用解析ソフトであるQuantarrayソフトウェア（GSI Lumonics社製）を用いて解析することにより、全プローブについてのＣｙ３とＣｙ５の蛍光強度をテキスト形式の数値データとして得た。バックグラウンドの補正のために、ｃＤＮＡがプリントされていない部分の蛍光強度値を、各プローブについての蛍光強度値から差し引いた。また、蛍光強度値が低い部分は実験誤差の影響を大きく受けるため、蛍光強度値が高い方から約３０００のデータポイントを残して他のデータは棄却した。各プローブについてのＣｙ３とＣｙ５の蛍光強度値の比、すなわちＣｙ３／Ｃｙ５を算出し、底が２の対数値（以下、「ｌｏｇ（Ｃｙ３／Ｃｙ５）」と記載）に変換した。スキャンの際に起こりうるＣｙ３とＣｙ５の検出感度調整のずれを補正して標準化するために、各プローブについてのｌｏｇ（Ｃｙ３／Ｃｙ５）値から、全ｌｏｇ（Ｃｙ３／Ｃｙ５）値の中央値（median）を差し引くことにより標準化ｌｏｇ（Ｃｙ３／Ｃｙ５）値を得た。
【００６８】
以上の操作により、標準大腸粘膜ＲＮＡを基準としたときの、肝転移なしの症例１２７例分及び肝転移ありの症例５１例分の大腸癌原発巣の相対的発現強度を対数化し、標準化した数値データを得ることができた。また、同様の操作によって、標準大腸粘膜ＲＮＡを基準としたときの、正常大腸粘膜サンプル１２例分の数値データも得た。これらの数値データのうち、解析した２０３症例の大腸癌原発巣のうちの８５％にあたる１７３症例以上についてデータが取得できており、かつ、２０３症例の大腸癌原発巣のデータ内での分散値（variance）が、１２例の正常大腸粘膜についてのデータ内での分散値の１.１倍を超えていた合計２,０６９種類のプローブについてのデータのみを選択した。これらのデータ中に存在する欠損値は次の方法で補完した。すなわち、補完する欠損値を含む症例についての全データの平均値に、その欠損値を含む遺伝子の全症例についてのデータの平均値を加えた値から、全症例についての全遺伝子のデータの平均値を引いた値をもって補完した。このようにして得た数値データを以降、標準化遺伝子発現データと記載する。
【００６９】
実施例１１
ＤＮＡマイクロアレイデータの統計解析による大腸癌異時性肝転移予測のための高判別能遺伝子セットの決定
本項においては、ＤＮＡマイクロアレイにプリントしたプローブを指して遺伝子と呼称することがある。
本発明である、大腸癌肝転移の予測判定に利用可能な遺伝子セットを決定する上で実施された情報処理手順は、遺伝子発現データの判別分析手法に基づく手法に従った。以下、図面を参照して具体的に説明する。
以下、本発明を実施する場合の一形態を、処理手順を示すフローチャートにより、より詳細に説明する。
【００７０】
図１は、本発明の実施の一形態における判別分析手法の手順を示すフローチャートである。ここでは、実施例１０に記載した肝転移あり症例群と肝転移なし症例群に由来する遺伝子発現データに基づいて、両群の違いを特徴付ける遺伝子とパラメータを求めることを目的とする。それを決定することができれば、新規のサンプルにおいて、上述の両群の違いを特徴付ける遺伝子の発現データを取得し、そのデータを例えば本実施例に記載のようにロジスティック回帰式に代入することにより、その新規サンプルが肝転移あり症例群と肝転移なし症例群のどちらの群に所属するものであるか、すなわち、その新規サンプルの提供者が将来肝転移を起こすか否かを予測判定することが可能となる。
【００７１】
まず、実施例１０に記載の方法により得られた標準化遺伝子発現データ、標準化遺伝子発現データ中の数値のそれぞれに対応するＤＮＡマイクロアレイ上のプローブ番号のリスト（以下、「対象遺伝子セット」と記載することがある）と症例番号のリスト（以下、「対象サンプルセット」と記載することがある）からなる標準化データマトリックスを用意した（１０１）。
続いて、対象遺伝子セットの中から、後述の方法により、遺伝子発現のパターンが各症例間で似通ったものを除去することにより、標準化遺伝子発現データ中の多重共線性の問題を除去した（１０２）。多重共線性を除去した対象遺伝子セットにおいて、後述する高判別能遺伝子の順位付け手法によって、高い判別能力を持つ順番に遺伝子を並べたリスト（高判別能遺伝子リスト）を生成し（１０３）、さらに、後述する総合高判別能遺伝子セット決定手法により、高い判別能力を持つ１つの遺伝子セット（総合高判別能遺伝子セット）を得た（１０４）。
【００７２】
得られた総合高判別能遺伝子セットにつき、後述する判別能力評価手法により判別能力を評価し（１０５）、このセットを用いた場合の判別能力が基準値を満たす場合、すなわち後述の判別能力値が７０％以上である場合（１０６）、得られた総合高判別能遺伝子セットを採択し（１０７）、引き続き、高判別能遺伝子順序より先頭の遺伝子を除き（１０８）、手順１０４に戻り、次の総合高判別能遺伝子セットを得た。総合高判別能遺伝子セットの判別能力値が７０％未満である場合、その総合高判別能遺伝子セットは採用せず、処理を終了した。以上の手順によって、基準値以上の判別能力を持った、異なる遺伝子の組み合わせからなる総合高判別能遺伝子セットの組を得ることができた。
【００７３】
図２は、図1における手順１０２の多重共線性除去の手順を示すものである。対象遺伝子セットのうち、遺伝子発現のパターンが各症例間で似通った遺伝子同士をグループ化し、グループの代表遺伝子以外の遺伝子を対象遺伝子セットから除去することにより、遺伝子発現プロファイルの多重共線性の問題を回避するための処理である。具体的には、遺伝子セットに含まれる全遺伝子の組（遺伝子対）において、各症例における標準化発現量を説明変量としたピアソンの相関係数を求め（２０１）、その値が０.８以上のものを相関が高い遺伝子対とした。相関が高い遺伝子対が存在する間（２０２）、最も多くの遺伝子対に含まれる遺伝子を代表遺伝子とし（２０３）、その遺伝子と遺伝子対を作る遺伝子を対象遺伝子セットから除いた（２０４）。この処理によって、一次的な相関の高い遺伝子対が存在しない遺伝子セットが生成された。代表遺伝子との間に多重共線性があるとして解析対象から外された遺伝子（高相関遺伝子）は、解析の過程において、代表遺伝子の代替遺伝子として用いることが可能である。また、解析によって得られる総合高判別能遺伝子セットに含まれる代表遺伝子は、高相関遺伝子によって代替可能である。
【００７４】
図４は、図１における手順１０３における高判別能遺伝子の順位付けの手法を示すものである。この手法は、判別対象である対象サンプルをランダムに分割したサンプルセットにおいて高判別能遺伝子セットを求める処理を大量に繰り返すことにより、データに含まれるノイズに影響されず、普遍的に高判別能を持つ遺伝子のリストを得ることを可能とした処理である。また、サンプルセットのランダムな選択において、ランダムサンプリングに因らず、ランダム分割を採用することにより、各サンプルの解析に供せられる頻度を正確に一致させることを可能にしている。まず、高判別能遺伝子セットを求める処理の繰り返し回数を記憶するカウンタＩを０に初期化した（４０１）。以下、肝転移あり症例群と肝転移なし症例群を、それぞれ便宜上Ｓ，Ｔと記載することがある。Ｓ，Ｔそれぞれをランダムに２分割し、Ｓａ，Ｓｂ，Ｔａ，Ｔｂの４つのサンプル集合を得た（４０２）。
【００７５】
後述する高判別能遺伝子セット採択手法により、Ｓａ，Ｔａの２つの集合を対象とした高判別能遺伝子セットを得（４０３）、さらに、Ｓｂ, Ｔｂの２つの集合を対象とした高判別能遺伝子セットを得て（４０４）、手順４０３、手順４０４によって得られた高判別能遺伝子セットに含まれる遺伝子を蓄積した（４０５）。Ｉを１増加し（４０６）、Ｉが５,０００より小さい間（４０７）、手順４０２以降を繰り返した。Ｉが５,０００に達することで繰り返しを完了し、蓄積された遺伝子を集計して、高判別能遺伝子セットに含まれた回数の多い遺伝子より、高い判別能力を持った遺伝子であると判断して順位付けを行った（４０８）。表１〜３は、上述の順位付けにより得られたリストのうち、高い判別能力を持つと考えられる遺伝子、すなわち高判別能遺伝子セットに含まれた回数が多い遺伝子の上位１００種類を示す。表１〜３のシリアル番号は、ＤＮＡマイクロアレイに固定したプローブ遺伝子の番号を示す。表１〜３のプローブ遺伝子名及びアクセス番号は、GenBankに記載されたものである。上記のホモロジー検索の結果、既知の遺伝子やＥＳＴに合致しなかったプローブについては、表１〜３中に記載の通り遺伝子名を未知遺伝子とし、配列番号１から１３と表記した。これら未知遺伝子の塩基配列を、配列表の配列番号１から１３に記載した。
【００７６】
これまでに記載した経緯に基づけば、この表１〜３に含まれる遺伝子の発現情報は、大腸癌の異時性肝転移の予測判別のために有用であると考えられる。さらに、表１〜３に含まれる遺伝子の中から、より好ましい遺伝子を選択してセットとして使用することにより、好成績で大腸癌の異時性肝転移の予測判別ができると考えられる。そのための一方法として、発明者らは、前述のようにの手順１０４から手順１０８の一連の手順に従って総合高判別能遺伝子セットの組を選出した。
【００７７】
図５は、図４における手順４０３と４０４において行う高判別能遺伝子セットを採択する手法の一例を示すものである。まず、空の遺伝子集合Ｇを用意し（５０１）、ＧとＧに含まれない全ての遺伝子ｅの組について、対象サンプルにおける判別対象となる状態Ｓ，Ｔに関するロジスティック回帰を行い、ＡＩＣ値が最小となる要素ｅ’を見つけた（５０２）。（Ｇ＋ｅ’）のＡＩＣ値をＧのＡＩＣ値と比較し（５０３）、（Ｇ＋ｅ’）のＡＩＣ値の方が小さな場合は要素ｅ’を遺伝子集合Ｇに加え、手順５０２以降を繰り返した。手順５０３において、（Ｇ＋ｅ’）のＡＩＣ値の方が小さくない場合は、繰り返し処理を終了し、Ｇに含まれる遺伝子を高判別能遺伝子セットとした。
【００７８】
ここで、ロジスティック回帰は、式：
【数１】

（１）
であらわされる出力関数（ロジスティック関数）を用いた回帰モデルであり、目的とする判別式は：
【数２】

（２）
で表すことができる。ここで、ｉはサンプル毎の系列（遺伝子）を、ｎは系列数（遺伝子数）を表す。
【００７９】
遺伝子集合Ｇ＋要素ｅ’を説明変数とした出力が０から１の間の値を取り、肝転移なし症例の場合には０に近い値を出力し、肝転移あり症例の場合には１に近い値を出力することを期待して、ロジスティック回帰モデルの出力ｙを肝転移あり症例である確率と解釈、肝転移なし症例である確率を１−ｙと解釈するとき、計測データより得られる尤度は、確率の積である式：
【数３】

（３）
で表すことができ、尤度を最大とするパラメータを求める。実際には、計算の簡便さより、対数尤度の式：
【数４】

（４）
が最大となるパラメータをNewton-Raphson法により求めた。斯かるパラメータは、Davidon-Fletcher-Powell法により求めることもできる。
【００８０】
ＡＩＣ（赤池情報量規準）は、データの情報を最も有効に活かすのには，どのモデルが最適かを判断する規準であり、式：
【数５】

（５）
で表される。ここで、Ｎはサンプル数、Log(L)は対数尤度、pは説明変数の数（回帰変数の自由度に相当、ここでは遺伝子数）を表す。ＡＩＣを用いることにより、肝転移あり症例と肝転移なし症例を区別するために、最適な遺伝子の組み合わせを判断することが可能である。
【００８１】
図６は、図１における手順１０４の、総合高判別能遺伝子セットの決定の手順を示すものである。まず、総合高判別能遺伝子セットを求める処理の繰り返し回数を記憶するカウンタＩを０に初期化した（６０１）。繰り返しの間に発生する最小ＡＩＣ値：Ａとその際の遺伝子数：Ｗを初期化し（６０２）、Ｉを１増加した（６０３）。順位付けられた遺伝子の１〜Ｉ番目を対象として、手順１０３におけると同様の手順により、判別対象となる２つの集合Ｓ，集合Ｔに対するロジスティック回帰を行い、ＡＩＣ値Ａ’を求めた（６０４）。Ａ’がＡよりも小さい場合、Ａ’の値をＡに、ＩをＷに記憶し（６０６）、Ｉが１００より小さい間、手順６０３以下を繰り返した（６０７）。こうして、順位付けられた遺伝子の１〜１００番目の組における最小のＡＩＣ値を持つ組として、１〜Ｗ番目の遺伝子を得、これを総合高判別能遺伝子セットとして採択した（６０８）。
【００８２】
図７は、図１における手順１０５において行う、総合高判別能遺伝子セットの判別能力評価の手順を示すものである。まず、処理の繰り返し回数を記憶するカウンタＩを０に初期化した（７０１）。肝転移あり症例群と肝転移なし症例群の集合であるＳ，Ｔのそれぞれをランダムに２分割して部分集合Ｓａ、Ｓｃ及びＴａ、Ｔｃを得た（７０２）。２つの部分集合、ＳａとＴａを用いて、総合高判別能遺伝子セットによって集合Ｓ，Ｔを判別する判別式を求め（７０３）、ＳｃとＴｃを用いて、判別式の検証を行って結果を蓄積した（７０４）。すなわち、判別式は前記のロジスティック回帰により求め、その式を使ってＳｃとＴｃに含まれるサンプルが、正確に判別されるかを判定した。すなわち、判定式による判定結果が各サンプルの実際の臨床情報と一致しているかどうかを判定したことになる。Ｉを１増加し（７０５）、Ｉが１０,０００より小さい間、手順７０２以下を繰り返した（７０６）。この手順７０２〜７０６までの一連の手順の繰り返しの結果、各症例についてＩの繰り返し回数の分だけ、すなわちＩ＝１０,０００ならば１０,０００回の検証判定結果が蓄積される。この１０,０００回の判定のうち９,５００回以上の判定結果が正解であった症例、すなわち臨床情報と合致していた症例の全解析症例数に対する割合を判別能力値として求めた（７０７）。
【００８３】
このようにして決定した、総合高判別能遺伝子セットの組と各々の判別能力値を表４から表１５までに記載した。各表におけるシリアル番号、アクセス番号及び遺伝子名は、前述の通りである。また、表５及び表６に含まれるシリアル番号３０１７のプローブについては、図２に記載した手順により高相関遺伝子が６種類同定された。これらについては表１６に遺伝子名及びGenBankにおけるアクセス番号をまとめて記載した。これら６種類のプローブは、それらの代表として解析に使用した３０１７番と等価なものと考えてよいので、表５及び表６に挙げた遺伝子セットのうちの３０１７は、表１６に挙げた６種類のいずれとでも置換することが可能である。
従って、表４から表１５までに開示した総合高判別能遺伝子セットの各々、及び、表５と表６の中のシリアル番号３０１７の遺伝子を表１６に含まれる遺伝子のいずれかと置換して生成される総合高判別能遺伝子セットの各々の発現情報は大腸癌の肝転移予測に有効に利用され得る。
【００８４】
さらに、表４から表１５までに開示した総合高判別能遺伝子セットの各々は、前述の判別能力値７０％という基準値を上回る精度で肝転移を予測するために必要な、最小限の数の遺伝子を含むものであり、他のいくつかの遺伝子を加えて新たな遺伝子セットを生成し、それを用いて肝転移予測に利用することも可能である。それを証明する例として、表４，表５及び表６に示した総合高判別能遺伝子セットのそれぞれに、いくつかの遺伝子を加えて生成した新たな遺伝子セットと、それらの判別能力値を表１７，表１８及び表１９に示した。表１７，表１８及び表１９の遺伝子セットの判別能力値はいずれも７０％を上回っていることから、本願発明で開示した総合高判別能遺伝子セットの各々と同様に、肝転移予測に利用可能である。
【００８５】
【表１７】

【００８６】
【表１８】

【００８７】
【表１９】

【００８８】
実施例１２
総合高判別能遺伝子セットのＤＮＡクラスタリングへの適用
実施例１１で解析した１７８症例の中から、２０例の肝転移あり症例と２０例の肝転移なし症例を無作為に選出し、それらの標準化遺伝子発現データの中から、表４に記載した６種の遺伝子の遺伝子発現データを抜き出し、各症例の遺伝子発現データ間の類似度を計る距離尺度としてユークリッド平方距離を用い、クラスタリングのアルゴリズムとしてウォード法を採用してクラスタリングを行った。実際にクラスタリングを行うためには、市販のソフトウェアであるGenExplore（Applied Maths BVBA社）を使用し、症例方向と遺伝子方向の二方向のクラスタリングを行った。すなわち、症例毎のクラスタリングを行ったうえで、さらに遺伝子毎にクラスタリングを行った。その結果、図８に示すように、肝転移あり症例と肝転移なし症例を完全に分離することができた。さらに、表４に記載した６遺伝子に他の９遺伝子を加えた表１７に記載の１５遺伝子について、上記と同じ方法でクラスタリングを行った結果を図９に示した。図９に示したクラスタリングの細かい点は図８のものとは異なるものの、この場合も肝転移あり症例と肝転移なし症例を完全に分離することができた。最後に、前述の１７８症例について表１７に記載の１５遺伝子の発現データをクラスタリングした結果を図１０に示した。このクラスタリングにより、全症例は、２つの群に分離され、第一群に含まれる症例のほとんどは肝転移あり症例である一方で、第二群に含まれる症例のほとんどは肝転移なし症例であった。
また、図８〜図１０中のＡ及びＤの領域に含まれる発現データ値はＢ及びＣの領域に含まれる発現データ値よりも高い傾向が認められた。
【００８９】
これらのことから、本願発明で開示した総合高判別能遺伝子セット、あるいは、該セットに好ましい方法で選ばれたいくつかの遺伝子を加えて生成される遺伝子セットの遺伝子発現データに基づけば、階層的クラスタリングでも肝転移あり群と肝転移なし群を分離可能であることが示された。
【００９０】
【発明の効果】
本願発明によると、大腸癌の肝転移に密接に関連した遺伝子セットを選択する方法、当該方法によって選択された遺伝子セット及び大腸癌原発巣組織における当該遺伝子セットの発現情報に基づく大腸癌の肝転移の予測方法が提供される。本願発明の方法に従えば、大腸癌原発巣組織の当該遺伝子セットの遺伝子発現情報をロジスティック回帰式で解析することにより、良好な肝転移予測成績を得ることができる。したがって、大腸癌原発巣切除手術の時点において肝転移を予測することが可能である。
【００９１】
本願発明の遺伝子セットは、他の統計解析方法、例えば、階層的クラスタリン及びニューラルネットワーク等に利用できるので、方法の如何を問わず、大腸癌の肝転移予測に普遍的に有効である。
肝転移の予測によって症例に応じた、よりよい治療方針の選択が可能であり、また医療経済効果も期待できる。例えば、異時性肝転移の可能性の高い症例に対しては予防肝動注などの積極的な治療を施行することによって予後の改善が期待できる。また、異時性肝転移の可能性の低い症例に対しては抗癌剤投与を回避し、不必要な副作用による患者の苦痛を軽減することができる。
【００９２】
更に、本願発明の遺伝子セットは、肝転移の原因として機能する遺伝子である可能性が高く、これらの遺伝子及びその発現産物を標的とする薬剤を開発し、肝転移を直接抑制できるようにすることも期待できる。
また、表１〜３中に記載の遺伝子のうち、遺伝子名をＥＳＴ及び未知遺伝子としてその配列を開示したものは、新規な遺伝子の一部分の配列であることから、遺伝子全長をクローニングするための情報、すなわちＰＣＲプライマーのデザインのためや、サザンハイブリダイゼーションやノーザンハイブリダイゼーション用のプローブデザインのための情報として利用可能である。更に、将来的にこれらの上流または下流部分の配列が解読されれば、本発明で開示した範囲意外の部分配列をプローブとして使用し、本発明と同様の肝転移予測診断を行うことが可能である。また、これらの遺伝子について全長をクローニングできれば、表１〜３に記載の既知の遺伝子と同様に大腸癌の肝転移抑制のための薬剤開発あるいは治療法開発の標的としての利用も期待できる。
【００９３】
【配列表】

【図面の簡単な説明】
【図１】遺伝子発現データから総合高判別能遺伝子セットの組を得るまでの、全ての手順を含むフローチャートを示す。
【図２】図１中に示した手順１０２の、多重共線性の除去方法をより詳細に説明するためのフローチャートを示す。
【図３】本願発明において、高判別能を有する遺伝子を得るために採用したブートストラップ法の概念図を示す。
【図４】図１中に示した手順１０３の、高判別能遺伝子の順位付け方法をより詳細に説明するためのフローチャートを示す。
【図５】図４中に示した手順４０３及び手順４０４の、高判別能遺伝子セットの採択方法をより詳細に説明するためのフローチャートを示す。
【図６】図１中に示した手順１０４の、総合高判別能遺伝子セットの決定方法をより詳細に説明するためのフローチャートを示す。
【図７】図１中に示した手順１０５の、総合高判別能力セットの判別能力評価方法をより詳細に説明するためのフローチャートを示す。
【図８】４０症例の大腸癌原発巣について、表４に記載した肝転移予測のための総合高判別能遺伝子セットの遺伝子発現データをクラスタリングした結果を示す。距離尺度としてユークリッド平方距離、クラスタリングのアルゴリズムとしてウォード法を用いた。縦方向は遺伝子のクラスタリング、横方向は症例のクラスタリングを示す。
【図９】４０症例の大腸癌原発巣について、表１７に記載した肝転移予測のための総合高判別能遺伝子セットの遺伝子発現データをクラスタリングした結果を示す。クラスタリングは、図８と同じ方法で行った。
【図１０】１７８症例の大腸癌原発巣について、表１７に記載した肝転移予測のための総合高判別能遺伝子セットの遺伝子発現データをクラスタリングした結果を示す。クラスタリングは、図８と同じ方法で行った。

Claims

下記の配列番号又はデータベースのアクセス番号で表される遺伝子を含む、大腸癌の異時性肝転移を予測するための遺伝子セット：
（１）AI337444, M32977, Y07572, 配列番号１, U36764, AL122042；
（２）Y07572, U36764, X76132, AL122042, M32977, L13210；
（３）X76132, M32977, AL122042, U36764, 配列番号１, L13210, AL096741；
（４）AL122042, 配列番号１, U36764, M32977, L13210, M20430, 配列番号３, AB018257；
（５）配列番号１, L13210, M32977, 配列番号３, U36764, AL096741, M20430, X65923, 配列番号２；
（６）M32977, L13210, 配列番号３, M20430, X65923, AL096741, AF072711；
（７）L13210, 配列番号３, M20430, U36764, X65923, AL096741, AF072711, 配列番号２, BC013953；
（８）X65923, U36764, 配列番号３, AL096741, 配列番号２, AF072711, M20430, BC013953；
（９）AF072711, 配列番号２, AL096741, 配列番号３, U36764, M20430, BC013953；
（10）AL096741, 配列番号３, 配列番号２, U36764, 配列番号４, BC013953, AF054175；
（11）配列番号２, U36764, 配列番号３, 配列番号４, AF054175, AB018257, BC013953；
（12）配列番号４, AF054175, U36764, AB018257, BC013953, AY044845, 配列番号３。
下記の配列番号又はデータベースのアクセス番号で表される遺伝子からなる、大腸癌の異時性肝転移を予測するための遺伝子セット。
（１）AI337444, M32977, Y07572, 配列番号１, U36764, AL122042；
（２）Y07572, U36764, X76132, AL122042, M32977, L13210；
（３）X76132, M32977, AL122042, U36764, 配列番号１, L13210, AL096741；
（４）AL122042, 配列番号１, U36764, M32977, L13210, M20430, 配列番号３, AB018257；
（５）配列番号１, L13210, M32977, 配列番号３, U36764, AL096741, M20430, X65923, 配列番号２；
（６）M32977, L13210, 配列番号３, M20430, X65923, AL096741, AF072711；
（７）L13210, 配列番号３, M20430, U36764, X65923, AL096741, AF072711, 配列番号２, BC013953；
（８）X65923, U36764, 配列番号３, AL096741, 配列番号２, AF072711, M20430, BC013953；
（９）AF072711, 配列番号２, AL096741, 配列番号３, U36764, M20430, BC013953；
（10）AL096741, 配列番号３, 配列番号２, U36764, 配列番号４, BC013953, AF054175；
（11）配列番号２, U36764, 配列番号３, 配列番号４, AF054175, AB018257, BC013953；
（12）配列番号４, AF054175, U36764, AB018257, BC013953, AY044845, 配列番号３；
（13）AI337444, M32977, Y07572, 配列番号１, U36764, AL122042, X76132, L13210, AY044845, AB033097, AF072711, M20430, AF013759, X02469, M81934；
（14）Y07572, U36764, X76132, AL122042, M32977, L13210, 配列番号１, AY044845, AL096741, M81934, M20430, 配列番号３, 配列番号２, X65923, AF072711, AB018257, X04665；
（15）X76132, M32977, AL122042, U36764, 配列番号１, L13210, AL096741, 配列番号３, AF072711。
データベースのアクセス番号X76132の遺伝子がデータベースのアクセス番号AB011100, M15518, U74301, M23114, AF073298, AL136635から選ばれる遺伝子の何れかによって置換された請求項１又は２に記載の遺伝子セット。
遺伝子が大腸癌原発巣組織由来である請求項１ないし３のいずれかに記載の遺伝子セット。
大腸癌原発巣組織がヒト由来である請求項４記載の遺伝子セット。
請求項１ないし５のいずれかに記載の遺伝子セットの遺伝子発現情報を用いることを特徴とする大腸癌の異時性肝転移を予測する方法。
遺伝子発現情報が大腸癌原発巣組織摘出時における癌組織由来である請求項６に記載の方法。
遺伝子発現情報を統計解析処理することを特徴とする請求項６又は７に記載の方法。
統計解析処理が多変量解析により行われることを特徴とする請求項８に記載の方法。
多変量解析がＳＯＭ、ＳＶＭ、ロジステック回帰式、階層的クラスタリング及びニューラルネットワークのいずれかであることを特徴とする請求項９に記載の方法。