WO2009157251A1

WO2009157251A1 - 統合失調症の診断方法

Info

Publication number: WO2009157251A1
Application number: PCT/JP2009/057861
Authority: WO
Inventors: 秀幸青島; 一男竹村; 健太朗飯嶋; 浩志林
Original assignee: 株式会社エスアールエル
Priority date: 2008-06-25
Filing date: 2009-04-20
Publication date: 2009-12-30
Also published as: JP2010029171A

Abstract

要約　患者血液を試料として高い精度で客観的に統合失調症を診断することができる新規な手段が開示されている。本発明の統合失調症の検出方法は、生体から分離された試料における、特定の１０種類の遺伝子群の発現量を指標とする。該方法によれば、高い精度で客観的に統合失調症を診断することができる。検出の感度（真陽性率）及び特異度（真陰性率）が両方とも８０％以上となることが実際の多数の検体を用いて確認された。血液を検体として利用できるので、簡便に実施することができる。

Description

統合失調症の診断方法

　本発明は、血液を試料とした統合失調症の診断方法に関する。

　日本国内における統合失調症の発症率は人口の約０．８％であり、主に青年期に発症する。該疾患の予後は多様である。概ね全体の1/3の患者については、顕著で継続的な改善をみる。1/3はいくらか改善するが，間欠性再発と残遺性障害を残す。残りの1/3は重篤で，永久的に能力が失われ、社会的機能遂行に支障をきたす重大な精神疾患である。

　統合失調症の治療では早期の治療が重要である。従来、統合失調症の診断としては、米国精神医学会(APA)が制定した精神疾患の診断・統計マニュアルであるDSM-IV (Diagnostic and Statistical Manual of Mental Disorders-IV) による包括的評価に基いて下される。しかし、このような方法では、診断医の主観や技量に大きく依存するため、該疾患を客観的かつ早期に診断することは困難である。

　統合失調症の生物学的マーカー等を用いた客観的な診断方法が確立すれば、早期診断、早期治療が可能になり、重症化の回避や治癒率の向上が可能になる。現在までに報告されている、生物学的マーカーを用いた診断方法としては、例えば、上皮細胞成長因子の血清中濃度を指標として精神***病（統合失調症）を診断する方法（特許文献１）や、血液を試料として用い、特定の遺伝子の発現量を指標とする方法がある（特許文献２）。しかしながら、特許文献１及び２記載の方法は、診断の精度が未だ満足することができない。

特許第3706913号公報特開2004-135667号公報

　従って、本発明の目的は、患者血液を試料として高い精度で客観的に統合失調症を診断することができる手段を提供することにある。

　本願発明者らは、血液を試料として用い、約55000種類の遺伝子の発現量を健常人と統合失調症患者の間で比較し、発現量が有意に変動する遺伝子を選び、さらに後述する本願発明者らが独自に考え出した基準で絞込み、これをニューラルネットワークを駆使した変数増加法とcross validation法にかけて遺伝子群の一次選択を行い、一次選択された遺伝子群にさらに本願発明者らが独自に選定したかなりの数の分類予測候補遺伝子を付加した遺伝子群を搭載した低コストで汎用性の高いマイクロアレイを作成し、上記と同様にニューラルネットワークで処理し、構築された分類予測アルゴリズムにより、検出の感度（真陽性率）及び特異度（真陰性率）が８０％以上となることを実際の多数の検体を用いて確認し、本発明を完成した。

　すなわち、本発明は、生体から分離された試料における下記(1)～(10)の遺伝子群の発現量を指標とする、統合失調症の検出方法を提供する。
(1) DLGAP3（配列番号1）
(2) KCNJ15（配列番号2）
(3) GPR30（配列番号3）
(4) NPCR（配列番号4）
(5) TMED1（配列番号5）
(6) PAFAH2（配列番号6）
(7) TMEM23（配列番号7）
(8) ABCG1（配列番号8）
(9) PGRMC1（配列番号9）
(10) INSL3（配列番号10）

　本発明により、高い精度で客観的に統合失調症を診断することができる手段が初めて提供された。

本発明の実施例で行った、ニューラルネットワークによる分類予測モデルにおける、プローブ数と正答率の関係を示す図である。重回帰分析により求めた学習例及び試験例の各検体の従属変数を示す図である。

　上記の通り、本発明は、(1)～(10)の遺伝子群の発現量を指標とする。各遺伝子の発現量を測定する試料は、生体から分離された試料であれば特に限定されるわけではないが、下記実施例で詳述するとおり、上記遺伝子群は、血液を試料として用いて選定されたものであるので、血液を試料とすることが好ましい。なお、上記遺伝子群には、統合失調症患者において発現量が増大しているものも減少しているものも含まれる。また、下記実施例において、検出の感度（真陽性率）及び特異度（真陰性率）が８０％以上となることが確認された上記１０種類の遺伝子のみの発現量に基づいて判定することが好ましい。なお、下記実施例に具体的に記載するように、測定の精度を確保する等のために、正規化のための種々の遺伝子等の他の遺伝子の発現量を同時に測定することは好ましいことであり、「上記１０種類の遺伝子のみの発現量に基づく」とは、上記１０種類の遺伝子のみの発現量を分類予測の直接的な変数として用いるという意味である。また、感度を表わす真陽性率は、下記表１におけるa/(a+b)、特異度を表わす真陰性率は、１－偽陽性＝d/(c+d)である。また、正答率は、(a+d)/(a+b+c+d)である。

　上記１０種類の遺伝子の配列は、上記した各配列番号に記載されているが、各遺伝子のGenBankアクセション番号、遺伝子産物、下記実施例で用いた、各遺伝子の発現量の測定に用いたプローブ番号及びその配列番号を下記表２に示す。

　また、これらのうち、機能がよく知られている遺伝子の機能の説明と、統合失調症患者において健常者と比較して発現量が増える（上向き矢印）のか減る（下向き矢印）のかを下記表３に示す。

　試料中の各遺伝子の発現量の測定自体は公知の方法により行なうことができる。測定方法は、特に限定されないが、各遺伝子のセンス鎖又はアンチセンス鎖とハイブリダイズする一本鎖オリゴヌクレオチドプローブ、好ましくはDNAプローブが固定化されたDNAアレイを用いる方法が簡便で好ましい。例えば、下記実施例に具体的に記載するように、血液から全mRNAを抽出し、抽出したmRNAから、ビオチン等で標識されたcRNAを調製し、各遺伝子由来のcRNAとハイブリダイズするオリゴヌクレオチドプローブが固定化されたアレイにcRNAを施してcRNAとプローブとをハイブリダイズさせ、アレイを洗浄後、基板上に残留する標識量を測定することによりcRNA量、ひいてはmRNA量、すなわち遺伝子の発現量を測定することができる。

　なお、固定化されるプローブは、cRNAと特異的にハイブリダイズするサイズを有するものであり、通常、18塩基～５０塩基、好ましくは２０塩基～４０塩基程度のサイズを有する。また、固定化するプローブは、それがハイブリダイズするRNAの領域と完全に相補的であることが好ましいが、下記実施例に具体的に記載するような、DNAアレイを用いる際の通常のハイブリダイズ条件下でハイブリダイズするものであれば少数（通常、１個か２個）のミスマッチがあっても許容できる。従って、遺伝子に天然のSNPが生じている場合でも、同じDNAアレイを用いて測定可能である。

　下記実施例では、前記遺伝子群の発現量は、配列番号34、配列番号42、配列番号77、配列番号81、配列番号98、配列番号109、配列番号122、配列番号165、配列番号200及び配列番号218に示される塩基配列を有するオリゴヌクレオチドプローブを用いて測定されており、これらのプローブを固定化したDNAアレイを好ましく利用することができる。

　上記遺伝子群の発現量に基づく判定は、基本的には前記遺伝子群の発現量を、あらかじめ測定した、既知の統合失調症患者及び健常者における前記遺伝子群の発現量と対比することにより行われる。この対比は、既知の統合失調症患者及び健常者における前記遺伝子群の発現量を用いて変数増加法により学習させたニューラルネットワークにより行なうことが好ましい。構築した学習済みのニューラルネットワーク（構築方法は後述）に測定した上記１０種類の遺伝子の発現量を入力し、該ニューラルネットワークに分類される群の予測確率を出力させ、この予測確率を判定基準として統合失調症を検出することができる。

　あるいはまた、上記対比は、重回帰分析により行なうことも好ましい。測定した上記１２種類の遺伝子の発現量を説明変数とし、既知の統合失調症患者及び健常者における前記遺伝子群の発現量を重回帰分析すると、予測式（重回帰式）を得ることができる。得られた予測式に、被検者における上記遺伝子群の発現量を入力して従属変数を求め、この従属変数の数値を既知の統合失調症患者及び健常者の従属変数と対比することで、該被検者が統合失調症か否かを判別することができる。この対比は、例えば、既知の統合失調症患者群と健常者群の各検体について計算された従属変数をもとに、両群を好ましく分類できる従属変数の値をカットオフ値として定め、被検者の従属変数をこのカットオフ値と対比することにより行なうことができる。例えば、統合失調症患者で従属変数が大きくなるように設定して発現量を分析した場合、被検者について計算された従属変数の数値がカットオフ値よりも大きければ、該被検者は統合失調症であると予測することができる。カットオフ値は、既知の統合失調症患者及び健常者について計算された従属変数をもとに、常法の統計処理により適宜定めることができる。重回帰分析の手法自体は周知であり、重回帰分析を行なうソフトウェア等も種々のものが公知で、市販品も多く存在する。本発明ではいずれのソフトウェアを用いてもよい。なお、予測式は、既知の患者及び健常者についての分析を一度行なえば定めることができるので、実施の都度既知の患者／健常者群についての分析を行なう必要はなく、一旦得られた予測式をその後に実施する際にも用いることができる。

　なお、本発明において「重回帰分析」といった場合には、得られた重回帰式を用いて試料の従属変数を求める工程を含む分析方法を広く包含し、重回帰式を得るための分析工程は必ずしも含まれない。従って、上記したように、既に求められた重回帰式を用いて統合失調症の検出を行う方法であれば、本発明にいう「重回帰分析により対比を行なう検出方法」に包含される。

　本発明で用いる発現量の測定値は、下記実施例に記載される通り、測定されるシグナル強度をグローバルノーマライゼーション(global normalization)法により正規化したものであることが好ましい。ここで、グローバルノーマライゼーション法とは、DNAマイクロアレイ上に搭載した全遺伝子の発現量の中央値を求め、この中央値で各遺伝子の発現量を除することで相対的発現量を算出する方法である。

　ニューラルネットワークを用いて本発明の方法を実施する場合、ニューラルネットワーク自体は周知であり、市販のニューラルネットワークを用いることができる。もっとも、ニューラルネットワーク自体は市販品を利用できるが、本発明では、ニューラルネットワークに学習させるデータに特徴があり、いかなるデータを学習させることにより感度（真陽性率）及び特異度（真陰性率）の両者を８０％以上にできるかは工夫が必要である（後述）。

　ニューラルネットワークを用いた分類予測モデルの最適モデルは、例えば下記実施例に詳述する方法により構築することができる。簡単に説明すると、例えば、次のようにして最適モデルを決定することができる。まず、多数の統合失調症患者及び健常者から採取した試料を用い、種々の遺伝子の発現量を測定する。遺伝子の発現量は、上記の通り、DNAマイクロアレイを用いて行なうことができる。下記実施例では、約55000種類のヒト遺伝子のDNAプローブが搭載された市販のDNAマイクロアレイを用いた。

　次に、DNAマイクロアレイを用いて測定した発現量をデータクレンジングする。ここで、データクレンジングは、例えば、全体の発現量の30%tile未満の遺伝子のプローブや98%tile以上の遺伝子のプローブを除外することにより行なうことができる。

　多数の統合失調症患者及び健常者のDNAマイクロアレイのデータを、学習例と学習例と独立した試験例に分け、学習例をニューラルネットワークに学習させ、構築された分類予測モデルによりどの程度の感度及び特異度が達成されるかを試験例を用いて算出、評価を行うHold out cross validation法により構築した。分類予測モデル構築には、ニューラルネットワークのパラメーターを変更して行い、学習例と試験例に振り分けた検体の独立性は担保して検証を続け、最も良い成績のモデルを採用した。下記実施例では、統合失調症患者及び健常者の2/3を学習例、1/3を試験例として用いた。

　まず、ニューラルネットワークに学習させる学習用データを準備する。下記実施例では、Quality Flag "Good"以外のプローブ、Y染色体上に座位する遺伝子のプローブ、mRNA 3'末端から遠位に設定されているプローブなどを除外し、約55,000個のプローブから10,498個のプローブに絞り込んだ。ここで、Quality Flagが "Good"とは、測定された発現量がスポット周囲のバックグラウンドの1.5SDより大きく、測定値として信頼できるということを意味する。またＹ染色体上に座位する遺伝子は男性にしか存在しないため、女性の検査を行った際に検出の感度及び／又は特異度が下がる恐れがあるので除外した。また、mRNA 3'末端から遠位に設定されているプローブは、cRNAの調製におけるバイアスを受けやすいため、測定値の大きな変動要因であるため除外した。さらに、予備分析により、欠損値が２５％以上あるもの、男女間の発現量の差が大きいもの、アレイ製造時のバッチ間差が大きいものも除外した。

　次にこのようにして選択した各プローブについて測定された、各プローブがハイブリダイズするRNAが由来する遺伝子の発現量をニューラルネットワークに入力し、２群間検定（ｔ検定）、すなわち、学習例の統合失調症（未投薬）と健常者群の間で有意差検定（ｔ検定）を行なう。なお、下記実施例では、試料の絞込みも行なった。すなわち、健常者５６例の中央値をプローブごとに計算し、そのデータセットを対象として各試料の相関を調べ、近似曲線のパラメータやシグナル強度比が大きく隔たったものは分析対象から除外した。

　有意差検定により有意差が認められたプローブについて変数増加法(forward selection)による選択を行なう。変数増加法自体は周知であり、説明変数（各プローブの測定結果）を１つずつ足していき、目的変数（正答率）との相関が高い組合せを得ることにより行なう。コンピューターにインストールされたニューラルネットワークを用いて変数増加法を行ない、最も正答率が高いプローブ数を選択する。下記実施例では、上記した10,498個のプローブの測定値の中から、１４種類のプローブの測定値を説明変数として用いた場合に正答率が最高になった。このようにして構築されたニューラルネットワークの最適モデルによれば、感度及び特異度とも８０％を超えたので、この最適モデル及び上記DNAマイクロアレイを用いて統合失調症の検出を行なうことが可能であった。

　しかしながら、約55000種類のプローブを搭載したDNAマイクロアレイは高価であり、１枚のマイクロアレイで１検体しか処理できないので、実用化のためにはより低コストのマイクロアレイを用いることが望まれる。そこで、下記実施例では、上記で選択された１４種類のプローブを含み、統合失調症と健常者の間で有意差があるプローブから２１６種類のプローブを選択し、基板に搭載した。この２１６種類のプローブのうち、上記した１４種類のプローブ以外の２０２種類のプローブは、統合失調症と健常者の間で有意差のあるプローブのほか、類似した精神疾患である双極性障害患者と統合失調症患者間で統計学的有意差の認められる遺伝子を選択した。さらにグローバルノーマライゼーションに用いるプローブ及び管理用プローブ（位置合わせ用）も搭載した（詳細は下記実施例）。グローバルノーマライゼーションには、アレイ間での変動が小さなものを選択した。この実用化アレイは、１枚の基板上に複数（下記実施例では１６個）のチャンバーを形成することができ、すなわち、１枚のアレイで１６検体の検査を同時に行なうことができ、アレイ作製のコスト並びに検査のコスト及び手間を大幅に下げることができる。

　この実用化アレイを用いて測定された、先に特定された１４種類のプローブの測定結果を、先に構築したニューラルネットワークの分類予測モデルに入力し、上記試験例を用いて感度及び特異度を算出したところ、健常者の感度及び特異度が８０％未満となり、さらに別の試験例を用いて感度及び特異度を算出したところ、統合失調症（未治療）及び健常者の感度及び特異度とも８０％未満となってしまった。

　そこで、実用化アレイを用いた測定値を利用して、上記と同様、コンピューターにインストールされたニューラルネットワークを用いて、cross validation法及び変数増加法を駆使して、正答率が最高となるプローブの組合せを求めた。その結果、上記した１０種類の遺伝子が特定された。なお、上記１０種類の遺伝子は、先に特定された１４種類の遺伝子とは異なるものであり、両方に重複する遺伝子は2種類のみであった。

　上記した１０種類の遺伝子のプローブの測定値を説明変数として入力し、試験例について感度及び特異度を算出すると、統合失調症及び健常者のいずれも感度及び特異度が８０％を超え、高感度及び高特異度で統合失調症の検出が可能であることが確認された。

　また、上記した１０種類の遺伝子のプローブの測定値を説明変数として用いて重回帰分析を行ない、試験例について感度及び特異度を算出した場合にも、統合失調症及び健常者のいずれも感度及び特異度が８０％を超えた。重回帰分析によっても、上記１０種類の遺伝子発現量を用いて、高感度及び高特異度で統合失調症の検出が可能であることが確認された。

　なお、本発明において、「塩基配列を有する」とは、塩基がそのような順序で配列しているという意味である。従って、例えば、「配列番号４２で示される塩基配列を有するオリゴヌクレオチドプローブ」とは、配列番号４２に示されるtcccacatcc ccttgaatat cccaggaaaaの塩基配列を持つ、３０塩基のサイズのオリゴヌクレオチドプローブを意味する。

　以下、実施例に基づき本発明をより具体的に説明する。

1.　プローブの絞込み
採血および試料の保管
　統合失調症患者抗精神病薬未投薬群58例、健常者56例、対照精神疾患である双極性障害患者41例より、PAXgene Blood RNA Kit (Qiagen, Valencia, CA, USA) を用いて採血及びRNA抽出を行なった。PAXgene Blood RNA Tubes 2本に2.5mlづつ採血し、転倒混和したあと凍結し、実験室への搬送を行った。保管は-80℃とした。

RNA抽出
　-80℃に保管しておいたPAXgene Blood RNA Tubesを室温で融解し、製造者の指示書に従ってtotal RNAを抽出した。抽出したtotal RNAは、-80℃で保管した。

抽出したRNAの濃度、クォリティーの確認
　抽出したtotal RNAを10mM Tris-HCl(pH7.5)で50倍に希釈し、230, 260, 280nmの吸光度を測定し、total RNAの濃度を測定した。抽出したRNAのクォリティーは、Agilent 2100バイオアナライザー（Agilent Technologies, Inc. Santa Clara, CA, USA)で確認を行った。

cRNAの調製
　抽出したtotal RNA　0.5μgを用いてcRNAを調製した。iExpress kit(GE Healthcare Bioscience, Chandler, CA, USA)を用い、製造者の指示書に従ってBiotin標識したcRNAを調製した。

　調製したcRNAの定量およびクォリティーの確認は、抽出したtotal RNAの定量及びクォリティーの確認と同様に行った。すなわち、50倍に希釈したcRNA溶液の230, 260, 280 nmの吸光度を測定し、total RNAの濃度を測定した。cRNAのクォリティーの確認は、Agilent 2100バイオアナライザーで行った。

アレイへのハイブリダイゼーションと洗浄
　マイクロアレイとして、Codelink（商標） 55K Bioarray（ＧＥヘルスケア　バイオサイエンス）を用いた。Codelink（商標） 55K Bioarrayは、スライドガラス表面を特殊な化学修飾を施したアクリルアミドでコーティングし、30merのプローブが3次元的に固定されているため、ハイブリダイズの効率が良く、再現性や感度に優れたマイクロアレイであり、ヒトの約55,000遺伝子に対応するプローブが固定されている。

　10μgのcRNAを最終容量が20μlになるようRNase-Free H₂Oで調製し、iExpress kit の5×Fragmentation Bufferを5μl添加した後、94℃で20分間インキュベートしてcRNAを断片化した。

　10μgの断片化したcRNA(25μl)、78μlのiExpress kitのHybridization Buffer A、130μlのiExpress kit のHybridization Buffer Bを混合し、計260μlになるように調製した。90℃で5分間インキュベートした後、氷上で5～30分間インキュベートした。

　250μlのハイブリダイゼーション溶液をCodeLink（商標） 55K Bioarray(GE Healthcare Bioscience, Chandler, CA, USA)のチャンバーへ注入し、CodeLink（商標） INNOVAシェイカー(GE Healthcare Bioscience, Chandler, CA, USA)を用いて、アレイを300rpmで旋回させながら、37℃で18～24時間インキュベートした。

　Hybridization Removal Toolを使用してアレイを固定し、ハイブリダイゼーションチャンバーを引き剥がし、Bioarray Rackにアレイをセットした。アレイをセットしたBioarray Rackを46℃の0.75×TNT Bufferの入ったLarge Reagentリザーバーに移し、46℃で1時間インキュベーションした。

　Bioarray Rackを3.4 mlのStreptavidin-Cy5希釈溶液で満たしたSmall Reagentリザーバーに移し、室温で30分間インキュベートした。染色後、Bioarray Rack を240mlの1×TNT Bufferで満たしたLarge Reagentリザーバーに移し、室温で5分間インキュベートする操作を4回繰り返して洗浄した。次にBioarray Rackを0.1×SSC/0.05% Tween 20で満たしたLarge Reagentリザーバーに移し、30秒間洗浄し、アレイを遠心して乾燥した後、スキャニングまで遮光して保存した。

アレイのスキャニング
　洗浄後乾燥させたアレイをAgilent Scanner (Agilent Technologies, Santa Clara, CA, USA)にてスキャニングした。スキャナーの設定は、Red PMT [%] を70%、 Dye ChannelをRed (RedはCy5)とした。これ以外の設定はデフォルトとした。スキャンしたアレイデータはTIFファイルで保存し、数値化を行った。

アレイデータの数値化
　製造者の指示書に従い、CodeLink（商標） Expression AnalysisによりTIFファイルで保存したアレイデータの数値化とグローバルノーマライゼーションによる正規化を行った。

プローブの絞込み
　上記で得られた実験結果から、Quality Flag "Good"以外のプローブ、Y染色体上に座位するプローブ、mRNA 3’末端から遠位に設定されているプローブなどを除外した。さらに、さらに、予備分析により、欠損値が２５％以上あるもの、男女間の発現量の差が大きいもの、アレイ製造時のバッチ間差が大きいものも除外した。これらにより、約55,000個のプローブから10,498個のプローブに絞り込んだ。

2.　統計処理
　以上のような条件で絞り込んだプローブから、統合失調症患者抗精神病薬未投薬群43検体、健常者38検体の2群間での有意差および双極性障害患者32検体と統合失調症患者抗精神病薬未投薬群40検体の間で統計学的有意差の認められたプローブ、さらに双極性障害患者32検体と健常者38検体の間で統計学的有意差の認められたプローブを216個抽出した。これらのプローブの配列を配列表の配列番号１１～２２６に示す。また、各プローブが由来する遺伝子名及びGenBank Accession No.を下記表４に示す。

3.　実用化アレイの設計
　CodeLink（商品名） 55K Bioarrayは、非常に高価であり、1枚で1検体しか処理、解析ができない。実用化をはかるためには、より低コストで解析が可能なマイクロアレイが必要となる。そこで、CodeLink（商品名） 55K Bioarrayと全く同一の表面処理を施し、これを16個のチャンバーで区切ることで、一度に最大で16検体の処理、解析が可能なCodeLink（商品名） 16-Assay Bioarray（Applied Microarrays社）をベースにした実用化アレイを設計した。上記216遺伝子のプローブの他にグローバルノーマライゼーション用に使用するプローブ（配列番号２２６～５２５）やメーカーによる管理用プローブなど追加して、以下のようなアレイを設計した。

CodeLink（商品名） 16-Assay Bioarray プローブの内訳
(合計 1714スポット/チャンバー)
・分類予測候補プローブ :  216プローブ × 4重スポット
・ノーマライゼーション用追加プローブ :  299プローブ × 2重スポット
・メーカーによる管理用プローブ :  96プローブ × 各1スポット
・規格上の予約プローブ :  グリッド (32) , Positive Control (60) , Negative Control (64)

4.　CodeLink（商品名） 16-Assay Bioarrayによる測定結果を基にした分類予測（ニューラルネットワーク）
　未治療統合失調症患者 60例、健常者 56例の遺伝子発現情報を基に、分類予測に優れたニューラルネットワークによる分類予測モデルの構築を試みた。

　分類予測モデルを構築するにあたって、全体の約2/3を学習例（統合失調症患者抗精神病薬未投薬群40検体、健常者38検体）として分類予測モデルの構築に用い、モデルの構築に関与していない、残りの1/3を試験例（統合失調症患者抗精神病薬未投薬群20検体、健常者18検体）としてモデルの評価を行うHold out cross validation法により検証を行った。

(1)　遺伝子発現情報の取得
　216プローブを含む上記実用化アレイを用いて、未治療統合失調症患者 60例、健常者 56例の遺伝子発現情報を取得した。採血、RNAの抽出、cRNAの調製、アレイへのハイブリダイゼーション、蛍光シグナル（蛍光色素Cy5）のスキャニングは、上記と同様に行なった。スキャナーで読み取った1714スポットの画像データは、CodeLink（商標） Expression Analysisソフトウェアを用いて数値化及びグローバルノーマライゼーションによる正規化を行なった。

(2)　ニューラルネットワークによる分類予測モデルの構築
　市販の解析ソフトArrayAssist（登録商標）（STRATAGENE社）に搭載されているニューラルネットワークを用いて、正規化したデータの解析を行ない、分類予測アルゴリズムの構築を試みた。分類予測アルゴリズムとは、あらかじめ属性が明らかになっているデータセットを入力し「学習、訓練」を行なうことで、最適な解を出力することができるようになる一連のアルゴリズムであり、ニューラルネットワークは、学習効果の高さから高い分類精度のアルゴリズムが構築できるとされている。

　正規化されたデータの2/3（統合失調症患者抗精神病薬未投薬群40例、健常者38例）を学習例として、ArrayAssistのニューラルネットワークに入力し、アルゴリズムの構築を行なった。Feature Selectionは変数増加法（Forward Selection）により行ない、学習データを３組に分けたcross validation（N-fold cross validation (N=3)）により分類予測アルゴリズムを構築した。具体的には、学習例のデータセットを３分割し、データセットを入れ替えながら、216個のプローブのうちで有意差のあったプローブを一つずつ使って分類予測を行ない、最も正しく分類できたプローブを分類予測に用いるプローブとして採用することとし、これを順次繰り返して採用するプローブを追加していった。このようにして、徐々に用いるプローブを増やしていき、正しく分類できた割合（Number of Class Accuracy(%)）がプラトーに達したところで学習を終了させた。

　次いで、このようにして学習させたアルゴリズムを用いて、試験例のデータセットを分析した。Number of Class Accuracyがプラトーに達した点で使用されているプローブセットについての正規化データを上記学習済みアルゴリズムに入力し、試験例についての該アルゴリズムによる分類が臨床診断とどの程度一致するかを検証した。

　ニューラルネットワークの各種パラメーター（学習効率、Momentum、繰り返し数、レイヤー数、ニューロン数）を種々に変化させて多数のアルゴリズムを構築し、それぞれについて上記したcross validationによる学習及び試験例を用いた診断精度の検証を行なった。

　その結果、パラメーターを下記の通りに設定したアルゴリズムにおいて、試験例を最も正しく分類することができた。
　　学習効率：0.5
　　Momentum:0.3
　　繰り返し数：115
　　レイヤー数：1
　　ニューロン数：3

　このアルゴリズムによる学習例及び試験例についての予測結果を表５及び表６に示す。また、このアルゴリズムについてのForward Selectionの結果を図１に示す。

　図１に示される通り、構築されたアルゴリズムによれば、10個のプローブ（表２、前掲）による発現データを用いて統合失調症と健常者とを精度良く分類することができる。これらのプローブによって検出される遺伝子の生物学的機能について調査したところ、上記表３に示すように、脳神経系での作用が報告されている遺伝子があった。

5.　CodeLink（商品名） 16-Assay Bioarrayによる測定結果を基にした分類予測（重回帰分析）
　上記と同様に、未治療統合失調症患者60例、健常者56例の遺伝子発現情報を用いて、重回帰分析による分類予測を試みた。上記10個のプローブによる発現データを説明変数として用いて、上記学習例について市販のソフトウェア（SPSS）を用いて重回帰分析を行ない、予測式を構築した。重回帰分析は、統合失調症患者で従属変数が大きくなるように設定して行った。次いで、構築された予測式を用いて、上記試験例について従属変数を計算した。なお、得られた予測式は以下の通りである。
Y=(A₁X₁+A₂X₂+A₃X₃+A₄X₄+A₅X₅+A₆X₆+A₇X₇+A₈X₈+A₉X₉+A₁₀X₁₀+C)×100
ここで、
X₁は、DLGAP3（GE54859　配列番号42）の遺伝子発現量
X₂は、KCN15J（GE58277　配列番号77）の遺伝子発現量
X₃は、GPR30　（GE80129　配列番号165）の遺伝子発現量
X₄は、NPCR　（GE540583　配列番号34）の遺伝子発現量
X₅は、TMED1（GE85017　配列番号200）の遺伝子発現量
X₆は、PAFAH2　（GE62881　配列番号122）の遺伝子発現量
X₇は、TMEM23　（GE60313　配列番号98）の遺伝子発現量
X₈は、ABCG1　（GE586854　配列番号81）の遺伝子発現量
X₉は、PGRMC1　（GE62032　配列番号109）の遺伝子発現量
X₁₀は、INSL3　（GE88024　配列番号218）の遺伝子発現量
をそれぞれ指す。
各遺伝子の発現量に乗ずる係数は、それぞれ、
A₁は、1.00019621196698
A₂は、0.273175387505458
A₃は、0.606651443546423
A₄は、-0.659859665599205
A₅は、-0.287215519193429
A₆は、-0.271285204843002
A₇は、-0.220049126802913
A₈は、-0.00285057386315785
A₉は、0.478133475554455
A₁₀は、-0.169744977943406
定数Cは、0.0429404615746508
である。

　従属変数５０をカットオフ値として集計した結果を表７及び表８に示す。また、学習例及び試験例の各検体について計算された従属変数を図２に示す。

感度：92.5%(37/40)、特異度：92.1%(35/38)、正答率：92.3%(72/78)

感度：95.0%(19/20)、特異度：94.4%(17/18)、正答率：94.7%(36/38)

　以上の通り、カットオフ値を５０とすると、試験例において感度・特異度ともに８０％を超える結果となった。重回帰分析によっても、上記１０種類の遺伝子発現量を用いて統合失調症と健常者とを精度良く分類することができた。

Claims

　生体から分離された試料における下記(1)～(10)の遺伝子群の発現量を指標とする、統合失調症の検出方法。
(1) DLGAP3（配列番号1）
(2) KCNJ15（配列番号2）
(3) GPR30（配列番号3）
(4) NPCR（配列番号4）
(5) TMED1（配列番号5）
(6) PAFAH2（配列番号6）
(7) TMEM23（配列番号7）
(8) ABCG1（配列番号8）
(9) PGRMC1（配列番号9）
(10) INSL3（配列番号10）
　上記(1)～(10)の遺伝子群の発現量のみを指標とする請求項１記載の方法。
　前記遺伝子群の発現量は、配列番号34、配列番号42、配列番号77、配列番号81、配列番号98、配列番号109、配列番号122、配列番号165、配列番号200及び配列番号218に示される塩基配列を有するオリゴヌクレオチドプローブにより測定される、請求項１又は２記載の方法。
　前記試料における前記遺伝子群の発現量を、あらかじめ測定した、既知の統合失調症患者及び健常者における前記遺伝子群の発現量と対比する工程を含む、請求項１ないし３ののいずれか１項に記載の方法。
　前記対比は、既知の統合失調症患者及び健常者における前記遺伝子群の発現量を用いて変数増加法により学習させたニューラルネットワークにより行なわれる請求項４記載の方法。
　前記対比は、前記遺伝子群の発現量を説明変数として用いた重回帰分析により行なわれる請求項４記載の方法。
　前記試料について計算された従属変数を、既知の統合失調症患者及び健常者について計算された従属変数に基づいて定められたカットオフ値と対比することを含む、請求項６記載の方法。
　前記遺伝子群の発現量は、配列番号11～226に示される塩基配列を有するオリゴヌクレオチドプローブがスポットされたアレイにより測定される遺伝子発現量のシグナル強度をグローバルノーマライゼーション法により正規化したものである、請求項３ないし７のいずれか１項に記載の方法。
　前記アレイは配列番号227～525に示される塩基配列を有するオリゴヌクレオチドプローブをさらに含む、請求項８記載の方法。
　前記試料は血液である請求項１ないし９のいずれか１項に記載の方法。