JP4594622B2

JP4594622B2 - 薬発見法

Info

Publication number: JP4594622B2
Application number: JP2003566780A
Authority: JP
Inventors: チン、リチャード、オー．; チョー、レイモンド、ジェイ．; フェルシアーノ、ラモン、エム．; ホリー、ブレット; パテル、ヴィレッシュ; リチャーズ、ダニエル、アール．; セルヴァラジャン、スシュマ; スチュワード、キース; シュナイダー、サラ、タネンバウム
Original assignee: インジェヌイティシステムズインコーポレイテッド
Priority date: 2002-02-04
Filing date: 2003-02-03
Publication date: 2010-12-08
Anticipated expiration: 2023-02-03
Also published as: US20140121120A1; WO2003067504A3; AU2003207786B2; CA2474754A1; JP2006501531A; EP3633680A1; US10453553B2; AU2009250971B2; US20060036368A1; US8489334B2; CA2474754C; EP1490822A2; AU2003207786A1; WO2003067504A2; AU2009250971A1

Description

本発明は、薬発見方法に関し、特に、表現型形質(phenotypic trait)を理解する目的でゲノミクス(genomics)データーに関する情報データーベースを用いて発見する方法に関する。

最近５年間位は、ゲノミクス、即ち、遺伝子に関する情報、それらの核酸配列、これらの遺伝子によってコードされる蛋白質、それら蛋白質の生物学的効果、及び他の関連する情報に関するデーターの利用可能性についての急激な発展が見られてきた。このデーターが利用できることによって、病気の経路を理解し、それらの理解に基づく新しい治療及び予防法を同定するための先例のない機会が開放されてきた。

最近の薬の発見には多くの経路が存在する。一般にこれらは与えられた病気に伴われる遺伝子又は遺伝子産物（即ち、ＲＮＡ、ポリペプチド、又は蛋白質）の同定を必要とする。この関連が判明した後、研究者は病気の処置又は予防を行うため、遺伝子又は遺伝子産物の発現又は活性度（即ち、機能）を、拮抗又は阻止、又はアゴナイズ(刺激；agonize)、又は高める薬を設計することができる。

研究者は、病気と与えられた遺伝子又は遺伝子産物との関連についての知識のみならず、病気の全経路、即ち、病気を起こした身体内部の生化学的一連の経路を完全に理解するのが好ましいであろう。研究者は、与えられた遺伝子又は遺伝子産物を含むことがある他の経路と同様、同じ病気をもたらす、その遺伝子又は遺伝子産物を含まない経路である別の経路に対する一層完全な理解を持つことも望んでいる。更に一層好ましくは、研究者は、特定の薬に対する反応（それらの反応は、患者母集団の部分集合間で変化する）に伴われる遺伝子型又は表現型「マーカー(marker)」、又は生化学又は環境因子のような安定性及び効能についての付加的指標を一層完全に理解することを望むであろう。

従って、例えば、例示の目的から、今蛋白質Ａとして言及する仮定的蛋白質が炎症に関係していると言う知識は、その蛋白質Ａが薬を介入させる場合の有望な標的であると言うことを研究者に示唆する。なぜなら、蛋白質Ａを阻止する薬は、蛋白質Ａに関連する炎症に対して肯定的な効果を持つと思われるからである。

研究者は、蛋白質Ａと炎症との関連を一層完全に理解したいであろう。例示の目的から、仮定として、研究者が次のことを知ることを望むものとする：
● 遺伝子Ａの上昇調節（制御；regulation）は、蛋白質Ａの発現をもたらす。
● 蛋白質Ａは、蛋白質Ｂ、或る細胞型を燐酸化する。
● 蛋白質Ｂは、燐酸化されることにより遺伝子Ｃを上昇調節する。
● 蛋白質Ｃの上昇調節は、蛋白質Ｃの発現をもたらす。
● 蛋白質ＣはＴ細胞を活性化する。
● Ｔ細胞の活性化は炎症を起こす。

研究者は、蛋白質Ａを含むことがある更に別の経路について、そのような情報は研究者が副作用を予測するのに役立つので、一層完全な理解を持つのが一層好ましいであろう。また、研究者は同じような病気をもたらす別の経路について、そのような情報は蛋白質Ａを阻止する効能を一層よく予測するのに役立つので、完全な理解を持ちたいと希望するであろう。上で述べたように、研究者は、与えられた患者の安定性及び効能を予測させるのに役立つ一層完全な付加的因子を理解したいと思うであろう。遺伝子型のマーカーは、反復、ＳＮＰ、挿入、又は欠失のような特定の多形性を含むのが典型的である。表現型マーカーには、人種、性別、民族、年齢、体重等のような数多く因子が含まれることがある。環境因子には、喫煙又は飲酒のような挙動、毒物への暴露等が含まれることがある。生化学的標識には、例えば、コレステロールレベル等が含まれることがある。

多量のそのような情報を、公的資料、例えば、科学的刊行物から入手することができる。しかし、そのようなデーターの全量は、それらのデーターに効果的及び効率的やり方でアクセスし、関係付けることができない程膨大である。問題を悪化させているのは、データーが根本的に異なる資料中にあり、一層完全な図を導くために一緒にまとめる事を非常に困難にしていることである。

メドライン(MedLine)、ケミカル・アブストラクト(Chemical Abstracts)、バイオシス・プレビュー(Biosis Previews)等のような検索手段を作り、多数の科学的雑誌又はアブストラクト、例えばサイエンス(Science)、ネイチャー(Nature)、国立科学アカデミー予稿集(Proceedings of the National Academy of Sciences)等のコンピューター検索を可能にすることにより、この問題を処理しようとする幾つかの試みがある。これらの雑誌を検索することは、依然として問題である。なぜなら、何百と言うそのような雑誌があり、多くはキーワードによってのみ検索することができ（検索は時々キーワード分野又はアブストラクトに限定されている）、或は全アブストラクトを読むことによって検索することができ、どちらの場合でも非常に時間がかかり、重要な文献が簡単に見過ごされるように不充分なものである。

別の部分的解決法は、ゲノミクス・データーのデーターベース化である。一つの例はＮＣＢＩにより維持されているジェンバンク(GenBank)である。そのようなデーターベースに入れられた遺伝子配列は、通常情報で注釈が付けられており、その情報には、例えば、与えられた遺伝子配列が発現された細胞の種類、その配列の可能な機能等が含まれていることがある。

これらのデーターベースは非常に役に立つものであるが、それらは科学的刊行物に出ている或るデーターを欠いており、一層問題になるのは、病気の経路を決定するのにそれらを簡単には用いることができないことである。なぜなら、それらのデーターは、異なった遺伝子と遺伝子産物との間の複雑な関係のコンピューター解析を可能にするやり方で構造化されていないからである。

（本発明の概要）
本発明は、特定の表現型形質のための経路を同定する方法に関する。特別な代表的態様として、本発明は、直接コンピューター分析により病気の経路を定めるのみならず、異なった遺伝子、遺伝子産物、又はプロセスの間の複雑な関係を定めることにより、薬発見の標的を同定する方法に関する。別の態様として、本発明は、既知の薬のための新しい用途を同定する方法を与え、与えられた薬で処置した時に起こり易い副作用を予測する方法、及び与えられた個々の人に対する与えられた薬の効果を予測する方法を与える。

本発明は、幾つかのステップ(step)が除かれ、多方向性になることがある関係を同定することができるように、遺伝子、遺伝子産物、プロセス、及び関心のある表現型形質及び付随的に他の情報（例えば、ＳＮＰ、非遺伝子ＤＮＡ配列、対立変異等を含む）についての情報の構造化データーベース表示を利用する。記憶される情報は、データーベース及び科学的刊行物のような公共的資料からのデーターを含むのが典型的である。それは、所有権のあるデーターでもよく、或は所有権のあるデーターと公共的データーとの併合物でもよい。関心のある表現型形質は、病気、病気への罹り易さ、又は薬物反応(drug response)、例えば、副作用又は効能であるのが典型的である。

情報の構造化されたデーターベース表示は、少なくとも一つのステップが除去された生物学的関係を定めることができるであろう。例えば、一つのデーター資料、例えば科学的雑誌論文から得ることができた情報が、蛋白質Ａが蛋白質Ｂを燐酸化すると言うことを結論するものであるとする。第二のデーター資料、例えば、第二の科学的雑誌論文からの情報は、蛋白質Ｂが燐酸化により遺伝子Ｃを増加調節すると結論付けられるものであるとする。蛋白質Ａと遺伝子Ｃとの間の関係は１ステップ除去されている。そのような「ステップ」の各々は、身体の二つ以上の構成部分の間の多数の生物学的相互作用を実際に含むことがあり、さもなければ、それらの間又はその中の関係に影響を与えるものを含んでいることがある。そのシステムは、２、３、４、５、６、７、８、９、又は１０以上のステップが除去された生物学的関係を定めることができるのが好ましいであろう。定めることができる生物学的関係は、与えられた経路中の一つ以上の遺伝子又は遺伝子産物が多数の他の経路の一部分になっていると思われることがあり、データーベース中の遺伝子又は遺伝子産物の多くが複雑な「クモの巣状」関係として互いに関連するようになっていると言う意味で、複雑又は多方向性関係になっていることが頻繁に起きるであろう。経路の一構成部分（即ちコンセプト（concept；概念））が、その経路の他の構成部分によって生物学的に影響を受けるか、又はそれに対し生物学的影響を与える場合には、生物学的関係が存在する。従って、上に与えた簡単な例に関して、蛋白質Ａ、蛋白質Ａを発現する遺伝子、蛋白質Ｂ、蛋白質Ｂを発現する遺伝子、遺伝子Ｃ、及び遺伝子Ｃの遺伝子産物のいずれか二つ及び全ての間には生物学的関係が存在する。従って、本発明で用いられる好ましいデーターベースは、「生物学的関係データーベース」、即ち、関連する生物学的コンセプトを同定し、そのコンセプトの間又は中にはどのような機能的生物学的関係（単数又は複数）が存在する（単数又は複数）かを特定するものとして言及することができる。

ゲノミクス情報の構造化されたデーターベース表示についての幾つかの用途が存在する。そのような用途の一つでは、薬発見の標的を同定するための方法は、データーベースを照会して病気関連経路を同定し、それによりその経路中の「アクター(actor)コンセプト」の各々が実際の又は推定される薬発見の標的の候補になる。ゲノミクス情報は、経路中の「コンセプト」の各々の生物学的相互作用に関連した情報を含み、経路内部のみならずその経路の外部の両方での情報を含むことがある。そのような外部情報は、薬発見の標的として或る「ステップ」を選択、排除、又は順位付けに用いることができる。

病気に関連した経路中の薬発見標的の候補になるものは、機能及び複雑性、副作用及び患者の反応性についてのマーカーの存在、及び「薬効」（この用語は、特定の生物学的全体の活性度が薬剤の使用により影響を受ける可能性を示す薬発見の分野で用いられている）を含む因子に基づいて、例えば、蛋白質系の種類（例えば、一般に細胞表面に存在するため、一層容易に標的になることができると考えられているＧＰＣＲ系のも）を見ることにより、或は構造分析又は他の経験により、順位付けすることができる。データーベースを照会した結果を、薬発見標的の候補となるものを同定するための一つ以上の更に別の方法（例えば、特異的遺伝子発現の研究）により得られた付加的データーの結果と一緒にしてもよい。

データーベースは、「オントロジー（ｏｎｔｏｌｏｇｙ；概念体系）」を使用することを含んでいてもよい。なぜなら、構造化情報のこの特別な形態は、問題の生物学的相互作用に基づく分類を推論するのに用いることができるからである。オントロジーを用いて一つ以上の調査事項を分類することは、更に、オントロジーでの特定の生物学的分類に存在する一つ以上の調査事項が統計的に重要である可能性を（例えば、帰無仮説を試験することにより）決定することを含んでいてもよい。

別の態様として、既知の治療標的を含む病気関連経路を同定するため、データーベースを照会するための手段を与え；そのような病気関連経路の少なくとも一つを選択し、然も、前記既知の治療標的が、第二病気関連経路内にも含まれ；そして前記第二病気の処置を前記既知の治療に対する新しい用途として同定する；諸工程を含む既知の治療についての新しい用途を同定する方法が存在する。

別の態様として、更に発展させるため、開発化合物の候補となるものの順位を付ける方法が与えられる。この態様では、その方法は、データーベースを照会して各開発化合物候補の標的に伴われる全ての経路を同定し、そして他の生物学的経路でのそれらの係わり合いに基づく望ましくない効果をもたらし易いか否かに基づいて開発化合物に高い優先順位を与える、諸工程を含む。

別の態様として、病気が薬物療法の副作用である場合の病気関連経路を同定するための方法が与えられる。この態様では、その方法は、薬又は薬発見の標的により影響を受ける病気関連経路を同定し、そしてデーターベースを照会して前記薬又は薬発見の標的によっても影響を受け、望ましくない表現型を与える結果になる別の経路を同定する手段を与える、諸工程を含む。

本発明の別の態様として、病気の状態についての遺伝子型マーカーを同定するか又はその正当性を確認するための方法は、データーベースを照会し、病気状態に伴われる遺伝子型マーカーを同定する手段を与えることを含む。

本発明の別の態様として、ユーザーが供給したゲノミクス・データーを評価する方法が与えられる。この態様では、それらの工程は、（ａ）一つ以上のプロファイル規定基準に基づくプロファイル・モデルを定め；（ｂ）前記プロファイル・モデルに従ってプロファイルのコレクションを作成し；（ｃ）ユーザー供給ゲノミクス・データーの少なくとも一部分に重複する一つ以上のプロファイルを同定し、夫々のそのような重複したプロファイルについて、その重複が統計的に意味のあるものであるか否かを決定し；そして（ｄ）一つ以上の統計的に意味のあるプロファイル中に埋もれたデーターベース明示生物学的相互作用を調べることを含めた、ユーザー供給ゲノミクス・データーと一緒に一つ以上の統計的に意味のあるプロファイルを分析する；ことを含む。作成工程は、更に複数のプロファイルで、その各々が独特のプロファイル・モデルに基づいている複数のプロファイルを含むプロファイル・ライブラリを作成することを更に含んでいてもよい。それらプロファイルは、統計的プロファイル・モデルに相当していてもよく、即ち、予め発生させたものであるか、又は動的なものでもよく、即ち、データーベースの直接の照会により必要に応じた仕方で創られたものでもよい。前者の場合、別に記憶させたプロファイルの構造化表示は、データーベース又はデーターベースのコピーよりもむしろ、後の分析のための主要な焦点になるものである。

プロファイルは、データー駆動(data-driven)及びモデル駆動(model-driven)されたアプローチの一つを用いて生成してもよく、それらプロファイルの各々は、中心ゲノム・データー型、例えば遺伝子、遺伝子産物、プロセス、についてのプロファイルを作成することにより生成させてもよい。統計的意味は、重複したプロファイルに関係すると思われる一つ以上の生物学的関連の統計的意味のような、別のやり方で測定してもよい。

本発明のこれらの態様のみならず、本発明の別の態様についての一層完全な記述を以下に行うが、それらは次の詳細な説明から明らかになるであろう。前記一般的記述及び次の詳細な記述の両方は例及び説明的なものであり、本発明の特許請求の範囲を限定することなく、更に説明を与えるためのものであることを理解すべきである。

本発明を更に理解できるように添付した図面は、明細書の一部として入れてあり、それを構成するものであり、本発明の好ましい態様を例示し、その説明と共に、本発明の原理を説明するのに役立つ。

（詳細な説明）
定義
本明細書で用いられている用語は次の通りである：
「病気」とは、例として病気又は病気状態、病気への素質又は感受性、又は異常な薬物反応を含めた重要な表現型又は表現型形質を意味する。病気状態の例示としての例には、高いコレステロール・レベル、鬱血性心不全、高血圧、糖尿病、グルコース不耐性、鬱病、不安、感染症、中毒状態、薬物治療副作用、薬物治療無効症、アルコール症、依存症等が含まれるが、それらに限定されるものではない。

「病気関連経路」とは、病気をもたらす身体の一連の生化学的反応であり、即ち、それは集約的に病気状態、例えば、発病、進行、軽快、又は急性増悪に対し影響を有する身体の一連の直線的又は分岐した生物学的相互作用である。そのような生物学的相互作用、即ち、生物学的効果又は機能的関係は、体内に起きる生物学的プロセスであり、例えば、結合、刺激、拮抗、阻止、活性化、変調、修飾等である。

「治療」及び「治療の」には、予防及び予防的が含まれ、病気状態に伴われる症状の予防のみならず改善、病気状態の進行の阻止又は遅延、及び病気状態の処置が包含される。

「蛋白質」又は「遺伝子産物」とは、ペプチド、オリゴペプチド、ポリペプチド、又は蛋白質を意味し、それらは翻訳されたものであるか、又は翻訳に続き修飾されたものであってもよい。遺伝子産物は、ＲＮＡ分子であってもよい。

「調査事項(finding)」とは、情報データーベースを作成するのに用いられるデーターである。このデーターは、データーベース及び科学的刊行物のような公共的資料からきたものでもよいが、それは所有権のあるデーター、又は所有権を有するデーター及び公共的データーの混在したものを含んでいてもよい。好ましい態様として、調査事項は、一層詳細に下で概説する方法に従って自然言語（例えば、英語）形式の文章内容から誘導されている。

「生物学的効果」には、与えられた生物学的コンセプトの分子的効果のみならず、細胞、組織、又は有機体のレベルでのそのようなコンセプトの効果が含まれる。

別に特定化しない限り、「含む（単数又は複数）」は、含むことを意味するがそれに限定されるものではなく、“a”は一つ以上を意味する。

データーベース
好ましい態様として、情報は記憶され、二つのデーターベースを用いてアクセスされる。第一データーベースは、エフェクター遺伝子（及び／又は産物）−＞目的遺伝子（及び／又は産物）型関係の形態を一般にとる予め定められた因果関係に従って構造化された科学的調査事項の知識ベース（ＫＢ）である（今後「調査事項ＫＢ」として言及する）。この調査事項ＫＢについての好ましいデーターベース構造は、フレーム型知識表示データー・モデルであるが、別法として、他のデーターベース構造を、科学的調査事項を構造化するために用いてもよい。第二データーベースの型は、オントロジーである。オントロジーは、好ましくはフレーム型フォーマットで組織化された分類法及び形式コンセプト及び興味のある領域に関する関係の多重階層表示(multiple-hierarchical representation)である。調査事項ＫＢ及びオントロジーは、ここでは集約的に知識表示システム(knowledge representation system)（ＫＲＳ）として言及する。ＫＲＳを含む一つ以上の知識ベースを含む他のデーターベース構造を、本発明を実施する場合の一群の知識を表すために用いてもよい。しかし、オントロジーを他のＫＢと一緒に用いてＫＲＳを形成するか又は単独にＫＲＳとして用いた場合、本発明の方法は、科学的調査事項についての結論を推測する目的でオントロジーで定められた分類及び形式コンセプト及び関係を強化することができるのであり、本発明の方法によらなければ、それらの科学的調査事項は、特にそれら調査事項が複雑な、又は多方向的系列の原因事項の一部分を形成する場合には、容易には明らかにならないであろう。従って、本発明を実施するのに用いることができる好ましいオントロジーについての一層の説明を下に与える。

好ましい態様に関して、興味ある主要ドメインはゲノム情報であり、それは最低限、遺伝子、それらのＤＮＡ配列、ｍＲＮＡ、遺伝子を発現した時に生ずる蛋白質、及び発現した蛋白質の一つ以上の生物学的効果に関する情報を含むが、他の関連する情報も含むことがあるゲノム情報である。読者には、ゲノミクス情報は、他のゲノミクス、プロテイノミクス(proteinomics)、代謝及び挙動情報に関する情報、同様に他の生物学的プロセス、及び例えば、細胞の生物学的効果を含めた、細胞のような、蛋白質及び遺伝子以外の生物学的構成部分に関連した情報にすることもできることは明らかであろう。好ましいオントロジー構造は、フレーム型フォーマットでそのコンセプトを記憶し、それによりオントロジーを検索して、オントロジーに記憶された事項の間の関係を見出すか、又はそれら事項についての推論を下すことを可能にしている。この例示としてのオントロジーでは、主たる組織体のグループ分けは、クラス(class)と呼ばれている。クラスは、同様な性質を共有する一群の事柄を表す。例えば、ここに記載する方法論では、一つのクラスは人間の細胞であり、そのクラスには肺細胞、皮膚細胞、脳細胞等々が含まれる。１クラスの構成員の各々は、そのクラスの「例」であり、それらの例はその特定化したクラスに所属する個々の事項又は要素を表す。例えば、個々の血液細胞は、人間細胞のクラスの一例である。

方法論中の異なった例の間の関係は、「スロット(slot)」によって定める。スロットは、二つのクラスを関係付ける動詞として考えることができる。例えば、膵β細胞は、それらのインシュリンへの結合を「生成(produce)」するスロットを有する。「ファセット(facet)」は、「スロット」についての一層詳細な情報を表し、或る場合には、或るクラスの特定の例に関連した場合、スロットが有する価値を制限することがある。スロット及びファセットは、クラス間の分類関係及びパートノミック(partonomic)関係を定め、構造化する。科学的調査事項をオントロジー中へ入れる場合、各調査事項をその個々の成分、即ち「コンセプト」へ分離する。従って、例えば、「人間のＢａｘ蛋白質は、シンドビス(Sindbis)ウィルスに感染した後、ラット後根ガングリオン（ＤＲＧ）神経細胞のアポトーシス(apoptosis)により死を速める」と言う調査事項で、次の「」に入れた語句の各々はコンセプトである：「人間のバックス蛋白質」は、「シンドビスウィルス」に「感染」した後、「ラット」の「ＤＲＧ神経細胞」の「アポトーシス」により「死」を「速める」。アクター(actor)コンセプトは、経路の物理的生物学的構成部分であり、それは経路中の別の反応を引き起こすか又は導くものである。この例の場合、アクターコンセプトは人間のＢａｘ蛋白質及びシンドビスウィルスである。アクターコンセプトは、その各々が推定上の薬発見の標的であり、遺伝子又は遺伝子産物（例えば、レセプター及び酵素が含まれる）である可能性があるが、例えば、他のＤＮＡ配列（転写されていない、又は転写も翻訳もされていないＤＮＡを含む）、ＲＮＡ（例えば、ｍＲＮＡ転写を含む）、細胞、及びバクテリア、ウィルス、又は他の病原菌にすることもできる。

図１は、好ましい方法論でこれらのコンセプトがどのように構造化されるかを例示している。例示したように、人間のＢａｘ蛋白質は、蛋白質のサブクラス(subclass)である。アポトーシスは死のサブクラスであり、ＤＲＧは神経細胞のサブクラスである。この図は、この簡単で例示としての調査事項中のコンセプトがどのように互いに関連しているかも例示し、これらのコンセプトの各々を更に他の調査事項中の他のコンセプトに、同じレベル及び一層高いか又は低いレベルで、どのように結び付けることができるかを具体的に目に見え易くしている。本発明の好ましい態様として、調査事項は因果関係を表すように構造化されており、それによって集約的に与えられた生物学的効果に導く可能性のある、調査事項の単一指向性組の発見を可能にする。

明らかに、オントロジーが有効であるためには、同様な事柄についての一組の共通の用語を開発することが好ましい。それは、ゲノミクスのように、同じ遺伝子、蛋白質、又は他の生物学的物質に対し異なった実験室によって適用されている異なった用語、及び国際的協定が発展するにつれて時間と共に変化する用語のために、進行の早い科学的分野ではよく認識されている問題である。従って、ゲノミクス情報の記憶及びアクセスは、意味上の一致性を確実にするように組織化されているのが好ましいであろう。例えば、データーの導入は、用語のプリセット(pre-set)又は用語辞典、インプットされた用語を自動的に許容された用語へ転化する科学的シソーラス(thesaurus)の導入、及びシソーラス又は用語辞典を最新型にする人間の再検討に限定することができるであろう。

オントロジーにより捕捉され記述された主題事項とは無関係に、ゲノミクスであろうと、又は毒物学であろうと、主題事項を含む一団の知識を精密に調べ、その知識が適当なクラスへ組織化され、適切なスロット及びファセットによって連結され、そして最終的に、オントロジー中に含まれている内容及び関係を適切に表現し、検索し、アクセスし、そして維持することを可能にする形で記憶することができるようにすることが必要である。

オントロジーに含ませたい情報又は「事実」のための資料、及び適当な形でオントロジーに事実を供給することができるように、それらの資料を消化するのに用いられる方法の選択は、同じ出願人に譲渡された特許出願：（１）「情報獲得及び記憶をし易くするための技術」(Techniques for Facilitating Information Acquisition and Storage)と題する２０００年１２月８日に出願された米国特許出願ＳｅｒｉａｌＮｏ．０９／７３３，４９５；及び（２）「知識ベースのための情報抽出及び品質制御を行うための方法及び装置」(Method and System for PerformingInformation Extraction and Quality Control for a Knowledge base)と題する２００１年１１月９日に出願された米国特許出願ＳｅｒｉａｌＮｏ．１０／０３８，１９７；に記載されている。それらの全ての内容は、全ての目的について参考のためここに入れてある。

これらの文献及び下に一層完全に記述されているように、オントロジーのためのデーター資料を含む文献を読んだ科学者は、事実テンプレート中にファイルすることによりこれらの文献に含まれている事実を要約することができる。要約した事実は、オントロジーのコンピューター情報言語に書き換えられた（例えば、テンプレートを用いることにより）情報資料から呼び出された事実を指す。完成した事実テンプレートは、具体化テンプレートと呼ばれる。具体化テンプレートの内容はオントロジー中に入れられている。これらの事実テンプレートの型及びフォーマットは、オントロジーの内容及び構造により書き取る。これらの事実の中に含まれている情報も、上で述べたように科学的調査事項を記憶するのに用いられる調査事項ＫＢ中に記憶される。調査事項ＫＢ中の全ての情報はオントロジー中に含まれているが、特定の調査事項を後で検索する場合に調査事項ＫＢを用いるのが好ましい。なぜなら、これによりオントロジー中の調査事項中へのエフェクター及び／又は目的の分類についての情報が不必要な場合、多数の調査事項の検索のコンピューター操作効率を向上することができるからである。

オントロジーの許容された事実の夫々の型は、その特定の型の事実を含む情報又はデーターをオントロジー中に適切に入れ易くするように創られた事実テンプレートに付随させることもできる。これらの事実テンプレートは、科学者が資料から情報を要約する時に、彼らに与えられる。テンプレート内のプルダウン・メニューは、科学者に特定の事実型についての適当なクラス、スロット、及びファセットを与える。

情報を要約するプロセスは、それが知識をオントロジーの構造及びアーキテクチャー中へ入れるので、知識構造化と呼ばれる。知識を構造化する方法は、実験的設計及び生物学的コンセプトの形式化されたモデルに基づいている。これらのモデルは、学術文献中に典型的に見出される漠然と連接された調査事項のかなりの部分を捕捉するための枠組みを与える。工業的及び学術的科学者にとって最も大きな価値のある特別なレベルの実験結果は、特に捕捉の目標にすることができる。従って、例えば、ゲノミクスの分野では、遺伝子、遺伝子産物（ＲＮＡ及び蛋白質）及び小さな分子に対する摂動及び種々の物理的刺激の両方が生物学的システムに与える効果に注目した知識が抜粋される。これらの摂動及び刺激は、オントロジーの背景を形成し、複雑な生物学的情報の一層精密な表示を開発するために必要な枠組みを与える。

オントロジー中に翻訳することができる事実及び生物学的関係の型の例には次のものがある：ａ）Ｆａｄｄ蛋白質の量が増大するとアポトーシスを増大する；ｂ）Ｒａｆレベルの減少は、Ｒｉｐ２の活性化を増大する；及びｃ）野生型対立遺伝子と比較して、ＣＣＲ５の対立遺伝子デルタ３２は、ＨＩＶ遺伝を減少する。好ましい態様として、生物学的システムは、プロセス及び目的に関連して定められる。個々の目的は、特定の遺伝子、蛋白質、細胞、及び有機体のような物理的事項である。プロセスは、それらの目的に作用する行為である。プロセスの例には、蛋白質のような個々の目的に対して作用する燐酸化、及び細胞に作用するアポトーシスが含まれる。目的の摂動はプロセス又は目的に影響を与えることができる。目的及びプロセスのこのコンセプトを用いて、オントロジー中の情報を種々の事実型によって表示することができる。

上で述べたように、テンプレートには夫々の事実型が伴われている。好ましい態様として、事実をオントロジー中へ入れるために用いられる五つのテンプレート型が存在する。対応する事実型は、観察事実、比較事実、事例制御事実、事例制御変更事実、又は事例制御比較事実として記述することができる。勿論、事実型の構造及び種類は、オントロジーの知識の分野に依存し、その全てが当業者に知られているであろう。

次に、好ましい態様の前述の事実型の各々の例を示す。観察事実（ＯＦ）は、或ることについての観察である。ＯＦの一例は、「ＩＮＲＳ−１のチロシン燐酸化が観察された」である。比較事実（ＣＦ）は、一つの事柄の性質を他の事柄の性質と比較する。ＣＦの一例は、「一つの有機体中のリンパ球の大きさは、別の有機体中のリンパ球の大きさよりも大きい」である。事例制御事実（ＣＣＦ）は、或ることの性質の特徴に変化を起こす或ることの変化を記述する。ＣＣＦの一例は、「マウス派生Ｂｒｃａ−１は、２９３細胞のアポトーシスの速度を増大する」である。事例制御比較事実（ＣＣＣＦ）は、或ることが第一事実で持っている効果を、或ることが第二事実で持っている効果と比較する。ＣＣＣＦの一例は、「ＦａｓはＢｒｄ４を有する（ベクトル変換により導入された）２９３細胞の全アポトーシスを、Ｂｒｄ４のない２９３細胞の全アポトーシスをそれが増大するよりも一層増大する」である。事例制御変更事実（ＣＣＰＭＦ）は、プロセスのモディファイアーの性質に変化を起こす或るものの中の変更を表す。ＣＣＰＭＦの一例は、「マウス派生ＢＲＣＡ−１は、２９３細胞アポトーシスの誘発速度を増大する」である。

テンプレート・プルダウン・メニュー(pull-down menu)システムにより賦課される制限及び上記事実型の各々についてのオントロジー構造とのテンプレートの同型関係にも拘わらず、夫々の型についての膨大な数の価値の順列が依然として存在することがある。示されたテンプレートの具体例が不正確であると、潜在的に重大な結果を及ぼす。なぜなら、オントロジー中に誤りが導入されると、その不正確に導入された事実をアドレスする品質制御プロセスが必要になることがあるからである。このプロセスは高価で時間のかかるものになることがある。更に、知識工学の分野で比較的経験を積んでいない人達にとっては、事実がオントロジーの構造化言語で表示されている場合、正確な事実要約と不正確な要約との微妙な差を認識することは必ずしも容易な仕事ではない。このことは、特に具体例が示されたテンプレートが複雑な事実を表している場合に当て嵌まる。この必要条件を満たすため、科学者による自然言語事実証明が、知識獲得の一部として含まれていてもよい。好ましい態様として、事実証明機構には、テンプレートへ導入された事実が意図した通りの事実であったか否かを、テンプレート中へ導入した構造化事実の自然言語表示を再検討することにより科学者が証明することができるように、テンプレートから誘導された事実の自然言語表示器が含まれている。

別法として、又は付加的に、コンピューターを用いて論文を「読み」そして分析し、オントロジー中に入れるためそれからデーターを抽出することにより、情報を自動的に抽出する。これらの態様では、計算形言語学を用いて自然言語（例えば、英語）資料テキストを先ず解釈し、可能な程度までその自然言語資料中に含まれている「事実」の正確な意味を決定する。この「事実」が決定された後、自動的方法、手動的方法（即ち、人間が関与する）、又はそれら両方の組合せによって再検討し、次に要約してもよい。手動と自動の併合法を用いて、資料テキストから抽出された事実が両方共重要な事実であることを証明し、それが正確に資料テキストの意図する意味を反映し、それがオントロジー中に記憶させるのに適切に構造化されていることを証明するのが好ましい。データー資料は、雑誌文献に限定されるものではない。他のデーター資料には、例えば、公共的データーベース、個人的データーベース、及び特定の実験室内で開発され、それに局限されている信頼性のあるデーターのような所有権のあるデーターが含まれる。

上に記載したような、多量の資料から獲得し、データーベースに記憶したデーターにより、例えば、データーが要求される資料の数及び一貫性のない言語が使用される（例えば、同時に又は時間が経つにつれて、同じ蛋白質について異なった名称が用いられる）ため、以前では同定するのが極めて困難であるか又は不可能でさえあったであろう遺伝子及び遺伝子産物の間の関係を決定することができる。従って、非常に狭く規定された分野に関する全て又は殆どの刊行物に乗り遅れないようにすることは、一人又は僅かな数の個々人にとっては可能であるかも知れないが、上で述べたような構造化データーベースの助けを借りずに薬発見の標的を含む病気経路を同定するために、公共的データー資料をスコアリングすることを考えることは実際的ではない。特定の病気、遺伝子、又は遺伝子産物に関係してさえも、構造化データーベースの助けを借りなくては、この仕事は甚だしく困難で時間のかかるものになることがある。

上で論じた一層形式化された文書及び刊行物資料と同様、非公式の資料から調査事項情報を求めてもよい。例えば、ネットワークを検索し、次に興味のある生物学的コンセプトに関するものと思われる頁中に含まれている情報を抽出ことを試みるネットワーク検索ツール〔例えば、インターネット上で検索するウエブ・クローラー(wed-crawler)〕を用いることにより調査事項を抽出することができる。別法として、又は付加的に、生物学的機能に関する情報を同定し、次に抽出しようとするため、検索機械を用いて企業ｅメール、討論グループ、パワーポイント(PowerPoint)表示等を走査してもよい。勿論、データーの理解が自動的になると、手動で入れた内容よりも誤り率が一層高くなり易くなるであろうことと、内容資料が、対等者が再検討した雑誌等よりも、むしろ非公式又は根拠のない議論に一層なり易いであろうことの両方のため、これらの資料からの結果の品質は低いと予想すべきである。

調査事項は、文献に基づく個人的又は公共的情報に限定する必要はない。例えば、調査事項は、例えば、会社のマイクロアレイ・チップ(microarray chip)実験から誘導された調査事項を含むこともできるであろう。この場合、アレイデーターを再検討して、どの遺伝子が同時に発現され且つ／又は同時調節されるかを同定し、それから「Ａ＜--＞Ｂ」関係を演繹することができるように試みることもできるであろう。次にこれらの調査事項をＫＢ中へ直接、又はグラフ構造へ直接入れることができるであろう。データーは、科学者が直接入れる調査事項を含んでいてもよく、或は実験から直接得られたデーターにすることもできるであろう（即ち、科学者による解釈を入れずに）。

上で論じた調査事項獲得プロセスは、データー抽出又は導入プロセスの外に、出版のためのツールとしても有用であろう。多くは、著者が、出版の依頼を提案した場合に、アブストラクト及び索引キーワードを含ませる必要がある場合に、彼らは「調査事項フォーマット」中にそれらの重要な結論を書き下ろすことも要求されるかも知れない。この意図した用途では、著者又は第三者は、調査事項の抽出を行なってもよい（例えば、国立医学図書館が現在論文アブストラクトに伴われるキーワードを、創造される場合でないならば、認可する責任を持っている仕方と同様に）。

構造化データーベースを創るために、ＫＲＳ技術は不必要である。ＫＲＳ技術は、データー獲得及びデーター構造化プロセスでは或る仕事を簡単化することができるので好ましいかも知れないが、現存する関係のある目的又はＸＭＬデーターベース技術を用いてＫＢを創ることも可能である。

上で述べたようなオントロジーを用いて、病気に関するアクターコンセプト、例えば、遺伝子及び遺伝子産物についての知識表示システムを照会し、それにより、数ステップ戻って広がり、分岐した病気関連経路を構成し、上で述べたように、重複する病気関連経路を同定することが実際的である。経路中の各遺伝子又は遺伝子産物は、病気関連経路をどの点でも中断することにより、少なくとも理論的には病気状態を処置することが可能であるため、薬発見標的の候補になる。そのような標的の一層の正当性の確認が、そのような標的を薬発見プログラム中へ組込む前に適切になり得ることは当業者に明らかであろう。そのような一層の正当性の確認は、もしあったとしても、下で述べるように特異的遺伝子発現データーのような他の関連データーと標的とを関係付けることによる方法を含め、又はトランスジェニック・ノックアウト(transgenic knockout)を含めた（それらに限定されるものではない）動物モデルを使用することによる方法を含めた、数多くのやり方で行うことができる。従って、図１に例示した調査事項に関して、人間のＢａｘ蛋白質は、その蛋白質の発現又はその活性の阻止が、潜在的にシンドビスウィルスで感染した後のＤＲＧ神経細胞のアポトーシスの増進を回避することになるために、薬発見標的の候補になっている。図２は、病気関連経路中の僅かに一層複雑な関係を例示している。

一般に、データーベースを照会し、表現型形質、例えば、病気状態又は病気状態への素質、又は重要な他の表現型形質への経路を、データーベース（又はオントロジー）の計算型分析に続き、応答を生ずるように設計された照会を構成することにより同定する。そのデーターベースは、表現型形質状態、又は表現型形質に生物学的に関連していることが既に知られている身体の生物学的構成部分に生物学的に関連している全てのコンセプトを明らかに示している。照会は、表現型形質又は他の生物学的構成部分から取り出された多数のステップを固定することもできる。従って、図１に与えた簡単な例示に関連して、照会は、例えば、「ＤＲＧ神経細胞のアポトーシスに関連する全てのコンセプトを同定する」になるかも知れない。

ゲノミクス情報を記憶及びアクセスするための手段、及び記憶されたコンセプトの中で複雑な関係の計算分析のための手段は、コンピューターシステム、即ち、記憶された、例えば、デジタル化されたデーター及び記憶データーを照会する手段を含むどのような型のシステムでも含んでいるのが典型的であろう。そのようなコンピューターシステムは、独立した単独のコンピューターでもよく、マルチコンポーネント・コンピューター、例えば、記憶データーがユーザー・インターフェース、ネットワークコンピューター等から物理的に離れているコンピューターにすることができる。例えば、分野、範疇、又は全データーベースを電気的に検索するためのソフトウエアー及びハードウエアーのような、データーベースを照会するどのような既知の手段でも有用になるであろう。

従って、一つの態様として、本発明は、（ａ）ゲノミクス情報を記憶及びアクセスするための手段で、前記記憶されたコンセプトの中の複雑な関係を計算分析を行えるようにする手段を与え；（ｂ）病気関連経路を同定するためにデーターベースを照会し；そして（ｃ）病気関連経路中の生化学的反応を同定し、それにより夫々のそのような反応中に含まれているアクターコンセプトの各々を薬発見標的の候補とする；ことにより薬発見標的の候補となるものを同定する方法を含む。

好ましい態様として、薬発見標的の候補となるものの順位を、それらの機能及び複雑性に基づいて付ける。例えば、第二遺伝子産物を燐酸化するか又は活性化する遺伝子産物を、それらが含まれる他の経路が殆どなく、従って、望ましくない生理学的効果を生じにくいと言う意味で「単純(simple)」である遺伝子産物の場合のように、特に重要なものとすることができる。一方、「２ハイブリッドデーター」は、２ハイブリッド実験が単純な蛋白質・蛋白質相互作用しか測定せず、従って、生物学的機能と状態との比較的不毛の表示を与えるため、実際的機能又は生理学的効果を表示する可能性は一層低いと考えられるかも知れない。更に、２ハイブリッド実験は、比較的高い誤り肯定率を有し、真の生物学的機能を表示する可能性を更に減ずることがあるノイズデーターをもたらす。同様に、高度の重複結合を有する遺伝子、即ち、多数の他の経路に含まれている遺伝子は、標的としてはそれらの妨害が多数の経路を妨害すると予想されるので、順位から外されるであろう。同様に、多数の経路が存在する病気への経路も、一般に余り好ましくない。

薬標的の候補となるものの順位付けは、望ましくない副作用をもたらすとは思われない他の経路に含まれていることに基づい行うのも一層好ましい。例えば、望ましい生化学的経路が図らずも阻止されるように遺伝子産物を阻止することは、望ましくない副作用をもたらし易く、或る場合には回避されるべきである。このように、本発明の一つの特徴として、ゲノミクス情報を記憶及びアクセスする手段は、薬発見標的の候補となるものに影響を与えることにより影響されるのは望ましくないであろう遺伝子及び遺伝子産物の経路を含めた、薬発見標的の候補に連結した全ての既知の経路を同定する照会により、副作用又は非反応性を予測するのに用いることができるであろう。

病気への経路が多数存在する場合、本発明は、二種類以上の薬を投与することを含むことがある補助治療法の開発に導く複数の薬発見標的を同定するのにも用いることができ、それにより同じ病気への多数の経路が遮断される。或る場合には、一つ以上の別の経路のために存在する既知の薬もあるであろう。

或る場合には、薬標的と病気との間の関連が充分理解されていないため、前臨床又は臨床開発を受ける薬が、病気を処置するのにどのように有効であるかは明らかではない。本発明の一つの態様として、薬の作用の機構を決定又は確認するための方法で、ゲノミクス情報を記憶及びアクセスし、薬標的と病気との間の経路（単数又は複数）を定めるための手段を用いることを含む方法が与えられる。

本発明は、薬発見標的の候補のアゴニズム(agonism)及び拮抗により影響を受けることがある他の経路を明らかにし、そして与えられた薬発見標的候補の点で薬の介入により影響を受ける経路を補充するか又はそれと代えるかも知れない別の経路を示すことにより、標的正当性の確認を助けるのに用いることができる。

別の態様として、本発明は、与えられた病気のための診断マーカーを同定するための方法を含む。この態様では、本発明は、（ａ）ゲノミクス情報を記憶及びアクセスする手段で、記憶されたコンセプト間の複雑な関係の計算分析を行うことができる手段を与え、そして（ｂ）データーベースを照会し、病気に付随するマーカーを同定する方法を含む。病気に付随するマーカーは、遺伝子標識、即ち、反復、挿入、削除、ＳＮＰ等のような多型であるのが典型的である。それらは蛋白質標識、即ち、表現されているか又は表現されていないか、比較的表現不足又は過剰表現されているか、後で異なったように翻訳処理されるか、又は変化させた蛋白質にすることもできる。他のマーカーも有用であり、例えば、抗体、ｍＲＮＡ、生化学的標識、例えば、酵素又は代謝レベル等である。

本発明は、薬理遺伝子論の成長しつつある分野でも有用である。例えば、別の態様として、本発明は、特に薬反応、即ち、望ましくない副作用、又は非反応性のための診断マーカーを同定するための方法を与える。副作用又は非反応性についての標識を同定することにより、一定の病気を有する患者の母集団を、臨床試験又は処置に加入させる目的で、重大な悪影響を有するか、又は与えられた治療に対し効果を示さない可能性に基づいて部分集団群へ階層化することができる。

更に別の態様として、本発明は、既知の薬の新しい用途を同定するための方法を含む。この態様では、本発明は、ゲノミクス情報を記憶及びアクセスする手段を用い、既知の薬の標的が含まれる全ての経路を、その薬が指示されている病気についての経路の外に同定し、次にその付加的経路のどれが、もしあったとして、異なった病気をもたらすかを決定することを含む。このようにして、既知の薬について異なった病気、即ち、新しい用途を同定することができる。

薬発見のために病気の経路及び標的を予測する本発明の方法は、データーベースを照会することにより得られた情報を、病気の経路又は薬発見のための標的を判別する他の方法により得られたデーターで補強することにより向上させることができる。例えば、本発明の方法は、付加的に、データーベースに明示された関係に関連して異なった表現データーの使用を含むことができる。

本発明は、薬発見のための薬発見標的の使用も意図している。薬発見のために本発明を使用することにより同定された（場合により、更に正当性確認に続き）薬発見標的をどのように用いるかが、当業者に明らかになるであろう。典型的な手段は、標的に対する化合物の膨大なライブラリーをスクリーニングし、それによって得られた知識を用いて大きな効能を有する新しい化合物を反復して設計し、スクリーニングすることを含んでいる。

マイクロアレイ(Microarray)発現データーの分析
次に、本発明の原理に従い、ユーザーが供与した特異的遺伝子発現データーに関連して、薬発見経路の候補を分析、理解、又はその正当性の確認を行うのに、如何にＫＲＳを用いることができるかの例を与える。前の記載と同様に、本発明の好ましい例としての態様についてのこの詳細な記述は、例示の目的のためとしてのみ考えられており、本発明を限定するものではない。むしろ、本発明の限定は、添付の特許請求の範囲に記載されている。

本発明に従い、マイクロアレイ・データーの分析を行う手順の一例を図３に例示する。前に論じたように、研究文献（１）及び他の資料（２２）からとられた構造化された科学的調査事項を含む知識ベース（ＫＢ）（３）は、調査事項ＫＢに記憶され、オントロジー（３に埋め込まれている）に従って構造化されている。ＫＢを形成するオントロジー及び調査事項ＫＢは、ＫＲＳに記憶され、上で論じたように、ＫＲＳアプリケーション・プログラム・インターフェース（ＡＰＩ）を用い且つ／又は言語を照会することにより呼び出し、操作することができる。

図３は、分析のコンセプト的構成部分を示している。分析を行うために用いられるデーター構造、アルゴリズム、及びソウトウエアー構成部分は、単独形ソウトフエアー・ツールを形成していてもよく、或は、それらはＫＲＳ中に記憶された情報をアクセスするために用いられる現存するプラットフォーム及び／又は一組のアプリケーションと統合されていてもよい。分析は二つの工程を含んでいることがある。第一の工程は、プロファイルを同定するためにＫＢのコピーについて一連のコンピューター操作を行うことを含み、第二の工程は、ユーザー供与データーに対するこれらのプロファイルのスコアリングを行うことを含んでいる。図３を参照した次の記載中、分析の一例はユーザー供与表現アレイを用いている。プロファイルのライブラリー（７）は、予め形成されているのが好ましいが、別の態様として、プロファイルは、必要に応じ形成してもよい。このグループのプロファイルの性質は、下で一層詳細に説明するように、分析の目的によってはかなり変わることがある。全ＫＢの図を作成した予め生成したプロファイル「ライブラリー」は、パフォーマンスのためには好ましく、後でそれらの検索が一層速くなるように、それらの図の全てを予め生成させてもよい。ユーザー供与データーには、第三者生成物、例えば、アフィメトリックス・ジェネチップ(Affymetrix GeneChip)^（ｃ）、オンライン・サービス、又は所有権のあるデーターベースから与えられたアレイ・データーを含んでいてもよい。

プロファイルの定義
「プロファイル」は、生物学的に同等なやり方で作用すると思われる遺伝子又は遺伝子産物の特定の組合せのようなコンセプトについての情報を含んでいてもよく、それらに従って定義することができ、例えば、病気関連経路、細胞及び／又は細胞成分、解剖部分、分子、細胞又は病気のプロセス、及びそれらの間の関係の全て又は一部分を形成していてもよい。好ましいプロファイル生成及びプロファイル対データースコアリングアルゴリズムについての概説は下に与える。しかし、この例に入る前に、この議論で用いられる「プロファイル」が、研究者の目的に適した基準（単数又は複数）に従って定義されるデーターベース中に含まれたデーターの部分集合に関係していることを強調することは重要である。そのようなものとして基準（単数又は複数）は、研究者の要求により少なくとも部分的に決定されるプロファイルのどのようなアトリビュート(attribute)でも意味している。このことは、一つ以上の生物学的コンセプト、プロファイルのサイズ(size)（例えば、グラフサイズ）、又はプロファイル中の調査事項連結性に関連して定められた基準を含んでいてもよい。従って、下に列挙したプロファイル基準の例は、プロファイル決定条件の態様の例に過ぎないことを意図していることを覚えておくべきである。一般に、プロファイルを定める基準は、本発明によるプロファイル構造が研究目的によって駆動されるので、本発明の適用毎に変化するであろうことは理解され、実際に予想されることである。

このように、通信情報中の一つ以上のプロファイルの効果性は、その情報か求められている特定の科学的目標に当然依存したプロファイル（単数又は複数）を定めるのに用いられた基準（単数又は複数）に依存する。例えば、特定の細胞プロセスに関連した情報が、標的にされた経路の情報を非常によく提供するであろうと考えられるならば、この細胞プロセスに関する調査事項は、プロファイル基準を選択する時に考慮すべき因子になるであろう。別の状況として、調査事項の資料（例えば、組織の型）又はプロファイルのサイズ（例えば、そのプロファイルを例示するグラフ構造のサイズ）が効果的プロファイル選択基準になることがある。

プロファイル生成
再び図３に関し、工程１、プロファイル生成は、ＫＢからのプロファイルの一つ以上のライブラリーをアセンブルする計算を予め行うことから始まる。各ライブラリーは、或る組みの基準に適合したＫＢ中に見出される全てのプロファイルを含む。その基準は、システムにより予め設定されていてもよく、又はユーザーにより規定してもよく、データーベース中のどの範疇にでも、例えば遺伝子又は遺伝子産物、プロセス、調査事項の資料、有機体の型等、又は他の基準、例えば、一つのプロファイルについてのノード(node)の限界数に所属させてもよい。

コンセプト的には、夫々のプロファイルは、基準にあった調査事項のネットワークを見出すためのＫＢに対する照会の応答である。ライブラリーは、パフォーマンスを最適にするため予め作っておいてもよく、或いはライブラリーはＫＲＳに対して直接作成し、ライブラリーが最近発見された調査事項を、それらがＫＢ中に記憶されるように組込むことができるようにしてもよい。プロファイルは、「ブートストラップ・アプローチ」(bootstrap approach)の或るものを用いて作ることもできるであろう。プロファイルの最初の組みを作り、次に、発現の変化を検出する感度について試験し、最良のプロファイルを（一層多くの遺伝子メンバーを追加することにより、プロファイルを合体させることにより、又はさもなければプロファイルモデルを定める基準を変化することにより）拡大し、その感度試験を繰り返すことができるであろう。最終的には、遺伝子発現を検出するのに最適なプロファイルが変化する（遺伝子メンバー一つ当たりの感度測定が最適になるであろう）が、この方法から余りにも大きなものは出現できないであろう。

● プロファイルは、ＫＢ調査事項（４）の部分集合を先ず抽出し、次に調査事項（４）を大きなグラフのデーター構造（５）中へ移すことにより生成させる。これは、本質的にＫＢの簡単化されたバージョンであり、それは高性能グラフデーター構造操作に順応させることができる。この簡単化の一部は、各調査事項が、遂行された実験からの結果を表している文献に基づく表示からの調査事項を、各調査事項が生物学についての結論を表している生物学に基づく表示へ移すことを含んでいてもよい。

● プロファイル生成アルゴリズムは、次にこのグラフ（６）を処理し、インプットされた基準に合う遺伝子中心プロファイル・ライブラリー（７）を生成する。インプットされた基準の例は、プロファイルの大きさ（各プロファイル中の結節の数）、含まれるプロセス（例えば、「活性化＋開裂」又は「燐酸化」）、及び／又は調査事項（例えば、人間の細胞のみ）の資料である。

● そのようなライブラリーの多くはプロファイル生成アルゴリズム及び一組のパラメーターにより予め生成させて与えることができる。もしライブラリーがＫＢのコピーにより作成されるならば、それらは、ＫＢが変化した場合（例えば、新しい調査事項が到着した場合）、それらプロファイルを最新型にしたい場合、作り直さなければならない。それらライブラリーは、ＫＢが変化するので、動的に作られていてもよい。どちらの形態でも、本発明の範囲内で意図され、考慮されている。

多くのプロファイル生成アルゴリズムを用いることができるであろう。例えば、遺伝子中心アルゴリズムを用いてもよい。この態様では、アルゴリズムはＫＢの中の各遺伝子について一つのプロファイルを生成する。各遺伝子のプロファイルは、そのプロファイルを「固定する(anchor)」遺伝子及び或る基準に一致する一組の「近くの(nearby)」遺伝子からなる。「近くの」とは、或る遺伝子を固定遺伝子へ結合する調査事項の数によって、或るプロセスによって固定（又は「種子」）遺伝子へ最も直接的に関連する遺伝子を意味する。このアプローチは、「モデル駆動(model-driven)」と呼ばれている。なぜなら、プロファイルは、予め定められたアルゴリズム・モデルに基づいているからである。別法として、「データー駆動(data-driven)」モデルを用いてもよく、この場合、プロファイルは予め生成されてはいないが、その代わり一組の特異的に調節されたユーザー遺伝子と、ＫＢにより現されたそれらの既知の相互作用と一緒にしたものになると推定されている。このことは、本質的に全てのユーザー遺伝子を取り、それらをＫＢからの調査事項を用いて連結する。

工程２、プロファイルのスコアリング(Scoring)（１２）は、発現データー（１０）に対するプロファイル（９）をランク付けするＰ−値を計算するプロセスである。プロファイルは発現データーとは無関係に予め生成され、プロファイル・ライブラリーに保存されているのが好ましい。特別のアプリケーションでは、多くのプロファイル・ライブラリーが生成されていてもよく、その各々がユーザー又はシステム特定化基準に合うプロファイルを含んでいる。ここに記載したプロファイルスコアリングは、これらのライブラリーのいずれに対しても働くであろう。一つの態様として、アルゴリズムは、簡単化する二つの仮定を行う。

１．発現アレイデーターを、調節のＮ重(N-fold)以上の差（一つの態様として、Ｎ＝２以上）を示す遺伝子だけを選択することにより、異常制御（異常調節；dysregulated）された（即ち、異常に増加又は減少調節された）遺伝子（１１）のリストへ移される。このことは、発現分析のための一般的初期簡単化である。しかし、別の態様として、カットオフ(cutoff)閾値よりもむしろ実験された全ての遺伝子についての発現値の全分布を用いた一層精密な連続的分布アプローチを用いてもよい。

２．スコアリングの目的で、プロファイルを、ＫＢ、例えば、前述の調査事項ＫＢから遺伝子の単に特定の組になるように考慮する。特に、これらの遺伝子間関係はスコアリング目的のためには用いず、プロファイルを生成させ、次にそれを結果の生成中に表示し、それに注釈を付ける目的のためにのみ用いる（下記参照）。スコアリングアルゴリズムは、同様に、遺伝子結合を考慮に入れてもよく、プロファイルと発現データーの組との間の「適合性」をスコアリングするため、遺伝子結合及び／又はそれら結合の分子プロセス性の方向性に影響を及ぼすことがある。

本発明の幾つかの他の態様が考慮されている。一つの態様では、マイクロアレイデーターをプロファイルと比較した時、発現レベルカットオフよりもむしろ異常制御(異常調節；dysregulation)の連続的測定が用いられる。

別の態様では、存在するスコアリングに基づいて一致するプロファイルのための化合物スコアリング又は一層粗いランク付けのいずれかとして、グラフ・理論的計量を含む集合体スコアリング計量を開発してもよい。例えば、Ｎファイルについては、それは、第一計量を用いて同様に充分スコアリングし、更に、遺伝子が一層多く結合される程、それらは一緒になって一層作用を及ぼし易くなると言う仮定の下で、例えば、グラフ連結性計量に基づいて更にそれらをランク付けする。

別の態様では、システムは、発現データーベース内で、「仮定された」依存性を示すようにユーザーに注釈を付けさせることができるであろう。特に、もしユーザーが彼らの実験で遺伝子間の依存性について先天的知識を持つならば、分析すべき遺伝子組みの中にこれが含まれるようにさせる（例えば、エッジ注釈、新しいエッジの付加、又は証明が弱いと仮定されているエッジの除去）。この特徴は、好ましいが、分析遺伝子組みが、プロファイル・エッジの基礎になるものと同じ方向性の意味論を用いたエッジ図（もし本発明をグラフ状に表示するのが望ましい場合）を有することを必要とするであろう。即ち、データー駆動プロファイルは、ユーザー供給情報から構成することができる。別法として、エッジをインプットするためのフォームが与えられてもよく、エッジのための可視アウトプットのための表が与えられてもよい。従って、文献からの調査事項の外に、ユーザーは彼ら自身の調査事項を追加するか、又は例えば、信頼手段を特定化することにより、現存するものを修正することができる。これらのユーザー調査事項は、ＫＢ自身に対する修正になる（ＫＢに顧客調査事項を追加し、次にそれらをグラフフォーマット（５）へ移す）か、又はグラフ自身への修正になることができるであろう〔通常ＫＢ→グラフへ移すが、次にグラフ（５）を修正する〕。ＫＢを最新状態にするためには、テンプレートを使用して、前に論じたように、これらの新しい調査事項を導入してもよい。もしこれらの調査事項をグラフに追加するならば、グラフ編集に応じて修正されたテンプレートを用いてもよい。この得られたデーター又はモデル駆動プロファイル（又は一つの遺伝子組について一つより多くの仮定された依存性が存在する場合には複数のプロファイル）を次に用いて、例えば、モデルに基づくプロファイルと同形異質比較を行うことにより存在するプロファイルを更にランク付けしてもよい。従って、この態様では、データー又はモデル−駆動プロファイルは、ＫＲＳ中に明確に示された従来の知識と、データーについてのユーザーの個人的知識推測との両方に対してランク付けされる。

別の態様として、発現データーをＫＢ調査事項へ必ずしも移す必要なく、ＫＢ及び発現データーそれ自身に基づいてプロファイルを生成することができるであろう。これは、ハイブリッド・データー駆動及びモデル駆動アプローチになるであろう。

● 上記アプローチの両方は（又はどのような他のグラフ理論でも）、ノード、エッジ等の意味論を増加し、対応する同形異質アルゴリズムを定めることにより、ノードの特定の意味論を反映するように定めることができるであろう。例えば、同形異質計算中のエッジ「型」の比較である。

● 図示可能な遺伝子だけよりもむしろ発現データーベース中の全ての異常制御遺伝子を説明するためにランク付けの考えを拡張する。例えば、全ての異常制御された遺伝子の１０％しか図示できないならば、全ての組みの異常制御された遺伝子の生物学を網羅して特に良好な仕事を行えるものはその中にはないと仮定して、全てのプロファイルを低くスコアリングする。与えられた発現データーベースに対するＫＲＳの相対的カバレッジを概算するために、ＫＲＳによって網羅された遺伝子組に対し、全発現データーベース中の図示可能な遺伝子の比率を比較することにより、同様なプロファイル重みを計算することができるであろう。

● 観察された遺伝子発現の基礎に存在することがある反応連鎖のモデルを与えることにより、データーにどのモデルが最もよく合うかを決定することができる。これを計算する一つの方法は、ユーザーが供給した異常制御された遺伝子発現値を何千回も入れ替え、観察されたデーターと同じか又はそれよりも良くスコアリングされる無作為化データー試験の個体数に基づいてＰ−値を概算することである〔即ち、モンテカルロ(Monte Carlo)シュミレーション〕。これらの機械的モデル（経路）は、ユーザーにより予め特定化されるか、又はＫＢ中の知識について検索し、原因事項（例えば、リガンドとそのレセプターとの結合）と、生物学的に関係のある効果（例えば、遺伝子の転写活性化）との間の生物学的に尤もらしい経路を見出すことにより、自動的に生成させることができる。最も高いスコアのモデルは、コンピューター操作で入手できる情報が与えられたデーターを説明し、作用性仮定をユーザーに与える最も可能性のあるモデルである。

● 計算で関連する内容を調節するためにユーザーの実験の前後関係を考慮に入れる（例えば、どのような種類の細胞系を使用したか、或る遺伝子がノックアウトされるか又はトランスフェクトされるかを知っていか否か等）。これにより、プロファイルを、それらが実験についてのこの背景知識に対して如何に充分一致しているかに基づいてスコアリングすることができるであろう。

● 異なった細胞について何が「正常」であるか、どの蛋白質が潜在的に相互作用することができるか等の予想を精細にするため、ミーデアム・スループット(medium-throughput)データーを考慮に入れる。これにより、種々の生物学的内容に亙って標準化ベースラインを与え、統計的に意味のある結果を区別することができる感度を精密にすることができるであろう。

分析から得られた結果は、種々の形でユーザーに与えることができる。一つの態様として、三つの型を与える：

１．第一は、ライブラリー中の各プロファイルについてＰ−値を計算し（１３）、得られたリストを分類することにより生成したプロファイル評点に従ってランク付けされたプロファイルのリスト（１４）である。各プロファイルは、そのプロファイルの中心になる遺伝子、及びプロファイル中にも現れる発現データーセットからの任意の遺伝子をリストしている。ユーザーは、このリストを閲覧して、興味深いと思われるプロファイルを取り上げ、より詳細にその内容を見ることができる。このアウトプットは、スプレッドシート・プログラムを用いて見ることができる。

２．第二は、プロファイルの各々についてのプロファイル図解（ｄｉａｇｒａｍ）（１７）である。これらの図解は、プロファイルからの全ての遺伝子を示し、さらに「丸及び矢印」図解の形でそれらの間の重要関係を示している。ＫＢから抽出されたプロファイル（１６）についての付加的情報を符号化するのに、異なった記号、色、ラベル、及び位置が用いられる。そのような情報の一例は、遺伝子産物の細胞レベル下の局在である（ＫＢに記憶できるが、好ましい態様でのプロファイル生成又はプロファイルスコアリングのためには用いられない情報）。図解自身は、開放試料／ＡＴ＆Ｔリサーチ(Research)からのグラフ(Graph)Ｖｉｚと呼ばれる自由に入手できる第三者作図ツール（www.graphviz.org参照）を用いて生成（１５）することができる。アウトプットは、図解又はウエブ・アクセス可能なグラフ〔イメージファイル、又はスケイラブル・ベクトル・グラフィックス(Scalable Vector Graphics)−ＳＶＧファイル〕のプリントアウトでもよい。

３．第三は、生物学的プロセスと経路プロファイルとのアルゴリズム関連付け（１８）である。この工程は、プロファイル中の遺伝子に関連する調査事項のアルゴリズム分析を行うことにより、与えられたプロファイルにより明らかにされた生物学の記述又は要約を生成させることを含んでいる。コンセプト的には、これは、このプロファイル中の遺伝子の機能（単数又は複数）を最もよく表している分子、細胞、有機体、及び／又は病気のプロセスを記述した一組のラベル又は見出し（１８）を自動的に生成させることに類似している。例えば、多くの細胞プロセスがプロファイル中の種々の遺伝子中に含まれていてもよいが、「アポトーシス」は、それらの中で統計的に意味のあるものとして目立たせることができる。結果生成のこの特徴は、特に強力である。なぜなら、それはオントロジーの独特の構造を補強するからである。これらのプロセスの注釈、例えば、最も代表的又は最も高いスコアのものが、図解そのものに表れるか、又は別の頁の一層完全なリストによって裏付けられてもよく、或いは更に詳細な点を現すため反復する「ドリルダーン」(drill down)を支持するウエブ表示により支持されてもよい。アウトプットは、テキストのプリントアウトにしてもよいが、ＧＵＩ相互作用形式でユーザーに与えてもよい。

結果のアウトプットは、あらゆる関連ＫＢアプリケーションを利用することができるようにする統合サイト(site)の一部分として、ユーザーにオンラインで送ることができる。このことは有利である。なぜなら、全てのアウトプットで生じた情報のどの一つでも、ＫＢに記憶されたコンセプト及び調査事項に基づいており、それらは、ネットワーク（例えば、インターネット）上に位置する顧客が、プロファイル・サマリー(summary)に関連した一層詳細な情報のためにＫＢに問い合わせる目的で利用できるようにすることができる。このように、本発明の態様は、例えば、ユーザーを高レベルのプロファイル・サマリーから詳細な支持証明へ導く「クリック・スルー(click-thru)」及び「ドリル・ダウン(drill-down)」機能を可能にすることにより、支持内容で緊密に統合することができる。この用途に適合するそのようなネットワークの一例は、インジニュイティーズ・ライフサイエンシズ(Ingenuity's LifeSciences)ウエブサイトであり、この場合、ユーザーが、遺伝子を表すノード(node)をクリックすると、その遺伝子のための「ジーン・ビュー(Gene View)」頁へユーザーを導くことができる。

結果の他の型をユーザーに与えてもよい：
● 薬標的情報を有するプロファイルの、既知の薬標的である遺伝子を目で見えるように強調することにより（即ち、そのためには標的となる分子が見出され、或は作られている）、又はそのために、例えば、遺伝子系列構成員に基づいて良好な薬標的であるかも知れないことを示唆する証拠が存在することによる注釈付け。薬標的情報は、プロファイル図解上でその遺伝子を単に強調することによりそれら結果の中に統合することができ、或は薬標的情報は、プロファイルをスコアリングする時に考慮することができるであろう。

● 同様な注釈付け及びスコアリングの修正は、薬の望ましくない副作用、組織の特異性（実験が行われた組織で、遺伝子の殆どが過剰表現されていることが知られている場合、プロファイルの評点を増大する）、又はＩＰ（例えば、プロファイル中の開放遺伝子の数に基づくプロファイルのスコアリング）に基づくことができるであろう。

好ましい態様によるプロファイル生成及びスコアリングの工程について、次に一層詳細に記述する。

経路プロファイル
上で述べたように、分析の第一工程は、生物学的経路についてコンピューターモデルを生成する。「プロファイル」として言及するこれらのモデルは、マイクロアレイ発現データーのようなゲノムデーター組を問い合わせ、解釈するためのツールになる。それらはＫＢ中の調査事項から構成され、それらの既知の巨大分子相互作用、及びそれら遺伝子が関与することをＫＢが明示した種々の生物学的プロセスと一緒にした遺伝子（産物）抄録の組からなる。

遺伝子抄録は、潜在的に人間及び非人間種の両方から、ＫＢ中の遺伝子及び遺伝子産物の図解された既知の例である公的ローカスリンク(LocusLink)遺伝子記号からなる。分子間相互作用は、エフェクタ遺伝子（産物）→目的遺伝子（産物）関係の特定の例からなる。遺伝子（産物）の例を一層抽象的な遺伝子記号へ図解することにより、推論された一般化エフェクタ遺伝子記号→目的遺伝子記号関係（前に論じたように）を可能にする。グラフ理論からのコンセプトを貸りて、有効な遺伝子及び遺伝子相互作用は、有向「エッジ」（相互作用のため）により接続された「ノード」（遺伝子について）を集約したものとしてコンピューターを用いて表すことができ、夫々のノードに伴われた種々の性質（例えば、遺伝子の性質）、及び各エッジに伴われた種々の性質（例えば、分子プロセス型、プロセス変化の方向、相互作用を断定する調査事項／刊行物の数等）を有する。更に、例えば、生物学的プロセス、プロファイル中の遺伝子の数、構成方法等を含めた種々の性質が全プロファイルに伴われることがある。

プロファイルに豊富な組のノード、エッジ、及びグラフ性を伴わせることができることは、プロファイルに種々の選択基準を適用する機会を与える：
■ ノード及び／又はエッジを選択する時に適用される基準は、生成するプロファイルの組成及び構造に多様性を与えることができる。
■ プロファイル構成前であるが、表現データーに対するスコアリングを行う前に適用される基準は、無駄な誤った「ヒット(hit)」を減少し、或は一層焦点のあった分析を与えることができる。
■ プロファイル構成後で、表現スコアリング後に適用される基準は、研究者による再検討のため、プロファイルの付加的ランク付けを与えることができる（表現スコアリング以外の基準により）。

プロファイルは、「遺伝子中心」の性質を持っていてもよい。経路プロファイルは、「種子」遺伝子として夫々を用い、ＫＢ中で相互作用することが知られている他の遺伝子を含めて、ＫＢ中の遺伝子記号の各々の回りに構成する。このようにして、プロファイルは、種子遺伝子の「相互作用近隣(interaction neighborhood)」又は「影響圏」を表すようになる。プロファイルは別法として、「種子」としての非遺伝子コンセプトを用いて構成することもできる。例えば、アポトーシスのような細胞プロセスは種子として選択することができ、その時、アポトーシスでＫＢが示唆する遺伝子の全て又は幾つかの部分集合を、それらの既知の分子間相互作用（エッジとして）と一緒にプロファイル中へ追加することができるであろう。しかし、プロファイル中の「種子」の性質とは無関係に、「種子」についてのプロファイル構成の背後にある理論的根拠は、特定のプロファイルがゲノムデーターの組（例えば、表現データー１０）に有意に関係付けることができるならば、「種子」は解釈の焦点になることである。

経路プロファイル生成のためのアルゴリズム
「種子」ノード及び種子を他のノードに連結するエッジを越えて、無数のやり方でプロファイルを構成することができる。これらのアプローチは、全て次の目的を取扱うことを試みている：ＫＲＳにより表された巨大分子相互作用の完全なセット(set)は、通常余りにも大きく、余りにも多様なので全体的にゲノミクスデーター・セットと比較することはできないであろう。従って、アルゴリズムはこの大きな「巨大分子相互作用領域」を、ゲノムデーター・セットの一層きめの細かい検証を支持するため、多数の実際的大きさの相互作用近隣へ「切り分ける(carve up)」ことが必要である。この切り分けは、異なったプロファイル間のかなりの遺伝子重複をもって行われ、遺伝子の希な組合せが見落とされるかもしれない機会を最小限にすべきである。一方、プロファイルの大きさ中程度にし、プロファイルに帰属するであろう生物学的機能のセットが、余りにも多様又は不均質にならないようにすべきである。大きさの小さいプロファイルは、人間の再検討及び解釈にも役立つ、他方、プロファイルはゲノムデーター・セット及び／又は生物学的関連、例えば、ＫＢ中に定義された（下で論ずるように）分子、細胞、有機体、及び／又は病気プロセスとの関連を計算する場合に充分な統計的力が存在するように、充分大きくすべきである（即ち、それらは、例えば、充分な数の遺伝子を含むべきである）。別の問題は、プロファイルが、中心「種子」遺伝子に結合された遺伝子の収集で比較的対称的になるべきことである。換言すれば、高度に相互関連した「第一段」遺伝子（即ち、種子に直接結合した遺伝子）は、第二段遺伝子（即ち、種子から１ステップ除かれた遺伝子）を有するプロファイルをスワンプ(swamp)させるべきではない。なぜなら、これは、プロファイルの種子遺伝子中心性を変化させることがあるからである。

上記目的をアドレスするために開発されたアルゴリズムの一例は、「スパイラル(spiral)」アルゴリズムと呼ばれている。このアルゴリズムでは、プロファイルは、全て既知の相互作用の完全拡張マスターグラフ（５）から生成させる。グラフ（５）は、ＫＢに保持された対型巨大分子相互作用の完全セットから構成され、当然その異なった部分では密度（即ち、ノード間の連結度）が異なるであろう。夫々の遺伝子又は遺伝子産物について、マスターグラフ中のノードによって表されるコンセプトは次の通りである：

１）遺伝子又はその産物の「種子」ノードとしての指定。

２）種子と近隣とが相互作用すると言う主張を支持する調査事項の数が１より大きい限り、全ての直接近隣ノード（種子遺伝子との相互作用に関与することが知られている遺伝子）を追加するか、又はノードの最大数に到達したならば追加を停止する。唯一つの調査事項にしか基づかない相互作用の除外は、確認されないか、又は証拠が弱い調査事項を取り除くと考えられる。これらは第一段ノードであり、種子からノードへの結合は第一段エッジである。

３）各第一段ノードについて、相互作用を支持する調査事項の数が４以上である限り、第一段ノードの近隣にあるノード及びエッジ（種子の外）のリストを編集する。これは、相互作用の科学的信頼性に対する説得力を増大し、それは、上で説明したように、一つの遺伝子の他のものに対する影響度の減少についての仮定と、それらの間に介在する遺伝子が存在する場合、一致している。これらの付加的ノード及びエッジは、「第二段」候補になるものと考えられる。

４）調査事項の数を減らすことにより、第二段エッジ候補を分類する。

５）全ての第二段エッジ候補を計数し、調査事項の数により分類した後、第二段候補をプロファイルに円状の仕方で追加し、調査事項の数が最も大きい第二段エッジを選択することにより第一段ノードの各々のための一つの第二段エッジ候補を取り上げ始める。

６）工程（５）での円状エッジ追加を、第二段エッジ候補の数が出尽くすか、又はプロファイルのためのノードの最大数に到達するまで繰り返す。これにより、相互作用を証拠付ける最大数の科学的調査事項を持つ、エッジに基づくプロファイルを与える結果になる。

上記「スパイラル」アプローチ（本質的に得られるノードの幅・第一検索）は、対称的なやり方でプロファイルを拡大することを目的とする。第二段エッジは、同じ機会を有する第一段ノード（主に調査事項数の多いもの）から追加され、高度に結合された第一段ノード（多数の第二段エッジを有する）が、その結合を有するプロファイルをスワンプさせる機会を減少する。このように、種子遺伝子を取り巻く影響圏が最もよく表される。付加的プロファイル組立アルゴリズムを用いることもできる。

上記アルゴリズムは、ＫＢ中の各遺伝子又は産物に適用した場合、各遺伝子の影響圏のモデルが収集されたプロファイル・ライブラリーを与える結果になる。プロファイル・ライブラリーは、得られるエッジから選択した場合、特定のエッジ型／分子プロセス基準［これらの基準は一層一般的にすることができ、細胞プロセス型、病気状態等に基づくものにすることができる］（例えば、結合のみ、機能的相互作用のみ、又は全ての型）を用いて構成することができる。次にゲノムデーター・セット（例えば、発現データー・セット）を分析する場合、プロファイルライブラリー（単数又は複数）中のあらゆるモデルを、データー・セットに問い合わせるのに用いてもよく、モデルとデーター・セットとの間の対応する適合を計算する。このアプローチは「モデル駆動」と呼ばれている。上で述べたように、基本的に異なったプロファイル構成のための「データー駆動」アプローチを行なってもよい。この場合、プロファイルが作成されたノードは、ゲノムデーター・セットで変化する（例えば、異常制御される）ことが観察された遺伝子（又は産物）のみからなる。タイム・シリーズ(time-series)から得られたデーターを用いて行なった場合、プロファイル拡大の興味ある「拡大活性化」パターンを見ることができる。

組立てられたプロファイルは、それらプロファイルが統計的モデルとして取扱われている大規模ゲノムデーター・セットを質問し、解釈することに焦点を置いて使用される。プロファイルの別の使用方法も可能である。例えば、経路プロファイルを、相互作用遺伝子の動的挙動を探求することができるようにするシュミレーション・ソフトウエアーへ供給することができるであろう。分子間相互作用のプロセスの性質及び方向性（増加／減少）を用いて、プロファイル中の一つ以上の遺伝子の変化（存在度）に関する「ウォット・イフ(what if)」シナリオ及びプロファイルの他の構成員に対するその変化の影響を追跡するのに用いることができる。ブール・ネットワーク(Boolean network)及びペトリ・ネット(Petri net)は、そのようなシュミレーションで用いることができるかも知れない或る技術を提供している。経路がどのように用いることができるかの別の例は、試験可能な仮定の生成にある。コンピューターシステムは、実験的に証明することができる分子相互作用についての予測、恐らく有効な試薬（プロファイルの遺伝子の幾つかの中にあるマウス・ノックアウト）及び実験を遂行するための付加的情報についての報告でさえも、生成させるように考案することができるであろう。これらの実験的証明から得られる新しい知識を反映させるためのプロファイル・モデルの再検討／微細調整のためのコンピューター支援を存在させることもできるであろう。

経路プロファイルグラフ及び生物学的注釈
遺伝子組成、結合性、及び経路プロファイルの動的性質、及びそれらが発現データー・パターンとどのように重複しているかを理解し易くするため、本発明によるシステムを生物学的関連を有するプロファイルを自動的に注釈し、それらプロファイルを相互作用図解にするように構成することができる。

生物学的注釈は、プロファイル中の相互作用遺伝子のセットの緊急性であると考えられる生物学的プロセスからなる。これらの生物学的プロセスは、知識ベース（ＫＢ）中に定められたコンセプトに相当し、異なったレベルの生物学的抄録／細分性を測ることができる：
■ 別の巨大分子に作用する巨大分子を含む分子プロセス
■ 細胞の状態の変化を含む細胞プロセス
■ 有機体又は有機体構成物の状態の変化を含む有機体プロセス
■ 有機体又は有機体構成物の状態の異常な変化を含む病気プロセス。

結合された生物学的プロセスは、経路プロファイル中の統計的に有意のフラクション（fraction)の中に共有されていることが決定されたプロセスである。「Ｐ−値」有効数字測定は、各プロファイル--生物学的プロセス関連について計算し、異なった関連をランク付けし、特定の関連を優れたものとしてフラグ(flag)してもよい。生物学的関連のランク付けリストは、それら生物学的プロセスに結合した特定の遺伝子のリストと一緒に、ユーザーに与えることができる。このようにして、ユーザーにはプロファイルの生物学的「読み出し」が与えられ、それは、組織試料の既知の生物学に対するプロファイルの的中を確認するのに役立つことができるか、又は別法として、特性化されていない組織試料の基礎にある生物学についての新しい見解を表すことができる。一つの態様として、注釈は、生物学的プロセスコンセプトに限定されるが、システムの他の態様は、経路プロファイルのための統計的に有意の関連を計算するために、ＫＢ中の付加的型のコンセプト（例えば、細胞型、特定の器官、プロセスの増加／減少、及び生物学的コンセプトの他の組合せ）を補強することができるであろう。更に、付加的種類の統計的分析を含ませるために、システムを拡張又は容易に修正することができる。ゲノム・データー・セットに結合した潜在的生物学的プロセスを列挙し、統計的にランク付けするのに好ましいアルゴリズムを下に記述する。経路プロファイルの生物学的注釈は、発現データーに対するプロファイルのスコアリング前又は後で行なうことができる。前者の場合、生物学的注釈は、生物学的基準に基づくプロファイルのセットを予め濾過するのに用いることができる。後者の場合、生物学的注釈は、生物学的重み付けに従って種々のスコアリングされたプロファイルをランク付けするのに用いることができる。

プロファイルのグラフ化は、経路プロファイルの広範に統合された情報を、ユーザーにより迅速に解釈できるものに変換することを目的とする。例えば、プロファイル中の遺伝子（又は遺伝子産物）は、ノードとして表現してもよく、分子間相互作用は、ノードを接続する線として表現する。両方の場合、それら表現にラベルを伴わせる（ノードは内部的には遺伝子記号でラベルを付け、エッジは分子プロセス省略記号でラベルを付ける）。中心「種子」遺伝子は、図解的には他のノードと区別することができ（例えば、八角形を用いることにより）、各遺伝子産物の蛋白質構造クラスは、独特のノード形により表現してもよい。発現データー・セットと、プロファイル中の遺伝子との間で検出された重複は、次のように図解中で表現することもできる：異常制御された遺伝子は、それらの折畳み頻度変化〔＋又は−浮上点(floating poit)値〕でラベル付けし、減少調節された遺伝子は赤、増加調節された遺伝子は緑になるように着色し、色の強度は、異常制御の大きさに平行している。異常制御された遺伝子の間の相互作用は、色及び／又は線の太さ及び／又は線の密度及び／又は線のラベル付けにより可視的に強調することができる。全ての分子間相互作用は、活性化、不活性化、結合、転写効果、変性、開裂等のような、相互作用型を示す一連の単一省略文字でラベル付けするのが好ましい。単一省略文字を使用することにより、過度に混雑したラベル付けを生ずることなく、多数のプロセスを要約することができる。遺伝子（産物又は）ノードを結合する線は矢印の形をしていてもよく、「エフェクター」遺伝子は、矢印の「後」端の所に接続し、「目的」遺伝子は、矢印の「先」端の所に接続する。二つの遺伝子（遺伝子産物）の間に相互作用が存在する場合、二つの反対方向の矢印を遺伝子ノードの間に引くことができる。遺伝子産物の細胞レベル下の位置は、その遺伝子ノードを、５つの主たる位置（核、サイトソール、細胞表面、細胞周辺、及び未知）の各々に相当するラベルのついた箱の中へ入れることにより表現することができる。細胞レベル下の位置の箱の配列は、図の中央にある底部、細胞周辺、及び頂部の細胞表面、及びサイトソール、及び未知の所の核の表現に従ってもよく、又は従わなくても良い。既知の又は疑われている薬標的についての情報は、色及び／又は形及び／又はラベル付けで強調された遺伝子ノードを用いて、図解で表現される。

上で与えた例の場合のように編集した生物学的プロセスのランク付けしたリストを用いて、トップ３位の最も統計的に重要な生物学的プロセスは、プロファイル図解表示の特徴とすることもできる。例えば、生物学的プロセス図解特徴は、生物学的プロセスの名前、そのプロセスに係りのあるプロファイルからの遺伝子の数、及び構成員遺伝子に伴われる統計的有意性を反映して計算されたＰ−値の入った箱を含んでいてもよい。更に、生物学的プロセス箱を、生物学的プロセスに関係するＫＢが明示するプロファイル中の遺伝子を描くノードへ、点線により（実線である分子間相互作用線と区別するため）接続してもよい。プロファイルの相互作用ＧＵＩ表示を用いて、ユーザーは、表わされた情報の型及び量を動的に制御する選択をもっていてもよい。更に、図解プロファイル表示中の要素は、それらの要素が相当するコンセプトについてＫＢ中へ詳細な見解へ超結合(hyperlink)することができる（例えば、特定の遺伝子についてのあらゆる入手可能な知識を要約するＧＵＩ）。

プロファイル内の広範な知識統合（結合性、方向性、相互作用型）、計算された生物学的注釈、プロファイルのコンピューター生成図解表示、及び既知の薬理学的標的についての積層の組合せは、薬標的選択のための合理的対策を支持することができるシステムを与える結果になる。プロファイル中の構成員遺伝子の間の相互作用の結合性及び方向性についての知識は、遺伝子セットを通って流れる情報についての可能性を現すことができる。蛋白質構造クラス（薬標的機会）に関する統合された知識のみならず、従来の既知の薬標的（例えば、ＩＰ障害物）は、適切な薬標的の候補を選択するのに役立つことができる。遺伝子に対する生物学的プロセス注釈及び結合は、プロファイル中の特定の遺伝子を変調する生物学的結果を予測するのに役立つことができる。位相知識、標的候補性、及び生物学的結果を一緒に用いることは、新規な薬理学的介入対策の選択及び評価を裏付けることができる。

経路プロファイルに対する統計的に重要な生物学的プロセス関連を計算するためのアルゴリズム
目的は、統計的に意味のあるやり方でプロファイル中に遺伝子を収集することに伴われるＫＢからの生物学的現象を現すことである。プロファイル中の２０又は４０の遺伝子は、夫々多くの生物学的プロセスに関与していると思われるが、最も重要なものは、多くの遺伝子により共有されているものである。統計的に意味のあるものであるためには、共有された生物学的関連が、機会単独で予測されるよりも大きな頻度で起きるべきである。これらの重要な関連を我々は見出したいばかりではなく、その関連の重要性の尺度も見出したい。この統計的重要性の尺度は、「Ｐ−値）と呼ばれている。それは確率測定（０〜１の範囲の値を有する）であり、それは観察された生物学的関連が単に機会によるものである見込みを示している。特に０．０５より低い（即ち、９５％より高い信頼性）場合、Ｐ−値が低い程、それら関連を単なる機会事項としては説明しにくくなる。

プロファイルＸは、２０の遺伝子を有し、それら２０の遺伝子の中で、１２が細胞プロセス「移動」に伴われることが（ＫＢから）知られているものと仮定する。回答すべき質問は、２０の遺伝子の中で「移動」に結合された１２が、全ＫＢの中の遺伝子セットの間の「移動」細胞プロセスの頻度を単に反映しているものとして説明することができるか、又はこの「移動」遺伝子の濃度が異常なものであるか否かと言うことである。この質問に答えるため、貴方はＫＢ中の無作為的に選択された遺伝子が「移動」に伴われる確率（ｐ）を知る必要がある。この確率はＫＢ中に現されている種々の細胞プロセスに亙ってＫＢ遺伝子分布を計算することにより決定することができる。この分布を、次にデーターベース中にその情報を記憶させることにより、分析ソフトウェアーにより迅速にアクセスするのに利用することができるようになるであろう。好ましい態様のＫＢで得ることができる情報の場合、このＫＢの中の合計１０，５００遺伝子の中で「移動」の細胞プロセスに３８６の遺伝子が結合されていることが判明した。このことは、無作為的に選択された遺伝子が「移動」遺伝子である確率は、３８６÷１０，５００、即ち、０．０３６８であることを意味する。２０の無作為的に選択された遺伝子の中で１２が「移動」に結合している確率は、二項分布を用いて計算することができる：

式中、ｎは、無作為的に選択された項の数であり、ｋは、一つの種類の観察された事項の数であり、ｐは、一つの項が特定の事項である確率（頻度）である。

上の例からｐは０．０３６８になる。（１）及びｐ＝０．０３６８から、無作為的に選択された２０の遺伝子の中で１２が「移動」に結合されている確率を次のように計算することができる：

これは、２０の中で正確に１２の遺伝子が「移動」に結合されている確率を計算していることに注意することは重要である。この意味を判断して、２０〜１２「以上」の遺伝子の累積確率に我々は興味がある。これは、（１）から、二項確率を合計することにより計算する：

式中、ｋ１＝１２、ｎ＝２０、ｐ＝０．０３６８。

「移動」細胞プロセスについて、これは、２０のプロファイルから１２以上の遺伝子の観察が１．９ｅ−１２の機会により起きる累積確率を与えている。これはＰ−値であり、この場合、１．０ｅ１２機会の中の１を与え、その結果は機会による。

この試験は、一般に「フィッシャー・サイン・試験(Fischer Sign Test)」と呼ばれており、好ましい態様として、ＫＢ中の遺伝子に連結した細胞、有機体、及び病気関連のいずれかについてのプロファイルで自動的に行われる。

プロファイルについての統計的スコアリング
ＫＢから生成したプロファイルに基づく統計的分析をスコアリングする表現の一例を次に与える。次の一般化された仮定は、この統計的分析に関連して行われた：
１．知識ベースは、０以上の（ＫＢ）明確な遺伝子の各々について一つ以上の調査事項を含んでいる。
２．生成したプロファイルの各々は、ＫＢからの遺伝子のセットである〔ＢＣＰ＝生物学的に同等の(Biologically Coovdinated Pathway)経路〕。
３．ユーザーは、１セットの遺伝子（ＵＳＲの明確な遺伝子）を分析する。
４．ユーザーが遺伝子のその地図（ＭＡＰ）を分析した遺伝子は、［０，ＫＢ］の範囲にある。
５．ユーザーが分析する遺伝子は、異常制御（ＤＹＳ）されていてもよく、［０，ＵＳＲ］の範囲にある。
６．重要な遺伝子は、異常制御され、遺伝子に図示された遺伝子（ＳＩＧ）であり、それは［０，ＭＡＰ］の範囲に入る。
７．ＳＩＧ遺伝子の幾つかは、特定のファイル中の遺伝子であってもよい。特定のＢＣＰの場合、この重複（ＯＶＰ）は、［０，最小（ＢＣＰ，ＳＩＧ）］の範囲にある。

図４は、ベン(Venn)図表の形に上記セットの中の関係を例示している。ここに記載された統計的アプローチは、ＳＩＧを含むＢＣＰの或る部分集合の重複（ＯＶＰ）が、ＯＶＰがランダム事項である確率に基づき、統計的に重要であるか否かを決定することに関係している。この無作為性の確率を決定するための二つの可能なアプローチを与える。

アプローチ１：重複の正確な確率
最初のアプローチは、固定されたＫＢ、ＭＡＰ、ＢＣＰ、及びＳＩＧを与えて大きさＯＶＰを観察する正確な確率を計算することである。それは、もしプロファイルを生成したアルゴリズムがＫＢ全遺伝子のセットからＢＣＰ遺伝子のセットを無作為的に取り上げた場合（即ち、我々が、遺伝子がどのように互いに関連しているかについて得た全ての情報を無視し、どのようなＢＣＰ全遺伝子の組合せでも無差別に取り上げた場合）及び検定中の異常制御遺伝子も無作為的である場合（即ち、どの分析された遺伝子でも、異常制御されている同じ確率を有する場合）、どのようなことが予想されるかを計算する。この統計の目的は、もし整合したプロファイルと分析結果との両方が全て完全に無作為的であった場合に重複を観察することがどのように起こり得るかを示すことである。従って、計算された値が１（１００％）に近い程、偶然に重複が一層起き易く、値が０に近い程、一層よい。なぜなら、どのように重複が起きるかの説明として（帰無仮説）「無作為的機会」は一層起こりにくくなるからである。

図示されていない０又は１０，０００のＵＳＲ遺伝子（図４のＵＳＲ遺伝子箱中の明緑色領域によって表されている）が存在するか否かは問題にはならないことに注意する。なぜなら、我々はそれらについての知識がないからである。それらは、プロファイルが取り上げられたＫＢ遺伝子の母集団中には存在しない。同様に、ユーザーが、ＫＢ遺伝子に図示された、著しく異常制御された（ＤＹＳ）と考える遺伝子だけが問題になる。なぜなら、もしそれらが図示されていないと、我々はそれらについてなにも言えないからである。しかし、図示された異常制御された遺伝子（ＳＩＧ）の数は問題になる。なぜなら、特定のプロファイルに重複する特定の異常制御遺伝子が偶々ブリップ(blip)である、即ち生物学的に同等ではない可能性を計算しているからである。帰無仮説が真実であるためには、全ＭＡＰ遺伝子から取ることができるＳＩＧ遺伝子のどの組合せでも同じように起こり得る。分析結果を無作為的に処理することにより、その確率を一層健全にする。なぜなら、それは、ユーザーのデーターが無ノイズであることを仮定していないからであり（実験を多く繰り返して平均することによりノイズは減少するが、各条件／時間点について唯一回のマイクロアレイ実験が行われることが多く、結果にかなりの検出されないノイズを与える結果になる）、又はユーザーが「異常制御されている」と考える遺伝子が実際に生物学的に同等とされているからである。

プロファイルと異常制御遺伝子の両方が無作為的であると言う帰無仮説に基づくこの正確な重複確率を計算するための式は次の通りである：

式５の中の［］内に入っている第一商は、重複ＯＶＰ遺伝子も含むＫＢ全可能な遺伝子から無作為的に取られたＢＣＰ全遺伝子を含む異なったプロファイルの分率を計算している。選択（Ｎ，Ｋ）関数は、置き換えることなく（即ち、各項を唯一回選択できるとして、なぜならプロファイルはセットであり、同じ遺伝子が、各プロファイル中でせいぜい一回しか現れないからである）全Ｎ項からＫ項を何回区別したやり方で選択することができるかを計算している（それは、もしＫ＝０又はＫ＝Ｎであるならば１の値になることに注意されたい）。

これを可視化するため、図４のコンセプト的枠組み図解を見て頂きたい。ＢＣＰボックス（垂直線は一つのプロファイルを表す）をＫＢボックス（無地のボックス、実際には関係があるのはＫＢボックス中のＢＣＰボックスの一定の割合であり、ボックスではない）の中で動かした場合を想像する。ＢＣＰボックスの異なった位置は、夫々無作為的に取り上げることができる異なったプロファイルになるであろう。選択（ＫＢ，ＢＣＰ）は、ＢＣＰ遺伝子の可能な区別された組合せが何回できるかを計算している。しかし、ＯＶＰ遺伝子を固定すると、全ての可能な無作為的プロファイルの中で幾つかのものしかＯＶＰ遺伝子を含まなくなるであろう。計算機が計算するのはそれであり、特定のＯＶＰ遺伝子を含むＢＣＰ全遺伝子からなる異なったプロファイルが、全てのＫＢ全遺伝子から何回無作為的に取り上げれるかを計算している。

式５の［］内の（）内に入っている第二の商は重複遺伝子（単数又は複数）が、異常制御されているが、ユーザーのデーターの中に偶然生ずる確率を計算している。特定の実験で、１０００の図示ユーザー遺伝子（ＭＡＰ）の中で、唯一つの図示された異常制御遺伝子（ＳＩＧ）が存在すると仮定する。Ｐ（ＯＶＰ＝１）の確率は１／１０００になるであろう。なぜなら、１回の重複について、重複遺伝子は、単一の図示異常制御遺伝子になるはずだからである（即ち、選択（ＳＩＧ＝１、ＯＶＰ＝１）＝１）。しかし、異なった単一の図示遺伝子を選択する１０００通りの方法がある（即ち、１０００のＭＡＰ遺伝子の各々について一通りずつ）。従って、この場合、１回の無作為的に選択された遺伝子が異常制御された遺伝子（ＳＩＧ）であり、重複（ＯＶＰ）中にある場合の機会は１／１０００である。

式５中で、［選択（ＳＩＧ、ＯＶＰ）／選択（ＭＡＰ、ＯＶＰ）］＝［選択（ＭＡＰ−ＯＶＰ、ＳＩＧ−ＯＶＰ）＊選択（ＯＶＰ、ＯＶＰ）］／選択（ＭＡＰ、ＳＩＧ）］であることに注意されたい。前者は簡明にするため上で用いられており、第一の［］中に示されている商は、同等に書き換えることができる。Ｐ（ＯＶＰ）についての式の両方の部分は、固定されたセットの重複遺伝子を仮定している。

式５中の第一と第二の（）に入れた商を掛けることにより、Ｐ（ＯＶＰ）、重複遺伝子の与えられたセットが無作為的に選択されたプロファイル中に存在し（夫々ＢＣＰ遺伝子を含む）、それら重複遺伝子が偶々無作為的に「異常制御された」遺伝子である確率−帰無仮説を計算する。参考のため、式５は簡単化すると次のようになる：
Ｐ（ＯＶＰ）＝［ＳＩＧ！＊ＢＣＰ！＊（ＫＢ−ＯＶＰ）！＊（ＭＡＰ−ＯＶＰ）！］／［（ＳＩＧ−ＯＶＰ）！＊（ＢＣＰ−ＯＶＰ）！＊ＫＢ！＊ＭＡＰ！］

忘れないようにすべき幾つかの示唆：
１．一定数のＫＢ遺伝子及び一定数のＳＩＧ遺伝子について：
ａ．プロファイルが大きい程（＞ＢＣＰ）、偶然生ずる一致の確率は高くなる。
ｂ．重複が大きくなる程（＞ＯＶＰ）、偶然に起きる一致の確率は低くなる。
２．一定数のＯＶＰ遺伝子及び一定数のＢＣＰ遺伝子について：
ａ．異常制御図示遺伝子が多くなる程（＞ＳＩＧ）、偶然に起きる一致の確率は高くなる。
ｂ．我々が知っている遺伝子が多くなる程（＞ＫＢ）、偶然に起きる一致の確率は低くなる。
３．もしＢＣＰ＝ＫＢであり、もしＯＶＰが０でないならば、Ｐ（ＯＶＰ）＝１（即ち、１００％）。
４．もしＳＩＧ＝ＫＢで、もしＯＶＰが０でないならば、Ｐ（ＯＶＰ）＝１。なぜなら、このことは、ＫＢ中のどの遺伝子でも異常制御されたユーザー遺伝子であり、従って、可能なプロファイルのいずれについてもＯＶＰ＝ＢＣＰであることを意味するからである。
５．もしＭＡＰ＜ＫＢであるならば、Ｐ（ＯＶＰ）は、一般にＭＡＰ＝ＫＢの場合よりも大きい（即ち、一層ランダムになり易い）。

効果に従って、次のパラメーターはＰ（ＯＶＰ）を最も最小化する（即ち、観察された結果がランダムである機会を減少する）：
１．ＫＢ≫ＢＣＰ（即ち、プロファイルが、ＫＢ中の全ての遺伝子の小さな部分集合しか含まない）。
２．ＯＶＰ≫１（即ち、プロファイルに重複する異常制御ユーザー遺伝子が多くなる程、偶然に起きる確率は低くなる）。
３．ＭＡＰ＝ＫＢ（即ち、全てのユーザー遺伝子がＫＢ中の遺伝子に図示されている）。
４．ＢＣＰ＝ＯＶＰ（即ち、プロファイル中のどの遺伝子も異常制御された遺伝子である）。
５．ＳＩＧ＝ＯＶＰ（即ち、全ての図示された異常制御遺伝子がプロファイルに重複している）。

図５は、支配的な効果（上記２番）を示すグラフである。−プロファイルに重複する異常制御ユーザー遺伝子の数が大きくなる程、ランダム機会により起きる重複の確率は低くなる。ｙ軸はｌｏｇスケールになっており、従って、各付加的重複遺伝子は、数桁の大きさで確率を減少することに注意されたい。この効果は一層大きなプロファイルの場合でも依然として劇的であること（即ち、ＢＣＰ中の全遺伝子の分率として重複中の遺伝子の％が小さくなる場合）にも注意されたい。この例では、７０００ＫＢ遺伝子、１５００ＭＡＰ遺伝子、及び７０ＳＩＧ遺伝子の値が用いられた。

大きな重複を有するプロファイルは、偶然に起きる確率は実際に低いかも知れないが、ユーザーに対するプロファイルの価値は、人工産物である低い可能性によるのみならず、プロファイル中の遺伝子がどのように互いに関係しているかの説明にも依存することを忘れないようにする。プロファイル中の遺伝子のセットが、生物学的に同等のやり方で作用することをアルゴリズムがどのように決定するかと言う説明の信頼性が高い程、そしてユーザーの特定の検定条件に与えられる説明の最もらしさが高い程、一致の価値は高くなる。なぜなら、それは、プロファイルの説明により与えられた見解に基づいてユーザーが行う決定が生物学的に健全なものになる確率を増大するからである。

このアプローチは、与えられたＫＢ及び検定について全てのプロファイルが互いに相対的な用語で比較できるようにする正確な確率を計算していることにも注意されたい。しかし、この正確な確率は、複数の検定に亙って最良のスコアリングプロファイルを比較するための手段程良好なものではない。なぜなら、正確な確率値に大きな影響を与える異常制御図示遺伝子の数及び最大重複が、実験に亙って劇的に変化することがあるからである。

アプローチ２：重複の累積確率（Ｐ−値）
実験に亙る重複を比較するのみならず、重複の重要性についての一層よい直感的感触を得るための好ましい統計は、確率分布関数（即ち、アプローチ１のもの）からの単一値の代わりに、累積確率分布を用いることである。これは、正確な確率値に等しいかそれより低い個々の確率値の全てを合計し、全ての可能な確率値の全合計のどの位の分率がそれを表すかを決定することにより計算することができる。この測定は、通常「Ｐ−値」と呼ばれている。

多変数分布についてＰ−値を計算するのは通常複雑である。典型的なアプローチは、できるだけ多くの変数を固定し、計算を一つの積分に単純化することができるか否かを決定し、未定変数について積分を解くことである。０≦ＯＶＰ≦ＢＣＰ≦ＫＢ；及びＯＶＰ≦ＳＩＧ≦ＭＡＰ≦ＫＢであることに注意されたい。それによりこの計算を扱い易くするため、次の仮定を行う：

１．実験に亙ってＰ−値を比較する場合、ＫＢ遺伝子の数を一定とする。ＫＢは既に大きな数なので、この仮定が厳密には付加されない場合でも、一般にその差は最小限になるであろう。
２．実験に亙ってＰ−値を比較する場合、図示された遺伝子（ＭＡＰ）の数を一定とする。これは、ユーザーが夫々の実験について同じ遺伝子の全てを検定することを要求するよりも厳密性は低いが、恐らくそれは標準であろう。ユーザーは夫々の検定で、同じ図示された遺伝子を検定しさえすればよい。しかし、もし彼らが一般的検定結果を、一般に図示遺伝子の僅かな分画について標的又は異なった検定と比較するならば、Ｐ−値の結果は直接比較できないであろう。
３．図示された異常制御遺伝子（ＳＩＧ）の数は、実験を通して変化させてもよい（即ち、０≦ＳＩＧ≦ＭＡＰ）。しかし、与えられたどの実験についても、ＳＩＧ遺伝子の全数はランダムではないと仮定するが、特定のＳＩＧ遺伝子はランダムであると仮定する。

よく知られている「正規」、即ち、一次元釣り鐘状分布とは異なって、この分布は五次元であることに注意されたい。また、この分布の確率密度関数（ＰＤＦ）は、ＯＶＰが増大するにつれて急速に減少し、不連続になる（即ち、各次元が０から固定数の範囲の整数を有し、正規分布のように−無限大から＋無限大の実数範囲ではない）。これらの特徴は、直接Ｐ−値を計算する式を導くのを面倒なものにしており、ＫＢ及びＭＡＰが一定であることを要求することにより、それを三次元に縮小することが役に立つが、積分（ＫＢ＊ＳＩＧ＊ＭＡＰの可能な結果の各々についての確率の計算）は、依然として多数のＣＰＵサイクルを必要とする（値を直接計算することができる閉じた形の積分が存在しない限り）。そのため、例えば、確率値の表を一度予め計算し、次にＰ−値を決定する時、第一アプローチによる確率値を、各ＢＣＰプロファイルについての表の値と比較するのが好ましいであろう。それにも拘わらず、もしＫＢ＝１０，０００で、ＳＩＧがランダム変数として処理されるならば、この照合表は、約１００ＧＢのメモリー、スーパーコンピューターを必要とするであろう。しかし、もしＳＩＧ遺伝子の全数がランダムでないならば、この計算は一つの実験当たり１回容易に行うことができ（即ち、同じ照合表を、それに対する全てのプロファイルをスコアリングするために用いることができるであろう）、それは、ＫＢ＊ＳＩＧを記入した照会表を必要とするであろう（ＫＢからＢＣＰ大きさ範囲は１..ＫＢ；ＳＩＧからＯＶＰ大きさ範囲は１..ＳＩＧ）。このアプローチは、それがコンピューターで扱われる情報源に対する要求を限定するので好ましい。例えば、ＳＩＧ＝ＫＢ及びＫＢ＝１０，０００の場合にこのアプローチを用いて、僅か１００ＭＢの照合表が必要になるだけであろう。

Ｐ−値は、第一アプローチにより計算された確率値に等しいか又はそれより小さい全ての確率値を合計し、全ての可能な確率値の合計で割ることにより計算することができる。偶然に起きると最も思われる結果は一つの遺伝子の重複を含んでいるので、観察されたＯＶＰが１より大きい場合、Ｐ−値は、甚だ小さくなる傾向があることに注意されたい。従って、正規分布とは異なって、Ｐ−値＜０．０５が一般に「有意」である場合、この分布に対し一層低い閾値を課すのが好ましい。観察された確率に等しいか又はそれより小さい全ての可能な結果の％を計算する計量は、無修正の確率値を用いることによりも、一つの実験のためのプロファイル評点を査定するために一層よいであろうが、実験に亙り比較するのには不適切であろう。なぜなら、各結果についての重み（確率値）は、著しく変わることがあるからである。

経路品質アトリビュート(Attribute)
プロファイルで表された経路の信用性及びそのユーザー供与ゲノミクス・データーに対する関連は、（１）生物学的経路の特性を正確に表すＫＢの能力、及び（２）ＫＢ中の与えられたどの経路でも、ユーザー供与データーの根底を成す真の生物学的経路を表す程度、に依存している。これらの計量は、経路品質アトリビュート（ＰＱＡ）と呼ばれている。前に論じたプロファイルスコアリングの例は、カテゴリー２型ＰＱＡに入り、プロファイル・モデル中に含まれる特定の経路についてのＫＢの知識度は、カテゴリー１型ＰＱＡに相当するであろう。

表１は、ＰＱＡの幾つかの例を与えている。夫々の列は、プロファイル中の経路の好ましいアトリビュートに言及している。これらの好ましいアトリビュートの一つ以上を有するプロファイル中の経路は、真の生物学的経路（カテゴリー１）を正確に表すＫＢの能力及び／又はユーザー・データー中の真の生物学的経路を説明する経路の能力（カテゴリー２）のいずれかを反映する傾向を持つであろう。表１に関し、ＰＱＡＮｏ．１〜１０、１３〜１５、及び１８は、カテゴリー１型ＰＱＡを指し、ＰＱＡＮｏ．１１、１２、１６、及び１７は、カテゴリー２型ＰＱＡを指す。見出し欄（アトリビュート）には、アトリビュートの型、又は品質が要約されており、見出し欄「備考」には、このアトリビュートがプロファイル中でどのように現れるか、又はプロファイルモデル基準としてどのように実施されるかの例（単数又は複数）が与えられている。

当業者によって認められように、上記ＰＱＡの例は、前に論じたものの外に、研究目的のために最もよく適合したプロファイルの生成を可能にするプロファイル規定基準の可能な範囲についての情報を与えている。前に言及したように、上に列挙したリストは、可能なプロファイル基準の単なる例として与えられており、本発明に対する限定と考えるべきではない。

システム形状
本発明の方法を実施するためのシステムは、例えば、生物学的経路情報のためのＫＢを作成し、それを質問し、研究結果についてのユーザー・インターフェースを与える単一の実在物、例えば個人的会社に限定する必要はない。むしろシステムは、一緒した時に（例えば、顧客により、又はシステム完成者により）本発明の方法を実施するのに用いることができるシステムを与える一つ以上の実体から併合努力の結果として生成させることができる。このシステムの構成部分を開発することに伴われる仕事の各々を如何にして与えるかの例を次に記載する。「会社Ａ」「会社Ｂ」等を参考にする。これらの実体は、公共的実体、個人的実体、公共・個人的実体、又はそれらの組合せに相当するであろう。

● 会社ＡはＫＢを作成し販売する（恐らく第三者から内容を獲得するか、又は彼ら自身で内容を創ることにより）。この努力は、分割することができるであろう。即ち、一つの会社がＫＲＳソフトウエアシステムを創り、他の会社がオントロジーを作り、第三の会社がデーターを入れるツールを作り、第四の会社が前述のものを用いて実際にデーター（調査事項）を入れることができるであろう。

● 会社Ｂは、データー変換／翻訳会社で、ＫＢをグラフ・ネットワークへ変換する。

● 会社Ｃは、分析又はシステム完成会社で、どのプロファイル特性が一組のユーザー／顧客に対して重要であるかを見出す。

● 会社Ｄはソウトウエアー開発者であり、会社Ｃによって与えられた基準に基づいてプロファイルを構成するアルゴリズムを作成する。

● 会社Ｅは、会社Ｄのプロファイルを具象化し、拾い読みするツールを作成し且つ／又は販売する。

● 会社Ｆは、ソフトウエア開発者であり、種々の実験的データーセットに対するプロファイルをランク付けするアルゴリズムを作成する。会社Ｆ１は、表現データーのためにそれを行い、会社Ｆ２は、蛋白質・蛋白質相互作用データー等のためにそれを行なう。

● 会社Ｇは、システム完成者であり、発現データーを取り、グラフによってＫＢから作成したスコアリングプロファイルに基づいて機能的経路を予測するシステムへ、上記の全てを統合する。

● 会社Ｈは、分析又はシステム完成会社であり、恐らく会社Ｃと共同して、経路を解釈するのにユーザーにとってどのような付加的経路情報が有用になるかを理解する。これは、会社Ｃによって同定された特性を含むであろうが、プロファイルを創るために会社Ｄにとっては用いられなかった特性を含むことができるであろう。例えば、特定のプロファイル生成アルゴリズムは、中心的生物学的プロセスについて自動的にプロファイルを作成しようとはしないであろうが、ユーザーは依然としてどのプロセス（単数又は複数）がプロファイルに対して多かれ少なかれ中心的であることを知りたいであろう。

● 会社Ｉは、ソフトウエア開発者であり、これらのプロファイルの更に別のアトリビュート（例えば、我々のプロセス注釈）を計算及び／又は表示するアルゴリズムの第二のセットを作成する。

● 会社Ｊは、内容会社で、手動で存在する経路を入れ、会社Ａ−Ｄを置き換え、その結果会社Ｇが今度は同じプロファイルスコアリングアルゴリズム、具象化、ＧＵＩ、及びアトリビュート計算を用いるが、コンピューター生成プロファイルよりもむしろ手動で創ったプロファイルに対してそれらを用いるシステムを作成／統合することができるようにする。

● 会社Ｋは、ソフトウエア開発者で、ユーザーが、経路状図解を引き込むことにより、彼ら自身のプロファイルを作成させる「経路編集」ソフトウエアパッケージを創ることにより、会社Ｊを助けるかも知れない。このことは、「逆具象化」であり、絵を描き、どの円がどの矢印に結合されているか等を見ることにより、生物学的関係を推測する。

本発明を、その好ましい態様に関連して詳細に記述してきたが、本発明の本質を離れることなく、種々の修正を行うことができることは理解される。添付の特許請求の範囲は、そのような態様及び同等の変更全てを含むと解釈されるものである。本明細書中に言及した全ての刊行物、特許出願及び特許は、もし夫々の刊行物、特許出願、又は特許が特別に個々に、言及により記入するように指示されているので、ここに入れてある。

図１は、「人間のＢａｘ蛋白質が、シンドビス・ウィルスに感染された後、ラットのＤＲＧ神経細胞のアポトーシスにより死を速める」と言う調査事項のオントロジー内の配置を例示する図である。図２は、病気関連経路中に含まれるコンセプト間の複雑な関係を示すグラフの例を示す図である。図３は、本発明の方法に従い、遺伝子マイクロアレイ発現データーを分析するための方法を例示する模式的図である。図４は、知識ベース中に見出されるプロファイル中にも存在するユーザー供給遺伝子発現データーのセット又はサブセットが統計的に意味のあるものであるか否か、従って、興味のある、根底にある生物学的プロセスに潜在的に関係するか否かを決定するためのコンセプト的枠組みを例示するベン図表である。図５は、知識ベースからのプロファイルに重複する１、２、３、４、又は５のユーザー遺伝子が無作為的に起きる統計的意味（帰無仮説に基づく確率により測定される）を例示するグラフである。

１文献に基づく調査事項
３知識ベース
４ＫＢ調査事項
５グラフ
６グラフ
７プロファイル・ライブラリー
９プロファイル
１０表現データー
１１遺伝子
１２スコアリング
１４プロファイル・リスト
１７図解
２２他の調査事項

Claims

（ａ）オントロジーを記憶する第１データベース及びそのオントロジーに応じて構築されたゲノミクス情報を記憶する第２データベースを含む知識表示システム(knowledge representation system)（ＫＲＳ）を含むデータベースであって、ここで、
該ゲノミクス情報が科学的調査事項であり、
該オントロジーが、
（ｉ）遺伝子、遺伝子産物、及び生物学的効果を含み；
（ｉｉ）該遺伝子、遺伝子産物、及び生物学的効果がクラスによって分類され、そして
（ｉｉｉ）各遺伝子又は遺伝子産物、及び任意の病気状態の関係がスロット及びファセットにより定義されるように組織される、上記データベースと、
（ｂ）その構築したゲノミクス情報から生物学的な経路プロファイルのライブラリーを生成する生成手段であって、ここで、
プロフィール生成基準がシステム又はユーザーから受け取られ、該プロフィール生成基準に合った保存された構築したゲノミクス情報の部分集合が第２データベースから抽出されるものである、上記生成手段と、
（ｃ）ユーザーより別のゲノミクス情報を提供される入力手段と、
並びに、
（ｄ）該ユーザーにより提供された別のゲノミクス情報を該生物学的な経路プロファイルのライブラリーと比較することによってプロファイルをスコアリングする評価手段であって、ここで、
該プロファイルのスコアリングが、ユーザーによって供与されたデーターに対してプロファイルをランク付けする統計値を計算することを含む、上記評価手段とを含む、
コンピューターシステムを機能させるための、コンピューター処理方法。
ステップ（ｄ）に続くステップ（ｅ）として、
（ｅ）スコアリング結果をユーザーに表示することを含む、
請求項１に記載の方法。
生物学的な経路プロファイルのライブラリーが予め生成されている、請求項１に記載の方法。
ユーザーにより提供されたゲノミクス情報が、複数の公共的資料から抽出されたデーターを含む、請求項１に記載の方法。
ユーザーにより提供されたゲノミクス情報が、所有権を有するデーターを含む、請求項１に記載の方法。
ユーザーにより提供されたゲノミクス情報が、所有権を有するデーター資料及び公共的データー資料の組合せから抽出されたデーターを含む、請求項１に記載の方法。
ユーザーにより供与されたゲノミクス情報が遺伝子発現データーである、請求項１に記載の方法。
遺伝子発現データーがマイクロアレイからのものである、請求項７に記載の方法。
遺伝子発現データーが異常制御された遺伝子のリストに変換され、ここでその異常制御された遺伝子は制御（調節；レギュレーション）又は発現においてコントロールに比べて少なくとも２倍の差を示すものである、請求項７に記載の方法。
ゲノミクス情報が、遺伝子、遺伝子のＤＮＡ配列、ｍＲＮＡ、遺伝子産物、及び発現した蛋白質の生物学的効果に関するデーターを含む、請求項１に記載の方法。
生物学的な経路プロファイルが
（ｉ）システム又はユーザーからプロファイル生成基準を受け取り、
（ｉｉ）第２データベースからプロファイル生成基準に適合した、構築したゲノミクス情報の部分集合を抽出し、
（ｉｉｉ）その構築したゲノミクス情報の部分集合をグラフィカルデーター構造に変換し、及び、
（ｉｖ）グラフィカルデーター構造を生物学的な経路プロファイルを作成するために処理することを含む手順によって生成される、
請求項１又は２に記載の方法。
グラフィカルデーター構造が全て既知の相互作用のマスターグラフである、請求項１１の方法。
グラフィカルデーター構造が、各々の遺伝子に関連した相互作用を表すエッジにより連結されたノードとしての各々の遺伝子を表記するものである、請求項１１に記載の方法。
第２データベースにおける各々の遺伝子に対して1つのプロファイルが作成される、請求項１１に記載の方法。
プロファイルのスコアリングが、ユーザーによって供与されたデーターに対してプロファイルをランク付けするＰ−値を計算することを更に含む、請求項１に記載の方法。
スコアリング結果が、プロファイルスコアに応じてランク付けされたプロファイルのリストとして表示されるものである、請求項２に記載の方法。
各々のプロファイルが、プロファイルが基礎とする遺伝子及びユーザーから提供されたゲノミクス情報であってプロファイルにも現れているものである任意の遺伝子をリストにする、請求項１又は２に記載の方法。
スコアリング結果がスプレッドシートプログラムを用いて提示されるものである、請求項２に記載の方法。
スコアリング結果が各々のプロファイルのプロファイル図解（ｄｉａｇｒａｍ）として表示されるものであり、そのプロファイルからの全ての遺伝子及びそれらの間の重要関係を示しているものである、請求項２に記載の方法。
スコアリング結果が与えられたプロファイルにより明らかにされた生物学の記述又は要約として表示された、請求項２に記載の方法。
スコアリング結果がユーザーにグラフィカル・ユーザー・インタフェース（ＧＵＩ）相互作用形式で提示される、請求項２に記載の方法。