JP2001188768A - ネットワーク推定方法 - Google Patents

ネットワーク推定方法

Info

Publication number
JP2001188768A
JP2001188768A JP37293699A JP37293699A JP2001188768A JP 2001188768 A JP2001188768 A JP 2001188768A JP 37293699 A JP37293699 A JP 37293699A JP 37293699 A JP37293699 A JP 37293699A JP 2001188768 A JP2001188768 A JP 2001188768A
Authority
JP
Japan
Prior art keywords
network
data
topology
candidate
pathway
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP37293699A
Other languages
English (en)
Inventor
Mineo Morohashi
峰雄 諸橋
Hiroaki Kitano
宏明 北野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Corp filed Critical Japan Science and Technology Corp
Priority to JP37293699A priority Critical patent/JP2001188768A/ja
Priority to PCT/JP2000/009252 priority patent/WO2001048690A1/ja
Priority to US10/169,433 priority patent/US20030097693A1/en
Priority to EP00985897A priority patent/EP1248231A4/en
Publication of JP2001188768A publication Critical patent/JP2001188768A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】本発明は、データプロファイルに基づいてネッ
トワークを推定する方法を提供する。 【解決手段】与えられたデータプロファイルを再現する
可能性のある候補ネットワークを作成し、この候補ネッ
トワークを評価し、データプロファイルを与える可能性
のあるネットワークの構造と、パラメータを推定し、段
階的にトポロジーを推定する方法が提供される。本発明
により、遺伝子の発現データやタンパク質の濃度データ
等から、その現象を引き起こしている遺伝子の制御ネッ
トワークや酵素やタンパク質の反応を示す代謝ネットワ
ークの構造等を推定することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、互いに関連し、干
渉し合う別々の要素のネットワークとしてモデル化でき
るシステムを、そのネットワークの挙動や状態を表す情
報から逆に推定する方法に関する。本発明のネットワー
ク推定方法は、生物学的現象における遺伝子の発現デー
タ、タンパク質の濃度データ等から、その現象を引き起
こしている遺伝子の制御ネットワークや酵素やタンパク
質の反応を示す代謝ネットワークの構造等の推定に有用
である。
【0002】
【従来の技術】最近の分子生物学の急激な進歩によっ
て、様々な生物に関する多くの情報が蓄積されつつあ
る。このような生物の典型例が、酵母、線虫、あるいは
ショウジョウバエ等である。例えば、線虫(C.elegan
s)では、既にその全細胞系譜が推定され(Salston et a
l.Dev.Biol.100,64-119,1983)、神経系の結合などの同
定も行われている(White et al.Phil.Trans.R.Soc.314,
1-340,1986)。また1998年には、ゲノムDNAの全塩基
配列が明らかにされた(Science 282,2012-2017,1998)。
線虫の他、酵母、大腸菌、マイコプラズマ等のモデル生
物においても、ゲノムDNAの全塩基配列がすでに決定
されている。そして究極の目標であるヒト・ゲノムDN
Aの全塩基配列も、数年以内には終了すると言われてい
る。しかしながら、塩基配列が明らかにされることと、
遺伝子やその機能、さらには遺伝子間の相互作用を明ら
かにすることは、まったく性格の異なる課題である。す
なわち、ゲノムの塩基配列の決定は、単に遺伝子の物質
としての側面を明らかにしたということにすぎない。生
物を遺伝情報に基づいて理解するには、決定された塩基
配列に含まれる個々の遺伝子の働きと相互の関連を明ら
かにする必要がある。
【0003】遺伝子の機能や遺伝子間の相互作用を明ら
かにすることは、非常に困難な仕事である。たとえば平
均的なヒトの細胞を構成するタンパク質の種類は、50
00〜7000とも言われている。これほど多様なタン
パク質の一つ一つを同定し、その機能を明らかにし、更
に相互関係を見出して、初めて集合体(プロテオーム;p
roteome)として理解することができる。現在行われて
いる分子生物学の研究の多くは、注目する現象に関わる
遺伝子およびその転写産物の特定と、その現象を引き起
こす相互作用の解明に重点を置いている。しかし遺伝子
間の相互作用を理解するには、多くの遺伝子間を結びつ
ける膨大な組み合わせを考慮しなければならない。この
ような作業を人間の能力で行うことは極めて難しい。我
々は、この困難さをコンピュータという計算能力をもっ
た道具を導入することで乗り越えようとしている。
【0004】この考えを図式したのが図1である。これ
は、コンピュータを利用する部分(バーチャル)と、実
際に生物学的に実験する部分(リアル)との関係を示す
図である。図1において、まず、解明しようとする現象
を特定すると、現在知られている生物学的知識(図1
フェーズ-I A)から、モデルをコンピュータ上に実装
する(図1 フェーズ-I B)。また、すでに仮説が提
示されている場合には、その仮説を実装する。実装され
たモデルを使ってシミュレーションを行い(図1 フェ
ーズ-I C)、観測されているデータとの整合性を検証
する(図1 フェーズ-I D)。シミュレーションの結
果と、観測データと一致しない場合は、2つの可能性が
考えられる。まず、シミュレーションが正確でない場合
である。これは、シミュレーションの精度をあげて、確
実なものとすることで解決する。次に考えられるのは、
モデルが不完全または間違っている場合である。この場
合は知られている実験データに整合するモデルを構築す
る必要がある。
【0005】その後に、できるならば、このモデルを用
いて、コンピュータ上で実験を行う(図1 フェーズ-
II F)。フェーズIIの後、又はフェーズIIがで
きないなら、直接、仮説的に決めたモデル等が正しいか
実際に生物学的な実験を開始する(図1フェーズ-II
IおよびIV)。このようにして、「生物のリバース・
エンジニアリング」を行うことができる。コンピュータ
上におけるシミュレーションにより、仮説的に求めたモ
デルの絞り込みを必要としている分野は、生物学分野に
限らない。
【0006】例えば分子生物学においては、DNAチッ
プやマイクロアレイ、さらには、PCRなどを利用して
得られた遺伝子産物やタンパク質の量の時間的変化に関
するデータに加え、電気生理学的実験や電圧感受性色素
などを用いた神経回路網の活動に関するデータ等に基づ
くネットワークの推定が行われる。これらのデータの背
後にある遺伝子やタンパク質、酵素の相互作用のネット
ワーク、および、神経細胞のネットワークで表されるモ
デルを、コンピュータを用いて推定することができれば
有用である。しかし現実には、与えられたデータから考
えられるモデルの総数は莫大な数である。従来は、人間
の限られた処理能力で評価できる範囲のモデルのみが考
慮されていた。あるいは半ば人間の勘に頼ってあたりを
付け、生物学的な実験により確かめていた。これに対し
て本発明者らが目指しているのは、与えられたデータか
ら、類似したデータを生成する可能性のあるモデル(ネ
ットワーク)を、コンピュータを用いて推定することに
より、確からしいモデルの数をある程度まで絞り込むと
いう戦略である。これは、上述の図1に示した場合で
は、フェーズIに関するものである。
【0007】本発明において確からしいモデルとは、ネ
ットワークを推定するときに手にしているデータに基づ
いて推測することができる合理的なモデルを意味する。
合理的なモデルは、次の実験計画を考えたり、あるいは
新たな仮説を構築する上で有用である。
【0008】これらの相互作用のモデルの推定(ネット
ワークの推定)は、疾病の原因遺伝子の特定や、投薬の
効果の推定等に必要である。また、未知の遺伝子や遺伝
子産物の推定にも用いることができる。更に生物学的な
分野での応用に限らず、たとえば、交通ネットワークや
経済システム等の分野においても、コンピュータを利用
したシミュレーションに基づく仮説モデルの検証は、重
要な解析手法となっている。生物学的な現象のみなら
ず、コンピューターネットワークのような、人工的なネ
ットワークも解析の必要なネットワークとして挙げるこ
とができる。たとえば、ネットワークのネットワークと
呼ばれるインターネットにおいては、トラフィック(ネ
ットワークを流れた情報量)に関するシミュレーション
がしばしば行われる。ルータ等に対するアクセス頻度は
もとより、流れるパケットの量やサイズなど、多くのデ
ータからスループットの予測などが行われている。これ
らの解析行為は、ネットワークの推定に他ならない。
【0009】本発明者らも、このような考え方に基づい
てネットワークの推定方法を確立している。すなわち、
ターゲット・プロファイルを再現することができる候補
ネットワークを生成し、突然変異アナリシスによってそ
れをスクリーニングする方法を提案した(Morohashi et
al.Proc.of European Conference on Artificial Life,
1999)。ここで、ターゲット・プロファイルとは、明ら
かにすべきネットワークによって現実にもたらされたデ
ータの集合である。また突然変異アナリシスは、変異を
含むネットワークによって与えられたデータに基づい
て、候補ネットワークの評価を行う手法である。この方
法においては、ターゲット・プロファイルや突然変異ア
ナリシスのためのデータは、現実の実験によって集めな
ければならない。つまり、「リアル」である。したがっ
て、突然変異アナリシスのための実験を繰り返し行う必
要があった。またこの方法では、単一の候補をスクリー
ニングする工程を伴っていた。そのため、選択の対象と
なる範囲を広く取りにくいという問題があった。
【0010】
【発明が解決しようとする課題】本発明は、コンピュー
タにより実施することができ、仮説的に求めたモデルの
絞り込みを効率良く行うことが可能なネットワーク推定
方法の提供を課題とする。より具体的には、現実の実験
を少なくしながら、しかも効率的にネットワークの推定
を行うことができる方法の提供が本発明の課題である。
【0011】
【課題を解決するための手段】本発明者らは、先に提案
したネットワークの推定方法を構成する各ステップの中
で、突然変異アナリシスの存在に着目した。コンピュー
ターによるシミュレーションを有効に活用するには、現
実に実験によって得なければならないデータを最小限に
することが重要である。言いかえれば、少ない実験デー
タに基づいて、できるだけ多くのモデルをスクリーニン
グし、そして現実との誤差の小さいネットワークを選び
出すことができれば理想的である。このような考え方に
基づいて、突然変異アナリシスのような実験を伴う評価
手法を必要としない新たなネットワーク推定方法を実現
するための研究を重ねた。
【0012】本発明者らは、候補ネットワークで構成さ
れるライブラリーの中から、特にターゲット・プロファ
イルとの誤差が小さいネットワークに着目した。そし
て、それらが共通のパスウエイを高い頻度で含むことを
見出した。なおトポロジーとは、ネットワークを構成す
る物理的な構造を意味する。トポロジーはパスウエイの
集合によって構成される。パスウエイとは、ネットワー
クを構成する要素を結びつける線に相当する。したがっ
てネットワークとは、パスウエイの集合体であるトポロ
ジーに、様々なパラメータを伴ったものと言うことがで
きる。更に本発明者らは、この共通のパスウエイを抽出
し、得られたパスウエイをトポロジーに含む新たな候補
ネットワークを生成して再びそれを評価することを繰り
返すことによって、最終的にデータを再現することがで
きるネットワークの構成が可能となることを見出して本
発明を完成した。すなわち本発明は、以下のネットワー
ク推定方法と、そのための装置に関する。 〔1〕互いに関係している要素間の関係をネットワーク
として記述できる場合において、前記要素により生成さ
れたデータが与えられたときに、与えられたデータから
そのデータを再現できるネットワークを推定する方法で
あって、 a)与えられたデータを再現する可能性の有るトポロジ
ーを生成し、生成された各トポロジーについて、与えら
れたデータに対する適応度が最も高いパラメータセット
を作成して、候補ネットワークを得る工程、 b)工程a)で作製されたネットワークのうち、目的と
する基準を満たすネットワークからコンセンサス・パス
ウエイを抽出する工程、 c)工程b)において抽出されたコンセンサス・パスウ
エイを含むトポロジーを生成し、生成された各トポロジ
ーに対して、与えられたデータに対する適応度が最も高
いパラメーターセットを与えてネットワークを得る工
程、および d)工程c)で得たネットワークの規模が目的とする規
模に収束するまで、工程c)で得たネットワークを候補
ネットワークとして再度工程b)−c)を繰り返して、
新たなネットワークを得る工程、とを含むネットワーク
推定方法。 〔2〕工程b)において、目的とする基準が、適応度に
よって評価される〔1〕に記載のネットワーク推定方
法。 〔3〕工程b)において、目的とする基準が、そのパス
ウエイを含むネットワークによって前記生成されたデー
タに類似し、かつ互いに類似するデータを生成できるこ
とである〔1〕に記載のネットワーク推定方法。 〔4〕工程a)において、与えられたデータを再現可能
な全てのトポロジーを生成する工程を含むことを特徴と
する〔1〕に記載のネットワーク推定方法。 〔5〕工程a)において、与えられたデータを再現する
可能性の有るネットワークとして、前記可能性の高いネ
ットワークを選択する工程を含むことを特徴とする
〔1〕に記載のネットワーク推定方法。 〔6〕与えられたデータとの誤差が少ないデータを再現
するネットワークを生成する工程を含むことを特徴とす
る〔5〕に記載のネットワーク推定方法。 〔7〕工程a)および/または工程c)におけるネット
ワークを得る工程が、与えられたデータとの誤差が少な
いデータを再現するネットワーク間でその構造の一部を
組み換えて、ネットワークを作成する工程を含むことを
特徴とする〔5〕または〔6〕に記載のネットワーク推
定方法。 〔8〕工程a)および/または工程c)におけるネット
ワークを得る工程が、任意ネットワークの構造的近傍を
探して、ネットワークを作成する工程を含むことを特徴
とする、〔5〕〜〔7〕のいずれかに記載のネットワー
ク推定方法。
〔9〕工程a)および/または工程c)におけるネット
ワークを得る工程が、同一のネットワークに対して1個
のパラメータ、または複数であって互いに異なるパラメ
ータのセットを推定することを特徴とする、〔1〕〜
〔8〕のいずれかに記載のネットワーク推定方法。 〔10〕工程a)および/または工程c)における候補
ネットワークを得る工程が、遺伝的アルゴリズム、シミ
ュレーテッド・アニーリング、および山登り法からなる
群から選択されるすくなくとも一つの手法を用いてパラ
メータを推定する工程を含むことを特徴とする、〔1〕
〜〔8〕のいずれかに記載のネットワーク推定方法。 〔11〕前記要素によって生成されたデータが、遺伝子
の発現プロファイルである〔1〕〜〔10〕のいずれか
に記載のネットワーク推定方法。 〔12〕互いに関係している要素間の関係をネットワー
クとして記述できる場合において、前記要素により生成
されたデータが与えられたときに、与えられたデータか
らそのデータを再現できるネットワークを推定するネッ
トワーク推定装置であって、 a)トポロジーと、それに対応するパラメータ・セット
とで構成されるネットワークを記憶する第1の記憶手段
と、 b)選択された候補としてのトポロジー、またはその要
素と、それに対応するパラメータ・セットを格納する第
2の記憶手段と、 c)与えられたデータを再現する可能性のあるトポロジ
ーを生成し、生成された各トポロジーについて、与えら
れたデータに対する適応度が最も高いパラメータ・セッ
トを作成し、複数の候補ネットワークを得て、前記第1
の記憶手段に格納する手段と、 d)第1の記憶手段に格納された候補ネットワークのう
ち目的とする基準を満たすネットワークからコンセンサ
ス・パスウエイを抽出して、前記第2の記憶手段に格納
する手段と、 e)手段d)によって第2の記憶手段に格納されたコン
センサス・パスウエイを含むトポロジーを生成し、生成
された各トポロジーについて、与えられたデータに対す
る適応度が最も高いパラメーターセットを与えてネット
ワークを得て、前記第1の記憶手段に格納する手段、お
よび f)推定すべきネットワークが得られるまで、手段e)
において第1の記憶手段に格納されたネットワークを候
補ネットワークとして手段d)における候補ネットワー
クとして与える手段、とを含む装置。 〔13〕〔1〕〜〔11〕のいずれかに記載のネットワ
ーク推定方法をコンピュータ・システムに実現させるこ
とができるプログラムを格納した記録媒体。
【0013】
【発明の実施の形態】本発明におけるネットワークは、
トポロジー、パラメータ、および適応度の3つの成分で
構成される。これら3つの成分をトリプレットと呼ぶ。
要素はネットワークを構成している物質を意味し、その
関係を表すのがトポロジーである。トポロジーは要素間
のつながりを示す物理的な構造からなり、この構造はパ
スウエイに分解することができる。逆にトポロジーは、
パスウエイの集まりによって表現することができる。パ
スウエイの中でも、特に複数のトポロジーに共通して見
出されるパスウエイを、コンセンサス・パスウエイと呼
ぶ。本発明におけるトポロジーは、ネットワークによっ
て現実のデータを再現することができるようにモデリン
グされる。モデリングに必要な全ての数値はパラメータ
と呼ばれる。モデリングとは、物理的な構造のみから構
成されるトポロジーに量的な概念を与える操作に他なら
ない。一方、現実にネットワークによって生成されたデ
ータの集合は、ターゲット・プロファイルと呼ぶ。パラ
メータを伴ったトポロジーは量的な概念を伴っているの
で、ターゲット・プロファイルとの誤差を算出すること
ができる。誤差の大小はターゲット・プロファイルとの
類似度を意味し、本発明ではこれを適応度と呼ぶ。
【0014】本発明によって提供されるネットワーク推
定方法は、以下の工程を含む。なお本発明においては、
互いに関係している要素間の関係がネットワークとして
記述できることが条件である。したがってターゲット・
プロファイルは、要素間の相互作用の結果として生成さ
れたものであると言うことができる。本発明のネットワ
ークの推定方法は次の工程a)−d)を含むことを特徴
とし、ターゲット・プロファイルを再現しうるネットワ
ークの推定を目的としている。 a)与えられたデータを再現する可能性の有るトポロジ
ーを生成し、生成された各トポロジーについて、与えら
れたデータに対する適応度が最も高いパラメータセット
を作成して、候補ネットワークを得る工程、 b)工程a)で作製されたネットワークのうち目的とす
る基準を満たすネットワークからコンセンサス・パスウ
エイを抽出する工程、 c)工程b)において抽出されたコンセンサス・パスウ
エイを含むトポロジーを生成し、生成された各トポロジ
ーについて、与えられたデータに対する適応度が最も高
いパラメーターセットを与えてネットワークを得る工
程、および d)工程c)で得たネットワークの規模が目的とする規
模に収束するまで、工程c)で得たネットワークを候補
ネットワークとして再度工程b)−c)を繰り返して、
新たなネットワークを得る工程、
【0015】本発明において、互いに関係している要素
間の関係がネットワークとして記述できることとは、ネ
ットワークを構成する要素の少なくとも一部は、相互に
関連性を持っていることを意味する。このようなネット
ワークとしては、たとえばある細胞を構成する遺伝子間
の相互作用を示すことができる。この場合、細胞に含ま
れる遺伝子の発現プロファイルが本発明のターゲット・
プロファイルに相当する。遺伝子の発現プロファイル
は、遺伝子の発現レベルを、mRNAやタンパク質の濃
度として解析することによって得ることができる。より
具体的には、たとえばDNAチップを用いて、mRNA
の発現プロファイルを得ることができる。DNAチップ
を利用することにより、一定のノード(つまりDNAチ
ップに固定されたプローブセット)に対する発現レベル
を、効率的に収集することができる。あるいは、二次元
電気泳動によって、タンパク質の発現プロファイルを得
る方法も公知である。ターゲット・プロファイルを再現
するべきネットワークは、遺伝子をノードとするトポロ
ジーに相当する遺伝子間の関連性、相互作用の程度を表
すパラメータ、そして発現プロファイルとの類似性を表
す適応度で構成されるトリプレットによって表すことが
できる。図4にトポロジーを図示した。図4a)におい
て、要素ABCDは、A→B→C→Dの活性化の関係、
並びにD−|B間の抑制関係という相互の関連性、そし
てAの自己活性化という関係にあることを示している。
本発明によって推定することができるネットワークと、
それを構成するトリプレットを以下に例示する。
【0016】たとえば酵素の相互作用のネットワーク
は、基質をノードとする酵素作用がトポロジーとなり、
その活性の強さや阻害の程度がパラメータに還元され
る。この場合の適応度は、細胞や組織における代謝マッ
プとの類似性となる。電気生理学的実験や電圧感受性色
素などを用いた神経回路網の活動に関するデータでは、
神経細胞間のシナプス結合がトポロジーに相当し、そこ
に流れる伝達シグナルがパラメータを構成する。この場
合の適応度は、神経回路網の活動状態との類似性を意味
する。更に、交通ネットワークとそれを結びつけるター
ミナル、あるいは経済システムとそれを構成する要素な
ども、本発明におけるネットワークとして記述すること
ができる。
【0017】通常、ネットワークを構成する要素のうち
のどれだけのものが関連性を持っているのかは未知であ
る。また要素間の関連性は、完全に未知であっても良い
し、あるいは部分的に確認されたものであってもよい。
【0018】工程a)において生成するトポロジーは、
一般的には、できるだけ広い範囲から絞り込みが行える
ように、多様な組み合わせを生成するのが望ましい。例
えば、想定することができるトポロジーの全てを生成す
ることは、本発明の好ましい態様の一つである。しかし
ながら、考慮すべき要素が多い場合には、要素の組み合
わせの全てをカバーできる想定可能なトポロジーを生成
することは困難である。トポロジーの候補があまりにも
巨大になる場合には、スクリーニングを困難とする場合
がある。したがって、必要に応じてトポロジーを選択す
ることもできる。トポロジーの選択は、想定可能な全て
のトポロジーから例えばランダムに選択することによっ
て行うことができる。工程a)で生成されるトポロジー
の集合をトポロジープールと呼ぶ。
【0019】また、ネットワークを構成する要素間の関
連性が予め部分的に明らかな場合には、これを固定した
上でトポロジーを生成することによって、合理的なスク
リーニングを行うことができる。たとえば細胞の遺伝子
発現プロファイルの解析においては、通常、いくつかの
遺伝子の間の相互関係が部分的に明らかにされている場
合が多い。このような場合には、既に明らかな部分につ
いては、固定した状態でトポロジーを生成させるのが合
理的である。あるいは逆に、あえて通説となっている要
素間の関係を無視してトポロジーを生成することによ
り、既知の関係とは全く異なった相互作用の可能性を見
出すことが期待できる。更に、ネットワークを構成する
要素の相互の関連性が未知であっても、その一部の関連
性を仮定に基づいて実験的に固定したトポロジーを生成
することもできる。このようにして生成した様々なトポ
ロジーに本発明を適用することによって、その仮定の確
からしさを相互に比較することができる。
【0020】このとき、本発明によるネットワークの推
定方法では、複数の候補ネットワークを生成することが
できることから、考え得る候補ネットワークを幅広く把
握することができる。このことは、単一の候補ネットワ
ークの推定を目指す公知の方法に対して大きなメリット
である。また、様々な条件の基で推定した候補ネットワ
ークの比較を、より有効に行うことができる。たとえ
ば、ある条件の基で推定したときに得られた候補ネット
ワークのランキングと、他の条件における候補ネットワ
ークのランキングを比較することができる。
【0021】工程a)におけるトポロジーやネットワー
クの選択は、スクリーニングすべき対象を狭める恐れが
あるのは事実である。しかしながら次のような理由によ
り、工程a)における候補の選択が、ネットワークの推
定において最終的な結果に対して大きな影響を与えるこ
とはない。本発明においては、後に述べるように、デー
タを再現する可能性のあるトポロジーを段階的に推定す
る工程が繰り返される。したがって、たとえばある段階
で、データの再現が可能な特定の候補ネットワークが候
補集団から失われたとしても、その影響は部分的な影響
にとどまる。なぜならば、本発明においては、高頻度に
見られるコンセンサス・パスウエイの抽出工程が繰り返
される。したがって、候補ネットワークがランダムに選
択される場合には、特定のトポロジーの有無に関わら
ず、コンセンサス・パスウエイの抽出は可能なのであ
る。
【0022】更に本発明では、コンセンサス・パスウエ
イを含むトポロジーを生成し、生成されたトポロジーに
パラメータを与えて再び候補ネットワークを得る工程を
含む。このとき生成される候補ネットワークは、コンセ
ンサス・パスウエイを含むことのみを条件として、無作
為に想定されるトポロジーの全てについて生成すること
もできるし、あるいは前記与えられたデータとの誤差が
少ないデータを再現するネットワークを高頻度で作成す
るステップを含むこともできる。
【0023】目的とするネットワークを高頻度で作成す
るステップにより、与えられたデータを再現する可能性
の高い候補ネットワークを選択する確率が高くなる。ま
た、前記与えられたデータとの誤差が少ないデータを再
現するネットワーク同士の一部を組み替えて、新たなネ
ットワークを作成するステップを含むことができる。こ
れは遺伝的アルゴリズム(GA)等を用いることにより
実現することができる。
【0024】遺伝的アルゴリズムとは、問題解決手法の
一つとして考え出されたアルゴリズムである。遺伝的ア
ルゴリズムにおいては、無作為に生成した候補集団を、
特定の視点で評価し、一定の水準にある候補のみを選択
し、選択された候補に基づいて新たな候補集団を生成す
る工程を繰り返すことによって、ある目的を達成するこ
とができる候補が作り出される。その工程が、あたかも
生物の進化の原理を見るようであることから、遺伝的ア
ルゴリズムと呼ばれている。本発明に遺伝的アルゴリズ
ムを適用すれば、たとえば適応度が高い候補ネットワー
クの間で、人為的な組み換えを生成することができる。
組み換えによって適応度に優れたネットワークが多く得
られる場合には、同様の組み換えが遺伝的アルゴリズム
に基づいて更に積極的に行われるであろう。
【0025】こうして得ることができる候補ネットワー
クは、ネットワーク空間を広く粗く探索して得られてい
る。ここでネットワーク空間とは、想定されるネットワ
ークの全てが含まれる空間を意味している。ネットワー
ク空間の広く粗い探索は、広域探索と呼ばれる。広域探
索を補うために、ネットワークを得るための探索方法と
して、任意のトポロジーの構造的近傍を探索して、トポ
ロジーを作成するステップを含むことができる。このよ
うな検索方法は、広域探索に対して局所探索と呼ばれ
る。局所探索は、例えば、シミュレーテッド・アニーリ
ング(SA)を用いて行うことができる。候補ネットワ
ークの生成に、広域探索および局所探索をハイブリッド
で用いることにより、最適なネットワークを効率的に選
択することができる。
【0026】工程a)においてネットワークを得るステ
ップは、同一のトポロジーに対して、1個のパラメー
タ、若しくは、複数であって互いに異なるパラメータの
セットを推定することができる。パラメータの推定に
は、例えば、遺伝的アルゴリズム(GA)、シミュレー
テッド・アニーリング(SA)、あるいは山登り法等の
公知の最適化手法(「遺伝的アルゴリズム」監修:北野
宏明、産業図書発行、平成5年)を用いることができ
る。これにより、与えられたデータを再現するための、
トポロジーに対する最適なパラメータを早く推定するこ
とができる。山登り法(Hill Climbing:HC)とは、可能性
のある探索点の中で最も有望な点を選んで探索を進めて
いく方法である。探索点の近傍の中から最適の解を見つ
け出す方法である。SAは局所解(local minimum)に陥
るのを防ぐために、HCの考えかたに更に確率的な遷移
を導入している。局所解とは、限られた範囲では最適な
解ではあるが、広い探索範囲においては最適とは言えな
い解を意味する用語である。HCは、局所的な比較を繰
り返すことで解を導くアルゴリズムなので、場合により
局所解に陥りやすい傾向がある。さてSAでは、探索点
の近傍を探索して解Xが得られたときに、その評価
値がXより悪い場合でも、Xi+1=Xとなる可能性
を残す点においてHCと相違している。つまり、解が改
善された場合には解を置きかえ、更に改善されない場合
にも一定の確率で置き換える。このような操作によれ
ば、探索点の数よりも多くの解が残されるとともに、局
所解のみらなず、より最適解に近い解を得られる可能性
が高まる。
【0027】工程b)においては、先に生成された候補
ネットワークのうち目的とする基準を満たすネットワー
クからコンセンサス・パスウエイが抽出される。本発明
において満たすべき基準とは、推定すべきネットワーク
によって生成されたデータとの誤差が許容範囲内にある
ことを意味する。本発明において、推定すべきネットワ
ークによって生成されたデータを、特にターゲットプロ
ファイルと呼ぶ。各ネットワークとターゲットプロファ
イルとの誤差は、任意の方法によって比較することがで
きる。たとえば、ネットワークの適応度を比較すること
によって、候補ネットワークとデータとの誤差の大きさ
をランキングすることができる。通常コンセンサス・パ
スウエイは、適応度の評価にしたがってランキングした
候補ネットワークの、上位候補に高頻度に見出される構
造として抽出される。本発明におけるコンセンサス・パ
スウエイとは、複数のネットワーク候補から抽出するこ
とができる、トポロジーの部分的な構造を意味する。先
に述べたように、本発明において、コンセンサス・パス
ウエイは、単一であることもできるし、複数を選択する
こともできる。たとえば、あるネットワーク候補の集団
において、目的とする基準を満たすネットワークから論
理的に相反する複数の構造が抽出された場合には、抽出
された複数の構造をそれぞれ候補として採用し、以後の
工程を各候補ごとに分割して進めることができる。本発
明において、コンセンサス・パスウエイを抽出し、以降
の工程でこのコンセンサス・パスウエイに基づいて、更
に次のコンセンサス・パスウエイの抽出操作を繰り返す
とき、先に抽出したコンセンサス・パスウエイを固定す
ると表現する。
【0028】上位候補とは、最小二乗法による適応度
で、たとえば上位5%の集団が望ましい。このような集
団における高頻度とは、たとえば5%以上、より好まし
くは3%以上の確率で見出される場合を言う。このと
き、予め設定された上位5%という選択基準を、状況に
よって変動させることもできる。たとえば、コンセンサ
ス・パスウエイとして抽出すべき要素が多くのパターン
に分散し、かつ上位5%のネットワークとそれ以下のネ
ットワークの間で適応度に優位な差が見出せない場合に
は、上位5%のみでは選択範囲として不十分となる恐れ
がある。このようなケースでは、適応度に有意な差を見
出すことができるところまで、コンセンサス・パスウエ
イの選択範囲を広げると良い。逆に、コンセンサス・パ
スウエイとして抽出すべき要素が限られたパターンに集
中するようなケースでは、不必要に選択範囲を広げる必
要は無い。
【0029】さて、本発明において適応度の計算根拠で
あるターゲット・プロファイルは、単一であることもで
きるし複数を利用することもできる。たとえば、正常な
ネットワーク(wild type)において生成されたデータに
加え、ネットワークを構成する要素の一部を人為的に破
壊したネットワーク(mutant)によってもたらされたデー
タからなるターゲット・プロファイルを組み合わせるこ
ともできる。複数のターゲット・プロファイルを用いる
ことによって、本発明による候補ネットワークの評価は
多面的に行われることになり、結果として候補の絞込み
を行いやすくなる。具体的には、たとえばmutantに基づ
くターゲット・プロファイルの参照によって、論理的に
あり得ない候補を評価の対象から外すことができる。あ
るいは、より確からしい候補を高く評価することもでき
るようになる。
【0030】コンセンサス・パスウエイを選択するため
のネットワークが満たすべき基準は、適応度の比較の他
に、あるパスウエイを含むネットワークが、ターゲット
プロファイルに類似し、かつ互いに類似するデータを生
成できるかどうかを評価することによって判断すること
ができる。コンセンサス・パスウエイを含むネットワー
クによって生成されるデータは、ターゲット・プロファ
イルに類似するデータとなるべきである。したがって、
あるパスウエイを含むネットワークが、ターゲット・プ
ロファイルに類似するデータを生成できるかどうかを予
測すれば、そのパスウエイをコンセンサス・パスウエイ
として抽出すべきかどうかを判断することができる。そ
のためには、たとえば次のようなアルゴリズムによって
コンセンサス・パスウエイを固定することもできる。こ
の手法の重要な点はいかにコンセンサス・パスウエイp
を導出するかにある。ここではその基準としてN x N 行
列(ネットワーク構成要素数がNの場合)のベクトルΓ
(ガンマ)を定義する。トポロジープールの中で適応度
の高いエリート数Tのトポロジーを用いて、Γの各要素
γijを以下に示す式1で求める。
【0031】
【数1】式1
【0032】ここで、wk ijはトポロジーkのi行j列要素
の結合荷重値、Aiはノードiの全ステップを通した平均
遺伝子産物濃度、βijはエリート中のi行j列要素の結合
状態値(1:結合,0:非結合)の総和を示している。
【0033】この式1では結合荷重値、ノードの発現産
物濃度およびノード間の結合頻度を反映した結果を導き
出すが、これだけだと強い影響力を持つ結合のみを求め
ることになり、ありえる非結合を導くことができない。
そこで、さらに非結合に関して基準γを導入する。その
各要素γijを以下のように定義する。
【0034】
【数2】式2 ここで、εは定数(≒0)である。
【0035】基準行列 Γ を導出した時点で、この中で
最も大きい値を持つ要素がもっともあり得るパスウエイ
として考えられる。すなわち、例えばΓ(activation)
の中で γ(2,3) の値が最も大きければノード2からノー
ド3 への活性制御が大きく効いていると言える。よっ
て、このΓをもとに「1サイクルで固定するパスウエイ
の数」をあらかじめ決めておき、以下に説明している探
索経路などを利用して再帰的にコンセンサス・パスウエ
イを固定していくことができる。本発明における1サイ
クルとは、前記工程a)−c)によって候補ネットワー
クの生成と評価を経てコンセンサス・パスウエイを抽出
し、このコンセンサスパスウエイに基づいて新しいネッ
トワークを生成するまでを言う。後に述べるように、本
発明によるネットワークの推定方法を構成するサイクル
数は、特に限定されない。
【0036】上記の方法で再帰的にコンセンサス・パス
ウエイを探索していく経路、階層構成は例えば図2のよ
うに様々なものが考えられる。各探索経路を左から1)se
rialsearch path、2)pyramid search path、3)combinat
orial search pathと呼ぶことにする。コンセンサス・
パスウエイとしての候補が複数ある場合はpyramid sear
ch path、もしくはcombinatorial search pathを用いる
ことができる。serial search pathは、順次シリアルに
コンセンサス・パスウエイを追加していく探索方法であ
る。またpyramid search pathでは、階層ごとに候補と
して複数のコンセンサス・パスウエイを追加していく。
Pyramid search pathに基づく探索方法は、図3のよう
に模式化することができる。図3は、Pyramid search p
athに基づく探索方法において、固定したネットワーク
(コアネットワーク)に対して、考えうるネットワーク
(デリバティブネットワーク)を生成する過程を示して
いる。更にcombinatorial search pathは、各階層ごと
に上位層のコンセンサス・パスウエイをまとめていく方
法である。
【0037】続いて工程c)において、コンセンサス・
パスウエイを含む新たなトポロジーが生成され、生成さ
れたトポロジーに対してパラメータセットを与えること
により、二次的な候補ネットワークの集団が得られる。
二次的な候補ネットワークの集団を生成するためには、
前述の工程a)における候補ネットワークの生成手法を
そのまま応用することができる。二次的な候補ネットワ
ークの集団は、再び工程b)における候補ネットワーク
として評価され、コンセンサス・パスウエイの抽出工程
を繰り返される。2サイクル目以後に抽出されるコンセ
ンサス・パスウエイは、それ以前に抽出されたコンセン
サス・パスウエイに対して新規な構造を抽出しなければ
ならない。すなわち、それ以前に抽出されたコンセンサ
ス・パスウエイ以外の構造を抽出するか、またはそれ以
前に抽出されたコンセンサス・パスウエイを含む、より
構成要素の多い構造を抽出するかの、いずれかである。
いずれの抽出方法を採用しても、最新のコンセンサス・
パスウエイを含む全ての情報を総合して表現されるコン
センサス・パスウエイは等しい構造となる。
【0038】本発明では、候補ネットワークの生成と評
価、そしてコンセンサス・パスウエイの抽出工程を繰り
返すことによって、しだいにネットワーク空間が縮小す
る。すなわち、候補ネットワークのバリエーションが収
束する。本発明のネットワーク推定方法は、ネットワー
ク空間が、所期の規模にまで縮小することができた段階
で終了することができる。言いかえれば、与えられたデ
ータを再現する可能性があるネットワークを、希望する
大きさの集団に縮小できたときに、ネットワークの推定
方法を終了することができる。
【0039】候補ネットワークのバリエーションが最小
となるのは、工程c)において生成される二次的な候補
ネットワーク空間の規模が、1サイクル前の規模と変わ
らなくなったときでる。このとき、その候補ネットワー
クの生成に用いたコンセンサス・パスウエイに対して与
えられたパラメータと適応度からなるネットワークのバ
リエーションは最小である。したがって、本発明のネッ
トワークの推定方法を、候補ネットワークのバリエーシ
ョンが収束するまで繰り返せば、データを再現する可能
性のある全てのネットワークを選び出すことができる。
しかしながら、本発明のネットワーク推定方法は、ネッ
トワーク空間の収束に至らない場合であっても、目的と
する規模にそれを縮小することができれば、任意の段階
で終了して良い。
【0040】上述のネットワーク推定方法を実行する装
置および、上述のネットワーク推定方法をコンピュータ
・システムに実現させることができるプログラムを格納
した記録媒体も本発明に含まれる。
【0041】
【実施例】本発明のネットワーク推定方法の有効性を示
すために、以下の実験を行った。この推定方法において
は、人為的なトリプレットの集合(トリプレットプー
ル)の生成と、その中から候補トリプレットを抽出する
処理の繰り返しで構成される。生成と抽出からなる1回
の処理サイクルを、サンプリングサイクルと呼ぶ。この
抽出処理には、構造近傍にあるネットワークの集合か
ら、遺伝子ネットワークを構成する上で中心となるべき
不可欠なトポロジーを導出する手法である「Iterative
Sampling Method」を適用した。この手法では、候補ネ
ットワークの集合からいかに信頼性の高いトポロジーを
抽出するかに焦点を絞った点が大きな特徴である。本発
明に基づくネットワークの推定方法のアルゴリズムを以
下に示す。 1.可能なネットワークトポロジーの生成、および各ト
ポロジーについてターゲットデータと合致するようにパ
ラメータの最適化を行う。 2.各ネットワークの適応度を評価する(TSS等を利
用)。 3.T個の適応度の高いネットワーク、もしくはウェイ
トをかけた全ネットワークからコンセンサス・パスウエ
イを導出する。 4.ある基準に沿ってコンセンサス・パスウエイを固定
する。 5.既に固定されているコンセンサス・パスウエイを含
むネットワークトポロジーを生成し、各トポロジーにつ
いてパラメータを最適化する。 6.ステップ2へ戻る。 このアルゴリズムを図5に示す。ここで、コンセンサス
・パスウエイはもっともらしいネットワークの要素とし
て固定された結合構造であり、コアネットワーク(Core
Network)とみなされる。各サイクルで一定数の結合構造
が固定され、随時「Fth-order core network」として一
サイクル前に固定されたコアネットワークに追加され
る。Fはサンプリングサイクルの反復数を示す。
【0042】また、このアルゴリズムは、擬似コードを
用いると以下のように示される。 F=1; G(F)={φ}; while ( F ≦ Fmax ){ D=G(F)を含むネットワークトポロジーの生成; D中の各ネットワークの適応度の評価(TSS等); D中のconsensus topologyの評価; if ( p が頻発 ){ G(F+1)=G(F)∪{p}; } F++; } G(F)を出力;
【0043】ここで、Dは候補ネットワークの集合、G
(F)は階層の深さFでのコアネットワーク、pは候補グ
ループの中でfunction size S(p)で定義された数をコア
ネットワークに追加されるコンセンサス・パスウエイを
それぞれ表している。このアルゴリズムの中でF=1の
first-order コアネットワークを生成する場合にはG(F)
={φ}だから全くランダムにネットワークの候補グルー
プが生成されDに格納される。ここから統計的な評価を
行いpを抽出してfirst-orderコアネットワークとす
る。ここまでを一サイクルとし、さらにF=2のsecond
-orderのネットワークを生成する場合には、first-orde
rコアネットワークを包含したデリバティブネットワー
クを候補グループとしてDに格納して評価を行い、pを
上位のネットワーク、この場合はfirst-orderコアネッ
トワークに追加してこれをsecond-orderコアネットワー
クとする。同様の作業をFがFmaxに達するまで繰り返
す。つまり、最上位層のみをコアネットワークとするの
ではなく、ある階層より下位のネットワークを探索する
場合、その階層のネットワークをデリバティブネットワ
ークと考え、さらにそこから機能を付加して下位層のコ
アネットワークを生成していく。
【0044】上記のG(F)のサイズを5000として、トリプ
レット抽出処理の実験を行った。TSSの分布状況を図6
に示す。この中でエリート数E=300でpの抽出を行い、F
=2までサイクルを回し、各サイクルともS(p)を2とし
た。一サイクル目のΓ(activation)(式3)、Γ(inhib
ition)(式4)を以下に示す。下線を引いた要素が各行
列の最大値である。実験で得られた階層構造を図7に示
す。
【0045】
【数3】(式3)
【0046】
【数4】(式4)
【0047】抽出された候補ネットワークの中には、図
4(a)で示したターゲットプロファイルの一部である、
AのA自身に対する活性、およびAのBに対する活性を
示すネットワークを含む候補トポロジーが含まれてい
た。このことから、本発明により、効率的にターゲット
プロファイルを生じるネットワーク構成を推定すること
が可能であることは明らかである。
【0048】具体的な遺伝子のネットワークを例に、上
述の処理および候補トリプレットを抽出する処理を具体
的に説明する。ここでは、図4(b)に示したような時
系列データである発現プロファイルを実現する遺伝子の
ネットワークを例とする。まず、トポロジーの結合関係
を示す結合行列をもとに染色体にコーディングを行っ
た。ここで言う染色体とは、遺伝的アルゴリズム用語と
しての染色体である。すなわち、遺伝子である結合荷重
としきい値をコード化したものが、ここで言う染色体に
相当する。染色体上にコード化されたパラメータに基づ
いてネットワークが構成される。この関係を生物学的用
語としての染色体に置きかえれば、染色体上にコード化
されたパラメータは遺伝子に相当し、このパラメータに
基づいて生成されるネットワークが発現型に相当するこ
とになる。ここでは、図4(a)に示した発現物質が4
つであるので、ノードが4つあるネットワークのトポロ
ジーを考える。それは、例えば、以下のような結合行列
Cで表される。
【0049】
【数5】
【0050】このトポロジーの結合は5ヶ所あり、各々
に対する重み付けをする必要があるので、4つの遺伝子
型(genotype)を持つ染色体を生成させた。さらに各ノ
ードのしきい値も最適化する必要があるので、結局、全
体として5(結合数)+4(ノードのしきい値数)で9
の遺伝子型を持つ染色体を生成させることになる。この
場合の各染色体の荷重および、しきい値の取り得る範囲
(実数値)は、表1のように示される。
【0051】
【表1】 ━━━━━━━━━━ 結合荷重 ───────── A→A:[0〜1] A→B:[0〜1] B→C:[0〜1] C→D:[0〜1] D→B:[−1〜0] ──────── 各ノードのしきい値 A: [0〜1] B: [0〜1] C: [0〜1] D: [0〜1] ━━━━━━━━━━ 以上のようにして、図4(b)に示す発現プロファイル
を実現可能な複数のトポロジーを生成して、トポロジー
格納手段(図5における第1オーダー、最も上のトポロ
ジー格納手段)に格納した。
【0052】格納した各トポロジーに対して、GAを用
いてパラメータ(荷重およびしきい値)の最適化を行っ
た。まず、トポロジーに対して決められた範囲のパラメ
ータをN組ランダムに発生させ、染色体の初期集団とし
た。表2に上述の結合行列で定められたトポロジーに対
する初期集団を示す。表中の各個体は、5つの結合荷重
および4つのしきい値を遺伝子とする染色体で構成され
ている。
【0053】
【表2】 ━━━━━━━━━━━━━━━━━━━━━━━ 結合荷重 個体1 個体2 個体3 個体N ────────────────────── A→A: 0.2 0.3 0 ... 0.3 A→B: 0.4 0.7 0.2 ... 0.2 B→C: 0.2 0.2 0.5 ... 0.6 C→D: 0.2 0.4 0.7 ... 0.2 D→B:−0.1 −0.3 −0.6...−0.5 しきい値 A: 0.6 0.6 0.3 ...0.2 B: 0.2 0.2 0.3 ...0.4 C: 0.3 0.4 0.3 ...0.6 D: 0.2 0.5 0.3 ...0.2 ━━━━━━━━━━━━━━━━━━━━━━━ このように、トポロジーに対して、リストの形で染色体
が定まる。この初期集団に対してGAを適用することに
より、最適化を行った。この最適化の指標として、各パ
ラメータの適応度を用いた。GAのパラメータは、popu
lation size=500、generation=300、crossover rate=0.
8、mutation rate=0.01で行い、エリート保存戦略、ト
ーナメント選択戦略を用いた。なお今回の実験では非結
合の評価は行わないものとした。
【0054】初期集団の適応度は、染色体のパラメータ
をもとに、各個体で発現プロファイルを生成し、ターゲ
ット・プロファイルとの間で、最小自乗誤差TSS(To
talSum Square error)の処理を行うことにより求め
た。以下に最小自乗誤差TSS処理について述べる。
【0055】図4(b)に示すように、ターゲット・プ
ロファイルが濃度の時系列データとして与えられてい
る。このため、各発現物質A、B、C、およびDそれぞ
れのある時間tにおける濃度はLTA(t)、L
TB(t)、LTC(t)、LTD(t)と表され、生
成した染色体の各パラメータをもとに、上述の式(1)
により計算される各発現物質の濃度は、LEA(t)、
EB(t)、LEC(t)、LED(t)と表すこと
ができる。これらの間の最小自乗誤差TSSは次のよう
に表すことができる。このようにして求めた最小自乗誤
差TSSを各発生したネットワーク(染色体)の適応度
とした。
【0056】
【数6】
【0057】さて、このように求められる適応度を利用
することにより、GAを用いてトポロジー毎にパラメー
タ(結合荷重としきい値)の最適化を行うことができ
る。すなわち、各トポロジー毎に適応度に基づいて順位
付けし、適応度の高いトポロジーを選択してトポロジー
格納手段(第1オーダー、パラメーター最適化後のトポ
ロジー格納手段)に格納することにより、最適化された
トリプレットを集めるトリプレットプールを構築するこ
とができる。構築されたトリプレットプールを対象とし
て、先の計算式に基づいてΓの比較を行い、候補ネット
ワークを推定することができる。具体的には、まずΓ
(a,actication)とΓ(i,inhibition)について、1サイク
ルで固定するコンセンサス・パスウエイの数量だけ、高
い値を持つ上位の要素を抽出する。例えばそれぞれ1サ
イクルで1つを固定するならば、Γ(a)とΓ(i)の中でそ
れぞれ最高値の要素を選び、それらをコンセンサス・パ
スウエイとする。2サイクル目以降は、順次その固定す
る数を増やしていき、これを必要なサイクル数だけ繰り
返す。
【0058】(他の適用)上述の説明および実施例で
は、遺伝子ネットワークの例で説明した。この他にも例
えば遺伝子・代謝回路ネットワークにも適用することが
可能である。図8は、遺伝子・代謝回路のネットワーク
について示している。図8(a)に示すように、遺伝子
と、代謝における酵素、タンパク質をノードとして、活
性、抑制、媒介等の関係をリンクで表す。そしてこれを
用いたネットワーク例を図8(b)に示す。図8(b)
に示したようなトポロジーに対して、上述で説明した処
理を適用する。
【0059】上述においては、対象ネットワークとし
て、遺伝子ネットワーク、代謝回路ネットワークを示し
たが、そのほかにも神経回路ネットワーク等に対しても
適用することができる。この場合のデータ(ターゲット
・プロファイル)としては、ニューロン活動電位等を用
いる必要がある。
【0060】このように、本発明の手法は色々なものに
対して用いることができる。適用できるターゲット・プ
ロファイルの色々な例を図9に示す。図9(a)は、タ
ーゲット・プロファイルが0次元空間データである場合
を示している。このデータの例としては時間や周波数に
対して変化するようなデータである。例えば、濃度、活
性度、電位等がある。図9(b)は、1次元空間データ
を示している。データは、空間としてxに、および、時
間または空間に依存する量である。この量としては、濃
度、活性度、電位等がある。図9(c)および(d)と
して示したターゲット・プロファイルは、2次元空間デ
ータおおび3次元空間データである。これは、2次元
(x,y)および3次元(x,y,z)の空間、およ
び、時間または周波数に依存する量のデータである。こ
の量としては、濃度、活性度、電位等がある。このよう
に色々なデータ形式で、ターゲット・プロファイルを与
えることができる。
【0061】このように、ターゲット・プロファイルが
存在し、そのターゲット・プロファイルを生じるネット
ワーク構成を推定するような場合に、本発明は有効であ
る。本発明は、スタンド・アローンのコンピュータ・シ
ステムばかりでなく、複数のコンピュータから構成され
る例えばクライアント・サーバ・システム等に適用して
もよい。本発明に関するプログラムを格納した記憶媒体
から、プログラムをシステムで読み出して実行すること
により、本発明の構成を実現することができる。この記
憶媒体には、DVD、MD、MO、フロッピー・ディス
ク、CD−ROM、磁気テープ、ROMカセット等があ
る。
【0062】
【発明の効果】上記の説明のように、本発明は、データ
としてターゲット・プロファイルが存在し、そのターゲ
ット・プロファイルを生じるネットワーク構成を推定す
るような場合に、極めて有効である。特に、遺伝子ネッ
トワークや代謝ネットワークにように、分子生物学にお
けるモデルの推定に対して有効に適用することができ
る。
【0063】本発明は、少なくとも1つのデータプロフ
ァイルに基づくネットワークの推定を可能とする。した
がって、データプロファイルを得るための実験工程を最
小限度にすることができる。あるいは、mutantに基づく
ターゲット・プロファイルを組み合わせることによっ
て、候補ネットワークの絞込みをより容易に行うことが
できる。また、本発明においては、必要に応じて複数の
候補ネットワークの評価を容易に行うことができる。し
たがって、常に同定選択範囲を広くとらえることがで
き、結果としてより多様な可能性の解析が効率的に行わ
れる。
【0064】本発明は、DNAチップを用いて得られた
遺伝子発現プロファイルをターゲットプロファイルとす
るネットワークの推定方法に特に有用である。DNAチ
ップには、ある一群の遺伝子に対するプローブ(プロー
ブセット)が高密度に固定されている。同じプローブセ
ットを固定したDNAチップでは、その他の条件を等し
くすることによって再現性の高い解析結果を得ることが
できる。つまり、本発明におけるネットワークにおい
て、共通のノードを持つネットワークに基づく発現プロ
ファイルが得られることになる。DNAチップを用いた
発現プロファイルの解析は、異なる実験の間の解析結果
を比較できるように、標準化のための基準も設定されて
いる。たとえば、結果を大きく左右するハイブリダイゼ
ーションや洗浄条件などは予め定められた共通の基準に
適合させておくことにより、異なる実験の結果を容易に
比較することができる。
【0065】さて、このようにして収集されたDNAチ
ップによる解析結果は、まず第1の細胞の解析結果に基
づいてネットワークの推定が行われる。更に、第2の細
胞から得られた発現プロファイルに基づいてネットワー
クの推定が行われる。このとき用いたDNAチップが同
じプローブセットを備えていれば、両者の発現プロファ
イルを統合して本発明によるネットワークの推定方法を
行うことができる。このように、あるDNAチップを用
いて得られた複数の発現プロファイルを蓄積し、蓄積さ
れた発現プロファイルに基づいて本発明のネットワーク
の推定方法を実施することにより、候補ネットワークの
絞り込みを、より効率的に実施することができる。この
ような解析方法の最大のメリットは、さまざまな研究施
設で行われた実験結果を一箇所に集積することによっ
て、DNAチップを用いた解析結果を容易に統合できる
ことにある。更に、同じノードで構成される多様な発現
プロファイルが蓄積されることによって、さまざまな遺
伝子の発現プロファイルを、コンピューターを用いて解
析することができる。その結果、ある遺伝子を阻害した
場合の発現プロファイルをコンピュータ内で予測し、そ
の予測を実験的に確認するために、同じDNAチップを
用いた実験計画を構築することもできる。以上述べたよ
うに、本発明のネットワーク推定方法は、DNAチップ
を用いた遺伝子の発現プロファイルの解析において、特
に有用である。
【図面の簡単な説明】
【図1】分子生物学におけるコンピューター利用を説明
する図である。
【図2】コンセンサス・パスウエイを探索する経路を示
す図である。(1)はserial searchpath、(2)はpyramid s
earch path、(3)はcombinatorial search pathを表す。
【図3】コンセンサス・パスウエイを探索する経路であ
るpyramid search pathの概念を示す図である。
【図4】ネットワークによって生成されたターゲットプ
ロファイルを示す図である。(a)の数字は結合荷重値を
表す。(b)横軸は時間を、縦軸は各遺伝子産物の濃度を
表す。
【図5】本発明によるネットワーク推定方法の例である
Iterative Sampling methodの概念を示す図である。
【図6】最小自乗誤差TSSの分布状況を示す図である。
【図7】実験で得られた階層構造を示す図である。
【図8】遺伝子・代謝ネットワークの例を示す図であ
る。
【図9】ターゲット・プロファイルの例を示す図であ
る。

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 互いに関係している要素間の関係をネッ
    トワークとして記述できる場合において、前記要素によ
    り生成されたデータが与えられたときに、与えられたデ
    ータからそのデータを再現できるネットワークを推定す
    る方法であって、 a)与えられたデータを再現する可能性の有るトポロジ
    ーを生成し、生成された各トポロジーについて、与えら
    れたデータに対する適応度が最も高いパラメータセット
    を作成して、候補ネットワークを得る工程、 b)工程a)で作製されたネットワークのうち、目的と
    する基準を満たすネットワークからコンセンサス・パス
    ウエイを抽出する工程、 c)工程b)において抽出されたコンセンサス・パスウ
    エイを含むトポロジーを生成し、生成された各トポロジ
    ーに対して、与えられたデータに対する適応度が最も高
    いパラメーターセットを与えてネットワークを得る工
    程、および d)工程c)で得たネットワークの規模が目的とする規
    模に収束するまで、工程c)で得たネットワークを候補
    ネットワークとして再度工程b)−c)を繰り返して、
    新たなネットワークを得る工程、とを含むネットワーク
    推定方法。
  2. 【請求項2】工程b)において、目的とする基準が、適
    応度によって評価される請求項1に記載のネットワーク
    推定方法。
  3. 【請求項3】工程b)において、目的とする基準が、そ
    のパスウエイを含むネットワークによって前記生成され
    たデータに類似し、かつ互いに類似するデータを生成で
    きることである請求項1に記載のネットワーク推定方
    法。
  4. 【請求項4】 工程a)において、与えられたデータを
    再現可能な全てのトポロジーを生成する工程を含むこと
    を特徴とする請求項1に記載のネットワーク推定方法。
  5. 【請求項5】 工程a)において、与えられたデータを
    再現する可能性の有るネットワークとして、前記可能性
    の高いネットワークを選択する工程を含むことを特徴と
    する請求項1に記載のネットワーク推定方法。
  6. 【請求項6】 与えられたデータとの誤差が少ないデー
    タを再現するネットワークを生成する工程を含むことを
    特徴とする請求項5に記載のネットワーク推定方法。
  7. 【請求項7】 工程a)および/または工程c)におけ
    るネットワークを得る工程が、与えられたデータとの誤
    差が少ないデータを再現するネットワーク間でその構造
    の一部を組み換えて、ネットワークを作成する工程を含
    むことを特徴とする請求項5または6に記載のネットワ
    ーク推定方法。
  8. 【請求項8】 工程a)および/または工程c)におけ
    るネットワークを得る工程が、任意ネットワークの構造
    的近傍を探して、ネットワークを作成する工程を含むこ
    とを特徴とする、請求項5〜7のいずれかに記載のネッ
    トワーク推定方法。
  9. 【請求項9】 工程a)および/または工程c)におけ
    るネットワークを得る工程が、同一のネットワークに対
    して1個のパラメータ、または複数であって互いに異な
    るパラメータのセットを推定することを特徴とする、請
    求項1〜8のいずれかに記載のネットワーク推定方法。
  10. 【請求項10】 工程a)および/または工程c)にお
    ける候補ネットワークを得る工程が、遺伝的アルゴリズ
    ム、シミュレーテッド・アニーリング、および山登り法
    からなる群から選択されるすくなくとも一つの手法を用
    いてパラメータを推定する工程を含むことを特徴とす
    る、請求項1〜8のいずれかに記載のネットワーク推定
    方法。
  11. 【請求項11】 前記要素によって生成されたデータ
    が、遺伝子の発現プロファイルである請求項1〜10の
    いずれかに記載のネットワーク推定方法。
  12. 【請求項12】 互いに関係している要素間の関係をネ
    ットワークとして記述できる場合において、前記要素に
    より生成されたデータが与えられたときに、与えられた
    データからそのデータを再現できるネットワークを推定
    するネットワーク推定装置であって、 a)トポロジーと、それに対応するパラメータ・セット
    とで構成されるネットワークを記憶する第1の記憶手段
    と、 b)選択された候補としてのトポロジー、またはその要
    素と、それに対応するパラメータ・セットを格納する第
    2の記憶手段と、 c)与えられたデータを再現する可能性のあるトポロジ
    ーを生成し、生成された各トポロジーについて、与えら
    れたデータに対する適応度が最も高いパラメータ・セッ
    トを作成し、複数の候補ネットワークを得て、前記第1
    の記憶手段に格納する手段と、 d)第1の記憶手段に格納された候補ネットワークのう
    ち目的とする基準を満たすネットワークからコンセンサ
    ス・パスウエイを抽出して、前記第2の記憶手段に格納
    する手段と、 e)手段d)によって第2の記憶手段に格納されたコン
    センサス・パスウエイを含むトポロジーを生成し、生成
    された各トポロジーについて、与えられたデータに対す
    る適応度が最も高いパラメーターセットを与えてネット
    ワークを得て、前記第1の記憶手段に格納する手段、お
    よび f)推定すべきネットワークが得られるまで、手段e)
    において第1の記憶手段に格納されたネットワークを候
    補ネットワークとして手段d)における候補ネットワー
    クとして与える手段、 とを含む装置。
  13. 【請求項13】 請求項1〜11のいずれかに記載のネ
    ットワーク推定方法をコンピュータ・システムに実現さ
    せることができるプログラムを格納した記録媒体。
JP37293699A 1999-12-28 1999-12-28 ネットワーク推定方法 Withdrawn JP2001188768A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP37293699A JP2001188768A (ja) 1999-12-28 1999-12-28 ネットワーク推定方法
PCT/JP2000/009252 WO2001048690A1 (fr) 1999-12-28 2000-12-26 Procede de deduction de reseau
US10/169,433 US20030097693A1 (en) 1999-12-28 2000-12-26 Network inferring method
EP00985897A EP1248231A4 (en) 1999-12-28 2000-12-26 NETWORK DEDUCTION METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP37293699A JP2001188768A (ja) 1999-12-28 1999-12-28 ネットワーク推定方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005150471A Division JP2005353052A (ja) 2005-05-24 2005-05-24 遺伝子発現プロファイルの解析方法

Publications (1)

Publication Number Publication Date
JP2001188768A true JP2001188768A (ja) 2001-07-10

Family

ID=18501293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP37293699A Withdrawn JP2001188768A (ja) 1999-12-28 1999-12-28 ネットワーク推定方法

Country Status (4)

Country Link
US (1) US20030097693A1 (ja)
EP (1) EP1248231A4 (ja)
JP (1) JP2001188768A (ja)
WO (1) WO2001048690A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002023395A1 (fr) * 2000-09-12 2002-03-21 Institute Of Medicinal Molecular Design. Inc. Procede de formation d'un reseau a fonction moleculaire
JP2005270909A (ja) * 2004-03-26 2005-10-06 Advanced Telecommunication Research Institute International ハードウエアシミュレータ
JP2005270908A (ja) * 2004-03-26 2005-10-06 Advanced Telecommunication Research Institute International ハードウエアシミュレータ
JP2013085516A (ja) * 2011-10-18 2013-05-13 Hitachi Plant Technologies Ltd 細胞培養制御方法、細胞培養制御装置及びこれを備える細胞培養装置
JP2013255467A (ja) * 2012-06-13 2013-12-26 Okinawa Institute Of Science & Technology Graduate Univ 相互作用予測装置、相互作用予測方法、および、プログラム
JP2021082097A (ja) * 2019-11-21 2021-05-27 株式会社日立製作所 情報処理システムおよび検索方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030144823A1 (en) * 2001-11-01 2003-07-31 Fox Jeffrey J. Scale-free network inference methods
US7092378B1 (en) 2001-12-10 2006-08-15 At & T Corp. System for utilizing a genetic algorithm to provide constraint-based routing of packets in a communication network
WO2004021144A2 (en) 2002-08-29 2004-03-11 Gene Network Sciences, Inc. Systems and methods for inferring biological networks
US7865534B2 (en) 2002-09-30 2011-01-04 Genstruct, Inc. System, method and apparatus for assembling and mining life science data
US20040249620A1 (en) * 2002-11-20 2004-12-09 Genstruct, Inc. Epistemic engine
CA2546869A1 (en) 2003-11-26 2005-06-16 Genstruct, Inc. System, method and apparatus for causal implication analysis in biological networks
US20050154535A1 (en) * 2004-01-09 2005-07-14 Genstruct, Inc. Method, system and apparatus for assembling and using biological knowledge
US20050227222A1 (en) * 2004-04-09 2005-10-13 Massachusetts Institute Of Technology Pathogen identification method
US8082109B2 (en) 2007-08-29 2011-12-20 Selventa, Inc. Computer-aided discovery of biomarker profiles in complex biological systems
CN105091889B (zh) * 2014-04-23 2018-10-02 华为技术有限公司 一种热点路径的确定方法及设备
US10516578B2 (en) 2015-03-31 2019-12-24 Micro Focus Llc Inferring a network topology

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990011568A1 (en) * 1989-03-28 1990-10-04 Honeywell Inc. Genetic synthesis of neural networks

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581657A (en) * 1994-07-29 1996-12-03 Zerox Corporation System for integrating multiple genetic algorithm applications

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990011568A1 (en) * 1989-03-28 1990-10-04 Honeywell Inc. Genetic synthesis of neural networks

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002023395A1 (fr) * 2000-09-12 2002-03-21 Institute Of Medicinal Molecular Design. Inc. Procede de formation d'un reseau a fonction moleculaire
EA005460B1 (ru) * 2000-09-12 2005-02-24 Институт Оф Медисинал Молекьюлар Дизайн, Инк. Способ генерирования молекулярно-функциональной сети
JP2005270909A (ja) * 2004-03-26 2005-10-06 Advanced Telecommunication Research Institute International ハードウエアシミュレータ
JP2005270908A (ja) * 2004-03-26 2005-10-06 Advanced Telecommunication Research Institute International ハードウエアシミュレータ
JP2013085516A (ja) * 2011-10-18 2013-05-13 Hitachi Plant Technologies Ltd 細胞培養制御方法、細胞培養制御装置及びこれを備える細胞培養装置
JP2013255467A (ja) * 2012-06-13 2013-12-26 Okinawa Institute Of Science & Technology Graduate Univ 相互作用予測装置、相互作用予測方法、および、プログラム
JP2021082097A (ja) * 2019-11-21 2021-05-27 株式会社日立製作所 情報処理システムおよび検索方法
JP7341866B2 (ja) 2019-11-21 2023-09-11 株式会社日立製作所 情報処理システムおよび検索方法

Also Published As

Publication number Publication date
US20030097693A1 (en) 2003-05-22
WO2001048690A1 (fr) 2001-07-05
EP1248231A1 (en) 2002-10-09
EP1248231A4 (en) 2006-08-30

Similar Documents

Publication Publication Date Title
JP2001188768A (ja) ネットワーク推定方法
Bhan et al. A duplication growth model of gene expression networks
Wang et al. Identification of essential proteins based on edge clustering coefficient
US7085690B2 (en) Unsupervised machine learning-based mathematical model selection
US20030033127A1 (en) Automated hypothesis testing
Liseron-Monfils et al. Revealing gene regulation and associations through biological networks
US20100005051A1 (en) System and method for inferring a network of associations
Zhang et al. Bayesian models for detecting epistatic interactions from genetic data
Attea et al. Improving the performance of evolutionary-based complex detection models in protein–protein interaction networks
CN113192556B (zh) 基于小样本的多组学数据中基因型与表型关联分析方法
Metzger et al. Epistasis facilitates functional evolution in an ancient transcription factor
EP3929927A1 (en) Associating pedigree scores and similarity scores for plant feature prediction
Sun et al. Hierarchical recognition of sparse patterns in large-scale simultaneous inference
Ram et al. Causal modeling of gene regulatory network
Peliti Fitness landscapes and evolution
JP3443039B2 (ja) ネットワーク推定方法および装置
CN115273966A (zh) 谱系树中可变剪接模式和染色质状态动态变化的分析方法
JP2005353052A (ja) 遺伝子発現プロファイルの解析方法
Migdałek et al. Measuring population-level plant gene flow with topological data analysis
Pena et al. Learning and validating Bayesian network models of gene networks
KR101704737B1 (ko) 셀렉션 풀을 이용한 바이클러스터 생성 장치 및 방법
Paperin et al. Holey Fitness Landscapes and the Maintenance of Evolutionary Diversity.
Khabzaoui et al. A cooperative genetic algorithm for knowledge discovery in microarray experiments
CN114864005A (zh) 一种基于图挖掘技术的基因表达模块发现方法
CN115273978A (zh) 适用于多层谱系树的剪接表观遗传密码的获得方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050325

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20050525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050608