CN1714371A - 根据时间序列基因表达数据的基因网络的非线性模拟 - Google Patents

根据时间序列基因表达数据的基因网络的非线性模拟 Download PDF

Info

Publication number
CN1714371A
CN1714371A CN 200380103626 CN200380103626A CN1714371A CN 1714371 A CN1714371 A CN 1714371A CN 200380103626 CN200380103626 CN 200380103626 CN 200380103626 A CN200380103626 A CN 200380103626A CN 1714371 A CN1714371 A CN 1714371A
Authority
CN
China
Prior art keywords
gene
bnrc
dynamic
minimizes
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200380103626
Other languages
English (en)
Inventor
宫野悟
井元清哉
金顺暎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GENE NETWORKS Inc
GNI USA Inc
Original Assignee
GENE NETWORKS Inc
GNI USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GENE NETWORKS Inc, GNI USA Inc filed Critical GENE NETWORKS Inc
Publication of CN1714371A publication Critical patent/CN1714371A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的实施例包括新的推断方法来分析复杂的生物信息,包括基因网络。在一些实施例中,为有机体中的大量基因同时获得时间过程数据。新方法包括贝叶斯推断方法的改进以及那些方法的应用,从而确定所表达的基因之间的因果关系,并且在一些实施例中用于确定调节的基因的上游影响基因。贝叶斯模型的另外的改进包括使用自举方法和确定边缘影响,从而更准确地提供所表达的基因之间的网络信息。关于基因网络的信息可以存储在存储器设备中并可以发送到输出设备,也可以发送到远程位置。

Description

根据时间序列基因表达数据的基因网络的非线性模拟
本申请要求于2002年11月19日提交的美国临时申请序列号为60/427448的申请的优先权。该申请援引于此以供参考。
技术领域
本发明涉及根据基因表达的时间序列研究、使用具有非参数回归的贝叶斯模型来推断基因之间的网络关系。本发明尤其涉及最小化标准即BNRCdynamic来推断最佳网络关系的方法。
背景技术
在生命科学、医学、药物发现的当前研究和开发以及在制药工业的开发中,最重要的方面之一是需要开发用于解释大量原始数据并基于这些数据得出结论的方法和设备。生物信息学有助于根本上理解生物***,并且预示了对生命***的部分之间的复杂关系提供更深的理解。特别是,随着用于快速检测所表达的基因和用于量化基因表达的新方法的出现,可以使用生物信息学来预测潜在的治疗目标而不需要明确了解特定基因在生物体(biology oforganism)中所起的确定作用。
基因***的模拟是生物***的中心主题。由于可以基于生物知识进行模拟,因此通过预测或推断预先未知的关系,网络估算方法可以支持生物模拟。
特别是,微阵列技术的开发已经允许各种有机体的大量基因表达的研究。可以从有机体的大量基因获得大量的原始数据,并且通过突变、疾病或药物的干预来研究基因表达。发现特定基因表达在特定疾病中增加,或响应于特定干预可以使人相信该基因直接参与疾病过程或药物反应。然而,在生物有机体中,基因很少独立地由任何这样的干预调节,其中特定的干预可以影响许多基因。由于可以这样影响大量不同的基因,在这样的研究中理解基因之间的因果关系是很难的。因此,正在花费大量的努力来开发用于确定基因之间的因果关系、哪些基因是生物现象的中心以及哪个(些)基因的表达对于研究中的生物过程非重要的方法。虽然这些非重要基因表达作为生物或病理生理状态的标记可能是有用的,但如果这样的基因对于生理或病理生理状态是不重要的,也可能不值得努力来开发基于这样的基因的药物。相反,对于那些识别为对过程来说是中心的基因,对于与已改变的基因表达相关的状态,开发药物或其他干预可能对于开发治疗方法是至关重要的。
用于从微阵列基因表达数据中估算基因网络的贝叶斯网络分析的开发已经引起了广泛关注,并且已经报告了许多成功的研究(Friedman et al[13];Imoto et al[14];Pe’er et al[18]以及我们自己的成果[作为参考完全结合在这里的美国专利申请号:10/259723])。
然而,传统的贝叶斯网络模型的缺点是它们不能构造循环网络,而确定的真实基因调节机制具有循环部分。近来,已经提出了用于构造具有循环调节部分的基因网络的动态贝叶斯网络模型(Bilmes et a.[3];Friedman et al[12];Someren et al[19])。动态贝叶斯网络基于时间序列数据,并且数据通常可以离散(discritized)为几类。因此,动态网络模型可以依赖于用于离散过程的阈值的设置,并且不幸的是该离散化将导致信息丢失。Imoto et al.[14,15]提出基于贝叶斯网络和非线性回归的网络估算方法以便解避免离散化,捕捉基因间的非线性关系。然而,贝叶斯网络和非参数回归模型[14,15]不能充分解决具有循环调节部分的网络。
发明内容
在特定实施例中,本发明包括在具有非参数回归的贝叶斯网络模型中使用时间序列表达数据。利用时间序列表达数据,我们可以识别循环调节部分。在其他实施例中,可以将时间延迟信息合并到贝叶斯/非线性回归模型中,然后这种模型甚至可以提取基因之间的非线性关系。在确定的这些实施例中,可以使用常微分方程作为替代。从贝叶斯统计观点看,我们也已经开发了用于选择最佳网络的新标准。这样的标准可以基于具有噪声的数据优化网络结构。
附图说明
通过结合附图对本发明的优选实施例进行详细描述,本发明的上述目的和优点将会变得更加清楚,其中:
图1描述基因表达的时间动态的示意说明;
图2a和2b描述以KEGG编译的、包含在酵母中的细胞周期调节的基因的网络关系的图表;
图2a描述在循环依赖的蛋白质激酶路径(cyclin-dependent protein kinasepathway)中的基因;
图2b描述图2a中描述的、包含在调节的循环依赖的蛋白质激酶中的基因之间的网络关系;
图3a-3c描述包含在新陈代谢路径中的酵母基因的网络关系的图表。
图3a描述包含在新陈代谢路径中的几个基因;
图3b描述从贝叶斯/非参数回归模型中导出的、在图3a中描述的基因之间的网络关系;以及
图3c描述从动态贝叶斯/非参数回归模型中导出的、在图3a中描述的基因之间的网络关系。
具体实施方式
通常,使用任意适合的、用于确定基因表达的方法可以获得动态贝叶斯网络模型。在特定实施例中,由于可以根据应用到阵列的单个样本研究大量的基因,因此期望微阵列实验,使得很容易确定基因表达中的相对差异。可以期望通过从反映真实基因表达的信号减去背景信号,和/或纠正用于度量基因表达(如cy3/cy5)的标签中的内在差异,来改善微阵列方法的精确度。
我们利用贝叶斯网络框架,将基因考虑为随机变量,并将联合概率分解为条件概率的乘积。例如,如果我们有一系列随机向量的观测,则可以表示获得给定观测的概率可以依赖于条件概率密度。在确定实施例中,可以使用非参数回归模型来捕捉变量间的关系。可以使用各种图形工具来说明这些关系。例如,可以使用多项式、傅立叶级数、回归样条基、B样条基、小波基等来定义基因关系的图形。在美国专利申请序列号10/259723中公开了说明网络关系的确定方法,将其援引于此以供参考。选择合适的图形的困难之处在于合适地评估***中的方差和噪声。
在本发明的一些实施例中,可以使用具有非参数回归的贝叶斯估算构造网络,其中贝叶斯估算使用来自时间序列研究的数据。在许多基因网络中,干预导致某些基因的表达在观察到其它基因改变之前发生改变。可以推断在时间上后发生的干预后的某些基因表达可能与其表达是早期的基因因果地相关。时间序列信息有助于定义“早期”或基因和“后期”或基因。后期基因的表达的改变不太可能是其基因比后期基因在时间上改变得更早的早期基因的表达的改变的起因。虽然该假定不能应用到所有情况中,但是很有可能的是,在网络中早期基因比后期基因更可能是“上游”的,而后期基因更可能是“下游”基因。因此,基因表达的时间关系可以有助于改进贝叶斯估算和非参数回归来提供可靠的网络解。
在本发明的方面中,我们将贝叶斯网络和非参数回归模型扩展为动态贝叶斯网络模型,当具有时间序列基因表达数据时,该模型可以用来构造循环关系。关于基因表达的变化之间的时间延迟的信息可以轻易包括在模型中,并且该模型甚至可以轻易提取非线性关系。
在某些实施例中,为了构造具有循环调节部分的基因网络,可以使用常微分方程模型(Chen et al.[5];de Hoon et al.[8])。然而,该模型基于线性***,并且可能不适合捕捉复杂的现象。从贝叶斯统计的观点看来,我们已经获得了用于选择最佳网络的新标准。该标准可以优化网络结构,其给出了由具有噪声的数据描述的基因交互的最佳表达。新标准在这里用术语BNRCdynamic表示。
如图1所示,可以使用一阶马尔可夫关系评估BNRCdynamic。在这样的关系中,上游基因Xi被描述为对一个或多个下游基因X2具有影响(右箭头),X2对X3有影响(未示出)等,直到在Xn上观察到影响。在其中X1不具有其自己的“上游”基因的情况中,在网络中X1称为“父”基因。受父基因影响的基因称为“目标”基因。应当注意的是,在本上下文中使用的“目标基因”不应与作为关于诸如由潜在的药物之类的干预的对象的基因相混淆。实际上,父基因可以是用于治疗干预的对象。在这种方案中,直到已经引出对X1、X2等的影响为止,不能观察到对Xn的影响。应当注意的是,图1图解了“串行(series)”因/果关系,而不存在并行或反馈***,但是在许多基因***中存在串行影响和“并行”影响,其中两个或多个基因可以由上游基因影响,和/或它们可以影响下游基因。此外,可以存在循环影响(“反馈”),其中Xa可以影响另一个基因Xb,Xb可以影响Xc,而Xc自己可以影响Xa(或Xb)。此外,这样的反馈可以是其中Xc刺激Xa的正反馈,或者是其中Xc抑制Xa的负反馈。在串行、并行、正反馈和负反馈都存在的情况中出现更进一步的复杂度。
通常,时间点之间的关系可能是任意的,但是在一些情况下,基于研究中的基因的生物影响的知识和它们的表达动态,来使用预选的时间点是有利的。在一阶状态下,联合概率可以分解为下面的例1中的方程(1)那样。然后,利用例1中的方程(2),可以将条件概率分解为条件概率的乘积。方程(1)和(2)可以成立,并且密度函数可以使用概率测度替代。因此,例如根据例1的方程(3),使用在例1中描述的密度可以表示动态贝叶斯网络,从而得出基因及其父基因的本地网络结构。
例如,如例2所述,可以应用具有非参数回归的动态贝叶斯模型。一旦收集到实验数据,网络的求解可以当作统计模型选择问题。在确定实施例中,我们可以使用贝叶斯方法解决该问题,并导出用于评估动态贝叶斯网络和非参数回归方法的好处的标准。假设可以根据例2中方程(4)确定先验分布(priordistribution)、边际似然性(marginal likelihood)和后验概率。如方程(4)所述,基因网络的后续构造包含高次积分计算。在一些实施例中,例如可以使用积分的拉普拉斯方法来近似该积分。因此,可以求解在例2中的方程(5)所示的标准BRNCdynamic
为了将BRNCdynamic应用到实验***,例如,可以在影响基因***之后在许多时间点上实验地获得cDNA微阵列数据。为了平滑曲线,我们可以使用样条函数,如在例3中描述的B样条。可以根据例3的方程(6)分解BRNCdynamic。当最小化BRNCdynamic时获得最佳网络关系。
利用具有非参数回归的动态贝叶斯网络模型和标准BRNCdynamic,我们可以阐述网络学习过程。然而,当考虑所有可能的基因组合和关系时,确定哪些基因是父基因和哪些是目标基因是非常耗时的。为了降低所需的分析量,我们可以选择候选父基因。然后可以使用贪婪登山(greedy hill-clibming)算法。计算BRNCdynamic然后添加或删除额外的父基因,并且根据例3的步骤2重新评估BRNCdyamic。重复这些处理直到找到合适的收敛性。然后,置换计算顺序并重新评估BRNCdynamic。最佳网络提供最小的BRNCdynamic
在图2a和2b中的例4中显示了以上方法的特别说明。通过来自Saccharomyces cerevisiae的基因表达数据的分析,显示这些方法的效率。图2a描述了涉及细胞周期调节的一组S.cerevisiae基因。这些基因根据所包含的整体新陈代谢路径编组进行描述,并且集中在循环依赖蛋白质激酶基因(YBR160w)。应当注意的是,基于图2a,父/目标基因网络关系是未知的。相反,使用本发明的方法,可以在图2b中评估并描述那些基因的网络关系。
在图3a-3c中描述了另一个例子,图3a描述包含在新陈代谢路径中的基因。图3a没有示出基因网络关系。图3b描述使用具有非参数回归的贝叶斯网络分析获得的网络解,但是不考虑BRNCdynamic。图3c描述通过最小化BRNCdynamic获得的网络解。应当注意的是,在图3b中,网络关系更简单,并且与图3b描述的那些相比,存在更少假阳性关系(fewer false positiverelationships)(“x”)。
使用本领域中已知的方法例如自举(bootstrap)算法可以确定网络中基因组之间的边界。这样的方法包括使用下列步骤确定边缘的强度:
(1)通过从原始基因库表达数据随机地以移位方式采样多次,以提供自举基因表达矩阵;
(2)对基因genei和基因genej估算基因网络;
(3)重复步骤(1)和(2)T次,由此产生T个基因网络;及
(4)计算基因genei和基因genej之间的自举边缘强度为(t1+t2)/T。
与诸如贝叶斯或布尔网络之类的其它估算方法相比,新方法的优点包括:(1)可以容易地结合时间信息;(2)不需要诸如离散化的额外数据预处理,可以将微阵列数据作为连续数据分析;和(3)发现更少的假阳性关系。甚至可以由本发明实施例检测并模拟非线性关系。本发明的方法有助于分析基因网络,并有助于开发把控制重要基因的基因表达的特定基因作为目标的新药物。
在下面的例子中描述本发明的其它方面。
例子
下面列出的例子代表本发明的特定实施例。不需要不适当的实验,通过本领域普通技术人员可以开发本发明的其它方面。所有这些实施例被认为是本发明的一部分。
例1:贝叶斯网络和非线性回归
假设我们有n×p微阵列基因表达数据矩阵X,其中n和p分别是微阵列和基因的数量。通常,基因的数量p远远大于微阵列的数量n。在基于贝叶斯网络的基因网络估算中,将基因当作随机变量。当我们通过使用由密度或概率函数描述的统计模型模拟基因网络时,统计模型应当包括p个随机变量。然而,我们仅有n个采样,并且n通常远远小于p。在这种情况下,由于模型具有许多参数而且采样的数量不够估算这些参数,该模式的推断是非常困难或者是不可能的。已经在这样的模拟中建议贝叶斯模型。
在动态贝叶斯网络的上下文中,我们考虑时间序列数据,并且X的第i列向量xi对应于p个基因在时间i上的状态。至于时间依赖性,我们考虑图1中描述的一阶马尔可夫关系。在这种条件下,联合概率可以被分解如下:
P(X11,...,Xnp)=P(X1)P(X2|X1)×…×P(Xn|Xn-1),      (1)
其中Xi=(Xi1,...,Xip)是在时间i的p个基因的随机变量向量。随机概率P(Xi|Xi-1)也可以分解为条件概率的乘积,其格式为:
P(Xi|Xi-1)=P(Xi1|Pi-1,1)×…×P(Xip|Pi-1,p),       (2)
其中,Pi-1,j是在时间i-1的第j基因的父基因的状态向量。当我们使用密度函数而不是概率测度时,方程(1)和(2)仍成立。因此,动态贝叶斯网络可以通过使用密度表示如下:
f ( x i 1 , . . . , x np ) = f 1 ( x 1 ) f 2 ( x 2 | x 1 ) × · · · × f n ( x n | x n - 1 )
= f 1 ( x 1 ) Π i = 2 n g 1 ( x i 1 | p i - 1,1 ) × · · · × g p ( x ip | p i - 1 , p )
= f 1 ( x 1 ) Π j = 1 p { Π i = 2 n g j ( x ij | p i - 1 , f ) } .
这里我们具有来自(2)的分解
fi(Xi|Xi-1)=g1(Xi1|Pi-1,1)×…×gp(Xip|Pi-1,p),
其中 P i - 1 , j = ( p i - 1,1 ( j ) , . . . . p i - 1 , q j ( j ) ) 是父基因的qj维观察向量。
为了模拟在xij和Pi-1,j之间的关系,我们使用如下非参数加法回归:
x ij = m j 1 ( p i - 1,1 ( j ) ) + · · · + m j q j ( p i - 1 , q j ( j ) ) + ϵ ij ,
其中εij通常独立正常地依赖于均值0和方差σj 2。这里mjk(·)是从R到R的光滑函数,并且可以通过使用基本函数的线性组合表示为
m jk ( p i - 1 , k ( j ) ) = Σ m = 1 M jk γ mk ( j ) b mk ( j ) ( p i - 1 , k ( j ) ) , k = 1 , . . . , q j ,
其中
Figure A20038010362600127
是未知系数参数,并且
Figure A20038010362600128
是规定的基本函数组。然后,我们定义动态贝叶斯网络和非参数回归的形式为
f ( x 11 , . . . , x np ; θ G )
f 1 ( x 1 ) Π j = 1 p [ Π i = 2 n 1 2 πσ j 2 exp { - ( x ij - μ ( p i - 1 , j ) ) 2 2 σ j 2 } ] ,
其中 μ ( p i - 1 , j ) = m j 1 ( p i - 1,1 ( j ) ) + . . . + m jq j ( p i - 1 , q j ( j ) ) . 当第j基因没有父基因时,μ(pi-1,j)产生常数μj
我们假设f1(x1)=g1(x11)×...×g1(x1p),那么联合密度f(X11,...Xnp;θG)可以重写为
f ( x 11 , . . . , x np ; θ G ) = Π j = 1 P [ g 1 ( x ij ) Π i = 2 n 1 2 πσ j 2 exp { - ( x ij - μ ( p i - 1 , j ) ) 2 2 σ j 2 } ]
= Π j = 1 p Π i = 1 n g j ( x ij | p i - 1 , j ; θ j ) , - - - ( 3 )
其中 p 0 j = φ . 因此,gj(Xij|Pi-1,j;θj)表示第j基因和其父基因的本地结构。
例2:获得用于选择网络的标准
当我们固定网络结构时,可以构造在前一节引入的动态贝叶斯网络和非参数回归模型,并且由合适的过程进行估算。然而,基因网络通常是未知的,并且我们应该根据数据估算最佳网络。这个问题可以看作是统计模型选择问题(见Akaike[1];Konishi and Kitagawa[17];Burnham and Anderson[4];Konishi[16])。我们从贝叶斯统计方法解决该问题,并获得用于评估动态贝叶斯网络和非参数回归模型的好处的标准。
假设在动态贝叶斯网络和非参数回归模型中π(θG|λ)为关于θG参数的先验分布,并且假设π(θG|λ)=O(n)。该边际似然性可以表示为
∫f(X11,...,XnpG)π(θG|λ)dθG.
因此,当给定数据时,网络G的后验概率是
π post ( G | X ) π prior ( G ) ∫ f ( x 11 , . . . , x np ; θ G ) π ( θ G | λ ) d θ G Σ G { π prior ( G ) ∫ f ( x 11 , . . . , x np ; θ G ) π ( θ G | λ ) d θ G } , - - - ( 4 )
其中πprior(G)是网络G的先验概率。方程(4)的分母与模型评估无关。因此网络的评估依赖于分子的大小。因此,我们可以作为下式的最大值选择最佳网络πprior(G)∫f(x11,...,xnp;θG)π(θG|λ)dθG.
非常清楚的是,构造网络选择标准的基本点是怎样计算高次积分。Imotoet al.[14 15]使用用于积分的拉普拉斯近似(同样见Tinerey and Kadane[21];Davison[6]),并且我们可以将该技术直接应用到动态贝叶斯网络模型和非参数回归中。因此,我们拥有一个标准即所谓BRNCdynamic,其形式为
BNRC dynamic ( G )
= - 2 log { π prior ( G ) ∫ f ( x 11 , . . . , x np ; θ G ) π ( θ G | λ ) dθ G }
≈ - 2 log π prior ( G ) - r log ( 2 π / n ) + log | J λ ( θ ^ G ) | - 2 nl λ ( θ ^ G | X n ) . - - - ( 5 )
其中r是θG的维数
l λ ( θ G | X n ) = log f ( x 11 , . . . , x np ; θ G ) / n + log π ( θ G | λ ) / n ,
J λ ( θ G ) = - ∂ 2 { l λ ( θ G | X n ) } / ∂ θ G ∂ θ G T
并且 是lλG|Xn)。选择最佳图形使得标准BRNCdynamic(5)最小。
例3:基因网络的估算
在这一节中,我们示出用于从cDNA微阵列时间序列基因表达数据中估算基因网络的具体策略。
3.1非线性回归
我们使用基本函数方法来构造第2节中描述的光滑函数mjk(·)。在本文中我们使用B-样条(de Boor[7])作为基本函数。De Boor的算法(de Boor[7],第10章,130页(3))是用于计算任意阶B-样条的有用方法。我们使用20个具有等距节点(knot)的B-样条(同样见Dierckx[10];Eilter and Marx[11]来得到B-样条的详细内容)。
3.2关于模型中参数的先验分布
对于参数θG的先验分布,假设参数向量θj是相互独立的,那么先验分布可以分解为 π j ( θ G | λ ) = Π j = 1 p π j ( θ j | λ j ) . 假设先验分布πjjj)被因式分解为 π j ( θ j | λ j ) = Π j = 1 q j π jk ( γ jk | λ jk ) , 其中λjk是多下标(hyper)参数。我们使用奇异Mjk变量正态分布作为γjk的先验分布,
π jk ( γ jk | λ jk ) = ( 2 π nλ jk ) - ( M jk - 2 ) / 2 | K jk | + 1 / 2 exp ( - nλ jk 2 γ jk T K jk γ jk ) ,
其中Kjk是满足 γ jk T K jk γ jk = Σ α = 3 M jk ( γ αk ( j ) - 2 γ α - 1 , k ( j ) + γ α - 2 , k ( j ) ) 2 的Mjk×Mjk对称半正定矩阵。关于θG的该先验分布的这种设置与Imoto et al.[14,15]相同,并且详细内容存在于那些文章中。
3.3建议的标准
通过使用在笫4.2节中描述的先验分布,BRNCdynamic可以分解为如下:
BNRC dynamic = Σ j = 1 p BNRC dynamic ( j ) , - - - ( 6 )
其中BRNCdynamic (j)是第j基因的标准分数,并且由下式定义
BNRC dynamic ( j )
= - 2 log { ∫ π prior ( L j ) Π i = 1 n g j ( x ij | p i - 1 , j ; θ j ) π j ( θ j | λ j ) dθ j }
≈ - 2 log π prior ( L j ) - r j log ( 2 π / n ) + log | J λ j ( j ) ( θ ^ j ) | - 2 nl λ j ( j ) ( θ ^ j | X ) ,
其中rj是θj的维数,
l λ j ( j ) ( θ ^ j | X ) = Σ i = 1 n log g h ( x ij | p i - 1 , j ; θ j ) / n + log π ( θ j | λ j ) / n ,
J λ j ( j ) ( θ ^ j ) = - ∂ 2 { l λ j ( j ) ( θ ^ j | X ) } / ∂ θ j ∂ θ j T
并且
Figure A20038010362600157
是lλj (j)j|X)的模。这里πprior(Li)是满足 Σ j = 1 p log π prior ( L j ) = log π prior ( G ) 的先验概率。我们设置本地结构的先验概率πprior(Lj) 为
Figure A20038010362600159
Figure A200380103626001510
通过使用动态贝叶斯网络和非线性回归模型以及建议的标准BNRCdynamic,我们可以阐明网络学习过程如下:从(3)和(6)很清楚地得出,网络结构的优化等效于调节目标基因的父基因的选择。然而当考虑多有基因组合作为父基因时,这是个耗时的任务。因此,我们通过选择候选父基因来消减学习空间。在这个步骤之后,采用贪婪登山算法来找出更好的网络。我们的算法可以表示为如下步骤:
步骤1:预处理阶段
我们生成其第(i,j)元素是图形“genei→genej”的BNRC分数的p×p矩阵,并且定义给出小BNRC分数的genej的父基因的候选组。我们设置父基因10的候选组的元素数。
步骤2:学习阶段
对于贪婪登山算法,我们从空网络开始并且重复下面的步骤:
步骤2-1:对于genei,实现添加父基因,删除父基因两个过程之一,所述父基因给出较小BNRCdynamic分数。
步骤2-2:对基因的规定的计算顺序,重复步骤2-1直到满足合适的收敛标准。
步骤2-9:置换计算顺序来找出更好的解并重复步骤2-1和2-2。
步骤2-4:我们选择给出最小BNRCdynamic分数的最佳网络。
例4:计算实验
我们通过对由Spellman et al.[20]收集的Saccharomyces cerevisiae细胞周期基因表达数据的分析,演示了本发明的一个实施例。该数据包括两个短时间序列(两个时间点;cln3、clb2)和四个中型时间序列(18、24、17和14个时间点;alpha、cdc15、cdc28和elu)。在基因网络的估算中,我们使用四个中型时间序列。为了合并四个中型时间序列,当我们拟合非参数回归模型时,忽略关于每时间序列中的目标基因的第一观察和父基因的最后一观察。
首先,我们关注汇编在KEGG数据库[22]中的细胞周期路径。目标网络在环绕CDC28(YBR16Ow;循环依赖蛋白质激酶)。该网络包含45个基因,并且登记在KEGG中的路径如图2(a)所示,以及估算的网络在图2(b)中。虚圆中的边缘可以当作是正确的边缘。因此,我们模拟了一些正确的关系。我们通过与边缘相邻的圆表示正确的估算。三角形表示正确方向的反向或跳过。“x”符号表示不正确的关系。
用于演示我们的方法的第二个例子是由DeRisi et al.[9]报告的新陈代谢路径。该网络包含57个基因,并且在图3(a)中示出了目标路径。
我们将贝叶斯网络和非参数回归模型[14,15]应用到该数据,并在图3(b)中描述的产生的网络。通过动态贝叶斯网络和非参数回归模型获得了图3(c)的网络。很难从cDNA微阵列数据中估算新陈代谢路径。然而,我们的模型检测到了基因间的正确关系。与贝叶斯网络和非参数回归相比,在图3(c)中描述的该方法的假阳性(false positive)的数量远远小于在图3(b)中由“x”符号表示的假阳性的数量。
所有在这里引用的参考文献作为其整体合并在此。
参考文献:
1.Akaike,J.:Information theory and an extension of the maximumlikelihood principle.In:Petrov,B.N.,Csaki,F.(eds.):2nd InternationalSymposium on Information Theory.Akademiai Kiado,Budapest pp:267-281(1973).
2.Berger,J.O.:Statistical Decision theory and Bayesian analysis.Springer-Verlag New York(1985).
3.Bihnes,J.A.:Dynamic Bayesian multinets.Proc.16th Conference onUncertainty in Artificialhitelligence.pp:38-45(2000).
4.Burnham,K.P.,Anderson,D.R.:Model selection and inference,apractical information-theoretical approach.Springer-Verlag New York(1988).
5.Chen,Tl.,He,H.L.,Church,G.M.:Modeling gene expression withdifferential equations.Proc.Pacific Symposium on Biocomputing 4:29-40(1999).
6.Davison,A.C.:Approximate predictive likelihood.Biometrika 73:323-332(1986).
7.DeBoor,C.:A pracitial guide to splines.Springer-Verlag Berlin(1978).
8.De Hoon,M.J.L.,Imoto,S.,Kobayashi,K.,Ogasawara,NH.,Miyano,S.:Inferring gene regulatory networks from time-ordered gene expression data ofBacillus subtilis using differential equations.Proc.Pacific Symposium onBiocomputing 8:2003,in press.
9.DeRisi,J.,Lyer,V.R.,Brown,P.O.:Exploring the metabolic and genecontrol of gene expression on a genonmic scale.Science 278:680-686(1997).
10.Dierckx,P.:Curve and surface fitting with splines.Oxford(1993).
11.Eiler,P.H.C.,Marx,B.:Flexible smoothing with B-splines and penalites(with discussion).Statistical Science 11:89-121(1996).
12.Friedman,N.,Murphy,K..,Russell,S.:Learning the structure ofdynamic probabilistic networks.Proc.Conf.On Uncertainty inArtificialkgtelligence pp:139-147(1998).
13.Firedman,N.,Linial,Ml,Nachman,I.,Pe′er,D.:Using Bayesian networkto analyze expression data.J.Comp.Biol.7:601-620(2000).
14.Imoto,S.,Goto,T.,Miyano,Sl.:Estimationof gnetic networks andfunctional structures between genes by using Bayesian network and noparametricregression.Proc.Pacific Symposium on Biocomputing 7:175-186(2002).
15.Imoto,S.,Kim,S.,Goto,T.,Aburatani,S.,Tashiro,K.,Kuhara,S.,Mjiyano,S.:Bayesian network and nonparametric heteroscedastic regression fornonlinear modeling of genetic network.Proc.IEEE Computer SocietyBioinformatics Conference;PP:219-227(2002).
16.Konishi,S.:Statistical model evaluation and information criteria.In:Ghosh,S.(ed.).Multivariate Analysis,Design of Experiments and SurveySampling.Marcel Dekker,New York,pp:369-399(1999).
17.Konishi,S.,Kitagawa,G.:Generalized information criteria in modelselection.Biometrika 83:875-890(1996).
18.Pe′er,D.,Regev,A.,Elidan,G.,Friedman,N.:Inferring subnetworksfrom perturbed expression profiles.Bioinformatics 17:215-224(ISBM 2001).
19.Someren,E.V.,Wessels,L.,Reinders,M.:Linear modeling of geneticnetworks from experimental data.Bioinformatics 18:355-366(ISBM 2002).
20.Spellman,P.T.,Sherlock,G.,Zhang,M.Q.,Iyer,V.R.,Anders,K.,Eisen,M.B.,Brown,P.O.,Botstein,D.,Futcher,B.:Comprehensive identification ofcell cycle-regulated genes of the yeastSaccharofnyces ceyvisiae by microarrayhybridization.Molecular Biology of the Cell 9:3273-3297(1998).
21.Tinerey,L.,Kadane,J.B.:Accurate approximations for posterior momentsand marginal densities.J.Amer.Statist.Assoc.81:82-86(1986).

Claims (44)

1.一种用于构造基因网络的方法,包括步骤:
(a)为有机体的基因组提供定量时间过程数据库,所述库包括基于所述基因组中的每个基因的表达的时间过程的表达结果,量化平均影响和关于所述基因相互之间的每个时间点的可变性的度量;
(b)根据所述库创建基因表达矩阵;
(c)产生所述基因之间的网络关系;和
(d)确定一个或多个基因组是否与其它所述基因组不同地被表达。
2.如权利要求1所述的方法,还包括步骤:
(e)提供贝叶斯计算模型,其中所述贝叶斯模型包括最小化BNRCdynamic标准。
3.如权利要求2所述的方法,其中最小化BNRCdynamic标准的所述步骤包括使用从由多项式基、傅立叶级数、小波基、回归样条基和B-样条组成的组中所选择的非线性曲线拟合方法。
4.如权利要求1所述的方法,其中使用时间过程研究创建所述数据库来改变基因表达。
5.如权利要求2所述的方法,其中最小化所述BNRCdynamic标准的所述步骤还包括使用向后拟合算法选择贝叶斯模型。
6.如权利要求2所述的方法,其中最小化BNRCdynamic标准的所述步骤还包括使用Akaike的信息标准。
7.如权利要求2所述的方法,其中最小化BNRCdynamic标准的所述步骤还包括使用最大似然估算。
8.如权利要求1所述的方法,其中所述基因与细胞周期相关。
9.如权利要求2所述的方法,其中所述可变性度量是方差。
10.如权利要求3所述的方法,其中所述非线性曲线拟合方法是非参数方法。
11.如权利要求10所述的方法,其中用于最小化BNRCdynamic标准的所述非参数方法包括使用非均匀误差方差(heterogeneous error variance)。
12.如权利要求11所述的方法,其中最小化BNRCdynamic标准的所述步骤还包括步骤:
(1)产生其第(i,j)元素是图形genei→genej的BNRCdynamic j分数的分数矩阵;
(2)实现提供最小BNRCdynamic的添加、删除和反向之一或多个;和
(3)重复步骤2直到BNRCdynamic不再减少。
13.如权利要求11所述的方法,其中最小化BNRCdynamic标准的所述步骤还包括应用登山算法来最小化 的步骤。
14.如权利要求11所述的方法,其中使用自举方法确定边缘强度。
15.如权利要求14所述的方法,其中所述自举方法包括步骤:
(1)从原始基因库表达数据中,通过移位地、多次随机采样来提供自举基因表达矩阵;
(2)为genei和genej估算基因网络;
(3)重复步骤(1)和(2)T次,由此产生T个基因网络;和
(4)计算genei和genej之间的自举边缘强度,作为(t1+t2)/T。
16.一种用于说明基因网络的方法,包括步骤:
(a)为有机体的多个基因提供时间过程基因表达数据的原始数据库;
(b)从所述原始数据库中减去背景信号强度;
(c)为所述多个基因的每个计算基因表达的相对变化;
(d)使用学生t-检验分析基因表达中所述相对变化的统计显著性;和
(e)将基因表达中的所述变化拟合为线性样条函数。
17.如权利要求16所述的方法,还包括从考虑中移除那些其表达级别足够低以至于主要由噪声确定的基因。
18.如权利要求1所述的方法,包括将所述基因编组为一个或更多等效组。
19.一种用于估算基因网络关系的方法,包括步骤:
(1)产生其第(i,j)元素是图形genei→genej的BNRC分数的p×p矩阵;
(2)选择给出小BNRC分数的genej的父基因的候选组;
(3)选择所述父基因的计算顺序;
(4)重复下面的步骤;
(4.1)对于genej,添加父基因或删除父基因;
(4.2)重新计算BNRCdynamic分数;
(4.3)重复步骤3.1和3.2直到满足合适的收敛;
(5)置换步骤(3)中的所述父基因的计算顺序;
(6)重复步骤(4);和
(7)重复步骤(5)和(6)直到最小化BNRCdynamic
20.一种用于根据时间过程基因表达数据构造包含基因网络的***的基因网络模型的方法,所述方法包括使用贝叶斯计算模型,其中所述贝叶斯计算模型包括最小化BNRCdynamic标准。
21.如权利要求20所述的方法,其中最小化BNRCdynamic标准的所述步骤包括使用从由多项式基、傅立叶级数、小波基、回归样条基和B-样条组成的组中选择的非线性曲线拟合方法。
22.如权利要求20所述的方法,其中最小化BNRCdynamic标准包括选择使用向后拟合算法的贝叶斯模型。
23.如权利要求20所述的方法,其中最小化BNRCdynamic标准包括使用Akaike的信息标准。
24.如权利要求20所述的方法,其中最小化BNRCdynamic标准包括使用最大似然估算。
25.如权利要求20所述的方法,其中最小化BNRCdynamic标准包括使用非线性曲线拟合方法,其中非线性曲线拟合方法是非参数方法。
26.如权利要求25所述的方法,其中非参数方法包括使用非均匀误差方差。
27.如权利要求26所述的方法,其中最小化BNRCdynamic标准还包括步骤:
(1)产生其第(i,j)元素是图形genei→genej分数的分数矩阵;
(2)实现提供最小BNRCdynamic的添加、删除和反向之一或多个;和
(3)重复步骤2直到BNRCdynamic不再减少。
28.如权利要求26所述的方法,其中最小化BNRCdynamic标准还包括应用登山算法来最小化 的步骤。
29.如权利要求26所述的方法,其中使用自举方法确定边缘强度。
30.如权利要求29所述的方法,其中所述自举方法包括步骤:
(1)从原始基因库表达数据中通过移位地多次随机采样来提供自举基因表达矩阵;
(2)为genei和genej估算基因网络;
(3)重复步骤(1)和(2)T次,由此产生T个基因网络;和
(4)计算genei和genej之间的自举边缘强度,作为(t1+t2)/T。
31.一种包括由权利要求20的方法构造的基因网络模型的数据文件。
32.如权利要求31所述的数据文件,其为计算机可读格式。
33.如权利要求31所述的数据文件,其可从远程位置访问。
34.如权利要求31所述的数据文件,其可从因特网万维网位置访问。
35.一种在包含基因网络的***中识别目标基因的方法,包括:
(a)使用贝叶斯计算模型来构造第一和第二基因网络模型,
其中所述贝叶斯计算模型包括最小化BNRCdynamic标准,其中通过分析第一基因表达文档获得第一基因网络模型,并通过分析第二基因表达文档获得第二基因网络模型,和
其中在第一时间点从***获得第一基因表达文档,并在所述第一时间点之后的第二时间点从***获得第二基因表达文档,和
(b)使用所述贝叶斯计算模型分析第一和第二基因网络模型,其中基因表达的时间过程被量化,并且父基因被识别为目标基因。
36.如权利要求35所述的方法,其中目标基因是父基因。
37.如权利要求35所述的方法,其中目标基因是父基因的下游基因。
38.一种包含根据权利要求35所述的方法获得的一个或多个目标基因的标识的数据文件。
39.如权利要求38所述的数据文件,其为计算机可读格式。
40.如权利要求38所述的数据文件,其可从远程位置访问。
41.如权利要求38所述的数据文件,其可从因特网万维网位置访问。
42.一种提供服务的方法,包括:
(1)从合作方接收数据组,所述数据组包括一组基因的时间过程表达数据,和
(2)通过最小化BNRCdynamic标准确定所述组中的基因之间的网络关系。
43.如权利要求42所述的方法,其中接收所述数据组包括接收所述基因的至少一个标识。
44.一种提供服务的方法,包括从合作方接收代理,并且使用根据权利要求35的方法构造的基因网络模型为合作方识别目标基因。
CN 200380103626 2002-11-19 2003-11-19 根据时间序列基因表达数据的基因网络的非线性模拟 Pending CN1714371A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US42744802P 2002-11-19 2002-11-19
US60/427,448 2002-11-19
US10/716,330 2003-11-18

Publications (1)

Publication Number Publication Date
CN1714371A true CN1714371A (zh) 2005-12-28

Family

ID=35719269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200380103626 Pending CN1714371A (zh) 2002-11-19 2003-11-19 根据时间序列基因表达数据的基因网络的非线性模拟

Country Status (1)

Country Link
CN (1) CN1714371A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN103501859A (zh) * 2011-03-02 2014-01-08 博格有限责任公司 基于细胞的探询式分析及其应用
CN101512567B (zh) * 2006-08-28 2015-04-22 皇家飞利浦电子股份有限公司 从确定性模型中导出概率模型的方法和装置
CN105893731A (zh) * 2015-01-19 2016-08-24 大道安康(北京)科技发展有限公司 一种基因健康网络表达测定体系的构建方法
US11734593B2 (en) 2014-09-11 2023-08-22 Bpgbio, Inc. Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101512567B (zh) * 2006-08-28 2015-04-22 皇家飞利浦电子股份有限公司 从确定性模型中导出概率模型的方法和装置
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN103501859A (zh) * 2011-03-02 2014-01-08 博格有限责任公司 基于细胞的探询式分析及其应用
CN103501859B (zh) * 2011-03-02 2017-08-25 博格有限责任公司 基于细胞的探询式分析及其应用
CN107273712A (zh) * 2011-03-02 2017-10-20 博格有限责任公司 基于细胞的探询式分析及其应用
US11456054B2 (en) 2011-03-02 2022-09-27 Berg Llc Interrogatory cell-based assays and uses thereof
US11734593B2 (en) 2014-09-11 2023-08-22 Bpgbio, Inc. Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data
CN105893731A (zh) * 2015-01-19 2016-08-24 大道安康(北京)科技发展有限公司 一种基因健康网络表达测定体系的构建方法

Similar Documents

Publication Publication Date Title
Camacho et al. Next-generation machine learning for biological networks
Liu et al. Inference of gene regulatory network based on local Bayesian networks
Valentini et al. An extensive analysis of disease-gene associations using network integration and fast kernel-based gene prioritization methods
Gao et al. KG-Predict: A knowledge graph computational framework for drug repurposing
Meyer et al. Advances in systems biology modeling: 10 years of crowdsourcing DREAM challenges
US20170193157A1 (en) Testing of Medicinal Drugs and Drug Combinations
Mohammadi et al. Automated design of synthetic cell classifier circuits using a two-step optimization strategy
Lagani et al. A comparative evaluation of data-merging and meta-analysis methods for reconstructing gene-gene interactions
Li et al. PSSP-RFE: accurate prediction of protein structural class by recursive feature extraction from PSI-BLAST profile, physical-chemical property and functional annotations
Kaur et al. Prediction of enhancers in DNA sequence data using a hybrid CNN-DLSTM model
Pirayre et al. BRANE Clust: Cluster-assisted gene regulatory network inference refinement
Habib et al. A novel Bayesian DNA motif comparison method for clustering and retrieval
Oellrich et al. Improving disease gene prioritization by comparing the semantic similarity of phenotypes in mice with those of human diseases
Chen et al. Learning and interpreting the gene regulatory grammar in a deep learning framework
CN1717585A (zh) 利用微分方程从时序基因表达数据推断基因调控网络
Zhao et al. Knowledge-guided statistical learning methods for analysis of high-dimensional-omics data in precision oncology
Belcastro et al. Reverse engineering and analysis of genome-wide gene regulatory networks from gene expression profiles using high-performance computing
Luo Shine: subhypergraph inductive neural network
CN1714371A (zh) 根据时间序列基因表达数据的基因网络的非线性模拟
Kuzmanovski et al. Extensive evaluation of the generalized relevance network approach to inferring gene regulatory networks
Tan et al. Influence of prior knowledge in constraint-based learning of gene regulatory networks
Abass et al. Deep learning methodologies for genomic data prediction
Li et al. Understanding sequence conservation with deep learning
Varnai et al. Improving protein-protein interaction prediction using evolutionary information from low-quality MSAs
Chen et al. A unified analysis of atlas single cell data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1084218

Country of ref document: HK

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1084218

Country of ref document: HK