CN106909805B - 基于多条代谢路径比对重建物种***发生树的方法 - Google Patents

基于多条代谢路径比对重建物种***发生树的方法 Download PDF

Info

Publication number
CN106909805B
CN106909805B CN201710116712.3A CN201710116712A CN106909805B CN 106909805 B CN106909805 B CN 106909805B CN 201710116712 A CN201710116712 A CN 201710116712A CN 106909805 B CN106909805 B CN 106909805B
Authority
CN
China
Prior art keywords
node
metabolic pathway
similarity
species
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710116712.3A
Other languages
English (en)
Other versions
CN106909805A (zh
Inventor
黄毅然
钟诚
林海翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN201710116712.3A priority Critical patent/CN106909805B/zh
Publication of CN106909805A publication Critical patent/CN106909805A/zh
Application granted granted Critical
Publication of CN106909805B publication Critical patent/CN106909805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physiology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于多条代谢路径比对重建物种***发生树的方法。通过多条代谢路径之间的全局比对来建立多代谢路径的合图,然后通过合图的节点聚类建立各代谢路径的功能模块之间的映射,并通过功能模块的映射来进一步分析代谢路径间的关系并建立物种间的***发生树。本发明的有益效果是:通过本方法的实施,简化了代谢路径的比对工作,研究人员只需要进行简单的操作就能够快速准确的生成物种间的***发生树。

Description

基于多条代谢路径比对重建物种***发生树的方法
技术领域
本方法涉及一种物种***发生树的生成方法。具体是基于多条代谢路径比对生成物种***发生树的方法。
背景技术
***发生分析是***生物学研究的一个重要领域,目前使用代谢数据来建立***发生树的方法主要通过代谢路径节点之间的映射来分析代谢路径之间的关系,并以这些关系对物种进行***发生分析。然而,节点之间的映射信息是有限的,仅通过节点映射信息难以更深入地挖掘代谢路径之间相互关系。
发明内容
本发明的目的在于:提供基于多条代谢路径比对建立物种间***发生树树的方法。
本发明解决上述技术问题的技术方案是:
基于多条代谢路径比对重建物种***发生树的方法,具体步骤如下:
1)多条代谢路径合图的建立:
1.1)节点相似度的计算:
对于代谢路径P,设Gp=(Vp,Ep)表示代谢路径P,其中Gp是一个有向图,Vp是Gp的顶点集,Ep是Gp的有向边集合,Gp中的顶点ui和uj表示P 中的反应ri和rj。如果ri的一个输出化合物是rj的一个输入化合物,那么ui和 uj之间存在一条从ri到rj的有向边,如果ri,rj都是可逆的,那么也存在一条从rj到ri的有向边。
k是正整数,对于图Gp中的任意节点u,定义u的k邻居集合:Nk(u),Nk(u) 是Vp的一个节点集合,其中u不属于Nk(u)并且对于任意x∈Nk(u)的节点,从u 到x的最短距离是k;其中最短距离定义为从u到x的最短路径边数。对于图 Gp’中的任意节点v,同理可以定义v的k邻居集合Nk(v)。
对于节点u∈Vp和节点v∈Vp′,在Gp里,u的k邻居子图表示为 定义为Gp在Nk(u)∪{u}里的导出子图。在Gp’里,v的k邻居子图表示为 定义为Gp’在Nk(v)∪{v}里的导出子图。设d(u)和d(v)分别是u,v在Gp和Gp’里的度。是邻居集合Nk(u)里按非升序排列的u的k邻居的节点度序列。是邻居集合Nk(v)里按非升序排列的v的 k邻居的节点度序列。定义节点u,v的拓扑相似度T(u,v)为:
定义节点u与节点v间的生化相似度: Bsim(u,v)=α×ESim(ue,ve)+β×Csim(ui,vi)+γ×Csim(uo,vo)。其中ue,ve分别是催化反应u,v的酶,ESim(ue,ve)是酶ue与酶ve之间的相似度,酶的相似度计算用酶 EC号的相交的比例作为他们之间的相似度。Csim(ui,vi)是节点u和节点v的输入化合物的平均相似度,Csim(uo,vo)是节点u和节点v的输出化合物的平均相似度。α,β,γ是比例系数,用来调节各个变量在Bsim(u,v)中的比例。综合节点的拓扑相似度和节点生化相似度,可以得到节点u,v间的节点相似度S(u,v)为:
S(u,v)=σ×T(u,v)+(1-σ)×Bsim(u,v) (2)
其中σ是比例系数,用来调节各个变量在S(u,v)中的比例。
1.2)根据节点相似度寻找节点之间的映射:
以Gp里的节点集作为带权二部图(Gb)的一个分割,以Gp′里的节点集作为二部图(Gb)的另一个分割,以Gp的节点与Gp′的节点间的同源相似度作为连接这两个分割的节点的边权重,用最大权重二部图匹配方法为Gp中的任意节点u在Gp′里找到它在Gp′里的唯一映射节点v,得到u到v的1对1映射(u,v), u∈V(Gp),v∈V(Gp′)。
1.3)两条代谢路径之间合图的建立:
将步骤1.2)得到的u到v的1对1映射(u,v)定义为合并点 Vm={(u,v)|u∈V(Gp),v∈V(Gp′)},并将这些合并点构成的图定义为合图GM
设Gp与Gp′的合图GM的顶点集是V(GM)={Vm1,Vm2,…,Vmi,…Vmn}, i∈{1,2,…,n},n=max{|V(Gp)|,|V(Gp′)|},我们也将V(GM)称为Gp和Gp′的合并点集。合并点之间的同源相似度的计算:
S(u,v)=α×Esim(ue,ve)+β×Csim(uic,vic)+γ×Csim(uoc,voc) (3)
通过(3)式分别计算合图GM中任意两个合并点间的同源相似度,可以得到合图GM的合并点同源相似矩阵M,M是一个|V(Gp)|×|V(Gp′)|矩阵,M中每个元素M[Vmi,Vmj]∈[0,1]表示合并点Vmi∈V(GM)与合并点Vmj∈V(GM)的同源相似度。
1.4)多条代谢路径之间合图以及对应合图的同源相似度矩阵的建立:
设t个物种的公共代谢路径分别是G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et),这些代谢路径构成集合G={G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et)}。
建立这些物种的公共代谢路径之间的合图的具体步骤如下:
1.4.1)首先从G中选出节点数最多的代谢路径Gmax,|V(Gmax)|=n,然后用 Gmax分别与G中每一个代谢路径Gi∈G建立一个合图GMi,合图GMi的顶点集是V(GMi)={Vm1i,Vm2i,…,Vmni},i∈{1,…,t}。于是,每建立一个合图GMi都会得到一个合并点同源相似矩阵Mi
1.4.2)把步骤1.4.1)得到的合图合并在一起,得到这t个物种的公共代谢路径的合图GMK,其中合图GMK的顶点集是合图GMK的合并点同源相似矩阵
2)保守功能模块的建立:
把步骤1.4)得到的合图中的每个合并点作为一个数据点,把合并点同源相似度矩阵作为数据点之间的相似度矩阵,对合并点进行聚类,聚类结果就是合图中被划分为一类的合并点集合,我们把这种合并点集合称为UM。对每条代谢路径而言,在每次比对中经过划分聚类后,由代谢路径中所有属于同一个 UM的节点组成的集合就是该代谢路径的一个保守功能模块。
3)物种相似度的计算:
设t个物种中的公共代谢路径分别表示为G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et)。在步骤2)中,这t个代谢路径中找到的保守功能模块是M={M1,M2,…,Mr},其中节点规模最大的保守功能模块是Mmax。对于任意两个代谢路径Gi(Vi,Ei) 和Gj(Vj,Ej),设它们的节点规模最大的保守功能模块分别为Mimax和Mjmax,其中Mimax和Mjmax的顶点集分别为Vimax和Vjmax,Mimax和Mjmax的边集分别为Eimax和Ejmax;设Mimax与Mjmax在Mimax中的LCCS为MiLCCS,MiLCCS的顶点集为ViLCCS,边集为EiLCCS,设Mimax与Mjmax在Mjmax中的LCCS为MjLCCS,MjLCCS的顶点集为VjLCCS,边集为EjLCCS。于是,代谢路径Gi(Vi,Ei)和Gj(Vj,Ej)之间的相似得分:
设t个物种分别为O1,O2,…,Ot,O1的p条公共代谢路径为G11,G12,…, G1p,O2的p条公共代谢路径为G21,G22,…,G2p,…,Ot的p条公共代谢路径为Gt1,Gt2,…,Gtp。于是,任意两个物种Oi和Oj间的相似度:
4)物种***发生树的建立:
具体步骤如下:
4.1)用(5)式计算这t个物种中任意两个物种之间的相似度,得到一个 t×t的相似度矩阵BSim。BSim是一个对角线元素为1的对称矩阵,BSim[i,j]∈[0,1] 表示物种i与物种j之间的相似度。
4.2)设这t个物种的距离矩阵为D,D[i,j]∈[0,1]表示物种i与物种j之间的距离,D[i,j]=1-BSim[i,j]。然后,用软件PHYLIP建立一个基于距离矩阵D 的***发生树。
4.3)用软件TreeView显示***发生树。
本发明的有益效果是:通过本方法的实施,研究人员只需要进行简单的操作就能够快速准确的生成物种间的***发生树;本方法将多物种多代谢路径全局比对的过程转化为建立多代谢路径合图的过程,简化了代谢路径的比对工作;本方法通过对合图中的节点聚类以找出各个代谢路径的功能模块,并建立功能模块之间的映射,功能模块的发现以及功能模块之间的映射可以帮助人们发现更多代谢路径共有的生化特性信息;本方法利用这些功能模块之间的映射建立了物种距离矩阵,利用物种距离矩阵建立***发生树,这样就可以利用***发生树来分析物种之间的进化关系。
具体实施方式
基于多条代谢路径比对重建物种***发生树的方法,具体步骤如下:
1)多条代谢路径合图的建立:
1.1)节点相似度的计算:
对于代谢路径P,设Gp=(Vp,Ep)表示代谢路径P,其中Gp是一个有向图,Vp是Gp的顶点集,Ep是Gp的有向边集合,Gp中的顶点ui和uj表示P 中的反应ri和rj。如果ri的一个输出化合物是rj的一个输入化合物,那么ui和 uj之间存在一条从ri到rj的有向边,如果ri,rj都是可逆的,那么也存在一条从rj到ri的有向边。
k是正整数,对于图Gp中的任意节点u,定义u的k邻居集合:Nk(u),Nk(u) 是Vp的一个节点集合,其中u不属于Nk(u)并且对于任意x∈Nk(u)的节点,从u 到x的最短距离是k;其中最短距离定义为从u到x的最短路径边数。对于图 Gp’中的任意节点v,同理可以定义v的k邻居集合Nk(v)。
对于节点u∈Vp和节点v∈Vp′,在Gp里,u的k邻居子图表示为 定义为Gp在Nk(u)∪{u}里的导出子图。在Gp’里,v的k邻居子图表示为 定义为Gp’在Nk(v)∪{v}里的导出子图。设d(u)和d(v)分别是u,v在Gp和Gp’里的度。是邻居集合Nk(u)里按非升序排列的u的k邻居的节点度序列。是邻居集合Nk(v)里按非升序排列的v的 k邻居的节点度序列。定义节点u,v的拓扑相似度T(u,v)为:
定义节点u与节点v间的生化相似度: Bsim(u,v)=α×ESim(ue,ve)+β×Csim(ui,vi)+γ×Csim(uo,vo)。其中ue,ve分别是催化反应u,v的酶,ESim(ue,ve)是酶ue与酶ve之间的相似度,酶的相似度计算用酶 EC号的相交的比例作为他们之间的相似度。Csim(ui,vi)是节点u和节点v的输入化合物的平均相似度,Csim(uo,vo)是节点u和节点v的输出化合物的平均相似度。α,β,γ是比例系数,用来调节各个变量在Bsim(u,v)中的比例。综合节点的拓扑相似度和节点生化相似度,可以得到节点u,v间的节点相似度S(u,v)为:
S(u,v)=σ×T(u,v)+(1-σ)×Bsim(u,v) (2)
其中σ是比例系数,用来调节各个变量在S(u,v)中的比例。
1.2)根据节点相似度寻找节点之间的映射:
以Gp里的节点集作为带权二部图(Gb)的一个分割,以Gp′里的节点集作为二部图(Gb)的另一个分割,以Gp的节点与Gp′的节点间的同源相似度作为连接这两个分割的节点的边权重,用最大权重二部图匹配方法为Gp中的任意节点u在Gp′里找到它在Gp′里的唯一映射节点v,得到u到v的1对1映射(u,v), u∈V(Gp),v∈V(Gp′)。
1.3)两条代谢路径之间合图的建立:
将步骤1.2)得到的u到v的1对1映射(u,v)定义为合并点 Vm={(u,v)|u∈V(Gp),v∈V(Gp′)},并将这些合并点构成的图定义为合图GM
设Gp与Gp′的合图GM的顶点集是V(GM)={Vm1,Vm2,…,Vmi,…Vmn},i∈{1,2,…,n},n=max{|V(Gp)|,|V(Gp′)|},我们也将V(GM)称为Gp和Gp′的合并点集。合并点之间的同源相似度的计算:
S(u,v)=α×Esim(ue,ve)+β×Csim(uic,vic)+γ×Csim(uoc,voc) (3)
通过(3)式分别计算合图GM中任意两个合并点间的同源相似度,可以得到合图GM的合并点同源相似矩阵M,M是一个|V(Gp)|×|V(Gp′)|矩阵,M中每个元素M[Vmi,Vmj]∈[0,1]表示合并点Vmi∈V(GM)与合并点Vmj∈V(GM)的同源相似度。
1.4)多条代谢路径之间合图以及对应合图的同源相似度矩阵的建立:
设t个物种的公共代谢路径分别是G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et),这些代谢路径构成集合G={G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et)}。
建立这些物种的公共代谢路径之间的合图的具体步骤如下:
1.4.1)首先从G中选出节点数最多的代谢路径Gmax,|V(Gmax)|=n,然后用 Gmax分别与G中每一个代谢路径Gi∈G建立一个合图GMi,合图GMi的顶点集是V(GMi)={Vm1i,Vm2i,…,Vmni},i∈{1,…,t}。于是,每建立一个合图GMi都会得到一个合并点同源相似矩阵Mi
1.4.2)把步骤1.4.1)得到的合图合并在一起,得到这t个物种的公共代谢路径的合图GMK,其中合图GMK的顶点集是合图GMK的合并点同源相似矩阵
2)保守功能模块的建立:
把步骤1.4)得到的合图中的每个合并点作为一个数据点,把合并点同源相似度矩阵作为数据点之间的相似度矩阵,对合并点进行聚类,聚类结果就是合图中被划分为一类的合并点集合,我们把这种合并点集合称为UM。对每条代谢路径而言,在每次比对中经过划分聚类后,由代谢路径中所有属于同一个 UM的节点组成的集合就是该代谢路径的一个保守功能模块。
3)物种相似度的计算:
设t个物种中的公共代谢路径分别表示为G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et)。在步骤2)中,这t个代谢路径中找到的保守功能模块是M={M1,M2,…,Mr},其中节点规模最大的保守功能模块是Mmax。对于任意两个代谢路径Gi(Vi,Ei) 和Gj(Vj,Ej),设它们的节点规模最大的保守功能模块分别为Mimax和Mjmax,其中Mimax和Mjmax的顶点集分别为Vimax和Vjmax,Mimax和Mjmax的边集分别为Eimax和Ejmax;设Mimax与Mjmax在Mimax中的LCCS为MiLCCS,MiLCCS的顶点集为ViLCCS,边集为EiLCCS,设Mimax与Mjmax在Mjmax中的LCCS为MjLCCS,MjLCCS的顶点集为VjLCCS,边集为EjLCCS。于是,代谢路径Gi(Vi,Ei)和Gj(Vj,Ej)之间的相似得分:
设t个物种分别为O1,O2,…,Ot,O1的p条公共代谢路径为G11,G12,…, G1p,O2的p条公共代谢路径为G21,G22,…,G2p,…,Ot的p条公共代谢路径为Gt1,Gt2,…,Gtp。于是,任意两个物种Oi和Oj间的相似度:
4)物种***发生树的建立:
具体步骤如下:
4.1)用(5)式计算这t个物种中任意两个物种之间的相似度,得到一个 t×t的相似度矩阵BSim。BSim是一个对角线元素为1的对称矩阵,BSim[i,j]∈[0,1] 表示物种i与物种j之间的相似度。
4.2)设这t个物种的距离矩阵为D,D[i,j]∈[0,1]表示物种i与物种j之间的距离,D[i,j]=1-BSim[i,j]。然后,用软件PHYLIP建立一个基于距离矩阵D 的***发生树。
4.3)用软件TreeView显示***发生树。

Claims (1)

1.基于多代谢路径比对重建物种***发生树的方法,具体步骤如下:
1)合图的建立:
1.1)节点相似度的计算:
对于代谢路径P,设Gp=(Vp,Ep)表示代谢路径P,其中Gp是一个有向图,Vp是Gp的顶点集,Ep是Gp的有向边集合,Gp中的顶点ui和uj表示P中的反应ri和rj,如果ri的一个输出化合物是rj的一个输入化合物,那么ui和uj之间存在一条从ri到rj的有向边,如果ri,rj都是可逆的,那么也存在一条从rj到ri的有向边;
k是正整数,对于图Gp中的任意节点u,定义u的k邻居集合:Nk(u),Nk(u)是Vp的一个节点集合,其中u不属于Nk(u)并且对于任意x∈Nk(u)的节点,从u到x的最短距离是k;其中最短距离定义为从u到x的最短路径边数,对于图Gp’中的任意节点v,同理可以定义v的k邻居集合Nk(v);
对于节点u∈Vp和节点v∈Vp′,在Gp里,u的k邻居子图表示为 定义为Gp在Nk(u)∪{u}里的导出子图,在Gp’里,v的k邻居子图表示为 定义为Gp’在Nk(v)∪{v}里的导出子图,设d(u)和d(v)分别是u,v在Gp和Gp’里的度;是邻居集合Nk(u)里按非升序排列的u的k邻居的节点度序列;是邻居集合Nk(v)里按非升序排列的v的k邻居的节点度序列,定义节点u,v的拓扑相似度T(u,v)为:
定义节点u与节点v间的生化相似度:Bsim(u,v)=α×ESim(ue,ve)+β×Csim(ui,vi)+γ×Csim(uo,vo),其中ue,ve分别是催化反应u,v的酶,ESim(ue,ve)是酶ue与酶ve之间的相似度,酶的相似度计算用酶EC号的相交的比例作为他们之间的相似度,Csim(ui,vi)是节点u和节点v的输入化合物的平均相似度,Csim(uo,vo)是节点u和节点v的输出化合物的平均相似度,α,β,γ是比例系数,用来调节各个变量在Bsim(u,v)中的比例,综合节点的拓扑相似度和节点生化相似度,可以得到节点u,v间的节点相似度S(u,v)为:
S(u,v)=σ×T(u,v)+(1-σ)×Bsim(u,v) (2)
其中σ是比例系数,用来调节各个变量在S(u,v)中的比例;
1.2)根据节点相似度寻找节点之间的映射:
以Gp里的节点集作为带权二部图(Gb)的一个分割,以Gp′里的节点集作为二部图(Gb)的另一个分割,以Gp的节点与Gp′的节点间的同源相似度作为连接这两个分割的节点的边权重,用最大权重二部图匹配方法为Gp中的任意节点u在Gp′里找到它在Gp′里的唯一映射节点v,得到u到v的1对1映射(u,v),u∈V(Gp),v∈V(Gp′);
1.3)两条代谢路径之间合图的建立:
将步骤1.2)得到的u到v的1对1映射(u,v)定义为合并点Vm={(u,v)|u∈V(Gp),v∈V(Gp′)},并将这些合并点构成的图定义为合图GM
设Gp与Gp′的合图GM的顶点集是V(GM)={Vm1,Vm2,…,Vmi,…Vmn},i∈{1,2,…,n},n=max{|V(Gp)|,|V(Gp′)|},我们也将V(GM)称为Gp和Gp′的合并点集,合并点之间的同源相似度的计算:
S(u,v)=α×Esim(ue,ve)+β×Csim(uic,vic)+γ×Csim(uoc,voc) (3)
通过(3)式分别计算合图GM中任意两个合并点间的同源相似度,可以得到合图GM的合并点同源相似矩阵M,M是一个|V(Gp)|×|V(Gp′)|矩阵,M中每个元素M[Vmi,Vmj]∈[0,1]表示合并点Vmi∈V(GM)与合并点Vmj∈V(GM)的同源相似度;
1.4)多条代谢路径之间合图以及对应合图的同源相似度矩阵的建立:
设t个物种的公共代谢路径分别是G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et),这些代谢路径构成集合G={G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et)};
建立这些物种的公共代谢路径之间的合图的具体步骤如下:
1.4.1)首先从G中选出节点数最多的代谢路径Gmax,|V(Gmax)|=n,然后用Gmax分别与G中每一个代谢路径Gi∈G建立一个合图GMi,合图GMi的顶点集是V(GMi)={Vm1i,Vm2i,…,Vmni},i∈{1,…,t},于是,每建立一个合图GMi都会得到一个合并点同源相似矩阵Mi
1.4.2)把步骤1.4.1)得到的合图合并在一起,得到这t个物种的公共代谢路径的合图GMK,其中合图GMK的顶点集是合图GMK的合并点同源相似矩阵
2)保守功能模块的建立:
把步骤1.4)得到的合图中的每个合并点作为一个数据点,把合并点同源相似度矩阵作为数据点之间的相似度矩阵,对合并点进行聚类,聚类结果就是合图中被划分为一类的合并点集合,我们把这种合并点集合称为UM,对每条代谢路径而言,在每次比对中经过划分聚类后,由代谢路径中所有属于同一个UM的节点组成的集合就是该代谢路径的一个保守功能模块;
3)物种相似度的计算:
设t个物种中的公共代谢路径分别表示为G1(V1,E1),G2(V2,E2),…,Gt(Vt,Et);在步骤2)中,这t个代谢路径中找到的保守功能模块是M={M1,M2,…,Mr},其中节点规模最大的保守功能模块是Mmax,对于任意两个代谢路径Gi(Vi,Ei)和Gj(Vj,Ej),设它们的节点规模最大的保守功能模块分别为Mimax和Mjmax,其中Mimax和Mjmax的顶点集分别为Vimax和Vjmax,Mimax和Mjmax的边集分别为Eimax和Ejmax;设Mimax与Mjmax在Mimax中的LCCS为MiLCCS,MiLCCS的顶点集为ViLCCS,边集为EiLCCS,设Mimax与Mjmax在Mjmax中的LCCS为MjLCCS,MjLCCS的顶点集为VjLCCS,边集为EjLCCS;于是,代谢路径Gi(Vi,Ei)和Gj(Vj,Ej)之间的相似得分:
设t个物种分别为O1,O2,…,Ot,O1的p条公共代谢路径为G11,G12,…,G1p,O2的p条公共代谢路径为G21,G22,…,G2p,…,Ot的p条公共代谢路径为Gt1,Gt2,…,Gtp,于是,任意两个物种Oi和Oj间的相似度:
4)物种***发生树的建立:
具体步骤如下:
4.1)用(5)式计算这t个物种中任意两个物种之间的相似度,得到一个t×t的相似度矩阵BSim;BSim是一个对角线元素为1的对称矩阵,BSim[i,j]∈[0,1]表示物种i与物种j之间的相似度;
4.2)设这t个物种的距离矩阵为D,D[i,j]∈[0,1]表示物种i与物种j之间的距离,D[i,j]=1-BSim[i,j];然后,用软件PHYLIP建立一个基于距离矩阵D的***发生树;
4.3)用软件TreeView显示***发生树。
CN201710116712.3A 2017-03-01 2017-03-01 基于多条代谢路径比对重建物种***发生树的方法 Active CN106909805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710116712.3A CN106909805B (zh) 2017-03-01 2017-03-01 基于多条代谢路径比对重建物种***发生树的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710116712.3A CN106909805B (zh) 2017-03-01 2017-03-01 基于多条代谢路径比对重建物种***发生树的方法

Publications (2)

Publication Number Publication Date
CN106909805A CN106909805A (zh) 2017-06-30
CN106909805B true CN106909805B (zh) 2019-04-02

Family

ID=59208467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710116712.3A Active CN106909805B (zh) 2017-03-01 2017-03-01 基于多条代谢路径比对重建物种***发生树的方法

Country Status (1)

Country Link
CN (1) CN106909805B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846262A (zh) * 2018-05-31 2018-11-20 广西大学 基于dft的rna二级结构距离计算构建***发育树的方法
CN109326328B (zh) * 2018-11-02 2021-08-03 西北大学 一种基于谱系聚类的古生物谱系演化分析方法
CN110135450B (zh) * 2019-03-26 2020-06-23 中电莱斯信息***有限公司 一种基于密度聚类的热点路径分析方法
CN112530516B (zh) * 2020-12-18 2023-12-26 深圳先进技术研究院 一种代谢途径预测方法、***、终端设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218776A (zh) * 2013-03-07 2013-07-24 天津大学 基于最小生成树的非局部的深度图超分辨率重建方法
CN103984718A (zh) * 2014-05-09 2014-08-13 国家电网公司 一种有向图及无向图所有生成树的搜索算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594587B2 (en) * 2000-12-20 2003-07-15 Monsanto Technology Llc Method for analyzing biological elements

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218776A (zh) * 2013-03-07 2013-07-24 天津大学 基于最小生成树的非局部的深度图超分辨率重建方法
CN103984718A (zh) * 2014-05-09 2014-08-13 国家电网公司 一种有向图及无向图所有生成树的搜索算法

Also Published As

Publication number Publication date
CN106909805A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
CN106909805B (zh) 基于多条代谢路径比对重建物种***发生树的方法
Resende et al. Enviromics in breeding: applications and perspectives on envirotypic-assisted selection
Wang et al. It's the machine that matters: Predicting gene function and phenotype from protein networks
Liu et al. Robust PCA based method for discovering differentially expressed genes
Alguliyev et al. Parallel batch k-means for Big data clustering
CN110210539A (zh) 多级深度特征融合的rgb-t图像显著性目标检测方法
CN103034687B (zh) 一种基于2‑类异质网络的关联模块识别方法
CN103559426A (zh) 一种针对多视图数据融合的蛋白质功能模块挖掘方法
Cai et al. Partial multi-view spectral clustering
Bai et al. A geometric morphometric study of the wing shapes of Pieris rapae (Lepidoptera: Pieridae) from the Qinling Mountains and adjacent regions: An environmental and distance-based consideration
Tian et al. Pairwise alignment of interaction networks by fast identification of maximal conserved patterns
Wang et al. Global dynamics of multi-group SEI animal disease models with indirect transmission
Zhang et al. A fast adaptive load balancing method for parallel particle-based simulations
Zhang et al. Origin: Non-rigid network alignment
Liang et al. Multi-objective optimization based network control principles for identifying personalized drug targets with cancer
Liang et al. Co-consensus semi-supervised multi-view learning with orthogonal non-negative matrix factorization
Magalhães et al. Evidence of introgression in endemic frogs from the campo rupestre contradicts the reduced hybridization hypothesis
CN103942779A (zh) 一种基于图论和半监督学习相结合的图像分割方法
Li et al. On the Laplacian Estrada index of unicyclic graphs
Dong et al. Multi-head second-order pooling for graph transformer networks
Mester et al. Multilocus consensus genetic maps (MCGM): formulation, algorithms, and results
Eslahchi et al. MC-Net: a method for the construction of phylogenetic networks based on the Monte-Carlo method
Yu et al. Not all edges are peers: Accurate structure-aware graph pooling networks
US9569584B2 (en) Combining RNAi imaging data with genomic data for gene interaction network construction
Rajanala et al. Statistical summaries of unlabelled evolutionary trees and ranked hierarchical clustering trees

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant