CN111370060A - 一种蛋白质互作网络共定位共表达复合物识别***及方法 - Google Patents
一种蛋白质互作网络共定位共表达复合物识别***及方法 Download PDFInfo
- Publication number
- CN111370060A CN111370060A CN202010204246.6A CN202010204246A CN111370060A CN 111370060 A CN111370060 A CN 111370060A CN 202010204246 A CN202010204246 A CN 202010204246A CN 111370060 A CN111370060 A CN 111370060A
- Authority
- CN
- China
- Prior art keywords
- protein
- data
- complex
- expression
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004186 co-expression Effects 0.000 title claims abstract description 41
- 230000006916 protein interaction Effects 0.000 title claims abstract description 38
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 141
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 134
- 239000011159 matrix material Substances 0.000 claims abstract description 60
- 230000008045 co-localization Effects 0.000 claims abstract description 26
- 230000014509 gene expression Effects 0.000 claims abstract description 25
- 150000001875 compounds Chemical class 0.000 claims abstract description 20
- 230000010856 establishment of protein localization Effects 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 238000005065 mining Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000013075 data extraction Methods 0.000 claims abstract description 6
- 108010085220 Multiprotein Complexes Proteins 0.000 claims description 21
- 102000007474 Multiprotein Complexes Human genes 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 20
- 240000004808 Saccharomyces cerevisiae Species 0.000 claims description 13
- 230000004807 localization Effects 0.000 claims description 12
- 238000002360 preparation method Methods 0.000 claims description 12
- 230000026447 protein localization Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 108010026552 Proteome Proteins 0.000 claims description 5
- 230000002503 metabolic effect Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000013441 quality evaluation Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 7
- 201000010099 disease Diseases 0.000 abstract description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 4
- 239000003814 drug Substances 0.000 abstract description 2
- 229940079593 drug Drugs 0.000 abstract description 2
- 230000002349 favourable effect Effects 0.000 abstract 1
- 229920000333 poly(propyleneimine) Polymers 0.000 description 27
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000005457 optimization Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 5
- 230000002950 deficient Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008827 biological function Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 108010058643 Fungal Proteins Proteins 0.000 description 1
- 101100516733 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) NNK1 gene Proteins 0.000 description 1
- 101100492474 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) YML096W gene Proteins 0.000 description 1
- 101710100170 Unknown protein Proteins 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000001086 yeast two-hybrid system Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Abstract
本发明属于蛋白质复合物识别技术领域,公开了一种蛋白质互作网络共定位共表达复合物识别***及方法,包括:数据提取模块、矩阵数据生成模块、识别评价模块、核心挖掘模块、附件添加模块、复合物筛选模块。所述蛋白质复合物识别方法包括:将蛋白定位数据、基因表达数据、蛋白质间互作数据及蛋白质GO相似数据按矩阵方式组织;基于核心‑附件结构采用种子扩张策略识别具联合共定位联合共表达蛋白质复合物。本发明从蛋白质相互作用网络中发现蛋白质复合物,不仅有利于理解蛋白质网络的拓扑结构,而且有利于了解复合物所包含的生物意义,对预测未知蛋白质的功能及疾病靶向药物设计也具有相当重要的作用。
Description
技术领域
本发明属于蛋白质复合物识别技术领域,尤其涉及一种蛋白质互作网络共定位共表达复合物识别***及方法。
背景技术
随着后基因组时代的到来,蛋白质组就成为了研究者们又一个重要的研究内容。在细胞中,蛋白质很少单独起作用,它必须与其它蛋白质绑定在一起发生相互作用才能实现其生物功能。在所有生命活动中,蛋白质间相互作用(Protein Protein Interaction,PPI)是必不可少的,它是细胞进行一切代谢活动的基础。因此,揭示蛋白质间相互作用关系、建立相互作用关系的网络图,已成为蛋白质组学研究中的热点,也是后基因时代的难题所在。在各种生物网络中,蛋白质相互作用网络(PPINetworks,PPIN)是构成细胞功能的基础,掌控着大量的生命过程,对蛋白质间相互作用的非正常扰动引发的调控异常是许多疾病的主要起因,因此蛋白质相互作用网络逐渐成为从分子层面揭示疾病机理的主要工具。
蛋白质是基因表达的产物,是生物体生理功能的执行者,也是生命现象的直接体现者。蛋白质组学是对蛋白质所含特性进行***化研究的学科,能为生物***在健康和疾病状态下的结构、功能和调控提供详细的描述。几乎所有的生物过程,都是通过一系列的蛋白质相互作用完成的。从***生物学的角度,利用蛋白质相互作用网络研究和分析生物功能具有重要的前景和实用价值。蛋白质复合物是在相同时间和空间通过相互作用组成的一个多分子机制的蛋白质集合,它是蛋白质执行其功能的主要形式。识别蛋白质复合物不仅有利于理解复杂的生命活动,同时为发现复杂疾病生成机理和设计靶向药物提供有价值的理论参考。
目前,蛋白质复合物的挖掘方法大致可以分为3类:一是基于传统图理论的识别方法,例如:基于划分方式聚类的RNSC算法,基于密度方式聚类的MCODE算法,基于层次方式聚类的GN算法,上述方法能够节省一定的时间成本,但由于对聚类中心、数据、参数等比较敏感,会在一定程度上影响算法的整体效率;二是基于多组学数据融合的识别方法,该类方法通常是将生物信息数据整合到现有的蛋白质网络中,增强网络的精确度与可靠度,从而弥补相互作用数据中存在的假阳性与假阴性等问题,但不可避免的局限性难以满足算法的性能要求;三是基于智能优化的识别方法,该类方法通过模拟自然界生物的各种群体行为,利用个体间的交互合作,寻找所求问题的近似最优解展现出良好的性能,例如蚁群优化算法、粒子群优化算法等,但是上述方法耗时耗力,收敛速度慢,搜索效率低并且容易陷入局部最优。
同时,通过已有的蛋白质相互作用数据(PPIData)构建蛋白质相互作用网络(PPIN),并从PPIN中发现有意义的子结构,如蛋白质复合物(Complex)、功能模块(FunctionalModule)和模体(Motif)等,已成为国内外研究的热点。为了更加方便地从蛋白质相互作用网络中发现这些子结构,通常的做法是采用图的形式表示蛋白质相互作用网络,将蛋白质看作顶点,蛋白质间的相互作用看作边,然后利用各种算法来挖掘具生物意义子结构--蛋白质复合物(Complex)。
综上所述,现有技术存在的问题是:
(1)现有基于传统图理论的识别方法由于对聚类中心、数据、参数等比较敏感,会在一定程度上影响算法的整体效率,准确率低。
(2)现有基于多组学数据融合的识别方法不可避免的局限性是难以满足算法的性能要求,准确率低。
(3)现有基于智能优化的识别方法耗时耗力,收敛速度慢,搜索效率低并且容易陷入局部最优。
解决上述技术问题的难度:
(1)现有基于传统图理论的识别方法基本难以准确识别蛋白质复合物,需根据蛋白质复合物共定位共表达属性重新设计算法;
(2)现有基于多组学数据融合的识别方法大多仅采用2类生物学数据,利用更多生物学数据意味着多组学数据融合方式多样,需要选择最佳的融合方式;
(3)无法通过穷举法解NP难问题,易陷入局部最优是现有基于智能优化识别方法无法回避的,用种子扩张结合贪心策略可以有效提高搜索效率。
解决上述技术问题的意义:
(1)共定位共表达是蛋白质复合物装配的基本属性,根据基本属性重新设计算法是准确识别蛋白质复合物的前提。
(2)将更多生物学数据融合到算法中能确保识别蛋白质复合物生物学意义更显著。
(3)种子扩张结合贪心策略使得高效地准确识别蛋白质复合物变得可行。
发明内容
针对现有技术存在的问题,本发明提供了一种蛋白质互作网络共定位共表达复合物识别***及方法。
本发明是这样实现的,一种蛋白质互作网络共定位共表达复合物识别方法,所述蛋白质互作网络共定位共表达复合物识别方法包括:
步骤一,矩阵数据准备阶段:提取蛋白定位数据、基因表达数据、蛋白质间互作数据及蛋白质GO标注数据;
步骤二,分析计算,依次生成蛋白质间带可靠性得分的相互作用矩阵、蛋白质定位矩阵、基因表达矩阵、基于CC的蛋白质相似矩阵、基于MF的蛋白质相似矩阵和基于BP的蛋白质相似矩阵;
步骤三,通过核心算法ICJointLE在参数调优设置下识别蛋白质复合物;
(1)蛋白质复合物核心挖掘阶段:按照核心-附件结构,运用种子扩张策略,挖掘稠密可靠连接的联合共定位联合共表达蛋白质核心;
(2)蛋白质复合物附件添加阶段:添加强可靠连接的联合共定位联合共表达蛋白质附件;
(3)重叠蛋白质复合物筛选阶段:删除低可靠连接密度的重叠复合物。
步骤四,以CYC2008为参照对识别复合物进行质量评价。
进一步,所述蛋白质互作网络共定位共表达复合物识别方法采用酿酒酵母yeast数据集。
进一步,所述CYC2008作为已知复合物集,其中包含408个人工整理的异聚体蛋白质复合物;基因表达数据GSE3431不仅包含3个连续代谢周期的基因表达数据,而且含有表达基因的3类GO术语标注。
进一步,所述ICJointLE能识别CYC2008中含无蛋白定位数据蛋白质的复合物的方法为:CYC2008数据集和PPI数据集中的部分蛋白质没有蛋白定位数据,在计算包含缺乏蛋白定位数据蛋白质的蛋白质组的联合共定位计数时,设置缺乏蛋白定位数据蛋白质的定位向量为全1。
本发明的另一目的在于提供一种实施所述蛋白质互作网络共定位共表达复合物识别方法的蛋白质互作网络共定位共表达复合物识别***,所述蛋白质互作网络共定位共表达复合物识别***包括:
数据提取模块,用于提取蛋白定位数据、基因表达数据、蛋白质间互作数据及蛋白质GO标注数据;
矩阵数据生成模块,用于依次生成蛋白质间带可靠性得分的相互作用矩阵、蛋白质定位矩阵、基因表达矩阵、基于CC的蛋白质相似矩阵、基于MF的蛋白质相似矩阵和基于BP的蛋白质相似矩阵;
识别评价模块,用于通过核心算法ICJointLE在参数调优设置下识别蛋白质复合物,然后以CYC2008为参照对识别复合物进行质量评价;
核心挖掘模块,用于挖掘稠密可靠连接的联合共定位联合共表达蛋白质核心;
附件添加模块,用于添加强可靠连接的联合共定位联合共表达蛋白质附件;
复合物筛选模块,用于删除低可靠连接密度的重叠复合物。
本发明的另一目的在于提供一种实现所述蛋白质互作网络共定位共表达复合物识别方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的蛋白质互作网络共定位共表达复合物识别方法。
综上所述,本发明的优点及积极效果为:本发明基于套件ICJointLE(Identifyingprotein Complexes with thefeatures ofjoint co-Localization andjointco-Expression)V1.0实现了基于蛋白质互作网络的共定位共表达蛋白质复合物识别。本发明从蛋白质相互作用网络(PPIN)中发现蛋白质复合物(Complex),不仅有利于理解蛋白质网络的拓扑结构,而且有利于了解复合物所包含的生物意义,对预测未知蛋白质的功能及人类的致病基因也具有相当重要的作用。
附图说明
图1是本发明实施例提供的蛋白质互作网络共定位共表达复合物识别***结构示意图;
图中:1、数据提取模块;2、矩阵数据生成模块;3、复合物识别模块;4、核心挖掘模块;5、附件添加模块;6、复合物筛选模块,7、复合物评价模块。
图2和图3是本发明实施例提供的蛋白质互作网络共定位共表达复合物识别方法流程图。
图4是本发明实施例提供的ICJointLE V1.0初始安装所在文件夹及其构成示意图。
图5是本发明实施例提供的准备数据集STRING文件夹示意图。
图6是本发明实施例提供的创建STRING文件夹示意图。
图7是本发明实施例提供的准备STRING数据集的PPI文件示意图。
图8是本发明实施例提供的STRING数据集的矩阵数据文件生成过程示意图。
图9是本发明实施例提供的STRING数据集的矩阵数据文件示意图。
图10是本发明实施例提供的识别并评价STRING互作网中复合物的过程示意图。
图11是本发明实施例提供的STRING互作网中识别的复合物及其评价示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种蛋白质互作网络共定位共表达复合物识别***及方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的蛋白质互作网络共定位共表达复合物识别***包括:数据提取模块1、矩阵数据生成模块2、识别评价模块3、核心挖掘模块4、附件添加模块5、复合物筛选模块6。
数据提取模块1,用于提取蛋白定位数据、基因表达数据、蛋白质间互作数据及蛋白质GO标注数据;
矩阵数据生成模块2,用于依次生成蛋白质间带可靠性得分的相互作用矩阵、蛋白质定位矩阵、基因表达矩阵、基于CC的蛋白质相似矩阵、基于MF的蛋白质相似矩阵和基于BP的蛋白质相似矩阵;
识别评价模块3,用于通过核心算法ICJointLE在参数调优设置下识别蛋白质复合物,然后以CYC2008为参照对识别复合物进行质量评价;
核心挖掘模块4,用于挖掘稠密可靠连接的联合共定位联合共表达蛋白质核心;
附件添加模块5,用于添加强可靠连接的联合共定位联合共表达蛋白质附件;
复合物筛选模块6,用于删除低可靠连接密度的重叠复合物。
本发明实施例提供的***采用的数据是酿酒酵母(yeast)相关数据集。
本发明实施例提供的CYC2008作为已知复合物集,其中包含408个人工整理的异聚体蛋白质复合物。基因表达数据GSE3431不仅包含3个连续代谢周期的基因表达数据,而且含有表达基因的3类GO术语标注。
本发明实施例提供的ICJointLE能识别CYC2008中含无蛋白定位数据蛋白质的复合物的方法为:
CYC2008数据集和PPI数据集中的一些蛋白质没有蛋白定位数据。为了精确识别CYC2008中尽可能多的蛋白质复合物,在计算包含缺乏蛋白定位数据蛋白质的蛋白质组的联合共定位计数时,设置缺乏蛋白定位数据蛋白质的定位向量为全“1”。
如图2所示,本发明实施例提供的蛋白质互作网络共定位共表达复合物识别方法包括以下步骤:
S101:矩阵数据准备阶段:提取蛋白定位数据、基因表达数据、蛋白质间互作数据及蛋白质GO标注数据。
S102:分析计算,依次生成蛋白质间带可靠性得分的相互作用矩阵、蛋白质定位矩阵、基因表达矩阵、基于CC的蛋白质相似矩阵、基于MF的蛋白质相似矩阵和基于BP的蛋白质相似矩阵。
S103:核心算法ICJointLE在参数调优设置下识别蛋白质复合物。
S103-1:蛋白质复合物核心挖掘阶段:按照核心-附件结构,运用种子扩张策略,挖掘稠密可靠连接的联合共定位联合共表达蛋白质核心。
S103-2:蛋白质复合物附件添加阶段:添加强可靠连接的联合共定位联合共表达蛋白质附件。
S103-3:重叠蛋白质复合物筛选阶段:删除低可靠连接密度的重叠复合物。
S104:蛋白质复合物评价:以CYC2008为参照对识别复合物进行质量评价。
下面对本发明的技术方案作进一步描述。
本发明指出:一组蛋白质形成复合物必然要在同一时间地点彼此相互作用。换句话说,复合物中蛋白质是群体地共定位共表达,且在静态PPI网络(SPPIN)中呈现稠密连接。本软件套件ICJointLE V1.0,按照核心-附件结构从静态PPI网络(SPPIN)中挖掘共定位、共表达、稠密可靠连接且生物功能相似的蛋白质簇以生成蛋白质复合物。为此,本软件套件ICJointLE V1.0首先根据联合定位向量,实现了一组蛋白质共定位判据准则;然后根据联合基因表达模式,以计算一组蛋白质共表达水平;此外组合多种蛋白质基因本体(Geneontology,GO)特征的相似度来建立判断蛋白质功能相似准则,以保证识别出生物功能一致的蛋白质复合物。
1、软件概述
1.1原理
本软件套件ICJointLE V1.0,首先将蛋白定位数据、基因表达数据、蛋白质间互作数据及蛋白质GO相似数据按矩阵方式组织,然后基于核心-附件结构采用种子扩张策略按3个步骤(蛋白质核心挖掘、附件蛋白质添加和候选蛋白质复合物筛选)识别具联合共定位联合共表达蛋白质复合物。
本软件套件ICJointLE V1.0的运行分为2个阶段。第一个阶段为矩阵数据准备阶段。此阶段依次生成蛋白质间带可靠性得分的相互作用矩阵、蛋白质定位矩阵、基因表达矩阵、基于CC的蛋白质相似矩阵、基于MF的蛋白质相似矩阵和基于BP的蛋白质相似矩阵。第二阶段为蛋白质复合物识别阶段。在此阶段按照核心附件结构,运用种子扩张策略,首先挖掘稠密可靠连接的联合共定位联合共表达蛋白质核心,然后添加强可靠连接的联合共定位联合共表达蛋白质附件,最后删除低可靠连接密度的重叠复合物。
1.2流程
本***的操作流程如图3所示。
2、运行环境
实验环境如表1所示。
表1实验环境
3、使用说明
3.1软件套件部署
本软件套件ICJointLE V1.0是由控制台下运行的一组程序模块的集合连同若干相关公共数据集组成,用户可以部署到指定的文件夹中。
3.1.1软件套件结构和特定文件
在用户指定的文件夹下,文件套件的目录结构如下所示。
3.1.2软件套件使用
本软件套件ICJointLE V1.0按以下两个步骤进行。
(1)数据准备阶段
preparing_data 在当前目录下创建默认目录“yourdata”
或者
preparing_data datadir 在当前目录下创建目录“datadir”
或者
preparing_data datadiryour_PPIs.txt在包含your_PPIs.txt的“datadir”内生成所有矩阵数据文件。
PPIs文件格式:
在创建目录“yourdata”或“datadir”后,请将用户的PPIs文件(例如:your_PPIs.txt)复制到目录“yourdata”或“datadir”中。注意,PPIs文件必须符合下述格式。
your_PPIs.txt每行一对由tab间隔的***名
YKL171W YML096W
YFL017W-AYFR031C-A
...
于是,可以使用如下格式生成所有矩阵数据文件。
preparing_datayourdatayour_PPIs.txt
或者
preparing_data datadiryour_PPIs.txt
数据准备阶段结束后,目录“yourdata”或“datadir”(假设为“yourdata”)中包含表2所列文件。
表2 相关数据文件
(2)识别和评价阶段
在此阶段,首先由核心算法ICJointLE在表3所列参数调优设置下识别蛋白质复合物,然后以CYC2008为参照对识别复合物进行质量评价。
可选参数
表3 可选参数说明文件
示例
设置所有可选参数
identify_and_analyze yourdata your_PPIs.txt -L 1 -r 999 -d 0.3 -c 0.7-f 0.75 -p 0.3 -m 0.08 -u 0.01 -e 0.9
部分可选参数缺省
identify_and_analyze yourdata your_PPIs.txt -r 990 -c 0.6 -f 0.8 -p0.1 -m 0.4 -e 0.7
所有可选参数缺省(按表3缺省设置所有参数)
identify_and_analyze STRING STRING_PPIs.txt
identify_and_analyze BioGrid BioGrid_PPIs.txt
identify_and_analyze DIP DIP_PPIs.txt
3.2相关数据
目前本软件套件ICJointLE V1.0采用的数据是酿酒酵母(yeast)相关数据集。酿酒酵母作为模式有机体被广泛研究并已产生有关酿酒酵母的大量生物学数据,这正是本研究使用酿酒酵母数据集进行实验的主要原因。在实验中,本发明选择了6个酵母PPI数据集。第一个数据集来自于STRING数据库版本10,其中包含6418个蛋白质和939998对交互,每个交互均带有可靠性得分数据。第二个数据集由5811个蛋白质和256516交互组成,其来源于BioGrid数据库3.4.128版本的酵母PPI数据。第三个酵母PPI数据集源于DIP数据库,其发布日期为2015/07/01,其中包含5022个蛋白质和22381交互。另有3个由酵母双杂交实验产生的酵母二元交互组数据:Uetz、Ito和Yu。Uetz数据集包含910个蛋白质和823个交互,Ito数据集由765个蛋白质和733个交互组成,Yu数据集由1203个蛋白质和1610个交互组成。
CYC2008作为已知复合物集,其中包含408个人工整理的异聚体蛋白质复合物。基因表达数据GSE3431不仅包含3个连续代谢周期的基因表达数据,而且含有表达基因的3类GO术语标注。酵母蛋白定位数据源自http://yeastgfp.yeastgenome.org。本发明注意到CYC2008数据集和PPI数据集中的一些蛋白质没有蛋白定位数据。为了精确识别CYC2008中尽可能多的蛋白质复合物,在计算包含缺乏蛋白定位数据蛋白质的蛋白质组的联合共定位计数时,我们设置缺乏蛋白定位数据蛋白质的定位向量为全“1”。如此,本发明的方法ICJointLE就仍能识别CYC2008中含无蛋白定位数据蛋白质的复合物。
3.3输出结果
本软件套件ICJointLE V1.0产生的结果是识别复合物及其质量评价,输出结果以文件形式被存放在“complexes”子目录中,文件见表4所列。
表4 识别复合物及其质量评价
实施例2:用户操作举例
如图4所示,假设本软件套件ICJointLE V1.0安装在文件夹d:\ICJointLE V1.0中。
1、数据准备阶段
以STRING数据集为例说明相关数据生成过程。
创建数据集文件夹
在命令行状态下进入软件套件ICJointLE V1.0程序模块集文件夹.\bin,然后按如下格式执行批处理命令preparing_data.bat,操作过程见图5所示。
如图6所示,名为STRING的文件夹被创建。
准备PPI数据集文件
将符合格式要求的PPI文件(STRING_PPIs.txt)复制到.\STRING中,如图7所示。
生成矩阵数据文件
在命令行状态下进入软件套件ICJointLE V1.0程序模块集文件夹.\bin,然后按如下格式执行批处理命令preparing_data.bat,操作过程见图8。
preparing_data STRING STRING_PPIs.txt
数据准备阶段结束后,文件夹STRING中生成一系列矩阵数据文件(见图9)
2、识别并评价蛋白质复合物
在命令行状态下进入软件套件ICJointLE V1.0程序模块集文件夹.\bin,然后执行如下格式批处理命令,操作过程见图10。
identify_and_analyze STRING STRING_PPIs.txt -L 1 -r 999 -d 0.3 -c 0.7-f 0.75 -p 0.3 -m 0.08 -u 0.01 -e 0.9
识别和评价阶段结束后,文件夹STRING的子文件夹complexes中生成了如图11所列的文件。
下面结合实验对本发明的技术效果作详细的描述。
为反映本软件套件识别蛋白质复合物的质量,表5-表7从精确匹配、近似匹配和生物相关性3个方面对比包含ICJointLE在内的9个算法在STRING PPI数据集上识别复合物的评价指标。
表5从精确匹配的复合物数量方面进行比较。易见,本软件套件ICJointLE准确识别复合物的总数明显多于其它算法,尤其是规模为2~3的复合物。
表5 被准确识别不同规模蛋白质复合物数量分布对比
表6从近似匹配的评价指标方面进行比较。同样易见,本软件套件ICJointLE除了Sn指标不具优势外,其它指标均优于其它算法。
表6 识别蛋白质复合物评价指标对比
表7从BP术语功能富集显著性方面进行对比。可见,本软件套件ICJointLE识别复合物在BP功能富集显著性方面,无论是总体,还是不同规模组,其百分比均大于其它算法。
表7 识别蛋白质复合物BP富集显著性对比
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种蛋白质互作网络共定位共表达复合物识别方法,其特征在于,所述蛋白质互作网络共定位共表达复合物识别方法包括:
步骤一,矩阵数据准备阶段:提取蛋白定位数据、基因表达数据、蛋白质间互作数据及蛋白质GO标注数据;
步骤二,分析计算,依次生成蛋白质间带可靠性得分的相互作用矩阵、蛋白质定位矩阵、基因表达矩阵、基于CC的蛋白质相似矩阵、基于MF的蛋白质相似矩阵和基于BP的蛋白质相似矩阵;
步骤三,核心算法ICJointLE在参数调优设置下识别蛋白质复合物,其过程分为如下3个顺序步:
(1)蛋白质复合物核心识别阶段:按照核心-附件结构,运用种子扩张策略,挖掘稠密可靠连接的联合共定位联合共表达蛋白质核心;
(2)蛋白质复合物附件添加阶段:添加强可靠连接的联合共定位联合共表达蛋白质附件;
(3)重叠蛋白质复合物筛选阶段:删除低可靠连接密度的重叠复合物;
步骤四,以CYC2008为参照对识别复合物进行质量评价。
2.如权利要求1所述的蛋白质互作网络共定位共表达复合物识别方法,其特征在于,所述蛋白质互作网络共定位共表达复合物识别方法采用酿酒酵母yeast数据集。
3.如权利要求1所述的蛋白质互作网络共定位共表达复合物识别方法,其特征在于,所述CYC2008作为已知复合物集,其中包含408个人工整理的异聚体蛋白质复合物;基因表达数据GSE3431不仅包含3个连续代谢周期的基因表达数据,而且含有表达基因的3类GO术语标注。
4.如权利要求1所述的蛋白质互作网络共定位共表达复合物识别方法,其特征在于,所述ICJointLE能识别CYC2008中含无蛋白定位数据蛋白质的复合物的方法为:CYC2008数据集和PPI数据集中的部分蛋白质没有蛋白定位数据,在计算包含缺乏蛋白定位数据蛋白质的蛋白质组的联合共定位计数时,设置缺乏蛋白定位数据蛋白质的定位向量为全1。
5.一种实施权利要求1~4任意一项所述蛋白质互作网络共定位共表达复合物识别方法的蛋白质互作网络共定位共表达复合物识别***,其特征在于,所述蛋白质互作网络共定位共表达复合物识别***包括:
数据提取模块,用于提取蛋白定位数据、基因表达数据、蛋白质间互作数据及蛋白质GO标注数据;
矩阵数据生成模块,用于依次生成蛋白质间带可靠性得分的相互作用矩阵、蛋白质定位矩阵、基因表达矩阵、基于CC的蛋白质相似矩阵、基于MF的蛋白质相似矩阵和基于BP的蛋白质相似矩阵;
识别评价模块,用于通过核心算法ICJointLE在参数调优设置下识别蛋白质复合物,然后以CYC2008为参照对识别复合物进行质量评价;
蛋白质复合物核心挖掘模块,用于挖掘稠密可靠连接的联合共定位联合共表达蛋白质核心;
蛋白质复合物附件添加模块,用于添加强可靠连接的联合共定位联合共表达蛋白质附件;
蛋白质复合物筛选模块,用于删除低可靠连接密度的重叠复合物。
6.一种实现权利要求1~4任意一项所述蛋白质互作网络共定位共表达复合物识别方法的信息数据处理终端。
7.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~4任意一项所述的蛋白质互作网络共定位共表达复合物识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010204246.6A CN111370060A (zh) | 2020-03-21 | 2020-03-21 | 一种蛋白质互作网络共定位共表达复合物识别***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010204246.6A CN111370060A (zh) | 2020-03-21 | 2020-03-21 | 一种蛋白质互作网络共定位共表达复合物识别***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111370060A true CN111370060A (zh) | 2020-07-03 |
Family
ID=71210532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010204246.6A Pending CN111370060A (zh) | 2020-03-21 | 2020-03-21 | 一种蛋白质互作网络共定位共表达复合物识别***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111370060A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050260663A1 (en) * | 2004-05-18 | 2005-11-24 | Neal Solomon | Functional proteomics modeling system |
US20070072226A1 (en) * | 2005-09-27 | 2007-03-29 | Indiana University Research & Technology Corporation | Mining protein interaction networks |
CN103559426A (zh) * | 2013-11-06 | 2014-02-05 | 北京工业大学 | 一种针对多视图数据融合的蛋白质功能模块挖掘方法 |
CN106021988A (zh) * | 2016-05-26 | 2016-10-12 | 河南城建学院 | 蛋白质复合物的识别方法 |
US20190139621A1 (en) * | 2016-04-27 | 2019-05-09 | Zhong Wang | Method for identifying key module or key node in biomolecular network |
CN109887544A (zh) * | 2019-01-22 | 2019-06-14 | 广西大学 | 基于非负矩阵分解的rna序列并行分类方法 |
-
2020
- 2020-03-21 CN CN202010204246.6A patent/CN111370060A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050260663A1 (en) * | 2004-05-18 | 2005-11-24 | Neal Solomon | Functional proteomics modeling system |
US20070072226A1 (en) * | 2005-09-27 | 2007-03-29 | Indiana University Research & Technology Corporation | Mining protein interaction networks |
CN103559426A (zh) * | 2013-11-06 | 2014-02-05 | 北京工业大学 | 一种针对多视图数据融合的蛋白质功能模块挖掘方法 |
US20190139621A1 (en) * | 2016-04-27 | 2019-05-09 | Zhong Wang | Method for identifying key module or key node in biomolecular network |
CN106021988A (zh) * | 2016-05-26 | 2016-10-12 | 河南城建学院 | 蛋白质复合物的识别方法 |
CN109887544A (zh) * | 2019-01-22 | 2019-06-14 | 广西大学 | 基于非负矩阵分解的rna序列并行分类方法 |
Non-Patent Citations (1)
Title |
---|
张锦雄等: "A method for identifying protein complexes with the features of joint co-localization and joint co-expression in static PPI networks", 《COMPUTERS IN BIOLOGY AND MEDICINE》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qiao et al. | Protein-protein interface hot spots prediction based on a hybrid feature selection strategy | |
Li et al. | Computational approaches for detecting protein complexes from protein interaction networks: a survey | |
Shatkay et al. | Genes, themes and microarrays | |
Jiang et al. | Mining frequent cross-graph quasi-cliques | |
Zhu et al. | Large-scale binding ligand prediction by improved patch-based method Patch-Surfer2. 0 | |
US8572064B2 (en) | Visualization technique for biological information | |
Zhang et al. | Protein complex prediction in large ontology attributed protein-protein interaction networks | |
Tanaka et al. | A multi-label approach using binary relevance and decision trees applied to functional genomics | |
CN104281652A (zh) | 度量空间中逐个支撑点数据划分方法 | |
Yong et al. | From the static interactome to dynamic protein complexes: Three challenges | |
Kurgan | Resources for computational prediction of intrinsic disorder in proteins | |
Cho et al. | An integrated proteome database for two‐dimensional electrophoresis data analysis and laboratory information management system | |
Zhang et al. | CEGSO: boosting essential proteins prediction by integrating protein complex, gene expression, gene ontology, subcellular localization and orthology information | |
Cao et al. | Pce-fr: A novel method for identifying overlapping protein complexes in weighted protein-protein interaction networks using pseudo-clique extension based on fuzzy relation | |
US11150878B2 (en) | Method and system for extracting concepts from research publications to identify necessary source code for implementation | |
Reid et al. | Comparative evolutionary analysis of protein complexes in E. coli and yeast | |
CN111370060A (zh) | 一种蛋白质互作网络共定位共表达复合物识别***及方法 | |
Ferrari et al. | A grid-aware approach to protein structure comparison | |
Kolchanov et al. | GenExpress: A Computer System for Description, Analysis and Recognition of Regulatory Sequences in Eukaryotic Genome. | |
Shoop et al. | MetaFam: a unified classification of protein families. II. Schema and query capabilities | |
CN113377765A (zh) | 一种多组学数据分析***及其数据转换方法 | |
Maruyama et al. | Designing views in HypothesisCreator: System for assisting in discovery | |
Kynast et al. | ATLIGATOR: editing protein interactions with an atlas-based approach | |
Cao et al. | Detecting overlapping protein complexes in weighted protein-protein interaction networks using pseudo-clique extension based on fuzzy relation | |
Ikeda et al. | PreBINDS: an interactive web tool to create appropriate datasets for predicting compound–protein interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200703 |
|
RJ01 | Rejection of invention patent application after publication |