CN115116551A - 基于非负矩阵分解框架的预测蛋白质相互作用关系的方法 - Google Patents

基于非负矩阵分解框架的预测蛋白质相互作用关系的方法 Download PDF

Info

Publication number
CN115116551A
CN115116551A CN202210743745.1A CN202210743745A CN115116551A CN 115116551 A CN115116551 A CN 115116551A CN 202210743745 A CN202210743745 A CN 202210743745A CN 115116551 A CN115116551 A CN 115116551A
Authority
CN
China
Prior art keywords
protein
proteins
data
matrix
subcellular localization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210743745.1A
Other languages
English (en)
Inventor
张伟
蔡娴娴
徐亚新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202210743745.1A priority Critical patent/CN115116551A/zh
Publication of CN115116551A publication Critical patent/CN115116551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于非负矩阵分解框架的预测蛋白质相互作用关系的计算方法。该方法有效融合蛋白质相互作用数据的拓扑结构特征以及蛋白质的本体语义相似度信息;将这两种信息融入非负矩阵分解方法框架中,通过迭代求解非负矩阵分解的结果,得到蛋白质之间连接关系相似度矩阵;最后通过亚细胞定位信息矩阵进行过滤,得到未知连接关系的蛋白质之间相似度值,相似度越大,意味着这两个蛋白质之间存在相互作用的可能性越大。经测试验证,本发明提出的方法可以显著提高预测未知蛋白质相互作用关系的精度和效率。

Description

基于非负矩阵分解框架的预测蛋白质相互作用关系的方法
技术领域
本发明涉及数学与生物学交叉研究领域,具体涉及基于已知的蛋白质相互作用关系数据预测蛋白质之间未知的相互作用关系的方法。
背景技术
蛋白质是构成细胞的物质基础,细胞的生理活动主要是通过蛋白质-蛋白质之间相互作用来调控完成的。研究蛋白质-蛋白质之间相互作用关系有助于从分子水平揭示蛋白质之间的调控关系及蛋白质功能。生物学研究表明,蛋白质相互作用关系的预测在以蛋白质相互作用为靶点的药物设计、复杂疾病的个性化医疗方面具有非常重要的应用。有效的预测蛋白质之间未知的作用关系有助于阐明分子间调控机制,为进一步药物分子靶标设计和疾病致病机理的研究提供帮助。
传统的生物学实验一般采用免疫共沉淀、酵母双杂交及荧光共振能量转移等技术来检测蛋白质与蛋白质之间是否存在相互作用,由于生物学实验周期长、成本昂贵、效率低。另外,这些方法也都具有自身缺陷,比如:基于酵母双杂交的方法并非对所有蛋白质都适用,只对融合蛋白才有效,而且具有较高的假阳性。因此,迫切需要一种快速的方法来检测蛋白质之间是否存在相互作用关系。随着近些年来高通量生物学技术的快速发展,人们可以获得大量的高通量数据,例如:蛋白质相互作用数据、基因功能注释信息数据、蛋白质子细胞定位数据等等,这为从计算的层面来预测蛋白质之间相关作用关系提供了条件。基于这些数据,如何从数学角度有效挖掘这些数据之间蕴含的内在特性,设计数学计算方法来从计算角度预测蛋白质之间相互作用关系是目前比较热门的研究领域。
近些年来国内外学者提出了很多预测未知蛋白质之间相互作用关系的计算方法,例如,Zhang等人基于蛋白质结构域信息,提出了一种基于蛋白质结构域相互作用的方法来预测未知蛋白质之间相互作用关系。Wang和Krishna等人提出了一种基于矩阵分解的方法R-NMTF来预测蛋白质相互作用关系,将未知蛋白质相互作用关系预测转化为对已有蛋白质相互作用关系构成矩阵中元素填充问题。近来,Wang和Tang等人(2018)基于非负矩阵分解提出了一种融入内、外部信息的非负矩阵分解方法(SASNMF)来进行链路预测。虽然Wang等人也融入多数据源通过添加正则化项的方法扩展非负矩阵分解方法能有效提高预测精度,但是该方法依赖于目标函数中正则化项的构建及迭代格式的选取,而且很难保证解的光滑性及精度。
由于蛋白质之间连接关系可以看成是一个分类问题,即一对蛋白质之间存在相互作用和不存在相互作用,因次,近些年来很多学者将未知蛋白质之间关系预测问题转化为分类问题,采用机器学习的方法来预测未知蛋白质之间连接关系,例如Martin等人提供了一种基于不同核函数的支撑向量机的方法来预测蛋白质之间相互作用关系;Ding等人提出了一种基于随机森林的方法来预测蛋白质之间未知相互作用关系;最近,Tian等人提出了一种基于多信息融合的方法来有效提取蛋白质序列特征信息,然后采用支撑向量机的方法来预测未知蛋白质相互作用关系。然而,这些基于机器学习的方法依赖于阴性样本数据(negative samples),可靠的阴性样本数据的选取很大程度上决定了算法的预测精度与效率。对于未知的物种的蛋白质相互作用关系数据,很难找到可靠的阴性样本数据,及时对于酵母等研究很广泛的物种,获取准确的阴性样本数据仍然是非常困难的。
综上所述,虽然目前在预测未知蛋白质相互作用关系方面已经做了一些工作,但是预测蛋白质相互作用关系方法的精度和效率仍有待提高。
发明内容
本发明提供一种基于非负矩阵分解框架的预测蛋白质相互作用关系的方法,该方法包括以下步骤:
(1)获取已有蛋白质相互作用关系数据(又称为蛋白质相互作用网络数据)、基因本体语义注释信息(Gene Ontology annotation)数据及蛋白质亚细胞定位(ProteinSubcellular localization)数据;
(2)基于已有蛋白质相互作用关系数据构建邻接矩阵A,基于基因本体语义注释信息数据构建蛋白质与蛋白质间的基因功能相似性矩阵S,基于蛋白质亚细胞定位数据构建蛋白质间的亚细胞定位信息邻接矩阵SL_adj;
(3)定义一个基于非负矩阵分解框架的目标函数:
Figure BDA0003716071660000021
其中,A表示邻接矩阵,W≥0,H1≥0及H2≥0,S表示基因功能相似性矩阵,||·||F表示Frobenius范数,Tr(A)表示求矩阵A的迹,λ1表示权重参数,λ234分别为防止过拟合的正则化参数,p为1-2间的参数,L=D-C,C为矩阵A的余弦相似性矩阵,
Figure BDA0003716071660000022
(4)建立增广的拉格朗日函数,使用基于迭代优化的方法来优化目标函数值;
(5)获得迭代优化后的W,H1,计算未知连接关系的蛋白质之间连接相似度值;
(6)将未知连接关系蛋白质之间的相似度值按照从大到小排序,排序的前k个(k为整数,通常取100或者200)最大相似值对应的连接关系即为预测的蛋白质相互作用关系。
进一步地,步骤(1)所述已有蛋白质相互作用关系数据、基因本体语义注释信息数据及蛋白质亚细胞定位数据是从公开的数据库中获取的。
进一步地,所述步骤(2)具体包括:
(2.1)由蛋白质相互作用关系数据得到蛋白质之间关系的邻接矩阵A;
(2.2)基于基因本体语义注释信息数据,找出每一对相互作用的两个蛋白质(u,v)对应的一对基因本体术语在生物过程信息下的编号(GO-id(u),GO-id(v));采用统计软件R中工具箱Gosim来计算蛋白质对(u,v)在生物过程下的语义相似度GOsim(u,v),从而得到所有蛋白质对之间的语义相似性度,由此构建基因本体语义相似度矩阵S;
(2.3)基于蛋白质亚细胞定位信息数据,并基于已有的蛋白质相互作用关系数据,统计网络中每条连边(u,v)对应蛋白质u,v的亚细胞定位信息SL(u),SL(v)并计算其交集,判断两个相互作用关系的蛋白质是否处在同一亚细胞定位,得到对应的子细胞定位信息的邻接矩阵数据SL_adj:
Figure BDA0003716071660000031
其中SL(u)表示蛋白质u的亚细胞定位信息数据,SL(v)表示蛋白质v的亚细胞定位信息数据。
进一步地,所述步骤(4)的建立增广的拉格朗日函数的步骤如下:
引入ψ,
Figure BDA0003716071660000032
及φ为约束W≥0,H1≥0及H2≥0的拉格朗日乘子,得到增广的拉格朗日函数如下:
Figure BDA0003716071660000033
基于上述增广拉格朗日函数L分别对W,H1及H2求偏导并采用KKT条件,得到如下迭代的方法优化步骤(3)中目标函数:
Figure BDA0003716071660000041
Figure BDA0003716071660000042
Figure BDA0003716071660000043
当迭代次数满足一定条件(如迭代大于100次)时终止迭代,得到优化后的W,H1
进一步地,所述步骤(5)中计算未知连接关系的蛋白质之间连接相似度值的步骤如下:
基于步骤(4)获得迭代优化后的W,H1,按照如下公式计算未知连接关系的蛋白质之间连接相似度值S_prediction:
S_prediction=(1-A).×A_sim.×SL_adj, (5)
其中A_sim=W×H1,.×表示矩阵对应元素相乘。
本发明的技术效果是:本发明与现有的技术相比,有效的将蛋白质之间的语义相似性信息以及已知蛋白质相互作用关系的拓扑结构相似性融入到非负矩阵分解框架中,并结合亚细胞定位信息数据进行过滤,认为处在不同亚细胞位置的蛋白质不会发生相互作用关系,提出了新的预测蛋白质之间相互作用关系的计算方法。本发明提出的方法在预测准确度上与已有方法相比具有明显优势,能有效解决了生物实验的昂贵成本和时间周期长等问题,可为生物学家进行生物学验证提供可靠依据。
附图说明
图1为本发明方法与R-NMTF方法在测试数据DIP Core下五折交叉验证下结果比较图,X轴表示FPR,Y轴表示TPR。
图2为本发明方法与R-NMTF方法在测试数据Collins2007下五折交叉验证下结果比较图,X轴表示FPR,Y轴表示TPR。
图3为本发明方法与R-NMTF方法在测试数据Krogan2006下五折交叉验证下结果比较图,X轴表示FPR,Y轴表示TPR。
具体实施方式
下面将结合实例详细说明本发明的算法流程及所具有的有益效果,旨在帮助阅读者更好地理解本发明的实质,但不能对本发明的实施和保护范围构成任何限定。
本发明旨在提供一种新的基于已有蛋白质相互作用关系数据来预测蛋白质之间未知的相互作用关系的计算方法,将蛋白质间相互作用关系预测看成是矩阵缺失数据填充问题。通过已有蛋白质相互作用关系数据构建蛋白质相互作用的邻接矩阵、基因本体语义相似度矩阵及蛋白质亚细胞定位信息矩阵,有效的将这三种信息融入到非负矩阵分解框架种用于预测未知的蛋白质之间相互作用关系。具体操作按照以下步骤进行:
1)基于已知的蛋白质相互作用关系数据,得到蛋白质之间连接关系的邻接矩阵A;
2)根据蛋白质相互作用数据中的任意一对蛋白质相互作用关系的两个蛋白,找出这两个蛋白在对应基因本体(GO)被注解术语注释编号(GO-id),然后根据基因语义相似性计算方法计算这一对蛋白质之间的功能相似性,依次类推,计算所有蛋白质对的功能相似性值,得到所有蛋白质之间语义相似度信息的邻接矩阵数据S;
3)统计蛋白质相互作用网络中每个蛋白质的亚细胞定位信息数据,如果任意两个蛋白质具有共同的亚细胞定位,那么对应的亚细胞定位信息邻接矩阵中对应的元素为1,否则为0。由此,构建基于蛋白质相互作用关系的亚细胞定位信息邻接矩阵SL_adj;
4)由上述步骤得到的网络邻接矩阵A、基因本体语义相似度矩阵S,亚细胞定位信息邻接矩阵SL_adj,代入到上面公式(1)中,随机初始化W,H1,H2,按照公式(2)(3)(4)中迭代方法进行求解得到优化后的W,H1。由公式(5)计算得到未知连接关系的蛋白质之间连接相似度值,值越大意味着这两个蛋白质之间存在相互作用的概率越大。
为了检验算法有效性,采用目前研究比如深入的酵母的蛋白质相互作用关系数据进行测试分析。本发明中用于测试的酵母蛋白质相互作用关系数据来源于DIP数据库2017年5月的core数据,剔除掉重复的和自相互作用数据后,最终得到一个包含2339个蛋白质和5182条连边的蛋白质相互作用网络数据;
从Gene Ontology Consortium数据库中下载酵母的GO注释语义信息数据,截止日期是2015-3-4;
酵母蛋白质的亚细胞定位数据来源于COMPARTMENTS数据库,该数据中酵母蛋白质分别被11种亚细胞定位注释,分别为细胞骨架、细胞核、内质网、细胞质、高尔基体、线粒体、核内体、细胞膜、溶酶体、细胞外基质和液泡。
蛋白质之间未知的相互作用关系预测可以抽象为蛋白质之间连接关系矩阵的补全,而矩阵的补全是通过矩阵分解来实现的。传统的非负矩阵分解方法仅仅依赖于已知蛋白质相互作用关系的拓扑结构信息,很难准确的预测蛋白质之间未知的连接关系。鉴于此,本发明通过综合PPI网络拓扑结构、GO语义注释信息、蛋白质亚细胞定位数据提出了一个新的基于非负矩阵分解框架的预测蛋白质之间未知相互作用关系的计算方法。在给定的测试酵母蛋白质相互作用网络数据下,计算未知连接关系的两个蛋白质之间连接关系相似性值,具体实施步骤如下:
步骤1.基于已有蛋白质相互作用关系数据,首先找出里面蛋白质数目m,然后构建m*m的矩阵,若两个对应位置蛋白质之间存在相互作用关系对应矩阵中元素为1否则为0,通过这样的方式构建蛋白质之间邻接关系矩阵A。
步骤2.为了刻画两个蛋白质之间功能相似性,我们采用基因本体(GeneOntology,GO)被注解术语对的基因语义相似性来度量两个相连蛋白质功能之间的相似程度。基因本体包含三个独立部分,分别是生物过程(Biological Process(BP)),细胞组成(Cellular Component(CC))和分子功能(Molecular function(MF))。之前的研究表明,生物过程信息比其它两种信息在预测关键蛋白质时更有优势,因此仅考虑在生物过程下的语义相似性,采用基于James Z Wang等人提出的计算方法(Wang JZ,Du Z,Payattakool R,YuPS,Chen CF:A new method to measure the semantic similarity of GOterms.Bioinformatics 2007,23(10):1274-1281)的R中工具箱GOsim来计算两个相连蛋白质u,v之间功能相似性S(u,v),由此计算得到任意两个蛋白质之间的语义相似性矩阵S。
步骤3.基于蛋白质亚细胞定位信息数据,以酵母数据为例,酵母蛋白质一共有11种亚细胞定位信息数据,分别是细胞核nucleus(NS)、细胞溶质cytosol(CL)、细胞骨架cytoskeleton(CN)、过氧物酶体peroxisome(PE)、溶酶体lysosome(LE)、内质网endoplasmic(EC)、高尔基体golgi(GI)、质膜plasma(PA)、endosome(EE)、细胞外蛋白质extracellular(ER)、线粒体mitochondrion(MN);认为处在不同亚细胞位置的蛋白质不会发生相互作用关系,基于已有蛋白质相互作用关系数据,查找每个蛋白质u对应的亚细胞定位信息数据SL(u),构建任意两个蛋白质之间是否有共同亚细胞定位信息的矩阵,有共同亚细胞定位的两个蛋白质之间对应矩阵元素为1,否则为0,由此得到亚细胞定位信息的邻接矩阵SL_adj定义如下:
Figure BDA0003716071660000061
其中SL(u)表示蛋白质u的亚细胞定位信息数据。
步骤4.基于上述步骤中计算得到的邻接矩阵A,基因本体语义相似性矩阵S,蛋白质亚细胞定位信息矩阵SL_adj,定义基于非负矩阵分解框架的优化函数如下:
Figure BDA0003716071660000071
其中A表示邻接矩阵,S表示基因本体语义相似度矩阵,||·||F表示Frobenius范数,Tr表示求迹,λ1表示权重参数,λ234分别为正则化参数防止过拟合。测试数据中设定λ1=0.9,λ2=λ3=λ4=0.001。
首先随机初始化W∈Rn*k,H1∈Rk*n,H2∈Rk*n,采用如下迭代的格式求解上述函数
Figure BDA0003716071660000072
Figure BDA0003716071660000073
Figure BDA0003716071660000074
当迭代次数大于100次时终止迭代,得到优化后的W,H1.
步骤5.基于上面优化得到的W,H1,按照如下方法计算未知连接关系的蛋白质之间连接相似度矩阵S_prediction,认为相似度矩阵中对应元素的预测值越大意味着这两个蛋白质之间存在相互作用可能性越大。
S_prediction=(1-A).×A_sim.×SL_adj(其中A_sim=W×H1,.×表示矩阵对应元素相乘)
为了评估本发明方法的有效性,采用曲线下面积(AUC)和预测精确度(Precision)这两个度量指标评估方法的有效性。其中AUC表示在测试数据集中随机选择一条边的分数值比随机选择的一条不存在变得分数值高的概率。AUC的计算方法定义如下:
Figure BDA0003716071660000075
其中n表示随机地从测试集中取一条边,然后从不存在的边中随机选择一条边,重复n次,如果有n1次测试集中边分数值大于不存在的边分数,有n2次两分数值相等。
精确度ACC的定义如下:
Figure BDA0003716071660000081
其中k表示将未知连接关系的预测值按照从大到小排序后选择前k条连边作为预测的正确的连边数,l表示实际预测正确的连边个数。
本发明方法与其它矩阵分解方法预测蛋白质相互作用关系的曲线下面积(AUC)及精确度(ACC)比较:
表1.新方法在三种测试数据下预测精确度(ACC)和曲线下面积AUC的均值和方差结果
Figure BDA0003716071660000082
表2.文献中R-NMTF方法在三种测试数据下预测精确度精确度(ACC)和曲线下面积AUC的均值和方差结果
Figure BDA0003716071660000083
从以上表1,表2的比较中可以看出,本发明方法在三种测试数据下计算两种度量指标AUC及ACC下的结果明显优于文献中方法R-NMTF。
以上所述的仅仅是对本发明的实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (7)

1.一种基于非负矩阵分解框架的预测蛋白质相互作用关系的方法,该方法包括以下步骤:
(1)获取已有蛋白质相互作用关系数据、基因本体语义注释信息数据及蛋白质亚细胞定位数据;
(2)基于已有蛋白质相互作用关系数据构建邻接矩阵A,基于基因本体语义注释信息数据构建蛋白质与蛋白质间的基因功能相似性矩阵S,基于蛋白质亚细胞定位数据构建蛋白质间的亚细胞定位信息邻接矩阵SL_adj;
(3)定义一个基于非负矩阵分解框架的目标函数:
Figure FDA0003716071650000011
其中,A表示邻接矩阵,W≥0,H1≥0及H2≥0,S表示基因功能相似性矩阵,||·||F表示Frobenius范数,Tr(A)表示求矩阵A的迹,λ1表示权重参数,λ234分别为防止过拟合的正则化参数,p为1-2间的参数,L=D-C,C为邻接矩阵A的余弦相似性矩阵,
Figure FDA0003716071650000012
(4)建立增广的拉格朗日函数,使用基于迭代优化的方法来优化目标函数值;
(5)获得迭代优化后的W,H1,计算未知连接关系的蛋白质之间连接相似度值;
(6)将未知连接关系蛋白质之间的相似度值按照从大到小排序,排序的前k个最大相似值对应的连接关系即为预测的蛋白质相互作用关系。
2.根据权利要求1所述的方法,其特征在于,步骤(1)所述已有蛋白质相互作用关系数据、基因本体语义注释信息数据及蛋白质亚细胞定位数据是从公开的数据库中获取的。
3.根据权利要求1所述的方法,其特征在于,所述步骤(2)具体包括:
(2.1)由蛋白质相互作用关系数据得到蛋白质之间关系的邻接矩阵A;
(2.2)基于基因本体语义注释信息数据,找出每一对相互作用的两个蛋白质(u,v)对应的一对基因本体术语在生物过程信息下的编号(GO-id(u),GO-id(v));采用统计软件R中工具箱Gosim来计算蛋白质对(u,v)在生物过程下的语义相似度GOsim(u,v),从而得到所有蛋白质对之间的语义相似性度,由此构建基因本体语义相似度矩阵S;
(2.3)基于蛋白质亚细胞定位信息数据,并基于已有的蛋白质相互作用关系数据,统计网络中每条连边(u,v)对应蛋白质u,v的亚细胞定位信息SL(u),SL(v)并计算其交集,判断两个相互作用关系的蛋白质是否处在同一亚细胞定位,得到对应的子细胞定位信息的邻接矩阵数据SL_adj:
Figure FDA0003716071650000021
其中SL(u)表示蛋白质u的亚细胞定位信息数据,SL(v)表示蛋白质v的亚细胞定位信息数据。
4.根据权利要求1所述的方法,其特征在于,所述步骤(4)的建立增广的拉格朗日函数的步骤如下:
引入ψ,
Figure FDA0003716071650000022
及φ为约束W≥0,H1≥0及H2≥0的拉格朗日乘子,得到增广的拉格朗日函数如下:
Figure FDA0003716071650000023
基于上述增广拉格朗日函数L分别对W,H1及H2求偏导并采用KKT条件,得到如下迭代的方法优化步骤(3)中目标函数:
Figure FDA0003716071650000024
Figure FDA0003716071650000025
Figure FDA0003716071650000026
当迭代次数满足一定条件时终止迭代,得到优化后的W,H1
5.根据权利要求1所述的方法,其特征在于,所述步骤(5)中计算未知连接关系的蛋白质之间连接相似度值的步骤如下:
基于步骤(4)获得迭代优化后的W,H1,按照如下公式计算未知连接关系的蛋白质之间连接相似度值S_prediction:
S_prediction=(1-A).×A_sim.×SL_adj, (5)
其中A_sim=W×H1,.×表示矩阵对应元素相乘。
6.根据权利要求1所述的方法,其特征在于,所述步骤(6)中k为100-200的正整数。
7.根据权利要求4所述的方法,其特征在于,所述一定条件是指迭代次数大于100次。
CN202210743745.1A 2022-06-27 2022-06-27 基于非负矩阵分解框架的预测蛋白质相互作用关系的方法 Pending CN115116551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210743745.1A CN115116551A (zh) 2022-06-27 2022-06-27 基于非负矩阵分解框架的预测蛋白质相互作用关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210743745.1A CN115116551A (zh) 2022-06-27 2022-06-27 基于非负矩阵分解框架的预测蛋白质相互作用关系的方法

Publications (1)

Publication Number Publication Date
CN115116551A true CN115116551A (zh) 2022-09-27

Family

ID=83329593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210743745.1A Pending CN115116551A (zh) 2022-06-27 2022-06-27 基于非负矩阵分解框架的预测蛋白质相互作用关系的方法

Country Status (1)

Country Link
CN (1) CN115116551A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备
CN117912591A (zh) * 2024-03-19 2024-04-19 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备
CN115565607B (zh) * 2022-10-20 2024-02-23 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备
CN117912591A (zh) * 2024-03-19 2024-04-19 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法
CN117912591B (zh) * 2024-03-19 2024-05-31 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法

Similar Documents

Publication Publication Date Title
Roney et al. State-of-the-art estimation of protein model accuracy using AlphaFold
Polanski et al. Bioinformatics
Sharan et al. CLICK and EXPANDER: a system for clustering and visualizing gene expression data
Pržulj et al. Functional topology in a network of protein interactions
CN115116551A (zh) 基于非负矩阵分解框架的预测蛋白质相互作用关系的方法
Flores et al. A new measure for gene expression biclustering based on non-parametric correlation
US20110246409A1 (en) Data set dimensionality reduction processes and machines
Jiang et al. Predicting protein function by multi-label correlated semi-supervised learning
CN109166604B (zh) 一种融合多数据特征预测关键蛋白质的计算方法
Müller et al. Data quality in genome databases
Jaimovich et al. Towards an integrated protein–protein interaction network: A relational markov network approach
Lin et al. Clustering methods in protein-protein interaction network
Chang et al. Improving the analysis of biological ensembles through extended similarity measures
Xu et al. From function to interaction: A new paradigm for accurately predicting protein complexes based on protein-to-protein interaction networks
Pasupuleti Detection of protein complexes in protein interaction networks using n-clubs
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
Sachs et al. Learning signaling network structures with sparsely distributed data
Zengyou Data mining for bioinformatics applications
Yu et al. A supervised approach to detect protein complex by combining biological and topological properties
Moschopoulos et al. An enhanced Markov clustering method for detecting protein complexes
Kelley et al. Extracting between-pathway models from E-MAP interactions using expected graph compression
Krause Large scale clustering of protein sequences
Wodak et al. High-throughput analyses and curation of protein interactions in yeast
Breimann et al. AAclust: k-optimized clustering for selecting redundancy-reduced sets of amino acid scales
Ezzat Challenges and solutions in drug-target interaction prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination