CN112259157A

CN112259157A - 一种蛋白质相互作用预测方法

Info

Publication number: CN112259157A
Application number: CN202011172472.7A
Authority: CN
Inventors: 黄剑平; 李达
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-22
Anticipated expiration: 2040-10-28
Also published as: CN112259157B

Abstract

本发明公开了一种基于融合生物语义的非相互作用蛋白质对的采样策略的蛋白质相互作用预测方法，基于GO术语语义相似度对处于不同分子功能、生物学进程、细胞成分的蛋白质对进行采样并组合获得NIPs子集。通过这种负集采样策略，获得一个更高质量且低选择偏差的非蛋白质相互作用数据集，从而经过训练获得一个具有更好的鲁棒性和较好的预测性能的蛋白质相互作用预测模型。

Description

一种蛋白质相互作用预测方法

技术领域

本发明涉及生物信息技术领域，具体涉及一种基于融合生物语义的非相互作用蛋白质对的采样策略的蛋白质相互作用预测方法。

背景技术

蛋白质-蛋白质相互作用(Protein-protein interactions，下文简称PPIs)在细胞结构和功能中发挥着重要作用，研究与重建PPIs网络不仅有助于了解细胞过程和疾病发病机理，而且有助于开发治疗药物。现有的PPIs实验方法具有劳动密集型和耗时的局限性，从而导致了对蛋白质相互作用计算预测的需要。虽然当前已有一些较为先进的PPIs计算预测模型被提出，但大部分计算模型同时需要正负样本进行模型的训练，具有对高质量PPIs和NIPs(non-interacting proteins)数据的需要。目前，通过多种实验技术和计算方法验证的PPIs通常被认为是高质量的。然而，由于实验验证的负样本集非常小，而且实际NIPs比PPIs多成百上千倍，所以我们通常需要对NIPs集合进行子集采样，因此如何采样生成高质量且选择性偏差较小的NIPs子集逐渐引起人们更多的重视。

目前对于NIPs子集的采样问题还没有一个标准的解决方案，两种策略被广泛地使用。一种是随机采样的方法：通过随机配对蛋白质，然后删除正例。其原理是两个随机采样的蛋白质高概率不会相互作用，而且采样获得的NIPs子集偏差较小。但随机抽样的方法具有对假阴性数据采样的风险，并且很难从生物学上进行解释。另一种是亚细胞定位的采样方法：选择了不是亚细胞共定位的那些蛋白质对作为阴性实例。这种采样方法减少了假阴性率，获得的阴性数据更可靠，但无法覆盖处于相同亚细胞定位的NIPs，导致模型预测中带有选择偏差，生成的模型难以在真实工作场景得到较好的效果。

基于此，本发明的关注点在于如何根据蛋白质的生物学语义进行非相互作用蛋白质对的采样，以获得一个更高质量且低选择偏差的非相互作用蛋白质对数据集，从而训练出一个具有更好的鲁棒性和较好的预测性能的蛋白质相互作用预测模型。

发明内容

针对上述技术问题，本发明提供了一种基于融合生物语义的非相互作用蛋白质对的采样策略的蛋白质相互作用预测方法，该方法基于GO(基因本体，Gene Ontology，见文献Ashburner M,Ball C A et al.,Nature Genetics,2000,25(1):25-29.)术语语义相似度对处于不同分子功能、生物学进程、细胞成分的蛋白质对进行采样并组合获得NIPs子集。通过这种负集采样策略，获得一个更高质量且低选择偏差的非蛋白质相互作用数据集，从而经过训练获得一个具有更好的鲁棒性和较好的预测性能的蛋白质相互作用预测模型。

一种基于融合生物语义的非相互作用蛋白质对的采样策略的蛋白质相互作用预测方法，包括步骤：

(A)根据PPIs数据集构建PPIs网络，获得PPIs网络的补集作为NIPs集合；

(B)基于基因本体术语，计算蛋白质对的最大生物学语义相似度；

(C)根据步骤(B)的计算方法从NIPs集合选取出不同分子功能、不同生物学进程、不同细胞成分的三种NIPs子集；

(D)将所述三种NIPs子集组合获得一个融合生物语义的NIPs数据集；

(E)将所述PPIs数据集与融合生物语义的NIPs数据集作为蛋白质相互作用预测模型的正负样本数据集；

(F)将所述蛋白质相互作用预测模型的数据集划分为训练集和测试集；

(G)基于所述训练集，将蛋白质序列信息用嵌入向量表示，再使用循环卷积神经网络模型进行训练，建立预测模型；

(H)基于所述预测模型对所述测试集进行预测；通过输入一对蛋白质的氨基酸序列信息，预测是否会发生相互作用。

步骤(A)中，所述PPIs网络的边为蛋白质对相互作用，所述PPIs网络的补集网络的边为未发现相互作用的蛋白质对。PPIs数据集中蛋白质对数量记为n₀，NIPs集合中蛋白质对数量记为N，N>>n₀，如N可大于500n₀。

所述步骤(B)通过查询一对蛋白质对中的两个蛋白质在Uniprot数据库中的GO术语注释列表，然后使用GO术语语义相似度计算方法对两个GO术语注释列表中的GO术语(两列表各取一个)两两之间进行GO术语语义相似性的度量获得相似度列表，并获得其中最大的语义相似度。

步骤(C)中，从NIPs集合中随机选取M对蛋白质对，根据步骤(B)描述的方法计算这些蛋白质对的分子功能的GO术语的最大相似度列表，并从小到大进行排序，选取前n对蛋白质对，即生物功能最不相似的前n对作为不同分子功能的NIPs子集；重复两次随机选取M对蛋白质对，按同样方法分别选取出不同生物进程的和不同细胞成分的且大小均为n的NIPs子集。所述n＝n₀，即每种NIPs子集中蛋白质对数量n等于PPIs数据集中蛋白质对数量n₀。

M越大越好，优选M＞10n₀，n₀为PPIs数据集中蛋白质对数量。

步骤(D)中，按1:1:1的比例或者尽可能接近1:1:1的比例分别从所述三种NIPs子集中随机选取蛋白质对组合获得一个融合生物语义的NIPs数据集，该数据集大小与PPIs数据集相同。所述尽可能接近1:1:1的比例指的是n无法被3整除时，三种NIPs子集中随机选取出的蛋白质对数量方差最小。

步骤(E)中，所述蛋白质相互作用预测模型的数据集中，每一个样本都由一对蛋白质组成，其中独立变量为两个蛋白质的氨基酸序列信息，而因变量为蛋白质对之间的相互作用关系，具体步骤如下：

(1)因变量的取值判断如下：如果一对蛋白质之间存在着已知的相互作用关系，那么对应的因变量值为阳性；如果一对蛋白质之间未发现存在相互作用关系，对应的因变量值为阴性；

(2)使用PPIs数据集中的蛋白质对构成阳性样本，而阴性样本则使用所述融合生物语义的NIPs数据集中的蛋白质对，并使阳性样本和阴性样本的数据比例保持为1:1。

步骤(F)中，可将所述蛋白质相互作用预测模型的数据集中所有蛋白质对按4:1比例随机划分为训练集和测试集。

步骤(G)中，基于所述训练集，先将蛋白质氨基酸序列信息用CT one-hot(Shen J,Zhang J,et al.,Proc Natl Acad,U S A,2007,104(11):4337-4341.)编码的序列嵌入向量表示，再使用循环积神经网络模型进行训练，建立预测模型并对所述预测模型超参数进行设置。

本发明与现有技术相比，主要优点包括：

(1)使用融合生物语义的NIPs负集采样方法在NIPs集合空间中采样NIPs子集，采样获得的NIPs子集在具有高质量的同时选择性偏差也较低，并且具有较好的生物学解释性。

(2)所述训练获得的蛋白质相互作用预测模型，具有更好的鲁棒性和较好的预测性能，更加容易泛化至总体水平，并且适用于真实的预测蛋白质相互作用的环境下有效工作。

附图说明

图1为本发明的基于融合生物语义的非相互作用蛋白质对的采样策略的蛋白质相互作用预测方法的示意图。

具体实施方式

下面结合附图及具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的操作方法，通常按照常规条件，或按照制造厂商所建议的条件。

本发明的基于融合生物语义的非相互作用蛋白质对的采样策略的蛋白质相互作用预测方法如图1所示，具体地，包括步骤：

(A)从DIP数据库(Lukasz,Salwinski et al.,Nucleic Acids Research,suppl_1(2004):suppl_1.)中的酿酒酵母核心子集(“Scere20080708.txt”)获得酵母PPIs数据。将原始酵母PPIs数据先使用CD-HIT(Godzik,Li Adam.,Bioinformatics,22.13(2006):1658.)程序进行聚类分析，选取40％序列同一性水平一下的PPIs生成非冗余子集，然后去除长度小于50个氨基酸的蛋白质，从而获得PPIs数据集，具有5594对PPIs。然后根据生成的PPIs数据集构建PPIs网络(蛋白质对相互作用为网络的边)，获得PPIs网络的补集(未发现相互作用的蛋白质对为补集网络的边)作为NIPs集合，NIPs集合中蛋白质对数量为N，约等于315万。

(B)通过查询蛋白质在Uniprot数据库(Consortium T U et al.,Nucleic AcidsResearch,2007,35(suppl_1):D154–D159.)中的GO术语注释，可以获得蛋白质的细胞成分、分子功能、生物学进程的GO术语列表。

然后通过R语言软件包GOsemsim(Yu G et al.,Bioinformatics.2010Apr 1；26(7):976-978.)中提供的wang等人的方法(见文献Wang J Z,Du Z et al.,Bioinformatics,2007,23(10):1274-1281.)计算两个GO术语语义之间的相似度。

所以，我们可以基于基因本体术语，计算一对蛋白质的三种生物学的最大语义相似度。以计算一对蛋白质的最大分子功能语义相似度为例，先查询这两个蛋白质各自的分子功能GO术语列表，然后分别遍历这两个GO术语列表，各取出一个GO术语并计算这两个GO术语的相似度，从而获得i*j个相似度(i、j分别为两个分子功能GO术语列表的长度)。最后取以上相似度最大的值作为两个蛋白质之间的最大分子功能语义相似度。

(C)从NIPs集合中随机选取50000对蛋白质对，根据步骤(B)描述的方法计算这些蛋白质对的最大分子功能语义相似度，并根据蛋白质对的最大分子功能语义相似度从小到大进行排序，选取前5594对蛋白质对，即生物功能最不相似的前5594对作为不同分子功能的NIPs子集，记作MF_nips。同理，重复两次随机选取50000对蛋白质对，分别选取出5594对不同生物学进程的NIPs子集和不同细胞成分的NIPs子集记作BP_nips和CC_nips。

(D)将上述三种NIPs子集以1:1:1比例组合，即分别在三个负例样本集中随机选取蛋白质对(CC_nips 1865对蛋白质对+MF_nips 1865对蛋白质对+BP_nips 1864蛋白质对)，从而获得一个与PPIs正例样本集大小相等的融合生物语义的NIPs数据集。

(E)将上述PPIs数据集与融合生物语义采样获得的NIPs子集组合，作为蛋白质相互作用预测模型的数据集。其中每一个样本都由一对蛋白质组成，其中独立变量为两个蛋白质的氨基酸序列信息，而因变量为蛋白质对之间的相互作用关系，具体步骤如下：

(1)因变量的取值判断如下：如果一对蛋白质之间存在着已知的相互作用关系，那么对应的因变量值为阳性(positive或1)；如果一对蛋白质之间未发现存在相互作用关系，对应的因变量值为阴性(negative或0)；

(2)使用PPIs数据集中的蛋白质对构成阳性样本，而阴性样本则使用上述获得的NIPs数据集中的蛋白质对，并使阳性样本和阴性样本的数据比例保持为1:1。

(F)将蛋白质相互作用预测模型数据集中所有蛋白质对数据按4:1比例随机划分为训练集与测试集。其中四部分作为训练集，一部分作为测试集。

(G)基于所述训练集，将蛋白质氨基酸序列信息用CT one-hot编码的序列嵌入向量表示，再使用循环积神经网络模型进行预测模型的训练，并所述预测模型超参数进行设置和优化，部分超参数设置如下：Hidden States为50，RCNN uint为2，batch-size为256。

(H)基于所述预测模型对所述测试集进行预测，在测试集上获得0.7391的准确率。将negatome数据集(Philipp B,Goar F,et al.,Nucleic Acids Research,(D1):396-400.)中的NIPs数据集作为外部测试集进行测试，获得0.6386的准确率。基于本发明的结果准确率在自身准确率较好的情况下，对Negatome数据集的预测准确率高于同类文献所报道的准确率。例如：①使用随机游走策略采样NIPs训练获得蛋白质相互作用预测模型的文献(Zhang L,Yu G,Guo M et al.,BMC Bioinformatics,2018,19(S19).)在Negatome上测试所获得的准确率约18％；②基于同源性的NIPs采样方法的文献(Suyu Mei,Kun Zhang.,International Journal of Molecular Sciences,2019,20(20).)在Negatome上测试所获得的准确率约53％。

此外应理解，在阅读了本发明的上述描述内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于融合生物语义的非相互作用蛋白质对的采样策略的蛋白质相互作用预测方法，其特征在于，包括步骤：

2.根据权利要求1所述的蛋白质相互作用预测方法，其特征在于，步骤(A)中，所述PPIs网络的边为蛋白质对相互作用，所述PPIs网络的补集网络的边为未发现相互作用的蛋白质对。

3.根据权利要求1所述的蛋白质相互作用预测方法，其特征在于，所述步骤(B)通过查询一对蛋白质对中的两个蛋白质在Uniprot数据库中的GO术语注释列表，然后使用GO术语语义相似度计算方法对两个GO术语注释列表中的GO术语两两之间进行GO术语语义相似性的度量获得相似度列表，并获得其中最大的语义相似度。

4.根据权利要求3所述的蛋白质相互作用预测方法，其特征在于，步骤(C)中，从NIPs集合中随机选取M对蛋白质对，根据步骤(B)描述的方法计算这些蛋白质对的分子功能的GO术语的最大相似度列表，并从小到大进行排序，选取前n对蛋白质对，即生物功能最不相似的前n对作为不同分子功能的NIPs子集；重复两次随机选取M对蛋白质对，按同样方法分别选取出不同生物进程的和不同细胞成分的且大小均为n的NIPs子集；

每种NIPs子集中蛋白质对数量n等于PPIs数据集中蛋白质对数量n₀。

5.根据权利要求4所述的蛋白质相互作用预测方法，其特征在于，M＞10n₀。

6.根据权利要求4或5所述的蛋白质相互作用预测方法，其特征在于，步骤(D)中，按1:1:1的比例或者尽可能接近1:1:1的比例分别从所述三种NIPs子集中随机选取蛋白质对组合获得一个融合生物语义的NIPs数据集，该数据集大小与PPIs数据集相同。

7.根据权利要求6所述的蛋白质相互作用预测方法，其特征在于，步骤(E)中，所述蛋白质相互作用预测模型的数据集中，每一个样本都由一对蛋白质组成，其中独立变量为两个蛋白质的氨基酸序列信息，而因变量为蛋白质对之间的相互作用关系，具体步骤如下：

8.根据权利要求7所述的蛋白质相互作用预测方法，其特征在于，步骤(F)中，将所述蛋白质相互作用预测模型的数据集中所有蛋白质对按4:1比例随机划分为训练集和测试集。