CN106599611B

CN106599611B - 蛋白质功能标注方法及***

Info

Publication number: CN106599611B
Application number: CN201611128108.4A
Authority: CN
Inventors: 邓磊; 曾丞
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2019-04-30
Anticipated expiration: 2036-12-09
Also published as: CN106599611A

Abstract

本发明涉及生物信息技术领域，公开了一种蛋白质功能标注方法及***，以提高蛋白质标注的性能、解决生物实验方法成本高昂和效率低下的问题。本发明方法包括：根据第一级结构邻居和第二级结构邻居评估某一功能在待查询蛋白质中出现的第一可能性；并根据所有的同源序列评估该功能在待查询蛋白质中出现的第二可能性；并将待查询蛋白质的PSSM矩阵输入SVM预测模型得出该功能在待查询蛋白质中出现的第三可能性；以及根据基因共表达分数将其它物种中对应该功能的分布情况转换成目标物种中该功能在待查询蛋白质中出现的第四可能性；然后融合第一、第二、第三及第四可能性以评估该功能在待查询蛋白质中出现的综合可能性。

Description

蛋白质功能标注方法及***

技术领域

本发明涉及生物信息技术领域，尤其涉及一种蛋白质功能标注方法及***。

背景技术

蛋白质是一切生命的物质基础，是生命活动的最终控制者和直接执行者，它参与生物体内几乎所有的生命活动过程，如遗传、发育、繁殖、物质和能量的代谢、应激、思维和记忆等。蛋白质由20种不同的氨基酸残基通过肽键相互连接构成，折叠成特定的空间构象后，蛋白质就具有相应的生物学活性和功能。蛋白质功能(Protein Function)从生理学的角度包括:酶催化、物质运载和储存、营养存储、运动协调、机械支持、免疫保护、信号接受与传导、生长和分化的控制作用等。人类关注蛋白质功能很大程度上也是由于蛋白质和人类健康之间千丝万缕的联系，目前已发现的遗传性疾病绝大多为基因突变导致所编码蛋白质的功能异常所造成。比如隐性遗传性的苯丙酮尿症(Phenylketonuria，PKU)就是由于苯丙氨酸羟化酶的缺乏造成；白化病则是由于先天性缺乏酪氨酸酶，或酪氨酸酶活性下降，而使得黑色素合成发生障碍所导致；遗传性囊性纤维化(Cystic Fibrosis，CF)与位于细胞质膜上的氯离子通道调节因子的功能缺失有关。

确定未知蛋白质的功能对于了解生物体在生理或病理条件下的变化机制、疾病预防和药物开发都有重要的意义。识别蛋白质功能的实验方法主要有凝胶电泳法(Gelelectrophoresis)、酵母双杂交法(Yeast Two-hybrid)、串联亲和纯化技术(TAP)、焚光共振能量转移技术(FRET)、蛋白质芯片技术和免疫电镜技术(IEM)等，虽然这些方法能够对未知蛋白质的功能进行精确确定，但由于实验设计复杂、代价高昂和周期长，使其只能适用于小规模实验，不能满足在全基因组范围内对蛋白质功能进行注释的需要。到目前为止，有超过3000种细胞生物的全基因组序列被测定，在公开访问的数据库中有超过500万的非冗余蛋白质序列数据。应用生物实验来确定这些蛋白质的功能将是一项非常耗时和昂贵的任务。因此，使用生物实验标注的方法是不可能赶上蛋白质序列数据增长速度。目前，分别大约只有20％、7％、10％和1％的人类、家鼠、果蝇和线虫的蛋白质功能被实验标注(GeneOntology的TAS标注)。鉴于这种情况，科学家们逐渐转向以计算方法作为支持来标注数量庞大的序列和结构数据。

已有的基于计算方法的蛋白质功能预测技术包括BLAST，ESG和Argot2等，主要基于序列同源信息。基于序列同源的功能转换是当前蛋白质功能预测的主流方法，但其预测准确率(Accuracy)和覆盖度(Coverage)并不高，存在一定限制。从蛋白质序列推导蛋白质功能的方法只有当序列高度相似的时候才比较准确，当序列相似度低于30％的时候，基于同源的功能预测方法的准确率将急剧下降。

发明内容

本发明目的在于公开一种蛋白质功能标注方法及***，以提高蛋白质标注的性能、解决生物实验方法成本高昂和效率低下的问题。

为实现上述目的，本发明公开一种蛋白质功能标注方法，包括：

步骤S1、根据待查询蛋白质的代表结构查找第一级结构邻居；

步骤S2、搜索所述待查询蛋白质的同源序列，根据同源序列的代表结构查找所述待查询蛋白质的第二级结构邻居；

步骤S3、根据所述第一级结构邻居和第二级结构邻居的某一功能的分布情况，评估该功能在所述待查询蛋白质中出现的第一可能性；并根据所有的同源序列对应该功能的分布情况评估该功能在所述待查询蛋白质中出现的第二可能性；

步骤S4、建立通过PSSM矩阵预测该功能的SVM预测模型，并将所述待查询蛋白质的PSSM矩阵输入所述SVM预测模型得出该功能在所述待查询蛋白质中出现的第三可能性；

步骤S5、根据所述待查询蛋白质对应的查询基因及该查询基因的共表达基因，计算其它物种中对应的直系同源间的基因共表达分数，并根据所述基因共表达分数将其它物种中对应该功能的分布情况转换成目标物种中该功能在所述待查询蛋白质中出现的第四可能性；

步骤S6、融合所述第一、第二、第三及第四可能性以评估该功能在所述待查询蛋白质中出现的综合可能性

与上述方法相对应的，本发明还公开一种蛋白质功能标注***，包括：

第一处理模块、用于根据待查询蛋白质的代表结构查找第一级结构邻居；

第二处理模块、用于搜索所述待查询蛋白质的同源序列，根据同源序列的代表结构查找所述待查询蛋白质的第二级结构邻居；

第三处理模块、用于根据所述第一级结构邻居和第二级结构邻居的某一功能的分布情况，评估该功能在所述待查询蛋白质中出现的第一可能性；并根据所有的同源序列对应该功能的分布情况评估该功能在所述待查询蛋白质中出现的第二可能性；

第四处理模块、用于建立通过PSSM矩阵预测该功能的SVM预测模型，并将所述待查询蛋白质的PSSM矩阵输入所述SVM预测模型得出该功能在所述待查询蛋白质中出现的第三可能性；

第五处理模块、用于根据所述待查询蛋白质对应的查询基因及该查询基因的共表达基因，计算其它物种中对应的直系同源间的基因共表达分数，并根据所述基因共表达分数将其它物种中对应该功能的分布情况转换成目标物种中该功能在所述待查询蛋白质中出现的第四可能性；

第六处理模块、用于融合所述第一、第二、第三及第四可能性以评估该功能在所述待查询蛋白质中出现的综合可能性。

本发明具有以下有益效果：

从结构、序列、PSSM及跨物种共表达信息多方面评估并融合得出某一功能在待查询蛋白质中出现的综合可能性，提高蛋白质标注的性能，进而可扩展得出该待查询蛋白质各个功能相对应的可能性值，解决了生物实验方法成本高昂和效率低下的问题。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例公开的蛋白质功能标注方法流程图；

图2是本发明实施例公开的搜索结构邻居所使用的结构比对算法流程图；

图3本发明(PredGO)与其他8种基于不同数据源的方法在GOA-PDB数据集上的ROC曲线，这8种数据源分别是结构信息(Str)，共表达信息(Coexpression)，***进化谱(Phylogenetics)，位置特异性得分矩阵(PSSM)，3元序列信息(Trigram)，相互作用信息(PPI)，功能域信息(Interpro)以及直系同源信息(Othology)；ROC曲线越高则预测性能越好；

图4本发明(PredGO)与其它三种功能预测方法BLAST，Argot2和Str在CAFA数据集上的ROC曲线比较图，ROC曲线越高则预测性能越好；

图5本发明(PredGO)与其它已有功能预测方法(BLAST，Jones-UCL，Argot2，ESG和Str)在CAFA数据集的最大F值(Fmax)比较，最大F值越高表示预测性能越好。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1

本实施例公开一种蛋白质功能标注方法，如图1所示，包括：

步骤S1、根据待查询蛋白质的代表结构查找第一级结构邻居。

在该步骤中，可以根据蛋白质的结构相似性特别是遥远的三维结构相似性来推断蛋白质的功能。对于给定的待查询蛋白质Q，从PDB库或者同源模型数据库中获取一个代表结构M，使用结构邻居搜索算法在蛋白质结构库中找到M所有的结构邻居构成第一级结构邻居(N1,N2,...)。

步骤S2、搜索待查询蛋白质的同源序列，根据同源序列的代表结构查找待查询蛋白质的第二级结构邻居。

在该步骤中，可以使用序列比对方法PSI-BLAST(迭代一次)在PDB库中搜索出所有的同源序列(H1,H2,...)，对于每一个同源序列Hi，依托上述步骤S1类似的方法搜索出该同源序列的结构邻居以构成相对于待查询蛋白质的第二级结构邻居。

步骤S3、根据第一级结构邻居和第二级结构邻居的某一功能的分布情况，评估该功能在待查询蛋白质中出现的第一可能性；并根据所有的同源序列对应该功能的分布情况评估该功能在待查询蛋白质中出现的第二可能性。

在该步骤中，由于第一级结构邻居是依据待查询蛋白质自身代表结构直接确定的，其相比于第二级结构邻居更能反映某一功能在该待查询蛋白质中出现的可能性；为此，本实施例可通过下述公式来综合第一级结构邻居和第二级结构邻居的功能的分布情况，来评估相应功能在待查询蛋白质中出现的可能性，具体公式如下：

其中，P_i为待查询蛋白质与第i个第一级结构邻居S_i间的结构距离，如果S_i具有功能f_a，为1，否则为0，w为权值，N_s为第一级结构邻居的数目；N_seq为同源序列的数目，E_i为与同源序列与所述待查询蛋白质的序列相似度，P_ij为第i个同源序列与第j个第二级结构邻居S_ij间的结构距离，为第二级结构邻居的数目；同理，如果S_ij具有功能f_a，为1，否则为0。

可选的，对于一个给定的代表结构，可使用如图2所示的两阶段方法来进行结构比对构建结构邻居集，在第一个阶段，是使用双动态规划算法，进行蛋白质相对距离和二级结构片段(SSEs)方向的比较，由于蛋白质中SSEs的数目相对比较少，计算的速度会比较快。基于一个给定的结构相似度阈值，潜在的相似蛋白质被选择进入了第二阶段的比较。这一阶段通过一个优化的目标函数对相关残基对进行拓扑比对。优化目标为最大化对等残基对的数目，并使重叠结构的C_αRMSD最小。使用迭代的动态规划算法和刚体叠加算法来优化残基-残基比对。第二阶段的计算量比第一阶段更大，但是由于第一阶段过滤了大部分结构，减少了计算开销。由于结构数据库(有功能标注的PDB结构)中蛋白质的数目巨大，为了减少计算量，使用Cd-hit对结构库中的蛋白质按照序列相似度进行聚类，将相似度大于60％的蛋白质归为同一类。在使用结构比对方法搜索结构邻居的时候，查询结构只与每个类别的代表结构进行比对，如果查询结构与某代表结构的相似度较高(譬如PSD<0.6)，则认为该代表结构所在类中的所有蛋白质均为查询蛋白的结构邻居。这是因为当蛋白质序列相似度较高(>60％)的时候，结构往往非常相似。

本实施例中，使用第二级结构邻居是为了发掘更为遥远的功能关系，特别是在第一级功能关系缺失的时候。最后，我们将这两级结构邻居的功能标注，通过打分函数综合起来，预测出查询蛋白的功能。

另一方面，在该步骤中，对于查询蛋白Q，可使用PSI-BLAST搜索UniProtKB/Swiss-Prot数据库的同源序列，对于每一个同源序列H_k，对应的功能标注(Gene Ontology)通过序列比对的E值(E-value)进行打分，对于某一个功能T_i标注给查询蛋白的概率分数，即第二可能性，的计算公式可为：

其中E为同源序列(H_k)的E值，b为常量log(10)，n是同源序列的个数，如果H_k具有功能T_i，则Ind_k(T_i)为1，否则为0。

步骤S4、建立通过PSSM矩阵(位置特异性得分矩阵)预测该功能的SVM预测模型，并将待查询蛋白质的PSSM矩阵输入SVM预测模型得出该功能在待查询蛋白质中出现的第三可能性。

在该步骤中，通过构造由正负样本组成的样本集，以PSSM为SVM输入的特征性，通过抽取训练集和独立测试集构建SVM预测模型，并对该预测模型进行预测及评估，此种技术为本领域技术人员很容易实现的技术，在此不做赘述。优选的，本实施例中可使用自协方差变换方法的自变量AC将PSSM矩阵转化成固定长度的特征，自变量的计算公式为：

其中，X_i,j为第i个氨基酸的第j个特征的值，X_(i+lg),j为第i+lg个氨基酸的第j个特征的值；j表示一个描述符，j＝1,2,…,D(D是描述符的个数)；i表示序列中的位置；L为氨基酸序列的长度，lg为lg(lg＝1,2,…,LG)的最大值，每个序列AC变量的总数为LG*D，基于AC特征，对于每一个功能f_a，运用支持向量机方法，训练一个预测模型进行功能预测。

步骤S5、根据待查询蛋白质对应的查询基因及该查询基因的共表达基因，计算其它物种中对应的直系同源间的基因共表达分数，并根据基因共表达分数将其它物种中对应该功能的分布情况转换成目标物种中该功能在待查询蛋白质中出现的第四可能性。

该步骤即基于跨物种共表达的功能标注。可从COXPRESdb和ArrayExpress数据库得到11个物种(人类，线虫，狗，苍蝇，斑马鱼，鸡，恒河猴，小鼠，褐家鼠，芽殖酵母和裂殖酵母)的共表达数据。运用皮尔逊相关系数(Pearson Correlation Coefficient)预先计算每个物种中任意两个基因间的共表达。对于查询基因(蛋白质)Q(在物种1)中的，P₁、P₂…P_i与查询基因Q具有相似的表达，Q_oj与Pi_oj是Q和Pi在其它物种(物种2，…,物种n)中对应的直系同源蛋白质。融合直系同源在其他物种的共表达信息来提高基因共表达关系的可信度和覆盖度。可采用朴素贝叶斯方法(Bayes，NB)计算跨物种的基因共表达分数(COXS)，该分数融合目标物种中基因间的共表达关系以及在其它物种中对应的直系同源间的共表达关系，具体计算基因共表达分数包括：

COXS(Q，P_i)＝1-(1-C(Q，P_i))*(1-w*OS_i)

其中Q是查询基因，P_i是Q的共表达基因，C是两个基因表达的皮尔逊相关系数，w是直系同源基因表达的权值，OS_i是Q和P_i在物种j中对应的的直系同源之间(Q_oj,Pi_oj)的共表达分数，n是物种的总数。

上述各步骤即对待查询蛋白质可能拥有的某一功能，对这一功能分别进行第一、第二、第三及第四共四种可能性的计算。步骤S6、融合第一、第二、第三及第四可能性以评估该功能在待查询蛋白质中出现的综合可能性。

该步骤可采用贝叶斯网络融合结构、序列、位置特异性打分矩阵和跨物种共表达信息，构建蛋白质功能自动标注方法(PredGO)，将蛋白质具有某一个功能定义为阳性(Positive)，对于给定的蛋白质－功能对总数的阳性数目,找到一个阳性蛋白质－功能对的先验概率(Prior)，计算公式为:

其中，P(pos)为预测为对的概率，P(neg)为预测为错的概率；相对的,后验概率如以下公式所示：

其中，f₁,...,f_N为已知数据源的值，包括第一至第四可能性共四个数据源；

似然比L定义为:

根据贝叶斯法则的有关先验和后验概率,有:

P_post＝L(f₁，...，f_N)P_prior；

藉此，某一功能的后验概率越高，则待查询蛋白质具有该功能的可能性越大。

在具体的实验论证中，本发明方法(PredGO)在两个数据集上与其它蛋白质功能预测方法进行了比较。GOA-PDB数据集是从GOA数据库提取的时间在201010到201311之间的新数据，每个蛋白质至少包含1个非IEA的功能标注，用CDHIT去除冗余后，共得到来自256个物种的3632个蛋白质。CAFA 2011数据集为第一届蛋白质功能标注挑战赛(http://biofunctionprediction.org/)提供的数据集，包含来自11个物种的866个蛋白质。在GOA-PDB数据库中，如图3及表1所示，综合多重数据源的集成方法(PredGO)无论在分子功能还是生物学过程上都比单个数据源具有更好的性能。在CAFA数据集上，图4展示了本发明(PredGO)与其它三种功能预测方法BLAST，Argot2和Str在CAFA数据集上的ROC曲线比较图，本发明(PredGO)的预测性能更好(ROC曲线越高则预测性能越好)。图5展示了本发明(PredGO)与其它已有功能预测方法(BLAST，Jones-UCL，Argot2，ESG和Str)在CAFA数据集的最大F值(Fmax)比较，本发明(PredGO)的最大F值有显著的提高(最大F值越高表示预测性能越好)。

表1：

综上，本实施例公开的蛋白质功能标注方法，从结构、序列、PSSM及跨物种共表达信息多方面评估并融合得出某一功能在待查询蛋白质中出现的综合可能性，提高蛋白质标注的性能，进而可扩展得出该待查询蛋白质各个功能相对应的可能性值，解决了生物实验方法成本高昂和效率低下的问题。

实施例2

与上述方法实施例相对应的，本实施例公开一种蛋白质功能标注***，包括：

第二处理模块、用于搜索待查询蛋白质的同源序列，根据同源序列的代表结构查找待查询蛋白质的第二级结构邻居；

可选的，第一可能性的计算公式可为：

第二可能性的计算公式可为：

其中E_k为同源序列H_k的序列对比得分值，b为常量log(10)，n是同源序列的个数，如果H_k具有功能T_i，则Ind_k(T_i)为1，否则为0。

计算基因共表达分数可采用如下公式：

COXS(Q，P_i)＝1-(1-C(Q，P_i))*(1-w*OS_i)

本实施例中，各模块之间的具体内部数据处理可参照上述实施例1，不做赘述。

同理，本实施例公开的蛋白质功能标注***，从结构、序列、PSSM及跨物种共表达信息多方面评估并融合得出某一功能在待查询蛋白质中出现的综合可能性，提高蛋白质标注的性能，进而可扩展得出该待查询蛋白质各个功能相对应的可能性值，解决了生物实验方法成本高昂和效率低下的问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种蛋白质功能标注方法，其特征在于，包括：

步骤S3、根据所述第一级结构邻居和第二级结构邻居的某一功能的分布情况，评估该功能在所述待查询蛋白质中出现的第一可能性；并根据所有的同源序列对应该功能的分布情况评估该功能在所述待查询蛋白质中出现的第二可能性；所述第一可能性的计算公式为：

其中，P_i为待查询蛋白质与第i个第一级结构邻居S_i间的结构距离，如果S_i具有功能f_a，为1，否则为0，w为权值，N_s为第一级结构邻居的数目；N_seq为同源序列的数目，E_i为与同源序列与所述待查询蛋白质的序列相似度，P_ij为第i个同源序列与第j个第二级结构邻居S_ij间的结构距离，为第二级结构邻居的数目；同理，如果S_ij具有功能f_a，为1，否则为0；

步骤S6、融合所述第一、第二、第三及第四可能性以评估该功能在所述待查询蛋白质中出现的综合可能性。

2.根据权利要求1所述的蛋白质功能标注方法，其特征在于，所述第二可能性的计算公式为：

3.根据权利要求1所述的蛋白质功能标注方法，其特征在于，所述步骤S4包括使用自协方差变换方法的自变量AC将PSSM矩阵转化成固定长度的特征，自变量的计算公式为：

其中，X_i,j为第i个氨基酸的第j个特征的值，X_(i+lg),j为第i+lg个氨基酸的第j个特征的值；j表示一个描述符，j＝1,2,…,D，其中D是描述符的个数；i表示序列中的位置；L为氨基酸序列的长度，lg为lg的最大值，且lg＝1,2,…,LG，每个序列AC变量的总数为LG*D，基于AC特征，对于每一个功能f_a，运用支持向量机方法，训练一个预测模型进行功能预测。

4.根据权利要求1所述的蛋白质功能标注方法，其特征在于，所述步骤S5计算基因共表达分数包括：

COXS(Q，P_i)＝1-(1-C(Q，P_i))*(1-w*OS_i)

5.根据权利要求1所述的蛋白质功能标注方法，其特征在于，所述步骤S6包括：

将蛋白质具有某一个功能定义为阳性，对于给定的蛋白质－功能对总数的阳性数目,找到一个阳性蛋白质－功能对的先验概率，计算公式为:

似然比L定义为:

根据贝叶斯法则的有关先验和后验概率,有:

P_post＝L(f₁，...，f_N)P_prior；

某一功能的后验概率越高，则所述待查询蛋白质具有该功能的可能性越大。

6.一种用于执行上述权利要求1至5任一所述方法的蛋白质功能标注***，其特征在于，包括：

第三处理模块、用于根据所述第一级结构邻居和第二级结构邻居的某一功能的分布情况，评估该功能在所述待查询蛋白质中出现的第一可能性；并根据所有的同源序列对应该功能的分布情况评估该功能在所述待查询蛋白质中出现的第二可能性；所述第一可能性的计算公式为：

7.根据权利要求6所述的蛋白质功能标注***，其特征在于，所述第二可能性的计算公式为：

8.根据权利要求6所述的蛋白质功能标注***，其特征在于，所述计算基因共表达分数包括：

COXS(Q，P_i)＝1-(1-C(Q，P_i))*(1-w*OS_i)