CN109727637B

CN109727637B - 基于混合蛙跳算法识别关键蛋白质的方法

Info

Publication number: CN109727637B
Application number: CN201811643461.5A
Authority: CN
Inventors: 雷秀娟; 杨晓琴; 赵杰
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2023-09-05
Anticipated expiration: 2038-12-29
Also published as: CN109727637A

Abstract

本发明公开了一种基于混合蛙跳算法识别关键蛋白质的方法，通过将蛋白质相互作用网络转化为无向图、获取蛋白质对应的亚细胞定位信息、蛋白质复合物参与信息以及功能注释信息、对蛋白质相互作用网络中结点和边进行处理、根据蛋白质结点的局部平均连通性初始化青蛙种群、根据青蛙的适应值划分族群、青蛙在族群中进行元进化，执行局部搜索、所有青蛙进行全局思想交流，执行全局搜索、产生关键蛋白质。本发明方法能准确地识别关键蛋白质；仿真实验结果表明，灵敏度、特异性、F测度、阳性预测值、阴性预测值以及正确率等指标较优；与其他关键蛋白质识别方法相比，将混合蛙跳算法的优化特性与蛋白质相互作用网络的拓扑特征以及蛋白质自身的生物特性进行结合来识别关键蛋白质，提高了关键蛋白质的识别准确率。

Description

基于混合蛙跳算法识别关键蛋白质的方法

技术领域

本发明属于生物信息技术领域，具体涉及一种基于混合蛙跳算法识别关键蛋白质的方法。

背景技术

蛋白质是组成生物体一切细胞、组织的重要成分，是生命活动的主要承担者。不同的蛋白质在生物体细胞中参与不同的生命活动，因此，蛋白质被分成两大类，关键蛋白质和非关键蛋白质。关键蛋白质也叫致死蛋白质，关键蛋白的缺失会导致细胞无法正常繁殖或者死亡，进而使得生物体丧失某些功能，甚至无法生存。对关键蛋白的识别是生命科学中的一项重要研究内容，正确识别关键蛋白质不仅有助于理解生物体的运作机理，而且对于疾病诊断和药物设计也具有十分重要的应用价值。

在生物学上，关键蛋白质的识别主要是采用一些生物实验的方法，例如单基因敲除，RNA干扰、条件性基因剔除等。然而这些方法耗时耗力，代价极高，而且适用的物种范围有限。随着高通量技术的发展，大量的生物数据可获取，以及计算机技术的快速发展，使得利用计算生物学的方法来识别关键蛋白质成为该领域新的发展方向。目前，利用计算方法识别关键蛋白质主要可分为两类：基于网络拓扑的方法和基于生物信息融合的方法。

大量研究表明，一个蛋白质结点是否关键与该结点在蛋白质相互作用网络中的拓扑特性密切相关。基于此，已经提出了一系列利用结点的中心性测度来识别关键蛋白质的方法。如度中心性(Degree Centrality,DC)，介数中心性(Betweenness Centrality，BC)，接近度中心性(Closeness Centrality，CC)，特征向量中心性(Eigenvector Centrality，EC)，信息中心性(Information Centrality，IC)，子图中心性(Subgraph Centrality，SC)等。随着对网络拓扑特性的深入挖掘分析，更多基于结点的拓扑特性的关键蛋白质识别方法被提出。Wang等人提出了一种新的中心性测度方法NC，该方法通过计算边聚集系数同时考虑了结点的特性以及结点与它的邻居之间的关系，从而来预测蛋白质的关键性；Li等人提出了一种局部平均连通性方法(LAC)，该方法将每个结点的邻居结点生成一个新的子图，根据每个结点在子图中的度来识别关键蛋白质；Qi等人提出了局部相互作用密度方法(LID)，该方法基于每个结点的邻居结点之间的相互作用关系来识别关键蛋白质。这些基于网络拓扑的中心性测度方法在很大程度上依赖于蛋白质相互作用网络的可靠性，而通过高通量生物实验的方法获得的蛋白质相互作用网络数据包含有大量的假阳性，这极大地影响了关键蛋白质识别的准确率。

为了克服基于网络拓扑的方法识别关键蛋白质所存在的缺陷，一些研究者结合蛋白质的生物意义，提出了一些基于生物信息融合的方法用于关键蛋白质的识别。如关键蛋白质识别方法PeC和WDC结合了蛋白质结点的网络拓扑特性和基因表达数据信息；UDoNC关键蛋白识别方法将蛋白质相互作用网络与蛋白质结构域信息整合起来；TEO在蛋白质相互作用网络中融合了蛋白质的功能注释信息和基因表达信息；SON结合了亚细胞定位信息、直系同源信息以及蛋白质相互作用网络的拓扑特性。此外，研究表明，蛋白质复合物和关键蛋白质之间存在着密切的关系，Hart等人通过实验证实了关键蛋白质通常富集于某些具有特定功能的复合物中。因此，一些基于蛋白质复合物的关键蛋白质识别方法被提出，如UC，LIDC和LBCC等。实验结果显示，这些在蛋白质相互作用网络中整合了生物信息数据的方法比之前仅基于网络拓扑结构的方法的识别效果要好，有效地提高了关键蛋白质的识别准确率。

虽然目前通过基于网络水平的计算方法预测关键蛋白质取得了一定的进展，但大部分识别方法的识别准确率依然较低，鲁棒性较差，这主要是由于生物信息数据的不完备性和不可靠性，以及生命活动的复杂性和各物种之间的差异性，而且大多数方法没有考虑到网络结点之间联系的紧密程度和连接强度的不同，孤立地使用少数拓扑特征或是生物特性，对关键蛋白质结点缺乏全局和整体上的分析。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于混合蛙跳算法识别关键蛋白质的方法，利用混合蛙跳算法的优化特性从蛋白质相互作用网络中识别关键蛋白质，提高了关键蛋白质的识别准确率。

为了达到上述目的，本发明采用以下技术方案予以实现：

本发明公开的一种基于混合蛙跳算法识别关键蛋白质的方法，包括以下步骤：

1)将蛋白质相互作用网络转化为无向图

将蛋白质相互作用网络转化成一个无向图G＝(V，E)，其中，V＝{v_i,i＝1,2,…,n}为结点v_i的集合，E为边e的集合，结点v_i表示蛋白质，边e表示蛋白质之间的相互作用；

2)对蛋白质相互作用网络中的边和结点进行处理

计算蛋白质结点的局部平均连通性LAC、蛋白质结点的亚细胞定位分值SC和蛋白质复合物分值PC，计算连接两蛋白质结点的边的结构相似性SS和功能相似性FS；

3)随机产生初始青蛙种群

令F为青蛙种群规模，C为需要识别的候选关键蛋白质的数目，即一只青蛙个体的长度，将所有蛋白质结点按照LAC值降序排序，为缩小关键蛋白质的搜索范围，取前2×C个LAC值中较大的结点来产生初始种群，TopV为这些蛋白质结点集合；

4)全局搜索过程，将蛙群划分族群

按青蛙个体的适应值Essentiality(f)对青蛙种群进行降序排序，其中f＝1,2…F，记录适应值最高的青蛙Px，把F只青蛙分配到m个族群Y₁，Y₂，…，Y_m中去，满足Y_k＝[X(j)|X(j)＝X(k+m×(j-1))，j＝1,2,…,n，k＝1,2,…,m]，其中，X(j)表示排序后蛙群中的第j只青蛙；

5)在每个族群中进行元进化，即进行局部搜索：k，iter分别表示族群计数器和局部进化计数器，分别用来与族群总数m和局部最大进化次数maxiter进行比较，k＝1，iter＝1，maxiter∈[50，100]；

6)将所有族群的青蛙进行混合，按新的适应值对所有青蛙个体重新进行排序和族群划分，并记录新的全局最优青蛙个体Px(新)，如果Px(新)和Px的适应值之差不小于10^-4，转向步骤5；否则，转向步骤7；

7)产生关键蛋白质

将最优青蛙个体中的蛋白质作为关键蛋白质输出。

优选地，步骤2)中，蛋白质结点的局部平均连通性LAC由式(1)得到：

式中，表示结点v_i的邻居结点集，/>是由/>中的结点构成的子图，表示集合/>中的任一结点v_j在子图/>中的邻居结点的数目。

优选地，蛋白质结点的亚细胞定位分值SC由式(2)得到：

式中，C_l表示一种亚细胞组分，l＝1，2…11，SI(C_l)表示亚细胞组分C_l的重要性得分，由式(3)得到：

式中，num(l)代表C_l中所包含的关键蛋白质的数目，Tnum代表的是关键蛋白总数目；

按式(4)计算蛋白质结点的蛋白质复合物分值：

式中，F(v_i)表示结点v_i出现在已知蛋白质复合物中的频率，由式(5)得到，FM是所有蛋白质结点中出现在已知蛋白质复合物中的最大频率；

式中，N代表已知蛋白质复合物总数目，若蛋白质结点出现在蛋白质复合物P_t中，则P_t(v_i)＝1，否则P_t(v_i)＝0；

每个蛋白质结点的初始权值由式(6)得到：

InW(v_i)＝SC(v_i)×PC(v_i) 式(6)。

优选地，步骤2)中，连接两蛋白质结点的边的结构相似性SS按式(7)计算：

式中，Γ(i)，Γ(j)分别表示结点v_i，v_j的邻居结点集再加上v_i，v_j；

按式(8)计算连接两蛋白质结点的边的功能相似性：

式中，g(i)，g(j)分别表示注释结点v_i和v_j的GO术语集合；

连接两蛋白质结点的边的权值由式(9)得到：

We_ij＝SS_ij×FS_ij 式(9)

每个蛋白质结点的最终权值由式(10)得到：

优选地，步骤4)中青蛙个体的适应值Essentiality(f)由式(11)得到：

优选地，步骤5)具体操作如下：

5-1)对第k个青蛙族群中的蛙进行局部思想交流，即进行局部更新，k＝k+1；

5-2)在青蛙族群Y_k中，选出s只青蛙进入子族群sub_Y_k，(s<n)，子族群中青蛙的选取基于轮盘赌方法，即族群中青蛙个体的适应值越大，该青蛙被选中的可能性就越大，令Pb和Pw分别表示该子族群中最优和最差青蛙，iter＝iter+1；

5-3)根据子族群中局部最优青蛙Pb来更新最差青蛙Pw的位置，对于最差青蛙个体Pw，判断它的每一维分量蛋白质是否出现在局部最优青蛙个体Pb中，如若出现，则使该分量蛋白质保持不变；否则的话，选取Pb中的一个分量蛋白以一定概率进行替换，即最差青蛙Pw的位置根据公式Pnl₁＝update1(Pw，Pb，r₁)进行更新，式中r₁为用Pb中的分量蛋白质对Pw中的蛋白质进行替换的概率，Pnl₁为最差青蛙Pw根据局部最优青蛙Pb更新之后的新位置；

5-4)如果通过步骤5-2)改进了最差青蛙的位置，即最差青蛙在新位置上的适应值比原位置上的适应值高，就用新产生的位置Pnl₁取代原来的位置Pw，否则就采用全局最优青蛙Px重新更新最差青蛙个体的位置，判断最差青蛙个体Pw每一维分量蛋白质是否出现在全局最优青蛙个体Px中，如若出现，则使该分量蛋白质保持不变；否则的话，选取Px中的一个分量蛋白以一定概率进行替换，即最差青蛙Pw的位置根据公式Pnl₂＝update2(Pw，Px，r₂)进行更新，式中r₂为用Px中的分量蛋白质对Pw中的蛋白质进行替换的概率，Pnl₂为最差青蛙Pw根据全局最优青蛙Px更新之后的新位置；

5-5)如果通过步骤5-3)改进了最差青蛙的位置，即最差青蛙在新位置上的适应值比原位置上的适应值高，就用新产生的位置Pnl₂取代原来的位置Pw，否则随机产生处于湿地中的任意位置的蛙来替代最差的蛙，即最差青蛙Pw的位置根据公式Pnl₃＝update3(Pw，TopV，r₃)进行更新，式中r₃为Pw中的每一维分量蛋白质被替换的概率，Pnl₃为最差青蛙Pw随机更新之后的新位置；

只要执行以上步骤5-3)、步骤5-4)和5-5中的任何一次更新，都要重新计算本子群的最优青蛙个体Pb和最差青蛙个体Pw；

5-6)如果iter<＝maxiter，则转向步骤5-2)；

5-7)如果k<＝m，则转向步骤5-1)，否则转向步骤6。

进一步优选地，步骤5-3)中，最差青蛙Pw的位置更新后得到的新位置Pnl₁的计算方法采用算法update1(Pw，Pb，r₁)，具体方法如下：

Step1：找出在Pb中出现，未在Pw中出现的蛋白质集合Pset1；

Step2：对于分量蛋白质v_i∈Pw，判断是否在Pb中出现；

Step3：如果并且随机数rand>r₁，则从集合Pset1随机选取一个蛋白质v_j替换v_i，并且Pset1＝Pset1-{v_j}；

Step4：重复Step2-3，直到Pw中所有的蛋白质都判断完毕。

进一步优选地，在步骤5-4)中，最差青蛙Pw的位置更新后得到的新位置Pnl₂的计算方法采用算法update2(Pw，Px，r₂)，具体方法如下：

Step1：找出在Px中出现，未在Pw中出现的蛋白质集合Pset2；

Step2：对于分量蛋白质v_i∈Pw，判断是否在Px中出现；

Step3：如果并且随机数rand>r₂，则从集合Pset2随机选取一个蛋白质v_j替换v_i，并且Pset2＝Pset2-{v_j}；

Step4：重复Step2-3，直到Pw中所有的蛋白质都判断完毕。

进一步优选地，在步骤5-5)中，最差青蛙Pw的位置更新后得到的新位置Pnl₃的计算方法采用算法update3(Pw，TopV，r₃)，具体方法如下：

Step1：找出在TopV中出现，未在Pw中出现的蛋白质集合Pset3；

Step2：对于分量蛋白质v_i∈Pw，判断是否在TopV中出现；

Step3：如果并且随机数rand>r₃，则从集合Pset3随机选取一个蛋白质v_j替换v_i，并且Pset3＝Pset3-{v_j}；

Step4：重复Step2-3，直到Pw中所有的蛋白质都判断完毕。

与现有技术相比，本发明具有以下有益效果：

1、本发明在给蛋白质结点赋予初始权值时，利用了亚细胞定位信息以及蛋白质复合物信息，通过蛋白质的亚细胞定位特性以及在复合物中的参与情况来衡量蛋白质的重要性，在一定程度中提高了关键蛋白质的识别准确率。

2、本发明在给蛋白质结点赋予最终权值时，不仅考虑了蛋白质本身的特性，而且还考虑了它的邻居特性以及蛋白质之间的连通性，蛋白质之间的连接强度是通过计算两蛋白质之间的拓扑连接结构相似性和功能相似性得到的，同时考虑了网络拓扑和生物信息，多种特征的融合使用使得本发明能够更加准确有效地识别关键蛋白质。

3、本发明模拟青蛙个体之间通过信息交流进行跳跃从而找到食物较多的地方的过程来识别关键蛋白质，将一组候选关键蛋白质视作一只青蛙，通过在族群中执行局部搜索策略，以及当各个族群进化到一定阶段以后，整个青蛙群体进行全局信息交换，最后算法终止时，适应值最高的青蛙所对应的一组蛋白质就是识别出来的关键蛋白质，与其他关键蛋白识别方法相比，将混合蛙跳算法的优化特性与蛋白质相互作用网络的拓扑特征以及蛋白质自身的生物特性进行结合实现关键蛋白质的识别过程，提高了关键蛋白质的识别准确率。

4、采用本发明能够有效地从蛋白质相互作用网络中识别关键蛋白质，不仅有助于理解细胞的生长调控过程以及生命活动的运作机理，帮助人们了解生物体维持生命活动所需要的基本需求，而且能够从基因组和蛋白质组层次为相关研究人员提供重要的理论基础，对于疾病的诊断治疗和药物的研发配制等方面具有极其重要的应用价值。

附图说明

图1为本发明的基于混合蛙跳算法识别关键蛋白质的方法的流程图；

图2为本发明的步骤5)的青蛙族群Y_k进行局部搜索的方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

如图1所示，本发明基于混合蛙跳算法识别关键蛋白质的方法，包括以下步骤：

1)将蛋白质相互作用网络转化为无向图

2)对蛋白质相互作用网络中的边和结点进行处理

按式(1)计算蛋白质结点的局部平均连通性：

式中，表示结点v_i的邻居结点集，/>是由/>中的结点构成的子图，表示集合/>中的任一结点v_j在子图/>中的邻居结点的数目；

按式(2)计算蛋白质结点的亚细胞定位分值：

按式(4)计算蛋白质结点的蛋白质复合物分值：

式中，F(v_i)表示结点v_i出现在已经蛋白质复合物中的频率，由式(5)得到，FM是所有蛋白质结点出现在已知蛋白质复合物中的最大频率；

每个蛋白质结点的初始权值由式(6)得到：

InW(v_i)＝SC(v_i)×PC(v_i) 式(6)

按式(7)计算连接两蛋白质结点的边的结构相似性：

按式(8)计算连接两蛋白质结点的边的功能相似性：

式中，g(i)，g(j)分别表示注释结点v_i和v_j的GO术语集合；

连接两蛋白质结点的边的权值由式(9)得到：

We_ij＝SS_ij×FS_ij 式(9)

每个蛋白质结点的最终权值由式(10)得到：

3)随机产生初始青蛙种群

4)全局搜索过程，将蛙群划分族群

按青蛙个体的适应值Essentiality(f)对青蛙种群进行降序排序，其中f＝1,2…F，记录适应值最高的青蛙Px。把F只青蛙分配到m个族群Y₁，Y₂，…，Y_m中去，满足Y_k＝[X(j)|X(j)＝X(k+m×(j-1))，j＝1,2,…,n，k＝1,2,…,m]，其中，X(j)表示排序后蛙群中的第j只青蛙；

5)在每个族群中进行元进化，即进行局部搜索：k，iter分别表示族群计数器和局部进化计数器，分别用来与族群总数m和局部最大进化次数maxiter进行比较，k＝1，iter＝1，maxiter∈[50，100]；参见图2，具体包括如下步骤：

5-2)在青蛙族群Y_k中，选出s只青蛙进入子族群sub_Y_k，(s<n),子族群中青蛙的选取是基于轮盘赌方法，族群中青蛙个体的适应值越大，该青蛙被选中的可能性就越大，令Pb和Pw分别表示该子族群中最优和最差青蛙，iter＝iter+1；

5-3)根据子族群中局部最优青蛙Pb来更新最差青蛙Pw的位置，对于最差青蛙个体Pw,判断它的每一维分量蛋白质是否出现在局部最优青蛙个体Pb中，如若出现，则使该分量蛋白质保持不变；否则的话，选取Pb中的一个分量蛋白(该蛋白质未在Pw中出现)以一定概率进行替换，即最差青蛙Pw的位置根据公式Pnl₁＝update1(Pw，Pb，r₁)进行更新，式中r₁为用Pb中的分量蛋白质对Pw中的蛋白质进行替换的概率，Pnl₁为最差青蛙Pw根据局部最优青蛙Pb更新之后的新位置；

5-4)如果通过步骤5-2改进了最差青蛙的位置，即最差青蛙在新位置上的适应值比原位置上的适应值高，就用新产生的位置Pnl₁取代原来的位置Pw，否则就采用全局最优青蛙Px重新更新最差青蛙个体的位置，判断最差青蛙个体Pw每一维分量蛋白质是否出现在全局最优青蛙个体Px中，如若出现，则使该分量蛋白质保持不变；否则的话，选取Px中的一个分量蛋白以一定概率进行替换，即最差青蛙Pw的位置根据公式Pnl₂＝update2(Pw，Px，r₂)进行更新，式中r₂为用Px中的分量蛋白质对Pw中的蛋白质进行替换的概率，Pnl₂为最差青蛙Pw根据全局最优青蛙Px更新之后的新位置；

5-5)如果通过步骤5-3改进了最差青蛙的位置，即最差青蛙在新位置上的适应值比原位置上的适应值高，就用新产生的位置Pnl₂取代原来的位置Pw，否则随机产生处于湿地中的任意位置的蛙来替代最差的蛙，即最差青蛙Pw的位置根据公式Pnl₃＝update3(Pw，TopV，r₃)进行更新，式中r₃为Pw中的每一维分量蛋白质被替换的概率，Pnl₃为最差青蛙Pw随机更新之后的新位置；

不管执行了以上5-3、5-4和5-5中的任何一次更新，都需要重新计算本子群的最优青蛙个体Pb和最差青蛙个体Pw；

5-6)如果iter<＝maxiter，则转向步骤5-2；

5-7)如果k<＝m，则转向步骤5-1，否则转向步骤6；

7)产生关键蛋白质

将最优青蛙个体中的蛋白质作为关键蛋白质输出。

本发明的步骤4)中青蛙个体的适应值Essentiality(f)由式(11)得到：

本发明的步骤5-3)中，最差青蛙Pw的位置更新后得到的新位置Pnl₁的计算方法采用算法1update1(Pw，Pb，r₁)，具体方法如下：

Step1：找出在Pb中出现，未在Pw中出现的蛋白质集合Pset1；

Step2：对于分量蛋白质v_i∈Pw，判断是否在Pb中出现；

Step4：重复Step2-3，直到Pw中所有的蛋白质都判断完毕。

本发明的步骤5-4)中，最差青蛙Pw的位置更新后得到的新位置Pnl₂的计算方法采用算法2update2(Pw，Px，r₂)，具体方法如下：

Step1：找出在Px中出现，未在Pw中出现的蛋白质集合Pset2；

Step2：对于分量蛋白质v_i∈Pw，判断是否在Px中出现；

Step4：重复Step2-3，直到Pw中所有的蛋白质都判断完毕。

本发明的步骤5-5)中，最差青蛙Pw的位置更新后得到的新位置Pnl₃的计算方法采用算法3update3(Pw，TopV，r₃)，具体方法如下：

Step1：找出在TopV中出现，未在Pw中出现的蛋白质集合Pset3；

Step2：对于分量蛋白质v_i∈Pw，判断是否在TopV中出现；

Step4：重复Step2-3，直到Pw中所有的蛋白质都判断完毕。

以下通过具体实施例对本发明进一步详细说明：

下面是以蛋白质网络为例的一种基于混合蛙跳算法识别关键蛋白质的方法，具体操作如下：

本实施例以采自DIP数据库的酿酒酵母数据集(DIP 2010.10.10版)作为仿真数据集，除去自相互作用和重复的相互作用，总共包括5093个蛋白质，24743条边。亚细胞定位数据是从COMPARTMENTS(20140830版)数据库中下载得到的，包括6002个酵母蛋白质和238657条亚细胞位置记录。已知的蛋白质复合物数据是通过整合CM270，CM425，CYC408和CYC428四个数据集中的数据得到的，一共包括745个蛋白质复合物，覆盖了2167个蛋白质。GO数据是GO ontologies的精简版本。关键蛋白质数据通过整合MIPS、SGD、DEG和SGDP四个数据库中的数据得到，共包含了1285个关键蛋白质。实验平台为Windows 10操作***，Intel酷睿i5-6600双核3.31GHz处理器，8GB物理内存，用Matlab R2014a软件实现本发明的方法。

具体步骤如下：

1、将蛋白质相互作用网络转化为无向图

将包含5093个蛋白质和24743个相互作用关系的蛋白质相互作用网络转化成一个无向图G＝(V，E)，其中，V＝{v_i,i＝1,2,…,5093}为结点v_i的集合，E为24743个边e的集合，结点v_i表示蛋白质，边e表示蛋白质之间的相互作用。

2、对蛋白质相互作用网络中的边和结点进行处理

对结点v_i预处理：i＝1，2,…，5093，每给定一个确定的i，可计算出结点v_i的局部平均连通性，按式(1)计算蛋白质结点的局部平均连通性：

式中，表示结点v_i的邻居结点集，/>是由/>中的结点构成的子图，表示集合/>中的任一结点v_j在子图/>中的邻居结点的数目；按式(2)计算蛋白质结点的亚细胞定位分值：

式中，num(l)代表C_l中所包含的关键蛋白质的数目，Tnum代表的是酵母的关键蛋白总数，Tnum＝1285；按式(4)计算蛋白质结点的蛋白质复合物分值：

式中，N代表已知蛋白质复合物总数目，N＝745，若蛋白质结点出现在蛋白质复合物P_t中，则P_t(v_i)＝1，否则P_t(v_i)＝0；每个蛋白质结点的初始权值由式(6)得到：

InW(v_i)＝SC(v_i)×PC(v_i) 式(6)

按式(7)计算连接两蛋白质结点的边的结构相似性：

式中，Γ(i)，Γ(j)分别表示结点v_i，v_j的邻居结点集再加上v_i，v_j；按式(8)计算连接两蛋白质结点的边的功能相似性：

式中，g(i)，g(j)分别表示注释结点v_i和v_j的GO术语集合；

连接两蛋白质结点的边的权值由式(9)得到：

We_ij＝SS_ij×FS_ij 式(9)

每个蛋白质结点的最终权值由式(10)得到：

3、随机产生初始青蛙种群

令F为青蛙种群规模，F＝100，C为需要识别的候选关键蛋白质的数目，即一只青蛙个体的长度，将所有蛋白质结点按照LAC值降序排序，为缩小关键蛋白质的搜索范围，取前2×C个LAC值较大的结点来产生初始种群，TopV为这些蛋白质结点集合；

4、全局搜索过程，将蛙群划分族群

按青蛙个体的适应值Essentiality(f)对青蛙种群进行降序排序，其中f＝1,2…F，记录适应值最高的青蛙Px。把F只青蛙分配到m个族群Y₁，Y₂，…，Y_m中去，满足Y_k＝[X(j)|X(j)＝X(k+m×(j-1))，j＝1,2,…,n，k＝1,2,…,m]，其中，m＝10，n＝10，X(j)表示排序后蛙群中的第j只青蛙，适应值Essentiality(f)由式(11)得到：

5、在每个族群中进行元进化，即进行局部搜索：k，iter分别表示族群计数器和局部进化计数器，分别用来与族群总数m和局部最大进化次数maxiter进行比较，k＝1，iter＝1，maxiter∈[50，100]；

5-1、对第k个青蛙族群中的蛙进行局部思想交流，即进行局部更新，k＝k+1；

5-2、在青蛙族群Y_k中，选出s只青蛙进入子族群sub_Y_k，(s<n)，子族群中青蛙的选取是基于轮盘赌方法，族群中青蛙个体的适应值越大，该青蛙被选中的可能性就越大，令Pb和Pw分别表示该子族群中最优和最差青蛙，iter＝iter+1；

5-3、根据子族群中局部最优青蛙Pb来更新最差青蛙Pw的位置，对于最差青蛙个体Pw,判断它的每一维分量蛋白质是否出现在局部最优青蛙个体Pb中，如若出现，则使该分量蛋白质保持不变；否则的话，选取Pb中的一个分量蛋白(该蛋白质未在Pw中出现)以一定概率进行替换，即最差青蛙Pw的位置根据公式Pnl₁＝update1(Pw，Pb，r₁)进行更新，式中r₁为用Pb中的分量蛋白质对Pw中的蛋白质进行替换的概率，Pnl₁为最差青蛙Pw根据局部最优青蛙Pb更新之后的新位置，Pnl₁可由算法1得到：

算法1update1(Pw，Pb，r₁)

Step1：找出在Pb中出现，未在Pw中出现的蛋白质集合Pset1；

Step2：对于分量蛋白质v_i∈Pw，判断是否在Pb中出现；

Step4：重复Step2-3，直到Pw中所有的蛋白质都判断完毕。

5-4、如果通过步骤5-2改进了最差青蛙的位置，即最差青蛙在新位置上的适应值比原位置上的适应值高，就用新产生的位置Pnl₁取代原来的位置Pw，否则就采用全局最优青蛙Px重新更新最差青蛙个体的位置，判断最差青蛙个体Pw每一维分量蛋白质是否出现在全局最优青蛙个体Px中，如若出现，则使该分量蛋白质保持不变；否则的话，选取Px中的一个分量蛋白以一定概率进行替换，即最差青蛙Pw的位置根据公式Pnl₂＝update2(Pw，Px，r₂)进行更新，式中r₂为用Px中的分量蛋白质对Pw中的蛋白质进行替换的概率，Pnl₂为最差青蛙Pw根据全局最优青蛙Px更新之后的新位置，Pnl₂可由算法2得到：

算法2update2(Pw，Px，r₂)

Step1：找出在Px中出现，未在Pw中出现的蛋白质集合Pset2；

Step2：对于分量蛋白质v_i∈Pw，判断是否在Px中出现；

Step4：重复Step2-3，直到Pw中所有的蛋白质都判断完毕。

5-5)如果通过步骤5-3改进了最差青蛙的位置，即最差青蛙在新位置上的适应值比原位置上的适应值高，就用新产生的位置Pnl₂取代原来的位置Pw，否则随机产生处于湿地中的任意位置的蛙来替代最差的蛙，即最差青蛙Pw的位置根据公式Pnl₃＝update3(Pw，TopV，r₃)进行更新，式中r₃为Pw中的每一维分量蛋白质被替换的概率，Pnl₃为最差青蛙Pw随机更新之后的新位置，Pnl₃可由算法3得到：

算法3update3(Pw，TopV，r₃)

Step1：找出在TopV中出现，未在Pw中出现的蛋白质集合Pset3；

Step2：对于分量蛋白质v_i∈Pw，判断是否在TopV中出现；

Step4：重复Step2-3，直到Pw中所有的蛋白质都判断完毕。

5-6、如果iter<＝maxiter，则转向步骤5-2；

5-7、如果k<＝m，则转向步骤5-1，否则转向步骤6；

6、将所有族群的青蛙进行混合，按新的适应值对所有青蛙个体重新进行排序和族群划分，并记录新的全局最优青蛙个体Px(新)，如果Px(新)和Px的适应值之差不小于10^-4，转向步骤5；否则，转向步骤7；

7、产生关键蛋白质

将最优青蛙个体中的蛋白质作为关键蛋白质输出。

为了验证本发明的有效性，发明人采用本发明实施例1混合蛙跳算法识别关键蛋白质的方法对DIP数据库中的蛋白质网络进行关键蛋白质的识别，对需要进行识别的候选关键蛋白质数目(C)分别为蛋白质相互作用网络中所有蛋白质结点数目的1％，5％，10％，15％，20％，25％时进行分析，结果见表1、表2，表1显示了与当前其他识别关键蛋白质的方法识别出来的结果进行识别准确率的比较，表2显示了与其他识别关键蛋白质的方法在各个评价指标上的比较。

表1本发明与其他方法识别的关键蛋白质在准确率上的比较

表2本发明和其他方法的在各个评价指标的比较

表1显示了采用本发明方法识别出1％，5％，10％，15％，20％，25％的蛋白质作为候选关键蛋白质与标准库中的关键蛋白质进行比较的识别准确率，以及与其他9种识别关键蛋白质方法识别结果的比较。由表1可以看出，与其他方法相比，本发明方法能更有效地识别关键蛋白质，候选关键蛋白质的数目从1％到25％，本发明方法都有最高的识别准确率。

表2显示了当识别出的候选关键蛋白质数目为25％时，本发明方法和其他9种方法在灵敏度、特异性、F测度、阳性预测值、阴性预测值以及正确率等评估指标上的评估比较结果。由表2可以看出，与其他方法相比，本发明能够预测出更多的关键蛋白质，且预测准确度更高。

综上所述，本发明基于混合蛙跳算法识别关键蛋白质的方法，通过将蛋白质相互作用网络转化为无向图、获取蛋白质对应的亚细胞定位信息、蛋白质复合物参与信息以及功能注释信息、对蛋白质相互作用网络中结点和边进行处理、根据蛋白质结点的局部平均连通性初始化青蛙种群、根据青蛙的适应值划分族群、青蛙在族群中进行元进化，执行局部搜索、所有青蛙进行全局思想交流，执行全局搜索、产生关键蛋白质。本发明方法能准确地识别关键蛋白质；仿真实验结果表明，灵敏度、特异性、F测度、阳性预测值、阴性预测值以及正确率等指标较优；与其他关键蛋白质识别方法相比，将混合蛙跳算法的优化特性与蛋白质相互作用网络的拓扑特征以及蛋白质自身的生物特性进行结合来识别关键蛋白质，提高了关键蛋白质的识别准确率。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于混合蛙跳算法识别关键蛋白质的方法，其特征在于，包括以下步骤：

1)将蛋白质相互作用网络转化为无向图

2)对蛋白质相互作用网络中的边和结点进行处理

连接两蛋白质结点的边的权值由式(9)得到：

We_ij＝SS_ij×FS_ij 式(9)

其中，SS_ij为连接两蛋白质结点的边的结构相似性，按照式(7)计算：

FS_ij为连接两蛋白质结点的边的功能相似性，按照式(8)计算：

式中，g(i)，g(j)分别表示注释结点v_i和v_j的GO术语集合

每个蛋白质结点的最终权值FnW(v_i)由式(10)得到：

其中，InW(v_i)为每个蛋白质结点的初始权值，由式(6)得到：

InW(v_i)＝SC(v_i)×PC(v_i) 式(6)；

3)随机产生初始青蛙种群

令F为青蛙种群规模，C为需要识别的候选关键蛋白质的数目，即一只青蛙个体的长度，将所有蛋白质结点按照LAC值降序排序，为缩小关键蛋白质的搜索范围，取前2×C个LAC值中大的结点来产生初始种群，TopV为这些蛋白质结点集合；

4)全局搜索过程，将蛙群划分族群

青蛙个体的适应值Essentiality(f)由式(11)得到：

6)将所有族群的青蛙进行混合，按新的适应值对所有青蛙个体重新进行排序和族群划分，并记录新的全局最优青蛙个体Px(新)，如果Px(新)和Px的适应值之差不小于10^-4，转向步骤5)；否则，转向步骤7)；

7)产生关键蛋白质

将最优青蛙个体中的蛋白质作为关键蛋白质输出。

2.根据权利要求1所述的基于混合蛙跳算法识别关键蛋白质的方法，其特征在于，步骤2)中，蛋白质结点的局部平均连通性LAC由式(1)得到：

式中，表示结点v_i的邻居结点集，/>是由/>中的结点构成的子图，/>表示集合/>中的任一结点v_j在子图/>中的邻居结点的数目。

3.根据权利要求1所述的基于混合蛙跳算法识别关键蛋白质的方法，其特征在于，蛋白质结点的亚细胞定位分值SC由式(2)得到：

式中，num()代表C_l中所包含的关键蛋白质的数目，Tnum代表的是关键蛋白总数目；

按式(4)计算蛋白质结点的蛋白质复合物分值：

式中，N代表已知蛋白质复合物总数目，若蛋白质结点出现在蛋白质复合物P_t中，则P_t(_i)＝1，否则P_t(_i)＝0；

每个蛋白质结点的初始权值由式(6)得到：

InW(v_i)＝C(v_i)×PC(v_i)式(6)。

4.根据权利要求1所述的基于混合蛙跳算法识别关键蛋白质的方法，其特征在于，步骤5)具体操作如下：

5-2)在青蛙族群Y_k中，选出s只青蛙进入子族群sub_Y_k，s<n，子族群中青蛙的选取基于轮盘赌方法，即族群中青蛙个体的适应值越大，该青蛙被选中的可能性就越大，令Pb和Pw分别表示该子族群中最优和最差青蛙，iter＝iter+1；

5-4)如果通过步骤5-2)改进了最差青蛙的位置，即最差青蛙在新位置上的适应值比原位置上的适应值高，就用新产生的位置Pnl₁取代原来的位置Pw，否则就采用全局最优青蛙Px重新更新最差青蛙个体的位置，判断最差青蛙个体Pw每一维分量蛋白质是否出现在全局最优青蛙个体Px中，如若出现，则使该分量蛋白质保持不变；否则的话，选取Px中的一个分量蛋白进行替换，即最差青蛙Pw的位置根据公式Pnl₂＝update2(Pw，Px，r₂)进行更新，式中r₂为用Px中的分量蛋白质对Pw中的蛋白质进行替换的概率，Pnl₂为最差青蛙Pw根据全局最优青蛙Px更新之后的新位置；

5-6)如果iter<＝maxiter，则转向步骤5-2)；

5-7)如果k<＝m，则转向步骤5-1)，否则转向步骤6。

5.根据权利要求4所述的基于混合蛙跳算法识别关键蛋白质的方法，其特征在于，步骤5-3)中，最差青蛙Pw的位置更新后得到的新位置Pnl₁的计算方法采用算法update1(Pw，Pb，r₁)，具体方法如下：

Step1：找出在Pb中出现，未在Pw中出现的蛋白质集合Pset1；

Step2：对于分量蛋白质v_i∈Pw，判断是否在Pb中出现；

Step4：重复Step 2-3，直到Pw中所有的蛋白质都判断完毕。

6.根据权利要求4所述的基于混合蛙跳算法识别关键蛋白质的方法，其特征在于，在步骤5-4)中，最差青蛙Pw的位置更新后得到的新位置Pnl₂的计算方法采用算法update2(Pw，Px，r₂)，具体方法如下：

Step1：找出在Px中出现，未在Pw中出现的蛋白质集合Pset2；

Step2：对于分量蛋白质v_i∈Pw，判断是否在Px中出现；

Step4：重复Step 2-3，直到Pw中所有的蛋白质都判断完毕。

7.根据权利要求4所述的基于混合蛙跳算法识别关键蛋白质的方法，其特征在于，在步骤5-5)中，最差青蛙Pw的位置更新后得到的新位置Pnl₃的计算方法采用算法update3(Pw，TopV，r₃)，具体方法如下：

Step1：找出在TopV中出现，未在Pw中出现的蛋白质集合Pset3；

Step2：对于分量蛋白质v_i∈Pw，判断是否在TopV中出现；

Step4：重复Step 2-3，直到Pw中所有的蛋白质都判断完毕。