CN110689929B

CN110689929B - 一种基于接触概率辅助的蛋白质atp对接方法

Info

Publication number: CN110689929B
Application number: CN201910805001.6A
Authority: CN
Inventors: 张贵军; 饶亮; 刘俊; 赵凯龙; 胡俊; 周晓根
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2021-12-17
Anticipated expiration: 2039-08-29
Also published as: CN110689929A

Abstract

一种基于接触概率辅助的蛋白质ATP对接方法，首先，使用ATPbind等五个蛋白质绑定残基预测服务器预测出蛋白质‑ATP的绑定残基信息，并使用投票法选择出现次数多的残基作为绑定残基，提高绑定残基的精确性；其次，从PDB数据库中提取特定类型绑定残基与ATP各原子的接触概率矩阵，作为能量函数对生成的构象进行打分，提升对接精度；最后，通过使用改进的差分进化算法搜索最优个体，提高计算效率。本发明提供一种计算代价低、预测精确性较高的基于接触概率辅助的蛋白质ATP对接方法。

Description

一种基于接触概率辅助的蛋白质ATP对接方法

技术领域

本发明涉及一种生物信息学、智能优化、计算机应用领域，尤其涉及的是一种基于接触概率辅助的蛋白质ATP对接方法。

背景技术

随着蛋白质组学的不断研究，发现蛋白质与一些配体小分子结合成一个整体在生物体中发挥作用越来越普遍。在整个生命过程中，蛋白质-配体相互识别过程，包括底物-酶、抗原-抗体、激素-受体的识别是各种生物功能的分子机制及调控过程的重要基础。蛋白质与配体的相互识别和作用是蛋白质发挥其生物功能的重要途径，在各种生命活动中扮演着非常重要的角色，比如基因调控、信号传导、免疫应答等都离不开蛋白质与配体的相互作用。ATP也是一种小分子配体，它是人体内广泛分布的能量分子，通过ATP水解酶的作用，释放能量变成ADP，ADP又可以通过ATP合成酶的作用形成ATP，而这两种过程都需要与酶蛋白相结合才能发生。蛋白质与其配体之间的分子识别机制的研究、识别模型的建立以及分子识别与分子选择性关系的研究，不仅对揭示生物学本质具有非常重要的意义，而且还可以应用于指导设计和合成具有特殊识别功能和生物活性的化合物。

目前测定蛋白质配体复合物的结构主要采用的湿实验方法有X射线晶体衍射、核磁共振等，但采用这些实验方法测定蛋白质-配体复合物结构尚存在较大的困难，而且费用高昂，花费时间长。近年来，随着计算机技术的不断增强以及分子模拟方法理论的迅速发展和广泛应用，同源建模、分子对接、分子动力学模拟、结合自由能计算以及量子力学计算等分子模拟方法已经成为研究蛋白质与配体相互作用机制及其动态过程的重要手段。分子模拟方法为从分子、甚至原子水平上研究生命现象及揭示其本质规律提供了很好的手段，并可为实验提供有力的理论指导。随着分子模拟的理论完善及技术的进步，分子模拟方法正越来越多地被用于蛋白质结构与功能的关系、蛋白质与配体的相互识别以及药物设计的研究工作当中。

计算机分子模拟技术主要依靠智能算法和能量函数搜索具有最低能量的复合物结构的过程。然而目前还没有一个能量函数能完美地评判复合物的能量，此外蛋白质绑定残基的预测不精确也会导致能量函数存在误差，从而导致预测得到的复合物结构不精确，一些智能算法也存在着搜索时间长或搜索结果不准确的问题。

因此，现有的蛋白质与配体分子对接方法在预测精确性和计算代价方面存在着缺陷，需要改进。

发明内容

为了克服现有的蛋白质与配体ATP对接方法在预测精确性和计算代价方面的不足，本发明提出一种计算代价低、预测精确性较高的基于接触概率辅助的蛋白质ATP对接方法。

本发明解决其技术问题所采用的技术方案是：

一种基于接触概率辅助的蛋白质ATP对接方法，所述方法包括以下步骤：

1)输入目标蛋白质和ATP的结构，分别记为R和A；

2)分别使用ATPbind服务器(https://zhanglab.ccmb.med.umich.edu/ATPbind/)、TargetS服务器(http://www.csbio.sjtu.edu.cn:8080/TargetS/)、TargetSOS服务器(http://www.csbio.sjtu.edu.cn:8080/TargetSOS/)、TargetNUCs服务器(http://202.119.84.36:3079/TargetNUCs/)和TargetATPsite服务器(http://www.csbio.sjtu.edu.cn:8080/TargetATPsite/)预测目标蛋白质R的所有ATP绑定残基；

3)对于每一个可能的绑定残基，若有三个及三个以上的服务器预测其为绑定残基，则将其作为绑定残基，最终得到h个蛋白质绑定残基，记为r₁,r₂,...,r_h；

4)计算所有绑定残基r₁,r₂,...,r_h中心碳原子C_α坐标的平均值，得到绑定残基中心坐标C_R；计算A中所有原子坐标的平均值，得到A的中心坐标C_A，移动A使得C_A和C_R的坐标重合；

5)从PDB数据库中提取每种类型的绑定残基与每一个ATP原子形成接触的概率，过程如下：

5.1)对于PDB数据库中的每一个复合物，计算所有残基类型为g的绑定残基的C_α原子与ATP中第j个原子之间的平均距离d_g,j，若

则令

否则，令

其中g＝{1,2,…,21}表示21种残基类型，j＝{1,2,…,31}表示31个ATP原子，

表示第k个复合物中残基类型为g的绑定残基与ATP中第j个原子之间是否存在接触；

5.2)计算所有复合物的

的平均值，记作c_g,j，得到一个21×31维的接触概率矩阵：

6)参数设置：设置种群规模NP，缩放因子F₀，交叉概率CR，最大迭代次数G_max，初始化迭代次数G＝0；

7)种群初始化：随机生成初始种群P＝{S₁,S₂,...,S_i,...,S_NP}，S_i＝(s_i,1,s_i,2,s_i,3,s_i,4,s_i,5,s_i,6)为种群P的第i个个体,s_i,1、s_i,2、s_i,3、s_i,4、s_i,5与s_i,6为S_i的6个元素，其中s_i,1、s_i,2和s_i,3的取值范围是

s_i,4、s_i,5与s_i,6的取值范围为0到2π；

8)对于种群中的每个个体S_i，根据如下方式将蛋白质与ATP对接，并计算该个体的得分E_i：

8.1)根据S_i中的后三个元素s_i,4、s_i,5与s_i,6，计算出一个空间旋转矩阵R：

8.2)将A中所有原子坐标根据旋转矩阵R进行旋转得到新的ATP结构A^R；

8.3)根据S_i中的前三个元素s_i,1、s_i,2、s_i,3，将A^R中的所有坐标执行如下的平移过程，计算得出新的ATP结构A^T：

其中

是A^T的第j个原子的坐标，

分别是A^R中第j个原子的X,Y,Z坐标，j＝1,2,...,31；

8.4)计算h个绑定残基C_α原子与ATP所有原子间的距离，并按照如下公式计算得分E_i：

其中g表示当前绑定残基的类型；c_g,j是g类型绑定残基与ATP中第j个原子间存在接触的概率，对应于接触矩阵C中第g行第j列的数值；d_h,j是当前绑定残基C_α原子与ATP中第j个原子之间的距离；d_min＝0.75×(r^h+r^j)，r^h和r^j分别表示当前绑定残基的C_α原子和ATP中第j个原子的范德华半径；

9)根据差分进化算法，对种群P中的每个个体S_i,i∈{1,2,…,NP}执行如下操作：

9.1)从当前种群P中随机选择三个不同的个体S_a、S_b与S_c，其中a、b和c分别∈{1,2,…,NP}，且a≠b≠c≠i，根据如下公式生成突变个体S_mutant：

S_mutant＝S_a+F·(S_b-S_c)

9.2)根据如下过程生成交叉个体S_cross1和S_cross2：

其中s_cross1,t、s_mutant,t、s_cross2,t和s_i,t分别是S_cross1、S_mutant、S_cross2和S_i中的元素，t＝1,2,...,6，t_rand为1到6之间的随机整数，rand(0,1)为0到1之间的随机小数；

9.3)根据步骤8)的得分计算方式，分别计算S_cross1，S_cross2和S_i对应的得分E_cross1，E_cross2和E_i；

9.4)选择S_cross1，S_cross2和S_i中得分最低的个体替换种群P中的S_i；10)G＝G+1，如果G≥G_max，则记录当前种群P中最低的得分E_min和对应的ATP结构信息

将

作为最终的ATP位置信息输出，否则返回步骤9)。

本发明的技术构思为：首先，使用ATPbind等五个蛋白质绑定残基预测服务器预测出蛋白质-ATP的绑定残基信息，并使用投票法选择出现次数多的残基作为绑定残基，提高绑定残基的精确性；其次，从PDB数据库中提取特定类型绑定残基与ATP各原子的接触概率矩阵，作为能量函数对生成的构象进行打分，提升对接精度；最后，通过使用改进的差分进化算法搜索最优个体，提高了计算效率。本发明提供一种计算代价低、预测精确性较高的基于接触概率辅助的蛋白质ATP对接方法。

本发明的有益效果表现在：其一，使用多个蛋白质绑定残基预测服务器预测蛋白质-ATP的绑定残基，提高了绑定残基的可靠性；其二，利用提取的绑定残基与ATP原子接触概率矩阵辅助对接，提高了蛋白质ATP的对接精度；其三，采用改进的差分进化算法搜索ATP的空间位置，提高了算法的搜索效率。

附图说明

图1为一种基于接触概率辅助的蛋白质ATP对接方法的示意图。

图2为使用一种基于接触概率辅助的蛋白质ATP对接方法对蛋白质1e2q与ATP进行对接后得到复合物的结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于接触概率辅助的蛋白质ATP对接方法，包括以下步骤：

1)输入目标蛋白质和ATP的结构，分别记为R和A；

则令

否则，令

5.2)计算所有复合物的

的平均值，记作c_g,j，得到一个21×31维的接触概率矩阵：

s_i,4、s_i,5与s_i,6的取值范围为0到2π；

其中

是A^T的第j个原子的坐标，

分别是A^R中第j个原子的X,Y,Z坐标，j＝1,2,...,31；

S_mutant＝S_a+F·(S_b-S_c)

9.2)根据如下过程生成交叉个体S_cross1和S_cross2：

9.4)选择S_cross1，S_cross2和S_i中得分最低的个体替换种群P中的S_i；

10)G＝G+1，如果G≥G_max，则记录当前种群P中最低的得分E_min和对应的ATP结构信息

将

作为最终的ATP位置信息输出，否则返回步骤9)。

本实施例以预测蛋白质1e2q和ATP对接后的复合物的三维空间结构为实施例，一种基于接触概率辅助的蛋白质ATP对接方法，包括以下步骤：

1)输入目标蛋白质和ATP的结构，分别记为R和A；

则令

否则，令

5.2)计算所有复合物的

的平均值，记作c_g,j，得到一个21×31维的接触概率矩阵：

6)参数设置：设置种群规模NP＝50，缩放因子F₀＝0.5，交叉概率CR＝0.5，最大迭代次数G_max＝500，初始化迭代次数G＝1；

s_i,4、s_i,5与s_i,6的取值范围为0到2π；

其中

是A^T的第j个原子的坐标，

分别是A^R中第j个原子的X,Y,Z坐标，j＝1,2,...,31；

S_mutant＝S_a+F·(S_b-S_c)

9.2)根据如下过程生成交叉个体S_cross1和S_cross2：

9.3)根据步骤8)的得分计算方式，分别计算S_cross1，S_cross2 S_cross1和S_i对应的得分E_cross1，E_cross2和E_i；

将

作为最终的ATP位置信息输出，否则返回步骤9)。

以预测蛋白质1e2q和ATP对接的三维空间结构为实施例，运用以上方法得到的蛋白质1e2q和ATP的复合物三维空间结构信息，与湿实验测出的复合物结构的均方根偏差为

预测的蛋白质ATP复合物结构如图2所示。

以上说明是本发明以蛋白质1e2q和ATP为实例所得出的预测结果，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。