CN110689929B - 一种基于接触概率辅助的蛋白质atp对接方法 - Google Patents

一种基于接触概率辅助的蛋白质atp对接方法 Download PDF

Info

Publication number
CN110689929B
CN110689929B CN201910805001.6A CN201910805001A CN110689929B CN 110689929 B CN110689929 B CN 110689929B CN 201910805001 A CN201910805001 A CN 201910805001A CN 110689929 B CN110689929 B CN 110689929B
Authority
CN
China
Prior art keywords
atp
residue
binding
atom
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910805001.6A
Other languages
English (en)
Other versions
CN110689929A (zh
Inventor
张贵军
饶亮
刘俊
赵凯龙
胡俊
周晓根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910805001.6A priority Critical patent/CN110689929B/zh
Publication of CN110689929A publication Critical patent/CN110689929A/zh
Application granted granted Critical
Publication of CN110689929B publication Critical patent/CN110689929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种基于接触概率辅助的蛋白质ATP对接方法,首先,使用ATPbind等五个蛋白质绑定残基预测服务器预测出蛋白质‑ATP的绑定残基信息,并使用投票法选择出现次数多的残基作为绑定残基,提高绑定残基的精确性;其次,从PDB数据库中提取特定类型绑定残基与ATP各原子的接触概率矩阵,作为能量函数对生成的构象进行打分,提升对接精度;最后,通过使用改进的差分进化算法搜索最优个体,提高计算效率。本发明提供一种计算代价低、预测精确性较高的基于接触概率辅助的蛋白质ATP对接方法。

Description

一种基于接触概率辅助的蛋白质ATP对接方法
技术领域
本发明涉及一种生物信息学、智能优化、计算机应用领域,尤其涉及的是一种基于接触概率辅助的蛋白质ATP对接方法。
背景技术
随着蛋白质组学的不断研究,发现蛋白质与一些配体小分子结合成一个整体在生物体中发挥作用越来越普遍。在整个生命过程中,蛋白质-配体相互识别过程,包括底物-酶、抗原-抗体、激素-受体的识别是各种生物功能的分子机制及调控过程的重要基础。蛋白质与配体的相互识别和作用是蛋白质发挥其生物功能的重要途径,在各种生命活动中扮演着非常重要的角色,比如基因调控、信号传导、免疫应答等都离不开蛋白质与配体的相互作用。ATP也是一种小分子配体,它是人体内广泛分布的能量分子,通过ATP水解酶的作用,释放能量变成ADP,ADP又可以通过ATP合成酶的作用形成ATP,而这两种过程都需要与酶蛋白相结合才能发生。蛋白质与其配体之间的分子识别机制的研究、识别模型的建立以及分子识别与分子选择性关系的研究,不仅对揭示生物学本质具有非常重要的意义,而且还可以应用于指导设计和合成具有特殊识别功能和生物活性的化合物。
目前测定蛋白质配体复合物的结构主要采用的湿实验方法有X射线晶体衍射、核磁共振等,但采用这些实验方法测定蛋白质-配体复合物结构尚存在较大的困难,而且费用高昂,花费时间长。近年来,随着计算机技术的不断增强以及分子模拟方法理论的迅速发展和广泛应用,同源建模、分子对接、分子动力学模拟、结合自由能计算以及量子力学计算等分子模拟方法已经成为研究蛋白质与配体相互作用机制及其动态过程的重要手段。分子模拟方法为从分子、甚至原子水平上研究生命现象及揭示其本质规律提供了很好的手段,并可为实验提供有力的理论指导。随着分子模拟的理论完善及技术的进步,分子模拟方法正越来越多地被用于蛋白质结构与功能的关系、蛋白质与配体的相互识别以及药物设计的研究工作当中。
计算机分子模拟技术主要依靠智能算法和能量函数搜索具有最低能量的复合物结构的过程。然而目前还没有一个能量函数能完美地评判复合物的能量,此外蛋白质绑定残基的预测不精确也会导致能量函数存在误差,从而导致预测得到的复合物结构不精确,一些智能算法也存在着搜索时间长或搜索结果不准确的问题。
因此,现有的蛋白质与配体分子对接方法在预测精确性和计算代价方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质与配体ATP对接方法在预测精确性和计算代价方面的不足,本发明提出一种计算代价低、预测精确性较高的基于接触概率辅助的蛋白质ATP对接方法。
本发明解决其技术问题所采用的技术方案是:
一种基于接触概率辅助的蛋白质ATP对接方法,所述方法包括以下步骤:
1)输入目标蛋白质和ATP的结构,分别记为R和A;
2)分别使用ATPbind服务器(https://zhanglab.ccmb.med.umich.edu/ATPbind/)、TargetS服务器(http://www.csbio.sjtu.edu.cn:8080/TargetS/)、TargetSOS服务器(http://www.csbio.sjtu.edu.cn:8080/TargetSOS/)、TargetNUCs服务器(http://202.119.84.36:3079/TargetNUCs/)和TargetATPsite服务器(http://www.csbio.sjtu.edu.cn:8080/TargetATPsite/)预测目标蛋白质R的所有ATP绑定残基;
3)对于每一个可能的绑定残基,若有三个及三个以上的服务器预测其为绑定残基,则将其作为绑定残基,最终得到h个蛋白质绑定残基,记为r1,r2,...,rh
4)计算所有绑定残基r1,r2,...,rh中心碳原子Cα坐标的平均值,得到绑定残基中心坐标CR;计算A中所有原子坐标的平均值,得到A的中心坐标CA,移动A使得CA和CR的坐标重合;
5)从PDB数据库中提取每种类型的绑定残基与每一个ATP原子形成接触的概率,过程如下:
5.1)对于PDB数据库中的每一个复合物,计算所有残基类型为g的绑定残基的Cα原子与ATP中第j个原子之间的平均距离dg,j,若
Figure GDA0003267695010000021
则令
Figure GDA0003267695010000022
否则,令
Figure GDA0003267695010000023
其中g={1,2,…,21}表示21种残基类型,j={1,2,…,31}表示31个ATP原子,
Figure GDA0003267695010000031
表示第k个复合物中残基类型为g的绑定残基与ATP中第j个原子之间是否存在接触;
5.2)计算所有复合物的
Figure GDA0003267695010000032
的平均值,记作cg,j,得到一个21×31维的接触概率矩阵:
Figure GDA0003267695010000033
6)参数设置:设置种群规模NP,缩放因子F0,交叉概率CR,最大迭代次数Gmax,初始化迭代次数G=0;
7)种群初始化:随机生成初始种群P={S1,S2,...,Si,...,SNP},Si=(si,1,si,2,si,3,si,4,si,5,si,6)为种群P的第i个个体,si,1、si,2、si,3、si,4、si,5与si,6为Si的6个元素,其中si,1、si,2和si,3的取值范围是
Figure GDA0003267695010000038
si,4、si,5与si,6的取值范围为0到2π;
8)对于种群中的每个个体Si,根据如下方式将蛋白质与ATP对接,并计算该个体的得分Ei
8.1)根据Si中的后三个元素si,4、si,5与si,6,计算出一个空间旋转矩阵R:
Figure GDA0003267695010000034
8.2)将A中所有原子坐标根据旋转矩阵R进行旋转得到新的ATP结构AR
8.3)根据Si中的前三个元素si,1、si,2、si,3,将AR中的所有坐标执行如下的平移过程,计算得出新的ATP结构AT
Figure GDA0003267695010000035
其中
Figure GDA0003267695010000036
是AT的第j个原子的坐标,
Figure GDA0003267695010000037
分别是AR中第j个原子的X,Y,Z坐标,j=1,2,...,31;
8.4)计算h个绑定残基Cα原子与ATP所有原子间的距离,并按照如下公式计算得分Ei
Figure GDA0003267695010000041
Figure GDA0003267695010000042
其中g表示当前绑定残基的类型;cg,j是g类型绑定残基与ATP中第j个原子间存在接触的概率,对应于接触矩阵C中第g行第j列的数值;dh,j是当前绑定残基Cα原子与ATP中第j个原子之间的距离;dmin=0.75×(rh+rj),rh和rj分别表示当前绑定残基的Cα原子和ATP中第j个原子的范德华半径;
Figure GDA0003267695010000047
9)根据差分进化算法,对种群P中的每个个体Si,i∈{1,2,…,NP}执行如下操作:
9.1)从当前种群P中随机选择三个不同的个体Sa、Sb与Sc,其中a、b和c分别∈{1,2,…,NP},且a≠b≠c≠i,根据如下公式生成突变个体Smutant
Figure GDA0003267695010000043
Smutant=Sa+F·(Sb-Sc)
9.2)根据如下过程生成交叉个体Scross1和Scross2
Figure GDA0003267695010000044
其中scross1,t、smutant,t、scross2,t和si,t分别是Scross1、Smutant、Scross2和Si中的元素,t=1,2,...,6,trand为1到6之间的随机整数,rand(0,1)为0到1之间的随机小数;
9.3)根据步骤8)的得分计算方式,分别计算Scross1,Scross2和Si对应的得分Ecross1,Ecross2和Ei
9.4)选择Scross1,Scross2和Si中得分最低的个体替换种群P中的Si;10)G=G+1,如果G≥Gmax,则记录当前种群P中最低的得分Emin和对应的ATP结构信息
Figure GDA0003267695010000045
Figure GDA0003267695010000046
作为最终的ATP位置信息输出,否则返回步骤9)。
本发明的技术构思为:首先,使用ATPbind等五个蛋白质绑定残基预测服务器预测出蛋白质-ATP的绑定残基信息,并使用投票法选择出现次数多的残基作为绑定残基,提高绑定残基的精确性;其次,从PDB数据库中提取特定类型绑定残基与ATP各原子的接触概率矩阵,作为能量函数对生成的构象进行打分,提升对接精度;最后,通过使用改进的差分进化算法搜索最优个体,提高了计算效率。本发明提供一种计算代价低、预测精确性较高的基于接触概率辅助的蛋白质ATP对接方法。
本发明的有益效果表现在:其一,使用多个蛋白质绑定残基预测服务器预测蛋白质-ATP的绑定残基,提高了绑定残基的可靠性;其二,利用提取的绑定残基与ATP原子接触概率矩阵辅助对接,提高了蛋白质ATP的对接精度;其三,采用改进的差分进化算法搜索ATP的空间位置,提高了算法的搜索效率。
附图说明
图1为一种基于接触概率辅助的蛋白质ATP对接方法的示意图。
图2为使用一种基于接触概率辅助的蛋白质ATP对接方法对蛋白质1e2q与ATP进行对接后得到复合物的结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于接触概率辅助的蛋白质ATP对接方法,包括以下步骤:
1)输入目标蛋白质和ATP的结构,分别记为R和A;
2)分别使用ATPbind服务器(https://zhanglab.ccmb.med.umich.edu/ATPbind/)、TargetS服务器(http://www.csbio.sjtu.edu.cn:8080/TargetS/)、TargetSOS服务器(http://www.csbio.sjtu.edu.cn:8080/TargetSOS/)、TargetNUCs服务器(http://202.119.84.36:3079/TargetNUCs/)和TargetATPsite服务器(http://www.csbio.sjtu.edu.cn:8080/TargetATPsite/)预测目标蛋白质R的所有ATP绑定残基;
3)对于每一个可能的绑定残基,若有三个及三个以上的服务器预测其为绑定残基,则将其作为绑定残基,最终得到h个蛋白质绑定残基,记为r1,r2,...,rh
4)计算所有绑定残基r1,r2,...,rh中心碳原子Cα坐标的平均值,得到绑定残基中心坐标CR;计算A中所有原子坐标的平均值,得到A的中心坐标CA,移动A使得CA和CR的坐标重合;
5)从PDB数据库中提取每种类型的绑定残基与每一个ATP原子形成接触的概率,过程如下:
5.1)对于PDB数据库中的每一个复合物,计算所有残基类型为g的绑定残基的Cα原子与ATP中第j个原子之间的平均距离dg,j,若
Figure GDA0003267695010000067
则令
Figure GDA0003267695010000061
否则,令
Figure GDA0003267695010000062
其中g={1,2,…,21}表示21种残基类型,j={1,2,…,31}表示31个ATP原子,
Figure GDA0003267695010000063
表示第k个复合物中残基类型为g的绑定残基与ATP中第j个原子之间是否存在接触;
5.2)计算所有复合物的
Figure GDA0003267695010000064
的平均值,记作cg,j,得到一个21×31维的接触概率矩阵:
Figure GDA0003267695010000065
6)参数设置:设置种群规模NP,缩放因子F0,交叉概率CR,最大迭代次数Gmax,初始化迭代次数G=0;
7)种群初始化:随机生成初始种群P={S1,S2,...,Si,...,SNP},Si=(si,1,si,2,si,3,si,4,si,5,si,6)为种群P的第i个个体,si,1、si,2、si,3、si,4、si,5与si,6为Si的6个元素,其中si,1、si,2和si,3的取值范围是
Figure GDA0003267695010000068
si,4、si,5与si,6的取值范围为0到2π;
8)对于种群中的每个个体Si,根据如下方式将蛋白质与ATP对接,并计算该个体的得分Ei
8.1)根据Si中的后三个元素si,4、si,5与si,6,计算出一个空间旋转矩阵R:
Figure GDA0003267695010000066
8.2)将A中所有原子坐标根据旋转矩阵R进行旋转得到新的ATP结构AR
8.3)根据Si中的前三个元素si,1、si,2、si,3,将AR中的所有坐标执行如下的平移过程,计算得出新的ATP结构AT
Figure GDA0003267695010000071
其中
Figure GDA0003267695010000072
是AT的第j个原子的坐标,
Figure GDA0003267695010000073
分别是AR中第j个原子的X,Y,Z坐标,j=1,2,...,31;
8.4)计算h个绑定残基Cα原子与ATP所有原子间的距离,并按照如下公式计算得分Ei
Figure GDA0003267695010000074
Figure GDA0003267695010000075
其中g表示当前绑定残基的类型;cg,j是g类型绑定残基与ATP中第j个原子间存在接触的概率,对应于接触矩阵C中第g行第j列的数值;dh,j是当前绑定残基Cα原子与ATP中第j个原子之间的距离;dmin=0.75×(rh+rj),rh和rj分别表示当前绑定残基的Cα原子和ATP中第j个原子的范德华半径;
Figure GDA0003267695010000076
9)根据差分进化算法,对种群P中的每个个体Si,i∈{1,2,…,NP}执行如下操作:
9.1)从当前种群P中随机选择三个不同的个体Sa、Sb与Sc,其中a、b和c分别∈{1,2,…,NP},且a≠b≠c≠i,根据如下公式生成突变个体Smutant
Figure GDA0003267695010000077
Smutant=Sa+F·(Sb-Sc)
9.2)根据如下过程生成交叉个体Scross1和Scross2
Figure GDA0003267695010000078
其中scross1,t、smutant,t、scross2,t和si,t分别是Scross1、Smutant、Scross2和Si中的元素,t=1,2,...,6,trand为1到6之间的随机整数,rand(0,1)为0到1之间的随机小数;
9.3)根据步骤8)的得分计算方式,分别计算Scross1,Scross2和Si对应的得分Ecross1,Ecross2和Ei
9.4)选择Scross1,Scross2和Si中得分最低的个体替换种群P中的Si
10)G=G+1,如果G≥Gmax,则记录当前种群P中最低的得分Emin和对应的ATP结构信息
Figure GDA0003267695010000081
Figure GDA0003267695010000082
作为最终的ATP位置信息输出,否则返回步骤9)。
本实施例以预测蛋白质1e2q和ATP对接后的复合物的三维空间结构为实施例,一种基于接触概率辅助的蛋白质ATP对接方法,包括以下步骤:
1)输入目标蛋白质和ATP的结构,分别记为R和A;
2)分别使用ATPbind服务器(https://zhanglab.ccmb.med.umich.edu/ATPbind/)、TargetS服务器(http://www.csbio.sjtu.edu.cn:8080/TargetS/)、TargetSOS服务器(http://www.csbio.sjtu.edu.cn:8080/TargetSOS/)、TargetNUCs服务器(http://202.119.84.36:3079/TargetNUCs/)和TargetATPsite服务器(http://www.csbio.sjtu.edu.cn:8080/TargetATPsite/)预测目标蛋白质R的所有ATP绑定残基;
3)对于每一个可能的绑定残基,若有三个及三个以上的服务器预测其为绑定残基,则将其作为绑定残基,最终得到h个蛋白质绑定残基,记为r1,r2,...,rh
4)计算所有绑定残基r1,r2,...,rh中心碳原子Cα坐标的平均值,得到绑定残基中心坐标CR;计算A中所有原子坐标的平均值,得到A的中心坐标CA,移动A使得CA和CR的坐标重合;
5)从PDB数据库中提取每种类型的绑定残基与每一个ATP原子形成接触的概率,过程如下:
5.1)对于PDB数据库中的每一个复合物,计算所有残基类型为g的绑定残基的Cα原子与ATP中第j个原子之间的平均距离dg,j,若
Figure GDA0003267695010000086
则令
Figure GDA0003267695010000083
否则,令
Figure GDA0003267695010000084
其中g={1,2,…,21}表示21种残基类型,j={1,2,…,31}表示31个ATP原子,
Figure GDA0003267695010000085
表示第k个复合物中残基类型为g的绑定残基与ATP中第j个原子之间是否存在接触;
5.2)计算所有复合物的
Figure GDA0003267695010000091
的平均值,记作cg,j,得到一个21×31维的接触概率矩阵:
Figure GDA0003267695010000092
6)参数设置:设置种群规模NP=50,缩放因子F0=0.5,交叉概率CR=0.5,最大迭代次数Gmax=500,初始化迭代次数G=1;
7)种群初始化:随机生成初始种群P={S1,S2,...,Si,...,SNP},Si=(si,1,si,2,si,3,si,4,si,5,si,6)为种群P的第i个个体,si,1、si,2、si,3、si,4、si,5与si,6为Si的6个元素,其中si,1、si,2和si,3的取值范围是
Figure GDA0003267695010000093
si,4、si,5与si,6的取值范围为0到2π;
8)对于种群中的每个个体Si,根据如下方式将蛋白质与ATP对接,并计算该个体的得分Ei
8.1)根据Si中的后三个元素si,4、si,5与si,6,计算出一个空间旋转矩阵R:
Figure GDA0003267695010000094
8.2)将A中所有原子坐标根据旋转矩阵R进行旋转得到新的ATP结构AR
8.3)根据Si中的前三个元素si,1、si,2、si,3,将AR中的所有坐标执行如下的平移过程,计算得出新的ATP结构AT
Figure GDA0003267695010000095
其中
Figure GDA0003267695010000096
是AT的第j个原子的坐标,
Figure GDA0003267695010000097
分别是AR中第j个原子的X,Y,Z坐标,j=1,2,...,31;
8.4)计算h个绑定残基Cα原子与ATP所有原子间的距离,并按照如下公式计算得分Ei
Figure GDA0003267695010000098
Figure GDA0003267695010000101
其中g表示当前绑定残基的类型;cg,j是g类型绑定残基与ATP中第j个原子间存在接触的概率,对应于接触矩阵C中第g行第j列的数值;dh,j是当前绑定残基Cα原子与ATP中第j个原子之间的距离;dmin=0.75×(rh+rj),rh和rj分别表示当前绑定残基的Cα原子和ATP中第j个原子的范德华半径;
Figure GDA0003267695010000102
9)根据差分进化算法,对种群P中的每个个体Si,i∈{1,2,…,NP}执行如下操作:
9.1)从当前种群P中随机选择三个不同的个体Sa、Sb与Sc,其中a、b和c分别∈{1,2,…,NP},且a≠b≠c≠i,根据如下公式生成突变个体Smutant
Figure GDA0003267695010000103
Smutant=Sa+F·(Sb-Sc)
9.2)根据如下过程生成交叉个体Scross1和Scross2
Figure GDA0003267695010000104
其中scross1,t、smutant,t、scross2,t和si,t分别是Scross1、Smutant、Scross2和Si中的元素,t=1,2,...,6,trand为1到6之间的随机整数,rand(0,1)为0到1之间的随机小数;
9.3)根据步骤8)的得分计算方式,分别计算Scross1,Scross2 Scross1和Si对应的得分Ecross1,Ecross2和Ei
9.4)选择Scross1,Scross2和Si中得分最低的个体替换种群P中的Si
10)G=G+1,如果G≥Gmax,则记录当前种群P中最低的得分Emin和对应的ATP结构信息
Figure GDA0003267695010000105
Figure GDA0003267695010000106
作为最终的ATP位置信息输出,否则返回步骤9)。
以预测蛋白质1e2q和ATP对接的三维空间结构为实施例,运用以上方法得到的蛋白质1e2q和ATP的复合物三维空间结构信息,与湿实验测出的复合物结构的均方根偏差为
Figure GDA0003267695010000111
预测的蛋白质ATP复合物结构如图2所示。
以上说明是本发明以蛋白质1e2q和ATP为实例所得出的预测结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

Claims (1)

1.一种基于接触概率辅助的蛋白质ATP对接方法,其特征在于:所述对接方法包括以下步骤:
1)输入目标蛋白质和ATP的结构,分别记为R和A;
2)分别使用ATPbind服务器、TargetS服务器、TargetSOS服务器、TargetNUCs服务器和TargetATPsite服务器预测目标蛋白质R的所有ATP绑定残基;
3)对于每一个可能的绑定残基,若有三个及三个以上的服务器预测其为绑定残基,则将其作为绑定残基,最终得到h个蛋白质绑定残基,记为r1,r2,...,rh
4)计算所有绑定残基r1,r2,...,rh中心碳原子Cα坐标的平均值,得到绑定残基中心坐标CR;计算A中所有原子坐标的平均值,得到A的中心坐标CA,移动A使得CA和CR的坐标重合;
5)从PDB数据库中提取每种类型的绑定残基与每一个ATP原子形成接触的概率,过程如下:
5.1)对于PDB数据库中的每一个复合物,计算所有残基类型为g的绑定残基的Cα原子与ATP中第j个原子之间的平均距离dg,j,若
Figure FDA0003267690000000011
则令
Figure FDA0003267690000000012
否则,令
Figure FDA0003267690000000013
其中g={1,2,…,21}表示21种残基类型,j={1,2,…,31}表示31个ATP原子,
Figure FDA0003267690000000014
表示第k个复合物中残基类型为g的绑定残基与ATP中第j个原子之间是否存在接触;
5.2)计算所有复合物的
Figure FDA0003267690000000015
的平均值,记作cg,j,得到一个21×31维的接触概率矩阵:
Figure FDA0003267690000000016
6)参数设置:设置种群规模NP,缩放因子F0,交叉概率CR,最大迭代次数Gmax,初始化迭代次数G=0;
7)种群初始化:随机生成初始种群P={S1,S2,...,Si,...,SNP},Si=(si,1,si,2,si,3,si,4,si,5,si,6)为种群P的第i个个体,si,1、si,2、si,3、si,4、si,5与si,6为Si的6个元素,其中si,1、si,2和si,3的取值范围是
Figure FDA0003267690000000021
si,4、si,5与si,6的取值范围为0到2π;
8)对于种群中的每个个体Si,根据如下方式将蛋白质与ATP对接,并计算该个体的得分Ei
8.1)根据Si中的后三个元素si,4、si,5与si,6,计算出一个空间旋转矩阵R:
Figure FDA0003267690000000022
8.2)将A中所有原子坐标根据旋转矩阵R进行旋转得到新的ATP结构AR
8.3)根据Si中的前三个元素si,1、si,2、si,3,将AR中的所有坐标执行如下的平移过程,计算得出新的ATP结构AT
Figure FDA0003267690000000023
其中
Figure FDA0003267690000000024
是AT的第j个原子的坐标,
Figure FDA0003267690000000025
分别是AR中第j个原子的X,Y,Z坐标,j=1,2,...,31;
8.4)计算h个绑定残基Cα原子与ATP所有原子间的距离,并按照如下公式计算得分Ei
Figure FDA0003267690000000026
Figure FDA0003267690000000027
其中g表示当前绑定残基的类型;cg,j是g类型绑定残基与ATP中第j个原子间存在接触的概率,对应于接触矩阵C中第g行第j列的数值;dh,j是当前绑定残基Cα原子与ATP中第j个原子之间的距离;dmin=0.75×(rh+rj),rh和rj分别表示当前绑定残基的Cα原子和ATP中第j个原子的范德华半径;
Figure FDA0003267690000000028
9)根据差分进化算法,对种群P中的每个个体Si,i∈{1,2,…,NP}执行如下操作:
9.1)从当前种群P中随机选择三个不同的个体Sa、Sb与Sc,其中a、b和c分别∈{1,2,…,NP},且a≠b≠c≠i,根据如下公式生成突变个体Smutant
Figure FDA0003267690000000031
Smutant=Sa+F·(Sb-Sc)
9.2)根据如下过程生成交叉个体Scross1和Scross2
Figure FDA0003267690000000032
其中scross1,t、smutant,t、scross2,t和si,t分别是Scross1、Smutant、Scross2和Si中的元素,t=1,2,...,6,trand为1到6之间的随机整数,rand(0,1)为0到1之间的随机小数;
9.3)根据步骤8)的得分计算方式,分别计算Scross1,Scross2和Si对应的得分Ecross1,Ecross2和Ei
9.4)选择Scross1,Scross2和Si中得分最低的个体替换种群P中的Si
10)G=G+1,如果G≥Gmax,则记录当前种群P中最低的得分Emin和对应的ATP结构信息
Figure FDA0003267690000000033
Figure FDA0003267690000000034
作为最终的ATP位置信息输出,否则返回步骤9)。
CN201910805001.6A 2019-08-29 2019-08-29 一种基于接触概率辅助的蛋白质atp对接方法 Active CN110689929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910805001.6A CN110689929B (zh) 2019-08-29 2019-08-29 一种基于接触概率辅助的蛋白质atp对接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910805001.6A CN110689929B (zh) 2019-08-29 2019-08-29 一种基于接触概率辅助的蛋白质atp对接方法

Publications (2)

Publication Number Publication Date
CN110689929A CN110689929A (zh) 2020-01-14
CN110689929B true CN110689929B (zh) 2021-12-17

Family

ID=69108516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910805001.6A Active CN110689929B (zh) 2019-08-29 2019-08-29 一种基于接触概率辅助的蛋白质atp对接方法

Country Status (1)

Country Link
CN (1) CN110689929B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360596A (zh) * 2018-08-30 2019-02-19 浙江工业大学 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN109461470A (zh) * 2018-08-29 2019-03-12 浙江工业大学 一种蛋白质结构预测能量函数权重优化方法
CN109524058A (zh) * 2018-11-07 2019-03-26 浙江工业大学 一种基于差分进化的蛋白质二聚体结构预测方法
WO2019080829A1 (en) * 2017-10-23 2019-05-02 Shanghaitech University COMPOSITIONS AND METHODS FOR DETECTING MOLECULE-MOLECULE INTERACTIONS

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102379048B1 (ko) * 2016-05-02 2022-03-28 엔코디아, 인코포레이티드 암호화 핵산을 사용한 거대분자 분석

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019080829A1 (en) * 2017-10-23 2019-05-02 Shanghaitech University COMPOSITIONS AND METHODS FOR DETECTING MOLECULE-MOLECULE INTERACTIONS
CN109461470A (zh) * 2018-08-29 2019-03-12 浙江工业大学 一种蛋白质结构预测能量函数权重优化方法
CN109360596A (zh) * 2018-08-30 2019-02-19 浙江工业大学 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN109524058A (zh) * 2018-11-07 2019-03-26 浙江工业大学 一种基于差分进化的蛋白质二聚体结构预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Protein ligand-specific binding residue predictions by an ensemble classifier";Hu X;《BMC Bioinformatics》;20161231;第1-12页 *
"识别蛋白质配体绑定残基的生物计算方法综述";於东军;《数据采集与处理》;20180331;第195-206页 *

Also Published As

Publication number Publication date
CN110689929A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
Basith et al. Machine intelligence in peptide therapeutics: A next‐generation tool for rapid disease screening
Pattanaik et al. Generating transition states of isomerization reactions with deep learning
CN109524058B (zh) 一种基于差分进化的蛋白质二聚体结构预测方法
Durairaj et al. Geometricus represents protein structures as shape-mers derived from moment invariants
CN108846256B (zh) 一种基于残基接触信息的群体蛋白质结构预测方法
Emami et al. Computational predictive approaches for interaction and structure of aptamers
Zhang et al. A new graph autoencoder-based consensus-guided model for scRNA-seq cell type detection
CN110600075B (zh) 一种基于配体生长策略的蛋白质atp对接方法
CN109872770B (zh) 一种结合排挤度评价的多变异策略蛋白质结构预测方法
CN109101785B (zh) 一种基于二级结构相似性选择策略的蛋白质结构预测方法
CN110689929B (zh) 一种基于接触概率辅助的蛋白质atp对接方法
Dhakal et al. Predicting protein-ligand binding structure using E (n) Equivariant graph neural networks
Roshan Multiple sequence alignment using Probcons and Probalign
Wang Prediction of protein–ligand binding affinity via deep learning models
CN110600076B (zh) 一种基于距离和角度信息的蛋白质atp对接方法
Hao et al. Conformational space sampling method using multi-subpopulation differential evolution for de novo protein structure prediction
Sun et al. Tetramer protein complex interface residue pairs prediction with LSTM combined with graph representations
CN108920894B (zh) 一种基于简约抽象凸估计的蛋白质构象空间优化方法
CN109360597B (zh) 一种基于全局和局部策略协作的群体蛋白质结构预测方法
Zhang et al. Two-stage distance feature-based optimization algorithm for de novo protein structure prediction
CN110197700B (zh) 一种基于差分进化的蛋白质atp对接方法
Yue et al. A systematic review on the state-of-the-art strategies for protein representation
CN111180006B (zh) 一种基于能量函数的模板口袋搜索方法
CN109448786B (zh) 一种下界估计动态策略蛋白质结构预测方法
Lu et al. Research on DNA‐Binding Protein Identification Method Based on LSTM‐CNN Feature Fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant