CN109033738A - 一种基于深度学习的药物活性预测方法 - Google Patents

一种基于深度学习的药物活性预测方法 Download PDF

Info

Publication number
CN109033738A
CN109033738A CN201810742486.4A CN201810742486A CN109033738A CN 109033738 A CN109033738 A CN 109033738A CN 201810742486 A CN201810742486 A CN 201810742486A CN 109033738 A CN109033738 A CN 109033738A
Authority
CN
China
Prior art keywords
molecule
node
pharmaceutical activity
data
conv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810742486.4A
Other languages
English (en)
Other versions
CN109033738B (zh
Inventor
全哲
范益世
王凡
乐雨泉
林轩
刘彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201810742486.4A priority Critical patent/CN109033738B/zh
Publication of CN109033738A publication Critical patent/CN109033738A/zh
Application granted granted Critical
Publication of CN109033738B publication Critical patent/CN109033738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于深度学习的药物活性预测方法。本发明使用RDkit开源库用于计算给定分子中每个原子的基本特征,包括原子类型,化合价,形式电荷等,只计算原子特征大大减少时间耗费。本发明是结合了图卷积和LSTM两种模型(长短期记忆网络)的预测模型,对于图卷积模型,通过将原子视为节点并将键作为无向图中的边来将所有分子特征化为图,提取分子结构特征,使用图卷积神经网络可以减少时间耗费的同时获取传统方法无法得到的特征。LSTM通过在证据和查询分子之间交换信息来学习复杂的度量。从而达到在低数据量下较高的预测准确度。

Description

一种基于深度学习的药物活性预测方法
技术领域
本发明涉及一种基于深度学习的药物活性预测方法,属于软件技术领域。
背景内容
药物研究以及制药业发展的主要目标是发现与治疗疾病相关的药物分子,探索先导物发现方法是实现这一目标的主要途径。当生物学研究发现某一特定分子具有治疗活性时,发现的分子常常因为毒性,低活性和低溶解度等多种原因而被废弃。据美国药物研究与制造商协会统计,整个制药业中新药研究和开发占销售收入的12.8%,而其中的75%是因为新药研究和开发的失败,在初筛中被命中的化合物不到5%能进入临床前评价。由于计算机虚拟筛选不存在样品的限制,因此如果先进行计算机虚拟筛选,然后再进行药理测试,这样的研究策略与传统的直接进行药理测试的策略比较,将显著地缩短新药的研发周期、降低研发费用。目前,先导物发现的主流方向在于分子的定量结构和活性关系(QSAR)的研究,主要是定量描述分子的结构,即分子特征描述方法的选择和连接这些分子特征与活性的数学函数关系的选择。
目前通常的做法主要分为以下几种:
基于化合物分子的拓扑结构、侧链、骨架与特定的毒性作用部位之间的关系。Wang等人研究了化学物质毒性作用登记RTECS (Registry of Toxic Effect of ChemicalSubstances)数据库中约六万个毒性化合物分子的拓扑结构、侧链、骨架与特定的毒性作用部位之间的关系(比如皮肤毒性、血液毒性以及肾脏毒性等),并对这些拓扑结构在整个数据库中出现的次数,以及在毒性化学库中出现的次数进行比较。此方法需要的数据量大,正样本多,而且只提取毒性特征会对导致无毒分子的判断误差较大。
1.基于支持向量机方法预测待测药物的活性。Zhang等人根据获取的遗传性疾病对应的相关基因信息从得到的药物靶标中筛选出与遗传性疾病关联的靶标基因,获取每个样本药物的特征属性,所述特征属性为样本药物对应的药物靶标与遗传性疾病关联的靶标基因的相关关系;以每个样本药物的特征属性为输入向量,以样本药物的活性为输出,通过支持向量机方法建立模型,预测待测药物的活性。此方法分子特征较难获取,需要特定的数据集,普适性较差。
2.基于深度学习的有监督和无监督算法结合进行药物活性分子识别。高双印将支持向量机(Support Vector Machine)、人工神经网络 (Artificial Neural Network)、半监督支持向量机(Semi-supervised support vector machine)、代价安全性半监督支持向量机(Cost security semi-supervised support vector machine)、栈式自编码(StackedAutoEncode)、深度信念网络(Deep Belief Network)几种种方法进结合,分别对三类药物活性分子(PLK1PBD、SMAD3、IL-1B)进行深入探究。由于药物活性分子结构繁杂,选用化学计量软件MOE对其进行精密计算,分别获得其2D及3D分子描述符,通过上述两类算法进行药物活性分子识别。此方法需要大数据集,使用化学计量软件计算分子特征要耗费大量时间。
综上所述,药物活性预测的各种方法都会受限于自身的特点,基于大数据分析的方法需要大量数据,对于样本的分布要求较高;传统机器学习类方法对于样本采集分类、训练需要耗费大量的时间;以上基于有监督和无监督的机器学习算法不仅需要大量数据,而且使用化学计量软件计算分子特征同样需要耗费大量时间。
名词解释:
LSTM:即长短期记忆网络。
原子的degree:用RDkit计算出的每个原子的权重值,是该原子直接相连的原子个数。
Lewis结构式:一种分子的书写方式,如氰化氢H-C≡N
Sigmoid:Sigmoid函数是一个S形曲线的数学函数,其公式为
在逻辑回归、人工神经网络中有着广泛的应用。
Tanh:双曲正切函数,是由基本双曲函数双曲正弦和双曲余弦推导而来:
发明内容
本发明克服现有技术存在的不足,本发明公开了一种基于深度学习的药物活性预测方法。本发明使用RDkit开源库用于计算给定分子中每个原子的基本特征,包括原子类型,化合价,形式电荷等,只计算原子特征大大减少时间耗费。对于图卷积模型,通过将原子视为节点并将键作为无向图中的边来将所有分子特征化为图,提取分子结构特征,使用图卷积神经网络可以减少时间耗费的同时获取传统方法无法得到的特征。LSTM通过在证据和查询分子之间交换信息来学习复杂的度量。从而达到在低数据量下较高的预测准确度。
为解决上述技术问题,本发明所采用的技术方案为:
一种基于深度学习的药物活性预测方法,包括如下步骤:
步骤一、构建药物活性数据集,对药物活性数据集进行切分,其中,药物活性数据集中一部分数据作为训练集、一部分数据作为开发集,还有一部分数据作为测试集;
步骤二、对训练集的分子提取原子特征,并将训练集的分子结构转化为邻接矩阵;
步骤三、构建预测模型,预测模型包含五层图卷积,一层LSTM;
步骤四、将步骤二和三得到的数据进行训练;
步骤五、通过图卷积,池化,全连接后,将输出值输送给分类器,优化损失函数,继续训练;
步骤六、经过迭代计算,得到训练后的预测模型;
步骤七、将待预测药物输入预测模型得到预测结果。
2.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤七中,先将开发集与测试集同样经过步骤二到六的处理,灌入预测模型得到测试结果。
3.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤一包括如下步骤:
1.1将药物活性数据集进行切分,打乱,包括80%的训练集、10%开发集和10%测试集,将开发集和测试集固定不变用于对照;其中,对数据集的切分保证训练集、开发集和测试集的数据在数据集中均均匀分布;
1.2将数据集中对受体有影响的分子标记为1即作为正样本,无影响的标记为0即负样本,没有数据的空值去除,剔除干扰数据提高准确度。
4.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤二中,对训练集的分子提取原子特征,同时将训练集的分子结构转化为邻接矩阵:
2.1对分子数据提取统计特征:['C','N','O','S','F','Si', 'P','Cl','Br','Mg','Na','Ca','Fe','As','Al','I','B', 'V','K','Tl','Yb','Sb','Sn','Ag','Pd','Co','Se','Ti', 'Zn','H','Li','Ge','Cu','Au','Ni','Cd','In','Mn', 'Zr','Cr','Pt','Hg','Pb','=','+','-','(',')','/', '\','[',']','@','#','Unknown'],以上特征忽略数字,小数点,得到一个包含分子中所有统计特征的字典,字典值为分子或分子对应字符出现的次数;
2.2提取分子的中原子的degree,范围为0~10,原子degree被定义为与该原子直接相连的原子个数;
2.3提取分子中隐式高自旋的数量,范围为0~6,原子核具有的角动量称为原子核的自旋;
2.4提取分子中原子的形式电荷;
2.5提取分子中原子的自由电子数量;
2.6提取分子是否是芳香族化合物;
2.7通过将分子中的原子视为节点并将化学键作为无向图中的边来将所有分子表示为结构图,生成以邻接矩阵表示的分子结构图,邻接矩阵将分子中所有原子作为矩阵行和列的标签,当分子中两个原子有化学键相连接时,矩阵相应位置值为1。
5.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤三包括如下步骤:
3.1输入x分为两个部分,一是分子的原子特征,二是分子结构转化成的邻接矩阵,x是将分子的原子特征和分子结构转化成的邻接矩结合转化成的一个矩阵;
3.2对于输出y的真实值用数组[1,0]表示0,数组[0,1]表示 1,每次训练和测试的结果为一个数组[a,b],a,b为两个概率值,a+ b=1;a和b一个表示输出y的真实值为数组[1,0]的概率,另一个表示输出y的真实值为数组[0,1]的概率;
3.3预测模型使用五层图卷积神经网络,图卷积神经网络具有两个基本特征:一是每个节点都有自己的特征信息;二是图中的每个节点还具有结构信息;下式为图卷积的计算公式,设图卷积的中心节点为v:
u:表示中心节点v的邻居节点;hconv(v):表示中心节点v和节点 u的图卷积特征值;M:表示图卷积神经网络中所有的节点的集合;
表示特征参数,会预设一个值,都为1,在训练的过程中参数不断更新;
σ:表示池化函数;
式(1)将中心节点v的一个边的特征转化为hconv(v),再将所有邻居节点u的hconv(v)累加,即为中心节点v的图卷积;
hconv(G)=[hconv(v1),hconv(v2),hconv(v3),...](2)
hconv(G)表示当前计算的药物分子的hconv(v)的集合,G表示当前计算的分子G;
最后得到分子中所有节点v的图卷积的集合,即为分子结构特征的集合。
6.如权利要求4所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤五中,图卷积过程如下:
5.1.1遍历分子结构图中所有节点;
5.1.3设置图卷积的中心节点为v;
5.1.4遍历中心节点v的所有邻居节点u,建立关系字典d;
5.1.5将节点u的特征转化为u′:
其中,表示特征参数,会预设一个值,都为1,在训练的过程中参数不断更新;
5.1.6将所有的u′相加;
5.1.7返回中心节点v的特征;
池化过程如下:
5.2.1最大池化邻居节点u′;
5.2.2返回中心节点v的图卷积特征hconv(v);
全连接过程如下:
5.3.1使用LSTM判断分子的图卷积特征是否有用,从而挑选出有用的特征;
5.3.2连接挑选出的所有有用的特征,将输出值送给分类器。
7.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤六中多次迭代计算,得到训练后的模型的步骤如下:
6.1每次从训练集中随机抽取128batchsize大小的样本,灌入模型进行训练,得到训练结果后,使用梯度下降法优化损失函数。
进一步的改进,所述步骤三中,预测模型为二分类的预测模型。
与现有技术相比,采用本发明的优点如下:
1.第一步和第二步对数据进行更合理的预处理,将没有数据的干扰数据剔除,提高模型的准确度;同时,对特征的提取采取更简单有效的方法,只计算原子特征,不需要对分子结构进行模拟,将分子结构转化为邻接矩阵,用图卷积的方法提取特征,大大减少时间耗费。
2.第三步构建更为合理的模型,五层图卷积层可以更高效提取分子的结构特征,而LSTM层对特征进行筛选,得到更好的特征。
3.第四步到第七步实现了整个训练过程,对模型进行训练优化, 2000次训练每批数据大小为128,可以保证遍历到所有训练集数据的同时,对模型进行更好的优化,得到比较低的损失函数值。
4.本专利的方法结合了图卷积和LSTM,大大减少特征提取的时间,同时对分子中的原子提取合理适当的特征,不需要使用传统计算化学方法耗费时间计算更详细的分子特征数据,又能得到传统方法无法得到的更合理的特征,从而达到在低数据量下实现更好的药物活性预测准确度。
附图说明
图1为总流程图;
图2为乙烷(C2H6)分子的邻接矩阵;
图3为LSTM流程图。
具体实施方式
图1是本专利的总流程图。
本专利的具体技术方案为:
第一步、构建数据集:
1.1将药物活性数据集进行切分,打乱,包括80%的训练集、10%的开发集和10%的测试集,将开发集和测试集固定不变用于对照。
1.2将数据集中对受体有影响的分子标记为1(正样本),无影响的标记为0(负样本),没有数据的空值去除,剔除干扰数据可以显著提高准确度。
1.3对数据的切分保证训练集、开发集和测试集的分布一致。
第二步、对训练集的分子提取原子特征,同时将训练集的分子结构转化为邻接矩阵:
2.1对分子数据提取统计特征:['C','N','O','S','F','Si', 'P','Cl','Br','Mg','Na','Ca','Fe','As','Al','I','B', 'V','K','Tl','Yb','Sb','Sn','Ag','Pd','Co','Se','Ti', 'Zn','H','Li','Ge','Cu','Au','Ni','Cd','In','Mn', 'Zr','Cr','Pt','Hg','Pb','=','+','-','(',')','/', '\','[',']','@','#','Unknown']。以上特征包含常见元素以及代表特殊价键,括号,特殊分子,离子等的符号,忽略数字,小数点。得到一个包含分子中所有统计特征的字典,字典值为该分子或字符出现次数;
2.2提取分子的中原子的degree,范围为0~10,原子degree被定义为与该原子直接相连的原子个数;
2.3提取分子中隐式高自旋的数量,范围为0~6,原子核具有的角动量称为原子核的自旋,属于原子核重要的量子力学性质。
2.4提取分子中原子的形式电荷,形式电荷是在写共价化合物的 Lewis结构式时为了判断各可能物种的稳定性时引入的。
2.5提取分子中原子的自由电子数量,自由电子就是指不被约束在某一个原子内部的电子,自由电子的多寡会影响物质的导电性、导热性等特性。
2.6提取分子是否是芳香族化合物,芳香族化合物具有苯环结构的化合物,具有结构稳定,不易分解,毒性强的性质。
2.7通过将原子视为节点并将键作为无向图中的边来将所有分子特征化为图,生成以邻接矩阵表示的分子拓扑结构,邻接矩阵将分子中所有原子作为矩阵行和列的标签,当分子中两个原子有化学键相连接时,矩阵相应位置值为1。如图2为乙烷(C2H6)分子的邻接矩阵形式
第三步、构建预测模型(二分类的预测模型),包含五层图卷积,一层LSTM:
3.1输入x为分子的原子特征和分子结构转化成的邻接矩阵;
3.2对于输出y的真实值用[1,0]表示0,[0,1]表示1,每次训练和测试的结果为一个数组[a,b],a,b为两个概率值,a+b=1;
3.3预测模型使用五层图卷积神经网络,图卷积神经网络具有两个基本特征:一是每个节点都有自己的特征信息;二是图中的每个节点还具有结构信息;下式为图卷积的计算公式,设图卷积的中心节点为v:
u:中心节点v的邻居节点;hconv(v):中心节点v和节点v的图卷积特征值,M:图卷积神经网络中所有的节点的集合;
特征参数,会预设一个值,都为1,在训练的过程中参数会不断更新;
σ:池化函数;
式(1)将节点v的一个边的特征转化为hconv(v),再将所有邻居节点u的hconv(v)累加,即为节点v的图卷积;
hconv(G)=[hconv(v1),hconv(v2),hconv(v3),...](2)
hconv(G)表示当前计算分子hconv(v)的集合,G表示当前计算的分子G;
最后得到分子中所有节点v的图卷积的集合,即为分子结构特征的集合。
3.4LSTM(长短期记忆网络):
LSTM区别于RNN的地方,主要就在于它在算法中加入了一个判断信息有用与否的“处理器”(图3.中间的模块)。
LSTM中的重复模块包含四个相互作用的激活函数(三个 sigmoid,一个tanh):图中每条线表示一个完整向量,从一个节点的输出到其他节点的输入。如图3所示,圆圈代表逐点操作,比如向量加法,而矩形框表示门限激活函数。线条合并表示串联,线条分差表示复制内容并输出到不同地方。
存储单元中管理向单元移除或添加的结构叫门限,有三种:遗忘门、输入门、输出门。门限由sigmoid激活函数和逐点乘法运算组成。前一个时间步骤的隐藏状态,一个送到遗忘门(输入节点),一个送到输入门,一个送到输出门。就前传递而言,输入门学习决定何时让激活传入存储单元,而输出门学习何时让激活传出存储单元。相应的,对于后传递,输出门学习何时让错误流入存储单元,输入门学习何时让它流出存储单元。
用输入xt,t-1次的输出ht-1,计算遗忘率决定一个特征是否要遗忘,0代表完全遗忘,1代表全部记住。
第四步、将步骤2)和3)得到的数据进行训练。
第五步、通过卷积,池化,全连接后,将输出值输送给分类器,优化损失函数,继续训练。具体过程如下:
5.1图卷积过程:
for all nodes v in graph
set k=deg(v)
for u in neigh(v)∪{v}
set d=dist(v,u)
transforn features u′=Wk,du+bk,d
sum all u and apply nonlinearity
return new features for v
即5.1.1遍历分子结构图中所有节点;
5.1.3设置图卷积的中心节点为v;
5.1.4遍历中心节点v的所有邻居u,建立关系字典d;
5.1.5将节点u的特征转化为u′:
(如公式(1)中说明)
5.1.6将所有的u′相加;
5.1.7返回节点v的特征;
5.2池化过程:
max over u in neigh(v)∪{v}
return new features for v
5.2.1最大池化邻居节点u′;
5.2.2返回节点v的新特征。
5.3全连接过程:
5.3.1使用LSTM判断特征是否有用,从而挑选出有意义的特征。
5.3.2连接挑选出的所有特征,将输出值送给分类器
第六步、经过多次迭代计算,得到训练后的模型:
6.1每次从训练集中随机抽取128batchsize大小的样本,灌入模型进行训练,得到训练结果后,使用梯度下降法优化损失函数。
第七步、将开发集与测试集经过同样的特征处理,灌入模型得到测试结果。
第八步、实验结果及其讨论。
8.1本专利使用的数据集为Tox21数据集(Tox21 Data Challenge) [https://tripod.nih.gov/tox21/challenge/],2014年Tox21数据挑战旨在帮助科学家了解化学物质和化合物破坏生物器官的的潜力, tox21数据集是科学家通过毒理学分析,表明这些化学物质和化合物可能对生物有毒性效应;
8.2tox21数据集包含8013种可能对人体12种受体(NR-AR, NR-AR-LBD,NR-AhR,NR-Aromatase,NR-ER,NR-ER-LBD,NR-PPAR-gamma,SR-ARE,SR-ATAD5,SR-HSE,SR-MMP SR-p53)产生影响的数据,每种受体有8000条数据;
8.3本专利的实验一将对这12种受体数据分别建立模型,得到12 个预测的结果:
训练集 测试集 开发集 激活函数 epoch 特征数量 开发集准确度 测试集准确度
NR-AR 5951 744 744 tanh 2 75 0.961 0.962
NR-AR-LBD 5521 691 691 tanh 2 75 0.972 0.972
NR-AhR 5353 669 669 tanh 2 75 0.922 0.921
NR-Aromatase 4752 594 594 tanh 2 75 0.949 0.949
NR-ER 5052 632 632 tanh 2 75 0.867 0.867
NR-ER-LBD 5612 710 710 tanh 2 75 0.949 0.951
NR-PPAR-gamma 5266 658 658 tanh 2 75 0.953 0.956
SR-ARE 4748 593 593 tanh 2 75 0.828 0.829
SR-ATAD5 5786 723 723 tanh 2 75 0.929 0.938
SR-HSE 5275 660 660 tanh 2 75 0.916 0.912
SR-MMP 4736 592 592 tanh 2 75 0.897 0.866
SR-p53 5527 691 691 tanh 2 75 0.935 0.920
表1.Tox21数据集实验结果
8.4本专利的实验二将比较本模型与传统机器学习模型性能的优劣,对实验一的结果与逻辑回归、支持向量机和三种贝叶斯 (BernoulliNB、GaussianNB和MultinomialNB)5种方法进行比较:
本方法 LR SVM BernoulliNB GaussianNB MultinomialNB
NR-AR 0.962 0.957 0.961 0.858 0.190 0.884
NR-AR-LBD 0.972 0.968 0.965 0.890 0.158 0.907
NR-AhR 0.922 0.861 0.855 0.810 0.228 0.682
NR-Aromatase 0.949 0.933 0.933 0.879 0.143 0.832
NR-ER 0.867 0.859 0.850 0.790 0.185 0.805
NR-ER-LBD 0.957 0.945 0.938 0.904 0.138 0.885
NR-PPAR-gamma 0.956 0.831 0.804 0.775 0.114 0.912
SR-ARE 0.829 0.815 0.815 0.753 0.202 0.724
SR-ATAD5 0.938 0.945 0.798 0.734 0.141 0.840
SR-HSE 0.916 0.930 0.727 0.926 0.139 0.874
SR-MMP 0.897 0.855 0.818 0.796 0.221 0.740
SR-p53 0.935 0.931 0.931 0.883 0.126 0.842
表2.与传统方法的对比
实验中对所有比较的机器学习方法采用与本专利模型同样的的数据处理,保证实验比较的有效性,表中数据取的是测试集的结果。表2的数据表明,在Tox21数据集下,本专利比传统方法12种受体数据中有5种是全面优于传统机器学习方法的,相比传统机器学习方法本专利可以得到更好更稳定的结果,证明本专利在模型上的创新的是有效果的。
上述实例仅仅是本发明的一个具体实施方式,对其的简单变换、替换等也均在发明的保护范围内。

Claims (8)

1.一种基于深度学习的药物活性预测方法,其特征在于,包括如下步骤:
步骤一、构建药物活性数据集,对药物活性数据集进行切分,其中,药物活性数据集中一部分数据作为训练集、一部分数据作为开发集,还有一部分数据作为测试集;
步骤二、对训练集的分子提取原子特征,并将训练集的分子结构转化为邻接矩阵;
步骤三、构建预测模型,预测模型包含五层图卷积,一层LSTM;
步骤四、将步骤二和三得到的数据进行训练;
步骤五、通过图卷积,池化,全连接后,将输出值输送给分类器,优化损失函数,继续训练;
步骤六、经过迭代计算,得到训练后的预测模型;
步骤七、将待预测药物输入预测模型得到预测结果。
2.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤七中,先将开发集与测试集同样经过步骤二到六的处理,灌入预测模型得到测试结果。
3.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤一包括如下步骤:
1.1将药物活性数据集进行切分,打乱,包括80%的训练集、10%开发集和10%测试集,将开发集和测试集固定不变用于对照;其中,对数据集的切分保证训练集、开发集和测试集的数据在数据集中均匀分布;
1.2将数据集中对受体有影响的分子标记为1即作为正样本,无影响的标记为0即负样本,没有数据的空值去除,剔除干扰数据提高准确度。
4.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤二中,对训练集的分子提取原子特征,同时将训练集的分子结构转化为邻接矩阵:
2.1对分子数据提取统计特征:['C','N','O','S','F','Si','P','Cl','Br','Mg','Na','Ca','Fe','As','Al','I','B','V','K','Tl','Yb','Sb','Sn','Ag','Pd','Co','Se','Ti','Zn','H','Li','Ge','Cu','Au','Ni','Cd','In','Mn','Zr','Cr','Pt','Hg','Pb','=','+','-','(',')','/','\','[',']','@','#','Unknown'],以上特征忽略数字,小数点,得到一个包含分子中所有统计特征的字典,字典值为分子或分子对应字符出现的次数;
2.2提取分子的中原子的degree,范围为0~10,原子degree被定义为与该原子直接相连的原子个数;
2.3提取分子中隐式高自旋的数量,范围为0~6,原子核具有的角动量称为原子核的自旋;
2.4提取分子中原子的形式电荷;
2.5提取分子中原子的自由电子数量;
2.6提取分子是否是芳香族化合物;
2.7通过将分子中的原子视为节点并将化学键作为无向图中的边来将所有分子表示为结构图,生成以邻接矩阵表示的分子结构图,邻接矩阵将分子中所有原子作为矩阵行和列的标签,当分子中两个原子有化学键相连接时,矩阵相应位置值为1。
5.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤三包括如下步骤:
3.1输入x分为两个部分,一是分子的原子特征,二是分子结构转化成的邻接矩阵,x是将分子的原子特征和分子结构转化成的邻接矩结合转化成的一个矩阵;
3.2对于输出y的真实值用数组[1,0]表示0,数组[0,1]表示1,每次训练和测试的结果为一个数组[a,b],a,b为两个概率值,a+b=1;a和b一个表示输出y的真实值为数组[1,0]的概率,另一个表示输出y的真实值为数组[0,1]的概率;
3.3预测模型使用五层图卷积神经网络,图卷积神经网络具有两个基本特征:一是每个节点都有自己的特征信息;二是图中的每个节点还具有结构信息;下图为图卷积的计算公式,设图卷积的中心节点为υ:
u:表示中心节点v的邻居节点;hconv(v):表示中心节点v和节点u的图卷积特征值;M:表示图卷积神经网络中所有的节点的集合;bv:表示特征参数,会预设一个值,都为1,在训练的过程中参数不断更新;
σ:表示池化函数;
式(1)将中心节点υ的一个边的特征转化为hconv(v),再将所有邻居节点u的hconv(v)累加,即为中心节点υ的图卷积;
hconv(G)=[hconv(v1),hconv(v2),hconv(v3),…] (2)
hconv(G)表示当前计算的药物分子的hconv(v)的集合,G表示当前计算的分子G;
最后得到分子中所有节点v的图卷积的集合,即为分子结构特征的集合。
6.如权利要求4所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤五中,图卷积过程如下:
5.1.1遍历分子结构图中所有节点;
5.1.3设置图卷积的中心节点为v;
5.1.4遍历中心节点v的所有邻居节点u,建立关系字典d;
5.1.5将节点u的特征转化为u’:
其中,bv:表示特征参数,会预设一个值,都为1,在训练的过程中参数不断更新;
5.1.6将所有的u’相加;
5.1.7返回中心节点v的特征;
池化过程如下:
5.2.1最大池化邻居节点u’;
5.2.2返回中心节点v的图卷积特征hconv(v);
全连接过程如下:
5.3.1使用LSTM判断分子的图卷积特征是否有用,从而挑选出有用的特征;
5.3.2连接挑选出的所有有用的特征,将输出值送给分类器。
7.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤六中多次迭代计算,得到训练后的模型的步骤如下:
6.1每次从训练集中随机抽取128batchsize大小的样本,灌入模型进行训练,得到训练结果后,使用梯度下降法优化损失函数。
8.如权利要求1所述的基于深度学习的药物活性预测方法,其特征在于,所述步骤三中,预测模型为二分类的预测模型。
CN201810742486.4A 2018-07-09 2018-07-09 一种基于深度学习的药物活性预测方法 Active CN109033738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810742486.4A CN109033738B (zh) 2018-07-09 2018-07-09 一种基于深度学习的药物活性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810742486.4A CN109033738B (zh) 2018-07-09 2018-07-09 一种基于深度学习的药物活性预测方法

Publications (2)

Publication Number Publication Date
CN109033738A true CN109033738A (zh) 2018-12-18
CN109033738B CN109033738B (zh) 2022-01-11

Family

ID=64641565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810742486.4A Active CN109033738B (zh) 2018-07-09 2018-07-09 一种基于深度学习的药物活性预测方法

Country Status (1)

Country Link
CN (1) CN109033738B (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210330A (zh) * 2019-05-13 2019-09-06 清华大学 基于内隐知识构建图卷积网络的电磁信号识别方法及装置
CN110277173A (zh) * 2019-05-21 2019-09-24 湖南大学 基于Smi2Vec的BiGRU药物毒性预测***及预测方法
CN110322972A (zh) * 2019-05-29 2019-10-11 平安科技(深圳)有限公司 智能化药物毒性判断方法、装置及计算机可读存储介质
CN110517790A (zh) * 2019-06-24 2019-11-29 江苏大学 基于深度学习和基因表达数据的化合物肝毒性早期预测方法
CN110600085A (zh) * 2019-06-01 2019-12-20 重庆大学 一种基于Tree-LSTM的有机物物理化学性质预测方法
CN110689919A (zh) * 2019-08-13 2020-01-14 复旦大学 一种基于结构和等级分类的药物蛋白结合率预测方法及***
CN110797093A (zh) * 2019-11-20 2020-02-14 中国石油大学(北京) 气体水合物512笼识别方法及***
CN110867254A (zh) * 2019-11-18 2020-03-06 北京市商汤科技开发有限公司 预测方法及装置、电子设备和存储介质
CN110957012A (zh) * 2019-11-28 2020-04-03 腾讯科技(深圳)有限公司 化合物的性质分析方法、装置、设备及存储介质
CN110970098A (zh) * 2019-11-26 2020-04-07 重庆大学 一种功能多肽苦味预测方法
CN111062543A (zh) * 2019-12-30 2020-04-24 集美大学 一种预测金属硼氢化物放氢温度的方法
CN111199779A (zh) * 2019-12-26 2020-05-26 中科曙光国际信息产业有限公司 一种基于分子对接的虚拟药物筛选方法和装置
CN111243682A (zh) * 2020-01-10 2020-06-05 京东方科技集团股份有限公司 药物的毒性预测方法及装置、介质和设备
CN111370073A (zh) * 2020-02-27 2020-07-03 福州大学 一种基于深度学习的药物互作规则预测方法
CN111402948A (zh) * 2020-04-02 2020-07-10 江苏食品药品职业技术学院 基于人工智能和动物实验数据集的药物代谢动力预测模型
CN111445020A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 一种基于图的卷积网络训练方法、装置及***
CN111540419A (zh) * 2020-04-28 2020-08-14 上海交通大学 基于深度学习的抗老年痴呆药物有效性预测***
CN111626119A (zh) * 2020-04-23 2020-09-04 北京百度网讯科技有限公司 目标识别模型训练方法、装置、设备以及存储介质
CN111710376A (zh) * 2020-05-13 2020-09-25 中国科学院计算机网络信息中心 大分子及团簇体系分块计算负载均衡方法及***
CN111755078A (zh) * 2020-07-30 2020-10-09 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN111798935A (zh) * 2019-04-09 2020-10-20 南京药石科技股份有限公司 基于神经网络的普适性化合物结构-性质相关性预测方法
CN111816252A (zh) * 2020-07-21 2020-10-23 腾讯科技(深圳)有限公司 一种药物筛选方法、装置及电子设备
CN111916143A (zh) * 2020-07-27 2020-11-10 西安电子科技大学 基于多样子结构特征融合的分子活性预测方法
CN111933225A (zh) * 2020-09-27 2020-11-13 平安科技(深圳)有限公司 药物分类方法、装置、终端设备以及存储介质
WO2020230043A1 (en) * 2019-05-15 2020-11-19 International Business Machines Corporation Feature vector feasibilty estimation
CN112102889A (zh) * 2020-10-14 2020-12-18 深圳晶泰科技有限公司 基于机器学习的自由能微扰网络设计方法
CN112309509A (zh) * 2019-10-15 2021-02-02 腾讯科技(深圳)有限公司 化合物性质预测方法、装置、计算机设备及可读存储介质
CN112635080A (zh) * 2021-01-15 2021-04-09 复星领智(上海)医药科技有限公司 基于深度学习的药物预测方法和设备
CN112885415A (zh) * 2021-01-22 2021-06-01 中国科学院生态环境研究中心 基于分子表面点云的***活性快速筛查方法
CN112955962A (zh) * 2019-10-11 2021-06-11 迈立塔股份有限公司 新药候选物质导出方法及装置
CN113053457A (zh) * 2021-03-25 2021-06-29 湖南大学 一种基于多通路图卷积神经网络的药物靶标预测方法
CN113140260A (zh) * 2020-01-20 2021-07-20 腾讯科技(深圳)有限公司 合成物的反应物分子组成数据预测方法和装置
CN113474841A (zh) * 2019-02-22 2021-10-01 3M创新有限公司 使用核酸扩增测定的靶生物体的机器学习量化
CN113628696A (zh) * 2021-07-19 2021-11-09 武汉大学 基于双图卷积融合模型的药物连接图分数预测方法及装置
CN113673610A (zh) * 2021-08-25 2021-11-19 上海鹏冠生物医药科技有限公司 一种用于组织细胞病理图像诊断***的图像预处理方法
CN115171807A (zh) * 2022-09-07 2022-10-11 合肥机数量子科技有限公司 一种分子编码模型训练方法、分子编码方法和***
WO2023029352A1 (zh) * 2021-08-30 2023-03-09 平安科技(深圳)有限公司 基于图神经网络的药物小分子性质预测方法、装置及设备
WO2023115338A1 (zh) * 2021-12-21 2023-06-29 深圳晶泰科技有限公司 压药参数的改良处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5526281A (en) * 1993-05-21 1996-06-11 Arris Pharmaceutical Corporation Machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics
CN101587510A (zh) * 2008-05-23 2009-11-25 中国科学院上海药物研究所 基于复杂抽样和改进决策森林算法的化合物致癌毒性预测方法
CN102592040A (zh) * 2002-07-24 2012-07-18 基德姆生物科学有限公司 药物发现的方法
CN106874688A (zh) * 2017-03-01 2017-06-20 中国药科大学 基于卷积神经网络的智能化先导化合物发现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5526281A (en) * 1993-05-21 1996-06-11 Arris Pharmaceutical Corporation Machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics
CN102592040A (zh) * 2002-07-24 2012-07-18 基德姆生物科学有限公司 药物发现的方法
CN101587510A (zh) * 2008-05-23 2009-11-25 中国科学院上海药物研究所 基于复杂抽样和改进决策森林算法的化合物致癌毒性预测方法
CN106874688A (zh) * 2017-03-01 2017-06-20 中国药科大学 基于卷积神经网络的智能化先导化合物发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAN ALTAE-TRAN ET AL.: "Low Data Drug Discovery with One-Shot Learning", 《ACS CENTRAL SCIENCE》 *
黄丽霞 等: "《信息检索教程》", 31 July 2014, 知识产权出版社 *

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445020B (zh) * 2019-01-16 2023-05-23 阿里巴巴集团控股有限公司 一种基于图的卷积网络训练方法、装置及***
CN111445020A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 一种基于图的卷积网络训练方法、装置及***
CN113474841A (zh) * 2019-02-22 2021-10-01 3M创新有限公司 使用核酸扩增测定的靶生物体的机器学习量化
CN111798935A (zh) * 2019-04-09 2020-10-20 南京药石科技股份有限公司 基于神经网络的普适性化合物结构-性质相关性预测方法
CN110210330A (zh) * 2019-05-13 2019-09-06 清华大学 基于内隐知识构建图卷积网络的电磁信号识别方法及装置
CN113795889A (zh) * 2019-05-15 2021-12-14 国际商业机器公司 特征向量可行性估计
GB2599520A (en) * 2019-05-15 2022-04-06 Ibm Feature vector feasibilty estimation
WO2020230043A1 (en) * 2019-05-15 2020-11-19 International Business Machines Corporation Feature vector feasibilty estimation
US11798655B2 (en) 2019-05-15 2023-10-24 International Business Machines Corporation Feature vector feasibility estimation
CN110277173A (zh) * 2019-05-21 2019-09-24 湖南大学 基于Smi2Vec的BiGRU药物毒性预测***及预测方法
CN110322972A (zh) * 2019-05-29 2019-10-11 平安科技(深圳)有限公司 智能化药物毒性判断方法、装置及计算机可读存储介质
CN110322972B (zh) * 2019-05-29 2022-05-20 平安科技(深圳)有限公司 智能化药物毒性判断方法、装置及计算机可读存储介质
CN110600085B (zh) * 2019-06-01 2024-04-09 重庆大学 一种基于Tree-LSTM的有机物物理化学性质预测方法
CN110600085A (zh) * 2019-06-01 2019-12-20 重庆大学 一种基于Tree-LSTM的有机物物理化学性质预测方法
CN110517790A (zh) * 2019-06-24 2019-11-29 江苏大学 基于深度学习和基因表达数据的化合物肝毒性早期预测方法
CN110689919A (zh) * 2019-08-13 2020-01-14 复旦大学 一种基于结构和等级分类的药物蛋白结合率预测方法及***
CN112955962A (zh) * 2019-10-11 2021-06-11 迈立塔股份有限公司 新药候选物质导出方法及装置
CN112309509B (zh) * 2019-10-15 2021-05-28 腾讯科技(深圳)有限公司 化合物性质预测方法、装置、计算机设备及可读存储介质
CN112309509A (zh) * 2019-10-15 2021-02-02 腾讯科技(深圳)有限公司 化合物性质预测方法、装置、计算机设备及可读存储介质
JP2022518283A (ja) * 2019-11-18 2022-03-14 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 予測方法及び装置、電子機器並びに記憶媒体
WO2021098256A1 (zh) * 2019-11-18 2021-05-27 北京市商汤科技开发有限公司 一种预测方法及装置、电子设备和存储介质
CN110867254A (zh) * 2019-11-18 2020-03-06 北京市商汤科技开发有限公司 预测方法及装置、电子设备和存储介质
TWI771803B (zh) * 2019-11-18 2022-07-21 大陸商北京市商湯科技開發有限公司 一種預測方法、電子設備和儲存介質
CN110797093A (zh) * 2019-11-20 2020-02-14 中国石油大学(北京) 气体水合物512笼识别方法及***
CN110970098A (zh) * 2019-11-26 2020-04-07 重庆大学 一种功能多肽苦味预测方法
CN110957012A (zh) * 2019-11-28 2020-04-03 腾讯科技(深圳)有限公司 化合物的性质分析方法、装置、设备及存储介质
WO2021103761A1 (zh) * 2019-11-28 2021-06-03 腾讯科技(深圳)有限公司 化合物的性质分析方法、模型训练方法、装置及存储介质
CN111199779A (zh) * 2019-12-26 2020-05-26 中科曙光国际信息产业有限公司 一种基于分子对接的虚拟药物筛选方法和装置
CN111062543B (zh) * 2019-12-30 2022-04-29 集美大学 一种预测金属硼氢化物放氢温度的方法
CN111062543A (zh) * 2019-12-30 2020-04-24 集美大学 一种预测金属硼氢化物放氢温度的方法
CN111243682A (zh) * 2020-01-10 2020-06-05 京东方科技集团股份有限公司 药物的毒性预测方法及装置、介质和设备
CN113140260B (zh) * 2020-01-20 2023-09-08 腾讯科技(深圳)有限公司 合成物的反应物分子组成数据预测方法和装置
CN113140260A (zh) * 2020-01-20 2021-07-20 腾讯科技(深圳)有限公司 合成物的反应物分子组成数据预测方法和装置
CN111370073B (zh) * 2020-02-27 2023-04-07 福州大学 一种基于深度学习的药物互作规则预测方法
CN111370073A (zh) * 2020-02-27 2020-07-03 福州大学 一种基于深度学习的药物互作规则预测方法
CN111402948A (zh) * 2020-04-02 2020-07-10 江苏食品药品职业技术学院 基于人工智能和动物实验数据集的药物代谢动力预测模型
CN111626119A (zh) * 2020-04-23 2020-09-04 北京百度网讯科技有限公司 目标识别模型训练方法、装置、设备以及存储介质
CN111626119B (zh) * 2020-04-23 2023-09-01 北京百度网讯科技有限公司 目标识别模型训练方法、装置、设备以及存储介质
CN111540419A (zh) * 2020-04-28 2020-08-14 上海交通大学 基于深度学习的抗老年痴呆药物有效性预测***
CN111710376A (zh) * 2020-05-13 2020-09-25 中国科学院计算机网络信息中心 大分子及团簇体系分块计算负载均衡方法及***
CN111710376B (zh) * 2020-05-13 2023-04-07 中国科学院计算机网络信息中心 大分子及团簇体系分块计算负载均衡方法及***
CN111816252A (zh) * 2020-07-21 2020-10-23 腾讯科技(深圳)有限公司 一种药物筛选方法、装置及电子设备
CN111916143B (zh) * 2020-07-27 2023-07-28 西安电子科技大学 基于多样子结构特征融合的分子活性预测方法
CN111916143A (zh) * 2020-07-27 2020-11-10 西安电子科技大学 基于多样子结构特征融合的分子活性预测方法
CN111755078B (zh) * 2020-07-30 2022-09-23 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN111755078A (zh) * 2020-07-30 2020-10-09 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN111933225B (zh) * 2020-09-27 2021-01-05 平安科技(深圳)有限公司 药物分类方法、装置、终端设备以及存储介质
CN111933225A (zh) * 2020-09-27 2020-11-13 平安科技(深圳)有限公司 药物分类方法、装置、终端设备以及存储介质
CN112102889A (zh) * 2020-10-14 2020-12-18 深圳晶泰科技有限公司 基于机器学习的自由能微扰网络设计方法
CN112635080A (zh) * 2021-01-15 2021-04-09 复星领智(上海)医药科技有限公司 基于深度学习的药物预测方法和设备
CN112885415A (zh) * 2021-01-22 2021-06-01 中国科学院生态环境研究中心 基于分子表面点云的***活性快速筛查方法
CN112885415B (zh) * 2021-01-22 2024-02-06 中国科学院生态环境研究中心 基于分子表面点云的***活性快速筛查方法
CN113053457A (zh) * 2021-03-25 2021-06-29 湖南大学 一种基于多通路图卷积神经网络的药物靶标预测方法
CN113628696B (zh) * 2021-07-19 2023-10-31 武汉大学 基于双图卷积融合模型的药物连接图分数预测方法及装置
CN113628696A (zh) * 2021-07-19 2021-11-09 武汉大学 基于双图卷积融合模型的药物连接图分数预测方法及装置
CN113673610A (zh) * 2021-08-25 2021-11-19 上海鹏冠生物医药科技有限公司 一种用于组织细胞病理图像诊断***的图像预处理方法
WO2023029352A1 (zh) * 2021-08-30 2023-03-09 平安科技(深圳)有限公司 基于图神经网络的药物小分子性质预测方法、装置及设备
WO2023115338A1 (zh) * 2021-12-21 2023-06-29 深圳晶泰科技有限公司 压药参数的改良处理方法、装置、设备及存储介质
CN115171807B (zh) * 2022-09-07 2022-12-06 合肥机数量子科技有限公司 一种分子编码模型训练方法、分子编码方法和***
CN115171807A (zh) * 2022-09-07 2022-10-11 合肥机数量子科技有限公司 一种分子编码模型训练方法、分子编码方法和***

Also Published As

Publication number Publication date
CN109033738B (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN109033738A (zh) 一种基于深度学习的药物活性预测方法
Ferrari et al. Clustering algorithm selection by meta-learning systems: A new distance-based problem characterization and ranking combination methods
Gonzalez-Diaz et al. Medicinal chemistry and bioinformatics-current trends in drugs discovery with networks topological indices
Zagidullin et al. Comparative analysis of molecular fingerprints in prediction of drug combination effects
Bahi et al. Deep learning for ligand-based virtual screening in drug discovery
CN110957002B (zh) 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
Shi et al. Protein complex detection with semi-supervised learning in protein interaction networks
Zheng et al. Emerging deep learning methods for single-cell RNA-seq data analysis
CN110021341A (zh) 一种基于异构网络的gpcr药物和靶向通路的预测方法
Pashaei et al. Gene selection using hybrid dragonfly black hole algorithm: A case study on RNA-seq COVID-19 data
Bhadra et al. Identification of multiview gene modules using mutual information-based hypograph mining
Iqbal et al. Orienting conflicted graph edges using genetic algorithms to discover pathways in protein-protein interaction networks
CN110246550A (zh) 基于药物相似性网络数据的药物组合预测方法
CN114842927A (zh) 一种知识图谱注意力网络的药物与通路的关联预测方法
Nadimi-Shahraki et al. Discrete improved grey wolf optimizer for community detection
Shi et al. Prediction of blood-brain barrier permeability of compounds by fusing resampling strategies and extreme gradient boosting
Zhong et al. DDI-GCN: drug-drug interaction prediction via explainable graph convolutional networks
Cong et al. Self-evoluting framework of deep convolutional neural network for multilocus protein subcellular localization
Parvizi et al. A Network-based embedding method for drug-target interaction prediction
CN115394354A (zh) 一种基于图卷积神经网络的药物靶标预测方法
Han et al. Training dendritic neuron model with whale optimization algorithm for classification
CN112488146A (zh) 基于深度学习的飞机危险识别与趋势预测方法
Keerthana et al. Role of artificial intelligence in drug development
Petitzon New quantum neural network designs
CN109801676A (zh) 一种用于评价化合物对基因通路活化作用的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant