CN109033738A

CN109033738A - 一种基于深度学习的药物活性预测方法

Info

Publication number: CN109033738A
Application number: CN201810742486.4A
Authority: CN
Inventors: 全哲; 范益世; 王凡; 乐雨泉; 林轩; 刘彦
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2018-12-18
Anticipated expiration: 2038-07-09
Also published as: CN109033738B

Abstract

本发明公开了一种基于深度学习的药物活性预测方法。本发明使用RDkit开源库用于计算给定分子中每个原子的基本特征，包括原子类型，化合价，形式电荷等，只计算原子特征大大减少时间耗费。本发明是结合了图卷积和LSTM两种模型(长短期记忆网络)的预测模型，对于图卷积模型，通过将原子视为节点并将键作为无向图中的边来将所有分子特征化为图，提取分子结构特征，使用图卷积神经网络可以减少时间耗费的同时获取传统方法无法得到的特征。LSTM通过在证据和查询分子之间交换信息来学习复杂的度量。从而达到在低数据量下较高的预测准确度。

Description

一种基于深度学习的药物活性预测方法

技术领域

本发明涉及一种基于深度学习的药物活性预测方法，属于软件技术领域。

背景内容

药物研究以及制药业发展的主要目标是发现与治疗疾病相关的药物分子，探索先导物发现方法是实现这一目标的主要途径。当生物学研究发现某一特定分子具有治疗活性时，发现的分子常常因为毒性，低活性和低溶解度等多种原因而被废弃。据美国药物研究与制造商协会统计，整个制药业中新药研究和开发占销售收入的12.8％，而其中的75％是因为新药研究和开发的失败，在初筛中被命中的化合物不到5％能进入临床前评价。由于计算机虚拟筛选不存在样品的限制，因此如果先进行计算机虚拟筛选，然后再进行药理测试，这样的研究策略与传统的直接进行药理测试的策略比较，将显著地缩短新药的研发周期、降低研发费用。目前，先导物发现的主流方向在于分子的定量结构和活性关系(QSAR)的研究，主要是定量描述分子的结构，即分子特征描述方法的选择和连接这些分子特征与活性的数学函数关系的选择。

目前通常的做法主要分为以下几种：

基于化合物分子的拓扑结构、侧链、骨架与特定的毒性作用部位之间的关系。Wang等人研究了化学物质毒性作用登记RTECS (Registry of Toxic Effect of ChemicalSubstances)数据库中约六万个毒性化合物分子的拓扑结构、侧链、骨架与特定的毒性作用部位之间的关系(比如皮肤毒性、血液毒性以及肾脏毒性等)，并对这些拓扑结构在整个数据库中出现的次数，以及在毒性化学库中出现的次数进行比较。此方法需要的数据量大，正样本多，而且只提取毒性特征会对导致无毒分子的判断误差较大。

1.基于支持向量机方法预测待测药物的活性。Zhang等人根据获取的遗传性疾病对应的相关基因信息从得到的药物靶标中筛选出与遗传性疾病关联的靶标基因，获取每个样本药物的特征属性，所述特征属性为样本药物对应的药物靶标与遗传性疾病关联的靶标基因的相关关系；以每个样本药物的特征属性为输入向量，以样本药物的活性为输出，通过支持向量机方法建立模型，预测待测药物的活性。此方法分子特征较难获取，需要特定的数据集，普适性较差。

2.基于深度学习的有监督和无监督算法结合进行药物活性分子识别。高双印将支持向量机(Support Vector Machine)、人工神经网络 (Artificial Neural Network)、半监督支持向量机(Semi-supervised support vector machine)、代价安全性半监督支持向量机(Cost security semi-supervised support vector machine)、栈式自编码(StackedAutoEncode)、深度信念网络(Deep Belief Network)几种种方法进结合，分别对三类药物活性分子(PLK1PBD、SMAD3、IL-1B)进行深入探究。由于药物活性分子结构繁杂，选用化学计量软件MOE对其进行精密计算，分别获得其2D及3D分子描述符，通过上述两类算法进行药物活性分子识别。此方法需要大数据集，使用化学计量软件计算分子特征要耗费大量时间。

综上所述，药物活性预测的各种方法都会受限于自身的特点，基于大数据分析的方法需要大量数据，对于样本的分布要求较高；传统机器学习类方法对于样本采集分类、训练需要耗费大量的时间；以上基于有监督和无监督的机器学习算法不仅需要大量数据，而且使用化学计量软件计算分子特征同样需要耗费大量时间。

名词解释：

LSTM：即长短期记忆网络。

原子的degree：用RDkit计算出的每个原子的权重值，是该原子直接相连的原子个数。

Lewis结构式：一种分子的书写方式，如氰化氢H-C≡N

Sigmoid：Sigmoid函数是一个S形曲线的数学函数，其公式为

在逻辑回归、人工神经网络中有着广泛的应用。

Tanh：双曲正切函数，是由基本双曲函数双曲正弦和双曲余弦推导而来：

发明内容

本发明克服现有技术存在的不足，本发明公开了一种基于深度学习的药物活性预测方法。本发明使用RDkit开源库用于计算给定分子中每个原子的基本特征，包括原子类型，化合价，形式电荷等，只计算原子特征大大减少时间耗费。对于图卷积模型，通过将原子视为节点并将键作为无向图中的边来将所有分子特征化为图，提取分子结构特征，使用图卷积神经网络可以减少时间耗费的同时获取传统方法无法得到的特征。LSTM通过在证据和查询分子之间交换信息来学习复杂的度量。从而达到在低数据量下较高的预测准确度。

为解决上述技术问题，本发明所采用的技术方案为：

一种基于深度学习的药物活性预测方法，包括如下步骤：

步骤一、构建药物活性数据集，对药物活性数据集进行切分，其中，药物活性数据集中一部分数据作为训练集、一部分数据作为开发集，还有一部分数据作为测试集；

步骤二、对训练集的分子提取原子特征，并将训练集的分子结构转化为邻接矩阵；

步骤三、构建预测模型，预测模型包含五层图卷积，一层LSTM；

步骤四、将步骤二和三得到的数据进行训练；

步骤五、通过图卷积，池化，全连接后，将输出值输送给分类器，优化损失函数，继续训练；

步骤六、经过迭代计算，得到训练后的预测模型；

步骤七、将待预测药物输入预测模型得到预测结果。

2.如权利要求1所述的基于深度学习的药物活性预测方法，其特征在于，所述步骤七中，先将开发集与测试集同样经过步骤二到六的处理，灌入预测模型得到测试结果。

3.如权利要求1所述的基于深度学习的药物活性预测方法，其特征在于，所述步骤一包括如下步骤：

1.1将药物活性数据集进行切分，打乱，包括80％的训练集、10％开发集和10％测试集，将开发集和测试集固定不变用于对照；其中，对数据集的切分保证训练集、开发集和测试集的数据在数据集中均均匀分布；

1.2将数据集中对受体有影响的分子标记为1即作为正样本，无影响的标记为0即负样本，没有数据的空值去除，剔除干扰数据提高准确度。

4.如权利要求1所述的基于深度学习的药物活性预测方法，其特征在于，所述步骤二中，对训练集的分子提取原子特征，同时将训练集的分子结构转化为邻接矩阵：

2.1对分子数据提取统计特征：['C'，'N'，'O'，'S'，'F'，'Si'， 'P'，'Cl'，'Br'，'Mg'，'Na'，'Ca'，'Fe'，'As'，'Al'，'I'，'B'， 'V'，'K'，'Tl'，'Yb'，'Sb'，'Sn'，'Ag'，'Pd'，'Co'，'Se'，'Ti'， 'Zn'，'H'，'Li'，'Ge'，'Cu'，'Au'，'Ni'，'Cd'，'In'，'Mn'， 'Zr'，'Cr'，'Pt'，'Hg'，'Pb'，'＝'，'+'，'-'，'('，')'，'/'， '\'，'['，']'，'@'，'#'，'Unknown']，以上特征忽略数字，小数点，得到一个包含分子中所有统计特征的字典，字典值为分子或分子对应字符出现的次数；

2.2提取分子的中原子的degree，范围为0～10，原子degree被定义为与该原子直接相连的原子个数；

2.3提取分子中隐式高自旋的数量，范围为0～6，原子核具有的角动量称为原子核的自旋；

2.4提取分子中原子的形式电荷；

2.5提取分子中原子的自由电子数量；

2.6提取分子是否是芳香族化合物；

2.7通过将分子中的原子视为节点并将化学键作为无向图中的边来将所有分子表示为结构图，生成以邻接矩阵表示的分子结构图，邻接矩阵将分子中所有原子作为矩阵行和列的标签，当分子中两个原子有化学键相连接时，矩阵相应位置值为1。

5.如权利要求1所述的基于深度学习的药物活性预测方法，其特征在于，所述步骤三包括如下步骤：

3.1输入x分为两个部分，一是分子的原子特征，二是分子结构转化成的邻接矩阵，x是将分子的原子特征和分子结构转化成的邻接矩结合转化成的一个矩阵；

3.2对于输出y的真实值用数组[1,0]表示0，数组[0,1]表示 1，每次训练和测试的结果为一个数组[a,b],a,b为两个概率值，a+ b＝1；a和b一个表示输出y的真实值为数组[1,0]的概率，另一个表示输出y的真实值为数组[0,1]的概率；

3.3预测模型使用五层图卷积神经网络，图卷积神经网络具有两个基本特征：一是每个节点都有自己的特征信息；二是图中的每个节点还具有结构信息；下式为图卷积的计算公式，设图卷积的中心节点为v：

u：表示中心节点v的邻居节点；h_conv(v)：表示中心节点v和节点 u的图卷积特征值；M：表示图卷积神经网络中所有的节点的集合；

表示特征参数，会预设一个值，都为1，在训练的过程中参数不断更新；

σ：表示池化函数；

设

式(1)将中心节点v的一个边的特征转化为h_conv(v)，再将所有邻居节点u的h_conv(v)累加，即为中心节点v的图卷积；

h_conv(G)＝[h_conv(v₁)，h_conv(v₂)，h_conv(v₃)，...](2)

h_conv(G)表示当前计算的药物分子的h_conv(v)的集合，G表示当前计算的分子G；

最后得到分子中所有节点v的图卷积的集合，即为分子结构特征的集合。

6.如权利要求4所述的基于深度学习的药物活性预测方法，其特征在于，所述步骤五中，图卷积过程如下：

5.1.1遍历分子结构图中所有节点；

5.1.3设置图卷积的中心节点为v；

5.1.4遍历中心节点v的所有邻居节点u，建立关系字典d；

5.1.5将节点u的特征转化为u′：

其中，表示特征参数，会预设一个值，都为1，在训练的过程中参数不断更新；

5.1.6将所有的u′相加；

5.1.7返回中心节点v的特征；

池化过程如下：

5.2.1最大池化邻居节点u′；

5.2.2返回中心节点v的图卷积特征h_conv(v)；

全连接过程如下：

5.3.1使用LSTM判断分子的图卷积特征是否有用，从而挑选出有用的特征；

5.3.2连接挑选出的所有有用的特征，将输出值送给分类器。

7.如权利要求1所述的基于深度学习的药物活性预测方法，其特征在于，所述步骤六中多次迭代计算，得到训练后的模型的步骤如下：

6.1每次从训练集中随机抽取128batchsize大小的样本，灌入模型进行训练，得到训练结果后，使用梯度下降法优化损失函数。

进一步的改进，所述步骤三中，预测模型为二分类的预测模型。

与现有技术相比，采用本发明的优点如下：

1.第一步和第二步对数据进行更合理的预处理，将没有数据的干扰数据剔除，提高模型的准确度；同时，对特征的提取采取更简单有效的方法，只计算原子特征，不需要对分子结构进行模拟，将分子结构转化为邻接矩阵，用图卷积的方法提取特征，大大减少时间耗费。

2.第三步构建更为合理的模型，五层图卷积层可以更高效提取分子的结构特征，而LSTM层对特征进行筛选，得到更好的特征。

3.第四步到第七步实现了整个训练过程，对模型进行训练优化， 2000次训练每批数据大小为128，可以保证遍历到所有训练集数据的同时，对模型进行更好的优化，得到比较低的损失函数值。

4.本专利的方法结合了图卷积和LSTM，大大减少特征提取的时间，同时对分子中的原子提取合理适当的特征，不需要使用传统计算化学方法耗费时间计算更详细的分子特征数据，又能得到传统方法无法得到的更合理的特征，从而达到在低数据量下实现更好的药物活性预测准确度。

附图说明

图1为总流程图；

图2为乙烷(C₂H₆)分子的邻接矩阵；

图3为LSTM流程图。

具体实施方式

图1是本专利的总流程图。

本专利的具体技术方案为：

第一步、构建数据集：

1.1将药物活性数据集进行切分，打乱，包括80％的训练集、10％的开发集和10％的测试集，将开发集和测试集固定不变用于对照。

1.2将数据集中对受体有影响的分子标记为1(正样本)，无影响的标记为0(负样本)，没有数据的空值去除，剔除干扰数据可以显著提高准确度。

1.3对数据的切分保证训练集、开发集和测试集的分布一致。

第二步、对训练集的分子提取原子特征，同时将训练集的分子结构转化为邻接矩阵：

2.1对分子数据提取统计特征：['C'，'N'，'O'，'S'，'F'，'Si'， 'P'，'Cl'，'Br'，'Mg'，'Na'，'Ca'，'Fe'，'As'，'Al'，'I'，'B'， 'V'，'K'，'Tl'，'Yb'，'Sb'，'Sn'，'Ag'，'Pd'，'Co'，'Se'，'Ti'， 'Zn'，'H'，'Li'，'Ge'，'Cu'，'Au'，'Ni'，'Cd'，'In'，'Mn'， 'Zr'，'Cr'，'Pt'，'Hg'，'Pb'，'＝'，'+'，'-'，'('，')'，'/'， '\'，'['，']'，'@'，'#'，'Unknown']。以上特征包含常见元素以及代表特殊价键，括号，特殊分子，离子等的符号，忽略数字，小数点。得到一个包含分子中所有统计特征的字典，字典值为该分子或字符出现次数；

2.3提取分子中隐式高自旋的数量，范围为0～6，原子核具有的角动量称为原子核的自旋，属于原子核重要的量子力学性质。

2.4提取分子中原子的形式电荷，形式电荷是在写共价化合物的 Lewis结构式时为了判断各可能物种的稳定性时引入的。

2.5提取分子中原子的自由电子数量，自由电子就是指不被约束在某一个原子内部的电子，自由电子的多寡会影响物质的导电性、导热性等特性。

2.6提取分子是否是芳香族化合物，芳香族化合物具有苯环结构的化合物，具有结构稳定，不易分解，毒性强的性质。

2.7通过将原子视为节点并将键作为无向图中的边来将所有分子特征化为图，生成以邻接矩阵表示的分子拓扑结构，邻接矩阵将分子中所有原子作为矩阵行和列的标签，当分子中两个原子有化学键相连接时，矩阵相应位置值为1。如图2为乙烷(C₂H₆)分子的邻接矩阵形式

第三步、构建预测模型(二分类的预测模型)，包含五层图卷积，一层LSTM：

3.1输入x为分子的原子特征和分子结构转化成的邻接矩阵；

3.2对于输出y的真实值用[1,0]表示0，[0,1]表示1，每次训练和测试的结果为一个数组[a,b],a,b为两个概率值，a+b＝1；

u：中心节点v的邻居节点；h_conv(v)：中心节点v和节点v的图卷积特征值，M：图卷积神经网络中所有的节点的集合；

特征参数，会预设一个值，都为1，在训练的过程中参数会不断更新；

σ：池化函数；

式(1)将节点v的一个边的特征转化为h_conv(v)，再将所有邻居节点u的h_conv(v)累加，即为节点v的图卷积；

h_conv(G)＝[h_conv(v₁)，h_conv(v₂)，h_conv(v₃)，...](2)

h_conv(G)表示当前计算分子h_conv(v)的集合，G表示当前计算的分子G；

3.4LSTM(长短期记忆网络)：

LSTM区别于RNN的地方，主要就在于它在算法中加入了一个判断信息有用与否的“处理器”(图3.中间的模块)。

LSTM中的重复模块包含四个相互作用的激活函数(三个 sigmoid，一个tanh)：图中每条线表示一个完整向量，从一个节点的输出到其他节点的输入。如图3所示，圆圈代表逐点操作，比如向量加法，而矩形框表示门限激活函数。线条合并表示串联，线条分差表示复制内容并输出到不同地方。

存储单元中管理向单元移除或添加的结构叫门限，有三种：遗忘门、输入门、输出门。门限由sigmoid激活函数和逐点乘法运算组成。前一个时间步骤的隐藏状态，一个送到遗忘门(输入节点)，一个送到输入门，一个送到输出门。就前传递而言，输入门学习决定何时让激活传入存储单元，而输出门学习何时让激活传出存储单元。相应的，对于后传递，输出门学习何时让错误流入存储单元，输入门学习何时让它流出存储单元。

用输入x_t，t-1次的输出h_t-1，计算遗忘率决定一个特征是否要遗忘，0代表完全遗忘，1代表全部记住。

第四步、将步骤2)和3)得到的数据进行训练。

第五步、通过卷积，池化，全连接后，将输出值输送给分类器，优化损失函数，继续训练。具体过程如下：

5.1图卷积过程：

for all nodes v in graph

set k＝deg(v)

for u in neigh(v)∪{v}

set d＝dist(v，u)

transforn features u′＝W^k，du+b^k，d

sum all u and apply nonlinearity

return new features for v

即5.1.1遍历分子结构图中所有节点；

5.1.3设置图卷积的中心节点为v；

5.1.4遍历中心节点v的所有邻居u，建立关系字典d；

5.1.5将节点u的特征转化为u′：

(如公式(1)中说明)

5.1.6将所有的u′相加；

5.1.7返回节点v的特征；

5.2池化过程：

max over u in neigh(v)∪{v}

return new features for v

5.2.1最大池化邻居节点u′；

5.2.2返回节点v的新特征。

5.3全连接过程：

5.3.1使用LSTM判断特征是否有用，从而挑选出有意义的特征。

5.3.2连接挑选出的所有特征，将输出值送给分类器

第六步、经过多次迭代计算，得到训练后的模型：

第七步、将开发集与测试集经过同样的特征处理，灌入模型得到测试结果。

第八步、实验结果及其讨论。

8.1本专利使用的数据集为Tox21数据集(Tox21 Data Challenge) [https://tripod.nih.gov/tox21/challenge/]，2014年Tox21数据挑战旨在帮助科学家了解化学物质和化合物破坏生物器官的的潜力， tox21数据集是科学家通过毒理学分析，表明这些化学物质和化合物可能对生物有毒性效应；

8.2tox21数据集包含8013种可能对人体12种受体(NR-AR， NR-AR-LBD，NR-AhR，NR-Aromatase，NR-ER，NR-ER-LBD，NR-PPAR-gamma，SR-ARE，SR-ATAD5，SR-HSE，SR-MMP SR-p53)产生影响的数据，每种受体有8000条数据；

8.3本专利的实验一将对这12种受体数据分别建立模型，得到12 个预测的结果：

	训练集	测试集	开发集	激活函数	epoch	特征数量	开发集准确度	测试集准确度
									NR-AR	5951	744	744	tanh	2	75	0.961	0.962
NR-AR-LBD	5521	691	691	tanh	2	75	0.972	0.972
									NR-AhR	5353	669	669	tanh	2	75	0.922	0.921
NR-Aromatase	4752	594	594	tanh	2	75	0.949	0.949
									NR-ER	5052	632	632	tanh	2	75	0.867	0.867
NR-ER-LBD	5612	710	710	tanh	2	75	0.949	0.951
									NR-PPAR-gamma	5266	658	658	tanh	2	75	0.953	0.956
SR-ARE	4748	593	593	tanh	2	75	0.828	0.829
									SR-ATAD5	5786	723	723	tanh	2	75	0.929	0.938
SR-HSE	5275	660	660	tanh	2	75	0.916	0.912
									SR-MMP	4736	592	592	tanh	2	75	0.897	0.866
SR-p53	5527	691	691	tanh	2	75	0.935	0.920

表1.Tox21数据集实验结果

8.4本专利的实验二将比较本模型与传统机器学习模型性能的优劣，对实验一的结果与逻辑回归、支持向量机和三种贝叶斯 (BernoulliNB、GaussianNB和MultinomialNB)5种方法进行比较：

	本方法	LR	SVM	BernoulliNB	GaussianNB	MultinomialNB
							NR-AR	0.962	0.957	0.961	0.858	0.190	0.884
NR-AR-LBD	0.972	0.968	0.965	0.890	0.158	0.907
							NR-AhR	0.922	0.861	0.855	0.810	0.228	0.682
NR-Aromatase	0.949	0.933	0.933	0.879	0.143	0.832
							NR-ER	0.867	0.859	0.850	0.790	0.185	0.805
NR-ER-LBD	0.957	0.945	0.938	0.904	0.138	0.885
							NR-PPAR-gamma	0.956	0.831	0.804	0.775	0.114	0.912
SR-ARE	0.829	0.815	0.815	0.753	0.202	0.724
							SR-ATAD5	0.938	0.945	0.798	0.734	0.141	0.840
SR-HSE	0.916	0.930	0.727	0.926	0.139	0.874
							SR-MMP	0.897	0.855	0.818	0.796	0.221	0.740
SR-p53	0.935	0.931	0.931	0.883	0.126	0.842

表2.与传统方法的对比

实验中对所有比较的机器学习方法采用与本专利模型同样的的数据处理，保证实验比较的有效性，表中数据取的是测试集的结果。表2的数据表明，在Tox21数据集下，本专利比传统方法12种受体数据中有5种是全面优于传统机器学习方法的，相比传统机器学习方法本专利可以得到更好更稳定的结果，证明本专利在模型上的创新的是有效果的。

上述实例仅仅是本发明的一个具体实施方式，对其的简单变换、替换等也均在发明的保护范围内。

Claims

1.一种基于深度学习的药物活性预测方法，其特征在于，包括如下步骤：

步骤四、将步骤二和三得到的数据进行训练；

步骤六、经过迭代计算，得到训练后的预测模型；

步骤七、将待预测药物输入预测模型得到预测结果。

1.1将药物活性数据集进行切分，打乱，包括80％的训练集、10％开发集和10％测试集，将开发集和测试集固定不变用于对照；其中，对数据集的切分保证训练集、开发集和测试集的数据在数据集中均匀分布；

2.1对分子数据提取统计特征：['C'，'N'，'O'，'S'，'F'，'Si'，'P'，'Cl'，'Br'，'Mg'，'Na'，'Ca'，'Fe'，'As'，'Al'，'I'，'B'，'V'，'K'，'Tl'，'Yb'，'Sb'，'Sn'，'Ag'，'Pd'，'Co'，'Se'，'Ti'，'Zn'，'H'，'Li'，'Ge'，'Cu'，'Au'，'Ni'，'Cd'，'In'，'Mn'，'Zr'，'Cr'，'Pt'，'Hg'，'Pb'，'＝'，'+'，'-'，'('，')'，'/'，'\'，'['，']'，'@'，'#'，'Unknown']，以上特征忽略数字，小数点，得到一个包含分子中所有统计特征的字典，字典值为分子或分子对应字符出现的次数；

2.4提取分子中原子的形式电荷；

2.5提取分子中原子的自由电子数量；

2.6提取分子是否是芳香族化合物；

3.2对于输出y的真实值用数组[1,0]表示0，数组[0,1]表示1，每次训练和测试的结果为一个数组[a,b],a,b为两个概率值，a+b＝1；a和b一个表示输出y的真实值为数组[1,0]的概率，另一个表示输出y的真实值为数组[0,1]的概率；

3.3预测模型使用五层图卷积神经网络，图卷积神经网络具有两个基本特征：一是每个节点都有自己的特征信息；二是图中的每个节点还具有结构信息；下图为图卷积的计算公式，设图卷积的中心节点为υ：

u：表示中心节点v的邻居节点；h_conv(v)：表示中心节点v和节点u的图卷积特征值；M：表示图卷积神经网络中所有的节点的集合；b^v:表示特征参数，会预设一个值，都为1，在训练的过程中参数不断更新；

σ：表示池化函数；

设

式(1)将中心节点υ的一个边的特征转化为h_conv(v)，再将所有邻居节点u的h_conv(v)累加，即为中心节点υ的图卷积；

h_conv(G)＝[h_conv(v₁)，h_conv(v₂)，h_conv(v₃)，…] (2)

5.1.1遍历分子结构图中所有节点；

5.1.3设置图卷积的中心节点为v；

5.1.4遍历中心节点v的所有邻居节点u，建立关系字典d；

5.1.5将节点u的特征转化为u’：

其中，b^v：表示特征参数，会预设一个值，都为1，在训练的过程中参数不断更新；

5.1.6将所有的u’相加；

5.1.7返回中心节点v的特征；

池化过程如下：

5.2.1最大池化邻居节点u’；

5.2.2返回中心节点v的图卷积特征h_conv(v)；

全连接过程如下：

5.3.2连接挑选出的所有有用的特征，将输出值送给分类器。

8.如权利要求1所述的基于深度学习的药物活性预测方法，其特征在于，所述步骤三中，预测模型为二分类的预测模型。