CN112599187B

CN112599187B - 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法

Info

Publication number: CN112599187B
Application number: CN202011510053.XA
Authority: CN
Inventors: 刘娟; 张健; 朱学凯; 冯晶
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-03-15
Anticipated expiration: 2040-12-18
Also published as: CN112599187A

Abstract

本发明公开了一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，包括：S1、根据药物的SMILES序列生成药物的指纹向量；S2、根据靶标蛋白的氨基酸序列生成靶标蛋白的指纹向量；S3、将蛋白指纹和药物指纹输入非卷积神经网络，将蛋白序列与药物序列输入卷积神经网络；S4、利用attention机制融合两种神经网络提取的特征；S5、将融合的特征输入多层感知机，得到最终的双流神经网络，进而得到药物与靶标蛋白结合分数。本发明通过融合两种类别神经网络的方法，来提取单一神经网络难以提取完全的特征，再通过多层感知机预测药物与靶标蛋白结合分数，提升模型在药物与靶标蛋白结合分数预测上的准确率。

Description

一种基于双流神经网络预测药物与靶标蛋白结合分数的方法

技术领域

本发明涉及生物信息学中药物与靶标蛋白的结合分数预测领域，适用于药物筛选、老药新用、新药发现等场景。

背景技术

通过湿实验来筛选可以结合靶标蛋白的药物分子是新药发现研究的重要手段，然而湿实验的工作量大、耗时长，依赖运气的成分大，以科学的方法指导实验则显得尤为重要。目前常用的筛选药物的手段有三种：(1)建立高通量的药物筛选***，批次性进行大量对比实验，例如通过生物传感器或流式细胞仪等技术来大批量筛选药物分子，这些技术使得实验变得规模小、可并行且容易比较。(2)基于计算机分子对接模拟来预测药物分子与靶标蛋白的可能结合位点，为进一步生化实验提供理论依据。(3)通过建立机器学习模型来学习大量已有的药物与靶标蛋白结合数据，预测可能未被发现的药物与靶标蛋白结合潜力，此方法又被称为药物重定向或老药新用。

随着人工智能、神经网络等技术的发展，利用海量药物与靶标蛋白结合数据来发现潜在药物的研究越来越多，但在模型预测准确度方面依然有较大的提升空间，通过建立神经网络模型来指导药物研发仍然有很长的一段路要走。

近些年，利用卷积神经网络模型来预测药物与靶标蛋白结合分数的方法已经被证明比传统的基于非卷积神经网络模型预测的方法更为准确。而同时整合卷积神经网络提取特征与非卷积神经网络提取特征来建立模型预测药物与靶标蛋白结合分数的方法还没有报道。单纯通过卷积神经网络提取特征会缺失部分有效数据，其可能原因有二：第一，蛋白序列较长，没有合适的提取蛋白指纹的方法。第二，以往输入非卷积神经网络模型的大多是蛋白的物化特征，而物化特征不能完全反应一个蛋白的整体性质。因此我们需要提出一种新的有效提取蛋白指纹的方法来构建这样的双流模型，提高药物与靶标蛋白结合分数预测的准确度。

发明内容

本发明目的在于提供一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其主要解决的问题是建立更有效的药物与靶标蛋白结合分数预测的神经网络模型，提高预测准确度，为药物筛选、老药新用、新药发现等提供科学指导，提高药物筛选效率，降低药物筛选成本。

具体地，一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其包括以下步骤：

步骤一，基于药物的SMILES序列，使用RDKit工具生成该药物的ECFP指纹向量；

步骤二，基于靶标蛋白的氨基酸序列，利用滑动窗口生成一系列片段，将数据集中所有片段视为单词，训练word2vec模型，根据模型训练的结果将每个片段的编码向量进行层次聚类，根据靶标蛋白所拥有的片段类别生成该蛋白的指纹；

步骤三，将药物的ECFP指纹和靶标蛋白指纹输入由全连接层组成的非卷积神经网络得到非卷积输出，将药物序列与靶标蛋白序列对应的one-hot编码向量输入由一维dense卷积块组成的卷积神经网络得到卷积输出；

步骤四，将从药物序列与靶标蛋白序列的卷积输出互相做attention操作，经过最大池化得到两组特征，将药物的卷积输出在通道维度上求和后对药物非卷积输出做attention操作得到一组特征，将靶标蛋白的卷积输出在通道维度上求和后对靶标蛋白非卷积输出做attention操作得到一组特征，将以上得到的四组特征合并为一个向量；

步骤五，将融合的特征输入多层全连接层组成的多层感知机，得到最终的双流神经网络模型，双流神经网络模型的输出即为拟合得到的药物与靶标蛋白的结合分数。

进一步的，步骤二的具体实现方式如下，

基于靶标蛋白的氨基酸序列，用长度为5的滑动窗口生成一系列片段，将数据集中所有片段视为单词，训练word2vec模型，sg参数取0，窗口大小设为4，去除出现次数小于3的片段，迭代1000次，根据模型训练的结果将每个片段的32维编码向量进行层次聚类，将在序列上多次按相同顺序出现，且只在个别片段上有差异的片段视为一类片段，共1024类片段，根据这些片段在蛋白序列中的有无将该蛋白编码为one-hot向量，即该蛋白的指纹，它反映了该蛋白中拥有的子结构。

进一步的，步骤三中非卷积神经网络包括两层全连接层，两层全连接层的神经元个数分别为512、96，且两层全连接层之间使用丢失率为0.5的dropout层来提升泛化性能；

卷积神经网络由三个一维dense卷积块串联而成，每个一维dense块由四层卷积层组成，每一层的输出与该一维dense卷积块中前几层的输出相连，作为下一卷积层的输入，每一层的通道数随着层数的增加而线性增加，四层的输出合并在一起经过relu函数激活，作为此一维 dense卷积块的输出，三个一维dense块中的卷积层使用相同的参数，卷积核的大小分别为1、3、 5、7，边缘补齐的padding值分别为0、1、2、3，三个一维dense卷积块的输出通道数分别为128、 256、96。

进一步的，步骤五中多层感知机由4个卷积层组成，其中前三层全连接层两两之间有一个丢失率为0.5的dropout层用于提高泛化性能，全连接层的神经元个数分别为1024、1024、512、 1。

进一步的，步骤四的具体实现方式如下，

S401，对步骤三中得到的药物的卷积输出x_i与靶标蛋白的卷积输出x_j分别经过线性变换用tanh函数做非线性激活，公式为y_i＝tanh(w_ix_i+b_i)，y_j＝tanh(w_jx_j+b_j)，其中wi、w_j为线性变换的权重向量，b_i、b_j为线性变换的偏置向量；

S402，对步骤S401中得到的y_i和y_j做relu激活，再相互做叉乘操作，得到一个attention矩阵，反映该药物的某个子结构对该蛋白的某个子结构的作用分数，其公式为atten_ij＝relu(y_i)×relu(y_j)；

S403，对步骤S402中得到的相互作用分数对列求和，得作用于药物的attention分数，其公式为atten_i＝∑_jatten_ij，再对步骤S402中得到的相互作用分数对行求和，得作用于靶标蛋白的 attention分数，其公式为atten_j＝∑_iatten_ij；

S404，将步骤S403中得到的attention分数作用于药物的卷积输出与靶标蛋白的卷积输出，经过最大池化得到两组特征x_d、x_p，其公式分别为x_d＝maxpool_i(x_i*atten_i)和 x_p＝maxpool_j(x_j*atten_j)；

S405、将步骤S403中得到的作用于药物的attention分数atten_i在药物序列维度上求和，作为作用于药物指纹d的attention分数，其公式为d^*＝d*∑_iatten_i；将步骤S403中得到的作用于蛋白的attention分数atten_j在蛋白序列维度上求和，作为作用于蛋白指纹p的attention分数，其公式为p^*＝p*∑_jatten_j；这一步的目的是使卷积得到的特征分布与非卷积得到的特征分布不要过于分散。

进一步的，步骤五中所述双流神经网络模型所使用的损失函数为方差损失函数，损失函数定义如下所示，

Cost＝(affinity-predict)²

其中affinity为实际药物与靶标蛋白的结合分数，predict为预测的药物与靶标蛋白的结合分数。

进一步的，步骤五中所述双流神经网络模型的训练算法为学习率为0.0001的adam反向传播算法，训练过程中每个批次输入n个样本，所有批次训练完成为一轮，每一轮训练视测试集上的方差损失函数的大小来决定是否保留这一次的训练参数，训练m轮后得到的参数最优的模型为最终使用的药物与靶标蛋白结合分数的预测模型。

本发明与现有技术相比，具有以下优点：

1.本发明提出了一种有效生成可以表示蛋白质子结构有无的指纹方法，利用自然语言模型word2vec能将经常同时出现的片段编码为距离相近的向量的特点，将蛋白片段分类，每种类别可解释为一种蛋白的子结构，解决了长序列蛋白难以编码成指纹的问题。

2.本发明改进了经典的卷积神经网络模型，利用参数相同的一维dense卷积块构建网络，提取的特征在拟合药物与蛋白结合分数方面更加有效。

3.本发明使用了attention机制来提高提取特征的有效性，其步骤有可解释的生物学意义。

4.本发明提出了结合卷积神经网络与非卷积神经网络提取特征构建双流神经网络模型的方法，相比于单纯利用卷积神经网络构建模型的方法，提高了模型的准确率，为药物筛选、老药新用、新药发现等提供科学的指导。

附图说明

图1为本发明的工作流程示意图；

图2为本发明生成蛋白指纹的流程示意图；

图3为本发明的双流神经网络模型示意图。

具体实施方式

以下将参考附图详细说明本发明的示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

具体地，本发明提供一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，如图 1所示，其包括以下步骤：

步骤一：基于药物的SMILES序列，使用RDKit工具生成药物的ECFP指纹向量。

步骤二：基于靶标蛋白的氨基酸序列，用长度为5的滑动窗口生成一系列片段，将数据集中所有片段视为单词，训练word2vec模型，sg参数取0，窗口大小设为4，去除出现次数小于3的片段，迭代1000次，根据模型训练的结果将每个片段的32维编码向量进行层次聚类，将在序列上多次按相同顺序出现，且只在个别片段上有差异的片段视为一类片段，共1024类片段，根据这些片段在蛋白序列中的有无将该蛋白编码为one-hot向量，即该蛋白的指纹，它反映了该蛋白中拥有的子结构。

步骤三：将药物的ECFP指纹和靶标蛋白指纹分别输入相应的两层全连接层组成的非卷积神经网络，得到药物与靶标蛋白的非卷积输出，两层全连接层的神经元个数分别为512、96，且两层全连接层之间使用丢失率为0.5的dropout层来提升泛化性能。

将药物序列字符串与靶标蛋白序列字符串编码成one-hot的矩阵，分别输入相应的由三个一维dense卷积块串联而成的卷积神经网络，每个一维dense块由四层卷积层组成，每一层的输出与该一维dense块中前几层的输出相连，作为下一卷积层的输入，每一层的通道数随着层数的增加而线性增加，四层的输出合并在一起经过relu函数激活，作为此一维dense块的输出，三个一维dense块中的卷积层使用相同的参数，卷积核的大小分别为1、3、5、7，边缘补齐的 padding值分别为0、1、2、3，三个一维dense卷积块的输出通道数分别为128、256、96。

步骤四：将从药物序列与靶标蛋白序列的卷积输出互相做attention操作，经过最大池化步骤得到两组特征，将药物的卷积输出在通道维度上求和后对药物非卷积输出做attention操作得到一组特征，将靶标蛋白的卷积输出在通道维度上求和后对靶标蛋白非卷积输出做attention 操作得到一组特征，将以上得到的四组特征合并为一个向量。

步骤五：将融合的特征输入四层全连接层组成的多层感知机，其中前三层全连接层两两之间有一个丢失率为0.5的dropout层用于提高泛化性能，全连接层的神经元个数分别为1024、 1024、512、1，得到本专利所提出的双流神经网络模型，模型的输出即为拟合得到药物与靶标蛋白的结合分数。

进一步，步骤四的具体实现方式如下：

S401、对步骤三中得到的药物的卷积输出x_i与靶标蛋白的卷积输出x_j分别经过线性变换用tanh函数做非线性激活，公式为y_i＝tanh(w_ix_i+b_i)，y_j＝tanh(w_jx_j+b_j)，其中w_i、w_j为线性变换的权重向量，b_i、b_j为线性变换的偏置向量；

S402、对步骤S401中得到的y_i和y_j做relu激活，再相互做叉乘操作，得到一个attention矩阵，反映该药物的某个子结构对该蛋白的某个子结构的作用分数，其公式为atten_ij＝relu(y_i)×relu(y_j)；

S403、对步骤S402中得到的相互作用分数对列求和，得作用于药物的attention分数，公式分别为atten_i＝∑_jatten_ij，再对步骤S402中得到的相互作用分数对行求和，得作用于靶标蛋白的attention分数，其公式为atten_j＝∑_iatten_ij；

S404、将步骤S403中得到的attention分数作用于药物的卷积输出与靶标蛋白的卷积输出，经过最大池化步骤得到两组特征x_d、x_p，其公式分别为x_d＝maxpool_i(x_i*atten_i)和x_p＝maxpool_j(x_j*atten_j)；

S405、将步骤S403中得到的作用于药物的attention分数atten_i在药物序列维度上求和，作为作用于药物指纹d的attention分数，公式为d^*＝d*∑_iatten_i；将步骤S403中得到的作用于蛋白的attention分数atten_j在蛋白序列维度上求和，作为作用于蛋白指纹p的attention分数， p^*＝p*∑_jatten_j，这一步的目的是使卷积得到的特征分布与非卷积得到的特征分布不要过于分散；

进一步，所述双流神经网络模型预测药物与靶标蛋白结合分数的能力可以使用KIBA数据集(kinase inhibitor bioactivity data sets)进行验证，该数据集整合了Davis、Taipale、 Anastassiadis、Metz四种数据集的数据，涉及229种靶标蛋白，2111种药物小分子，118254种药物与靶标蛋白的结合分数。

进一步，所述双流神经网络模型所使用的损失函数为方差损失函数，损失函数定义如下所示，其中affinity为实际药物与靶标蛋白的结合分数，predict为预测的药物与靶标蛋白的结合分数：

Cost＝(affinity-predict)²

进一步，所述双流神经网络模型的训练算法为学习率为0.0001的adam反向传播算法，训练过程中每个批次输入256个样本，所有批次训练完成为一轮，每一轮训练视测试集上的方差损失函数的大小来决定是否保留这一次的训练参数，训练300轮后得到的参数最优的模型为最终使用的药物与靶标蛋白结合分数的预测模型。

本发明实施案例在KIBA数据集上五倍交叉验证的测试结果如表1所示，结果的格式为“平均值(标准差)”：

表1本发明模型与单独使用卷积或非卷积模型在KIBA数据集的预测对比

	标准差(MSE)	一致性指数(CI)	回归系数(r2)
				单独卷积神经网络模型	0.169(0.001)	0.874(0.002)	0.693(0.013)
单独非卷积神经网络模型	0.158(0.001)	0.879(0.001)	0.723(0.003)
				本发明模型	0.150(0.001)	0.887(0.001)	0.759(0.012)

本模型预测药物与靶标蛋白结合分数的能力比单独使用卷积神经网络模型和单独使用非卷积神经网络模型更好，标准差更小，一致性指数与回归系数更高。

本发明与经典单独使用非卷积神经网络构建模型的五倍交叉验证测试结果如表2所示，结果的格式为“平均值(标准差)”：

表2本发明模型与现有卷积模型在KIBA数据集的预测对比

	标准差(MSE)	一致性指数(CI)	回归系数(r2)
				本发明模型	0.150(0.001)	0.887(0.001)	0.759(0.012)
DeepDTA	0.186(0.003)	0.854(0.002)	0.677(0.005)
				AttentionDTA	0.174(0.002)	0.861(0.002)	0.697(0.004)

本模型预测药物与靶标蛋白结合分数的能力比单独使用卷积神经网络的标准模型更好，标准差更小，一致性指数与回归系数更高。

本发明中利用基于自然语言处理方法提取的蛋白的指纹，为模型预测药物与靶标蛋白结合分数提供了新的特征。将从药物与靶标蛋白的序列提取的指纹输入非卷积神经网络得到的特征，与药物与靶标蛋白的序列one-hot矩阵输入由一维dense卷积块组成的卷积网络提取的特征，通过attention机制整合，其预测药物与靶标蛋白结合分数的效果比以往单纯利用卷积网络提取特征的效果要好很多，为辅助药物研发人员进行分子筛选、药物重定位以及新药发现提供了科学的依据，据有一定的指导意义，本发明提出的模型可以提高药物筛选效率，降低药物筛选成本。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于，包括如下步骤：

步骤一，基于药物的SMILES序列，生成药物的ECFP指纹向量；

步骤四的具体实现方式如下，

S401，对步骤三中得到的药物的卷积输出x_i与靶标蛋白的卷积输出x_j分别经过线性变换用tanh函数做非线性激活，公式为y_i＝tanh(w_ix_i+b_i)，y_j＝tanh(w_jx_j+b_j)，其中w_i、w_j为线性变换的权重向量，b_i、b_j为线性变换的偏置向量；

S403，对步骤S402中得到的相互作用分数对列求和，得作用于药物的attention分数，其公式为atten_i＝∑_jatten_ij，再对步骤S402中得到的相互作用分数对行求和，得作用于靶标蛋白的attention分数，其公式为atten_j＝∑_iatten_ij；

S404，将步骤S403中得到的attention分数作用于药物的卷积输出与靶标蛋白的卷积输出，经过最大池化得到两组特征x_d、x_p，其公式分别为x_d＝maxpool_i(x_i*atten_i)和x_p＝maxpool_j(x_j*atten_j)；

S405、将步骤S403中得到的作用于药物的attention分数atten_i在药物序列维度上求和，作为作用于药物指纹d的attention分数，其公式为d^*＝d*∑_iatten_i；将步骤S403中得到的作用于蛋白的attention分数atten_j在蛋白序列维度上求和，作为作用于蛋白指纹p的attention分数，其公式为p^*＝p*∑_jatten_j；这一步的目的是使卷积得到的特征分布与非卷积得到的特征分布不要过于分散；

2.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于：步骤二的具体实现方式如下，

基于靶标蛋白的氨基酸序列，用长度为n1的滑动窗口生成一系列片段，将数据集中所有片段视为单词，训练word2vec模型，sg参数取0，窗口大小设为n2，去除出现次数小于n3的片段，迭代若干次，根据模型训练的结果将每个片段的n3维编码向量进行层次聚类，将在序列上多次按相同顺序出现，且只在个别片段上有差异的片段视为一类片段，共n4类片段，根据这些片段在蛋白序列中的有无将该蛋白编码为one-hot向量，即该蛋白的指纹，它反映了该蛋白中拥有的子结构。

3.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于：步骤三中非卷积神经网络包括两层全连接层，两层全连接层的神经元个数分别为512、96，且两层全连接层之间使用丢失率为0.5的dropout层来提升泛化性能；

卷积神经网络由三个一维dense卷积块串联而成，每个一维dense块由四层卷积层组成，每一层的输出与该一维dense卷积块中前几层的输出相连，作为下一卷积层的输入，每一层的通道数随着层数的增加而线性增加，四层的输出合并在一起经过relu函数激活，作为此一维dense卷积块的输出，三个一维dense块中的卷积层使用相同的参数，卷积核的大小分别为1、3、5、7，边缘补齐的padding值分别为0、1、2、3，三个一维dense卷积块的输出通道数分别为128、256、96。

4.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于：步骤五中多层感知机由4个卷积层组成，其中前三层全连接层两两之间有一个丢失率为0.5的dropout层用于提高泛化性能，全连接层的神经元个数分别为1024、1024、512、1。

5.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于：步骤五中所述双流神经网络模型所使用的损失函数为方差损失函数，损失函数定义如下所示，

Cost＝(affinity-predict)²

6.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于：步骤五中所述双流神经网络模型的训练算法为学习率为0.0001的adam反向传播算法，训练过程中每个批次输入n个样本，所有批次训练完成为一轮，每一轮训练视测试集上的方差损失函数的大小来决定是否保留这一次的训练参数，训练m轮后得到的参数最优的模型为最终使用的药物与靶标蛋白结合分数的预测模型。

7.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法，其特征在于：步骤一中使用RDKit工具生成药物的ECFP指纹向量。