CN111429977A

CN111429977A - 一种新的基于图结构注意力的分子相似性搜索算法

Info

Publication number: CN111429977A
Application number: CN201910839118.6A
Authority: CN
Inventors: 魏志强; 李臻; 王爽; 乔木; 张树刚
Original assignee: Ocean University of China; Qingdao National Laboratory for Marine Science and Technology Development Center
Current assignee: Ocean University of China; Qingdao National Laboratory for Marine Science and Technology Development Center
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-07-17
Anticipated expiration: 2039-09-05
Also published as: CN111429977B

Abstract

本发明提出了一种新的基于图结构注意力的分子相似性搜索算法，包括如下步骤：步骤1、使用相似分子作为预训练数据，通过图卷积神经网络将相似分子表达为分子图的格式，在图卷积神经网络中引入了注意力机制，将分子图转换为特征向量；步骤2、通过训练得到公式中的参数，得到相似性计算公式；步骤3、采用步骤1的方法，将新的分子表达为新分子图的格式，并将新的分子图转换为新的特征向量，通过相似性计算公式进行相似性计算，得到相似性得分，借此，本发明具有在保证了搜索广泛性的同时，提高了分子相似性计算的准确度的优点。

Description

一种新的基于图结构注意力的分子相似性搜索算法

技术领域

本发明属于分子相似性搜索领域，特别涉及一种新的基于图结构注意力的分子相似性搜索算法。

背景技术

目前，随着信息技术的快速发展，计算机在药物发掘领域中信息化手段扮演的角色越来越重要。近年来人工智能的发展，为药物发掘工作带来了更多的可能性。分子相似性搜索是药物小分子发掘工程中一项重要的技术，它为许多现有的虚拟筛选技术奠定了理论基础，在发掘药物小分子的过程中，通过已知小分子搜索相似性的小分子是一种常用的筛选手段。

在化学分析中，基于相似性的物化性质分析、相似相溶原理等等都是以

“具有相似结构的化合物一般也具有相似的物理化学性质”为基础。分子相似性作为化学信息学中的最重要的主题之一，是指两个分子或化合物在结构上的相似程度。基于计算机模拟的筛选方法在很大程度上可以归结于对小分子理化特征和结构信息的提取、分析和比较。进行筛选操作的基础便是首先将化合物分子转换成为一种机器可以识别的表示形式。现有的许多相似度计算方法并非直接作用于分子的原始表示形式，而是首先需要将化合物分子的理化特性与结构信息用分子描述符的形式表示出来，因为只有这样才能使用物理或者数学模型对分子的特征进行评价和比较。目前，在药学研究领域每年都会有数量庞大的不同分子描述符被报道。

在计算化学领域，相似系数法是比较常用的一种方法，利用相似系数如先行代码，最大相似邻接关系法，股本距离等计算分子相似程度。现在常用的谷本距离是先将分子用分子指纹的方式表达出来，在计算分子指纹的谷本系数。分子指纹常用的如ECFP4是二进制格式的2D分子结构的表征。通过分子指纹之间的重叠来计算分子之间的结构相似性，2D指纹方法由于其计算效率和有效性而成为基于2D相似性的虚拟筛选的选择方法，广泛使用的谷本系数公式。

但是，现有技术的第一个主要缺点是分子指纹种类很多，两个数据集的分子指纹不能拿来直接用，给实验计算造成了一定难度，限制了大批量计算时的计算速度。

从搜索方法来看，现在的分子检索方法都是基于相似结构的搜索方法，在搜索分子时，需要保留查询分子所需要的生物活性，作为搜索模板，但去除其中的缺点。但是由于分子数据库中的数据量十分巨大，一个分子需要进行指数大小的增量实验，这就使运算时间大大增加，限制了使用形状识别方法的速度。由于我们想要覆盖更大的搜索空间，尽可能地覆盖生物相关的化学空间，提高寻找到可能分子的可能性。因此，尽可能快的筛选分子数据库是非常重要的。

发明内容

本发明提出一种新的基于图结构注意力的分子相似性搜索算法，能够在保证了搜索广泛性的同时，提高了分子相似性计算的准确度。

本发明的技术方案是这样实现的：一种新的基于图结构注意力的分子相似性搜索算法，包括如下步骤：

步骤1、使用相似分子作为预训练数据，通过图卷积神经网络将相似分子表达为分子图的格式，在图卷积神经网络中引入了注意力机制，将分子图转换为特征向量；

步骤2、通过训练得到公式中的参数，得到相似性计算公式；

步骤3、采用步骤1的方法，将新的分子表达为新分子图的格式，并将新的分子图转换为新的特征向量，通过相似性计算公式进行相似性计算，得到相似性得分。

作为一种优选的实施方式，图卷积神经网络将卷积核设置为：

H^(l+1)＝σ(AH^(l)W^(l))

H^(l+1)：表示节点在第1层的特征表达；

σ()：表示激活函数；

A：表示邻接矩阵；

W^(l)：表示第1层的卷积权重。

作为一种优选的实施方式，特征向量使用余弦相似性计算分子的相似度，并将其结果作为训练数据，通过训练得到所述相似性计算公式，其余弦相似性计算的公式为：

其中，A，B代表两个相似分子提取出的特征向量，A_i，B_i分别代表两个向量中的各分量。

作为一种优选的实施方式，在相似性计算公式中引入分子指纹的计算结果，其公式为：

其中，k是相似策略的编号，w_k是策略k的权重，sim_k是第k个策略计算的相似度结果。

作为一种优选的实施方式，引入分子指纹的计算结果后，采用梯度下降算法，优化得出E最小的权向量，计算过程为：

w←w+Δw

实际计算中：

其中η为学***方和，是关于权重向量w的函数。

作为一种优选的实施方式，步骤2中训练之前，需要确定神经网格的输入以及正负样本，将下载得到的分子转变为使用相同smiles格式的分子数据，之后将smiles格式的分子转为分子图，采用相同的标准，同时保留分子的理化性质存储在数据库中，作为测定的验证信息使用，使用rdkit中的股本距离方法，对分子的分子指纹进行计算，得到的得分作为训练时的训练数据，验证分子相似程度以及算法的效果。

作为一种优选的实施方式，步骤3中设定相似性得分的阈值为0.8。

采用了上述技术方案后，本发明的有益效果是：

1、本专利使用的方法较传统的方法相比，由于使用的分子描述符是图结构的分子数据，可以将不同分子数据库的数据转化为同一种通用的结构，这样在搜索时就可以使用多个数据库的数据，保证了搜索的广泛性。

2、另外，在计算方法上看，本专利使用的计算方法使用分子性质的相似程度来训练算法，提高了分子相似性计算的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的构成框图；

图2为异戊烷和新戊烷的结构示意图；

图3为节点特征示意图；

图4为multi-head attention的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据图1至图4所示，一种新的基于图结构注意力的分子相似性搜索算法的中心是相似性计算公式，它通过使用相似分子作为预训练数据，训练得到公式中的参数。使用训练得到的公式对输入的分子图进行相似性计算，得到两个分子相似性得分。

使用现有的方法将分子图转为特征向量，在本方法内对现有的算法进行改造，在转换过程中引入了注意力机制，将原子间的互相作用记录在特征向量中。本算法的核心是对图卷积技术的充分利用，由于化学分子图的特殊性，使用一般常用的卷积神经网络效果不佳，所以使用图卷积及神经网络处理就有天然的优势。

由于分子的数据特征，并不是简单的二维结构，在计算机应用是并不能简单的使用卷积神经网络来处理分子数据。而对于分子数据的特殊性，将分子数据看为一个图结构数据，能很好的处理这个问题。

每个节点都有自己的特征信息。比如在化合物分子图中，顶点对应化合物的原子，边对应于化学键，顶点用相应原子的种类标记，边用键的类型标记。原子的电荷数、种类、分子量等信息都能够被用来计算化学性质，而不同的原子都被存储在本节点中。对于特定的任务，允许忽略任何标签。

图谱中的每个节点都具有分子的结构信息。对于在计算化学里，作为一种用来处理分子数据的描述符，想要保证计算的准确性就必须要考虑到分子同分异构、手性等特性，所以必须要保存完整的结构信息。而分子图的定义能够区分结构异构体，例如具有相同分子式但非同构图的化合物如异戊烷和新戊烷，如图2所示，虽然在分子式上看两者一样，但是在图结构上看是完全不一样的。

图卷积神经网络(Graph Convolutional Network)是一种能对图数据进行深度学习的方法。将卷积核设置为：

H^(l+1)＝σ(AH^(l)W^(l))

H^(l+1)表示节点在第l层的特征表达，其中σ()表示激活函数，A表示邻接矩阵，W^(l)表示第l层的卷积权重。例如，现假设原子2的邻接原子由1，3和4号，则结点状态的更新式如下：

在图卷卷积神经网络中，第一步是将分子表达为分子图的格式，将分子中对化学性质起重要作用的原子、官能团、侧链等用节点表示，将节点特征信息保存在节点中，经过变换后发送给邻居节点，对节点的特征信息进行抽取变换。然后节点将邻居节点的特征信息收集到一起，融合节点的局部结构信息，进行信息融合。在对收集到信息进行提取，一般经过几层的特征提取，就可以提取到整个分子的特征表达。

该卷积过程意味着所用的原子特征将和相同的卷积权重相乘，相加后作为激活函数的输入，而激活函数的输出则表示当前节点的新状态信息。这样做的优点在于：

1、卷积核的权重参数比较少；

2、更新式中，用拉普拉斯矩阵进行变换，计算复杂度为O(n)；

3、卷积核具有很好的空间定位性，特别的，设K为卷积核的感知域，也就是说每次卷积会将中心定点K-hop邻点上的feature进行加权求和，权系数α_k；

4、训练是端对端训练，可以同时对节点特征和结构信息进行学习，适用性更广。

另外，分子图学习策略上，为了使图卷积神经网络解决不同大小输入的问题，首先从图中选择一个固定的节点序列，确定图的中心原子，再对序列中的每个节点，收集固定大小的邻域集合，以不同的半径汇集周围邻接节点的信息，在对当前的邻域进行规范化，作为卷积层的输入，覆盖图的大部分信息，再将得到的向量输入进下一层做进一步的处理。

人类视觉***在识别物体时，通过快速扫描全局图像，获取需要重点关注的目标区域，就是我们通常所说的焦点，通过的重点区域投入更更多的注意力资源，获得更多的信息，在长久的自然进化中，人类的注意力机制极大地提高了人类对视觉信息处理的速度和准确性。深度学习中的注意力机制就是借鉴了人类选择性视觉注意力机制，也是从众多信息中选择需要重点关注的信息，并进行相应的处理。

为了使模型可以学习分子中各个原子间的关系，在图卷积中引入注意力机制，与一般的图卷积不同，使用注意力机制替代了图卷积中固定的标准化操作。如图3所示对第n层节点特征做更新并得到n+1层节点特征，首先对n层节点嵌入进行先行变换，之后计算节点间的原始注意力分数。拼接两个节点的嵌入结果，并对拼接好的嵌入加入一个科学系的权重向量做点积，通过激活函数引入注意力。最后通过softmax操作得到注意力权重。与此相同，之后再对邻接节点的所有节点的特征做基于注意力的加权求和。

如图4所示，我们发现multi-head attention非常有益于稳定self-attention的学习过程，可参考论文Attention is all you need，即，该层的操作被独立复制k次(每个replica有不同的参数)，并且输出是按特征聚集的(通常通过连接或添加)。

其中，

是由第k个replica得出的注意力系数，W^k是第k个replica线性变换的权重矩阵，通过前面几节的设置，这完全指定了GAT层。

本发明中引入了注意力机制，主要用于增强模型对分子中原子间的性质，使用注意力机制代替了图卷积中固定的标准化操作，首先对分子中的原子节点采用自注意力模型，通过只允许节点i关注邻域节点来学习图结构，之后再使用softmax函数对这些系数进行归一化，以便在不同邻域之间进行选择，此外，由于multi-head attention对于稳定自注意力模型的学习的帮助十分大，即特定层的操作被独立复制k次，最后的输出是按特征聚集的。

当引入注意力机制到图卷积模型之后，可以通过新的注意力图卷积层自动学习不用邻居节点的重要性，可以加快模型的训练速度，提高准确性。

在训练之前，需要确定神经网络的输入以及正负样本。首先，由于小分子数据库的种类多种多样，描述分子时采用的数据结构会有些许不同，为了保证训练的一致性，需要对分子数据进行相应的处理。将下载得到的分子转变为使用相同smiles格式的分子数据，之后将smiles格式的分子转为分子图，采用相同的标准，同时保留分子的理化性质存储在数据库中，作为测定的验证信息使用，使用rdkit中的股本距离方法，对分子的分子指纹进行计算，得到的得分作为训练时的训练数据，验证分子相似程度以及算法的效果。

使用训练的得到的分子图特征向量，再使用余弦相似性计算分子的相似度。余弦相似性是指通过计算两个向量的夹角来度量它们之间的相似性。余弦值的范围从-1到1，两个向量夹角为0°时余弦值为1，夹角为90°时余弦值为0，方向完全相反时余弦值为-1，通常情况下，余弦相似度用于正空间上，得到的值通常在0到1之间，公式为：

其中，A，B代表两个分子经模型提取出的特征向量，A_i，B_i分别代表两个向量中的各分量。

之后，将余弦相似性的结果作为训练数据，训练得到相似度计算公式模型，在模型中引入分子指纹的计算结果，提高计算准确性。公式如下：

引入分子指纹的计算结果后，采用梯度下降算法，优化得出E最小的权向量，计算过程为：：

w←w+Δw

实际计算中，

其中η为学***方和，是关于权重向量w的函数。

为了验证算法的可行性，使用100对已经验证过的分子对进行验证，该数据集来自2014年，Pedro Franco等人发表在《Journal of Cheminformatics》上的论文，作者邀请了143名专家，从DrugBank中挑选了100对分子，请专家判断是否两个分子式相似的，然后统计结果，同时在表中记录两个分子使用ECFP4指纹计算的Tanimoto系数。最终经过模型的处理，便可以得到两个分子相似的分数。为了确保最终得到分数是准确的，本发明将阈值设置为0.8，也就是当分子相似性打分值大于0.8时，就确认其属于相似，反之不属于。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种新的基于图结构注意力的分子相似性搜索算法，其特征在于，包括如下步骤：

步骤2、通过训练得到公式中的参数，得到相似性计算公式；

2.根据权利要求1所述的一种新的基于图结构注意力的分子相似性搜索算法，其特征在于，所述步骤1中图卷积神经网络将卷积核设置为：

H^(l+1)＝σ(AH^(l)W^(l))

H^(l+1)：表示节点在第1层的特征表达；

σ()：表示激活函数；

A：表示邻接矩阵；

W^(l)：表示第1层的卷积权重。

3.根据权利要求2所述的一种新的基于图结构注意力的分子相似性搜索算法，其特征在于，所述特征向量使用余弦相似性计算分子的相似度，并将其结果作为训练数据，通过训练得到所述相似性计算公式，其余弦相似性计算的公式为：

4.根据权利要求1或3所述的一种新的基于图结构注意力的分子相似性搜索算法，其特征在于，所述在相似性计算公式中引入分子指纹的计算结果，其公式为：

5.根据权利要求4所述的一种新的基于图结构注意力的分子相似性搜索算法，其特征在于，所述引入分子指纹的计算结果后，采用梯度下降算法，优化得出E最小的权向量，计算过程为：

w←w+Δw

实际计算中：

其中η为学***方和，是关于权重向量w的函数。

6.根据权利要求1所述的一种新的基于图结构注意力的分子相似性搜索算法，其特征在于，所述步骤2中训练之前，需要确定神经网格的输入以及正负样本，将下载得到的分子转变为使用相同smiles格式的分子数据，之后将smiles格式的分子转为分子图，采用相同的标准，同时保留分子的理化性质存储在数据库中，作为测定的验证信息使用，使用rdkit中的股本距离方法，对分子的分子指纹进行计算，得到的得分作为训练时的训练数据，验证分子相似程度以及算法的效果。

7.根据权利要求1所述的一种新的基于图结构注意力的分子相似性搜索算法，其特征在于，所述步骤3中设定相似性得分的阈值为0.8。