CN111755078A

CN111755078A - 药物分子属性确定方法、装置及存储介质

Info

Publication number: CN111755078A
Application number: CN202010748538.6A
Authority: CN
Inventors: 叶阁焰; 刘伟; 黄俊洲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-10-09
Anticipated expiration: 2040-07-30
Also published as: CN111755078B; US20220415452A1; WO2022022173A1

Abstract

本申请公开了一种药物分子属性确定方法、装置及存储介质，属于人工智能技术领域。方法包括：获取待测药物分子的文本字符串；该文本字符串用于描述待测药物分子的化学结构式；根据该文本字符串，获取待测药物分子的三维结构信息；根据待测药物分子的三维结构信息，确定待测药物分子的成药属性。本申请实施例提出了一种新的药物分子属性预测方案，该方案会获取待测药物分子的三维结构信息，其中，药物分子的三维结构信息给出了药物分子中各个原子在立体空间的位置分布，而药物分子的空间结构能够影响药物分子性质，因此基于药物分子的三维结构信息，能够精准地预测药物分子属性，进而能够提高新的候选药物的发现速度和降低研发成本。

Description

药物分子属性确定方法、装置及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种药物分子属性确定方法、装置及存储介质。

背景技术

AI(Artificial Intelligence，人工智能)，是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。时下AI技术已经被广泛应用于多种场景下，比如药物研发场景便是其中一种。

针对药物研发场景，药物分子属性预测(Molecular Property Prediction，MPP)，也被称为药物的成药属性预测。示例性地，药物分子属性包括但不限于：药物分子的吸收(Absorption)属性、分布(Distribution)属性、代谢(Metabolism)属性、***(Excretion)属性和毒性(Toxicity)。

在药物研发过程中，通过预测药物分子的成药属性，能够提高新的候选药物的发现速度和降低研发成本。换言之，精准地预测药物分子属性，是提高新的候选药物的发现速度和降低研发成本的关键所在。

发明内容

本申请实施例提供了一种药物分子属性确定方法、装置及存储介质，能够显著地提升药物分子属性的预测精准度。所述技术方案如下：

一方面，提供了一种药物分子属性确定方法，包括：

获取待测药物分子的文本字符串；其中，所述文本字符串用于描述所述待测药物分子的化学结构式；

根据所述文本字符串，获取所述待测药物分子的三维结构信息；

根据所述三维结构信息，确定所述待测药物分子的成药属性。

另一方面，提供了一种药物分子属性确定装置，包括：

第一获取模块，被配置为获取待测药物分子的文本字符串；其中，所述文本字符串用于描述所述待测药物分子的化学结构式；

第二获取模块，被配置为根据所述文本字符串，获取所述待测药物分子的三维结构信息；

预测模块，被配置为根据所述三维结构信息，确定所述待测药物分子的成药属性。

在一种可能的实现方式中，所述第二获取模块，还被配置为根据所述文本字符串，获取所述待测药物分子的二维结构信息；根据所述文本字符串，获取所述待测药物分子的原子特征和化学键特征；

所述预测模块，被配置为根据所述三维结构信息、所述二维结构信息、所述原子特征和所述化学键特征，确定所述待测药物分子的成药属性。

在一种可能的实现方式中，所述第二获取模块，包括：

第一获取单元，被配置为根据所述文本字符串，获取所述待测药物分子的三维结构坐标；

第一处理单元，被配置为在所述待测药物分子的三维结构形状保持不变的前提下，对所述待测药物分子当前的三维结构坐标进行变换处理，将得到的三维结构坐标矩阵作为所述三维结构信息。

在一种可能的实现方式中，所述第二获取模块，还包括：

第二获取单元，被配置为根据所述文本字符串，获取所述待测药物分子的二维结构图的邻接矩阵；

第二处理单元，被配置为对所述二维结构图的邻接矩阵进行规范化处理，将得到的规范化邻接矩阵作为所述二维结构信息。

在一种可能的实现方式中，所述预测模块，被配置为：

将所述三维结构信息、所述二维结构信息、所述原子特征和所述化学键特征进行特征拼接处理，得到第一拼接矩阵；

将所述第一拼接矩阵输入分子属性预测网络；

获取所述分子属性预测网络输出的预测属性值；所述预测属性值用于指示所述待测药物分子的成药属性。

在一种可能的实现方式中，所述第一获取单元，被配置为：

根据所述文本字符串，获取所述待测药物分子的化学结构式；

根据所述待测药物分子的化学结构式，确定具有不同构型的M种三维结构；其中，具有不同构型的两个三维结构之间的均方根误差大于第一阈值；M为正整数；

在目标分子力场下对所述M种三维结构进行能量最小化处理；

在所述M种三维结构中确定能量最小的目标三维结构；

去除所述目标三维结构中的氢原子，得到所述待测药物分子的三维结构；

在所述三维结构下，获取所述待测药物分子中各个原子的三维坐标，得到所述待测药物分子的三维结构坐标。

在一种可能的实现方式中，所述第一处理单元，被配置为：

获取随机旋转矩阵和平移变换矩阵；

在所述待测药物分子的三维结构形状保持不变的前提下，根据所述随机旋转矩阵和所述平移变换矩阵，分别对所述待测药物分子的三维结构进行随机旋转和平移变换，得到所述三维结构坐标矩阵；

其中，所述三维结构坐标矩阵中包括所述待测药物分子新的三维结构坐标。

在一种可能的实现方式中，所述第二处理单元，被配置为：

将所述邻接矩阵的对角线元素的取值由第一数值变换为第二数值，得到新的邻接矩阵；

将所述新的邻接矩阵按行进行规范化处理，得到所述规范化邻接矩阵。

在一种可能的实现方式中，所述分子属性预测网络的训练过程包括：

获取训练数据集，所述训练数据集中包括样本分子和与所述样本分子匹配的属性标签；

获取所述样本分子的三维结构坐标矩阵、规范化邻接矩阵、原子特征和化学键特征；

对所述样本分子的三维结构坐标矩阵、规范化邻接矩阵、原子特征和所述化学键特征进行特征拼接处理，得到第二拼接矩阵；

以所述第二拼接矩阵作为初始神经网络的输入，以与所述样本分子匹配的属性标签作为所述初始神经网络的输出，训练所述初始神经网络；

基于目标损失函数，获取所述初始神经网络输出的预测属性值与所述样本分子的属性标签之间的差值；

响应于所述差值大于第二阈值，反复迭代更新所述初始神经网络的网络参数，直至所述差值不大于所述第二阈值，得到所述分子属性预测网络。

在一种可能的实现方式中，所述分子属性预测网络包括特征编码层、池化层和线性层；

所述分子属性预测网络的训练过程包括：

将所述第一拼接矩阵依次输入所述特征编码层和所述池化层；

将所述池化层输出的编码向量输入所述线性层，将所述线性层的输出作为所述待测药物分子的预测属性值。

在一种可能的实现方式中，所述特征编码层包括顺次堆叠设置的N层结构相同的特征编码器，N为正整数；所述分子属性预测网络的训练过程包括：

将所述第二拼接矩阵作为输入特征输入所述特征编码层的第一层特征编码器；

通过堆叠设置的各层特征编码器依次对所述输入特征进行编码处理，直至最后一层特征编码器；其中，上一层特征编码器的输入作为下一层特征编码器的输出；

将所述最后一层特征编码器的输出作为所述特征编码层的输出特征。

在一种可能的实现方式中，所述各层特征编码器中均包括多头注意力层和前馈神经网络层；所述分子属性预测网络的训练过程包括：

对于第j层特征编码器中包含的多头注意力层的第i个头结构，获取所述第i个头结构对应的第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵；其中，i和j的取值均为正整数，1≤j≤N；

分别根据所述第一变换矩阵、所述第二变换矩阵和所述第三变换矩阵，对所述第i个头结构的输入特征进行线性变换处理，依次得到所述第i个头结构的查询序列、键序列和值序列；根据所述第i个头结构的查询序列、键序列和值序列，获取所述第i个头结构的输出特征；

将各个头结构的输出特征进行特征拼接处理，得到组合特征；

基于第四线性变换矩阵对所述组合特征进行线性变换处理，得到所述多头注意力层的输出特征；

将所述多头注意力层的输出特征输入所述前馈神经网络层，将所述前馈神经网络层的输出作为第j+1层特征编码器的输入特征。

另一方面，提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现上述的药物分子属性确定方法。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的药物分子属性确定方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述的药物分子属性确定方法。

本申请实施例提供的技术方案带来的有益效果是：

在药物研发过程中，本申请实施例提出了一种新的药物分子属性预测方案，该方案在预测药物分子属性时，会获取待测药物分子的三维结构信息，其中，药物分子的三维结构信息给出了药物分子中各个原子在立体空间的位置分布，而药物分子的空间结构能够影响药物分子性质，因此基于药物分子的三维结构信息能够精准地预测药物分子属性，进而能够提高新的候选药物的发现速度和降低研发成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种药物研发流程的示意图；

图2是本申请实施例提供的一种药物分子属性确定方法涉及的实施环境的示意图；

图3是本申请实施例提供的一种药物分子属性确定方法的流程图；

图4是本申请实施例提供的一种分子的三维结构图；

图5是图4示出的三维结构经过随机旋转和平移变换后得到的三维结构；

图6是本申请实施例提供的一种苯环的二维结构图；

图7是本申请实施例提供的一种药物分子属性确定方法的流程图；

图8是本申请实施例提供的一种分子属性预测网络的结构示意图；

图9是本申请实施例提供的一种特征编码层的结构示意图；

图10是本申请实施例提供的一种实验结果示意图；

图11是本申请实施例提供的另一种实验结果示意图；

图12是本申请实施例提供的一种药物分子属性确定装置的结构示意图；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。其中，至少一个是指一个或一个以上，例如，至少一个分子可以是一个分子、两个分子、三个分子等任意大于等于一的整数个分子。而多个是指两个或者两个以上，例如，多个分子可以是两个分子、三个分子等任意大于等于二的整数个分子。

本申请实施例提供了一种药物分子属性确定方法、装置及存储介质。该方法涉及人工智能(Artificial Intelligence,AI)领域。

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

详细来说，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中，深度学习是机器学习的核心部分，其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中，深度学习是机器学习领域中一个新的研究方向。

下面先对本申请实施例涉及到的一些名词术语或缩略语进行介绍。

药物分子属性：包括药物分子的吸收(Absorption)、分布(Distribution)、代谢(Metabolism)、***(Excretion)和毒性(Toxicity)等属性。

图1示出了药物研发的主要流程，包括靶点识别与验证、化合物筛选与先导物发现、临床前研究和临床实现。其中，在完成靶点识别与验证之后，需要对候选药物进行筛选。而在筛选流程中，通过药物分子属性预测算法可以预测药物分子的吸收、分布、代谢、***和毒性等属性，进而可以帮助研发人员筛选药物分子，能够极大提高研发效率，降低药物研发成本。

简化分子线性输入规范(Simplified Molecular Input Line EntrySpecification，SMILES)：一种用美国信息交换标准代码(American Standard Code forInformation Interchange，ASCII)字符串明确描述分子结构的规范。

SMILES表达式可以用一串字符来描述一个三维化学结构，例如，环己烷(C6H12)的SMILES表达式为C1CCCCC1，即C1CCCCC1表示为环己烷。乙酸乙酯的SMILES表达式为CC(＝O)OCC，即CC(＝O)OCC表示为乙酸乙酯。

下面对本申请实施例提供的药物分子属性确定方案涉及的实施环境进行介绍。

其中，药物分子属性确定在本文中也被称为药物分子属性预测(MolecularProperty Prediction)。

参见图2，该实施环境包括：第一计算机设备201和第二计算机设备202。

示例性地，第一计算机设备201可以用于训练分子属性预测网络，而第二计算机设备202可以利用第一计算机设备201训练好的分子属性预测网络，来预测药物分子属性。当然，第一计算机设备201和第二计算机设备202也可为同一个设备，即该设备可以在训练好上述神经网络模型后，再基于上述神经网络模型来预测药物分子属性，本申请实施例对此不进行具体限定。

示例一、第一计算机设备201为服务器，第二计算机设备202为终端。

示例性地，在该种场景下，终端上配置有相关应用，终端通过该相关应用将待测药物分子的SMILES表达式传递给服务器，进而由服务器基于接收到的SMILES表达式，获取待测药物分子的三维结构信息、二维结构信息、原子特征以及化学键特征，并采用本申请实施例提供的药物分子属性预测算法(即调用分子属性预测网络)来预测药物分子属性，将分子属性预测网络输出的预测值通过该相关应用反馈给终端，进而由终端将预测结果呈现给用户。

其中，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。另外，上述终端和上述服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做具体限制。

示例二、本申请实施例提供的药物分子属性预测方案也可以由终端在本地独立完成。即，图2所示的实施环境中可以仅包括终端。

示例性地，在该种场景下，终端上配置有相关应用，终端待测药物分子的SMILES表达式，获取待测药物分子的三维结构信息、二维结构信息、原子特征以及化学键特征，并采用本申请实施例提供的药物分子属性预测算法(即调用分子属性预测网络)来预测药物分子属性，将预测结果呈现给用户。

综上所述，本申请实施例提供的药物分子属性预测方案可以由终端和服务器联合执行完成，也可以由终端独立执行完成，本申请实施例对此不进行具体限定。

基于上述的实施环境，本申请实施例提供的药物分子属性预测方案包括：提出了基于分子三维结构信息的数据增强(Data Argumentation，DA)方法，提高了分子属性预测的准确度；另外，引入了自然语言处理领域的Transformer模型，即提供了一种将Transformer模型应用在分子属性预测领域的新方法。换言之，在本技术方案中，一方面引入了分子的三维结构信息，提出了基于分子三维结构信息的数据增强方法，提高了分子属性预测的准确度。另一方面，引入了自然语言处理领域的Transformer模型，提供了一种将Transformer模型应用在分子属性预测领域的新方法，而得利于Transformer模型强大的表达能力，会使得分子属性的准确度得到进一步地提升。

需要说明的是，本申请实施例提供的药物属性预测方案可以运用在药物研发过程中，用于预测药物分子的成药属性，进而能提高新的候选药物发现的速度以及降低研发成本。

下面通过以下实施例对本申请实施例提供的药物属性预测方案进行详细地解释说明。

图3是本申请实施例提供的一种药物分子属性确定方法的流程图。该方法由计算机设备执行，示例性地，该计算机设备可以仅包括终端，还可以包括终端和服务器。参见图3，其特征在，本申请实施例提供的方法流程包括：

301、获取待测药物分子的文本字符串；其中，该文本字符串用于描述待测药物分子的化学结构式。

在本申请实施例中，待测药物分子指代待预测分子属性的药物分子。

示例性地，上述文本字符串指代SMILES表达式。其中，SMILES表达式用一串字符来描述一个三维化学结构，它可以将分子的化学结构转化成一个生成树。在进行转化时，通常需要先去掉氢原子，还要将环打开。在进行表示时，被拆掉的键端的原子通常需要用数字标记，支链写在小括号里。

总结来说，转化规则为：省略氢原子，单键不必表示相邻即可，双键用＝进行表示，叁键用#进行表示；以一条链的思路来分解化学结构式，侧链放在小括号内且紧跟在相连的原子后。

302、根据待测药物分子的文本字符串，获取待测药物分子的三维结构信息。

本申请实施例提出了一种基于药物分子的三维结构信息的数据增强方法。

示例性地，待测药物分子的三维结构信息为待测药物分子的三维结构坐标。

3021、根据待测药物分子文本字符串，获取待测药物分子的三维结构坐标。

作为一个示例，本申请实施例通过软件RDKit获取待测药物分子中各个原子的三维结构坐标(x，y，z)，获取过程如下。即，根据文本字符串，获取待测药物分子的三维结构坐标，包括如下步骤：

步骤a、根据待测药物分的文本字符串，获取待测药物分子的化学结构式。

本步骤即是通过待测药物分子的SMILES表达式，按照与上述步骤301中所示转化规则的互逆过程，来获得待测药物分子的分子表示，并补全氢原子。

步骤b、根据待测药物分子的化学结构式，确定具有不同构型的M种三维结构。

示例性地，M的取值为10，即获取具有10种不同构型(Conformer)的三维结构。其中，分子的空构型是指分子中各种基团或原子在空间分布的几何形状。分子中的原子不是杂乱无章地堆积在一起，而是按照一定规律结合的整体，使分子在空间呈现出一定的几何形状(即构型)。

在一种可能的实现方式中，为了避免产生十分相近的构型，具有不同构型的两个三维结构之间还需满足以下条件：RMSD(Root Mean Squared Error，均方根误差)大于第一阈值。其中，第一阈值的大小可以为0.5埃

本申请实施例对此不进行具体限定。

步骤c、在目标分子力场下对M种三维结构进行能量最小化处理。

作为一个示例，目标分子力场为MMFF94(Merck Molecular Force Field 94)，本申请实施例对此不进行具体限定。

以M的取值为10为例，则本申请实施例使用MMFF94对上述步骤b中得到的具有10种不同构型的三维结构进行力场优化。也，对具有不同构型的三维结构使用MMFF94力场进行能量最小化。

步骤d、在M种三维结构中确定能量最小的目标三维结构；去除目标三维结构中的氢原子，得到待测药物分子的三维结构。

以M的取值为10为例，则本申请实施例在优化后的具有10种构型的三维结构中，选取能量最低的三维结构(在本文中被称为目标三维结构)，作为待测药物分子的三维结构，并去掉其中的氢原子。

步骤e、在三维结构下，获取待测药物分子中各个原子的三维坐标，得到待测药物分子的三维结构坐标。

在获得待测药物分子的三维结构坐标后，为了实现数据增强，在输入神经网络模型之前，还包括如下步骤3022。

3022、在待测药物分子的三维结构形状保持不变的前提下，对待测药物分子当前的三维结构坐标进行变换处理，得到待测药物分子的三维结构坐标矩阵。

示例性地，上述变换处理包括但不限于随机旋转处理和平移处理。

相应地，对待测药物分子当前的三维结构坐标进行变换处理，包括：

获取随机旋转矩阵和平移变换矩阵；在待测药物分子的三维结构形状保持不变的前提下，根据随机旋转矩阵和平移变换矩阵，分别对待测药物分子的三维结构进行随机旋转和平移变换，得到三维结构坐标矩阵；其中，该三维结构坐标矩阵中包括待测药物分子新的三维结构坐标。

换言之，本步骤使用随机旋转矩阵和平移矩阵分别对步骤3021确定的三维结构进行随机旋转和平移，并确保待测药物分子的三维结构形状保持不变。

其中，图4示出了分子Norbormide(C33H25N3O3)的三维结构，该三维结构在经过随机旋转和平移处理后得到了图5所示的结果。对比图4和图5可知，该分子的三维结构坐标发生了变化，但是该分子的三维结构形状保持不变。

303、根据待测药物分子的三维结构信息，确定待测药物分子的成药属性。

在一种可能的实现方式中，将待测药物分子的三维结构信息输入分子属性预测网络，并调用该分子属性预测网络来确定待测药物分子的成药属性。

即，根据三维结构信息，确定待测药物分子的成药属性，包括如下步骤：

将待测药物分子的三维结构坐标矩阵输入分子属性预测网络，获取该分子属性预测网络输出的预测属性值；其中，输出的预测属性值用于指示待测药物分子的成药属性。

本申请实施例提供的方法，在药物研发过程中，本申请实施例提出了一种新的药物分子属性预测方案，该方案在预测药物分子属性时，会获取待测药物分子的三维结构信息，其中，药物分子的三维结构信息给出了药物分子中各个原子在立体空间的位置分布，而药物分子的空间结构能够影响药物分子性质，因此基于药物分子的三维结构信息能够精准地预测药物分子属性，进而能够提高新的候选药物的发现速度和降低研发成本。

在一个实施例中，通过上述步骤3021和步骤3022得到了待测药物分子的三维结构信息，除此之外，本申请实施例还会获取待测药物分子的二维结构信息。示例性地，二维结构信息为分子二维结构图的邻接矩阵。即，上述步骤302还包括：根待测药物分子的文本字符串，获取待测药物分子的二维结构信息、原子特征和化学键特征。

3023、根据待测药物分子的文本字符串，获取待测药物分子的二维结构图的邻接矩阵；对待测药物分子的二维结构图的邻接矩阵进行规范化处理，得到待测药物分子的规范化邻接矩阵。

示例性地，SMILES表达式可以被大多数分子编辑软件导入并转换成二维结构图。其中，转换成二维结构图可以使用结构图生成算法(Structure Diagram GenerationAlgorithms，SDGA)，本申请实施例对此不进行具体限定。

在一种可能的实现方式中，对二维结构图的邻接矩阵进行规范化处理，得到规范化邻接矩阵，包括：将该邻接矩阵的对角线元素的取值由第一数值变换为第二数值，得到新的邻接矩阵；将新的邻接矩阵按行进行规范化处理，得到规范化邻接矩阵。其中，第一数值的取值可以为0，第二数值的取值可以为1，本申请实施例对此不进行具体限定。

作为一个示例，以苯环(SMILES：c1ccccc1)为例，其中，图6示出了苯环的二维结构，包含了6个碳原子，其邻接矩阵如下：

在邻接矩阵的基础之上加入原子自身连接(原子自身也算相连)，即将邻接矩阵斜对角线上原本数值为0改为数值1，得到如下矩阵(左边矩阵)。最后，为了便于数据处理，再将上述矩阵按行进行规范化处理，得到规范后的邻接矩阵。示例性地，该规范化处理为将各个矩阵元素转换为0至1之间的小数。该规范化后的邻接矩阵如以下右边矩阵。

3024、根据待测药物分子的文本字符串，获取待测药物分子的原子特征和化学键特征。

针对该步骤，根据待测药物分子的文本字符串，可以通过Rdkit软件得到待测药物分子的原子特征和化学键特征，本申请实施例对此不进行具体限定。

示例性地，上述步骤303可以被替换为：根据待测药物分子的三维结构信息、二维结构信息、原子特征和化学键特征，确定待测药物分子的成药属性。

在一种可能的实现方式中，将待测药物分子的三维结构信息、二维结构信息、原子特征和化学键特征输入分子属性预测网络，并调用该分子属性预测网络来确定待测药物分子的成药属性。即，根据三维结构信息、二维结构信息、原子特征和化学键特征，确定待测药物分子的成药属性，包括如下步骤：

3031、将待测药物分子的三维结构坐标矩阵、规范化邻接矩阵、原子特征和化学键特征进行特征拼接处理，得到第一拼接矩阵。

其中，可以使用concat函数进行特征拼接，本申请实施例对此不进行具体限定。此处得到的拼接矩阵在本文中也被称为第一拼接矩阵。

3032、将待测药物分子的第一拼接矩阵输入分子属性预测网络，获取该分子属性预测网络输出的预测属性值；其中，输出的预测属性值用于指示待测药物分子的成药属性。

示例性地，药物分子的成药属性包括但不限于：吸收、分布、代谢、***和毒性等。其中，输出的预测属性值中可以给出待测药物分子的每种成药属性的预测值。假设每种成药属性的属性值的取值范围为0至10，以毒性为例，则0代表没有毒性，10代表毒性最高。

图7示出了分子属性预测网络的一种可能的结构。参见图7，该分子属性预测网络包括特征编码层701、池化层702和线性层(Linear Layer)703。

示例性地，特征编码层701引入自然语言处理领域的Transformer模型，即本申请实施例提供了一种将Transformer模型应用在分子属性预测领域的新方法。在本申请实施例中，获取待测药物分子的三维结构信息、二维结构信息、原子特征和化学键特征，并将上述几种特征进行拼接作为特征编码层701的输入，这种方法大大提升了分子属性的预测准确度。

在一种可能的实现方式中，池化层702可以为平均池化层，线性层703可以包括若干线性层，本申请实施例对此不进行具体限定。

示例性地，将待测药物分子的三维结构坐标、规范化邻接矩阵、原子特征和化学键特征拼接后输入到神经网络模型中，而输入数据经过神经网络模型的特征编码层701后，会得到待测药物分子的原子编码(原子周边键特征已经被神经网络模型编码到该原子编码上)。

本申请实施例提供的方法，在药物研发过程中，本申请实施例提出了一种新的药物分子属性预测方案，该方案在预测药物分子属性时，会获取待测药物分子的三维结构信息、二维结构信息、原子特征和化学键特征，多方面信息的获取能够实现精准地预测药物分子属性，进而能够提高新的候选药物的发现速度和降低研发成本。另外，本申请实施例还引入了自然语言处理领域的Transformer模型，提供了一种将Transformer模型应用在分子属性预测领域的新方法，而得利于Transformer模型强大的表达能力，会使得分子属性的准确度得到进一步地提升。

图8是本申请实施例提供的一种药物分子属性确定方法的流程图。该方法由计算机设备执行，示例性地，该计算机设备可以仅包括终端，还可以包括终端和服务器。针对药物研发过程中的药物分子属性预测问题，本申请实施例提出了一种药物分子属性预测方案，可以高效的预测药物分子的ADMET(Absorption、Distribution、Metabolism、Excretion、Toxicity，吸收、分布、代谢、***和毒性)等性质，帮助药物研发人员筛选与设计药物分子。参见图8，本申请实施例提供的方法流程包括：

801、获取训练数据集，该训练数据集中包括样本分子和与样本分子匹配的属性标签；获取样本分子的三维结构坐标矩阵、规范化邻接矩阵、原子特征和化学键特征；对样本分子的三维结构坐标矩阵、规范化邻接矩阵、原子特征和化学键特征进行特征拼接处理，得到第二拼接矩阵。

该步骤的执行可以参考上述步骤302此处不再赘述。

802、以第二拼接矩阵作为初始神经网络的输入，以与样本分子匹配的属性标签作为初始神经网络的输出，训练初始神经网络。

其中，样本分子的属性标签即为样本分子的成药属性的真实值。

结合上述图7可以看出，在药物分子属性预测方案中，模型训练的前向过程(FeedForward)包括以下几个步骤：

8021、根据样本分子的SMILES表达式，获取样本分子的三维结构坐标矩阵、样本分子中各个原子的特征、样本分子中各个化学键的特征和样本分子的二维结构图的邻接矩阵。

8022、将样本分子的三维结构进行随机旋转和平移变换，实现数据增强；将样本分子的二维结构图的邻接矩阵进行规范化处理；将处理后的三维结构坐标矩阵、二维结构图的邻接矩阵、样本分子中各个原子的特征、样本分子中各个化学键的特征进行特征拼接。

8023、将拼接后的矩阵(在本文中称之为第二拼接矩阵)作为神经网络模型的输入数据，将输入数据输入到神经网络模型中，经过神经网络模型中的特征编码层701和池化层702，获得样本分子的编码向量。

本步骤涉及的神经网络模型即为上述步骤802中涉及的初始神经网络。

8024、将样本分子的编码向量经过线性层703，获得神经网络模型的最终输出，输出值即为样本分子的成药属性的预测值。

803、基于目标损失函数，获取初始神经网络输出的预测属性值与样本分子的属性标签之间的差值；响应于差值大于第二阈值，反复迭代更新初始神经网络的网络参数，直至差值不大于第二阈值，得到分子属性预测网络。

在模型训练过程中，通常使用损失函数来判断模型是否收敛。其中，损失函数可以为交叉熵损失函数，本申请实施例对此不进行具体限定。通常情况下，损失函数用于计算模型输出的预测值与属性标签之间的差异程度。

在基于损失函数确定模型输出的预测值与属性标签匹配时，比如当二者之间的差异程度小于第二阈值时认为二者匹配，结束训练。又或者，还可以在训练迭代次数达到预设次数后，结束训练，本申请实施例对此不进行具体限定。

示例性地，本申请实施例将前向计算过程获得的样本分子的成药属性的预测值与真实值进行比较并获取差值，将该差值作为神经网络模型的损失函数(Loss Function)，并在后向计算(Back Forward)过程中计算每一个网络层的梯度，并使用Adam(AdaptiveMoment Estimation，适应性矩阵估计)算法更新神经网络模型的网络参数。

作为一个示例，本申请实施例在特征编码层701部分使用Transformer模型的Encoder(编码模块)部分，其中，Encoder的结构示意图如图9所示。

即，Encoder包括顺次堆叠设置的N层结构相同的特征编码器，N为正整数。在进行特征编码处理时，本申请实施例包括：将第二拼接矩阵作为输入特征输入Encoder的第一层特征编码器；通过堆叠设置的各层特征编码器依次对输入特征进行编码处理，直至最后一层特征编码器；其中，上一层特征编码器的输入作为下一层特征编码器的输出；将最后一层特征编码器的输出作为Encoder的输出特征。

在另一种可能的实现方式中，还可以将注意力机制结合到自然语言处理任务中，结合了注意力机制的网络模型在训练过程中高度关注特定目标的特征信息，并且能有效针对不同的目标调整网络参数，挖掘更多的隐藏特征信息。

注意力(Attention)机制是指源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也即注意力焦点，而后对这一区域投入更多注意力资源，以获取更多需要关注的目标的细节信息，而抑制其他无用信息。

综上，注意力机制主要有两个方面：一是决定需要关注输入的哪部分；二是分配有限的信息处理资源给重要的部分。其中，深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务更关键的信息。

作为一个示例，上述各层特征编码器中均包括多头注意力层和前馈神经网络层；即，特征编码器使用了多头注意力机制。相应地，通过堆叠设置的各层特征编码器依次对输入特征进行编码处理，包括：

8031、对于第j层特征编码器中包含的多头注意力层的第i个头结构，获取第i个头结构对应的第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵；其中，i和j的取值均为正整数，1≤j≤N。

在本文中，第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵，可以分别以符号W_i ^Q、W_i ^K和W_i ^V指代。

8032、分别根据第一变换矩阵、第二变换矩阵和第三变换矩阵，对第i个头结构的输入特征进行线性变换处理，依次得到第i个头结构的查询序列、键序列和值序列；根据第i个头结构的查询序列、键序列和值序列，获取第i个头结构的输出特征。

首先，将第i个头结构的输入特征分别与W_i ^Q、W_i ^K和W_i ^V进行矩阵相乘运算，依次得到第i个头结构的查询序列Q_i、键序列K_i和值序列V_i。

之后，基于第i个头结构的查询序列Q_i、键序列K_i和值序列V_i，计算第i个头结构的输出特征Zi。

其中，

d_k指代键序列K_i的维度。

8033、将各个头结构的输出特征进行特征拼接处理，得到组合特征。

其中，可以通过concat()方法进行特征拼接处理，得到组合特征Z。

以计算公式来表达即为：组合特征Z＝Concat(head₁,...,headm)W^O；其中，m的取值为头结构的数量。

8034、基于第四线性变换矩阵对组合特征进行线性变换处理，得到多头注意力层的输出特征。

在本文中第四线性变换矩阵可以符号W^O指代，其中，W_i ^Q、W_i ^K和W_i ^V和W^O可以随机初始化并通过训练得到，本申请实施例对此不进行具体限定。

8035、将多头注意力层的输出特征输入前馈神经网络层，将前馈神经网络层的输出作为第j+1层特征编码器的输入特征。

示例性地，前馈神经网络可以对该输出特征进行两次线性变换和一次非线性变换，本申请实施例对此不进行具体限定。

804、获取待测药物分子的文本字符串；其中，该文本字符串用于描述待测药物分子的化学结构式。

本步骤的执行可以参考前述步骤301。

805、根据待测药物分子的文本字符串，获取待测药物分子的三维结构坐标矩阵、规范化邻接矩阵、原子特征和化学键特征；将待测药物分子的三维结构坐标矩阵、规范化邻接矩阵、原子特征和化学键特征进行特征拼接处理，得到第一拼接矩阵。

本步骤的执行可以参考前述步骤302。

806、将待测药物分子的第一拼接矩阵输入训练好的分子属性预测网络，获取该分子属性预测网络输出的预测属性值；其中，输出的预测属性值用于指示待测药物分子的成药属性。

本步骤的执行可以参考前述步骤303。

本申请实施例提供的方法至少具有以下有益效果：

本申请实施例提出了基于分子三维结构信息的数据增强方法，提高了分子属性预测的准确度；另外，引入了自然语言处理领域的Transformer模型，即提供了一种将Transformer模型应用在分子属性预测领域的新方法。换言之，在本技术方案中，一方面引入了分子的三维结构信息，提出了基于分子三维结构信息的数据增强方法，提高了分子属性预测的准确度。另一方面，引入了自然语言处理领域的Transformer模型，提供了一种将Transformer模型应用在分子属性预测领域的新方法，而得利于Transformer模型强大的表达能力，会使得分子属性的准确度得到进一步地提升。

综上所述，获取待测药物的三维结构信息、二维结构信息、原子特征和键特征，并将其拼接作为Transformer模型的输入数据，这种方法大大提升了药物分子属性的预测准确度。

示例性地，将本申请实施例提供的药物分子属性预测方案与相关技术提供的药物分子属性预测方案在标准数据集MoleculeNet上进行实验对比，得到的实验结果如图10和图11所示。

其中，ROC(Receiver Operating Characteristic，受试者工作特征曲线)-AUC(Area Under the Curve，ROC曲线下与坐标轴围成的面积)的数值越大越好，RMSE(RootMean Square Error，均方根误差)数值越小越好。

图10展示了不同预测方案在分类(Classification)数据集上的实验结果，其中，数据集采用Scaffold方法切分，3种不同的算法分别是RF on Morgan(基于Morgan分子指纹的随机森林算法)、D-MPNN(图神经网络)和本申请实施例提供的预测方案，可以看出在两个分类数据集上，本申请实施例提供的预测方案的实验结果优于其他预测方案。图11展示了3种算法在回归(Regression)数据集上的实验结果，同样的，可以明显看出本申请实施例提供的预测方案在三个回归数据集上的实验效果也优于其他预测方案。

需要说明的是，本申请实施例是将基于药物分子的三维结构信息的数据增强方法运用在了Transformer模型上，在实际实施过程中，还可以将Transformer模型替换为其他的神经网络模型(例如图神经网络)。另外，除了使用平均池化层作为原子信息聚合器(Aggregator)之外，在实际实施过程中，也可以将平均池化层替换为最大值池化层(MaxPooling)或Set2Set等聚合器，本申请实施例对此不进行具体限定。

图12是本申请实施例提供的一种药物分子属性确定装置的结构示意图。参见图12，包括：

第一获取模块1201，被配置为获取待测药物分子的文本字符串；其中，所述文本字符串用于描述所述待测药物分子的化学结构式；

第二获取模块1202，被配置为根据所述文本字符串，获取所述待测药物分子的三维结构信息；

预测模块1203，被配置为根据所述三维结构信息，确定所述待测药物分子的成药属性。

本申请实施例提供的装置，在药物研发过程中，本申请实施例提出了一种新的药物分子属性预测方案，该方案在预测药物分子属性时，会获取待测药物分子的三维结构信息，其中，药物分子的三维结构信息给出了药物分子中各个原子在立体空间的位置分布，而药物分子的空间结构能够影响药物分子性质，因此基于药物分子的三维结构信息能够精准地预测药物分子属性，进而能够提高新的候选药物的发现速度和降低研发成本。

在一种可能的实现方式中，所述第二获取模块，包括：

在一种可能的实现方式中，所述第二获取模块，还包括：

第二处理单元，被配置为对所述二维结构图的邻接矩阵进行规范化处理，得到规范化邻接矩阵。

在一种可能的实现方式中，所述预测模块，被配置为：

将所述三维结构坐标矩阵、所述规范化邻接矩阵、所述原子特征和所述化学键特征进行特征拼接处理，得到第一拼接矩阵；

将所述第一拼接矩阵输入分子属性预测网络，获取所述分子属性预测网络输出的预测属性值；所述预测属性值用于指示所述待测药物分子的成药属性。

在一种可能的实现方式中，所述第一获取单元，被配置为：

根据所述待测药物分子的化学结构式，确定具有不同构型的M种三维结构；其中，具有不同构型的两个三维结构之间的均方根误差大于第一阈值；

在目标分子力场下对所述M种三维结构进行能量最小化处理；

在所述M种三维结构中确定能量最小的目标三维结构；

在一种可能的实现方式中，所述第一处理单元，被配置为：

获取随机旋转矩阵和平移变换矩阵；

在一种可能的实现方式中，所述第二处理单元，被配置为：

所述分子属性预测网络的训练过程包括：

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的药物分子属性确定装置在基于人工智能技术预测药物分子属性时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的药物分子属性确定装置与药物分子属性确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图13示出了本申请一个示例性实施例提供的计算机设备1300的结构框图。通常，计算机设备1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1301所执行以实现本申请中方法实施例提供的药物分子属性确定方法。

在一些实施例中，计算机设备1300还可选包括有：***设备接口1303和至少一个***设备。处理器1301、存储器1302和***设备接口1303之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1303相连。具体地，***设备包括：显示屏1304和电源1305。

***设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和***设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和***设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

显示屏1304用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1304是触摸显示屏时，显示屏1304还具有采集在显示屏1304的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1304还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1304可以为一个，设置在计算机设备1300的前面板；在另一些实施例中，显示屏1304可以为至少两个，分别设置在计算机设备1300的不同表面或呈折叠设计；在另一些实施例中，显示屏1304可以是柔性显示屏，设置在计算机设备1300的弯曲表面上或折叠面上。甚至，显示屏1304还可以设置成非矩形的不规则图形，也即异形屏。显示屏1304可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。

电源1305用于为计算机设备1300中的各个组件进行供电。电源1305可以是交流电、直流电、一次性电池或可充电电池。当电源1305包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图13中示出的结构并不构成对计算机设备1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由终端中的处理器执行以完成上述实施例中的药物分子属性确定方法。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述的药物分子属性确定方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种药物分子属性确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述文本字符串，获取所述待测药物分子的二维结构信息；

根据所述文本字符串，获取所述待测药物分子的原子特征和化学键特征；

所述根据所述三维结构信息，确定所述待测药物分子的成药属性，包括：

根据所述三维结构信息、所述二维结构信息、所述原子特征和所述化学键特征，确定所述待测药物分子的成药属性。

3.根据权利要求1所述的方法，其特征在于，所述根据所述文本字符串，获取所述待测药物分子的三维结构信息，包括：

根据所述文本字符串，获取所述待测药物分子的三维结构坐标；

在所述待测药物分子的三维结构形状保持不变的前提下，对所述待测药物分子当前的三维结构坐标进行变换处理，将得到的三维结构坐标矩阵作为所述三维结构信息。

4.根据权利要求2所述的方法，其特征在于，所述根据所述文本字符串，获取所述待测药物分子的二维结构信息，包括：

根据所述文本字符串，获取所述待测药物分子的二维结构图的邻接矩阵；

对所述二维结构图的邻接矩阵进行规范化处理，将得到的规范化邻接矩阵作为所述二维结构信息。

5.根据权利要求2所述的方法，其特征在于，所述根据所述三维结构信息、所述二维结构信息、所述原子特征和所述化学键特征，确定所述待测药物分子的成药属性，包括：

将所述第一拼接矩阵输入分子属性预测网络；

6.根据权利要求3所述的方法，其特征在于，所述根据所述文本字符串，获取所述待测药物分子的三维结构坐标，包括：

在目标分子力场下对所述M种三维结构进行能量最小化处理；

在所述M种三维结构中确定能量最小的目标三维结构；

7.根据权利要求3所述的方法，其特征在于，所述在所述待测药物分子的三维结构形状保持不变的前提下，对所述待测药物分子当前的三维结构坐标进行变换处理，得到所述待测药物分子的三维结构坐标矩阵，包括：

获取随机旋转矩阵和平移变换矩阵；

8.根据权利要求4所述的方法，其特征在于，所述对所述二维结构图的邻接矩阵进行规范化处理，得到规范化邻接矩阵，包括：

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

10.根据权利要求5或9所述的方法，其特征在于，所述分子属性预测网络包括特征编码层、池化层和线性层；

所述将所述第一拼接矩阵输入分子属性预测网络，获取所述分子属性预测网络输出的预测属性值，包括：

11.根据权利要求10所述的方法，其特征在于，所述特征编码层包括顺次堆叠设置的N层结构相同的特征编码器，N为正整数；所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，所述各层特征编码器中均包括多头注意力层和前馈神经网络层；

所述通过堆叠设置的各层特征编码器依次对所述输入特征进行编码处理，包括：

13.一种药物分子属性确定装置，其特征在于，包括：

14.一种计算机设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至12中任一项权利要求所述的药物分子属性确定方法。

15.一种存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至12中任一项权利要求所述的药物分子属性确定方法。