CN112086144A

CN112086144A - 分子生成方法、装置、电子设备及存储介质

Info

Publication number: CN112086144A
Application number: CN202010884581.5A
Authority: CN
Inventors: 郑奕嘉; 吴红艳; 蔡云鹏; 纪超杰
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-15

Abstract

本申请适用于计算机技术领域，提供了分子生成方法、装置、电子设备及存储介质，分子生成方法包括：获取源分子数据，在d个时刻中，在每一个时刻分别将源分子数据和采样向量输入预设的分子生成模型中，输出与源分子数据对应的第一分子数据，其中，第r个时刻输入的采样向量是根据第r‑1个时刻输出的第一分子数据确定的，d≥r＞1，r和d为整数，从而可以生成更优的采样向量，再根据更优的采样向量生成第一分子数据，可以得到性能更好的分子。

Description

分子生成方法、装置、电子设备及存储介质

技术领域

本申请属于计算机技术领域，尤其涉及分子生成方法、装置、电子设备及存储介质。

背景技术

计算机辅助药物分子设计是一个新兴的结合了计算机、人工智能、药学、生物学的交叉领域，其中基于计算机的分子结构生成是一个重要的研究方向。现有的分子生成方法一般是先训练一个分子生成模型，将源分子数据输入训练好的分子生成模型，从而生成新的分子。为了提高生成分子的多样性，一般是将源分子数据和采样向量输入分子生成模型，生成新的分子，而采样向量一般是基于标准高斯分布进行多次采样得到的，因此，采样向量存在较大的随机性，会导致不能得到最优的采样向量，而根据随机性较大的采样向量生成分子时，会导致生成的分子的性能不满足要求。

发明内容

有鉴于此，本申请实施例提供了分子生成方法、装置、电子设备及存储介质，可以提高生成的分子的性能。

本申请实施例的第一方面提供了一种分子生成方法，包括：

获取源分子数据；

在d个时刻中，在每一个时刻分别将所述源分子数据和采样向量输入预设的分子生成模型中，输出与所述源分子数据对应的第一分子数据，其中，第r个时刻输入的所述采样向量是根据第r-1个时刻输出的所述第一分子数据确定的，d≥r＞1，r和d为整数。

在第一方面的一种可能的实现方式中，根据第r-1个时刻输出的所述第一分子数据确定第r个时刻输入的所述采样向量的方法为：

将第r-1个时刻输出的所述第一分子数据输入预设的RNN模型中，得到第r个时刻对应的观测状态；

将所述第r个时刻对应的观测状态输入预设的智能体中，得到第r个时刻输入所述分子生成模型的所述采样向量。

在第一方面的一种可能的实现方式中，第1个时刻输入的所述采样向量是根据所述源分子数据确定的，其中，所述第1个时刻输入的所述采样向量的确定方法为：

将所述源分子数据输入所述RNN模型中，得到第1个时刻对应的观测状态；

将所述第1个时刻对应的观测状态输入所述智能体中，得到第1个时刻输入所述分子生成模型的所述采样向量。

在第一方面的一种可能的实现方式中，在所述将所述第r-1个时刻对应的观测状态输入预设的智能体中之前，所述方法还包括：

根据所述源分子数据和所述分子生成模型训练所述智能体。

在第一方面的一种可能的实现方式中，所述根据所述源分子数据和所述分子生成模型训练所述智能体，包括：

在d个时刻中，在每一个时刻根据输入分子数据和初始的智能体确定隐向量；

将所述源分子数据和所述隐向量分别输入所述分子生成模型中，输出与所述源分子数据对应的第二分子数据，其中，第r个时刻的输入分子数据是根据第r-1个时刻输出的所述第二分子数据确定的，第1个时刻的输入分子数据是所述源分子数据；

根据所述第二分子数据优化所述初始的智能体，得到用于输入所述观测状态的智能体。

在第一方面的一种可能的实现方式中，所述根据所述第二分子数据优化所述初始的智能体，包括：

根据所述第二分子数据的属性值、相似性以及差异性确定奖励值；

根据所述奖励值优化所述初始的智能体。

在第一方面的一种可能的实现方式中，在所述将所述源分子数据和采样向量输入预设的分子生成模型中之前，所述方法还包括：

获取与所述源分子数据对应的目标分子数据，其中，所述源分子数据和所述目标分子数据组成分子对数据集；

根据所述分子对数据集以及预设的随机向量训练所述分子生成模型。

本申请实施例的第二方面提供了一种分子生成装置，包括：

获取模块，用于获取源分子数据；

计算模块，用于在d个时刻中，在每一个时刻分别将所述源分子数据和采样向量输入预设的分子生成模型中，输出与所述源分子数据对应的第一分子数据，其中，第r个时刻输入的所述采样向量是根据第r-1个时刻输出的所述第一分子数据确定的，d≥r＞1，r和d为整数。

在第二方面的一种可能的实现方式中，所述计算模块还用于：

在第二方面的一种可能的实现方式中，第1个时刻输入的所述采样向量是根据所述源分子数据确定的，所述计算模块还用于：

在第二方面的一种可能的实现方式中，所述分子生成装置还包括训练模块，所述训练模块用于：

根据所述源分子数据和所述分子生成模型训练所述智能体。

在第二方面的一种可能的实现方式中，所述训练模块具体用于：

在第二方面的一种可能的实现方式中，所述训练模块具体还用于：

根据所述奖励值优化所述初始的智能体。

在第二方面的一种可能的实现方式中，所述训练模块还用于：

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的方法。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面所述的方法。

本申请实施例与现有技术相比存在的有益效果是：通过获取源分子数据，在d个时刻中，在每一个时刻分别将源分子数据和采样向量输入预设的分子生成模型中，输出与源分子数据对应的第一分子数据，其中，第r个时刻输入的采样向量是根据第r-1个时刻输出的第一分子数据确定的，d≥r＞1，相对于将随机向量输入分子生成模型中，根据第r-1个时刻输出的第一分子数据确定第r个时刻的采样向量，可以生成更优的采样向量，再根据更优的采样向量生成第一分子数据，可以得到性能更好的分子。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的分子生成方法的实现流程示意图；

图2是本申请实施例提供的分子生成方法的时序图；

图3是本申请实施例提供的智能体的训练方法的流程示意图；

图4是本申请实施例提供的智能体的训练过程示意图；

图5是本申请实施例提供的智能体的训练时序图；

图6是本申请实施例提供的分子生成装置的示意图；

图7是本申请实施例提供的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

现有的分子生成方法，一般是将源分子和采样向量输入分子生成模型，生成新的分子，而采样向量一般是基于标准高斯分布进行多次采样得到的，因此，采样向量存在较大的随机性，会导致不能得到最优的采样向量，而根据随机性较大的采样向量生成分子时，会导致生成的分子的性能不满足要求。为此，本申请提供一种分子生成方法，输入分子生成模型的采样向量中，第r个时刻输入分子生成模型的采样向量是根据第r-1个时刻输出的第一分子数据确定的，即根据上一时刻输出的新分子确定当前时刻的采样向量，从而将当前时刻的采样向量与输出的新分子的特性进行关联，从而可以生成更优的采样向量，再根据更优的采样向量生成第一分子数据，可以得到性能更好的分子。

下面结合具体实施例对本申请提供的分子生成方法进行示例性的描述。

本申请实施例提供的分子生成方法应用于电子设备，电子设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。

请参阅附图1，本申请实施例提供的分子生成方法包括：

S101：获取源分子数据。

其中，源分子数据是从分子化合物数据库中下载的现有分子数据。

S102：在d个时刻中，在每一个时刻分别将所述源分子数据和采样向量输入预设的分子生成模型中，输出与所述源分子数据对应的第一分子数据，其中，第r个时刻输入的所述采样向量是根据第r-1个时刻输出的所述第一分子数据确定的，d≥r＞1，r和d为整数。

具体地，首先获取第1个时刻的采样向量，第1个时刻的采样向量可以由源分子数据确定，也可以是随机向量。将源分子数据和第1个时刻的采样向量分别输入分子生成模型，获得第1个时刻对应的第一分子数据。再根据第1个时刻的第一分子数据确定第2个时刻的采样向量，将源分子数据和第2个时刻的采样向量分别输入分子生成模型，获得第2个时刻对应的第一分子数据，依次类推，直到输出预设时刻对应的第一分子数据。

上述实施例中，相对于将随机向量输入分子生成模型中，根据第r-1个时刻输出的第一分子数据确定第r个时刻的采样向量，可以生成更优的采样向量，再根据更优的采样向量生成第一分子数据，可以得到性能更好的分子。

在一种可能的实现方式中，根据循环神经网络(Recurrent Neural Network，RNN)和智能体确定各时刻的采样向量，再将源分子数据和采样向量分别输入分子生成模型。具体地，如图2所示，将源分子数据X输入RNN模型中，得到第1个时刻对应的观测状态s₁，将第1个时刻对应的观测状态s₁输入智能体中，得到第1个时刻输入分子生成模型的所述采样向量z₁，将源分子数据和采样向量z₁分别输入分子生成模型，得到第1个时刻的第一分子数据Y₁。再将第1个时刻的第一分子数据Y₁输入RNN模型中，得到第2个时刻对应的观测状态s₂，将第2个时刻对应的观测状态s₂输入智能体中，得到第2个时刻输入分子生成模型的所述采样向量z₂，将源分子数据和采样向量z₂输入分子生成模型，得到第2个时刻的第一分子数据Y₂，依次类推，将第r-1个时刻输出的第一分子数据Y_r-1输入RNN模型中，得到第r个时刻对应的观测状态s_r,将第r个时刻对应的观测状态s_r输入预设的智能体中，得到第r个时刻输入分子生成模型的采样向量z_r，将源分子数据和第r个时刻输入分子生成模型的采样向量z_r输入分子生成模型，得到第r个时刻的第一分子数据Y_r。其中，RNN和智能体是采用机器学习的算法训练得到，根据RNN、智能体以及根据第r-1个时刻输出的第一分子数据确定第r个时刻输入分子生成模型的所述采样向量，可以生成更优的采样向量。

在一种可能的实现方式中，智能体是根据源分子数据和分子生成模型对初始的智能体训练后得到的，其中的分子生成模型可以是预先训练好的，也可以是由源分子数据和目标分子数据组成的分子对数据集训练后得到的。

下面以首先训练分子生成模型，再训练智能体为例，对本申请实施例提供的智能体的训练过程进行介绍。

如图3所示，本申请实施例提供的智能体的训练过程包括：

1.获取数据。具体地，从分子化合物数据库(例如ZINC数据库)下载分子数据，下载的分子数据用简化分子线性输入规范(Simplified molecular input line entryspecification，SMILES)字符串表示。

2.构建分子对数据集。具体地，如图4所示，根据预设的相似度阈值和预设的属性阈值，对下载的分子数据进行配对和筛选，形成多个分子对数据集。其中，分子对数据集包括两个分子数据，即源分子数据X和目标分子数据Y，源分子数据和目标分子数据的相似度大于预设的相似度阈值，源分子数据的属性值小于预设的属性阈值，目标分子数据的属性值大于预设的属性阈值。其中，可以先采用RDKit工具包来计算源分子数据和目标分子数据对应的化学指纹(例如fingerprint)向量的Tanimoto距离，再根据Tanimoto距离确定源分子数据和目标分子数据的相似度。可以采用RDKit工具包中相关的属性计算工具来计算源分子数据和目标分子数据的属性值，例如，可以通过计算分子脂水分配系数的对数值来确定源分子数据和目标分子数据的属性值。

3.构建分子图结构表示。具体地，利用RDKit工具包对源分子数据和目标分子数据对应的SMILES字符串进行解析，得到每个分子数据的原子数据和化合键数据，将原子数据作为结点、化合键数据作为连接两个结点的边，根据各结点和边得到与每个分子数据对应的分子图结构表示。其中，分子图结构表示中，结点的特征可以用原子数据的类型的独热编码向量表示，边的特征可以用化合键数据的类型的独热编码向量表示。根据结点的特征和边的特征即可得到与分子图结构对应的集合

其中

代表结点集合，ε_G代表边集合，结点集合中的每个结点用x_i表示，边集合中的每条边用x_(i,j)表示，i和j均表示结点的标识，(i，j)表示连接结点i和节点j的边的标识。

4.预训练分子生成模型。具体地，分子生成模型包括编码器和解码器，编码器用于根据分子数据得到对应的隐层表示向量，解码器用于根据隐层表示向量表示确定新分子的分子图结构表示。

具体地，将构建的源分子数据的分子图结构表示输入编码器，编码器首先根据分子图结构表示中各条边的两个结点将每条边表示为(i→j)和(j→i)两条与方向相关的边，即有向边，然后采用图神经网络的计算方法更新每条有向边的隐层表示向量，具体为采用公式

更新每条有向边的隐层表示向量，其中，

为第t次更新的有向边(i→j)的隐层表示向量，

为第t-1次更新的有向边(k→i)的隐层表示向量，f₁(·)表示第一多层感知机网络，t∈[1，T]。

在有向边的隐层表示向量更新T轮后，编码器根据公式

更新每个结点的隐层表示向量，其中，h_i表示结点i对应的隐层表示向量，

表示第T轮更新后的有向边(k→i)的隐层表示向量，f₂(·)表示第二多层感知机网络，从而得到所有结点的隐层表示向量的几何H＝(h₁,h₂,...,h_n)，即源分子的表示向量，其中，n表示结点个数。

在得到源分子的表示向量后，引入预设的随机向量z，将随机向量z与源分子的表示向量拼接，得到拼接后的分子表示向量H'。由于附加随机向量，使得分子生成过程具有更多的随机性，从而能够建模一对多的分子生成过程。

其中，随机向量z可以是根据分子对估计变分后验分布来采样得到的，具体为通过最大化目标函数

得到的。

其中，Q(z|X,Y)表示变分后验分布，P(x)表示概率计算，λ_KL和D_KL表示常数。

本申请实施例中，将待解码出的新分子的环和边看作一个结点，这样新分子就可以表示成由结点相连的树状结构，即联结树。因此，解码器解码新分子的过程即为解码联结树的过程。

对于联结树中的每一个结点，首先计算结点和边的特征向量。在一种可能的实现方式中，首先通过门控循环神经网络(GRU)将边特征与当前结点特征进行汇聚，以更新当前边的特征向量。具体地，采用公式

更新当前边的特征向量，其中，

表示当前结点的特征向量，

表示与当前结点相连的边的特征向量，

表示当前边的特征向量。

在得到当前边的特征向量后，再将与当前结点相连的边的信息进行汇聚得到当前结点的特征向量，具体地，采用公式

更新当前结点的特征向量，其中，h_t表示当前结点的特征向量，τ(·)表示线性整流函数。

在得到当前结点的特征向量后，采用拓扑预测方法确定当前结点是否继续往下扩展新的子结点，其中，拓扑预测的公式为

其中，

σ(·)表示Sigmoid函数。attention(·)表示神经网络注意力层，f₃(·)表示第三多层感知机网络，p_t表示预测概率。

计算得到拓扑预测的预测概率后，根据预设概率，例如0.5，确定是否继续往下扩展，若预测概率小于预设概率，则不往下扩展，若不往下扩展，则退回当前结点的父结点，直到退到根结点并且不再扩展为止。若预测概率大于预设概率，则确定继续往下扩展。若继续往下扩展，根据标签预测方法确定出待扩展的子结构。其中，标签预测的公式为

其中，

f₄(·)表示第四多层感知机网络，q_t表示预测概率。计算出标签预测的预测概率后，选取预测概率最大的子结构作为当前树节点对应的结构，其中，子结构即为联结树的结点，是由环和边组成。

在预测出各子结构后，再预测各子结构之间的连接方式，即可得到新分子的分子图结构。具体地，首先利用编码器的消息传递网络得到不同连接方式下的子图的表示向量

再根据不同连接方式下的子图的表示向量计算不同连接方式下的评分函数值

根据评分函数值确定新分子的分子图结构。

具体地，通过最大化目标函数

确定新分子的分子图结构，其中，f₅(·)表示第五多层感知机网络，

代表正确的连接方式对应的分子图结构，

代表每一种可能的连接方式对应的分子图结构，正确的连接方式对应的分子图结构即为最终输出的新分子的分子图结构。

得到新分子的分子图结构后，根据对应的新分子数据的多样性、属性值以及与源分子数据的差异优化编码器和解码器的参数，根据优化后的编码器和解码器的参数即可确定出分子生成模型。

5.训练智能体。具体地，如图4所示，在得到分子生成模型后，根据初始的智能体确定对应的隐向量z_r，将隐向量以及源分子数据输入分子生成模型中。分子生成模型的编码器根据源分子数据确定源分子的表示向量H，将隐向量与源分子的表示向量H进行拼接，得到拼接后的分子表示向量H'，分子生成模型的解码器根据拼接后的分子表示向量H'确定出第二分子数据，第二分子数据即为生成的新分子。得到第二分子数据后，根据第二分子数据对初始的智能体进行训练，得到智能体。其中，训练智能体的过程包括：在d时刻，根据输入分子数据和初始的智能体确定隐向量；再将源分子数据和隐向量输入分子生成模型中，获得分子生成模型输出的与源分子数据对应的第二分子数据，其中，第r个时刻的输入分子数据是根据第r-1个时刻输出的第二分子数据确定的，第1个时刻的输入分子数据是源分子数据；最后根据第二分子数据优化初始的智能体，得到智能体。

具体地，如图5所示，在第1个时刻，采用编码器对源分子数据进行编码，得到源分子的表示向量，将源分子的表示向量输入RNN模型，得到第1个时刻对应的观测状态s₁，将第1个时刻对应的观测状态s₁输入初始的智能体中，得到第1个时刻输入分子生成模型的隐向量z₁，将源分子数据和隐向量z₁输入分子生成模型，得到第1个时刻的第二分子数据Y₁。再将第1个时刻的第二分子数据Y₁的表示向量输入RNN模型中，得到第2个时刻对应的观测状态s₂，将第2个时刻对应的观测状态s₂输入初始的智能体中，得到第2个时刻输入分子生成模型的隐向量z₂，将源分子数据和隐向量z₂输入分子生成模型，得到第2个时刻的第二分子数据Y₂，依次类推，将第r-1个时刻输出的第二分子数据Y_r-1的表示向量输入RNN模型中，得到第r个时刻对应的观测状态s_r,将源分子数据和第r个时刻对应的观测状态s_r输入智能体中，得到第r个时刻输入分子生成模型的隐向量z_r，将源分子数据和第r个时刻输入分子生成模型的采样向量z_r输入分子生成模型，得到第r个时刻的第二分子数据Y_r。

在一种可能的实现方式中，在每个时刻，除了优化初始的智能体之外，还根据输入RNN模型的分子数据以及生成的第二分子数据优化RNN模型。具体地，在第1个时刻，采用公式s₁,h₁＝RNN(H,h_init)计算第1个时刻对应的观测状态s₁以及RNN模型的参数h₁，根据RNN模型的参数即可确定第1个时刻优化后的RNN模型，其中，h_init为循环神经网络的初始状态，默认为全0向量，RNN(·)代表循环神经网络，H表示第1个时刻输入RNN模型的源分子数据。在之后的每个时刻，当得到第二分子数据后，再根据公式s_r,h_r＝RNN(H_r-1,h_r-1)确定第r个时刻对应的观测状态s_r以及RNN模型的参数h_r，其中，H_r-1为第r-1个时刻输出的第二分子数据的表示向量，h_r-1表示第r-1个时刻输出的RNN模型的参数，根据最终输出的RNN模型的参数确定优化后的RNN模型。

在一种可能的实现方式中，智能体的公式表示为z_r＝f₆(s_r)，即根据该公式计算第r个时刻输入分子生成模型的隐向量z_r，其中，f₆(·)表示第六多层感知机网络。

在得到第二分子数据后，计算第二分子数据的属性值、第二分子数据与源分子数据的相似性、第二分子数据与其他已生成分子的差异性，三个部分的和作为奖励值。其中，属性值可以根据第二分子的性质，比如分子脂水分配系数的对数值等计算得到，相似性可以用第二分子数据与源分子数据对应的fingerprint向量的Tanimoto距离确定，差异性则可以通过1减去分子之间的相似性得到。计算出奖励值后，可以通过策略梯度优化方法如信赖域策略优化方法(TRPO)，对初始的智能体进行训练，以优化初始的智能体，得到最终的智能体。

本申请实施例中，训练智能体的过程为强化学习的方法，强化学习需要有几个基本要素：状态(State)、动作(Action)、奖励(Reward)、状态转移。上述实施例中，智能体将训练好的分子生成模型作为交互环境，每次根据源分子和当前已经生成的新分子的信息(状态)，确定下一步的隐向量(动作)，然后分子生成模型根据该隐藏向量生成新分子并更新智能体当前状态(状态转移)，同时根据新分子的属性值和已经生成分子的多样性作为奖励值(奖励)。

6.模型效果评估。具体地，在得到分子生成模型和智能体后，对智能体的效果进行评估。其中，评估指标包括分子生成模型输出的第二分子数据在预设属性阈值和预设相似性阈值下的成功率，以及生成的所有新分子的多样性。若评估指标满足预设需求，则智能体训练完成。

其中，成功率的计算方法为：设定相似度阈值δ₁和属性阈值δ₂。对于每个第二分子数据，计算该分子的属性值P_i，以及源分子X和该分子的相似度sim(X,Y_i)，如果P_i≥δ₁且sim(X,Y_i)≥δ₂，则该分子为成功分子。成功分子数量除以生成的所有分子的数量即得到成功率。

多样性的计算方法为：确定每个第二分子数据与所有生成的新分子的差异性的最小值，将该最小值作为该分子多样性的度量，将所有生成分子多样性的平均值作为整体多样性的度量。

下面结合具体应用，对本申请实施例提供的智能体的训练过程进行描述。

首先从ZINC数据库中下载SMILES序列，即分子数据，设定相似度阈值δ₁＝0.4，属性阈值δ₂＝0.9，然后对所有分子数据进行遍历筛选，挑选出所有满足条件的分子对数据集，使得源分子数据和目标分子数据之间的相似度大于0.4，源分子数据的属性值小于0.9，目标分子数据的属性值大于0.9。其中，属性值和相似度通过RDKit工具包计算。

得到分子对数据集后，将一部分分子对数据集作为训练集，一部分分子对数据集作为测试集。首先使用测试集对智能体进行训练，对于测试集，使用RDKit工具包对分子数据进行解析，得到分子的原子数据和化合键数据，将每个原子作为结点，化合键作为边来构建分子图结构表示，同时根据每个原子的类型的独热编码向量确定所有结点的特征，根据每个化合键的化合价的独热编码向量得到所有边的特征。

得到分子图结构表示后，将源分子的图结构作为分子生成模型的输入，目标分子的图结构作为分子生成模型的目标，进行监督训练，得到训练好的分子生成模型。该模型能够输入一个源分子和随机向量后生成一个新的目标分子。

训练好分子生成模型后，确定源分子的表示向量，将源分子的表示向量输入RNN模型，得到观测状态，将观测状态作为多层感知机的输入，得到的隐向量，将隐向量和源分子一起输入分子生成模型，生成新分子数据。接着将新分子数据作为循环神经网络的输入，不断重复前面的过程，就可以生成多个新的分子。生成新分子后，计算新分子的属性值、新分子与源分子数据的相似性、新分子与其他已生成分子的差异性，对三者求和，得到奖励值。计算出奖励值后，通过信赖域策略优化方法对初始的智能体进行训练，以优化初始的智能体，得到最终的智能体。

训练智能体后，将测试集中的分子数据作为源分子数据，根据RNN模型计算各时刻对应的观测状态，再根据观测状态和智能体得到隐向量，将该隐向量输入分子生成模型，得到20个新分子。再计算20个新分子的成功率和多样性，计算成功率的方法为：将与源分子的相似度大于0.4，属性值大于0.9的新分子作为成功分子，成功分子的数量与生成的所有新分子数量的比值即为成功率。多样性是根据生成的所有新分子的平均差异性确定的。根据成功率和多样性，即可判定训练得到的智能体的效果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图6示出了本申请实施例提供的分子生成装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

如图6所示，本申请实施例提供的分子生成装置包括，

获取模块10，用于获取源分子数据；

计算模块20，用于在d个时刻中，在每一个时刻分别将所述源分子数据和采样向量输入预设的分子生成模型中，输出与所述源分子数据对应的第一分子数据，其中，第r个时刻输入的所述采样向量是根据第r-1个时刻输出的所述第一分子数据确定的，d≥r＞1，r和d为整数。

在一种可能的实现方式中，所述计算模块20还用于：

在一种可能的实现方式中，第1个时刻输入的所述采样向量是根据所述源分子数据确定的，所述计算模块20还用于：

在一种可能的实现方式中，所述分子生成装置还包括训练模块，所述训练模块用于：

根据所述源分子数据和所述分子生成模型训练所述智能体。

在一种可能的实现方式中，所述训练模块具体用于：

在一种可能的实现方式中，所述训练模块具体还用于：

根据所述奖励值优化所述初始的智能体。

在一种可能的实现方式中，所述训练模块还用于：

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图7是本申请实施例提供的电子设备的示意图。如图7所示，该实施例的电子设备包括：处理器11、存储器12以及存储在所述存储器12中并可在所述处理器11上运行的计算机程序13。所述处理器11执行所述计算机程序13时实现上述分子生成方法实施例中的步骤，例如图1所示的步骤S101至S102。或者，所述处理器11执行所述计算机程序13时实现上述各装置实施例中各模块/单元的功能，例如图6所示模块10至20的功能。

示例性的，所述计算机程序13可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器11执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序13在所述电子设备中的执行过程。

本领域技术人员可以理解，图7仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器11可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器12可以是所述电子设备的内部存储单元，例如电子设备的硬盘或内存。所述存储器12也可以是所述电子设备的外部存储设备，例如所述电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器12还可以既包括所述电子设备的内部存储单元也包括外部存储设备。所述存储器12用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器12还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

在本申请所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种分子生成方法，其特征在于，包括：

获取源分子数据；

2.根据权利要求1所述的分子生成方法，其特征在于，根据第r-1个时刻输出的所述第一分子数据确定第r个时刻输入的所述采样向量的方法为：

3.根据权利要求2所述的分子生成方法，其特征在于，第1个时刻输入的所述采样向量是根据所述源分子数据确定的，其中，所述第1个时刻输入的所述采样向量的确定方法为：

4.根据权利要求2所述的分子生成方法，其特征在于，在所述将所述第r-1个时刻对应的观测状态输入预设的智能体中之前，所述方法还包括：

根据所述源分子数据和所述分子生成模型训练所述智能体。

5.根据权利要求4所述的分子生成方法，其特征在于，所述根据所述源分子数据和所述分子生成模型训练所述智能体，包括：

6.根据权利要求5所述的分子生成方法，其特征在于，所述根据所述第二分子数据优化所述初始的智能体，包括：

根据所述奖励值优化所述初始的智能体。

7.根据权利要求1所述的分子生成方法，其特征在于，在所述将所述源分子数据和采样向量输入预设的分子生成模型中之前，所述方法还包括：

8.一种分子生成装置，其特征在于，包括：

获取模块，用于获取源分子数据；

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的分子生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的分子生成方法。