CN110600085B

CN110600085B - 一种基于Tree-LSTM的有机物物理化学性质预测方法

Info

Publication number: CN110600085B
Application number: CN201910500140.8A
Authority: CN
Inventors: 申威峰; 粟杨
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-06-01
Filing date: 2019-06-01
Publication date: 2024-04-09
Anticipated expiration: 2039-06-01
Also published as: CN110600085A

Abstract

一种基于Tree‑LSTM的有机物物理化学性质预测方法，包括生成预测模型和预测物理化学性质两部分，该生成预测模型包括：1)有机物的分子结构进行规范化和编码并生成树状数据结构(分子特征描述符)；2)利用分子特征描述符和有机物的物理化学性质实验数据训练Tree‑LSTM模型，获得基于LSTM的海表面温度预测模型；该预测有机物物理化学性质包括：将分子结构进行规范化并编码输入预测模型，得到有机物物理化学性质的输出结果。本发明能够使计算机自动化的提取分子结构与物理化学性质之间的关系，更适合学习各种有机物的分子结构信息，可取得较好的预测结果。

Description

一种基于Tree-LSTM的有机物物理化学性质预测方法

技术领域

本发明涉及化学C07领域，是一种基于人工智能技术的化学物质定量结构关联性质的预测方法。

背景技术

物理化学性质是一种与化学及化学工程密切相关的基础数据，如临界性质、沸点、生成热、辛醇水分配系数等均与化学及化工的科学研究、生产实践息息相关，科学合理的各类物理化学性质的预测值可以减少物理化学性质的测定工作，节约大量人力和物力。物理化学性质的数据获取，通常因实验测定条件苛刻，或被测物质易于分解等客观因素难以开展，目前主要利用基于多元线性回归的基团贡献法和拓扑系数法估算。但使，基团贡献法及拓扑系数法需要在预测之前，人工提取分子结构特征，使得这两种方法的应用范围受到了限制。

Tree-LSTM递归神经网络是在LSTM(Long-Short Term Memory)递归神经网络的基础上改进而来，该神经网络可以学习比序列结构更加复杂的依赖关系，对于输入数据自主学习分子树形拓扑结构对预测数据的贡献，特别是该神经网络克服了其他神经网络无法再现分子中原子连接关系的缺点，更适合挖掘分子结构与其物理化学性质的隐含关系。现有的基团贡献法需要将分子拆解成不同的基团(分子子结构片段)，需运用多元线性拟合，才可实现有机物物理化学性质的预测。而基团贡献法预测各种基团贡献法拆解方案不同，存在某些分子无法找到合适的拆解方案，使得预测产生偏差或无法完成预测。而现有的拓扑指数法则受限于拓扑指数计算复杂且不能直观的表现分子局部结构，所以并未具备更广泛的物理化学性质预测能力。因此，并未出现单独使用Tree-LSTM递归神经网络***进行有机物物理化学性质预测的方法。

发明内容

本发明提供一种基于Tree-LSTM的有机物物理化学性质的预测方法，解决了现有技术预测范围不广、覆盖物质不广及预测精度不高的技术问题。

为了解决上述问题，本发明采用如下技术方案：

包括如下步骤：步骤A生成预测模型；步骤B预测物理化学性质两部分；

所述步骤A包括如下步骤：

A1获取有机物的物理化学性质的实验数据及有机物的分子结构信息，利用网络爬虫技术，从各类数据库抓取大量的数据；

A2单个有机物分子结构规范化(以图的规范化算法进行)，遍历单个有机物分子中的每个原子并生成对应的原子特征描述符，将单个有机物分子的所有原子特征描述符按字典序排序，取最小的原子特征描述符作为分子特征描述符；

A3按A2步骤根据获取的所有有机物分子结构生成代表每个代表分子结构规范化图的分子特征描述符及对应的线性编码；

A4拆分所有有机物分子成各类化学键，按每个分子排列表示这些化学键的字符串，对这些字符串采用词嵌入算法生成词向量；

A5搭建基于Tree-LSTM的神经网络模型，并载入A1获取的物理化学数据和经过A2～A4处理过的分子结构数据，Tree-LSTM自动适应分子结构规范化图的拓扑形状。人工调整各项超参数并训练模型，从训练过程中择优选取参数获得基于Tree-LSTM的有机物物理化学预测模型；

所述步骤B包括如下步骤：

B1将未具有某种物理化学性质实验数据的有机物分子结构，采用A2-A4步骤进行处理，将其生成的特征描述符及编码，载入A5得到的物理化学性质预测模型，输入分子特征描述符预测未知物理化学性质的数据。

作为进一步地细化，所述步骤A5包括如下：

A51：在Linux***或Windows***下搭建Tree-LSTM模型；

A52：设置Tree-LSTM的输入维度和输入数据的长度；A53：设置Tree-LSTM训练集及测试集的数据数量比例；A54：设置Tree-LSTM模型优化器和学习速率；A55：设置隐层神经元宽度；A56：设置模型迭代次数；A57：不断调整参数，以模型损失查看模型收敛程度，择优选取高收敛度参数，形成基于Tree-LSTM的物理化学性质预测模型。

附图说明

图1是本发明有机物物理化学性质预测流程图；

图2是Tree-LSTM递归神经网络在预测acetaldoxime物质的性质时的计算图；

图3是Tree-LSTM物理化学性质预测模型对于有机物临界温度的预测效果图，×表示预测值，直线表示实际值。

图4是分子特征描述符生成以acetaldoxime物质进行举例。

图5是分子特征描述的编码规则举例说明每位编码含义。

具体实施方式

下面将结合附图和具体举例对本发明加以详细说明，应指出的是，以下所描述的例子仅为更方便理解本发明，对发明本身不起任何限定作用。

本发明给出的一种基于Tree-LSTM的有机物物理化学性质预测方法，如图1所示，包括两个步骤：步骤A生成预测模型；步骤B预测物理化学性质两部分；

步骤A生成预测模型：

A1获取有机物的物理化学性质的实验数据及有机物的分子结构信息，利用网络爬虫技术，从各类数据库抓取大量的数据。

A11有机物的物理化学性质主要包含：临界性质、正常沸点、传递性质、自燃点、闪点、毒性、辛醇水分配系数、生物化学活性等性质。

A12分子结构信息主要以SMILES表达式、SMARTS表达式、MOL文件、SDF文件为载体。

A2单个有机物分子结构规范化，遍历单个有机物分子中的每个原子并生成对应的原子特征描述符，将单个有机物分子的所有原子特征描述符按字典序排序，取最小的原子特征描述符作为分子特征描述符并将其编码。

A21将有机物分子二维拓扑图通过图论理论中的图规范化算法生成规范图，以实现分子图的同构比较，例如可采用Nauty和Faulon图规范化算法。

A22编码方法如下：

第一种方法，直接以Faulon规范化算法输出的分子特征描述符作为有机物的编码，在图4中进行举例。

第二种方法，以一种线性编码的格式对分子特征描述符进行编码，在表1中进行举例。

A3按A2步骤根据获取的所有有机物分子结构信息生成每个分子的分子特征描述符及对应编码。

A4拆分所有有机物分子成各类化学键，按每个分子排列表示这些化学键的字符串，对这些字符串采用词嵌入算法生成词向量。

A5搭建基于Tree-LSTM的神经网络模型，并载入A1获取的物理化学数据和经过A2～A4处理过的分子结构数据，不断调整参数，择优选取参数获得基于Tree-LSTM的有机物物理化学预测模型。

所述步骤B包括如下步骤：

B1将未具有某种物理化学性质实验数据的有机物分子结构，采用A2-A4步骤进行处理，将其生成的特征描述符及编码，载入物理化学性质预测模型，得到未知物理化学性质的数据；

步骤A4进一步包括以下内容：

A41：遍历数据库中每个分子，以每个分子中的每个原子作为起点遍历所连接的化学键和原子，形成形如“A-B”的字符串，并进行记录形成原始数据。说明：“A”代表原子A的元素符号，“B”代表原子B的元素符号，“-”代表原子A与原子B之间的化学键类型。

A42：将原始数据中形如“A-B”的字符串进行拆分，形成三种组合方式的子字符串集：组合一：“A”和“-B”，组合二：“A-”和“B”，组合三：“A”、“-”和“B”。

A43：在Linux***或Windows***下搭建基于skip-gram算法的神经网络，获得表示A42得到的字符串集中的每个字符串的嵌入矢量。

作为进一步地细化，所述步骤A5包括如下：

A51：在Linux***或Windows***下搭建Tree-LSTM模型；

A52：将每个分子的特征描述符或线性编码解析成树形的数据结构，并为树形结构中的每个节点(对于分子中的每个原子)匹配对应的由A4获得的嵌入矢量。

A52：设置Tree-LSTM的输入维度和输入数据的长度；本发明中的输入维度为1，长度为50。

A53：设置Tree-LSTM训练集及测试集的数据数量比例；本发明中的该比例为4∶1。

A54：设置Tree-LSTM模型优化器和学习速率；本方法采用Adam算法优化器，学习速率为0.001：

A55：设置各隐层神经元宽度；

A56：设置模型迭代次数；

A57：在同一迭代次数下调整隐层神经节点数、在同一隐层神经节点数下调整迭代次数，以模型整体损失和迭代损失查看模型收敛程度，择优选取高收敛度参数，形成基于Tree-LSTM的物理化学性质预测模型。

Tree-LSTM神经网络结构如图2所示。

Tree-LSTM具有两种数学模型，一是子节点加和模型，另一种是子节点独立模型。

Tree-LSTM的核心在于控制单元状态c，控制包括遗忘门f_j、输入门i_j、输出门o_j。当前节点j，遗忘门f_j负责控制子节点的c有多少保存到当前节点的c_j；输入门i_j负责控制当前节点的即时状态有多少输入到当前单元状态c_j；当前输入单元状态u_j则控制有多少新的节点信息加入到输出中；输出门o_j负责控制当前单元状态c_j有多少作为当前节点的隐层输出h_j。其子节点加和模型计算公式分别为：

f_jk＝σ(W^(f)x_j+U^(f)h_k+b^(f)) (2)

c_j＝i_j·u_j+f_j (6)

h_j＝o_j·tanh(c_j) (7)

其中，W^(f)、W⁽ⁱ⁾、W^(o)分别是遗忘门、输入门和输出门的权重矩阵，b^(f)、b⁽ⁱ⁾、b^(o)分别是遗忘门、输入门和输出门的偏置项，σ为sigmoid函数。以下是子节点独立模型计算公式：

c_j＝i_j·u_j+f_j (14)

h_j＝o_j·tanh(c_j) (15)

两种模型的区别在于是否对子节点的h_jl进行加和，子节点独立模型为每个子节点的hjl增加了一个参数，而子节点加和模型则为子节点的h_jl之和提供训练的参数。

Tree-LSTM递归神经网络结构如图3所示。LSTM的输入包括：子节点的单元状态c_jl、子节点的隐层输出值h_jl、当前节点的输入值x_j；LSTM的输出包括：当前时刻的单元状态c_j和当前时刻LSTM的隐层输出值h_j。

其中，当前输入单元状态u_j由当前节点的输入x_j、子节点的隐层输出值h_jl(若是子节点加和模型，此处是子节点的隐层输出值h_jl之和)共同决定，其计算公式见(4)或(12)式。

其中，W^(u)是输入单元状态的权重矩阵，b^(u)是输入单元状态的偏置项，tanh为双曲正切函数。当前单元状态c_j由遗忘门f_j(包含子节点单元状态c_jl，子节点遗忘门f_jl)、输入门i_j和当前输入的单元状态u_j共同决定，其计算公式见(4)或(12)式，其中符号·表示按元素乘。当前节点的隐层输出值h_j由输出门o_j与当前单元状态c_j共同决定，其计算公式见(7)或(15)式。

而Tree-LSTM神经网络输出则由一个单层或多层的神经网络来确定，例如单层神经网络做输出层，其计算公式为：

p_i＝w*h_ij+b (16)

第i个组分的性质p_i由该组分的分子特征符所表示的树形结构的根节点的Tree-LSTM神经网络输出hj有关，w和b是可训练的参数。

本发明中采用均方误差(MSE)或平均绝对误差(MAE)作为损失函数(loss)，其计算公式为：

其中，N为样本数，x^exp为观察值，x^prep为预测值。

实验例

下面将举例说明基于Tree-LSTM的物理化学性质预测方法效果。以有机物的临界温度为例，该性质作为多种热力学模型和物性估算模型的基础数据，对其进行预测具有一定实用和代表意义。

获取临界温度的实验数据及对应物质的分子结构信息，共计1759种有机物，其中1407种物质作为训练集，352种物质作为测试集。

以样本中物质acetaldoxime为例说明分子特征描述符的构造原理，详见图4。分子特征描述符是选取分子中某一原子作为起点，将分子按树形结构展开的一种储存分子结构信息的数据结构。本例子中的acetaldoxime以标记为零号的碳原子做起点根原子。从这个根原子C0开始，向下搜索预定距离(或高度)，并记录在该路径上遇到的原子，和连接到该原子的化学键类型来记录分子的特征。从根原子出发，遍历分子中的所有原子以获得原子特征描述符。若选取不同的根原子，将生成不同的原子特征描述符，把这些特征描述符按字典序继续降序排列，其中的第一个及为分子特征描述符。图4使用acetaldoxime作为例子描述了：(A)分子结构(B)分子结构的树形展开和原子特征作为不同高度(C)从高度＝0和高度＝1的原子特征描述符。其中某一原子的子原子用嵌套括号表示，当未指定化学键的类型时，表示原子特征描述符中原子之间为单键。否则，化学键表示如下(“＝”是双键；“#”是三键；“：”是芳香键。)

为方便储存分子特征描述符，本发明开发了一种线性编码来表示分子的树形展开结构，以acetaldoxime为例的各深度的分子特征描述符线性编码见表1，字符串中以“丨”分隔每个原子，原子中各数字和字母的含义见图5。首位原子及根原子，其当前深度为0，以“S”表示，其无父原子所以父原子编码为“S”，与父原子相连的化学键不存在故编码也为“S”。

将1759种有机物转换为分子特征描述符，并进行线性编码。将这些物质输入神经网络前，解析成树形结构，并为其中每个节点(原子)关联A43步骤获得的嵌入矢量。对于样本中每个分子而言，每个原子对应Tree-LSTM神经网络中每个节点，每个原子的嵌入矢量即为该节点的输入矢量。在初次迭代300次情况下，不断调整输出层节点数，最终在本例中以128输出层节点为较优值。Tree-LSTM的神经网络结构由每个有机物的分子的决定，为动态神经网络，自适应不同的分子的拓扑结构。在本例中，在前300次的训练中，学习率为0.008，然后将学习率调整为0.00001训练5000次。为了防止过拟合，在损失函数值不再减小时，提前结束计算。最终获取表3中的预测结果，表中的实验值与预测值的重合程度越高则说明预测效果越好。表2展示了Tree-LSTM神经网络对于有机物临界温度的训练和预测的统计评价参数。图3中x表时预测值，直线表示实验值，可以看出对于大多数数据点而言，本发明利用Tree-LSTM取得了较好的预测效果。

表1分子特征描述符线性编码举例

表2有机物临界温度训练及预测的统计参数

表3有机物临界温度部分预测结果

将本发明与基团贡献法的代表性方法Joback及Constantinou-Gani(CG)方法进行对比，在相同的物质清单下，得到了以下结果，如表4所示：

表4.本发明与经典基团贡献法预测能力对比

用于进行表4中对比的物质清单，共包含了460种物质，Joback方法仅能预测其中的352种物质，将本发明的预测方法用于预测该352种物质时，本发明的预测方法表现出了由于Joback的方法。CG法预测的可预测物质数量也少于本发明，且略差于本发明的方法。当本发明预测该物质清单种的所有物质时，可以覆盖其中的452种物质，并且取得了可以接受的精度。上标a表示所有可预测的物质，上标b表示碳原子数量大于3的物质。

Claims

1.一种基于Tree-LSTM的有机物物理化学性质预测方法，其特征在于有机物的分子图转换为规范图以便于计算机识别和学习从而使计算机能够捕获分子的结构特征，并使计算机将这些特征与有机物和物理或化学性质进行关联，最终实现物质性质的预测，该过程包括如下步骤：步骤A生产预测模型；步骤B预测物理化学性质两部分；

所述步骤A包括如下步骤：

A2通过图规范算法进行单个有机物分子结构规范化，遍历单个有机物分子中的每个原子并生成对应的原子特征描述符，将单个有机物分子的所有原子特征描述符按字典序排序，取最小的原子特征描述符作为分子特征描述符；

A3按A2步骤根据获取的所有有机物分子结构信息生成每个分子的分子特征描述符及对应编码；

A5搭建基于Tree-LSTM的神经网络模型，并载入A1获取的物理化学数据和经过A2～A4处理过的分子结构数据，Tree-LSTM自动适应分子结构规范化图的拓扑形状；人工调整各项超参数并训练模型，从训练过程中择优选取参数获得基于Tree-LSTM的有机物物理化学预测模型；

所述步骤B包括如下步骤：

2.根据权利要求1所述的一种基于Tree-LSTM的有机物物理化学性质预测方法，其特征在于，所述步骤A5包括如下：

A51：在Linux***或Windows***下搭建基于Tree-LSTM的神经网络；A52：设置Tree-LSTM的输入维度和输入数据的长度；A53：设置Tree-LSTM训练集及测试集的数据数量比例；A54：设置Tree-LSTM模型优化器和学习速率；A55：设置隐层神经元宽度；A56：设置模型迭代次数；A57：不断调整参数，以模型损失查看模型收敛程度，择优选取高收敛度参数，形成基于Tree-LSTM的物理化学性质预测模型。