CN114121178A

CN114121178A - 一种基于图卷积网络的色谱保留指数预测方法及装置

Info

Publication number: CN114121178A
Application number: CN202111486185.8A
Authority: CN
Inventors: 张庆合; 李秀琴; 张燕
Original assignee: National Institute of Metrology
Current assignee: National Institute of Metrology
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-01

Abstract

本发明实施例公开了一种基于图卷积网络的色谱保留指数预测方法及装置，通过化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵；根据堆叠自编码器对所述结构矩阵进行训练和编码，得到编码矩阵；将所述编码矩阵输入根据训练组和测试组训练得到的图卷积神经网络模型，输出得到色谱保留指数。本实施例从SMILES中提取出化合物分子的拓扑结构及相关信息，对不同大小的化学分子，进入堆叠自编码器后统一编码成固定大小的编码矩阵，在对不同大小的化学分子统一操作过程中，用BP神经网络实现的堆叠自编码器更加准确、快速、节约资源。

Description

一种基于图卷积网络的色谱保留指数预测方法及装置

技术领域

本发明涉及色谱应用技术领域，尤其是一种基于图卷积网络的色谱保留指数预测方法及装置。

背景技术

卷积神经网络的研究始于二十世纪80至90年代，时间延迟网络和LeNet-5是最早出现的卷积神经网络。在二十一世纪后，随着深度学习理论的提出和数值计算设备的改进，卷积神经网络得到了快速发展，并被应用于计算机视觉、自然语言处理等领域。

卷积神经网络仿造生物的视知觉(visual perception)机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化(grid-like topology)特征，例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程要求。

BP(Back Propagation)网络是1986年由Rumelhart和McClelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是应用最广泛的神经网络模型之一。BP网络能学***方和最小。

定量结构-色谱保留关系模型(QSRR)，借助计算机辅助工具，对化合物的结构信息和色谱保留指数之间进行相关性分析，常用于色谱分离条件的优化和色谱保留指数的预测。用于QSRR模型研究的计算机辅助工具主要有多元线性回归(SVM)、支持向量机(SVM)、人工神经网络(ANN)等，部分研究采用了深度学习模型，如GNN、LSTM、GRU等。

大部分采用的模型存在输入参数要求苛刻，覆盖化合物种类范围有限，特征提取深度有限等不足条件。

输入参数要求苛刻：大部分QSRR模型的输入参数为描述化合物结构特征的分子描述符，需要预先采用分子描述符的相关软件进行计算获得。不同软件计算的分子描述符的数量和种类差异较大，分子描述符的计算时间长，步骤繁琐。

覆盖化合物种类范围有限：不同描述符计算软件适用的化合物种类有限，容易造成部分化合物的分子描述符数据存在缺失和误差，限制了可预测化合物的适用范围。

特征提取深度有限：建立模型依据的分子描述符可能只反映了化合物某些方面的结构特性，不能从根本上全面预测化合物的结构特性。

发明内容

本发明实施例所要解决的一个技术问题是：提供一种基于图卷积网络的色谱保留指数预测方法及装置，解决现有技术中各种模型存在的色谱保留时间预测的问题。

根据本发明的一个方面，提供了一种基于图卷积网络的色谱保留指数预测方法，所述方法包括：

根据化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵；

根据堆叠自编码器对所述结构矩阵进行训练和编码，得到编码矩阵；

将所述编码矩阵输入根据训练组和测试组训练得到的图卷积神经网络模型，输出得到色谱保留指数。

所述根据化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵，包括：

对化合物的SMLIES输入进行语法树解析得到各层次节点和支链；

对所述节点进行计数，实现原子提取；

对所述支链进行解析，实现键提取、子链提取和环结构提取；

在原子、键、子链、环结构信息基础上得到结构矩阵，包括但不限于：领域矩阵A，特征矩阵X，度矩阵D，拉普拉斯矩阵L。

所述堆叠自编码器，包括：

所述自编码器的输入为[M,M]，其中，M为输入的化合物的原子个数；

自编码器的输出为[N,N]，其中，N为输出的化合物的原子个数；

其中，M>>N，且N>50；

原子数小于M的原子，对缺位补0操作。

所述堆叠自编码器分为四个互不相关、初始参数不同但结构相同的四个子编码器，各子编码器针对不同矩阵进行训练和编码。

所述子编码器由编码和解码两部分组成；

编码部分由三个神经网络堆叠，输入为结构矩阵，输出为编码矩阵；

解码部分由三个神经网络堆叠，输入为编码矩阵，输出为结构矩阵。

所述图卷积神经网络模型根据如下方式训练：

根据训练组和测试组的化合物提取信息形成结构矩阵；

根据结构矩阵经过堆叠自编码器输出编码矩阵；

根据编码矩阵输入图卷积神经网络模型，并根据输出的色谱保留指数与所述训练组和测试组实际的色谱保留指数比较，对所述图卷积神经网络模型进行调整训练。

所述图卷积神经网络模型，包括：

所述图卷积神经网络模型由三个图卷积层，三个激活层和三个全连接层组成；具体包括：

输入层：对数据进行归一化操作，归一化方式如下：

其中，X_in为特征矩阵X每一输入值，X_max为X_in中最大值；X_min为X_in中最小值；

图卷积层：每层的结构如下：

其中，D为度矩阵，L为拉普拉斯矩阵，A为领域矩阵，X为经过输入层后的特征矩阵，H为输入矩阵，W为卷积层参数矩阵；

激活层：采用Lakerelu函数，结构如下：

H_out＝Lakerelu(H_in)

全连接层：第一层有N个神经元，第二次为N/2个，第三层为N/4个；

线性输出层：结构如下：

H_out＝W₁*H_in+W₂

其中，H_in为[n,1]结构矩阵，W₁为[1,n]结构矩阵，W₂为标量。

根据本发明的另一个方面，提供了一种基于图卷积网络的色谱保留指数预测装置，包括：

结构信息提取模块，用于根据化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵；

堆叠自编码器，用于对所述结构矩阵进行训练和编码，得到编码矩阵；

图卷积神经网络模型，用于将所述编码矩阵输入根据训练组和测试组训练得到的图卷积神经网络模型，输出得到色谱保留指数。

所述结构信息提取模块，具体用于：

对所述节点进行计数，实现原子提取；

所述堆叠自编码器分为四个互不相关、初始参数不同但结构相同的四个子编码器，各子编码器针对不同矩阵进行训练和编码；

所述图卷积神经网络模型由三个图卷积层，三个激活层和三个全连接层组成。

根据本发明的另一个方面，提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述任一所述的方法。

根据本发明的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一所述的方法。

基于本发明上述实施例提供的基于图卷积网络的色谱保留指数预测方案，通过化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵；根据堆叠自编码器对所述结构矩阵进行训练和编码，得到编码矩阵；将所述编码矩阵输入根据训练组和测试组训练得到的图卷积神经网络模型，输出得到色谱保留指数。

本实施例从SMILES中提取出化合物分子的拓扑结构及相关信息，可靠且准确。对不同大小的化学分子，进入堆叠自编码器后统一编码成固定大小的编码矩阵，方便后续卷积操作。在对不同大小的化学分子统一操作过程中，用BP神经网络实现的堆叠自编码器更加准确、快速、节约资源。采用全新设计的图卷积层代替了普通卷积层，设计的图卷积网络在对拓扑信息的处理上远超过普通卷积层。学习模型相对于LSTM和GNN等深度学习模型，体积小、易实现，内部参数更可控，具有边缘计算设备部署、更多化合物特性预测等应用场景。通过优化模型参数，可以在耗费更少计算资源的情况下达到相同或更高的预测精度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明一个实施例提供的基于图卷积网络的色谱保留指数预测方法原理示意图。

图2为本发明一个实施例提供的结构信息提取模块功能结构示意图。

图3为本发明一个实施例提供的领域矩阵结构示意图。

图4为本发明一个实施例提供的特征矩阵结构示意图。

图5为本发明一个实施例提供的度矩阵结构示意图。

图6为本发明一个实施例提供的结构信息提取工作流程示意图。

图7为本发明一个实施例提供的堆叠自编码器总体结构示意图。

图8为本发明一个实施例提供的子编码器结构示意图。

图9为本发明一个实施例提供的图卷积模型结构示意图。

图10为本发明一个实施例提供的全连接层结构示意图。

图11为本发明一个实施例提供的基于图卷积网络的色谱保留指数预测方案实现原理示意图。

图12为本发明一个实施例提供的基于图卷积网络的色谱保留指数预测装置结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

输入为SMILES字符串的深度学习模型解决方案主要有LSTM序列预测，GNN对抗网络模型等。主要是将SMILES字符串作为自然语言来分析、通过上下文关联的方式来发现SMILES字符串的结构特征，进而对化合物的化学特性进行预测。

LSTM序列预测是将SMILES按照序列形式输入LSTM网络，训练和发掘深度特征。GNN对抗网络模型是将SMILES按照序列形式输入LSTM网络，训练和发掘深度特征。

同一化合物的SMILES字符串具有多种格式正确的拼写，虽然它们均对应同一个结构信息，但会严重干扰LSTM序列对输入SMILES字符串的正确理解，导致模型训练失败。不同化合物的分子式长短不同，因此SMILES字符串长度差别较大，范围远远超过普通自然语言长度范围，因此对模型的适应性要求很高，容易导致训练失败。现有的模型复杂，耗费计算资源巨大，内部参数复杂，普通计算机资源不能满足。

本发明实施例的方案，不受SMILES字符串拼写影响，同一化合物的不同拼写格式的SMILES字符串均对应同一个结构信息。对不同分子尺寸的化合物兼容性更好，发明中的自编码器专门解决化合物分子大小不同的问题。模型简洁可靠，内部参数可解释性好。模型采用图卷积代替普通卷积，更高效提取化合物拓扑结构中的特征信息。

本发明实施例的方案，采用自编码器和图卷积神经网络，对化合物的拓扑结构和色谱保留特性之间的关系进行深度学习，并基于此对化合物的色谱保留指数进行预测。首先，设计了一种基于SMILES字符串的结构信息提取模块；其次，基于获取的结构信息，设计了一种堆叠自编码器；随后，基于编码后的特征矩阵，设计了一种图卷积网络，最后获得了化合物的色谱保留指数。

本发明实施例方案模型使用方法为：获取待预测化合物的SMILES字符串；通过本方案的结构信息提取模块，获得待预测化合物的结构信息矩阵；之后进入训练好的堆叠自编码器，得到特征矩阵；将特征矩阵输入到训练好的图卷积网络模型中，计算待预测化合物的色谱保留指数。

具体的，如图1所示，为本实施例提供的基于图卷积网络的色谱保留指数预测方法原理流程图，其中，

步骤11，根据化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵。

在本发明的一个实施例中，SMILES(Simplified molecular input line entrysystem)，简化分子线性输入规范，是一种用ASCII字符串明确描述分子结构的规范。范例如下表1所示。

表1

SMILES	名字	SMILES	名字
				CC	乙烷	[OH3+]	水合氢离子
O＝C＝O	二氧化碳	[235U]	铀-235
				C#N	氰化氢	F/C＝C/F	E-二氟乙烯
<u>CCN</u>(CC)CC	三乙胺	F/C＝C\F	Z-二氟乙烯
				CC(＝O)O	醋酸	N[<u>C@H</u>](C)C(＝O)O\|	L-丙氨酸

本方案中的结构信息提取模块功能：提取SMLIES包含的一部分结构信息并将其转化为矩阵形式，目的如图2所示。

具体来说，包括如下步骤：

1)定义化合物中所包含原子个数为n。

2)定义领域矩阵A[n，n]，其中任一元素A[i，j]的值表示编号第i个原子和编号第j个原子的连接关系。第i个原子和编号第j个原子连接则A[i，j]＝1，否则A[i，j]＝0。示意如图3所示。

3)定义特征矩阵X[n，n，d]，X为三维矩阵，前两维对角线上值为特征值，第三维有d层，其中d为5，d1值为原子质量，d2值为原子周边键类型，d3为原子所参与环个数，d4为原子周边键最小角度，d5为原子周边键最大角度。示意如图4所示。

4)定义度矩阵D[n，n]，D矩阵对角线上的值为每个原子相邻原子个数。示意如图5所示。

5)定义拉普拉斯矩阵L[n，n]，L矩阵计算方法如下：

L[n，n]＝D[n，n]-A[n，n]。

为获得以上结构信息矩阵，设计结构信息提取模块工作流程如下：1)首先对SMLIES输入进行语法树解析得到各层次节点和支链；2)对节点进行计数，实现原子提取；3)对支链进行解析，实现键提取、子链提取和环结构提取；4)在原子、键、子链、环结构等信息基础上得到领域矩阵A，特征矩阵X，度矩阵D，拉普拉斯矩阵L。具体过程参见图6。

步骤12，根据堆叠自编码器对所述结构矩阵进行训练和编码，得到编码矩阵。

在本发明的一个实施例中，由于化合物所包含原子个数不同，其获取的结构信息矩阵大小不同，因此统一通过本设计中的堆叠自编码器进行编码和压缩。指定自编码器的输入为[M,M]，M为原子个数。指定自编码器的输出为[N,N]，N为原子个数。设定M>>N，且N>50。原子数小于M的原子，对缺位补0操作。堆叠自编码器总体结构如图7所示。

堆叠编码器分为四个互不相关，初始参数不同但结构相同的四个子编码器，各子编码器针对不同矩阵进行训练和编码。子编码器结构如图8所示。

子编码器由编码和解码两部分组成。编码部分由三个神经网络堆叠，输入为结构矩阵，输出为编码矩阵。解码部分由三个神经网络堆叠，输入为编码矩阵，输出为结构矩阵。通过大量数据训练，实现每个通道子编码器编解码精度达到95％以上。

步骤13，将所述编码矩阵输入根据训练组和测试组训练得到的图卷积神经网络模型，输出得到色谱保留指数。

图卷积神经网络模型是本发明核心部分。该卷积网络是针对图结构特点设计的卷积网络。该模型输入为堆叠编码器编码后的编码矩阵(编码矩阵1到4，在此依次用A，X，D，L表示)。

在本发明的一个实施例中，设计的图卷积模型结构如图9所示。

整个网络由三个图卷积层，三个激活层和三个全连接层组成，在模型结构上和普通卷积网络没有区别。但卷积层替换成了图卷积层，因此实现功能完全不同。

各层说明如下：

(1)输入层：对数据进行归一化操作，归一化方式如下：

其中，X_in为特征矩阵X每一输入值，X_max为X_in中最大值；X_min为X_in中最小值。

工作流程：先求出特征矩阵X中的极大值和极小值，然后按照归一化方式对每一输入值X_in计算得到X_out。

(2)图卷积层：本方案中的图卷积层针对图结构数据进行了特定设计，是本方案的核心创新点之一，每层的结构如下：

其中，D为度矩阵，L为拉普拉斯矩阵，A为领域矩阵，X为经过输入层后的特征矩阵，H为输入矩阵，W为卷积层参数矩阵。

工作流程：按照层结构公式对每一输入矩阵H_in计算得到H_out，并根据梯度训练结果更新卷积层参数矩阵W。

本实施例中，引进特征矩阵X，在领域矩阵A以外增加节点特征信息。采用度矩阵D和拉普拉斯矩阵L，引入自传递信息。左右乘以度矩阵D的逆，实现矩阵归一化。

(3)激活层：激活层采用Lakerelu函数，结构如下：

H_out＝Lakerelu(H_in)

(4)全连接层：全连接层形式为卷积网络全连接层，本设计中用三层全连接层，第一层有N个神经元，第二次为N/2个，第三层为N/4个，比常用的全连接层方案增加一层。结构如图10所示。

(5)线性输出层：线性输出层结构如下：

H_out＝W₁*H_in+W₂

其中，H_in为[n,1]结构矩阵，W₁为[1,n]结构矩阵，W₂为标量。

工作流程：经过全连接层后的H输入线性输出层，根据梯度训练结果更新输出层参数矩阵W1和标量W2。

如图11所示，模型构成包含：1)结构信息提取模块，2)堆叠自编码器，3)图卷积网络三部分。

采用自编码器和图卷积神经网络，对化合物的拓扑结构和色谱保留特性之间的关系进行深度学习，并基于此对化合物的色谱保留指数进行预测。首先，设计了一种基于SMILES字符串的结构信息提取模块；其次，基于获取的结构信息，设计了一种堆叠自编码器；随后，基于编码后的特征矩阵，设计了一种图卷积网络，最后获得了化合物的色谱保留指数。

首先，针对表示化合物的文字描述符SMILES设计结构式提取模块(提取SMLIES包含的一部分结构信息并将其转化为矩阵形式)，对获取后的结构式设计和训练堆叠自编码器；其次，将编码后的特征矩阵输入图卷积网络(GCN)，以色谱保留指数作为响应对GCN卷积网络进行训练；最后，用测试组的SMILES化学式及保留时间对整个模型进行验证。

该模型使用方法为：获取待预测化合物的SMILES字符串；通过本方案的结构信息提取模块，获得待预测化合物的结构信息矩阵；之后进入训练好的堆叠自编码器，得到特征矩阵；将特征矩阵输入到训练好的图卷积网络模型中，计算待预测化合物的色谱保留指数。

如图12所示，为本发明实施例提供的一种基于图卷积网络的色谱保留指数预测装置，其中，

结构信息提取模块21，用于根据化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵；

堆叠自编码器22，用于对所述结构矩阵进行训练和编码，得到编码矩阵；

图卷积神经网络模型23，用于将所述编码矩阵输入根据训练组和测试组训练得到的图卷积神经网络模型，输出得到色谱保留指数。

所述结构信息提取模块21，具体用于：

对所述节点进行计数，实现原子提取；

所述堆叠自编码器22分为四个互不相关、初始参数不同但结构相同的四个子编码器，各子编码器针对不同矩阵进行训练和编码；

所述图卷积神经网络模型23由三个图卷积层，三个激活层和三个全连接层组成。

本发明实施例还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述任一实施例所述的方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例所述的方法。

基于本发明上述实施例提供的基于图卷积网络的色谱保留指数预测方案，

通过化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵；根据堆叠自编码器对所述结构矩阵进行训练和编码，得到编码矩阵；将所述编码矩阵输入根据训练组和测试组训练得到的图卷积神经网络模型，输出得到色谱保留指数。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于图卷积网络的色谱保留指数预测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵，包括：

对所述节点进行计数，实现原子提取；

3.如权利要求1所述的方法，其特征在于，所述堆叠自编码器，包括：

所述自编码器的输入为[M，M]，其中，M为输入的化合物的原子个数；

自编码器的输出为[N，N]，其中，N为输出的化合物的原子个数；

其中，M＞＞N，且N＞50；

原子数小于M的原子，对缺位补0操作。

4.如权利要求3所述的方法，其特征在于，所述堆叠自编码器分为四个互不相关、初始参数不同但结构相同的四个子编码器，各子编码器针对不同矩阵进行训练和编码。

5.如权利要求4所述的方法，其特征在于，所述子编码器由编码和解码两部分组成；

6.如权利要求1所述的方法，其特征在于，所述图卷积神经网络模型根据如下方式训练：

根据训练组和测试组的化合物提取信息形成结构矩阵；

根据结构矩阵经过堆叠自编码器输出编码矩阵；

根据编码矩阵输入图卷积神经网络模型，并根据输出的色谱保留指数与所述训练组和测试组实际的色谱保留指数此较，对所述图卷积神经网络模型进行调整训练。

7.如权利要求6所述的方法，其特征在于，所述图卷积神经网络模型，包括：

输入层：对数据进行归一化操作，归一化方式如下：

图卷积层：每层的结构如下：

激活层：采用Lakerelu函数，结构如下：

H_out＝Lakerelu(H_in)

线性输出层：结构如下：

H_out＝W₁*H_in+W₂

其中，H_in为[n，1]结构矩阵，W₁为[1，n]结构矩阵，W₂为标量。

8.一种基于图卷积网络的色谱保留指数预测装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述结构信息提取模块，具体用于：

对所述节点进行计数，实现原子提取；

10.如权利要求8所述的装置，其特征在于，所述堆叠自编码器分为四个互不相关、初始参数不同但结构相同的四个子编码器，各子编码器针对不同矩阵进行训练和编码；