CN111312340A

CN111312340A - 一种基于smiles的定量构效方法和装置

Info

Publication number: CN111312340A
Application number: CN201811516668.6A
Authority: CN
Inventors: 黄辉; 汪念
Original assignee: Shenzhen Yunnet Bate Technology Co ltd
Current assignee: Shenzhen Yunnet Bate Technology Co ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2020-06-19

Abstract

本发明公开了一种基于SMILES的定量构效方法和装置。所述方法包括：通过将化学分子规范表达所需的SMILES字符串转化为相应的One‑Hot数字编码，并采用Embedding层对One‑Hot数字编码进行降维处理；将降维处理后的One‑Hot数字编码按次序输入多层双向GRU层，并采用多层双向GRU层来学习SMILES字符串的前后关联特征；采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合，完成化学分子属性预测模型的训练。本发明提供的定量构效方法是基于SMILES来形成化学分子属性预测模型的，避免预测结果受人为因素影响，使得化学分子属性预测模型的预测结果更加准确可靠。

Description

一种基于SMILES的定量构效方法和装置

技术领域

本发明涉及定量构效技术领域，特别涉及一种基于SMILES的定量构效方法和装置。

背景技术

简化分子线性输入规范(Simplified Molecular Input Line EntrySpecification，简称“SMILES”)字符串是一种用ASCII字符串明确描述分子结构的规范，可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。因SMILES字符串的适用性强，可作为输入可以处理绝大部分分子数据。

定量构效方法(Quantitative Structure-Activity Relationship,简称“QSAR”)是计算机辅助药物分子设计应用最为广泛的药物设计方法，其是将化合物的结构信息、理化参数与生物活性进行分析计算，建立合理的数学模型，研究结构和活性之间的量变规律，可以预测化合物的生理活性或某些性质，为药物设计、先导化合物结构改造提供理论依据。

现代计算机辅助小分子药物发现和开发中，传统学习方法被广泛用于构建预测模型。传统的QSAR方法广义上可以延伸成传统的机器学习，但是各种模型中含有人为设计的分子标识符，因此预测结果是受人为因素影响的，准确度不高，而且需要构造出对应的模型环境进行计算。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种基于SMILES的定量构效方法和装置。所述技术方案如下：

一方面，本发明实施例提供了一种基于SMILES的定量构效方法，所述方法包括：

构建化学分子属性预测模型，所述化学分子属性预测模型包括：Embedding层、多层双向门控循环单元(Gated Recurrent Unit，简称“GRU”)层、以及全连接层；

将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码，并采用Embedding层对One-Hot数字编码进行降维处理；

将降维处理后的One-Hot数字编码按次序输入多层双向GRU层，并采用多层双向GRU层来学习SMILES字符串的前后关联特征；

采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合，完成化学分子属性预测模型的训练，并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。

在本发明实施例上述的基于SMILES的定量构效方法中，多层双向GRU层中的每层双向GRU层均包括：正向GRU和反向GRU，

多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接；

多层双向GRU层的中间层的输入是其上一层双向GRU层同一个时间步的输出。

在本发明实施例上述的基于SMILES的定量构效方法中，所述将降维处理后的One-Hot数字编码按次序输入多层双向GRU层，并采用多层双向GRU层来学习SMILES字符串的前后关联特征，包括：

将降维处理后的One-Hot数字编码进行dropout技术处理，并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入；

在同一个时刻中，对除最后一层双向GRU层外其他双向GRU层之间的信息传递进行dropout技术处理。

在本发明实施例上述的基于SMILES的定量构效方法中，所述方法还包括：

采用迁移学习方式，利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层，形成新的化学分子属性预测模型；

采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合，完成新的化学分子属性预测模型的训练。

在本发明实施例上述的基于SMILES的定量构效方法中，所述化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练；

所述新的化学分子属性预测模型采用只有少量数据的物理化学性质数据进行微调训练。

另一方面，本发明实施例提供了一种基于SMILES的定量构效装置，所述装置包括：

构建模块，用于构建化学分子属性预测模型，所述化学分子属性预测模型包括：Embedding层、多层双向GRU层、以及全连接层；

降维模块，用于将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码，并采用Embedding层对One-Hot数字编码进行降维处理；

学习模块，用于将降维处理后的One-Hot数字编码按次序输入多层双向GRU层，并采用多层双向GRU层来学习SMILES字符串的前后关联特征；

第一训练模块，用于采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合，完成化学分子属性预测模型的训练，并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。

在本发明实施例上述的基于SMILES的定量构效装置中，多层双向GRU层中的每层双向GRU层均包括：正向GRU和反向GRU，

在本发明实施例上述的基于SMILES的定量构效装置中，所述学习模块，还用于将降维处理后的One-Hot数字编码进行dropout技术处理，并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入；

所述学习模块，还用于在同一个时刻中，对除最后一层双向GRU层外其他双向GRU层之间的信息传递进行dropout技术处理。

在本发明实施例上述的基于SMILES的定量构效装置中，还包括：

替换模块，用于采用迁移学习方式，利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层，形成新的化学分子属性预测模型；

第二训练模块，用于采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合，完成新的化学分子属性预测模型的训练。

在本发明实施例上述的基于SMILES的定量构效装置中，所述化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练；

本发明实施例提供的技术方案带来的有益效果是：

通过将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码，并采用Embedding层对One-Hot数字编码进行降维处理；然后将降维处理后的One-Hot数字编码按次序输入多层双向GRU层，并采用多层双向GRU层来学习SMILES字符串的前后关联特征；最后采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合，完成化学分子属性预测模型的训练，并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。这样形成的定量构效方法是基于SMILES来形成化学分子属性预测模型的，避免了现有技术中含有人为设计的分子标识符，致使预测结果是受人为因素影响的问题，使得形成化学分子属性预测模型对化学分子属性的预测结果更加准确可靠。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种基于SMILES的定量构效方法流程图；

图2是本发明实施例一提供的一种分子属性预测模型的结构示意图；

图3是本发明实施例一提供的一种多层双向GRU层的结构示意图；

图4是本发明实施例一提供的一种迁移学习方式的原理示意图；

图5是本发明实施例二提供的一种基于SMILES的定量构效装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种基于SMILES的定量构效方法，适用于计算机辅助小分子药物发现和开发，参见图1，该方法可以包括：

步骤S11，构建化学分子属性预测模型，该化学分子属性预测模型可以包括：Embedding层(即嵌入层)、多层双向GRU层、以及全连接层。

在本实施例中，参见图2，化学分子属性预测模型可以包括：输入层、Embedding层、多层双向GRU层、全连接层、以及输出层，该模型的建立是用于预测化学分子的某种属性的，模型初步构建好后，采用已有的数据对其进行训练，训练完成后即可用来预测化学分子的物理化学性质。

步骤S12，将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码，并采用Embedding层对One-Hot数字编码进行降维处理。

在本实施例中，SMILES字符串是一种用ASCII字符串明确描述分子结构的规范，可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。因SMILES字符串的适用性强，可作为输入可以处理绝大部分分子数据。One-Hot数字编码是将类别变量转换为机器学习算法易于利用的一种形式的过程，即One-Hot编码是分类变量作为二进制向量的表示。

在本实施例中，由于使用One-Hot方法编码的向量会很高维也很稀疏，通过Embedding层将One-Hot编码形式的SMILES字符串降维，能够有效降低后续数据处理量，提高数据处理效率。例如：依次输入一个SMILES字符串的一个字符的One-Hot形式，例如，阿司匹林的SMILES字符串是“CC(＝O)OC1＝CC＝CC＝C1C(＝O)O”。为方便说明，假设SMILES字符串只有“C”，“(”，“＝”，“O”，“)”，“1”这6种字符。则“C”为[1，0，0，0，0，0]，“(”为[0，1，0，0，0，0]以此类推。那么依次输入[1，0，0，0，0，0]，[1，0，0，0，0，0]，[0，1，0，0，0，0]，……[0，0，0，0，1，0]，[0，0，0，1，0，0]。将字符从较长的One-Hot编码转化成较短的编码格式，从而降低字符维度。例如将1*6维的C[1，0，0，0，0，0]压缩成1*3维的[0.1524019,0.18289618，0.3591292]。

步骤S13，将降维处理后的One-Hot数字编码按次序输入多层双向GRU层，并采用多层双向GRU层来学习SMILES字符串的前后关联特征。

在本实施例中，由于SMILES字符串是上下文相关联的，采用多层双向GRU层能够有效学习到SMILES字符串的前后关联特征。例如，***的SMILES形式是“CN1CC[C@]23C4＝C5C＝CC(O)＝C4O[C@H]2[C@@H](O)C＝C[C@H]3[C@H]1C5”。“1”用来标记环，即第一个“1”的前一个字符“N”到第二个“1”的元素是在一个环上，中间间隔54个字符。因此，需要采用多层双向GRU层来解决长序列问题。此外，双向结构可以分析当前字符与先前输入的字符和后来输入的字符的关联，即分析、联系上下文，并且多层结构能学习更复杂的特征。

在本实施例中，循环神经网络(Recurrent Neural Networks，简称“RNN”)的主要用途是处理和预测序列数据，RNN可以用来连接先前的信息到当前的任务上，例如使用过去的视频段来推测对当前段的理解。而GRU是一种长短期记忆网络(Long Short TermMemory，简称“LSTM”)的变体，而LSTM是一种特殊的RNN类型，可以学习长期依赖信息。

在经典的循环神经网络中，状态的传输是从前往后单向的。然而，在有些问题中，当前时刻的输出不仅和之前的状态有关系，也和之后的状态相关。这时就需要双向RNN(BiRNN)来解决这类问题。双向RNN是由两个RNN上下叠加在一起组成的，输出由这两个RNN的状态共同决定。将双向RNN中的RNN替换成GRU结构，则组成了双向GRU(即BiGRU)。

具体地，参见图3，多层双向GRU层中的每层双向GRU层均包括：正向GRU和反向GRU。其中，多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接；多层双向GRU层的中间层的输入是其上一层双向GRU层同一个时间步的输出。

在本实施例中，多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接，即正向GRU正序完全处理完上一层的输出和后向GRU逆序完全处理完上一层的输出而保留下的信息。多层双向GRU层中间层的输入是上一层双向GRU层同一个时间步的输出，即同为t时刻正向GRU层与反向GRU层的输出的拼接，即t时刻上下文的信息。

进一步地，为了减少模型训练过程中过拟合的问题，引入了dropout技术。上述步骤S13可以通过如下方式实现：

在本实施例中，先对输入数据进行dropout，即对Embedding层降维后的SMILES字符串dropout，dropout后的数据作为第一层GRU层的输入。

对除了最后一层双向GRU层的输出进行垂直dropout，即仅在同一个t时刻中，多层双向GRU层之间传递信息的时候进行dropout，而不对同一层GRU层内传递信息的时候进行dropout。上述dropout处理，能够有效减少过拟合，避免模型参数过分依赖训练数据。

步骤S14，采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合，完成化学分子属性预测模型的训练，并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。

在本实施例中，使用全连接层非线性组合多层双向GRU层的学习到的字符前后关联特征，用来预测分子的化学性质和物理性质。

具体地，物理化学性质可以包括：化学分子的熔点、正辛醇-水分配系数、半数抑制浓度、毒性。

在本实施例中，上述定量构效方法可预测的化学性质和物理性质包括但不限于熔点、正辛醇-水分配系数(即Octanol-Water Partition Coefficient，LogP)，半数抑制浓度(即Half Maximal Inhibitory Concentration，IC50)，毒性。而传统的定量构效方法只能预测熔点、正辛醇-水分配系数等属性，无法预测半数抑制浓度等属性。

可选地，参见图1，该定量构效方法还可以包括：

步骤S15，采用迁移学习方式，利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层，形成新的化学分子属性预测模型。

步骤S16，采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合，完成新的化学分子属性预测模型的训练。

在本实施例中，参见图4，使用迁移学习来节省模型训练时间。去掉已经训练好的预测某属性的模型的全连接层和输出层，保留输入层、Embedding层和多层双向GRU层，加入新的全连接层和输出层，使用新的数据集对拼接后的模型进行训练。由于多层双向GRU层已经学习到部分特征，可以通过迁移学习加速新模型的训练。例如，我们完成预测熔点模型的训练后，其余模型都可以使用预测熔点模型的输入层、Embedding层和多层双向GRU层的参数来加速训练。

进一步地，在上述步骤S15中，化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练；在上述步骤S16中，新的化学分子属性预测模型采用只有少量数据的物理化学性质数据进行微调训练，通过使用迁移学习可以提高模型预测能力。

在本实施例中，由于一些特殊的物理化学性质的数据相对较少，可以通过先训练有大量数据的物理化学性质模型(即步骤S15中的化学分子属性预测模型)，再使用只有少量数据的物理化学性质数据进行微调，避免因数据过少带来的过拟合，形成优化后的模型(即步骤S16中的新的化学分子属性预测模型)提高模型预测能力。例如，需要预测只有少量数据的半数抑制浓度，可以先有大量数据的预测熔点模型，然后使用半数抑制浓度数据微调，进而避免因数据过少带来的过拟合，提高模型预测能力。

本发明实施例通过将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码，并采用Embedding层对One-Hot数字编码进行降维处理；然后将降维处理后的One-Hot数字编码按次序输入多层双向GRU层，并采用多层双向GRU层来学习SMILES字符串的前后关联特征；最后采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合，完成化学分子属性预测模型的训练，并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。这样形成的定量构效方法是基于SMILES来形成化学分子属性预测模型的，避免了现有技术中含有人为设计的分子标识符，致使预测结果是受人为因素影响的问题，使得形成化学分子属性预测模型对化学分子属性的预测结果更加准确可靠。

实施例二

本发明实施例提供了一种基于SMILES的定量构效装置，执行了实施例一所述的基于SMILES的定量构效方法，参见图5，该定量构效装置可以包括：

构建模块100，用于构建化学分子属性预测模型，该化学分子属性预测模型可以包括：Embedding层、多层双向GRU层、以及全连接层。

在本实施例中，化学分子属性预测模型可以包括：输入层、Embedding层、多层双向GRU层、全连接层、以及输出层，该模型的建立是用于预测化学分子的某种属性的，模型初步构建好后，采用已有的数据对其进行训练，训练完成后即可用来预测化学分子的物理化学性质。

降维模块200，用于将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码，并采用Embedding层对One-Hot数字编码进行降维处理。

在本实施例中，由于使用One-Hot方法编码的向量会很高维也很稀疏，通过Embedding层将One-Hot编码形式的SMILES字符串降维，能够有效降低后续数据处理量，提高数据处理效率。

学习模块300，用于将降维处理后的One-Hot数字编码按次序输入多层双向GRU层，并采用多层双向GRU层来学习SMILES字符串的前后关联特征。

在本实施例中，RNN的主要用途是处理和预测序列数据，RNN可以用来连接先前的信息到当前的任务上，例如使用过去的视频段来推测对当前段的理解。而GRU是一种LSTM(即Long Short Term Memory)的变体，而LSTM是一种特殊的RNN类型，可以学习长期依赖信息。

第一训练模块400，用于采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合，完成化学分子属性预测模型的训练，并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。

可选地，多层双向GRU层中的每层双向GRU层均包括：正向GRU和反向GRU。其中，多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接；多层双向GRU层的中间层的输入是其上一层双向GRU层同一个时间步的输出。

进一步地，为了减少模型训练过程中过拟合的问题，引入了dropout技术。

学习模块300，还用于将降维处理后的One-Hot数字编码进行dropout技术处理，并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入；

学习模块300，还用于在同一个时刻中，对除最后一层双向GRU层外其他双向GRU层之间的信息传递进行dropout技术处理。

可选地，参见图4，该定量构效装置还可以包括：

替换模块500，用于采用迁移学习方式，利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层，形成新的化学分子属性预测模型。

第二训练模块600，用于采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合，完成新的化学分子属性预测模型的训练。

在本实施例中，使用迁移学习来节省模型训练时间。去掉已经训练好的预测某属性的模型的全连接层和输出层，保留输入层、Embedding层和多层双向GRU层，加入新的全连接层和输出层，使用新的数据集对拼接后的模型进行训练。由于多层双向GRU层已经学习到部分特征，可以通过迁移学习加速新模型的训练。例如，我们完成预测熔点模型的训练后，其余模型都可以使用预测熔点模型的输入层、Embedding层和多层双向GRU层的参数来加速训练。

进一步地，在替换模块500的执行过程中，化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练；在第二训练模块600的执行过程中，新的化学分子属性预测模型采用只有少量数据的物理化学性质数据进行微调训练，通过使用迁移学习可以提高模型预测能力。

在本实施例中，由于一些特殊的物理化学性质的数据相对较少，可以通过先训练有大量数据的物理化学性质模型(即替换模块500的执行过程中的化学分子属性预测模型)，再使用只有少量数据的物理化学性质数据进行微调，避免因数据过少带来的过拟合，形成优化后的模型(即第二训练模块600的执行过程中的新的化学分子属性预测模型)提高模型预测能力。例如，需要预测只有少量数据的半数抑制浓度，可以先有大量数据的预测熔点模型，然后使用半数抑制浓度数据微调，进而避免因数据过少带来的过拟合，提高模型预测能力。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是：上述实施例提供的基于SMILES的定量构效装置在实现基于SMILES的定量构效方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于SMILES的定量构效装置与基于SMILES的定量构效方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于SMILES的定量构效方法，其特征在于，所述方法包括：

构建化学分子属性预测模型，所述化学分子属性预测模型包括：Embedding层、多层双向GRU层、以及全连接层；

2.根据权利要求1所述的方法，其特征在于，多层双向GRU层中的每层双向GRU层均包括：正向GRU和反向GRU，

3.根据权利要求2所述的方法，其特征在于，所述将降维处理后的One-Hot数字编码按次序输入多层双向GRU层，并采用多层双向GRU层来学习SMILES字符串的前后关联特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练；

6.一种基于SMILES的定量构效装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，多层双向GRU层中的每层双向GRU层均包括：正向GRU和反向GRU，

8.根据权利要求7所述的装置，其特征在于，所述学习模块，还用于将降维处理后的One-Hot数字编码进行dropout技术处理，并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入；

9.根据权利要求6所述的装置，其特征在于，还包括：

10.根据权利要求9所述的装置，其特征在于，所述化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练；