CN111312340A - 一种基于smiles的定量构效方法和装置 - Google Patents
一种基于smiles的定量构效方法和装置 Download PDFInfo
- Publication number
- CN111312340A CN111312340A CN201811516668.6A CN201811516668A CN111312340A CN 111312340 A CN111312340 A CN 111312340A CN 201811516668 A CN201811516668 A CN 201811516668A CN 111312340 A CN111312340 A CN 111312340A
- Authority
- CN
- China
- Prior art keywords
- layer
- gru
- prediction model
- smiles
- chemical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000000694 effects Effects 0.000 title claims abstract description 30
- 239000000126 substance Substances 0.000 claims abstract description 114
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 44
- 230000009467 reduction Effects 0.000 claims abstract description 35
- 238000013526 transfer learning Methods 0.000 claims description 12
- 230000002441 reversible effect Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 17
- 238000002844 melting Methods 0.000 description 12
- 230000008018 melting Effects 0.000 description 12
- 230000002401 inhibitory effect Effects 0.000 description 6
- HGASFNYMVGEKTF-UHFFFAOYSA-N octan-1-ol;hydrate Chemical compound O.CCCCCCCCO HGASFNYMVGEKTF-UHFFFAOYSA-N 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005764 inhibitory process Effects 0.000 description 4
- BQJCRHHNABKAKU-KBQPJGBKSA-N morphine Chemical compound O([C@H]1[C@H](C=C[C@H]23)O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4O BQJCRHHNABKAKU-KBQPJGBKSA-N 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 230000000704 physical effect Effects 0.000 description 4
- 230000001988 toxicity Effects 0.000 description 4
- 231100000419 toxicity Toxicity 0.000 description 4
- 238000004617 QSAR study Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 238000009510 drug design Methods 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 229960005181 morphine Drugs 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 229940126586 small molecule drug Drugs 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 229960001138 acetylsalicylic acid Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于SMILES的定量构效方法和装置。所述方法包括:通过将化学分子规范表达所需的SMILES字符串转化为相应的One‑Hot数字编码,并采用Embedding层对One‑Hot数字编码进行降维处理;将降维处理后的One‑Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征;采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练。本发明提供的定量构效方法是基于SMILES来形成化学分子属性预测模型的,避免预测结果受人为因素影响,使得化学分子属性预测模型的预测结果更加准确可靠。
Description
技术领域
本发明涉及定量构效技术领域,特别涉及一种基于SMILES的定量构效方法和装置。
背景技术
简化分子线性输入规范(Simplified Molecular Input Line EntrySpecification,简称“SMILES”)字符串是一种用ASCII字符串明确描述分子结构的规范,可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。因SMILES字符串的适用性强,可作为输入可以处理绝大部分分子数据。
定量构效方法(Quantitative Structure-Activity Relationship,简称“QSAR”)是计算机辅助药物分子设计应用最为广泛的药物设计方法,其是将化合物的结构信息、理化参数与生物活性进行分析计算,建立合理的数学模型,研究结构和活性之间的量变规律,可以预测化合物的生理活性或某些性质,为药物设计、先导化合物结构改造提供理论依据。
现代计算机辅助小分子药物发现和开发中,传统学习方法被广泛用于构建预测模型。传统的QSAR方法广义上可以延伸成传统的机器学习,但是各种模型中含有人为设计的分子标识符,因此预测结果是受人为因素影响的,准确度不高,而且需要构造出对应的模型环境进行计算。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于SMILES的定量构效方法和装置。所述技术方案如下:
一方面,本发明实施例提供了一种基于SMILES的定量构效方法,所述方法包括:
构建化学分子属性预测模型,所述化学分子属性预测模型包括:Embedding层、多层双向门控循环单元(Gated Recurrent Unit,简称“GRU”)层、以及全连接层;
将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理;
将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征;
采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。
在本发明实施例上述的基于SMILES的定量构效方法中,多层双向GRU层中的每层双向GRU层均包括:正向GRU和反向GRU,
多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接;
多层双向GRU层的中间层的输入是其上一层双向GRU层同一个时间步的输出。
在本发明实施例上述的基于SMILES的定量构效方法中,所述将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征,包括:
将降维处理后的One-Hot数字编码进行dropout技术处理,并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入;
在同一个时刻中,对除最后一层双向GRU层外其他双向GRU层之间的信息传递进行dropout技术处理。
在本发明实施例上述的基于SMILES的定量构效方法中,所述方法还包括:
采用迁移学习方式,利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层,形成新的化学分子属性预测模型;
采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合,完成新的化学分子属性预测模型的训练。
在本发明实施例上述的基于SMILES的定量构效方法中,所述化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练;
所述新的化学分子属性预测模型采用只有少量数据的物理化学性质数据进行微调训练。
另一方面,本发明实施例提供了一种基于SMILES的定量构效装置,所述装置包括:
构建模块,用于构建化学分子属性预测模型,所述化学分子属性预测模型包括:Embedding层、多层双向GRU层、以及全连接层;
降维模块,用于将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理;
学习模块,用于将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征;
第一训练模块,用于采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。
在本发明实施例上述的基于SMILES的定量构效装置中,多层双向GRU层中的每层双向GRU层均包括:正向GRU和反向GRU,
多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接;
多层双向GRU层的中间层的输入是其上一层双向GRU层同一个时间步的输出。
在本发明实施例上述的基于SMILES的定量构效装置中,所述学习模块,还用于将降维处理后的One-Hot数字编码进行dropout技术处理,并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入;
所述学习模块,还用于在同一个时刻中,对除最后一层双向GRU层外其他双向GRU层之间的信息传递进行dropout技术处理。
在本发明实施例上述的基于SMILES的定量构效装置中,还包括:
替换模块,用于采用迁移学习方式,利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层,形成新的化学分子属性预测模型;
第二训练模块,用于采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合,完成新的化学分子属性预测模型的训练。
在本发明实施例上述的基于SMILES的定量构效装置中,所述化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练;
所述新的化学分子属性预测模型采用只有少量数据的物理化学性质数据进行微调训练。
本发明实施例提供的技术方案带来的有益效果是:
通过将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理;然后将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征;最后采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。这样形成的定量构效方法是基于SMILES来形成化学分子属性预测模型的,避免了现有技术中含有人为设计的分子标识符,致使预测结果是受人为因素影响的问题,使得形成化学分子属性预测模型对化学分子属性的预测结果更加准确可靠。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种基于SMILES的定量构效方法流程图;
图2是本发明实施例一提供的一种分子属性预测模型的结构示意图;
图3是本发明实施例一提供的一种多层双向GRU层的结构示意图;
图4是本发明实施例一提供的一种迁移学习方式的原理示意图;
图5是本发明实施例二提供的一种基于SMILES的定量构效装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种基于SMILES的定量构效方法,适用于计算机辅助小分子药物发现和开发,参见图1,该方法可以包括:
步骤S11,构建化学分子属性预测模型,该化学分子属性预测模型可以包括:Embedding层(即嵌入层)、多层双向GRU层、以及全连接层。
在本实施例中,参见图2,化学分子属性预测模型可以包括:输入层、Embedding层、多层双向GRU层、全连接层、以及输出层,该模型的建立是用于预测化学分子的某种属性的,模型初步构建好后,采用已有的数据对其进行训练,训练完成后即可用来预测化学分子的物理化学性质。
步骤S12,将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理。
在本实施例中,SMILES字符串是一种用ASCII字符串明确描述分子结构的规范,可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。因SMILES字符串的适用性强,可作为输入可以处理绝大部分分子数据。One-Hot数字编码是将类别变量转换为机器学习算法易于利用的一种形式的过程,即One-Hot编码是分类变量作为二进制向量的表示。
在本实施例中,由于使用One-Hot方法编码的向量会很高维也很稀疏,通过Embedding层将One-Hot编码形式的SMILES字符串降维,能够有效降低后续数据处理量,提高数据处理效率。例如:依次输入一个SMILES字符串的一个字符的One-Hot形式,例如,阿司匹林的SMILES字符串是“CC(=O)OC1=CC=CC=C1C(=O)O”。为方便说明,假设SMILES字符串只有“C”,“(”,“=”,“O”,“)”,“1”这6种字符。则“C”为[1,0,0,0,0,0],“(”为[0,1,0,0,0,0]以此类推。那么依次输入[1,0,0,0,0,0],[1,0,0,0,0,0],[0,1,0,0,0,0],……[0,0,0,0,1,0],[0,0,0,1,0,0]。将字符从较长的One-Hot编码转化成较短的编码格式,从而降低字符维度。例如将1*6维的C[1,0,0,0,0,0]压缩成1*3维的[0.1524019,0.18289618,0.3591292]。
步骤S13,将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征。
在本实施例中,由于SMILES字符串是上下文相关联的,采用多层双向GRU层能够有效学习到SMILES字符串的前后关联特征。例如,***的SMILES形式是“CN1CC[C@]23C4=C5C=CC(O)=C4O[C@H]2[C@@H](O)C=C[C@H]3[C@H]1C5”。“1”用来标记环,即第一个“1”的前一个字符“N”到第二个“1”的元素是在一个环上,中间间隔54个字符。因此,需要采用多层双向GRU层来解决长序列问题。此外,双向结构可以分析当前字符与先前输入的字符和后来输入的字符的关联,即分析、联系上下文,并且多层结构能学习更复杂的特征。
在本实施例中,循环神经网络(Recurrent Neural Networks,简称“RNN”)的主要用途是处理和预测序列数据,RNN可以用来连接先前的信息到当前的任务上,例如使用过去的视频段来推测对当前段的理解。而GRU是一种长短期记忆网络(Long Short TermMemory,简称“LSTM”)的变体,而LSTM是一种特殊的RNN类型,可以学习长期依赖信息。
在经典的循环神经网络中,状态的传输是从前往后单向的。然而,在有些问题中,当前时刻的输出不仅和之前的状态有关系,也和之后的状态相关。这时就需要双向RNN(BiRNN)来解决这类问题。双向RNN是由两个RNN上下叠加在一起组成的,输出由这两个RNN的状态共同决定。将双向RNN中的RNN替换成GRU结构,则组成了双向GRU(即BiGRU)。
具体地,参见图3,多层双向GRU层中的每层双向GRU层均包括:正向GRU和反向GRU。其中,多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接;多层双向GRU层的中间层的输入是其上一层双向GRU层同一个时间步的输出。
在本实施例中,多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接,即正向GRU正序完全处理完上一层的输出和后向GRU逆序完全处理完上一层的输出而保留下的信息。多层双向GRU层中间层的输入是上一层双向GRU层同一个时间步的输出,即同为t时刻正向GRU层与反向GRU层的输出的拼接,即t时刻上下文的信息。
进一步地,为了减少模型训练过程中过拟合的问题,引入了dropout技术。上述步骤S13可以通过如下方式实现:
将降维处理后的One-Hot数字编码进行dropout技术处理,并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入;
在同一个时刻中,对除最后一层双向GRU层外其他双向GRU层之间的信息传递进行dropout技术处理。
在本实施例中,先对输入数据进行dropout,即对Embedding层降维后的SMILES字符串dropout,dropout后的数据作为第一层GRU层的输入。
对除了最后一层双向GRU层的输出进行垂直dropout,即仅在同一个t时刻中,多层双向GRU层之间传递信息的时候进行dropout,而不对同一层GRU层内传递信息的时候进行dropout。上述dropout处理,能够有效减少过拟合,避免模型参数过分依赖训练数据。
步骤S14,采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。
在本实施例中,使用全连接层非线性组合多层双向GRU层的学习到的字符前后关联特征,用来预测分子的化学性质和物理性质。
具体地,物理化学性质可以包括:化学分子的熔点、正辛醇-水分配系数、半数抑制浓度、毒性。
在本实施例中,上述定量构效方法可预测的化学性质和物理性质包括但不限于熔点、正辛醇-水分配系数(即Octanol-Water Partition Coefficient,LogP),半数抑制浓度(即Half Maximal Inhibitory Concentration,IC50),毒性。而传统的定量构效方法只能预测熔点、正辛醇-水分配系数等属性,无法预测半数抑制浓度等属性。
可选地,参见图1,该定量构效方法还可以包括:
步骤S15,采用迁移学习方式,利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层,形成新的化学分子属性预测模型。
步骤S16,采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合,完成新的化学分子属性预测模型的训练。
在本实施例中,参见图4,使用迁移学习来节省模型训练时间。去掉已经训练好的预测某属性的模型的全连接层和输出层,保留输入层、Embedding层和多层双向GRU层,加入新的全连接层和输出层,使用新的数据集对拼接后的模型进行训练。由于多层双向GRU层已经学习到部分特征,可以通过迁移学习加速新模型的训练。例如,我们完成预测熔点模型的训练后,其余模型都可以使用预测熔点模型的输入层、Embedding层和多层双向GRU层的参数来加速训练。
进一步地,在上述步骤S15中,化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练;在上述步骤S16中,新的化学分子属性预测模型采用只有少量数据的物理化学性质数据进行微调训练,通过使用迁移学习可以提高模型预测能力。
在本实施例中,由于一些特殊的物理化学性质的数据相对较少,可以通过先训练有大量数据的物理化学性质模型(即步骤S15中的化学分子属性预测模型),再使用只有少量数据的物理化学性质数据进行微调,避免因数据过少带来的过拟合,形成优化后的模型(即步骤S16中的新的化学分子属性预测模型)提高模型预测能力。例如,需要预测只有少量数据的半数抑制浓度,可以先有大量数据的预测熔点模型,然后使用半数抑制浓度数据微调,进而避免因数据过少带来的过拟合,提高模型预测能力。
本发明实施例通过将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理;然后将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征;最后采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。这样形成的定量构效方法是基于SMILES来形成化学分子属性预测模型的,避免了现有技术中含有人为设计的分子标识符,致使预测结果是受人为因素影响的问题,使得形成化学分子属性预测模型对化学分子属性的预测结果更加准确可靠。
实施例二
本发明实施例提供了一种基于SMILES的定量构效装置,执行了实施例一所述的基于SMILES的定量构效方法,参见图5,该定量构效装置可以包括:
构建模块100,用于构建化学分子属性预测模型,该化学分子属性预测模型可以包括:Embedding层、多层双向GRU层、以及全连接层。
在本实施例中,化学分子属性预测模型可以包括:输入层、Embedding层、多层双向GRU层、全连接层、以及输出层,该模型的建立是用于预测化学分子的某种属性的,模型初步构建好后,采用已有的数据对其进行训练,训练完成后即可用来预测化学分子的物理化学性质。
降维模块200,用于将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理。
在本实施例中,SMILES字符串是一种用ASCII字符串明确描述分子结构的规范,可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。因SMILES字符串的适用性强,可作为输入可以处理绝大部分分子数据。One-Hot数字编码是将类别变量转换为机器学习算法易于利用的一种形式的过程,即One-Hot编码是分类变量作为二进制向量的表示。
在本实施例中,由于使用One-Hot方法编码的向量会很高维也很稀疏,通过Embedding层将One-Hot编码形式的SMILES字符串降维,能够有效降低后续数据处理量,提高数据处理效率。
学习模块300,用于将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征。
在本实施例中,由于SMILES字符串是上下文相关联的,采用多层双向GRU层能够有效学习到SMILES字符串的前后关联特征。例如,***的SMILES形式是“CN1CC[C@]23C4=C5C=CC(O)=C4O[C@H]2[C@@H](O)C=C[C@H]3[C@H]1C5”。“1”用来标记环,即第一个“1”的前一个字符“N”到第二个“1”的元素是在一个环上,中间间隔54个字符。因此,需要采用多层双向GRU层来解决长序列问题。此外,双向结构可以分析当前字符与先前输入的字符和后来输入的字符的关联,即分析、联系上下文,并且多层结构能学习更复杂的特征。
在本实施例中,RNN的主要用途是处理和预测序列数据,RNN可以用来连接先前的信息到当前的任务上,例如使用过去的视频段来推测对当前段的理解。而GRU是一种LSTM(即Long Short Term Memory)的变体,而LSTM是一种特殊的RNN类型,可以学习长期依赖信息。
在经典的循环神经网络中,状态的传输是从前往后单向的。然而,在有些问题中,当前时刻的输出不仅和之前的状态有关系,也和之后的状态相关。这时就需要双向RNN(BiRNN)来解决这类问题。双向RNN是由两个RNN上下叠加在一起组成的,输出由这两个RNN的状态共同决定。将双向RNN中的RNN替换成GRU结构,则组成了双向GRU(即BiGRU)。
第一训练模块400,用于采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。
在本实施例中,使用全连接层非线性组合多层双向GRU层的学习到的字符前后关联特征,用来预测分子的化学性质和物理性质。
具体地,物理化学性质可以包括:化学分子的熔点、正辛醇-水分配系数、半数抑制浓度、毒性。
在本实施例中,上述定量构效方法可预测的化学性质和物理性质包括但不限于熔点、正辛醇-水分配系数(即Octanol-Water Partition Coefficient,LogP),半数抑制浓度(即Half Maximal Inhibitory Concentration,IC50),毒性。而传统的定量构效方法只能预测熔点、正辛醇-水分配系数等属性,无法预测半数抑制浓度等属性。
可选地,多层双向GRU层中的每层双向GRU层均包括:正向GRU和反向GRU。其中,多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接;多层双向GRU层的中间层的输入是其上一层双向GRU层同一个时间步的输出。
在本实施例中,多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接,即正向GRU正序完全处理完上一层的输出和后向GRU逆序完全处理完上一层的输出而保留下的信息。多层双向GRU层中间层的输入是上一层双向GRU层同一个时间步的输出,即同为t时刻正向GRU层与反向GRU层的输出的拼接,即t时刻上下文的信息。
进一步地,为了减少模型训练过程中过拟合的问题,引入了dropout技术。
学习模块300,还用于将降维处理后的One-Hot数字编码进行dropout技术处理,并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入;
学习模块300,还用于在同一个时刻中,对除最后一层双向GRU层外其他双向GRU层之间的信息传递进行dropout技术处理。
在本实施例中,先对输入数据进行dropout,即对Embedding层降维后的SMILES字符串dropout,dropout后的数据作为第一层GRU层的输入。
对除了最后一层双向GRU层的输出进行垂直dropout,即仅在同一个t时刻中,多层双向GRU层之间传递信息的时候进行dropout,而不对同一层GRU层内传递信息的时候进行dropout。上述dropout处理,能够有效减少过拟合,避免模型参数过分依赖训练数据。
可选地,参见图4,该定量构效装置还可以包括:
替换模块500,用于采用迁移学习方式,利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层,形成新的化学分子属性预测模型。
第二训练模块600,用于采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合,完成新的化学分子属性预测模型的训练。
在本实施例中,使用迁移学习来节省模型训练时间。去掉已经训练好的预测某属性的模型的全连接层和输出层,保留输入层、Embedding层和多层双向GRU层,加入新的全连接层和输出层,使用新的数据集对拼接后的模型进行训练。由于多层双向GRU层已经学习到部分特征,可以通过迁移学习加速新模型的训练。例如,我们完成预测熔点模型的训练后,其余模型都可以使用预测熔点模型的输入层、Embedding层和多层双向GRU层的参数来加速训练。
进一步地,在替换模块500的执行过程中,化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练;在第二训练模块600的执行过程中,新的化学分子属性预测模型采用只有少量数据的物理化学性质数据进行微调训练,通过使用迁移学习可以提高模型预测能力。
在本实施例中,由于一些特殊的物理化学性质的数据相对较少,可以通过先训练有大量数据的物理化学性质模型(即替换模块500的执行过程中的化学分子属性预测模型),再使用只有少量数据的物理化学性质数据进行微调,避免因数据过少带来的过拟合,形成优化后的模型(即第二训练模块600的执行过程中的新的化学分子属性预测模型)提高模型预测能力。例如,需要预测只有少量数据的半数抑制浓度,可以先有大量数据的预测熔点模型,然后使用半数抑制浓度数据微调,进而避免因数据过少带来的过拟合,提高模型预测能力。
本发明实施例通过将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理;然后将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征;最后采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。这样形成的定量构效方法是基于SMILES来形成化学分子属性预测模型的,避免了现有技术中含有人为设计的分子标识符,致使预测结果是受人为因素影响的问题,使得形成化学分子属性预测模型对化学分子属性的预测结果更加准确可靠。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是:上述实施例提供的基于SMILES的定量构效装置在实现基于SMILES的定量构效方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于SMILES的定量构效装置与基于SMILES的定量构效方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于SMILES的定量构效方法,其特征在于,所述方法包括:
构建化学分子属性预测模型,所述化学分子属性预测模型包括:Embedding层、多层双向GRU层、以及全连接层;
将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理;
将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征;
采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。
2.根据权利要求1所述的方法,其特征在于,多层双向GRU层中的每层双向GRU层均包括:正向GRU和反向GRU,
多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接;
多层双向GRU层的中间层的输入是其上一层双向GRU层同一个时间步的输出。
3.根据权利要求2所述的方法,其特征在于,所述将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征,包括:
将降维处理后的One-Hot数字编码进行dropout技术处理,并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入;
在同一个时刻中,对除最后一层双向GRU层外其他双向GRU层之间的信息传递进行dropout技术处理。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用迁移学习方式,利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层,形成新的化学分子属性预测模型;
采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合,完成新的化学分子属性预测模型的训练。
5.根据权利要求4所述的方法,其特征在于,所述化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练;
所述新的化学分子属性预测模型采用只有少量数据的物理化学性质数据进行微调训练。
6.一种基于SMILES的定量构效装置,其特征在于,包括:
构建模块,用于构建化学分子属性预测模型,所述化学分子属性预测模型包括:Embedding层、多层双向GRU层、以及全连接层;
降维模块,用于将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理;
学习模块,用于将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征;
第一训练模块,用于采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。
7.根据权利要求6所述的装置,其特征在于,多层双向GRU层中的每层双向GRU层均包括:正向GRU和反向GRU,
多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接;
多层双向GRU层的中间层的输入是其上一层双向GRU层同一个时间步的输出。
8.根据权利要求7所述的装置,其特征在于,所述学习模块,还用于将降维处理后的One-Hot数字编码进行dropout技术处理,并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入;
所述学习模块,还用于在同一个时刻中,对除最后一层双向GRU层外其他双向GRU层之间的信息传递进行dropout技术处理。
9.根据权利要求6所述的装置,其特征在于,还包括:
替换模块,用于采用迁移学习方式,利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层,形成新的化学分子属性预测模型;
第二训练模块,用于采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合,完成新的化学分子属性预测模型的训练。
10.根据权利要求9所述的装置,其特征在于,所述化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练;
所述新的化学分子属性预测模型采用只有少量数据的物理化学性质数据进行微调训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811516668.6A CN111312340A (zh) | 2018-12-12 | 2018-12-12 | 一种基于smiles的定量构效方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811516668.6A CN111312340A (zh) | 2018-12-12 | 2018-12-12 | 一种基于smiles的定量构效方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111312340A true CN111312340A (zh) | 2020-06-19 |
Family
ID=71161367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811516668.6A Pending CN111312340A (zh) | 2018-12-12 | 2018-12-12 | 一种基于smiles的定量构效方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111312340A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111755078A (zh) * | 2020-07-30 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 药物分子属性确定方法、装置及存储介质 |
CN112509644A (zh) * | 2020-12-18 | 2021-03-16 | 深圳先进技术研究院 | 一种分子优化方法、***、终端设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761431A (zh) * | 2014-01-10 | 2014-04-30 | 大连理工大学 | 定量结构活性关系预测有机化学品鱼类生物富集因子 |
CN106575320A (zh) * | 2014-05-05 | 2017-04-19 | 艾腾怀斯股份有限公司 | 结合亲和力预测***和方法 |
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
US20180288086A1 (en) * | 2017-04-03 | 2018-10-04 | Royal Bank Of Canada | Systems and methods for cyberbot network detection |
-
2018
- 2018-12-12 CN CN201811516668.6A patent/CN111312340A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761431A (zh) * | 2014-01-10 | 2014-04-30 | 大连理工大学 | 定量结构活性关系预测有机化学品鱼类生物富集因子 |
CN106575320A (zh) * | 2014-05-05 | 2017-04-19 | 艾腾怀斯股份有限公司 | 结合亲和力预测***和方法 |
US20180288086A1 (en) * | 2017-04-03 | 2018-10-04 | Royal Bank Of Canada | Systems and methods for cyberbot network detection |
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
Non-Patent Citations (2)
Title |
---|
MARWIN H. S. SEGLER EL.: "Generating Focused Molecule Libraries for Drug Discovery with Recurrent Neural Networks", 《ACS CENTRAL SCIENCE》 * |
李骁 等: "基于GRU网络的互联网信息挖掘", 《信息技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111755078A (zh) * | 2020-07-30 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 药物分子属性确定方法、装置及存储介质 |
CN111755078B (zh) * | 2020-07-30 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 药物分子属性确定方法、装置及存储介质 |
CN112509644A (zh) * | 2020-12-18 | 2021-03-16 | 深圳先进技术研究院 | 一种分子优化方法、***、终端设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522962B (zh) | 序列推荐方法、装置及计算机可读存储介质 | |
CN111914085B (zh) | 文本细粒度情感分类方法、***、装置及存储介质 | |
CN113241128B (zh) | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 | |
EP0762294A2 (en) | Computer system using genetic optimization techniques | |
CN106897268A (zh) | 文本语义理解方法、装置和*** | |
CN112000772B (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN108876044B (zh) | 一种基于知识增强神经网络的线上内容流行度预测方法 | |
CN110795618B (zh) | 内容推荐方法、装置、设备及计算机可读存储介质 | |
CN112000770A (zh) | 面向智能问答的基于语义特征图的句子对语义匹配方法 | |
CN115240786A (zh) | 反应物分子的预测方法、训练方法、装置以及电子设备 | |
CN113641819A (zh) | 基于多任务稀疏共享学习的论辩挖掘***及方法 | |
CN112652358A (zh) | 基于三通道深度学习调控疾病靶点的药物推荐***、计算机设备、存储介质 | |
CN114360662A (zh) | 一种基于两路多分支cnn的单步逆合成方法及*** | |
CN111312340A (zh) | 一种基于smiles的定量构效方法和装置 | |
CN113011529A (zh) | 文本分类模型的训练方法、装置、设备及可读存储介质 | |
CN112738647B (zh) | 一种基于多层级编码-解码器的视频描述方法及*** | |
Wu et al. | Evolutionary multitasking for bidirectional adaptive codec: A case study on vehicle routing problem with time windows | |
CN110046709A (zh) | 一种基于双向lstm的多任务学习模型 | |
CN112927810B (zh) | 基于大数据的智慧医疗响应方法及智慧医疗云计算*** | |
CN113033782B (zh) | 一种手写数字识别模型训练方法和*** | |
CN116599683A (zh) | 一种恶意流量检测方法、***、装置及存储介质 | |
CN111008276B (zh) | 一种完整实体关系抽取方法及装置 | |
CN114969279A (zh) | 一种基于层次图神经网络的表格文本问答方法 | |
CN116861962A (zh) | 一种数据处理方法及装置 | |
CN114707655A (zh) | 一种量子线路转换方法、***、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200619 |