CN115274002A

CN115274002A - 一种基于机器学习的化合物持久性筛查方法

Info

Publication number: CN115274002A
Application number: CN202210664747.1A
Authority: CN
Inventors: 韩民; 金彪; 张干
Original assignee: Guangzhou Institute of Geochemistry of CAS
Current assignee: Guangzhou Institute of Geochemistry of CAS
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-11-01
Anticipated expiration: 2042-06-13
Also published as: CN115274002B

Abstract

本发明公开了一种基于机器学习的化合物持久性筛查方法，包括：下载化合物的SMILES，并计算化合物的分子描述符；将计算好的分子描述符按顺序排列好，输入至机器学习筛查预测模型中进行应用域判定，以对在应用域范围内的化合物进行预测；机器学习筛查模型输出化合物的持久性筛查预测结果。本申请通过用机器学习筛查预测模型对海量化学品的持久性进行预测，结合多种机器学习算法和采用尽可能多的分子描述符，以期筛选具有较强持久性的化学污染物。

Description

一种基于机器学习的化合物持久性筛查方法

技术领域

本发明涉及化合物性质筛查技术，具体涉及一种基于机器学习的化合物持久性筛查方法。

背景技术

大量的化学品通过排放赋存在自然环境，其中具有高持久性的化学物质难以降解，可以在环境中长久存在，会对生态环境造成严重影响。标准的持久性筛查方法是首先检查目标物是否是REACH高度关注物质中已知的PBT类物质或已存在于POPs清单中，若在，则认为该物质具有持久性。对于不在这些清单中的物质，则首先利用PubChem数据库(https://pubchem.ncbi.nlm.nih.gov/)查找获取该物质的实验半衰期数据；如果实验数据不足确定物质的持久性，将用“PBT-BIOWIN”或QSAR Toolbox中的“P Pridictor”物质半衰期预测模型工具来进行判断。如果使用这两种筛查工具得到的化合物持久性结论有所冲突，上一步从PubChem中获得的物质实验半衰期数据也作为P结论的证据权重。当这些证据仍然不足以得出持久性结论时，Arnot-BIOWIN模型将辅助得到最后的结论。需要特别注意的是“potential P++”结论，如果该化合物在饮用水中被检测出，“vP”将代替“potential P++”成为该物质持久性的结论。现有技术由于需要对化合物逐一手动筛查，因此筛查速度较慢，无法实现对海量化合物的快速高通量筛查。

针对化合物的持久性筛查，目前相关实验数据仍匮乏，新型化学污染物层出不穷，标准的筛查方法难以进行快速高通量筛查，此外传统的QSAR方法采用的分子描述符较少，无法实现对化合物信息的准确描述。

发明内容

为了解决上述背景技术所存在的至少一技术问题，本发明提供一种基于机器学习的化合物持久性筛查方法。

为实现上述目的，本发明的技术方案是：

一种基于机器学习的化合物持久性筛查方法，包括：

下载化合物的SMILES，并计算化合物的分子描述符；

将计算好的分子描述符按顺序排列好，输入至机器学习筛查预测模型中进行应用域判定，以对在应用域范围内的化合物进行预测；

机器学习筛查模型输出化合物的持久性筛查预测结果。

进一步地，所述机器学习筛查预测模型通过如下方式构建：

数据库建立：所述数据库包括持久性化合物样本和非持久性化合物样本，持久性化合物样本作为正类样本，非持久性化合物样本作为反类样本；

分子描述：对于所述数据库中的每个化合物都计算其二维分子描述符，并对其中具有缺失值的描述符以及对所有化合物而言为常数值的描述符进行去除，以保留有效分子描述符作为数据集；

数据处理平衡及建模：对所述数据集采用基于集成学***衡处理；在Easy Ensemble算法中基分类器采用Adaboost基分类器，分别采用高斯朴素贝叶斯、伯努利朴素贝叶斯、决策树、随机森林、逻辑回归、线性支持向量机、多项式核函数的支持向量机以及高斯RBF核函数的支持向量机八种机器学习算法作为弱分类器算法构建八个Easy Ensemble模型；将八个Easy Ensemble模型进行超参数调优之后进行集成，得到最终的机器学习筛查预测模型。

进一步地，所述参数调优包括：

将数据集集按相同正反比例划分为训练集和测试集，训练集用于训练模型，测试集用于测试模型的性能；

采用网格搜索和交叉验证法在训练集上进行超参数调节，其中，训练集又进一步划分为训练集和验证集，通过调节在验证集上的效果获取最优超参数；

对超参数“n_estimators”进行调节，候选八个模型的最优目标参数，调优目标为准确率；“n_estimators”为Easy Ensemble模型中基分类器的个数；

在获取最优超参数之后，在全部训练集上训练模型，然后在测试集上测试模型效果。

进一步地，所述八个模型的最优目标参数分别为5,10,15,20,25,30,35和40。

进一步地，所述应用域判定的计算方法为：

采用欧几里得距离来判断化合物之间的相似度；计算训练数据集中所有化学物质的分子描述符的平均值作为质心；计算训练数据集中单个化合物与质心之间的欧氏距离，并以最长距离作为应用域的阈值；当目标化合物与质心之间的欧氏距离小于阈值时，则认为化合物在应用域之内。

进一步地，目标化合物与质心之间欧氏距离的数学表达式如下所示:

其中，d_i代表第i个化合物与质心之间的欧氏距离，x_k,i代表第i个化合物的第k个分子描述符，x_k,centroid代表质心的第k个分子描述符。

进一步地，所述反类样本的数量多于正类样本数量。

进一步地，所述化合物的分子描述符通过alvaDesc软件来进行计算。

进一步地，所述有效分子描述符有2630个。

进一步地，采用软投票法将八个Easy Ensemble模型进行集成。

进一步地，所述训练集占比80％，测试集占比20％

本发明与现有技术相比，其有益效果在于：

本申请通过用机器学习筛查预测模型可以实现对海量化学品的持久性进行预测，结合多种机器学习算法和尽可能多的分子描述符，以期准确地筛选具有较强持久性的化学污染物。

附图说明

图1为本发明实施例提供的基于机器学习的化合物持久性筛查方法的流程图；

图2为机器学习筛查预测模型的构建流程图。

具体实施方式

实施例：

下面结合附图和实施例对本发明的技术方案做进一步的说明。

针对化合物的持久性筛查，目前相关实验数据仍匮乏，新型化学污染物层出不穷，标准的筛查方法难以进行快速高通量筛查，此外传统的QSAR方法采用的分子描述符较少，无法实现对化合物信息的准确描述。鉴于这个现状，本实施例提供了基于机器学习的化合物持久性筛查方法。

参阅图1所示，本实施例提供的基于机器学习的化合物持久性筛查方法主要包括如下步骤：

101、下载化合物的SMILES，然后将化合物的SMILES输入到软件alvaDesc中计算化合物的分子描述符；

102、将计算好的分子描述符按顺序排列好，保存为EXCEL文件，然后利用Python程序导入至机器学习筛查预测模型中进行应用域判定，以对在应用域范围内的化合物进行预测；

103、机器学习筛查模型输出化合物的持久性筛查预测结果。

由此可见，本申请通过用机器学习筛查预测模型对海量化学品的持久性进行预测，在机器学习算法和尽可能多的分子描述符，以期筛选具有较强持久性的化学污染物。

参阅图2所示，机器学习筛查模型通过如下方式构建：

数据库建立：通过阅读文献，共选择了1338种以前研究中具有持久性评估的化学品。其中370个化合物为持久性化合物(正类样本)，968个化合物为非持久性化合物(反类样本)。此外，为了保证数据质量，这1339种化合物的持久性评估均基于高质量的实验数据。

分子描述：对于以上每个化合物，在pubchem网站(https://pubchem.ncbi.nlm.nih.gov/)下载了SMILES(i.e.simplifiedmolecular input line-entry system)。使用分子描述符计算软件alvaDesc计算了化合物的二维分子描述符。其中，具有缺失值的描述符以及对所有化合物而言为常数值的描述符被去除。最终，对于每个化合物，保留了2630个分子描述符用以后续的建模。

数据平衡处理及建模：由于数据集中，反类样本的数据要明显多于正类样本，这不利于模型的训练。为此，本实施例采用了基于集成学***衡处理。其中，在Easy Ensemble算法中，基分类器采用AdaBoost算法，其中Adaboost基分类器又由若干个弱分类器组成，本实施例分别采用高斯朴素贝叶斯、伯努利朴素贝叶斯、决策树、随机森林、逻辑回归、线性支持向量机、多项式核函数的支持向量机以及高斯RBF核函数的支持向量机等八种机器学习算法作为弱分类器算法构建了八个EasyEnsemble模型；将以上八个模型进行超参数调优之后，用软投票法将以上八个模型进行集成，得到最终模型。

具体地，上述的超参数调优包括：在模型训练过程中，首先将数据集按相同正反比例划分为训练集(80％)和测试集(20％)。其中训练集用于训练模型，测试集用于测试模型的性能。采用网格搜索和交叉验证法在训练集上进行超参数调节，其中，训练集又进一步划分为训练集和验证集，通过调节在验证集上的效果获取最优超参数，对超参数“n_estimators”(即Easy Ensemble模型中基分类器的个数)进行调节，八个模型的最优目标参数分别为5,10,15,20,25,30,35和40，调优目标为准确率。在获取最优超参数之后，在全部训练集上训练模型，然后在测试集上测试模型效果。

具体地，上述的应用域判定的计算方法为：采用欧几里得距离来判断化合物之间的相似度。计算训练数据集中所有化学物质的分子描述符的平均值作为质心。计算训练数据集中单个化合物与质心之间的欧氏距离，并以最长距离作为应用域的阈值。当目标化合物与质心之间的欧氏距离小于阈值时，则认为化合物在应用域之内。目标化合物与质心之间欧氏距离的数学表达式如下所示:

相比于标准的持久性筛查方法，本实施例提供的机器学习筛查预测模型可以在保证一定计算精度前提下极大缩短计算时间，从导入模型到预测268个化合物的性质，模型只需要4分22秒。而如果采用标椎的手动筛查方法，则需要10天以上的时间。由此可以看出本实施例提供机器学习筛查预测模型大大提高了筛查速度，可以实现海量化合物的快速筛查。此外，本机器学习筛查预测模型采用了2630个分子描述符来建模，这些描述符可以较为全面地反应化合物的结构信息。

此外，本实施例采用基于集成学***衡训练数据集，此方法在解决数据不平衡问题的同时，也避免了信息损失。同时，本申请基于集成学习采用了八种机器学习算法来建立机器学习筛查预测模型，最终的模型在测试集上达到了较好的性能，即整体准确率为83.6％，对于持久性物质的准确率为86.5％

上述实施例只是为了说明本发明的技术构思及特点，其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种基于机器学习的化合物持久性筛查方法，其特征在于，包括：

下载化合物的SMILES，并计算化合物的分子描述符；

机器学习筛查模型输出化合物的持久性筛查预测结果。

2.如权利要求1所述的基于机器学习的化合物持久性筛查方法，其特征在于，所述机器学习筛查预测模型通过如下方式构建：

3.如权利要求2所述的基于机器学习的化合物持久性筛查方法，其特征在于，所述参数调优包括：

4.如权利要求3所述的基于机器学习的化合物持久性筛查方法，其特征在于，所述八个模型的最优目标参数分别为5,10,15,20,25,30,35和40。

5.如权利要求3所述的基于机器学习的化合物持久性筛查方法，其特征在于，所述应用域判定的计算方法为：

6.如权利要求5所述的基于机器学习的化合物持久性筛查方法，其特征在于，目标化合物与质心之间欧氏距离的数学表达式如下所示:

7.如权利要求2所述的基于机器学习的化合物持久性筛查方法，其特征在于，所述反类样本的数量多于正类样本数量。

8.如权利要求1或2所述的基于机器学习的化合物持久性筛查方法，其特征在于，所述化合物的分子描述符通过alvaDesc软件来进行计算。

9.如权利要求1所述的基于机器学习的化合物持久性筛查方法，其特征在于，所述有效分子描述符有2630个。

10.如权利要求2所述的基于机器学习的化合物持久性筛查方法，其特征在于，采用软投票法将八个Easy Ensemble模型进行集成。