CN112466399B

CN112466399B - 一种通过机器学习算法预测化学品致突变性的方法

Info

Publication number: CN112466399B
Application number: CN202011309632.8A
Authority: CN
Inventors: 陈景文; 吴思甜
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-10-21
Anticipated expiration: 2040-11-19
Also published as: CN112466399A

Abstract

本发明属于生态风险评价测试策略领域，公开一种通过机器学习算法预测化学品致突变性的方法。在已知化合物分子结构的基础上，通过计算分子指纹，应用所构建的方法，即能快速、高效的预测化合物的致突变性。该方法简单快捷、成本低廉，且能节省实验测试所需的人力、物力、财力。方法的构建过程如下：搜集化学品致突变性数据；数据预处理；计算分子指纹；选择机器学习算法并训练模型；选用准确度等指标对模型进行评价；表征应用域；在构建的方法中，输入待测分子，输出待测分子的致突变性。本发明建立的预测模型具有良好的拟合能力、稳健性和预测能力，能够有效地预测化学品的致突变性，为化学品的风险评价和管理提供必要的基础数据，具有重要意义。

Description

一种通过机器学习算法预测化学品致突变性的方法

技术领域

本发明涉及一种通过建立QSAR模型预测化学品致突变性的方法，属于生态风险评价测试策略领域。

背景技术

致突变性指的是诱导遗传性损伤的能力。遗传物质发生改变可以通过以下几种方式：基因突变；染色体畸变；染色体数目改变。基因突变指的是基因组DNA分子发生的突然地、可遗传的变异现象。其中包括碱基对的置换以及碱基对的增加或减少。染色体畸变则是指染色体在结构上发生变化。所以能够致使突变发生的诱变剂也就分为两类。一类是直接作用于DNA的诱变剂，另一类是作用于染色体的复制或***的诱变剂。

针对不同作用方式的诱变剂，有不一样的致突变性检测方法。对于作用于DNA的诱变剂来说，经常用到的检测试验方法有鼠伤寒沙门氏菌细菌回复突变试验(Ames实验)以及哺乳动物细胞基因突变试验等。对于作用于染色体的诱变剂来说，经常用到的实验方法有染色体分析、染色体畸变实验、微核试验、显性致死实验、姐妹染色单体交换实验等。从2013年开始，欧盟规定，化妆品物质的致突变性基本测试，建议使用三种体外测试分析：Ames测试、体外哺乳动物细胞突变试验、体外哺乳动物细胞微核试验或染色体畸变实验。

但使用实验的方法检测化学品致突变性有很多弊端，比如会花费大量的时间和精力等。近些年来计算机科学、化学信息学发展迅速，计算机建模成为辅助药物开发和预测毒性的有力工具。所以使用计算的方法预测化学品致突变性，逐渐发展起来。

目前已构建的致突变性预测模型虽然有其自身的特点，但也存在一些不足之处。这些不足主要体现在以下几个方面：第一，以往研究在使用计算的方法预测化学品致突变性时，建模使用的训练数据，多为单种实验数据或两种实验数据结合，没有覆盖检测所有致突变类型的实验，导致预测出的结果代表该种化学品是否仅作用于DNA导致突变，或仅作用于染色体导致突变。预测结果存在片面性。第二，以往建立的预测模型大多未表征模型使用的应用域，导致在具体使用模型的过程中，对有些化学品致突变性的预测产生较大偏差。

基于以上原因，我搜集了包含Ames实验、小鼠淋巴瘤试验、微核试验的实验数据，数据覆盖致使基因突变、染色体变异的实验结果。综合各实验结果，整理出涵盖三种实验结果的数据集。根据全面的数据集，基于Python编程语言，使用机器学习方法建立预测化学品致突变性的模型，并表征应用域，明确模型的适用范围，使模型的使用范围更加明确。

发明内容

本发明提供了一种简便、高效预测化学品致突变性的方法，该方法可以根据化合物的SMILES码，预测其致突变性，为化学品风险评价和管理提供必要的基础依据。在建模过程中参照OECD对QSAR模型构建和使用导则，进行了内、外部验证考察模型的预测能力和稳健性，并表征了模型的应用域，使模型更具备明确的应用范围。

本发明的技术方案如下：

一种通过机器学习算法预测化学品致突变性的方法，步骤如下：

搜集并整理出6713种涵盖不同种实验的化合物致突变性数据，根据化合物的SMILES码，计算其分子指纹；所有化合物的分子指纹及化合物的致突变性数据构成数据集；将数据集按照4:1比例随机拆分为训练集和验证集；训练集用于训练模型，验证集用于评估模型的外部预测能力；利用Tanimoto系数结合阈值表征模型应用域；

(1)数据搜集与整理

(1.1)数据搜集：搜集不同化合物的体内微核实验数据、体外微核实验数据、Ames实验数据和小鼠淋巴瘤实验数据及化合物对应的CAS号和SMILES码；若化合物有致突变性，实验数据为1，若化合物无致突变性，实验数据为0；

(1.2)数据综合：对于有多种实验的实验数据的化合物，若所有实验的实验数据一致，则保留该化合物及对应数据，若不同实验的实验数据不一致，则将该化合物及对应数据删除；

(1.3)数据处理：利用RDkit检查化合物对应SMILES码的正确性，删除SMILES码重复的化合物；同样利用RDkit对剩余化合物的SMILES码进行中性化及脱盐处理，最终去除SMIELS码中含金属/非金属的化合物；

(2)计算化合物的分子指纹

(2.1)生成mol文件：利用RDkit中的MolFromSmiles函数将化合物对应的SMILES码转化为mol格式文件；

(2.2)计算分子指纹：利用RDkit中的GetMorganFingerprintAsBitVect函数，根据产生的mol文件计算Morgan分子指纹；

(3)模型训练

将化合物的分子指纹及化合物的实验数据组合成数据集；将数据集按照4:1比例随机拆分为训练集和验证集，以训练集的实验数据1或0为因变量，以训练集的Morgan分子指纹为自变量，选用梯度提升决策树算法，拟合因变量和自变量，训练模型；通过网格搜索法确定算法的最佳超参数，确定最佳超参数后，用模型拟合验证集的实验数据和Morgan分子指纹；

最终确定出的模型超参数为：n_estimators＝100,max_depth＝26,min_samples_leaf＝6,min_samples_split＝100。

其中，n_estimators为最大的弱学习器的个数，max_depth为决策树最大深度，min_samples_leaf为叶子节点最少样本数，min_samples_split为内部节点再划分所需最小样本数。

(4)模型评估

通过5折交叉验证的方法计算模型在训练集的平均准确度，并通过ROC曲线下方的面积大小：AUC，来表征模型的效果；

使用验证集对模型进行外部验证，同样采用平均准确度和AUC进行评价；

最终模型的评价结果为：

内部交叉验证准确率：0.789；内部交叉验证AUC：0.863；外部验证准确率：0.799；外部验证AUC：0.797。表明模型有较好的预测效果和稳定性。

(5)应用域表征

基于Morgan分子指纹，使用RDkit中的TanimotoSimilarity函数计算每个验证集分子与训练集分子之间的Tanimoto系数T；

使用函数计算出的T评价两个分子之间的相似性：

其中，A和B是两种化学品的指纹；

将阈值设定为0.25，若化合物与训练集中化合物分子相似性在0.25及以上的分子多于4个，则判定该化合物在应用域内，用此模型进行预测，否则认定该化合物在应用域外，不能用此模型进行预测。

本发明的有利效果是：

所建模型可以用于化合物的的多种类型的致突变性，且有明确的应用范围。该方法简便快捷、成本低廉。使用该发明专利的化合物致突变性预测结果，可以为化学品监管提供数据支持，对化学品的生态风险性评价具有重要意义。

附图说明

图1为整体方法的构建流程。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

实施例1

给定一个化合物二亚硝基咖啡因(CAS号：145438-97-7)，要预测其致突变性，首先根据二亚硝基咖啡因的Smiles码，利用RDkit软件包计算其分子指纹，然后计算其与训练集每个分子的相似性，计算得，训练集中分子与其相似性大于0.25的分子有5个，所以其在应用域内。根据其分子指纹，使用GBDT模型进行预测。得出结果为1,说明此化合物有致突变性。预测结果与实验结果相同。

实施例2

给定一个化合物对茴香胺(CAS号：104-94-9)，要预测其致突变性，首先根据对茴香胺的Smiles码，利用RDkit软件包计算其分子指纹，然后计算其与训练集每个分子的相似性，计算得，训练集中分子与其相似性大于0.25的分子有267个，所以其在应用域内。根据其分子指纹，使用GBDT模型进行预测。得出结果为1,说明此化合物有致突变性。预测结果与实验结果相同。

实施例3

给定一个化合物10,10-二甲基十一烷-1-胺(CAS号：68955-53-3)，要预测其致突变性，首先根据10,10-二甲基十一烷-1-胺的Smiles码，利用RDkit软件包计算其分子指纹，然后计算其与训练集每个分子的相似性，计算得，训练集中分子与其相似性大于0.25的分子有91个，所以其在应用域内。根据其分子指纹，使用GBDT模型进行预测。得出结果为0,说明此化合物无致突变性。预测结果与实验结果相同。

Claims

1.一种通过机器学习算法预测化学品致突变性的方法，其特征在于，步骤如下：