CN112466399B - 一种通过机器学习算法预测化学品致突变性的方法 - Google Patents

一种通过机器学习算法预测化学品致突变性的方法 Download PDF

Info

Publication number
CN112466399B
CN112466399B CN202011309632.8A CN202011309632A CN112466399B CN 112466399 B CN112466399 B CN 112466399B CN 202011309632 A CN202011309632 A CN 202011309632A CN 112466399 B CN112466399 B CN 112466399B
Authority
CN
China
Prior art keywords
model
data
compound
mutagenicity
compounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011309632.8A
Other languages
English (en)
Other versions
CN112466399A (zh
Inventor
陈景文
吴思甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202011309632.8A priority Critical patent/CN112466399B/zh
Publication of CN112466399A publication Critical patent/CN112466399A/zh
Application granted granted Critical
Publication of CN112466399B publication Critical patent/CN112466399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Physiology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于生态风险评价测试策略领域,公开一种通过机器学习算法预测化学品致突变性的方法。在已知化合物分子结构的基础上,通过计算分子指纹,应用所构建的方法,即能快速、高效的预测化合物的致突变性。该方法简单快捷、成本低廉,且能节省实验测试所需的人力、物力、财力。方法的构建过程如下:搜集化学品致突变性数据;数据预处理;计算分子指纹;选择机器学习算法并训练模型;选用准确度等指标对模型进行评价;表征应用域;在构建的方法中,输入待测分子,输出待测分子的致突变性。本发明建立的预测模型具有良好的拟合能力、稳健性和预测能力,能够有效地预测化学品的致突变性,为化学品的风险评价和管理提供必要的基础数据,具有重要意义。

Description

一种通过机器学习算法预测化学品致突变性的方法
技术领域
本发明涉及一种通过建立QSAR模型预测化学品致突变性的方法,属于生态风险评价测试策略领域。
背景技术
致突变性指的是诱导遗传性损伤的能力。遗传物质发生改变可以通过以下几种方式:基因突变;染色体畸变;染色体数目改变。基因突变指的是基因组DNA分子发生的突然地、可遗传的变异现象。其中包括碱基对的置换以及碱基对的增加或减少。染色体畸变则是指染色体在结构上发生变化。所以能够致使突变发生的诱变剂也就分为两类。一类是直接作用于DNA的诱变剂,另一类是作用于染色体的复制或***的诱变剂。
针对不同作用方式的诱变剂,有不一样的致突变性检测方法。对于作用于DNA的诱变剂来说,经常用到的检测试验方法有鼠伤寒沙门氏菌细菌回复突变试验(Ames实验)以及哺乳动物细胞基因突变试验等。对于作用于染色体的诱变剂来说,经常用到的实验方法有染色体分析、染色体畸变实验、微核试验、显性致死实验、姐妹染色单体交换实验等。从2013年开始,欧盟规定,化妆品物质的致突变性基本测试,建议使用三种体外测试分析:Ames测试、体外哺乳动物细胞突变试验、体外哺乳动物细胞微核试验或染色体畸变实验。
但使用实验的方法检测化学品致突变性有很多弊端,比如会花费大量的时间和精力等。近些年来计算机科学、化学信息学发展迅速,计算机建模成为辅助药物开发和预测毒性的有力工具。所以使用计算的方法预测化学品致突变性,逐渐发展起来。
目前已构建的致突变性预测模型虽然有其自身的特点,但也存在一些不足之处。这些不足主要体现在以下几个方面:第一,以往研究在使用计算的方法预测化学品致突变性时,建模使用的训练数据,多为单种实验数据或两种实验数据结合,没有覆盖检测所有致突变类型的实验,导致预测出的结果代表该种化学品是否仅作用于DNA导致突变,或仅作用于染色体导致突变。预测结果存在片面性。第二,以往建立的预测模型大多未表征模型使用的应用域,导致在具体使用模型的过程中,对有些化学品致突变性的预测产生较大偏差。
基于以上原因,我搜集了包含Ames实验、小鼠淋巴瘤试验、微核试验的实验数据,数据覆盖致使基因突变、染色体变异的实验结果。综合各实验结果,整理出涵盖三种实验结果的数据集。根据全面的数据集,基于Python编程语言,使用机器学习方法建立预测化学品致突变性的模型,并表征应用域,明确模型的适用范围,使模型的使用范围更加明确。
发明内容
本发明提供了一种简便、高效预测化学品致突变性的方法,该方法可以根据化合物的SMILES码,预测其致突变性,为化学品风险评价和管理提供必要的基础依据。在建模过程中参照OECD对QSAR模型构建和使用导则,进行了内、外部验证考察模型的预测能力和稳健性,并表征了模型的应用域,使模型更具备明确的应用范围。
本发明的技术方案如下:
一种通过机器学习算法预测化学品致突变性的方法,步骤如下:
搜集并整理出6713种涵盖不同种实验的化合物致突变性数据,根据化合物的SMILES码,计算其分子指纹;所有化合物的分子指纹及化合物的致突变性数据构成数据集;将数据集按照4:1比例随机拆分为训练集和验证集;训练集用于训练模型,验证集用于评估模型的外部预测能力;利用Tanimoto系数结合阈值表征模型应用域;
(1)数据搜集与整理
(1.1)数据搜集:搜集不同化合物的体内微核实验数据、体外微核实验数据、Ames实验数据和小鼠淋巴瘤实验数据及化合物对应的CAS号和SMILES码;若化合物有致突变性,实验数据为1,若化合物无致突变性,实验数据为0;
(1.2)数据综合:对于有多种实验的实验数据的化合物,若所有实验的实验数据一致,则保留该化合物及对应数据,若不同实验的实验数据不一致,则将该化合物及对应数据删除;
(1.3)数据处理:利用RDkit检查化合物对应SMILES码的正确性,删除SMILES码重复的化合物;同样利用RDkit对剩余化合物的SMILES码进行中性化及脱盐处理,最终去除SMIELS码中含金属/非金属的化合物;
(2)计算化合物的分子指纹
(2.1)生成mol文件:利用RDkit中的MolFromSmiles函数将化合物对应的SMILES码转化为mol格式文件;
(2.2)计算分子指纹:利用RDkit中的GetMorganFingerprintAsBitVect函数,根据产生的mol文件计算Morgan分子指纹;
(3)模型训练
将化合物的分子指纹及化合物的实验数据组合成数据集;将数据集按照4:1比例随机拆分为训练集和验证集,以训练集的实验数据1或0为因变量,以训练集的Morgan分子指纹为自变量,选用梯度提升决策树算法,拟合因变量和自变量,训练模型;通过网格搜索法确定算法的最佳超参数,确定最佳超参数后,用模型拟合验证集的实验数据和Morgan分子指纹;
最终确定出的模型超参数为:n_estimators=100,max_depth=26,min_samples_leaf=6,min_samples_split=100。
其中,n_estimators为最大的弱学习器的个数,max_depth为决策树最大深度,min_samples_leaf为叶子节点最少样本数,min_samples_split为内部节点再划分所需最小样本数。
(4)模型评估
通过5折交叉验证的方法计算模型在训练集的平均准确度,并通过ROC曲线下方的面积大小:AUC,来表征模型的效果;
使用验证集对模型进行外部验证,同样采用平均准确度和AUC进行评价;
最终模型的评价结果为:
内部交叉验证准确率:0.789;内部交叉验证AUC:0.863;外部验证准确率:0.799;外部验证AUC:0.797。表明模型有较好的预测效果和稳定性。
(5)应用域表征
基于Morgan分子指纹,使用RDkit中的TanimotoSimilarity函数计算每个验证集分子与训练集分子之间的Tanimoto系数T;
使用函数计算出的T评价两个分子之间的相似性:
Figure BDA0002789351060000041
其中,A和B是两种化学品的指纹;
将阈值设定为0.25,若化合物与训练集中化合物分子相似性在0.25及以上的分子多于4个,则判定该化合物在应用域内,用此模型进行预测,否则认定该化合物在应用域外,不能用此模型进行预测。
本发明的有利效果是:
所建模型可以用于化合物的的多种类型的致突变性,且有明确的应用范围。该方法简便快捷、成本低廉。使用该发明专利的化合物致突变性预测结果,可以为化学品监管提供数据支持,对化学品的生态风险性评价具有重要意义。
附图说明
图1为整体方法的构建流程。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
实施例1
给定一个化合物二亚硝基咖啡因(CAS号:145438-97-7),要预测其致突变性,首先根据二亚硝基咖啡因的Smiles码,利用RDkit软件包计算其分子指纹,然后计算其与训练集每个分子的相似性,计算得,训练集中分子与其相似性大于0.25的分子有5个,所以其在应用域内。根据其分子指纹,使用GBDT模型进行预测。得出结果为1,说明此化合物有致突变性。预测结果与实验结果相同。
实施例2
给定一个化合物对茴香胺(CAS号:104-94-9),要预测其致突变性,首先根据对茴香胺的Smiles码,利用RDkit软件包计算其分子指纹,然后计算其与训练集每个分子的相似性,计算得,训练集中分子与其相似性大于0.25的分子有267个,所以其在应用域内。根据其分子指纹,使用GBDT模型进行预测。得出结果为1,说明此化合物有致突变性。预测结果与实验结果相同。
实施例3
给定一个化合物10,10-二甲基十一烷-1-胺(CAS号:68955-53-3),要预测其致突变性,首先根据10,10-二甲基十一烷-1-胺的Smiles码,利用RDkit软件包计算其分子指纹,然后计算其与训练集每个分子的相似性,计算得,训练集中分子与其相似性大于0.25的分子有91个,所以其在应用域内。根据其分子指纹,使用GBDT模型进行预测。得出结果为0,说明此化合物无致突变性。预测结果与实验结果相同。

Claims (1)

1.一种通过机器学习算法预测化学品致突变性的方法,其特征在于,步骤如下:
搜集并整理出6713种涵盖不同种实验的化合物致突变性数据,根据化合物的SMILES码,计算其分子指纹;所有化合物的分子指纹及化合物的致突变性数据构成数据集;将数据集按照4:1比例随机拆分为训练集和验证集;训练集用于训练模型,验证集用于评估模型的外部预测能力;利用Tanimoto系数结合阈值表征模型应用域;
(1)数据搜集与整理
(1.1)数据搜集:搜集不同化合物的体内微核实验数据、体外微核实验数据、Ames实验数据和小鼠淋巴瘤实验数据及化合物对应的CAS号和SMILES码;若化合物有致突变性,实验数据为1,若化合物无致突变性,实验数据为0;
(1.2)数据综合:对于有多种实验的实验数据的化合物,若所有实验的实验数据一致,则保留该化合物及对应数据,若不同实验的实验数据不一致,则将该化合物及对应数据删除;
(1.3)数据处理:利用RDkit检查化合物对应SMILES码的正确性,删除SMILES码重复的化合物;同样利用RDkit对剩余化合物的SMILES码进行中性化及脱盐处理,最终去除SMIELS码中含金属/非金属的化合物;
(2)计算化合物的分子指纹
(2.1)生成mol文件:利用RDkit中的MolFromSmiles函数将化合物对应的SMILES码转化为mol格式文件;
(2.2)计算分子指纹:利用RDkit中的GetMorganFingerprintAsBitVect函数,根据产生的mol文件计算Morgan分子指纹;
(3)模型训练
将化合物的分子指纹及化合物的实验数据组合成数据集;将数据集按照4:1比例随机拆分为训练集和验证集,以训练集的实验数据1或0为因变量,以训练集的Morgan分子指纹为自变量,选用梯度提升决策树算法,拟合因变量和自变量,训练模型;通过网格搜索法确定算法的最佳超参数,确定最佳超参数后,用模型拟合验证集的实验数据和Morgan分子指纹;
(4)模型评估
通过5折交叉验证的方法计算模型在训练集的平均准确度,并通过ROC曲线下方的面积大小:AUC,来表征模型的效果;
使用验证集对模型进行外部验证,同样采用平均准确度和AUC进行评价;
(5)应用域表征
基于Morgan分子指纹,使用RDkit中的TanimotoSimilarity函数计算每个验证集分子与训练集分子之间的Tanimoto系数T;
使用函数计算出的T评价两个分子之间的相似性:
Figure FDA0002789351050000021
其中,A和B是两种化学品的指纹;
将阈值设定为0.25,若化合物与训练集中化合物分子相似性在0.25及以上的分子多于4个,则判定该化合物在应用域内,用此模型进行预测,否则认定该化合物在应用域外,不能用此模型进行预测。
CN202011309632.8A 2020-11-19 2020-11-19 一种通过机器学习算法预测化学品致突变性的方法 Active CN112466399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011309632.8A CN112466399B (zh) 2020-11-19 2020-11-19 一种通过机器学习算法预测化学品致突变性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011309632.8A CN112466399B (zh) 2020-11-19 2020-11-19 一种通过机器学习算法预测化学品致突变性的方法

Publications (2)

Publication Number Publication Date
CN112466399A CN112466399A (zh) 2021-03-09
CN112466399B true CN112466399B (zh) 2022-10-21

Family

ID=74836821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011309632.8A Active CN112466399B (zh) 2020-11-19 2020-11-19 一种通过机器学习算法预测化学品致突变性的方法

Country Status (1)

Country Link
CN (1) CN112466399B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628699B (zh) * 2021-07-05 2023-03-17 武汉大学 基于改进的蒙特卡罗强化学习方法的逆合成问题求解方法及装置
CN113948156B (zh) * 2021-10-20 2024-05-07 大连理工大学 一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法
CN114974461A (zh) * 2022-06-15 2022-08-30 烟台国工智能科技有限公司 基于策略学习的多目标属性分子生成方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853701A (zh) * 2019-11-07 2020-02-28 大连理工大学 采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法
CN111292800A (zh) * 2020-01-21 2020-06-16 中南大学 一种基于预测蛋白质亲和力的分子表征及其应用
US10726359B1 (en) * 2019-08-06 2020-07-28 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and automated scalable regularization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726359B1 (en) * 2019-08-06 2020-07-28 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and automated scalable regularization
CN110853701A (zh) * 2019-11-07 2020-02-28 大连理工大学 采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法
CN111292800A (zh) * 2020-01-21 2020-06-16 中南大学 一种基于预测蛋白质亲和力的分子表征及其应用

Also Published As

Publication number Publication date
CN112466399A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN112466399B (zh) 一种通过机器学习算法预测化学品致突变性的方法
CN113076734B (zh) 一种项目文本的相似度检测方法及装置
Birba A Comparative study of data splitting algorithms for machine learning model selection
CN113903409A (zh) 一种分子数据处理方法、模型构建与预测方法及相关装置
Milea et al. Prediction of the msci euro index based on fuzzy grammar fragments extracted from european central bank statements
Gu et al. A distance-type-insensitive clustering approach
CN115700557A (zh) 一种用于对核酸样本进行分类的方法、设备和存储介质
Tumuluru et al. A survey on identification of protein complexes in protein–protein interaction data: Methods and evaluation
CN113791062A (zh) 一种基于拉曼光谱判断固定物质类别的方法
CN113657441A (zh) 基于加权皮尔逊相关系数并结合特征筛选的分类算法
CN109686400B (zh) 一种富集程度检验方法、装置及可读介质、存储控制器
CN112735532A (zh) 基于分子指纹预测的代谢物识别***及其应用方法
CN112053741A (zh) 荧光酶抑制剂筛选模型构建方法及荧光酶抑制剂筛选方法
Muhamad et al. Combination of feature selection approaches with random binary search and Mahalanobis Taguchi System in credit scoring
Hassan et al. Integrated rules classifier for predicting pathogenic non-synonymous single nucleotide variants in human
CN104636636A (zh) 蛋白质远程同源性检测方法及装置
Sinha et al. A study of feature selection and extraction algorithms for cancer subtype prediction
AlSaif Large scale data mining for banking credit risk prediction
CN115965294A (zh) 一种基于机器学习和环境dna的河流水生态健康评价方法
Benschop ‘These footprints are leading us nowhere!’investigation of the usage of footprinting analysis for ATAC-seq data to find regulatory elements
KR102429120B1 (ko) 학습모델 기반 인간 ppar 감마의 길항제 예측 방법 및 분석장치
CN114927239B (zh) 一种应用于药物分析的决策规则自动生成方法及***
Aljameel et al. An Anomaly Detection Model for Oil and Gas Pipelines Using Machine Learning. Computation 2022, 10, 138
de Haro-García et al. Feature selection for translation initiation site recognition
Liefsoens et al. Spectral-based detection of chromatin loops in multiplexed super-resolution FISH data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant