CN112466399B - 一种通过机器学习算法预测化学品致突变性的方法 - Google Patents
一种通过机器学习算法预测化学品致突变性的方法 Download PDFInfo
- Publication number
- CN112466399B CN112466399B CN202011309632.8A CN202011309632A CN112466399B CN 112466399 B CN112466399 B CN 112466399B CN 202011309632 A CN202011309632 A CN 202011309632A CN 112466399 B CN112466399 B CN 112466399B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- compound
- mutagenicity
- compounds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Physiology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于生态风险评价测试策略领域,公开一种通过机器学习算法预测化学品致突变性的方法。在已知化合物分子结构的基础上,通过计算分子指纹,应用所构建的方法,即能快速、高效的预测化合物的致突变性。该方法简单快捷、成本低廉,且能节省实验测试所需的人力、物力、财力。方法的构建过程如下:搜集化学品致突变性数据;数据预处理;计算分子指纹;选择机器学习算法并训练模型;选用准确度等指标对模型进行评价;表征应用域;在构建的方法中,输入待测分子,输出待测分子的致突变性。本发明建立的预测模型具有良好的拟合能力、稳健性和预测能力,能够有效地预测化学品的致突变性,为化学品的风险评价和管理提供必要的基础数据,具有重要意义。
Description
技术领域
本发明涉及一种通过建立QSAR模型预测化学品致突变性的方法,属于生态风险评价测试策略领域。
背景技术
致突变性指的是诱导遗传性损伤的能力。遗传物质发生改变可以通过以下几种方式:基因突变;染色体畸变;染色体数目改变。基因突变指的是基因组DNA分子发生的突然地、可遗传的变异现象。其中包括碱基对的置换以及碱基对的增加或减少。染色体畸变则是指染色体在结构上发生变化。所以能够致使突变发生的诱变剂也就分为两类。一类是直接作用于DNA的诱变剂,另一类是作用于染色体的复制或***的诱变剂。
针对不同作用方式的诱变剂,有不一样的致突变性检测方法。对于作用于DNA的诱变剂来说,经常用到的检测试验方法有鼠伤寒沙门氏菌细菌回复突变试验(Ames实验)以及哺乳动物细胞基因突变试验等。对于作用于染色体的诱变剂来说,经常用到的实验方法有染色体分析、染色体畸变实验、微核试验、显性致死实验、姐妹染色单体交换实验等。从2013年开始,欧盟规定,化妆品物质的致突变性基本测试,建议使用三种体外测试分析:Ames测试、体外哺乳动物细胞突变试验、体外哺乳动物细胞微核试验或染色体畸变实验。
但使用实验的方法检测化学品致突变性有很多弊端,比如会花费大量的时间和精力等。近些年来计算机科学、化学信息学发展迅速,计算机建模成为辅助药物开发和预测毒性的有力工具。所以使用计算的方法预测化学品致突变性,逐渐发展起来。
目前已构建的致突变性预测模型虽然有其自身的特点,但也存在一些不足之处。这些不足主要体现在以下几个方面:第一,以往研究在使用计算的方法预测化学品致突变性时,建模使用的训练数据,多为单种实验数据或两种实验数据结合,没有覆盖检测所有致突变类型的实验,导致预测出的结果代表该种化学品是否仅作用于DNA导致突变,或仅作用于染色体导致突变。预测结果存在片面性。第二,以往建立的预测模型大多未表征模型使用的应用域,导致在具体使用模型的过程中,对有些化学品致突变性的预测产生较大偏差。
基于以上原因,我搜集了包含Ames实验、小鼠淋巴瘤试验、微核试验的实验数据,数据覆盖致使基因突变、染色体变异的实验结果。综合各实验结果,整理出涵盖三种实验结果的数据集。根据全面的数据集,基于Python编程语言,使用机器学习方法建立预测化学品致突变性的模型,并表征应用域,明确模型的适用范围,使模型的使用范围更加明确。
发明内容
本发明提供了一种简便、高效预测化学品致突变性的方法,该方法可以根据化合物的SMILES码,预测其致突变性,为化学品风险评价和管理提供必要的基础依据。在建模过程中参照OECD对QSAR模型构建和使用导则,进行了内、外部验证考察模型的预测能力和稳健性,并表征了模型的应用域,使模型更具备明确的应用范围。
本发明的技术方案如下:
一种通过机器学习算法预测化学品致突变性的方法,步骤如下:
搜集并整理出6713种涵盖不同种实验的化合物致突变性数据,根据化合物的SMILES码,计算其分子指纹;所有化合物的分子指纹及化合物的致突变性数据构成数据集;将数据集按照4:1比例随机拆分为训练集和验证集;训练集用于训练模型,验证集用于评估模型的外部预测能力;利用Tanimoto系数结合阈值表征模型应用域;
(1)数据搜集与整理
(1.1)数据搜集:搜集不同化合物的体内微核实验数据、体外微核实验数据、Ames实验数据和小鼠淋巴瘤实验数据及化合物对应的CAS号和SMILES码;若化合物有致突变性,实验数据为1,若化合物无致突变性,实验数据为0;
(1.2)数据综合:对于有多种实验的实验数据的化合物,若所有实验的实验数据一致,则保留该化合物及对应数据,若不同实验的实验数据不一致,则将该化合物及对应数据删除;
(1.3)数据处理:利用RDkit检查化合物对应SMILES码的正确性,删除SMILES码重复的化合物;同样利用RDkit对剩余化合物的SMILES码进行中性化及脱盐处理,最终去除SMIELS码中含金属/非金属的化合物;
(2)计算化合物的分子指纹
(2.1)生成mol文件:利用RDkit中的MolFromSmiles函数将化合物对应的SMILES码转化为mol格式文件;
(2.2)计算分子指纹:利用RDkit中的GetMorganFingerprintAsBitVect函数,根据产生的mol文件计算Morgan分子指纹;
(3)模型训练
将化合物的分子指纹及化合物的实验数据组合成数据集;将数据集按照4:1比例随机拆分为训练集和验证集,以训练集的实验数据1或0为因变量,以训练集的Morgan分子指纹为自变量,选用梯度提升决策树算法,拟合因变量和自变量,训练模型;通过网格搜索法确定算法的最佳超参数,确定最佳超参数后,用模型拟合验证集的实验数据和Morgan分子指纹;
最终确定出的模型超参数为:n_estimators=100,max_depth=26,min_samples_leaf=6,min_samples_split=100。
其中,n_estimators为最大的弱学习器的个数,max_depth为决策树最大深度,min_samples_leaf为叶子节点最少样本数,min_samples_split为内部节点再划分所需最小样本数。
(4)模型评估
通过5折交叉验证的方法计算模型在训练集的平均准确度,并通过ROC曲线下方的面积大小:AUC,来表征模型的效果;
使用验证集对模型进行外部验证,同样采用平均准确度和AUC进行评价;
最终模型的评价结果为:
内部交叉验证准确率:0.789;内部交叉验证AUC:0.863;外部验证准确率:0.799;外部验证AUC:0.797。表明模型有较好的预测效果和稳定性。
(5)应用域表征
基于Morgan分子指纹,使用RDkit中的TanimotoSimilarity函数计算每个验证集分子与训练集分子之间的Tanimoto系数T;
使用函数计算出的T评价两个分子之间的相似性:
其中,A和B是两种化学品的指纹;
将阈值设定为0.25,若化合物与训练集中化合物分子相似性在0.25及以上的分子多于4个,则判定该化合物在应用域内,用此模型进行预测,否则认定该化合物在应用域外,不能用此模型进行预测。
本发明的有利效果是:
所建模型可以用于化合物的的多种类型的致突变性,且有明确的应用范围。该方法简便快捷、成本低廉。使用该发明专利的化合物致突变性预测结果,可以为化学品监管提供数据支持,对化学品的生态风险性评价具有重要意义。
附图说明
图1为整体方法的构建流程。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
实施例1
给定一个化合物二亚硝基咖啡因(CAS号:145438-97-7),要预测其致突变性,首先根据二亚硝基咖啡因的Smiles码,利用RDkit软件包计算其分子指纹,然后计算其与训练集每个分子的相似性,计算得,训练集中分子与其相似性大于0.25的分子有5个,所以其在应用域内。根据其分子指纹,使用GBDT模型进行预测。得出结果为1,说明此化合物有致突变性。预测结果与实验结果相同。
实施例2
给定一个化合物对茴香胺(CAS号:104-94-9),要预测其致突变性,首先根据对茴香胺的Smiles码,利用RDkit软件包计算其分子指纹,然后计算其与训练集每个分子的相似性,计算得,训练集中分子与其相似性大于0.25的分子有267个,所以其在应用域内。根据其分子指纹,使用GBDT模型进行预测。得出结果为1,说明此化合物有致突变性。预测结果与实验结果相同。
实施例3
给定一个化合物10,10-二甲基十一烷-1-胺(CAS号:68955-53-3),要预测其致突变性,首先根据10,10-二甲基十一烷-1-胺的Smiles码,利用RDkit软件包计算其分子指纹,然后计算其与训练集每个分子的相似性,计算得,训练集中分子与其相似性大于0.25的分子有91个,所以其在应用域内。根据其分子指纹,使用GBDT模型进行预测。得出结果为0,说明此化合物无致突变性。预测结果与实验结果相同。
Claims (1)
1.一种通过机器学习算法预测化学品致突变性的方法,其特征在于,步骤如下:
搜集并整理出6713种涵盖不同种实验的化合物致突变性数据,根据化合物的SMILES码,计算其分子指纹;所有化合物的分子指纹及化合物的致突变性数据构成数据集;将数据集按照4:1比例随机拆分为训练集和验证集;训练集用于训练模型,验证集用于评估模型的外部预测能力;利用Tanimoto系数结合阈值表征模型应用域;
(1)数据搜集与整理
(1.1)数据搜集:搜集不同化合物的体内微核实验数据、体外微核实验数据、Ames实验数据和小鼠淋巴瘤实验数据及化合物对应的CAS号和SMILES码;若化合物有致突变性,实验数据为1,若化合物无致突变性,实验数据为0;
(1.2)数据综合:对于有多种实验的实验数据的化合物,若所有实验的实验数据一致,则保留该化合物及对应数据,若不同实验的实验数据不一致,则将该化合物及对应数据删除;
(1.3)数据处理:利用RDkit检查化合物对应SMILES码的正确性,删除SMILES码重复的化合物;同样利用RDkit对剩余化合物的SMILES码进行中性化及脱盐处理,最终去除SMIELS码中含金属/非金属的化合物;
(2)计算化合物的分子指纹
(2.1)生成mol文件:利用RDkit中的MolFromSmiles函数将化合物对应的SMILES码转化为mol格式文件;
(2.2)计算分子指纹:利用RDkit中的GetMorganFingerprintAsBitVect函数,根据产生的mol文件计算Morgan分子指纹;
(3)模型训练
将化合物的分子指纹及化合物的实验数据组合成数据集;将数据集按照4:1比例随机拆分为训练集和验证集,以训练集的实验数据1或0为因变量,以训练集的Morgan分子指纹为自变量,选用梯度提升决策树算法,拟合因变量和自变量,训练模型;通过网格搜索法确定算法的最佳超参数,确定最佳超参数后,用模型拟合验证集的实验数据和Morgan分子指纹;
(4)模型评估
通过5折交叉验证的方法计算模型在训练集的平均准确度,并通过ROC曲线下方的面积大小:AUC,来表征模型的效果;
使用验证集对模型进行外部验证,同样采用平均准确度和AUC进行评价;
(5)应用域表征
基于Morgan分子指纹,使用RDkit中的TanimotoSimilarity函数计算每个验证集分子与训练集分子之间的Tanimoto系数T;
使用函数计算出的T评价两个分子之间的相似性:
其中,A和B是两种化学品的指纹;
将阈值设定为0.25,若化合物与训练集中化合物分子相似性在0.25及以上的分子多于4个,则判定该化合物在应用域内,用此模型进行预测,否则认定该化合物在应用域外,不能用此模型进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011309632.8A CN112466399B (zh) | 2020-11-19 | 2020-11-19 | 一种通过机器学习算法预测化学品致突变性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011309632.8A CN112466399B (zh) | 2020-11-19 | 2020-11-19 | 一种通过机器学习算法预测化学品致突变性的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112466399A CN112466399A (zh) | 2021-03-09 |
CN112466399B true CN112466399B (zh) | 2022-10-21 |
Family
ID=74836821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011309632.8A Active CN112466399B (zh) | 2020-11-19 | 2020-11-19 | 一种通过机器学习算法预测化学品致突变性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112466399B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628699B (zh) * | 2021-07-05 | 2023-03-17 | 武汉大学 | 基于改进的蒙特卡罗强化学习方法的逆合成问题求解方法及装置 |
CN113948156B (zh) * | 2021-10-20 | 2024-05-07 | 大连理工大学 | 一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法 |
CN114974461A (zh) * | 2022-06-15 | 2022-08-30 | 烟台国工智能科技有限公司 | 基于策略学习的多目标属性分子生成方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853701A (zh) * | 2019-11-07 | 2020-02-28 | 大连理工大学 | 采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法 |
CN111292800A (zh) * | 2020-01-21 | 2020-06-16 | 中南大学 | 一种基于预测蛋白质亲和力的分子表征及其应用 |
US10726359B1 (en) * | 2019-08-06 | 2020-07-28 | Clarify Health Solutions, Inc. | Computer network architecture with machine learning and artificial intelligence and automated scalable regularization |
-
2020
- 2020-11-19 CN CN202011309632.8A patent/CN112466399B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726359B1 (en) * | 2019-08-06 | 2020-07-28 | Clarify Health Solutions, Inc. | Computer network architecture with machine learning and artificial intelligence and automated scalable regularization |
CN110853701A (zh) * | 2019-11-07 | 2020-02-28 | 大连理工大学 | 采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法 |
CN111292800A (zh) * | 2020-01-21 | 2020-06-16 | 中南大学 | 一种基于预测蛋白质亲和力的分子表征及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN112466399A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112466399B (zh) | 一种通过机器学习算法预测化学品致突变性的方法 | |
CN113076734B (zh) | 一种项目文本的相似度检测方法及装置 | |
Birba | A Comparative study of data splitting algorithms for machine learning model selection | |
CN113903409A (zh) | 一种分子数据处理方法、模型构建与预测方法及相关装置 | |
Milea et al. | Prediction of the msci euro index based on fuzzy grammar fragments extracted from european central bank statements | |
Gu et al. | A distance-type-insensitive clustering approach | |
CN115700557A (zh) | 一种用于对核酸样本进行分类的方法、设备和存储介质 | |
Tumuluru et al. | A survey on identification of protein complexes in protein–protein interaction data: Methods and evaluation | |
CN113791062A (zh) | 一种基于拉曼光谱判断固定物质类别的方法 | |
CN113657441A (zh) | 基于加权皮尔逊相关系数并结合特征筛选的分类算法 | |
CN109686400B (zh) | 一种富集程度检验方法、装置及可读介质、存储控制器 | |
CN112735532A (zh) | 基于分子指纹预测的代谢物识别***及其应用方法 | |
CN112053741A (zh) | 荧光酶抑制剂筛选模型构建方法及荧光酶抑制剂筛选方法 | |
Muhamad et al. | Combination of feature selection approaches with random binary search and Mahalanobis Taguchi System in credit scoring | |
Hassan et al. | Integrated rules classifier for predicting pathogenic non-synonymous single nucleotide variants in human | |
CN104636636A (zh) | 蛋白质远程同源性检测方法及装置 | |
Sinha et al. | A study of feature selection and extraction algorithms for cancer subtype prediction | |
AlSaif | Large scale data mining for banking credit risk prediction | |
CN115965294A (zh) | 一种基于机器学习和环境dna的河流水生态健康评价方法 | |
Benschop | ‘These footprints are leading us nowhere!’investigation of the usage of footprinting analysis for ATAC-seq data to find regulatory elements | |
KR102429120B1 (ko) | 학습모델 기반 인간 ppar 감마의 길항제 예측 방법 및 분석장치 | |
CN114927239B (zh) | 一种应用于药物分析的决策规则自动生成方法及*** | |
Aljameel et al. | An Anomaly Detection Model for Oil and Gas Pipelines Using Machine Learning. Computation 2022, 10, 138 | |
de Haro-García et al. | Feature selection for translation initiation site recognition | |
Liefsoens et al. | Spectral-based detection of chromatin loops in multiplexed super-resolution FISH data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |