CN113948156B - 一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法 - Google Patents

一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法 Download PDF

Info

Publication number
CN113948156B
CN113948156B CN202111388088.5A CN202111388088A CN113948156B CN 113948156 B CN113948156 B CN 113948156B CN 202111388088 A CN202111388088 A CN 202111388088A CN 113948156 B CN113948156 B CN 113948156B
Authority
CN
China
Prior art keywords
chemicals
model
chemical
life
logt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111388088.5A
Other languages
English (en)
Other versions
CN113948156A (zh
Inventor
陈景文
许喆
傅志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Publication of CN113948156A publication Critical patent/CN113948156A/zh
Application granted granted Critical
Publication of CN113948156B publication Critical patent/CN113948156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于面向化学品风险管理的高通量预测技术领域,公开一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法。在已知化学品分子结构的基础上,通过计算其分子指纹,应用所构建的方法,即可获得化学品在四种介质中的降解半减期。该方法简便高效、成本低,可节省实验测试的资源投入。方法的构建过程如下:降解半减期数据搜集;分子PubChem指纹计算;多任务神经网络模型训练;选用测量推测值‑预测值决定系数等指标对模型性能进行评价;参照OECD导则表征模型应用域;本发明建立的预测模型具有良好的拟合能力、稳健性和预测能力,能够有效预测应用域内化学品在四种环境介质中降解半减期,为化学品的健全管理提供必要的工具,具有重要意义。

Description

一种预测化学品在四种环境介质中降解半减期的多任务神经 网络方法
技术领域
本发明属于面向化学品风险管理的高通量筛查技术领域,一种基于定量构效关系(QSAR)模型预测化学品在四种环境介质(大气、水体、土壤、沉积物)中降解半减期的方法。
背景技术
化学品的环境持久性评价,是化学品风险管理的核心内容之一。环境持久性指化学品在环境中难以降解转化、长时间保持不变的能力。评价化学品环境持久性的最常用指标是其在环境介质中的降解半减期(t1/2),即化学品从环境介质中降解去除一半起始量所需的时间。t1/2是决定化学品环境归趋的重要指标,也是一些全球法规评价和管控持久性、生物蓄积性和有毒(PBT)化学品的关键参数。
化学品在环境介质中的t1/2由多种降解反应(如生物降解、水解、光解、大气氧化降解等)共同决定。经济合作与发展组织(OECD)主要基于生物降解性测试对化学品的环境持久性进行评价,发布了地表水(OECD导则309)、沉积物(OECD导则308)和土壤(OECD导则307)中化学品生物降解性的测试导则。测试所得各介质生物降解半减期与相关法规(如REACH法规)中持久性标准比较,判断一种化学品是否具有非持久性(nP)、持久性(P)或非常持久性(vP)。
实验测试获取化学品在环境介质中的t1/2,效率低、耗时长、成本昂贵,需要发展高效(高通量、低成本)的模拟预测技术。基于定量构效关系(QSAR)的计算模拟技术,通过建立化学品分子结构特征与其环境行为参数的关联,可有效预测化学品在环境介质中t1/2。随着机器学习算法的发展,基于机器学习算法的QSAR在挖掘预测终点与分子特征内在联系方面呈现出较强优势,其中多任务学习技术通过特征和参数共享机制,能够学习不同预测终点间的关联信息,使QSAR在同时预测不同终点的基础上,有效提高模型的预测性能,从而有望在化学品t1/2的预测方面发挥重要作用,有助于筛选优先控制的持久性化学品。
目前,已有一些研究构建了化学品在环境介质中t1/2的QSAR预测模型。文献“WaterRes.,2019,157,181-190.”构建了芳香烃及其衍生物在水体中生物降解半减期的多元线性回归模型;文献“J.Cheminformatics,2018,10,10.”构建了烃类化合物在水体中生物降解半减期的K近邻回归模型;文献“Ecotox.Environ.Safe.,2016,129,10-15.”构建了预测除草剂在土壤中生物降解半减期的支持向量机模型。已有模型的应用域较小,且只适用于预测单一终点,即化学品在单一介质中t1/2,忽略了不同终点间的关联,导致模型预测效果难以进一步提升等问题;同时还缺乏化学品在沉积物中t1/2的预测模型。
基于以上原因,通过搜集文献,全面获取了250种化学品在大气、水体、土壤、沉积物四种介质中的t1/2数据,数据集涵盖有机酸、酯、醚、酮、醇、苯酚、苯胺、多环芳烃、杂环化合物、卤代烃等多种化学品,使用多层前馈神经网络结合多任务学习技术,构建了可同时预测化学品在四种介质中t1/2的多任务神经网络定量模型,并对模型应用域进行了表征,明确了模型的适用范围。
发明内容
本发明构建了一种简单高效的预测化学品在四种介质中t1/2的多任务神经网络模型方法,该方法可以根据化学品的SMILES码,同时预测化学品在四种介质中的降解半减期,为PBT化学品筛查提供基础工具;在建模过程中参照OECD对QSAR模型构建和使用导则,进行了内、外部验证考察模型的稳健性和预测能力。
本发明的技术方案:
一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法,步骤如下:
(1)数据搜集
从文献中搜集了250种化学品在四种介质中t1/2;利用Python 3.8.8软件中RDKit包生成化学品对应的SMILES码;
(2)计算化学品的分子指纹
采用Open Babel 2.3.2.2软件将记载化学品SMILES码的CSV格式文件转化成SDF格式文件;将SDF文件输入PaDEL-Descriptor 2.21软件中,计算250种化学品的PubChem分子指纹;
(3)模型训练
将化学品的PubChem分子指纹和logt1/2数据合并;将数据集按4:1的比例随机拆分为训练集和验证集,以化学品在四种介质中logt1/2(t1/2单位:h)为因变量,以化学品的PubChem指纹为自变量,采用多层前馈神经网络结合多任务学习技术,训练多任务模型;为了避免过拟合,采用批处理和Dropout方法;通过网格搜索法确定算法的最佳超参数;基于最佳超参数构建模型,并对验证集化合品的logt1/2数据进行预测,表征模型的外部预测性能。
模型最佳超参数如下:含第一、第二两个隐藏层,分别包含100个和10个神经元;在第一个隐藏层之后设置Dropout层,Dropout率设置为20%;两个隐藏层都采用线性整流函数(ReLU)作为激活函数;每批训练16个化学品,总迭代次数为300,即batchsize=16,epoch=300;损失函数指标为均方误差(MSE);优化器选择自适应矩估计(Adam);优化器步长设置为0.005,即learningrate=0.005;优化时四个任务设置相同的权重因子;
(4)模型评估
使用训练集测量推测值-预测值决定系数(R2),均方根误差(RMSE),平均绝对误差(MAE)表征模型拟合优度;验证集的R2,RMSE,MAE表征模型预测能力;使用训练集的十折交叉验证系数(Q2 10)表征模型稳健性。
最终模型的预测效果为:
化学品在大气中logt1/2(t1/2单位:h)的预测效果:R2 train=0.988,RMSEtrain=0.094,MAEtrain=0.070,Q2 10=0.889,R2 test=0.713,RMSEtest=0.348,MAEtest=0.244;
化学品在水体中logt1/2(t1/2单位:h)的预测效果:R2 train=0.976,RMSEtrain=0.121,MAEtrain=0.087,Q2 10=0.895,R2 test=0.802,RMSEtest=0.305,MAEtest=0.205;
化学品在土壤中logt1/2(t1/2单位:h)的预测效果:R2 train=0.981,RMSEtrain=0.112,MAEtrain=0.084,Q2 10=0.941,R2 test=0.883,RMSEtest=0.261,MAEtest=0.204;
化学品在沉积物中logt1/2(t1/2单位:h)的预测效果:R2 train=0.979,RMSEtrain=0.107,MAEtrain=0.079,Q2 10=0.924,R2 test=0.870,RMSEtest=0.261,MAEtest=0.199;
(5)应用域表征
采用RDKit软件包生成化学品的MACCS分子指纹,计算验证集化学品分子A与训练集化学品分子B之间的谷本相似度(TanimotoSimilarity),计算式如下:
其中,SAB是分子A和B的谷本相似度,XjA是分子A的第j个指纹特征,XjB是分子B的第j个特征,n是指纹的特征位数。
定义相似度阈值(Scutoff)和最少相似分子数量(Nmin),来定义应用域,即若训练集中与目标分子谷本相似度大于Scutoff的化学品数超过Nmin,则判定该分子处于应用域内。本发明的应用域为:Scutoff=0.6,Nmin=5。
本发明的有利效果是:所建模型可同时预测化学品在四种介质中logt1/2,因考虑了不同终点之间的关联信息,模型的预测性能大大提高,且具有明确表征的应用域。该方法简便高效、成本低,有望在化学品降解半减期数据的高通量预测方面发挥作用,为健全化学品管理提供基础工具,服务于化学品风险管控和新污染物治理的国家重大需求。
附图说明
图1为整体方法的构建流程。
图2为化学品在四种介质中logt1/2(t1/2单位为:h)测量推测值与预测值的线性拟合图,训练集和验证集化学品分别为200和50种;(a)是在大气中;(b)是在水体中;(c)是在土壤中;(d)是在沉积物中。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
实施例1
给定一个化学品2,2'-二氯联苯(CAS号:13029-08-8),要预测其在四种介质中logt1/2(单位:h)。首先根据2,2'-二氯联苯的SMILES码,利用RDKit软件包计算其MACCS分子指纹,然后计算其与训练集化学品分子的谷本相似度,计算得训练集中分子与其相似度大于0.6(Scutoff)的分子有6个(超过Nmin=5个),所以2,2'-二氯联苯在模型应用域内。进一步利用PaDEL-Descriptor软件计算其PubChem分子指纹,使用本发明构建的多任务神经网络模型进行预测。得到结果:
logt1/2(大气)=2.31,logt1/2(水体)=3.79,logt1/2(土壤)=4.15,logt1/2(沉积物)=4.25,相应的测量推测值为:logt1/2(大气)=2.23,logt1/2(水体)=3.74,logt1/2(土壤)=4.23,logt1/2(沉积物)=4.23,预测值与测量推测值非常相符。
实施例2
给定一个化学品环己醇(CAS号:108-93-0),要预测其在四种介质中logt1/2(单位:h)。首先根据环己醇的SMILES码,利用RDKit软件包计算其MACCS分子指纹,然后计算其与训练集化学品分子的谷本相似度,计算得,训练集中分子与其相似度大于0.6(Scutoff)的分子有8个(超过Nmin=5个),所以环己醇在模型应用域内。进一步利用PaDEL-Descriptor软件计算其PubChem分子指纹,使用本发明构建的多任务神经网络模型进行预测。得到结果:
logt1/2(大气)=1.70,logt1/2(水体)=1.77,logt1/2(土壤)=1.60,logt1/2(沉积物)=2.25,相应的测量推测值为:logt1/2(大气)=1.74,logt1/2(水体)=1.74,logt1/2(土壤)=1.74,logt1/2(沉积物)=2.23,预测值与测量推测值非常相符。
实施例3
给定一个化学品正戊烷(CAS号:109-66-0),要预测其在四种介质中logt1/2(单位:h)。首先根据正戊烷的SMILES码,利用RDKit软件包计算其MACCS分子指纹,然后计算其与训练集化学品分子的谷本相似度,计算得,训练集中分子与其相似度大于0.6(Scutoff)的分子有15个(超过Nmin=5个),所以正戊烷在模型应用域内。进一步利用PaDEL-Descriptor软件计算其PubChem分子指纹,使用本发明构建的多任务神经网络模型进行预测。得到结果:
logt1/2(大气)=1.30,logt1/2(水体)=2.75,logt1/2(土壤)=3.24,logt1/2(沉积物)=3.74,相应的测量推测值为:logt1/2(大气)=1.23,logt1/2(水体)=2.74,logt1/2(土壤)=3.23,logt1/2(沉积物)=3.74,预测值与测量推测值非常相符。

Claims (2)

1.一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法,其特征在于,步骤如下:
(1)数据搜集
从文献中搜集了250种化学品在四种介质中降解半减期对数值logt1/2,并生成化学品对应的SMILES码;
(2)计算化学品的分子指纹
将记载化学品SMILES码的CSV格式文件转化成SDF格式文件;根据SDF格式文件计算250种化学品的PubChem分子指纹;
(3)模型训练
将化学品的PubChem分子指纹和logt1/2数据合并;将数据集按4:1的比例随机拆分为训练集和验证集,以化学品在四种介质中的logt1/2为因变量,以化学品的PubChem分子指纹为自变量,采用多层前馈神经网络结合多任务学习技术,训练多任务模型;通过网格搜索法确定算法的最佳超参数;基于最佳超参数构建模型,并对验证集化学品的降解半减期数据进行预测,表征模型的外部预测性能;
模型最佳超参数如下:含第一、第二两个隐藏层,分别包含100个和10个神经元;在第一个隐藏层之后设置Dropout层,Dropout率为20%;两个隐藏层都采用线性整流函数作为激活函数;每批训练16个化学品,总迭代次数为300,即batchsize=16,epoch=300;损失函数指标为均方误差MSE;优化器选择自适应矩估计;优化器步长设置为0.005,即learningrate=0.005;优化时四个任务设置相同的权重因子;
(4)模型性能评估
使用训练集测量推测值-预测值决定系数R2,均方根误差RMSE,平均绝对误差MAE表征模型拟合优度;验证集的R2,RMSE,MAE表征模型预测能力;使用训练集的十折交叉验证系数Q2 10表征模型稳健性;
(5)应用域表征
生成化学品的MACCS分子指纹,计算验证集化学品分子A与训练集化学品分子B之间的谷本相似度,计算公式如下:
其中,SAB是分子A和B的谷本相似度,XjA是分子A的第j个指纹特征,XjB是分子B的第j个特征,n是指纹的特征位数;
通过自行定义的相似度阈值Scutoff和最少相似分子数量Nmin来定义应用域,即若训练集中与目标分子的谷本相似度大于Scutoff的化学品数超过Nmin,则判定该分子处于应用域内。
2.根据权利要求1所述的方法,其特征在于,所定义的应用域为:Scutoff=0.6,Nmin=5。
CN202111388088.5A 2021-10-20 2021-11-22 一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法 Active CN113948156B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111217996 2021-10-20
CN2021112179968 2021-10-20

Publications (2)

Publication Number Publication Date
CN113948156A CN113948156A (zh) 2022-01-18
CN113948156B true CN113948156B (zh) 2024-05-07

Family

ID=79338398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111388088.5A Active CN113948156B (zh) 2021-10-20 2021-11-22 一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法

Country Status (1)

Country Link
CN (1) CN113948156B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101027357A (zh) * 2004-07-27 2007-08-29 陶氏环球技术公司 热塑性硫化橡胶及其制备方法
WO2013079016A1 (zh) * 2011-11-30 2013-06-06 大连理工大学 一种基于分子结构和环境温度预测化学物质与臭氧氧化反应速率常数的方法
CN107967542A (zh) * 2017-12-21 2018-04-27 国网浙江省电力公司丽水供电公司 一种基于长短期记忆网络的售电量预测方法
CN112466399A (zh) * 2020-11-19 2021-03-09 大连理工大学 一种通过机器学习算法预测化学品致突变性的方法
CN112750510A (zh) * 2021-01-18 2021-05-04 合肥工业大学 一种药物血脑屏障渗透性的预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977559B2 (en) * 2017-03-17 2021-04-13 Wipro Limited Method and system for predicting non-linear relationships

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101027357A (zh) * 2004-07-27 2007-08-29 陶氏环球技术公司 热塑性硫化橡胶及其制备方法
WO2013079016A1 (zh) * 2011-11-30 2013-06-06 大连理工大学 一种基于分子结构和环境温度预测化学物质与臭氧氧化反应速率常数的方法
CN107967542A (zh) * 2017-12-21 2018-04-27 国网浙江省电力公司丽水供电公司 一种基于长短期记忆网络的售电量预测方法
CN112466399A (zh) * 2020-11-19 2021-03-09 大连理工大学 一种通过机器学习算法预测化学品致突变性的方法
CN112750510A (zh) * 2021-01-18 2021-05-04 合肥工业大学 一种药物血脑屏障渗透性的预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
化学品正辛醇空气分配系数定量预测模型研究;范德玲;宋波;刘济宁;王蕾;周林军;石利利;生态与农村环境学报;20150325;第31卷(第2期);全文 *
外源化合物在鱼体内生物半减期的QSAR模型;张文灏;陈景文;徐童;王雅;生态毒理学报;20191231(第003期);全文 *

Also Published As

Publication number Publication date
CN113948156A (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
Takyi et al. Surface water quality management using a multiple‐realization chance constraint method
Sarmadi Investigation of machine learning methods for structural safety assessment under variability in data: Comparative studies and new approaches
Zou et al. An adaptive neural network embedded genetic algorithm approach for inverse water quality modeling
Baxter et al. Developing artificial neural network models of water treatment processes: a guide for utilities
CN114781538A (zh) 一种ga-bp神经网络耦合决策树的空气质量预测方法和***
Curteanu et al. Neural networks and differential evolution algorithm applied for modelling the depollution process of some gaseous streams
González-Enrique et al. Spatial and meteorological relevance in NO2 estimations: a case study in the Bay of Algeciras (Spain)
Li et al. An improved stochastic configuration network for concentration prediction in wastewater treatment process
Sakarkar et al. Comparative study of ambient air quality prediction system using machine learning to predict air quality in smart city
CN116307034A (zh) 基于离散小波变换和神经网络的产油或co2埋存量预测方法
Qiao et al. A repair algorithm for radial basis function neural network and its application to chemical oxygen demand modeling
Nanda et al. Multi-layer perceptron's neural network with optimization algorithm for greenhouse gas forecasting systems
Lu et al. Quality-relevant feature extraction method based on teacher-student uncertainty autoencoder and its application to soft sensors
CN113948156B (zh) 一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法
Kadiyala et al. Vector‐time‐series‐based back propagation neural network modeling of air quality inside a public transportation bus using available software
Yang et al. Teacher–Student Uncertainty Autoencoder for the Process-Relevant and Quality-Relevant Fault Detection in the Industrial Process
Song et al. Interpretable machine learning for maximum corrosion depth and influence factor analysis
Ramani et al. Impacts of climate change on long-term reliability of reinforced concrete structures due to chloride ingress
Haixiang et al. Optimizing reservoir features in oil exploration management based on fusion of soft computing
CN111241629B (zh) 基于数据驱动的飞机液压泵性能变化趋势智能预测方法
CN109632942B (zh) 一种基于集成学习的管道缺陷尺寸的反演方法
CN116432856A (zh) 基于cnn-glstm模型的管道动态预警方法及装置
Kateriya et al. River water quality analysis and treatment using soft computing technique: a survey
CN114330485A (zh) 基于pls-svm-ga算法的电网投资能力预测方法
Li et al. A data-driven rutting depth short-time prediction model with metaheuristic optimization for asphalt pavements based on RIOHTrack

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant