CN109658989A - 基于深度学习的类药化合物毒性预测方法 - Google Patents

基于深度学习的类药化合物毒性预测方法 Download PDF

Info

Publication number
CN109658989A
CN109658989A CN201811355009.9A CN201811355009A CN109658989A CN 109658989 A CN109658989 A CN 109658989A CN 201811355009 A CN201811355009 A CN 201811355009A CN 109658989 A CN109658989 A CN 109658989A
Authority
CN
China
Prior art keywords
class
feature
fingerprint sequence
drug compound
fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811355009.9A
Other languages
English (en)
Inventor
黎红
杨柳
李雅洁
李坤源
何伟
冯磊
胡美慧
赵刚
蒋诗百
李志刚
杨丽娜
王巧莉
马斌
李德高
张烜
尹蕊
刘信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Network Xinjiang Electric Power Co Ltd Information And Communication Co
State Grid Corp of China SGCC
Original Assignee
National Network Xinjiang Electric Power Co Ltd Information And Communication Co
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Network Xinjiang Electric Power Co Ltd Information And Communication Co, State Grid Corp of China SGCC filed Critical National Network Xinjiang Electric Power Co Ltd Information And Communication Co
Priority to CN201811355009.9A priority Critical patent/CN109658989A/zh
Publication of CN109658989A publication Critical patent/CN109658989A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及类药化合物毒性预测技术领域,是一种基于深度学习的类药化合物毒性预测方法,包括第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成指纹序列;第二步,对分子指纹序列的特征进行降噪预处理;第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,更新分子指纹序列;第四步,采用栈式自编码神经网络模型对经过降维筛选后的分子指纹序列进行毒性预测。本发明选用分子指纹序列作为分子特征描述,类药化合物指纹特征项的大量冗余,设计并实现特征降维方法。将降维评估后重新筛选的指纹特征作为级联隐藏层学习的输入,实现对类药化合物毒性的高效预测。

Description

基于深度学习的类药化合物毒性预测方法
技术领域
本发明涉及类药化合物毒性预测技术领域,是一种基于深度学习的类药化合物毒性预测方法。
背景技术
化合物毒性是药代动力学的重要属性之一,也是导致药物研发失败的主要原因之一。将药物安全性评价置于新药研发的早期阶段有助于缩短研发周期,降低研发成本。化合物毒性也是人类日常生活安全保障的重要出发点,人们每天接触的大量化学制品,提高生活质量的同时,也对人体健康和环境存在潜在的危害,可见对化合物安全性评估是十分有必要的。
不同于传统的体内和体外毒性评估实验。随着组合化学的发展和应用,当前对于测定大量化合物毒性的实验都基于高通量筛选。机器学习的出现为高通量筛选实验的实施提供了可能。但当数据集极具纷繁复杂,单层的线性模式识别在表达和提取特征方面具有一定的缺陷性,如支持向量机(Support Vector Machine,SVM)只限于二分类且随着数据量增大训练速度减慢,耗时长。人工神经网络(Artificial Neural Network,ANN)则存在过拟合的风险,邻近算法(K-NearestNeighbor,KNN)过度敏感于近邻距离的衡量类型等。浅层机器学习之所以在药学领域具有高应用性价值归因于将分子间相互作用的复杂性具体化为分子描述符工程,并以此模式进行模型训练。因此,改造机器学习***的结构和其涉及的算法,降低对描述符工程的依赖度,高效的处理数据复杂性,提取隐性特征,则是机器学习技术研究的聚焦点所在。此外,常规毒理学实验方法周期长,耗资高,对现代药物研发和环境化合物安全性评估具有局限性。
发明内容
本发明提供了一种基于深度学习的类药化合物毒性预测方法,克服了上述现有技术之不足,其能有效解决现有技术中对药物先导物的高通量筛选和判别存在技术障碍,导致大批量类药化合物的安全性评估的成本高的问题。
本发明的技术方案是通过以下措施来实现的:基于深度学习的类药化合物毒性预测方法,包括以下步骤:
第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成分子指纹序列;
第二步,对分子指纹序列的特征进行降噪预处理,包括以下过程:
(1)对转换后的分子指纹序列去除多组分的化合物;
(2)移除冗余信息的化合物成分;
(3)移除存在冲突的化合物成分;
第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,以用于更新分子指纹序列,包括以下过程:
(1)以X为输入指纹特征,x为特征值,设P(x|class=1)以及P(x|class=0)为指纹特征X的类密度函数;class=1为目标类,class=0为非目标类,则P(x|class=1)和P(x|class=0)之间的距离函数D(X)公式为:
D(X)=∫|P(x|class=1)-P(x|class=0)|dx (1)
设指纹序列中的现有特征分别为特征H和特征G,若D(H)>D(G),则表示特征H比特征G更易区别目标特征class=1和非目标特征class=0之间的距离;
(2)设m1和d1分别为分子指纹序列中正样本的样本均值和标准偏差,m0和d0分别是分子指纹序列中负样本的样本均值和标准偏差;将公式(1)转换后表示为:
第四步,采用栈式自编码神经网络模型对经过降维筛选后的分子指纹序列进行毒性预测。
下面是对上述发明技术方案的进一步优化或/和改进:
上述第四步中,栈式自编码神经网络模型进行毒性预测的过程如下:
(1)初始毒性化合物的分子指纹特征经过降噪降维处理后作为腐败特征输入;
(2)通过级联隐藏层学习并提取高阶指纹特征;
(3)将高阶指纹特征作为Softmax分类器的输入,最终获得有效的预测反馈结果。
本发明选用分子指纹序列作为分子特征描述,类药化合物指纹特征项的大量冗余,设计并实现特征降维方法。将降维评估后重新筛选的指纹特征作为级联隐藏层学习的输入,实现对类药化合物毒性的高效预测。
附图说明
附图1为本发明的方法流程图。
附图2为本发明的分子指纹序列的生成过程示意图。
附图3为本发明的栈式自编码神经网络模型进行毒性预测的流程图。
具体实施方式
本发明不受下述实施例的限制,可根据本发明的技术方案与实际情况来确定具体的实施方式。
下面结合实施例及附图对本发明作进一步描述:
实施例1:如附图1、2、3所示,该基于深度学习的类药化合物毒性预测方法,包括以下步骤:
第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成分子指纹序列;
分子指纹生成软件可为PaDEL-Descripter,分别生成166维MACCS指纹序列和881维PubChem指纹序列,PubChem分子指纹序列包含了881种化合物的子结构属性描述,作为一种新的指纹序列,PubChem的生成原理与MACCS分子指纹相似之处在于都用一组二进制数来表示化合物成分的三维结构。
第二步,对分子指纹序列的特征进行降噪预处理,包括以下过程:
(1)对转换后的分子指纹序列去除多组分的化合物;
例如:混合物、盐类需要被删除。
(2)移除冗余信息的化合物成分;
例如:与指纹信息相同的成分。
(3)移除存在冲突的化合物成分;
例如:两个化合物的结构特征被分子指纹信息描述的一致,但是其药代动力学性质(水溶性,毒性等)不相符,需要删除避免冲突。
第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,以用于更新分子指纹序列,包括以下过程:
(1)以X为输入指纹特征,x为特征值,设P(x|class=1)以及P(x|class=0)为指纹特征X的类密度函数;class=1为目标类,class=0为非目标类,则P(x|class=1)和P(x|class=0)之间的距离函数D(X)公式为:
D(X)=∫|P(x|class=1)-P(x|class=0)|dx (1)
设指纹序列中的现有特征分别为特征H和特征G,若D(H)>D(G),则表示特征H比特征G更易区别目标特征class=1和非目标特征class=0之间的距离;
(2)设m1和d1分别为分子指纹序列中正样本的样本均值和标准偏差,m0和d0分别是分子指纹序列中负样本的样本均值和标准偏差;将公式(1)转换后表示为:
上述D(X)值可被视为信噪比,D(X)值越大,则区分class=1和class=0的概率越高;为每个指纹特征给出合理地评估,完整流程如图2所示。为避免模型训练过程中对冗余特征学习造成的无效耗时,由此引入DX算法进行特征抽取,以实现降维降噪。
第四步,采用栈式自编码神经网络模型对经过降维筛选后的分子指纹序列进行毒性预测。
本发明选用分子指纹序列作为分子特征描述,类药化合物指纹特征项的大量冗余,设计并实现特征降维方法。将降维评估后重新筛选的指纹特征作为级联隐藏层学习的输入,实现对类药化合物毒性的高效预测。
可根据实际需要,对上述基于深度学习的类药化合物毒性预测方法作进一步优化或/和改进:
如附图1、2、3所示,上述第四步中,栈式自编码神经网络模型进行毒性预测的过程如下:
(1)初始毒性化合物的分子指纹特征经过降噪降维处理后作为腐败特征输入;
(2)通过级联隐藏层学习并提取高阶指纹特征;
(3)将高阶指纹特征作为Softmax分类器的输入,最终获得有效的预测反馈结果。
上述自编码器是只有一个隐藏层人工神经网络的一类人工神经网络。训练时,权重被调整到最准确的再现于输出节点的输入值。因此是一个实现了降维的无监督方法。栈式自编码是自编码的扩展,它可将多个隐藏层逐层训练。这里选择栈式自编码是因为它具有强大的表达能力及深度神经网络的所有优点,能自动学习有意义的多层表示的数据,我们可以有效的使用这种跨通道映射。
栈式自编码神经网络模型是一个由多层稀疏自编码器组成的神经网络,其前一层自编码器的输出作为其后一层自编码器的输入,然后用贪心算法逐层训练网络的每一层,进而预训练整个深度神经网络。预训练过程完成之后,可以通过反向传播算法同时调整所有层的参数以改善结果,这个过程一般被称作“微调(fine-tuning)”。对于已分类为目的的微调,惯用的做法是丢掉栈式自编码网络的“解码”层,直接把最后一个隐藏层的a(n)作为特征输入到softmax分类器进行分类,这样,softmax分类器的分类错误的梯度值就可以直接反向传播给编码层了。
以上技术特征构成了本发明的实施例,其具有较强的适应性和实施效果,可根据实际需要增减非必要的技术特征,来满足不同情况的需求。

Claims (2)

1.一种基于深度学习的类药化合物毒性预测方法,其特征在于包括以下步骤:
第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成分子指纹序列;
第二步,对分子指纹序列的特征进行降噪预处理,包括以下过程:
(1)对转换后的分子指纹序列去除多组分的化合物;
(2)移除冗余信息的化合物成分;
(3)移除存在冲突的化合物成分;
第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,以用于更新分子指纹序列,包括以下过程:
(1)以X为输入指纹特征,x为特征值,设P(x|class=1)以及P(x|class=0)为指纹特征X的类密度函数;class=1为目标类,class=0为非目标类,则P(x|class=1)和P(x|class=0)之间的距离函数D(X)公式为:
D(X)=∫|P(x|class=1)-P(x|class=0)|dx (1)
设指纹序列中的现有特征分别为特征H和特征G,若D(H)>D(G),则表示特征H比特征G更易区别目标特征class=1和非目标特征class=0之间的距离;
(2)设m1和d1分别为分子指纹序列中正样本的样本均值和标准偏差,m0和d0分别是分子指纹序列中负样本的样本均值和标准偏差;将公式(1)转换后表示为:
第四步,采用栈式自编码神经网络模型对经过降维筛选后的分子指纹序列进行毒性预测。
2.根据权利要求1所述的基于深度学习的类药化合物毒性预测方法,其特征在于第四步中,栈式自编码神经网络模型进行毒性预测的过程如下:
(1)初始毒性化合物的分子指纹特征经过降噪降维处理后作为腐败特征输入;
(2)通过级联隐藏层学习并提取高阶指纹特征;
(3)将高阶指纹特征作为Softmax分类器的输入,最终获得有效的预测反馈结果。
CN201811355009.9A 2018-11-14 2018-11-14 基于深度学习的类药化合物毒性预测方法 Pending CN109658989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811355009.9A CN109658989A (zh) 2018-11-14 2018-11-14 基于深度学习的类药化合物毒性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811355009.9A CN109658989A (zh) 2018-11-14 2018-11-14 基于深度学习的类药化合物毒性预测方法

Publications (1)

Publication Number Publication Date
CN109658989A true CN109658989A (zh) 2019-04-19

Family

ID=66111218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811355009.9A Pending CN109658989A (zh) 2018-11-14 2018-11-14 基于深度学习的类药化合物毒性预测方法

Country Status (1)

Country Link
CN (1) CN109658989A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322972A (zh) * 2019-05-29 2019-10-11 平安科技(深圳)有限公司 智能化药物毒性判断方法、装置及计算机可读存储介质
CN110517790A (zh) * 2019-06-24 2019-11-29 江苏大学 基于深度学习和基因表达数据的化合物肝毒性早期预测方法
CN110890137A (zh) * 2019-11-18 2020-03-17 上海尔云信息科技有限公司 一种化合物毒性预测模型建模方法、装置及其应用
CN111243682A (zh) * 2020-01-10 2020-06-05 京东方科技集团股份有限公司 药物的毒性预测方法及装置、介质和设备
CN111402966A (zh) * 2020-03-06 2020-07-10 华东师范大学 一种基于小分子三维结构描述小分子片段属性的指纹设计方法
CN111755081A (zh) * 2020-05-06 2020-10-09 北京化工大学 一种高甲烷吸附率MOFs生成与筛选的方法
CN111986740A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 化合物分类方法及相关设备
CN112382347A (zh) * 2020-11-17 2021-02-19 南京理工大学 基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法
CN113192571A (zh) * 2021-04-29 2021-07-30 南京邮电大学 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070021918A1 (en) * 2004-04-26 2007-01-25 Georges Natsoulis Universal gene chip for high throughput chemogenomic analysis
CN106709640A (zh) * 2016-12-15 2017-05-24 华南理工大学 基于深度学习与支持向量回归的船舶能耗预测方法
US20180136912A1 (en) * 2016-11-17 2018-05-17 The Mathworks, Inc. Systems and methods for automatically generating code for deep learning systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070021918A1 (en) * 2004-04-26 2007-01-25 Georges Natsoulis Universal gene chip for high throughput chemogenomic analysis
US20180136912A1 (en) * 2016-11-17 2018-05-17 The Mathworks, Inc. Systems and methods for automatically generating code for deep learning systems
CN106709640A (zh) * 2016-12-15 2017-05-24 华南理工大学 基于深度学习与支持向量回归的船舶能耗预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱煜奇;黄双喜;杨天祺;孙洁香;: "基于栈式降噪自编码的故障诊断", 制造业自动化, no. 03, pages 157 - 161 *
黎红: "基于降噪自编码神经网络的化合物毒性预测方面的研究", 《计算机应用研究》, pages 745 - 749 *
黎红等: "基于降噪自编码神经网络的化合物毒性预测方面的研究", 《计算机应用研究》, no. 03, 21 March 2017 (2017-03-21), pages 745 - 749 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322972B (zh) * 2019-05-29 2022-05-20 平安科技(深圳)有限公司 智能化药物毒性判断方法、装置及计算机可读存储介质
CN110322972A (zh) * 2019-05-29 2019-10-11 平安科技(深圳)有限公司 智能化药物毒性判断方法、装置及计算机可读存储介质
CN110517790A (zh) * 2019-06-24 2019-11-29 江苏大学 基于深度学习和基因表达数据的化合物肝毒性早期预测方法
CN110890137A (zh) * 2019-11-18 2020-03-17 上海尔云信息科技有限公司 一种化合物毒性预测模型建模方法、装置及其应用
CN111243682A (zh) * 2020-01-10 2020-06-05 京东方科技集团股份有限公司 药物的毒性预测方法及装置、介质和设备
CN111402966A (zh) * 2020-03-06 2020-07-10 华东师范大学 一种基于小分子三维结构描述小分子片段属性的指纹设计方法
CN111402966B (zh) * 2020-03-06 2022-08-19 华东师范大学 一种基于小分子三维结构描述小分子片段属性的指纹设计方法
CN111755081A (zh) * 2020-05-06 2020-10-09 北京化工大学 一种高甲烷吸附率MOFs生成与筛选的方法
CN111986740A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 化合物分类方法及相关设备
CN111986740B (zh) * 2020-09-03 2024-05-14 深圳赛安特技术服务有限公司 化合物分类方法及相关设备
CN112382347A (zh) * 2020-11-17 2021-02-19 南京理工大学 基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法
CN112382347B (zh) * 2020-11-17 2022-09-06 南京理工大学 基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法
CN113192571A (zh) * 2021-04-29 2021-07-30 南京邮电大学 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置
CN113192571B (zh) * 2021-04-29 2022-08-23 南京邮电大学 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置

Similar Documents

Publication Publication Date Title
CN109658989A (zh) 基于深度学习的类药化合物毒性预测方法
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
Kleyko et al. A survey on hyperdimensional computing aka vector symbolic architectures, part ii: Applications, cognitive models, and challenges
Pinaya et al. Autoencoders
Zhang et al. An end-to-end deep learning architecture for graph classification
Olszewski Generalized feature extraction for structural pattern recognition in time-series data
Luqman et al. Fuzzy multilevel graph embedding
Macia et al. Towards UCI+: a mindful repository design
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及***
CN104598611B (zh) 对搜索条目进行排序的方法及***
JP2005523533A (ja) 混合型数字及び/又は非数字データの処理
Przyczyna et al. In-materio neuromimetic devices: Dynamics, information processing and pattern recognition
CN113807299B (zh) 基于平行频域脑电信号的睡眠阶段分期方法及***
Nowotny Two challenges of correct validation in pattern recognition
Vazquez et al. Training spiking neural models using artificial bee colony
WO2020149897A1 (en) A deep learning model for learning program embeddings
Datla Bench marking of classification algorithms: Decision Trees and Random Forests-a case study using R
Qiu et al. 3D-DCDAE: Unsupervised music latent representations learning method based on a deep 3d convolutional denoising autoencoder for music genre classification
CN106530108A (zh) 一种基于因素表示的油气层损害智能识别方法与***
CN112735604B (zh) 一种基于深度学习算法的新型冠状病毒分类方法
Nanni et al. Neural networks for anatomical therapeutic chemical (atc) classification
Aminimehr et al. Entri: Ensemble learning with tri-level representations for explainable scene recognition
Wang et al. Protein secondary structure prediction using AutoEncoder network and Bayes classifier
Zhou et al. Harmonizing program induction with rate-distortion theory
Tao et al. A deep clustering algorithm based on self-organizing map neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190419