CN112164427A - 基于深度学习的药物小分子靶点活性预测方法和装置 - Google Patents

基于深度学习的药物小分子靶点活性预测方法和装置 Download PDF

Info

Publication number
CN112164427A
CN112164427A CN202011006153.9A CN202011006153A CN112164427A CN 112164427 A CN112164427 A CN 112164427A CN 202011006153 A CN202011006153 A CN 202011006153A CN 112164427 A CN112164427 A CN 112164427A
Authority
CN
China
Prior art keywords
prediction
drug
data
predicting
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011006153.9A
Other languages
English (en)
Inventor
宋怡然
马元巍
李泽朋
顾徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Weiyizhi Technology Co Ltd
Original Assignee
Changzhou Weiyizhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Weiyizhi Technology Co Ltd filed Critical Changzhou Weiyizhi Technology Co Ltd
Priority to CN202011006153.9A priority Critical patent/CN112164427A/zh
Publication of CN112164427A publication Critical patent/CN112164427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于深度学习的药物小分子靶点活性预测方法和装置,所述方法包括以下步骤:获取包含多个药物小分子数据的数据集,并获取数据集中每个药物小分子的结构特征数据,构成样本集;对样本集进行预处理;通过预处理后的样本集对多种神经网络分别进行训练以得到多个用以预测药物小分子靶点活性的预测模型;通过至少一个评价指标评估历史预测数据库,分别得到以每个预测模型进行单模型预测、以多个预测模型进行投票融合预测的真实预测效果;以真实预测效果最好的预测方式对当前待预测药物小分子数据进行预测,得到的预测结果作为最终预测结果。本发明能够大大提高药物小分子靶点活性预测的准确性。

Description

基于深度学习的药物小分子靶点活性预测方法和装置
技术领域
本发明涉及深度学习技术领域,具体涉及一种基于深度学习的药物小分子靶点活性预测方法和一种基于深度学习的药物小分子靶点活性预测装置。
背景技术
新药研发周期十分漫长,包括靶标选择与验证、从苗头化合物(Hit)的发现到先导化合物(Lead)最后到候选药物(Candidate)的发现与优化,层层筛选,成本高昂。我们希望通过计算机进行虚拟筛选,基于现有药物相关的生物化学数据库,充分挖掘药物分子背后的规律,加速发现药物研发的速度,如对新靶标蛋白苗头化合物的发现和评估。
传统的药物小分子靶点活性预测的方法通过使用分子描述符(包括1D/2D/3D/高维描述符,比如分子量等物理化学性质)作为输入特征,进行定量构效关系或构效关系(QSAR/QSPR)建模,目前已经开发了超过5000个分子描述符。然而,这种大量使用分子描述符的建模方法的算法模型预测表现非常取决于是否能选择有效的分子描述符特征。在进行特征工程方面费时费力的同时,算法模型的泛化和通用能力也极大取决于所训练的模型质量。
因此,亟需提出一种准确性高的药物小分子靶点活性预测方案。
发明内容
本发明为解决上述技术问题,提供了一种基于深度学习的药物小分子靶点活性预测方法和装置,能够大大提高药物小分子靶点活性预测的准确性,从而有效提升药物研发的效率并加快虚拟筛选流程。
本发明采用的技术方案如下:
一种基于深度学习的药物小分子靶点活性预测方法,包括以下步骤:获取包含多个药物小分子数据的数据集,并获取所述数据集中每个药物小分子的结构特征数据,构成样本集;对所述样本集进行预处理;通过预处理后的样本集对多种神经网络分别进行训练以得到多个用以预测药物小分子靶点活性的预测模型;通过至少一个评价指标评估历史预测数据库,分别得到以每个所述预测模型进行单模型预测、以多个所述预测模型进行投票融合预测的真实预测效果;以真实预测效果最好的预测方式对当前待预测药物小分子数据进行预测,得到的预测结果作为最终预测结果。
获取所述数据集中每个药物小分子的结构特征数据,具体包括:获取每个药物小分子数据对应的SMILES(Simplified molecular input line entry specification,简化分子线性输入规范)字符串;采用独热编码One-hot的形式对每个SMILES字符串进行编码,并统计每个SMILES字符串的字符位置以构建药物小分子特征向量,或者,采用mol2vec学习每个药物小分子数据的分子亚结构向量表示形式以构建药物小分子特征向量。
对所述样本集进行预处理,具体包括:采用SMOTE(Synthetic MinorityOversampling Technique,合成少数类过采样技术)算法对所述样本集中的药物小分子的结构特征数据进行过采样,并将过采样后的数据分为训练集和测试集。
所述多种神经网络包括多层CNN(卷积神经网络)、CNN_GRU和CNN_LSTM。
其中,所述CNN_GRU采用双向GRU(门控单元网络),所述CNN_LSTM采用双向LSTM(长短期记忆网络),每个所述神经网络均加入Dropout,在模型训练时采用Adam优化器调整学习率。
所述评价指标包括准确率、精确率、召回率、ROC曲线下的面积、混淆矩阵中的一个或多个。
所述评价指标为多个,每个所述评价指标具有相应的权重。
所述的基于深度学习的药物小分子靶点活性预测方法还包括:分别对当前待预测药物小分子数据以每个所述预测模型进行单模型预测、以多个所述预测模型进行投票融合预测,并将各个预测结果加入所述历史预测数据库,以不断更新所述历史预测数据库。
一种基于深度学习的药物小分子靶点活性预测装置,包括:获取模块,所述获取模块用于获取包含多个药物小分子数据的数据集,并获取所述数据集中每个药物小分子的结构特征数据,构成样本集;预处理模块,所述预处理模块用于对所述样本集进行预处理;训练模块,所述训练模块用于通过预处理后的样本集对多种神经网络分别进行训练以得到多个用以预测药物小分子靶点活性的预测模型;评估模块,所述评估模块用于通过至少一个评价指标评估历史预测数据库,分别得到以每个所述预测模型进行单模型预测、以多个所述预测模型进行投票融合预测的真实预测效果;预测模块,所述预测模块用于以真实预测效果最好的预测方式对当前待预测药物小分子数据进行预测,得到的预测结果作为最终预测结果。
所述的基于深度学习的药物小分子靶点活性预测装置还包括:更新模块,所述更新模块用于分别对当前待预测药物小分子数据以每个所述预测模型进行单模型预测、以多个所述预测模型进行投票融合预测,并将各个预测结果加入所述历史预测数据库,以不断更新所述历史预测数据库。
本发明的有益效果:
本发明通过获取包含多个药物小分子数据的数据集,并获取数据集中每个药物小分子的结构特征数据,然后通过结构特征数据集对多种神经网络进行训练以得到多个预测模型,再通过至少一个评价指标评估历史预测数据库,分别得到以每个预测模型进行单模型预测、以多个预测模型进行投票融合预测的真实预测效果,最终以真实预测效果最好的预测方式对当前待预测药物小分子数据进行预测,由此,能够大大提高药物小分子靶点活性预测的准确性,从而有效提升药物研发的效率并加快虚拟筛选流程。
附图说明
图1为本发明实施例的基于深度学习的药物小分子靶点活性预测方法的流程图;
图2为本发明一个实施例的多层CNN结构示意图;
图3为本发明一个实施例的CNN+RNN结构示意图;
图4为本发明实施例的基于深度学习的药物小分子靶点活性预测装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的基于深度学习的药物小分子靶点活性预测方法包括以下步骤:
S1,获取包含多个药物小分子数据的数据集,并获取数据集中每个药物小分子的结构特征数据,构成样本集。
在本发明的一个实施例中,数据集中可包含大量的药物小分子的化学结构数据。应当理解的是,在计算和存储能力允许的条件下,数据集中的药物小分子数量越大,对于后续模型的训练效果越好。
获取到数据集后,可获取数据集中每个药物小分子数据对应的SMILES字符串,并统计字符串长度最大值和字符的类别个数,然后可采用独热编码One-hot的形式对每个SMILES字符串进行编码,并统计每个SMILES字符串的字符位置以构建药物小分子特征向量。或者,可采用mol2vec学习每个药物小分子数据的分子亚结构向量表示形式以构建药物小分子特征向量。本发明实施例所提供的上述两种特征提取方式,所构建的药物小分子特征向量能够适用于不同的神经网络算法模型。并且,上述两种特征提取方式无需计算额外的分子结构或者物理化学特征和进行特征工程,极大地缩短了特征提取时间,从而降低预测过程后续模型训练的成本。
S2,对样本集进行预处理。
具体地,可采用SMOTE算法对样本集中的药物小分子的结构特征数据进行过采样,并将过采样后的数据分为训练集和测试集。基于SMOTE算法的过采样能够解决数据不平衡问题。
S3,通过预处理后的样本集对多种神经网络分别进行训练以得到多个用以预测药物小分子靶点活性的预测模型。
需要说明的是,如果该步骤中的多种神经网络均适于对上述某一特征提取方式所构建的药物小分子特征向量进行运算处理,则在步骤S1中可择一地选用该特征提取方式;如果该步骤中的多种神经网络适于对不同的特征提取方式所构建的药物小分子特征向量进行运算处理,例如神经网络A适于运算处理One-hot编码构建的药物小分子特征向量,神经网络B适于运算处理mol2vec学习构建的药物小分子特征向量,则在步骤S1中两种特征提取方式可并行进行,所构建的两种药物小分子特征向量分别用于该步骤中不同神经网络的训练。
在本发明的一个实施例中,多种神经网络包括多层CNN、CNN_GRU和CNN_LSTM,即包括一种单独的CNN结构和两种CNN+RNN结构。
本发明实施例对多种神经网络均进行了网络结构和模型参数的优化,通过调整网络结构,并通过全空间搜索进行学习率、激活函数、维度等重要参数的优化,选择最优的算法模型。比如,通过采用双向RNN(循环神经网络),了解药物小分子结构式当前的输出与之前、之后的状态的共同关心。双向RNN是由两个RNN上下叠加在一起组成。再比如,在嵌入层和RNN层之间添加1D卷积层。
其中,如图2所示,多层CNN采用顺序结构排列,由一层卷积层、一层标准化层、两层卷积层、一层压平层、两层全连接层组成。
如图3所示,CNN_GRU采用双向GRU,采用顺序结构排列,由一层卷积层、一层双向GRU模型、一层标准化层、两层卷积层、一层压平层、两层全连接层组成。CNN_LSTM采用双向LSTM,采用顺序结构排列,由一层卷积层、一层双向LSTM模型、一层标准化层、两层卷积层、一层压平层、两层全连接层组成。
此外,多层CNN、CNN_GRU和CNN_LSTM均加入Dropout,通过正则化来减小模型过拟合。在模型训练时均采用Adam优化器调整学习率,在一定程度上避免了由于学习率引起的随着迭代次数增大Loss没有减小的情况,防止模型欠拟合。
通过样本集对神经网络进行训练的具体训练过程可参照现有技术,在此不作赘述。
S4,通过至少一个评价指标评估历史预测数据库,分别得到以每个预测模型进行单模型预测、以多个预测模型进行投票融合预测的真实预测效果。
在实际的模型应用中,对于每一批待预测药物小分子数据,可均通过每个预测模型进行单模型预测,得到单模型预测结果,并且将多个预测模型对待预测药物小分子数据的预测结果进行投票融合,得到融合预测结果。
其中,上述的投票融合可采用软投票方式。具体地,对于每一批待预测药物小分子数据,通过获取待预测的药物小分子的化学结构数据,并提取其特征向量,以及将其特征向量输入每个预测模型,每个预测模型均得到有活性概率和无活性概率的单模型预测结果。接下来可求取各个预测模型得到的有活性概率的均值和无活性概率均值,并比较二者均值的大小以确定融合预测结果。
也就是说,利用本发明上述具体实施例的三个预测模型,有以多层CNN模型预测、以CNN_GRU模型预测、以CNN_LSTM模型预测和以三种模型投票融合预测,共四种预测方式。
已预测药物小分子数据及各单模型预测结果、融合预测结果、实际靶点活性数据均存储起来,作为后续预测的历史预测数据库。
在本发明的一个实施例中,评价指标包括准确率、精确率、召回率、ROC曲线下的面积、混淆矩阵中的一个或多个。
其中,准确率Accuracy是指预测正确的结果占总样本的百分比,本发明实施例所评估的是历史预测数据库中的真实预测数据,也即本发明实施例模型评估中涉及的样本是指历史真实预测数据的集合。准确率Accuracy的公式如下:
Accuracy=(TP+TN)/(TP+TN+FP+FN)
其中,TP(True Positive,真正例)是指被模型预测为正的正样本,FP(FalsePositive,假正例)是指被模型预测为正的负样本,FN(False Negative,假负例)是指被模型预测为负的正样本,TN(True Negative,真负例)是指被模型预测为负的负样本。
精准率Precision又叫查准率,它是针对预测结果而言的,是指在所有被预测为正的样本中实际为正的样本的概率,意思就是在预测为正样本的结果中,有多少把握可以预测正确。精准率Precision的公式如下:
Precision=TP/(TP+FP)
召回率Recall又叫查全率,它是针对原样本而言的,是指在实际为正的样本中被预测为正样本的概率。召回率Recall的公式如下:
Recall=TP/(TP+FN)
ROC(Receiver Operating Characteristic)曲线,又称接受者操作特征曲线。ROC曲线中的主要两个指标是真正率TPR和假正率FPR,其中横坐标为假正率FPR,纵坐标为真正率TPR。
真正率TPR(True Positive Rate),又称灵敏度,公式如下:
TPR=TP/(TP+FN)
假正率FPR(False Positive Rat),又称特异度,公式如下:
FPR=FP/(TN+FP)
ROC曲线具有当正负样本的分布变化的时候,ROC曲线能够保持不变的良好特性,能够很好地消除样本类别不平衡对指标结果产生的影响。
ROC曲线下的面积AUC(Area Under Curve),是处于ROC曲线下方的那部分面积的大小。ROC曲线下方面积越大表明模型性能越好,AUC就是由此产生的评价指标。通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的预测表现。如果模型是完美的,那么它的AUC=1,证明所有正例排在了负例的前面,如果模型是个简单的二类随机猜测模型,那么它的AUC=0.5,如果一个模型好于另一个,则它的曲线下方面积相对较大,对应的AUC值也会较大。
混淆矩阵(Confusion Matrix)又被称为错误矩阵,通过它可以直观地观察到算法的效果。它的每一列是样本的预测分类,每一行是样本的真实分类(反过来也可以),它反映了分类结果的混淆程度。
本发明实施例可以以上述任一评价指标来评估各种预测方式的历史真实预测表现的优劣,也可以以多个评价指标来评估各种预测方式的历史真实预测表现的优劣。
在本发明的优选实施例中,以ROC曲线下的面积AUC来评估各种预测方式的历史真实预测表现的优劣,若某一预测方式对应的AUC最大,则该预测方式的真实预测效果最好。
当以多个评价指标来评估各种预测方式的历史真实预测表现的优劣时,每个评价指标可具有相应的权重,以多个评价指标所得结果的加权平均值作为各种预测方式的历史真实预测表现的评估依据,若某一预测方式对应的加权平均值最大,则该预测方式的真实预测效果最好。优选地,ROC曲线下的面积AUC的权重最高。
S5,以真实预测效果最好的预测方式对当前待预测药物小分子数据进行预测,得到的预测结果作为最终预测结果。
进一步地,在对当前待预测药物小分子数据进行预测时,可分别对当前待预测药物小分子数据以每个预测模型进行单模型预测、以多个预测模型进行投票融合预测,并将各个预测结果加入历史预测数据库,以不断更新历史预测数据库。也就是说,不仅要以真实预测效果最好的预测方式进行预测,得到当前最终预测结果,还要以其他预测方式进行预测,以便将当前的药物小分子数据及各预测结果加入历史预测数据库,由此,可不断地扩充和更新历史预测数据库,使得后续的预测效果越来越好。
应当理解的是,本发明实施例的方法在初始化运行时,不存在上述的根据已预测数据得到的历史预测数据库,因此,可在初始时给定一个数据集用以进行各个预测方式真实预测效果的评估,或者在初始时人为选定一种预测方式的预测结果作为最终预测结果,接下来本发明实施例的方法便可正常执行。
根据本发明实施例的基于深度学习的药物小分子靶点活性预测方法,通过获取包含多个药物小分子数据的数据集,并获取数据集中每个药物小分子的结构特征数据,然后通过结构特征数据集对多种神经网络进行训练以得到多个预测模型,再通过至少一个评价指标评估历史预测数据库,分别得到以每个预测模型进行单模型预测、以多个预测模型进行投票融合预测的真实预测效果,最终以真实预测效果最好的预测方式对当前待预测药物小分子数据进行预测,由此,能够大大提高药物小分子靶点活性预测的准确性,从而有效提升药物研发的效率并加快虚拟筛选流程。
对应上述实施例的基于深度学习的药物小分子靶点活性预测方法,本发明还提出一种基于深度学习的药物小分子靶点活性预测装置。
如图4所示,本发明实施例的基于深度学习的药物小分子靶点活性预测装置包括:获取模块10、预处理模块20、训练模块30、评估模块40和预测模块50。其中,获取模块10用于获取包含多个药物小分子数据的数据集,并获取数据集中每个药物小分子的结构特征数据,构成样本集;预处理模块20用于对样本集进行预处理;训练模块30用于通过预处理后的样本集对多种神经网络分别进行训练以得到多个用以预测药物小分子靶点活性的预测模型;评估模块40用于通过至少一个评价指标评估历史预测数据库,分别得到以每个预测模型进行单模型预测、以多个预测模型进行投票融合预测的真实预测效果;预测模块50用于以真实预测效果最好的预测方式对当前待预测药物小分子数据进行预测,得到的预测结果作为最终预测结果。
在本发明的一个实施例中,数据集中可包含大量的药物小分子的化学结构数据。应当理解的是,在计算和存储能力允许的条件下,数据集中的药物小分子数量越大,对于后续模型的训练效果越好。
获取模块10获取到数据集后,可获取数据集中每个药物小分子数据对应的SMILES字符串,并统计字符串长度最大值和字符的类别个数,然后可采用独热编码One-hot的形式对每个SMILES字符串进行编码,并统计每个SMILES字符串的字符位置以构建药物小分子特征向量。或者,可采用mol2vec学习每个药物小分子数据的分子亚结构向量表示形式以构建药物小分子特征向量。本发明实施例所提供的上述两种特征提取方式,所构建的药物小分子特征向量能够适用于不同的神经网络算法模型。并且,上述两种特征提取方式无需计算额外的分子结构或者物理化学特征和进行特征工程,极大地缩短了特征提取时间,从而降低预测过程后续模型训练的成本。
预处理模块20具体可采用SMOTE算法对样本集中的药物小分子的结构特征数据进行过采样,并将过采样后的数据分为训练集和测试集。基于SMOTE算法的过采样能够解决数据不平衡问题。
需要说明的是,如果多种神经网络均适于对上述某一特征提取方式所构建的药物小分子特征向量进行运算处理,则获取模块10可择一地选用该特征提取方式;如果多种神经网络适于对不同的特征提取方式所构建的药物小分子特征向量进行运算处理,例如神经网络A适于运算处理One-hot编码构建的药物小分子特征向量,神经网络B适于运算处理mol2vec学习构建的药物小分子特征向量,则获取模块10可并行执行两种特征提取方式,所构建的两种药物小分子特征向量分别用于不同神经网络的训练。
在本发明的一个实施例中,多种神经网络包括多层CNN、CNN_GRU和CNN_LSTM,即包括一种单独的CNN结构和两种CNN+RNN结构。
本发明实施例对多种神经网络均进行了网络结构和模型参数的优化,通过调整网络结构,并通过全空间搜索进行学习率、激活函数、维度等重要参数的优化,选择最优的算法模型。比如,通过采用双向RNN(循环神经网络),了解药物小分子结构式当前的输出与之前、之后的状态的共同关心。双向RNN是由两个RNN上下叠加在一起组成。再比如,在嵌入层和RNN层之间添加1D卷积层。
其中,如图2所示,多层CNN采用顺序结构排列,由一层卷积层、一层标准化层、两层卷积层、一层压平层、两层全连接层组成。
如图3所示,CNN_GRU采用双向GRU,采用顺序结构排列,由一层卷积层、一层双向GRU模型、一层标准化层、两层卷积层、一层压平层、两层全连接层组成。CNN_LSTM采用双向LSTM,采用顺序结构排列,由一层卷积层、一层双向LSTM模型、一层标准化层、两层卷积层、一层压平层、两层全连接层组成。
此外,多层CNN、CNN_GRU和CNN_LSTM均加入Dropout,通过正则化来减小模型过拟合。在模型训练时均采用Adam优化器调整学习率,在一定程度上避免了由于学习率引起的随着迭代次数增大Loss没有减小的情况,防止模型欠拟合。
通过样本集对神经网络进行训练的具体训练过程可参照现有技术,在此不作赘述。
在实际的模型应用中,对于每一批待预测药物小分子数据,可均通过每个预测模型进行单模型预测,得到单模型预测结果,并且将多个预测模型对待预测药物小分子数据的预测结果进行投票融合,得到融合预测结果。
其中,上述的投票融合可采用软投票方式。具体地,对于每一批待预测药物小分子数据,通过获取待预测的药物小分子的化学结构数据,并提取其特征向量,以及将其特征向量输入每个预测模型,每个预测模型均得到有活性概率和无活性概率的单模型预测结果。接下来可求取各个预测模型得到的有活性概率的均值和无活性概率均值,并比较二者均值的大小以确定融合预测结果。
也就是说,利用本发明上述具体实施例的三个预测模型,有以多层CNN模型预测、以CNN_GRU模型预测、以CNN_LSTM模型预测和以三种模型投票融合预测,共四种预测方式。
已预测药物小分子数据及各单模型预测结果、融合预测结果、实际靶点活性数据均存储起来,作为后续预测的历史预测数据库。
在本发明的一个实施例中,评价指标包括准确率、精确率、召回率、ROC曲线下的面积、混淆矩阵中的一个或多个。
本发明实施例可以以上述任一评价指标来评估各种预测方式的历史真实预测表现的优劣,也可以以多个评价指标来评估各种预测方式的历史真实预测表现的优劣。
在本发明的优选实施例中,以ROC曲线下的面积AUC来评估各种预测方式的历史真实预测表现的优劣,若某一预测方式对应的AUC最大,则该预测方式的真实预测效果最好。
当以多个评价指标来评估各种预测方式的历史真实预测表现的优劣时,每个评价指标可具有相应的权重,以多个评价指标所得结果的加权平均值作为各种预测方式的历史真实预测表现的评估依据,若某一预测方式对应的加权平均值最大,则该预测方式的真实预测效果最好。优选地,ROC曲线下的面积AUC的权重最高。
进一步地,本发明实施例的基于深度学习的药物小分子靶点活性预测装置还可包括更新模块,更新模块用于分别对当前待预测药物小分子数据以每个预测模型进行单模型预测、以多个预测模型进行投票融合预测,并将各个预测结果加入历史预测数据库,以不断更新历史预测数据库。也就是说,不仅要以真实预测效果最好的预测方式进行预测,得到当前最终预测结果,还要以其他预测方式进行预测,以便将当前的药物小分子数据及各预测结果加入历史预测数据库,由此,可不断地扩充和更新历史预测数据库,使得后续的预测效果越来越好。
根据本发明实施例的基于深度学习的药物小分子靶点活性预测装置,通过获取包含多个药物小分子数据的数据集,并获取数据集中每个药物小分子的结构特征数据,然后通过结构特征数据集对多种神经网络进行训练以得到多个预测模型,再通过至少一个评价指标评估历史预测数据库,分别得到以每个预测模型进行单模型预测、以多个预测模型进行投票融合预测的真实预测效果,最终以真实预测效果最好的预测方式对当前待预测药物小分子数据进行预测,由此,能够大大提高药物小分子靶点活性预测的准确性,从而有效提升药物研发的效率并加快虚拟筛选流程。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于深度学习的药物小分子靶点活性预测方法,其特征在于,包括以下步骤:
获取包含多个药物小分子数据的数据集,并获取所述数据集中每个药物小分子的结构特征数据,构成样本集;
对所述样本集进行预处理;
通过预处理后的样本集对多种神经网络分别进行训练以得到多个用以预测药物小分子靶点活性的预测模型;
通过至少一个评价指标评估历史预测数据库,分别得到以每个所述预测模型进行单模型预测、以多个所述预测模型进行投票融合预测的真实预测效果;
以真实预测效果最好的预测方式对当前待预测药物小分子数据进行预测,得到的预测结果作为最终预测结果。
2.根据权利要求1所述的基于深度学习的药物小分子靶点活性预测方法,其特征在于,获取所述数据集中每个药物小分子的结构特征数据,具体包括:
获取每个药物小分子数据对应的SMILES字符串;
采用独热编码One-hot的形式对每个SMILES字符串进行编码,并统计每个SMILES字符串的字符位置以构建药物小分子特征向量,或者,
采用mol2vec学习每个药物小分子数据的分子亚结构向量表示形式以构建药物小分子特征向量。
3.根据权利要求2所述的基于深度学习的药物小分子靶点活性预测方法,其特征在于,对所述样本集进行预处理,具体包括:
采用SMOTE算法对所述样本集中的药物小分子的结构特征数据进行过采样,并将过采样后的数据分为训练集和测试集。
4.根据权利要求3所述的基于深度学习的药物小分子靶点活性预测方法,其特征在于,所述多种神经网络包括多层CNN、CNN_GRU和CNN_LSTM。
5.根据权利要求4所述的基于深度学习的药物小分子靶点活性预测方法,其特征在于,其中,所述CNN_GRU采用双向GRU,所述CNN_LSTM采用双向LSTM,每个所述神经网络均加入Dropout,在模型训练时采用Adam优化器调整学习率。
6.根据权利要求5所述的基于深度学习的药物小分子靶点活性预测方法,其特征在于,所述评价指标包括准确率、精确率、召回率、ROC曲线下的面积、混淆矩阵中的一个或多个。
7.根据权利要求6所述的基于深度学习的药物小分子靶点活性预测方法,其特征在于,所述评价指标为多个,每个所述评价指标具有相应的权重。
8.根据权利要求7所述的基于深度学习的药物小分子靶点活性预测方法,其特征在于,还包括:
分别对当前待预测药物小分子数据以每个所述预测模型进行单模型预测、以多个所述预测模型进行投票融合预测,并将各个预测结果加入所述历史预测数据库,以不断更新所述历史预测数据库。
9.一种基于深度学习的药物小分子靶点活性预测装置,其特征在于,包括:
获取模块,所述获取模块用于获取包含多个药物小分子数据的数据集,并获取所述数据集中每个药物小分子的结构特征数据,构成样本集;
预处理模块,所述预处理模块用于对所述样本集进行预处理;
训练模块,所述训练模块用于通过预处理后的样本集对多种神经网络分别进行训练以得到多个用以预测药物小分子靶点活性的预测模型;
评估模块,所述评估模块用于通过至少一个评价指标评估历史预测数据库,分别得到以每个所述预测模型进行单模型预测、以多个所述预测模型进行投票融合预测的真实预测效果;
预测模块,所述预测模块用于以真实预测效果最好的预测方式对当前待预测药物小分子数据进行预测,得到的预测结果作为最终预测结果。
10.根据权利要求9所述的基于深度学习的药物小分子靶点活性预测装置,其特征在于,还包括:
更新模块,所述更新模块用于分别对当前待预测药物小分子数据以每个所述预测模型进行单模型预测、以多个所述预测模型进行投票融合预测,并将各个预测结果加入所述历史预测数据库,以不断更新所述历史预测数据库。
CN202011006153.9A 2020-09-23 2020-09-23 基于深度学习的药物小分子靶点活性预测方法和装置 Pending CN112164427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011006153.9A CN112164427A (zh) 2020-09-23 2020-09-23 基于深度学习的药物小分子靶点活性预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011006153.9A CN112164427A (zh) 2020-09-23 2020-09-23 基于深度学习的药物小分子靶点活性预测方法和装置

Publications (1)

Publication Number Publication Date
CN112164427A true CN112164427A (zh) 2021-01-01

Family

ID=73863379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011006153.9A Pending CN112164427A (zh) 2020-09-23 2020-09-23 基于深度学习的药物小分子靶点活性预测方法和装置

Country Status (1)

Country Link
CN (1) CN112164427A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885415A (zh) * 2021-01-22 2021-06-01 中国科学院生态环境研究中心 基于分子表面点云的***活性快速筛查方法
CN113284553A (zh) * 2021-05-28 2021-08-20 南昌大学 一种用于治疗药物成瘾的药物靶点结合能力测试方法
CN113393911A (zh) * 2021-06-23 2021-09-14 石家庄鲜虞数字生物科技有限公司 一种基于深度学习的配体化合物快速预筛选模型
US20220238226A1 (en) * 2021-01-28 2022-07-28 Industry Foundation Of Chonnam National University Method for predicting medicinal effects of compounds using deep learning
CN115050428A (zh) * 2022-06-10 2022-09-13 华南理工大学 基于深度学习融合分子图及指纹的药物性质预测方法及***
CN115691703A (zh) * 2022-10-15 2023-02-03 苏州创腾软件有限公司 基于药物动力学模型的药物性质预测方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763865A (zh) * 2018-05-21 2018-11-06 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN110580268A (zh) * 2019-08-05 2019-12-17 西北大学 一种基于深度学习的信用评分集成分类***和方法
CN110890137A (zh) * 2019-11-18 2020-03-17 上海尔云信息科技有限公司 一种化合物毒性预测模型建模方法、装置及其应用
US20200242202A1 (en) * 2019-01-29 2020-07-30 Shenzhen Fugui Precision Ind. Co., Ltd. Fire development situation prediction device and method
CN111640471A (zh) * 2020-05-27 2020-09-08 牛张明 基于双向长短记忆模型的药物小分子活性预测的方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763865A (zh) * 2018-05-21 2018-11-06 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
US20200242202A1 (en) * 2019-01-29 2020-07-30 Shenzhen Fugui Precision Ind. Co., Ltd. Fire development situation prediction device and method
CN110580268A (zh) * 2019-08-05 2019-12-17 西北大学 一种基于深度学习的信用评分集成分类***和方法
CN110890137A (zh) * 2019-11-18 2020-03-17 上海尔云信息科技有限公司 一种化合物毒性预测模型建模方法、装置及其应用
CN111640471A (zh) * 2020-05-27 2020-09-08 牛张明 基于双向长短记忆模型的药物小分子活性预测的方法和***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885415A (zh) * 2021-01-22 2021-06-01 中国科学院生态环境研究中心 基于分子表面点云的***活性快速筛查方法
CN112885415B (zh) * 2021-01-22 2024-02-06 中国科学院生态环境研究中心 基于分子表面点云的***活性快速筛查方法
US20220238226A1 (en) * 2021-01-28 2022-07-28 Industry Foundation Of Chonnam National University Method for predicting medicinal effects of compounds using deep learning
CN113284553A (zh) * 2021-05-28 2021-08-20 南昌大学 一种用于治疗药物成瘾的药物靶点结合能力测试方法
CN113284553B (zh) * 2021-05-28 2023-01-10 南昌大学 一种用于治疗药物成瘾的药物靶点结合能力测试方法
CN113393911A (zh) * 2021-06-23 2021-09-14 石家庄鲜虞数字生物科技有限公司 一种基于深度学习的配体化合物快速预筛选模型
CN115050428A (zh) * 2022-06-10 2022-09-13 华南理工大学 基于深度学习融合分子图及指纹的药物性质预测方法及***
CN115050428B (zh) * 2022-06-10 2024-06-14 华南理工大学 基于深度学习融合分子图及指纹的药物性质预测方法及***
CN115691703A (zh) * 2022-10-15 2023-02-03 苏州创腾软件有限公司 基于药物动力学模型的药物性质预测方法和***

Similar Documents

Publication Publication Date Title
CN112164427A (zh) 基于深度学习的药物小分子靶点活性预测方法和装置
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111063393B (zh) 基于信息融合和深度学习的原核生物乙酰化位点预测方法
US20210150370A1 (en) Matrix representation of neural networks
CN112164426A (zh) 基于TextCNN的药物小分子靶点活性预测方法和装置
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN112235327A (zh) 异常日志检测方法、装置、设备和计算机可读存储介质
CN112164428B (zh) 基于深度学习的药物小分子性质预测方法和装置
CN115392349A (zh) 掘进机的截割部的故障诊断方法、装置和掘进机
CN110689140A (zh) 一种通过大数据进行轨交报警数据智能管理的方法
CN113903458A (zh) 急性肾损伤早期预测方法及装置
CN116778300B (zh) 一种基于知识蒸馏的小目标检测方法、***和存储介质
CN116910526A (zh) 模型训练方法、装置、通信设备及可读存储介质
CN113821975B (zh) 一种燃料电池性能衰减预测方法及***
CN115579060A (zh) 基因位点检测方法、装置、设备及介质
CN111026661B (zh) 一种软件易用性全面测试方法及***
CN112651168B (zh) 基于改进神经网络算法的建设用地面积预测方法
CN115116614A (zh) 一种健康状态评估方法、装置、设备及存储介质
CN114678083A (zh) 一种化学品遗传毒性预测模型的训练方法及预测方法
CN118116585B (zh) 通过dnn判定癌症良恶性的方法及装置
CN110782950A (zh) 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法
CN117117923B (zh) 一种基于大数据的储能控制并网管理方法及***
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及***
CN113327162B (zh) 一种信贷风控规则制定***
CN115456073B (zh) 基于长短期记忆的生成式对抗网络模型建模分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210101