CN112270951A - 基于多任务胶囊自编码器神经网络的全新分子生成方法 - Google Patents

基于多任务胶囊自编码器神经网络的全新分子生成方法 Download PDF

Info

Publication number
CN112270951A
CN112270951A CN202011247808.1A CN202011247808A CN112270951A CN 112270951 A CN112270951 A CN 112270951A CN 202011247808 A CN202011247808 A CN 202011247808A CN 112270951 A CN112270951 A CN 112270951A
Authority
CN
China
Prior art keywords
capsule
multitask
molecules
encoder
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011247808.1A
Other languages
English (en)
Other versions
CN112270951B (zh
Inventor
邹俊
杨胜勇
李侃
杨欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202011247808.1A priority Critical patent/CN112270951B/zh
Publication of CN112270951A publication Critical patent/CN112270951A/zh
Application granted granted Critical
Publication of CN112270951B publication Critical patent/CN112270951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Medicinal Preparation (AREA)

Abstract

本发明公布了一种基于多任务胶囊自编码器神经网络的全新分子生成方法,利用自编码器框架,建立了包括编码器、多任务胶囊分类器和解码器的全新分子生成模型。该方法将药物分子表示为SMILES(简化分子线性输入规范),标记目标性质标签,通过训练阶段学习已知药物分子的特征,得到训练模型;通过重构阶段,利用训练模型重构分子;通过生成阶段,利用训练模型生成分子,这些生成的分子同时具备设定的多种目标性质,同时生成的分子中具有大量的新分子与新骨架。本发明可用于药物或化合物等多种分子的生成,通过一次训练即可学习已知药物的特征和性质,从而进行同时满足所需物理、化学和生物性质的分子生成。采用本发明生成的分子有效性更高,性质更为优异。

Description

基于多任务胶囊自编码器神经网络的全新分子生成方法
技术领域
本发明涉及计算机人工智能与全新分子设计的交叉技术领域,尤其涉及一种多任务胶囊自编码器神经网络的全新分子生成方法,是一种基于自编码器框架和多任务胶囊分类器框架进行全新分子设计的方法,适用于生成同时符合多种物理、化学和生物性质的分子。
背景技术
小分子药物设计方法在活性药物研发过程中起关键作用。传统药物设计方法如虚拟筛选和药效团模型主要用于对已知虚拟化合物库进行搜索。由于化学空间中潜在可合成分子数目庞大(1023-1060)以及当前计算机计算性能的限制,对整个化学空间进行全局搜索较难,对搜索结果的分析和处理需要大量的专业经验。人工智能技术作为一种数据驱动的计算方法,可以从数据集中自动学习药物分子的化学结构和构效关系等知识,帮助科学家设计具有目标性质的分子,为药物发现和开发带来希望。基于深度神经网络的从头分子设计方法作为一种新型人工智能技术,可用于生成具有所需性质的分子。具有无须枚举虚拟化合物库即可生成具有优化性质的新分子的优势。但是现有分子生成方法仅考虑一种目标性质分子的生成,难以学习除该性质以外的其它特征,不能对分子多种性质进行同时优化,影响最终生成的效果,无法满足新药分子设计的要求。在分子生成的过程中,一个关键的难点在于分类器的选择,常用的支持向量机无法直接与深度神经网络联合训练,卷积神经网络分类效果不好,难以应用于多种目标性质的分子分类和生成。
发明内容
本发明的目的在于提出一种生成能同时满足分子量、脂水分配系数、氢键供体、氢键受体、可旋转键数量、极性表面积、可合成性和特定靶标活性等多种目标性质分子的方法。
本发明提出了一种新的模型,以自编码器作为基本框架,在隐藏层整和一个多任务胶囊分类器。采用本方法可有效生成多种目标性质优化的药物分子。
本方法的技术方案是:
一种基于多任务胶囊自编码器神经网络的全新分子生成方法,其特征在于:将药物分子表示为SMILES(简化分子线性输入规范),标记分子的目标性质标签。在结构上,该模型包括编码器、多任务胶囊分类器和解码器三个部分。编码器利用双向长短期记忆网络将药物分子SMILES编码为固定长度的向量;多任务胶囊分类器利用双层胶囊层编码表征药物分子性质标签的向量;解码器利用基于长短期记忆网络直接对隐藏层向量进行解码,生成分子的SMILES,实现分子的重构或全新分子的生成。
包括以下步骤:
步骤1:收集训练数据,提取分子SMILES独热(one-hot)编码表,计算性质标签;
步骤2:通过训练阶段学习已知药物分子SMILES的特征,得到训练模型;
步骤3:通过重构阶段,利用训练模型重构分子;
步骤4:通过生成阶段,利用训练模型生成特定性质分子。
进一步地,所述步骤1具体包括:
收集药物分子,建立特定的训练数据集;
采用SMILES表示药物分子;
通过实验或计算确定药物分子目标性质,如果性质是定量数据,选择合理的阈值将其转为定性数据,即目标性质=1,非目标性质=0;分子目标性质的计算通过PaDEL-Descriptor、RDKit或Discovery Studio程序完成;
训练数据同时包含药物分子SMILES和特定的性质标签;
进一步地,所述步骤2具体包括:
将训练数据输入多任务胶囊自编码器神经网络进行训练;
多次手动调整模型的超参数(学习率、神经元数目、训练步数),保留交叉熵损失函数值最小的训练模型;
保留多次训练过程中最佳的模型作为训练模型。
进一步地,所述步骤3具体包括:
运行训练模型,编码器将训练数据批量编码为固定长度的向量;
解码器将固定长度的向量解码为重构分子数据;
通过重构分子数据计算重构率;
保存重构的分子数据。
进一步地,所述步骤4具体包括:
运行训练模型,编码器将训练数据批量编码为固定长度的向量;
多任务胶囊分类器计算分子的性质特征,用于生成具有目标性质的分子;
对目标性质分子的向量表示进行数据增强,得到新的向量分布;
解码器将新的向量分布解码为生成分子数据;
多次手动调试数据增强过程的超参数,保留最佳生成结果;
当生成的分子达到预先设定的分子数量时,保存生成的分子数据。
进一步地,所述的多任务胶囊自编码器神经网络包括编码器、多任务胶囊分类器和解码器,所述的训练数据作为编码器的输入,所述编码器的输出作为多任务胶囊分类器的输入;所述多任务胶囊分类器的输出作为解码器的输入。
进一步地,编码器利用双向长短期记忆网络直接将药物分子SMILES编码为固定长度的向量,分为3个部分:
1)前向循环神经网络
Figure BDA0002770627690000031
按x1到xTx顺序读取输入序列,计算前向隐藏状态
Figure BDA0002770627690000032
后向循环神经网络
Figure BDA0002770627690000033
按xTx到x1顺序读取输入序列,计算后向隐藏状态
Figure BDA0002770627690000034
Figure BDA0002770627690000035
Figure BDA0002770627690000036
xTx表示第Tx时刻的字符,
Figure BDA0002770627690000037
表示第Tx时刻的前向隐藏状态,
Figure BDA0002770627690000038
表示第Tx时刻的后向隐藏状态,f表示非线性函数;
2)通过前向隐藏状态
Figure BDA0002770627690000039
与后向隐藏状态
Figure BDA00027706276900000310
计算隐藏状态ht
Figure BDA00027706276900000311
ht表示第t时刻的隐藏状态;
3)通过隐藏状态序列生成隐藏层向量:
Figure BDA00027706276900000312
c表示由隐藏状态序列生成的向量,q表示非线性函数。
进一步地,多任务胶囊分类器采用双层胶囊层(Capsule layers)优化MarginLoss,编码并预测药物分子的性质标签;
将隐藏层向量映射到双层胶囊层;
优化调节路由迭代次数Routing time,具体包括:
1)矩阵变换,根据隐藏层向量映射计算预测向量:
Figure BDA00027706276900000313
i表示第一层胶囊,j表示第二层胶囊,
Figure BDA00027706276900000314
表示预测向量,Wij表示反向传播学习到的权重矩阵,uj表示胶囊i的输出;
2)通过所有预测向量的权重和计算胶囊j的总输入向量sj
Figure BDA00027706276900000315
sj表示总输入向量,cij表示耦合系数;
3)通过softmax激活函数计算耦合系数cij
Figure BDA0002770627690000041
bij表示胶囊i与胶囊j之间连接强度的概率对数。在路由迭代之前,b初始值设为0,通过路由迭代次数更新cij的值;
4)通过非线性挤压函数计算胶囊j的向量输出:
Figure BDA0002770627690000042
vj表示胶囊j的向量输出;
5)计算胶囊层中每个胶囊的损失Lk
Lk=Tkmax(0,m+-||vk||)2+λ(1-Tk)max(0,||vk||-m-)2
Lk表示每个胶囊的损失,Tk表示指标函数(根据性质标签取值为1或者0),m+和m-分别表示定义的上边界和下边界,λ为定义两者权重的比例系数。
进一步地,解码器利用长短期记忆网络对多任务胶囊分类器编码隐藏层向量进行解码,具体包括:
1)通过隐藏层向量c与t时刻之前的预测字符{y1,···,yt-1}生成t时刻的预测字符:
p(yt|{y1,···,yt-1},c)=g(yt-1,st,c)
st=f′(st-1,yt-1,c)
yt表示t时刻的预测字符,st表示解码器的隐藏状态,g和f′表示非线性函数;
2)通过所有预测字符的概率计算预测序列Y的概率:
Figure BDA0002770627690000043
p(Y)表示预测序列Y的概率。
本发明的积极效果是:本发明提出了一种全新的模型,该模型由编码器、多任务胶囊分类器和解码器三个部分组成。本发明的创新之处在于利用多任务胶囊分类器有效的获取药物分子结构与多种药物性质之间难以量化的关系,学习到药物分子多种性质数据之间的相关信息,可以同时对生成分子的多种性质进行***,通过编码器与解码器,实现了满足多种性质分子的生成。相比于以前的其它基于机器学习生成分子的方法,本方法具有的优势:
第一,本发明的方法比传统的机器学习方法生成效果更好。传统的生成模型仅能对一种目标性质进行生成,生成多种性质的分子需进行多次训练。本发明通过应用多任务胶囊分类器,实现了同时对多种性质进行分类和生成,通过多任务胶囊自编码器生成的分子可同时符合分子量、脂水分配系数、氢键供体、氢键受体、可旋转键数量、极性表面积、可合成性和特定靶标活性等多种目标性质,同时,生成的分子具有新的骨架。
第二,本发明的方法使用的多任务胶囊分类器比单任务胶囊分类器以及其它传统机器学习方法的分类效果更好。多任务胶囊分类器能利用不同性质数据之间的相关信息,有效地提取分子的特征,提高预测效果。
附图说明
图1是本发明基于多任务胶囊自编码器的全新分子生成方法的流程框图。
图2是本发明基于多任务胶囊自编码器的全新分子生成方法的模型示意图。
图3是本发明基于多任务胶囊自编码器的全新分子生成方法的具体步骤。
图4是本发明基于多任务胶囊自编码器的全新分子生成方法的训练示意图。
图5是本发明基于多任务胶囊自编码器的全新分子生成方法的重构示意图。
图6是本发明基于多任务胶囊自编码器的全新分子生成方法的生成示意图。
具体实施方法
附图给出了采用本发明实现多种目标性质的分子生成的具体过程。
本发明提出的基于多任务胶囊自编码器的全新分子生成方法,涉及计算机人工智能与新药分子设计的交叉技术领域,其核心是将多任务胶囊分类器引入自编码器框架,能够有效利用多任务胶囊分类器进行分子特征提取和多种性质数据分析,实现了同时满足物理、化学和生物性质的分子生成。
本发明生成分子的目标性质包括:(1)分子量;(2)脂水分配系数;(3)氢键供体;(4)氢键受体;(5)可旋转键数量;(6)极性表面积;(7)可合成性;(8)PDGF、Renin、Bcl-2等多种靶点活性。
参见图1。
本发明方法包括构建有效的药物分子数据库、测定或计算药物分子性质标签、构建自编码器框架、构建多任务胶囊分类器框架、设计并实现数据增强模块、生成过程执行等流程。
参见图2。
本发明方法是基于多任务胶囊自编码器的全新分子生成方法。模型以自编码器作为基本框架,在隐藏层配置多任务胶囊分类器。编码器利用双向长短期记忆网络直接将药物分子SMILES编码为固定长度的向量;多任务胶囊分类器采用双层胶囊层对向量特征进行分析和提取,预测药物分子的性质标签;解码器利用长短期记忆网络对隐藏层向量进行解码,实现输出和分子生成。
参见图3。
本发明方法的具体操作步骤如下:
步骤1:收集训练数据,提取分子独热(one-hot)编码表,计算性质标签;
步骤2:通过训练阶段学习已知药物分子的特征,得到训练模型;
步骤3:通过重构阶段,利用训练模型重构分子;
步骤4:通过生成阶段,利用训练模型生成目标性质分子。
在本发明中,所述步骤1具体为:收集数据库中药物分子,采用SMILES表示药物分子;测试或计算药物分子的物理、化学或生物等性质;选择合理的阈值将定量数据转为定性类别标签;训练数据同时包括药物分子SMILES与性质标签。训练数据将用于模型的训练过程。
参见图4。
在本发明中,所述步骤2具体为:将训练数据输入多任务胶囊自编码器进行训练,多次手动调整模型的超参数(学习率、神经元数目、训练步数),保留交叉熵损失函数值最小的训练模型,保留多次训练过程中最佳的模型作为训练模型。
参见图5。
在本发明中,所述步骤3具体为:读取训练数据,运行训练模型,编码器将训练数据批量编码为固定长度的向量;解码器将固定长度的向量解码为重构分子数据;通过重构分子数据计算重构率;保存重构的分子数据。
参见图6。
在本发明中,所述步骤4具体为:读取训练数据,运行训练模型,编码器将训练数据批量编码为固定长度的向量;多任务胶囊分类器预测训练分子的性质,保留目标性质分子;对目标性质分子的向量表示进行数据增强,得到新的向量分布;解码器将新的向量分布解码为新的生成分子数据;多次手动调试数据增强过程的超参数,保留最佳生成结果;当生成的分子达到预先设定的分子数量时,保存生成的分子数据。
编码器利用双向长短期记忆网络直接将药物分子SMILES编码为固定长度的向量的步骤是:
1)前向循环神经网络
Figure BDA0002770627690000061
按x1到xTx顺序读取输入序列,计算前向隐藏状态
Figure BDA0002770627690000062
后向循环神经网络
Figure BDA0002770627690000071
按xTx到x1顺序读取输入序列,计算后向隐藏状态
Figure BDA0002770627690000072
Figure BDA0002770627690000073
Figure BDA0002770627690000074
xTx表示第Tx时刻的字符,
Figure BDA0002770627690000075
表示第Tx时刻的前向隐藏状态,
Figure BDA0002770627690000076
表示第Tx时刻的后向隐藏状态,f表示非线性函数;
2)通过前向隐藏状态
Figure BDA0002770627690000077
与后向隐藏状态
Figure BDA0002770627690000078
计算隐藏状态ht
Figure BDA0002770627690000079
ht表示第t时刻的隐藏状态;
3)通过隐藏状态序列生成隐藏层向量:
Figure BDA00027706276900000710
c表示由隐藏状态序列生成的向量,q表示非线性函数。
将隐藏层向量映射到双层胶囊层,优化调节路由迭代次数Routing time,多任务胶囊分类器预测训练分子的性质,保留目标性质分子,具体包括:
1)矩阵变换,根据隐藏层向量映射计算预测向量:
Figure BDA00027706276900000711
i表示第一层胶囊,j表示第二层胶囊,
Figure BDA00027706276900000712
表示预测向量,Wij表示反向传播学习到的权重矩阵,uj表示胶囊i的输出;
2)通过所有预测向量的权重和计算胶囊j的总输入向量sj
Figure BDA00027706276900000713
sj表示总输入向量,cij表示耦合系数;
3)通过softmax激活函数计算耦合系数cij
Figure BDA00027706276900000714
bij表示胶囊i与胶囊j之间连接强度的概率对数。在路由迭代之前,b初始值设为0,通过路由迭代次数更新cij的值;
4)通过非线性挤压函数计算胶囊j的向量输出:
Figure BDA0002770627690000081
vj表示胶囊j的向量输出;
5)计算胶囊层中每个胶囊的损失Lk
Lk=Tkmax(0,m+-||vk||)2+λ(1-Tk)max(0,||vk||-m-)2
Lk表示每个胶囊的损失,Tk表示指标函数,m+和m-分别表示上边界和下边界。
解码器利用长短期记忆网络对隐藏层向量进行解码,具体包括:
1)通过隐藏向量c与t时刻之前的预测字符{y1,···,yt-1}生成t时刻的预测字符:
p(yt|{y1,···,yt-1},c)=g(yt-1,st,c)
st=f′(st-1,yt-1,c)
yt表示t时刻的预测字符,st表示解码器的隐藏状态,g和f′表示非线性函数;
2)通过所有预测字符的概率计算预测序列Y的概率:
Figure BDA0002770627690000082
p(Y)表示预测序列Y的概率。
实施例。
生成同时满足分子量、脂水分配系数、氢键供体、氢键受体、可旋转键数量、极性表面积和可合成性等性质的分子。实施过程如下:
第一步:从ChEMBL开源数据库(https://www.ebi.ac.uk/chembl/)中收集药物分子(1757517个化合物),采用SMILES表示药物分子。
第二步:通过开源PaDEL-Descriptor、RDKit或Discovery Studio程序计算药物分子的分子量、脂水分配系数、氢键供体、氢键受体、可旋转键数量、极性表面积和可合成性;选择分子量≤500、0≤脂水分配系数≤5、氢键供体≤5、氢键受体≤10、可旋转键数量≤20、极性表面积≤200和可合成性≤6作为目标性质,标签为1;训练数据同时包括药物分子SMILES与性质标签,将训练数据保存为SMI格式。
第三步:用训练数据建立基于多任务胶囊自编码器的全新分子生成模型。在结构上,该模型包括编码器、多任务胶囊分类器和解码器三个部分。在训练阶段通过多次手动调整模型的超参数(学习率、神经元数目、训练步数),保留多次训练过程中最佳的模型作为训练模型。本例从以下几个方面进行调试:
训练阶段的批处理大小候选范围:128,256,512和1028;网络迭代次数候选范围:从100到1000,每次改变增加100;
编码器利用双向长短期记忆网络直接将药物分子SMILES编码为固定长度的向量。编码器每层神经元数目候选范围:128,192和256;编码器神经元层数设置为1;
多任务胶囊分类器由双层胶囊层构成,通过优化调节路由迭代次数Routingtime,实现对多种目标性质的分类。每层胶囊层神经元候选范围:128,192和256;胶囊部分路由迭代次数候选范围:1,2,3,4和5;胶囊分类器的损失权重设置为10;优化器选择AdamOptimizer;胶囊分类器的学习率候选范围:从0.001到0.01,每次增加改变0.001;
解码器利用基于长短期记忆网络对隐藏层向量进行解码。解码器每层神经元候选范围:256,384和512;编码器神经元层数设置为1。
第四步:在重构阶段,通过训练模型重构分子,保存重构分子文件。
重构阶段的批处理大小候选范围:500,1000,1500和2000;批处理次数设置为10。
第五步:在生成阶段,通过训练模型进行分子生成,生成同时满足分子量、脂水分配系数、氢键供体、氢键受体、可旋转键数量、极性表面积和可合成性的化合物,保存生成分子文件。
生成阶段的批处理大小候选范围:500,1000,1500和2000;批处理次数设置为10;数据增强处理过程中正态分布的标准差设置为0.2。
药物小分子设计方法在活性药物发现过程中起关键作用。传统药物设计方法如虚拟筛选和药效团模型主要用于对已知虚拟化合物库进行搜索。由于化学空间中药物分子数目庞大以及当前计算机计算性能的限制,使得对整个化学空间进行搜索变得不切实际,对搜索结果的分析和处理还需要大量的专业经验。基于深度神经网络的从头分子设计方法作为一种新型人工智能技术,可用于生成具有所需性质的分子。具有无须枚举虚拟化合物库即可生成具有优化性质的新分子等优势。
但是现有分子生成方法仅考虑一种目标性质分子的生成,此类方法的效率较低,不能对分子多种性质进行限制,难以满足新药分子设计的要求。而本发明提出的多任务胶囊自编码器可以有效的获取药物分子结构与多种药物性质之间难以量化的关系,学习到药物分子多种性质数据之间的相关信息,实现同时满足物理、化学和生物性质的分子,且生成分子的有效性和新颖性均有提升。

Claims (9)

1.本发明公布了一种基于多任务胶囊自编码器神经网络的全新分子生成方法,其特征在于:将药物分子表示为SMILES(简化分子线性输入规范),标记目标性质标签,利用自编码器框架,建立包括编码器、多任务胶囊分类器和解码器的全新分子生成模型;编码器利用双向长短期记忆网络将药物分子SMILES编码为固定长度的向量;多任务胶囊分类器采用双层胶囊层优化Margin Loss,编码并预测药物分子的性质标签;解码器利用长短期记忆网络对隐藏层向量进行解码,实现输入与输出的重构;
包括以下步骤:
步骤1:收集训练数据,提取分子独热(one-hot)编码表,计算性质标签;
步骤2:通过训练阶段学习已知药物分子的特征,得到训练模型;
步骤3:通过重构阶段,利用训练模型重构分子;
步骤4:通过生成阶段,利用训练模型生成特定性质分子。
2.如权利要求1所述的一种基于多任务胶囊自编码器神经网络的全新分子生成方法,其特征在于,所述步骤1具体包括:
收集药物分子,建立特定的数据集;
采用SMILES(简化分子线性输入规范)表示药物分子;
计算或收集药物分子目标性质数据,如果数据是定量表示,选择合理的阈值转为定性表示,即目标性质=1;非目标性质=0;所有分子描述符的计算通过开源PaDEL-Descriptor、RDKit或Discovery Studio程序完成;
训练数据同时包含药物分子SMILES和特定的性质标签。
3.如权利要求1所述的一种基于多任务胶囊自编码器神经网络的全新分子生成方法,其特征在于,所述步骤2具体包括:
将训练数据输入多任务胶囊自编码器神经网络进行训练;
多次手动调整模型的超参数(学习率、神经元数目、训练步数),保留交叉熵损失函数值最小的训练模型;
保留多次训练过程中最佳的模型作为预训练模型。
4.如权利要求1所述的一种基于多任务胶囊自编码器神经网络的全新分子生成方法,其特征在于,所述步骤3具体包括:
运行训练模型,编码器将训练数据批量编码为固定长度的向量;
解码器将固定长度的向量解码为重构分子数据;
通过重构分子数据计算重构率;
保存重构的分子数据。
5.如权利要求1所述的一种基于多任务胶囊自编码器神经网络的全新分子生成方法,其特征在于,所述步骤4具体包括:
运行训练模型,编码器将训练数据批量编码为固定长度的向量;
多任务胶囊分类器编码并预测训练分子的性质;
对目标性质分子的向量表示进行数据增强,得到新的向量分布;
解码器将新的向量分布解码为生成分子数据;
多次手动调试数据增强过程的超参数,保留最佳生成结果;
当生成的分子达到预先设定的分子数量时,保存生成的分子数据。
6.如权利要求5所述的一种基于多任务胶囊自编码器神经网络的全新分子生成方法,其特征在于,所述的多任务胶囊自编码器神经网络包括编码器、多任务胶囊分类器和解码器,所述的训练数据作为编码器的输入,所述编码器的输出作为多任务胶囊分类器的输入;所述多任务胶囊分类器的输出作为解码器的输入。
7.如权利要求6所述的一种基于多任务胶囊自编码器神经网络的全新分子生成方法,其特征在于:
编码器利用双向长短期记忆网络将药物分子SMILES编码为固定长度的向量,分为3个部分:
1)前向循环神经网络
Figure FDA0002770627680000021
按x1到xTx顺序读取输入序列,计算前向隐藏状态
Figure FDA0002770627680000022
后向循环神经网络
Figure FDA0002770627680000023
按xTx到x1顺序读取输入序列,计算后向隐藏状态
Figure FDA0002770627680000024
Figure FDA0002770627680000025
Figure FDA0002770627680000026
xTx表示第Tx时刻的字符,
Figure FDA0002770627680000027
表示第Tx时刻的前向隐藏状态,
Figure FDA0002770627680000028
表示第Tx时刻的后向隐藏状态,f表示非线性函数;
2)通过前向隐藏状态
Figure FDA0002770627680000029
与后向隐藏状态
Figure FDA00027706276800000210
计算隐藏状态ht
Figure FDA00027706276800000211
ht表示第t时刻的隐藏状态;
3)通过隐藏状态序列生成隐藏层向量:
Figure FDA00027706276800000212
c表示由隐藏状态序列生成的向量,q表示非线性函数。
8.如权利要求6所述的一种基于多任务胶囊自编码器神经网络的全新分子生成方法,其特征在于:
多任务胶囊分类器采用双层胶囊层优化Margin Loss,预测药物分子的性质标签;
将隐藏层向量映射到双层胶囊层Capsule layers,优化调节路由迭代次数Routingtime,具体包括:
1)矩阵变换,根据隐藏层向量映射计算预测向量:
Figure FDA0002770627680000031
i表示第一层胶囊,j表示第二层胶囊,
Figure FDA0002770627680000032
表示预测向量,Wij表示反向传播学习到的权重矩阵,uj表示胶囊i的输出;
2)通过所有预测向量的权重和计算胶囊j的总输入向量sj
Figure FDA0002770627680000033
sj表示总输入向量,cij表示耦合系数;
3)通过softmax激活函数计算耦合系数cij
Figure FDA0002770627680000034
bij表示胶囊i与胶囊j之间连接强度的概率对数;在路由迭代之前,b初始值设为0,通过路由迭代次数更新cij的值;
4)通过非线性挤压函数计算胶囊j的向量输出:
Figure FDA0002770627680000035
vj表示胶囊j的向量输出;
5)计算胶囊层中每个胶囊的损失Lk
Lk=Tkmax(0,m+-||vk||)2+λ(1-Tk)max(0,||vk||-m-)2
Lk表示每个胶囊的损失,Tk表示指标函数,m+和m-分别表示上边界和下边界。
9.如权利要求6所述的一种基于多任务胶囊自编码器神经网络的全新分子生成方法,其特征在于:
解码器利用长短期记忆网络对隐藏层向量进行解码,具体包括:
1)通过隐藏向量c与t时刻之前的预测字符{y1,···,yt-1}生成t时刻的预测字符:
p(yt|{y1,···,yt-1},c)=g(yt-1,st,c)
st=f′(st-1,yt-1,c)
yt表示t时刻的预测字符,st表示解码器的隐藏状态,g和f′表示非线性函数;
2)通过所有预测字符的概率计算预测序列Y的概率:
Figure FDA0002770627680000041
p(Y)表示预测序列Y的概率。
CN202011247808.1A 2020-11-10 2020-11-10 基于多任务胶囊自编码器神经网络的全新分子生成方法 Active CN112270951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011247808.1A CN112270951B (zh) 2020-11-10 2020-11-10 基于多任务胶囊自编码器神经网络的全新分子生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011247808.1A CN112270951B (zh) 2020-11-10 2020-11-10 基于多任务胶囊自编码器神经网络的全新分子生成方法

Publications (2)

Publication Number Publication Date
CN112270951A true CN112270951A (zh) 2021-01-26
CN112270951B CN112270951B (zh) 2022-11-01

Family

ID=74339427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011247808.1A Active CN112270951B (zh) 2020-11-10 2020-11-10 基于多任务胶囊自编码器神经网络的全新分子生成方法

Country Status (1)

Country Link
CN (1) CN112270951B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562869A (zh) * 2021-02-24 2021-03-26 北京中医药大学东直门医院 一种药物联用安全评测***、方法和装置
CN113223637A (zh) * 2021-05-07 2021-08-06 中国科学院自动化研究所 基于领域知识和深度强化学习的药物分子生成器训练方法
CN113470740A (zh) * 2021-06-30 2021-10-01 中国石油大学(华东) 基于全连接网络集成深度学习模型的药物推荐***、计算机设备、存储介质
CN113488119A (zh) * 2021-06-18 2021-10-08 重庆医科大学 药物小分子数值特征结构化数据库及其建立方法
CN114049922A (zh) * 2021-11-09 2022-02-15 四川大学 基于小规模数据集和生成模型的分子设计方法
CN114446414A (zh) * 2022-01-24 2022-05-06 电子科技大学 基于量子循环神经网络的逆向合成分析方法
CN114496112A (zh) * 2022-01-21 2022-05-13 内蒙古工业大学 一种基于多目标优化的抗乳腺癌药物成分智能量化方法
CN114913938A (zh) * 2022-05-27 2022-08-16 中南大学 一种基于药效团模型的小分子生成方法、设备及介质
CN114937478A (zh) * 2022-05-18 2022-08-23 北京百度网讯科技有限公司 用于训练模型的方法、用于生成分子的方法和装置
CN117334271A (zh) * 2023-09-25 2024-01-02 江苏运动健康研究院 一种基于指定属性生成分子的方法
WO2024009110A1 (en) * 2022-07-08 2024-01-11 Topia Life Sciences Limited An automated system for generating novel molecules
CN117766070A (zh) * 2023-06-08 2024-03-26 香港量子人工智能实验室有限公司 一种基于人工智能的材料设计方法、装置、终端及介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106146670A (zh) * 2015-04-24 2016-11-23 宜明昂科生物医药技术(上海)有限公司 一种新的重组双功能融合蛋白及其制备和应用
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design
CN108073780A (zh) * 2016-11-14 2018-05-25 王�忠 一种比较中药复方的临床疗效的方法
CN109979541A (zh) * 2019-03-20 2019-07-05 四川大学 基于胶囊网络的药物分子药代动力学性质和毒性预测方法
US20190220573A1 (en) * 2018-01-17 2019-07-18 Samsung Electronics Co., Ltd. Method and apparatus for generating a chemical structure using a neural network
WO2019202292A1 (en) * 2018-04-20 2019-10-24 DrugAI Limited Interaction property prediction system and method
CN110473595A (zh) * 2019-07-04 2019-11-19 四川大学 一种结合最短依存路径的胶囊网络关系抽取模型
CN110634539A (zh) * 2019-09-12 2019-12-31 腾讯科技(深圳)有限公司 基于人工智能的药物分子处理方法、装置及存储介质
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN111128314A (zh) * 2018-10-30 2020-05-08 深圳市云网拜特科技有限公司 一种药物发现方法和***
CN111126554A (zh) * 2018-10-31 2020-05-08 深圳市云网拜特科技有限公司 一种基于生成对抗网络的药物先导化合物筛选方法和***
CN111432720A (zh) * 2017-10-06 2020-07-17 梅约医学教育与研究基金会 基于ecg的心脏射血分数筛查
CN111508568A (zh) * 2020-04-20 2020-08-07 腾讯科技(深圳)有限公司 分子生成方法、装置及计算机可读存储介质和终端设备
CN111584010A (zh) * 2020-04-01 2020-08-25 昆明理工大学 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
US20200311914A1 (en) * 2017-04-25 2020-10-01 The Board Of Trustees Of Leland Stanford University Dose reduction for medical imaging using deep convolutional neural networks
CN111785326A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于生成对抗网络的药物作用后基因表达谱预测方法
CN111814460A (zh) * 2020-07-06 2020-10-23 四川大学 基于外部知识的药物相互作用关系抽取方法及***

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106146670A (zh) * 2015-04-24 2016-11-23 宜明昂科生物医药技术(上海)有限公司 一种新的重组双功能融合蛋白及其制备和应用
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design
CN108073780A (zh) * 2016-11-14 2018-05-25 王�忠 一种比较中药复方的临床疗效的方法
US20200311914A1 (en) * 2017-04-25 2020-10-01 The Board Of Trustees Of Leland Stanford University Dose reduction for medical imaging using deep convolutional neural networks
CN111432720A (zh) * 2017-10-06 2020-07-17 梅约医学教育与研究基金会 基于ecg的心脏射血分数筛查
US20190220573A1 (en) * 2018-01-17 2019-07-18 Samsung Electronics Co., Ltd. Method and apparatus for generating a chemical structure using a neural network
WO2019202292A1 (en) * 2018-04-20 2019-10-24 DrugAI Limited Interaction property prediction system and method
CN111128314A (zh) * 2018-10-30 2020-05-08 深圳市云网拜特科技有限公司 一种药物发现方法和***
CN111126554A (zh) * 2018-10-31 2020-05-08 深圳市云网拜特科技有限公司 一种基于生成对抗网络的药物先导化合物筛选方法和***
CN109979541A (zh) * 2019-03-20 2019-07-05 四川大学 基于胶囊网络的药物分子药代动力学性质和毒性预测方法
CN110473595A (zh) * 2019-07-04 2019-11-19 四川大学 一种结合最短依存路径的胶囊网络关系抽取模型
CN110634539A (zh) * 2019-09-12 2019-12-31 腾讯科技(深圳)有限公司 基于人工智能的药物分子处理方法、装置及存储介质
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN111584010A (zh) * 2020-04-01 2020-08-25 昆明理工大学 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN111508568A (zh) * 2020-04-20 2020-08-07 腾讯科技(深圳)有限公司 分子生成方法、装置及计算机可读存储介质和终端设备
CN111785326A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于生成对抗网络的药物作用后基因表达谱预测方法
CN111814460A (zh) * 2020-07-06 2020-10-23 四川大学 基于外部知识的药物相互作用关系抽取方法及***

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ARPIT SRIVASTAVA等: "Computational Drug Discovery Approach for Drug Design against Zika Virus", 《2018 INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND SYSTEMS BIOLOGY (BSB)》 *
GUPTA ANVITA等: "Generative Recurrent Networks for De Novo Drug Design", 《MOLECULAR INFORMATICS》 *
HONGMING CHEN等: "The rise of deep learning in drug discovery", 《DRUG DISCOVERY TODAY》 *
RAWAT, ANIL KUMAR等: "Analysis on Latest Technologies in Medical Imaging for Early Diagnosis and Treatment", 《JOURNAL OF COMPUTATIONAL AND THEORETICAL NANOSCIENCE》 *
WANG Y等: "Capsule Networks Showed Excellent Performance in the Classification of hERG Blockers/Nonblockers", 《FRONTIERS IN PHARMACOLOGY》 *
XIN YANG等: "Concepts of Artificial Intelligence for Computer-Assisted Drug Discovery", 《CHEMICAL REVIEWS》 *
廖俊等: "深度学习在药物研发中的研究进展", 《药学进展》 *
谭小芹等: "中国药物分子设计40年发展成就", 《中国科学:生命科学》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562869A (zh) * 2021-02-24 2021-03-26 北京中医药大学东直门医院 一种药物联用安全评测***、方法和装置
CN113223637A (zh) * 2021-05-07 2021-08-06 中国科学院自动化研究所 基于领域知识和深度强化学习的药物分子生成器训练方法
CN113488119B (zh) * 2021-06-18 2024-02-02 重庆医科大学 药物小分子数值特征结构化数据库及其建立方法
CN113488119A (zh) * 2021-06-18 2021-10-08 重庆医科大学 药物小分子数值特征结构化数据库及其建立方法
CN113470740A (zh) * 2021-06-30 2021-10-01 中国石油大学(华东) 基于全连接网络集成深度学习模型的药物推荐***、计算机设备、存储介质
CN114049922A (zh) * 2021-11-09 2022-02-15 四川大学 基于小规模数据集和生成模型的分子设计方法
CN114049922B (zh) * 2021-11-09 2022-06-03 四川大学 基于小规模数据集和生成模型的分子设计方法
CN114496112A (zh) * 2022-01-21 2022-05-13 内蒙古工业大学 一种基于多目标优化的抗乳腺癌药物成分智能量化方法
CN114496112B (zh) * 2022-01-21 2023-10-31 内蒙古工业大学 一种基于多目标优化的抗乳腺癌药物成分智能量化方法
CN114446414A (zh) * 2022-01-24 2022-05-06 电子科技大学 基于量子循环神经网络的逆向合成分析方法
CN114937478A (zh) * 2022-05-18 2022-08-23 北京百度网讯科技有限公司 用于训练模型的方法、用于生成分子的方法和装置
CN114937478B (zh) * 2022-05-18 2023-03-10 北京百度网讯科技有限公司 用于训练模型的方法、用于生成分子的方法和装置
CN114913938A (zh) * 2022-05-27 2022-08-16 中南大学 一种基于药效团模型的小分子生成方法、设备及介质
WO2024009110A1 (en) * 2022-07-08 2024-01-11 Topia Life Sciences Limited An automated system for generating novel molecules
CN117766070A (zh) * 2023-06-08 2024-03-26 香港量子人工智能实验室有限公司 一种基于人工智能的材料设计方法、装置、终端及介质
CN117334271A (zh) * 2023-09-25 2024-01-02 江苏运动健康研究院 一种基于指定属性生成分子的方法

Also Published As

Publication number Publication date
CN112270951B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN112270951B (zh) 基于多任务胶囊自编码器神经网络的全新分子生成方法
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN116415654A (zh) 一种数据处理方法及相关设备
Xiao et al. History-based attention in Seq2Seq model for multi-label text classification
US11354582B1 (en) System and method for automated retrosynthesis
KR102491346B1 (ko) 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램
WO2022188653A1 (zh) 分子骨架跃迁的处理方法、装置、介质、电子设备及计算机程序产品
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
Zhao et al. Exploiting multiple question factors for knowledge tracing
Cao et al. A dual attention model based on probabilistically mask for 3D human motion prediction
Luo et al. A Caps-UBI model for protein ubiquitination site prediction
Ma et al. Target-Embedding Autoencoder With Knowledge Distillation for Multi-Label Classification
CN116843995A (zh) 细胞影像学预训练模型构建方法和装置
CN114239575B (zh) 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备
CN115240787A (zh) 基于深度条件循环神经网络的全新分子生成方法
Song Distilling knowledge from user information for document level sentiment classification
CN114936564A (zh) 一种基于对齐变分自编码的多语言语义匹配方法及***
Zheng et al. Self-distillation object segmentation via pyramid knowledge representation and transfer
CN114358021A (zh) 基于深度学习的任务型对话语句回复生成方法及存储介质
Dong et al. Advancing Drug Discovery with Deep Learning: Harnessing Reinforcement Learning and One-Shot Learning for Molecular Design in Low-Data Situations
CN114238579B (zh) 文本分析方法、装置、介质和计算设备
JP7521855B2 (ja) 人工知能モデルの学習のための定型化された研究記録データ自動生成方法、装置およびコンピュータプログラム
Li et al. Application of virtual human sign language translation based on speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant