CN110970099B - 一种基于正则化变分自动编码器的药物分子生成方法 - Google Patents

一种基于正则化变分自动编码器的药物分子生成方法 Download PDF

Info

Publication number
CN110970099B
CN110970099B CN201911255006.2A CN201911255006A CN110970099B CN 110970099 B CN110970099 B CN 110970099B CN 201911255006 A CN201911255006 A CN 201911255006A CN 110970099 B CN110970099 B CN 110970099B
Authority
CN
China
Prior art keywords
drug molecule
drug
encoder
molecules
property
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911255006.2A
Other languages
English (en)
Other versions
CN110970099A (zh
Inventor
吕肖庆
李昕
张昊
汤帜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201911255006.2A priority Critical patent/CN110970099B/zh
Publication of CN110970099A publication Critical patent/CN110970099A/zh
Application granted granted Critical
Publication of CN110970099B publication Critical patent/CN110970099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公布了一种基于正则化变分自动编码器的药物分子生成方法,将药物分子表示为图数据,利用变分自动编码器框架,建立包括编码器和解码器的药物分子生成模型;编码器利用图神经网络直接对输入的药物分子图进行编码;解码器采用多层感知机,优化目标包括重建损失、KL损失及性质正则化损失,其中性质正则化损失利用蒙特卡洛采样进行估计。采用本发明技术生成的候选药物分子有效性更高,分子的性质更优异。

Description

一种基于正则化变分自动编码器的药物分子生成方法
技术领域
本发明涉及计算机人工智能与新药分子设计的交叉技术领域,尤其涉及一种基于正则化变分自动编码器的药物分子生成方法,是一种基于图神经网络、深度生成模型和性质目标正则化的进行新药分子设计的方法,适用于新药发现过程中候选药物分子的设计与生成。
背景技术
新药研发耗资巨大、周期漫长且成功率很低。其中候选药物分子的筛选是前期的关键环节,计算机辅助设计以及最新人工智能技术的引入,已经大幅度提升了分子筛选的效率。但传统的计算机筛选方法大都针对已有的化合物,或基于结构或基于性质等特征对其进行筛选,新一代的新药发现策略则开启了直接设计全新分子的途径。具体是指,针对某种疾病或靶点预设药效等对新分子的期望属性,根据已有相关药物分子的结构,采用计算机模拟生成的计算方法设计全新的分子结构,所依据的原理是“相似的结构很可能具有相同的性质”,进而通过化学合成方法以人工方式合成新分子,并进一步在真实的化学、生物和人体等环境中检测其药效和其他物理化学性质,从而完成新药的开发。该途径可大幅缩短新药研制和临床试验的时间,具有广阔的应用前景。
在上述过程中,通过计算机模拟、生成具备特定生化性质的药物分子是此类方法的关键。然而,现有药物分子生成方法仍面临一些挑战。首先,潜在药物分子的表示空间巨大,而且不连续,搜索药物分子任务本身十分艰巨。有医疗文献显示,化学分子的表示空间范围可达1023~1060。其次,分子结构和分子性质之间的对应关系十分微妙,难以进行准确的量化描述,即使结构十分接近的分子其生化性质也可能完全不同,即,对某些子结构的微小改动都可以导致性质的大幅改变。
现有分子生成方法一般采用SMILES(Simplified molecular input line entryspecification,简化分子线性输入规范)和分子指纹等字符串方式表示分子,并借助自然语言处理的方法来实现生成算法,此类方法的鲁棒性较差,即微小的修改可能导致完全不合理的分子。同时,基于字符串的语法约束会对分子生成产生过多限制,给分子生成的优化过程造成负担。在生成分子图的任务中,一个关键的难点在于使得模型的学习目标包含高度复杂而不可微的分子性质度量,为了解决这个问题,目前有基于强化学习和基于贝叶斯优化等两种方法。但是,基于强化学习的方法需要引入额外网络,使得计算和收敛难度增大,同时很难设计合理的即时奖励;基于贝叶斯优化的方法由于其两阶段的特性,使得性质目标的优化很大程度依赖于第一阶段中所学模型的隐向量空间的光滑性。
发明内容
本发明提出了一种基于正则化变分自动编码器的药物分子生成方法。该方法采用图(Graph)数据结构(图矩阵)表示药物分子,以变分自动编码器作为基本生成框架,在此基础上加入性质目标正则化项。利用图数据结构表示药物分子,在结构上,该模型包括编码器和解码器两部分,其中编码器利用图神经网络直接对输入图表示进行编码,解码器主要由多层感知机(多层全连接神经网络)组成,优化目标包括重建损失,KL损失(Kullback-Leibler Divergence,KL散度),以及性质正则化损失三部分。其中,性质正则化损失采用蒙特卡洛采样进行估计。采用本发明方法可有效生成分子性质优化的候选药物分子。
本发明方法直接形式化性质目标正则化项来促使模型学习高度复杂而不可微的性质度量,有效降低了网络复杂度且无两阶段操作,对隐向量空间光滑性的依赖性降低,分子生成效果较优。
本发明的技术方案是:
一种基于正则化变分自动编码器的药物分子生成方法,利用变分自动编码器,将药物分子表示为图矩阵数据,建立包括编码器和解码器的药物分子生成模型,其中编码器利用图神经网络直接对输入的药物分子图进行编码,解码器包括多层感知机,优化目标包括重建损失、KL(Kullback-Leibler Divergence,KL散度)损失及性质正则化损失,其中性质正则化损失利用蒙特卡洛采样进行估计;包括以下主要步骤:构建有效药物分子库、搭建药物分子生成的基本模型、设计并实现基于图数据结构的深度生成模型、设计并实现性质目标正则化方案、模型训练、生成流程执行、生成结果的验证与应用。
步骤1,构建有效药物分子库
通过有针对性地收集现有药物的信息,即真实数据,建立用于药物分子生成模型训练和测试的分子信息库,分子信息库包含了一些已知药物分子的结构信息(药物分子表示为图数据,其结构信息包括图中的节点和边),和用于测试的药物分子的理化信息,例如分子的脂水分配系数的对数值(logP)、类药性、可合成性等。
步骤2,搭建药物分子生成模型
21)搭建药物分子生成过程的基本模型,即变分自动编码器,通过学习真实数据和先验分布的联合概率分布实现分子生成。
本发明构建药物分子生成模型pθ(G|z),采用图数据(G)表示药物分子(z为G通过编码器编码得到的隐向量),在变分推断中,利用变分后验qφ(z|G)来估计真实后验,最大化药物分子生成模型pθ(G|z)如下目标函数:
Figure BDA0002309983780000031
式(1)中,
Figure BDA0002309983780000032
为药物分子生成模型pθ(G|z)的目标函数;-DKL(qφ(z|G)||pθ(z))表示KL损失的相反数;
Figure BDA0002309983780000033
表示重建损失的相反数;G为表示真实药物分子的图数据;pθ(G|z)为药物分子生成模型;qφ(z|G)为变分后验;下标ELBO表明该目标函数是证据因子的下界;DKL是KL散度;pθ(z)为先验分布;φ为解码器的参数;θ为编码器的参数;
Figure BDA0002309983780000034
表示关于概率分布qφ(z|G)的期望;
22)设计并实现基于图数据结构的深度生成模型
设计基于图神经网络的编码器和图数据结构解码器,使得模型以图数据结构为表示进行计算。药物分子生成模型包括编码器和解码器,可分别采用图神经网络和全连接神经网络。具体地:
在式(1)中,图数据G用于表示真实分子,模型训练数据采用步骤1建立的药物分子库中的药物分子;z为G通过编码器编码得到的隐向量。编码器输出一个矩阵
Figure BDA0002309983780000035
和一个张量
Figure BDA0002309983780000036
N为要生成分子包含的最大原子数,T为原子的类型数,R为边的类型数,
Figure BDA0002309983780000037
这一行是节点i的类型的概率分布,同样地,
Figure BDA0002309983780000038
是节点i和节点j之间边的类型的概率分布。因此,我们可以从
Figure BDA0002309983780000039
中采样得到一个分子图G=(A,X),其中,A表示图的边;X表示图的节点;A由
Figure BDA00023099837800000310
采样得到,X由
Figure BDA00023099837800000311
采样得到;
Figure BDA00023099837800000312
表示节点的概率分布;
Figure BDA00023099837800000313
表示边的概率分布;
Figure BDA00023099837800000314
表示图的概率分布。编码器的结构采用图神经网络,解码器则是多层全连接神经网络。
23)设计并实现药物分子性质目标正则化方法
设S是需要优化的药物分子性质,将药物分子性质关于分布pθ(G|z)的期望作为正则化项。该期望表示为式(2):
Figure BDA00023099837800000315
其中,SG表示图数据G对应的药物分子的待优化的性质S,表示为式(3):
Figure BDA00023099837800000316
其中,O是所有子图模式的集合,no是模式o在图G中出现的次数,co是模式o每次出现对于该性质的贡献。结合公式(2)和(3)可得式(4):
Figure BDA0002309983780000041
式(4)中,
Figure BDA0002309983780000047
表示性质S关于概率分布pθ(G|z)的期望,po是模式o出现的概率。
基于上述药物分子性质目标正则化方法,所提出的药物分子生成模型能够生成具有特定性质的分子。
步骤3,药物分子生成模型的训练
为训练所设计的药物分子生成模型,需要依据合理的目标函数。本发明中,药物分子生成模型需最大化如下目标函数
Figure BDA0002309983780000048
Figure BDA0002309983780000042
其中,
Figure BDA0002309983780000043
为性质正则化损失;采用蒙特卡洛估计来计算
Figure BDA0002309983780000044
的值,该估计值可微,可采用基于梯度下降的学习算法来求解。假设从分布
Figure BDA0002309983780000045
中采样得到模式o(m)且令o(m)=(V(m),E(m)),表示为以下公式:
Figure BDA0002309983780000046
其中,
Figure BDA0002309983780000049
表示模式o(m)出现的概率;V(m)和E(m)分别是采样所得模式o(m)中的原子集合和边集合,m为关于样本的索引,pit和pijr分别表示it和ijr对应的神经元值。
通过上述训练过程利用步骤1建立的药物分子库中的药物分子对药物分子生成模型pθ(G|z)进行训练,得到训练好的药物分子生成模型pθ(G|z)。
步骤4,利用训练好的药物分子生成模型pθ(G|z),执行药物分子生成流程,生成候选药物分子
设定药物分子的待优化目标,利用上述从先验分布pθ(z)中采样再经过训练后得到的训练好的药物分子生成模型pθ(G|z),从先验分布中采样并送入生成模型生成候选药物分子,输入候选药物分子,将候选药物分子与药物分子库中具有理化信息的分子进行比较,用于测试生成的药物分子。
步骤5,性质检测
对生成的候选药物分子可进行药物分子性质检测(包括药物分子的生物利用度)和可合成性评估,进一步确认其有效性。
通过上述步骤,实现一种基于正则化变分自动编码器的药物分子生成。
与现有技术相比,本发明的有益效果是:
分子生成的目标之一是优化分子的性质,本发明采用的是基于图表示的分子生成方法,图中的节点用于表示原子,图中的边用于表示化学键,该方法比基于字符串的方法更具可解释性和鲁棒性。本发明形式化了一个反应定量分子性质的正则化项,利用蒙特卡洛方法可以得到一个可微的估计值,使得可以用梯度下降法来学习此目标,省去了额外的网络设计,降低了收敛难度,同时生成阶段可直接解码先验分布,从而简化了基于贝叶斯优化类方法的两步操作。采用本发明技术生成的候选药物分子有效性更高,分子的性质更优异。
附图说明
图1为本发明提供的药物分子生成方法的流程框图。
图2为本发明实施例的药物分子生成模型示意图。
图3为本发明的训练示意图
图4为本发明的生成示意图
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
新药研发耗资大、周期长,其关键环节之一是候选药物分子的筛选,人工智能技术的引入可以有效提升筛选效率,但基于筛选的方法限于现有已有化合物,范围有限,新一代方法则侧重全新的分子生成方法。
本发明提出基于深度生成模型的分子生成模型,涉及计算机人工智能和医药分子设计的交叉领域,其核心思想是将图神经网络和性质正则化同时引入深度生成模型,能够有效利用图表示的符合直觉同时能够捕捉分子内在相似性等特点,并解决了分子性质作为优化目标高度复杂而不可微的问题。
如图1所示,本发明方法包括构建有效药物分子库、搭建药物分子生成的基本模型、设计并实现多任务强化学习模块、设计并实现对抗模仿学习模块、模型预训练、生成流程执行、生成结果的验证与应用等步骤。
图2所示为本发明具体实施时构建的基于深度生成模型的药物分子生成模型的结构示意图,其中,图2的上半部分为训练阶段的数据流通路径,真实药物分子A(如阿司匹林)
Figure BDA0002309983780000051
         
Figure BDA0002309983780000061
经过编码器编码后得到变分后验概率分布qφ(z|G)=N([-0.1159,-0.2748,-0.0782,-0.0107,0.0685,0.0596,-0.1988,0.0028],[0.0154,0.5714,0.9075,0.9758,0.9763,1.0359,0.7208,0.9160]×I),此分布再经过解码之后得到解码分子B
Figure BDA0002309983780000071
       
Figure BDA0002309983780000081
在训练阶段我们的目标是使得解码得到的分子B和输入的分子A相同,同时迫使qφ(z|G)与pθ(z)具有相同的分布,详见图3。图2的下半部分为生成阶段的数据流通路径,在解码器训练完成之后,为了生成有效的药物分子,我们从先验分布中采样得到分子的隐向量表示,然后将其送入解码器即可生成我们想要的分子C(即候选药物分子)
Figure BDA0002309983780000082
          
Figure BDA0002309983780000091
详见图4。
步骤1构建有效药物分子库
收集现有药物分子的信息,包括结构、物理化学属性、药效等,建立用于药物分子生成的分子信息库,并标注各种药物对于特定病种的有效性。药物分子库将用于模型的训练和测试。模型训练时可利用药物分子库中的分子图数据,模型测试时将待测药物分子与药物分子库中具有理化信息的分子进行比较。
步骤2搭建药物分子生成基本模型
本方法是基于深度生成模型的一种分子图生成方法,我们的目标是学习一个药物分子生成模型pθ(G|z)。在变分推断中,我们利用一个变分后验qφ(z|G)来估计真实后验,根据变分推断的原理,最大化如下目标函数:
Figure BDA0002309983780000092
式(1)中,
Figure BDA0002309983780000093
为目标函数;G为表示真实药物分子的图数据;z为G通过编码器编码得到的隐向量;pθ(G|z)为药物分子生成模型;qφ(z|G)为变分后验;下标ELBO表明该目标函数是证据因子的下界;DKL是KL散度;pθ(z)为先验分布;φ为解码器的参数;θ为编码器的参数;
Figure BDA0002309983780000094
表示关于概率分布qφ(z|G)的期望;
步骤3设计并实现基于图数据结构的深度生成模型,作为药物分子生成模型;
药物分子生成模型包括编码器和解码器,可分别采用图神经网络和全连接神经网络。具体地:
在公式(1)中,图数据G用于表示真实分子,z为G通过编码器编码得到的隐向量。编码器输出一个矩阵
Figure BDA0002309983780000095
和一个张量
Figure BDA0002309983780000096
N为我们要生成分子包含的最大原子数,T为原子的类型数,R为边的类型数,
Figure BDA0002309983780000097
这一行是节点i的类型的概率分布,同样地,
Figure BDA0002309983780000098
是节点i和节点j之间边的类型的概率分布。因此,我们可以从
Figure BDA0002309983780000099
中采样得到一个分子图G=(A,X),其中A由
Figure BDA00023099837800000910
采样得到,X由
Figure BDA00023099837800000911
采样得到。编码器的结构采用图神经网络(如图注意力网络GAT,Graph Attention Network),解码器则采用多层全连接神经网络。
步骤4设计并实现分子性质目标正则化方法,使得模型能够生成具有特定性质的分子;
设S是需要优化的分子性质(如分子的脂水分配系数的对数值(logP)、类药性、可合成性等性质),我们可以将它关于分布pθ(G|z)的期望作为正则化项。该期望可以写成式(2):
Figure BDA0002309983780000101
其中,SG是表示为图数据G的药物分子待优化的性质S。同时,根据结构性质关系模型,得到式(3):
Figure BDA0002309983780000102
其中,Q是所有模式的集合,nq是模式q在图G中出现的次数,cq是模式q每次出现对于该性质的贡献。结合公式(2)和(3)可得式(4):
Figure BDA0002309983780000103
式(4)中,
Figure BDA0002309983780000108
表示性质S关于概率分布pθ(G|z)的期望
步骤5模型训练
本发明中的药物分子生成模型最大化如下目标函数
Figure BDA0002309983780000109
Figure BDA0002309983780000104
我们采用蒙特卡洛估计来计算
Figure BDA0002309983780000105
的值,并且该估计值可微,所以可用于基于梯度下降的学习算法。假设我们从分布
Figure BDA0002309983780000106
中采样得到模式q(m)且令q(m)=(V(m),E(m)),我们有以下公式
Figure BDA0002309983780000107
其中,V(m)和E(m)分别是采样所得模式q(m)中的原子集合和边集合,pit和pijr分别表示it和ijr对应的神经元值。
步骤6生成流程执行
根据给定的优化目标,从先验分布pθ(z)中采样,利用经过训练后得到的训练好的药物分子生成模型pθ(G|z),即可生成具有特定性质的药物分子。
步骤7生成结果的验证与应用
1)性质检测
对药物分子生成模型所生成的候选分子,进行性质检测。即根据分子结构计算并预测相应的分子性质,并将所得性质与设计要求做对比。具体地,一般为了得到有效的药物分子,对生成的药物分子的以下性质进行检测,判断药物分子的生物利用度。如选用Lipinski规则检测:分子的分子量是否小于500,氢键给体(包括羟基、氨基等)的数量不超过5个,氢键受体的数量不超过10个,脂水分配系数的对数值(logP)在-2到5之间,其可旋转键的数量不超过10个等。对于满足要求的分子,将进一步拆分其结构得到状态序列,并将其加入到策略缓冲区中,同时将其移交至下一步做可合成性检验。对于尚未达到要求或可能有悖于药物分子规律的分子,将其转入下一轮的生成过程,进行再次迭代,或放弃后开启新一轮的生成过程。
2)可合成性评估
鉴于本模型所生成的分子很可能并不存在于现实世界,因此,为评估后续化学工作者合成该分子的难易程度,需要对其可合成性进行评估。本发明采用逆合成分析法进行分子的可合成性评估。即采用互换、添加官能团以及逆向切断等方法将生成的分子变成若干中间产物或原料。之后再对中间产物重复进行逆合成分析,直到所有中间产物变成简单、易得的分子。
3)为实体试验输出候选结果
输出本方案所生成的分子,即作为新药的候选分子输出其结构描述。本发明技术方案可用于辅助新药研发,能够提高其对候选分子的筛选效率,但是并不能取代新药研发各项实体试验,包括生化试验、动物试验和各期临床试验等,新药研发机构需要完成后续试验,以得到最终的新药化合物。
计算机辅助分子生成是一个新兴的交叉领域,在医药研发、疾病诊断和材料科学中具有广阔的应用前景。一方面,传统药物分子的研发周期漫长、耗资巨大且很难筛选出有效的分子。虽然计算机辅助设计及人工智能算法极大的提高了分子筛选的效率。但传统的计算机大多依赖已有的化合物、结构、性质进行设计,而新一代的药物设计往往是针对疾病或靶点预设药效等对药分子的期望属性,根据相关已有的药分子结构进行新药分子的设计。而本发明所提出的对抗模仿学习方法可以很好的学习到分子结构与特定药物属性之间难以量化的关系,能以更高的效率生成可满足新药设计需求的候选药物分子,且其鲁棒性、生成分子的新颖性均可获得提升。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种基于正则化变分自动编码器的药物分子生成方法,将药物分子表示为图数据,利用变分自动编码器框架,建立包括编码器和解码器的药物分子生成模型;编码器利用图神经网络直接对输入的药物分子图进行编码;解码器采用多层感知机,优化目标包括重建损失、KL损失及性质正则化损失,其中性质正则化损失利用蒙特卡洛采样进行估计;包括以下步骤:
步骤1,构建有效药物分子库;药物分子库包括已知药物分子结构信息和理化信息;
步骤2,搭建药物分子生成模型,包括如下过程:
21)搭建药物分子生成过程的基本模型,即变分自动编码器,通过学习真实数据和隐向量的联合概率分布实现分子生成;
构建药物分子生成模型pθ(G|z),采用图数据表示药物分子,在变分推断中,利用变分后验qφ(z|G)来估计真实后验,最大化药物分子生成模型pθ(G|z)如下目标函数:
Figure FDA0002309983770000011
式(1)中,
Figure FDA0002309983770000012
为药物分子生成模型pθ(G|z)的目标函数;-DKL(qφ(z|G)||pθ(z))表示KL损失的相反数;
Figure FDA0002309983770000013
表示重建损失的相反数;G为表示真实药物分子的图数据;z为G通过编码器编码得到的隐向量;pθ(G|z)为药物分子生成模型;qφ(z|G)为变分后验;下标ELBO表明该目标函数是证据因子的下界;DKL是KL散度;pθ(z)为先验分布;φ为解码器的参数;θ为编码器的参数;
Figure FDA0002309983770000014
表示关于概率分布qφ(z|G)的期望;
22)设计并实现基于图数据结构的深度生成模型即药物分子生成模型;
设计基于图神经网络的编码器和基于图数据结构解码器,建立基于图数据结构的深度生成模型即药物分子生成模型;药物分子生成模型包括编码器和解码器;具体地:
根据式(1),编码器输出一个矩阵
Figure FDA0002309983770000015
和一个张量
Figure FDA0002309983770000016
N为要生成分子包含的最大原子数,T为原子的类型数,R为边的类型数,矩阵中的行
Figure FDA0002309983770000017
为节点i的类型的概率分布,
Figure FDA0002309983770000018
是节点i和节点j之间边的类型的概率分布;
Figure FDA0002309983770000019
中采样得到一个分子图G=(A,X),其中A由
Figure FDA00023099837700000110
采样得到,X由
Figure FDA00023099837700000111
采样得到;
编码器的结构采用图神经网络,解码器采用多层全连接神经网络即多层感知机;
23)设计并实现药物分子性质目标正则化方法,使得利用药物分子生成模型可生成具有特定性质的分子;具体过程为:
设S是需要优化的药物分子性质,将药物分子性质关于分布pθ(G|z)的期望作为正则化项,表示为式(2):
Figure FDA0002309983770000021
其中,SG表示图数据G对应的药物分子的待优化的性质S,表示为式(3):
Figure FDA0002309983770000022
其中,O是所有子图模式的集合,no是模式o在图G中出现的次数,co是模式o每次出现对于该性质的贡献;
根据公式(2)和(3)可得式(4):
Figure FDA0002309983770000023
式(4)中,
Figure FDA0002309983770000024
表示性质S关于概率分布pθ(G|z)的期望,po是模式o出现的概率;
步骤3,对构建的药物分子生成模型进行训练;
药物分子生成模型最大化如下目标函数
Figure FDA0002309983770000025
Figure FDA0002309983770000026
其中,
Figure FDA0002309983770000027
为性质正则化损失;采用蒙特卡洛估计来计算
Figure FDA0002309983770000028
的值;
通过上述训练过程对药物分子生成模型pθ(G|z)进行训练,得到训练好的药物分子生成模型pθ(G|z);
步骤4,利用训练好的药物分子生成模型pθ(G|z),执行药物分子生成流程,生成候选药物分子;
设定药物分子的待优化目标,利用上述从先验分布pθ(z)中采样再经过训练后得到的训练好的药物分子生成模型pθ(G|z),即可生成具有所设定目标优化性质的候选药物分子;
步骤5,对生成的候选药物分子可进行药物分子性质检测和可合成性评估,进一步确认其有效性;
通过上述步骤,实现一种基于正则化变分自动编码器的药物分子生成。
2.如权利要求1所述基于正则化变分自动编码器的药物分子生成方法,其特征是,药物分子的理化信息包括LogP和可合成性。
3.如权利要求1所述基于正则化变分自动编码器的药物分子生成方法,其特征是,步骤3采用蒙特卡洛估计来计算
Figure FDA0002309983770000029
的值,该估计值可用于基于梯度下降的学习算法;
假设从分布
Figure FDA0002309983770000031
中采样得到模式o(m)且令o(m)=(V(m),E(m)),表示为式(6):
Figure FDA0002309983770000032
其中,po(m)表示模式o(m)出现的概率;V(m)和E(m)分别是采样所得模式o(m)中的原子集合和边集合,m为关于样本的索引,pit和pijr分别表示it和ijr对应的神经元值。
4.如权利要求1所述基于正则化变分自动编码器的药物分子生成方法,其特征是,步骤5对生成的候选药物分子可进行药物分子性质检测包括:药物分子的生物利用度;
根据分子结构计算并预测相应的分子性质,并将所得分子性质与设计要求进行对比检测,采用Lipinski规则检测,得到药物分子的生物利用度。
5.如权利要求1所述基于正则化变分自动编码器的药物分子生成方法,其特征是,步骤5对生成的候选药物分子具体采用逆合成分析法进行可合成性评估。
CN201911255006.2A 2019-12-10 2019-12-10 一种基于正则化变分自动编码器的药物分子生成方法 Active CN110970099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911255006.2A CN110970099B (zh) 2019-12-10 2019-12-10 一种基于正则化变分自动编码器的药物分子生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911255006.2A CN110970099B (zh) 2019-12-10 2019-12-10 一种基于正则化变分自动编码器的药物分子生成方法

Publications (2)

Publication Number Publication Date
CN110970099A CN110970099A (zh) 2020-04-07
CN110970099B true CN110970099B (zh) 2023-04-28

Family

ID=70033737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911255006.2A Active CN110970099B (zh) 2019-12-10 2019-12-10 一种基于正则化变分自动编码器的药物分子生成方法

Country Status (1)

Country Link
CN (1) CN110970099B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798934B (zh) * 2020-06-23 2023-11-14 苏州浦意智能医疗科技有限公司 一种基于图神经网络的分子性质预测方法
CN111816265B (zh) * 2020-06-30 2024-04-05 北京晶泰科技有限公司 一种分子生成方法和计算设备
WO2022047677A1 (zh) * 2020-09-02 2022-03-10 深圳晶泰科技有限公司 药物分子筛选方法及***
CN112071373A (zh) * 2020-09-02 2020-12-11 深圳晶泰科技有限公司 药物分子筛选方法及***
CN112151127A (zh) * 2020-09-04 2020-12-29 牛张明 基于分子语义向量的无监督学习药物虚拟筛选方法和***
CN112199884A (zh) * 2020-09-07 2021-01-08 深圳先进技术研究院 物品分子生成方法、装置、设备及存储介质
CN112331277B (zh) * 2020-10-28 2022-06-21 星药科技(北京)有限公司 一种基于强化学习的路径可控的药物分子生成方法
CN112397157A (zh) * 2020-10-28 2021-02-23 星药科技(北京)有限公司 基于子图-变分自编码结构的分子生成方法
CN112309510B (zh) * 2020-10-31 2023-09-05 平安科技(深圳)有限公司 药物分子生成方法、装置、终端设备以及存储介质
CN112270951B (zh) * 2020-11-10 2022-11-01 四川大学 基于多任务胶囊自编码器神经网络的全新分子生成方法
US20220165366A1 (en) * 2020-11-23 2022-05-26 International Business Machines Corporation Topology-Driven Completion of Chemical Data
CN113140267B (zh) * 2021-03-25 2024-03-29 北京化工大学 一种基于图神经网络的定向分子生成方法
CN113314189B (zh) * 2021-05-28 2023-01-17 北京航空航天大学 一种化学分子结构的图神经网络表征方法
CN113327651A (zh) * 2021-05-31 2021-08-31 东南大学 一种基于变分自编码器和消息传递神经网络的分子图生成方法
CN113488116B (zh) * 2021-07-09 2023-03-10 中国海洋大学 一种基于强化学习和对接的药物分子智能生成方法
CN114038516B (zh) * 2021-11-25 2024-04-19 中国石油大学(华东) 一种基于变分自编码器的分子生成与优化方法
CN114386694B (zh) * 2022-01-11 2024-02-23 平安科技(深圳)有限公司 基于对比学习的药物分子性质预测方法、装置及设备
CN114496112B (zh) * 2022-01-21 2023-10-31 内蒙古工业大学 一种基于多目标优化的抗乳腺癌药物成分智能量化方法
CN114913938B (zh) * 2022-05-27 2023-04-07 中南大学 一种基于药效团模型的小分子生成方法、设备及介质
CN116130036B (zh) * 2023-01-09 2024-03-01 四川大学 一种基于图表示的金属有机框架的逆向设计方法
CN116705195B (zh) * 2023-06-07 2024-03-26 之江实验室 基于矢量量化的图神经网络的药物性质预测方法和装置
CN117692346A (zh) * 2024-01-31 2024-03-12 浙商银行股份有限公司 基于谱正则化变分自编码器的消息阻塞预测方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1715926A (zh) * 2004-07-02 2006-01-04 上海泽生科技开发有限公司 神经调节蛋白突变体、筛选方法及应用
CN103049674A (zh) * 2013-01-26 2013-04-17 北京东方灵盾科技有限公司 一种化学药物hERG钾离子通道阻断作用的定性预测方法及其***
CN106874688A (zh) * 2017-03-01 2017-06-20 中国药科大学 基于卷积神经网络的智能化先导化合物发现方法
CN110348573A (zh) * 2019-07-16 2019-10-18 腾讯科技(深圳)有限公司 训练图神经网络的方法、图神经网络设备、装置、介质
CN110459274A (zh) * 2019-08-01 2019-11-15 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
CN110534164A (zh) * 2019-09-26 2019-12-03 广州费米子科技有限责任公司 基于深度学习的药物分子生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776712B2 (en) * 2015-12-02 2020-09-15 Preferred Networks, Inc. Generative machine learning systems for drug design

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1715926A (zh) * 2004-07-02 2006-01-04 上海泽生科技开发有限公司 神经调节蛋白突变体、筛选方法及应用
CN103049674A (zh) * 2013-01-26 2013-04-17 北京东方灵盾科技有限公司 一种化学药物hERG钾离子通道阻断作用的定性预测方法及其***
CN106874688A (zh) * 2017-03-01 2017-06-20 中国药科大学 基于卷积神经网络的智能化先导化合物发现方法
CN110348573A (zh) * 2019-07-16 2019-10-18 腾讯科技(深圳)有限公司 训练图神经网络的方法、图神经网络设备、装置、介质
CN110459274A (zh) * 2019-08-01 2019-11-15 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
CN110534164A (zh) * 2019-09-26 2019-12-03 广州费米子科技有限责任公司 基于深度学习的药物分子生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
瞿经纬 ; 吕肖庆 ; 刘振明 ; 廖媛 ; 孙鹏晖 ; 王蓓 ; 汤帜 ; .一种基于图塌缩的药物分子检索方法.北京大学学报(医学版).2018,(第02期),全文. *

Also Published As

Publication number Publication date
CN110970099A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110970099B (zh) 一种基于正则化变分自动编码器的药物分子生成方法
Martinelli Generative machine learning for de novo drug discovery: A systematic review
Fu et al. Mimosa: Multi-constraint molecule sampling for molecule optimization
Du et al. Molgensurvey: A systematic survey in machine learning models for molecule design
CN112820361B (zh) 一种基于对抗模仿学习的药物分子生成方法
Lejeune et al. Exploring the potential of transfer learning for metamodels of heterogeneous material deformation
US20050240311A1 (en) Closed-loop apparatuses for non linear system identification via optimal control
Zhang et al. Simulation of the 3D hyperelastic behavior of ventricular myocardium using a finite-element based neural-network approach
CN113990401A (zh) 固有无序蛋白的药物分子设计方法和装置
CN109063418A (zh) 疾病预测分类器的确定方法、装置、设备及可读存储介质
Chen et al. Integrating molecular models into CryoEM heterogeneity analysis using scalable high-resolution deep Gaussian mixture models
Song et al. DNMG: Deep molecular generative model by fusion of 3D information for de novo drug design
WO2022082739A1 (zh) 基于卷积神经网络预测蛋白和配体分子结合自由能的方法
US20220406404A1 (en) Adversarial framework for molecular conformation space modeling in internal coordinates
Gong et al. Hs-dti: Drug-target interaction prediction based on hierarchical networks and multi-order sequence effect
Li et al. Ensemble of local and global information for Protein–Ligand Binding Affinity Prediction
CN113539517A (zh) 时序干预效果的预测方法
Zou et al. STAGAN: An approach for improve the stability of molecular graph generation based on generative adversarial networks
Chen et al. Prediction of drug protein interactions based on variable scale characteristic pyramid convolution network
Dong et al. Advancing Drug Discovery with Deep Learning: Harnessing Reinforcement Learning and One-Shot Learning for Molecular Design in Low-Data Situations
Blanchet et al. A model-based approach to gene clustering with missing observation reconstruction in a Markov random field framework
Sharma et al. (Retracted) DeepFNN-DTBA: prediction of drug-target binding affinity via feed-forward neural network on drug-protein sequences
Sarwar et al. Innovative Computational Moulding Approach for Genomics
Wang Developing Classification Algorithms to Elucidate the Structure and Dynamics of Biological Macromolecules
Zixuan et al. GSL-DTI: Graph Structure Learning Network for Drug-Target Interaction Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant