CN112116963A

CN112116963A - 自动药物设计方法、***、计算设备及计算机可读存储介质

Info

Publication number: CN112116963A
Application number: CN202011020214.7A
Authority: CN
Inventors: 黄韬; 金锋; 魏文娟
Original assignee: Shenzhen Zhiyao Information Technology Co ltd
Current assignee: Shenzhen Zhiyao Information Technology Co ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-12-22

Abstract

本发明公开了一种自动药物设计方法、***、计算设备及计算机可读存储介质。所述方法包括：将目标先导化合物分解为具有可合成模块的片段，依次将所述片段输入已经训练的药物设计机器学习模型进行采样；将所述药物设计机器学习模型输出的新片段重新组装，得到新的先导化合物。本发明的自动药物设计，在分子生成有效性、独特性方面性能有大幅提升，可以生成新颖性高、可合成性强、成药性强的分子；可以轻松地在高分子量区域生成分子；只需用特定数据集训练一次，即可重复用于不同的靶点先导化合物生成场景；可以很容易实现固定化合物局部结构，对其余部分进行优化。

Description

自动药物设计方法、***、计算设备及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，具体的，涉及一种自动药物设计方法、***、计算设备及计算机可读存储介质。

背景技术

设计具有理想性质的先导化合物是药物发现阶段的核心任务。在快速跟随(Fast-follow)和类似(Me-too)药物设计场景中，传统过程需要搜集大量论文和专利，在药物化学家阅读和理解的基础上，设计出结构新颖、可合成、成药性强的化合物，并通过化学合成和生物表征得到验证。

分子生成(Molecular Generation)是近几年发展迅速、基于深度生成学习(deepgenerative learning)的自动药物设计方法。通过让模型学习输入化合物的SMILES(一种字符串形式表示的化合物结构)或者Molecular Graph(分子图表征的原子和化学键连接)数据，掌握统计规律后，自动产生新结构的化合物，可以极大地提高先导化合物设计工作效率。常见的分子生成算法有循环神经网络(Recurrent Neural Network,RNN)、生成对抗网络(Generative Adversarial Networks,GAN)、变分自动编码器(VariationAutoencoders,VAE)等。无论哪一种算法，均需要给模型输入大量分子结构数据实例，充分训练神经网络，以掌握化合物结构设计的要领。

参考图1A和1B，现有以SMILES字符串作为输入的分子生成算法，普遍采用了Lead-to-Lead(L2L)框架：在训练阶段以整体先导化合物结构数据作为输入；在采样阶段亦然，以便获得与目标分子性质相近的新结构先导化合物。这种框架下的应用模型，例如由Insilico Medicine公司开发的GENTRL，尽管取得了令人瞩目的成功，却存在若干明显问题，包括：

问题1，L2L框架模型生成分子的有效性(validity)和独特性(uniqueness)较低。

问题2，L2L框架模型生成分子的高新颖性(high novelty)较低，难以在距离目标分子较远的化学空间(分子相似性Tc<0.4)产生结构正常的化合物。

问题3，L2L框架模型很难生成分子量(Molecular Weight,MW)大于500的结构正常化合物，因此无法应用于一些需要高分子量的先导化合物设计场景。

问题4，L2L框架模型无法跨靶点重用，在应用于不同的靶点时，必须要加入目标靶点已知活性化合物进行训练，才能够生成新结构化合物，导致时间、人力、物力上的浪费。

问题5，L2L框架无法让模型固定化合物的某一部分子结构，从而在其他部分进行自动采样。

以上问题限制了使用L2L框架的分子生成模型实际应用价值。

发明内容

本发明提供了自动药物设计方法，包括：将目标先导化合物分解为具有可合成模块的片段，依次将所述片段输入已经训练的药物设计机器学习模型进行采样；将所述药物设计机器学习模型输出的新片段重新组装，得到新的先导化合物。

在本发明的一种实施例中，所述药物设计机器学习模型的训练数据集通过如下方式获得：以预定规则对CHEMBL 25数据集中的活性化合物进行过滤，得到初始数据集；将初始数据集中的每一个初始化合物分解为具有可合成模块的片段并去重，得到多个非冗余片段；使用随机生成SMILES方法，将所述非冗余片段扩增预定倍数，以扩增后得到的多条SMILES字符串作为所述训练数据集。

在本发明的一种实施例中，所述预定规则包括：活性化合物作用靶点属于人属蛋白家族GPCR A，Hydrolase，Kinase，Ligand-gated Ion Channel，Oxidoreductase，Protease，Transferase，Transporter,Voltage-gated Ion Channel中的一种；活性测试类型为SINGLE PROTEIN；去除含有碎片的化合物；去除分子量大于500的化合物；以及去除PCHEMBL<6的低活性化合物。

在本发明的一种实施例中，输入训练的SMILES字符串被转化为固定长度为120的字符串：如果SMILES字符串不足120，则用空格补齐；若长度超过120，则被过滤；以及，根据编码SMILES字符串所用到的字符作为标志，将每一个字符转化为one-hot向量，最终，一条SMILES字符串被转化为120×43的矩阵作为所述药物设计机器学习模型的输入。

在本发明的一种实施例中，所述VAE模型以开源Molecular VAE模型为基础，分子结构检查、片段分解和片段组装使用RDKIT工具包；深度学习框架使用Pytorch 1.5.1，CUDA版本为10.1.105，操作***为Ubuntu LTS 18.04，所有计算工作均于4×Geforce RTX-2080-TI GPU服务器上完成。

本发明还提供了一种自动药物设计***，包括：药物设计机器学习模型；输入模块，用于将目标先导化合物分解为具有可合成模块的片段，依次将所述片段输入已经训练的所述药物设计机器学习模型进行采样；输出模块，用于将所述药物设计机器学习模型输出的新片段重新组装，得到新的先导化合物。

本发明还提供了一种计算设备，包括存储器和处理器，所述存储器存储有程序，所述处理器执行所述程序时实现上述自动药物设计方法。

本发明还提供了一种计算机可读存储介质，其上存储有程序，所述程序被处理器执行时实现上述自动药物设计方法。

本发明的自动药物设计，在分子生成有效性、独特性方面性能有大幅提升，可以生成新颖性高、可合成性强、成药性强的分子；可以轻松地在高分子量区域生成分子；只需用特定数据集训练一次，即可重复用于不同的靶点先导化合物生成场景；可以很容易实现固定化合物局部结构，对其余部分进行优化。

附图说明

图1A和1B是现有技术的L2L框架下模型输入、训练及采样示意图。

图2A和2B是本发明实施例的L2F2L框架下模型输入、训练及采样示意图。

图3A和3B是L2L和L2F2L框架下训练数据集性质统计分布比较；其中，图3A是两者的SMILES字符串长度概率密度分布比较，图3B是分子量分布比较。

图4是本发明实施例采用的VAE模型结构图，该模型由三部分组成：编码器(Encoder),隐含空间(latent space),解码器(Decoder)。

图5A和5B分别显示了训练过程中L2L框架和L2F2L框架下，VAE模型损失函数随训练次数(epoch)的改变。

图6A-F显示了KRAS化合物、L2L模型生成的新颖(novel)和高新颖(high novel)化合物、L2F2L模型生成的新颖和高新颖化合物在可合成性(SA)和成药性(QED)空间上的分布；其中，虚线框所标区域为SA<5以及QED>0.2的区域，SA数值越大，越难合成；QED数值越大，越易成药。

图7A和7B显示了使用L2L框架和L2F2L框架VAE模型采样得到新颖分子大小分布；其中，图7A显示了SMILES字符串长度分布，图7B显示了分子量分布。

图8显示了L2L和L2F2L模型采样固定局部结构比较。可以看到，L2F2L模型可以固定α,β-不饱和酰胺不采样，从而使得新设计分子该部分结构得以保留。相反，L2L模型无法做到这一点。

图9是本发明实施例的自动药物设计方法流程图。

图10是本发明实施例的自动药物设计***结构图。

图11是本发明实施例的计算设备的内部结构图。

具体实施方式

发明人认为，在训练数据和算力有限的前提下，试图让机器模型正确输出语法正确、长达几十甚至上百字符的SMILES字符串(即一个完整的先导化合物)，是难以完成的任务。即便是像GPT-3这样的巨型生成模型，在几乎输入了近45TB语料库，使用1750亿参数，并采用高性能计算平台进行训练后，能够生成文字、语法、内容、逻辑均正确的文本段落，仍然是一件极其困难的事情。因此，针对现有技术中存在的问题，结合药物化学家进行药物设计的实践经验，本申请另辟蹊径，提出了一种以分子片段作为输入的新分子生成算法框架，其被称之为Lead-to-Fragment-to-Lead(L2F2L)。与L2L框架不同的地方在于，参考图2A和B，在训练阶段，本申请化整为零，通过BRICS算法(该算法根据键是否能够合成来进行拆解，其可以返回一个经过去重的列表，在原子上的序号对应一种特定的反应类型)将先导化合物分解为具有可合成模块的片段(Fragment，指可通过现有化学原料中间体，通过简单反应即可合成的片段)，通过让VAE模型学习这些长度较短的SMILES字符串，掌握其正确语法；在采样阶段，同样把目标化合物分解成片段，然后依次将片段输入训练好的VAE模型进行采样，最终把新片段重新组装为新结构的先导化合物。实施过程中，相比L2L模型，L2F2L模型展现出明显优势：(1)L2F2L模型在分子生成有效性、独特性方面性能有大幅提升；(2)L2F2L模型可以生成新颖性高、可合成性强、成药性强的分子；(3)L2F2L模型可以轻松地在高分子量区域生成分子；(4)只需用特定数据集训练一次，L2F2L模型即可重复用于不同的靶点先导化合物生成场景；(5)L2F2L模型可以很容易实现固定化合物局部结构，对其余部分进行优化。

方法、材料、数据集

本申请使用了CHEMBL 25数据集，并对活性化合物进行了过滤，规则如下：(1)活性化合物作用靶点属于人属蛋白家族GPCR A，Hydrolase，Kinase，Ligand-gated IonChannel，Oxidoreductase，Protease，Transferase，Transporter,Voltage-gated IonChannel中的一种；(2)活性测试类型为SINGLE PROTEIN(单蛋白)；(3)去除含有碎片(例如Na+,Cl-，OH-等离子)的化合物；(4)去除分子量大于500的化合物；(5)去除低活性化合物(PCHEMBL<6，PCHEMBL为ChEMBL化学药物库中表征化合物活性的值)。最终获得了153,498个高活性化合物作为初始数据集，并命名为CHEMBL25L。

在L2L框架下，本申请采用随机生成SMILES方法，将CHEMBL25L数据量扩增10倍，达到1,534,980条SMILES字符串，作为训练数据集。在L2F2L框架下，本申请将CHEMBL25L中每一个初始化合物分解为若干片段，经过去重，共得到22,581个非冗余片段。同样，本申请也使用了随机生成SMILES方法，将上述非冗余片段扩增10倍，达到225,810条SMILES字符串，作为训练数据集。两种模型框架下训练数据的SMILES字符串长度分布以及分子量分布具有明显差异。L2L框架训练数据集SMILES字符串长度要显著高于L2F2L训练数据集(如图3A)；同样，L2L框架训练数据集化合物分子量也要显著高于L2F2L训练数据集(如图3B)。此外，本申请从KRAS靶点活性化合物中获取了靶向KRAS靶点的267个化合物，其中84个化合物分子量在500以下，而183个化合物分子量在500以上。使用同样的方法，本申请对上述步骤搜集到的267个靶向KRAS的活性化合物进行了处理，以便根据需要加入训练数据。

输入训练的SMILES字符串被转化为固定长度为120的字符串：如果SMILES字符串不足120，则用空格补齐；若长度超过120，则被过滤。进一步，根据编码SMILES字符串所用到的字符(构成SMILES字符串的字符，例如C/N/H/O等)作为token(标志)，将每一个字符转化为one-hot向量(一位有效向量)。最终，一条SMILES字符串被转化为120×43的矩阵作为模型的输入。

VAE模型结构、损失函数及采样策略

为进行公平比较，本申请在L2L和L2F2L框架下，均使用了完全相同的VAE模型(如图4)。该模型由三部分组成：编码器(Encoder)、隐含空间(Latent space)、解码器(Decoder)。其中编码器由三个卷积层加一个线性层组成。编码器输出的均值(μ)和方差(σ)由1×292向量表示。解码器由一个GRU层外加两个线性层组成。

本申请采用了经典的VAE模型损失函数，即由generation loss和latent loss两部分组成(公式1)。其中generation loss比较模型输出和输入，反映了自动编码器的准确程度，在此，本申请使用了Binary cross entropy来作为generation loss。latent loss反映的是隐含空间向量(latent vector)与标准高斯分布间的差异，在此，本申请使用了KLdivergence函数。模型使用Adam作为参数优化器。

Loss＝Binary cross entropy(output smiles vector,inputsmiles vector)+KLDivergence(latent vector,unit gaussian)

(公式1)

预训练(pre-trained)的VAE模型有三种采样策略：(1)随机向量解码；(2)已知分子扰动；(3)分子间插值(interpolation)。在此，为了方便比较两种模型框架，本申请使用了第二种策略，即已知分子扰动。这也是绝大部分人类药化学家设计药物的方式，即在已有药物结构上进行修改。

模型评价

为了评价不同框架下模型性能差异，本申请使用了以下指标来评估模型生成分子的性能：有效性(validity)，独特性(uniqueness),新颖性(novelty)，高新颖性(highnovelty)。

Validity＝(#of valid compounds)/(#of sampling)

(公式2)

Uniqueness＝(#of unique compounds)/(#of valid compounds)

(公式3)

Novelty＝(#of novel compounds(Tc<1.0))/(#of unique compounds)

(公式4)

High novelty＝(#of|ig|novel compounds(Tc<0.4))/(#of novel compounds(Tc<1.0))

(公式5)

其中有效性为生成的有效分子(即语法正确的SMILES字符串)占采样次数的比例(公式2)；独特性为独一无二的分子占有效分子的比例(公式3)；新颖性为结构新颖的分子(相似度与作为采样输入的已知化合物小于1.0)占独一无二分子的比例(公式4)；高新颖性为高度新颖分子(相似度与作为采样输入的已知化合物小于0.4)占新颖分子的比例(公式5)。

为评价模型生成分子与前述267个靶向KRAS的活性化合物的相似度，本申请使用RDKIT计算化合物的Morgan指纹图谱，然后通过谷本系数(Tanimoto Coefficient,Tc)来衡量两个分子间的相似度(公式6)。

(公式6)

其中fp1是化合物1的指纹图谱，fp2是化合物2指纹图谱。

为评价模型生分子的可合成性，本申请使用了合成可及性(SyntheticAccessibility,SA)指标来定量估算给定化合物的合成难度。SA数值越大，化合物合成难度越大；相反，则难度越低。此外，本申请还使用了定量类药性参数(Quantitative Estimateof Drug-likeness,QED)来估算生成分子的成药性。

软件与硬件

本申请中使用的VAE模型起始代码来自开源Molecular VAE模型(https://github.com/topazape/molecular-VAE)，并在此基础上进行了修改(SMILES字符串->one-hot向量编码进行了修改，增加了编码片段连接所需的特殊字符)。分子结构检查、片段分解和片段组装使用了RDKIT工具包。深度学***台)版本为10.1.105，操作***为Ubuntu LTS 18.04。所有计算工作均于4×Geforce RTX-2080-TI(Nvidia)GPU服务器上完成。

结果

1)L2F2L和L2L模型训练均能很好地收敛

首先，本申请以CHEMBL25L+KRAS作为训练数据集，在L2L和L2F2L框架下分别训练了VAE模型，经过一定数量的迭代，模型均能很好的收敛。L2L框架下，仅需较少数量的epoch即可达到收敛稳定,损失函数稳定在30左右(如图5A)。L2F2L框架下，模型需要较多数量的epoch达到收敛稳定，损失函数稳定在10左右(如图5B)。由于L2F2L的训练数据量较少，约为L2L模型训练数据的十分之一，因此两者达到收敛所需时间相近。为了进一步比较二者的分子生成能力差别，本申请使用KRAS数据集作为初始分子输入，通过分子扰动采样来获得新结构化合物。

2)L2F2L模型生成分子具有更好的有效性、独特性和新颖性

使用训练好的L2L和L2F2L模型，本申请以KRAS数据集267个化合物作为输入，进行了分子扰动采样。为排除随机因素干扰，两种模型各进行了3批独立采样；在每批采样中，对每个输入分子各进行10次采样,合计共2,670次采样。在各项采样性能指标上，L2F2L模型均大幅超越L2L模型(表1)。其中，L2F2L模型的采样分子有效性为94.59±0.37％，相比L2L模型提升了2080％；L2F2L模型的采样分子独特性为99.95±0.02％，相比L2L模型提升了62％；L2F2L模型的采样分子新颖性为99.76±0.04％，相比L2L模型提升了41％；L2F2L模型的采样分子高新颖性为40.93±1.26％，相比L2L模型提升了265％(表1)。在各自进行了2,670次采样后，由L2F2L模型得到的新颖结构分子为2518.33±10.60，而由L2L模型得到的新颖分子仅为50.67±3.79。从最后这项指标看，L2F2L模型相比L2L模型生成新分子的效率提升近50倍。

表1.使用CHEMBL+KRAS数据集训练L2L和L2F2L模型采样性能比较。

3)L2F2L模型生成高新颖分子具有可合成性和成药性

以第一次采样生成的分子为例，本申请进一步分析了L2L和L2F2L模型产生的高新颖分子的可合成性与成药性。高新颖分子是与任何已知化合物相似度(Tc)均小于0.4的分子，这部分化合物具有较强的创新性。能够在AI生成模型产生的高新颖分子里找到具有可合成性和成药性的化合物，是AI自动药物设计的终极目标。因此本申请将KRAS化合物，以及由L2L模型产生的新颖(novel)或高新颖(high novel)化合物在可合成性(SA)和成药性(QED)空间上的分布进行了分析。如图6A-F所示，KRAS化合物绝大部分都分布在SA<5及QED>0.2的范围内(图6B)，即“更容易合成”和“更类药”的空间范围。由L2L模型生成的高新颖分子(Tc<0.4)只有2个化合物落在了这个区域，占所有新颖分子的4％(图6E)。与之不同的是，L2F2L模型生成的高新颖分子，有330个化合物落在这个区域(图6F)，占所有生成新颖分子的13％。这项分析表明，L2F2L模型不仅有更高的分子生成效率，同时也更有可能产生高新颖、易合成(SA较小)、更类药(QED较大)的高价值设计分子。

4)L2F2L模型可以生成高分子量的新颖分子

无法生成高分子量(MW>500)的新颖分子是L2L模型的一个固有问题，主要源于VAE模型无法正确输出较大长度的SMILES字符串所导致。由于在L2F2L模型中，本申请降低了VAE模型输出字符串的长度(从整体分子变为片段)，因此L2F2L模型可解决生成高分子量化合物难题。以KRAS数据集作为输入进行扰动，参考图7A-B，本申请分析了两种模型生成新颖分子的SMILES字符串长度及分子量分布。可以看出，L2L模型无法输出SMILES长度及分子量与KRAS数据集相当的新结构分子；与之相反，L2F2L模型输出的新结构分子SMILES长度以及分子量分布均与KRAS数据集类似。这些结果表明，L2F2L模型可以产生高分子量的新颖分子。

5)L2F2L模型具备跨靶点重用性

在L2L框架下，为保证采样性能，针对每一个新靶点都需在背景数据集(例如CHEMBL、ZINC)上加入相应活性化合物数据集，重新训练模型。缺乏跨靶点重用的能力令L2L模型使用变得繁琐。从药物化学原理看，在不同药物之间，相当数目的片段是共用的，这就意味着L2F2L模型可实现跨靶点重用。为证明这一点，本申请在训练数据集中去掉了KRAS数据集，再次训练L2L和L2F2L模型。然后以KRAS数据集267个化合物作为输入，进行了分子扰动采样。同样，为排除随机因素干扰，两种模型各进行了3批独立采样；在每批采样中，对每个输入分子各进行10次采样,合计共2,670次采样。

表2.使用CHEMBL数据集训练L2L和L2F2L模型采样性能比较。

在此实验中，L2F2L模型各项采样性能指标上仍然大幅超越L2L模型(表2)。其中，L2F2L模型的采样分子有效性为68.28±0.21％，相比L2L模型提升4700％；L2F2L模型的采样分子独特性为99.84±0.17％，相比L2L模型提升了16％；L2F2L模型的采样分子新颖性为99.43±0.03％，相比L2L模型提升了36％；L2F2L模型的采样分子高新颖性为33.56±1.91％，与L2L模型在该指标上相当。在各自进行了2,670次采样后，由L2F2L模型得到的新颖结构分子为1809.67±5.51，而由L2L模型得到的新颖分子仅为24.00±2.65。

与使用CHEMBL+KRAS数据集训练的L2F2L模型相比，仅使用CHEMBL数据集训练的L2F2L模型只在有效性方面有所下降(从94.59±0.37％到68.28±0.21％)，独特性和新颖性相当，高新颖性略有降低(从40.93±1.26％到33.56±1.9％)。从最终产生的新颖分子数量看，仅使用CHEMBL数据集训练的L2F2L的模型平均产生了1809.67±5.51个新分子，比用CHEMBL+KRAS数据集训练的L2F2L的模型少了28％。以上结果表明，L2F2L模型具备跨靶点重用性。

6)L2F2L模型可以对化合物局部进行采样优化

在药物设计过程中，经常会遇到以下场景：即对目标化合物部分予以保留，对其余部位进行改造。这种需求通常会发生在Hit-to-Lead(苗头到先导物)或是LeadOptimization(先导物优化)的场景中。在L2L框架下，由于无法控制采样过程中对SMILES的某部分进行保留，某部分进行采样，因此上述需求无法得到满足。然而，在L2F2L框架下，由于模型的采样对象是片段，本申请得以很容易实现上述需求，即在采样阶段对固定片段部分不采样，而是对其余部分进行采样扰动即可。

参考图8，以KRAS化合物设计为例，对于KRAS G12C突变，设计的化合物需要有一个保守基团，α,β-不饱和酰胺(C＝CC(＝O)N)，以便与突变的半胱氨酸(Cysteine)形成共价结合。在L2L模型采样过程中，由于无法固定局部，因此该基团很容易就被破坏；而在L2F2L模型采样过程中，本申请固定了该基团所在片段，不对其进行扰动，从而得到了满足需要的新结构分子。以上实验结果表明，L2F2L模型具有对化合物进行局部采样的能力。

应用人工智能(Artificial Intelligence,AI)技术于新药发现是近年来制药工业的热点，而分子生成模型是其中关注焦点之一。通过将高维空间表征的SMILES字符串转化为低维向量，生成模型构建了隐含空间(latent space)。隐含空间采样的向量，可以通过解码，恢复为高维空间的SMILES字符串。Merk等人最早于2018年发表的一篇论文中展示了这种技术的应用潜力：通过训练来自ChEMBL数据库超过50万具有生物活性的化合物，他们生成了潜在的RXR或PPAR受体的激动剂。在合成的5个化合物中，2个是PPAR激动剂,另外2个是PPAR和RXR双重激动剂，而第5个化合物没有活性。2019年，Zhavoronkov等人于NatureBiotechnology杂志发表文章。在这篇文章中，作者使用来自文献和专利的化合物训练了DDR1抑制剂生成模型。在合成的6个分子中，发现了4个活性化合物；其中最好的compound1，酶活IC50达到10nM，细胞活性达到10.3nM，并具有相对合适的药物代谢特性。

现有生成模型在应用过程中暴露出一些明显不足。Walters和Murcko指出，目前生成模型的最大问题在于AI设计分子新颖性不足——就目前已报道化合物看，与已知化合物或者训练数据集中的化合物过于相似，改造过于简单，无法媲美人类药化学家。本申请认为现有Lead-to-Lead(L2L)框架的生成模型，其本质是一种语言模型，与任何自然语言处理(NLP)模型并无本质差别。鉴于通常的先导化合物分子量在300-500之间，对应SMILES字符串平均长度在50个字符长度左右。而在训练数据与算力有限的前提下，让机器模型连续输出50个甚至更长的字符组合成一个具有可合成模块的SMILES字符串，显然是一件非常有挑战的事情。正是因为如此，L2L模型生成的分子只能在距离训练化合物不远的空间里做细微的修改，而无法保证对SMILES字符串做出更大修改后，其仍然是一个有效的(结构正确)的化合物，更无法保证其合成性和成药性。

本申请创造性地发明了Lead-to-Fragment-to-Lead(L2F2L)策略，将分子分解为片段，对片段进行采样创新后，再重新组合。参考图9，本发明实施例提供的自动药物设计方法，包括：将目标先导化合物分解为具有可合成模块的片段，依次将所述片段输入已经训练的药物设计机器学***均长度大约为20左右，使得生成模型无论是训练或是采样，难度均得以降低；相应的，L2F2L模型生成分子的有效性、独特性、新颖性相对L2L模型均大幅提升。

使用L2F2L模型带来的另一个好处，即是生成模型产生高新颖分子(远离训练化合物)空间采样能力大大增强。在本申请展示的KRAS案例中，对每个原型分子采样10次后，L2F2L模型得到了具有高成药可能的330个高新颖化合物，而L2L模型只有2个，相对效率提升将近165倍。使用L2F2L生成模型，对于Fast-follow以及Me-too场景的药物设计，这样的提升具有重要意义。

综上所述，本申请提出了一种新的分子生成模型框架：L2F2L，以改进目前常用的L2L框架。L2F2L模型具有以下优势：(1)优异的分子采样有效性、独特性和新颖性；(2)能够生成相当数量的高新颖分子,可合成性强、成药性强；(3)L2F2L模型可以生成高分子量分子；(4)L2F2L模型可跨靶点重用；(5)L2F2L模型可以固定化合物局部结构，对其余部分进行采样优化，适合用于Hit-to-Lead以及Lead Optimization设计场景。

使用AI分子生成模型自动设计结构新颖、具有可合成性和成药性先导化合物，对于制药工业智能化具有重大意义。现有分子生成模型以Lead-to-Lead(L2L)框架为主，在学习先导化合物SMILES字符串的基础上，通过隐含空间采样，生成新的先导化合物SMILES字符串。然而，由于先导化合物SMILES字符串较长，导致模型训练以及采样性能低下、生成分子新颖性不高、无法生成高分子量分子、无法跨靶点重用、无法对局部结构采样等问题，限制了L2L模型的应用价值。本申请提出了一种新的生成模型框架:Lead-to-Fragment-to-Lead(L2F2L)。即让生成模型通过学习和采样较短SMIELS字符串的化合物片段来设计新结构先导化合物。在KRAS抑制剂案例中，L2F2L模型的采样分子有效性为94.59±0.37％，独特性为99.95±0.02％，新颖性为99.76±0.04％，高新颖性为40.93±1.26％，相比L2L模型有巨大提升。L2F2L模型可以生成相当数量具有可合成性和成药性的高新颖分子。L2F2L模型可以实现跨靶点重用。L2F2L模型可以对化合物局部进行修改创新。因此，L2F2L框架相比L2L框架具有明显的优势，在先导化合物设计、Hit-to-Lead、Lead Optimization等应用场景中均具备潜在的应用价值。本申请设计的分子生成模型具备产生结构新颖、可合成、成药性好的先导化合物潜力。

参考图10，本发明实施例的自动药物设计***，包括：药物设计机器学习模型；输入模块，用于将目标先导化合物分解为具有可合成模块的片段，依次将所述片段输入已经训练的所述药物设计机器学习模型进行采样；输出模块，用于将所述药物设计机器学习模型输出的新片段重新组装，得到新的先导化合物。

本发明实施例的自动药物设计方法可以实现在计算设备中。计算设备的一个示例性的内部结构图可以如图11所示，该计算设备可以包括通过***总线连接的处理器、存储器、外界接口、显示器和输入装置。其中，处理器用于提供计算和控制能力。存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***，应用程序、数据库等。内存储器为非易失性存储介质中的操作***和程序的运行提供环境。外界接口包括例如网络接口，用于与外部的终端通过网络连接通信。外界接口也可以包括USB接口等等。该计算设备的显示器可以是液晶显示屏或者电子墨水显示屏，输入装置可以是显示屏上覆盖的触摸层，也可以是例如计算设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

计算设备中的非易失性存储介质存储的程序在被处理器执行时可以实现上述自动药物设计方法。另外，非易失性存储介质也可以以单独的物理形式存在，例如一U盘，当其与一处理器连接时，U盘上存储的程序被执行可以实现上述自动药物设计方法。本发明的方法，也可以实现为苹果或安卓应用市场中的一个APP(应用程序)，供用户下载到各自的移动终端运行。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算设备的限定，具体的计算设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如上所述，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本发明所述的计算机，是广义上的一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的计算设备，其硬件可以包括至少一个存储器、至少一个处理器，以及至少一个通信总线。其中，所述通信总线用于实现这些元件之间的连接通信。处理器可以包括但不限于微处理器。计算机硬件还可以包括专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。所述计算机还可包括网络设备和/或用户设备。其中，所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

计算设备可以是，但不限于任何一种可与用户通过键盘、触摸板或声控设备等方式进行人机交互的个人电脑、服务器等终端。本文中的计算设备还可以包括移动终端，其可以是，但不限于任何一种可与用户通过键盘、触摸板或声控设备等方式进行人机交互的电子设备，例如，平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、智能式穿戴式设备等终端。计算设备所处的网络包括，但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

所述存储器用于存储程序代码。所述存储器可以是集成电路中没有实物形式的具有存储功能的电路，如RAM(Random-Access Memory，随机存取存储器)、FIFO(First InFirst Out)等。或者，所述存储器也可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)、智能媒体卡(smart media card)、安全数字卡(secure digital card)、快闪存储器卡(flash card)等储存设备等等。

所述处理器可以包括一个或者多个微处理器、数字处理器。所述处理器可调用存储器中存储的程序代码以执行相关的功能。例如，图10中所述的各个模块是存储在所述存储器中的程序代码，并由所述处理器所执行，以实现上述方法。所述处理器又称中央处理器(CPU，Central Processing Unit)，可以是一块超大规模的集成电路，是运算核心(Core)和控制核心(Control Unit)。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或元件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明的各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种自动药物设计方法，其特征在于，包括：

将目标先导化合物分解为具有可合成模块的片段，依次将所述片段输入已经训练的药物设计机器学习模型进行采样；

将所述药物设计机器学习模型输出的新片段重新组装，得到新的先导化合物。

2.根据权利要求1所述的自动药物设计方法，其特征在于，所述药物设计机器学习模型的训练数据集通过如下方式获得：

以预定规则对CHEMBL 25数据集中的活性化合物进行过滤，得到初始数据集；

将初始数据集中的每一个初始化合物分解为具有可合成模块的片段并去重，得到多个非冗余片段；

使用随机生成SMILES方法，将所述非冗余片段扩增预定倍数，以扩增后得到的多条SMILES字符串作为所述训练数据集。

3.根据权利要求2所述的自动药物设计方法，其特征在于，所述预定规则包括：

活性化合物作用靶点属于人属蛋白家族GPCR A，Hydrolase，Kinase，Ligand-gatedIon Channel，Oxidoreductase，Protease，Transferase，Transporter,Voltage-gated IonChannel中的一种；

活性测试类型为SINGLE PROTEIN；

去除含有碎片的化合物；

去除分子量大于500的化合物；以及

去除PCHEMBL<6的低活性化合物。

4.根据权利要求2所述的自动药物设计方法，其特征在于，输入训练的SMILES字符串被转化为固定长度为120的字符串：如果SMILES字符串不足120，则用空格补齐；若长度超过120，则被过滤；以及，根据编码SMILES字符串所用到的字符作为标志，将每一个字符转化为one-hot向量，最终，一条SMILES字符串被转化为120×43的矩阵作为所述药物设计机器学习模型的输入。

5.根据权利要求1所述的自动药物设计方法，其特征在于，所述药物设计机器学习模型为VAE模型，所述VAE模型包括：编码器、隐含空间、解码器；其中编码器包括三个卷积层和一个线性层，所述编码器输出的均值(μ)和方差(σ)由1×292向量表示；所述解码器包括一个GRU层和两个线性层。

6.根据权利要求5所述的自动药物设计方法，其特征在于，所述VAE模型以开源Molecular VAE模型为基础，分子结构检查、片段分解和片段组装使用RDKIT工具包；深度学习框架使用Pytorch 1.5.1，CUDA版本为10.1.105，操作***为Ubuntu LTS 18.04，所有计算工作均于4×Geforce RTX-2080-TI GPU服务器上完成。

7.一种自动药物设计***，其特征在于，包括：

药物设计机器学习模型；

输入模块，用于将目标先导化合物分解为具有可合成模块的片段，依次将所述片段输入已经训练的所述药物设计机器学习模型进行采样；

输出模块，用于将所述药物设计机器学习模型输出的新片段重新组装，得到新的先导化合物。

8.一种计算设备，包括存储器和处理器，所述存储器存储有程序，其特征在于，所述处理器执行所述程序时实现权利要求1-6任一所述的方法。

9.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时实现权利要求1-6任一所述的方法。