CN111863120B

CN111863120B - 晶体复合物的药物虚拟筛选***及方法

Info

Publication number: CN111863120B
Application number: CN202010597114.4A
Authority: CN
Inventors: 杨立君; 徐旻; 张佩宇; 马健; 温书豪; 赖力鹏
Original assignee: Shenzhen Jingtai Technology Co Ltd
Current assignee: Shenzhen Jingtai Technology Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2022-05-13
Anticipated expiration: 2040-06-28
Also published as: CN111863120A

Abstract

本发明提供晶体复合物的药物虚拟筛选***，包括可视化子***、评价工具箱子***、AI模型管理子***、大规模采样子***、虚拟筛选子***和数据日志存储子***；该***从一个已知的晶体复合物开始，依次通过可视化子***、评价工具箱子***、AI模型管理子***、大规模采样子***、虚拟筛选***后，推荐出一批符合要求的候选化合物。基于本***，化合物库的生成与后续的虚拟筛选做到了有机结合，用户只要描述对药物对蛋白的作用模式和药物需要具备的要求，即可生成一批符合预期的化合物。自动化的***减少了用户的干预，提高了研发的效率。

Description

晶体复合物的药物虚拟筛选***及方法

技术领域

本申请属于计算机辅助药物设计技术领域，尤其是涉及晶体复合物的药物虚拟筛选***及方法。

背景技术

在传统的药物研发中，早期高通量筛选获取到药物与蛋白的晶体复合物后，分析作用模式，根据生物电子等排原理和药物设计经验，对已有化合物的结构进行替换得到新的化合物。传统的研发手段有：生物电子等排替换、分子对接、骨架跃迁、虚拟筛选。

总体来说，这些技术在常见的药物设计软件MOE、Maestro、Discovery Studio等商业软件中已经具备，满足常规药物研发的需要。

但是，随着当前药物化学理论、有机化学的合成手段的发展，当发现一个具有潜力的苗头化合物时，药物研究机构通常会深入研究可能的取代基团，合成测试衍生物的活性，最后得到一个充分完善的构效关系。这使得后续研究者几乎不能获得相同骨架的新药。

药物专利考虑到传统的新药设计策略，会保护可能应用传统药物设计策略得到的化合物结构，导致后来者难以通过简单的替换获得新药。

分子对接、药效团模型等传统方法严重依赖于选取的化合物库。当前的化合物库具有的分子量级通常在几十万，发布多年的化合物库已经被前人多次探索，化合物数量少且难有新颖骨架。使用AI生成的化合物一次性就能产生几十万的化合物，具有更加广阔的探索空间。

发明内容

针对上述技术问题，本发明的目的在于提供晶体复合物的药物虚拟筛选***，这种方法可以有效解决传统新药设计策略难以获得新骨架的问题，打破现有化合物专利的壁垒，同时，生成的化合物库与传统化合物库相比，更具有靶点特异性。

为实现上述目的，本发明的技术方案如下：

一种晶体复合物的药物虚拟筛选***，包括：可视化子***、评价工具箱子***、AI模型管理子***、大规模采样子***、虚拟筛选子***和数据日志存储子***；该药物虚拟筛选***从一个已知的晶体复合物开始，依次通过可视化子***、评价工具箱子***、AI模型管理子***、大规模采样子***、虚拟筛选子***后，推荐出一批符合要求的候选化合物。

所述可视化子***，用于查看晶体复合物中配体在蛋白中的结合位置，分析配体与蛋白的结合模式，提取增强药物对蛋白亲和力的特征。

所述评价工具箱子***，封装有多个化合物评价模块，用于通过选择多个化合物评价模块并赋予适当的权重设计出评价函数；

所述AI模型管理子***，用于AI模型、AI模型训练和AI模型参数的更新；

所述大规模采样子***，用于对训练后的AI模型进行采样、筛选，得到相应的化合物组成的化合物库；

所述虚拟筛选子***，用于对所述化合物库中的化合物进行进一步筛选；

所述数据日志存储子***，用于建立用户的日志信息文档并进行存储；所述日志信息文档用于记录用户的操作记录和产生相应的数据。

本发明采用以上技术方案，其优点在于，用户通过分析配体在晶体复合物的结合模式，定义出药物的关键特征，设置候选化合物应当具有的理化性质。AI模型根据用户定义的要求，更新参数，生成一批满足条件的化合物。这些化合物经过条件过滤后被整理成一个化合物库。虚拟筛选化合物库中的化合物，最后得到一批候选化合物。***的功能结构及流程见图1。

优选的，所述增强药物对蛋白亲和力的特征为氢键作用和/或疏水相互作用。

优选的，所述评价函数为加权算术平均数、加权几何平均数或者用户自定义的函数。

优选的，所述AI模型管理子***包括AI模型、AI模型训练和AI模型参数的更新。

优选的，所述AI模型，生成化合物的神经网络***；所述AI模型参数就是神经网络***的参数；AI模型本身能随机生成化合物。

优选的，所述过滤条件包括化合物的重原子数、氢键供体数量、氢键受体数量、骨架结构、假阳性，以及现有专利文献已经报道的化合物。

优选的，所述数据日志存储子***还包括规范用户权限的功能。

相应的，本发明提供一种利用所述药物虚拟筛选***的筛选方法，包括如下步骤：

步骤A：通过所述可视化子***的分析来定义晶体复合物中配体的结合特征，用户从蛋白质晶体结构数据库中下载靶点的晶体复合物结构，通过可视化查看配体在蛋白中的结合位置，分析配体与蛋白的结合模式，提取增强药物对蛋白亲和力的特征；

步骤B:将化合物输入所述评价工具箱子***中，所述评价工具箱子***中的各个化合物评价模块会输出一个分数，再通过评价函数整合成一个综合的分数；

步骤C:将可视化子***和评价工具箱子***组成一个完整的评价管道，通过所述AI模型管理子***启动AI模型，开始训练。

步骤D:所述大规模采样子***接受用户输入的一个采样数量参数，对训练后的AI模型进行采样，生成指定数量的化合物，删除不合理、重复的化合物，接着用户输入过滤条件淘汰不符合要求的化合物，剩余的化合物组成一个化合物库；

步骤E:所述虚拟筛选子***对所述化合物库中的化合物进行进一步筛选；

步骤F:所述数据日志存储子***，在用户使用该***设计药物时，建立用户的日志信息文档并进行存储。

其中，步骤A的具体步骤是：用户从蛋白质晶体结构数据库中下载靶点的晶体复合物结构，通过可视化查看配体在蛋白中的结合位置，分析配体与蛋白的结合模式，提取氢键作用、疏水相互作用等可能增强药物对蛋白亲和力的特征。用户可以在界面上根据药物发挥活性的重要特征，并赋予每一项重要特征适当的权重，最后整合成一个药效团评价模块。当一个化合物输入到药效团评价模块时，该评价模块通过评价化合物与重要特征的匹配程度，输出一个分数。

其中，所述配体的结合特征可以通过可视化子***分析获得，还可以通过相关文献已经报道的晶体复合物结合特征获得，也可以通过结合可视化子***分析和文献已经报道的配体特征获得。

所述的化合物评价模块包括：子结构警报、选择性预测、活性预测、结构相似性、分子量、旋转键数量、氢键供体数量、氢键受体数量、环数量、分子对接打分、FEP预测值、药效团打分、脂水分配系数值、化合物毒性预测评价模块。

评价工具箱子***中的化合物评价模块包含了化合物的构象特征、物理性质、化学性质、药物代谢动力学性质、结构新颖性等多个方面性质的化合物评价模块。

优选的，所述步骤C中，所述AI模型通过与评价管道的交互，将AI模型生成的化合物输出到评价管道，收集评价管道输出的化合物的分数，自动更新AI模型参数；该过程重复多次后，AI模型生成的化合物会在评价管道中得到一个较高的分数；AI模型训练完成后，AI模型参数也优化成适合的值。

优选的，所述步骤E包括如下几个步骤：

步骤E1:从pdb库中下载化合物的蛋白pdb文件，进行蛋白预处理操作，对蛋白进行删除水分子、加氢等，删除无关配体，定义需要对接的位点的预处理；

步骤E2:进行化合物构象优化操作，对化合物生成3D构象后，采用遗传算法搜索化合物处于最低能量的构象；

步骤E3:进行分子对接，按照分子对接打分降序排列，选取排名前5％-15％的化合物；

步骤E4:将步骤E3选取的化合物做分子动力学模拟，根据模拟结果，从化合物库中筛选出符合条件的化合物。

优选的，所述评价函数中，为各个分数分别设置了权重：w₁，w₂，w₃，……w_n，形成一个评价函数，所述评价函数算术加权平均：

或者几何加权平均：

所述的数据日志存储子***，该***会在用户使用该***设计药物时，建立用户的日志信息文档并进行存储；所述的日志信息文档记录了用户的操作记录和产生相应的数据；

所述的数据日志存储子***还包括规范用户权限的功能，***会根据研发管线的不同对用户进行分组，每个用户对各个项目的数据、日志的权限也会有所不同。

本发明的有益效果是：

1.在AI模型产生大量化合物的基础上，采用评价管道的设计，令AI模型生成满足特定需求的化合物。生成的化合物库与传统的化合物库相比，更加具有靶点特异性。

2.基于本***，化合物库的生成与后续的虚拟筛选做到了有机结合，用户只要描述对药物对蛋白的作用模式和药物需要具备的要求，即可生成一批符合预期的化合物。自动化的***减少了用户的干预，提高了研发的效率。

3.用户在***的操作、定义的参数和研发生成的分子、都会被记录在***中，有利于研发的追溯。此外，***还具有严格的权限管理，确保了数据的安全性。

附图说明

下面结合附图和实施例对本申请的技术方案进一步说明。

图1是晶体复合物的药物虚拟筛选***的功能结构及流程图；

图2是晶体复合物的药物虚拟筛选***的以PARP晶体复合物为例的流程图。

图3是评价管道的示意图，从一个化合物输入，最终由评价函数返回一个最终分数。

具体实施方式

实施例1

如图2所示的流程：

多聚二磷酸腺苷核糖聚合酶(PARP)通过催化ADP核糖基化参与碱基的修复，在细胞的单链DNA损伤修复中发挥重要作用，是抗癌药物的靶点之一。PARP1是PARP的一个亚型，是治疗三阴性乳腺癌的靶点之一。从PARP1的晶体复合物开始，按照流程所示的步骤(如图2所示)，进行药物设计。

(1)从蛋白质晶体结构数据库中下载PARP1的晶体复合物结构，通过对PARP1的晶体复合物的可视化分析，结合文献报道的结合模式，确定了4个关键药效团特征(一个氢键供体特征、一个氢键受体特征和两个疏水特征)，并对4个特征分别赋予权重(权重依次是3、3、2、1)整合成一个药效团特征评价模块。

(2)将关键药效团特征整合成药效团打分模块，加入子结构警报、分子量、旋转键数量、氢键供体数量、氢键受体数量、脂水分配系数值六个模块，评价函数采用算术加权平均的方法组成评价管道。除了药效团打分模块的权重是3以外，其余模块权重均为1。

(3)开启AI模型管理子***，对AI模型训练1000轮。

(4)在大规模采样子***输入采样数量参数700万，对AI模型进行大规模采样，生产700余万个化合物，删除不合理、重复的化合物，最后得到80万余个化合物，设置筛选条件对化合物过滤，对这些化合物进行氢键供体、氢键受体、重原子数等理化性质的过滤，删除含有大环、桥烷等子结构的化合物，最后得到了9万多个化合物。

(5)查找专利，汇总PARP抑制剂已知的骨架。删除含有已知骨架的化合物，得到2000余个化合物并组成化合物库。

(6)将组成的化合物库进行虚拟筛选，处理PARP蛋白并优化化合物的3D构象，对这些化合物做分子对接，并挑出打分排名前5％的化合物，进行分子动力学模拟。

(7)人工查看并挑选化合物的构象，分析动力学模拟的结果，得到一批候选的化合物。

(8)***自动记录用户的操作记录和产生的候选化合物并进行分类存储。

实施例2

阿尔茨海默病是一种具有代表性的中枢神经***退行性病变。文献中报道了多个针对阿尔茨海默病的研究发现了多个靶点。乙酰胆碱酯酶是其中一个重要的靶点。以乙酰胆碱酯酶及其抑制剂的晶体复合物作为起点，寻找具有全新骨架的抑制剂。

(1)根据文献的报道，采用其中的一个晶体复合物(PDB：4EY7)作为起点。通过对晶体复合物(PDB：4EY7)的可视化分析，结合文献报道，定位出配体，并确定了5个关键药效团特征，这些特征包括了2个氢键受体，2个芳香环特征、1个疏水特征，赋予药效团特征权重均为1，整合成一个靶点特征评价模块。

(2)使用步骤(1)定义的药效团模型组合成药效团评价模块，还补充了子结构警报、结构相似性两个模块。为了能发现新的骨架，从文献中采集已知的乙酰胆碱酯酶抑制剂骨架作为子结构。将这些子结构输入到子结构警报中，判断生成的化合物是否含有抑制剂的已知骨架。同时，以晶体复合物中的原始配体作为模板分子，依据分子指纹计算生成的分子与模板分子的相似性。评价函数采用算术加权平均的方式输出一个最终分数。其中，药效团打分模块的权重是5，子结构警报模块的权重是10，结构相似性模块的权重是3。

(3)使用AI模型管理子***，对AI模型强化训练1000轮。

(4)在大规模采样子***输入采样数量参数100万,生成100万个化合物。删除无效、重复的化合物，最后得到了8万余个化合物。设置氢键供体数不超过5、氢键受体数不超过10、分子质量低于500以及脂水分配系数不超过5这四条规则过滤化合物，剔除含有已报道骨架的抑制剂，得到3千余个化合物，组成化合物库。

(5)对化合物库的3千余个化合物进行分子对接，筛选出具有符合文献报道的相互作用的分子60余个。

(6)***记录筛选得到的候选化合物。

实施例3

热休克蛋白90是近几年发现的一个抗肿瘤药物的新靶点，热休克蛋白90的抑制剂能破坏体内蛋白的结构和降解过程起到抗肿瘤的作用。在热休克蛋白90的晶体结构公开后，计算机辅助药物设计成为研发新型热休克蛋白90抑制剂的主流。本实施例尝试以热休克蛋白90的晶体复合物作为起始，推荐一批新型热休克蛋白90抑制剂。

(1)采用其中的一个热休克蛋白90(PDB：1YET)作为起点。通过对热休克蛋白90(PDB：1YET)的可视化分析，结合文献报道，定义抑制剂在热休克蛋白90(PDB：1YET)上的结合位置，定义2个氢键受体、2个疏水中心和2个氢键供体组成药效团模型，这些药效团的权重均为1，整合成一个靶点特征评价模块。

(2)使用步骤(1)定义的药效团模型组合成药效团评价模块，加入分子量模块，约束分子量必须低于500。为了能够更加合理地评价化合物，接入了分子对接打分模块(采用Autodock对接)，对化合物做分子对接,采用分子对接的打分docking score的相反数作为评价分数。评价函数采用算术加权平均的方式输出一个最终的分数。其中，药效团打分模块的权重是3，分子对接打分模块的权重是5，分子量模块的权重是10。

(3)使用AI模型管理子***，对AI模型强化训练1000轮。

(4)在大规模采样子***输入采样数量参数100万,生成100万个化合物，去重无效、重复的化合物，最后得到了20万余个化合物，设置氢键供体数不超过5、氢键受体数不超过10、分子质量低于500以及脂水分配系数不超过5这四条规则过滤化合物，剔除含有已报道的骨架的抑制剂，得到8千余个化合物，组成化合物库。

(5)使用Tanimoto算法计算化合物分子指纹(ECFP4)相似度,从化合物库中找出与热休克蛋白90晶体复合物中的配体最相似的化合物500余个使用分子对接和分子动力学模拟从中筛选出30余个候选化合物。

(6)***记录筛选得到的候选化合物。

以上述依据本申请的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项申请技术思想的范围内，进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种晶体复合物的药物虚拟筛选***，其特征在于，包括：可视化子***、评价工具箱子***、AI模型管理子***、大规模采样子***、虚拟筛选子***和数据日志存储子***；该药物虚拟筛选***从一个已知的晶体复合物开始，依次通过可视化子***、评价工具箱子***、AI模型管理子***、大规模采样子***、虚拟筛选子***后，筛选出一批符合要求的候选化合物；

所述可视化子***，用于查看晶体复合物中配体在蛋白中的结合位置，分析配体与蛋白的结合模式，提取增强药物对蛋白亲和力的特征；

所述AI模型管理子***，用于AI模型、AI模型训练和AI模型参数的更新；所述AI模型，生成化合物的神经网络***；所述AI模型参数就是神经网络***的参数；AI模型本身能随机生成化合物；

所述大规模采样子***，用于对训练后的AI模型进行采样、筛选，基于过滤条件过滤后，得到相应的化合物组成的化合物库；

2.如权利要求1所述的药物虚拟筛选***，其特征在于，所述增强药物对蛋白亲和力的特征为氢键作用和/或疏水相互作用。

3.如权利要求1所述的药物虚拟筛选***，其特征在于，所述评价函数为加权算术平均数、加权几何平均数或者用户自定义的函数。

4.如权利要求1所述的药物虚拟筛选***，其特征在于，所述过滤条件包括化合物的重原子数、氢键供体数量、氢键受体数量、骨架结构、假阳性。

5.如权利要求1所述的药物虚拟筛选***，其特征在于，所述数据日志存储子***还包括规范用户权限的功能。

6.一种利用如权利要求1所述的药物虚拟筛选***的筛选方法，其特征在于，包括如下步骤：

步骤A：通过所述可视化子***的分析来定义晶体复合物中配体的结合特征，用户从蛋白质晶体结构数据库中下载靶点的晶体复合物结构，通过可视化查看配体在蛋白中的结合位置，分析配体与蛋白的结合模式，提取增强药物对蛋白亲和力的特征;

步骤B：将化合物输入所述评价工具箱子***中，所述评价工具箱子***中的各个化合物评价模块会输出一个分数，再通过评价函数整合成一个综合的分数；

步骤C：将可视化子***和评价工具箱子***组成一个完整的评价管道，通过所述AI模型管理子***启动AI模型，开始训练；

步骤D：所述大规模采样子***接受用户输入的一个采样数量参数，对训练后的AI模型进行采样，生成指定数量的化合物，删除不合理、重复的化合物，接着用户输入过滤条件淘汰不符合要求的化合物，剩余的化合物组成一个化合物库；

步骤E：所述虚拟筛选子***对所述化合物库中的化合物进行进一步筛选；

步骤F：所述数据日志存储子***，在用户使用该***设计药物时，建立用户的日志信息文档并进行存储。

7.如权利要求6所述的方法，其特征在于，所述步骤C中，所述AI模型通过与评价管道的交互，将AI模型生成的化合物输出到评价管道，收集评价管道输出的化合物的分数，自动更新AI模型参数；该过程重复多次后，AI模型生成的化合物会在评价管道中得到一个较高的分数；AI模型训练完成后，AI模型参数也优化成适合的值。

8.如权利要求6所述的方法，其特征在于，所述步骤E包括如下几个步骤：

蛋白预处理：从pdb库中下载化合物的蛋白pdb文件，进行蛋白预处理操作，对蛋白进行删除水分子、加氢、删除无关配体，定义需要对接的位点的预处理；

化合物构象优化：进行化合物构象优化操作，对化合物生成3D构象后，采用遗传算法搜索化合物处于最低能量的构象；

分子对接：进行分子对接，按照分子对接打分降序排列，选取排名前5%-15%的化合物；

分子动力学模拟：将选取的化合物做分子动力学模拟，根据模拟结果，从化合物库中筛选出符合条件的化合物。

9.如权利要求6所述的方法，其特征在于，所述评价函数中，为各个分数

分别设置了权重

，

，形成一个评价函数，所述评价函数算术加权平均：

, 或者几何加权平均：

。