发明内容
鉴于现有技术存在的问题,本发明的目的在于提供一种PROTAC目标分子生成方法、计算机***及储存介质,其中PROTAC目标分子生成方法能够加快PROTAC分子设计速度,从而加快药物的研发进程。
本说明书实施例提供以下技术方案:
一种PROTAC目标分子生成方法,包括如下步骤:
获取第一参数、第二参数、第三参数,在靶蛋白配体数据库中提取对应所述第一参数的靶蛋白配体结构以构成第一子集,在降解剂片段数据库中提取对应所述第二参数的降解剂片段结构以构成第二子集,在连接体片段数据库中提取对应所述第三参数的连接体片段结构以构成第三子集;
将所述第一子集、所述第二子集和所述第三子集中的各片段结构排列组合,生成PROTAC目标分子。
通过上述方法,可以通过用户输送的或默认的第一参数、第二参数、第三参数,分别从靶蛋白配体数据库、降解剂片段数据库、连接体片段数据库中提取并输出符合要求的靶蛋白配体结构、降解剂片段结构和连接体片段结构,然后将三组片段结构进行排列组合,利用大数据和计算处理,快速、高效地生成PROTAC目标分子,以供后续实验使用,避免结构片段的组合疏漏,提高分子设计的精度,加快整个药物研发进程。
本发明还提供一种方案,在靶蛋白配体数据库中提取对应所述第一参数的靶蛋白配体结构以构成第一子集,包括:获取用户输入的靶蛋白配体结构的配体特征结构,将靶蛋白配体数据库中的各活性片段与所述配体特征结构进行相似性比较,输出相似性程度最高的对应所述第一参数的靶蛋白配体结构以构成第一子集;
和/或,在降解剂片段数据库中提取对应所述第二参数的降解剂片段结构以构成第二子集,包括:获取用户输入的降解剂片段结构的降解剂特征结构,将降解剂片段数据库中的各降解剂片段与所述降解剂特征结构进行相似性比较,输出相似性程度最高的对应所述第二参数的降解剂片段结构以构成第二子集。
本发明还提供一种方案,在靶蛋白配体数据库中提取对应所述第一参数的靶蛋白配体结构以构成第一子集,包括:将靶蛋白配体数据库中的靶蛋白配体结构按照活性顺序降序排列,输出对应所述第一参数的靶蛋白配体结构以构成第一子集;
和/或,在降解剂片段数据库中提取对应所述第二参数的降解剂片段结构以构成第二子集,包括:将降解剂片段数据库中的降解剂片段结构按照活性顺序降序排列,输出对应所述第二参数的降解剂片段结构以构成第二子集。
本发明还提供一种方案,在连接体片段数据库中提取对应所述第三参数的连接体片段结构以构成第三子集,包括:
在连接体片段数据库中执行长度检索,输出符合预设长度的连接体片段结构以构成第三子集。
本发明还提供一种方案,所述预设长度为整数。
本发明还提供一种方案,所述长度检索包括以下步骤:
获取第一PROTAC分子;
去除所述第一PROTAC分子中的靶蛋白配体结构和降解剂片段结构,得到中间分子;
将所述中间分子转化为图形结构,计算图形结构中的两个顶点之间的长度,其中,所述图形结构包括原子和连接相邻原子的线段。
本发明还提供一种方案,在获取第一参数、第二参数、第三参数之前,所述PROTAC目标分子生成方法还包括:
获取用户输入的第二PROTAC分子,其中,所述第二PROTAC分子使用SMILES分子结构或PDB蛋白结构表述。
本发明还提供一种方案,在生成PROTAC目标分子之后,所述PROTAC目标分子生成方法还包括:
根据预设的打分模型对所述PROTAC目标分子进行打分,导出得分大于等于第一阈值的所述PROTAC目标分子。
本发明还提供一种方案,所述预设的打分模型包括使用随机森林法的二分类模型。
本发明还提供一种方案,所述靶蛋白配体数据库、所述降解剂片段数据库、所述连接体片段数据库的至少一个数据库中的片段结构来自开源数据库,所述开源数据库包括PROTAC-DB、PROTACpedia、Chembl、BindingDB中的至少一个。
本发明还提供一种计算机***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时,实现如前面任意一项所述的PROTAC目标分子生成方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,实现如前面任意一项所述的PROTAC目标分子生成方法的步骤。
与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:通过上述方法,将活性片段结构、降解剂片段结构和连接体片段结构排列组合,可以利用各个数据库的大数据以及计算机或云计算的运算处理的优势,加快虚拟的PROTAC目标分子的生成速度,加快PROTAC分子的设计速度,避免结构片段的组合疏漏,提高分子设计的精度,还能够将研究人员从分子设计的繁复工作解放出来,更好地将精力集中在下游实验、药理研究等工作中,进而提高医药研发的整体效率,加快药物的研发进程。
具体实施方式
下面结合附图对本申请实施例进行详细描述。
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本申请,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目和方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,本说明书的描述中,需要理解的是,本说明书的示例实施例中所描述的“上”、“下”、“内”、“外”等方位词,“第一”、“第二”、“第三”、等数量词,是以附图所示的角度来进行描述的,不应理解为对本说明书的示例实施例的限定。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
PROTAC是一种杂合双功能小分子化合物,其结构的两端分别还有一个功能片段,一个是与细胞中目标靶蛋白结合的靶蛋白配体结构,另一个是与E3泛素连接酶结合的降解剂片段,两个功能片段之间通过连接体(Linker)片段相连,从而形成“靶蛋白配体-Linker-降解剂”的小分子结构。通过E3连接酶给靶蛋白加上泛素化标签,启动细胞内强大的泛素化水解过程,通过泛素-蛋白酶途径特异性地降解靶蛋白。与传统靶向治疗相比,PROTAC分子具有诸多治疗优势,近些年来药物研发企业投入PROTAC分子的药物筛选的研究中。
药物筛选是发现药物先导化合物的重要途径,而好的分子库则是药物筛选的捷径。然而,目前的PROTAC分子结构的设计还停留在阅读文献和徒手设计阶段,极度依靠研究人员的经验和文献报道,分子的设计速度慢,占用了研究人员大量精力,影响下游实验的开展,并未涉及使用数据库和计算机辅助算法的设计方式。随着PROTAC技术的发展,不断出现新的PROTAC分子数据和结构数据,数据数量快速上升,传统的分子设计方法不能适应海量的数据结构,大量的结构数据、分子数据没有得到有效利用,缺少大数据驱动的PROTAC分子生成方法。
因此,发明人提出一种解决方法,合理利用PROTAC分子结构数据库中的数据,使用预设的算法,生成PROTAC目标分子。由于PROTAC分子的三段式结构,通过从数据库中通过人工智能检索或优选的方式,筛选出优选的靶蛋白配体结构、连接体片段结构和降解剂片段结构,然后通过排列组合的方式,将这些片段构成PROTAC分子,以得到指导下游实验的PROTAC目标分子。本解决方法利用已有的分子结构数据库,结合计算机的运算能力,高效地生成PROTAC目标分子,能够加快PROTAC药物的研发速度,解决PROTAC目标分子设计速度慢,依赖人员经验和文献查询的问题。
以下结合附图,说明本申请各实施例提供的技术方案。
本发明提供一种PROTAC目标分子生成方法,该方法包括如下步骤:
步骤1,获取第一参数、第二参数、第三参数,并在三个数据库中分别提取对应所述第一参数、所述第二参数、所述第三参数的分子片段。具体来说,三个数据看分别是对应PROTAC的小分子结构的三库数据库,即靶蛋白配体数据库、降解剂片段数据库和连接体片段数据库。在各个数据库中,执行如下的操作:
在靶蛋白配体数据库中提取对应所述第一参数的靶蛋白配体结构,以构成第一子集;
在降解剂片段数据库中提取对应所述第二参数的降解剂片段结构,以构成第二子集;
在连接体片段数据库中提取对应所述第三参数的连接体片段结构,以构成第三子集。
步骤2,将第一子集、第二子集和第三子集中的各片段结构排列组合,生成PROTAC目标分子。
需要说明的是,在排列组合的过程中,可以将靶蛋白配体结构和降解剂片段结构组合在连接体片段结构的两端,以生成“靶蛋白配体-Linker-降解剂”标准结构的PROTAC目标分子;也可以仅将靶蛋白配体结构与连接体片段结构组合,或者仅将降解剂片段结构与连接体片段结构组合,生成非标准结构的PROTAC目标分子。
还需要说明的是,连接体片段结构的长度可以是“0”,此时组合而成的PROTAC目标分子仅含有靶蛋白配体结构和降解剂片段结构。
还需要说明的是,第一参数、第二参数、第三参数其中的任意一个或组合,可以是用户输入的参数;也可以是***中的预设参数,当无用户输入的参数时,该分子生成方法调用预设参数执行运算。
通过上述方法,计算机根据第一参数、第二参数、第三参数从对应的分子片段数据库中直接获取对应数量的,然后通过排列组合的方式将各个片段组合起来,形成可供下游实验研究使用的PROTAC目标分子,对人员经验和文献报道的依赖程度小,通过大数据和计算机算法的处理能力,通过调节获取各个分子片段的数量,生成相对应数量的目标分子,例如:设置第一参数为N,第二参数为E,第三参数为L,则生成的PROTAC目标分子为N×E×L个,该分子生成的效率高,且不会有人为的疏漏,也不会因为人员经验的问题或文献是否报道过的问题,疏漏任何被指定的结构片段,生成的目标分子数据的结构完整性好。通过上述方法,可以高效地形成PROTAC目标分子,有利于解放研究人员,使其更加关注下游实验、药理学、动力学等各方面的研究,而非大量的文献查找和分子结构设计,加快研发进度。
具体的,如图1和图2所示,用户通过电脑输入数据,该些数据包第一参数、第二参数、第三参数任意一个或任何组合,若某个或某些参数未由用户输入,则直接调用预存的数据。本地电脑或者多台处于云计算分布***的中电脑,根据上述各个参数,在靶蛋白配体数据库中提取对应第一参数的靶蛋白配体结构,并输出第一子集;在降解剂片段数据库中提取对应第二参数的降解剂片段结构,并输出第二子集;在连接体片段数据库中提取对应第三参数的连接体片段结构,并输出第三子集。需要说明的是,任意一个配体结构或片段结构的提取工作,可以一台电脑执行,可以由分布于云网络中的若干台电脑执行。然后,各子集进行排列组合,例如:从靶蛋白配体数据库中提取N个靶蛋白配体结构,从降解剂片段数据库中提取E个降解剂片段结构,从连接体片段数据库中提取L个连接体片段结构,通过排列组合生成N×E×L目标分子数量的三维矩阵,该些目标分子存储后,例如储存成CSV或Excel格式的数据,返回给用户,以供后续的实验研究使用。
在一些实施方式中,靶蛋白配体结构可以通过相似性比较,从靶蛋白配体数据库中提取得到第一子集。具体的,获取用户输入的靶蛋白配体结构中的配体特征结构,然后调用预设的比较算法,将靶蛋白配体数据库中的各靶蛋白配体结构与所述配体特征结构进行相似性比较,然后将数据库中的靶蛋白配体结构按照相似性程度进行降序排列,输出第一参数数量的靶蛋白配体结构,以形成第一子集。
需要说明的是,用户可以自定义也可以通过预设的方式确定输出数据的起始位置,例如从降序排列的第一个开始,或者从降序排列的第n个开始。
还需要说明的是,用户可以使用SMILES化合物序列结构或PDB蛋白结构来表述输入的靶蛋白配体结构。
在其他一些实施方式中,将靶蛋白配体数据库中的各靶蛋白配体结构与所述配体特征结构进行相似性比较后,对每个靶蛋白配体结构依据相似程度进行打分,然后输出得分高于预设数值(比如0.7)的靶蛋白配体结构,以形成第一子集。
在一些实施方式中,降解剂片段结构可以通过相似性比较,从降解剂片段数据库中提取得到第二子集。具体的,获取用户输入的降解剂片段结构的降解剂特征结构,然后调用预设的比较算法,降解剂片段数据库中的各降解剂片段与所述降解剂特征结构进行相似性比较,然后将数据库中的降解剂片段按照相似性程度进行降序排列,输出第二参数数量的降解剂片段,以形成第二子集。
同样的,用户可以自定义或通过预设的方式确定输出数据的起始位置;用户可以使用SMILES化合物序列结构表述降解剂片段结构;可以通过相似程度打分的方式输出高于预设数值的降解剂片段结构,此处不再赘述。
在一些实施方式中,靶蛋白配体结构可以通过活性排序,从靶蛋白配体数据库中提取得到第一子集。具体的,将靶蛋白配体数据库中的各靶蛋白配体结构按照化学活性或药理学活性的顺序降序排列,输出第一参数数量的靶蛋白配体结构,以形成第一子集。
在其他一些实施方式中,电脑中预设有活性评分算法,调用所述活性评分算法,根据化学活性或药理学活性,对各靶蛋白配体结构进行打分,然后输出得分高于预设数值(比如0.7)的靶蛋白配体结构,以形成第一子集。
在一些实施方式中,降解剂片段结构可以通过活性排序,从降解剂片段数据库中提取得到第二子集。具体的,将降解剂片段数据库中的各降解剂片段结构按照化学活性或药理学活性的顺序降序排列,输出第二参数数量的降解剂片段结构,以形成第二子集。
同样的,可以通过化学活性或药理学活性打分的方式输出高于预设数值的降解剂片段结构,此处不再赘述。
在一些实施方式中,在连接体片段数据库中执行长度检索,输出符合预设长度的连接体片段结构以构成第三子集。
优选的,所述预设长度为整数。
需要说明的是,连接体片段结构的长度计算可以使用SMILES化合物序列结构表述连接体片段结构,也可以采用图形结构表述连接体片段结构,所述图形结构中包括原子和连接相邻原子的线段,所述连接体片段结构的长度是指位于两端的原子之间的距离。
通过检索在连接体片段数据库中长度符合预设长度的连接体片段结构,从而能够组成靶蛋白配体结构与降解剂片段距离相近的一组PROTAC目标分子,从而有利于进行相似性研究。
在一些实施方式中,在连接体片段数据库中执行长度检索,还包括以下步骤:
步骤S11,获取第一PROTAC分子。
需要说明的是,所述第一PROTAC分子可以通过用户输入,或调用数据的方式获得。
步骤S12,去除所述第一PROTAC分子中的活性片段结构和降解剂片段结构,得到中间分子。
需要说明的是,由于PROTAC分子特有的“靶蛋白配体-Linker-降解剂”的小分子结构,当使用SMILES化合物序列结构或PDB蛋白结构来表述PROTAC分子分子时,可以通过识别特殊的节点标记,识别靶蛋白配体结构、连接体片段结构和降解剂片段结构,然后,参考节点标记,去除活性片段结构和降解剂片段结构,得到含有连接体片段结构的中间分子。
步骤S13,将所述中间分子转化为图形结构,计算图形结构中的两个顶点之间的长度,其中,所述图形结构包括原子和连接相邻原子的线段。
在一些实施方式中,在获取第一参数、第二参数、第三参数之前,所述PROTAC目标分子生成方法还包括:获取用户输入的第二PROTAC分子,其中,所述第二PROTAC分子使用SMILES分子结构或PDB蛋白结构表述。获取的第二PROTAC分子用于提取靶蛋白配体结构的配体特征结构和/或降解剂片段结构的降解剂特征结构。
在一些实施方式中,在生成PROTAC目标分子之后,所述PROTAC目标分子生成方法还包括:根据预设的打分模型对所述PROTAC目标分子进行打分,导出得分大于等于第一阈值的所述PROTAC目标分子。
具体的,如图3所示,预设的打分模型包括:
模型训练模块:通过开源数据集成的PDB蛋白数据集与配体小分子数据集,通过随机森林、SVM(图中未示出)等机器学习算法将上述两个数据集进行训练,输出可用的数学模型文件。其中,PDB蛋白数据为文本数据,配体小分子数据为SMILES化合物序列数据。
模型预测打分模块:将预筛分子SMILES序列(即PROTAC目标分子)与预设的蛋白文本结构输入进训练好的数学模型文件中,输出机器学习模型的概率分数,作为生成规则的权重,使用预设的打分模型对预筛分子SMILES序列进行排序。最后可以根据用户需要的数据量,全部或部分输出经排序的一定数量的预筛分子SMILES序列。
在一些实施方式中,所述靶蛋白配体数据库、所述降解剂片段数据库、所述连接体片段数据库的至少一个数据库中的片段结构来自开源数据库,所述开源数据库包括但不限于PROTAC-DB、PROTACpedia、Chembl、BindingDB中的至少一个。其中,片段结构是指靶蛋白配体数据库中的靶蛋白配体结构,降解剂片段数据库中的降解剂片段结构,以及连接体片段数据库中的连接体片段结构。
【实施例1】
输入PDB蛋白结构;
使用AI模型,在靶蛋白配体数据库进行靶蛋白配体结构排序,输出N个靶蛋白配体结构,在降解剂片段数据库进行降解剂片段结构排序,输出E个降解剂片段结构,另外从连接体片段数据库调取L个连接体片段结构,其中连接体片段结构包含了不同长度的片段;
将靶蛋白配体结构、降解剂片段结构和连接体片段结构的数据进行排列组合,输出N×E×L个化合物;
通过AI模型,依据活性或者药理学性质进行打分排序;
输出PROTAC目标分子的数据集。
【实施例2】
输入SMILES化合物序列;
进行相似性检索,从靶蛋白配体数据库输出相似性程度最高的N个靶蛋白配体结构,从降解剂片段数据库输出相似性程度最高的E个降解剂片段结构,利用SMILES序列自动识别Linker长度,基于预设参数从连接体片段数据库输出L个符合预设长度的连接体片段结构;
将靶蛋白配体结构、降解剂片段结构和连接体片段结构的数据进行排列组合,输出N×E×L个化合物;
通过AI模型,依据药理学性质进行打分排序;
输出PROTAC目标分子的数据集。
【实施例3】
输入SMILES化合物序列;
进行相似性检索,从靶蛋白配体数据库输出相似性程度最高的N个靶蛋白配体结构,从降解剂片段数据库输出相似性程度最高的E个降解剂片段结构,其中的降解剂片段数据库还包含有自噬体相关小分子片段及K60polyubiquitination两种降解活性片段,输出的降解剂片段结构也包含自噬体相关小分子片段和K60 polyubiquitination降解活性片段,利用SMILES序列自动识别Linker长度,基于预设参数从连接体片段数据库输出L个符合预设长度的连接体片段结构;
将靶蛋白配体结构、降解剂片段结构和连接体片段结构的数据进行排列组合,输出N×E×L个化合物;
通过AI模型,进行打分排序;
输出新AUTAC/ATTEC化合物的数据集。
【实施例4】
输入SMILES化合物序列;
进行相似性检索,靶蛋白配体数据库输出相似性程度最高的N个靶蛋白配体结构,从降解剂片段数据库输出相似性程度最高的E个降解剂片段结构,不使用连接体片段数据库;
将靶蛋白配体结构、降解剂片段结构的数据进行排列组合,输出N×E个化合物;
数据进行排列组合,输出N*E个化合物
通过AI模型,进行打分排序;
输出目标分子胶化合物的数据集。
【实施例5】
输入第一PDB蛋白结构和第二PDB蛋白结构;
进行相似性检索,靶蛋白配体数据库输出与第一PDB蛋白结构相似性程度最高的N1个靶蛋白配体结构,以及输出与第二PDB蛋白结构相似性程度最高的N2个靶蛋白配体结构;
将N1个靶蛋白配体结构、N2个靶蛋白配体结构进行排列组合,输出N1×N2个化合物;
通过AI模型,依据药理学性质进行打分排序;
输出目标分子胶化合物的数据集。
【实施例6】
输入第一PDB蛋白结构和第二PDB蛋白结构;
进行相似性检索,靶蛋白配体数据库输出与第一PDB蛋白结构相似性程度最高的N1个靶蛋白配体结构,以及输出与第二PDB蛋白结构相似性程度最高的N2个靶蛋白配体结构,另外从连接体片段数据库调取L个连接体片段结构,其中连接体片段结构包含了不同长度的片段;
将N1个靶蛋白配体结构、N2个靶蛋白配体结构和L个连接体片段结构进行排列组合,输出N1×N2×L个化合物;
通过AI模型,依据药理学性质进行打分排序;
输出目标分子胶化合物的数据集。
基于同样的发明思路,本说明书的实施例还提供一种计算机***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时,实现如前面任意一项所述的PROTAC目标分子生成方法的步骤。
上述实施例提供的计算机***所能带来的技术效果可以参照前述PROTAC目标分子生成方法的各实施例提供的技术效果,此处不再赘述。
基于同样的发明思路,本说明书的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,实现如前面任意一项所述的PROTAC目标分子生成方法的步骤。
上述实施例提供的计算机可读存储介质所能带来的技术效果可以参照前述PROTAC目标分子生成方法的各实施例提供的技术效果,此处不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例侧重说明的都是与其他实施例的不同之处。尤其,对于后面说明的方法实施例而言,由于其与***是对应的,描述比较简单,相关之处参见***实施例的部分说明即可。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。