CN109935341B

CN109935341B - 一种药物新适应症的预测方法及装置

Info

Publication number: CN109935341B
Application number: CN201910280839.8A
Authority: CN
Inventors: 李瑛颖; 戴蝉; 管峥
Original assignee: Beijing Deep Intelligent Pharma Technology Co ltd
Current assignee: Beijing Deep Intelligent Pharma Technology Co ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2021-04-13
Anticipated expiration: 2039-04-09
Also published as: CN109935341A

Abstract

本申请实施例公开了一种药物新适应症的预测方法及装置，可以用于确定已有的目标药物的新疗效，具体地，可以获取目标药物在基因通路上的打分结果，所述目标药物在基因通路上的打分结果表征所述目标药物对于所述基因通路的活化作用；而后将该打分结果输入机器学习模型，得到所述目标药物对应的适应症。确定目标药物的适应症之后，考虑到该适应症中可能包括目标药物的已知适应症，故而将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症。由此可见，利用本申请实施例的方法，可以预测出目标药物的新适应症，即可以预测已有药物的新疗效。

Description

一种药物新适应症的预测方法及装置

技术领域

本申请涉及生物信息技术领域，尤其涉及一种预测药物新适应症的方法及装置。

背景技术

目前，新药物的研发面临研发周期长以及研发成本高的问题，对于这个问题，对已有药物进行再利用是比较好的解决方案。所谓对已有药物进行再利用，是指，将已有的药物用于治疗新的疾病。例如，60年前，“沙利度胺”是一种治疗孕吐的药物，而如今它却被用来治疗白血病和麻风病；“阿司匹林”最初是一种解热镇痛药，但后来发现其对血小板聚集有抑制作用，能阻止血栓形成，故而如今“阿司匹林”又被用于作为预防短暂脑缺血发作、心肌梗死、人工心脏瓣膜和静脉瘘或其他手术后血栓的形成的药物。

因此，如何确定已有药物的新疗效，是目前急需解决的问题。

发明内容

本申请实施例提供的一种药物新适应症的预测方法及装置，可以确定已有药物的新疗效。

第一方面，本申请实施例提供了一种药物新适应症的预测方法，所述方法包括：

获取目标药物在基因通路上的打分结果，所述目标药物在基因通路上的打分结果表征所述目标药物对于所述基因通路的活化作用；

将所述目标药物在所述基因通路上的打分结果输入机器学习模型，得到所述目标药物对应的适应症，所述机器学习模型根据训练药物在所述基因通路上的打分结果以及所述训练药物的已知适应症训练得到，所述训练药物为适应症已知的药物；

获取所述目标药物的已知适应症，并将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症。

可选的，所述方法还包括：

获取所述目标药物的新适应症对应的已知药物的化学结构；

比对所述目标药物的化学结构和所述已知药物的化学结构，得到比对结果；

若所述比对结果满足预设条件，则将所述目标药物确定为解决所述新适应症的药物。

可选的，所述方法还包括：

获取所述目标药物在所述新适应症对应的基因通路上的打分结果；

若所述目标药物在所述新适应症对应的基因通路上的打分结果大于或等于阈值，则将所述目标药物确定为解决所述新适应症的药物。

可选的，所述方法还包括：

获取所述新适应症对应的多个药物分别在与所述新适应症对应的基因通路上的打分结果；

对所述新适应症对应的多个药物分别在与所述新适应症对应的基因通路上的打分结果按照由高到低的顺序进行排序；

若前预设数目个所述新适应症对应的药物中包括所述目标药物，则将所述目标药物确定为解决所述新适应症的药物。

可选的，所述获取目标药物在基因通路上的打分结果包括：

获取对照组药物的转录组数据和目标药物的转录组数据；

根据所述对照组药物的转录组数据和所述目标药物的转录组数据，获得转录差异表达倍数数据；

对相关基因做聚类处理，将共表达的基因聚类到同一组，获得多个基因共表达单元；

获取基因通路，根据基因在所述基因通路中所起的作用，为所述基因通路中的各个基因分配权重系数，获得基因通路拓扑系数矩阵；所述基因在基因通路中所起的作用包括：促进作用、抑制作用、磷酸化作用和去磷酸化作用；

根据所述转录差异表达倍数数据、所述基因共表达单元以及所述基因通路拓扑系数矩阵，确定目标药物在每条基因通路上的打分结果。

可选的，所述根据基因在基因通路中所起的作用，为基因通路中的各个基因分配权重系数，包括：

将对基因通路起促进作用的基因对应的权重系数设置为+1；将对基因通路起抑制作用的基因对应的权重系数设置为-1；

将对基因通路起磷酸化作用的基因对应的权重系数设置为+2；将对基因通路其去磷酸化作用的基因对应的权重系数设置为-2。

可选的，所述获得基因通路拓扑系数矩阵，包括：

根据各个基因各自对应的权重系数，利用R包KEGG基因通路图(KyotoEncyclopedia of Genes and Genomes Graph,KEGGgraph)和R语言增强图库(R LanguageBoost Graph Library,RBGL)计算基因在每条基因通路上的拓扑系数。

可选的，所述对基因做聚类处理，将共表达的基因聚类到同一组，获得多个基因共表达单元，包括：

对共表达的基因进行第一次聚类处理，以及对所述第一次聚类结果进行第二次聚类处理，获得基因共表达单元。

采用基于密度的聚类方法和/或层次聚类方法。

可选的，所述基于密度的聚类方法包括：基于密度的噪声应用空间聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)，和/或，排序点以标识集群结构算法(Ordering Points to identity the clustering structure,OPTICS)；

所述层次聚类方法包括：层次结构平衡迭代聚类算法(Balance IterativeReducing and Clustering using Hierarchies,BIRCH)。

第二方面，本申请实施例提供了一种药物新适应症的预测装置，所述装置包括：

第一获取单元，用于获取目标药物在基因通路上的打分结果，所述目标药物在基因通路上的打分结果表征所述目标药物对于所述基因通路的活化作用；

输入单元，用于将所述目标药物在所述基因通路上的打分结果输入机器学习模型，得到所述目标药物对应的适应症，所述机器学习模型根据训练药物在所述基因通路上的打分结果以及所述训练药物的已知适应症训练得到，所述训练药物为适应症已知的药物；

预测单元，用于获取所述目标药物的已知适应症，并将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症。

可选的，所述装置还包括：

第二获取单元，用于获取所述目标药物的新适应症对应的已知药物的化学结构；

比对单元，用于比对所述目标药物的化学结构和所述已知药物的化学结构，得到比对结果；

第一确定单元，用于若所述比对结果满足预设条件，则将所述目标药物确定为解决所述新适应症的药物。

可选的，所述装置还包括：

第三获取单元，用于获取所述目标药物在所述新适应症对应的基因通路上的打分结果；

第二确定单元，用于若所述目标药物在所述新适应症对应的基因通路上的打分结果大于或等于阈值，则将所述目标药物确定为解决所述新适应症的药物。

可选的，所述装置还包括：

第四获取单元，用于获取所述新适应症对应的多个药物分别在与所述新适应症对应的基因通路上的打分结果；

排序单元，用于对所述新适应症对应的多个药物分别在与所述新适应症对应的基因通路上的打分结果按照由高到低的顺序进行排序；

第三确定单元，用于若前预设数目个所述新适应症对应的药物中包括所述目标药物，则将所述目标药物确定为解决所述新适应症的药物。

可选的，所述第一获取单元，具体包括：

获取子单元，用于获取对照组药物的转录组数据和目标药物的转录组数据；

获得子单元，用于根据所述对照组药物的转录组数据和所述目标药物的转录组数据，获得转录差异表达倍数数据；

聚类子单元，用于对相关基因做聚类处理，将共表达的基因聚类到同一组，获得多个基因共表达单元；

系数分配子单元，用于获取基因通路，根据基因在所述基因通路中所起的作用，为所述基因通路中的各个基因分配权重系数，获得基因通路拓扑系数矩阵；所述基因在基因通路中所起的作用包括：促进作用、抑制作用、磷酸化作用和去磷酸化作用；

确定子单元，用于根据所述转录差异表达倍数数据、所述基因共表达单元以及所述基因通路拓扑系数矩阵，确定目标药物在每条基因通路上的打分结果。

可选的，所述系数分配子单元，具体用于：

可选的，所述获得基因通路拓扑系数矩阵，包括：

根据各个基因各自对应的权重系数，利用R包KEGG基因通路图(KyotoEncyclopedia of Genes and Genomes Graph，KEGGgraph)和R语言增强图库(R LanguageBoost Graph Library,RBGL)计算基因在每条基因通路上的拓扑系数。

可选的，所述聚类子单元，具体用于：

采用基于密度的聚类装置和/或层次聚类装置。

可选的，所述基于密度的聚类装置包括：基于密度的噪声应用空间聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)，和/或，排序点以标识集群结构算法(Ordering Points to identity the clustering structure,OPTICS)；

所述层次聚类装置包括：层次结构平衡迭代聚类算法(Balance IterativeReducing and Clustering using Hierarchies,BIRCH)。

第三方面，本申请实施例提供了一种药物新适应症的预测设备，所述药物新适应症的预测设备包括：处理器以及存储器；

所述存储器，用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器，用于调用存储器中的指令执行以上第一方面任意一项所述的药物新适应症的预测方法。

本申请实施例提供的药物新适应症的预测方法及装置，可以用于确定已有的目标药物的新疗效，具体地，可以获取目标药物在基因通路上的打分结果，所述目标药物在基因通路上的打分结果表征所述目标药物对于所述基因通路的活化作用；而后将该打分结果输入机器学习模型，得到所述目标药物对应的适应症。由于该机器学习模型是根据适应症已知的训练药物在所述基因通路上的打分结果以及所述训练药物的已知适应症训练得到的，因此，通过该机器学习模型，可以根据目标药物在基因通路上的打分结果，确定该目标药物对应的适应症。确定目标药物的适应症之后，考虑到该适应症中可能包括目标药物的已知适应症，故而将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症。由此可见，利用本申请实施例的方法，可以预测出目标药物的新适应症，即可以预测已有药物的新疗效。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种药物新适应症的预测方法的流程图；

图2为本申请实施例提供的一种药物新适应症的预测方法的流程图；

图3为本申请实施例提供的又一种确定目标药物是否为解决所述新适应症的药物的方法的流程示意图；

图4为本申请实施例提供的获取目标药物在基因通路上的打分结果的方法的流程示意图；

图5为本申请实施例提供的获取目标药物在基因通路上的打分结果的方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，新药物的研发面临研发周期长以及研发成本高的问题，对于这个问题，对已有药物进行再利用是比较好的解决方案。本申请实施例提供了一种药物新适应症的预测方法及装置，可以用于确定已有的目标药物的新疗效，具体地，可以获取目标药物在基因通路上的打分结果，所述目标药物在基因通路上的打分结果表征所述目标药物对于所述基因通路的活化作用；而后将该打分结果输入机器学习模型，得到所述目标药物对应的适应症。由于该机器学习模型是根据适应症已知的训练药物在所述基因通路上的打分结果以及所述训练药物的已知适应症训练得到的，因此，通过该机器学习模型，可以根据目标药物在基因通路上的打分结果，确定该目标药物对应的适应症。确定目标药物的适应症之后，考虑到该适应症中可能包括目标药物的已知适应症，故而将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症。由此可见，利用本申请实施例的方法，可以预测出目标药物的新适应症，即可以预测已有药物的新疗效，为已有药物的再利用提供了可能。

下面通过实施例对本申请提供的药物新适应症的预测方法进行详细介绍。

参见图1，该图为本申请实施例提供的一种药物新适应症的预测方法的流程图。

本实施例提供的药物新适应症的预测方法，可以通过如下步骤

S101-S103实现。

S101：获取目标药物再基因通路上的打分结果，所述目标药物再基因通路上的打分结果表征所述目标药物对于所述基因通路的活化作用。

需要说明的是，本申请实施例中提及的目标药物，可以是已经上市的药物，也可以为没有上市的化合物。本申请实施例不具体限定该目标药物，该目标药物例如可以为已有药物中的一个或者多个药物。

关于S101的具体实现，可以参考下文对于图4的描述部分，此处不详述。

S102：将所述目标药物在所述基因通路上的打分结果输入机器学习模型，得到所述目标药物对应的适应症。

在本申请实施例中，所述机器学习模型是根据训练药物在所述基因通路上的打分结果以及所述训练药物的已知适应症训练得到的，所述训练药物为已有的药物，并且，该训练药物的适应症是已知的。

需要说明的是，在本申请实施例中，一个药物例如目标药物或者训练药物的适应症指的是，该药物可以用于治疗的疾病。例如，药物“沙利度胺”可以用于治疗白血病和麻风病，则白血病和麻风病即为药物“沙利度胺”的适应症。

可以理解的是，一个药物可能可以治疗多种疾病，也可能仅用于治疗一种疾病，因此，在本申请实施例中，训练机器学习模型时，训练药物的适应症可以为一个，也可以为多个，本申请实施例不做具体限定。

本申请实施例不具体限定所述机器学习模型，所述机器学习模型例如可以为卷积神经网络(Convolutional Neural Networks，CNN)模型；所述机器学习模型也可以为深度神经网络(Deep Neural Networks，DNN)模型。

S103：获取所述目标药物的已知适应症，并将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症。

可以理解的是，由于该机器学习模型是根据适应症已知的训练药物在所述基因通路上的打分结果以及所述训练药物的已知适应症训练得到的，因此，通过该机器学习模型，可以根据目标药物在基因通路上的打分结果，确定该目标药物对应的适应症。而且，从理论上来讲，所确定出的目标药物对应的适应症，可能既包括该目标药物的已知适应症，也包括该目标药物的未知适应症。

因此，在本申请实施例中，可以获取所述目标药物的已知适应症，并将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症。举例说明，对于目标药物而言，通过该机器模型确定出3个与该目标药物的适应症，但是其中两个适应症是已知的，即目前已经使用目标药物治疗这两个适应症了，故而将另外一个适应症确定为目标药物的新适应症。

本申请实施例不具体限定获取目标药物的已知适应症的实现方式，作为一种示例，可以在存储有药物和药物对应的适应症的数据库(例如Mesh)词表中查询目标药物的已知适应症。

通过以上描述可知，本申请实施例提供的药物新适应症的预测方法，可以用于确定已有的目标药物的新疗效，具体地，可以获取目标药物在基因通路上的打分结果，所述目标药物在基因通路上的打分结果表征所述目标药物对于所述基因通路的活化作用；而后将该打分结果输入机器学习模型，得到所述目标药物对应的适应症。由于该机器学习模型是根据适应症已知的训练药物在所述基因通路上的打分结果以及所述训练药物的已知适应症训练得到的，因此，通过该机器学习模型，可以根据目标药物在基因通路上的打分结果，确定该目标药物对应的适应症。确定目标药物的适应症之后，考虑到该适应症中可能包括目标药物的已知适应症，故而将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症。由此可见，利用本申请实施例的方法，可以预测出目标药物的新适应症，即可以预测已有药物的新疗效。

在本申请实施例中，为了进一步确定是否可以将目标药物用于解决前述新适应症，还可以进一步对前述预测结果进行验证。以下介绍三种对目标药物用于解决前述新适应症的效果进行验证的实现方式，具体可以选择其中的一种或多种进行所述验证。

考虑到实际应用中，用于解决一个适应症的多个药物的化学结构是类似的，因此，若目标药物的化学结构，与该新适应症的已知药物的化学结构类似，则在一定程度上表示可以将目标药物用于解决前述新适应症。

鉴于此，在一种可能的实现方式中，本申请实施例提供的方法，还可以包括图2所示的步骤S201-S203。图2为本申请实施例提供的一种确定目标药物是否为解决所述新适应症的药物的方法的流程示意图。

S201：获取所述目标药物的新适应症对应的已知药物的化学结构。

在本申请实施例中，所述新适应症对应的已知药物，是指已经用于解决所述新适应症的药物。

在本申请实施例中，可以利用前述存储有药物和药物对应的适应症的数据库中，查询所述新适应症对应的已知药物，而后，确定该新适应症对应的已知药物的化学结构。一般而言，相应的药物数据库中存储有药物的化学结构，因此，可以从所述药物数据库中确定该新适应症对应的已知药物的化学结构。

需要说明的是，本申请实施例中提及的“存储有药物和药物对应的适应症的数据库”和“药物数据库”可以是同一个数据库，也可以是不同数据库，本申请实施例不做具体限定。

S202：比对所述目标药物的化学结构和所述已知药物的化学结构，得到比对结果。

在本申请实施例中，可以通过前述药物数据库确定目标药物的化学结构。

S202在具体实现时，可以采用化学指纹方法，比对所述目标药物的化学结构和所述已知药物的化学结构之间的相似性，得到比对结果。

在本申请实施例中，还可以对所述目标药物的化学结构和所述已知药物的化学结构进行相似性打分，例如利用tanimoto系数对所述目标药物的化学结构和所述已知药物的化学结构进行相似性打分，将所述打分结果作为比对结果。需要说明的是，所述打分结果为0-1之间的数，数值越大，表示相似性越高，数值越小，表示相似性越低。

S203：若所述比对结果满足预设条件，则将所述目标药物确定为解决所述新适应症的药物。

在本申请实施例中，若所述比对结果满足预设条件，可以是指所述目标药物的化学结构和所述已知药物的化学结构之间的相似性大于或者等于预设阈值。本申请实施例不具体限定所述预设阈值，所述预设阈值的具体取值可以根据实际情况确定。例如，若所述比对结果是前述tanimoto系数打分结果，所述比对结果满足预设条件，可以是指前述tanimoto系数打分结果大于或者等于0.65。

考虑到在实际应用中，若将目标药物用于解决前述新适应症，则目标药物用于解决前述新适应症的效果可以满足一定的条件。在本申请实施例的一种实现方式中，鉴于目标药物再所述新适应症对应的基因通路上的打分结果，可以体现目标药物对于所述新适应症对应的基因通路的活化作用，即可以体现目标药物用于解决前述新适应症的效果。

鉴于此，在本申请实施例的一种实现方式中，还可以通过以下步骤A-B进一步验证是否可以将目标药物用于解决前述新适应症。

步骤A：获取所述目标药物在所述新适应症对应的基因通路上的打分结果。

需要说明的是，在本申请实施例中，步骤A在具体实现时，可以首先确定所述新适应症对应的基因通路，而后从目标药物在多个基因通路的打分结果中，提取出目标药物在所述新适应症对应的基因通路上的打分结果。

本申请实施例不具体限定确定新适应症对应的基因通路的具体实现方式，作为一种示例，可以查询相应的数据库得到新适应症对应的基因通路。

步骤B：若所述目标药物在所述新适应症对应的基因通路上的打分结果大于或等于阈值，则将所述目标药物确定为解决所述新适应症的药物。

本申请实施例不具体限定所述阈值，所述阈值可以为一个经验值，例如为根据所述新适应症的对应的已知药物在所述新适应症对应的基因通路上的打分结果确定的经验值。当所述目标药物在所述新适应症对应的基因通路上的打分结果大于或等于阈值时，则可以认为目标药物解决所述新适应症的效果满足条件，故而可以将所述目标药物确定为解决所述新适应症的药物。

在本申请实施例的又一种实现方式中，可以根据解决所述新适应症对应的已知药物解决所述新适应症的效果，来确定目标药物用于解决所述新适应症的效果。具体地，可以通过图3所示的步骤，进一步确定的目标药物用于解决所述新适应症的效果。图3为本申请实施例提供的又一种确定目标药物是否为解决所述新适应症的药物的方法的流程示意图。

S301：获取所述新适应症对应的多个药物分别在与所述新适应症对应的基因通路上的打分结果。

可以理解的是，所述新适应症对应的多个药物分别在与所述新适应症对应的基因通路上的打分结果，可以表征该多个药物对于所述新适应症对应的基因通路的活化作用，即可以表征所述多个药物用于解决所述新适应症的效果。

在本申请实施例中，S301在具体实现时，可以首先确定所述新适应症对应的多个药物，而后，确定的该多个药物分别在所述新适应症对应的基因通路上的打分结果。

需要说明的是，此处提及的所述新适应症对应的多个药物，包括所述目标药物和所述新适应症对应的已知药物。

S302：对所述新适应症对应的多个药物分别在与所述新适应症对应的基因通路上的打分结果按照由高到低的顺序进行排序。

S303：若前预设数目个所述新适应症对应的药物中包括所述目标药物，则将所述目标药物确定为解决所述新适应症的药物。

关于S302和S303需要说明的是，对所述新适应症对应的多个药物分别在与所述新适应症对应的基因通路上的打分结果按照由高到低进行排序，实际上是对解决所述新适应症的多个药物按照解决所述新适应症的效果由高到低进行排序。

可以理解的是，若排序靠前的预设数目个所述新适应症对应的药物中包括所述目标药物，则表示所述目标药物用于解决所述新适应症的效果在所述多个药物中比较靠前，从而可以确定目标药物用于解决所述新适应症的效果比较好，进一步地，可以将所述目标药物确定为解决所述新适应症的药物。

本申请实施例不具体限定所述预设数目，所述预设数目的具体取值可以根据实际情况确定。

上述三种方法中，具体可以选择其中的一种或多种对目标药物用于解决前述新适应症的效果进行验证。例如，可以选择步骤S201-S203结合步骤S301-303，以使筛选出的药物具有化学结构和药理药效双重验证。

以上对本申请实施例提供的药物新适应症的预测方法进行了介绍，以下结合附图介绍前述实施例中S101“获取目标药物在基因通路上的打分结果”的具体实现。

参见图4，图4为本申请实施例提供的获取目标药物在基因通路上的打分结果的方法的流程示意图，如图4所示，该方法包括以下步骤：

S401：获取对照组药物的转录组数据和目标药物的转录组数据。

其中，对照组药物的转录组数据是指未受到化合物(如安慰剂)作用的转录组数据；目标药物的转录组数据是指受化合物作用的转录组数据，不同的目标药物的转录组数据可能对应不同的化合物剂量，和/或对应不同的化合物种类，和/或不同的给药时间，即在实验过程中，可以采用不同种类相同剂量的化合物进行实验，也可以采用相同种类不同剂量的化合物进行实验，还可以采用不同种类不同剂量的化合物进行实验，进而针对每次实验相应地生成一组对应的转录组数据。此外，还可以在上述实验条件的基础上，增加变量给药间隔进行实验生成转录组数据，在此不对转录组数据的生成条件做任何限定。

在实际应用中，可以根据实际需求，获取一组或多组对照组药物的转录组数据，并相应地获取一组或多组目标药物的转录组数据。具体获取时，可以通过实验获取上述对照组药物的转录组数据和目标药物的转录组数据，也可以在线或离线从转录组数据集中获取上述对照组药物的转录组数据和目标药物的转录组数据，在此不对获取对照组药物的转录组数据和目标药物的转录组数据的实现方式做具体限定。

在实际应用中，所获取的对照组药物的转录组数据和目标药物的转录组数据，具体如表1所示：

表1

其中，目标药物1、目标药物2两列数据均为目标药物的转录组数据，正常组1、正常组2这两列数据均为相应的对照组药物的转录组数据。

S402：根据所述对照组药物的转录组数据和所述目标药物的转录组数据，获得转录差异表达倍数数据。

获取到对照组药物的转录组数据和目标药物的转录组数据后，可以先对所获取的各转录组数据进行初步处理，进而，计算目标药物的转录组数据相对于对照组药物的转录组数据的转录差异表达倍数数据。

目前已有很多较为成熟的计算转录差异表达倍数数据的方式，具体应用时，可以根据实际需求相应地选取合适的计算方式，根据对照组药物的转录组数据和目标药物的转录组数据，确定转录差异表达倍数数据，在此不对计算转录差异表达倍数数据的方式做具体限定。

S403：对相关基因做聚类处理，将共表达的基因聚类到同一组，获得多个基因共表达单元。

接下来，对对照组药物的转录组数据和目标药物的转录组数据中的相关基因进行聚类处理，此处的相关基因具体是指在化合物作用下，其表达量会发生一定变化的基因；进而，将相关基因中受控于同一表达因子，和/或表现出显著的协同表达的一系列基因聚类到同一组，这些基因即为共表达的基因，通过对共表达的基因进行聚类得到基因共表达单元。依据协同作用，获得多个基因共表达单元。

具体对共表达的基因做聚类处理时，可以直接对共表达的基因做一次聚类处理，得到相应的基因共表达单元；当然为了保证聚类的效果更好，也可以对共表达的基因做两次聚类处理，即对共表达的基因进行第一次聚类处理，并对第一次聚类结果再进行第二次聚类处理，得到基因共表达单元。

需要说明的是，对共表达的基因做聚类处理时，可以采用基于密度的聚类方法和/或层次聚类方法；具体的，基于密度的聚类方法包括：基于密度的噪声应用空间聚类算法(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)、排序点以标识集群结构算法(Ordering Points to identity the clustering structure，OPTICS)；层次聚类方法包括：层次结构平衡迭代聚类算法(Balance Iterative Reducingand Clustering using Hierarchies，BIRCH)。

当对共表达的基因仅做一次聚类处理时，可以采用上述任意一种聚类方法对共表达的基因进行聚类，得到基因共表达单元；当对共表达的基因做多次聚类处理时，可以仅采用上述任意一种聚类方法进行多次聚类，得到基因共表达单元，也可以将上述任意多种聚类方法组合起来，对共表达的基因进行聚类得到基因共表达单元，例如，采用基于密度的聚类方法对共表达的基因做第一次聚类处理，进而再采用层次聚类方法对第一次聚类处理结果进行第二次聚类处理，得到基因共表达单元。

下面以对共表达的基因做两次聚类处理为例，对生成基因共表达单元的过程进行介绍：

具体的，可以先采用基于密度的聚类方法OPTICS对共表达的基因做第一次聚类处理，OPTICS方法无需手动输入领域半径和领域最小点数这两个参数，且聚类得到的类簇结果对领域半径和领域最小点数敏感度较低。得到第一次聚类结果后，确定第一次聚类结果中各个基因之间的相似度，并从中筛选出相似度高于预设阈值的基因用作第二次聚类处理，例如，只保留相似度高于0.3、0.4、0.5、0.6、0.7的基因，进一步地，只保留相似度高于0.5的基因。

然后，采用层次聚类方法BIRCH对第一次聚类结果进行第二次聚类处理，生成基因共表达单元，BIRCH适用于大规模的数据集，其在处理大规模数据时具有较高的聚类效率，且能够在任何给定内存下正常运行。

通过这两种聚类方法的有效组合，能够在较短的时间内，以少量的计算资源获得准确的基因共表达单元。

S404：获取基因通路，根据基因在所述基因通路中所起的作用，为所述基因通路中的各个基因分配权重系数，获得基因通路拓扑系数矩阵；所述基因在基因通路中所起的作用包括：促进作用、抑制作用、磷酸化作用和去磷酸化作用。

从基因通路数据库(如KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库、Reactome数据库等)中获取基因通路，根据各个基因在基因通路中所起的作用，相应地为基因通路中的各个基因分配权重系数；进而，根据各个基因各自对应的权重系数，相应地计算各个基因在每条基因通路上的拓扑系数，并确定基因通路拓扑系数矩阵。

需要说明的是，为各个基因分配权重系数时，主要参考的基因在基因通路中所起的作用包括：促进作用、抑制作用、磷酸化作用和去磷酸化作用。

具体的，若基因对基因通路起促进作用，则可以相应地将该基因对应的权重系数设置为+1；若基因对基因通路起抑制作用，则可以相应地将该基因对应的权重系数设置为-1；考虑到磷酸基团的添加或去除对很多反应起生物“开关”的作用，即磷酸化和去磷酸化过程在生物学中起着“开关”作用，相应地，若基因对基因通路起磷酸化作用，则可以相应地将该基因对应的权重系数设置为+2；若基因对基因通路起去磷酸化作用，则可以相应地将该基因对应的权重系数设置为-2。

应理解，在实际应用中，可以根据实际需求考虑基因对基因通路起到的促进作用、抑制作用、磷酸化作用和去磷酸化作用，并为其设置对应的权重系数，即可以相应地将权重系数设置为本领域常用的其他数值，在此不对所设置的权重系数的具体数值做任何限定。

考虑基因在基因通路中所起的作用，为基因通路中各个基因相应地分配完权重系数后；可以进一步根据各个基因各自对应的权重系数，利用R包KEGG基因通路图(KEGGgraph)和R语言增强图库(R Boost Graph Library，RBGL)计算各个基因在每条基因通路上的拓扑系数，进而，利用计算得到的拓扑系数组成基因通路拓扑系数矩阵。

所获得的基因通路拓扑系数矩阵具体表现如表2所示：

表2

需要说明的是，在实际应用中，S402、S403和S404的执行顺序并不局限于上文所描述的顺序，具体实现时，可以先执行S402，也可以先执行S403，还可以先执行S404，还可以同时执行S402、S403和S404，在此不对S402、S403和S404的执行顺序做具体限定。

S405：根据所述转录差异表达倍数数据、所述基因共表达单元以及所述基因通路拓扑系数矩阵，确定化合物在每条基因通路上的打分结果；所述打分结果用于评价该化合物对于所述基因通路的活化作用。

获得转录差异表达倍数数据、基因共表达单元以及基因通路拓扑系数矩阵后，可以根据所获得的转录差异表达倍数数据、基因共表达单元以及基因通路拓扑系数矩阵，采用IPANDA方法计算化合物在每条基因通路上的打分结果，该打分结果用于评价化合物对基因通路所起的活化作用。

最终具体所确定的化合物在每条基因通路上的打分结果，如表3所示：

表3

基因通路	目标药物1	目标药物2
			Rap1_signaling_Main_Pathway	-0.622737634	-0.619785569
VEGF_signaling_Main_Pathway	-0.316897711	-0.235690687
			Ras_signaling_Main_Pathway	-1.218444012	-1.072584992
Tryptophan_metabolism_Main_Pathway	-0.028747661	-0.108538395
			TNF_signaling_Main_Pathway	-0.232548389	-0.182675885
PI3K_Akt_signaling_Main_Pathway	-0.377465567	-0.220240466
			AMPK_signaling_Main_Pathway	-0.057748743	0.083952757
Apoptosis_Main_Pathway	0.227476786	0.277298624
			TGF_beta_signaling_Main_Pathway	-0.6715697	-0.813821004

其中，正值数据代表化合物对相应的基因通路具有促进作用，负值数据代表化合物对相应的基因通路具有抑制作用，数值的绝对值越大则表示作用越强。

应理解，在实际应用中，需要根据每个目标药物的转录组数据，相应地确定该目标药物对应的打分结果，即确定该目标药物所使用的化合物种类、化合物剂量和/或化合物作用时间，对基因通路所起的活化作用。

由此可见，在本申请实施例中，在确定基因通路拓扑系数矩阵的过程中，综合考虑基因在基因通路中所起的促进作用、抑制作用、磷酸化作用和去磷酸化作用，即在确定基因通路拓扑系数矩阵的过程中对基因在基因通路中所起的作用进行准确评估，进而，保证后续基于转录差异表达倍数数据、基因共表达单元以及基因通路拓扑系数矩阵确定出的化合物在基因通路上的打分结果，能够更准确地表征化合物对基因通路所起的活化作用。

基于以上实施例提供的一种药物新适应症的预测方法，本申请实施例还提供了一种药物新适应症的预测装置，下面结合附图来详细说明其工作原理。

参见图5，该图为本申请实施例提供的一种药物新适应症的预测装置的结构示意图。本申请实施例提供的药物新适应症的预测装置500，可以包括第一获取单元510、输入单元520和预测单元530。

第一获取单元510，用于获取目标药物在基因通路上的打分结果，所述目标药物在基因通路上的打分结果表征所述目标药物对于所述基因通路的活化作用；

输入单元520，用于将所述目标药物在所述基因通路上的打分结果输入机器学习模型，得到所述目标药物对应的适应症，所述机器学习模型根据训练药物在所述基因通路上的打分结果以及所述训练药物的已知适应症训练得到，所述训练药物为适应症已知的药物；

预测单元530，用于获取所述目标药物的已知适应症，并将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症。

可选的，所述装置500还包括：

可选的，所述第一获取单元，具体包括：

可选的，所述系数分配子单元，具体用于：

可选的，所述获得基因通路拓扑系数矩阵，包括：

可选的，所述聚类子单元，具体用于：

采用基于密度的聚类装置和/或层次聚类装置。

由于所述装置500是与以上方法实施例提供的药物新适应症的预测方法对应的装置，所述装置500的各个单元的具体实现，均与以上方法实施例为同一构思，因此，关于所述装置500的各个单元的具体实现，可以参考以上方法实施例的描述部分，此处不再赘述。

通过以上描述可知，本申请实施例提供的药物新适应症的预测装置，可以用于确定已有的目标药物的新疗效，具体地，可以获取目标药物在基因通路上的打分结果，所述目标药物在基因通路上的打分结果表征所述目标药物对于所述基因通路的活化作用；而后将该打分结果输入机器学习模型，得到所述目标药物对应的适应症。由于该机器学习模型是根据适应症已知的训练药物在所述基因通路上的打分结果以及所述训练药物的已知适应症训练得到的，因此，通过该机器学习模型，可以根据目标药物在基因通路上的打分结果，确定该目标药物对应的适应症。确定目标药物的适应症之后，考虑到该适应症中可能包括目标药物的已知适应症，故而将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症。由此可见，利用本申请实施例的方法，可以预测出目标药物的新适应症，即可以预测已有药物的新疗效。

本申请实施例还提供了一种药物新适应症的预测设备，所述药物新适应症的预测设备包括：处理器以及存储器；

所述处理器，用于调用存储器中的指令执行以上方法实施例提供的药物新适应症的预测方法。

当介绍本申请的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种药物新适应症的预测方法，其特征在于，所述方法包括：

获取所述目标药物的已知适应症，并将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症；

所述获取目标药物在基因通路上的打分结果包括：

获取对照组药物的转录组数据和目标药物的转录组数据；

对相关基因做聚类处理，将共表达的基因聚类到同一组，获得多个基因共表达单元，其中，所述相关基因为在化合物作用下，其表达量会发生一定变化的基因；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标药物的新适应症对应的已知药物的化学结构；

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据基因在基因通路中所起的作用，为基因通路中的各个基因分配权重系数，包括：

6.根据权利要求1或5所述的方法，其特征在于，所述获得基因通路拓扑系数矩阵，包括：

根据各个基因各自对应的权重系数，利用R包KEGGgraph和RBGL计算基因在每条基因通路上的拓扑系数。

7.根据权利要求1所述的方法，其特征在于，所述对相关基因做聚类处理，将共表达的基因聚类到同一组，获得多个基因共表达单元，包括：

8.根据权利要求1所述的方法，其特征在于，所述对相关基因做聚类处理，将共表达的基因聚类到同一组，获得多个基因共表达单元，包括：

采用基于密度的聚类方法和/或层次聚类方法。

9.根据权利要求8所述的方法，其特征在于，所述基于密度的聚类方法包括：DBSCAN，和/或OPTICS；

所述层次聚类方法包括：BIRCH。

10.一种药物新适应症的预测装置，其特征在于，所述装置包括：

预测单元，用于获取所述目标药物的已知适应症，并将所述目标药物对应的适应症中除所述目标药物的已知适应症之外的适应症，预测为所述目标药物的新适应症；

所述第一获取单元，具体包括：

聚类子单元，用于对相关基因做聚类处理，将共表达的基因聚类到同一组，获得多个基因共表达单元，其中，所述相关基因为在化合物作用下，其表达量会发生一定变化的基因；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.根据权利要求10或11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求10或11所述的装置，其特征在于，所述装置还包括：

14.根据权利要求10所述的装置，其特征在于，所述系数分配子单元，具体用于：

15.根据权利要求10或14所述的装置，其特征在于，所述获得基因通路拓扑系数矩阵，包括：

16.根据权利要求10所述的装置，其特征在于，所述聚类子单元，具体用于：

17.根据权利要求10所述的装置，其特征在于，所述聚类子单元，具体用于：

采用基于密度的聚类装置和/或层次聚类装置。

18.根据权利要求17所述的装置，其特征在于，所述基于密度的聚类装置包括：DBSCAN，和/或，OPTICS；

所述层次聚类装置包括：BIRCH。

19.一种药物新适应症的预测设备，其特征在于，所述药物新适应症的预测设备包括：处理器以及存储器；

所述处理器，用于调用存储器中的指令执行权利要求1-9任意一项所述的药物新适应症的预测方法。