CN109801676B - 一种用于评价化合物对基因通路活化作用的方法及装置 - Google Patents

一种用于评价化合物对基因通路活化作用的方法及装置 Download PDF

Info

Publication number
CN109801676B
CN109801676B CN201910142574.5A CN201910142574A CN109801676B CN 109801676 B CN109801676 B CN 109801676B CN 201910142574 A CN201910142574 A CN 201910142574A CN 109801676 B CN109801676 B CN 109801676B
Authority
CN
China
Prior art keywords
gene
compound
pathway
clustering
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910142574.5A
Other languages
English (en)
Other versions
CN109801676A (zh
Inventor
戴蝉
李瑛颖
管峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Deep Intelligent Pharma Technology Co ltd
Original Assignee
Beijing Deep Intelligent Pharma Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Deep Intelligent Pharma Technology Co ltd filed Critical Beijing Deep Intelligent Pharma Technology Co ltd
Priority to CN201910142574.5A priority Critical patent/CN109801676B/zh
Publication of CN109801676A publication Critical patent/CN109801676A/zh
Application granted granted Critical
Publication of CN109801676B publication Critical patent/CN109801676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请公开了一种用于评价化合物对基因通路活化作用的方法,包括:获取对照组的转录组数据和化合物研究组的转录组数据;根据对照组的转录组数据和化合物研究组的转录组数据,确定转录差异表达倍数数据;对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元;获取基因通路,根据基因在基因通路中所起的促进作用、抑制作用、磷酸化作用和去磷酸化作用,相应地为基因通路中的各个基因分配其对应的权重系数,进而确定基因通路拓扑系数矩阵;根据转录差异表达倍数、基因共表达单元以及基因通路拓扑系数矩阵,确定用于评价化合物对于基因通路的活化作用的打分结果。

Description

一种用于评价化合物对基因通路活化作用的方法及装置
技术领域
本申请涉及生物信息技术领域,尤其涉及一种用于评价化合物对基因通路活化作用的方法及装置。
背景技术
在过去的几十年中,随着基因工程的出现,许多研究和资金被投入到基因组学和基于基因的个性化医学中。随着深度学习和机器学习算法的广泛应用,对大规模转录组数据进行有效地运用,在对传统的疾病分类、个性化医学和预后模型等方面均产生了很大程度的优化。
然而,这些经典的临床应用目前仍受限于若干公认的挑战和限制,首先,转录组数据分析中最相关的挑战之一是基因网络相互作用的固有复杂性,这仍然是从转录组数据构建综合预测模型的重大障碍;此外,实验平台的高度多样性、难以理解所获得的值以及来自各种类型设备的数据的不一致性,也可能导致对潜在生物过程的错误解释。
尽管存在这些挑战,各种转录组数据分析算法仍在学术和商业中迅猛发展,部分算法目前已尝试应用于临床,尤其是用于预测患者对各种癌症治疗的反应,这些方法具体通过识别不同样本组之间差异表达的基因,预测各种癌症治疗的反应,上述方法虽然可以对研究过程中潜在的遗传生物标记和表达特征模式进行识别,但是很难捕获因在信号网络水平上基因之间的动态相互作用而产生的样本间的细微差别。
2016年开发的IPANDA方法结合了基因通路,在很大程度上降低生物学的数据维度,但是其对基因在基因通路上所起的作用评估不够精准。
发明内容
本申请实施例提供了一种用于评价化合物对基因通路活化作用的方法,能够在降低生物学数据维度的同时,精准地评价化合物对于基因通路的活化作用。
有鉴于此,本申请第一方面提供了一种用于评价化合物对基因通路活化作用的方法,所述方法包括:
获取对照组的转录组数据和化合物研究组的转录组数据;
根据所述对照组的转录组数据和所述化合物研究组的转录组数据,获得转录差异表达倍数数据;
对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元;
获取基因通路,根据基因在所述基因通路中所起的作用,为所述基因通路中的各个基因分配权重系数,获得基因通路拓扑系数矩阵;所述基因在基因通路中所起的作用包括:促进作用、抑制作用、磷酸化作用和去磷酸化作用;
根据所述转录差异表达倍数数据、所述基因共表达单元以及所述基因通路拓扑系数矩阵,确定化合物在每条基因通路上的打分结果;所述打分结果用于评价该化合物对于所述基因通路的活化作用。
可选的,所述根据基因在基因通路中所起的作用,为基因通路中的各个基因分配权重系数,包括:
将对基因通路起促进作用的基因对应的权重系数设置为+1;将对基因通路起抑制作用的基因对应的权重系数设置为-1;
将对基因通路起磷酸化作用的基因对应的权重系数设置为+2;将对基因通路其去磷酸化作用的基因对应的权重系数设置为-2。
可选的,所述获得基因通路拓扑系数矩阵,包括:
根据各个基因各自对应的权重系数,利用R包KEGGgraph和RBGL计算基因在每条基因通路上的拓扑系数。
可选的,所述对基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元,包括:
对共表达的基因进行第一次聚类处理,以及对所述第一次聚类结果进行第二次聚类处理,获得基因共表达单元。
可选的,所述对基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元,包括:
采用基于密度的聚类方法和/或层次聚类方法。
可选的,所述基于密度的聚类方法包括:DBSCAN、OPTICS;
所述层次聚类方法包括:BIRCH。
本申请第二方面提供了一种用于评价化合物对基因通路活化作用的装置,所述装置包括:
转录组数据获取模块,用于获取对照组的转录组数据和化合物研究组的转录组数据;
转录差异表达倍数数据获取模块,用于根据所述对照组的转录组数据和所述化合物研究组的转录组数据,获得转录差异表达倍数数据;
基因共表达单元获取模块,用于对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元;
基因通路拓扑系数矩阵获取模块,用于获取基因通路,根据基因在所述基因通路中所起的作用,为所述基因通路中的各个基因分配权重系数,获得基因通路拓扑系数矩阵;所述基因在基因通路中所起的作用包括:促进作用、抑制作用、磷酸化作用和去磷酸化作用;
打分模块,用于根据所述转录差异表达倍数数据、所述基因共表达单元以及所述基因通路拓扑系数矩阵,确定化合物在每条基因通路上的打分结果;所述打分结果用于评价该化合物对于所述基因通路的活化作用。
可选的,所述基因通路拓扑系数矩阵获取模块,具体用于:
将对基因通路起促进作用的基因对应的权重系数设置为+1;将对基因通路起抑制作用的基因对应的权重系数设置为-1;
将对基因通路起磷酸化作用的基因对应的权重系数设置为+2;将对基因通路其去磷酸化作用的基因对应的权重系数设置为-2。
可选的,所述基因通路拓扑系数矩阵获取模块,具体用于:
根据各个基因各自对应的权重系数,利用R包KEGGgraph和RBGL计算基因在每条基因通路上的拓扑系数。
可选的,所述基因共表达单元获取模块,具体用于:
对共表达的基因进行第一次聚类处理,以及对所述第一次聚类结果进行第二次聚类处理,获得基因共表达单元。
可选的,所述基因共表达单元获取模块,具体用于:
采用基于密度的聚类方法和/或层次聚类方法。
可选的,所述基于密度的聚类方法包括:DBSCAN、OPTICS;
所述层次聚类方法包括:BIRCH。
本申请第三方面提供了一种用于评价化合物对基因通路活化作用的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行如上述第一方面所述的用于评价化合物对基因通路活化作用的方法的步骤。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面所述的用于评价化合物对基因通路活化作用的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种用于评价化合物对基因通路活化作用的方法,在该方法中,先获取对照组的转录组数据和化合物研究组的转录组数据;然后,根据对照组的转录组数据和化合物研究组的转录组数据,确定转录差异表达倍数数据;对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元;获取基因通路,根据基因在基因通路中所起的促进作用、抑制作用、磷酸化作用和去磷酸化作用,相应地为基因通路中的各个基因分配其对应的权重系数,进而确定基因通路拓扑系数矩阵;最终,根据转录差异表达倍数、基因共表达单元以及基因通路拓扑系数矩阵,采用IPANDA方法确定化合物在每条基因通路上的打分结果,该打分结果能够评价化合物对于基因通路的活化作用。在确定基因通路拓扑系数矩阵的过程中,综合考虑基因的促进作用、抑制作用、磷酸化作用和去磷酸化作用,保证准确评估各个基因在基因通路上所起的作用,进而保证后续基于该基因通路拓扑系数矩阵确定出的打分结果,能够更准确地表征化合物对于基因通路起到的活化作用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的用于评价化合物对基因通路活化作用的方法的流程示意图;
图2为本申请实施例提供的用于评价化合物对基因通路活化作用的装置的结构示意图;
图3为本申请实施例提供的用于评价化合物对基因通路活化作用的设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有技术中,采用IPANDA方法对化合物的活化作用进行评估时,往往会因无法对基因在基因通路上所起的作用进行准确评估,而导致最终确定的活化作用评估结果准确度较低。
为了解决上述现有技术存在的技术问题,本申请实施例提供了一种用于评估化合物对基因通路活化作用的方法,该方法在保证降低生物学数据维度的同时,能够对化合物对基因通路所起的活化作用进行准确评估。
具体的,在本申请实施例提供的用于评价化合物对基因通路活化作用的方法中,先获取对照组的转录组数据和化合物研究组的转录组数据;然后,根据所获取的对照组的转录组数据和化合物研究组的转录组数据,计算转录差异表达倍数数据;接着,对相关基因做聚类处理,将共表达的基因聚类至同一组,从而获得多个基因共表达单元;进而,获取基因通路,根据各基因在该基因通路中所起的促进作用、抑制作用、磷酸化作用或去磷酸化作用,相应地为基因通路中各个基因分配权重系数,并基于基因通路中各个基因各自对应的权重系数,确定基因通路拓扑系数矩阵;最终,根据上述转录差异表达倍数数据、基因共表达单元以及基因通路拓扑系数矩阵,相应地确定化合物在每条基因通路上的打分结果,该打分结果能够用于评价化合物对于基因通路所起的活化作用。
上述用于评价化合物对基因通路活化作用的方法,在确定基因通路拓扑系数矩阵的过程中,综合考虑基因在基因通路中所起的促进作用、抑制作用、磷酸化作用和去磷酸化作用,即在确定基因通路拓扑系数矩阵的过程中对基因在基因通路中所起的作用进行准确评估,进而,保证后续基于转录差异表达倍数数据、基因共表达单元以及基因通路拓扑系数矩阵确定出的化合物在基因通路上的打分结果,能够更准确地表征化合物对基因通路所起的活化作用。
下面通过实施例对本申请提供的用于评价化合物对基因通路活化作用的方法进行详细介绍:
参见图1,图1为本申请实施例提供的用于评价化合物对基因通路活化作用的方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤101:获取对照组的转录组数据和化合物研究组的转录组数据。
其中,对照组的转录组数据是指未受到化合物作用的转录组数据;化合物研究组的转录组数据是指受化合物作用的转录组数据,不同的化合物研究组的转录组数据可能对应不同的化合物剂量,和/或对应不同的化合物种类,和/或不同的给药时间,即在实验过程中,可以采用不同种类相同剂量的化合物进行实验,也可以采用相同种类不同剂量的化合物进行实验,还可以采用不同种类不同剂量的化合物进行实验,进而针对每次实验相应地生成一组对应的转录组数据。此外,还可以在上述实验条件的基础上,增加变量给药间隔进行实验生成转录组数据,在此不对转录组数据的生成条件做任何限定。
在实际应用中,可以根据实际需求,获取一组或多组对照组的转录组数据,并相应地获取一组或多组化合物研究组的转录组数据。具体获取时,可以通过实验获取上述对照组的转录组数据和化合物研究组的转录组数据,也可以在线或离线从转录组数据集中获取上述对照组的转录组数据和化合物研究组的转录组数据,在此不对获取对照组的转录组数据和化合物研究组的转录组数据的实现方式做具体限定。
在实际应用中,所获取的对照组的转录组数据和化合物研究组的转录组数据,具体如表1所示:
表1
基因 化合物研究组1 化合物研究组2 正常组1 正常组2
TSPAN6 737.88411 789.4028003 734.65068 774.0787405
TNMD 0 0 0 0
DPM1 685.1781021 659.2014157 607.2866174 648.4525964
SCYL3 177.2012333 181.1893394 179.9709581 173.6596697
C1orf112 364.3984336 385.1411586 379.3234039 345.4718961
FGR 0 0 0 0
CFH 79.96773606 62.82444432 90.44694302 79.44006167
FUCA2 1105.917441 1074.389048 1091.823812 978.2212245
GCLC 3505.858247 3347.905533 3424.062843 3341.101198
NFYA 603.3929175 656.4699182 674.6603607 706.6470602
STPG1 146.304608 150.2323668 168.8958222 165.3461749
NIPAL3 245.3555538 295.9122377 275.955469 247.5574015
其中,化合物研究组1、化合物研究组2两列数据均为化合物研究组的转录组数据,正常组1、正常组2这两列数据均为相应的对照组的转录组数据。
步骤102:根据所述对照组的转录组数据和所述化合物研究组的转录组数据,获得转录差异表达倍数数据。
获取到对照组的转录组数据和化合物研究组的转录组数据后,可以先对所获取的各转录组数据进行初步处理,进而,计算化合物研究组的转录组数据相对于对照组的转录组数据的转录差异表达倍数数据。
目前已有很多较为成熟的计算转录差异表达倍数数据的方式,具体应用时,可以根据实际需求相应地选取合适的计算方式,根据对照组的转录组数据和化合物研究组的转录组数据,确定转录差异表达倍数数据,在此不对计算转录差异表达倍数数据的方式做具体限定。
步骤103:对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元。
接下来,对对照组的转录组数据和化合物研究组的转录组数据中的相关基因进行聚类处理,此处的相关基因具体是指在化合物作用下,其表达量会发生一定变化的基因-;进而,将相关基因中受控于同一表达因子,和/或表现出显著的协同表达的一系列基因聚类到同一组,这些基因即为共表达的基因,通过对共表达的基因进行聚类得到基因共表达单元。依据协同作用,获得多个基因共表达单元。
具体对共表达的基因做聚类处理时,可以直接对共表达的基因做一次聚类处理,得到相应的基因共表达单元;当然为了保证聚类的效果更好,也可以对共表达的基因做两次聚类处理,即对共表达的基因进行第一次聚类处理,并对第一次聚类结果再进行第二次聚类处理,得到基因共表达单元。
需要说明的是,对共表达的基因做聚类处理时,可以采用基于密度的聚类方法和/或层次聚类方法;具体的,基于密度的聚类方法包括:DBSCAN(Density-Based SpatialClustering of Applications with Noise)、OPTICS(Ordering Points to identity theclustering structure);层次聚类方法包括:BIRCH(Balance Iterative Reducing andClustering using Hierarchies)。
当对共表达的基因仅做一次聚类处理时,可以采用上述任意一种聚类方法对共表达的基因进行聚类,得到基因共表达单元;当对共表达的基因做多次聚类处理时,可以仅采用上述任意一种聚类方法进行多次聚类,得到基因共表达单元,也可以将上述任意多种聚类方法组合起来,对共表达的基因进行聚类得到基因共表达单元,例如,采用基于密度的聚类方法对共表达的基因做第一次聚类处理,进而再采用层次聚类方法对第一次聚类处理结果进行第二次聚类处理,得到基因共表达单元。
下面以对共表达的基因做两次聚类处理为例,对生成基因共表达单元的过程进行介绍:
具体的,可以先采用基于密度的聚类方法OPTICS对共表达的基因做第一次聚类处理,OPTICS方法无需手动输入领域半径和领域最小点数这两个参数,且聚类得到的类簇结果对领域半径和领域最小点数敏感度较低。得到第一次聚类结果后,确定第一次聚类结果中各个基因之间的相似度,并从中筛选出相似度高于预设阈值的基因用作第二次聚类处理,例如,只保留相似度高于0.3、0.4、0.5、0.6、0.7的基因,进一步地,只保留相似度高于0.5的基因。
然后,采用层次聚类方法BIRCH对第一次聚类结果进行第二次聚类处理,生成基因共表达单元,BIRCH适用于大规模的数据集,其在处理大规模数据时具有较高的聚类效率,且能够在任何给定内存下正常运行。
通过这两种聚类方法的有效组合,能够在较短的时间内,以少量的计算资源获得准确的基因共表达单元。
步骤104:获取基因通路,根据基因在所述基因通路中所起的作用,为所述基因通路中的各个基因分配权重系数,获得基因通路拓扑系数矩阵;所述基因在基因通路中所起的作用包括:促进作用、抑制作用、磷酸化作用和去磷酸化作用。
从基因通路数据库如KEGG(Kyoto Encyclopedia of Genes and Genomes)中获取基因通路,根据各个基因在基因通路中所起的作用,相应地为基因通路中的各个基因分配权重系数;进而,根据各个基因各自对应的权重系数,相应地计算各个基因在每条基因通路上的拓扑系数,并确定基因通路拓扑系数矩阵。
需要说明的是,为各个基因分配权重系数时,主要参考的基因在基因通路中所起的作用包括:促进作用、抑制作用、磷酸化作用和去磷酸化作用。
具体的,若基因对基因通路起促进作用,则可以相应地将该基因对应的权重系数设置为+1;若基因对基因通路起抑制作用,则可以相应地将该基因对应的权重系数设置为-1;考虑到磷酸基团的添加或去除对很多反应起生物“开关”的作用,即磷酸化和去磷酸化过程在生物学中起着“开关”作用,相应地,若基因对基因通路起磷酸化作用,则可以相应地将该基因对应的权重系数设置为+2;若基因对基因通路起去磷酸化作用,则可以相应地将该基因对应的权重系数设置为-2。
应理解,在实际应用中,可以根据实际需求考虑基因对基因通路起到的促进作用、抑制作用、磷酸化作用和去磷酸化作用,并为其设置对应的权重系数,即可以相应地将权重系数设置为本领域常用的其他数值,在此不对所设置的权重系数的具体数值做任何限定。
考虑基因在基因通路中所起的作用,为基因通路中各个基因相应地分配完权重系数后;可以进一步根据各个基因各自对应的权重系数,利用R包KEGGgraph和RBGL计算各个基因在每条基因通路上的拓扑系数,进而,利用计算得到的拓扑系数组成基因通路拓扑系数矩阵。
所获得的基因通路拓扑系数矩阵具体表现如表2所示:
表2
Figure BDA0001979010770000101
Figure BDA0001979010770000111
需要说明的是,在实际应用中,步骤102、步骤103和步骤104的执行顺序并不局限于上文所描述的顺序,具体实现时,可以先执行步骤102,也可以先执行步骤103,还可以先执行步骤104,还可以同时执行步骤102、步骤103和步骤104,在此不对步骤102、步骤103和步骤104的执行顺序做具体限定。
步骤105:根据所述转录差异表达倍数数据、所述基因共表达单元以及所述基因通路拓扑系数矩阵,确定化合物在每条基因通路上的打分结果;所述打分结果用于评价该化合物对于所述基因通路的活化作用。
获得转录差异表达倍数数据、基因共表达单元以及基因通路拓扑系数矩阵后,可以根据所获得的转录差异表达倍数数据、基因共表达单元以及基因通路拓扑系数矩阵,采用IPANDA方法计算化合物在每条基因通路上的打分结果,该打分结果用于评价化合物对基因通路所起的活化作用。
最终具体所确定的化合物在每条基因通路上的打分结果,如表3所示:
表3
Figure BDA0001979010770000112
Figure BDA0001979010770000121
其中,正值数据代表化合物对相应的基因通路具有强化作用,负值数据代表化合物对相应的基因通路具有弱化作用,数值的绝对值越大则表示作用越强。
应理解,在实际应用中,需要根据每个化合物研究组的转录组数据,相应地确定该化合物研究组对应的打分结果,即确定该化合物研究组所使用的化合物种类、化合物剂量和/或化合物作用时间,对基因通路所起的活化作用。
本申请实施例提供的用于评价化合物对基因通路活化作用的方法,在确定基因通路拓扑系数矩阵的过程中,综合考虑基因在基因通路中所起的促进作用、抑制作用、磷酸化作用和去磷酸化作用,即在确定基因通路拓扑系数矩阵的过程中对基因在基因通路中所起的作用进行准确评估,进而,保证后续基于转录差异表达倍数数据、基因共表达单元以及基因通路拓扑系数矩阵确定出的化合物在基因通路上的打分结果,能够更准确地表征化合物对基因通路所起的活化作用。
针对上文所述的用于评价化合物对基因通路活化作用的方法,本申请实施例还相应地提供了用于评价化合物对基因通路活化作用的装置。
参见图2,图2为本申请实施例提供的用于评价化合物对基因通路活化作用的装置的结构示意图,如图2所示,该装置包括:
转录组数据获取模块201,用于获取对照组的转录组数据和化合物研究组的转录组数据;
转录差异表达倍数数据获取模块202,用于根据所述对照组的转录组数据和所述化合物研究组的转录组数据,获得转录差异表达倍数数据;
基因共表达单元获取模块203,用于对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元;
基因通路拓扑系数矩阵获取模块204,用于获取基因通路,根据基因在所述基因通路中所起的作用,为所述基因通路中的各个基因分配权重系数,获得基因通路拓扑系数矩阵;所述基因在基因通路中所起的作用包括:促进作用、抑制作用、磷酸化作用和去磷酸化作用;
打分模块205,用于根据所述转录差异表达倍数数据、所述基因共表达单元以及所述基因通路拓扑系数矩阵,确定化合物在每条基因通路上的打分结果;所述打分结果用于评价该化合物对于所述基因通路的活化作用。
可选的,所述基因通路拓扑系数矩阵获取模块204,具体用于:
将对基因通路起促进作用的基因对应的权重系数设置为+1;将对基因通路起抑制作用的基因对应的权重系数设置为-1;
将对基因通路起磷酸化作用的基因对应的权重系数设置为+2;将对基因通路其去磷酸化作用的基因对应的权重系数设置为-2。
可选的,所述基因通路拓扑系数矩阵获取模块204,具体用于:
根据各个基因各自对应的权重系数,利用R包KEGGgraph和RBGL计算基因在每条基因通路上的拓扑系数。
可选的,所述基因共表达单元获取模块203,具体用于:
对共表达的基因进行第一次聚类处理,以及对所述第一次聚类结果进行第二次聚类处理,获得基因共表达单元。
可选的,所述基因共表达单元获取模块203,具体用于:
采用基于密度的聚类方法和/或层次聚类方法。
可选的,所述基于密度的聚类方法包括:DBSCAN、OPTICS;
所述层次聚类方法包括:BIRCH。
本申请实施例提供的用于评价化合物对基因通路活化作用的装置,在确定基因通路拓扑系数矩阵的过程中,综合考虑基因在基因通路中所起的促进作用、抑制作用、磷酸化作用和去磷酸化作用,即在确定基因通路拓扑系数矩阵的过程中对基因在基因通路中所起的作用进行准确评估,进而,保证后续基于转录差异表达倍数数据、基因共表达单元以及基因通路拓扑系数矩阵确定出的化合物在基因通路上的打分结果,能够更准确地表征化合物对基因通路所起的活化作用。
本申请还提供了一种用于评价化合物对基因通路活化作用的设备,该设备具体可以为服务器,也可以为终端设备;下面以服务器为例,对该用于评价化合物对基因通路活化作用的设备进行介绍。
参见图3,图3为本申请实施例提供的用于评价化合物对基因通路活化作用的服务器结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作***341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图3所示的服务器结构。
其中,CPU 322用于执行如下步骤:
获取对照组的转录组数据和化合物研究组的转录组数据;
根据所述对照组的转录组数据和所述化合物研究组的转录组数据,获得转录差异表达倍数数据;
对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元;
获取基因通路,根据基因在所述基因通路中所起的作用,为所述基因通路中的各个基因分配权重系数,获得基因通路拓扑系数矩阵;所述基因在基因通路中所起的作用包括:促进作用、抑制作用、磷酸化作用和去磷酸化作用;
根据所述转录差异表达倍数数据、所述基因共表达单元以及所述基因通路拓扑系数矩阵,确定化合物在每条基因通路上的打分结果;所述打分结果用于评价该化合物对于所述基因通路的活化作用。
可选的,CPU322还可以执行图2所示的用于评价化合物对基因通路活化作用的方法任一具体实现方式的方法步骤。
本申请实施例还提供了一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例所述的一种用于评价化合物对基因通路活化作用的方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种用于评价化合物对基因通路活化作用的方法,其特征在于,所述方法包括:
获取对照组的转录组数据和化合物研究组的转录组数据;
根据所述对照组的转录组数据和所述化合物研究组的转录组数据,获得转录差异表达倍数数据;
对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元;所述相关基因是指在化合物作用下,其表达量会发生一定变化的基因;
获取基因通路,根据基因在所述基因通路中所起的作用,为所述基因通路中的各个基因分配权重系数,获得基因通路拓扑系数矩阵;所述基因在基因通路中所起的作用包括:促进作用、抑制作用、磷酸化作用和去磷酸化作用;
根据所述转录差异表达倍数数据、所述基因共表达单元以及所述基因通路拓扑系数矩阵,确定化合物在每条基因通路上的打分结果;所述打分结果用于评价该化合物对于所述基因通路的活化作用。
2.根据权利要求1所述的方法,其特征在于,所述根据基因在基因通路中所起的作用,为基因通路中的各个基因分配权重系数,包括:
将对基因通路起促进作用的基因对应的权重系数设置为+1;将对基因通路起抑制作用的基因对应的权重系数设置为-1;
将对基因通路起磷酸化作用的基因对应的权重系数设置为+2;将对基因通路其去磷酸化作用的基因对应的权重系数设置为-2。
3.根据权利要求1或2所述的方法,其特征在于,所述获得基因通路拓扑系数矩阵,包括:
根据各个基因各自对应的权重系数,利用R包KEGGgraph和RBGL计算基因在每条基因通路上的拓扑系数。
4.根据权利要求1所述的方法,其特征在于,所述对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元,包括:
对共表达的基因进行第一次聚类处理,以及对所述第一次聚类结果进行第二次聚类处理,获得基因共表达单元。
5.根据权利要求1所述的方法,其特征在于,所述对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元,包括:
采用基于密度的聚类方法和/或层次聚类方法。
6.根据权利要求5所述的方法,其特征在于,所述基于密度的聚类方法包括:DBSCAN、OPTICS;
所述层次聚类方法包括:BIRCH。
7.一种用于评价化合物对基因通路活化作用的装置,其特征在于,所述装置包括:
转录组数据获取模块,用于获取对照组的转录组数据和化合物研究组的转录组数据;
转录差异表达倍数数据获取模块,用于根据所述对照组的转录组数据和所述化合物研究组的转录组数据,获得转录差异表达倍数数据;
基因共表达单元获取模块,用于对相关基因做聚类处理,将共表达的基因聚类到同一组,获得多个基因共表达单元;所述相关基因是指在化合物作用下,其表达量会发生一定变化的基因;
基因通路拓扑系数矩阵获取模块,用于获取基因通路,根据基因在所述基因通路中所起的作用,为所述基因通路中的各个基因分配权重系数,获得基因通路拓扑系数矩阵;所述基因在基因通路中所起的作用包括:促进作用、抑制作用、磷酸化作用和去磷酸化作用;
打分模块,用于根据所述转录差异表达倍数数据、所述基因共表达单元以及所述基因通路拓扑系数矩阵,确定化合物在每条基因通路上的打分结果;所述打分结果用于评价该化合物对于所述基因通路的活化作用。
8.根据权利要求7所述的装置,其特征在于,所述基因通路拓扑系数矩阵获取模块,具体用于:
将对基因通路起促进作用的基因对应的权重系数设置为+1;将对基因通路起抑制作用的基因对应的权重系数设置为-1;
将对基因通路起磷酸化作用的基因对应的权重系数设置为+2;将对基因通路其去磷酸化作用的基因对应的权重系数设置为-2。
9.一种用于评价化合物对基因通路活化作用的设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行如权利要求1至6任意一项所述的用于评价化合物对基因通路活化作用的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述权利要求1至6任意一项所述的用于评价化合物对基因通路活化作用的方法。
CN201910142574.5A 2019-02-26 2019-02-26 一种用于评价化合物对基因通路活化作用的方法及装置 Active CN109801676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910142574.5A CN109801676B (zh) 2019-02-26 2019-02-26 一种用于评价化合物对基因通路活化作用的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910142574.5A CN109801676B (zh) 2019-02-26 2019-02-26 一种用于评价化合物对基因通路活化作用的方法及装置

Publications (2)

Publication Number Publication Date
CN109801676A CN109801676A (zh) 2019-05-24
CN109801676B true CN109801676B (zh) 2021-01-01

Family

ID=66561331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910142574.5A Active CN109801676B (zh) 2019-02-26 2019-02-26 一种用于评价化合物对基因通路活化作用的方法及装置

Country Status (1)

Country Link
CN (1) CN109801676B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444248B (zh) * 2019-07-22 2021-09-24 山东大学 基于网络拓扑参数的癌症生物分子标志物筛选方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101553492A (zh) * 2006-08-31 2009-10-07 阵列生物制药公司 Raf抑制剂化合物及其使用方法
CN103608036A (zh) * 2011-06-19 2014-02-26 瓦克西尼私人有限公司 包含菊粉颗粒的免疫佐剂组合物
CN104968646A (zh) * 2012-12-13 2015-10-07 葛兰素史密斯克莱有限责任公司 Zeste同源物增强子2的抑制剂
WO2019034576A1 (en) * 2017-08-18 2019-02-21 Koninklijke Philips N.V. METHODS OF SEQUENCING BIOMOLECULES

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093119A (zh) * 2013-01-24 2013-05-08 南京大学 一种利用网络结构信息识别显著生物通路的方法
US10460830B2 (en) * 2013-08-22 2019-10-29 Genomoncology, Llc Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein
US20170277826A1 (en) * 2016-03-27 2017-09-28 Insilico Medicine, Inc. System, method and software for robust transcriptomic data analysis
US11260078B2 (en) * 2017-07-25 2022-03-01 Insilico Medicine Ip Limited Method of treating senescence with multi-stage longevity therapeutics
CN108763864B (zh) * 2018-05-04 2021-06-29 温州大学 一种评价生物通路样本状态的方法
CN108753915A (zh) * 2018-05-12 2018-11-06 内蒙古农业大学 谷子酶活性的测定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101553492A (zh) * 2006-08-31 2009-10-07 阵列生物制药公司 Raf抑制剂化合物及其使用方法
CN103608036A (zh) * 2011-06-19 2014-02-26 瓦克西尼私人有限公司 包含菊粉颗粒的免疫佐剂组合物
CN104968646A (zh) * 2012-12-13 2015-10-07 葛兰素史密斯克莱有限责任公司 Zeste同源物增强子2的抑制剂
WO2019034576A1 (en) * 2017-08-18 2019-02-21 Koninklijke Philips N.V. METHODS OF SEQUENCING BIOMOLECULES

Also Published As

Publication number Publication date
CN109801676A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
Lin et al. CIDR: Ultrafast and accurate clustering through imputation for single-cell RNA-seq data
Kueffner et al. Stratification of amyotrophic lateral sclerosis patients: a crowdsourcing approach
Dessimoz et al. Phylogenetic assessment of alignments reveals neglected tree signal in gaps
Assefa et al. Differential gene expression analysis tools exhibit substandard performance for long non-coding RNA-sequencing data
Zhu et al. Recursively imputed survival trees
AU2016209478B2 (en) Systems and methods for response prediction to chemotherapy in high grade bladder cancer
JP6382459B1 (ja) 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法
Kaever et al. Meta-analysis of pathway enrichment: combining independent and dependent omics data sets
Rorbach et al. Distinguishing mirtrons from canonical miRNAs with data exploration and machine learning methods
Li et al. A gene-based information gain method for detecting gene–gene interactions in case–control studies
CN112053742A (zh) 分子靶标蛋白的筛选方法、装置、计算机设备和存储介质
Pelz et al. Global rank-invariant set normalization (GRSN) to reduce systematic distortions in microarray data
Holzinger et al. ATHENA: a tool for meta-dimensional analysis applied to genotypes and gene expression data to predict HDL cholesterol levels
Crowell et al. Learning and imputation for mass-spec bias reduction (LIMBR)
CN106709028A (zh) 高通量测序数据统计方法和统计装置
CN109801676B (zh) 一种用于评价化合物对基因通路活化作用的方法及装置
Liu et al. Improving RNA-Seq expression estimation by modeling isoform-and exon-specific read sequencing rate
Eldjárn Hjörleifsson et al. Accurate quantification of single-cell and single-nucleus RNA-seq transcripts using distinguishing flanking k-mers
Saeed et al. A high performance multiple sequence alignment system for pyrosequencing reads from multiple reference genomes
Masoudi-Sobhanzadeh et al. Discovering driver nodes in chronic kidney disease-related networks using Trader as a newly developed algorithm
He et al. Identifying differentially expressed genes of zero inflated single cell RNA sequencing data using mixed model score tests
KR101816646B1 (ko) 암과 연관성이 높은 유전자-마이크로 rna 모듈을 확인하기 위한 컴퓨터의 데이터 처리 방법, 및 암과의 연관성이 높은 유전자 및 마이크로 rna의 선정방법.
Engchuan et al. Gene-set activity toolbox (GAT): a platform for microarray-based cancer diagnosis using an integrative gene-set analysis approach
Kakati et al. X-Module: A novel fusion measure to associate co-expressed gene modules from condition-specific expression profiles
CN109935341B (zh) 一种药物新适应症的预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant