CN105701365B - 发现癌症相关基因的方法及相关***、药物制备方法 - Google Patents

发现癌症相关基因的方法及相关***、药物制备方法 Download PDF

Info

Publication number
CN105701365B
CN105701365B CN201610019087.6A CN201610019087A CN105701365B CN 105701365 B CN105701365 B CN 105701365B CN 201610019087 A CN201610019087 A CN 201610019087A CN 105701365 B CN105701365 B CN 105701365B
Authority
CN
China
Prior art keywords
mirna
gene
sample
data
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610019087.6A
Other languages
English (en)
Other versions
CN105701365A (zh
Inventor
杨利英
曹阳
袁细国
张军英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201610019087.6A priority Critical patent/CN105701365B/zh
Publication of CN105701365A publication Critical patent/CN105701365A/zh
Application granted granted Critical
Publication of CN105701365B publication Critical patent/CN105701365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种利用miRNA表达数据发现癌症相关基因的方法,基于癌症基因组图谱TCGA下的泛癌症项目PanCancer,运用统计分析和机器学习算法,对基因表达数据进行分析处理,识别与复杂疾病相关的基因;包括:样本数据整理;对miRNA数据进行统计分析;将miRNA按均值变化率排序;选定靶基因;提取出相应的疾病样本和正常样本;利用Relief算法对上述提取出来的mRNA样本中的基因进行排序。本发明可发现与癌症等复杂疾病相关的多个风险基因,对复杂疾病的生物靶向治疗、生物药物研制、致病机理阐释及风险预测等都有重要意义。

Description

发现癌症相关基因的方法及相关***、药物制备方法
技术领域
本发明属于数据处理技术领域,尤其涉及一种利用miRNA表达数据发现癌症相关基因的方法。
背景技术
生物信息学是一门生命科学和计算机科学相结合的新兴学科,研究生物信息的采集、处理、存储、传播、分析和解释等,通过综合利用生物学、计算机科学及信息技术来揭示复杂的生物数据所蕴藏的生物学奥秘。基因是遗传信息的载体,对基因的探究有助于加深对疾病的认识。人类目前已知的基因个数超过2万个,对应的测序数据得到的mRNA基因表达数据达到2万多维,而且每种疾病相关的基因各不相同,有些疾病相关基因已经被发现,但是大多数的相关基因有待于进一步研究。可见,对mRNA基因表达数据直接进行分析需要处理高维数据,计算复杂度极大。
miRNA是一类内生的、长度约为20-24个核苷酸的小RNA,人类已知的 miRNA有1000多个,其在细胞内具有多种重要的调节作用。miRNA可以调控人体中很多基因,即每个miRNA可以有多个靶基因,多个miRNA也可以调节同一个基因。miRNA调控基因的方式总共有三种。第一种作用方式是切分靶基因分子结构,在这种情况下,两者在结构上表现为完全互补,miRNA的功能同 siRNA非常相似,植物中的miRNA大多数都是这种作用方式。第二种作用方式是阻碍靶基因翻译,这种情况下,两者在结构上变现为不完全互补,这种不完全互补导致靶基因翻译受阻,随之影响基因表达的稳定性,非植物生物中发现最多的作用方式都是这种方式,比如秀丽隐杆线虫的lin-4就是以这种方式影响秀丽隐杆线虫生长发育,但是在植物中这种作用方式很少见。第三种作用方式是前面两种方式结合,有的miRNA部分与靶基因互补结合,这时就表现为切割靶基因,而剩余部分却与靶基因不完全结合,这时就表现为阻碍靶基因翻译。鉴于miRNA表达数据维度小,通过处理miRNA表达数据,获取疾病的风险miRNA,然后利用miRNA的靶基因mRNA数据进行分析,可以在降低数据维度的同时达到预测疾病相关基因的目的。
现有技术直接处理复杂疾病mRNA基因表达数据维数高和计算量大。
发明内容
本发明的目的在于提供一种利用miRNA表达数据发现癌症相关基因的方法,旨在解决现有技术直接处理复杂疾病mRNA基因表达数据维数高和计算量大的问题。
本发明是这样实现的,一种利用miRNA表达数据发现癌症相关基因的方法,所述利用miRNA表达数据发现癌症相关基因的方法基于癌症基因组图谱TCGA 下的泛癌症项目PanCancer,运用统计分析和机器学习算法,对基因表达数据进行分析处理,识别与复杂疾病相关的基因,包括:
样本数据整理,获取某种疾病的miRNA表达数据和mRNA表达数据,两种数据均包含疾病样本和对应的正常样本;
对miRNA数据进行统计分析,分别求得正常样本和疾病样本的平均表达值,此过程要排除零值的影响;
将miRNA按均值变化率排序,变化率越大的排名越靠前,筛选排名靠前的 10个miRNA作为相关miRNA;
应用miRanda、miRDB、miRWalk、RNA22、Targetscan五个靶基因预测软件作为预测mRNA的工具,获取相应miRNA的靶基因,选定靶基因遵循如下条件:对于所用的五个靶基因预测软件,假设K表示同时预测到相同靶基因的预测软件个数的最大值,Nk表示同时被K个靶基因软件预测的基因个数,作为预选基因至少要被R(0≤R≤K)个靶基因预测软件同时预测到;
根据选中的mRNA,从初始mRNA表达数据中提取出相应的疾病样本和正常样本;
利用Relief算法对上述提取出来的mRNA样本中的基因进行排序,按重要性从大到小排列,取前45个基因作为预测的疾病相关基因。
进一步,对miRNA数据进行分析时,要排除零值的影响,求取miRNA均值时,先求出每个样本中非零值的个数m,然后求得miRNA样本表达值总和Sum, 则计算出样本均值为Sum/m,正常样本表达值均值为n,疾病样本表达值均值为 c,则得相应的表达值变化率为|n-c|/n,根据miRNA的均值变化率,确定样本表达值变化率排名前10的miRNA为相关的miRNA。
进一步,作为预选基因至少要被R(0≤R≤K)个靶基因预测软件同时预测到,Nk>10时,R=K;当Nk<10且Nk-1>10时,R=K-1;同理,若Nk-1<10且Nk-2>10,则R=K-2,以此类推。
进一步,选取的特征选择方法是Relief算法,特征权重计算公式如下:
其中,si(i=1,...,p)表示第i个样本,p为样本数目;Samej表示si的第j个同类样本,Missj表示si的第j个异类样本,k表示近邻个数;wf(f=1,...,q)表示特征f 的权重,即第f个预选基因的重要程度,q为预选基因的数目;r表示抽样次数;
函数diff定义如下:
其中,sif表示特征f在第i个样本上的取值,sjf表示特征f在第j个样本上的取值,Maxf表示特征f在样本中的最大值,Minf则表示特征f在样本中的最小值,抽样次数r=10,近邻个数k=20,Relief算法迭代次数为30次,计算每个特征的权重W={w1,w2,…,wq},并根据权重W对mRNA排序。
本发明的另一目的在于提供一种所述利用miRNA表达数据发现癌症相关基因的方法的***,所述***包括:
样本数据整理模块,用于获取某种疾病的miRNA表达数据和mRNA表达数据,两种数据均包含疾病样本和对应的正常样本;
统计分析模块,用于对miRNA数据进行统计分析,分别求得正常样本和疾病样本的平均表达值,此过程要排除零值的影响;
筛选排名模块,用于将miRNA按均值变化率排序,变化率越大的排名越靠前,筛选排名靠前的10个miRNA作为相关miRNA;
选定靶基因模块,用于应用miRanda、miRDB、miRWalk、RNA22、Target scan五个靶基因预测软件作为预测mRNA的工具,获取相应miRNA的靶基因,选定靶基因遵循如下条件:对于所用的五个靶基因预测软件,假设K表示同时预测到相同靶基因的预测软件个数的最大值,Nk表示同时被K个靶基因软件预测的基因个数;
提取模块,用于根据选中的mRNA,从初始mRNA表达数据中提取出相应的疾病样本和正常样本;
排序模块,用于利用Relief算法对上述提取出来的mRNA样本中的基因进行排序,按重要性从大到小排列,取前45个基因作为预测的疾病相关基因。
进一步,所述统计分析模块进一步包括:
非零值求取单元,用于求取miRNA均值时,先求出每个样本中非零值的个数m;
样本均值计算单元,用于求得miRNA样本表达值总和Sum,则计算出样本均值为Sum/m;
表达值变化率计算单元,正常样本表达值均值为n,疾病样本表达值均值为 c,则得相应的表达值变化率为|n-c|/n;
排名单元,用于根据miRNA的均值变化率,确定样本表达值变化率排名前 10的miRNA为相关的miRNA。
本发明的另一目的在于提供一种应用所述利用miRNA表达数据发现癌症相关基因的方法的生物靶向治疗***。
本发明的另一目的在于提供一种应用所述利用miRNA表达数据发现癌症相关基因的方法的生物药物研制工艺。
本发明的另一目的在于提供一种应用所述利用miRNA表达数据发现癌症相关基因的方法的致病机理阐释***。
本发明的另一目的在于提供一种应用所述利用miRNA表达数据发现癌症相关基因的方法的致病风险预测***。
本发明提供的利用miRNA表达数据发现癌症相关基因的方法,基于癌症基因组图谱TCGA(The Cancer Genome Atlas)下的泛癌症项目PanCancer,运用统计分析和机器学习算法,对基因表达数据进行分析处理,识别与复杂疾病相关的基因。本发明可发现与癌症等复杂疾病相关的多个风险基因,对复杂疾病的生物靶向治疗、生物药物研制、致病机理阐释及风险预测等都有重要意义,可以针对求得的风险基因设计基因靶向疗法;根据基因标记选择敏感性高的药物或者开发新药物;基于发现的相关基因,能够分析复杂疾病的发展过程,以确定其形成机制;还可以对预测的风险基因进行易感基因检测,以降低患病风险。本发明考虑到mRNA表达数据量大导致样本数据难以处理,故采用数据量小且对mRNA有调控作用的miRNA作为分析点,现有技术处理的是2万多维的 mRNA表达数据,而本方法分析的是1千多维的miRNA表达数据,维度降低了 20倍,因此计算复杂度降低,计算时间缩短,避免了因数据量大导致的计算时间过长等不利因素。本发明利用miRNA能快速地定位到致病mRNA,不是局限于某种复杂疾病或者某种癌症,而是对所有的复杂疾病均可以利用该方法分析相关基因。本发明是通过分析某种疾病的miRNA表达数据来确定靶基因,由靶基因mRNA表达数据筛选出风险基因,此外不需要任何与疾病相关的信息。因此,只要给出某种疾病的miRNA及mRNA表达数据,就可以应用该方法进行分析,适用性广。
附图说明
图1是本发明实施例提供的利用miRNA表达数据发现癌症相关基因的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明利用miRNA表达数据量较小的特点和miRNA与mRNA间的靶定关系,通过分析miRNA表达数据来获取癌症相关基因,从而解决现有技术直接利用mRNA表达数据分析时数据量过大的问题。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例的利用miRNA表达数据发现癌症相关基因的方法包括以下步骤:
S101:基于miRNA在正常样本和疾病样本中的表达差异筛选出与癌症相关的miRNA;
S102:利用miRNA和mRNA之间的映射关系,靶定到该miRNA作用的 mRNA上;
S103:通过对靶定mRNA表达数据的分析来发现癌症的相关基因。
本发明使用的数据,包括miRNA和mRNA中的正常和疾病样本,均来自 TGCA的泛癌研究项目。
本发明的具体实现步骤如下。
步骤一,数据处理
把样本数据分为如下四组:正常样本miRNA表达数据、疾病样本miRNA 表达数据、正常样本mRNA表达数据、疾病样本mRNA表达数据,这里需要确保样本的miRNA和mRNA名称对应一致。
步骤二,筛选出表达值变化率高的miRNA
1.对于miRNA数据,求出正常和疾病两类样本数据中每个miRNA对应表达值的均值。因为样本中有miRNA表达值现为0的情况,所以在处理的时候需要统计出零值的个数,若某个miRNA的样本中非零值的总数为m,样本值总和为Sum,则该miRNA样本的均值为Sum/m。以此方法计算每个miRNA正常和疾病样本的均值。
2.根据样本均值,计算出每个miRNA的变化率,若某个miRNA的正常样本均值为n,疾病样本均值为c,则变化率为|n-c|/n。
3.根据变化率对所有的miRNA进行排序,选出前10个变化率大的miRNA。
步骤三,获取选定miRNA的靶基因
利用miRanda、miRDB、miRWalk、RNA22和Targetscan五种靶基因预测软件,获得选定miRNA的靶基因。对于所用的五个靶基因预测软件,假设K表示同时预测到相同靶基因的预测软件个数的最大值,Nk表示同时被K个靶基因软件预测的基因个数。本方法要求作为预选基因至少要被R(0≤R≤K)个靶基因预测软件同时预测到,Nk>10时,R=K;当Nk<10且Nk-1>10时,R=K-1;同理,若Nk-1<10且Nk-2>10,则R=K-2,以此类推。
步骤四:利用Relief算法筛选相关基因
根据选定的靶基因mRNA,在mRNA表达数据中筛选出正常样本和疾病样本,并将两类样本数据整合在一起,利用Relief算法对mRNA按照重要性从大到小排序,其中Relief算法中抽样次数r=10,近邻个数k=20,算法迭代次数为 30次。根据Relief排序结果,选定前45个作为预测的相关基因。
下面结合实验对本发明的应用效果作详细的描述。
实验一,选取TCGA PanCancer项目中的乳腺癌表达数据(BRCA)作为实验对象,数据中共有1045个miRNA和20530个mRNA。根据上述实验步骤对乳腺癌表达数据进行处理:
1.导入miRNA样本数据,首先筛选所有的正常样本数据,保证正常样本中没有全零的情况,若有某个miRNA的正常样本数据全部为零,则在删除正常样本中该miRNA数据的同时,也删除疾病样本中的对应miRNA的数据。
2.针对筛选完成的miRNA数据,对正常和疾病样本分别求均值,并计算变化率。
3.根据变化率对miRNA排序,排序后选择前10个变化率大的miRNA。本实验最终选定如下10个MicroRNA:hsa-mir-133b,hsa-mir-133a,hsa-mir-208b, hsa-mir-206,hsa-mir-551b,hsa-mir-145,hsa-mir-378,hsa-mir-451,hsa-mir-144, hsa-mir-1。
4.对选定的miRNA,利用前述五种靶基因预测软件预测靶基因,得到725个靶基因mRNA。
5.从mRNA数据中选出725个靶基因mRNA对应的数据,然后利用Relief 算法对mRNA进行重要性排序,设定抽样次数r=10,近邻个数k=20,算法迭代次数为30次,选择出前45个重要的mRNA为相关基因。45个mRNA如下: RXFP2,GYPA,OTX2,PRDM9,CYP11B1,MMD2,CHRNA4,NEUROD1, PABPC1L2B,RIT2,CNTN5,NEUROD4,SLC4A1,PRDM7,FBXO40,GABRG2,GPR6,ZIC3,SPINLW1,DMRT1,CYP3A4,DPCR1,LHX9,ISL2,LIPI, SOST,HHLA2,S100A7,RIPPLY1,TRHDE,BMP3,KCNMB2,PAX5,PAX3, ANGPT4,DSCAM,EREG,OR7D2,DRD1,GFRA3,LEP,GPR26,LIX1, ZIC1,GDAP1L1。
下面分析求得的基因在乳腺癌中的作用及其与已知乳腺癌重要基因间的功能联系,以此说明这些基因与乳腺癌的相关性,从而验证本研究所提方法的有效性。
NEUROD1是NeuroD家族的碱性bHLH转录因子,它可以联合其他bHLH 的转录因子产生异源二聚体并激活一种叫E-box的特殊的DNA序列转录,它还有助于多种细胞分化通路调控。Heidi Fiegl发现NEUROD1在乳腺组织的肿瘤和肺肿瘤样本中出现了甲基化异常的现象,而且肿瘤恶化等级越高的样本中甲基化的水平就越高。SLC4A1编码的蛋白质是AE蛋白家族的一员,该蛋白在红细胞中起到很大的作用,其可以作为一种转运蛋白介质帮助相应的物质穿过细胞膜。A Gorbatenko的研究表明SLC4A1在所有乳腺癌子类型中下调,这说明SLC4A1可能对乳腺癌病变产生一定影响。CYP3A4能够编码细胞色素P450酶,这种酶参与了现今一半药物的代谢过程,比如乙酰氨基酚、可待因、环孢素A 以及***和红霉素,同时还参与一些类固醇和致癌物的代谢。C Keshava发现 CYP3A4的变异可能会导致乳腺癌的激素代谢水平出现失调,同时也可能会激活外源物导致癌症产生,是乳腺癌的一个重要相关基因。HHLA2编码的蛋白质存在单核细胞的表面,这种蛋白可以和淋巴细胞上的受体结合,从而调节细胞介导的免疫力,并抑制单核细胞的增殖。M Janakiram通过分析TCGA相关表达数据发现HHLA2的拷贝数在乳腺癌中升高了29%,导致HHLA2在乳腺癌中会出现过多表达的情况,这侧面说明HHLA2对乳腺癌病变产生一定影响。S100A7 编码的蛋白属于S100蛋白族一员,S100蛋白广泛存在于细胞浆和细胞核,并参与许多细胞过程,比如细胞周期和分化的调控。Emberley详细说明了S100A7 在乳腺癌中的研究状况和S100A7在乳腺癌中的具体作用方式和表达情况,同样 Haddadd也阐述了S100A7和乳腺癌间的关系。PAX3是PAX转录因子家族的一员,其包含一个配对的盒状域和一个配对的同源结构域,这些基因在胎儿发育过程中起到非常重要的作用。WJ Tan在其文章中具体描述了PAX3在乳腺癌临床中表达情况,并分析了PAX3对乳腺癌造成的影响。LEP编码出了一种由白细胞分泌的蛋白质,LEP主要对调节体重过程中起到重要作用,它可以抑制食物的摄入量和调节能量消耗,Cleveland描述了LEP基因变异与乳腺癌的发病率之间的相关关系,这说明LEP的表达异常不但可能导致体重失衡,也可能会导致乳腺癌的病变。
通过上述分析可以看出,预测的基因会对乳腺癌病变产生影响,但这些基因具体的致病原理还需要相关的技术人员作深入的分析。
下面利用David数据库中的通路分析工具和STRING-DB数据库对预测基因进行整体分析。这两种分析方法可以从侧面说明预测基因通过对癌症的重要基因产生作用而导致疾病的发生,验证了预测基因和癌症基因间的关联性。本实验选择的乳腺癌重要基因有PIK3CA、TP53、PTEN、AKT1以及SF3B1。
利用David数据库发现预测基因与重要基因之间存在风险通路,并且预测基因中也存在相关的风险通路。EREG和重要基因中的PIK3CA、AKT1存在通路,LEP与PIK3CA、AKT1间存在风险通路,值得注意的是,LEP和筛选基因中的DRD1、GABRG2以及RXFP2也存在相关的通路,如表1所示。通路分析还发现LEP、EREG和乳腺癌重要基因PIK3CA、AKT1之间存在生物代谢方面的联系,而DRD1、GABRG2、RXF2与LEP之间存在通路联系,这种相互间的联系可能是导致疾病发生的源头。
表1乳腺癌相关基因参与的通路
针对乳腺癌的重要基因连同筛选出来的45个基因,在STRING-DB上查看它们之间的相互作用关系,分析结果如表2所示。有些基因和其他基因没有任何联系,如OR7D2、HHLA2、DPCR1等,这并不说明它们对乳腺癌没有作用,这些基因可能单独作用于乳腺癌(如HHLA2,前面已经分析过该基因对乳腺癌的病变产生的影响),也可能与乳腺癌的其他重要基因存在相互作用。其余基因之间存在很多相互作用,这些基因构成了一个关系网络,预测的基因可能会通过某种生物功能正向或者负向地影响网络中的乳腺癌重要基因,从而产生乳腺癌病变。
表2乳腺癌相关基因和重要基因之间的关联
实验二,选取TCGA PanCancer项目中的肾癌表达数据(KIRC)作为实验对象,数据中共有1045个miRNA和20530个mRNA。
使用与实验一相同的方法,对样本变化率进行排序,排序后选择前10个样本作为目标miRNA。选定的miRNA如下:hsa-mir-200c,hsa-mir-514b,hsa-mir-506, hsa-mir-508,hsa-mir-514-2,hhsa-mir-141,hsa-mir-514-3,hsa-mir-514-1,hsa-mir-184,h sa-mir-934。利用前述五种靶基因预测软件预测选定miRNA的靶基因,获得504 个mRNA。从初始mRNA表达数据中选出这些mRNA样本数据,然后利用Relief 算法计算权重,选取前45个mRNA作为目标mRNA。45个选定的mRNA如下: ODAM,KLHL1,TAC1,NPY2R,HYAL4,FOXE1,TTR,SLC6A14,GLRA3, FUT9,GRIA2,KCNA1,CXorf41,TFAP2B,SFTPB,CRISP1,PDE6H,AGXT2L1, LHFPL4,SLC30A8,STXBP5L,TMEM196,IL1F5,ASTN1,CRISP3,HTR2C, LIN28B,TRIM42,KIAA1486,COL9A1,GCM1,TNNI1,SCG3,ANXA10, BTC,SORCS1,KCND2,LRRN1,MSTN,ERBB4,PRG4,NAPB,ARHGAP12, C12orf53,RAD52。
下面分析求得的基因在肾癌中的作用,以说明这些基因与肾癌的相关性,从而验证本研究所提方法的有效性。
KLHL1是一个蛋白编码基因,属于肌组织蛋白家族的一员,在肾脏的组织细胞有表达,在许多脑部组织中也有表达。这说明KLHL1的突变可能导致肾脏中的某些细胞出现功能性问题,从而影响肾脏部位的癌变。NPY2R编码的蛋白质是神经肽(NPY)Y中Y2的受体,NPY受体参与多种生物学行为,包括食物的摄取、刺激抗焦虑、昼夜节律性疼痛调制以及传输和垂体激素释放控制。人类肾中有293种细胞受被包含NPY2R在内的基因调控,可见NPY2R在肾脏功能中起到有重要作用,NPY2R基因正常表达与否会在肾病中起到作用。KCNA1 属于基因包含活性Ca2(+-)在内的钾道6-TM家族,其对四聚体的形成有一定的贡献,同时还参与子类家族的蛋白形成,例如KV1.1、KV1.2、KCNQ2和 KCNQ3等。KCNA1的突变影响着肾脏部位的功能,对过表达人类肾部细胞进行分析时发现KCNA1在非功能性区域发生突变,同时也对KV1.1.的功能性区域产生了负面的影响。FOXE1属于转录因子家族的一员,该基因可能在甲状腺疾病的突变上存在相关影响,进而对肾部病变起到一定作用。有报道指出,包括FOXE1在内的基因会通过影响甲状腺机能进而影响到肾部,导致肾脏畸形和病变。SLC6A14编码的酶是溶解载体家族6中的一个成员,溶解载体家族主要用于帮助钠和氯元素在人体神经质中运输,该编码蛋白还参与了中性和阳离子氨基酸的转运,同时也作为β氨基丙酸的载体。有发现SLC6A14在肾部病变组织中出现过表达的情况,这种过表达说明SLC6A14的变异可能对肾部功能产生影响。FUT9编码的莱克斯寡糖岩藻糖基转移酶属于糖基转移酶家族中的一员,主要存在于高尔基体,在器官胚胎发育过程中也起到重要作用,FUT9还负责调控CD15在成熟粒细胞中的表达。FUT9在肾脏中表达降低1.8倍会导致CD24A 在肾脏的表达增加1.8倍,直接会严重影响肾脏功能的正常发挥。虽然FUT9不会直接导致肾脏的病变,但是会间接通过影响CD24A表达影响肾部功能,其对肾脏的作用不能轻视。STXBP5L是一种重要的旁系同源基因,其编码的蛋白质能与突触融合蛋白结合。STXBP5作为蛋白质与突触的神经元相互作用,在肾脏部位大量存在,对肾部功能影响也起到很大的作用,说明STXBP5L的变异对肾脏功能有很大影响。
下面利用David数据库的KEGG pathway工具和STRING-DB数据库对发现的肾癌相关基因作整体分析。这里选择的KIRC重要基因有TP53,CDH1, VEGFA,MUC1以及EGFR。通过分析发现,预测的基因和重要基因间存在关联通路,且预测的基因间也存在关联通路。BTC、ERBB与肾癌的重要基因EGFR 存在风险通路,与EGFR存在通路关联的还有VEGFA和HTR2C,与EGFR存在通路图还有VEGFA,GRIA2和TP53存在通路,此外预测的肾癌相关基因 HTR2C、GRIA2、GLRA3、NPY2R之间也存在风险通路,,如表3所示。
表3肾癌相关基因参与的通路
利用STRING-DB数据库对预测的肾癌相关基因和重要基因进行交互作用查看,结果如表4所示。从表4可以看出,预测的基因之间及其与重要基因之间存在很多联系,说明预测基因可能通过某些方式作用于肾癌重要基因,从而影响重要基因的正常表达,导致肾癌病变。TTR、KCNA1、FOXE1和ODAM 四个基因尤其要重视,它们与许多肾癌重要基因有联系,可能同时作用于多个重要基因。
表4肾癌相关基因和重要基因之间的关联
本发明的工作原理:
通过分析维数较小的miRNA表达数据并利用miRNA对基因的调控作用,在高维的mRNA表达数据中靶定出一个低维子集,进而利用Relief算法确定各个维度上基因的重要性,由此筛选出复杂疾病的相关基因。Relief算法是1992 年由Kira和Rendell提出的一种特征权重算法,通过样本进行训练,根据训练获取样本特征的分类权重,权重越大意味着该特征对分类的意义越大。Relief算法中特征权重计算公式如下:
其中,si(i=1,...,p)表示第i个样本,p为样本数目;Samej表示si的第j个同类样本,Missj表示si的第j个异类样本,k表示近邻个数;wf(f=1,...,q)表示特征f 的权重,即第f个预选基因的重要程度,q为预选基因的数目;r表示抽样次数。函数diff定义如下:
其中,sif表示特征f在第i个样本上的取值,sjf表示特征f在第j个样本上的取值,Maxf表示特征f在样本中的最大值,Minf则表示特征f在样本中的最小值。依据设定的抽样次数和近邻个数,Relief算法经过多次迭代求得每个特征的权重W={w1,w2,…,wq},然后根据权重W对特征进行排序。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种利用miRNA表达数据发现癌症相关基因的方法,其特征在于,所述利用miRNA表达数据发现癌症相关基因的方法基于癌症基因组图谱TCGA下的泛癌症项目PanCancer,运用统计分析和机器学习算法,对基因表达数据进行分析处理,识别与复杂疾病相关的基因;包括:
样本数据整理,获取某种疾病的miRNA表达数据和mRNA表达数据,两种数据均包含疾病样本和对应的正常样本;
对miRNA数据进行统计分析,分别求得正常样本和疾病样本的平均表达值,此过程要排除零值的影响;
将miRNA按均值变化率排序,变化率越大的排名越靠前,筛选排名靠前的10个miRNA作为相关miRNA;
应用miRanda、miRDB、miRWalk、RNA22、Targetscan五个靶基因预测软件作为预测mRNA的工具,获取相应miRNA的靶基因,选定靶基因遵循如下条件:对于所用的五个靶基因预测软件,假设K表示同时预测到相同靶基因的预测软件个数的最大值,Nk表示同时被K个靶基因软件预测的基因个数,作为预选基因至少要被R个靶基因预测软件同时预测到;0≤R≤K;
根据选中的mRNA,从初始mRNA表达数据中提取出相应的疾病样本和正常样本;
利用Relief算法对上述提取出来的mRNA样本中的基因进行排序,按重要性从大到小排列,取前45个基因作为预测的疾病相关基因。
2.如权利要求1所述的利用miRNA表达数据发现癌症相关基因的方法,其特征在于,对miRNA数据进行分析时,要排除零值的影响,求取miRNA均值时,先求出每个样本中非零值的个数m,然后求得miRNA样本表达值总和Sum,则计算出样本均值为Sum/m,正常样本表达值均值为n,疾病样本表达值均值为c,则得相应的表达值变化率为|n-c|/n,根据miRNA的均值变化率,确定样本表达值变化率排名前10的miRNA为相关的miRNA。
3.如权利要求1所述的利用miRNA表达数据发现癌症相关基因的方法,其特征在于,作为预选基因至少要被R个靶基因预测软件同时预测到,0≤R≤K;Nk>10时,R=K;当Nk<10且Nk-1>10时,R=K-1;同理,若Nk-1<10且Nk-2>10,则R=K-2。
4.如权利要求1所述的利用miRNA表达数据发现癌症相关基因的方法,其特征在于,选取的特征选择方法是Relief算法,特征权重计算公式如下:
其中,si表示第i个样本,i=1,...,p;p为样本数目;Samej表示si的第j个同类样本,Missj表示si的第j个异类样本,k表示近邻个数;wf(f=1,...,q)表示特征f的权重,即第f个预选基因的重要程度,q为预选基因的数目;r表示抽样次数;
函数diff定义如下:
其中,sif表示特征f在第i个样本上的取值,sjf表示特征f在第j个样本上的取值,Maxf表示特征f在样本中的最大值,Minf则表示特征f在样本中的最小值,抽样次数r=10,近邻个数k=20,Relief算法迭代次数为30次,计算每个特征的权重W={w1,w2,…,wq},并根据权重W对mRNA排序。
5.一种如权利要求1所述利用miRNA表达数据发现癌症相关基因的方法的***,其特征在于,所述***包括:
样本数据整理模块,用于获取某种疾病的miRNA表达数据和mRNA表达数据,两种数据均包含疾病样本和对应的正常样本;
统计分析模块,用于对miRNA数据进行统计分析,分别求得正常样本和疾病样本的平均表达值,此过程要排除零值的影响;
筛选排名模块,用于将miRNA按均值变化率排序,变化率越大的排名越靠前,筛选排名靠前的10个miRNA作为相关miRNA;
选定靶基因模块,用于应用miRanda、miRDB、miRWalk、RNA22、Targetscan五个靶基因预测软件作为预测mRNA的工具,获取相应miRNA的靶基因,选定靶基因遵循如下条件:对于所用的五个靶基因预测软件,假设K表示同时预测到相同靶基因的预测软件个数的最大值,Nk表示同时被K个靶基因软件预测的基因个数,作为预选基因至少要被R个靶基因预测软件同时预测到,0≤R≤K;Nk>10时,R=K;当Nk<10且Nk-1>10时,R=K-1;同理,若Nk-1<10且Nk-2>10,则R=K-2;
提取模块,用于根据选中的mRNA,从初始mRNA表达数据中提取出相应的疾病样本和正常样本;
排序模块,用于利用Relief算法对上述提取出来的mRNA样本中的基因进行排序,按重要性从大到小排列,取前45个基因作为预测的疾病相关基因。
6.如权利要求5所述的***,其特征在于,所述统计分析模块进一步包括:
非零值求取单元,用于求取miRNA均值时,先求出每个样本中非零值的个数m;
样本均值计算单元,用于求得miRNA样本表达值总和Sum,则计算出样本均值为Sum/m;
表达值变化率计算单元,正常样本表达值均值为n,疾病样本表达值均值为c,则得相应的表达值变化率为|n-c|/n;
排名单元,用于根据miRNA的均值变化率,确定样本表达值变化率排名前10的miRNA为相关的miRNA。
7.一种应用权利要求1-4任意一项所述利用miRNA表达数据发现癌症相关基因的方法的生物靶向治疗***。
8.一种应用权利要求1-4任意一项所述利用miRNA表达数据发现癌症相关基因的方法的生物药物制备方法。
9.一种应用权利要求1-4任意一项所述利用miRNA表达数据发现癌症相关基因的方法的致病机理***。
10.一种应用权利要求1-4任意一项所述利用miRNA表达数据发现癌症相关基因的方法的致病风险预测***。
CN201610019087.6A 2016-01-12 2016-01-12 发现癌症相关基因的方法及相关***、药物制备方法 Active CN105701365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610019087.6A CN105701365B (zh) 2016-01-12 2016-01-12 发现癌症相关基因的方法及相关***、药物制备方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610019087.6A CN105701365B (zh) 2016-01-12 2016-01-12 发现癌症相关基因的方法及相关***、药物制备方法

Publications (2)

Publication Number Publication Date
CN105701365A CN105701365A (zh) 2016-06-22
CN105701365B true CN105701365B (zh) 2018-09-07

Family

ID=56226286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610019087.6A Active CN105701365B (zh) 2016-01-12 2016-01-12 发现癌症相关基因的方法及相关***、药物制备方法

Country Status (1)

Country Link
CN (1) CN105701365B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6280997B1 (ja) * 2016-10-31 2018-02-14 株式会社Preferred Networks 疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法
CN108182346B (zh) * 2016-12-08 2021-07-30 杭州康万达医药科技有限公司 预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用
CN107066835B (zh) * 2017-01-19 2020-03-17 东南大学 一种发现并整合直肠癌相关基因及其功能分析的***
CN106845104B (zh) * 2017-01-19 2019-04-09 东南大学 利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及***和应用
CN107358062B (zh) * 2017-06-02 2020-05-22 西安电子科技大学 一种双层基因调控网络的构建方法
CN107516021B (zh) * 2017-08-03 2019-11-19 北京百迈客生物科技有限公司 一种基于高通量测序的数据分析方法
CN108664764A (zh) * 2018-05-14 2018-10-16 浙江大学 一种参数最优的结肠癌癌细胞检测仪
US11410745B2 (en) * 2018-06-18 2022-08-09 International Business Machines Corporation Determining potential cancer therapeutic targets by joint modeling of survival events
CN109065181B (zh) * 2018-06-29 2021-01-01 迈凯基因科技有限公司 一种基于宽泛检索的多数据库交互方法及装置
CN109063420B (zh) * 2018-06-29 2020-08-11 迈凯基因科技有限公司 一种结直肠癌基因变异及药物解读多数据库交互***
CN109036572B (zh) * 2018-06-29 2020-08-11 迈凯基因科技有限公司 一种多数据库交互方法及装置
CN109033750B (zh) * 2018-07-18 2021-11-16 广州大学 一种量化miRNA对相关疾病基因影响程度的方法
WO2020124585A1 (zh) * 2018-12-21 2020-06-25 北京哲源科技有限责任公司 获得细胞内确定性事件的方法、电子设备及存储介质
CN109694912B (zh) * 2019-02-28 2022-06-10 深圳市亚辉龙生物科技股份有限公司 甲基化位点的应用、检测甲基化的核酸组合物及其试剂盒和检测方法
CN114333991A (zh) * 2020-09-30 2022-04-12 北京瑷格干细胞科技有限公司 一种利用生物信息学筛选疾病标志物的方法及其应用
CN112852957B (zh) * 2021-03-26 2021-11-12 广州市妇女儿童医疗中心 先天性巨结肠早期诊断标志物及其应用
CN112708673B (zh) * 2021-03-26 2021-06-25 广州市妇女儿童医疗中心 Prdm9转座子融合作为先天性巨结肠疾病标志物的应用
CN113838527B (zh) * 2021-09-26 2023-09-01 平安科技(深圳)有限公司 一种靶基因预测模型的生成方法及装置、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102321735A (zh) * 2010-11-25 2012-01-18 上海聚类生物科技有限公司 一种查找反向miRNA靶基因的方法
CN105063209A (zh) * 2015-08-10 2015-11-18 北京吉因加科技有限公司 一种外泌体miRNA的定量检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3074530A1 (en) * 2013-11-26 2016-10-05 Integragen A method for predicting responsiveness to a treatment with an egfr inhibitor
EP3140422A1 (en) * 2014-05-03 2017-03-15 The Regents of The University of California Methods of identifying biomarkers associated with or causative of the progression of disease, in particular for use in prognosticating primary open angle glaucoma

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102321735A (zh) * 2010-11-25 2012-01-18 上海聚类生物科技有限公司 一种查找反向miRNA靶基因的方法
CN105063209A (zh) * 2015-08-10 2015-11-18 北京吉因加科技有限公司 一种外泌体miRNA的定量检测方法

Also Published As

Publication number Publication date
CN105701365A (zh) 2016-06-22

Similar Documents

Publication Publication Date Title
CN105701365B (zh) 发现癌症相关基因的方法及相关***、药物制备方法
JP6854792B2 (ja) ゲノムモデルに関するデータ統合を用いたパスウェイ認識アルゴリズム(paradigm)
CN112888459B (zh) 卷积神经网络***及数据分类方法
JP7487163B2 (ja) がんの進化の検出および診断
US20210319906A1 (en) Predicting likelihood and site of metastasis from patient records
JP2024016039A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
CN109689891A (zh) 用于无细胞核酸的片段组谱分析的方法
US20180330049A1 (en) Methods for classification of glioma
CN103403182A (zh) 与癌症相关的遗传或分子畸变的检测
Bhattacharyya et al. MicroRNA signatures highlight new breast cancer subtypes
CN107358062B (zh) 一种双层基因调控网络的构建方法
CN108475300B (zh) 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及***
JP2023535962A (ja) 低カバレッジ次世代シーケンシングデータにおける相同修復欠損などの染色体空間不安定性を同定する方法
WO2017049214A1 (en) Predicting disease burden from genome variants
Zhu et al. Fusing multiple biological networks to effectively predict miRNA-disease associations
CN115443507A (zh) 鉴定可鉴别或指示癌症病状的甲基化模式
Széll et al. The enigmatic world of mRNA-like ncRNAs: their role in human evolution and in human diseases
Kafaie et al. A network approach to prioritizing susceptibility genes for genome‐wide association studies
US20220172811A1 (en) A method of treatment or prophylaxis
Xiao et al. Differential expression pattern-based prioritization of candidate genes through integrating disease-specific expression data
Sha et al. Feature selection for polygenic risk scores using genetic algorithm and network science
Jin et al. Predicting miRNA-disease association via graph attention learning and multiplex adaptive modality fusion
Xu et al. AutoOmics: New multimodal approach for multi-omics research
Nakashima et al. An overview of bioinformatics methods for analyzing autism spectrum disorders
Stamoulakatou et al. Impact of mutational signatures on microRNA and their response elements

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant