CN107463798A - 预测结肠腺癌预后的12‑基因表达分类器及其构建方法 - Google Patents

预测结肠腺癌预后的12‑基因表达分类器及其构建方法 Download PDF

Info

Publication number
CN107463798A
CN107463798A CN201710651894.4A CN201710651894A CN107463798A CN 107463798 A CN107463798 A CN 107463798A CN 201710651894 A CN201710651894 A CN 201710651894A CN 107463798 A CN107463798 A CN 107463798A
Authority
CN
China
Prior art keywords
gene expression
prognosis
classification device
gene
adenocarcinoma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710651894.4A
Other languages
English (en)
Inventor
王俊
陆晓
顾凯
郝文山
史其萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Ming Jie biopharmaceutical Testing Co., Ltd.
Original Assignee
Nanjing Hi Tech Bio Pharmaceutical Public Service Platform Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Hi Tech Bio Pharmaceutical Public Service Platform Co Ltd filed Critical Nanjing Hi Tech Bio Pharmaceutical Public Service Platform Co Ltd
Priority to CN201710651894.4A priority Critical patent/CN107463798A/zh
Publication of CN107463798A publication Critical patent/CN107463798A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种预测结肠腺癌病人预后的基因表达分类器及其构建方法,所述构建方法包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测结肠腺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测结肠腺癌病人预后的基因表达分类器。该基因表达分类器不仅可预测结肠腺癌病人的预后,还可预测肾癌、肺鳞癌、眼底和皮肤黑色素瘤、脑癌以及胰腺癌病人的预后,为癌症病人的术后辅助治疗提供精准判断依据。

Description

预测结肠腺癌预后的12-基因表达分类器及其构建方法
技术领域
本发明涉及一种基因表达分类器及其构建方法,更具体地涉及一种预测结肠腺癌病人预后的基因表达分类器及其构建方法。
背景技术
结直肠癌是男女性中最为常见的癌症种类之一,几乎所有癌症患者中10%都为结直肠癌患者,死于结直肠癌患者在所有癌种中排第三(Stewart BW and Wild CP,2014)。结直肠癌可分为三种分子亚型:染色体不稳定型、微卫星不稳定型以及CpG岛甲基化型,这些亚型在形态学、遗传背景、分子特征、临床表征以及对辅助治疗的响应方面都有所不同(DeSousa等,2013)。目前在临床实践中,TNM分期(Tumor-Node-Metastasis)是标准的结直肠癌的诊断模型。然而,由于结直肠癌的高度异质性,临床分期一致的病人在复发风险以及对辅助治疗的响应度方面往往大不相同。因此,临床上需要更好的检测来将结直肠癌患者精细分群,从而指导个性化治疗方案的制定。目前,一些分子标志物已经被用于结直肠癌的预测预后。如:在II期患者中,微卫星不稳定(MSI)状态被用来筛选复发高风险的结肠癌患者(Brychtová等,2017)。KRAS突变状态被用来筛选转移性结直肠癌患者中对EGFR靶向药物产生耐药性的患者(Cunningham等,2010)。然而,由于结直肠癌发生发展过程中多种途径参与的复杂性,单个分子标志物已不足以有效预测结直肠癌患者的预后。
后基因组时代的到来带来了转录组检测技术的飞速发展,基因表达芯片以及二代测序技术已被用于深入描述肿瘤的分子特征。人们已经运用基因表达谱分析来开发各种基因分析检测方法,结合其他临床病理学因子,更加精准地预测癌症病人预后。一些商业基因检测产品已经上市,用于结肠癌患者的术后预后预测。其中,影响力最大的是Oncotype DX结肠癌复发评分(Colon RS),这是一个基于12-基因(7个癌症相关基因5个内参基因)表达的评分***,用来从II期结肠腺癌患者(T3,pMMR)中筛选复发风险高的病人(QuasarCollaborative Group等,2007;Venook A等,2011;Meropol等,2011)。然而,结肠癌复发评分的五个内参基因中,编码磷酸甘油酸激酶1(Phosphoglycerate kinase 1,PGK1)和谷胱甘肽过氧化物酶1(Glutathione peroxidase 1,GPX1)的两个基因分别是糖酵解(Glycolysis)和胞内氧化应激(Cellular Oxidative stress)过程中的重要组分,而糖酵解和胞内氧化应激过程的异常调控在肿瘤发展和转移中发挥关键作用(Ebata等,2016;Moloney and Cotter,2017)。因此,运用PGK1和GPX1进行基因表达的标准化处理很可能稀释了肿瘤个体间的异质性。
发明内容
在本发明中,发明人从TCGA公共数据库内结肠腺癌病人的RNA-seq的基因表达数据及其临床预后信息出发,运用两步的有监督的机器学习方法,无偏地从整个转录组中获得一种12-基因表达分类器,准确预测结肠腺癌病人的预后。
一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测结肠腺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测结肠腺癌病人预后的基因表达分类器。
另一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述第一阶段通过使用结肠腺癌病人的基因表达信息和临床信息,采用有监督的机器学习方法挑选与真实预后情况高度相关的基因。
另一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中对所有基因的表达和预后情况的Pearson系数的绝对值由大到小排序,获得与真实三年内复发情况高度相关的基因。
另一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中使用留一交叉验证方法获得最佳的基因类别和数目,从而构建所述基因表达分类器雏形。
另一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中使用基因表达分类器雏形计算用于验证的肿瘤样本的风险系数,预测其复发风险,通过比较真实复发风险和预测复发风险的一致性,验证所述基因表达分类器雏形的效能。
另一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述第二阶段包括特征(基因)排序,所述特征(基因)排序基于单因素的Cox比例风险回归模型所得p值进行。
另一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述第二阶段采用KM生存分析计算高风险组和低风险组之间的时序检验p值,时序检验p值最小的Cox模型所包含的基因种类和数目就是所构建的基因表达分类器。
另一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中验证阶段使用基因表达芯片数据集验证所获得的基因表达分类器。
另一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器及其构建方法,实现对结肠腺癌病人的无复发生存期和总体生存期进行精准预测。
另一方面,本发明的目的是提供一种预测结肠腺癌病人预后的基因表达分类器及其构建方法,将结肠腺癌病人分为差预后和预后良好的两个亚群,为其辅助治疗提供判断依据。
另一方面,本发明的目的是提供一种在多个结肠腺癌数据集中预测结肠腺癌病人预后的基因表达分类器及其构建方法。
另一方面,本发明的目的是提供一种在结肠腺癌数据集中预测结肠腺癌病人预后的基因表达分类器及其构建方法,所述多个结肠腺癌数据集选自GSE39582、GSE17538。
另一方面,本发明提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其包括:数据训练阶段和验证阶段。
另一方面,本发明提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述训练阶段包括第一阶段和第二阶段。
另一方面,本发明提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述第一阶段包括:使用TCGA结肠腺癌病人的基因表达信息和临床信息,使用有监督的机器学习方法建立能预测结肠腺癌病人预后的基因表达分类器雏形。
另一方面,本发明提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中有监督的机器学习的方法如下:
分组:对满足条件的结肠腺癌病人的基因表达数据在分组前进行标准化处理,然后分别从临床上差预后和预后良好的病人中随机选取第一数量病人和第二数量作为训练组,剩余病人作为验证组;
筛选与真实预后情况高度相关的基因:从训练组数据着手,差预后的病人真实预后状态赋值1,预后良好的病人真实预后状态赋值0。在训练组队列中,计算每个基因的表达值与真实预后状态的Pearson相关系数,选择绝对Pearson相关系数大于或等于0.3的基因,为了排除获得的回归系数分布是随机概率产生的可能性,运用置换检验方法产生了10,000个Monte-Carlo模拟试验,从而对训练组的病人的基因表达数据和预后分组信息进行随机化处理;
有监督的分类方法:将挑选出来的基因按照相关系数的绝对值从大到小进行排序,得到一个排行榜,从排在最前面的两个基因开始,每次从排行榜再依次添加两个基因建立一个分类器,如此循环,直到排行榜中所有的基因都被作为报告子用尽,建立基因表达分类器雏形。
另一方面,本发明提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中使用留一交叉验证法检查所述基因表达分类器雏形的效能,步骤如下:
第一步,将一名病人留出,以备后续检验用;
第二步,通过取基因表达Z-分数的平均值计算在差预后组该分类器中所涉及的所有基因的表达模式;类似地计算在预后良好组的基因表达模式;接着,定义一个风险系数(risk-coef),所述风险系数即指该肿瘤内预后良好组的基因表达模式的相关系数减去差预后组基因表达模式的相关系数;
第三步,计算剩余的训练肿瘤样本以及第一步中留存的肿瘤样本的风险系数,将这些样本按照风险系数从小到大排序,第一数量肿瘤病人被划分为高基因组风险组,第二数量病人被划分为低基因组风险,检查每个病人真实的临床预后情况和预测的基因组风险的一致性;
循环第一到第三步,直到所有训练病人样本都被留出过一次,每次当被留出的样本的基因组风险和实际的临床预后情况相背离时,错误计数器加1次;
对于每一个分类器,设置风险系数的门槛值,将病人分为第一数量高风险和第二数量低风险的病人;同时,计算独立于训练样本的验证样本的风险系数;通过前面设置的风险系数的门槛值,可判定验证样本的基因组风险的高低;同样地,也统计验证组病人的基因组风险和实际临床预后出现不一致的次数;最终发现分别包含排行榜的前16、36、40、42、44、46、48、50、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86或118基因时的分类器预测错误次数为最低,运用所有病人的风险系数和真实预后状态进行接受者操作特性曲线分析,比较这25个分类器的准确度和敏感度。结果显示这25个分类器的准确度和敏感度没有显著差异。为了尽量不遗漏与预后高度相关的基因,排行榜的前118个基因都被选择进入第二阶段的训练步骤,即选择118-基因表达分类器作为雏形。
另一方面,本发明提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中运用一种改良版的留一交叉验证法来解决信息遗露(information leakage)的问题:
第一步,留出一个样本待验证;
第二步,运用剩余样本计算所有基因的表达和预后情况的Pearson系数,过滤得到|coef|≥0.3的基因;
第三步,运用第二步中过滤得到的基因构建分类器,并据此预测被留出的那个样本的基因组风险。
第四步,重复第一到第三步,直到所有肿瘤病人都被留出过一次,从而获得基因表达分类器。
另一方面,本发明提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述第二阶段包括:
基于训练的第一阶段获得的118-基因表达分类器,进一步运用机器学习的方法获得更加简洁的风险评分***来预测结肠腺癌病人的预后,同样是运用TCGA的病人数据,但是这次包括了在三年内删失的病例,在建模过程中,基因被称为特征;
随机分组:将这些样本随机划分为:组1和组2。
特征排序:以组1为训练数据,通过单因素的Cox比例风险回归模型计算单个特征的回归系数和p值,按照p值从小到大将118个特征重新排序,排在越前面的特征,Cox回归p值越小,与预后的相关性越大;
特征数目的优化:从排序后的第一个特征开始,从前往后每次加一个特征,运用多因素的Cox回归分析获得各个特征的Cox回归系数;运用组2病人进行交叉验证,评估此Cox模型的好坏:将组2中每个病人的相关特征的表达值与多因素Cox回归系数相乘并累加得到一个分数值,分数值高低表示病人死亡或者复发风险的高低;接着采用KM生存分析计算组2的高风险和低风险亚组之间的时序检验p值;如此循环,直到所有的特征都被纳入Cox回归模型;时序检验p值最小的Cox模型所包含的特征种类和数目就是最优的,获得基因表达分类器。
另一方面,本发明提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述验证阶段包括:
使用GEO数据库内的结肠腺癌病人的基因表达芯片数据集验证以上所获得基因表达分类器;在一个独立的数据集中,那些分数值高于群体分数值中位数的病人被划为高风险组,而其余为低风险组;KM分析用来比较高风险组和低风险组的生存曲线;时序检验p值<0.05表示有统计学差异。
在另一实施方式中,本发明提供一种12-基因表达分类器。
在另一实施方式中,本发明提供一种12-基因表达分类器,其中12基因表达分类器的基因选自由TREML2、PADI4、NCKIPSD、PTPRN、PGLYRP1、C5orf53、TREML3、NOG、VIP、FAM171B、NKAIN4和RIMKLB组成的组。
另一方面,本发明提供一种基因表达分类器,其能作为一种有效的诊断手段将结肠腺癌病人中有较高风险发展成差预后的亚群分离出来。
另一方面,本发明提供一种基因表达分类器,其能作为一种有效的诊断手段将结肠腺癌、肾癌、肺鳞癌、眼底和皮肤黑色素瘤、脑癌以及胰腺癌病人中有较高风险发展成差预后的亚群分离出来。
有益效果
本发明运用有监督的机器学习的方法建立了一种基因表达分类器来精准预测结肠腺癌预后。该基因表达分类器具有以下几种明显的优点:
1.能预测结肠腺癌病人的预后。可为结肠腺癌病人术后辅助治疗提供精准判断依据。
2.不仅可预测结肠腺癌病人的预后,在包括肾癌、肺鳞癌、眼底和皮肤黑色素瘤、脑癌以及胰腺癌中都有较为显著的预后预测功效。
附图说明
本发明的进一步特征和优点将结合附图进行描述,其中:
图1是发现表达与结肠腺癌预后高度相关的基因的示意图。A:淡绿色:所有基因的基因表达和预后类别之间的相关系数分布。有1510个基因示出了相关系数大于0.3。淡红色分布是Monte-Carlo试验,其中基因表达和预后类别之间的相关性进行了随机化。B:在10,000个Monte-Carlo试验中,绝对系数大于0.3的基因数目的频数分布。
图2是在第一训练阶段生成的25个分类器的ROC示意图
图3是在无信息遗漏的方式中产生的71个分类器中发现的原始1510个基因(蓝色)和其它基因的并集的分布。在1个分类器中,报告子基因的平均数量为1519±154。
图4是基因表达分类器的雏形。118个与预后高度相关的基因在训练数据集(上图)中以及检验数据集(下图)中20个患者的基因表达热图。每行代表一个观察(患者),每列是一个基因,基因的名称标在底部。按照与良好和差预后组的平均表达模式的相关性对肿瘤病人进行排序(左图)。按照与两种预后类型的相关系数对基因进行排序。每个肿瘤的真实预后状态在中间图中示出。
图5是在第二训练阶段,在训练(组1)(A)和验证(组2)(B)数据集中,TCGA结肠腺癌患者的高12-基因风险评分和低12-基因风险评分患者的KM分析。
图6是GSE395829(A和B)和GSE173538(C-E)中高12-基因风险评分和低12-基因风险评分患者的主要预后指标的KM分析
图7是在其它癌症类型包括泛肾癌(KIPAN,A)、肾透明细胞癌(KIRC,B)、肾乳突细胞癌(KIRP,C和D)、肺鳞状细胞癌(LUSC,E)和皮肤黑素瘤(SKCM,F)中,高12-基因风险评分和低12-基因风险评分患者的主要预后指标的KM分析。
图8是在低级别神经胶质瘤(LGG,A)、葡萄膜黑色素瘤(UVM,B)、神经母细胞瘤(GBM,C)、***和子***(CESC,D)、胰腺癌(PAAD,E)和胃腺癌(STAD,F)中,高12-基因风险评分和低12-基因风险评分患者的主要预后指标的KM分析。
具体实施方式
本发明将会参照下面的实施例进行阐述,但本发明将不限于下面的实施例。
1研究材料和方法
1.1TCGA(The Cancer Genome Altas)和GEO(Gene
Expression Omnibus)数据集的下载
从TCGA RNA-seq数据库(基因https://cancergenome.nih.gov/)下载多种癌症的RNA-seq转录组数据机器临床信息。结肠癌基因表达芯片及其临床信息从GEO数据库下载(https://www.ncbi.nlm.nih.gov/geo/)。
1.2基因表达分类器的构建
基因表达分类器的构建方法分为训练和验证两个步骤。
1.2.1训练步骤
1.2.1.1第一阶段
分组:TCGA的结肠腺癌(COAD)的基因表达数据和临床信息被用来进行第一阶段的机器学习,获得基因表达分类器雏形。满足条件的结肠腺癌病人共91位,其中42位病人在3年内(<36个月)发生了复发事件,为差预后;49位病人在等于或长于3年(>=36个月)的期间内未发生复发事件,为预后良好。这些病人的基因表达值在分组前需进行标准化(取Z-分数)。分别从差预后和预后良好的病人中随机取得32和39位病人,作为训练组。余下的病人作为验证组。
与预后高度相关的基因的筛选:RNA-seq转录组总共有20530个基因。从训练组数据着手,差预后的病人真实预后状态赋值1,预后良好的病人真实预后状态赋值0。在训练组队列中,计算每个基因的表达值与真实预后状态的Pearson相关系数。总计1510个基因的绝对Pearson相关系数大于或等于0.3。为了排除获得的回归系数分布是随机概率产生的可能性,运用置换检验方法产生了10,000个Monte-Carlo模拟试验,从而对训练组的71个病人的基因表达数据和预后分组信息进行随机化处理。在10,000个Monte-Carlo试验中,|相关系数|≥0.3的基因数目的试验的频数分布见图1B。获得|相关系数|≥0.3的基因数目≥1510的概率为0.0019(p<0.05),据此可拒绝零假设。
有监督的分类方法:很显然,1510个基因对于分类器来说数目太过庞大,基因数目需要优化。将这1510个基因按照相关系数的绝对值从大到小进行排序,得到一个排行榜(Top list)。从排在最前面的两个基因开始,每次从排行榜再依次添加两个基因建立一个分类器,如此循环,直到排行榜中所有的1510个基因都被作为报告子(reporter)用尽。因此总共建立了755个分类器。
一种称为留一交叉验证(leave-one-out cross-validation,LOOCV)的方法被用来检验这些分类器的效能,步骤如下:
第一步,将一名病人留出,以备后续检验用。
第二步,计算在差预后组该分类器中所涉及的所有基因的表达模式(poor-prognosis expression template)(取表达Z分数的平均值);类似地,计算在预后良好组的基因表达模式(good-prognosis expression template)。接着,定义一个风险系数(risk-coef)。对于一个肿瘤来说,风险系数即指该肿瘤内预后良好组的基因表达模式的Pearson相关系数减去差预后组基因表达模式的Pearson相关系数:
风险系数=预后良好组的基因表达模式的pearson相关系数-差预后组基因表达模式的pearson相关系数
第三步,计算剩余的70个训练肿瘤样本以及第一步中留存的肿瘤样本的风险系数。将这71个样本按照风险系数从小到大排序,前面32个肿瘤病人被划分为高基因组风险(high genomic risk)组,而剩余的39个病人被划分为低基因组风险(low genomic risk)组。检查每个病人真实的临床预后情况和预测的基因组风险的一致性。
循环第一到第三步,直到所有的71个训练病人样本都被留出过一次。每次当被留出的样本的基因组风险和实际的临床预后情况相背离时,错误计数器加1次。
在留一交叉验证过程中,最好的分类器应是,错误计数器收集的预测错误次数应该最少。当基因表达分类器包含排行榜的前16、36、40、42、44、46、48、50、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86或118基因时,留一交叉验证过程中的预测错误次数最低。还需要进一步判断这25个分类器中哪一个最好。对于每一个分类器,设置风险系数的门槛值,将71个病人分为32个高风险和39个低风险的病人。同时,计算独立于训练样本的20个验证样本的风险系数。通过前面设置的风险系数的门槛值,我们可判定这20个验证样本的基因组风险的高低。同样地,我们也统计验证组病人的基因组风险和实际临床预后出现不一致的次数。对于每个分类器,运用这91个TCGA病人的风险系数和真实预后状态进行接受者操作特性曲线分析(Receiver Operating Characteristic Curve,ROC),比较这25个分类器的准确度和敏感度。结果显示这25个分类器的准确度和敏感度没有显著差异(图2和表1)。为了尽量不遗漏与预后高度相关的基因,排行榜的前118个基因都被选择进入第二阶段的训练步骤。
表1 ROC分析的统计表
备注:AUC:曲线下的面积SE:标准误差95%CI:95%置信区间
无信息遗漏(information leak)的交叉验证:由于以上1510个基因是基于所有的71个训练样本获得的(包括被留出的用来验证的那个样本),因此存在信息遗漏(information leakage)所产生的过度拟合(Over-fitting)的可能性。为此,发明人运用一种改良版的留一交叉验证来评估过度拟合的程度:
第一步,留出一个样本待验证。
第二步,运用剩余的70个样本计算所有基因的表达和预后情况的Pearson系数。过滤得到|相关系数|≥0.3的基因。
第三步,运用第二步中过滤得到的基因构建分类器,并据此预测被留出的那个样本的基因组风险。
第四步,重复第一到第三步,直到所有的71个肿瘤病人都被留出过一次。
因此又获得71个分类器。结果显示原初的1510个基因中绝大多数的基因都存在于这71个分类器中(图3)。据此,可判定前面的训练过程中所引入的过度拟合相当有限。
1.2.1.2第二阶段
基于训练的第一阶段获得的118个基因,进一步运用机器学***均数)。
随机分组
将这些样本随机划分为(随机化后两组病人各临床信息无显著差异):组1和组2(表2)。
表2.240名TCGA COAD病人临床病理特征在组1和组2数据集中的比较
t检验
Fisher精确检验
§卡方检验
特征排序
以组1为训练数据,通过单因素的Cox比例风险回归模型(Cox’s proportionalhazards regression model,CPH),计算单个特征的回归系数和p值。按照p值从小到大将118个特征重新排序。排在越前面的特征,Cox回归p值越小,与预后的相关性越大。
特征数目的优化:这是一种迭代优化的过程。从排序后的第一个特征开始,从前往后每次加一个特征,运用多因素的Cox回归分析获得各个特征的Cox回归系数。运用组2病人进行交叉验证,评估此Cox模型的好坏:将组2中每个病人的相关特征的表达值与多因素Cox回归系数相乘并累加得到一个分数值(score),分数值高低表示病人死亡或者复发风险的高低。接着采用KM(Kaplan-Meier)生存分析计算组2的高风险和低风险亚组之间的时序检验p值(log Rank p-value)。如此循环,直到所有的特征都被纳入Cox回归模型。时序检验p值最小的Cox模型所包含的特征种类和数目就是最优的。
基因表达分类器的确立:
通过以上步骤确定基因表达分类器的基因数目和种类(表3),及其表达加权系数(多因素Cox回归系数),建立基因表达评分体系:
Ei:基因i的表达水平;βi:基因i的多变量Cox回归系数
1.2.2验证阶段
GEO数据库内的结肠腺癌病人的基因表达芯片数据集被用来验证以上所获得12-基因表达分类器。因为每个基因可能有多个探针,选择单因素CPH p值最小的探针来代表该基因。类似的,也需要对每个基因的探针信号进行均一化处理(将每个基因的探针信号值除以TFRC、GUSB、和RPLP0的探针信号值的几何平均数):在一个独立的数据集中,那些分数值高于群体分数值中位数的病人被划为高风险组,而其余为低风险组。KM分析用来比较高风险组和低风险组的生存曲线。时序检验p值<0.05表示有统计学差异。
另外,TCGA数据库内其他癌种的数据集也被用来验证该12-基因模型。
2.研究结果
2.1分类器雏形的建立
运用TCGA结肠腺癌的数据,采用一种无偏的筛选方法获得了1510个与真实预后状态高度相关的基因(Pearson相关系数的绝对值大于等于0.3)。在后续的留一交叉验证过程中,构建了755个分类器。当分类器包含排行榜的前16、36、40、42、44、46、48、50、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86或118基因时,预测的复发风险与真实的预后状态不相符合的累计次数最少。在这71个训练样本中,包含有前118个基因的分类器的预测准确性如图4。另外,这些分类器的准确度和敏感度在20个训练病人中也进行了验证(图2和图4,表1)。ROC分析发现,这25个分类器在预测这91个TCGA结肠腺癌病人(71个训练样本,20个验证样本)的准确度和敏感度都较为理想,且相互之间没有明显差异(图2和表1)。
2.2 12-基因表达分类器的建立
为了建立更加简洁有效的分类器,通过进一步的机器学习方法对从第一阶段的训练过程中获得的118个基因进行进一步筛选,获得了12-基因表达分类器模型。每个基因的表达加权系数如表3。每个病人都可计算出相应的12-基因表达风险值。KM生存分析的结果发现,在TCGA的训练组和验证组中,低12-基因表达风险值亚组的预后明显好于高风险值亚组(图5:DFS训练数据集:KM时序检验p=0.0001;验证数据集:KM时序检验p=0.0005)。
表3最终12-基因表达分类器模型中的基因及其表达加权系数。
2.3 12-基因表达分类器诊断预测效能验证
GSE39582和GSE17538被用来验证12-基因表达分类器的诊断预测效能。
GSE39582包含有566个结肠腺癌样本以及19个肺粘膜组织样本。Marisa等人通过这些样本开发了基因表达分类器,并定义了6种结肠腺癌的分子亚型,这些分子亚型具有不同的分子特征、临床以及预后特征(Marisa等,2013)。对于GSE39582中pMMR的病人,本发明构建的12-基因表达分类器可高效准确地将预后良好和预后较差的组别区分开[图6A和B,OS:KM时序p=0.005;无复发生存期(RFS):KM时序p=0.022]。
GSE17538中,Smith和Freeman等人通过运用结肠腺癌患者的基因芯片表达和临床预后信息,构建了一种特异表征癌症转移的基因表达模式,去预测结肠腺癌病人的复发和死亡风险(Smith等,2010;Freeman等,2012)。本发明构建的12-基因表达分类器可将GSE17538内232个结肠腺癌病人中预后良好和差预后的病人有效区分开[图6C-E,无疾病生存期(DFS):KM时序p=0.0004;疾病特异性存活(DSS):KM时序p=0.0034;总体生存期(OS):KM时序p=0.0336]。另外,晚期病人在高12-基因分值组得到显著富集(表4)。
表4高评分组和低评分组晚期病人的分布使用Fisher精确检验进行统计学分析
3.4 12-基因分类器预测其他癌症预后的能力
从TCGA数据库下载24种其他癌症的RNA-seq和临床信息,运用类似的方法来验证12-基因表达分类器在这些癌种中的预后预测能力。KM生存分析结果显示12-基因表达分类器可将结肠腺癌以外的多种癌症中的差预后和预后良好的病人区分开,这些癌种包括KIPAN(图7A,OS:KM时序p=6.815e-6)、KIRC(图7B,DFS:KM时序p=0.0480)、KIRP(图7C,DFS:KM时序p=0.0027;图7D,OS:时序p=0.0129)、LUSC(图7E,DFS;时序p=0.0071)、SKCM(图7F,DFS:时序p=0.01117)、LGG(图8A,OS:时序p=0.0031)、UVM(图8B,OS:时序p=0.0054)、GBM(图8C,OS:时序p=0.0074)、CESC(图8D,OS:时序p=0.0090)、PAAD(图8E,OS:时序p=0.0127)和STAD(图8F,OS:时序p=0.0456)。
4.讨论
为了准确预测结肠癌病人的预后,人们已经做了很多尝试去构建各种基因表达分类器。一篇荟萃分析对这些已经发表的基因表达分类器进行了总结和评估(Sanz-Pamplona等,2012),结果显示虽然这些分类器在各自的数据集中与预后高度相关,然而在其他独立的数据集中预测预后的准确度不高。因此需要更加强大更加准确的基因表达分类器在多种其他独立的数据集中也能准确预测结肠腺癌预后。通过独特的两步有监机器学习方法,我们获得一种12-基因表达分类器,该分类器的预测预后的准确度在两个独立的大型数据集中都得到了验证(GSE39582,N=459;GSE17538,N=232)。
结直肠癌术后辅助治疗的选择在临床和学术圈是近二十年来研究和讨论的热点(Dotan等,2011;Meropol,2011;Vachani等,2013)。苏格兰校际协作指南网(the ScottishIntercollegiate Guidelines Network,SIGN)、美国临床肿瘤学会(American Society ofClinical Oncology,ASCO)、美国国家综合癌症网络(National Comprehensive CancerNetwork,NCCN)遵循的临床指南也不尽相同(Gao等,2016)。就国内临床来讲,行手术的pMMR的结肠腺癌病人一般会进行5-FU单药的术后辅助化疗(Alex等,2016),由于缺少有效的临床检测方法进一步将肿瘤患者精细分群,因此很多结肠腺癌病患很可能被过度治疗。本发明开发的12-基因分类器可以将GSE39582数据集内pMMR病人预后良好和预后较差的病人有效区分开,说明该12-基因表达分类器可以开发成为一种体外诊断产品,为pMMR结肠腺癌病人术后辅助治疗的选择提供精准判断依据。
该分类器所包含的12个基因中,有7个编码的蛋白是免疫***调控相关,说明肿瘤内免疫相关因子的不正常表达往往预示着该肿瘤预后较差,这也可以解释我们构建的基因表达分类器也能预测多种其他癌症的预后。
该发明构建的12-基因表达分类器提供了一种新型的评分***,其中基因的表达值是相对表达量。相对表达量是采用TFRC,GUSB和RPLP0表达值的几何平均数来做均一化处理获得的。为了最大程度地保留不同肿瘤间的异质性,β-肌动蛋白(β-Actin,ACTB)和甘油醛-3-磷酸脱氢酶(glyceraldehyde-3-phosphate dehydrogenase,GAPDH)没有被用来作为内参基因进行基因的均一化处理,这是因为细胞骨架重塑和能量代谢的异常调控在肿瘤发展和转移过程中起着非常重要的功能,这两种关键途径的信号水平在不同的癌症患者之间往往存在很大的差异。基因表达的均一化处理非常重要,这使得该基因表达评分***灵活适用于不同的基因表达检测***,如qPCR、RNA-seq以及QuantiGene Plex等。另外本发明的12-基因表达分类器不仅可以预测结肠腺癌患者的预后,在包括肾癌、肺鳞癌、眼底和皮肤黑色素瘤、脑癌以及胰腺癌中都有较为显著的预后预测功效。
综上所述,本发明构建了一种12基因表达分类器***可准确预测结肠腺癌病人的预后,可为结肠腺癌患者术后辅助治疗的选择提供精准判断依据。
应当强调,本发明的上述实施例仅仅是可能的示例实施方式,其仅仅是为了清楚地理解本公开的原理而提出的。在不脱离本公开的精神和原理的情况下,可以对本公开的上述实施例进行许多变化和修改。所有这些修改和变化旨在被包括在本发明的范围内并由所附权利要求保护。
参考文献
1.Alex AK,Siqueira S,Coudry R,Santos J,Alves M,Hoff PM,RiechelmannRP.Response to Chemotherapy and Prognosis in Metastatic Colorectal CancerWith DNA Deficient Mismatch Repair.Clin Colorectal Cancer.2016;pii:S1533-0028(16)30255-9.
2.BrychtováV, R,Hrstka R,VídeňskáP,BencsikováB,HanákováB,DubskáL,Nenutil R,BudinskáE.Molecular Pathology of ColorectalCancer,Microsatellite Instability-the Detection,the Relationship to thePathophysiology and Prognosis.Klin Onkol.2017Spring;30(Supplementum1):153-155.Czech.
3.Cunningham D,Atkin W,Lenz HJ,Lynch HT,Minsky B,Nordlinger B,Starling N.Colorectal cancer.Lancet.2010;375:1030-47.
4.De Sousa E,Melo F,Wang X,Jansen M,et al..Poor-prognosis coloncancer is defined by a molecularly distinct subtype and develops fromserrated precursor lesions.NAT MED 2013;19:614-8.
5.Dotan E,Cohen SJ.Challenges in the management of stage II coloncancer.Semin Oncol.2011;38(4):511-20.
6.Ebata T,Hirata H,Kawauchi K.Functions of the Tumor Suppressorsp53and Rb in Actin Cytoskeleton Remodeling.Biomed Res Int.2016;2016:9231057.doi:10.1155/2016/9231057.
7.Freeman TJ,Smith JJ,Chen X,Washington MK,Roland JT,Means AL,Eschrich SA,Yeatman TJ,Deane NG,Beauchamp RD.Smad4-mediated signalinginhibits intestinal neoplasia by inhibiting expression ofβ-catenin.Gastroenterology.2012 Mar;142(3):562-71.
8.Gao S,Tibiche C,Zou J,Zaman N,Trifiro M,O'Connor-McCourt M,WangE.Identification and construction of combinatory cancer hallmark-based genesignature sets to predict recurrence and chemotherapy benefit in stage IIcolorectal cancer.JAMA Oncol.2016;2(1):37-45.
9.Marisa L,de Reyniès A,Duval A,Selves J,Gaub MP,Vescovo L,Etienne-Grimaldi MC,Schiappa R,Guenot D,Ayadi M,Kirzin S,Chazal M,Fléjou JF,BenchimolD,Berger A,Lagarde A,Pencreach E,Piard F,Elias D,Parc Y,Olschwang S,Milano G,Laurent-Puig P,Boige V.Gene expression classification of colon cancer intomolecular subtypes:characterization,validation,and prognostic value.PLoSMed.2013;10(5):e1001453.
10.Meropol N,Lyman GH,Chien R.Use of a multigene prognostic assay forselection of adjuvant chemotherapy in patients with stage II colon cancer:Impact on quality-adjusted life expectancy and costs.Poster presented at theAmerican Society Clinical Oncology Gastrointestinal Cancers Symposium;SanFrancisco,CA;January 2011.
11.Meropol NJ.Ongoing challenge of stage II colon cancer.J ClinOncol.2011;29(25):3346-3348.
12.Moloney JN,Cotter TG.ROS signalling in the biology of cancer.SeminCell Dev Biol.2017 Jun 3.pii:S1084-9521(16)30383-4.doi:10.1016/j.semcdb.2017.05.023.
13.Quasar Collaborative Group,Gray R,Barnwell J,McConkey C,Hills RK,Williams NS,Kerr DJ.Adjuvant chemotherapy versus observation in patients withcolorectal cancer:a randomised study.Lancet.2007,370(9604):2020-9.
14.Sanz-Pamplona R,Berenguer A,Cordero D,Riccadonna S,SoléX,Crous-BouM,GuinóE,Sanjuan X,Biondo S,Soriano A,Jurman G,Capella G,Furlanello C,MorenoV.Clinical value of prognosis gene expression signatures in colorectalcancer:a systematic review.PloS One.2012;7(11):e48877.
15.Smith JJ,Deane NG,Wu F,Merchant NB,Zhang B,Jiang A,Lu P,JohnsonJC,Schmidt C,Bailey CE,Eschrich S,Kis C,Levy S,Washington MK,Heslin MJ,CoffeyRJ,Yeatman TJ,Shyr Y,Beauchamp RD.Experimentally derived metastasis geneexpression profile predicts recurrence and death in patients with coloncancer.Gastroenterology.2010 Mar;138(3):958-68.
16.Stewart BW,Wild CP,editors.World Cancer Report 2014.2014.Lyon,France:International Agency for Research on Cancer.
17.Vachani C,Giantonio B.Stage II colon cancer:To treat or not totreat?2013(http://www.oncolink.org/types/article.cfm?c=124&id=9621).
18.van‘t Veer LJ,Dai H,van de Vijver MJ,Friend SH,Hart AAM,Mao M,etal.,Gene expression profiling predicts clinical outcome of breast cancer,Nature 415(2002)530-536.
19.Venook A,Niedzwiecki D,Lopatin M,et al.Validation of a 12-genecolon cancer recurrence score(RS)in patients(pts)with stage II colon cancer(CC)from CALGB 9581.Presented at:American Society of Clinical Oncology;June2011;Chicago,IL.

Claims (11)

1.一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测结肠腺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测结肠腺癌病人预后的基因表达分类器。
2.根据权利要求1所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,所述第一阶段通过使用结肠腺癌病人的基因表达信息和临床信息,采用有监督的机器学习方法挑选与真实预后情况高度相关的基因。
3.根据权利要求2所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,对所有基因的表达和预后情况的Pearson系数的绝对值由大到小排序,获得与真实三年内复发状态高度相关的基因。
4.根据权利要求1所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,使用留一交叉验证方法获得最佳的基因类别和数目,建立所述基因表达分类器雏形。
5.根据权利要求4所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,使用基因表达分类器雏形计算用于验证的肿瘤样本的风险系数,预测其复发风险,通过比较真实复发风险和预测复发风险的一致性,验证所述基因表达分类器雏形的效能。
6.根据权利要求1所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,所述第二阶段,包括特征(基因)排序,所述特征(基因)排序基于单因素的Cox比例风险回归模型所得p值进行。
7.根据权利要求1所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,所述第二阶段采用KM生存分析计算高风险组和低风险组之间的时序检验p值,时序检验p值最小的Cox模型所包含的基因种类和数目就是所构建的基因表达分类器。
8.根据权利要求1所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,验证阶段使用基因表达芯片数据集验证所获得的基因表达分类器。
9.一种基因表达分类器,其特征在于,所述基因表达分类器是根据权利要求1-8任一项权利要求所述的构建方法建立的基因表达分类器。
10.根据权利要求9所述的基因表达分类器,其特征在于,所述基因表达分类器为12-基因表达分类器。
11.根据权利要求10所述的基因表达分类器,其特征在于,所述12-基因表达分类器的基因选自由TREML2、PADI4、NCKIPSD、PTPRN、PGLYRP1 、C5orf53、TREML3、NOG、 VIP、FAM171B、NKAIN4和RIMKLB组成的组。
CN201710651894.4A 2017-08-02 2017-08-02 预测结肠腺癌预后的12‑基因表达分类器及其构建方法 Pending CN107463798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710651894.4A CN107463798A (zh) 2017-08-02 2017-08-02 预测结肠腺癌预后的12‑基因表达分类器及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710651894.4A CN107463798A (zh) 2017-08-02 2017-08-02 预测结肠腺癌预后的12‑基因表达分类器及其构建方法

Publications (1)

Publication Number Publication Date
CN107463798A true CN107463798A (zh) 2017-12-12

Family

ID=60548149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710651894.4A Pending CN107463798A (zh) 2017-08-02 2017-08-02 预测结肠腺癌预后的12‑基因表达分类器及其构建方法

Country Status (1)

Country Link
CN (1) CN107463798A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108611416A (zh) * 2018-05-09 2018-10-02 中国科学院昆明动物研究所 一种基于多基因表达特征谱的***个性化预后评估方法
CN108647493A (zh) * 2018-05-09 2018-10-12 中国科学院昆明动物研究所 一种基于多基因表达特征谱的肾透明细胞癌个性化预后评估方法
CN109486948A (zh) * 2018-10-16 2019-03-19 温州医科大学 一种功能驱动的个体化预测结直肠癌预后的多分子标志物及其装置与评价方法
CN110241221A (zh) * 2019-07-31 2019-09-17 中山大学附属第六医院 用于转移性结直肠癌预后预测的试剂盒以及***
CN110706749A (zh) * 2019-09-10 2020-01-17 至本医疗科技(上海)有限公司 一种基于组织器官分化层次关系的癌症类型预测***和方法
CN110942808A (zh) * 2019-12-10 2020-03-31 山东大学 一种基于基因大数据的预后预测方法及预测***
CN112626218A (zh) * 2021-01-07 2021-04-09 浙江科技学院 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒
CN113555118A (zh) * 2021-07-26 2021-10-26 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231702A (zh) * 2008-01-25 2008-07-30 华中科技大学 一种分类器集成方法
CN103065029A (zh) * 2011-10-20 2013-04-24 吉林大学 用于肿瘤检测的基因选择方法
CN103186717A (zh) * 2013-01-18 2013-07-03 中国科学院合肥物质科学研究院 一种基于启发式宽度优先搜索肿瘤相关基因的方法
CN104408332A (zh) * 2014-11-05 2015-03-11 深圳先进技术研究院 一种基因数据处理方法及装置
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
CN105319364A (zh) * 2015-10-28 2016-02-10 中山大学附属肿瘤医院 用于预测小肝癌复发的联合诊断标记
CN106282321A (zh) * 2015-05-26 2017-01-04 中山大学 由组织snoRNA组成的肝癌复发风险预测标志物及试剂盒

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231702A (zh) * 2008-01-25 2008-07-30 华中科技大学 一种分类器集成方法
CN103065029A (zh) * 2011-10-20 2013-04-24 吉林大学 用于肿瘤检测的基因选择方法
CN103186717A (zh) * 2013-01-18 2013-07-03 中国科学院合肥物质科学研究院 一种基于启发式宽度优先搜索肿瘤相关基因的方法
CN104408332A (zh) * 2014-11-05 2015-03-11 深圳先进技术研究院 一种基因数据处理方法及装置
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN106282321A (zh) * 2015-05-26 2017-01-04 中山大学 由组织snoRNA组成的肝癌复发风险预测标志物及试剂盒
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
CN105319364A (zh) * 2015-10-28 2016-02-10 中山大学附属肿瘤医院 用于预测小肝癌复发的联合诊断标记

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
张飞: ""机器学习算法在非小型细胞肺癌癌症阶段分类上的应用"", 《爱学术》 *
彭湘旎等: ""预后指数累计分布曲线拐点分析在卵巢癌患者预后分类中的运用"", 《中国现代医学杂志》 *
李颖新等: ""肿瘤基因表达谱分类特征基因选取问题及分析方法研究"", 《计算机学报》 *
覃婷等: ""基于肿瘤患者高维生物信息的生存预测"", 《中国卫生统计》 *
郑杰等: ""基于基因表达谱的肿瘤识别与分类特征基因提取研究"", 《数学的实践与认识》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647493B (zh) * 2018-05-09 2022-01-18 中国科学院昆明动物研究所 一种肾透明细胞癌个性化预后评估方法
CN108647493A (zh) * 2018-05-09 2018-10-12 中国科学院昆明动物研究所 一种基于多基因表达特征谱的肾透明细胞癌个性化预后评估方法
CN108611416B (zh) * 2018-05-09 2020-12-29 中国科学院昆明动物研究所 一种基于多基因表达特征谱的***个性化预后评估方法
CN108611416A (zh) * 2018-05-09 2018-10-02 中国科学院昆明动物研究所 一种基于多基因表达特征谱的***个性化预后评估方法
CN109486948A (zh) * 2018-10-16 2019-03-19 温州医科大学 一种功能驱动的个体化预测结直肠癌预后的多分子标志物及其装置与评价方法
CN110241221A (zh) * 2019-07-31 2019-09-17 中山大学附属第六医院 用于转移性结直肠癌预后预测的试剂盒以及***
CN110241221B (zh) * 2019-07-31 2022-07-19 中山大学附属第六医院 用于转移性结直肠癌预后预测的试剂盒以及***
CN110706749A (zh) * 2019-09-10 2020-01-17 至本医疗科技(上海)有限公司 一种基于组织器官分化层次关系的癌症类型预测***和方法
CN110706749B (zh) * 2019-09-10 2022-06-10 至本医疗科技(上海)有限公司 一种基于组织器官分化层次关系的癌症类型预测***和方法
CN110942808A (zh) * 2019-12-10 2020-03-31 山东大学 一种基于基因大数据的预后预测方法及预测***
CN112626218A (zh) * 2021-01-07 2021-04-09 浙江科技学院 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒
CN113555118A (zh) * 2021-07-26 2021-10-26 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN113555118B (zh) * 2021-07-26 2023-03-31 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107463798A (zh) 预测结肠腺癌预后的12‑基因表达分类器及其构建方法
Ghorani et al. The T cell differentiation landscape is shaped by tumour mutations in lung cancer
Biswas et al. A clonal expression biomarker associates with lung cancer mortality
ES2384107T3 (es) Indicadores moleculares de pronóstico de cáncer de mama y predicción de la respuesta al tratamiento
Nielsen et al. Analytical validation of the PAM50-based Prosigna Breast Cancer Prognostic Gene Signature Assay and nCounter Analysis System using formalin-fixed paraffin-embedded breast tumor specimens
Lu et al. Common human cancer genes discovered by integrated gene-expression analysis
Glinsky et al. Gene expression profiling predicts clinical outcome of prostate cancer
van't Veer et al. Gene expression profiling of breast cancer: a new tumor marker
Konstantinopoulos et al. Gene expression profile of BRCA ness that correlates with responsiveness to chemotherapy and with outcome in patients with epithelial ovarian cancer
Ding et al. Molecular subtypes of triple-negative breast cancer in women of different race and ethnicity
Staaf et al. Relation between smoking history and gene expression profiles in lung adenocarcinomas
CN107292127A (zh) 预测肺癌病人预后的基因表达分类器及其构建方法
CN101194166A (zh) 有关乳癌分类的材料和方法
Nelson Predicting prostate cancer behavior using transcript profiles
Zhang et al. Genomic features of rapid versus late relapse in triple negative breast cancer
CN109072481A (zh) 早期乳腺癌内分泌治疗后剩余风险的基因特征
CN115478092A (zh) 用于预测乳腺癌免疫治疗效果的模型
CN112831562A (zh) 一种用于预测肝癌患者切除术后复发风险的生物标志物组合、试剂盒
Zhang et al. Identification of an IRGP signature to predict prognosis and immunotherapeutic efficiency in bladder cancer
De Smet et al. Predicting the clinical behavior of ovarian cancer from gene expression profiles
Xia et al. DNA methylation-based classification of small B-cell lymphomas: a proof-of-principle study
Yang et al. LncRNA MSC-AS1 is a diagnostic biomarker and predicts poor prognosis in patients with gastric cancer by integrated bioinformatics analysis
CN109735619B (zh) 与非小细胞肺癌预后相关的分子标志物及其应用
CN110885886B (zh) 一种胶质母细胞瘤鉴别诊断及胶质瘤生存预后的分型方法
CN113774135B (zh) 一组用于预测高级别浆液性卵巢癌预后的标志物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180227

Address after: New Kumho 210061 Nanjing Road, Jiangsu province high tech development 3-1 Danish Ecological Life Science Industrial Park B building 601 room

Applicant after: Nanjing Ming Jie biopharmaceutical Testing Co., Ltd.

Address before: The new Kumho road in Pukou District of Nanjing City, Jiangsu province 210061 No. 3-1 Danish Ecological Life Science Industry Park building B 5-7F

Applicant before: Nanjing hi tech bio pharmaceutical public service platform Co., Ltd.

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171212

WD01 Invention patent application deemed withdrawn after publication