CN113921079B - 基于免疫相关基因的msi预测模型构建方法 - Google Patents

基于免疫相关基因的msi预测模型构建方法 Download PDF

Info

Publication number
CN113921079B
CN113921079B CN202111481486.1A CN202111481486A CN113921079B CN 113921079 B CN113921079 B CN 113921079B CN 202111481486 A CN202111481486 A CN 202111481486A CN 113921079 B CN113921079 B CN 113921079B
Authority
CN
China
Prior art keywords
immune
msi
genes
irmsis
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111481486.1A
Other languages
English (en)
Other versions
CN113921079A (zh
Inventor
路顺
邓思瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Cancer Hospital
Original Assignee
Sichuan Cancer Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Cancer Hospital filed Critical Sichuan Cancer Hospital
Priority to CN202111481486.1A priority Critical patent/CN113921079B/zh
Publication of CN113921079A publication Critical patent/CN113921079A/zh
Application granted granted Critical
Publication of CN113921079B publication Critical patent/CN113921079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及基于免疫相关基因的MSI预测模型构建方法,包括以下步骤:从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集;从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因;根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs;使用免疫相关MSI预测模型irMSIs对预后风险进行验证。本发明提供了免疫相关基因在MSI状态预测上的应用,结合免疫相关基因,找到了一组可以在消化道肿瘤特别是结肠癌中稳定预测MSI的特征基因,并且能够很好的预测结肠癌预后风险。

Description

基于免疫相关基因的MSI预测模型构建方法
技术领域
本发明涉及生物信息技术领域,特别涉及一种与结肠癌相关的基于免疫相关基因的MSI预测模型构建方法。
背景技术
近年来,针对结肠癌的肿瘤免疫治疗被认为是一种不可忽视的治疗方法,其重点是通过激活人体的免疫***,达到识别、控制和清除肿瘤的疗效。以免疫检查点抑制剂(ICIs)为靶点的药物,如细胞毒性T淋巴***相关蛋白4(CTLA-4)单抗、程序性死亡抑制因子蛋白及其配体(PD-1/PD-L1)单抗等,为治疗多种肿瘤带来了新的曙光,包括晚期黑色素瘤、非小细胞肺癌和膀胱癌。结肠癌患者也可以从免疫治疗中获益,目前美国FDA已批准PD-1免疫治疗单抗pembrolizumab、ipilimumab和nivolumab作为治疗结肠癌患者的有效药物上市。
肿瘤免疫治疗作为一线治疗方案之一,生物标志物的选择显得尤为重要。微卫星不稳定性(MSI)作为关注度最热的生物标志物之一,是指由于在DNA复制时***或缺失突变引起的微卫星序列长度改变的现象,常由错配修复功能缺陷引起,与恶性肿瘤的形成密切相关。
美国NCCN发布的结肠癌指南中,建议MSI检测应在所有结肠癌史的病人中进行,以指导临床用药。研究证实,微卫星不稳定性高(MSI-H)的晚期结肠癌患者对ICIs的敏感性明显高于微卫星稳定(MSS)/微卫星不稳定性低(MSI-L)的结肠癌患者,可通过对PD-1/PD-L1的靶向抑制,促使机体免疫***攻击和杀灭肿瘤细胞,但微卫星不稳定性(MSI)并不直接治疗或诊断肿瘤。此外,MSI与结肠癌的预后有着密切关系,预后是指对某种疾病最后结果的预测。MSI-H结肠癌患者相比MSS/MSI-L患者具有显著的生存优势,临床表现较差,但总生存期及无病生存期明显延长。
因此免疫相关基因对结肠癌的发生和发展起了至关重要的作用,传统检测MSI的方法主要为免疫组织化学(IHC)和聚合酶链式反应(PCR),但由于IHC和PCR检测手段均需要在大型医疗机构进行,且成本较高、操作繁琐,很难在临床实践中推广至每一个患者,因此无法为大量潜在的免疫疗法敏感患者提供及时的ICIs治疗,从而丧失了临床获益机会。
发明内容
本发明的目的在于克服传统检测MSI方法的不足,提供一种基于免疫相关基因的MSI预测模型构建方法,无需额外的实验室进行IHC和PCR检测分析,以癌症基因组图谱(TCGA)和免疫学数据库(ImmPort)为基础,获取差异表达的免疫相关基因。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
基于免疫相关基因的MSI预测模型构建方法,包括以下步骤:
步骤S1:从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集;
步骤S2:从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因;
步骤S3:根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs;
步骤S4:使用免疫相关MSI预测模型irMSIs对预后风险进行验证。
所述从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集的步骤,包括:
从癌症基因组图谱数据库中下载四个癌症队列,四个所述癌症队列包括结肠癌COAD、直肠癌READ、胃癌STAD、食管癌ESCA的mRNA表达谱和临床信息;
将结肠癌COAD队列作为差异基因的筛选和免疫相关MSI预测模型irMSIs的训练集,其他队列作为免疫相关MSI预测模型irMSIs的验证集。
所述从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因的步骤,包括:
从免疫学数据库中下载N个免疫相关基因,从中选取M个配对基因进行分析,N>M;使用edgeR软件包筛选结肠癌COAD队列中微卫星不稳定性高MSI-H的组和微卫星稳定MSS的组之间的差异基因,或微卫星不稳定性高MSI-H的组和微卫星不稳定性低MSI-L的组之间的差异基因,筛选标准为:
假发现率FDR<0.05
|log2(Fold Change)| ≥ 1
其中FDR为假发现率,其值是针对多次检验调整确定的;Fold Change表示两组间某基因的测序数据的counts表达量的差异倍数;
从而鉴定出m个差异基因,m<M;m个差异基因中包括a个上调基因和b个下调基因,m=a+b。
所述根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs的步骤,包括:
在结肠癌COAD队列中以7:3的比例随机分为训练集和测试集,采用递归特征消除随机森林算法,鉴定出c个鲁棒性基因,c≥5,选择鲁棒性基因最强的前5个基因作为最小绝对收缩,进行LASSO逻辑回归算法的得分计算;
在结肠癌COAD队列的测试集、直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列中进行免疫相关MSI预测模型irMSIs的验证;通过ROC曲线下的面积AUC值来评估免疫相关MSI预测模型irMSIs的预测效能。
在上述方案中,选择鲁棒性基因最强的前5个基因分别为TGFBR2基因、GNLY基因、ULBP2基因、SEMA5A基因、R3HDML基因,经最小绝对收缩的系数依次为-0.077、0.084、0.070、-0.064、-0.055,然后可以进行LASSO逻辑回归算法的得分计算:
irMSIs = 0.683 -0.077 * TGFBR2表达水平+ 0.084 * GNLY表达水平+ 0.070 *ULBP2表达水平- 0.064 * SEMA5A表达水平- 0.055 * R3HDML表达水平。
所述使用免疫相关MSI预测模型irMSIs对预后风险进行验证的步骤,包括:
在结肠癌COAD队列中,根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的临界值,将患者分为irMSIs高组和irMSIs低组;
根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的中位数,将患者分为微卫星稳定MSS、微卫星不稳定性低MSI-L中的高组和微卫星稳定MSS、微卫星不稳定性低MSI-L中的低组;
根据ROC值最高Yoden指数的临界值和ROC值最高Yoden指数的中位数,将患者分为irMSIs高组、irMSIs中组和irMSIs低组,比较三组患者之间的预后差别。
与现有技术相比,本发明的有益效果:
本发明提供了免疫相关基因在MSI状态预测上的应用,结合免疫相关基因,找到了一组可以在消化道肿瘤特别是结肠癌中稳定预测MSI的特征基因,并且能够很好的预测结肠癌预后风险。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明流程示意图;
图2为本发明实施例筛选出的差异基因火山图;
图3为本发明实施例预测模型irMSIs的建立和评估示意图;其中图3(A)为采用LASSO逻辑回归算法建立预测模型irMSIs的参数示意图;图3(B)为采用LASSO逻辑回归算法建立预测模型irMSIs的系数示意图;图3(C)为在结肠癌COAD队列中通过训练集和验证集的ROC曲线对预测模型irMSIs进行评价的示意图;图3(D)为在直肠癌READ、胃癌STAD、食管癌ESCA队列中通过ROC曲线对预测模型irMSI进行评价的示意图。
图4为本发明实施例各组间的OS和DSS的生存分析示意图;其中图4(A)为结肠癌COAD队列中MSS/MSI-L的OS和DSS生存情况示意图;图4(B)为MSI-H组的OS和DSS生存情况示意图;图4(C)为结肠癌COAD队列中irMSIs高组和irMSIs低组之间的OS生存情况示意图;图4(D)为结肠癌COAD队列中irMSIs高组和irMSIs低组之间的DSS生存情况示意图;图4(E)为结肠癌COAD队列中MSS/MSI-L中的高组和MSS/MSI-L中的低组之间的OS生存情况示意图;图4(F)为结肠癌COAD队列中MSS/MSI-L中的高组和MSS/MSI-L中的低组之间的DSS生存情况示意图;图4(G)为结肠癌COAD队列中irMSIs高组、irMSIs中组和irMSIs低组之间的OS生存情况示意图;图4(H)为结肠癌COAD队列中irMSIs高组、irMSIs中组和irMSIs低组之间的DSS生存情况示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性,或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
实施例:
本发明通过下述技术方案实现,请参见图1,基于免疫相关基因的MSI预测模型构建方法,包括以下步骤:
步骤S1:从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集。
从癌症基因组图谱数据库TCGA(以下简称TCGA)中下载四个癌症队列,四个所述癌症队列包括结肠癌COAD(n=551)、直肠癌READ(n=177)、胃癌STAD(n=407)、食管癌ESCA(n=173)的mRNA表达谱和临床信息。将结肠癌COAD队列作为差异基因的筛选和免疫相关MSI预测模型irMSIs的训练集,其他队列作为免疫相关MSI预测模型irMSIs的验证集。
将上述队列中每百万每千碱基的片段(FKPM)转化为每百万转录本数(TPM),再加1和log2进行表达数据归一化。排除重复、复发和正常的组织样本,或缺乏MSI状态的组织样本后,共有1028个样本被纳入。
步骤S2:从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因。
从免疫学数据库ImmPort(以下简称ImmPort)中下载N个免疫相关基因,从中选取M个配对基因进行分析,N>M;使用edgeR软件包筛选结肠癌COAD队列中微卫星不稳定性高MSI-H的组和微卫星稳定MSS的组/微卫星不稳定性低MSI-L的组之间的差异基因。
本实施例中下载了2428个免疫相关基因,从中选取1229个配对基因进行进一步分析,使用R软件包edgeR筛选步骤S1中结肠癌COAD队列中微卫星不稳定性高MSI-H的组和微卫星稳定MSS的组之间的差异基因,或微卫星不稳定行高MSI-H的组和微卫星不稳定性低MSI-L的组之间的差异基因。
需要说明的是,在后续微卫星不稳定性高MSI-H的组简称为MSI-H,微卫星稳定MSS的组简称为MSS,微卫星不稳定性低MSI-L的组简称为MSI-L,MSS/MSI-L表示微卫星稳定MSS的组或微卫星不稳定性低MSI-L的组。
筛选方式为:对原始测序的read counts数据计算count-per-million(CPM),利用TMM法进行归一化,计算每个样本的size factor;使用likelihood ratio test (似然比检验)对比MSI-H与MSS/MSI-L两组之间的差异表达基因,其中筛选标准为:假发现率FDR<0.05,|log2(Fold Change)| ≥ 1。其中FDR为假发现率,其值是针对多次检验调整确定的P值(通过Benjamini-Hochberg法);Fold Change表示两组间某基因的测序数据的counts表达量的差异倍数。从而鉴定出233个差异基因,233个差异基因中包括112个上调基因和121个下调基因,请参见图2所示的火山图。
步骤S3:根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs。
在结肠癌COAD队列中以7:3的比例随机分为训练集和测试集,将上述所鉴定的233个差异基因,利用“caret”包剔除低方差的稀疏变量及高度相关变量,变量系数均为0.8,随后利用“randomForest”包采用随机森林递归特征消除算法,鉴定出65个鲁棒性基因。选择如表1所示的鲁棒性基因最强的前5个基因作为最小绝对收缩算法(LASSO)的输入,请参见图3(A)、图3(B),进行LASSO逻辑回归算法的得分计算:
irMSIs = 0.683 -0.077 * TGFBR2表达水平+ 0.084 * GNLY表达水平+ 0.070 *ULBP2表达水平- 0.064 * SEMA5A表达水平- 0.055 * R3HDML表达水平。
表1
Figure 76138DEST_PATH_IMAGE002
在结肠癌COAD队列的测试集、直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列中进行免疫相关MSI预测模型irMSIs的验证,通过ROC曲线下的面积AUC值来评估免疫相关MSI预测模型irMSIs的预测效能。其中,训练集AUC值为0.974(95%CI:0.954-0.994),验证集AUC值为0.999(95%CI:0.985-1.000),表明免疫相关MSI预测模型irMSIs具有显著性预测效果。
此外,请参见图3(C)、图3(D),还使用免疫相关MSI预测模型irMSIs对直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列进行预测,AUC值分别为0.845(95%CI:0.800-0.899)、0.855(95%CI:0.608-1.000)、0.824(95%CI:0.582-1.000)。
步骤S4:使用免疫相关MSI预测模型irMSIs对预后风险进行验证。
在结肠癌COAD队列中,根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的临界值(0.325),将患者分为irMSIs高组和irMSIs低组时,irMSIs高组和irMSIs低组之间的生存差异没有统计学意义,这与实际MSI状态相对应,请参见图4(A)-图4(D)。
而根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的中位数,将患者分为MSS、MSI-L中的高组和MSS、MSI-L中的低组时,5年内总生存期OS和疾病特异性生存期DSS有显著性差异。MSS、MSI-L中的低组生存率明显高于MSS、MSI-L中的高组(OS:P =0.0063;DSS:P = 0.0026;P表示两组生存分析的差异显著性),请参见图4(E)、图4(F)。
因此,根据ROC值最高Yoden指数的临界值和ROC值最高Yoden指数的中位数,将患者分为irMSIs高组、irMSIs中组和irMSIs低组,比较三组患者之间的预后差别,结果显示irMSIs低组的患者预后最好,而irMSIs中组的患者预后最差(OS:P = 0.0130;DSS:P =0.0055),请参见图4(G)、图4(H)。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (3)

1.基于免疫相关基因的MSI预测模型构建方法,其特征在于:包括以下步骤:
步骤S1:从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集;
步骤S2:从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因;
步骤S3:根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs;
步骤S4:使用免疫相关MSI预测模型irMSIs对预后风险进行验证;
所述从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集的步骤,包括:
从癌症基因组图谱数据库中下载四个癌症队列,四个所述癌症队列包括结肠癌COAD、直肠癌READ、胃癌STAD、食管癌ESCA的mRNA表达谱和临床信息;
将结肠癌COAD队列作为差异基因的筛选和免疫相关MSI预测模型irMSIs的训练集,其他队列作为免疫相关MSI预测模型irMSIs的验证集;
所述从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因的步骤,包括:
从免疫学数据库中下载N个免疫相关基因,从中选取M个配对基因进行分析,N>M;使用edgeR软件包筛选结肠癌COAD队列中微卫星不稳定性高MSI-H的组和微卫星稳定MSS的组之间的差异基因,或微卫星不稳定性高MSI-H的组和微卫星不稳定性低MSI-L的组之间的差异基因,筛选标准为:
假发现率FDR<0.05
|log2(Fold Change)| ≥ 1
其中FDR为假发现率,其值是针对多次检验调整确定的;Fold Change表示两组间某基因的测序数据的counts表达量的差异倍数;
从而鉴定出m个差异基因,m<M;m个差异基因中包括a个上调基因和b个下调基因,m=a+b。
2.根据权利要求1所述的基于免疫相关基因的MSI预测模型构建方法,其特征在于:所述根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs的步骤,包括:
在结肠癌COAD队列中以7:3的比例随机分为训练集和测试集,采用递归特征消除随机森林算法,鉴定出c个鲁棒性基因,c≥5,选择鲁棒性基因最强的前5个基因作为最小绝对收缩算法LASSO的输入,进行LASSO逻辑回归算法的得分计算;
在结肠癌COAD队列的测试集、直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列中进行免疫相关MSI预测模型irMSIs的验证;通过ROC曲线下的面积AUC值来评估免疫相关MSI预测模型irMSIs的预测效能。
3.根据权利要求2所述的基于免疫相关基因的MSI预测模型构建方法,其特征在于:所述使用免疫相关MSI预测模型irMSIs对预后风险进行验证的步骤,包括:
在结肠癌COAD队列中,根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的临界值,将患者分为irMSIs高组和irMSIs低组;
根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的中位数,将患者分为微卫星稳定MSS、微卫星不稳定性低MSI-L中的高组和微卫星稳定MSS、微卫星不稳定性低MSI-L中的低组;
根据ROC值最高Yoden指数的临界值和ROC值最高Yoden指数的中位数,将患者分为irMSIs高组、irMSIs中组和irMSIs低组,比较三组患者之间的预后差别。
CN202111481486.1A 2021-12-06 2021-12-06 基于免疫相关基因的msi预测模型构建方法 Active CN113921079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111481486.1A CN113921079B (zh) 2021-12-06 2021-12-06 基于免疫相关基因的msi预测模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111481486.1A CN113921079B (zh) 2021-12-06 2021-12-06 基于免疫相关基因的msi预测模型构建方法

Publications (2)

Publication Number Publication Date
CN113921079A CN113921079A (zh) 2022-01-11
CN113921079B true CN113921079B (zh) 2022-03-18

Family

ID=79248730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111481486.1A Active CN113921079B (zh) 2021-12-06 2021-12-06 基于免疫相关基因的msi预测模型构建方法

Country Status (1)

Country Link
CN (1) CN113921079B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324846A (zh) * 2013-06-13 2013-09-25 浙江加州国际纳米技术研究院绍兴分院 结直肠癌症治疗预后生物标记物的筛选方法
CN112687342A (zh) * 2020-11-16 2021-04-20 徐同鹏 基于tcga数据库鉴定的一组免疫相关分子标志物在食管癌预后预测中的应用
CN113421609A (zh) * 2021-08-08 2021-09-21 上海市嘉定区中心医院 一种基于lncRNA对的结肠癌预后预测模型及其构建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7297770B2 (ja) * 2018-01-22 2023-06-26 リキッド バイオプシー リサーチ リミティド ライアビリティ カンパニー 結腸がんの検出および治療の方法
US11043304B2 (en) * 2019-02-26 2021-06-22 Tempus Labs, Inc. Systems and methods for using sequencing data for pathogen detection
CN110791565B (zh) * 2019-09-29 2021-09-03 浙江大学 一种用于ii期结直肠癌复发预测的预后标记基因及随机生存森林模型
CN111028223B (zh) * 2019-12-11 2023-11-07 大连医科大学附属第一医院 一种微卫星不稳定肠癌能谱ct碘水图影像组学特征处理方法
CN111304303B (zh) * 2020-02-18 2023-05-05 福建和瑞基因科技有限公司 微卫星不稳定的预测方法及其应用
CN112183557A (zh) * 2020-09-29 2021-01-05 山西医科大学 基于胃癌组织病理图像纹理特征的msi预测模型构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324846A (zh) * 2013-06-13 2013-09-25 浙江加州国际纳米技术研究院绍兴分院 结直肠癌症治疗预后生物标记物的筛选方法
CN112687342A (zh) * 2020-11-16 2021-04-20 徐同鹏 基于tcga数据库鉴定的一组免疫相关分子标志物在食管癌预后预测中的应用
CN113421609A (zh) * 2021-08-08 2021-09-21 上海市嘉定区中心医院 一种基于lncRNA对的结肠癌预后预测模型及其构建方法

Also Published As

Publication number Publication date
CN113921079A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
US20210381062A1 (en) Nasal epithelium gene expression signature and classifier for the prediction of lung cancer
Mitra et al. Prediction of postoperative recurrence-free survival in non–small cell lung cancer by using an internationally validated gene expression model
JP6782700B2 (ja) 膵・消化管神経内分泌新生物の診断のための組成物、方法およびキット
JP2014509189A (ja) 結腸ガン遺伝子発現シグネチャーおよび使用方法
Kwon et al. Prognosis of stage III colorectal carcinomas with FOLFOX adjuvant chemotherapy can be predicted by molecular subtype
CA2893033A1 (en) Molecular diagnostic test for cancer
JP2014512172A (ja) 胃腸膵神経内分泌新生物(gep−nen)の予測方法
WO2019204576A1 (en) Methods and kits for diagnosis and triage of patients with colorectal liver metastases
WO2019157345A1 (en) Compositions and methods for characterizing bladder cancer
CN115497562B (zh) 一种基于铜死亡相关基因的胰腺癌预后预测模型构建方法
EP3149209B1 (en) Methods for typing of lung cancer
WO2020237184A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
CN112779338B (zh) 用于食管癌预后评估的基因标志物
CN115410713A (zh) 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建
CN113066585A (zh) 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法
JP2019514344A (ja) 癌のエピジェネティックプロファイリング
WO2014066984A1 (en) Method for identifying a target molecular profile associated with a target cell population
JP2022501033A (ja) 膵臓病変の評価における無細胞dnaヒドロキシメチル化プロファイル
CN113921079B (zh) 基于免疫相关基因的msi预测模型构建方法
US20170088902A1 (en) Expression profiling for cancers treated with anti-angiogenic therapy
CA3085464A1 (en) Compositions and methods for diagnosing lung cancers using gene expression profiles
CN111194356A (zh) 用于检测浆细胞恶病质的方法
CN109609649B (zh) 一种用于直肠腺癌诊疗的lncRNA
CN112391474A (zh) 一种基于瘤内具核梭杆菌预测食管鳞癌转移的方法
CN114507732B (zh) 一种用于评价组织中细胞衰老特征的组合物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant