CN113921079B

CN113921079B - 基于免疫相关基因的msi预测模型构建方法

Info

Publication number: CN113921079B
Application number: CN202111481486.1A
Authority: CN
Inventors: 路顺; 邓思瑶
Original assignee: Sichuan Cancer Hospital
Current assignee: Sichuan Cancer Hospital
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-18
Anticipated expiration: 2041-12-06
Also published as: CN113921079A

Abstract

本发明涉及基于免疫相关基因的MSI预测模型构建方法，包括以下步骤：从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集；从免疫学数据库中选择免疫相关基因，并从中筛选出差异基因；根据筛选出的差异基因，通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs；使用免疫相关MSI预测模型irMSIs对预后风险进行验证。本发明提供了免疫相关基因在MSI状态预测上的应用，结合免疫相关基因，找到了一组可以在消化道肿瘤特别是结肠癌中稳定预测MSI的特征基因，并且能够很好的预测结肠癌预后风险。

Description

基于免疫相关基因的MSI预测模型构建方法

技术领域

本发明涉及生物信息技术领域，特别涉及一种与结肠癌相关的基于免疫相关基因的MSI预测模型构建方法。

背景技术

近年来，针对结肠癌的肿瘤免疫治疗被认为是一种不可忽视的治疗方法，其重点是通过激活人体的免疫***，达到识别、控制和清除肿瘤的疗效。以免疫检查点抑制剂(ICIs)为靶点的药物，如细胞毒性T淋巴***相关蛋白4(CTLA-4)单抗、程序性死亡抑制因子蛋白及其配体(PD-1/PD-L1)单抗等，为治疗多种肿瘤带来了新的曙光，包括晚期黑色素瘤、非小细胞肺癌和膀胱癌。结肠癌患者也可以从免疫治疗中获益，目前美国FDA已批准PD-1免疫治疗单抗pembrolizumab、ipilimumab和nivolumab作为治疗结肠癌患者的有效药物上市。

肿瘤免疫治疗作为一线治疗方案之一，生物标志物的选择显得尤为重要。微卫星不稳定性(MSI)作为关注度最热的生物标志物之一，是指由于在DNA复制时***或缺失突变引起的微卫星序列长度改变的现象，常由错配修复功能缺陷引起，与恶性肿瘤的形成密切相关。

美国NCCN发布的结肠癌指南中，建议MSI检测应在所有结肠癌史的病人中进行，以指导临床用药。研究证实，微卫星不稳定性高(MSI-H)的晚期结肠癌患者对ICIs的敏感性明显高于微卫星稳定(MSS)/微卫星不稳定性低(MSI-L)的结肠癌患者，可通过对PD-1/PD-L1的靶向抑制，促使机体免疫***攻击和杀灭肿瘤细胞，但微卫星不稳定性(MSI)并不直接治疗或诊断肿瘤。此外，MSI与结肠癌的预后有着密切关系，预后是指对某种疾病最后结果的预测。MSI-H结肠癌患者相比MSS/MSI-L患者具有显著的生存优势，临床表现较差，但总生存期及无病生存期明显延长。

因此免疫相关基因对结肠癌的发生和发展起了至关重要的作用，传统检测MSI的方法主要为免疫组织化学(IHC)和聚合酶链式反应(PCR)，但由于IHC和PCR检测手段均需要在大型医疗机构进行，且成本较高、操作繁琐，很难在临床实践中推广至每一个患者，因此无法为大量潜在的免疫疗法敏感患者提供及时的ICIs治疗，从而丧失了临床获益机会。

发明内容

本发明的目的在于克服传统检测MSI方法的不足，提供一种基于免疫相关基因的MSI预测模型构建方法，无需额外的实验室进行IHC和PCR检测分析，以癌症基因组图谱(TCGA)和免疫学数据库(ImmPort)为基础，获取差异表达的免疫相关基因。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

基于免疫相关基因的MSI预测模型构建方法，包括以下步骤：

步骤S1：从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集；

步骤S2：从免疫学数据库中选择免疫相关基因，并从中筛选出差异基因；

步骤S3：根据筛选出的差异基因，通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs；

步骤S4：使用免疫相关MSI预测模型irMSIs对预后风险进行验证。

所述从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集的步骤，包括：

从癌症基因组图谱数据库中下载四个癌症队列，四个所述癌症队列包括结肠癌COAD、直肠癌READ、胃癌STAD、食管癌ESCA的mRNA表达谱和临床信息；

将结肠癌COAD队列作为差异基因的筛选和免疫相关MSI预测模型irMSIs的训练集，其他队列作为免疫相关MSI预测模型irMSIs的验证集。

所述从免疫学数据库中选择免疫相关基因，并从中筛选出差异基因的步骤，包括：

从免疫学数据库中下载N个免疫相关基因，从中选取M个配对基因进行分析，N>M；使用edgeR软件包筛选结肠癌COAD队列中微卫星不稳定性高MSI-H的组和微卫星稳定MSS的组之间的差异基因，或微卫星不稳定性高MSI-H的组和微卫星不稳定性低MSI-L的组之间的差异基因，筛选标准为：

假发现率FDR<0.05

|log2（Fold Change）| ≥ 1

其中FDR为假发现率，其值是针对多次检验调整确定的；Fold Change表示两组间某基因的测序数据的counts表达量的差异倍数；

从而鉴定出m个差异基因，m<M；m个差异基因中包括a个上调基因和b个下调基因，m=a+b。

所述根据筛选出的差异基因，通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs的步骤，包括：

在结肠癌COAD队列中以7:3的比例随机分为训练集和测试集，采用递归特征消除随机森林算法，鉴定出c个鲁棒性基因，c≥5，选择鲁棒性基因最强的前5个基因作为最小绝对收缩，进行LASSO逻辑回归算法的得分计算；

在结肠癌COAD队列的测试集、直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列中进行免疫相关MSI预测模型irMSIs的验证；通过ROC曲线下的面积AUC值来评估免疫相关MSI预测模型irMSIs的预测效能。

在上述方案中，选择鲁棒性基因最强的前5个基因分别为TGFBR2基因、GNLY基因、ULBP2基因、SEMA5A基因、R3HDML基因，经最小绝对收缩的系数依次为-0.077、0.084、0.070、-0.064、-0.055，然后可以进行LASSO逻辑回归算法的得分计算：

irMSIs = 0.683 -0.077 * TGFBR2表达水平+ 0.084 * GNLY表达水平+ 0.070 *ULBP2表达水平- 0.064 * SEMA5A表达水平- 0.055 * R3HDML表达水平。

所述使用免疫相关MSI预测模型irMSIs对预后风险进行验证的步骤，包括：

在结肠癌COAD队列中，根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的临界值，将患者分为irMSIs高组和irMSIs低组；

根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的中位数，将患者分为微卫星稳定MSS、微卫星不稳定性低MSI-L中的高组和微卫星稳定MSS、微卫星不稳定性低MSI-L中的低组；

根据ROC值最高Yoden指数的临界值和ROC值最高Yoden指数的中位数，将患者分为irMSIs高组、irMSIs中组和irMSIs低组，比较三组患者之间的预后差别。

与现有技术相比，本发明的有益效果：

本发明提供了免疫相关基因在MSI状态预测上的应用，结合免疫相关基因，找到了一组可以在消化道肿瘤特别是结肠癌中稳定预测MSI的特征基因，并且能够很好的预测结肠癌预后风险。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明流程示意图；

图2为本发明实施例筛选出的差异基因火山图；

图3为本发明实施例预测模型irMSIs的建立和评估示意图；其中图3（A）为采用LASSO逻辑回归算法建立预测模型irMSIs的参数示意图；图3（B）为采用LASSO逻辑回归算法建立预测模型irMSIs的系数示意图；图3（C）为在结肠癌COAD队列中通过训练集和验证集的ROC曲线对预测模型irMSIs进行评价的示意图；图3（D）为在直肠癌READ、胃癌STAD、食管癌ESCA队列中通过ROC曲线对预测模型irMSI进行评价的示意图。

图4为本发明实施例各组间的OS和DSS的生存分析示意图；其中图4（A）为结肠癌COAD队列中MSS/MSI-L的OS和DSS生存情况示意图；图4（B）为MSI-H组的OS和DSS生存情况示意图；图4（C）为结肠癌COAD队列中irMSIs高组和irMSIs低组之间的OS生存情况示意图；图4（D）为结肠癌COAD队列中irMSIs高组和irMSIs低组之间的DSS生存情况示意图；图4（E）为结肠癌COAD队列中MSS/MSI-L中的高组和MSS/MSI-L中的低组之间的OS生存情况示意图；图4（F）为结肠癌COAD队列中MSS/MSI-L中的高组和MSS/MSI-L中的低组之间的DSS生存情况示意图；图4（G）为结肠癌COAD队列中irMSIs高组、irMSIs中组和irMSIs低组之间的OS生存情况示意图；图4（H）为结肠癌COAD队列中irMSIs高组、irMSIs中组和irMSIs低组之间的DSS生存情况示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性，或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

实施例：

本发明通过下述技术方案实现，请参见图1，基于免疫相关基因的MSI预测模型构建方法，包括以下步骤：

步骤S1：从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集。

从癌症基因组图谱数据库TCGA（以下简称TCGA）中下载四个癌症队列，四个所述癌症队列包括结肠癌COAD（n=551）、直肠癌READ（n=177）、胃癌STAD（n=407）、食管癌ESCA（n=173）的mRNA表达谱和临床信息。将结肠癌COAD队列作为差异基因的筛选和免疫相关MSI预测模型irMSIs的训练集，其他队列作为免疫相关MSI预测模型irMSIs的验证集。

将上述队列中每百万每千碱基的片段（FKPM）转化为每百万转录本数（TPM），再加1和log2进行表达数据归一化。排除重复、复发和正常的组织样本，或缺乏MSI状态的组织样本后，共有1028个样本被纳入。

步骤S2：从免疫学数据库中选择免疫相关基因，并从中筛选出差异基因。

从免疫学数据库ImmPort（以下简称ImmPort）中下载N个免疫相关基因，从中选取M个配对基因进行分析，N>M；使用edgeR软件包筛选结肠癌COAD队列中微卫星不稳定性高MSI-H的组和微卫星稳定MSS的组/微卫星不稳定性低MSI-L的组之间的差异基因。

本实施例中下载了2428个免疫相关基因，从中选取1229个配对基因进行进一步分析，使用R软件包edgeR筛选步骤S1中结肠癌COAD队列中微卫星不稳定性高MSI-H的组和微卫星稳定MSS的组之间的差异基因，或微卫星不稳定行高MSI-H的组和微卫星不稳定性低MSI-L的组之间的差异基因。

需要说明的是，在后续微卫星不稳定性高MSI-H的组简称为MSI-H，微卫星稳定MSS的组简称为MSS，微卫星不稳定性低MSI-L的组简称为MSI-L，MSS/MSI-L表示微卫星稳定MSS的组或微卫星不稳定性低MSI-L的组。

筛选方式为：对原始测序的read counts数据计算count-per-million（CPM），利用TMM法进行归一化，计算每个样本的size factor；使用likelihood ratio test （似然比检验）对比MSI-H与MSS/MSI-L两组之间的差异表达基因，其中筛选标准为：假发现率FDR<0.05，|log2（Fold Change）| ≥ 1。其中FDR为假发现率，其值是针对多次检验调整确定的P值（通过Benjamini-Hochberg法）；Fold Change表示两组间某基因的测序数据的counts表达量的差异倍数。从而鉴定出233个差异基因，233个差异基因中包括112个上调基因和121个下调基因，请参见图2所示的火山图。

步骤S3：根据筛选出的差异基因，通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs。

在结肠癌COAD队列中以7:3的比例随机分为训练集和测试集，将上述所鉴定的233个差异基因，利用“caret”包剔除低方差的稀疏变量及高度相关变量，变量系数均为0.8，随后利用“randomForest”包采用随机森林递归特征消除算法，鉴定出65个鲁棒性基因。选择如表1所示的鲁棒性基因最强的前5个基因作为最小绝对收缩算法（LASSO）的输入，请参见图3（A）、图3（B），进行LASSO逻辑回归算法的得分计算：

表1

在结肠癌COAD队列的测试集、直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列中进行免疫相关MSI预测模型irMSIs的验证，通过ROC曲线下的面积AUC值来评估免疫相关MSI预测模型irMSIs的预测效能。其中，训练集AUC值为0.974（95%CI：0.954-0.994），验证集AUC值为0.999（95%CI：0.985-1.000），表明免疫相关MSI预测模型irMSIs具有显著性预测效果。

此外，请参见图3（C）、图3（D），还使用免疫相关MSI预测模型irMSIs对直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列进行预测，AUC值分别为0.845（95%CI：0.800-0.899）、0.855（95%CI：0.608-1.000）、0.824（95%CI：0.582-1.000）。

在结肠癌COAD队列中，根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的临界值（0.325），将患者分为irMSIs高组和irMSIs低组时，irMSIs高组和irMSIs低组之间的生存差异没有统计学意义，这与实际MSI状态相对应，请参见图4（A）-图4（D）。

而根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的中位数，将患者分为MSS、MSI-L中的高组和MSS、MSI-L中的低组时，5年内总生存期OS和疾病特异性生存期DSS有显著性差异。MSS、MSI-L中的低组生存率明显高于MSS、MSI-L中的高组（OS：P =0.0063；DSS：P = 0.0026；P表示两组生存分析的差异显著性），请参见图4（E）、图4（F）。

因此，根据ROC值最高Yoden指数的临界值和ROC值最高Yoden指数的中位数，将患者分为irMSIs高组、irMSIs中组和irMSIs低组，比较三组患者之间的预后差别，结果显示irMSIs低组的患者预后最好，而irMSIs中组的患者预后最差（OS:P = 0.0130；DSS:P =0.0055），请参见图4（G）、图4（H）。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.基于免疫相关基因的MSI预测模型构建方法，其特征在于：包括以下步骤：

步骤S4：使用免疫相关MSI预测模型irMSIs对预后风险进行验证；

将结肠癌COAD队列作为差异基因的筛选和免疫相关MSI预测模型irMSIs的训练集，其他队列作为免疫相关MSI预测模型irMSIs的验证集；

假发现率FDR<0.05

|log2（Fold Change）| ≥ 1

2.根据权利要求1所述的基于免疫相关基因的MSI预测模型构建方法，其特征在于：所述根据筛选出的差异基因，通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs的步骤，包括：

在结肠癌COAD队列中以7:3的比例随机分为训练集和测试集，采用递归特征消除随机森林算法，鉴定出c个鲁棒性基因，c≥5，选择鲁棒性基因最强的前5个基因作为最小绝对收缩算法LASSO的输入，进行LASSO逻辑回归算法的得分计算；

3.根据权利要求2所述的基于免疫相关基因的MSI预测模型构建方法，其特征在于：所述使用免疫相关MSI预测模型irMSIs对预后风险进行验证的步骤，包括：