CN116246710A

CN116246710A - 一种基于集群分子的结直肠癌预测模型及应用

Info

Publication number: CN116246710A
Application number: CN202211743182.2A
Authority: CN
Inventors: 陈炳坤; 马宁芳; 周桂清; 齐玲; 彭骞
Original assignee: QINGYUAN PEOPLE'S HOSPITAL
Current assignee: QINGYUAN PEOPLE'S HOSPITAL
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-06-09

Abstract

本发明属于生物医学技术领域，公开了一种基于集群分子的结直肠癌预测模型及应用。本发明利用开放共享的人类蛋白数据库及TCGA公共数据库，运用机器学习方法进行交集分析，筛选出一组所编码蛋白可在血液中检出、且预示结直肠癌患病风险的特异性分子集，应用GEO结直肠癌数据集构建逻辑回归模型，该模型预测结直肠癌发病风险的AUC值为0.962，在测试集中能准确区分高风险和低风险人群。本发明利用多变量集合效应进行建模，起到了多变量共性筛选作用，使模型的预测准确率及灵敏度大幅提升，经血液学筛查方法简便，适宜在临床应用中推广。

Description

一种基于集群分子的结直肠癌预测模型及应用

技术领域

本发明涉及生物医学技术领域，具体涉及一种基于集群分子的结直肠癌预测模型及应用。

背景技术

结直肠癌(Colorectal cancer，CRC)是消化***最常见的恶性肿瘤之一，其发病率位居恶性肿瘤第三位，死亡率高居第二位，因早期诊断率低，大多数患者初诊的时候已处于中晚期，预后差。目前结直肠癌的筛查依赖结肠镜、结肠CT、血清学或便潜血实验等方法。结肠镜或结肠CT确诊率高但检查过程相对复杂，且费用高、普及率低，需要提前做肠道排空等准备，患者依从性低、费用相对较高，难以在日常体检中普及，患者往往是在出现便血等典型症状时就诊，导致病情延误，错失最佳治疗窗口。便潜血实验取样便捷、症状直观，易引起患者重视，但通常CRC患者待便潜血阳性时已处于进展期。血液学检测目前在临床上有广泛应用，常用的检测指标有CEA、CA199、CA242、CA50等，这些分子被证实在多种肿瘤中有表达，常作为泛癌预警信号，但受限于现有的血清学检测指标单一、检测分子特异性低及患者个体差异等因素，阳性检出率仍待提升。因此，开发新技术、提高结直肠癌早期检出率是当前亟待解决的问题。

发明内容

本发明的目的在于克服现有技术的不足之处而提供一种基于集群分子的结直肠癌预测模型及应用。

为实现上述目的，本发明采取的技术方案如下：

第一方面，本发明提供了一种基于集群分子的结直肠癌预测模型的构建方法，包括以下步骤：

(1)采集结直肠癌转录本测序数据和结直肠癌数据集；从所述结直肠癌数据集中提取探针值和探针注释，去除批次效应，得合并数据集；

(2)采集可编码血液内蛋白的基因；

(3)筛选所述结直肠癌转录本测序数据中的差异表达基因，用所得合并数据集对所述差异表达基因进行验证；

(4)用权重基因共表达网络分析方法从步骤(2)所述基因中筛选可编码血液内蛋白的结直肠癌特异性表达基因；

(5)基于机器学习方法从所述结直肠癌特异性表达基因中筛选结直肠癌特异性蛋白编码基因，得结直肠癌集群分子；

(6)验证所得结直肠癌集群分子的可信度；

(7)利用回归方法基于所述合并数据集训练队列，以所述结直肠癌集群分子表达值乘以回归系数得到联合诊断评分，即成。

本发明根据开放共享的人类蛋白数据库及TCGA公共数据库资源，运用机器学习方法进行交集分析，筛选出可编码血液内相关蛋白、且预示结直肠癌患病风险的特异性分子集，应用GEO数据库中结直肠癌数据集构建逻辑回归模型(预测模型)，应用于结直肠癌血液学筛查及风险评估，利用肿瘤细胞异常表达基因可翻译产生相应蛋白并通过不同途径释放入血液的特性，选择血液学检测法提高受检者的依从性。本发明借助CRC大样本数据库筛选与CRC高度相关的蛋白分子群，保障了检测分子的特异性；此外，CRC高表达蛋白集群分子检测绝对值带入回归方程，所得数值作为综合评价指标，显著提升了CRC诊断的客观性、准确性及灵敏度，更具代表性。

作为本发明所述的构建方法的优选实施方式，在步骤(1)中，所述转录本测序数据来自The Cancer Genome Atlas数据库；所述结直肠癌数据集来自GENE EXPRESSIONOMNIBUS数据库中独立的结直肠癌数据集GSE9348和/或GSE41258；从所述结直肠癌数据集GSE9348和/或GSE41258中提取探针值和探针注释，使用Sva软件包去除批次效应，得合并数据集。

优选的，在步骤(2)中，所述基因的数据来自人类蛋白数据库HPA和/或人类体液蛋白数据库HBFP。优选的，所述血液包括全血、血清、血浆。

作为本发明所述的构建方法的优选实施方式，在步骤(3)中，所述差异表达基因采用limma软件包筛选，筛选标准为log2 FC>1.5、FDR<0.05。

作为本发明所述的构建方法的优选实施方式，在步骤(4)中，所述利用权重基因共表达网络分析方法将高度协同变化的基因进行聚类生成相应模块，分析关联模块内基因的内连性及关联模块与结直肠癌临床病理特征的相关性，找出相关度最高模块中的核心基因；所述核心基因认为MEblue和/或MEturquoise。

作为本发明所述的构建方法的优选实施方式，在步骤(5)中，所述筛选利用拉索回归模型、随机森林算法和SVM-RFE算法筛选。所述结直肠癌特异性蛋白编码基因在结直肠癌细胞特异性高表达，其所编码蛋白通过不同方式进入血液或体液中；所述结直肠癌集群分子可作为结直肠癌血液学筛查及风险预警信号。优选的，所述结直肠癌集群分子由基因水平筛选所得，其应用涉及集群分子编码的蛋白表达

水平检测，涵盖所有免疫学、生物学、化学检测方法及其他本领域内的相关蛋白检测手段。

作为本发明所述的构建方法的优选实施方式，在步骤(6)中，所述验证通过limma软件包验证所述结直肠癌集群分子在CRC样本中的表达；用pROC软件计算所述结直肠癌集群分子ROC曲线下面积AUC及95％置信区间。

作为本发明所述的构建方法的优选实施方式，在步骤(7)中，将所述合并数据集以1:1随机分成CRC训练队列和验证队列，利用logistics回归方法在训练队列构建预测模型，同时用10折交叉验证的方法验证模型的稳定性，以所述结直肠癌集群分子表达值乘以回归系数得到联合诊断评分，用训练队列计算所述预测模型的AUC，用验证队列鉴定所述预测模型的准确率。

优选的，所述联合诊断评分的数字表达式为：Cd score＝∑(集群分子表达值×回归系数)+B，其中，所述Cd为conbined diagnosis；所述集群分子表达值为蛋白表达值；所述B为逻辑回归常数项，在回归分析中自动生成。

优选的，评价所述预测模型的优劣以实际的联合诊断评分为准，具体为受试者实际ROC曲线下面积(AUC值)及预测准确率。用ROC曲线判断各集群分子在预测结直肠癌发病风险的准确率及应用价值：AUC<0.5时表示该变量指标无预测价值，0.5<AUC<0.7表示该变量指标预测准确率低，0.5<AUC<0.7表示该变量指标预测准确率中等，AUC>0.9表示评价指标准确率高，理想指标为AUC＝1。

第二方面，本发明提供一种上述方法构建的基于集群分子的结直肠癌预测模型。

第三方面，本发明将结直肠癌集群分子在制备结直肠癌筛查和/或预测试剂中应用，所述结直肠癌集群分子包括QSOX2、TGFBI、CD44、INHBA、S100A11、VEGFA和MET。优选的，所述结直肠癌集群分子的表达联合诊断评分在制备结直肠癌筛查和/或预测试剂中应用，可作为结直肠癌的预警信号和早期分子筛查手段。其中，所述QSOX2编码的分泌蛋白与肿瘤增殖有关；TGFBI是一种由转化生长因子β诱导的肿瘤相关分泌蛋白；VEGFA与血管生成有关；CD44与肿瘤干性相关；MET与肿瘤突变wnt信号通路相关；S100A11为S100蛋白家族成员，在多种肿瘤中高表达；INHBA为转化生长因子-β(TGF-β)超家族一员，与肿瘤血管生成等有关。

第四方面，本发明将所述的基于集群分子的结直肠癌预测模型在制备结直肠癌筛查和/或预测的试剂中应用。

与现有技术相比，本发明的有益效果为：

本发明基于结直肠癌特异性表达集群分子Cd score值构建的CRC预测模型进行血液学筛查，检测指标筛自多个数据库中CRC测序数据库，样本量大，具有较好的代表性。经临床结直肠癌确诊样本验证，通过检测临床结直肠癌患者血液内蛋白集群分子表达，代入预测模型计算Cd-score分值，其AUC为0.962，准确率为91.9％，与临床沿用的CEA血液学检测结果相比(AUC为0.71，准确率为79.7％)，应用本蛋白集群分子预测模型的准确率提高了12.2％，相较于结直肠镜及CT检查，本方法简单、经济，便于推广，适用于CRC的早期筛查。

附图说明

图1为CRC血液内特异性集群分子筛选及预测模型构建流程示意图。

图2为基于TCGA-CRC数据集的差异表达基因聚类分析；A为差异基因火山图；B为差异表达基因热图。

图3为权重基因共表达网络分析(WGCNA)；A为WGCNA软阈值；B为基因树状图及模块类别；C为模块基因权重分析。

图4为差异表达分子富集分析。

图5为三种算法交集分析及差异表达分子筛选。

图6为基于GSE9438和GSE41258合并数据集的差异表达分子验证；A为结直肠癌差异基因表达水平验证；B为各基因ROC曲线及AUC值。

图7为基于GEO合并数据集的集群分子模型及CEA模型预测效果；A为集群分子及CEA对照模型ROC曲线；B为两个模型混淆矩阵。

图8为集群分子在临床样本中的表达；A为结直肠癌临床样本集群分子mRNA检测；B为结直肠癌临床样本集群分子蛋白水平检测。

图9为CRC集群分子与CEA对CRC患者临床血清样本的预测应用；A为集群分子预测模型与CEA对照模型的ROC曲线；B为集群分子预测模型与CEA对照模型的混淆矩阵。

具体实施方式

为更好地说明本发明的目的、技术方案和优点，下面将结合具体实施例对本发明作进一步说明。本领域技术人员应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例中所用的试验方法如无特殊说明，均为常规方法；所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例：建立基于结直肠癌特异性蛋白集群分子表达的血液学预测模型

血液中含有来自各组织器官内细胞合成分泌或以其他方式释放至血液内的蛋白，主要包括细胞因子、生长因子、补体、抗体、肽类激素及免疫球蛋白等具有重要生理功能的蛋白质。组学技术及生物信息学技术的快速发展推进了肿瘤学研究进程。本发明利用全球共享的公共数据库，通过获取各类恶性肿瘤测序数据库进行数据挖掘分析，筛选血液内特定肿瘤特异性标记物，以期提高临床诊断率。

本发明利用TCGA、GEO数据库中结直肠癌转录本测序数据，筛选结直肠癌差异表达基因；比对血液内各类蛋白编码基因，用拉索回归模型、随机森林算法和SVM-RFE算法等机器学习方法进行交集分析，筛选出7个相交集的CRC特征性蛋白分子(QSOX2、TGFBI、CD44、INHBA、CD44、VEGFA、MET)，经GEO数据库中CRC数据集进行验证，用logistics回归方法构建基于“结直肠癌特征性蛋白集群”血液学检测值的方程式即预测模型，可用于结直肠癌血液学筛查。技术流程如图1所示。

具体如下：

1、患者数据集筛选

采用来自三个不同数据集的数据为研究对象，分别为The Cancer Genome Atlas(TCGA)中结直肠癌(colorectal cancer，CRC)转录本测序数据；GENE EXPRESSION OMNIBUS(GEO)数据库中两个独立的结直肠癌数据集GSE9348和GSE41258。两个数据库中3个独立的数据集涵盖亚洲与欧美人群，其中TCGA中CRC数据库总样本为699例，包括健康样本55例，肿瘤样本644例；GSE9348合并GSE41258数据集后总样本数472例，可用样本460例，样本汇总信息详见表1。

表1：三个独立数据集临床信息汇总

2、确定可能存在于血液内的蛋白分子

搜索人类蛋白数据库HPA(https://www.proteinatlas.org/)及人类体液蛋白数据库HBFP(https://bmbl.bmi.osumc.edu/HBFP)，筛选出1524个可编码血液内蛋白的基因。

3、基因表达数据处理

用limma软件包对TCGA-CRC数据集中癌与癌旁组织的FPKM值进行基因表达分析，以log2 FC>1.5、FDR<0.05为标准筛选差异表达基因(详见图2)，获得在CRC中表达上调基因325个、表达下调基因358个。从GEO数据库中选取两个独立的CRC数据集GSE9348和GSE41258，从原始数据库中提取探针值和探针注释，使用Sva软件包去除批次效应，将两个数据集合并生成一个新的数据集；用新生成的GEO数据集对TCGA数据库中筛选出的CRC差异表达基因进行验证。

4、用WGCNA分析法筛选可编码血液内相关蛋白的结直肠癌特异性表达基因

利用权重基因共表达网络分析(Weighted Gene Co-Expression NetworkAnalysis，WGCNA)方法进行多个样本基因表达模式的分析，将高度协同变化的基因进行聚类生成相应模块(基因集)，分析关联模块内基因的内连性及关联模块与临床病理特征的相关性，找出相关度最高模块中的核心基因(即权重分值高的模块)，本预测模型选用权重分值最高的两大模块(MEblue及MEturquoise)为备选基因集，获得与CRC临床病理特征高度相关的表达上调基因125个，对获得的上调基因做进一步基因富集分析，证明大多数上调基因在结直肠肿瘤相关通路富集(详见图3，图4)。

5、基于机器学习方法进一步筛选结直肠癌特异性蛋白编码基因

利用拉索回归模型、随机森林算法和SVM-RFE算法筛选出7个相交集的CRC同步高表达分子，分别为QSOX2、TGFBI、CD44、INHBA、S100A11、VEGFA、MET，统称为CRC集群分子(详见图5)。

6、基于GSE9438和GSE41258合并数据集的CRC集群分子可信度验证

使用limma软件包验证CRC集群分子在CRC样本中的表达，结果均为表达上调。用pROC软件计算CRC集群分子ROC曲线下面积AUC及95％置信区间(详见图6)。

7、基于CRC集群分子及GEO合并数据集构建预测模型

将GSE9438、GSE41258合并数据集以1:1随机分成CRC训练队列和验证队列，利用logistics回归方法在训练队列构建预测模型，同时用10折交叉验证的方法验证模型的稳定性，以集群分子表达值乘以回归系数得到联合诊断评分，数字表达式为：Cd score＝∑(集群分子表达值*回归系数)+B，其中集群分子表达值为蛋白表达值；Cd：conbineddiagnosis；B为逻辑回归常数项，在回归分析中自动生成。用训练队列计算本预测模型的AUC，用验证队列鉴定预测模型的准确率，结果显示训练队列AUC＝0.97，验证队列的模型预测AUC＝0.93，合并数据集模型预测AUC为0.95,准确率达90.2％；对照组采用CEA血清学检测，模型预测AUC＝0.76，准确率71.5％。上述结果表明本预测模型能够更精确区分肿瘤与非肿瘤人群(详见图7)。

8、临床CRC样本预测分析(模型验证)

收集80例CRC患者癌及癌旁配对样本(广东省清远市人民医院，依照临床实验审查委员会规定并征得患者知情同意)(详见表2)、15名正常人血清及60名CRC确诊病例血清样本(详见表3)。

表2：结肠癌患者临床病理信息

表3：血清样本临床病理信息

用定量PCR及蛋白印迹方法在mRNA及蛋白水平验证CRC组织中7个集群分子的表达，结果显示相较于癌旁组织，癌组织内各分子表达水平均上调，证明无论是基因水平或蛋白水平，本集群分子表达有异质性和代表性(详见图8)。应用酶联免疫检测试剂盒检测特征基因在血清的表达量，获得相应表达数据集(详见图9)。应用本预测模型进行逻辑回归分析，可见集群分子预测模型的AUC＝0.962，准确率达91.9％，明显高于CEA单因素预测效果(AUC＝0.71，准确率79.7％)，说明基于本发明中的集群分子预测模型能够更精准区分出CRC高风险与低风险人群。

本发明的研究结果表明，基于结直肠癌特异性表达集群分子Cd score值构建的CRC预测模型进行血液学筛查可准确预测结直肠癌的发生风险，为提升结直肠癌的检出率提供一种新的方法，有广泛的应用前景。

最后所应当说明的是，以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于集群分子的结直肠癌预测模型的构建方法，其特征在于，包括以下步骤：

(2)采集可编码血液内蛋白的基因；

(3)筛选所述结直肠癌转录本测序数据中的差异表达基因，用所述合并数据集对所述差异表达基因进行验证；

(6)验证所得结直肠癌集群分子的可信度；

(7)利用回归方法基于所述合并数据集训练队列，以所述结直肠癌集群分子表达值乘以回归系数得到联合诊断评分，即得结直肠癌预测模型。

2.根据权利要求1所述的构建方法，其特征在于，在步骤(1)中，所述转录本测序数据来自The Cancer Genome Atlas数据库；所述结直肠癌数据集来自GENE EXPRESSION OMNIBUS数据库中独立的结直肠癌数据集GSE9348和/或GSE41258；从所述结直肠癌数据集GSE9348和/或GSE41258中提取探针值和探针注释，使用Sva软件包去除批次效应，得合并数据集。

3.根据权利要求1所述的构建方法，其特征在于，在步骤(3)中，所述差异表达基因采用limma软件包筛选，筛选标准为log2 FC>1.5、FDR<0.05。

4.根据权利要求1所述的构建方法，其特征在于，在步骤(4)中，所述利用权重基因共表达网络分析方法将高度协同变化的基因进行聚类生成相应模块，分析关联模块内基因的内连性及关联模块与结直肠癌临床病理特征的相关性，找出相关度最高模块中的核心基因；所述核心基因认为MEblue和/或MEturquoise。

5.根据权利要求1所述的构建方法，其特征在于，在步骤(5)中，所述筛选利用拉索回归模型、随机森林算法和SVM-RFE算法筛选。

6.根据权利要求1所述的构建方法，其特征在于，在步骤(6)中，所述验证通过limma软件包验证所述结直肠癌集群分子在CRC样本中的表达；用pROC软件计算所述结直肠癌集群分子ROC曲线下面积AUC及95％置信区间。

7.根据权利要求1所述的构建方法，其特征在于，在步骤(7)中，将所述合并数据集以1:1随机分成CRC训练队列和验证队列，利用logistics回归方法在训练队列构建预测模型，同时用10折交叉验证的方法验证模型的稳定性，以所述结直肠癌集群分子表达值乘以回归系数得到联合诊断评分，用训练队列计算所述预测模型的AUC，用验证队列鉴定所述预测模型的准确率。

8.一种权利要求1～7所述的构建方法构建的基于集群分子的结直肠癌预测模型。

9.结直肠癌集群分子在制备结直肠癌筛查和/或预测试剂中的应用，其特征在于，所述结直肠癌集群分子包括QSOX2、TGFBI、CD44、INHBA、S100A11、VEGFA和MET。

10.权利要求8所述的基于集群分子的结直肠癌预测模型在制备结直肠癌筛查和/或预测的试剂中的应用。