CN115762792A - 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法 - Google Patents
一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法 Download PDFInfo
- Publication number
- CN115762792A CN115762792A CN202211565423.9A CN202211565423A CN115762792A CN 115762792 A CN115762792 A CN 115762792A CN 202211565423 A CN202211565423 A CN 202211565423A CN 115762792 A CN115762792 A CN 115762792A
- Authority
- CN
- China
- Prior art keywords
- model
- lncrna
- data
- bladder cancer
- prognosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及膀胱癌预测技术领域,且公开了一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,包括以下步骤:S1:数据收集和预处理,使用FPKM数据分析来自TCGA的膀胱癌lncRNA数据,使用RSEM归一化计数类数据和进一步的log2转换表达矩阵分析来自TCGALevel3的mRNA数据,TCGA临床数据采用校正的表型数据,对数据进行预处理,通过质量控制、归一化和转换,以获得统一的表达矩阵。在研究中,数据不完整或数据缺失通常是限制模型应用的常见问题,本发明的模型在相对完整的数据基础之上构建,这使得能够在多个维度对生存进行预测,模型表现会更加稳定。
Description
技术领域
本发明涉及膀胱癌预后预测技术领域,具体为一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法。
背景技术
膀胱癌(Bladder Cancer,BC)是世界范围内最常见的恶性肿瘤之一,具有显著的肿瘤异质性。肌层浸润性膀胱癌(Muscle-invasive Bladder Cancer,MIBC)通常预后差,非肌层浸润性膀胱癌(Non-muscle-invasive Bladder Cancer,NMIBC)则相对预后较好。膀胱癌预后预测对临床治疗方案的选择具有重要意义。然而,准确地对患者不良预后的风险进行评估仍然是一个挑战。
目前已经建立起了多个膀胱癌预测模型。对于非肌层浸润性膀胱癌,这些模型主要聚焦于预测疾病复发和进展、患者对新辅助化疗的反应性、***转移以及生存预后。然而对于肌层浸润性膀胱癌来说,这些模型对患者生存预后的预测效果并不尽人意,这可能和肿瘤的异质性、患者治疗反应以及其他尚未阐明的影响膀胱癌发展相关风险因素的作用机制等相关。
对于***转移的模型,目前报道有KNN51、RF15和LN20等多个模型。据报道,KNN51预测***阳性病例的AUC为0.82(范围0.71-0.93)此外,还提出了一种术前***转移预测模型,该模型利用基因组及临床病理特征来鉴别具有膀胱癌***转移风险的患者,显示出良好的鉴别能力。我们的研究表明该复合模型在预测***转移中是有效的。然而,既往研究中对于尿路上皮癌***转移的预测模型仍无法实现临床应用,准确预测膀胱癌预后仍然是一项艰巨的挑战。
既往研究表明,长非编码RNA(Long-noncoding-RNA,lncRNA)具有显著的组织特异性,广泛参与了细胞中的表观遗传调控。多个研究表明,lncRNA在膀胱癌起重要调控作用,影响了肿瘤的治疗反应、肿瘤转移和进展。多个长非编码RNA与膀胱癌的转移有关,如H19,DLX6-AS1与BLACAT2等。但这些研究大多是聚焦于分析单个长非编码RNA在肿瘤中的生物学功能及和预后的相关性。基于多个lncRNA预测膀胱癌预后的模型研究尚少,缺乏验证和***的研究。我们拟基于统计的、无偏倚的方法构建lncRNA模型,并和基于功能研究基础上发现的lncRNA所建立的模型比较其预后预测性能。
由于膀胱癌中显著的肿瘤异质性,相似的尿路上皮癌患者治疗后可能有不同的结局。最近的研究揭示了膀胱癌的不同分子亚型具有不同的临床预后,不同分子分型的膀胱癌呈现出特异的肿瘤微环境特征,并且与患者预后显著相关。其中,肿瘤微环境中的肿瘤成纤维细胞(Cancer-associated fibroblast,CAF)与特定的肿瘤细胞分化亚型紧密相关,***丰富的亚群通常和膀胱癌的预后不良相关,这些亚群也伴随有丰富的淋巴细胞浸润,提示膀胱癌组织中存在免疫抑制。另外,已有一些研究评估免疫分子作为癌症预后生物标志物的作用,提示免疫状态可能影响膀胱癌的预后。我们假设,综合肿瘤微环境的免疫特征和间质特征信息,构建膀胱癌预后预测模型,可能提高预测的准确度,有助于指导临床制定治疗方案。
基于此,我们在这项研究中,构建并优化了一个长非编码RNA融合模型。该模型融入了临床风险因素、肿瘤微环境***、免疫细胞亚型的基因表达信息,用于预测膀胱癌患者的预后。该模型在准确预测膀胱癌预后方面性能优异,且具有可扩展性。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,包括以下步骤:
S1:数据收集和预处理
使用FPKM数据分析来自TCGA的lncRNA数据,使用RSEM归一化计数类数据和进一步的log2转换表达矩阵分析来自TCGA Level 3的mRNA数据,TCGA临床数据采用校正的表型数据,对数据进行预处理,通过质量控制、归一化和转换,以获得统一的表达矩阵;
S2:统计分析
将纳入分析的394例患者按7:3的比例随机分为训练集和验证集,首先使用训练集中的数据寻找独立预后因素,采用lasso回归与逐步法对变量进一步降维构建多变量Cox风险模型,然后将模型应用于验证队列以评估预测模型的特异性、敏感度及临床有效性。对于模型的优化,对给定的基因表达标签在mRNA数据集中构建模型,计算风险分值,用来优化融合模型,融合与优化之后的模型用列线图展示,模型预测价值及临床有效性的评估分别采用受试者工作特性曲线和决策曲线分析;
S3:框架设计和数据预处理
经过数据预处理及lasso降维筛选后,构建lncRNA预后预测模型,随后,把影响膀胱癌预后的临床风险因素纳入模型中,包括T分期、N分期及肿瘤分级这些具有临床意义的指标,以构建临床因素-lncRNA复合模型,然后再基于微环境中肿瘤相关成纤维细胞***(CAF)特异表达标签,连同免疫细胞亚群细胞信息,分别计算风险分值,作为优化变量对临床因素-lncRNA复合模型进行优化,再把这个优化的模型与已经发表的、肿瘤相关的lncRNA模型进行比较;
S4:基于lncRNA的预后预测模型的构建
采用lasso算法和多元Cox回归分析相结合的方法,获得一个包含12个分子的lncRNA模型,ROC曲线表明,lncRNA模型在预测膀胱癌预后方面表现良好,训练数据集5年的生存预测的AUC为0.894,利用该模型计算的风险分值可把患者区分为显著差异的两类,高风险分值相比于低风险分值的患者,死亡风险增加了7.5倍,验证数据集5年生存预测的AUC为0.755,高风险分值患者死亡风险是低风险分值患者的2.7倍;
S5:基于lncRNA模型与临床风险因素的整合
整合入临床风险因素,包括膀胱癌T分期、N分期、肿瘤分级,构建临床风险因素-lncRNA复合模型,单独的临床风险因素模型和单独lncRNA模型,对膀胱癌的预后预测表现良好,但表现尚未达到优的级别,在验证集中临床风险因素模型5年生存预测的AUC为0.774,lncRNA模型的AUC为0.764,相比之下,lncRNA模型融合入临床风险因素后(临床风险因素-lncRNA复合模型)在验证集中5年生存预测的AUC为0.882,模型表现达到优的级别,lncRNA与临床风险因素的结合构建的融合模型,可大大提高预测模型的性能;
S6:肿瘤微环境***特征基因和免疫细胞亚群对膀胱癌预后预测作用
我们对***的特征基因表达标签构建模型,计算风险分值并整合入lncRNA模型中。结果表明,***的特征基因表达风险分值可提高模型的性能。在验证数据集中,5年生存的预后预测AUC为0.789。采用CYBERSORT从mRNA数据经反卷积计算得到的免疫细胞组分的研究表明,单独的免疫细胞组分可以预测膀胱癌的预后,然后计算免疫细胞成分风险分值并整合入lncRNA-CAF复合模型中,结果表明,lncRNA-CAF-Immune复合模型的表现在训练集中的表现优异(5年生存预测的AUC=0.924),复合模型在验证集中5年生存的预测价值同样优于单纯的lncRNA模型(AUC=0.787);
S7:优化的lncRNA融合模型预测膀胱癌患者生存预后的表现
结合多维生物学信息的预测模型可能会提高预测性能,由此我们建立了一个以lncRNA模型为骨架,融合入临床风险因素、肿瘤微环境的***/免疫细胞亚型基因表达信息的融合模型,结果表明,融合模型的ROC曲线在训练集与验证数据集中均表现优异,在验证数据集中,5年生存的预后预测AUC为0.913;
S8:优化的lncRNA融合模型的临床应用探索
基于构建的融合模型,绘制列线图。该列线图直观展示了优化的融合模型中可行性最高的lncRNA标记,CAF风险评分,Immune风险分值以及临床风险因素对生成预后的影响。另外,我们绘制的DCA曲线表明,我们构建的融合模型具有临床应用价值。
优选的,所述S3中,数据处理和模型构建的模型,从获得的公开数据TCGA-膀胱癌level 3的数据开始,通过质量控制,标化和转换操作,获得统一的数据矩阵,数据矩阵按7:3的比例随机分为训练数据集和验证数据集,采用lasso回归的方法对数据进行降维和筛选,构建lncRNA预后预测模型;模型构建好后,首先加入临床风险因素,然后,探索由肿瘤微环境***/免疫细胞特征基因表达标签对模型表现的影响。
优选的,所述S6中,对***的特征基因表达标签构建模型,计算风险分值并整合入lncRNA模型中,结果表明,***的特征基因表达风险分值可提高模型的预后预测性能,在验证数据集中,5年生存的预后预测AUC为0.789。
优选的,所述S6中,进一步的把***的特征基因的风险分值和免疫细胞组分的风险分值融合入模型中,lncRNA和肿瘤微环境间质/免疫的复合模型表现达到接近优。
优选的,所述S8中,该评分方法包括可行性最高的lncRNA标记及临床风险因素的变量,还提供了可用于进一步优化的CAF风险分值和免疫细胞亚群计算的风险分值,该列线图可用于将来的潜在验证和诊断,另外,通过绘制的DCA曲线表明,构建的融合模型具有临床应用价值。
优选的,所述S3中,所述lncRNA模型包括12个lncRNA分子。
(三)有益效果
与现有技术相比,本发明提供了一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,具备以下有益效果:
1、该一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,通过本方法构建了一个可用于膀胱癌预后预测的lncRNA模型。通过融合入临床风险因素、肿瘤微环境***、免疫细胞亚型的基因表达信息,且优化了lncRNA模型预测膀胱癌患者长期生存的性能。优化的融合模型表现优异,且具有可扩展性,具有一定临床应用价值。
2、该一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,通过本方法,首先,可以包含来自多组学数据的分子特征。在研究中,数据不完整或数据缺失通常是限制模型应用的常见问题,本发明的模型在相对完整的数据基础之上构建,这使得能够在多个维度对生存进行预测,模型表现会更加稳定。其二,本发明的框架具有可扩展性,可根据不同中心的临床及基因数据的可获得性进行调整。其三,通过本发明的研究中的框架也适用于各种癌症类型,多组学数据的可得性使得本框架对于其他癌症的模型构建也非常有用。可以把同样的框架开发应用于其他癌症类型的预后预测,最终使本发明的概念构建的模型适用于临床应用。
3、该一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,通过该方法中的模型,模型结合了分子特征,这使得模型更具生物学解释力。研究表明,这些肿瘤微环境的分子特征还可影响疗效,或许也可以用于构建模型预测治疗反应,值得将来进一步研究。突出了在预测癌症预后的计算模型中,从多组学数据***综合功能信号网络的优势。以往的研究表明,多种信号通路参与了膀胱癌的发生机制,包括MAPK信号和ERBB信号。在本研究中,仅研究了免疫/***在膀胱癌微环境中的作用,尚有其他基因因素可能也可以解释膀胱癌预后。这种多个维度的综合模型在预后预测中获得更好表现,并且容易从生物学的角度去解释,使得模型更具有可解释性。
4、该一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,通过本方法,有助于预测MIBC患者的存活率,对于早期膀胱癌预后预测也有帮助。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明数据处理及lncRNA模型构建流程图;
图2为本发明基于lncRNA模型在训练数据集和验证数据集的ROC曲线和生存曲线(A:训练集中lncRNA模型预测预后的AUC曲线;B:训练集中lncRNA模型预测预后的生存曲线;C:验证数据集中lncRNA模型预测预后的AUC曲线;D:验证数据集中lncRNA模型预测预后的生存曲线)
图3为本发明整合临床风险因素的lncRNA模型对膀胱癌预后预测的作用图;(A:训练集中lncRNA模型整合临床风险因素后预测预后(36个月)的AUC曲线;B:训练集中临床风险因素整合入lncRNA模型预测预后(60个月)的AUC曲线;C:验证数据集中lncRNA模型整合临床风险因素后预测预后(36个月)的AUC曲线;D:验证数据集中临床风险因素整合入lncRNA模型预测(60个月)预后的AUC曲线)
图4为本发明基于肿瘤微环境的间质/免疫细胞特征基因表达标签优化lncRNA预测模型图;(A:训练集免疫细胞特征基因的表达标签计算的风险分值,以及***特征基因的表达标签计算的风险分值分别整合入lncRNA模型,预测3年生存的AUC曲线;B:训练集免疫细胞特征基因的表达标签计算的风险分值,以及***特征基因的表达标签计算的风险分值分别整合入lncRNA模型,预测5年生存的AUC曲线;C:验证集免疫细胞特征基因的表达标签计算的风险分值,以及***特征基因的表达标签计算的风险分值分别整合入lncRNA模型,预测3年生存的AUC曲线;D:验证集免疫细胞特征基因的表达标签计算的风险分值,以及***特征基因的表达标签计算的风险分值分别整合入lncRNA模型,预测5年生存的AUC曲线)
图5为本发明整合临床风险因素及肿瘤微环境基因表达标签的lncRNA融合模型预测预后的表现图;(A:训练集中lncRNA融合模型预测预后(36个月)的AUC曲线;B:训练集中lncRNA融合模型预测预后(60个月)的AUC曲线;C:验证集中lncRNA融合模型预测预后(36个月)的AUC曲线;D:验证集中lncRNA融合模型预测预后(60个月)的AUC曲线)
图6为本发明基于lncRNA的优化模型预测膀胱癌患者生成预后的列线图
图7为本发明lncRNA优化融合模型的DCA曲线图(A:在训练数据集中绘制;B:在验证数据集中绘制12,24,36,48及60为月)
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明提供了一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,包括以下步骤:
S1:数据收集和预处理
使用FPKM数据分析来自TCGA的lncRNA数据,使用RSEM归一化计数类数据和进一步的log2转换表达矩阵,分析来自TCGA Level 3的mRNA数据,TCGA临床数据采用校正的表型数据,对数据进行预处理,通过质量控制、归一化和转换,以获得统一的表达矩阵;
S2:统计分析
将纳入分析的394例膀胱癌患者按7:3的比例随机分为训练集和验证集,首先使用训练集中的数据寻找独立预后因素,采用lasso回归与逐步法对变量进一步降维构建多变量Cox风险模型,然后将模型应用于验证队列以评估预测模型的特异性、敏感度及临床有效性。对于模型的优化,对给定的基因表达标签在mRNA数据集中构建模型,计算风险分值,用来优化融合模型,融合与优化之后的模型用列线图展示,模型预测价值及临床有效性的评估分别采用受试者工作特性曲线和决策曲线分析;
S3:框架设计和数据预处理
经过数据预处理及lasso降维筛选后,构建lncRNA预后预测模型,该lncRNA模型包括12个lncRNA分子,随后,把影响膀胱癌预后的临床风险因素纳入模型中,包括T分期、N分期及肿瘤分级这些具有临床意义的指标,以构建临床因素-lncRNA复合模型,然后再基于微环境中肿瘤相关成纤维细胞***(CAF)特异表达标签,连同免疫细胞亚群细胞信息,分别计算风险分值,作为优化变量对临床因素-基因复合模型进行优化,再把这个优化的模型与已经发表的、肿瘤相关的lncRNA模型进行比较;
在数据处理和模型构建的模型中,从获得的公开数据TCGA-膀胱癌level 3的数据开始,通过质量控制,标化和转换操作,获得统一的数据矩阵,数据矩阵按7:3的比例随机分为训练数据集和验证数据集,采用lasso回归的方法对数据进行降维和筛选,构建lncRNA预后预测模型;模型构建好后,首先加入临床风险因素,然后,探索由肿瘤微环境***/免疫细胞特征基因表达标签计算的风险分值对模型表现的影响;
S4:基于lncRNA预后预测模型的构建
采用lasso算法和多元Cox回归分析相结合的方法,获得一个包含12个分子的lncRNA模型,ROC曲线表明,lncRNA模型在预测膀胱癌预后方面表现良好,训练数据集5年的生存预测的AUC为0.894,利用该模型计算的风险分值可把患者区分为显著差异的两类,高风险分值相比于低风险分值的患者,死亡风险增加了7.5倍,验证数据集5年生存预测的AUC为0.755,高风险分值患者死亡风险是低风险分值患者的2.7倍;
S5:基于lncRNA模型与临床风险因素的整合
整合入临床风险因素,包括膀胱癌T分期、N分期、肿瘤分级,构建临床风险因素-lncRNA复合模型,单独的临床风险因素模型和单独lncRNA模型,对膀胱癌的预后预测表现良好,但表现尚未达到优的级别,在验证集中临床风险因素模型5年生存预测的AUC为0.774,lncRNA模型的AUC为0.764,相比之下,lncRNA模型融合入临床风险因素后(临床风险因素-lncRNA复合模型)在验证集中5年生存预测的AUC为0.882,模型表现达到优的级别,lncRNA与临床风险因素的结合,可大大提高模型的性能;
S6:肿瘤微环境***特征基因和免疫细胞亚群对膀胱癌预后预测作用
我们对***的特征基因表达标签构建模型,计算风险分值并整合入lncRNA模型中。结果表明,***的特征基因表达风险分值可提高模型的性能。在验证数据集中,5年生存的预后预测AUC为0.789。采用CYBERSORT从mRNA数据经反卷积计算得到的免疫细胞组分的研究表明,单独的免疫细胞组分可以预测膀胱癌的预后,然后计算免疫细胞成分风险分值并整合入lncRNA-CAF复合模型中,结果表明,lncRNA-CAF-Immune复合模型的表现在训练集中的表现优异(5年生存预测的AUC=0.924),复合模型在验证集中5年生存的预测价值同样优于单纯的lncRNA模型(AUC=0.787);
S7:优化的lncRNA融合模型预测膀胱癌患者生存预后的表现
结合多维生物学信息的预测模型可能会提高预测性能,由此建立了一个以lncRNA模型为骨架,融合入临床风险因素、肿瘤微环境的***/免疫细胞亚型基因表达信息的融合模型,结果表明,融合模型的ROC曲线在验证数据集中均表现优,在验证数据集中,5年生存的预后预测AUC为0.913;
S8:优化的lncRNA融合模型的临床应用探索
基于构建的融合模型,绘制列线图;
该评分方法包括可行性最高的lncRNA标记及临床风险因素的变量,还提供了可用于进一步优化的CAF风险分值和免疫细胞亚群计算的风险分值,该列线图在经过严格随机对照试验验证之后,可用于膀胱癌患者生存与预后的预测,另外,通过绘制的DCA曲线表明,构建的融合模型具有较好的临床应用价值。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个引用结构”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (6)
1.一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,其特征在于,包括以下步骤:
S1:数据收集和预处理
使用FPKM数据分析来自TCGA的膀胱癌lncRNA数据,使用RSEM归一化计数类数据和进一步的log2转换表达矩阵,分析来自TCGA Level 3的mRNA数据,TCGA临床数据采用校正的表型数据,对数据进行预处理,通过质量控制、归一化和转换,以获得统一的表达矩阵;
S2:统计分析
将纳入分析的394例患者按7:3的比例随机分为训练集和验证集,首先使用训练集中的数据寻找独立预后因素,采用lasso回归与逐步法对变量进一步降维构建多变量Cox风险模型,然后将模型应用于验证队列以评估预测模型的特异性、敏感度及临床有效性。对于模型的优化,对给定的肿瘤微环境相关基因表达标签在mRNA数据集中构建模型,计算风险分值,用来优化融合模型,融合与优化之后的模型用列线图展示,模型预测价值及临床有效性的评估分别采用受试者工作特性曲线和决策曲线分析;
S3:框架设计和数据预处理
经过数据预处理及lasso降维筛选后,构建lncRNA预后预测模型,随后,把影响膀胱癌预后的临床风险因素纳入模型中,包括T分期、N分期及肿瘤分级这些具有临床意义的指标,以构建临床因素-lncRNA复合模型,然后再基于微环境中肿瘤相关成纤维细胞***(CAF)特异表达标签,连同免疫细胞亚群细胞信息,分别计算风险分值,作为优化变量对临床因素-lncRNA复合模型进行优化,再把这个优化的模型与已经发表的、肿瘤相关的lncRNA模型进行比较;
S4:基于lncRNA预后预测模型的构建
采用lasso算法和多元Cox回归分析相结合的方法,获得一个包含12个分子的lncRNA模型,ROC曲线表明,lncRNA模型在预测膀胱癌预后方面表现良好,训练数据集5年的生存预测的AUC为0.894,利用该模型计算的风险分值可把患者区分为显著差异的两类,高风险分值相比于低风险分值的患者,死亡风险增加了7.5倍,验证数据集5年生存预测的AUC为0.755,高风险分值患者死亡风险是低风险分值患者的2.7倍;
S5:基于lncRNA模型与临床风险因素的整合
整合入临床风险因素,包括膀胱癌T分期、N分期、肿瘤分级,构建临床风险因素-lncRNA复合模型,单独的临床风险因素模型和单独lncRNA模型,对膀胱癌的预后预测表现良好,但表现尚未达到优的级别,在验证集中临床风险因素模型5年生存预测的AUC为0.774,lncRNA模型的AUC为0.764,相比之下,lncRNA模型融合进入临床风险因素后(临床风险因素-lncRNA复合模型)在验证集中5年生存预测的AUC为0.882,模型表现达到优的级别,lncRNA与临床风险因素的结合构建的融合模型,可大大提高预测模型的性能;
S6:肿瘤微环境***特征基因和免疫细胞亚群对膀胱癌预后预测作用
我们对***的特征基因表达标签构建模型,计算风险分值并整合入lncRNA模型中。结果表明,***的特征基因表达风险分值可提高模型的性能。在验证数据集中,5年生存的预后预测AUC为0.789。采用CYBERSORT从mRNA数据经反卷积计算得到的免疫细胞组分的研究表明,单独的免疫细胞组分可以预测膀胱癌的预后,然后计算免疫细胞成分风险分值并整合入lncRNA-CAF复合模型中,结果表明,lncRNA-CAF-Immune复合模型的表现在训练集中的表现优异(5年生存预测的AUC=0.924),复合模型在验证集中5年生存的预测价值同样优于单纯的lncRNA模型(AUC=0.787);
S7:优化的lncRNA融合模型预测膀胱癌患者预后的表现
结合多维生物学信息的预测模型可能会提高预测性能,由此建立了一个以lncRNA模型为骨架,融合入临床风险因素、肿瘤微环境的***/免疫细胞亚型基因表达信息的融合模型,结果表明,融合模型的ROC曲线在训练集与验证数据集中均表现优异,在验证数据集中,5年生存的预后预测AUC为0.913;
S8:优化的lncRNA融合模型的临床应用探索
基于构建的融合模型,绘制列线图。该列线图直观展示了优化的融合模型中可行性最高的lncRNA标记,CAF风险评分,Immune风险分值以及临床风险因素对生成预后的影响。另外,我们绘制的DCA曲线表明,我们构建的融合模型具有临床应用价值。
2.根据权利要求1所述的一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,其特征在于,所述S3中,数据处理和模型构建的模型,从获得的公开数据TCGA-膀胱癌level 3的数据开始,通过质量控制,标化和转换操作,获得统一的数据矩阵,数据矩阵按7:3的比例随机分为训练数据集和验证数据集,采用lasso回归的方法对数据进行降维和筛选,构建lncRNA预后预测模型;模型构建好后,首先加入临床风险因素,然后,探索由肿瘤微环境***/免疫细胞特征基因表达标签计算的风险分值对模型表现的影响。
3.根据权利要求1所述的一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,其特征在于,所述S6中,对***的特征基因表达标签构建模型,计算风险分值并整合入lncRNA模型中,结果表明,***的特征基因表达风险分值可提高模型的预后预测性能,在验证数据集中,5年生存的预后预测AUC为0.789。
4.根据权利要求1所述的一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,其特征在于,所述S6中,进一步的把***的特征基因的风险分值和免疫细胞组分的风险分值融合入模型中,lncRNA和肿瘤微环境间质/免疫的复合模型表现达到接近优。
5.根据权利要求1所述的一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,其特征在于,所述S8中,该评分方法包括可行性最高的lncRNA标记及临床风险因素的变量,还提供了可用于进一步优化的CAF风险分值和免疫细胞亚群计算的风险分值,该列线图可用于将来的潜在验证和诊断,另外,通过绘制的DCA曲线表明,构建的融合模型具有临床应用价值。
6.根据权利要求1所述的一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法,其特征在于,所述S3中,所述lncRNA模型包括12个lncRNA分子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211565423.9A CN115762792A (zh) | 2022-12-07 | 2022-12-07 | 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211565423.9A CN115762792A (zh) | 2022-12-07 | 2022-12-07 | 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115762792A true CN115762792A (zh) | 2023-03-07 |
Family
ID=85344162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211565423.9A Pending CN115762792A (zh) | 2022-12-07 | 2022-12-07 | 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115762792A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117038092A (zh) * | 2023-08-21 | 2023-11-10 | 中山大学孙逸仙纪念医院 | 基于Cox回归分析的胰腺癌的预后模型构建方法 |
CN117637185A (zh) * | 2024-01-25 | 2024-03-01 | 首都医科大学宣武医院 | 一种基于影像的颅咽管瘤治疗辅助决策方法、***及设备 |
-
2022
- 2022-12-07 CN CN202211565423.9A patent/CN115762792A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117038092A (zh) * | 2023-08-21 | 2023-11-10 | 中山大学孙逸仙纪念医院 | 基于Cox回归分析的胰腺癌的预后模型构建方法 |
CN117637185A (zh) * | 2024-01-25 | 2024-03-01 | 首都医科大学宣武医院 | 一种基于影像的颅咽管瘤治疗辅助决策方法、***及设备 |
CN117637185B (zh) * | 2024-01-25 | 2024-04-23 | 首都医科大学宣武医院 | 一种基于影像的颅咽管瘤治疗辅助决策方法、***及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Caudai et al. | AI applications in functional genomics | |
Califano et al. | Analysis of gene expression microarrays for phenotype classification. | |
CN115762792A (zh) | 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法 | |
Patruno et al. | A review of computational strategies for denoising and imputation of single-cell transcriptomic data | |
US20200239965A1 (en) | Source of origin deconvolution based on methylation fragments in cell-free dna samples | |
Su et al. | Identification of expression signatures for non-small-cell lung carcinoma subtype classification | |
CN111312334A (zh) | 一种影响细胞间通讯的受体-配体***分析方法 | |
Qu et al. | Quantitative trait associated microarray gene expression data analysis | |
Dou et al. | Single-nucleotide variant calling in single-cell sequencing data with Monopogen | |
CN108320797B (zh) | 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
KR101090892B1 (ko) | 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법 | |
CN111944902A (zh) | 一种基于lincRNA表达谱组合特征的肾***状细胞癌早期预测方法 | |
CN110942808A (zh) | 一种基于基因大数据的预后预测方法及预测*** | |
Wang et al. | A five-gene signature for recurrence prediction of hepatocellular carcinoma patients | |
Shi et al. | An application based on bioinformatics and machine learning for risk prediction of sepsis at first clinical presentation using transcriptomic data | |
Huo et al. | Two-way horizontal and vertical omics integration for disease subtype discovery | |
Irigoien et al. | Identification of differentially expressed genes by means of outlier detection | |
Zubi et al. | Sequence mining in DNA chips data for diagnosing cancer patients | |
Li et al. | Using the SVM Method for Lung Adenocarcinoma Prognosis Based on Expression Level | |
LU103183B1 (en) | Method for building prognosis model of lung adenocarcinoma based on cuproptosis-related genes | |
Cozzini et al. | Model-based clustering with gene ranking using penalized mixtures of heavy-tailed distributions | |
Blazadonakis et al. | The linear neuron as marker selector and clinical predictor in cancer gene analysis | |
Zhang et al. | CFC: a Cascade Forest approach to discover Cancer driver genes using multi-omics data | |
KR102462746B1 (ko) | 암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템 | |
Perino | Hybrid gene selection framework for predicting breast cancer relapse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |