CN115938579A - 一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型 - Google Patents

一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型 Download PDF

Info

Publication number
CN115938579A
CN115938579A CN202211523063.6A CN202211523063A CN115938579A CN 115938579 A CN115938579 A CN 115938579A CN 202211523063 A CN202211523063 A CN 202211523063A CN 115938579 A CN115938579 A CN 115938579A
Authority
CN
China
Prior art keywords
model
lung cancer
small cell
cell lung
survival
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211523063.6A
Other languages
English (en)
Inventor
李万帅
汤丽丽
文诗语
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Guoyao Medical Laboratory Co ltd
Original Assignee
Changzhou Guoyao Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Guoyao Medical Laboratory Co ltd filed Critical Changzhou Guoyao Medical Laboratory Co ltd
Priority to CN202211523063.6A priority Critical patent/CN115938579A/zh
Publication of CN115938579A publication Critical patent/CN115938579A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明首次提供了一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型,该特征组合包含以下11个基因:RALGPS2、KIAA0907、SPATS2、FKBP11、LOC158376、HN1L、ALDH18A1、EMP2、C1orf106、SRPK1、C16orf88,与非小细胞肺癌(NSCLC)临床分期(stage)等12种特征构成了可准确预测非小细胞肺癌患者生存期及生存概率的组合。本发明开发的包含上述12种特征的生存预测模型,可通过输入12种特征参数,对患者的生存概率进行准确预测,预测准确率可达92.84%。

Description

一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型
技术领域
本发明属于生物技术领域,具体涉及一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型。
背景技术
2015年美国癌症协会(American Cancer Society,ACS)发布的数据显示,肺癌的发病率和死亡率在所有恶性肿瘤中排名首位,严重危害了人类的生命健康。常见的肺癌类型有非小细胞肺癌和小细胞肺癌,以非小细胞肺癌多见,约占全部肺癌的80%,其中,鳞癌和腺癌是非小细胞肺癌最常见的病理类型。因为肺癌发病早期症状不典型,未能引起足够的重视,大部分患者在发现时已是局部晚期或有远处转移,失去了治疗的最佳时机,生存率较低。近年来,随着科学技术的日益发展和医疗水平的不断进步,更多的新疗法广泛用于肿瘤的治疗,包括分子靶向治疗、细胞免疫治疗等,并取得较好的治疗效果,大部分恶性肿瘤的生存率都有不同程度的提高,但肺癌的生存率提高不明显,总体5年生存率为16%,仅高于胰腺癌。国内外的学者一直致力于研究肿瘤的发生发展、防治及预后等各个方面的关系,以期提高肿瘤早期的诊断率,给予及时有效的治疗,提高患者的生活质量,延长患者的生存时间。
肺癌患者在治疗的过程中,通常会通过CT影像检查来判断药物疗效以及观察疾病是否进展,但是在检查的过程中会对身体产生辐射,对患者产生一定的伤害。非小细胞肺癌患者的高死亡率又体现了为非小细胞肺癌患者确定可靠预后信号的必要性。因此,为了对非小细胞肺癌患者预后的生存信号进行预测,开发新的检测试剂与诊断装置有着较大的应用价值,将给后期的治疗带来更多的便利。本发明首次公开了一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型,通过向模型中输入筛选出的基因转录本组合的表达情况以及非小细胞肺癌患者的临床分期,可以准确预测该患者的生存曲线,进而得到其3年、5年、10年等时间点的生存率。
发明内容
为了填补现有技术的空白,本发明的目的在于提供一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型。
本发明解决上述技术问题的技术方案如下:
本发明的第一方面提供了一种预测非小细胞肺癌患者生存率的特征组合,包括如下11种基因的转录本:RALGPS2、KIAA0907、SPATS2、FKBP11、LOC158376、HN1L、ALDH18A1、EMP2、C1orf106、SRPK1及C16orf88;
进一步的,还包括非小细胞肺癌的临床分期,即stage;
进一步的,预测样本为非小细胞肺癌组织RNA。
本发明的第二方面提供了一种预测非小细胞肺癌患者生存率的Cox比例风险模型,由上述特征组合共同拟合而成;
进一步的,所述风险模型中各特征的权重系数如下所示:
特征名 权重系数
stage 0.34
RALGPS2 -0.26
KIAA0907 0.21
SPATS2 -0.14
FKBP11 0.18
LOC158376 -0.25
HN1L -0.17
ALDH18A1 0.09
EMP2 0.14
C1orf106 -0.08
SRPK1 0.17
C16orf88 -0.10
进一步的,所述风险模型的使用包括如下步骤:
(1)获取非小细胞肺癌组织,提取总RNA,进行逆转录,逆转录为cDNA;
(2)进行文库构建;
(3)测序上机,获得各转录本的reads数;
(4)进行下机数据质控、数据过滤后,得到每个转录本的count数;
(5)在风险模型中,根据患者的临床情况,输入数字1、2、3、4,分别对应临床I期、II期、III期、IV期;所述的11种基因转录本,需要根据各基因的阈值,进行二值化处理,当该转录本的count数小于阈值时,输入值为数字0,反之则为数字1;
进一步的,所述各基因的阈值如下所示:
Figure BDA0003972064900000021
Figure BDA0003972064900000031
进一步的,通过所述的风险模型计算得到患者的生存曲线,进一步得到患者的生存率;
其中,患者的生存率可以是3年、5年、10年等时间点;
其中,各基因转录本分析时,参考基因组版本为hg19版。
本发明的第三方面提供了一种上述Cox比例风险模型的构建方法,包括如下步骤:
(1)总体特征的纳入:在前期筛选出的用于肺癌诊断的基因转录本组合的基础上,纳入临床分期(stage)等特征,进行Cox比例风险建模及特征筛选;
具体的,本发明中在纳入38个基因转录本(见本申请人前期申请的专利“一种用于肺癌诊断的基因转录本组合及肺癌诊断装置”,申请号为202211336839)的基础上,又整合了年龄(age)、性别(gender)、组织分型(type)、临床分期(stage)等一般临床特征,共计纳入了42个特征,进入后续的Cox比例风险建模及特征筛选中;
(2)样本筛选:进行数据清洗,最终确定纳入分析的总样本;
具体的,本发明中剔除了含缺失值、意义不明值等的样本,最终纳入分析的总样本数为989例;
(3)特征选择:使用AIC向前逐步回归法进行特征筛选,确定特征组合;
具体的,AIC即赤池值,是衡量模型拟合优良性和模型复杂性的一种标准,在建立多元线性回归模型时,变量过多,且有不显著的变量时,可以使用AIC准则结合逐步回归进行变量筛选。AIC越小我们认为模型更优良。特征选择完成后,共计纳入12个特征,包含11种基因转录本特征和stage特征;
(4)模型参数选择及优化:将全部样本随机拆分为训练集和测试集,使用训练集样本进行模型的训练,使用测试集样本验证模型的准确度。通过循环参数调整并绘制生存预测校准曲线,得到最佳的模型参数;
具体的,本发明中的样本按7:3的比例拆分,得到的最佳模型参数为“penalizer=0.05,l1_ratio=0.15”;
(5)模型准确率的计算:优化Cox比例风险模型后,分别带入训练集、测试集样本,进行模型准确度评估;
进一步的,所述模型准确度不低于92%;
具体的,本发明中训练集得分为0.6559,测试集得分为0.6094,模型准确率为92.84%。
本发明的有益效果在于:
本发明首次提供了一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型。该模型可预测非小细胞肺癌患者的生存率,准确率可达92.84%,对于有效研究非小细胞肺癌的发生发展、防治及预后等各个方面具有重要意义。
附图说明
图1显示为Cox比例回归模型中各特征的风险系数图;
图2显示为测试集数据模型校正曲线,虚线对角线为理论值,实线为模型预测值,两条线距离越近表明模型预测越准确;
图3显示为训练集数据模型校正曲线;
图4显示为使用训练好的模型对任一患者进行生存概率的分析,绘制其对应的生存曲线,图中的3条线代表了3名不同患者的生存曲线。
具体实施方式
以下结合实例说明本发明,但不限制本发明。在本领域内,技术人员对本发明所做的简单替换或改进均属于本发明所保护的技术方案内。
实施例1:
本发明提供的从非小细胞肺癌患者组织中提取RNA,检测其中11个基因转录本的count数,对照相关阈值(表2),得到其二值化值,联合临床分期特征,通过本发明所述的预测模型,可以准确地预测非小细胞肺癌患者的生存率。
肺癌组织来源于非小细胞肺癌患者手术组织中的肿瘤部分。
提取样本总RNA,其步骤包括:组织切片脱蜡、水化、组织刮取、组织裂解、过离心柱、离心柱清洗、RNA洗脱等步骤。
对提取到的RNA,使用紫外分光光度计进行RNA总量和纯度的测定,保证RNA符合实验室质量控制要求。
将提取后的RNA进行逆转录处理,获得cDNA。
使用文库构建试剂进行建库,实验步骤按照厂家说明书进行,建库后进行文库质检。
文库测序上机,进行下机数据质控,将低质量数据过滤,并进行数据转换后,得到每个转录本的count数,并将各转录本与人类基因组上(版本为hg19)进行比对。
将各基因转录本count数进行处理和标准化:stage,需要根据患者的临床情况,输入数字1、2、3、4(分别对应临床I期、II期、III期、IV期);其他11种转录本,需要根据表2中各基因的阈值,进行二值化处理,当该转录本的count数小于阈值时,输入值为数字0,反之则为数字1。
本发明提供的预测模型将根据12种特征的权重系数(表1)计算出该患者的生存曲线,从而可以得到患者的3年、5年、10年等时间点的生存率。
表1模型中各特征的权重系数
特征名 权重系数
stage 0.34
RALGPS2 -0.26
KIAA0907 0.21
SPATS2 -0.14
FKBP11 0.18
LOC158376 -0.25
HN1L -0.17
ALDH18A1 0.09
EMP2 0.14
C1orf106 -0.08
SRPK1 0.17
C16orf88 -0.10
表2模型中基因转录本的阈值
特征名 阈值
RALGPS2 519.50
KIAA0907 1071.50
SPATS2 727.50
FKBP11 752.50
LOC158376 10.00
HN1L 3464.00
ALDH18A1 2080.50
EMP2 4194.00
C1orf106 1435.50
SRPK1 1781.00
C16orf88 407.50
本发明提供的生存风险预测模型获得及训练过程如下:
(1)总体特征的纳入:通过前期的研究,我们提交了专利“一种用于肺癌诊断的基因转录本组合及肺癌诊断装置”,申请号:202211336839。该专利中,我们提供了一种包含38个基因转录本标记物的组合并提出了其新的用途。在此基础上,本专利在纳入这38个基因转录本的基础上,又整合了年龄(age)、性别(gender)、组织分型(type)、临床分期(stage)等一般临床特征,共计纳入了42个特征,进入后续的Cox比例风险建模及特征筛选中。
(2)样本筛选:在确定了纳入的特征后,我们对数据集进行了进一步的数据清洗,剔除了含缺失值、意义不明值等的样本,最终纳入分析的总样本数为989例。
(3)特征选择:使用Cox比例风险模型(Cox’s proportional hazard model)进行模型拟合,使用AIC向前逐步回归法进行特征选择。AIC即赤池值,是衡量模型拟合优良性和模型复杂性的一种标准,在建立多元线性回归模型时,变量过多,且有不显著的变量时,可以使用AIC准则结合逐步回归进行变量筛选。AIC越小我们认为模型更优良,下面以AIC作为判定标准进行向前逐步回归,对特征进行筛选。特征选择完成后,共计纳入12个特征,包含11种基因转录本特征和stage特征。
(4)模型参数选择及优化:将全部样本按照7:3的比例随机拆分为训练集和测试集,使用训练集样本进行模型的训练,使用测试集样本验证模型的准确度。通过循环参数调整并绘制生存预测校准曲线,得到最佳的模型参数:“penalizer=0.05,l1_ratio=0.15”。
(5)模型准确率的计算:得到Cox比例风险模型后,分别带入训练集、测试集样本,得到模型分数,训练集得分为0.6559,测试集得分为0.6094,模型准确率为92.84%。
Cox比例回归模型中各特征的风险系数如图1所示。
将989例样本按照7:3的比例随机拆分为训练集和测试集。测试集数据模型校正曲线如图2所示,虚线对角线为理论值,实线为模型预测值,两条线距离越近表明模型预测越准确。训练集数据模型校正曲线如图3所示。
使用训练好的模型对任一患者进行生存概率的分析,绘制对应的生存曲线如图4,图中的3条线分别代表3名不同患者的生存曲线。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种预测非小细胞肺癌患者生存率的特征组合,其特征在于,包括如下11种基因的转录本:RALGPS2、KIAA0907、SPATS2、FKBP11、LOC158376、HN1L、ALDH18A1、EMP2、C1orf106、SRPK1及C16orf88。
2.根据权利要求1所述的预测非小细胞肺癌患者生存率的特征组合,其特征在于,还包括非小细胞肺癌的临床分期,即stage。
3.根据权利要求1或2任一项所述的预测非小细胞肺癌患者生存率的特征组合,其特征在于,预测样本为非小细胞肺癌组织RNA。
4.一种预测非小细胞肺癌患者生存率的Cox比例风险模型,其特征在于,由权利要求2所述的特征组合共同拟合而成。
5.根据权利要求4所述的预测非小细胞肺癌患者生存率的Cox比例风险模型,其特征在于,所述风险模型中各特征的权重系数如下所示:
6.根据权利要求5所述的预测非小细胞肺癌患者生存率的Cox比例风险模型,其特征在于,所述风险模型的使用包括如下步骤:
(1)获取非小细胞肺癌组织,提取总RNA,进行逆转录,逆转录为cDNA;
(2)进行文库构建;
(3)测序上机,获得各转录本的reads数;
(4)进行下机数据质控、数据过滤后,得到每个转录本的count数;
(5)在风险模型中,根据患者的临床情况,输入数字1、2、3、4,分别对应临床I期、II期、III期、IV期;所述的11种基因转录本,需要根据各基因的阈值,进行二值化处理,当该转录本的count数小于阈值时,输入值为数字0,反之则为数字1。
7.根据权利要求6所述的预测非小细胞肺癌患者生存率的Cox比例风险模型,其特征在于,所述各基因的阈值如下所示:
8.根据权利要求4~7任一项所述的预测非小细胞肺癌患者生存率的Cox比例风险模型,其特征在于,通过所述的风险模型计算得到患者的生存曲线,进一步得到患者的生存率。
9.一种根据权利要求4~8任一项所述的预测非小细胞肺癌患者生存率的Cox比例风险模型的构建方法,其特征在于,包括如下步骤:
(1)总体特征的纳入:在前期筛选出的用于肺癌诊断的基因转录本组合的基础上,纳入临床分期(stage)等特征,进行Cox比例风险建模及特征筛选;
(2)样本筛选:进行数据清洗,最终确定纳入分析的总样本;
(3)特征选择:使用AIC向前逐步回归法进行特征筛选,确定特征组合;
(4)模型参数选择及优化:将全部样本随机拆分为训练集和测试集,使用训练集样本进行模型的训练,使用测试集样本验证模型的准确度。通过循环参数调整并绘制生存预测校准曲线,得到最佳的模型参数;
(5)模型准确率的计算:优化Cox比例风险模型后,分别带入训练集、测试集样本,进行模型准确度评估。
10.根据权利要求9所述的预测非小细胞肺癌患者生存率的Cox比例风险模型的构建方法,其特征在于,所述模型准确度不低于92%。
CN202211523063.6A 2022-11-30 2022-11-30 一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型 Pending CN115938579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211523063.6A CN115938579A (zh) 2022-11-30 2022-11-30 一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211523063.6A CN115938579A (zh) 2022-11-30 2022-11-30 一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型

Publications (1)

Publication Number Publication Date
CN115938579A true CN115938579A (zh) 2023-04-07

Family

ID=86650132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211523063.6A Pending CN115938579A (zh) 2022-11-30 2022-11-30 一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型

Country Status (1)

Country Link
CN (1) CN115938579A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090025898A (ko) * 2007-09-07 2009-03-11 삼성전자주식회사 폐암 환자의 폐암 재발 위험을 예측하기 위한 마커, 키트,마이크로어레이 및 방법
CN112011616A (zh) * 2020-09-02 2020-12-01 复旦大学附属中山医院 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型
KR102195591B1 (ko) * 2019-09-03 2020-12-29 경북대학교 산학협력단 Glut3의 다형성을 이용한 비소세포폐암의 예후 진단 방법
CN113851185A (zh) * 2021-11-29 2021-12-28 求臻医学科技(北京)有限公司 一种用于非小细胞肺癌患者免疫治疗的预后评估方法
CN114974598A (zh) * 2022-06-29 2022-08-30 山东大学 一种肺癌预后预测模型构建方法及肺癌预后预测***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090025898A (ko) * 2007-09-07 2009-03-11 삼성전자주식회사 폐암 환자의 폐암 재발 위험을 예측하기 위한 마커, 키트,마이크로어레이 및 방법
KR102195591B1 (ko) * 2019-09-03 2020-12-29 경북대학교 산학협력단 Glut3의 다형성을 이용한 비소세포폐암의 예후 진단 방법
CN112011616A (zh) * 2020-09-02 2020-12-01 复旦大学附属中山医院 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型
CN113851185A (zh) * 2021-11-29 2021-12-28 求臻医学科技(北京)有限公司 一种用于非小细胞肺癌患者免疫治疗的预后评估方法
CN114974598A (zh) * 2022-06-29 2022-08-30 山东大学 一种肺癌预后预测模型构建方法及肺癌预后预测***

Similar Documents

Publication Publication Date Title
CN111128299B (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
KR101860238B1 (ko) 신장암 예후 진단 마커로서 zfp28, fam155a 및 dpp6의 용도
CN111676291B (zh) 一种用于肺癌患病风险评估的miRNA标志物
CN113450869A (zh) 基于m6A相关的lncRNA网络结直肠癌预后模型的构建及其临床应用
CN110714078A (zh) 一种用于ii期结直肠癌复发预测的标记基因及应用
CN108559777A (zh) 一种新型分子标记及其在制备用于肾透明细胞癌诊断和预后的试剂盒中的应用
CN113201590B (zh) 用于评估肝细胞癌早期复发风险的lncRNA、评估方法及装置
CN113345589A (zh) 肝癌预后模型的构建方法及应用方法、电子设备
CN113436673A (zh) 一种用于肝癌预后预测的分子标志物及其应用
CN110570951A (zh) 构建乳腺癌新辅助化疗疗效分类模型的方法
CN115938579A (zh) 一种预测非小细胞肺癌患者生存率的特征组合及Cox比例风险模型
CN116189904A (zh) 一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法
EP4318493A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
CN116153387A (zh) 一种肺鳞癌患者总体生存率预后模型及应用
CN115595370A (zh) 一种用于非小细胞肺癌分型诊断的基因转录本标记物组合及分型诊断装置
CN114171200A (zh) Ptc预后标志物及其应用、ptc的预后评估模型的构建方法
CN111172285A (zh) 用于胰腺癌早期诊断和/或预后监测的miRNA组及其应用
CN116287252B (zh) 长链非编码rna apcdd1l-dt在制备检测胰腺癌的产品中的应用
CN115631797B (zh) 一种基于自噬相关基因预测喉鳞状细胞癌预后的预测方法
CN115678999B (zh) 标志物在肺癌复发预测中的应用和预测模型构建方法
CN113151469B (zh) 肿瘤分类标志物组合及其应用
CN116631631A (zh) 一种分化型甲状腺癌的基因甲基化预后评估模型及其构建方法
CN115772569A (zh) 一种用于肺癌诊断的基因转录本组合及肺癌诊断装置
CN115873954A (zh) 检测cgref1基因表达量的试剂在制备骨肉瘤预后制剂中的应用
CN112086186A (zh) 一种基于大数据的肿瘤疾病评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination