CN113270188A - 食管鳞癌根治术后患者预后预测模型构建方法及装置 - Google Patents
食管鳞癌根治术后患者预后预测模型构建方法及装置 Download PDFInfo
- Publication number
- CN113270188A CN113270188A CN202110505452.5A CN202110505452A CN113270188A CN 113270188 A CN113270188 A CN 113270188A CN 202110505452 A CN202110505452 A CN 202110505452A CN 113270188 A CN113270188 A CN 113270188A
- Authority
- CN
- China
- Prior art keywords
- data
- patient
- variables
- esophageal squamous
- treatment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011282 treatment Methods 0.000 title claims abstract description 149
- 238000004393 prognosis Methods 0.000 title claims abstract description 132
- 206010041823 squamous cell carcinoma Diseases 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 29
- 206010061534 Oesophageal squamous cell carcinoma Diseases 0.000 claims abstract description 96
- 208000036765 Squamous cell carcinoma of the esophagus Diseases 0.000 claims abstract description 96
- 208000007276 esophageal squamous cell carcinoma Diseases 0.000 claims abstract description 96
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 90
- 230000004083 survival effect Effects 0.000 claims abstract description 86
- 238000000611 regression analysis Methods 0.000 claims abstract description 41
- 238000003759 clinical diagnosis Methods 0.000 claims abstract description 35
- 238000012216 screening Methods 0.000 claims abstract description 32
- 230000003993 interaction Effects 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 230000001575 pathological effect Effects 0.000 claims abstract description 25
- 238000011470 radical surgery Methods 0.000 claims abstract description 21
- 210000001165 lymph node Anatomy 0.000 claims abstract description 19
- 102000001554 Hemoglobins Human genes 0.000 claims abstract description 17
- 108010054147 Hemoglobins Proteins 0.000 claims abstract description 17
- 238000007689 inspection Methods 0.000 claims abstract description 17
- 238000011277 treatment modality Methods 0.000 claims abstract description 17
- 230000034994 death Effects 0.000 claims description 17
- 231100000517 death Toxicity 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 claims description 12
- 201000011510 cancer Diseases 0.000 claims description 10
- 230000007170 pathology Effects 0.000 claims description 10
- 210000004369 blood Anatomy 0.000 claims description 8
- 239000008280 blood Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000011221 initial treatment Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 claims 1
- 238000011275 oncology therapy Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 13
- 230000008901 benefit Effects 0.000 abstract description 11
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 16
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 15
- 201000004101 esophageal cancer Diseases 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000011160 research Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 10
- 238000002512 chemotherapy Methods 0.000 description 9
- 210000004698 lymphocyte Anatomy 0.000 description 9
- 238000003745 diagnosis Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 210000004027 cell Anatomy 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 5
- 206010027476 Metastases Diseases 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000009401 metastasis Effects 0.000 description 4
- 230000002980 postoperative effect Effects 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 238000009098 adjuvant therapy Methods 0.000 description 3
- 238000011088 calibration curve Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000011337 individualized treatment Methods 0.000 description 3
- 210000000440 neutrophil Anatomy 0.000 description 3
- 238000001959 radiotherapy Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000013517 stratification Methods 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 102000009027 Albumins Human genes 0.000 description 2
- 108010088751 Albumins Proteins 0.000 description 2
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000005713 exacerbation Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000000495 immunoinflammatory effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 210000001616 monocyte Anatomy 0.000 description 2
- 235000016709 nutrition Nutrition 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009885 systemic effect Effects 0.000 description 2
- 208000017897 Carcinoma of esophagus Diseases 0.000 description 1
- 102000006395 Globulins Human genes 0.000 description 1
- 108010044091 Globulins Proteins 0.000 description 1
- 208000035346 Margins of Excision Diseases 0.000 description 1
- 102000007562 Serum Albumin Human genes 0.000 description 1
- 108010071390 Serum Albumin Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000011226 adjuvant chemotherapy Methods 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000004159 blood analysis Methods 0.000 description 1
- 238000007475 c-index Methods 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000012277 endoscopic treatment Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002327 eosinophilic effect Effects 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 201000005619 esophageal carcinoma Diseases 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 230000002757 inflammatory effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000001325 log-rank test Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000025402 neoplasm of esophagus Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000005105 peripheral blood lymphocyte Anatomy 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开一种食管鳞癌根治术后患者预后预测模型构建方法及装置,包括:获得临床诊疗资料数据和随访生存数据,根据随访生存数据分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行变量筛选得到建模变量;对建模变量及其两两交互作用项进行多因素Cox回归分析构建食管鳞癌根治术后患者预后预测模型,预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。本发明可提高预测准确率,明确不同治疗方案最佳获益群体,实现食管鳞癌预后评估精准化。
Description
技术领域
本发明涉及医疗技术领域,尤其涉及食管鳞癌根治术后患者预后预测模型构建方法及装置。
背景技术
食管癌(Esophageal cancer,EC)是常见的上消化道恶性肿瘤之一。2018年全球食管癌新发病例约57.2万例,因食管癌死亡病例约50.9万例,分别位居恶性肿瘤发病和死亡的第7和第6顺位。食管癌是我国的特色瘤种,每年约半数新发病例和死亡病例发生在我国,组织学类型以食管鳞状细胞癌(Esophageal squamous cell carcinoma,ESCC)为主,占90%以上。2015年我国食管癌新发病例约24.6万例,死亡人数约18.8万例,分别位列恶性肿瘤谱的第6和第4顺位。由于食管癌起病较为隐匿,早期缺乏典型症状,绝大多数病例在诊断和治疗时已为晚期,生存状况和预后较差。以人群为基础的肿瘤登记数据显示,2012-2015年我国食管癌5年年龄标化相对生存率为30.3%(95%confidence interval[CI]:29.6-31.0%);以医院为基础的临床生存研究显示,食管癌5年观察生存率为40.1%(95%CI:33.7-46.4%),给社会和患者家庭带来较大的疾病负担。为了降低食管癌发病、改善生存,需要采取各项预防措施,在防、诊、治各个环节进行突破。
食管鳞癌的预后是指针对食管鳞癌患者,预测食管癌发生之后可能出现的各种结局及其概率,包括存活(治愈、缓解、恶化、复发)和死亡等。食管鳞癌的临床转归是一个多因素参与、多维度外显的过程。既往研究发现,患者特征(如年龄、性别),肿瘤病理特征(如组织学类型、肿瘤部位、肿瘤大小、手术切缘、***状态),治疗相关因素(如手术方式、化疗周期、化疗方案),分子标志物(如免疫炎症标志物、肿瘤标志物、血液检查指标),以及社会经济因素(如医疗保险、经济收入)等,对食管癌的预后均有影响。众多潜在预后影响因素的存在,导致食管鳞癌临床预后具有明显的异质性,这为食管鳞癌的预后评估带来巨大挑战。
手术治疗仍是目前治疗食管鳞癌的主要方式。随着微创技术进步以及各种辅助治疗的发展,食管鳞癌围手术期治疗方式复杂多样,各种诊疗方式预后评估需求巨大。如应该如何选择手术入路、***清扫范围、术前是否需要化疗、术后是否化疗等,仍存在争议,有待补充循证医学证据。目前食管鳞癌临床诊疗方案的选择,主要的依据是美国癌症联合会(American Joint Committee on Cancer,AJCC)和国际抗癌联盟(Union forInternational Cancer Control,UICC)联合发布的TNM分期***。该***主要根据原发肿瘤范围(T,tumor)、区域***转移存在与否及范围(N,lymph node)、远处转移存在与否(M,metastasis)对食管鳞癌患者进行分层,不仅能为评估肿瘤进展、选择诊疗方案提供依据,还能判断患者的预后,是目前应用最广泛的肿瘤预后预测评估工具。
然而,采用TNM分期***进行食管鳞癌预后预测时,相同分期、分级的患者,采取相同的治疗措施后,其疗效和生存预后却有很大差异;或者相同的疾病不同的治疗,结果反而相同。由此可见,目前以TNM分期***为主的、单一标准的食管鳞癌预后预测准确率较低,无法准确估计患者发生预后结局的概率。
因此,亟需一种可以克服上述问题的食管鳞癌患者预后预测方案。
发明内容
本发明实施例提供一种食管鳞癌根治术后患者预后预测模型构建方法,用以提高食管鳞癌根治术后患者预后预测准确率,明确不同治疗方案的最佳获益群体,实现食管鳞癌预后评估的精准化,该方法包括:
获得食管鳞癌根治术后患者的临床诊疗资料数据和随访生存数据,所述临床诊疗资料数据从医院信息管理***HIS数据库中获得,所述随访生存数据从随访数据库中获得;
对所述临床诊疗资料数据进行数据清洗处理,确定潜在变量类别,所述潜在变量类别包括:患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量;
根据随访生存数据,分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量;
对所述建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,所述食管鳞癌根治术后患者预后预测模型中包含食管鳞癌根治术后患者预后预测变量,所述食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。
本发明实施例提供一种食管鳞癌根治术后患者预后预测模型构建装置,用以提高食管鳞癌根治术后患者预后预测准确率,明确不同治疗方案的最佳获益群体,实现食管鳞癌预后评估的精准化,该装置包括:
数据获得模块,用于获得食管鳞癌根治术后患者的临床诊疗资料数据和随访生存数据,所述临床诊疗资料数据从医院信息管理***HIS数据库中获得,所述随访生存数据从随访数据库中获得;
第一变量确定模块,用于对所述临床诊疗资料数据进行数据清洗处理,确定潜在变量类别,所述潜在变量类别包括:患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量;
第二变量确定模块,用于根据随访生存数据,分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量;
模型构建模块,用于对所述建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,所述食管鳞癌根治术后患者预后预测模型中包含食管鳞癌根治术后患者预后预测变量,所述食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述食管鳞癌根治术后患者预后预测模型构建方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述食管鳞癌根治术后患者预后预测模型构建方法的计算机程序。
相对于现有技术中采用TNM分期***进行食管鳞癌根治术后患者预后预测的方案而言,本发明实施例通过获得食管鳞癌根治术后患者的临床诊疗资料数据和随访生存数据,所述临床诊疗资料数据从医院信息管理***HIS数据库中获得,所述随访生存数据从随访数据库中获得;对所述临床诊疗资料数据进行数据清洗处理,确定潜在变量类别,所述潜在变量类型包括:患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量;根据随访生存数据,分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量;对所述建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,所述食管鳞癌根治术后患者预后预测模型中包含食管鳞癌根治术后患者预后预测变量,所述食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。本发明实施例根据随访生存数据分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量,对建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,预测模型包含以下预测变量:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。利用筛选出的食管鳞癌根治术后患者预后预测变量对食管鳞癌根治术后患者进行预后预测,可以有效提高食管鳞癌根治术后患者预后预测准确率,明确不同治疗方案的最佳获益群体,实现食管鳞癌的精准化、个体化治疗,提高疗效、改善患者生存。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中食管鳞癌根治术后患者预后预测模型构建方法示意图;
图2为本发明实施例中列线图Nomogram示意图;
图3为本发明实施例中建模集和验证集校准曲线图;
图4为本发明实施例中风险分级Kaplan-Meier生存曲线图;
图5为本发明实施例中食管鳞癌根治术后患者预后预测模型构建装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
首先对本发明实施例中涉及的技术用语进行解释:
食管鳞状细胞癌:具有鳞状细胞分化的食管恶性黏膜上皮性肿瘤,简称食管鳞癌。
预后:预测某种疾病发生之后可能出现的各种结局及其概率,包括治愈、缓解、恶化、复发、并发症和死亡等。
HR:hazard ratio,风险比,指一组研究对象发生某特定事件的瞬时风险与另一组研究对象发生某特定事件的瞬时风险之比。
95%CI:95%confidence interval,95%置信区间,指按事先给定的可信度0.95来估计包含未知总体参数的一个区间范围。
5年生存率:肿瘤患者存活时间超过5年的概率。
总生存(overall survival,OS):从研究开始至(因任何原因)死亡的时间。
AIC(Akaike information criterion)准则:赤池信息量准则,是评估统计模型的复杂程度和衡量拟合优度(Goodness of fit)的一种标准,是由日本统计学家赤池弘次创立和发展的。
如前所述,目前在临床实践中被广泛用于预后预测的TNM分期***存在以下若干局限性。(1)食管鳞癌根治术后患者的预后具有明确的异质性,TNM分期主要依靠肿瘤的解剖部位对患者进行风险分级,相同分期、分级的患者,采取相同的治疗措施后,其疗效和生存预后却有很大差异;仅依靠TNM分期无法对患者进行精准的风险识别、风险分层。(2)构建第7版TNM分期***使用的数据,主要来自欧美西方人群,需要进一步考量该分期***在中国人群的适用性。(3)在临床实践中,TNM分期是作为一个组合后的变量使用的,无法单独考虑肿瘤浸润深度、***转移情况、远端转移等变量的作用或相对权重,能为预后提供的信息较少。(4)TNM分期仅能提供生存情况的相对判断,即分期越晚的病人,预后越差,无法准确估计患者发生预后结局的概率。为了更准确地评估食管鳞癌根治术后患者的预后,需要开展基于大样本、前瞻性设计的研究,整合多个有独立分辨能力的预测因素,构建预后预测模型,实现结局事件发生风险的定量评估和相应的风险分级标准,推动食管鳞癌的诊疗走向精准化、个体化。目前食管鳞癌预后预测研究领域,预后预测模型的数量和质量均比较有限。自2005年以来,共有11个以食管鳞癌根治术后患者生存(包括总生存[Overallsurvival,OS]、肿瘤专项生存[Cancer-specific survival,CSS])为结局的预后预测模型。其中有10个来自中国;10个为基于医院的队列研究;83.3%(10/12)的研究为单中心研究,缺乏有效的外部验证;仅2个研究样本量大于1000;大部分数据收集日期集中在2000-2010年之间;模型区分度(一致性指数[concordance index,C-index])在0.6至0.8之间;不同模型纳入的预测变量存在明显的异质性,以临床病历资料为主,缺少多组学数据的整合。此外,还存在报告不规范的问题,仅16.7%(2/10)的研究报告了结局事件数量。综上,现有的食管鳞癌预后预测模型难以在临床实践中推广运用,临床患者无法因此而获益。要想走向临床应用,高规格设计的、大样本的、广泛筛选预测变量的,而且同时有独立外部验证的食管鳞癌预后预测研究,是非常需要的。
随着大数据时代的到来,健康相关大数据、临床诊疗记录、终点结局随访***日趋完善,为我们基于临床大数据,采集、挖掘肿瘤预后信息,开展高质量食管鳞癌预后预测研究提供了良好的契机。因此,本研究拟构建一个涵盖常规临床诊疗资料和多维度生物标志物的食管癌预后预测模型,并进行有效验证。最终形成符合我国实际情况、具有明确推广价值的食管鳞癌预后评估方案。
为了提高食管鳞癌根治术后患者预后预测准确率,明确不同治疗方案的最佳获益群体,实现食管鳞癌预后评估的精准化,本发明实施例提供一种食管鳞癌根治术后患者预后预测模型构建方法,如图1所示,该方法可以包括:
步骤101、获得食管鳞癌根治术后患者的临床诊疗资料数据和随访生存数据,所述临床诊疗资料数据从医院信息管理***HIS数据库中获得,所述随访生存数据从随访数据库中获得;
步骤102、对所述临床诊疗资料数据进行数据清洗处理,确定潜在变量类别,所述潜在变量类别包括:患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量;
步骤103、根据随访生存数据,分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量;
步骤104、对所述建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,所述食管鳞癌根治术后患者预后预测模型中包含食管鳞癌根治术后患者预后预测变量,所述食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。
由图1所示可以得知,本发明实施例通过获得食管鳞癌根治术后患者的临床诊疗资料数据和随访生存数据,所述临床诊疗资料数据从医院信息管理***HIS数据库中获得,所述随访生存数据从随访数据库中获得;对所述临床诊疗资料数据进行数据清洗处理,确定潜在变量类别,所述潜在变量类别包括:患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量;根据随访生存数据,分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量;对所述建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,所述食管鳞癌根治术后患者预后预测模型中包含食管鳞癌根治术后患者预后预测变量,所述食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。本发明实施例根据随访生存数据分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量,对建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,预测模型包含以下预测变量:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。利用筛选出的食管鳞癌根治术后患者预后预测变量对食管鳞癌根治术后患者进行预后预测,可以有效提高食管鳞癌根治术后患者预后预测准确率,明确不同治疗方案的最佳获益群体,实现食管鳞癌的精准化、个体化治疗,提高疗效、改善患者生存。
实施例中,获得食管鳞癌根治术后患者的临床诊疗资料数据和随访生存数据,所述临床诊疗资料数据从医院信息管理***HIS数据库中获得,所述随访生存数据从随访数据库中获得。
本实施例中,从医院信息管理***HIS数据库中导出电子病例,然后对食管鳞癌根治术后患者电子病例中个人隐私数据进行遮盖。其中个人隐私数据可以包括:身份证号码等基本信息数据。
具体实施时,以住院号或病案号为唯一识别代码对患者进行标记,并进行数据的集成及清理。数据的存储管理、统计分析及安全监督均有专人负责。
本实施例中,数据来源于北方高发区某大型肿瘤专科医院和南方非高发区某大型肿瘤专科医院。从HIS中导出食管癌患者的电子病历,覆盖出入院情况数据,在院治疗情况数据,病理数据,影像数据,内镜数据,辅助检查数据,会诊情况数据,疗效评价数据,常规检验数据(血常规、血生化、尿常规等)及诊疗费用数据其中之一或任意组合。经结构化后,提取食管鳞癌根治术后患者的临床诊疗资料数据。
本实施例中,随访生存数据包括:随访日期数据,随访方式数据,生存状态数据,死亡日期数据和死亡原因数据。
实施例中,对所述临床诊疗资料数据进行数据清洗处理,确定潜在变量类别,所述潜在变量类别包括:患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量。
本实施例中,所述患者特征数据包括:人口学特征数据,体格状况数据,个人史数据,既往史数据,医保类型数据和家族史数据;
所述肿瘤病理特征数据包括:肿瘤原发位置数据,分化程度数据和病理特征数据;
所述治疗情况数据包括:手术情况数据和初始治疗数据;
所述检验指标数据包括:血常规数据,血生化数据和组合变量数据。
具体实施时,研究对象为于2012年1月1日至2017年12月31日在北方某大型肿瘤医院和于2009年8月1日至2018年12月31日在南方某大型肿瘤医院连续就诊的食管鳞癌根治性切除患者。导出相应的电子病历,提取构建食管鳞癌预后预测模型所需要的数据集。随访截止日期分别为2018年7月19日、2019年11月7日。以北方数据集为建模集,进行食管鳞癌预后预测模型的构建,以南方数据集为验证集,对模型进行外部独立验证。具体纳入排除标准如下,纳入标准:①食管鳞癌首程治疗患者;②随访信息完整,即至少有一次随访记录了研究对象的生存状态(存活或死亡),及明确的随访日期或死亡日期,且随访期≥6个月;无远端转移。排除标准:①患者院内临床死亡或围治疗期1月内死亡;②接受内镜治疗;③接受新辅助治疗;④临床资料不完整。
本实施例中,对临床诊疗资料数据进行数据清洗处理还包括处理临床诊疗资料数据中的缺失值、异常值和重复值数据。对于有多个来源的数据,评估不同来源数据库的数据质量,设定数据选取的优先级,再对其进行合并、集成。对于重复测量数据,使用基线患者特征数据和检验指标数据;综合多次入院诊疗信息并设置合理的时间窗(如入院时间半年内),获取患者的初始治疗方案。
本实施例中,在清洗完数据后,可以对部分变量进行组合。主要基于文献、专业知识生成组合变量,如BMI指数、预后营养指数(Prognostic Nutritional Index,PNI;血清白蛋白和外周血淋巴细胞组合)等。还可以对数据的原始属性进行转换。根据文献、公认的标准,或统计学方法(如中位值、四分位间距、曲线下面积ROC等)寻找最佳的截断值(cutoff值),将连续变量转换为分类变量。
本实施例中,对临床诊疗资料数据进行数据质控,包括:
A.数据采集和录入:建立数据采集和录入标准,人工抽样核查,确保录入数据与数据源的一致性;
B.关键变量的质控:对关键变量的定义和编码进行确认,建立标准化的变量字典;明确关键变量的完整性和准确性是否达到研究要求;明确错分可能存在的环节;
C.数据分析的质控:采用严格合理的统计学方法进行数据分析、控制相关混杂和偏倚,并进行详细的记录;分析结果由经验丰富的专业指导人员进行评估,存在争议的结果由多位研究人员独立分析并达成一致。
本实施例中,对临床诊疗资料数据进行数据质控,可以得到潜在变量,如表1所示。
表1
需要说明的是,组合变量数据中,中性粒淋巴细胞比值=中性粒细胞计数(×109/L)/淋巴细胞计数(×109/L);血小板淋巴细胞比值=血小板计数(×109/L)/淋巴细胞计数(×109/L);淋巴单核细胞比值=淋巴细胞计数(×109/L)/单核细胞计数(×109/L);预后营养指数=白蛋白浓度(g/L)+5×淋巴细胞计数(×109/L);***性免疫炎症指数=血小板计数(×109/L)×中性粒细胞计数(×109/L)/淋巴细胞计数(×109/L)。
实施例中,根据随访生存数据,分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量。对所述建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,所述食管鳞癌根治术后患者预后预测模型中包含食管鳞癌根治术后患者预后预测变量,所述食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。
具体实施时,以总生存(overall survival,OS)为研究终点,生存时间定义为第一次入院日期到死亡或最后一次随访日期的间隔。利用Cox比例风险回归模型(Coxproportional hazard regression model)进行筛选。第一步,预测变量的初步选择。根据变量内在性质及临床相关性,将潜在变量数据分为4个维度,包括患者特征数据,肿瘤病理特征数据,治疗情况数据和检验指标数据。在每个维度进行多因素Cox回归,采用逐步后退法筛选变量,选择AIC值最小的模型。第二步,预测变量的确定。将第一步筛选得到的候选变量,进行多因素Cox回归,根据临床意义和逐步后退法筛选预测变量,再将其两两交互项逐一放入Cox模型中,根据AIC准则确定食管鳞癌根治术后患者预测变量。
具体实施时,在患者特征数据,肿瘤病理特征数据,治疗情况数据和检验指标数据4个维度中分别使用多因素Cox回归后退法筛选变量,初步筛选出16个可用来预测食管鳞癌根治术后总生存的候选变量,分别为年龄、性别、共患病、食管癌家族史、肿瘤原发位置、T分期、N分期、***取检数、治疗方式、手术模式、肿瘤大小、术前红细胞水平、术前血红蛋白水平、术前嗜酸性淋巴细胞计数、术前***性免疫炎症指数及术前白蛋白球蛋白比值。将第一步筛选得到的16个候选变量,进行多因素Cox回归,根据临床意义和逐步后退法筛选得到建模变量,再将其两两交互项逐一放入Cox模型中,根据AIC准则确定食管鳞癌根治术后患者预后预测模型结构。
本实施例中,食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。其中,N分期治疗方式交互作用项为N分期与治疗方式的交互作用项,即不同N分期,四种治疗方式对生存的影响不同。N0期的患者,术后进行任意辅助治疗会降低生存。N1期的患者,术后进行单纯化疗或单纯放疗能改善生存。N2或N3期患者,术后进行任意辅助治疗均能改善生存,其中,单纯辅助化疗获益最多。
本实施例中,食管鳞癌根治术后患者预后预测模型构建方法,还包括:
提取所述食管鳞癌根治术后患者预后预测模型中各食管鳞癌根治术后患者预后预测变量对应的回归系数;
根据所述回归系数建立列线图Nomogram;
根据所述列线图Nomogram,给每个食管鳞癌根治术后患者预后预测变量的每个取值水平进行赋分;
根据赋分的结果确定所述食管鳞癌根治术后患者预后预测变量对应的总得分;
根据所述总得分和函数转换关系,计算食管鳞癌根治术后患者的生存概率。
具体实施时,绘制列线图Nomogram,计算各因素的得分,并根据总分估计未来特定年份的生存概率。Nomogram的基本原理是,根据回归模型各个预测因素对结局变量的贡献程度(回归系数),给每个因素的每个取值水平赋分(Points,参照组都是0分),再将各个评分相加得到总得分(Total points),最后通过总得分与结局事件发生概率之间的函数转换关系,计算出该个体发生结局的概率。图2为列线图Nomogram示意图。根据所述食管鳞癌根治术后患者预后预测特征数据,从表2中找到对应的得分,然后根据赋分的结果确定所述食管鳞癌根治术后患者预后预测特征数据对应的总得分。进而,根据表3中的函数转换关系计算食管鳞癌根治术后患者的生存概率。
表2
表3
本实施例中,食管鳞癌根治术后患者预后预测模型构建方法,还包括:在构建食管鳞癌根治术后患者预后预测模型之后,对所述食管鳞癌根治术后患者预后预测模型进行评价。其中,模型的评价包括区分度评价和/或校准度评价。
具体实施时,区分度表示模型正确区分个体是否会发生结局事件的能力,可以使用一致性指数(Harrell’s concordance index,C-index)来评估。将所有研究对象两两配对,排除无法判断谁先出现结局事件的配对,如两个病例均为删失(未发生结局事件),配对中一个发生了结局事件另一个为删失,且删失发生的时间早于结局事件发生的时间。在剩余的配对中,比较两个对象的生存时间长短或概率,若预测结果与实际结果相符,称之为一致。计算一致的配对在所有可用配对中的比例,即为C-index。C-index的取值范围在0.5-1.0之间。C-index低于0.60表示模型区分度较差;0.60-0.75为区分度中等;高于0.75为区分度较好。
校准度表示预测结果和实际结果的符合程度,通常使用校准图(Calibrationcurve)进行评估。其基本思路为,首先根据预测模型计算每个个体发生结局事件的概率,根据预测概率从小到大排序,根据分位数进行等分(如五分位数等),分别计算各组的预测概率和实际概率的平均值,以预测概率值为x轴,实际概率值为y轴,绘制散点图和曲线。曲线越接近斜率为1的对角线,说明模型越准确。
举一例,在本发明实施例中的预测模型C-index为0.729(95%CI:0.714-0.744),在独立外部人群中进行验证,模型的C-index为0.695(95%CI:0.674-0.715),说明该模型的区分度较高,具有可重复性和外推性。如图3所示为建模集和验证集校准曲线图,A为建模集,B为验证集。在两个数据集中描绘校准曲线,建模集1年、3年、5年生存概率曲线与校准曲线(对角线)均有很好的重叠,验证集略有偏移,说明该模型准确度较高。由此可见,预测模型整体预测效能较好,且效果较为稳定。
实施例中,食管鳞癌根治术后患者预后预测模型构建方法,还包括:在构建食管鳞癌根治术后患者预后预测模型之后,构建风险分层***。根据建模集所有研究对象的变量信息,计算每个人Nomogram总得分。将所有总得分从低到高排列,以三分位数为截断值,将研究对象等分为低、中、高3个风险组。绘制三组的Kaplan-Meier生存曲线,用log-rank检验比较组间生存时间的差异。在建模集中,研究对象的总得分最低分为0.47分,最高分为30.65分,总得分的三分位数,即风险分层的截断值(cutoff)分别为11.99、16.94。根据截断值,验证集研究对象也被划分为低、中、高3个风险组,分别占25.7%、27.9%和46.4%。分别在建模、验证数据集中绘制风险级别的Kaplan-Meier生存曲线,风险分级Kaplan-Meier生存曲线如图4所示,其中A为建模集所有研究对象;B为验证集所有研究对象;C为建模集0-I期研究对象;D为验证集0-I期研究对象;E为建模集II期研究对象;F为验证集II期研究对象;G为建模集III期研究对象;H为验证集III期研究对象。三个风险组的生存曲线有显著区别,风险级别越高生存越差。在不同的分期内部,该模型均能将患者进一步细分。模型中,除治疗方式,其他变量均为“不可改变的预后因素”,而治疗方式是可以进行干预的。因此该模型可用来估计同一患者采用不同治疗方式所对应的生存概率和风险级别。
实施例中,可以使用Stata 15.0和R3.6.3进行数据处理和分析。
下面给出一个具体实施例,说明本发明实施例中食管鳞癌根治术后患者预后预测模型构建方法的具体应用。在本具体实施例中,患者张三,男性,64岁,中段食管鳞癌,术中取检***6个,术后病理分期pT3N2M0,肿瘤大小4cm,术前血红蛋白140g/L。根据患者特征对应的得分相比,可得到不同治疗方案的生存概率如表4所示。
表4
根据5年生存概率,若术后继续接受化疗,患者的生存率将从19%提高到27%,可能会推荐患者继续接受化疗。因此,该模型的适用人群为初始治疗为食管癌根治性切除的食管鳞癌患者,应用场景为术后评估是否应进行辅助治疗,若进行辅助治疗,哪种方案(单纯化疗、单纯放疗或同步放化疗)是更优的选择。
基于同一发明构思,本发明实施例还提供了一种食管鳞癌根治术后患者预后预测模型构建装置,如下面的实施例所述。由于这些解决问题的原理与食管鳞癌根治术后患者预后预测模型构建方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图5为本发明实施例中食管鳞癌根治术后患者预后预测模型构建装置的结构图,如图5所示,该装置包括:
数据获得模块501,用于获得食管鳞癌根治术后患者的临床诊疗资料数据和随访生存数据,所述临床诊疗资料数据从医院信息管理***HIS数据库中获得,所述随访生存数据从随访数据库中获得;
第一变量确定模块502,用于对所述临床诊疗资料数据进行数据清洗处理,确定潜在变量类别,所述潜在变量类别包括:患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量;
第二变量确定模块503,用于根据随访生存数据,分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量;
模型构建模块504,用于对所述建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,所述食管鳞癌根治术后患者预后预测模型中包含食管鳞癌根治术后患者预后预测变量,所述食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。
综上所述,本发明实施例通过获得食管鳞癌根治术后患者的临床诊疗资料数据和随访生存数据,所述临床诊疗资料数据从医院信息管理***HIS数据库中获得,所述随访生存数据从随访数据库中获得;对所述临床诊疗资料数据进行数据清洗处理,确定潜在变量类别,所述潜在变量类别包括:患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量;根据随访生存数据,分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量;对所述建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,所述食管鳞癌根治术后患者预后预测模型中包含食管鳞癌根治术后患者预后预测变量,所述食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。本发明实施例根据随访生存数据分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量,对建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,预测模型包含以下预测变量:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。利用筛选出的食管鳞癌根治术后患者预后预测变量对食管鳞癌根治术后患者进行预后预测,可以有效提高食管鳞癌根治术后患者预后预测准确率,明确不同治疗方案的最佳获益群体,实现食管鳞癌的精准化、个体化治疗,提高疗效、改善患者生存。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种食管鳞癌根治术后患者预后预测模型构建方法,其特征在于,包括:
获得食管鳞癌根治术后患者的临床诊疗资料数据和随访生存数据,所述临床诊疗资料数据从医院信息管理***HIS数据库中获得,所述随访生存数据从随访数据库中获得;
对所述临床诊疗资料数据进行数据清洗处理,确定潜在变量类别,所述潜在变量类别包括:患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量;
根据随访生存数据,分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量;
对所述建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,所述食管鳞癌根治术后患者预后预测模型中包含食管鳞癌根治术后患者预后预测变量,所述食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。
2.如权利要求1所述的食管鳞癌根治术后患者预后预测模型构建方法,其特征在于,所述随访生存数据包括:随访日期数据,随访方式数据,生存状态数据,死亡日期数据和死亡原因数据。
3.如权利要求1所述的食管鳞癌根治术后患者预后预测模型构建方法,其特征在于,所述患者特征数据包括:人口学特征数据,体格状况数据,个人史数据,既往史数据,医保类型数据和家族史数据;
所述肿瘤病理特征数据包括:肿瘤原发位置数据,分化程度数据和病理特征数据;
所述治疗情况数据包括:手术情况数据和初始治疗数据;
所述检验指标数据包括:血常规数据,血生化数据和组合变量数据。
4.如权利要求1所述的食管鳞癌根治术后患者预后预测模型构建方法,其特征在于,还包括:
提取所述食管鳞癌根治术后患者预后预测模型中各食管鳞癌根治术后患者预后预测变量对应的回归系数;
根据所述回归系数建立列线图Nomogram;
根据所述列线图Nomogram,给每个食管鳞癌根治术后患者预后预测变量的每个取值水平进行赋分;
根据赋分的结果确定所述食管鳞癌根治术后患者预后预测变量对应的总得分;
根据所述总得分和函数转换关系,计算食管鳞癌根治术后患者的生存概率。
5.一种食管鳞癌根治术后患者预后预测模型构建装置,其特征在于,包括:
数据获得模块,用于获得食管鳞癌根治术后患者的临床诊疗资料数据和随访生存数据,所述临床诊疗资料数据从医院信息管理***HIS数据库中获得,所述随访生存数据从随访数据库中获得;
第一变量确定模块,用于对所述临床诊疗资料数据进行数据清洗处理,确定潜在变量类别,所述潜在变量类别包括:患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量;
第二变量确定模块,用于根据随访生存数据,分别对患者特征变量,肿瘤病理特征变量,治疗情况变量和检验指标变量进行多因素Cox回归分析并利用逐步后退算法和赤池信息量准则进行变量筛选,对筛选出的候选变量再次进行多因素Cox回归分析同样基于逐步后退算法和赤池信息量准则进行变量筛选,得到建模变量;
模型构建模块,用于对所述建模变量及其两两交互作用项进行多因素Cox回归分析并利用赤池信息量准则构建食管鳞癌根治术后患者预后预测模型,所述食管鳞癌根治术后患者预后预测模型中包含食管鳞癌根治术后患者预后预测变量,所述食管鳞癌根治术后患者预后预测变量包括:年龄,性别,肿瘤原发位置,T分期,***取检数,肿瘤大小,术前血红蛋白水平和N分期治疗方式交互作用项。
6.如权利要求5所述的食管鳞癌根治术后患者预后预测模型构建装置,其特征在于,所述随访生存数据包括:随访日期数据,随访方式数据,生存状态数据,死亡日期数据和死亡原因数据。
7.如权利要求5所述的食管鳞癌根治术后患者预后预测模型构建装置,其特征在于,所述患者特征数据包括:人口学特征数据,体格状况数据,个人史数据,既往史数据,医保类型数据和家族史数据;
所述肿瘤病理特征数据包括:肿瘤原发位置数据,分化程度数据和病理特征数据;
所述治疗情况数据包括:手术情况数据和初始治疗数据;
所述检验指标数据包括:血常规数据,血生化数据和组合变量数据。
8.如权利要求5所述的食管鳞癌根治术后患者预后预测模型构建装置,其特征在于,还包括:
回归系数提取模块,用于提取所述食管鳞癌根治术后患者预后预测模型中各食管鳞癌根治术后患者预后预测变量对应的回归系数;
列线图建立模块,用于根据所述回归系数建立列线图Nomogram;
取值水平赋分模块,用于根据所述列线图Nomogram,给每个食管鳞癌根治术后患者预后预测变量的每个取值水平进行赋分;
总得分确定模块,用于根据赋分的结果确定所述食管鳞癌根治术后患者预后预测变量对应的总得分;
生存概率计算模块,用于根据所述总得分和函数转换关系,计算食管鳞癌根治术后患者的生存概率。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110505452.5A CN113270188B (zh) | 2021-05-10 | 2021-05-10 | 食管鳞癌根治术后患者预后预测模型构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110505452.5A CN113270188B (zh) | 2021-05-10 | 2021-05-10 | 食管鳞癌根治术后患者预后预测模型构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113270188A true CN113270188A (zh) | 2021-08-17 |
CN113270188B CN113270188B (zh) | 2024-07-02 |
Family
ID=77230306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110505452.5A Active CN113270188B (zh) | 2021-05-10 | 2021-05-10 | 食管鳞癌根治术后患者预后预测模型构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113270188B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936804A (zh) * | 2021-08-23 | 2022-01-14 | 四川大学华西医院 | 一种肺癌切除术后持续漏气风险预测模型构建*** |
CN114496306A (zh) * | 2022-01-28 | 2022-05-13 | 北京大学口腔医学院 | 基于机器学习的预后生存阶段预测方法和*** |
CN115713964A (zh) * | 2022-10-16 | 2023-02-24 | 洛兮基因科技(杭州)有限公司 | 预测肺鳞癌患者总体生存率的免疫相关基因预后模型 |
CN115810426A (zh) * | 2022-12-21 | 2023-03-17 | 河南科技大学第一附属医院 | 用于食管鳞状细胞癌预后的工具、***及应用 |
CN117524486A (zh) * | 2024-01-04 | 2024-02-06 | 北京市肿瘤防治研究所 | 用于预测术后患者无进展生存概率的tte模型建立方法 |
CN115810426B (zh) * | 2022-12-21 | 2024-07-16 | 河南科技大学第一附属医院 | 用于食管鳞状细胞癌预后的工具、***及应用 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070248948A1 (en) * | 2006-04-14 | 2007-10-25 | Christos Hatzis | Method of measuring residual cancer and predicting patient survival |
KR20120065959A (ko) * | 2010-12-13 | 2012-06-21 | 사회복지법인 삼성생명공익재단 | 위암의 예후 예측용 마커 및 이를 이용하는 위암의 예후 예측 방법 |
WO2012145607A2 (en) * | 2011-04-20 | 2012-10-26 | Board Of Regents, The University Of Texas System | Specific copy number aberrations as predictors of breast cancer |
CN107305596A (zh) * | 2016-04-15 | 2017-10-31 | 中国科学院上海生命科学研究院 | 肝门部胆管癌患者预后预测模型 |
CN108463228A (zh) * | 2015-10-23 | 2018-08-28 | 科罗拉多大学董事会法人团体 | 鳞状细胞癌的预后和治疗 |
CN111128385A (zh) * | 2020-01-17 | 2020-05-08 | 河南科技大学第一附属医院 | 一种用于食管鳞癌的预后预警***及其应用 |
CN111383765A (zh) * | 2020-03-13 | 2020-07-07 | 中国医学科学院肿瘤医院 | 一种食管鳞癌发病风险信息预测模型、构建方法及应用 |
CN111394454A (zh) * | 2020-01-06 | 2020-07-10 | 江苏省肿瘤防治研究所(江苏省肿瘤医院) | 一种免疫相关生物标志物及其在头颈部鳞状细胞癌预后诊断中的应用 |
CN111862085A (zh) * | 2020-08-03 | 2020-10-30 | 徐州市肿瘤医院 | 一种周围型nsclc的隐匿性n2***转移的预测方法及*** |
CN112185549A (zh) * | 2020-09-29 | 2021-01-05 | 郑州轻工业大学 | 基于临床表型和逻辑回归分析的食管鳞癌风险预测方法 |
CN112185546A (zh) * | 2020-09-23 | 2021-01-05 | 山东大学第二医院 | 一种用于乳腺癌患者预后预测的模型及建立方法 |
CN112635057A (zh) * | 2020-12-17 | 2021-04-09 | 郑州轻工业大学 | 基于临床表型和lasso的食管鳞癌预后指数模型构建方法 |
CN112635056A (zh) * | 2020-12-17 | 2021-04-09 | 郑州轻工业大学 | 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法 |
-
2021
- 2021-05-10 CN CN202110505452.5A patent/CN113270188B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070248948A1 (en) * | 2006-04-14 | 2007-10-25 | Christos Hatzis | Method of measuring residual cancer and predicting patient survival |
KR20120065959A (ko) * | 2010-12-13 | 2012-06-21 | 사회복지법인 삼성생명공익재단 | 위암의 예후 예측용 마커 및 이를 이용하는 위암의 예후 예측 방법 |
WO2012145607A2 (en) * | 2011-04-20 | 2012-10-26 | Board Of Regents, The University Of Texas System | Specific copy number aberrations as predictors of breast cancer |
CN108463228A (zh) * | 2015-10-23 | 2018-08-28 | 科罗拉多大学董事会法人团体 | 鳞状细胞癌的预后和治疗 |
CN107305596A (zh) * | 2016-04-15 | 2017-10-31 | 中国科学院上海生命科学研究院 | 肝门部胆管癌患者预后预测模型 |
CN111394454A (zh) * | 2020-01-06 | 2020-07-10 | 江苏省肿瘤防治研究所(江苏省肿瘤医院) | 一种免疫相关生物标志物及其在头颈部鳞状细胞癌预后诊断中的应用 |
CN111128385A (zh) * | 2020-01-17 | 2020-05-08 | 河南科技大学第一附属医院 | 一种用于食管鳞癌的预后预警***及其应用 |
CN111383765A (zh) * | 2020-03-13 | 2020-07-07 | 中国医学科学院肿瘤医院 | 一种食管鳞癌发病风险信息预测模型、构建方法及应用 |
CN111862085A (zh) * | 2020-08-03 | 2020-10-30 | 徐州市肿瘤医院 | 一种周围型nsclc的隐匿性n2***转移的预测方法及*** |
CN112185546A (zh) * | 2020-09-23 | 2021-01-05 | 山东大学第二医院 | 一种用于乳腺癌患者预后预测的模型及建立方法 |
CN112185549A (zh) * | 2020-09-29 | 2021-01-05 | 郑州轻工业大学 | 基于临床表型和逻辑回归分析的食管鳞癌风险预测方法 |
CN112635057A (zh) * | 2020-12-17 | 2021-04-09 | 郑州轻工业大学 | 基于临床表型和lasso的食管鳞癌预后指数模型构建方法 |
CN112635056A (zh) * | 2020-12-17 | 2021-04-09 | 郑州轻工业大学 | 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法 |
Non-Patent Citations (7)
Title |
---|
REDA AL-BAHRANI等: "Colon cancer survival prediction using ensemble data mining on SEER data", 2013 IEEE INTERNATIONAL CONFERENCE ON BIG DATA, 23 December 2013 (2013-12-23) * |
ZHUQING C.等: "The Early Stage Lung Cancer Prognosis Prediction Model based on Support Vector Machine", 2018 IEEE 23RD INTERNATIONAL CONFERENCE ON DIGITAL SIGNAL PROCESSING (DSP), 3 February 2019 (2019-02-03) * |
丛蕾;崔言刚;王潍博;杜贾军;刘奇;: "晚期非小细胞肺癌化疗预后因素的COX回归分析", 中国癌症杂志, no. 04 * |
周支瑞 等: "临床预测模型构建方法学", 28 February 2021, 长沙:中南大学出版社, pages: 135 * |
戴;陆俊;李平;郑朝晖;黄昌明;: "皮革胃患者术后生存情况预测的列线图模型研究", 中国普通外科杂志, no. 04, 15 April 2019 (2019-04-15) * |
维托里奥•亚历山德罗: "当代腹膜后肉瘤诊治策略", 31 July 2020, 广州:广东科技出版社, pages: 123 * |
董英;黄品贤;: "Cox模型及预测列线图在R软件中的实现", 数理医药学杂志, no. 06, 15 December 2012 (2012-12-15) * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936804A (zh) * | 2021-08-23 | 2022-01-14 | 四川大学华西医院 | 一种肺癌切除术后持续漏气风险预测模型构建*** |
CN113936804B (zh) * | 2021-08-23 | 2023-03-28 | 四川大学华西医院 | 一种肺癌切除术后持续漏气风险预测模型构建*** |
CN114496306A (zh) * | 2022-01-28 | 2022-05-13 | 北京大学口腔医学院 | 基于机器学习的预后生存阶段预测方法和*** |
CN114496306B (zh) * | 2022-01-28 | 2022-12-20 | 北京大学口腔医学院 | 基于机器学习的预后生存阶段预测方法和*** |
WO2023143232A1 (zh) * | 2022-01-28 | 2023-08-03 | 北京大学口腔医学院 | 基于机器学习的预后生存阶段预测方法和*** |
CN115713964A (zh) * | 2022-10-16 | 2023-02-24 | 洛兮基因科技(杭州)有限公司 | 预测肺鳞癌患者总体生存率的免疫相关基因预后模型 |
CN115713964B (zh) * | 2022-10-16 | 2023-08-15 | 洛兮基因科技(杭州)有限公司 | 一种基于免疫相关基因预测肺鳞癌患者总体生存率的方法 |
CN115810426A (zh) * | 2022-12-21 | 2023-03-17 | 河南科技大学第一附属医院 | 用于食管鳞状细胞癌预后的工具、***及应用 |
CN115810426B (zh) * | 2022-12-21 | 2024-07-16 | 河南科技大学第一附属医院 | 用于食管鳞状细胞癌预后的工具、***及应用 |
CN117524486A (zh) * | 2024-01-04 | 2024-02-06 | 北京市肿瘤防治研究所 | 用于预测术后患者无进展生存概率的tte模型建立方法 |
CN117524486B (zh) * | 2024-01-04 | 2024-04-05 | 北京市肿瘤防治研究所 | 用于预测术后患者无进展生存概率的tte模型建立方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113270188B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240112811A1 (en) | Methods and machine learning systems for predicting the likelihood or risk of having cancer | |
CN113270188B (zh) | 食管鳞癌根治术后患者预后预测模型构建方法及装置 | |
US11769596B2 (en) | Plasma based protein profiling for early stage lung cancer diagnosis | |
Salle et al. | Comprehensive molecular and pathologic evaluation of transitional mesothelioma assisted by deep learning approach: a multi-institutional study of the International Mesothelioma Panel from the MESOPATH Reference Center | |
JP2022020738A (ja) | 測定分析物を使用する、疾患診断を改善するための方法 | |
Breen et al. | A holistic comparative analysis of diagnostic tests for urothelial carcinoma: a study of Cxbladder Detect, UroVysion® FISH, NMP22® and cytology based on imputation of multiple datasets | |
WO2017192965A2 (en) | Compositions, methods and kits for diagnosis of lung cancer | |
Parodi et al. | Differential diagnosis of pleural mesothelioma using Logic Learning Machine | |
CN115144599A (zh) | 蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、*** | |
CN115274118A (zh) | 一种构建睾丸肿瘤诊断和术后复发风险预测模型的方法 | |
Wang et al. | Survival risk prediction model for ESCC based on relief feature selection and CNN | |
Schneider et al. | Multimodal integration of image, epigenetic and clinical data to predict BRAF mutation status in melanoma | |
Nowinski et al. | Population-based stroke atlas for outcome prediction: method and preliminary results for ischemic stroke from CT | |
US20240194294A1 (en) | Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same | |
CN114678062B (zh) | 基于多组学特征的肝细胞癌预后预测***及其预测方法 | |
Wilk et al. | Radiomic signature accurately predicts the risk of metastatic dissemination in late-stage non-small cell lung cancer | |
Feng et al. | Flexible diagnostic measures and new cut‐point selection methods under multiple ordered classes | |
WO2022232850A1 (en) | Systems and methods for continuous cancer treatment and prognostics | |
CN114898874A (zh) | 一种肾透明细胞癌患者预后预测方法及*** | |
CN111263965A (zh) | 利用测量分析物改善疾病诊断的***和方法 | |
CN117476097B (zh) | 一种基于三级***构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用 | |
US20240233952A1 (en) | Systems and Methods for Continuous Cancer Treatment and Prognostics | |
Gronnier et al. | Relevance of blood tumor markers in inpatients with significant involuntary weight loss and elevated levels of inflammation biomarkers | |
Goyal et al. | Prediction of Breast Cancer Recurrence Risk Using a Multi-Model Approach Integrating Whole Slide Imaging and Clinicopathologic Features | |
DINH | LEVERAGING MACHINE LEARNING TO IDENTIFY PROTEOMIC BIOMARKERS OF TIBIAL BONE STRESS REINJURY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |