CN114093503A - 基于LightGBM优化的死亡率预测方法和*** - Google Patents

基于LightGBM优化的死亡率预测方法和*** Download PDF

Info

Publication number
CN114093503A
CN114093503A CN202111317863.8A CN202111317863A CN114093503A CN 114093503 A CN114093503 A CN 114093503A CN 202111317863 A CN202111317863 A CN 202111317863A CN 114093503 A CN114093503 A CN 114093503A
Authority
CN
China
Prior art keywords
lightgbm
algorithm
mortality
preset
mortality prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111317863.8A
Other languages
English (en)
Inventor
徐文星
王瑶
陈谦
李嘉诚
安欣舒
梁永文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Petrochemical Technology
Original Assignee
Beijing Institute of Petrochemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Petrochemical Technology filed Critical Beijing Institute of Petrochemical Technology
Priority to CN202111317863.8A priority Critical patent/CN114093503A/zh
Publication of CN114093503A publication Critical patent/CN114093503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及医护领域,具体涉及一种基于LightGBM优化的死亡率预测方法和***,该方法包括:首先获取待检测患者的监护数据;然后将监护数据带入与预设LightGBM模型中,得到待检测患者的死亡率预测结果;最后将死亡率预测结果输出。其中,LightGBM模型为,基于预设数据集通过随机森林和皮尔逊相关性算法共同进行特征选择,并通过麻雀搜索算法优化模型参数后得到的。如此,通过随机森林和皮尔逊相关性算法共同进行特征选择,保证了特征取舍的准确性,以及通过麻雀搜索算法确定LightGBM算法的最优参数组合,多方面提高患者死亡率预测的准确性。

Description

基于LightGBM优化的死亡率预测方法和***
技术领域
本申请涉及医护技术领域,尤其涉及一种基于LightGBM优化的死亡率预 测方法和***。
背景技术
重症监护病房(Intensive care unit,ICU)是医院用于集中监护患者和 专门救治危重患者的医疗监护单元,其目标是提高重症患者的抢救成功率, 减少其死亡人数。ICU与普通病房的不同之处是设有中心监护站,可以直接观 察所有的监护病房,从根本上给予了患者最佳保障,但是据数据显示,各个 医院的ICU资源配置非常紧缺,而且费用也相对比较昂贵,普通家庭根本难 以长期的承受,因此,通过监测ICU患者的重症监护数据,对患者的死亡率 做出更加精确地预测以达到合理利用ICU资源配置的目的就显得尤为重要。
而现有技术中,由于现代医疗监护设备的逐渐丰富性和复杂性,重症监 护的各项数据往往存在着数据量庞大、复杂度高、数据高度不平衡等问题。 现有的很多深度学习方法,在对患者死亡率的预测上,效率和精度都不是很 理想,无法做到精确预测患者死亡率,所以无法合理规划使用,重症监护病 房及设备的使用。
发明内容
本申请提供一种基于LightGBM优化的死亡率预测方法和***,以解决现 有技术中无法高效率的准确的预设患者死亡率,导致不能合理规划安排使用 重症监护病房及设备的问题。
本申请的上述目的是通过以下技术方案实现的:
第一方面,本申请实施例提供一种基于LightGBM优化的死亡率预测方法, 包括:
获取待检测患者的监护数据;
将所述监护数据带入与预设LightGBM模型中,得到所述待检测患者的死 亡率预测结果;其中,所述LightGBM模型为,基于预设数据集通过预设随机 森林算法和预设皮尔逊相关性算法共同进行特征选择,并通过预设麻雀搜索 算法优化模型参数后,得到的LightGBM死亡率预测模型;
将所述死亡率预测结果输出。
进一步的,所述基于预设数据集通过随机森林算法和皮尔逊相关性算法 共同进行特征选择,包括:
确定数据集,并对所述数据集进行数据处理后得到待选择特征;
通过预设随机森林算法,分别计算每个所述待选择特征的重要性值;
通过预设皮尔逊相关性算法,分别计算每个所述待选择特征的相关性;
基于所述待选择特征的重要性值和相关性,得到对应每个所述待选择特 征的死亡率影响值;
基于所述死亡率影响值对所述待选择特征进行选择。
进一步的,所述确定数据集,并对所述数据集进行数据处理后得到待选 择特征,包括:
确定数据集;
对所述数据集中的数据进行筛选、清洗和标准化处理;
基于筛选、清洗和标准化处理结果,确定待选择特征。
进一步的,所述基于所述死亡率影响值对所述待选择特征进行选择,包 括:
基于所述死亡率影响值对所述待选择特征进行排序;
基于排序结果对所述待选择特征进行取舍,完成特征选择。
进一步的,所述数据集为重症护理医学信息集。
进一步的,所述通过预设麻雀搜索算法优化模型参数,包括:
定义LightGBM算法为适应函数,并将其中的参数取值范围作为预设麻雀 搜索算法中每只麻雀的活动范围;
计算每只麻雀的适应度值并排序,得到最优适应度值;
基于所述最优适应度值确定最优适应度的位置;
将所述最优适应度的位置确定为LightGBM算法的最优参数组合。
进一步的,所述基于所述最优适应度值确定最优适应度的位置,包括:
在首次得到最优适应度值以及最优适应度的位置后,检查所述麻雀搜索 算法是否达到最大迭代次数;
若未达到,则更新麻雀搜索算法中的发现者、加入者和警戒者位置,重 新计算每只麻雀适应度值并排序,以及得到最优适应度的位置,直至所述麻 雀搜索算法达到最大迭代次数;
若已达到,基于达到最大迭代次数后的最优适应度值,确定最优适应度 的位置。
第二方面,本申请实施例提供一种基于LightGBM优化的死亡率预测***, 包括:
获取模块,用于待检测患者的监护数据;
计算模型模块,用于将所述监护数据带入与预设LightGBM模型中,得到 所述待检测患者的死亡率预测结果;
所述计算模型模块还包括:
特征选择子模块,用于基于预设数据集通过预设随机森林算法和预设皮 尔逊相关性算法共同进行特征选择;
参数优化子模块,用于通过预设麻雀搜索算法优化模型参数,得到的 LightGBM死亡率预测模型;
输出模块,用于将所述死亡率预测结果输出。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请的实施例提供的技术方案中,首先获取待检测患者的监护数据; 然后将监护数据带入与预设LightGBM模型中,得到待检测患者的死亡率预测 结果;最后将死亡率预测结果输出。其中,LightGBM模型为,基于预设数据 集通过预设随机森林算法和预设皮尔逊相关性算法共同进行特征选择,并通 过预设麻雀搜索算法优化模型参数后,得到的LightGBM死亡率预测模型。如 此,通过随机森林算法和皮尔逊相关性算法共同进行特征选择,保证了特征 取舍的准确性,以及通过麻雀搜索算法确定LightGBM算法的最优参数组合, 从而既保留了原算法速度快消耗少的优点,还弥补了其无法确定最优参数组 合的确定,多方面提高患者死亡率预测的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性 的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申 请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种基于LightGBM优化的死亡率预测方法的 流程示意图;
图2为本申请实施例提供的一种基于LightGBM优化的死亡率预测模型的 构建使用的示意图;
图3为本申请实施例提供的基于LightGBM优化的死亡率预测方法中特征 选择的原理示意图;
图4为本申请实施例提供的基于LightGBM优化的死亡率预测方法中模型 最优参数确定的原理示意图;
图5为本申请实施例提供的基于LightGBM优化的死亡率预测方法中的RandomForest特征重要性排序的示意图;
图6为本申请实施例提供的基于LightGBM优化的死亡率预测方法中的 LightGBM特征重要性排序的示意图;
图7为本申请实施例提供的基于LightGBM优化的死亡率预测方法中的 ICU病人死亡情况与各特征之间的皮尔逊相关性的示意图;
图8为本申请实施例提供的基于LightGBM优化的死亡率预测方法中不同 特征选择方法下的AUC值的示意图;
图9为本申请实施例提供的基于LightGBM优化的死亡率预测方法中最优 适应度值变化趋势的示意图;
图10为本申请实施例提供的基于LightGBM优化的死亡率预测方法的验 证过程中不同算法的实验结果对比图;
图11为本申请实施例提供的基于LightGBM优化的死亡率预测方法的验 证过程中不同算法的ROC曲线对比图;
图12为本申请实施例提供的一种基于LightGBM优化的死亡率预测*** 的流程示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的 描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的 要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所 有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一 些方面相一致的装置和方法的例子。
为了解决上述问题,本申请提供一种基于LightGBM优化的死亡率预测方 法,以对患者死亡率进行高效精确的预测,以帮助相关医护人员规划安排重 症监护病房以及设备的使用,从而提高重症监护病房及设备资源的利用效率。
实施例
参照图1,图1为本申请实施例提供的一种基于LightGBM优化的死亡率 预测方法的流程示意图,如图1所示,该方法至少包括以下步骤:
S101、获取待检测患者的监护数据。
S102、将所述监护数据带入与预设LightGBM模型中,得到所述待检测患 者的死亡率预测结果。
其中,所述LightGBM模型为,基于预设数据集通过预设随机森林算法和 预设皮尔逊相关性算法共同进行特征选择,并通过预设麻雀搜索算法优化模 型参数后,得到的LightGBM死亡率预测模型。
具体的,在本申请实施例提供的基于LightGBM优化的死亡率预测方法中, 采用LightGBM(Light Gradient Boosting Machine,LightGBM)为预测模型的 基础。需要说明的是,LightGBM具有训练速度快、内存消耗少、准确率高等 优点,其中,LightGBM包含两种新技术:分别是基于梯度的单边采样 (Gradient-based One-side Sampling)和互斥特征捆绑(Exclusive Feature Bundling,EFB),这两种新技术分别从减少样本数量和减少特征维度的角度 进行优化,以处理大量数据实例和大量样本特征的相关问题。在处理减少样本数量的相关问题上采用了基于梯度的单边采样GOSS方法,每次更新弱分类 器时,GOSS在不改变特征值分布和不损失精度的同时,压缩训练数据集,减 少计算量。此外,基于梯度的单边采样增加了弱分类器的多样性,进而提高 了模型的泛化能力。在处理减少特征维度的相关问题上采用了EFB独立特征 合并的方法,EFB通过构建加权无向图,将构建特征集合建模成图着色问题, 使用类似贪心算法求取结果,使用划分直方图的方法捆绑特征集合中的互斥 特征。
在实际应用中,在获取待检测患者的监护数据后,监护数据中一般具有 大量的特征,需要对死亡率预测较为重要的特征的进行保留,以及对死亡率 预测影响较小的特征进行舍弃。在特征选择的过程中,本申请中采用了两种 算法进行特征的选择,分别是随机森林算法和皮尔逊相关性算法。其中随机 森林算法随机森林(Random Forest,RF)是一种基于模型聚合思想的分类和回 归算法,通过计算随机森林中所有决策树得到的平均不纯度衰减来度量特征 重要性。在本申请中,一方面通过随机森林算法对每个特征变量的重要性进 行评分,从而为特征取舍提供依据。
另一方面,还通过皮尔逊相关性算法进行特征选择。在统计学中,皮尔 逊相关系数(Pearson correlation coefficient,PCCs)是用来计算两个变量X 和Y之间相关性(线性相关)的一种度量指标,它的值介于-1与1之间。通过 皮尔逊相关性计算,得到特征的相关性,为特征提取提供依据。
在使用随机森林计算特征的重要性基础上,利用皮尔逊相关性分析,对 各个实验室检测项目与死亡情况之间的相关性进行计算,由于特征的重要性 与相关性为同一量纲,所以将各个实验室检测项目的特征重要性与相关性进 行相加,得到各个实验室检测项目既特征对死亡情况的影响值,利用影响值 对检测项目既特征进行排序,对排序靠前的特征进行保留,对排序靠后的特 征可以进行适当的舍弃,从而减少作用不大或无作用的特征数据,对预测结 果准确性的影响,还能减少计算量,缓解***压力。
进一步的,在确定基础训练模型以及对应的特征后,为了预测结果更加 准确,本申请实施例提供的基于LightGBM优化的死亡率预测方法中,还包括 通过麻雀搜索算法对模型参数进行优化。在实际应用中,虽然LightGBM算法 具有上述优良的特性,但由于LightGBM算法的参数取值难以确定是否是其模 型的最优值,所以本申请实施例提供的基于LightGBM优化的死亡率预测方法 中,通过使用麻雀搜索算法(SSA)来对LightGBM算法进行最优参数组合的搜 索,例如在LightGBM算法的调参中,选取learning_rate、n_estimators、 num_leaves、min_data_in_leaf、max_depth这几个超参数进行优化,确定其最优值,从后在输入测试集样本时,多方面保证患者死亡率预测的准确性。
S103、将所述死亡率预测结果输出。
最后将得到的死亡率预测结果输出,供相关工作人员基于患者死亡率预 测结果,合理规划安排重症监护病房及设备的使用,提高资源利用率。
本申请实施例提供一种基于LightGBM优化的死亡率预测方法,包括首先 获取待检测患者的监护数据;然后将监护数据带入与预设LightGBM模型中, 得到待检测患者的死亡率预测结果;最后将死亡率预测结果输出。其中, LightGBM模型为,基于预设数据集通过预设随机森林算法和预设皮尔逊相关 性算法共同进行特征选择,并通过预设麻雀搜索算法优化模型参数后,得到 的LightGBM死亡率预测模型。如此,通过随机森林算法和皮尔逊相关性算法 共同进行特征选择,保证了特征取舍的准确性,以及通过麻雀搜索算法确定LightGBM算法的最优参数组合,从而既保留了原算法速度快消耗少的优点, 还弥补了其无法确定最优参数组合的确定。
图2为本申请实施例提供的一种基于LightGBM优化的死亡率预测模型的 构建使用的示意图,如图2所示:
本申请实施例提供的基于LightGBM优化的死亡率预测方法中,主要包括 基于LightGBM优化的死亡率预测模型的构建过程以及该模型的使用过程。
构建过程包括选取数据集得到训练样本,例如选取MIMIC-III数据集中 ICU病患的数据进行整理、筛选等一系列数据预处理过程后,得到训练样本, 基于随机森林重要性计算结果和皮尔逊相关性计算结果对特征进行排序,再 结合LightGBM算法和麻雀搜索算法(SSA),得到本申请实施例提供的基于 RF-PCCs(即随机森林和皮尔逊相关性算法)特征选择和SSA(即麻雀搜索算 法)-LightGBM死亡率预测模型。
具体的,从MIMICIII数据集中获取数据,并对数据进行预处理,包括数 据筛选和数据清洗,以及进行标准化处理,得到训练集样本;然后通过图2 中虚线标出的SSA算法优化LightGBM参数过程,通过麻雀搜索算法既图中的 SSA算法,确定最优适度值以及适度值对应的组合,对LightGBM参数进行优 化;以及通过图2中虚线标注的特征选择过程,包括基于随机森林重要性计 算结果和皮尔逊相关性计算结果,共同计算特征的死亡率影响值,然后对特 征的死亡率影响值进行排序,基于排序结果对特征进行取舍,得到完整预测 模型,通过输入测试集样本,就可以得到并输出对应测试集样本的死亡率预 测结果。
图3为本申请实施例提供的一种基于LightGBM优化的死亡率预测方法中 特征选择的原理示意图,如图3所示,本申请实施例提供的基于LightGBM优 化的死亡率预测方法对于特征选择主要包括:
首先基于随机森林算法计算当前特征的重要性,随机森林(Random, Forest,RF)是Breiman(2001)提出的一种基于模型聚合思想的分类和回归算 法。通过计算随机森林中所有决策树得到的平均不纯度衰减来度量特征重要 性。由于基尼指数法计算相对快速简单,不用采用对数计算,因此本申请中 选择基尼指数作为特征重要性的评价指标。特征变量的重要性评分(variable importance measures)用VIM表示,基尼指数用GI表示,根据其计算公式, 第i棵决策树中,节点n的基尼指数为:
Figure RE-GDA0003431961140000111
式中:K表示在特征节点n处共有K个类别,Pnk表示随机选中样本在节点 n处属于类别k的概率。
在第i棵决策树中,若特征j出现的节点属于集合Q,那么特征j在该决策树 的特征节点n处重要性为:
Figure BDA0003344207700000092
式中:ΔVIM表示节点n***前后的基尼指数变化量,GIl表示节点***后 新节点的基尼指数。
若随机森林共有t棵树,那么特征变量j在随机森林中的重要性为:
Figure BDA0003344207700000101
然后通过皮尔逊相关性算法计算特征之间的相关性,在统计学中,皮尔 逊相关系数(Pearson correlation coefficient,PCCs)是用来计算两个变量X 和Y之间相关性(线性相关)的一种度量指标,它的值介于-1与1之间。两个 变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商,将 皮尔逊相关性用P表示,根据皮尔逊相关性计算公式,特征变量j与死亡情况X 之间的相关性Pj,X为:
Figure BDA0003344207700000102
式中,Pj,X为特征变量j与死亡情况X之间的相关系数,σj、σX分别为特征 变量j和死亡情况X的标准差,μj、μX分别为特征变量j和死亡情况X的期望值, cov(j,X)为特征变量j和死亡情况X的协方差。
在实际应用中,基于上述理论基础,可以通过设计RF-PCCs特征选择模 型,对特征进行选择。在进行ICU患者的死亡率预测时,本申请实施例提供 的方法中,选取了检查人数大于10000名患者的实验室各检测项目,筛选后 共有56项特征,由于选择不同的特征组合,会对患者的死亡率预测结果产生 影响,所以可以通过计算ICU病患的实验室各个检测项目基尼指数,将其基 尼指数计算结果作为该检测项目的重要性,从而筛选出与死亡率相关性更强 的因素。另外,在进行特征重要性计算时,同一个患者可能会出现不同的检 测项目有着相同重要性的情况,盲目地取舍特征会影响死亡率预测模型的精 确性和可靠性,因此本申请提出了RF-PCCs特征选择模型,在使用随机森林 计算特征的重要性基础上,利用皮尔逊相关性分析,对各个实验室检测项目 与死亡情况之间的相关性进行计算,由于特征的重要性与相关性为同一量纲, 所以将各个实验室检测项目的特征重要性与相关性进行相加,得到各个实验 室检测项目对死亡情况的影响值。
特征变量Xj∈(X1,X2,X3,...,XM),其中M为特征总数量,本文所提RF-PCCs 特征选择模型的关键定义如下:
定义:(死亡率影响值Mor_value)某一特征变量的重要性与相关性之和叫 该特征的死亡率影响值,则特征变量Xj的死亡率影响值可以表示为
Figure BDA0003344207700000111
在一些具体的实施过程中,RF-PCCs特征选择模型的构建及使用过程包括:
第一步:输入训练样本集,最大特征数量M,初始化当前迭代次数j=1, 定义空字典Mor_dic={};
第二步:根据上述过程中分别计算当前特征变量Xj的特征重要性
Figure BDA0003344207700000112
和相关性Pj,X
第三步:根据公式5,计算当前特征变量Xj的死亡率影响值Mor_valuej
第四步:将当前特征变量Xj的特征变量名称以及所对应的死亡率影响值 Mor_valuej添加到字典Mor_dic中,Mor_dic={Xj:Mor_valuej};
第五步:如果j<M,当前迭代次数j=j+1,继续执行上述第二步到第4 步之间的过程;
第六步:先将字典Mor_dic转换为元组,再根据元组中各特征变量所对应 的死亡率影响值进行从大到小排序,输出排序结果,基于排序结果进行的特 征选择,能最大程度的保证特征选择的合理性,从而提高模型预测结果的准 确性。
图4为本申请实施例提供的一种基于LightGBM优化的死亡率预测方法中 模型最优参数确定的原理示意图,如图4所示,本申请实施例中通过麻雀搜 索算法确定模型最优参数,基于最优参数建立SSA-LightGBM的数学模型,保 证模型预测结果的准确性。
麻雀搜索算法(Sparrow Search Algorithm,SSA)是由于受到了麻雀的觅 食和反捕食行为的启发所提出的一种新型优化算法。麻雀可以分为发现者 (Producer)和加入者(Scrounger)两种类型。发现者往往拥有很好的能源储 备,在种群中负责寻找食物并为整个麻雀种群提供更好地觅食区域和方向, 而加入者是利用发现者来获取食物,使用麻雀个体对应的适应度值(Fitness Value)作为衡量一个麻雀能量储备高低的指标。发现者和加入者的身份是动 态变化的,目的是为了寻找到更好的食物资源,但是发现者和加入者占整个 种群数量的比重是固定不变的。在觅食的过程中,加入者总是能搜索到提供 最好食物资源的发现者,然后从最好的食物中进行觅食或者在该发现者周围 觅食,与此同时,一些加入者为了增加自己的捕食率可能会不断地监控发现 者进而去夺取资源,还有一些加入者在整个种群中往往处于较差的觅食位置, 为了获得更多的食物资源,这些加入者可能飞往其他区域觅食。在捕食过程 中,一旦麻雀发现了捕食者,个体开始发出鸣叫作为报警信号,当报警值大 于安全值时,发现者会将加入者带到其他安全区域进行觅食。当意识到危险 时,处于群体边缘的麻雀会迅速向安全区域移动,以获得更好的位置,群体 中间的麻雀会随即进行走动,以靠近其它麻雀来降低自己被捕的概率。
在本申请中,假设d表示需要优化问题的变量的维数,n表示麻雀的总数 量。由n只麻雀组成的麻雀种群X表示为如下形式:
Figure BDA0003344207700000121
定义LightGBM算法为适应函数,将LightGBM算法的各参数取值范围作 为每只麻雀的活动位置范围,以计算测试集的错误率作为每只麻雀个体的适 应度值f,适应度值越小,麻雀的能量储备越高。其最优适应度值对应的位置 就是LightGBM算法的最优参数组合。
假设t表示当前迭代的次数,itermax表示最大的迭代次数。
Figure BDA0003344207700000122
表示第i只 麻雀在第j维中的位置信息,R2(R2∈[0,1])和ST(ST∈[0.5,1])分别表示的是 安全值和预警值,则发现者的位置更新公式如下:
Figure BDA0003344207700000131
其中,α∈(0,1]是一个随机数。Q表示一个服从正态分布的随机数。L表 示一个1×d的矩阵,其中该矩阵内每个元素全部为1。
假设XP表示目前的发现者所占据的最优位置,Xworst则表示当前全局中最 差的位置。则加入者的位置更新公式如下:
Figure BDA0003344207700000132
其中,A表示一个1×d的矩阵,其中该矩阵内每个元素都可以随机的赋 值为1或-1,并且A+=AT(AAT)-1
Figure BDA0003344207700000133
时,表示此时能量储备较低的第i个加入者需要获得更多的能量, 因此飞往其它地方进行觅食。
假设Xbest是当前的全局最优位置,fi是当前麻雀个体的适应度值。fg和fw分别是当前全局最佳和最差的适应度值。则警戒者位置更新公式如下:
Figure BDA0003344207700000134
其中β作为步长控制参数,服从标准正态分布的随机数。K∈[-1,1]是一 个随机数,ε是常数,以避免分母出现零。
当fi>fg时,表示***麻雀处于种群边缘位置并发现捕食者,极易受到捕 食者攻击。
当fi=fg时,表示种群中间麻雀意识到危险,需在安全区域随机走动以靠 近其它麻雀,减少其被捕食风险。K表示麻雀移动的方向同时也是步长控制参 数。
在一些具体的实施过程中,SSA-LightGBM的数学模型可以包括如下步骤:
第一步:设置种群数量pop、最大迭代次数MaxIter、设置预警值ST、捕 食者和加入者的比例PD、意识到危险的麻雀比例SD以及LightGBM算法各参 数的取值范围如表1和表2所示;
第二步:计算每只麻雀的适应度值并排序,得到最优的适应度值;
第三步:根据最优适应度值得到其对应的最优适应度值位置组合;
第四步:判断是否达到最大迭代次数,若达到则终止运行,否则,先根据 公式8和9更新发现者、加入者、警戒者位置;再重复执行第二步至第四步 的过程;
第五步:输出到最优适应度值以及最优适应度的位置,其最优适应度值的 位置就是LightGBM算法的最优参数组合。
其中,上述SSA-LightGBM死亡率预测模型各参数设置见表1,LightGBM 算法各参数的取值范围见表2:
表1 SSA-LightGBM死亡率预测模型各参数设置值
Figure BDA0003344207700000141
表2预设参数范围
Figure BDA0003344207700000142
下面将以一个完整的实施例对本申请实施例提供的基于LightGBM优化的 死亡率预测方法进行详细的阐述:
首先本实施例模型使用以及预测结果验证的实验平台为Intel(R) Core(TM)i7-5500U [email protected],操作***为Windows 10,程序开发环境 为PyCharm CommunityEdition 2020.2.3,程序设计语言为python3.6.5。
对于数据集的确定和处理:在ICU患者的死亡率预测研究中,为了验证 本申请实施例提供的方案,基于RF-PCCs特征选择的SSA-LightGBM死亡率预 测模型的有效性,使用的数据集是由贝斯以色列女执事医疗中心和麻省理工 大学计算生理实验室、以及飞利浦共同支持的公开数据集——重症监护医学 信息集(MIMIC-III)。该数据集包括人口统计、生命体征、实验室检查、药物 等约60,000例重症监护病房就诊及相关的身份不明的健康数据。MIMIC-III 数据集是由26张表组成的关系型数据库。本实验采用了ADMISSIONS、PATIENTS、ICUSTAYS、D_LABITEMS、LABEVENTS这五张表。这五张表的说明如 下表3所示。
表3实验数据表说明
Figure BDA0003344207700000151
本申请研究的是ICU患者的死亡率,从ICUSTAY表中查询、一共有61532 条ICU患者的住院记录。由于一名患者可能会多次进入ICU病房,因此会有 多条ICU住院记录,所以对ICU患者的住院记录进行筛选,只保留每位患者 第一次进入ICU的住院记录,筛选后ICU患者的住院记录共有46476条。根 据每一名患者的死亡日期和出生日期计算出患者的年龄,结果发现新生儿死 亡的患者共有7870名,年龄大于91岁的死亡患者共有1990名,由于新生儿 患者和年龄过大的患者、实验室检测的缺失项目过多,所以本申请实施例所 选择的研究对象不包含这两部分住院记录,最终筛选完成后共计36616名患 者的ICU住院记录。实验数据统计表如表4所示。
表4实验数据统计表
Figure BDA0003344207700000161
在确定数据集后,需要对数据进行预处理以及标准化。需要说明的是, 本申请实施例实验选取的是重症监护医学信息集(MIMIC-III)数据集中的五 张表,这五张表之间通过SUBJECT_ID互相连接。
首先需要对患者的死亡情况增加标签以完成监督学习。本申请实施例死 亡率预测为患者出ICU的24小时之后存活状况,增加标签的方式如下:首先 将ICU患者的死亡时间dod和患者出ICU的时间dischtime转换为以小时计 量的形式。若dod≤(dischtime+24)则标记为死亡,否则标记为存活。筛选 后的36616名ICU患者中,4086名患者已经不再生存,32530名患者仍然是 存活。将筛选后的数据进行训练集和测试集划分,其中70%划分为训练集,30% 划分为测试集。
紧接着,还需要对特征进行选取。从D_LABITEMS表中可以看出,实验室 检测项目即上述的特征,共有753项。根据项目ID(itemid)、可以在表 LABEVENTS中查看ICU患者做过的实验室检测项目所对应的测量数值。由于部 分实验室检测项目只有部分患者进行了检查,所以本实验仅选取了检查人数 大于10000名患者的检测项目。此外,对于同一名患者,在同一个实验室检 测项目中可能会产出多个不同的值,这是由于同一名患者在不同时间段做了 同一种项目的检查,因此,我们取同一患者在同一检查项目上产生的多个值 的均值。最后再对数据集进行缺失值、异常值处理,处理之后的数据集共有 56项实验室检测项目。各个检测项目的人数分布情况如表5所示。
表5实验室检测项目人数统计表
Figure BDA0003344207700000171
具体的,在进行ICU患者的死亡率预测研究中,由于选取不同的特征, 会对患者死亡率预测的结果产生影响,因此如何进行特征的选择尤为重要。 首先,根据随机森林、LightGBM分别计算出影响ICU病人的各个特征重要性 值,特征重要性值的结果如图5、图6所示,横轴是特征名称,纵轴是特征重 要性计算的数值。
由图5可以看出在使用随机森林计算特征重要性中,Lactate的特征重要 性最高,为0.117935,Nitrite的特征重要性最低,仅为0.000692。这说明 Lactate该特征对ICU病人的死亡情况预测结果影响较大,而相比较之下, Nitrite特征对ICU病人的死亡情况预测结果影响很小。
由图6可以看出在使用LightGBM计算特征重要性中,Sodium的特征重要 性最高,为211,Nitrite的特征重要性最低,仅为8。这说明Sodium该特征 对ICU病人的死亡情况预测结果影响较大,而相比较之下,Nitrite特征对 ICU病人的死亡情况预测结果影响很小。Anion Gap和RDW特征重要性值相同, 为151;pH、Urea Nitrogen、Potassium和PTT的特征重要性值相同,为143; Magnesium和MCV的特征重要性值相同,为143;Base Excess和PT的特征重 要性值相同,为104;Free Calcium和MCH的特征重要性值相同,为94;Red BloodCells和Lactate Dehydrogenase的特征重要性值相同,为86。
由于合理的取舍特征值会对本文提出的ICU病人死亡预测模型准确性产 生重要影响,因此,为了防止出现多个特征具有相同的重要性结果情况时, 盲目地对特征进行取舍,本实施例方案中,在使用随机森林、LightGBM计算 特征重要性结果的基础上,再对ICU病人的死亡情况与各个特征间的皮尔逊 相关性进行计算,结果如图7所示。
由皮尔逊相关性图可以看出Anion Gap、Lactate和Urea Nitrogen与ICU 病人死亡情况正相关性较高,Bicarbonate、Base Excess与ICU病人死亡情 况负相关性较高。
而且,由于特征重要性与相关性为同一量纲,所以本申请实施例中,将 各个实验室检测项目的特征重要性与相关性进行相加,得到各个实验室检测 项目对死亡情况影响的最终影响值并进行排序。这里分别列举出RF-PCCs和 LightGBM-PCCs特征选择模型的前十项最终影响值排名如表6和表7所示。
表6 RF-PCCs特征选择模型的前十项最终影响值排名
Figure BDA0003344207700000181
表7 LightGBM-PCCs特征选择模型的前十项最终影响值排名
Figure BDA0003344207700000191
下面将对上述实施例的实验结果以及预测结果进行分析;
混淆矩阵(confusion matrix)是衡量一个分类器分类好坏的评价指标, 如表8所示。本申请实施例中,实验采用准确率(Accurary)、召回率(Recall)、 精确率(Precision)和AUC-ROC来对所提出的基于RF-PCCs特征选择的 SSA-LightGBM死亡率预测模型进行评估。
表8混淆矩阵(confusion matrix)
Figure BDA0003344207700000201
精确率:
Figure BDA0003344207700000202
召回率:
Figure BDA0003344207700000203
准确率:
Figure BDA0003344207700000204
F1:
Figure BDA0003344207700000205
为了确保在进行ICU病人死亡率预测时选择出合理的特征,本申请实施 例首先根据四种特征选择方法(RF、LightGBM、RF-PCCs、LightGBM-PCCs) 由高到低的排序结果进行不同特征数量F下的AUC值比较,结果如图8所示。
由图8所示,在RF、LightGBM、RF-PCCs、LightGBM-PCCs四种特征选择 的方法中,RF特征选择方法在特征数量为32时,AUC值最高,为0.7477; LightGBM特征选择方法在特征数量为47时,AUC值最高,为0.7470;RF-PCCs 特征选择方法在特征数量为48时,AUC值最高,为0.7508;LightGBM-PCCs 特征选择方法在特征数量为24时,AUC值最高,为0.7437;综上所述,本申 请实施例中选择RF-PCCs进行特征选择,特征的数量F为48。
本实验选取SVM、XGBoost、RF、LightGBM四个分类器模型与本申请实施 例所提出的模型进行比较。其中本申请实施例提出的SSA-LightGBM死亡率预 测模型的最优适应度值变化趋势如图9所示,得到的最优适应度值为0.06982。
当最优适应度值为0.06982,SSA优化LightGBM算法得到的最优参数组 合见表9:
表9最优参数组合
Figure BDA0003344207700000211
SSA算法优化LightGBM模型的其他参数设置:种子数seed=33、迭代过 程中,训练数据占总数的比值bagging_fraction=0.8、bagging的次数设置 为6。实验结果及其ROC曲线如表10、图10、和图11所示,其中图10中如 图10所示,对于Accuracy、Auc和F1,每一组中,从左至右依次为SVM、RF、 XGBoost、LightGBM和The Proposed,:
表10不同算法性能对比表
Figure BDA0003344207700000212
通过表10和图11可以看出,本申请实施例所提出的基于RF-PCCs特征 选择的SSA-LightGBM死亡率预测模型的预测结果最优。该死亡率预测模型的 精确率值为0.930,F1值为0.627,AUC-ROC值为0.751。在精确率方面,比SVM提高了0.045,比RF提高了0.048,比XGBoost提高了0.031,比LightGBM 提高了0.035;在F1值方面,比SVM提高了0.107,比RF提高了0.173,比 XGBoost提高了0.131,比LightGBM提高了0.053;在AUC-ROC方面,比SVM 提高了0.073,比RF提高了0.091,比XGBoost提高了0.124,比LightGBM 提高了0.206。本申请提出的基于RF-PCCs特征选择的SSA-LightGBM死亡率 预测模型的预测效果优于SVM、RF、XGBoost和LightGBM。
本申请所提出的预测模型既考虑到了特征选择的取舍,又使用SSA算法 弥补了LightGBM算法难以确定最优参数组合的缺点,提高了死亡率预测的效 率和准确度,并为ICU死亡率预测提供了新思路。
此外,基于相同的发明构思,本申请实施例还提供一种基于LightGBM优 化的死亡率预测***,图12为本申请实施例提供的一种基于LightGBM优化 的死亡率预测***的流程示意图,如图12所示,本申请实施例提供的基于 LightGBM优化的死亡率预测***包括:
获取模块201,用于待检测患者的监护数据;
计算模型模块202,用于将所述监护数据带入与预设LightGBM模型中, 得到所述待检测患者的死亡率预测结果;
所述计算模型模块202还包括:
特征选择子模块2021,用于基于预设数据集通过预设随机森林算法和预 设皮尔逊相关性算法共同进行特征选择;
参数优化子模块2022,用于通过预设麻雀搜索算法优化模型参数,得到 的LightGBM死亡率预测模型;
输出模块203,用于将所述死亡率预测结果输出。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些 实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于 描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中, 除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为, 表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的 代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实 现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时 的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域 的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实 现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的 指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另 一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来 实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具 有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编 程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或 部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一 种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或 其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模 块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模 块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立 的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示 例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描 述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例 中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或 示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多 个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施 例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申 请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于LightGBM优化的死亡率预测方法,其特征在于,包括:
获取待检测患者的监护数据;
将所述监护数据带入与预设LightGBM模型中,得到所述待检测患者的死亡率预测结果;其中,所述LightGBM模型为,基于预设数据集通过预设随机森林算法和预设皮尔逊相关性算法共同进行特征选择,并通过预设麻雀搜索算法优化模型参数后,得到的LightGBM死亡率预测模型;
将所述死亡率预测结果输出。
2.根据权利要求1所述的基于LightGBM优化的死亡率预测方法,其特征在于,所述基于预设数据集通过随机森林算法和皮尔逊相关性算法共同进行特征选择,包括:
确定数据集,并对所述数据集进行数据处理后得到待选择特征;
通过预设随机森林算法,分别计算每个所述待选择特征的重要性值;
通过预设皮尔逊相关性算法,分别计算每个所述待选择特征的相关性;
基于所述待选择特征的重要性值和相关性,得到对应每个所述待选择特征的死亡率影响值;
基于所述死亡率影响值对所述待选择特征进行选择。
3.根据权利要求2所述的基于LightGBM优化的死亡率预测方法,其特征在于,所述确定数据集,并对所述数据集进行数据处理后得到待选择特征,包括:
确定数据集;
对所述数据集中的数据进行筛选、清洗和标准化处理;
基于筛选、清洗和标准化处理结果,确定待选择特征。
4.根据权利要求2所述的基于LightGBM优化的死亡率预测方法,其特征在于,所述基于所述死亡率影响值对所述待选择特征进行选择,包括:
基于所述死亡率影响值对所述待选择特征进行排序;
基于排序结果对所述待选择特征进行取舍,完成特征选择。
5.根据权利要求1所述的基于LightGBM优化的死亡率预测方法,其特征在于,所述数据集为重症护理医学信息集。
6.根据权利要求1所述的基于LightGBM优化的死亡率预测方法,其特征在于,所述通过预设麻雀搜索算法优化模型参数,包括:
定义LightGBM算法为适应函数,并将其中的参数取值范围作为预设麻雀搜索算法中每只麻雀的活动范围;
计算每只麻雀的适应度值并排序,得到最优适应度值;
基于所述最优适应度值确定最优适应度的位置;
将所述最优适应度的位置确定为LightGBM算法的最优参数组合。
7.根据权利要求6所述的基于LightGBM优化的死亡率预测方法,其特征在于,所述基于所述最优适应度值确定最优适应度的位置,包括:
在首次得到最优适应度值以及最优适应度的位置后,检查所述麻雀搜索算法是否达到最大迭代次数;
若未达到,则更新麻雀搜索算法中的发现者、加入者和警戒者位置,重新计算每只麻雀适应度值并排序,以及得到最优适应度的位置,直至所述麻雀搜索算法达到最大迭代次数;
若已达到,基于达到最大迭代次数后的最优适应度值,确定最优适应度的位置。
8.一种基于LightGBM优化的死亡率预测***,其特征在于,包括:
获取模块,用于待检测患者的监护数据;
计算模型模块,用于将所述监护数据带入与预设LightGBM模型中,得到所述待检测患者的死亡率预测结果;
所述计算模型模块还包括:
特征选择子模块,用于基于预设数据集通过预设随机森林算法和预设皮尔逊相关性算法共同进行特征选择;
参数优化子模块,用于通过预设麻雀搜索算法优化模型参数,得到的LightGBM死亡率预测模型;
输出模块,用于将所述死亡率预测结果输出。
CN202111317863.8A 2021-11-09 2021-11-09 基于LightGBM优化的死亡率预测方法和*** Pending CN114093503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111317863.8A CN114093503A (zh) 2021-11-09 2021-11-09 基于LightGBM优化的死亡率预测方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111317863.8A CN114093503A (zh) 2021-11-09 2021-11-09 基于LightGBM优化的死亡率预测方法和***

Publications (1)

Publication Number Publication Date
CN114093503A true CN114093503A (zh) 2022-02-25

Family

ID=80299396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111317863.8A Pending CN114093503A (zh) 2021-11-09 2021-11-09 基于LightGBM优化的死亡率预测方法和***

Country Status (1)

Country Link
CN (1) CN114093503A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879369A (zh) * 2022-11-10 2023-03-31 国能神华九江发电有限责任公司 一种基于优化LightGBM算法的磨煤机故障预警方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879369A (zh) * 2022-11-10 2023-03-31 国能神华九江发电有限责任公司 一种基于优化LightGBM算法的磨煤机故障预警方法

Similar Documents

Publication Publication Date Title
Liu et al. Development and validation of a machine learning algorithm and hybrid system to predict the need for life-saving interventions in trauma patients
Singh et al. [Retracted] A Machine Learning Model for Early Prediction and Detection of Sepsis in Intensive Care Unit Patients
Pillai et al. Prediction of heart disease using rnn algorithm
CN112233736A (zh) 一种知识库的构建方法和***
Shrestha et al. Supervised machine learning for early predicting the sepsis patient: modified mean imputation and modified chi-square feature selection
Godbin et al. Screening of COVID-19 based on GLCM features from CT images using machine learning classifiers
Rudd Application of support vector machine modeling and graph theory metrics for disease classification
Du et al. Automated prediction of sepsis onset using gradient boosted decision trees
CN114093503A (zh) 基于LightGBM优化的死亡率预测方法和***
Mahmud et al. Early detection of Sepsis in critical patients using Random Forest Classifier
CN117116475A (zh) 缺血性脑卒中的风险预测方法、***、终端及存储介质
Labuda et al. Selecting adaptive number of nearest neighbors in k-nearest neighbor classifier apply diabetes data
Sankaravadivel et al. Feature based analysis of endometriosis using machine learning
Mollaei et al. Length of stay prediction in acute intensive care unit in cardiothoracic surgery patients
Magade et al. Automating Decision Process of Overnight Patient Care Using Hybrig Machine Learning Algorithms
Aksoy et al. A Decision Support System on Artificial Intelligence Based Early Diagnosis of Sepsis
Kumar et al. Cervical Cancer Prediction Using Machine Learning Algorithms
Yaşar et al. A Proposed Model Can Classify the Covid-19 Pandemic Based on the Laboratory Test Results
Abdo et al. A machine learning model for predicting recovery rates of COVID-19 patients
Lawal et al. Heart disease diagnosis using data mining techniques and a decision support system
Allayous et al. Machine learning algorithms for predicting severe crises of sickle cell disease
Adgaonkar et al. K-Means and Decision Tree Approach to Predict the Severity of Diabetes Cases
Naik et al. Multiple Disease Prediction System: A Review
Pervaiz et al. A Study on Detection of Chronic Renal Failure Based on Machine Learning
Jiang et al. Urine Routine Tests-Based Machine Learning and Urinalysis to Predict Acute Kidney Injury: URT-Based Machine Learning and Urinalysis to Predict AKI

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination