CN111243736A

CN111243736A - 一种生存风险评估方法及***

Info

Publication number: CN111243736A
Application number: CN201911019274.4A
Authority: CN
Inventors: 李志臻; 袁磊; 张晨; 孙佳星; 王则远
Original assignee: Beijing Nuodao Cognitive Medical Technology Co ltd; Third Affiliated Hospital Of Chinese People's Liberation Army Naval Medical University
Current assignee: Beijing Nuodao Cognitive Medical Technology Co ltd; Third Affiliated Hospital Of Chinese People's Liberation Army Naval Medical University
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-06-05
Anticipated expiration: 2039-10-24
Also published as: CN111243736B

Abstract

本发明实施例提供一种生存风险评估方法及***。该方法包括：获取筛选风险变量集及筛选风险变量模型系数；其中筛选风险变量集是由初始风险变量集基于COX比例风险回归模型和逐步后向算法获取；筛选风险变量模型系数是基于生存风险预测模型获取；基于筛选风险变量集和筛选风险变量模型系数构建生存风险评估量表；将待评估个体的若干信息数据输入至生存风险评估量表，得到待评估个体的生存风险评估量化值和个体生存风险等级。本发明实施例通过获取实际应用的随访数据，通过风险回归模型和逐步回归智能筛选出重要风险因子，自动构建生存风险评估量表，输出生存风险值和对应风险等级，覆盖内容更加全面，实用性更强。

Description

一种生存风险评估方法及***

技术领域

本发明涉及风险评估技术领域，尤其涉及一种生存风险评估方法及***。

背景技术

在风险评估领域中，风险评估量表是用来量化风险的一种测量工具，例如在健康状态的评估过程中，需要对个体或群体的各方面风险因子进行观察，并对观察结果用数量化的方式进行评估解释，量表综合得分代表个体或群体的风险水平。同样地，生存风险评估量表用于量化在接受某种治疗后的生存风险。

而传统生存风险评估量表的构建过程大致为：查阅文献、咨询专家、确定风险因素、修订量表、预试验调查(例如信度检验、效度检验、一致性检验、灵敏度分析、特异度分析等)、专家考评、反复改进与修订量表。通过对个体或群体的生存风险进行评估，构建生存风险评估量表，对生存风险程度进行量化，有利于及时做好风险监控和预防，对生存风险评分较高的患者针对其自身的实际情况采取相对安全和保守的治疗方式，尽量避免造成不必要的损失。

传统生存风险评估量表的构建过程中查阅文献和咨询专家等步骤需要耗费大量人力物力和时间成本，操作过程较为繁琐，存在一定的主观判断误差。而且通常研究样本量较小，调查的广度和深度尚有一定的局限性。

发明内容

本发明实施例提供一种生存风险评估方法及***，用以解决现有技术中构建风险评估表需要耗费大量人力物力、操作繁琐、存在主观判断误差的缺陷。

第一方面，本发明实施例提供一种生存风险评估方法，包括：

获取筛选风险变量集及筛选风险变量模型系数；其中所述筛选风险变量集是由初始风险变量集基于COX比例风险回归模型和逐步后向算法获取；所述筛选风险变量模型系数是基于生存风险预测模型获取；

基于所述筛选风险变量集和所述筛选风险变量模型系数构建生存风险评估量表；

将待评估个体的若干信息数据输入至所述生存风险评估量表，得到所述待评估个体的生存风险评估量化值和个体生存风险等级。

优选地，所述基于所述筛选风险变量集和所述筛选风险变量模型系数构建生存风险评估量表，之后还包括：

将若干评估样本输入至所述生存风险预测模型，得到若干生存风险预测值；

将所述若干生存风险预测值划分成若干生存风险等级；

通过预设校验算法将所述若干生存风险等级对应的若干生存曲线进行比较，得到风险差异值；

若所述风险差异值满足预设差异阈值条件，则认为所述若干生存风险等级划分正确。

优选地，所述获取筛选风险变量集及筛选风险变量模型系数，具体包括：

获取原始风险变量集，对所述原始风险变量集进行初始化得到预处理风险变量集；

基于所述预处理风险变量集构建生存风险评估数据库；

将所述生存风险评估数据库中缺失率大于预设最优缺失率阈值的若干变量删除，并获取具有预设关联度的所述若干变量进行补充，得到优化风险变量集；

采用若干机器学习算法分别对所述优化风险变量集进行筛选，得到若干变量集；

对所述若干变量集求解交集，得到所述初始风险变量集；

获取所述COX比例风险回归模型，将所述初始风险变量集基于所述COX比例风险回归模型进行训练，并结合所述逐步后向算法进行筛选，得到所述筛选风险变量集；

基于所述筛选风险变量集，进一步构建所述生存风险预测模型，并将所述初始风险变量集输入至所述生存风险预测模型中得到所述筛选风险变量模型系数。

优选地，所述获取原始风险变量集，对所述原始风险变量集进行初始化得到预处理风险变量集，具体包括：

获取所述待评估个体的若干客观风险信息，构建所述原始风险变量集，并对所述原始风险变量集设置目标变量；

对设置目标变量的所述原始风险变量集进行数据清洗，并进行格式化之后得到所述预处理风险变量集。

优选地，所述将所述生存风险评估数据库中缺失率大于预设最优阈值的若干变量删除，并获取具有预设关联度的所述若干变量进行补充，得到优化风险变量集，具体包括：

设置预设缺失率范围区间和预设调整步长；

从所述预设缺失率范围区间的起点开始，按照所述预设调整步长进行递增，直到所述预设缺失率范围区间的终点结束，得到若干预设调整阈值；

将大于所述若干预设调整阈值的所述预处理风险变量集中的所述若干变量进行删除，得到若干验证测试集；

对所述若干验证测试集进行验证，获取所述预设最优缺失率阈值；

按照所述预设最优缺失率阈值，将所述预处理风险变量集中的所述若干变量进行删除；

采用K最近邻算法获取具有所述预设关联度的所述若干变量，对删除的所述若干变量进行补充，得到所述优化风险变量集。

优选地，所述若干机器学习算法包括XGboost算法、随机森林算法和GBDT算法。

第二方面，本发明实施例提供一种生存风险评估***，包括：

获取模块，用于获取筛选风险变量集及筛选风险变量模型系数；其中所述筛选风险变量集是由初始风险变量集基于COX比例风险回归模型和逐步后向算法获取；所述筛选风险变量模型系数是基于生存风险预测模型获取；

处理模块，用于基于所述筛选风险变量集和所述筛选风险变量模型系数构建生存风险评估量表；

评估模块，用于将待评估个体的若干信息数据输入至所述生存风险评估量表，得到所述待评估个体的生存风险评估量化值和个体生存风险等级。

优选地，还包括验证模块，所述验证模块具体用于：

将所述若干生存风险预测值划分成若干生存风险等级；

第三方面，本发明实施例提供一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述生存风险评估方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现任一项所述生存风险评估方法的步骤。

本发明实施例提供的生存风险评估方法及***，通过获取实际应用的随访数据，通过风险回归模型和逐步回归智能筛选出重要风险因子，自动构建生存风险评估量表，输出生存风险值和对应风险等级，覆盖内容更加全面，实用性更强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种生存风险评估方法流程图；

图2为本发明实施例提供的一种生存风险评估***结构图；

图3为本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种生存风险评估方法流程图，如图1所示，包括：

S1，获取筛选风险变量集及筛选风险变量模型系数；其中所述筛选风险变量集是由初始风险变量集基于COX比例风险回归模型和逐步后向算法获取；所述筛选风险变量模型系数是基于生存风险预测模型获取；

S2，基于所述筛选风险变量集和所述筛选风险变量模型系数构建生存风险评估量表；

S3，将待评估个体的若干信息数据输入至所述生存风险评估量表，得到所述待评估个体的生存风险评估量化值和个体生存风险等级。

具体地，步骤S1中，首先获取到筛选风险变量集，该筛选风险变量集是由初始风险变量集，引入COX比例风险回归模型进行筛选，并结合逐步后向算法进行验证而得到的；还有获取筛选风险变量集对应的筛选风险变量模型系数，该系数是将筛选风险变量集进一步构建生存风险预测模型后，再将初始风险变量集输入至生存风险预测模型后处理得到的。

步骤S2中，基于步骤S1中得到的筛选风险变量集和筛选风险变量模型系数，构建完整的生存风险评估量表。

步骤S3中，将待评估个体，即待评估其风险值的的若干信息数据输入至生存风险评估量表，得到该评估个体的生存风险评估量化值和个体生存风险等级，例如输入医院患者的相关信息，即可得到该患者的生存风险评估量化值和对应的个体生存风险等级。

本发明实施例通过获取实际应用的随访风险变量，通过风险回归模型和逐步回归智能筛选出重要风险因子，自动构建生存风险评估量表，输出生存风险值和对应风险等级，覆盖内容更加全面，实用性更强。

基于上述实施例，所述基于所述筛选风险变量集和所述筛选风行变量模型系数构建生存风险评估量表，之后还包括：

将所述若干生存风险预测值划分成若干生存风险等级；

具体地，将全部的样本代入到生存风险预测模型中，得到所有样本的生存风险预测值，再将所有样本的生存风险预测值根据实际情况划分成若干组，即若干风险等级，本发明实施例采用的是划分4至6组，即4至6个生存风险等级；进一步地采用预设校验算法将若干生存风险等级对应的若干生存曲线进行比较，这里的预设校验算法采用log rank，比较是否存在显著差异，若各个风险等级的生存曲线差异显著，则说明风险评分等级划分合理，若不显著则需要另行划分生存风险等级。

本发明实施例通过在构建生存风险评估量表之后，输入样本至该评估量表中获取对应的评估结果，并对评估结果进行有效验证，从而能准确地判断该生存风险评估量表构建的合理性和准确性，增强了实用性。

基于上述任一实施例，所述获取筛选风险变量集及筛选风险变量模型系数，具体包括：

基于所述预处理风险变量集构建生存风险评估数据库；

对所述若干变量集求解交集，得到所述初始风险变量集；

具体地，首先获取原始风险变量集，需要对原始风险变量集进行一系列的预处理，得到预处理风险变量集，将预处理风险变量集构建一个生存风险评估数据库；将生存风险评估数据库中的缺失率大于预设最优缺失率阈值的若干变量删除，再获取具有一定预设关联度的若干变量，对原删除掉的变量部分进行补充，得到优化风险变量集；进一步地，采用若干机器学习算法分别对优化风险变量集进行不同维度的筛选，然后再对筛选后的优化风险变量集求交集，认为交集即初始风险变量集，为筛选出的最重要变量。

进一步地构建生存风险预测模型，其数据集目标变量为生存风险(0-1变量)和生存时间(数值型变量)，自变量即为初始风险变量集。

获取COX比例风险回归模型，此处，COX比例风险回归模型是一种半参数回归模型，该模型以生存结局和生存时间为因变量，可同时分析众多因素对生存期的影响，能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型。

COX比例风险回归模型是用h(t,X)作为因变量，其中X＝(X₁,X₂,…,X_m),模型的基本形式为：

h(t,X)＝h₀(t)exp(β₁X₁+β₂X₂+…+β_mX_m) (1)

上式中，β₁,β₂,…,β_m为自变量的偏回归系数，h₀(t)是当X＝0时，h(t,X)的基准危险率。由于COX回归模型对h₀(t)未作任何假定，因此COX回归模型在处理问题时具有较大的灵活性；另一方面，在许多情况下，只需估计出参数β(如因素分析等)，即使在h₀(t)未知的情况下，仍可估计出参数β，也就是说，COX回归模型由于含有h₀(t)，因此它不是完全的参数模型，但仍可根据公式(1)作出参数β的估计，故COX回归模型属于半参数模型，因此公式(1)可以转化为：

ln[h(t,X)/h₀(t)]＝lnRR＝β₁X₁+β₂X₂+…+β_mX_m (2)

而COX回归模型的假定为：

(1)比例风险假定：各危险因素的作用不随时间的变化而变化，即h(t,X)/h₀(t)不随时间的变化而变化。因此，公式(1)又称为比例风险率模型，这一假定是建立COX回归模型的前提条件；

(2)对数线性假定：模型中的协变量应与对数风险比呈线性关系。

然后按照8:2的比例划分训练集和测试集，并将Backward Stepwise，即逐步后向算法作为COX比例风险回归模型筛选变量的方式，进一步筛选重要变量，基于训练集构建最终的生存风险预测模型，预测个体的生存风险。

其次通过计算测试集的C_index(一致性指数)和Brier Score作为评价模型优劣的指标，比较两次重要变量筛选对于模型预测能力和预测准确性是否优化。这里的BrierScore可以被认为是对一组概率预测的“校准”的量度，或者称为“成本函数”，这一组概率对应的情况必须互斥，并且概率之和必须为1.Brier分数对于一组预测值越低，预测校准越好，概率校准就是对分类函数做出的分类预测概率重新进行计算，并且计算Brier Score，然后依据Brier分数的大小判断对初始预测结果是支持还是反对。此处，C_index用来评价模型的预测能力，其值越高说明模型的预测能力越好；Brier Score用来评估预测准确性，其值越低说明模型的预测准确性越高。

得到筛选变量集之后，进一步构建生存风险预测模型，并将初始风险变量集输入至生存风险预测模型中，便得到筛选风险变量模型系数。

本发明实施例通过对变量的多次筛选，并引入COX回归模型构建生存风险预测模型，在一定程度上节省了传统方法在构建量表前的查阅文献和咨询专家的时间，有效避免人工总结遗漏风险因子的情况。

基于上述任一实施例，所述获取原始风险变量集，对所述原始风险变量集进行初始化得到预处理风险变量集，具体包括：

获取待评估个体的若干客观风险信息，构建所述原始风险变量集，并对所述原始风险变量集设置目标变量；

具体地，在获取原始风险变量集之后，设置目标变量，具体为：生存风险(1表示死亡，0表示存活)，以及生存时间。

然后对原始变量进行数据清洗，原始变量包括生存信息、基本信息及病史、疾病诊断信息、检验信息、手术信息等患者临床数据，对所有原始变量进行清洗处理并进行数据格式化，这里数据清洗方法包括：异常值处理、缺失值处理、数据分组、数据转置、多分类变量独热编码等，最后得到预处理数据变量集。

本发明实施例对原始变量集进行初步的预处理，对变量的有效性和准确性进行了初步筛选，有助于提升后续建模的输入变量的准确性。

基于上述任一实施例，所述将所述生存风险评估数据库中缺失率大于预设最优阈值的若干变量删除，并获取具有预设关联度的所述若干变量进行补充，得到优化风险变量集，具体包括：

设置预设缺失率范围区间和预设调整步长；

将大于所述若干预设调整阈值的所述预处理风险变量集中的所述若干变量进行删除，得到若干验证风险测试集；

对所述若干验证风险测试集进行验证，获取所述预设最优缺失率阈值；

具体地，设置一个预设缺失率范围区间，这里采用30％-95％，以及预设调整步长，采用5％为一个调整单位，逐次删除缺失率大于30％、35％、40％、……、95％的风险变量集，得到若干验证风险测试集，依次验证若干验证风险测试集的正确率，寻找到若干验证风险测试集正确率最高的预设最优缺失率阈值，基于预设最优缺失率阈值将预处理风险变量集中的若干变量进行删除，剩余的变量采用具有预设关联度的若干变量，例如采用相似病例的方法插补缺失值，此处，相似病例的认定采用K最近邻(K-Nearest Neighbor，KNN)分类算法，这是一个理论成熟且相对简单的机器学习算法，算法思路如下：

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，如果是连续变量，通过k个相邻实例进行加权平均，得到缺失值的代替值；如果是分类变量，则采用所占比重较大的值进行缺失值代替。在实际操作中的步骤如下：

1)挑出数据集中存在缺失值的变量；

2)以尿酸存在缺失值为例，进行KNN插补时，以尿酸为目标变量(target)，其余变量为特征变量；

3)将数据集拆分为尿酸无缺失数据集tran和尿酸缺失数据集test；

4)计算test数据集中每个样本距离tran数据集中各个样本的欧氏距离，挑选距离最近的k个相似样本(Test数据集中病例a与tran数据集中各个病例i(i∈tran)之间欧式距离的计算公式如下：

5)以欧氏距离的倒数作为权重，通过对tran数据集中k个相似病例的尿酸值加权平均得到test数据集中每个样本缺失值的替代值；

6)通过调整k的取值，找到插补后使得机器学习算法测试集正确率最高的k值。

本发明实施例通过采用阈值删除和K最近邻算法对风险变量进行进一步地处理，获取了可信度更高的变量，提高了生存风险评估的准确性和可信度。

基于上述任一实施例，所述若干机器学习算法包括XGboost算法、随机森林算法和GBDT算法。

具体地，采用多种机器学习算法进行重要变量的筛选，本发明实施例采用如下几种算法：

1)基于XGboost算法提取重要变量

XGBoost是一种集成学习方法，将一系列回归决策树进行加和来达到回归目的。XGBoost是在GBDT的基础上对Boosting算法进行的改进，内部决策树使用的是回归树。XGBoost算法的基本思想是：把成百上千个分类准确率较低的树模型组合起来，成为一个准确率很高的模型，从而达到分类目的。后一棵树取前一棵树的残差作为回归目标，在XGBoost算法中采用梯度来近似代替残差。具体流程如下：

分别输入目标变量和自变量；

定义目标函数(损失+正则化项)。其中，损失＝上一颗树的误差(梯度)；正则化项＝树的复杂度。进一步优化目标函数要求预测误差尽可能小，数的复杂度尽可能低；

利用贪心法进行切分点查找，构建决策树。枚举所有不同的树结构，选取Gain值最大且超过阈值的方案。如果max(Gain)小于阈值则剪枝终止***；

计算叶子结点的分数，更新决策树序列，保存构建好的所有决策树及其得分；

计算各个样本的预测结果，即每棵树的得分之和，得到样本属于各个类别的概率；

计算每一个变量的重要性得分，即Gini系数平均值，挑选对模型影响显著的重要变量，保留重要性得分大于0的重要变量。

2)基于随机森林算法提取重要变量

随机森林实际上是一种特殊的bagging方法，它将决策树用作bagging中的模型。首先，用bootstrap方法生成m个训练集，然后，对于每个训练集，构造一颗决策树，在节点找特征进行***的时候，并不是对所有特征找到能使得指标(如信息增益)最大的，而是在特征中随机抽取一部分特征，在抽到的特征中间找到最优解，应用于节点，进行***。随机森林的方法由于有了bagging，也就是集成的思想，实际上相当于对于样本和特征都进行了采样(如果把训练数据看成矩阵，就像实际中常见的那样，那么就是一个行和列都进行采样的过程)，所以可以避免过拟合。由于随机性，对于降低模型的方差很有作用，故随机森林一般不需要额外做剪枝，即可以取得较好的泛化能力和抗过拟合能力。具体流程如下：

分别输入目标变量和自变量；

构建一颗决策树和决策树森林。“随机”有两层含义，一个是随机选取样本，一个是随机选取特征。对于每棵树都有放回的随机抽取训练样本，再有放回的随机抽取特征作为这棵树的分枝依据，按照上述方法可以构建很多棵树组成决策树森林；

计算各个特征的重要程度。将误差率的差距作为该特征在该树中的重要程度，每个特征会在多棵树中出现，取这个特征在多棵树中的重要程度的均值即为该特征在森林中的重要程度；

将所有特征的重要程度排序，去除森林中重要程度低的部分特征，得到新的特征集，至此相当于真正意义上完成了一次迭代，通过不断迭代使得森林中的树不断调优；

预测出所有样本的结果之后与真实值进行比较，计算森林的套外误差率，选择套外误差率最小的森林作为最终的随机森林模型；

森林中各个特征的重要程度即重要性得分，保留重要性得分大于0的重要变量。

3)基于GBDT算法提取重要变量

GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。Adaboost是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，每轮的训练是在上一轮的训练的残差基础之上进行训练的。具体流程如下：

分别输入目标变量和自变量；

定义目标函数。假设前一轮迭代得到的强学习器是f_t-1(x),损失函数是L(y,f_t-1(x)),本轮迭代的目标是找到一个CART回归树模型的弱学习器h_t(x)，让本轮的损失函数L(y,f_t(x))＝L(y,f_t-1(x)+h_t(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小；

初始化弱学习器；

对每个样本计算负梯度，即残差。将残差作为样本新的真实值，并将原始数据作为下一棵树的训练数据，得到一颗新的回归树；

对叶子区域计算最佳拟合值，更新强学习器。

本发明实施例通过选取了三种较为成熟的机器学习算法对优化风险变量集进行筛选，求解交集后得到风险变量集，在预处理的基础上进一步提高变量的可信度。

图2为本发明实施例提供的一种生存风险评估***结构图，如图2所示，包括：获取模块21、处理模块22和评估模块23；其中：

获取模块21用于获取筛选风险变量集及筛选风险变量模型系数；其中所述筛选风险变量集是由初始数据变量集基于COX比例风险回归模型和逐步后向算法获取；所述筛选风险变量模型系数是基于生存风险预测模型获取；处理模块22用于基于所述筛选风险变量集和所述筛选风险变量模型系数构建生存风险评估量表；评估模块23用于将待评估个体的若干信息数据输入至所述生存风险评估量表，得到所述待评估个体的生存风险评估量化值和个体生存风险等级。

本发明实施例提供的***用于执行上述对应的方法，其具体的实施方式与方法的实施方式一致，涉及的算法流程与对应的方法算法流程相同，此处不再赘述。

本发明实施例通过获取实际应用的随访数据，通过风险回归模型和逐步回归智能筛选出重要风险因子，自动构建生存风险评估量表，输出生存风险值和对应风险等级，覆盖内容更加全面，实用性更强。

基于上述任一实施例，该***还包括验证模块24，所述验证模块24用于将若干评估样本输入至所述生存风险预测模型，得到若干生存风险预测值；将所述若干生存风险预测值划分成若干生存风险等级；通过预设校验算法将所述若干生存风险等级对应的若干生存曲线进行比较，得到风险差异值；若所述风险差异值满足预设差异阈值条件，则认为所述若干生存风险等级划分正确。

基于上述任一实施例，所述获取模块21包括：预处理子模块211、第一构建子模块212、优化子模块213、第一筛选子模块214、求解子模块215、第二筛选子模块216和第二构建子模块217；其中：

预处理子模块211用于获取原始风险变量集，对所述原始风险变量集进行初始化得到预处理风险变量集；第一构建子模块212用于基于所述预处理风险变量集构建生存风险评估数据库；优化子模块213用于将所述生存风险评估数据库中缺失率大于预设最优缺失率阈值的若干变量删除，并获取具有预设关联度的所述若干变量进行补充，得到优化风险变量集；第一筛选子模块214用于采用若干机器学习算法分别对所述优化风险变量集进行筛选，得到若干变量集；求解子模块215对所述若干变量集求解交集，得到所述初始风险变量集；第二筛选子模块216用于获取所述COX比例风险回归模型，将所述初始风险变量集基于所述COX比例风险回归模型进行训练，并结合所述逐步后向算法进行筛选，得到所述筛选风险变量集；第二构建子模块217基于所述筛选风险变量集，进一步构建所述生存风险预测模型，并将所述初始风险变量集输入至所述生存风险预测模型中得到所述筛选风险变量模型系数。

本发明实施例通过对风险变量的多次筛选，并引入COX回归模型构建生存风险预测模型，在一定程度上节省了传统方法在构建量表前的查阅文献和咨询专家的时间，有效避免人工总结遗漏风险因子的情况。

基于上述任一实施例，所述预处理子模块211具体用于获取所述待评估个体的若干客观风险信息，构建所述原始风险变量集，并对所述原始风险变量集设置目标变量；对设置目标变量的所述原始风险变量集进行数据清洗，并进行格式化之后得到所述预处理风险变量集。

本发明实施例对原始变量集进行初步的预处理，对变量的有效性和准确性进行了初步筛选，有助于提升后续建模的输入数据的准确性。

基于上述任一实施例，优化子模块213具体用于设置预设缺失率范围区间和预设调整步长；从所述预设缺失率范围区间的起点开始，按照所述预设调整步长进行递增，直到所述预设缺失率范围区间的终点结束，得到若干预设调整阈值；将大于所述若干预设调整阈值的所述预处理风险变量集中的所述若干变量进行删除，得到若干验证风险测试集；对所述若干验证风险测试集进行验证，获取所述预设最优缺失率阈值；按照所述预设最优缺失率阈值，将所述预处理风险变量集中的所述若干变量进行删除；采用K最近邻算法获取具有所述预设关联度的所述若干变量，对删除的所述若干变量进行补充，得到所述优化风险变量集。

本发明实施例通过采用阈值删除和K最近邻算法对风险变量进行进一步地处理，获取了可信度更高的数据变量，提高了生存风险评估的准确性和可信度。

本发明实施例通过选取了三种较为成熟的机器学习算法对优化风险变量集进行筛选，求解交集后得到风险变量集，在预处理的基础上进一步提高数据的可信度。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行如下方法：获取筛选风险变量集及筛选风险变量模型系数；其中所述筛选风险变量集是由初始风险变量集基于COX比例风险回归模型和逐步后向算法获取；所述筛选风险变量模型系数是基于生存风险预测模型获取；基于所述筛选风险变量集和所述筛选风险变量模型系数构建生存风险评估量表；将待评估个体的若干信息数据输入至所述生存风险评估量表，得到所述待评估个体的生存风险评估量化值和个体生存风险等级。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取筛选风险变量集及筛选风险变量模型系数；其中所述筛选风险变量集是由初始风险变量集基于COX比例风险回归模型和逐步后向算法获取；所述筛选风险变量模型系数是基于生存风险预测模型获取；基于所述筛选风险变量集和所述筛选风险变量模型系数构建生存风险评估量表；将待评估个体的若干信息数据输入至所述生存风险评估量表，得到所述待评估个体的生存风险评估量化值和个体生存风险等级。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种生存风险评估方法，其特征在于，包括：

2.根据权利要求1所述的生存风险评估方法，其特征在于，所述基于所述筛选风险变量集和所述筛选风险变量模型系数构建生存风险评估量表，之后还包括：

将所述若干生存风险预测值划分成若干生存风险等级；

3.根据权利要求1所述的生存风险评估方法，其特征在于，所述获取筛选风险变量集及筛选风险变量模型系数，具体包括：

基于所述预处理风险变量集构建生存风险评估数据库；

对所述若干变量集求解交集，得到所述初始风险变量集；

4.根据权利要求3所述的生存风险评估方法，其特征在于，所述获取原始风险变量集，对所述原始风险变量集进行初始化得到预处理风险变量集，具体包括：

5.根据权利要求3所述的生存风险评估方法，其特征在于，所述将所述生存风险评估数据库中缺失率大于预设最优阈值的若干变量删除，并获取具有预设关联度的所述若干变量进行补充，得到优化风险变量集，具体包括：

设置预设缺失率范围区间和预设调整步长；

6.根据权利要求3至5中任一项权利要求所述的生存风险评估方法，其特征在于，所述若干机器学习算法包括XGboost算法、随机森林算法和GBDT算法。

7.一种生存风险评估***，其特征在于，包括：

8.根据权利要求7所述的生存风险评估***，其特征在于，还包括验证模块，所述验证模块具体用于：

将所述若干生存风险预测值划分成若干生存风险等级；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述生存风险评估方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述生存风险评估方法的步骤。