CN110110906B

CN110110906B - 一种基于Efron近似优化的生存风险建模方法

Info

Publication number: CN110110906B
Application number: CN201910315815.1A
Authority: CN
Inventors: 付波; 刘沛; 郑鸿; 钟晓蓉; 邓玲
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2023-04-07
Anticipated expiration: 2039-04-19
Also published as: CN110110906A

Abstract

本发明提供了一种基于Efron近似优化的生存风险建模方法，该方法包括：首先在最优梯度提升树(XGBoost)的模型算法框架下，构建用于建立金融、保险、医疗、交通或工业目标行业生存预测模型的生存数据的表达式；然后定义并计算所述生存数据对应的损失函数；随后定义并计算所述损失函数对应的一阶梯度和二阶梯度；最后将计算出的损失函数值以及损失函数的一阶梯度和二阶梯度值同时输入XGBoost模型算法框架，自动训练生成所述目标行业的生存预测模型。本发明的建模方法能更好地表示协变量与风险预测值之间的关系；提高模型的预测性能以及模型的泛化能力；有效改进生存预测模型的风险区分度和实用性；并且适用场景广泛。

Description

一种基于Efron近似优化的生存风险建模方法

技术领域

本发明涉及计算机生存风险分析和机器学习领域，尤其涉及一种基于Efron近似优化的生存风险建模方法。

背景技术

生存风险分析方法被广泛应用到各行各业，比如，在临床肿瘤研究中，常常需要对患者做长期的随访跟踪和研究，从而考察临床措施对未来死亡风险的影响。肿瘤患者通常会通过手术，以及化疗等治疗措施进行干预，在治疗过后随时可能面临着复发的风险，科学地评估预测肿瘤患者复发风险状态可以辅助医生制定恰当的治疗计划，为降低患者疾病进展风险和改善预后提供新的支撑。又比如，在金融，保险，交通和工业等领域，用于研究在观测时间点发生某个特定事件的概率，进而估计随时间变化的风险曲线和生存曲线。

评估预测未来生存风险，可以基于观测到的生存数据并使用生存风险分析方法建立生存预测模型。生存风险分析主要是研究在观测时间点发生某个特定事件的概率，进而估计观测对象的风险函数和生存函数。生存风险分析研究目标不仅仅只是事件的发生，还有发生事件的时间，这使得它不同于我们熟悉的分类和回归问题。

为了建立用于生存预测模型，需要保证生存预测模型的准确性、提高生存风险的区分度以及泛化能力，采用更加高性能和更健壮的生存风险分析方法有很大的必要性，其主要表现在以下两个方面：

(1)预测模型性能。一些生存分析方法假设观测对象的生存风险与协变量之间是线性函数关系，从而得到易于解释的线性预测模型，但是这类生存分析方法很大程度上限制了模型的表达能力。另外一些生存风险分析方法虽然可以表达观测对象复发风险与协变量之间复杂的非线性关系，但是事实上，它们在模型学习的过程中对目标损失函数的近似不够精确，或者对生存数据的偏似然函数的近似不够精确。这些都会限制生存预测模型的学习能力，从而影响生存预测模型的性能，导致对观测的风险函数和生存函数的估计出现偏差。

(2)预测模型泛化能力。当生存风险分析方法没有采用有效的正则化措施时，基于生存数据训练的生存预测模型很容易出现过拟合的情况。这会导致生存预测模型在训练数据上表现很好，但是在独立的测试数据上效果却很差。用于应用实践的生存预测模型，必须具有较好的泛化能力，且能够有效地抵抗数据噪声的干扰，保证生存预测模型的实用和推广价值。

因此，为构建实用且高性能的生存预测模型，需要采用更加高性能和更健壮的生存风险分析方法，从而在提高生存预测模型学习能力的同时，保证生存预测模型的泛化能力。使得生存预测模型能够准确估计观测对象的生存风险以及生存状态。

用于建立生存预测模型的生存风险分析方法总体来可分为以下几种：

(1)Cox比例风险方法。Cox比例风险方法假设观测对象的风险函数与人群的基准风险函数之比是一个时不变量，且观测对象的生存风险与协变量之间是线性函数关系。以优化生存数据对应的偏似然函数为目标，可以得到易于解释的线性预测模型。但是该方法很大程度上限制了模型的表达能力，无法表示生存风险与协变量之间的非线性关系。

(2)随机生存森林方法。随机生存森林方法来源于随机森林，它主要用于预测观测对象的生存状态，完全基于生存分析中生存函数和风险函数的无参数估计方法，而不再局限于Cox比例风险模型的假设。该方法和众多的无参数估计方法一样，需要大量的数据作为支撑，且容易出现过拟合的现象。

(3)梯度提升树方法。它是一个前向加法模型，其核心思想是每轮迭代生成新的决策树来学习上一轮模型预测的“残差”，最终预测结果由每一轮经过拟合的决策树的预测结果相加得到。用于生存分析的梯度提升方法通常仍然假设观测对象的风险函数与人群的基准风险函数之比是一个时不变量，但是生存风险与协变量之间不再局限于线性函数关系。以生存数据对应偏似然函数作为损失函数，以损失函数对上一轮模型预测值的负梯度作为“残差”的近似值。常用的GBM梯度提升树模型，在学习过程中，对上一轮模型预测值的“残差”的近似不够精确。而XGBoost梯度提升树模型虽然采用二阶近似的方法更加精确地给出了上一轮模型预测值的“残差”，但是其损失函数对于实际的生存数据来说，偏似然函数的近似不够精确。

高性能的生存风险分析建模方法，要求能够精确表达生存数据中的概率关系，充分发挥模型的学习能力，以及具有较好的泛化能力。因此，如何改进和优化实用的生存分析建模方法，是国内外科研工作者需要重点思考的问题。

发明内容

本发明的目的在于改进和优化用于生存预测模型的生存风险分析方法，利用最优梯度提升树(XGBoost)模型更加精确地近似残差以及加入正则化措施的优势。同时，为最优梯度提升树(XGBoost)模型算法重新定义更加精确的Efron偏似然函数作为损失函数，然后推导该损失函数对应的一阶和二阶梯度，将该损失函数以及该损失函数对应的一阶和二阶梯度同时输入最优梯度提升树(XGBoost)模型算法框架以建立生存预测模型。本发明可有效提升各领域中生存预测建模过程中的生存预测模型准确性，以及提高生存风险的区分度和泛化能力。

为了达到上述目的，本发明提供了一种基于Efron近似优化的生存风险建模方法，该方法包括如下步骤：

S1)在最优梯度提升树(XGBoost)的模型算法框架下，首先构建用于建立目标行业生存预测模型的生存数据的表达式；

S2)定义所述目标行业生存预测模型的生存数据对应的损失函数表达式，并计算所述损失函数；

S3)推导所述损失函数对应的一阶梯度和二阶梯度表达式，并计算所述损失函数对应的一阶梯度和二阶梯度；

S4)将计算出的所述损失函数以及所述损失函数对应的一阶梯度和二阶梯度同时输入最优梯度提升树(XGBoost)的模型算法框架中，由最优梯度提升树(XGBoost)的模型算法框架自动训练生成所述目标行业的生存预测模型；

所述目标行业为金融、保险、医疗、交通和工业中的任意一种。

本发明充分运用最优梯度提升树(XGBoost)的模型算法框架优势，重新定义更加精确的用于生存分析的偏似然函数作为损失函数，并且推导损失函数对应的一阶梯度和二阶梯度，将它们输入最优梯度提升树(XGBoost)的模型算法框架来训练生存预测模型。本发明具有以下优势：

(1)基于梯度提升树算法。梯度提升树算法是机器学习中一种非常突出且被广泛使用的建模方法，它能够很好地表示协变量与风险预测值之间的关系；

(2)基于最优梯度提升树(XGBoost)的模型算法框架。XGBoost算法作为梯度提升树算法的变体，它更加精确地近似模型需要拟合的“残差”以及加入正则化措施的优势，这进一步提高了模型的预测性能以及模型的泛化能力；

(3)精确的偏似然估计函数。实际应用中的生存数据常常出现多个观测对象在同一时间发生事件，这使得我们采用的Efron近似的偏似然函数是更加精确的、无偏的，从而可以更好地表示生存数据中的概率关系，能够有效改进生存预测模型的风险区分度和实用性；

另外，本发明有较广泛的适用场景。

附图说明

图1为本发明的基本思路流程图

图2为本发明的实施过程

具体实施方式

为使本发明目的，实施方式，技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅以用以解释本发明，并不用于限定本发明。

如图1所示，本发明提出的一种基于Efron近似优化的生存风险建模方法，该方法包括如下步骤：

S1：构建生存数据的表达式

用于建立目标行业生存预测模型的生存数据由若干个观测对象的生存数据组成，其中，任意一个观测对象i的生存数据可以表示为一个三元组集合{(x_i,T_i,δ_i)|i＝1,2,…,n}，i表示第i个观测对象，n为观测对象的总个数，另外，

表示第i个观测对象的协变量，

表示第i个观测对象的末次观测时间，δ_i∈{0,1}表示在T_i时刻是否观测到第i个观测对象发生特定事件(即第i个观测对象在末次观测时间的生存状态)，其中，δ_i＝0表示在T_i时刻未观测到第i个观测对象发生特定事件；δ_i＝1表示在T_i时刻观测到第i个观测对象发生特定事件。定义集合R(t)＝{i|T_i≥t,i＝1,2,…,n}表示在离散时间点t时刻处于危险期的观测对象集合(即末次观测时间大于t的所有观测对象)；集合D＝{t₁,t₂,…,t_k}表示所有观测对象中发生特定事件的不同离散时间点，共k个不同离散时间点；集合N(t)＝{i|T_i＝t,i＝1,2,…,n}表示所有观测对象中末次观测时间等于t的观测对象集合；集合q(t)＝{i|T_i＝t,δ_i＝1,i＝1,2,…,n}表示所有观测对象中在离散时间点t时刻发生特定事件的观测对象集合；C_t＝|q(t)|表示集合q(t)的大小(即所有观测对象中在离散时间点t时刻发生特定事件的观测对象个数)；对集合q(t)中的C_t个观测对象，它们的权值w分别对应集合

中的每一个元素，即集合q(t)中的第j个观测对象的权值

S2：定义损失函数的表达式并计算损失函数的值

S201：为将步骤S1中的每个观测对象的生存数据输入最优梯度提升树(XGBoost)的模型算法框架中，需要为最优梯度提升树(XGBoost)的模型算法框架重新定义损失函数，该损失函数采用更加精确的Efron近似作为偏似然函数，对该偏似然函数取负对数，得到用于最优梯度提升树(XGBoost)的模型算法框架的损失函数，所述损失函数的表达式如下：

其中，τ表示对于任意t∈D，所述集合R(t)中任意一个观测对象；τ′表示对于任意t∈D，所述集合q(t)中任意一个观测对象；

表示所述集合q(t)中第j个观测对象的预测概率。

S202：将满足步骤S1构建的生存数据表达式的生存数据训练集输入经过步骤S201定义了损失函数后的最优梯度提升树(XGBoost)的模型算法框架中，所述经过步骤S201定义了损失函数表达式后的最优梯度提升树(XGBoost)的模型算法框架对所述生存数据训练集中的任意一个观测对象i的生存数据的预测值为

此时，对于所述集合q(t)中第j个观测对象，预测值

等于步骤S201中定义的预测概率

的值,然后根据得到的预测值按照步骤S201定义的所述损失函数的表达式，计算得到L。

本发明定义和计算损失函数L的具体实施方式如下：

a：采用算法1来定义并计算用于最优梯度提升树(XGBoost)的模型算法框架的损失函数L，其算法伪代码如下所示，

算法1:自定义损失函数计算

其具体执行过程如下：

a1：将所述生存数据训练集和所述生存数据训练集中每个观测对象的预测值输入所述目标行业的生存预测模型；

a2：初始化损失函数值L为0，统计所有发生特定事件的不同离散时间点，得到集合D；

a3：遍历集合D中每个发生特定事件的离散时间点，统计处于某一离散时间点t时(其中，t∈D)、处于危险期的观测对象集合R(t)，以及发生特定事件的观测对象集合q(t)，然后计算下列函数值：

以及计算所有观测对象中在离散时间点t时刻发生特定事件的观测对象个数C_t，其中，τ表示对于任意t∈D，所述集合R(t)中任意一个观测对象；τ′表示对于任意t∈D，所述集合q(t)中任意一个观测对象。对集合q(t)中的C_t个观测对象，它们的权值w分别对应集合

中的每一个元素，即集合q(t)中的第j个观测对象的权值

a4：遍历集合q(t)中的每个对象j。按式子计算该发生事件的观测对象对损失函数的贡献：

将L_j累加到损失函数值L上，即L＝L+L_j。

a5：遍历集合D，完成计算并返回损失函数值L。

S3：定义损失函数的梯度表达式并计算损失函数的梯度值

S301：为了最优梯度提升树(XGBoost)的模型算法框架的运行，需要为最优梯度提升树(XGBoost)的模型算法框架推导步骤S201定义的损失函数的梯度表达式。步骤S201定义的损失函数的表达式相对于所述集合q(t)中任意一个观测对象j的预测概率

的一阶梯度g_j和二阶梯度h_j的表达式分别为：

其中，

α(t)＝∑_j∈q(t)1/[SR(t)-w_j*SD(t)]，

β(t)＝∑_j∈q(t)w_j/[SR(t)-w_j*SD(t)]，

ω(t)＝∑_j∈q(t)[1-(1-w_j)²]/[SR(t)-w_j*SD(t)]²。

S302：根据步骤S202得到的预测值按照步骤S301定义的所述损失函数的所述一阶梯度和二阶梯度的表达式，计算得到一阶梯度g_j和二阶梯度h_j。

本发明定义和计算损失函数L的一阶梯度和二阶梯度的具体实施方式如下：

b：采用算法2来定义并计算用于最优梯度提升树(XGBoost)的模型算法框架的损失函数L的一阶梯度和二阶梯度，其算法伪代码如下所示，

算法2:自定义损失函数的梯度计算

其具体执行过程如下：

b1：将所述生存数据训练集和所述生存数据训练集中每个观测对象的预测值输入所述目标行业的生存预测模型；

b2：将所述生存数据训练集中所有观测对象的末次观测时间的值从小到大排序，并且去除重复值，得到末次观测时间点集合A_t，并设置两个临时变量C₁，C₂，且它们的初始值均设置为0；

b3：遍历集合A_t中每个离散时间点，统计处于某一离散时间点t时，末次观测时间等于t的观测对象集合N(t)、处于危险期的对象集合R(t)，以及发生特定事件的观测对象集合q(t)，并计算下列函数值：

对集合q(t)中的C_t个观测对象，它们的权值w分别对应集合

中的每一个元素，即集合q(t)中的第j个观测对象的权值

按式子计算下列函数值：

α(t)＝∑_j∈q(t)1/[SR(t)-w_j*SD(t)]，

β(t)＝∑_j∈q(t)w_j/[SR(t)-w_j*SD(t)]，

ω(t)＝∑_j∈q(t)[1-(1-w_j)²]/[SR(t)-w_j*SD(t)]²。

然后按下式更新临时变量C₁和C₂的值：C₁＝C₁+α(t)，

b4：遍历集合q(t)中的每个观测对象j，若观测对象j未发生特定事件，即δ_j＝0，则按式子计算观测对象j对应的一阶梯度：

然后按下式计算观测对象j对应的二阶梯度：

否则，若观测对象j发生特定事件，即δ_j＝1，则按下式计算观测对象j对应的一阶梯度：

然后按式子计算该对象对应的二阶梯度：

b5：遍历集合A_t，完成计算并返回每个观测对象对应的一阶梯度和二阶梯度。

S4：实现最优梯度提升树(XGBoost)的模型算法框架接口及训练生存预测模型

将基于定义的损失函数表达式计算出的损失函数值和基于所述损失函数对应的梯度表达式计算得到的损失函数的一阶梯度以及二阶梯度计算值，同时输入最优梯度提升树(XGBoo st)的模型算法框架中。使用XGBoost库所提供的损失函数及其梯度的接口，按照步骤S2-S3的内容重新编程实现上述接口，由最优梯度提升树(XGBoost)的模型算法框架自动训练生成所述目标行业的生存预测模型。其实现过程如下：

S401：根据步骤S2的描述，编程实现XGBoost库自定义损失函数的接口；并进一步根据步骤S3的描述，编程实现XGBoost库自定义损失函数一阶梯度和二阶梯度的接口；

S402：设置最优梯度提升树(XGBoost)的模型的参数，采用所述生存数据训练集训练得到所述目标行业生存预测模型。

S5：生存风险预测应用

将待预测的观测对象的生存数据输入经过步骤S4训练完成的所述目标行业的生存预测模型，获得待预测的预测对象未来的生存状态。所述待预测的观测对象的生存数据格式满足所述步骤S1)构建的观测对象生存数据表达式。

如图2所示，使用基于Efron近似的优化方法来建立生存分析中的生存风险预测模型，首先，从用于风险建模的观测数据中按预设比例提取训练数据和测试数据分别用于生存风险预测模型的训练阶段和预测阶段，为了排除数据中噪声数据和不必要的特征，对训练数据分别实施数据清理和特征筛选，得到可以用于建模的训练数据；对预测数据预先制定的清理规则和筛选规则进行处理，得到用于输入模型的预测数据。然后在训练数据上使用基于最优梯度提升树(XGBoost)模型算法框架实现的Efron近似生存分析优化方法建立的生存风险预测模型，用于训练该生存风险预测模型，最后将预测数据输入训练完成的生存风险预测模型中，由模型输出其生存风险预测结果。

其中，对观测数据实施清理和筛选的过程为：将观测数据经过抽取和整理后，得到观测对象的特征信息，通过这些特征信息首先检测数据库***原始观测数据存在的缺失、异常、重复、不一致等问题，然后结合行业专家的专业知识，采取相应措施对原始观测数据进行清洗和编码，以确保观测数据质量；其次，根据统计学和相关机器学习方法，粗略筛选出对生存风险预测模型有意义的特征属性，从而将这些特征属性输入到最优梯度提升树(XGBoost)的模型算法框架中，经过反复试验、调参数和性能比较，找到最优预测模型，从而构建起生存预测机器学习方法。在预测阶段，将相应的特征信息经过清洗规则和特征筛选规则后，输入到生存风险预测模型，从而可以预测判断观测对象的生存状态。

本发明充分运用了最优梯度提升树(XGBoost)的模型算法框架优势，重新定义更加精确的用于生存分析的偏似然函数作为损失函数，并且推导该损失函数对应的一阶梯度和二阶梯度，将它们计算出来并同时输入最优梯度提升树(XGBoost)的模型算法框架来训练生存预测模型，使得能够更好地表示协变量与风险预测值之间的关系；进一步提高了模型的预测性能以及模型的泛化能力；可以更好地表示生存数据中的概率关系，能够有效改进生存预测模型的风险区分度和实用性；并且适用场景广泛。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围。凡采用等同替换或等效替换，这些变化是显而易见，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于Efron近似优化的生存风险建模方法，其特征在于：该方法包括如下步骤：

S1)在最优梯度提升树XGBoost的模型算法框架下，首先构建用于建立目标行业生存预测模型的生存数据的表达式；

S4)将计算出的所述损失函数以及所述损失函数对应的一阶梯度和二阶梯度同时输入最优梯度提升树XGBoost的模型算法框架中，由最优梯度提升树XGBoost的模型算法框架自动训练生成所述目标行业的生存预测模型；

所述目标行业为金融、保险、医疗、交通和工业中的任意一种；

其中，所述步骤S1)中构建用于建立目标行业生存预测模型的生存数据的表达式具体为：所述用于建立目标行业生存预测模型的生存数据由若干个观测对象的生存数据组成，其中，任意一个观测对象i的生存数据可以表示为一个三元组集合{(x_i,T_i,δ_i)|i＝1,2,…,n}，i表示第i个观测对象，n为观测对象的总个数，另外，

表示第i个观测对象的协变量，

表示第i个观测对象的末次观测时间，δ_i∈{0,1}表示在T_i时刻是否观测到第i个观测对象发生特定事件，其中，δ_i＝0表示在T_i时刻未观测到第i个观测对象发生特定事件；δ_i＝1表示在T_i时刻观测到第i个观测对象发生特定事件；定义集合R(t)＝{i|T_i≥t,i＝1,2,…,n}表示在离散时间点t时刻处于危险期的观测对象集合；集合D＝{t₁,t₂,…,t_k}表示所有观测对象中发生特定事件的不同离散时间点，共k个不同离散时间点；集合N(t)＝{i|T_i＝t,i＝1,2,…,n}表示所有观测对象中末次观测时间等于t的观测对象集合；集合q(t)＝{i|T_i＝t,δ_i＝1,i＝1,2,…,n}表示所有观测对象中在离散时间点t时刻发生特定事件的观测对象集合；C_t＝|q(t)|表示集合q(t)的大小；对集合q(t)中的C_t个观测对象，它们的权值w分别对应集合

中的每一个元素，即集合q(t)中的第j个观测对象的权值

所述步骤S2)中定义所述目标行业生存预测模型的生存数据对应的损失函数表达式，并计算所述损失函数具体包括：

S201)根据步骤S1)构建的所述用于建立目标行业生存预测模型的生存数据的表达式为最优梯度提升树XGBoost的模型算法框架定义损失函数，采用Efron近似作为偏似然函数，并对该偏似然函数取负对数，得到用于最优梯度提升树XGBoost的模型算法框架的损失函数，所述损失函数的表达式如下：

表示所述集合q(t)中第j个观测对象的预测概率；

S202)将满足步骤S1)构建的生存数据表达式的生存数据训练集输入经过步骤S201)定义了损失函数表达式后的最优梯度提升树XGBoost的模型算法框架中，所述经过步骤S201)定义了损失函数表达式后的最优梯度提升树XGBoost的模型算法框架对所述生存数据训练集中的任意一个观测对象i的生存数据的预测值为

此时，对于所述集合q(t)中第j个观测对象，预测值

等于步骤S201)中定义的预测概率

的值,然后根据得到的预测值按照步骤S201)定义的所述损失函数的表达式，计算得到L；

所述步骤S3)推导所述损失函数对应的一阶梯度和二阶梯度表达式，并计算所述损失函数对应的一阶梯度和二阶梯度具体包括：

S301)定义

所述步骤S201)定义的损失函数的表达式相对于所述集合q(t)中任意一个观测对象j的预测概率

的一阶梯度g_j和二阶梯度h_j的表达式分别为：

其中，

α(t)＝∑_j∈q(t)1/[SR(t)-w_j*SD(t)]，

β(t)＝∑_j∈q(t)w_j/[SR(t)-w_j*SD(t)]，

ω(t)＝∑_j∈q(t)[1-(1-w_j)²]/[SR(t)-w_j*SD(t)]²；

S302)根据所述步骤S202)得到的预测值按照步骤S301)定义的所述损失函数的一阶梯度和二阶梯度表达式，计算得到一阶梯度g_j和二阶梯度h_j；

所述步骤S4)中将计算出的所述损失函数以及所述损失函数对应的一阶梯度和二阶梯度同时输入最优梯度提升树XGBoost的模型算法框架中，由最优梯度提升树XGBoost的模型算法框架自动训练生成所述目标行业的生存预测模型具体包括：

S401)根据步骤S2)的描述，编程实现XGBoost库自定义损失函数的接口；并进一步根据步骤S3)的描述，编程实现XGBoost库自定义损失函数一阶梯度和二阶梯度的接口；

S402)设置最优梯度提升树XGBoost的模型的参数，采用所述生存数据训练集训练得到所述目标行业生存预测模型。

2.根据权利要求1所述的基于Efron近似优化的生存风险建模方法，其特征在于，在所述步骤S2)之前还包括：将满足步骤S1)构建的生存数据表达式的观测数据通以预设概率随机切分成满足步骤S1)构建的生存数据表达式的生存数据训练集和满足步骤S1)构建的生存数据表达式的生存数据测试集。

3.根据权利要求2所述的基于Efron近似优化的生存风险建模方法，其特征在于，在所述步骤S4)之后还包括：通过反复试验、调参数和性能比较，优化所述目标行业生存预测模型。

4.根据权利要求3所述的基于Efron近似优化的生存风险建模方法，其特征在于，使用所述目标行业生存预测模型进行生存风险分析的方法为：将所述满足步骤S1)构建的生存数据表达式的生存数据测试集中的观测对象生存数据按照预先制定的清理规则和筛选规则进行处理后输入优化后的目标行业生存预测模型中，所述优化后的目标行业生存预测模型输出所述生存数据测试集中的观测对象生存数据的预测结果。