CN111784486A

CN111784486A - 业务风险预测模型的构建方法、装置和计算机设备

Info

Publication number: CN111784486A
Application number: CN202010535504.9A
Authority: CN
Inventors: 刘师雨
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-16

Abstract

本申请涉及一种业务风险预测模型的构建方法、装置、计算机设备和存储介质，所述方法包括：获取目标业务变量的变量指标，获取变量指标对应的指标价值计算规则；获取随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据；使用样本数据并基于业务风险性对随机森林模型进行模型训练，在随机森林模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值；根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。上述方法能够提高业务风险预测的结果的准确性。

Description

业务风险预测模型的构建方法、装置和计算机设备

技术领域

本申请涉及数据处理技术领域，特别是涉及一种业务风险预测模型的构建方法、装置、计算机设备和存储介质。

背景技术

随机森林模型在一定程度上属于黑箱模型，即虽然其可以提供较为有效可靠的预测结果但并不能提供相应的可解释性。换言之，随机森林模型的开发与使用者并不能非常清晰的得知哪些变量在模型中起到怎样的作用。然而，利用随机森林模型进行业务风险预测时，模型的使用者往往需要对模型的运行状况有一个基础的了解，模型的开发者也需要将模型的预测与实际的业务运行逻辑相结合，从而排除过拟合等风险。例如，利用随机森林模型进行小微企业违约情况预测时，开发者需要将模型的预测与实际的业务运行逻辑相结合以排除模型的过拟合等风险，模型的使用者往往需要对模型的运行状况，如哪些财务指标的变化会对小微企业的违约率起到影响，进行一定的了解。

而目前基于随机森林所建立的业务风险预测模型并不能有效提供对参与建模的变量在模型建立过程所起的作用，从而导致了模型开发者与模型使用者在对模型的理解和使用上产生一定困难。因此，采用当下的基于随机森林所建立的业务风险预测模型对业务风险进行预测时，其预测结果的准确性相对较低，不利于业务风险的评估。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高业务风险预测的结果的准确性的业务风险预测模型的构建方法、装置、计算机设备和存储介质。

一种业务风险预测模型的构建方法，该方法包括：获取目标业务变量的变量指标，获取变量指标对应的指标价值计算规则；获取随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据；使用样本数据并基于业务风险性对随机森林模型进行模型训练，在随机森林模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值；根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。

一种业务风险预测模型的构建装置，该装置包括：第一获取模块，用于获取目标业务变量的变量指标，获取变量指标对应的指标价值计算规则；第二获取模块，用于获取随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据；第三获取模块，用于使用样本数据并基于业务风险性对随机森林模型进行模型训练，在随机森林模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值；构建模块，用于根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一实施例方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例方法的步骤。

上述业务风险预测模型的构建方法、装置、计算机设备和存储介质，通过获取目标业务变量的变量指标以及变量指标对应的指标价值计算规则，进一步获取随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据，使用样本数据并基于业务风险性对随机森林模型进行模型训练，在随机森林模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值。根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。因此，在建立基于随机森林的业务风险预测模型时，通过引入目标业务变量的变量指标，根据目标业务变量的变量指标确定随机森林模型的参数，从而使得构建的业务风险预测模型更加贴切实际业务，进而使得利用该业务风险预测模型进行业务风险预测时，预测结果更加准确。

附图说明

图1为一个实施例中一种业务风险预测模型的构建方法的应用环境图；

图2为一个实施例中一种业务风险预测模型的构建方法的流程示意图；

图3为另一个实施例中一种业务风险预测模型的构建方法的流程示意图；

图4为再一个实施例中一种业务风险预测模型的构建方法的流程示意图；

图5为又一个实施例中一种业务风险预测模型的构建方法的流程示意图；

图6为又一个实施例中一种业务风险预测模型的构建方法的流程示意图；

图7为又一个实施例中一种业务风险预测模型的构建方法的流程示意图；

图8为一个实施例中数据集Small_Business包括的预测变量的示意图；

图9为一个实施例中以Small_Business数据集的布尔值变量isGood作为预测目标，建立随机森林模型的示意图；

图10为一个实施例中变量参与度的第一指标价值的示意图；

图11为一个实施例中变量稳定性的第二指标价值的示意图；

图12为一个实施例中变量交互性的第三指标价值的示意图；

图13为一个实施例中变量业务价值的第四指标价值的示意图；

图14为一个实施例中变量影响力的第五指标价值的示意图；

图15为一个实施例中各业务数据的同一化处理后的示意图；

图16为一个实施例中各权重加权汇总处理后的示意图；

图17为一个实施例中一种业务风险预测模型的构建装置的结构框图；

图18为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的一种业务风险预测模型的构建方法，应用于如图1所示的应用环境中。如图1所示，服务器100用于执行本申请所述的一种业务风险预测模型的构建方法。数据库200用于存储随机森林模型的训练样本的样本数据以及目标业务变量的变量指标、变量指标对应的指标价值计算规则等。数据库200中存储的相关数据信息来自终端400通过网络连接上传到服务器300，以由服务器300存储到数据库200中。具体地，服务器100从数据库200中获取目标业务变量的变量指标以及变量指标对应的指标价值计算规则。当然，还可以是服务器100中存储目标业务变量的变量指标以及变量指标对应的指标价值计算规则。进一步地，服务器100从数据库200中获取随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据，并使用样本数据并基于业务风险性对随机森林模型进行模型训练，在随机森林模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值，最终根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。其中，服务器100可以是单个服务器或多个服务器构成的服务器集群实现，终端400中包括一个或多个终端设备。如终端设备402、终端设备404以及终端设备406等。终端设备可以是笔记本电脑，台式电脑或者其他移动设备等。

在一个实施例中，如图2所示，提供了一种业务风险预测模型的构建方法，以该方法应用于图1中的服务器100为例进行说明，包括以下步骤：

S102，获取目标业务变量的变量指标，获取变量指标对应的指标价值计算规则。

在本实施例中，服务器根据目标业务变量的变量指标构建业务风险预测模型。具体地，***中预先设定业务变量以及业务变量的变量指标，并且设定各变量指标对应的指标价值计算规则，以在模型构建过程中根据变量指标对应的指标价值计算规则计算变量指标的指标价值，最终根据指标价值构建业务风险预测模型。

其中，目标业务变量可以是一个或多个。当目标业务变量为多个时，各目标业务变量对应有一个或多个变量指标。各变量指标对应有指标价值计算规则。服务器根据指标价值计算规则计算对应变量指标的指标价值。具体地，目标业务变量可以包括财务变量、税务变量、上下游信息变量、工商信息变量等。变量指标可以包括变量参与度、变量稳定性、变量交互性、变量业务价值以及变量影响力等。***可以对各变量指标设置对应的指标价值计算规则，并将指标价值计算规则进行存储。当服务器执行构建业务风险预测模型时，可以提取到对应的指标价值计算规则以对变量指标的指标价值进行计算。

S104，获取随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据。

在本实施例中，服务器读取随机森林模型。其中，随机森林模型中的参数未知，需根据训练样本进行训练后得以确认。进一步地，服务器随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据。此外，训练样本的样本数据还可以包括除目标业务变量的业务数据之外的其他业务数据，从而使得随机森林模型的训练结果更加准确。

例如，当业务风险预测模型用于对小微企业的违约情况进行风险预测时，训练样本的样本数据可以包括企业财务对应的财务数据、税务对应的税务数据、上下游信息对应的数据、工商信息对应的数据等。具体财务数据可以分类为盈利能力数据：ROA(Return OnAssets，资产收益率)、ROE(Return on Equity，净资产收益率)、净利润等。运营效率数据：总资产周转率、存货周转率、流动比率，应收款周转率，管理费用销售比等。偿债能力数据：利息覆盖倍数，刚性负债销售比，毛利利息覆盖比等。成长能力数据：销售增长率，利润增长率，留存收益增长率等。税务数据包含申报所得税、申报增值税、申报应税销售额与财报销售额之比、征收税额，申报应税销售额波动性等。上下游信息对应的数据包括：下游销售额与财报销售额之比，上游重叠客户***额占销售额比，上游最大客户占比，下游最大客户占比等。工商信息对应的数据包括：是否属于企业黑名单、环保处罚、经营异常等。通过各类数据对随机森林模型进行训练，得到的业务风险预测模型在对企业违约情况进行预测时，其预测结果更加准确。

S106，使用样本数据并基于业务风险性对随机森林模型进行模型训练，在随机森林模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值。

在本实施例中，服务器基于业务风险性并根据训练样本的样本数据对随机森林模型进行模型训练。具体地，将训练样本的样本数据输入随机森林模型，以业务风险的结果，即是与否作为随机森林模型的输出，对随机森林模型进行模型训练。在模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值。具体地，对生成决策树所涉及的计算值，变量指标的指标价值进行记录。决策树的生成方法采用CART算法，即生成决策树某一分割点的目标函数是：

其中，

表示当Gini为最小值时A的值，A为决策树的分割点，p_mk代表第m个区域的训练集中第k类所占比例，k表示业务风险或非业务风险的类别，m表示整数值。

例如，当业务风险预测模型用于对小微企业的违约情况进行风险预测时，输入小微企业的数据集进行模型训练。将企业是否存在违约作为预测目标。本申请中，模型训练过程所使用的目标函数为Gini系数，其他的训练目标函数包括MSE最小化函数或熵增函数等也可用于构建随机森林模型。

S108，根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。

在本实施例中，服务器采用目标业务变量的业务数据对随机森林模型进行模型训练，从而确定随机森林模型中对应的参数。本实施例中，通过计算目标业务变量的变量指标的指标价值确定随机森林模型中目标业务变量对应的参数。例如，当目标业务变量的变量指标为变量参与度时，若计算得到的变量参与度的指标价值过低，则可以确定目标业务变量对应的参数为零(即将目标业务变量从随机森林模型中删除)。最终，服务器根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。具体地，服务器根据目标业务变量对应的参数确定随机森林模型中各个参数，确定参数后的随机森林模型即为构建的业务风险预测模型。因此，可以有针对性地对业务变量或随机森林模型的参数进行修改，以使得构建的业务风险预测模型能够输出更好的预测效果。

上述业务风险预测模型的构建方法，通过获取目标业务变量的变量指标以及变量指标对应的指标价值计算规则，进一步获取随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据，使用样本数据并基于业务风险性对随机森林模型进行模型训练，在随机森林模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值。根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。因此，在建立基于随机森林的业务风险预测模型时，通过引入目标业务变量的变量指标，根据目标业务变量的变量指标确定随机森林模型的参数，从而使得构建的业务风险预测模型更加贴切实际业务，进而使得利用该业务风险预测模型进行业务风险预测时，预测结果更加准确。

在一实施例中，目标业务变量的变量指标包括变量参与度，指标价值计算规则包括变量参与度对应的第一计算规则，第一计算规则用于指示根据目标业务变量在训练随机森林模型时构建决策树贡献的基尼系数的差值以及分割点的数量计算变量参与度的第一指标价值。如图3所示，S106包括：

S1062，根据目标业务变量的业务数据确定训练随机森林模型时包含目标业务变量的第一决策树对应的分割点的数量值。

S1064，获取训练随机森林模型时目标业务变量对应的第一决策树的基尼系数的差值。

S1066，根据第一决策树对应的分割点的数量值以及第一决策树的基尼系数的差值计算变量参与度的第一指标价值。

此时，S108包括：

S1082，根据变量参与度的第一指标价值确定随机森林模型中目标业务变量对应的第一参数，根据第一参数以及随机森林模型构建业务风险预测模型。

在该实施中，目标业务变量的变量指标包括变量参与度。变量参与度用于评价目标业务变量在模型中的参与度。目标业务变量在模型中参与的决策树构建过程中平均对Gini系数的衰减贡献越大，即对纯度提升越大，则该目标业务变量的参与度越高。在计算变量参与度的第一指标价值时，在模型训练过程中，目标业务变量在构造决策树节点时，分割点符合目标函数：

其中，A_ij表示分割点。服务器根据目标业务变量的业务数据确定训练随机森林模型时包含目标业务变量的第一决策树对应的分割点的数量值。也即是，包含目标业务变量的决策树中，所有符合条件的分割点的数量值。进一步地，获取训练随机森林模型时目标业务变量对应的第一决策树的基尼系数的差值。也即是，目标业务变量在构建决策树时所贡献的Gini系数减值。最后，根据第一决策树对应的分割点的数量值以及第一决策树的基尼系数的差值计算变量参与度的第一指标价值。

具体地，根据随机森林的算法可知，随机森林由若干棵决策树组成。计算变量参与度需要记录在构建决策树时，目标业务变量所贡献的Gini系数减值。目标业务变量的变量参与度的第一指标价值的计算方式参见如下：

设有变量X₁,X₂,X₃,…,X_j,…,X_J，则当变量X_j,在构造决策树节点D_1j,D_2j,…,D_ij,…,D_Ij时，都有分割点A_1j,A_2j,…,A_ij,…,A_Ij，符合目标函数：

则每一次分割都存在新的分割点A_ij，对于一个被A_ij分割的数据集节点D_ij，其分割后的则存在d_1ij,d_2ij两个数据子集，被分割后的节点D_ij存在Gini系数：

其中，|d_1ij|表示分割后两个数据集之一中所含有的样本数量，|d_2ij|表示分割后两个数据集中另外一个数据集中所含有的样本数量。|D_ij|表示数据集中所含有的样本数量。

则关于变量X_j的Gini系数减值，也即是变量X_j基尼系数的差值的计算方式为：

ΔGini(X_j,D_ij,A_ij)＝Gini(X_j,D_ij)-Gini(X_j,D_ij)′。

由此，在所有包含变量X_j的决策树中，令所有符合条件的分割点集合为Γ_j，(A_ij∈Γ_j),所有符合条件的节点Π_j，(D_ij∈∏_j),

则：

则变量参与度的第一指标价值PTC_j：

因此，目标业务变量的变量参与度的第一指标价值可以按照以上公式进行计算得到。最后，根据变量参与度的第一指标价值确定随机森林模型中目标业务变量对应的第一参数，根据第一参数以及随机森林模型构建业务风险预测模型。

在一实施例中，目标业务变量的变量指标包括变量稳定性，指标价值计算规则包括变量稳定性对应的第二计算规则，第二计算规则用于指示根据目标业务变量在训练随机森林模型时构建第二决策树贡献的基尼系数的差值、目标业务变量对应的业务数据的最大值和最小值计算变量稳定性的第二指标价值。如图4所示，S106包括：

S1061，确定训练随机森林模型时目标业务变量对应的业务数据的最大值和最小值。

S1063，获取训练随机森林模型时目标业务变量对应的第二决策树的基尼系数的差值。

S1065，根据目标业务变量对应的业务数据的最大值和最小值以及第二决策树的基尼系数的差值计算变量稳定性的第二指标价值。

此时，S108包括：

S1084，根据变量稳定性的第二指标价值确定随机森林模型中目标业务变量对应的第二参数，根据第二参数以及随机森林模型构建业务风险预测模型。

在该实施例中，服务器根据目标业务变量在训练随机森林模型时构建第二决策树贡献的基尼系数的差值、目标业务变量对应的业务数据的最大值和最小值计算变量稳定性的第二指标价值，最终根据变量稳定性的第二指标价值确定随机森林模型中目标业务变量对应的第二参数，根据第二参数以及随机森林模型构建业务风险预测模型。

具体地，变量稳定性的第二指标价值的计算方式可以参照以下方式：

设有变量X₁,X₂,X₃,…,X_j,…,X_J。则当目标业务变量X_j,在构造决策树节点D_1j,D_2j,…,D_ij,…,D_Ij时，都有分割点A_1j,A_2j,…,A_ij,…,A_Ij,在所有包含目标业务变量X_j的决策树中，令所有符合条件的分割点集合为Γ_j，(A_ij∈Γ_j),所有符合条件的节点П_j，(D_ij∈Π_j),令ΔGini(X_j,D_ij,A_ij)_t表示在第t棵决策树Gini系数在特定变量与节点组合下的减值情况，t∈T_j。

目标业务变量的变量稳定性的第二指标价值STB_j的计算方式如下：

其中，

表示ΔGini(X_j,D_ij,A_ij)_t为最大值时A_ij的值，max(X_j)表示X_j的最大值，min(X_j)表示X_j的最小值。

当业务风险预测模型用于预测小微企业的违约情况时，变量稳定性对于衡量小微企业的盈利状况有较为显著的作用，一个较好的模型希望可以在某稳定的值的情况对不同小微企业的营收、盈利状况做出区分，比如对于营收规模在1000W上下的企业做出明确区分，所以该变量稳定性的指标对于小微企业模型有较强的针对性。

在一实施例中，目标业务变量的变量指标包括变量交互性，指标价值计算规则包括变量交互性对应的第三计算规则，第三计算规则用于指示根据训练随机森林模型时第三决策树的纯度以及第四决策树的纯度的差值计算变量交互性的第三指标价值；其中，第三决策树包含目标业务变量和交互业务变量，第四决策树包含交互业务变量。如图5所示，S106包括：

S1069，根据目标业务变量的业务数据获取训练随机森林模型时第三决策树的纯度以及第三决策树的纯度。

S10610，计算第三决策树的纯度以及第三决策树的纯度的差值。

S10611，根据第三决策树的纯度以及第三决策树的纯度的差值计算变量交互性的第三指标价值。

此时，S108包括：

S1086，根据变量交互性的第三指标价值确定随机森林模型中目标业务变量对应的第三参数，根据第三参数以及随机森林模型构建业务风险预测模型。

在该实施例中，服务器根据训练随机森林模型时包含目标业务变量和交互业务变量第三决策树的纯度以及包含交互业务变量第四决策树的纯度的差值计算变量交互性的第三指标价值。最后根据变量交互性的第三指标价值确定随机森林模型中目标业务变量对应的第三参数，根据第三参数以及随机森林模型构建业务风险预测模型。

具体地，变量交互性的第三指标价值的计算方式可以参照以下方式：

变量交互性主要体现在某一变量在与其他固定几个变量共同参与决策树的构建时可以显著提升决策树效果，即显著的降低决策树的不纯度。令变量X_j为目标业务变量。T_j表示所有包含变量X_j的决策树的集。相应的，T_jq表示T_j∩T_q，即所有同时包含变量X_j与变量X_q的决策树的集。

Gini(T_j)表示包含变量X_j的决策树最终的纯度的集，而Gini(T_jq)则表示Gini(T_j)与Gini(T_q)的并集。

用

表示集合Gini(T_j)中纯度的均值，

表示集合Gini(T_q)中纯度的均值；

令

则令

则变量交互性的第三指标价值ITR_j为：

其中，

表示Indicator function指示函数，其输出结果在条件满足时为1，不满足时为0。

当业务风险预测模型用于预测小微企业的违约情况时，该变量交互性针对小微企业亦具有较强的现实意义。在一些情况下，两个或两个以上的变量的交互情况可以体现出小微企业相关财务指标的真实性，比如较高的财报营收与较低的增值税对应营收可能暗示该企业有财报造假的嫌疑，大大提升的预测的违约率。该指标通过将多个指标向结合，可以更有效的通过变量的交互作用，针对性的探查可能存在的小微企业虚假信息问题。

在一实施例中，目标业务变量的变量指标包括变量业务价值，指标价值计算规则包括变量业务价值对应的第一计算子规则和第二计算子规则，第一计算子规则用于指示根据训练随机森林模型时随机森林模型输出的训练样本业务风险的投票比率与目标业务变量的相关系数计算变量业务价值的第四指标价值，第二计算子规则用于指示根据随机森林模型输出的业务风险和非业务风险的样本量计算变量业务价值的第四指标价值。此时，如图6所示，S106包括：

S10612，当目标业务变量为连续变量且目标业务变量的业务风险率单调递减时，根据目标业务变量的业务数据获取投票比率与目标业务变量的第一相关系数，将第一相关系数的相反值作为变量业务价值的第四指标价值。

S10613，当目标业务变量为连续变量且目标业务变量的业务风险率单调递增时，根据目标业务变量的业务数据获取训练随机森林模型时投票比率与目标业务变量的第二相关系数，将第二相关系数作为变量业务价值的第四指标价值。

S10614，当目标业务变量为连续变量且目标业务变量的业务风险率符合二次函数开口向上时，根据目标业务变量的业务数据获取目标业务变量的业务风险率最低时对应的变量最低值，根据目标业务变量、变量最低值以及投票比率获取变量业务价值的第四指标价值。

S10615，当目标业务变量为离散变量时，根据目标业务变量的业务数据获取随机森林模型输出的业务风险的第一样本量和非业务风险的第二样本量，以及目标业务变量满足第一期望风险率且随机森林模型输出结果为非业务风险的第三样本数量、目标业务变量满足第二期望风险率且随机森林模型输出结果为业务风险的第四样本数量；其中，第一期望风险率低于第二期望风险率，根据第一样本量、第二样本量、第三样本量和第四样本量获取变量业务价值的第四指标价值。

此时S108，包括：

S1088，根据变量业务价值的第四指标价值确定随机森林模型中目标业务变量对应的第四参数，根据第四参数以及随机森林模型构建业务风险预测模型。

在该实施例中，服务器根据变量业务价值对应的第一计算子规则和第二计算子规则计算得到变量业务价值的第四指标价值。根据变量业务价值的第四指标价值确定随机森林模型中目标业务变量对应的第四参数，根据第四参数以及随机森林模型构建业务风险预测模型。

具体地，业务风险预测模型用于预测小微企业的违约情况。此时，变量业务价值的第四指标价值的计算方式可以参照以下方式：

变量业务价值的第四指标价值需要结合变量的实际业务价值来进行判断，主要的判断数据为随机森林模型输出的对训练样本的违约情况的投票比率。其中，变量P_i表示随机森林中决策树对第i个样本进行投票后投违约票的比率。目标业务变量为变量X_j。

一般来说，一个参与建模的变量可以分为连续变量或离散变量。其中，连续变量又可以按照其实际的业务逻辑分为违约率单调递减(盈利类指标如ROA、ROE等)，违约率单调递增(杠杆率类指标如资产负债率)，违约率符合二次函数开口向上(申报应税销售额与财报销售额之比)：

以下先对连续变量为三种情况进行分别讨论：

(1)期望违约率随变量增长单调递减(盈利类指标如ROA、ROE等)：此类指标表示随着变量X_j的增长期望违约率会单调降低，在此类情况下，用Spearman Rank Correlation方法计算变量X_j与变量P_i的序相关系数ρ_j,则第四指标价值BSV_j＝-ρ_j。

(2)期望违约率随变量增长单调递增(杠杆类指标如资产负债率等)：此类指标表示随着变量X_j的增长期望违约率会单调降增，在此类情况下，用Spearman RankCorrelation方法计算变量X_j与变量P_i的序相关系数ρ_j,则第四指标价值BSV_j＝ρ_j。

(3)期望违约率随变量增长符合开口向上的二次函数形状(对比类指标，如下游***销售额与财报销售额之比)：在这类情况下，往往变量X_j存在一个值可以使得期望违约率最低。设变量X_j使变量逾期率最低的值为

则可通过以下方法对变量X_j进行转换：

用Spearman Rank Correlation的方法求变量

与变量P_i的相关系数，得到ρ_j，则该子分类下的第四指标价值BSV_j＝ρ_j。

(4)在离散变量的情况下，根据离散变量X_j的业务价值将该变量分为三类，即低期望违约率，高期望违约率和中期望违约率。

同时，在训练集中，按预测结果中的违约组与非违约组分类将其样本量分别标记为

和

将以上所描述的变量X_j中同时满足低期望违约率与预测结果中的非违约组的样本数量标记为n_gl；将以上所描述的变量X_j中同时满足高期望违约率与预测结果中的违约组的样本数量标记为n_bh。

此时，第四指标价值

当业务风险预测模型用于预测小微企业的违约情况时，该变量业务价值将模型判断与小微企业实际的业务逻辑向结合，有效的衡量了实际业务逻辑在模型中的指导作用。因此，针对小微企业的风险建模有较强的指导意义。模型开发人员可以通过该指标验证相关财务、税务变量是否具有真实的业务价值，也可以将该指标衡量效果较低的变量排除在模型之外，以免将杂音加入模型。

在一实施例中，目标业务变量的变量指标包括变量影响力，指标价值计算规则包括变量影响力对应的第四计算规则，第四计算规则用于指示根据训练随机森林模型时目标业务变量参与构建前三个决策树节点的第一数量与目标业务变量总共参与构建的决策树的第二数量计算变量影响力的第五指标价值。如图7所示，S106包括：

S10616，根据目标业务变量的业务数据确定目标业务变量参与构建前三个决策树节点的第一数量以及目标业务变量总共参与构建的决策树的第二数量。

S10617，根据第一数量和第二数据计算变量影响力的第五指标价值。

此时S108包括，包括：

S1089，根据变量影响力的第五指标价值确定随机森林模型中目标业务变量对应的第五参数，根据第五参数以及随机森林模型构建业务风险预测模型。

在该实施例中，服务器根据训练随机森林模型时目标业务变量参与构建前三个决策树节点的第一数量与目标业务变量总共参与构建的决策树的第二数量计算变量影响力的第五指标价值。最终根据变量影响力的第五指标价值确定随机森林模型中目标业务变量对应的第五参数，根据第五参数以及随机森林模型构建业务风险预测模型。

其中，变量影响力的第五指标价值的计算方式可以参见以下方式：

一般来说，在随机森林模型中构建决策树时，当被随机选中的变量区分能力越强则越有可能参与构建决策树的前几个变量区分节点。根据该性质，通过记录目标业务变量参与构建前三个决策树节点的数量除以其总共参与构建的决策树数量，可作为变量影响力来判断目标业务变量的强势程度。

具体的，目标业务变量为变量X_j。对于变量X_j，记录其参与构建的所有决策树数量为|T_j|，记录其参与构建的任一决策树中前三个节点的数量总和为|N_j|^sum,则目标业务变量的变量影响力的第五指标价值为

在一实施例中，目标业务变量的变量指标为多个，各变量指标对应各指标价值计算规则。此时，S106包括：根据目标业务变量的业务数据以及各变量指标对应的各指标价值计算规则获取各变量指标的指标价值。S108包括：获取各变量指标的各权重值，根据各变量指标的指标价值以及各变量指标的各权重值确定随机森林模型中目标业务变量对应的参数。

具体地，如上实施例所述，对于目标业务变量，存在对应的五个变量指标，即PTC_j,STB_j,ITR_j,BSV_j,IFL_j。对各个变量指标以小到大进行排序，记录各个变量指标在排序中所处的百分位，分别记为

将以上所求得的各变量所对应的变量指标的百分位按设定的权重ω_PTC,ω_STB,ω_ITR,ω_BSV,ω_IFL进行加权平均得到最终分数SCORE_j。最终根据最终分数SCORE_j确定随机森林模型中目标业务变量对应的参数，以构建业务风险预测模型。

其中SCORE_j计算方式如下：

其中一种值得参考的权重赋值方法为：

ω_PTCj＝0.3，ω_STBj＝0.1，ω_ITRj＝0.1，ω_BSVj＝0.3，ω_IFLj＝0.2。

因此，服务器可输出最终的输出结果为SCORE_j与PTC_j,STB_j,ITR_j,BSV_j,IFL_j。也即是，服务器在模型训练完成后可输出各个变量指标的指标价值以及目标业务变量的最终价值得分，并据此调整随机森林模型的参数以得到构建的业务风险预测模型。例如，以一个通过随机数构建的虚拟数据集Small_Business为例。该数据集包括的预测变量如图8所示。其中，以Small_Business数据集的布尔值变量isGood作为预测目标，建立随机森林模型参见图9所示。据此计算的变量参与度的第一指标价值如图10所示，计算的变量稳定性的第二指标价值如图11所示，计算的变量交互性的第三指标价值如图12所示，计算的变量业务价值的第四指标价值如图13所示，计算的变量影响力的第五指标价值如图14所示，各数据的同一化处理如图15所示，其根据各权重加权汇总处理如图16所示。

具体地，根据以上五个变量指标，即PTC_j，STB_j，ITR_j，BSV_j，IFL_j。确定随机森林模型的参数的方式可以为：

1.如果盈利情况(ROA)、负债情况(资产负债率)等传统风控的变量指标在PTC_j评价中评分较低：提升该类变量在模型中的权重比例。

2.如果营收状况、盈利情况(如主营业务收入、净利润额)等变量指标在STB_j评分较低：对目标业务变量的业务数据进行正则化处理，降低变量的方差，减小变量的波动性。

3.如果存在变量指标BSV_j评分极低但PTC_j，IFL_j评分较高，考虑将该目标业务变量移除出模型。

4.如果非模型核心变量指标(如固定资产、营销费用等)IFL_j评分极高，考虑降低该目标业务变量权重比例。

本申请的一种业务风险预测模型的构建方法，通过多个维度的变量指标，如变量参与度、变量稳定性、变量交互性、变量业务价值自己变量影响力的评价标准对参与建立业务风险预测模型的目标业务变量进行量化评价以构建业务风险预测模型，提高了业务风险预测模型的预测结果的精确度。其中，业务风险预测模型可以是小微企业违约情况预测模型，用于对小微企业的违约情况进行预测。在具体的实现过程中，小微企业违约情况预测模型的训练过程中，输出各个变量指标的指标价值，以便于模型的开发人员和使用人员根据相关的指标价值对变量数据进行增添、修改、删减等操作，从而进一步提升模型的预测精度以及与对实际业务的贴合度。

应该理解的是，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，附图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本申请还提供的一种业务风险预测模型的构建装置，如图17所示，该装置包括第一获取模块10、第二获取模块20、第三获取模块30以及构建模块40。第一获取模块10，用于获取目标业务变量的变量指标，获取变量指标对应的指标价值计算规则；第二获取模块20，用于获取随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据；第三获取模块30，用于使用样本数据并基于业务风险性对随机森林模型进行模型训练，在随机森林模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值；构建模块40，用于根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量参与度，指标价值计算规则包括变量参与度对应的第一计算规则，第一计算规则用于指示根据目标业务变量在训练随机森林模型时构建决策树贡献的基尼系数的差值以及分割点的数量计算变量参与度的第一指标价值；第三获取模块30具体用于根据目标业务变量的业务数据确定训练随机森林模型时包含目标业务变量的第一决策树对应的分割点的数量值，获取训练随机森林模型时目标业务变量对应的第一决策树的基尼系数的差值，根据第一决策树对应的分割点的数量值以及第一决策树的基尼系数的差值计算变量参与度的第一指标价值；构建模块40具体用于根据变量参与度的第一指标价值确定随机森林模型中目标业务变量对应的第一参数，根据第一参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量稳定性，指标价值计算规则包括变量稳定性对应的第二计算规则，第二计算规则用于指示根据目标业务变量在训练随机森林模型时构建第二决策树贡献的基尼系数的差值、目标业务变量对应的业务数据的最大值和最小值计算变量稳定性的第二指标价值；第三获取模块30具体用于确定训练随机森林模型时目标业务变量对应的业务数据的最大值和最小值，获取训练随机森林模型时目标业务变量对应的第二决策树的基尼系数的差值，根据目标业务变量对应的业务数据的最大值和最小值以及第二决策树的基尼系数的差值计算变量稳定性的第二指标价值；构建模块40具体用于根据变量稳定性的第二指标价值确定随机森林模型中目标业务变量对应的第二参数，根据第二参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量交互性，指标价值计算规则包括变量交互性对应的第三计算规则，第三计算规则用于指示根据训练随机森林模型时第三决策树的纯度以及第四决策树的纯度的差值计算变量交互性的第三指标价值；其中，第三决策树包含目标业务变量和交互业务变量，第四决策树包含交互业务变量；第三获取模块30具体用于根据目标业务变量的业务数据获取训练随机森林模型时第三决策树的纯度以及第三决策树的纯度，计算第三决策树的纯度以及第三决策树的纯度的差值，根据第三决策树的纯度以及第三决策树的纯度的差值计算变量交互性的第三指标价值；构建模块40具体用于根据变量交互性的第三指标价值确定随机森林模型中目标业务变量对应的第三参数，根据第三参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量业务价值，指标价值计算规则包括变量业务价值对应的第一计算子规则和第二计算子规则，第一计算子规则用于指示根据训练随机森林模型时随机森林模型输出的训练样本业务风险的投票比率与目标业务变量的相关系数计算变量业务价值的第四指标价值，第二计算子规则用于指示根据随机森林模型输出的业务风险和非业务风险的样本量计算变量业务价值的第四指标价值；第三获取模块30具体用于当目标业务变量为连续变量且目标业务变量的业务风险率单调递减时，根据目标业务变量的业务数据获取投票比率与目标业务变量的第一相关系数，将第一相关系数的相反值作为变量业务价值的第四指标价值，当目标业务变量为连续变量且目标业务变量的业务风险率单调递增时，根据目标业务变量的业务数据获取训练随机森林模型时投票比率与目标业务变量的第二相关系数，将第二相关系数作为变量业务价值的第四指标价值，当目标业务变量为连续变量且目标业务变量的业务风险率符合二次函数开口向上时，根据目标业务变量的业务数据获取目标业务变量的业务风险率最低时对应的变量最低值，根据目标业务变量、变量最低值以及投票比率获取变量业务价值的第四指标价值，当目标业务变量为离散变量时，根据目标业务变量的业务数据获取随机森林模型输出的业务风险的第一样本量和非业务风险的第二样本量，以及目标业务变量满足第一期望风险率且随机森林模型输出结果为非业务风险的第三样本数量、目标业务变量满足第二期望风险率且随机森林模型输出结果为业务风险的第四样本数量，其中，第一期望风险率低于第二期望风险率，根据第一样本量、第二样本量、第三样本量和第四样本量获取变量业务价值的第四指标价值；构建模块40具体用于根据变量业务价值的第四指标价值确定随机森林模型中目标业务变量对应的第四参数，根据第四参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量影响力，指标价值计算规则包括变量影响力对应的第四计算规则，第四计算规则用于指示根据训练随机森林模型时目标业务变量参与构建前三个决策树节点的第一数量与目标业务变量总共参与构建的决策树的第二数量计算变量影响力的第五指标价值；第三获取模块30具体用于根据目标业务变量的业务数据确定目标业务变量参与构建前三个决策树节点的第一数量以及目标业务变量总共参与构建的决策树的第二数量，根据第一数量和第二数据计算变量影响力的第五指标价值；构建模块40具体用于根据变量影响力的第五指标价值确定随机森林模型中目标业务变量对应的第五参数，根据第五参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标为多个，各变量指标对应各指标价值计算规则，第三获取模块30具体用于根据目标业务变量的业务数据以及各变量指标对应的各指标价值计算规则获取各变量指标的指标价值；构建模块40具体用于获取各变量指标的各权重值，根据各变量指标的指标价值以及各变量指标的各权重值确定随机森林模型中目标业务变量对应的参数。

关于业务风险预测模型的构建装置的具体限定可以参见上文中对于业务风险预测模型的构建方法的限定，在此不再赘述。上述业务风险预测模型的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以服务器，其内部结构图可以如图18所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部外部设备连接，以读取或接收外部设备的数据信息。该计算机程序被处理器执行时以实现一种业务风险预测模型的构建方法。

本领域技术人员可以理解，图18中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取目标业务变量的变量指标，获取变量指标对应的指标价值计算规则；获取随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据；使用样本数据并基于业务风险性对随机森林模型进行模型训练，在随机森林模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值；根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量参与度，指标价值计算规则包括变量参与度对应的第一计算规则，第一计算规则用于指示根据目标业务变量在训练随机森林模型时构建决策树贡献的基尼系数的差值以及分割点的数量计算变量参与度的第一指标价值；处理器执行计算机程序实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：根据目标业务变量的业务数据确定训练随机森林模型时包含目标业务变量的第一决策树对应的分割点的数量值；获取训练随机森林模型时目标业务变量对应的第一决策树的基尼系数的差值；根据第一决策树对应的分割点的数量值以及第一决策树的基尼系数的差值计算变量参与度的第一指标价值；处理器执行计算机程序实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：根据变量参与度的第一指标价值确定随机森林模型中目标业务变量对应的第一参数，根据第一参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量稳定性，指标价值计算规则包括变量稳定性对应的第二计算规则，第二计算规则用于指示根据目标业务变量在训练随机森林模型时构建第二决策树贡献的基尼系数的差值、目标业务变量对应的业务数据的最大值和最小值计算变量稳定性的第二指标价值；处理器执行计算机程序实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：确定训练随机森林模型时目标业务变量对应的业务数据的最大值和最小值；获取训练随机森林模型时目标业务变量对应的所述第二决策树的基尼系数的差值；根据目标业务变量对应的业务数据的最大值和最小值以及第二决策树的基尼系数的差值计算变量稳定性的第二指标价值；处理器执行计算机程序实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：根据变量稳定性的第二指标价值确定随机森林模型中目标业务变量对应的第二参数，根据第二参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量交互性，指标价值计算规则包括变量交互性对应的第三计算规则，第三计算规则用于指示根据训练随机森林模型时第三决策树的纯度以及第四决策树的纯度的差值计算变量交互性的第三指标价值；其中，第三决策树包含目标业务变量和交互业务变量，第四决策树包含所述交互业务变量；处理器执行计算机程序实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：根据目标业务变量的业务数据获取训练所述随机森林模型时第三决策树的纯度以及第三决策树的纯度；计算第三决策树的纯度以及第三决策树的纯度的差值；根据第三决策树的纯度以及第三决策树的纯度的差值计算变量交互性的第三指标价值；处理器执行计算机程序实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：根据变量交互性的第三指标价值确定随机森林模型中目标业务变量对应的第三参数，根据第三参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量业务价值，指标价值计算规则包括变量业务价值对应的第一计算子规则和第二计算子规则，第一计算子规则用于指示根据训练随机森林模型时随机森林模型输出的训练样本业务风险的投票比率与目标业务变量的相关系数计算变量业务价值的第四指标价值，第二计算子规则用于指示根据随机森林模型输出的业务风险和非业务风险的样本量计算变量业务价值的第四指标价值；处理器执行计算机程序实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：当目标业务变量为连续变量且目标业务变量的业务风险率单调递减时，根据目标业务变量的业务数据获取投票比率与目标业务变量的第一相关系数，将第一相关系数的相反值作为变量业务价值的第四指标价值，当目标业务变量为连续变量且目标业务变量的业务风险率单调递增时，根据目标业务变量的业务数据获取训练随机森林模型时投票比率与目标业务变量的第二相关系数，将第二相关系数作为变量业务价值的第四指标价值，当目标业务变量为连续变量且目标业务变量的业务风险率符合二次函数开口向上时，根据目标业务变量的业务数据获取目标业务变量的业务风险率最低时对应的变量最低值，根据目标业务变量、变量最低值以及投票比率获取变量业务价值的第四指标价值，当目标业务变量为离散变量时，根据目标业务变量的业务数据获取随机森林模型输出的业务风险的第一样本量和非业务风险的第二样本量，以及目标业务变量满足第一期望风险率且随机森林模型输出结果为非业务风险的第三样本数量、目标业务变量满足第二期望风险率且随机森林模型输出结果为业务风险的第四样本数量；其中，第一期望风险率低于第二期望风险率，根据第一样本量、第二样本量、第三样本量和所述第四样本量获取变量业务价值的第四指标价值；处理器执行计算机程序实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：根据变量业务价值的第四指标价值确定随机森林模型中目标业务变量对应的第四参数，根据第四参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量影响力，指标价值计算规则包括变量影响力对应的第四计算规则，第四计算规则用于指示根据训练随机森林模型时目标业务变量参与构建前三个决策树节点的第一数量与目标业务变量总共参与构建的决策树的第二数量计算变量影响力的第五指标价值；处理器执行计算机程序实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：根据目标业务变量的业务数据确定目标业务变量参与构建前三个决策树节点的第一数量以及目标业务变量总共参与构建的决策树的第二数量，根据第一数量和第二数据计算变量影响力的第五指标价值；处理器执行计算机程序实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：根据变量影响力的第五指标价值确定随机森林模型中目标业务变量对应的第五参数，根据第五参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标为多个，各变量指标对应各指标价值计算规则，处理器执行计算机程序实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：根据目标业务变量的业务数据以及各变量指标对应的各指标价值计算规则获取各变量指标的指标价值；处理器执行计算机程序实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：获取各变量指标的各权重值，根据各变量指标的指标价值以及各变量指标的各权重值确定随机森林模型中目标业务变量对应的参数。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取目标业务变量的变量指标，获取变量指标对应的指标价值计算规则；获取随机森林模型的训练样本的样本数据，训练样本的样本数据包括目标业务变量的业务数据；使用样本数据并基于业务风险性对随机森林模型进行模型训练，在随机森林模型训练过程中，根据目标业务变量的业务数据以及指标价值计算规则获取变量指标的指标价值；根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量参与度，指标价值计算规则包括变量参与度对应的第一计算规则，第一计算规则用于指示根据目标业务变量在训练随机森林模型时构建决策树贡献的基尼系数的差值以及分割点的数量计算变量参与度的第一指标价值；计算机程序被处理器执行实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：根据目标业务变量的业务数据确定训练随机森林模型时包含目标业务变量的第一决策树对应的分割点的数量值；获取训练随机森林模型时目标业务变量对应的第一决策树的基尼系数的差值；根据第一决策树对应的分割点的数量值以及第一决策树的基尼系数的差值计算变量参与度的第一指标价值；计算机程序被处理器执行实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：根据变量参与度的第一指标价值确定随机森林模型中目标业务变量对应的第一参数，根据第一参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量稳定性，指标价值计算规则包括变量稳定性对应的第二计算规则，第二计算规则用于指示根据目标业务变量在训练随机森林模型时构建第二决策树贡献的基尼系数的差值、目标业务变量对应的业务数据的最大值和最小值计算变量稳定性的第二指标价值；计算机程序被处理器执行实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：确定训练随机森林模型时目标业务变量对应的业务数据的最大值和最小值；获取训练随机森林模型时目标业务变量对应的所述第二决策树的基尼系数的差值；根据目标业务变量对应的业务数据的最大值和最小值以及第二决策树的基尼系数的差值计算变量稳定性的第二指标价值；计算机程序被处理器执行实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：根据变量稳定性的第二指标价值确定随机森林模型中目标业务变量对应的第二参数，根据第二参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量交互性，指标价值计算规则包括变量交互性对应的第三计算规则，第三计算规则用于指示根据训练随机森林模型时第三决策树的纯度以及第四决策树的纯度的差值计算变量交互性的第三指标价值；其中，第三决策树包含目标业务变量和交互业务变量，第四决策树包含所述交互业务变量；计算机程序被处理器执行实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：根据目标业务变量的业务数据获取训练所述随机森林模型时第三决策树的纯度以及第三决策树的纯度；计算第三决策树的纯度以及第三决策树的纯度的差值；根据第三决策树的纯度以及第三决策树的纯度的差值计算变量交互性的第三指标价值；计算机程序被处理器执行实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：根据变量交互性的第三指标价值确定随机森林模型中目标业务变量对应的第三参数，根据第三参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量业务价值，指标价值计算规则包括变量业务价值对应的第一计算子规则和第二计算子规则，第一计算子规则用于指示根据训练随机森林模型时随机森林模型输出的训练样本业务风险的投票比率与目标业务变量的相关系数计算变量业务价值的第四指标价值，第二计算子规则用于指示根据随机森林模型输出的业务风险和非业务风险的样本量计算变量业务价值的第四指标价值；计算机程序被处理器执行实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：当目标业务变量为连续变量且目标业务变量的业务风险率单调递减时，根据目标业务变量的业务数据获取投票比率与目标业务变量的第一相关系数，将第一相关系数的相反值作为变量业务价值的第四指标价值，当目标业务变量为连续变量且目标业务变量的业务风险率单调递增时，根据目标业务变量的业务数据获取训练随机森林模型时投票比率与目标业务变量的第二相关系数，将第二相关系数作为变量业务价值的第四指标价值，当目标业务变量为连续变量且目标业务变量的业务风险率符合二次函数开口向上时，根据目标业务变量的业务数据获取目标业务变量的业务风险率最低时对应的变量最低值，根据目标业务变量、变量最低值以及投票比率获取变量业务价值的第四指标价值，当目标业务变量为离散变量时，根据目标业务变量的业务数据获取随机森林模型输出的业务风险的第一样本量和非业务风险的第二样本量，以及目标业务变量满足第一期望风险率且随机森林模型输出结果为非业务风险的第三样本数量、目标业务变量满足第二期望风险率且随机森林模型输出结果为业务风险的第四样本数量；其中，第一期望风险率低于第二期望风险率，根据第一样本量、第二样本量、第三样本量和所述第四样本量获取变量业务价值的第四指标价值；计算机程序被处理器执行实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：根据变量业务价值的第四指标价值确定随机森林模型中目标业务变量对应的第四参数，根据第四参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标包括变量影响力，指标价值计算规则包括变量影响力对应的第四计算规则，第四计算规则用于指示根据训练随机森林模型时目标业务变量参与构建前三个决策树节点的第一数量与目标业务变量总共参与构建的决策树的第二数量计算变量影响力的第五指标价值；计算机程序被处理器执行实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：根据目标业务变量的业务数据确定目标业务变量参与构建前三个决策树节点的第一数量以及目标业务变量总共参与构建的决策树的第二数量，根据第一数量和第二数据计算变量影响力的第五指标价值；计算机程序被处理器执行实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：根据变量影响力的第五指标价值确定随机森林模型中目标业务变量对应的第五参数，根据第五参数以及随机森林模型构建业务风险预测模型。

在其中一个实施例中，目标业务变量的变量指标为多个，各变量指标对应各指标价值计算规则，计算机程序被处理器执行实现上述的根据目标业务变量的业务数据以及变量指标对应的指标价值计算规则获取变量指标的指标价值步骤时，具体实现以下步骤：根据目标业务变量的业务数据以及各变量指标对应的各指标价值计算规则获取各变量指标的指标价值；计算机程序被处理器执行实现上述的根据变量指标的指标价值确定随机森林模型中目标业务变量对应的参数，根据目标业务变量对应的参数以及随机森林模型构建业务风险预测模型步骤时，具体实现以下步骤：获取各变量指标的各权重值，根据各变量指标的指标价值以及各变量指标的各权重值确定随机森林模型中目标业务变量对应的参数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种业务风险预测模型的构建方法，所述方法包括：

获取目标业务变量的变量指标，获取所述变量指标对应的指标价值计算规则；

获取随机森林模型的训练样本的样本数据，所述训练样本的样本数据包括所述目标业务变量的业务数据；

使用所述样本数据并基于业务风险性对所述随机森林模型进行模型训练，在所述随机森林模型训练过程中，根据所述目标业务变量的业务数据以及所述指标价值计算规则获取所述变量指标的指标价值；

根据所述变量指标的指标价值确定所述随机森林模型中所述目标业务变量对应的参数，根据所述目标业务变量对应的参数以及所述随机森林模型构建业务风险预测模型。

2.根据权利要求1所述的方法，其特征在于，所述目标业务变量的变量指标包括变量参与度，所述指标价值计算规则包括所述变量参与度对应的第一计算规则，所述第一计算规则用于指示根据所述目标业务变量在训练所述随机森林模型时构建决策树贡献的基尼系数的差值以及分割点的数量计算所述变量参与度的第一指标价值；

所述根据所述目标业务变量的业务数据以及所述变量指标对应的指标价值计算规则获取所述变量指标的指标价值，包括：

根据所述目标业务变量的业务数据确定训练所述随机森林模型时包含所述目标业务变量的第一决策树对应的分割点的数量值；

获取训练所述随机森林模型时所述目标业务变量对应的所述第一决策树的基尼系数的差值；

根据所述第一决策树对应的分割点的数量值以及所述第一决策树的基尼系数的差值计算所述变量参与度的第一指标价值；

所述根据所述变量指标的指标价值确定所述随机森林模型中所述目标业务变量对应的参数，根据所述目标业务变量对应的参数以及所述随机森林模型构建业务风险预测模型，包括：

根据所述变量参与度的第一指标价值确定所述随机森林模型中所述目标业务变量对应的第一参数，根据所述第一参数以及所述随机森林模型构建业务风险预测模型。

3.根据权利要求1所述的方法，其特征在于，所述目标业务变量的变量指标包括变量稳定性，所述指标价值计算规则包括所述变量稳定性对应的第二计算规则，所述第二计算规则用于指示根据所述目标业务变量在训练所述随机森林模型时构建第二决策树贡献的基尼系数的差值、所述目标业务变量对应的业务数据的最大值和最小值计算所述变量稳定性的第二指标价值；

确定训练所述随机森林模型时所述目标业务变量对应的业务数据的最大值和最小值；

获取训练所述随机森林模型时所述目标业务变量对应的所述第二决策树的基尼系数的差值；

根据所述目标业务变量对应的业务数据的最大值和最小值以及所述第二决策树的基尼系数的差值计算所述变量稳定性的第二指标价值；

根据所述变量稳定性的第二指标价值确定所述随机森林模型中所述目标业务变量对应的第二参数，根据所述第二参数以及所述随机森林模型构建业务风险预测模型。

4.根据权利要求1所述的方法，其特征在于，所述目标业务变量的变量指标包括变量交互性，所述指标价值计算规则包括所述变量交互性对应的第三计算规则，所述第三计算规则用于指示根据训练所述随机森林模型时第三决策树的纯度以及第四决策树的纯度的差值计算所述变量交互性的第三指标价值；其中，所述第三决策树包含所述目标业务变量和交互业务变量，所述第四决策树包含所述交互业务变量；

根据所述目标业务变量的业务数据获取训练所述随机森林模型时所述第三决策树的纯度以及所述第三决策树的纯度；

计算所述第三决策树的纯度以及所述第三决策树的纯度的差值；

根据所述第三决策树的纯度以及所述第三决策树的纯度的差值计算所述变量交互性的第三指标价值；

根据所述变量交互性的第三指标价值确定所述随机森林模型中所述目标业务变量对应的第三参数，根据所述第三参数以及所述随机森林模型构建业务风险预测模型。

5.根据权利要求1所述的方法，其特征在于，所述目标业务变量的变量指标包括变量业务价值，所述指标价值计算规则包括所述变量业务价值对应的第一计算子规则和第二计算子规则，所述第一计算子规则用于指示根据训练所述随机森林模型时所述随机森林模型输出的训练样本业务风险的投票比率与所述目标业务变量的相关系数计算所述变量业务价值的第四指标价值，所述第二计算子规则用于指示根据所述随机森林模型输出的业务风险和非业务风险的样本量计算所述变量业务价值的第四指标价值；

当所述目标业务变量为连续变量且所述目标业务变量的业务风险率单调递减时，根据所述目标业务变量的业务数据获取所述投票比率与所述目标业务变量的第一相关系数，将所述第一相关系数的相反值作为所述变量业务价值的第四指标价值；

当所述目标业务变量为连续变量且所述目标业务变量的业务风险率单调递增时，根据所述目标业务变量的业务数据获取训练所述随机森林模型时所述投票比率与所述目标业务变量的第二相关系数，将所述第二相关系数作为所述变量业务价值的第四指标价值；

当所述目标业务变量为连续变量且所述目标业务变量的业务风险率符合二次函数开口向上时，根据所述目标业务变量的业务数据获取所述目标业务变量的业务风险率最低时对应的变量最低值，根据所述目标业务变量、所述变量最低值以及所述投票比率获取所述变量业务价值的第四指标价值；

当所述目标业务变量为离散变量时，根据所述目标业务变量的业务数据获取所述随机森林模型输出的业务风险的第一样本量和非业务风险的第二样本量，以及所述目标业务变量满足第一期望风险率且所述随机森林模型输出结果为非业务风险的第三样本数量、所述目标业务变量满足第二期望风险率且所述随机森林模型输出结果为业务风险的第四样本数量；其中，所述第一期望风险率低于所述第二期望风险率，根据所述第一样本量、所述第二样本量、所述第三样本量和所述第四样本量获取所述变量业务价值的第四指标价值；

根据所述变量业务价值的第四指标价值确定所述随机森林模型中所述目标业务变量对应的第四参数，根据所述第四参数以及所述随机森林模型构建业务风险预测模型。

6.根据权利要求1所述的方法，其特征在于，所述目标业务变量的变量指标包括变量影响力，所述指标价值计算规则包括所述变量影响力对应的第四计算规则，所述第四计算规则用于指示根据训练所述随机森林模型时所述目标业务变量参与构建前三个决策树节点的第一数量与所述目标业务变量总共参与构建的决策树的第二数量计算所述变量影响力的第五指标价值；

根据所述目标业务变量的业务数据确定所述目标业务变量参与构建前三个决策树节点的第一数量以及所述目标业务变量总共参与构建的决策树的第二数量；

根据所述第一数量和所述第二数据计算所述变量影响力的第五指标价值；

根据所述变量影响力的第五指标价值确定所述随机森林模型中所述目标业务变量对应的第五参数，根据所述第五参数以及所述随机森林模型构建业务风险预测模型。

7.根据权利要求1所述的方法，其特征在于，所述目标业务变量的变量指标为多个，各变量指标对应各指标价值计算规则，所述根据所述目标业务变量的业务数据以及所述变量指标对应的指标价值计算规则获取所述变量指标的指标价值，包括：根据所述目标业务变量的业务数据以及所述各变量指标对应的各指标价值计算规则获取所述各变量指标的指标价值；

所述根据所述变量指标的指标价值确定所述随机森林模型中所述目标业务变量对应的参数，包括：获取所述各变量指标的各权重值，根据所述各变量指标的指标价值以及所述各变量指标的各权重值确定所述随机森林模型中所述目标业务变量对应的参数。

8.一种业务风险预测模型的构建装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标业务变量的变量指标，获取所述变量指标对应的指标价值计算规则；

第二获取模块，用于获取随机森林模型的训练样本的样本数据，所述训练样本的样本数据包括所述目标业务变量的业务数据；

第三获取模块，用于使用所述样本数据并基于业务风险性对所述随机森林模型进行模型训练，在所述随机森林模型训练过程中，根据所述目标业务变量的业务数据以及所述指标价值计算规则获取所述变量指标的指标价值；

构建模块，用于根据所述变量指标的指标价值确定所述随机森林模型中所述目标业务变量对应的参数，根据所述目标业务变量对应的参数以及所述随机森林模型构建业务风险预测模型。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。