CN113298373A

CN113298373A - 一种金融风险评估方法、装置、存储介质和设备

Info

Publication number: CN113298373A
Application number: CN202110552458.8A
Authority: CN
Inventors: 高若云; 石爱华; 陈功; 孙丽莎; 林雨琪; 谢婷钰; 曹清晨; 陈冠妤; 张思聪; 褚佳; 尹川
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-24

Abstract

本申请公开了一种金融风险评估方法、装置、存储介质和设备，从待测客户的行为信息中提取出目标变量，并确定目标变量的特征值，目标变量为满足预设条件的特征变量。将待测客户的目标变量的特征值，输入至金融风险评估模型中，得到金融风险评估模型的输出结果，输出结果包括待测客户的金融风险。基于金融风险、评分、以及风险等级的预设对应关系，确定待测客户的风险等级和评分。计算待测客户的目标变量对于金融风险的贡献度，按照贡献度从高到低的顺序，对待测客户所包含的各个目标变量进行排序，得到特征变量序列。对外展示待测客户的风险等级、评分、以及特征变量序列。可见，利用本申请所述方案能够有效提高金融风险评估的准确性。

Description

一种金融风险评估方法、装置、存储介质和设备

技术领域

本申请涉及大数据处理领域，尤其涉及一种金融风险评估方法、装置、存储介质和设备。

背景技术

随着大数据和机器学习技术的发展，越来越多的机器学习模型应用在金融风控、以及营销等领域，特别是有监督的机器学习模型。利用大数据和机器学习技术，可以对新客户和存量客户的进行金融风险评估(即评估客户发生不正当金融行为的概率)。

目前，在使用机器学习模型进行金融风险评估时，大多结合专家规则来评估客户是否发生不正当金融行为(本申请特指将非法所得财产合法化的行为)。然而，采用专家规则进行不正当金融行为评估，主观性太强，致使金融风险的评估结果准确性较低。

发明内容

本申请提供了一种金融风险评估方法、装置、存储介质和设备，目的在于提高金融风险评估的准确性。

为了实现上述目的，本申请提供了以下技术方案：

一种金融风险评估方法，包括：

从待测客户的行为信息中提取出目标变量，并确定所述目标变量的特征值；所述目标变量为满足预设条件的特征变量；所述预设条件为：所述特征变量与不正当金融行为存在关联关系；

将所述待测客户的目标变量的特征值，输入至金融风险评估模型中，得到所述金融风险评估模型的输出结果；所述金融风险评估模型基于将预先获取的样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值作为输入，以金融风险作为训练目标，预先训练得到；所述输出结果包括所述待测客户的金融风险；

基于所述金融风险、评分、以及风险等级的预设对应关系，确定所述待测客户的风险等级和评分；

计算所述待测客户的目标变量对于所述金融风险的贡献度；

按照所述贡献度从高到低的顺序，对所述待测客户所包含的各个目标变量进行排序，得到特征变量序列；

对外展示所述待测客户的所述风险等级、所述评分、以及所述特征变量序列。

可选的，所述预先获取样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值，包括：

获取预设客群范围内各个样本客户的不正当金融行为；

针对每个所述样本客户，基于不正当金融行为与分数的预设对应关系，为所述样本客户所包含的各类不正当金融行为进行打分，得到所述样本客户所包含的各类不正当金融行为的分数；

对所述样本客户所包含的各类不正当金融行为的分数进行累加求和，得到所述样本客户的特征评分；

将所述特征评分大于第一预设阈值的样本客户，标识为非法客户；

将所述特征评分不大于所述第一预设阈值的样本客户，标识为合法客户；

从所述样本客户的行为信息中提取出各类特征变量；

过滤各类所述特征变量中的无效数据；

对各类所述特征变量进行数据加工，得到各类所述特征变量的特征值，并对各类所述特征值进行数据分析，得到各类所述特征值的数据分布；

从各类所述特征变量中筛选出满足预设条件的特征变量，作为目标变量。

可选的，所述从各类所述特征变量中筛选出满足预设条件的特征变量，作为目标变量，包括：

针对每类所述特征变量，将所述特征变量视为单变量；

集合各个所述样本客户的单变量，构建数据集；

将所述数据集划分为训练集和测试集；

利用所述训练集训练机器学习模型；

将所述测试集作为训练得到的所述机器学习模型的输入，得到所述机器学习模型的输出结果；所述机器学习模型的输出结果包括各个所述样本客户的单变量的预测概率；

将所述预测概率的取值最大的样本客户，作为目标样本客户；

利用所述目标样本客户，构建单变量集合，并统计所述单变量集合所包含单变量的数量p；

统计所述单变量集合中归属于非法客户的单变量的数量q；

计算所述归属于非法客户的单变量的数量q、与所述单变量集合所包含所述单变量的数量p之间的比值，得到所述单变量的头部精准率；所述头部精准率用于表征所述特征变量与不正当金融行为之间存在关联关系的概率；

在所述头部精准率大于第二预设阈值的情况下，将所述单变量所属的特征变量，标识为目标变量。

预先统计所述特征变量的类型总数m，所述样本客户的总数N、以及所述样本客户中所包含非法客户的占比ρ；

针对每个所述特征变量，统计特征值相同的样本客户的总数N_m、以及所述总数N_m中所包含非法客户的占比ρ_m；

在所述特征变量的类型总数m不大于预设第三阈值的情况下，将N_m大于预设第一数值、且ρ_m大于ρ的特征变量，标识为目标变量；所述预设第一数值为第一调整系数α与目标比例的乘积，所述目标比例为所述样本客户的总数N与所述特征变量的类型总数m的比值；

在所述特征变量的类型总数m大于所述预设第三阈值的情况下，将N_m大于预设第二数值、且ρ_m大于ρ的特征变量，标识为目标变量；所述预设第二数值为第二调整系数β。

可选的，所述金融风险评估模型基于将预先获取的样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值作为输入，以金融风险作为训练目标，预先训练得到，包括：

预先为各类所述目标变量构建对应的子模型；其中，所述子模型用于预测样本客户具备不正当金融行为的概率；所述样本客户包括样本非法客户和样本合法客户；

将各类所述子模型进行融合，得到金融风险评估模型；

将预先获取的所述样本非法客户的目标变量的特征值、以及所述样本合法客户的目标变量的特征值，作为所述金融风险评估模型的输入，以金融风险作为训练目标，训练所述金融风险评估模型。

可选的，所述将各类所述子模型进行融合，得到金融风险评估模型，包括：

按照预设规则预先将各个所述样本客户划分为多个客群；所述预设规则为：针对所述目标变量相同的多个样本客户，将所述目标变量的特征值为空的样本客户、以及所述目标变量的特征值非空的样本客户划分至不同的所述客群中；

针对每个所述客群，为所述客群所包含的所述目标变量，构建对应的子模型；

利用限定域搜索算法，调整每个所述客群所包含的各个子模型的融合系数，得到每个所述客群的评价结果；

利用限定域搜索算法，调整每个所述客群的评价结果的融合系数，得到金融风险评估模型。

可选的，所述计算所述待测客户的目标变量对于所述金融风险的贡献度，包括：

获取所述待测客户的目标变量的特征值邻域内的n个数值；

将所述n个数值依次输入至所述金融风险评估模型中，得到所述金融风险评估模型输出的n个预测结果；所述预测结果用于指示与数值对应的风险概率；

针对每个所述数值，计算与所述数值对应的风险概率与所述待测客户的金融风险之间的差值，并将所述差值作为所述数值的权重；

将各个所述数值的权重进行累加，得到所述目标变量对于金融风险的贡献度。

一种金融风险评估装置，包括：

提取单元，用于从待测客户的行为信息中提取出目标变量，并确定所述目标变量的特征值；所述目标变量为满足预设条件的特征变量；所述预设条件为：所述特征变量与不正当金融行为存在关联关系；

输入单元，用于将所述待测客户的目标变量的特征值，输入至金融风险评估模型中，得到所述金融风险评估模型的输出结果；所述金融风险评估模型基于将预先获取的样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值作为输入，以金融风险作为训练目标，预先训练得到；所述输出结果包括所述待测客户的金融风险；

确定单元，用于基于所述金融风险、评分、以及风险等级的预设对应关系，确定所述待测客户的风险等级和评分；

计算单元，用于计算所述待测客户的目标变量对于所述金融风险的贡献度；

排序单元，用于按照所述贡献度从高到低的顺序，对所述待测客户所包含的各个目标变量进行排序，得到特征变量序列；

展示单元，用于对外展示所述待测客户的所述风险等级、所述评分、以及所述特征变量序列。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的金融风险评估方法。

一种金融风险评估设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的金融风险评估方法。

本申请提供的技术方案，从待测客户的行为信息中提取出目标变量，并确定目标变量的特征值。目标变量为满足预设条件的特征变量，预设条件为：特征变量与不正当金融行为存在关联关系。将待测客户的目标变量的特征值，输入至金融风险评估模型中，得到金融风险评估模型的输出结果。金融风险评估模型基于将预先获取的样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值作为输入，以金融风险作为训练目标，预先训练得到，输出结果包括待测客户的金融风险。基于金融风险、评分、以及风险等级的预设对应关系，确定待测客户的风险等级和评分。计算待测客户的目标变量对于金融风险的贡献度，按照贡献度从高到低的顺序，对待测客户所包含的各个目标变量进行排序，得到特征变量序列。对外展示待测客户的风险等级、评分、以及特征变量序列。相较于现有技术，从待测客户的行为信息中提取目标变量，并以目标变量作为金融风险评估模型的输入，客观性较强，以金融风险评估模型的输出结果作为待测客户的风险评估结果，较为科学合理。可见，本申请所述方案，能够从客户的行为信息出发，多角度识别和衡量客户的不正当金融行为，而不仅仅局限于非法客户的不正当金融行为，全面刻画客户的金融风险，并通过提升客户样本的浓度，挖掘潜在非法客户，提高金融风险评估模型的可靠性和准确性，实现从数据角度提高了金融风险评估的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种金融风险评估方法的示意图；

图1b为本申请实施例提供的另一种金融风险评估方法的示意图；

图2为本申请实施例提供的一种特征变量筛选方法的示意图；

图3为本申请实施例提供的另一种特征变量筛选方法的示意图；

图4为本申请实施例提供的一种融合各类子模型的方法的示意图；

图5为本申请实施例提供的一种目标变量对于金融风险的贡献度计算方法的示意图；

图6为本申请实施例提供的另一种金融风险评估方法的示意图；

图7为本申请实施例提供的一种金融风险评估装置的架构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1a所示，为本申请实施例提供的一种金融风险评估方法的示意图，包括如下步骤：

S101：获取预设客群范围内各个样本客户的不正当金融行为。

其中，每个样本客户的不正当金融行为包括一种或多种类型。

S102：针对每个样本客户，基于不正当金融行为与分数的预设对应关系，为样本客户所包含的各类不正当金融行为进行打分，得到样本客户所包含的各类不正当金融行为的分数。

S103：对样本客户所包含的各类不正当金融行为的分数进行累加求和，得到样本客户的特征评分。

S104：将特征评分不大于第一预设阈值的样本客户，标识为合法客户。

S105：将特征评分大于第一预设阈值的样本客户，标识为非法客户。

其中，将特征评分大于第一预设阈值的样本客户，标识为非法客户，从不正当金融行为出发，多角度识别和衡量样本客户的不正当金融行为，而不仅限于真正认定为非法客户，全面刻画客户金融风险，挖掘潜在非法客户，提升样本浓度，从数据角度提高了金融风险评估的准确性。

S106：从样本客户的行为信息中提取出各类特征变量。

其中，行为信息包括但不限于为：基础信息、交易信息、关联关系信息、一致性信息、以及外部风险信息等。从样本客户的行为信息中提取出各类特征变量，即对样本客户的行为信息进行特征加工，具体的，对样本客户的行为信息进行业务衍生和技术衍生，得到不同时间维度下的交易类型、交易比例、以及根据数据统计分布得到的特征峰度、偏度、以及变化率等各类特征变量，为深入挖掘样本客户的金融风险提供数据基础。

S107：过滤各类特征变量中的无效数据。

其中，过滤各类特征变量中的无效数据，即对各类特征变量进行数据清洗，具体的，数据清洗的实现方式包括但不限于为：对各类特征变量中存在明显错误、冗余的特征变量进行剔除，对缺失值进行填充(该填充方式包括直接赋值、历史数据回补、以及均值等方式)。

S108：对各类特征变量进行数据加工，得到各类特征变量的特征值，并对各类特征值进行数据分析，得到各类特征值的数据分布。

其中，特征值包括但不限于：特征变量的均值、中位数、分位数、非法客户在特征变量上的统计特性、以及合法客户在特征变量的统计特性等。

S109：从各类特征变量中筛选出满足预设条件的特征变量，作为目标变量。

其中，预设条件为：特征变量与不正当金融行为存在关联关系。

从各类特征变量中筛选出满足预设条件的特征变量，作为目标变量，其具体实现方式，可参见图2和图3所示的方法。

需要说明的是，针对金融风险评估领域特征变量数量多，但缺失程度高的情况，且更加关注最高风险的客户是否精准的特点，图2和图3提出了更适合金融风险评估业务特点和数据特点的变量筛选方法，极大的提升了对非法客户识别的可靠性。

S110：为各类目标变量构建对应的子模型。

其中，可以根据样本客户的天然数据缺失情况，对子模型进行划分，如果该样本客户拥有相关数据(即目标变量)，则参与构建子模型，否则不参与。例如，全部样本客户都拥有基础信息(即目标变量中的一种)，则全部样本客户参与基础信息子模型(与目标变量对应的子模型)的构建，部分样本客户在观察期内产生交易行为，则这部分样本客户构建交易模型，无交易行为的样本客户不参与构建交易模型。

需要说明的是，可以采用LightGBM算法对子模型进行训练，并在测试集和时间外验证集上进行模型效果和稳定性判断，子模型的训练过程、以及子模型的效果和稳定性判断，均为本领域技术人员所熟悉的公知常识，这里在不再赘述。

在本申请实施例中，子模型用于预测样本客户具备不正当金融行为的概率，样本客户包括样本非法客户和样本合法客户。

S111：将各类子模型进行融合，得到金融风险评估模型。

其中，将各类子模型进行融合，得到金融风险评估模型，其具体实现方式，可参见图4所示的方法。不同样本客户具有不同的信息块(目标变量)，比如部分样本客户是天然没有交易信息(目标变量的一种具体表达形式)的，单一子模型无法区分处理具有不同数据(即目标变量)的样本客户，从而造成对样本客户金融风险评估结果不够准确。

需要说明的是，图4所示方法能够充分利用样本客户的每一类数据(即目标变量)，并且动态识别出同一子模型在不同场景下的融合系数，提升整体金融风险评估的准确性。

S112：将预先获取的样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值作为输入，以金融风险作为训练目标，训练金融风险评估模型。

其中，金融风险评估模型的训练过程，为本领域技术人员所熟悉的公知常识，这里不再赘述。

S113：从待测客户的行为信息中提取出目标变量，并确定目标变量的特征值。

其中，S113的具体实现过程，与上述S106-S109所示的实现流程一致，这里不再赘述。

S114：将待测客户的目标变量的特征值，输入至训练得到的金融风险评估模型中，得到金融风险评估模型的输出结果。

其中，金融风险评估模型的输出结果包括待测客户的金融风险。

S115：基于金融风险、评分、以及风险等级的预设对应关系，确定待测客户的风险等级和评分。

其中，根据金融风险评估模型的输出结果对待测客户进行评分，评分越高，待测客户的风险概率越高。并且，可以按照业务要求，将评分划分为高风险、中高风险、中风险、中低风险和低风险五个风险等级，并使得不同风险等级的待测客户数量呈现纺锤型，即高风险、中高风险和低风险的待测客户数量相对较少，中风险和中低风险待测客户数量较多。

需要说明的是，基于金融风险、评分、以及风险等级的预设对应关系，确定待测客户的风险等级和评分，能够实现对金融风险的定量评估和定性评估，提高整体金融风险评估的适用性和准确性。

S116：计算待测客户的目标变量对于金融风险的贡献度。

其中，计算待测客户的目标变量对于金融风险的贡献度的具体过程，可参见图5所示的方法。

S117：按照贡献度从高到低的顺序，对待测客户所包含的各个目标变量进行排序，得到特征变量序列。

其中，金融风险评估模型属于模型(例如树模型)，具备一定的解释性，但是无法针对每一个客户进行解释，而在实际业务应用中，业务人员需要针对每一个客户的评分解释，故针对待测客户的金融风险，计算出待测客户的特征变量序列，以便于业务人员进行针对性的核查或采用控制措施，实现对待测客户的金融风险因素进行解释。

S118：对外展示待测客户的风险等级、评分、以及特征变量序列。

需要说明的是，上述S101-S108所示的流程，可以参见图1b所示。

综上所述，相较于现有技术，从待测客户的行为信息中提取目标变量，并以目标变量作为金融风险评估模型的输入，客观性较强，以金融风险评估模型的输出结果作为待测客户的风险评估结果，较为科学合理。可见，本实施例所述方案，能够从客户的行为信息出发，多角度识别和衡量客户的不正当金融行为，而不仅仅局限于非法客户的不正当金融行为，全面刻画客户的金融风险，并通过提升客户样本的浓度，挖掘潜在非法客户，提高金融风险评估模型的可靠性和准确性，实现从数据角度提高了金融风险评估的准确性。

如图2所示，为本申请实施例提供的一种特征变量筛选方法的示意图，包括如下步骤：

S201：针对每类特征变量，将特征变量视为单变量。

S202：集合各个样本客户的单变量，构建数据集。

其中，数据集的表现形式，如公式(1)所示。

在公式(1)中，x_i1…x_in均为单变量，i为特征变量的索引，n为样本客户的总数。

S203：将数据集划分为训练集和测试集。

S204：利用训练集训练机器学习模型。

其中，机器学习模型包括但不限于为：LightGBM模型、XGBoost模型、以及随机森林模型等。训练机器学习模型的具体实现过程，为本领域技术人员所熟悉的公知常识，这里不再赘述。

S205：将测试集作为机器学习模型的输入，得到机器学习模型的输出结果。

其中，机器学习模型的输出结果包括各个样本客户的单变量的预测概率。

具体的，假设测试集所包含单变量的数量为m，且测试集的表现形式，如公式(2)所示。

在公式(2)中，Prob_i1…Prob_im均为测试集中各个样本客户的单变量。

S206：将预测概率的取值最大的样本客户，作为目标样本客户。

S207：利用目标样本客户，构建单变量集合，并统计单变量集合所包含单变量的数量p。

S208：统计单变量集合中归属于非法客户的单变量的数量q。

S209：计算归属于非法客户的单变量的数量q、与单变量集合所包含单变量的数量p之间的比值，得到单变量的头部精准率。

其中，单变量的头部精准率，用于表征单变量所属的特征变量对非法客户的查准率，即用于表征特征变量与不正当金融行为之间存在关联关系的概率。所谓的查准率，为本领域技术人员所熟悉的公知常识，这里不再赘述。

S210：在头部精准率大于第二预设阈值的情况下，将单变量所属的特征变量，标识为目标变量。

综上所述，利用本实施例所述方法，能够有效地从各类特征变量中筛选出目标变量。

如图3所示，为本申请实施例提供的另一种特征变量筛选方法的示意图，包括如下步骤：

S301：预先统计特征变量的类型总数m，样本客户的总数N、以及样本客户中所包含非法客户的占比ρ。

S302：针对每个特征变量，统计特征值相同的样本客户的总数N_m、以及总数N_m中所包含非法客户的占比ρ_m。

其中，特征值相同，也就是特征值的数据分布相同。

S303：在特征变量的类型总数m不大于预设第三阈值的情况下，将N_m大于预设第一数值、且ρ_m大于ρ的特征变量，标识为目标变量。

其中，预设第一数值为第一调整系数α与目标比例的乘积，目标比例为样本客户的总数N与特征变量的类型总数m的比值，具体的，预设第一数值为

S304：在特征变量的类型总数m大于预设第三阈值的情况下，将N_m大于预设第二数值、且ρ_m大于ρ的特征变量，标识为目标变量。

其中，预设第二数值为第二调整系数β。

具体的，上述S303和S304所示的目标变量判断方法，其具体表达式如公式(3)所示。

在公式(3)中，变量数代表特征变量的类型总数m，预设第三阈值设为 10。

综上所述，相较于图2所示的方法，本实施例所述方案能够从数据分布角度出发，确保所筛选得到的目标变量具备统计意义，确保筛选得到目标变量与不正当金融行为存在关联关系。可见，利用本实施例所述方法，也能够有效地从各类特征变量中筛选出目标变量。

如图4所示，为本申请实施例提供的一种融合各类子模型的方法的示意图，包括如下步骤：

S401：按照预设规则预先将各个样本客户划分为多个客群。

其中，预设规则为：针对目标变量相同的多个样本客户，将目标变量的特征值为空的样本客户、以及目标变量的特征值非空的样本客户划分至不同的客群中。具体的，客群的划分可以理解为：按照样本客户所拥有的数据参与子模型构建的情况，对参与相同子模型建模的样本客户形成一个客群，即将具有某一类或某多类目标变量的多个样本客户，组合为一个客群。

S402：针对每个客群，为客群所包含的目标变量，构建对应的子模型。

S403：利用限定域搜索算法，调整每个客群所包含的各个子模型的融合系数，得到每个客群的评价结果。

其中，限定域搜索算法的具体表达式，如公式(4)所示。

p_k＝∑_i,j∈nα_i*p_i+...+α_j*p_j (4)

在公式(4)中，p_k代表客群中所包含样本客户的评价结果(即金融风险)， k代表客群所包含样本客户的索引，n代表子模型的个数，i和j均代表客群所包含的子模型的索引，α_i...α_j均代表子模型的融合系数、且α_i∈[-10,10]， p_i…p_j均代表子模型的评价结果(子模型的输出结果，即金融风险)。

另外，客群的评价结果的具体表达式，如公式(5)所示。

在公式(5)中，

代表客群的评价结果，s代表客群的索引。

需要强调的是，所谓的评价结果，其实质就是：子模型用于预测样本客户具备不正当金融行为的概率的一种具体表达方式。

S404：利用限定域搜索算法，调整每个客群的评价结果的融合系数，得到金融风险评估模型。

其中，金融风险评估模型的具体表达式，如公式(6)所示。

在公式(6)中，M代表客群的数量，β_i代表第i个客群的评价结果的融合系数，P_clusteri代表第i个客群的评价结果，P_Merged为金融风险评估模型的函数。

需要说明的是，经过上述流程，同一子模型的评价结果，在不同的场景下将具有不同融合系数，即不同的重要程度，因此可以动态应对样本客户的数据可能天然缺失的问题(即目标变量的缺失率较高的问题，缺失率为本领域技术人员所熟悉的公知常识，这里不再赘述)，提高金融风险评估的准确率。

相较于现有的子模型融合方法，本申请实施例首先按照样本客户所拥有的数据参与子模型构建的情况(即各个样本客户所具备的目标变量)，对参与相同子模型建模的样本客户形成一个客群，每个客群内的子模型结果通过限定域搜索法确定融合系数，并形成该客群的评价结果。该策略是为了解决不同模型的预测概率绝对值偏差较大的问题，例如，子模型A风险最大的样本客户预测出来的概率(即评价结果)可能为0.6，但子模型B中金融风险评价最高的样本客户的概率为0.9，概率为0.6的样本客户可能是合法客户，故需要在限定域内对子模型A的概率进行系数调整；其次，在获得每个客群的评价结果后，需要在不同客群间再进行一次动态融合，获取最优融合系数，并得到整体样本客户的最终评价结果，这一步的目的是为了让不同客群的评价结果能够可比。

综上所述，利用本实施所述方案，可以让同一子模型的评价结果在样本客户具有不同数据(即目标变量)的情况下，具有不同的重要性。

如图5所示，为本申请实施例提供的一种目标变量对于金融风险的贡献度计算方法的示意图，包括如下步骤：

S501：获取待测客户的目标变量的特征值邻域内的n个数值。

S502：将n个数值依次输入至金融风险评估模型中，得到金融风险评估模型输出的n个预测结果。

其中，预测结果用于指示与数值对应的风险概率。

S503：针对每个数值，计算与数值对应的风险概率与待测客户的金融风险之间的差值，并将差值作为数值的权重。

S504：将各个数值的权重进行累加，得到目标变量对于金融风险的贡献度。

具体的，假设待测客户X包含有p个目标变量，即X(x₁,x₂,x₃,...,x_p)，并预先定义目标变量的每个特征值的邻域为1％*σ_i(σ_i代表波动范围，即预设验证集中目标变量x_i分布的标准差)。对目标变量x_i在其1％*σ_i内随机采样n次，并考虑目标变量x_i的数据缺失情况，保留其它p-1个目标变量不变，总共生成目标变量x_i的n+1个近邻样本(即上述提及的数值)。针对目标变量x_i的n+1个近邻样本，构建近邻样本矩阵如公式(7)所示。

将近邻样本矩阵输入至训练得到的金融风险评估模型中，获得目标变量 x_i的预测矩阵，如公式(8)所示。

计算每个近邻样本的权重，其过程如公式(9)所示。

相应的，将各个近邻样本的权重进行累加，得到目标变量对于金融风险的贡献度，其过程如公式(10)所示。

综上所述，利用本实施例所述方案，能够有效计算得到待测客户所包含的各个目标变量各自对于金融风险的贡献度。

需要说明的是，上述所示的各个实施例，均为本申请所述金融风险评估方法的一种可选的具体实现方式。为此，上述所示的各个实施例，可以概括为图6所示的方法。

如图6所示，为本申请实施例提供的另一种金融风险评估方法的示意图，包括如下步骤：

S601：从待测客户的行为信息中提取出目标变量，并确定目标变量的特征值。

其中，目标变量为满足预设条件的特征变量，预设条件为：特征变量与不正当金融行为存在关联关系。

S602：将待测客户的目标变量的特征值，输入至金融风险评估模型中，得到金融风险评估模型的输出结果。

其中，金融风险评估模型基于将预先获取的样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值作为输入，以金融风险作为训练目标，预先训练得到。输出结果包括待测客户的金融风险。

S603：基于金融风险、评分、以及风险等级的预设对应关系，确定待测客户的风险等级和评分。

S604：计算待测客户的目标变量对于金融风险的贡献度。

S605：按照贡献度从高到低的顺序，对待测客户所包含的各个目标变量进行排序，得到特征变量序列。

S606：对外展示待测客户的风险等级、评分、以及特征变量序列。

与上述本申请实施例提供的金融风险评估方法相对应，本申请实施例还提供了一种金融风险评估装置。

如图7所示，为本申请实施例提供的一种金融风险评估装置的架构示意图，包括：

提取单元100，用于从待测客户的行为信息中提取出目标变量，并确定目标变量的特征值。目标变量为满足预设条件的特征变量，预设条件为：特征变量与不正当金融行为存在关联关系。

输入单元200，用于将待测客户的目标变量的特征值，输入至金融风险评估模型中，得到金融风险评估模型的输出结果。金融风险评估模型基于将预先获取的样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值作为输入，以金融风险作为训练目标，预先训练得到。输出结果包括待测客户的金融风险。

其中，输入单元200用于预先获取样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值的过程，包括：获取预设客群范围内各个样本客户的不正当金融行为；针对每个样本客户，基于不正当金融行为与分数的预设对应关系，为样本客户所包含的各类不正当金融行为进行打分，得到样本客户所包含的各类不正当金融行为的分数；对样本客户所包含的各类不正当金融行为的分数进行累加求和，得到样本客户的特征评分；将特征评分大于第一预设阈值的样本客户，标识为非法客户；将特征评分不大于第一预设阈值的样本客户，标识为合法客户；从样本客户的行为信息中提取出各类特征变量；过滤各类特征变量中的无效数据；对各类特征变量进行数据加工，得到各类特征变量的特征值，并对各类特征值进行数据分析，得到各类特征值的数据分布；从各类特征变量中筛选出满足预设条件的特征变量，作为目标变量。

输入单元200用于从各类特征变量中筛选出满足预设条件的特征变量，作为目标变量的过程，包括：针对每类特征变量，将特征变量视为单变量；集合各个样本客户的单变量，构建数据集；将数据集划分为训练集和测试集；利用训练集训练机器学习模型；将测试集作为训练得到的机器学习模型的输入，得到机器学习模型的输出结果；机器学习模型的输出结果包括各个样本客户的单变量的预测概率；将预测概率的取值最大的样本客户，作为目标样本客户；利用目标样本客户，构建单变量集合，并统计单变量集合所包含单变量的数量p；统计单变量集合中归属于非法客户的单变量的数量q；计算归属于非法客户的单变量的数量q、与单变量集合所包含单变量的数量p之间的比值，得到单变量的头部精准率；头部精准率用于表征特征变量与不正当金融行为之间存在关联关系的概率；在头部精准率大于第二预设阈值的情况下，将单变量所属的特征变量，标识为目标变量。

输入单元200用于从各类特征变量中筛选出满足预设条件的特征变量，作为目标变量的过程，包括：预先统计特征变量的类型总数m，样本客户的总数N、以及样本客户中所包含非法客户的占比ρ；针对每个特征变量，统计特征值相同的样本客户的总数N_m、以及总数N_m中所包含非法客户的占比ρ_m；在特征变量的类型总数m不大于预设第三阈值的情况下，将N_m大于预设第一数值、且ρ_m大于ρ的特征变量，标识为目标变量；预设第一数值为第一调整系数α与目标比例的乘积，目标比例为样本客户的总数N与特征变量的类型总数m的比值；在特征变量的类型总数m大于预设第三阈值的情况下，将N_m大于预设第二数值、且ρ_m大于ρ的特征变量，标识为目标变量；预设第二数值为第二调整系数β。

输入单元200用于基于将预先获取的样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值作为输入，以金融风险作为训练目标，预先训练得到金融风险评估模型的过程，包括：预先为各类目标变量构建对应的子模型；其中，子模型用于预测样本客户具备不正当金融行为的概率；样本客户包括样本非法客户和样本合法客户；将各类子模型进行融合，得到金融风险评估模型；将预先获取的样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值，作为金融风险评估模型的输入，以金融风险作为训练目标，训练金融风险评估模型。

输入单元200用于将各类子模型进行融合，得到金融风险评估模型的过程，包括：按照预设规则预先将各个样本客户划分为多个客群；预设规则为：针对目标变量相同的多个样本客户，将目标变量的特征值为空的样本客户、以及目标变量的特征值非空的样本客户划分至不同的客群中；针对每个客群，为客群所包含的目标变量，构建对应的子模型；利用限定域搜索算法，调整每个客群所包含的各个子模型的融合系数，得到每个客群的评价结果；利用限定域搜索算法，调整每个客群的评价结果的融合系数，得到金融风险评估模型。

确定单元300，用于基于金融风险、评分、以及风险等级的预设对应关系，确定待测客户的风险等级和评分。

计算单元400，用于计算待测客户的目标变量对于金融风险的贡献度。

其中，计算单元400具体用于：获取待测客户的目标变量的特征值邻域内的n个数值；将n个数值依次输入至金融风险评估模型中，得到金融风险评估模型输出的n个预测结果；预测结果用于指示与数值对应的风险概率；针对每个数值，计算与数值对应的风险概率与待测客户的金融风险之间的差值，并将差值作为数值的权重；将各个数值的权重进行累加，得到目标变量对于金融风险的贡献度。

排序单元500，用于按照贡献度从高到低的顺序，对待测客户所包含的各个目标变量进行排序，得到特征变量序列。

展示单元600，用于对外展示待测客户的风险等级、评分、以及特征变量序列。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的金融风险评估方法。

本申请还提供了一种金融风险评估设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的金融风险评估方法，包括如下步骤：

计算所述待测客户的目标变量对于所述金融风险的贡献度；

获取预设客群范围内各个样本客户的不正当金融行为；

从所述样本客户的行为信息中提取出各类特征变量；

过滤各类所述特征变量中的无效数据；

针对每类所述特征变量，将所述特征变量视为单变量；

集合各个所述样本客户的单变量，构建数据集；

将所述数据集划分为训练集和测试集；

利用所述训练集训练机器学习模型；

统计所述单变量集合中归属于非法客户的单变量的数量q；

将各类所述子模型进行融合，得到金融风险评估模型；

获取所述待测客户的目标变量的特征值邻域内的n个数值；

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种金融风险评估方法，其特征在于，包括：

计算所述待测客户的目标变量对于所述金融风险的贡献度；

2.根据权利要求1所述的方法，其特征在于，所述预先获取样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值，包括：

获取预设客群范围内各个样本客户的不正当金融行为；

从所述样本客户的行为信息中提取出各类特征变量；

过滤各类所述特征变量中的无效数据；

3.根据权利要求2所述的方法，其特征在于，所述从各类所述特征变量中筛选出满足预设条件的特征变量，作为目标变量，包括：

针对每类所述特征变量，将所述特征变量视为单变量；

集合各个所述样本客户的单变量，构建数据集；

将所述数据集划分为训练集和测试集；

利用所述训练集训练机器学习模型；

统计所述单变量集合中归属于非法客户的单变量的数量q；

4.根据权利要求2所述的方法，其特征在于，所述从各类所述特征变量中筛选出满足预设条件的特征变量，作为目标变量，包括：

5.根据权利要求1所述的方法，其特征在于，所述金融风险评估模型基于将预先获取的样本非法客户的目标变量的特征值、以及样本合法客户的目标变量的特征值作为输入，以金融风险作为训练目标，预先训练得到，包括：

将各类所述子模型进行融合，得到金融风险评估模型；

6.根据权利要求5所述的方法，其特征在于，所述将各类所述子模型进行融合，得到金融风险评估模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述计算所述待测客户的目标变量对于所述金融风险的贡献度，包括：

获取所述待测客户的目标变量的特征值邻域内的n个数值；

8.一种金融风险评估装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1-7任一所述的金融风险评估方法。

10.一种金融风险评估设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-7任一所述的金融风险评估方法。