CN110751400A

CN110751400A - 一种风险评估方法及装置

Info

Publication number: CN110751400A
Application number: CN201911006993.2A
Authority: CN
Inventors: 马子俊
Original assignee: Puxin Hengye Technology Development (beijing) Co Ltd; Yiren Hengye Technology Development (beijing) Co Ltd
Current assignee: Puxin Hengye Technology Development (beijing) Co Ltd; Yiren Hengye Technology Development (beijing) Co Ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-04
Anticipated expiration: 2039-10-22
Also published as: CN110751400B

Abstract

本发明提供了一种风险评估方法及装置，该方法包括：根据数据的风险信息量对数据源进行分组，得到包括强相关变量的强相关变量组和包括弱相关变量的弱相关变量组；依据所述弱相关变量组构建第一风险评估模型；利用所述第一风险评估模型对仅包含所述弱相关变量的全量样本进行预测概率分类，得到负样本比例最高的样本组；依据所述负样本比例最高的样本组和所述强相关变量组构建第二风险评估模型；利用所述第一风险评估模型和所述第二风险评估模型进行风险评估。本发明解决了由正负样本不均衡导致模型预测效率不高的问题，提高了风险评估模型的预测效率。

Description

一种风险评估方法及装置

技术领域

本发明涉及风险控制技术领域，更具体的，涉及一种风险评估方法及装置。

背景技术

风险评估是对风险的量化，是风险管理的关键性技术。目前一般通过建模的方式进行风险评估，在模型的建立过程中，主要有数据抽取、特征生成、特征选取、算法模型生成和合理性评估等步骤。

随着数据的来源渠道越来越丰富，可以作为风险特征变量的数据字段也越来越多。由于不是所有样本中的所有风险特征字段均为有效数值，因此，空缺值的出现不可避免，并且随着特征字段的增多，缺失情况会朝着越来越严重的方向发展。

当数据普遍稀疏，即风险特征字段空缺值较多时，如果按照传统的模型手段去进行特征挑选以及进行后续建模过程，模型预测的效率较低，当利用模型进行风险评估时，风险评估的准确性较低。

发明内容

有鉴于此，本发明提供了一种风险评估方法及装置，以提高模型的预测效率。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种风险评估方法，包括：

根据数据的风险信息量对数据源进行分组，得到包括强相关变量的强相关变量组和包括弱相关变量的弱相关变量组；

依据所述弱相关变量组构建第一风险评估模型；

利用所述第一风险评估模型对仅包含所述弱相关变量的全量样本进行预测概率分类，得到负样本比例最高的样本组；

依据所述负样本比例最高的样本组和所述强相关变量组构建第二风险评估模型；

利用所述第一风险评估模型和所述第二风险评估模型进行风险评估。

可选的，在所述依据所述弱相关变量组构建第一风险评估模型之前，所述方法还包括：

分别对所述强相关变量组和所述弱相关变量组进行降噪处理。

可选的，所述利用所述第一风险评估模型对仅包含所述弱相关变量的全量样本进行预测概率分类，得到负样本比例最高的样本组，包括：

利用所述第一风险评估模型对仅包含所述弱相关变量的全量样本进行预测概率分类，得到仅包含所述弱相关变量的全量样本中每个样本为负样本的概率；

依据预先设定的分割点以及仅包含所述弱相关变量的全量样本中每个样本为负样本的概率，将仅包含所述弱相关变量的全量样本划分为所述负样本比例最高的样本组和负样本比例最低的样本组。

可选的，所述方法还包括：

以正样本和负样本的预测准确率最高为优化目标，采用预设优化算法，计算所述分割点的最优值。

可选的，所述利用所述第一风险评估模型和所述第二风险评估模型进行风险评估，包括：

利用所述第一风险评估模型进行风险评估，得到第一风险评估值；

利用所述第二风险评估模型进行风险评估，得到第二风险评估值；

将所述第一风险评估值和所述第二风险评估值中的最大值确定为最终风险评估值。

一种风险评估装置，包括：

变量组划分单元，用于根据数据的风险信息量对数据源进行分组，得到包括强相关变量的强相关变量组和包括弱相关变量的弱相关变量组；

第一模型构建单元，用于依据所述弱相关变量组构建第一风险评估模型；

概率分类单元，用于利用所述第一风险评估模型对仅包含所述弱相关变量全量样本进行预测概率分类，得到负样本比例最高的样本组；

第二模型构建单元，用于依据所述负样本比例最高的样本组和所述强相关变量组构建第二风险评估模型；

风险评估单元，用于利用所述第一风险评估模型和所述第二风险评估模型进行风险评估。

可选的，所述装置还包括：

降噪处理单元，用于分别对所述强相关变量组和所述弱相关变量组进行降噪处理。

可选的，所述概率分类单元，具体用于：

可选的，所述装置还包括：

分割点设定单元，用于以正样本和负样本的预测准确率最高为优化目标，采用预设优化算法，计算所述分割点的最优值。

可选的，所述风险评估单元，具体用于：

相对于现有技术，本发明的有益效果如下：

本发明公开的一种风险评估方法，首先根据数据的风险信息量对数据源进行分组，得到强相关变量组和弱相关变量组；然后依据弱相关变量组构建第一风险评估模型，并利用第一风险评估模型对仅包含弱相关变量的全量样本进行预测概率分类，得到负样本比例最高的样本组；再依据负样本比例最高的样本组和强相关变量组构建第二风险评估模型，由于构建第二风险评估模型的训练数据为负样本比例最高的样本组和强相关变量组，训练数据空缺值较少，在此基础上构建的第二风险评估模型的预测效率较高；最终利用第一风险评估模型和第二风险评估模型进行风险评估，从而提高了风险评估的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种风险评估方法的流程示意图；

图2为本发明实施例公开的一种风险评估装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例针对构建风险评估模型的稀疏变量以及正负样本不均衡问题，提供了一种风险评估方法，应用于贷款风险评估等风险评估场景中，请参阅图1，该风险评估方法具体包括以下步骤：

S101：根据数据的风险信息量对数据源进行分组，得到包括强相关变量的强相关变量组和包括弱相关变量的弱相关变量组；

其中，数据的风险信息量越高，数据与风险评估对象的相关性越高，反之，数据的风险信息量越低，数据与风险评估对象的相关性越低。如客户开卡数量的分布集中到一定范围，客户开卡数量数据的信息量也会降低到一定范围，直至可能出现客户开卡数量数据与贷款风险的相关性较低的情况，需要说明的是，数据的信息量与数据的统计分布并不是直接线性关系，当数据分布复杂但是集中时，数据信息量也可能很大。

数据源包括多种变量数据，依据预先设定的分组规则和变量数据的风险信息量对数据源进行分组，得到包括强相关变量的强相关变量组和包括弱相关变量的弱相关变量组。如上例中若客户开卡数量集中度在一定范围，则将客户开卡数量数据划分到弱相关变量组，若客户开卡数量集中度不在上述范围，则将客户开卡数量数据划分到强相关变量组。需要说明的是，这一过程一般在数据探索性分析中完成。

为了便于后续处理，还可以对强相关变量组和弱相关变量组进行降噪处理，增加变量的连续性。

可选的，可以使用深度学习auto-encoding工具对强相关变量组和弱相关变量组进行降噪处理。

利用深度学习auto-encoding工具对强相关变量组和弱相关变量组进行降噪处理是使用神经网络进行编码(encoder)和解码(decoder)过程。

神经网络模型包括输入层input、中间层code、解码层decoder和输出层output。以变量为X为例，使用神经网络原理将X变换为Z，其中Z表示中间层的输出结果，中间层的变量Z再通过解码器(decoder)输出X’。其中整体上来讲，此神经网络的优化目标为:

Distance(X，X′)＝||X-X′||₂

优化的过程主要是使用梯度下降法，在此不再赘述。

S102：依据所述弱相关变量组构建第一风险评估模型；

实际操作的过程中，构建第一风险评估模型的算法可以按照需求选择，例如xgboost。

S103：利用所述第一风险评估模型对仅包含所述弱相关变量的全量样本进行预测概率分类，得到负样本比例最高的样本组；

正样本和负样本为风险评估结果，比如在风险评估中，将违约的客户记录为1，而未违约的客户记录为0，那么标记为1的就是是负样本，标记为0的就是正样本。

具体的，利用第一风险评估模型对仅包含弱相关变量的全量样本进行预测概率分类，得到仅包含弱相关变量的全量样本中每个样本为负样本的概率；

依据预先设定的分割点以及仅包含弱相关变量的全量样本中每个样本为负样本的概率，将仅包含所述弱相关变量的全量样本划分为所述负样本比例最高的样本组和负样本比例最低的样本组。

若以K表示分割点，样本为负样本的概率大于等于K的样本组中负样本的比例较高，将样本为负样本的概率大于等于K的样本划分为负样本比例最高的样本组；样本为负样本的概率小于K的样本中负样本的比例较低，将样本为负样本的概率小于K的样本划分为负样本比例最低的样本组。

为了使预先设定的分割点K更加合理，使正样本和负样本的预测准确率最高，以正样本和负样本的预测准确率最高为优化目标，采用预设优化算法，计算所述分割点的最优值。

首先引入混淆矩阵，具体如表1所示。

表1

当分割点K被确定时，显而易见，可以使用由弱相关变量组构建的第一风险评估模型将样本划分为两类预测值，一类预测为正样本；另一类预测为负样本。在此希望预测为负样本中，真实的负样本的比例明显增加，而预测为正样本中，正样本的比例占大多数，所以其优化目标如下：

其中，a和b为实际中需要输入的系数。在实际的过程中，确定K可以使用多种优化方法，既可以使用离散优化算法，也可以在样本集并不多的情况下，进行简单遍历即可。

S104：依据所述负样本比例最高的样本组和所述强相关变量组构建第二风险评估模型；

实际操作的过程中，构建第二风险评估模型的算法可以按照需求选择，例如xgboost。

构建第一风险评估模型和第二风险评估模型的算法可以相同，也可以不同。

上述过程不直接使用欠采样的方式增加数据源中负样本的比例，而是首先将数据源划分为强相关变量组和弱相关变量组，然后将仅包含弱相关变量的全量样本划分为负样本比例最高的样本组和负样本比例最低的样本组。在此基础上，依据负样本比例最高的样本组和强相关变量组构建的第二风险评估模型的模型概率为自然概率，在一定程度上防止了人为误差的引入，防止了模型因欠采样抽样原因而导致的过拟合现象。

S105：利用所述第一风险评估模型和所述第二风险评估模型进行风险评估。

具体的，利用所述第一风险评估模型进行风险评估，得到第一风险评估值；利用所述第二风险评估模型进行风险评估，得到第二风险评估值；将所述第一风险评估值和所述第二风险评估值中的最大值确定为最终风险评估值。

P_final(x)＝max{P_model1(x)，P_model2(x)}

其中P_model1(x)表示第一风险评估值，P_model2(x)表示第二风险评估值。max表示两个元素求最大值。

本实施例公开的一种风险评估方法，首先根据数据的风险信息量对数据源进行分组，得到强相关变量组和弱相关变量组；然后依据弱相关变量组构建第一风险评估模型，并利用第一风险评估模型对仅包含弱相关变量的全量样本进行预测概率分类，得到负样本比例最高的样本组；再依据负样本比例最高的样本组和强相关变量组构建第二风险评估模型，由于构建第二风险评估模型的训练数据为负样本比例最高的样本组和强相关变量组，训练数据空缺值较少，在此基础上构建的第二风险评估模型的预测效率较高；最终利用第一风险评估模型和第二风险评估模型进行风险评估，从而提高了风险评估的准确性。

基于上述实施例公开的一种风险评估方法，本实施例公开了一种风险评估装置，请参阅图2，该装置包括：

变量组划分单元201，用于根据数据的风险信息量对数据源进行分组，得到包括强相关变量的强相关变量组和包括弱相关变量的弱相关变量组；

第一模型构建单元202，用于依据所述弱相关变量组构建第一风险评估模型；

概率分类单元203，用于利用所述第一风险评估模型对仅包含所述弱相关变量的全量样本进行预测概率分类，得到负样本比例最高的样本组；

第二模型构建单元204，用于依据所述负样本比例最高的样本组和所述强相关变量组构建第二风险评估模型；

风险评估单元205，用于利用所述第一风险评估模型和所述第二风险评估模型进行风险评估。

可选的，所述装置还包括：

可选的，所述概率分类单元，具体用于：

可选的，所述装置还包括：

可选的，所述风险评估单元，具体用于：

本实施例公开的一种风险评估装置，首先根据数据的风险信息量对数据源进行分组，得到强相关变量组和弱相关变量组；然后依据弱相关变量组构建第一风险评估模型，并利用第一风险评估模型对仅包含弱相关变量的全量样本进行预测概率分类，得到负样本比例最高的样本组；再依据负样本比例最高的样本组和强相关变量组构建第二风险评估模型，由于构建第二风险评估模型的训练数据为负样本比例最高的样本组和强相关变量组，训练数据空缺值较少，在此基础上构建的第二风险评估模型的预测效率较高；最终利用第一风险评估模型和第二风险评估模型进行风险评估，从而提高了风险评估的准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种风险评估方法，其特征在于，包括：

依据所述弱相关变量组构建第一风险评估模型；

2.根据权利要求1所述的方法，其特征在于，在所述依据所述弱相关变量组构建第一风险评估模型之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述利用所述第一风险评估模型对仅包含所述弱相关变量的全量样本进行预测概率分类，得到负样本比例最高的样本组，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述利用所述第一风险评估模型和所述第二风险评估模型进行风险评估，包括：

6.一种风险评估装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述概率分类单元，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6所述的装置，其特征在于，所述风险评估单元，具体用于：