CN111899091A

CN111899091A - 基于鲁棒算法的逾期风险识别方法

Info

Publication number: CN111899091A
Application number: CN202010783518.2A
Authority: CN
Inventors: 徐清
Original assignee: Unidt Technology Shanghai Co ltd
Current assignee: Unidt Technology Shanghai Co ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-11-06
Anticipated expiration: 2040-08-06
Also published as: CN111899091B

Abstract

本发明公开了一种基于鲁棒算法的逾期风险识别方法，其中，包括：获取用户基本信息、多维度行为数据生成基本信息行为数据；利用鲁棒算法的损失函数对基本信息行为数据进行建模，生成模型数据。本发明不仅能解决现有技术存在的破坏样本分布、导致独立同分布条件不满足的问题，并且可以提升识别的准确率与鲁棒性。与现有技术相比，本发明具有以下优点和积极的技术效果：1、利用了极小极大的博弈理论，有效提升算法的抗干扰性和鲁棒性；2、模型相比于传统的基于下采样或上采样的方法有更高的精度；3、对于原始样本分布有很好的刻画，可以有效处理样本不均衡或者样本非独立同分布情形。

Description

基于鲁棒算法的逾期风险识别方法

技术领域

本发明涉及一种消费贷逾期风险识别方法，尤其涉及一种基于鲁棒算法的逾期风险识别方法。

背景技术

消费贷款亦称“消费者贷款”。对消费者个人贷放的、用于购买耐用消费品或支付各种费用的贷款。

风控是信贷领域举足轻重的生命线。2019年以来，各信贷机构不良率提升迹象明显，风控也得到了前所未有的重视。

消费信贷规模的扩张，又与智能风控的发展息息相关。智能风控是指应用用户的多维度行为数据对其是否会按时还贷做出预测。

通常消费贷客户的逾期比例低于5％，这是一个正负样本极度不均衡的场景。在这种情况下直接利用机器学习算法通过用户的多维度行为数据来预测逾期风险会导致机器学习算法过于关注不存在逾期风险的用户，最后导致***会倾向于将用户识别成无逾期风险，这样就使得***的召回率(recall)比较低，在实际应用中效果不理想。

为了解决这一问题，现有的做法会采用过采样(over sampling)或欠采样(downsampling)进行处理。这些技术可以在一定程度上可以减弱分布不均衡带来的影响。但是会不可避免地带来独立同分布(independent and identically distributed)条件不再满足，从而经典的训练算法将不再适用。

因此，本发明致力于提供一种利用基于非线性期望的鲁棒学习算法的方法，对消费贷逾期风险进行识别，可以有效处理样本的不均衡性，同时保证不破坏样本分布。

发明内容

本发明的上述目的是通过以下技术方案实现的：

一种基于鲁棒算法的逾期风险识别方法，其中，包括：获取用户基本信息、多维度行为数据生成基本信息行为数据；利用鲁棒算法的损失函数对基本信息行为数据进行建模，生成模型数据。

如上所述的基于鲁棒算法的逾期风险识别方法，其中，基本信息行为数据包括：静态数据特征、动态数据特征。

如上所述的基于鲁棒算法的逾期风险识别方法，其中，静态特数据征包括：性别、学历、地区。

如上所述的基于鲁棒算法的逾期风险识别方法，其中，动态数据特征包括：借款行为、借款时间。

如上所述的基于鲁棒算法的逾期风险识别方法，其中，导入用户基本信息，在python中通过深度学习框架Keras搭建自编码神经网络，提取静态数据特征。

如上所述的基于鲁棒算法的逾期风险识别方法，其中，导入多维度行为信息，在python中利用快速傅里叶变换，提取动态数据特征。

如上所述的基于鲁棒算法的逾期风险识别方法，其中，利用鲁棒算法的损失函数对基本信息行为数据进行建模包括：

在python中利用Tensorflow搭建前馈神经网络，搭建时将基本信息行为数据分成N组，保证组内独立同分布，再将各组的损失函数取最大得到最终的损失函数为：

对以上函数利用迭代算法求得最小值点作为整个神经网络的参数，将模型的参数进行保存。

如上所述的基于鲁棒算法的逾期风险识别方法，其中，将模型数据部署至Tensorflow平台。

如上所述的基于鲁棒算法的逾期风险识别方法，其中，最终模型参数包含θ，对于包含三层的神经网络，

y₁＝σ(W₁x+b₁)

y＝σ(W₂y₁+b₂)

其中，x和y分别是输入和输出，θ＝(W₁，b₁，W₂，b₂)是模型参数。

综上所述，由于采用了上述技术方案，本发明不仅能解决现有技术存在的破坏样本分布、导致独立同分布条件不满足的问题，并且可以提升识别的准确率与鲁棒性。

本发明主要通过鲁棒算法结合深度学习方法有效利用用户的多维度数据，实现在不破坏原有样本分布的情形下提升模型精度。与现有技术相比，本发明具有以下优点和积极的技术效果：

1、利用了极小极大的博弈理论，有效提升算法的抗干扰性和鲁棒性；

2、模型相比于传统的基于下采样或上采样的方法有更高的精度；

3、对于原始样本分布有很好的刻画，可以有效处理样本不均衡或者样本非独立同分布情形。

具体实施方式

下面对本发明做进一步描述：

本发明公开了一种基于鲁棒算法的逾期风险识别方法，其中，包括：获取用户基本信息、多维度行为数据生成基本信息行为数据；利用鲁棒算法的损失函数对基本信息行为数据进行建模，生成模型数据。导入多个用户基本信息、多纬度行为数据，经过运算生成模型数据，通过生成的模型数据可以对新用户导入数据的逾期风险进行评估，本发明可以有效处理样本的不均衡性，同时保证不破坏样本分布。

在获取用以建模的用户基本信息、多维度行为数据之前可以先创建：用户基本信息表、用户多维度行为数据表。用户基本信息表、用户多维度行为数据表可以在Hive数据库中建立。

具体的，可以采用以下的步骤进行建立：

步骤一、在Hive数据库中创建用户基本信息表info，将用户的人口统计学信息(包括性别、年龄、地区等)存入表中，如果没有就存成缺失值。

步骤二、在Hive数据库中创建用户的多维度行为数据表behavior，将用户的多维度行为数据信息(包括借款时间、借款次数、借款金额、借款平台等)存入表中，如果没有就存成缺失值。

更进一步的，可以在Hive数据库中导出info和behavior，为后续生成基本信息行为数据提供数据源。

进一步的，基本信息行为数据包括：静态数据特征、动态数据特征。

进一步的，静态特数据征包括：性别、学历、地区。(静态数据特征是指性别、学历、地区等不随时间变化的特征，静态特征提取以后可以有助于降低维度、提高数据的利用率)。

进一步的，动态数据特征包括：借款行为、借款时间。(动态数据特征是指借款行为、借款时间等随时间变化的特征，提取以后有助于理解时序数据，从而更好地利用数据)。

进一步的，导入用户基本信息，在python中通过深度学习框架Keras搭建自编码神经网络(AutoEncoder)，提取静态数据特征。

具体的，本发明的info和behavior两张数据表中各自都有静态数据特征和动态数据特征。利用这种方法提取的静态数据特征和动态数据特征是用户行为的高阶信息，有利于降低数据维度并且更好的利用数据。

进一步的，导入多维度行为信息，在python中利用快速傅里叶变换，提取动态数据特征。

进一步的，利用鲁棒算法的损失函数对基本信息行为数据进行建模包括：

在python中利用Tensorflow搭建前馈神经网络，搭建时将基本信息行为数据(数据集)分成N组，保证组内独立同分布(组间不要求独立同分布)，再将各组的损失函数取最大得到最终的损失函数为：

其中，N为分组的组数，max表示取最大值，l_j(θ)表示第j组的损失函数，例如通常的MSE损失函数，其中θ是模型参数。

最终模型参数包含θ。例如对于包含三层的神经网络，

y₁＝σ(W₁x+b₁)

y＝σ(W₂y₁+b₂)

对以上函数利用迭代算法求得最小值点作为整个神经网络的参数，将模型的参数进行保存。保存后就完成了模型的建立，模型参数保存后可以将后续的用户数据导入直接进行预测。

应用举例：假设有一批数据(x_i，y_i)，i＝1，2，…，m，其中xi表示用户的行为特征，yi为是否逾期(1表示逾期，0表示不逾期)。我们将数据分成N组，每组有k个数据点，利用三层神经网络进行训练：

y＝σ(W₂σ(W₁x+b₁)+b₂)

利用我们的鲁棒损失函数进行训练：

利用迭代算法可以得到参数θ＝(W₁，b₁，W₂，b₂)的估计值，然后对于一个新的用户特征x，就可以根据

y＝σ(W₂σ(W₁x+b₁)+b₂)

计算出其逾期风险的值。

进一步的，将模型数据部署至Tensorflow平台。将建立好的模型部署在Tensorflow平台上，导入新用户的数据，便可实现对新用户的逾期风险的预测。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员可以无需创造性劳动或者通过软件编程就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于鲁棒算法的逾期风险识别方法，其特征在于，包括：获取用户基本信息、多维度行为数据生成基本信息行为数据；利用鲁棒算法的损失函数对基本信息行为数据进行建模，生成模型数据。

2.根据权利要求1所述的基于鲁棒算法的逾期风险识别方法，其特征在于，基本信息行为数据包括：静态数据特征、动态数据特征。

3.根据权利要求2所述的基于鲁棒算法的逾期风险识别方法，其特征在于，静态特数据征包括：性别、学历、地区。

4.根据权利要求2所述的基于鲁棒算法的逾期风险识别方法，其特征在于，动态数据特征包括：借款行为、借款时间。

5.根据权利要求3所述的基于鲁棒算法的逾期风险识别方法，其特征在于，导入用户基本信息，在python中通过深度学习框架Keras搭建自编码神经网络，提取静态数据特征。

6.根据权利要求4所述的基于鲁棒算法的逾期风险识别方法，其特征在于，导入多维度行为信息，在python中利用快速傅里叶变换，提取动态数据特征。

7.根据权利要求1所述的基于鲁棒算法的逾期风险识别方法，其特征在于，利用鲁棒算法的损失函数对基本信息行为数据进行建模包括：

8.根据权利要求1所述的基于鲁棒算法的逾期风险识别方法，其特征在于，将模型数据部署至Tensorflow平台。

9.根据权利要求7所述的基于鲁棒算法的逾期风险识别方法，其特征在于，最终模型参数包含θ，对于包含三层的神经网络，

y₁＝σ(W₁x+b₁)

y＝σ(W₂y₁+b₂)