CN117557361B

CN117557361B - 基于数据分析的用户信用风险评估方法及***

Info

Publication number: CN117557361B
Application number: CN202311502563.6A
Authority: CN
Inventors: 熊刚; 黄�俊; 周烈华; 彭忠
Original assignee: Weichuang Software Wuhan Co ltd
Current assignee: Weichuang Software Wuhan Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-04-26
Anticipated expiration: 2043-11-10
Also published as: CN117557361A

Abstract

本发明提出了一种基于数据分析的用户信用风险评估方法及***，所述方法包括：获取不同用户的基础信息和历史信用行为数据，并进行预处理和指标筛选，构建数据集；搭建基于多分支深度学习网络的风险评估模型通过所述数据集训练所述风险评估模型，并采用改进的塘鹅优化算法优化所述多分支深度学习网络的超参数；基于训练后的风险评估模型进行用户信用风险评估。本发明通过多分支深度学习网络分别学习样本的非时序属性数据的特征、时序属性数据的特征，通过改进的塘鹅优化算法优化多分支深度学习网络的超参数，以此训练风险评估模型进行用户信用风险评估，可以提高信用风险评估的准确度。

Description

基于数据分析的用户信用风险评估方法及***

技术领域

本发明属于大数据技术领域，具体涉及一种基于数据分析的用户信用风险评估方法及***。

背景技术

用户信用风险评估是互联网金融行业中的重要问题，它涉及到对用户的信用状况进行评估和预测，从而帮助金融机构制定合适的授信策略和风险管理措施。传统的用户信用风险评估方法主要依赖于个人信用报告、财务报表等有限的数据源，这些数据往往无法全面反映用户的真实信用状况。

随着互联网的快速发展和普及，大量的用户数据被不断产生和积累。这些数据包括用户的个人信息、行为轨迹、消费记录等，其中蕴含着丰富的特征信息和行为模式。若能通过大数据技术和机器学习算法对这些数据进行分析和建模，从大量的用户数据中挖掘出潜在的信用规律和模式，可以更全面、准确地评估和预测用户的信用状况。

公开号为CN113362167A的发明专利公开了一种基于类边界的重采样集成学习模型的信用风险评估方法，使用Bagging集成学习算法集成学习多个分类器，以构建信用风险评估模型，用于信用风险评估，通过解决数据失衡问题来提高预测的准确度。然而不同的机器学习模型/深度学习模型的特征提取能力、评估效果会有差异，如何设计特征提取能力强、评估效果好的预测模型是基于大数据的信用风险评估的首要任务。此外，机器学习模型/深度学习模型的预测性能和泛化能力在相当程度上是依赖于神经网模型的超参数，超参数选择不恰当，可能会产生欠拟合、过拟合、性能不稳定、训练时间过长等问题。因此，优化模型的超参数也是提高用户信用风险评估准确度的重要方面。

发明内容

有鉴于此，本发明提出了一种基于数据分析的用户信用风险评估方法及***，用于解决用户信用风险评估的准确度有待提高的问题。

本发明第一方面，公开了一种基于数据分析的用户信用风险评估方法，所述方法包括：

获取不同用户的基础信息和历史信用行为数据，并进行预处理和指标筛选，分别提取不同用户的非时序属性数据和时序属性数据形成样本，构建数据集；

搭建基于多分支深度学习网络的风险评估模型，所述多分支深度学习网络的各个分支分别用于提取样本的非时序属性数据的特征、时序属性数据的特征；

通过所述数据集训练所述风险评估模型，并采用改进的塘鹅优化算法优化所述多分支深度学习网络的超参数；

基于训练后的风险评估模型进行用户信用风险评估。

在以上技术方案的基础上，优选的，所述基础信息包括姓名、年龄、性别、婚姻状况、教育背景以及职业类型、工作单位、工作年限；

所述历史信用行为数据包括用户在过去一段时间内的财务状况和信贷记录；

所述财务状况包括用户的收入、支出、储蓄和负债情况；

所述信贷记录包括***使用记录、贷款记录、逾期记录、欺诈记录和公共记录。

在以上技术方案的基础上，优选的，所述进行预处理和特征筛选，分别提取不同用户的非时序属性数据和时序属性数据形成样本，构建数据集具体包括：

对不同用户的基础信息和历史信用行为数据进行数据清洗、缺失值处理和正负样本划分；

通过相关性分析和主成分分析法对基础信息和历史信用行为数据进行特征筛选；

对筛选出的基础信息进行量化处理，形成样本的非时序属性数据；

根据历史信用行为数据的时间戳对筛选出的历史信用行为数据进行数据对齐和合并，形成样本的时序属性数据；

对样本的非时序属性数据和时序属性数据进行归一化和标准化处理，加入数据集。

在以上技术方案的基础上，优选的，所述基于多分支深度学习网络的风险评估模型包括输入层、第一分支网络、第二分支网络、特征融合层、全连接层和输出层；

所述输入层用于分别读取样本的非时序属性数据和时序属性数据，并进行格式转换；

所述第一分支网络分别与输入层和特征融合层连接，第一分支网络用于对样本的非时序属性数据进行特征提取；所述第一分支网络采用卷积神经网络；

所述第二分支网络分别与输入层和特征融合层连接，第二分支网络用于对样本的时序属性数据进行特征提取；所述第二分支网络采用Reformer神经网络；

所述特征融合层用于融合第一分支网络和第二分支网络所提取的特征；

所述特征融合层、全连接层和输出层依次连接。

在以上技术方案的基础上，优选的，所述采用改进的塘鹅优化算法所述优化多分支深度学习网络的超参数具体包括：

采用混沌映射初始化塘鹅种群的位置，设置最大迭代次数T；

以深度学习网络预测的均方误差最小为适应度函数，计算各个塘鹅个体的适应度值，保存当前最优个***置；

以一个随机概率p选择进入搜索阶段还是开发阶段；

在搜索阶段，引入折射因子评估猎物在水中的深浅，根据猎物在水中的深浅采用U型潜水方式和V型潜水方式进行猎物搜索；对当前最优个***置进行镜像处理，更新最优个***置；

在开发阶段，根据塘鹅个体的适应度值评估塘鹅个体的捕捉能力，根据塘鹅个体的捕捉能力判断进行猎物捕捉还是随机游走，进行塘鹅个***置更新；

计算各个塘鹅个体的适应度值；

判断是否满足迭代终止条件，若是，输出最优个体的位置作为深度学习网络的超参数；若否，继续进行搜索阶段和开发阶段的位置更新，直到满足迭代终止条件。

在以上技术方案的基础上，优选的，所述在搜索阶段，引入折射因子评估猎物在水中的深浅，根据猎物在水中的深浅采用U型潜水方式和V型潜水方式进行猎物搜索具体包括：

计算各个塘鹅个体的适应度值的平均值f'；

计算折射因子n＝(f(X_i(t))-f(X_b(t)))/ε，ε为预设的适应度阈值，f(·)为适应度函数；X_i(t)、X_b(t)分别是第t次迭代时个体i的位置、最优个体的位置，i＝1,2,…,N，N为种群数量；

基于折射因子估算猎物在水中的深浅h＝n*f(X_b(t))；

若h≥f'，则采用U型潜水方式进行猎物搜索，否则，采用V型潜水方式进行猎物搜索。

在以上技术方案的基础上，优选的，所述对当前最优个***置进行镜像处理，更新最优个***置的公式为：

其中，U、L分别为搜索空间的上限和下限，X_b(t)为镜像处理前的最优个***置，X_b'(t)为对X_b(t)镜像处理得到的镜像位置；

为更新后的最优个***置。

在以上技术方案的基础上，优选的，所述在开发阶段，根据塘鹅个体的适应度值评估塘鹅个体的捕捉能力，根据塘鹅个体的捕捉能力判断进行猎物捕捉还是随机游走，进行塘鹅个***置更新具体包括：

根据塘鹅个体的适应度值评价捕捉能力C＝f(X_i)，若则向当前最优个体前进捕捉猎物，否则，通过莱维飞行策略进行随机游走，位置更新公式为：

其中，X_i(t)、X_i(t+1)分别是第t次、第t+1次迭代时个体i的位置，w为自适应权重，c₁和c₂分别为预设的权重最大值和最小值。

本发明第二方面，公开一种基于数据分析的用户信用风险评估***，所述***包括：

数据集构建模块：用于获取不同用户的基础信息和历史信用行为数据，并进行预处理和指标筛选，分别提取不同用户的非时序属性数据和时序属性数据形成样本，构建数据集；

模型搭建模块：用于搭建基于多分支深度学习网络的风险评估模型，所述多分支深度学习网络的各个分支分别用于提取样本的非时序属性数据的特征、时序属性数据的特征；

模型训练模块：用于通过所述数据集训练所述风险评估模型，并采用改进的塘鹅优化算法优化所述风险评估模型的超参数；

风险评估模块：用于基于训练后的风险评估模型进行用户信用风险评估。

本发明第三方面，公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现如本发明第一方面所述的方法。

本发明相对于现有技术具有以下有益效果：

1)本发明获取不同用户的基础信息和历史信用行为数据，并提取非时序属性数据和时序属性数据形成样本，通过多分支深度学习网络分别学习样本的非时序属性数据的特征、时序属性数据的特征，以此训练风险评估模型进行用户信用风险评估，可以联合用户的数据中的非时序属性和时序属性进行信用风险评估，提高信用风险评估的准确度。

2)本发明的多分支深度学习网络在采用卷积神经网络进行用户基础信息特征提取的同时，采用Reformer神经网络充分挖掘用户历史信用行为中的时序规律，并将时序属性数据的特征与非时序属性数据的特征融合，可以利用Reformer神经网络存储极致压缩的优势加快时序规律特征学习速度，同时减少待优化的超参数个数。

3)本发明通过改进的塘鹅优化算法优化多分支深度学习网络的超参数，采用混沌映射初始化塘鹅种群的位置，得到分布均匀的初值，在搜索阶段，引入折射因子评估猎物在水中的深浅，从而快速确定搜索方式，加快搜索效率。

4)本发明改进的塘鹅优化算法在搜索阶段对当前最优个***置进行镜像处理，以增加扰动，并及时更新最优个***置，避免在搜索阶段就陷入局部最优。

5)本发明改进的塘鹅优化算法在开发阶段，根据塘鹅个体的适应度值评估塘鹅个体的捕捉能力，并结合更新前后的最优个***置进行捕捉能力划分，缓解了捕捉能力判断上的不足，实现快速决策和权重动态调节，减少猎物捕捉的随机性，同时降低了算法复杂度，加快算法收敛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于数据分析的用户信用风险评估方法流程图；

图2为本发明的多分支深度学习网络结构示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1，本发明一种基于数据分析的用户信用风险评估方法，所述方法包括：

S1、获取不同用户的基础信息和历史信用行为数据，并进行预处理和指标筛选，构建数据集。

S11、通过大数据获取用户的基础信息和历史信用行为数据。

用户的基础信息和历史信用行为是信用风险评估中非常重要的一部分，可以帮助机构或个人做出更准确的信用决策。

用户的基础信息一般包括姓名、年龄、性别、婚姻状况、教育背景以及职业类型、工作单位、工作年限等。用户的稳定性和可靠性，收入稳定性和职业发展情况偿还能力和财务稳定性。

历史信用行为数据包括用户在过去一段时间内的财务状况和信贷记录。

财务状况包括用户的收入、支出、储蓄和负债情况等，这些数据反映了用户的消费习惯和支付能力。

信贷记录包括***使用记录、贷款记录、逾期记录、欺诈记录和公共记录等。欺诈记录比如涉嫌***盗刷、虚假申请等，可以反映用户的不良信用行为和信用风险。公共记录包括用户的法院判决记录、破产记录、税务违规记录等，这些记录可以反映用户的法律信用状况和财务稳定性。

收集这些数据的目的是为了获取用户的相关信息，从而评估其信用风险。在收集数据时，需要遵守相关的法律法规，保护用户的隐私和数据安全。同时，还需要进行数据预处理，以确保数据的质量和准确性。

S12、进行数据预处理和指标筛选，提取非时序属性数据和时序属性数据形成样本，构建数据集。

首先，对不同用户的基础信息和历史信用行为数据进行数据清洗、缺失值处理和正负样本划分。其中，信用良好的为正样本，否则为负样本。

然后，通过相关性分析和主成分分析法对基础信息和历史信用行为数据进行特征筛选。具体的，

用户的基础信息具有非时序属性，而历史信用行为数据具有时序属性，因此本发明对用户的基础信息和历史信用行为数据进行分别处理，提取不同用户的非时序属性数据和时序属性数据。具体的，对筛选出的基础信息进行量化处理，形成样本的非时序属性数据。再根据历史信用行为数据的时间戳对筛选出的历史信用行为数据进行数据对齐和合并，形成样本的时序属性数据。

最后，对样本的非时序属性数据和时序属性数据进行归一化和标准化处理，结合样本标签，形成样本，以此构建数据集。

本发明分别提取用户数据中的非时序属性数据和时序属性数据，构建风险评估模型的数据集。

S2、搭建基于多分支深度学习网络的风险评估模型。

如图2所示为多分支深度学习网络的结构示意图。基于多分支深度学习网络的风险评估模型包括输入层、第一分支网络、第二分支网络、特征融合层、全连接层和输出层。

输入层，用于分别读取样本的非时序属性数据和时序属性数据，并进行格式转换。

第一分支网络，分别与输入层和特征融合层连接，第一分支网络用于对样本的非时序属性数据进行特征提取。所述第一分支网络可采用卷积神经网络。

第二分支网络，分别与输入层和特征融合层连接，第二分支网络用于对样本的时序属性数据进行特征提取。所述第二分支网络可采用Reformer神经网络。

特征融合层，用于融合第一分支网络和第二分支网络所提取的特征；

其中，特征融合层、全连接层和输出层依次连接。

本发明的多分支深度学习网络有2个分支，第一分支网络用于提取样本的非时序属性数据的特征、第二分支网络用于提取样本的时序属性数据的特征。本发明采用Reformer神经网络提取样本的时序属性数据的特征，Reformer神经网络使用局部敏感哈希(Locality-Sensitive-Hashing,LSH)来降低长序列的处理复杂度和可逆残差层，从而更有效地使用可用内存，可以很好的提取长序列数据中的时序特征，与采用卷积神经网络提取的非时序特征结合们可以提高风险评估模型的准确度。

S3、通过数据集训练所述风险评估模型，并采用改进的塘鹅优化算法优化所述风险评估模型的超参数。

将所述数据集划分为训练集和测试集，进行风险评估模型的参数训练。鉴于基于多分支深度学习网络的超参数对风险评估模型的性能有较大影响，本发明在训练过程中采用改进的塘鹅优化算法优化所述风险评估模型的超参数。

采用改进的塘鹅优化算法优化所述风险评估模型的超参数具体包括如下步骤：

S31、采用混沌映射初始化塘鹅种群的位置，设置最大迭代次数T。

将待优化的超参数组合成塘鹅的个体向量，设置超参数的边界范围[L,U]，在该范围内初始化塘鹅种群的位置{X_i|i＝1,2,…,N}，N为种群数量。原始的塘鹅优化算法使用随机初始化的形式来生成初始种群，分布的均匀性不能保证，影响后续寻优效率，因此，本发明采用Tent混沌映射初始化塘鹅种群的位置，其分段的线性映射具有很好的随机性和遍历性，其有助于提高算法的全局寻优能力从而提升算法性能。

S32、以多分支深度学习网络预测的均方误差最小为适应度函数，计算各个塘鹅个体的适应度值，保存当前最优个***置。

多分支深度学习网络的优化目标为预测的均方误差最小，因此，将该优化目标作为适应度函数，计算各个塘鹅个体的适应度值并排序，保存当前最优个***置。

S33、以一个随机概率p选择进入搜索阶段还是开发阶段。

生成[0,1]内的随机数p，若p>0.5，进入搜索阶段，否则，进入开发阶段。

S34、在搜索阶段，引入折射因子评估猎物在水中的深浅，根据猎物在水中的深浅采用U型潜水方式和V型潜水方式进行猎物搜索。

塘鹅优化算法通过判断猎物在水中的深浅决定猎物搜索的方式，然而原始的塘鹅优化算法是通过一个随机概率的方式选择猎物搜索方式，实际上并没有对猎物在水中的深浅进行评估，因此这种随机的搜索方式收敛速度缓慢，影响寻优速度。而猎物在水中的深浅受光线折射的影响，导致塘鹅观察到的猎物在水中的位置与猎物在水中的实际位置不同，本发明根据这一原理，将塘鹅观察到的猎物在水中的位置作为局部最优解，将猎物在水中的实际位置作为全局最优解，引入了折射因子，以评估猎物在水中的深浅，并进行潜水搜索以接近猎物在水中的实际位置。

设X_i(t)、X_b(t)分别是第t次迭代时个体i的位置、最优个体的位置，计算折射因子n：

其中，ε为预设的适应度阈值，f(·)为适应度函数。

基于折射因子估算猎物在水中的深浅h：

h＝n*f(X_b(t))。

计算各个塘鹅个体的适应度值的平均值f'；

若h≥f'，则采用U型潜水方式进行猎物搜索，否则，采用V型潜水方式进行猎物搜索；具体的，进行猎物搜索的公式为：

其中，X_i(t)、X_i(t+1)分别是第t次、第t+1次迭代时个体i的位置，A＝a(2r₁-1)，a＝2t₁ cos(2πr₂)，B＝b(2r₃-1)，b＝2t₁V(2πr₄)，V(·)代表V型函数，u₁∈[-a,a],v₁∈[-b,b]，r₁、r₂、r₃、r₄均为(0,1)之间的随机数，X_b(t)、X_r(t)分别是第t次迭代时的最优个***置和随机选取的一个个体的位置。

S35、对当前最优个***置进行镜像处理，更新最优个***置。

为了平衡局部搜索与全局搜索，本发明对当前最优个***置进行镜像处理，并比较镜像处理前后当前最优个***置的适应度，以更新最优个***置。

镜像处理的公式为：

更新最优个***置的公式为：

为更新后的最优个***置。

S36、在开发阶段，根据塘鹅个体的适应度值评估塘鹅个体的捕捉能力，根据塘鹅个体的捕捉能力判断进行猎物捕捉还是随机游走，进行塘鹅个***置更新。

本发明根据塘鹅个体的适应度值评价捕捉能力C＝f(X_i)，若则向当前最优个体前进捕捉猎物，否则，通过莱维飞行策略进行随机游走，位置更新公式为：

w为动态自适应权重，c₁和c₂分别为预设的权重最大值和最小值，权重w随着迭代次数的变化而改变，呈现出一种前期较小值而后期较大值状态，平衡了算法要求前期全局大范围搜索与后期小范围开发的需求。

S37、计算各个塘鹅个体的适应度值，保存当前最优个***置X_b(t)。

S38、判断是否满足迭代终止条件，即是否满足f(X_b(t)·)<ε，若是，输出最优个体的位置作为深度学习网络的超参数；若否，返回步骤S33，继续进行搜索阶段和开发阶段的位置更新，直到满足迭代终止条件。

S4、基于训练后的风险评估模型进行用户信用风险评估。

训练后的风险评估模型具有最优的预测效果，获取待测用户的基础信息和历史信用行为数据，采用步骤S1相同的方式进行数据处理，输入训练后的风险评估模型，得到用户信用风险评估结果。

与上述方法实施例相对应，本发明还提出一种基于数据分析的用户信用风险评估***，所述***包括：

以上***实施例和方法实施例是一一对应的，***实施例简述之处请参阅方法实施例即可。

本发明还公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现本发明前述的方法。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括：U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下，可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据分析的用户信用风险评估方法，其特征在于，所述方法包括：

基于训练后的风险评估模型进行用户信用风险评估；

所述基础信息包括姓名、年龄、性别、婚姻状况、教育背景以及职业类型、工作单位、工作年限；

所述财务状况包括用户的收入、支出、储蓄和负债情况；

所述信贷记录包括***使用记录、贷款记录、逾期记录、欺诈记录和公共记录；

所述采用改进的塘鹅优化算法优化所述多分支深度学习网络的超参数具体包括：

采用混沌映射初始化塘鹅种群的位置，设置最大迭代次数T；

以一个随机概率p选择进入搜索阶段还是开发阶段；

计算各个塘鹅个体的适应度值；

2.根据权利要求1所述的基于数据分析的用户信用风险评估方法，其特征在于，所述进行预处理和特征筛选，分别提取不同用户的非时序属性数据和时序属性数据形成样本，构建数据集具体包括：

3.根据权利要求2所述的基于数据分析的用户信用风险评估方法，其特征在于，所述基于多分支深度学习网络的风险评估模型包括输入层、第一分支网络、第二分支网络、特征融合层、全连接层和输出层；

所述特征融合层、全连接层和输出层依次连接。

4.根据权利要求1所述的基于数据分析的用户信用风险评估方法，其特征在于，所述在搜索阶段，引入折射因子评估猎物在水中的深浅，根据猎物在水中的深浅采用U型潜水方式和V型潜水方式进行猎物搜索具体包括：

计算各个塘鹅个体的适应度值的平均值f'；

计算折射因子n：

其中，ε为预设的适应度阈值，f(·)为适应度函数；X_i(t)、X_b(t)分别是第t次迭代时个体i的位置、最优个体的位置；

基于折射因子估算猎物在水中的深浅h：h＝n*f(X_b(t))；

5.根据权利要求4所述的基于数据分析的用户信用风险评估方法，其特征在于，所述对当前最优个***置进行镜像处理，更新最优个***置的公式为：

为更新后的最优个***置。

6.根据权利要求5所述的基于数据分析的用户信用风险评估方法，其特征在于，所述在开发阶段，评估塘鹅个体的捕捉能力，根据塘鹅个体的捕捉能力判断进行猎物捕捉还是随机游走，进行塘鹅个***置更新具体包括：

7.使用权利要求1～6任一项所述方法的一种基于数据分析的用户信用风险评估***，其特征在于，所述***包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现如权利要求1～6任一项所述的方法。