CN117557361B - 基于数据分析的用户信用风险评估方法及*** - Google Patents
基于数据分析的用户信用风险评估方法及*** Download PDFInfo
- Publication number
- CN117557361B CN117557361B CN202311502563.6A CN202311502563A CN117557361B CN 117557361 B CN117557361 B CN 117557361B CN 202311502563 A CN202311502563 A CN 202311502563A CN 117557361 B CN117557361 B CN 117557361B
- Authority
- CN
- China
- Prior art keywords
- data
- risk assessment
- time sequence
- attribute data
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000007405 data analysis Methods 0.000 title claims abstract description 17
- 238000013135 deep learning Methods 0.000 claims abstract description 36
- 230000006399 behavior Effects 0.000 claims abstract description 32
- 241000272814 Anser sp. Species 0.000 claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 21
- 238000011161 development Methods 0.000 claims description 15
- 230000009189 diving Effects 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000005295 random walk Methods 0.000 claims description 6
- 230000000739 chaotic effect Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 2
- 241000272517 Anseriformes Species 0.000 claims 7
- 241000272808 Anser Species 0.000 description 18
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于数据分析的用户信用风险评估方法及***,所述方法包括:获取不同用户的基础信息和历史信用行为数据,并进行预处理和指标筛选,构建数据集;搭建基于多分支深度学习网络的风险评估模型通过所述数据集训练所述风险评估模型,并采用改进的塘鹅优化算法优化所述多分支深度学习网络的超参数;基于训练后的风险评估模型进行用户信用风险评估。本发明通过多分支深度学习网络分别学习样本的非时序属性数据的特征、时序属性数据的特征,通过改进的塘鹅优化算法优化多分支深度学习网络的超参数,以此训练风险评估模型进行用户信用风险评估,可以提高信用风险评估的准确度。
Description
技术领域
本发明属于大数据技术领域,具体涉及一种基于数据分析的用户信用风险评估方法及***。
背景技术
用户信用风险评估是互联网金融行业中的重要问题,它涉及到对用户的信用状况进行评估和预测,从而帮助金融机构制定合适的授信策略和风险管理措施。传统的用户信用风险评估方法主要依赖于个人信用报告、财务报表等有限的数据源,这些数据往往无法全面反映用户的真实信用状况。
随着互联网的快速发展和普及,大量的用户数据被不断产生和积累。这些数据包括用户的个人信息、行为轨迹、消费记录等,其中蕴含着丰富的特征信息和行为模式。若能通过大数据技术和机器学习算法对这些数据进行分析和建模,从大量的用户数据中挖掘出潜在的信用规律和模式,可以更全面、准确地评估和预测用户的信用状况。
公开号为CN113362167A的发明专利公开了一种基于类边界的重采样集成学习模型的信用风险评估方法,使用Bagging集成学习算法集成学习多个分类器,以构建信用风险评估模型,用于信用风险评估,通过解决数据失衡问题来提高预测的准确度。然而不同的机器学习模型/深度学习模型的特征提取能力、评估效果会有差异,如何设计特征提取能力强、评估效果好的预测模型是基于大数据的信用风险评估的首要任务。此外,机器学习模型/深度学习模型的预测性能和泛化能力在相当程度上是依赖于神经网模型的超参数,超参数选择不恰当,可能会产生欠拟合、过拟合、性能不稳定、训练时间过长等问题。因此,优化模型的超参数也是提高用户信用风险评估准确度的重要方面。
发明内容
有鉴于此,本发明提出了一种基于数据分析的用户信用风险评估方法及***,用于解决用户信用风险评估的准确度有待提高的问题。
本发明第一方面,公开了一种基于数据分析的用户信用风险评估方法,所述方法包括:
获取不同用户的基础信息和历史信用行为数据,并进行预处理和指标筛选,分别提取不同用户的非时序属性数据和时序属性数据形成样本,构建数据集;
搭建基于多分支深度学习网络的风险评估模型,所述多分支深度学习网络的各个分支分别用于提取样本的非时序属性数据的特征、时序属性数据的特征;
通过所述数据集训练所述风险评估模型,并采用改进的塘鹅优化算法优化所述多分支深度学习网络的超参数;
基于训练后的风险评估模型进行用户信用风险评估。
在以上技术方案的基础上,优选的,所述基础信息包括姓名、年龄、性别、婚姻状况、教育背景以及职业类型、工作单位、工作年限;
所述历史信用行为数据包括用户在过去一段时间内的财务状况和信贷记录;
所述财务状况包括用户的收入、支出、储蓄和负债情况;
所述信贷记录包括***使用记录、贷款记录、逾期记录、欺诈记录和公共记录。
在以上技术方案的基础上,优选的,所述进行预处理和特征筛选,分别提取不同用户的非时序属性数据和时序属性数据形成样本,构建数据集具体包括:
对不同用户的基础信息和历史信用行为数据进行数据清洗、缺失值处理和正负样本划分;
通过相关性分析和主成分分析法对基础信息和历史信用行为数据进行特征筛选;
对筛选出的基础信息进行量化处理,形成样本的非时序属性数据;
根据历史信用行为数据的时间戳对筛选出的历史信用行为数据进行数据对齐和合并,形成样本的时序属性数据;
对样本的非时序属性数据和时序属性数据进行归一化和标准化处理,加入数据集。
在以上技术方案的基础上,优选的,所述基于多分支深度学习网络的风险评估模型包括输入层、第一分支网络、第二分支网络、特征融合层、全连接层和输出层;
所述输入层用于分别读取样本的非时序属性数据和时序属性数据,并进行格式转换;
所述第一分支网络分别与输入层和特征融合层连接,第一分支网络用于对样本的非时序属性数据进行特征提取;所述第一分支网络采用卷积神经网络;
所述第二分支网络分别与输入层和特征融合层连接,第二分支网络用于对样本的时序属性数据进行特征提取;所述第二分支网络采用Reformer神经网络;
所述特征融合层用于融合第一分支网络和第二分支网络所提取的特征;
所述特征融合层、全连接层和输出层依次连接。
在以上技术方案的基础上,优选的,所述采用改进的塘鹅优化算法所述优化多分支深度学习网络的超参数具体包括:
采用混沌映射初始化塘鹅种群的位置,设置最大迭代次数T;
以深度学习网络预测的均方误差最小为适应度函数,计算各个塘鹅个体的适应度值,保存当前最优个***置;
以一个随机概率p选择进入搜索阶段还是开发阶段;
在搜索阶段,引入折射因子评估猎物在水中的深浅,根据猎物在水中的深浅采用U型潜水方式和V型潜水方式进行猎物搜索;对当前最优个***置进行镜像处理,更新最优个***置;
在开发阶段,根据塘鹅个体的适应度值评估塘鹅个体的捕捉能力,根据塘鹅个体的捕捉能力判断进行猎物捕捉还是随机游走,进行塘鹅个***置更新;
计算各个塘鹅个体的适应度值;
判断是否满足迭代终止条件,若是,输出最优个体的位置作为深度学习网络的超参数;若否,继续进行搜索阶段和开发阶段的位置更新,直到满足迭代终止条件。
在以上技术方案的基础上,优选的,所述在搜索阶段,引入折射因子评估猎物在水中的深浅,根据猎物在水中的深浅采用U型潜水方式和V型潜水方式进行猎物搜索具体包括:
计算各个塘鹅个体的适应度值的平均值f';
计算折射因子n=(f(Xi(t))-f(Xb(t)))/ε,ε为预设的适应度阈值,f(·)为适应度函数;Xi(t)、Xb(t)分别是第t次迭代时个体i的位置、最优个体的位置,i=1,2,…,N,N为种群数量;
基于折射因子估算猎物在水中的深浅h=n*f(Xb(t));
若h≥f',则采用U型潜水方式进行猎物搜索,否则,采用V型潜水方式进行猎物搜索。
在以上技术方案的基础上,优选的,所述对当前最优个***置进行镜像处理,更新最优个***置的公式为:
其中,U、L分别为搜索空间的上限和下限,Xb(t)为镜像处理前的最优个***置,Xb'(t)为对Xb(t)镜像处理得到的镜像位置;
为更新后的最优个***置。
在以上技术方案的基础上,优选的,所述在开发阶段,根据塘鹅个体的适应度值评估塘鹅个体的捕捉能力,根据塘鹅个体的捕捉能力判断进行猎物捕捉还是随机游走,进行塘鹅个***置更新具体包括:
根据塘鹅个体的适应度值评价捕捉能力C=f(Xi),若则向当前最优个体前进捕捉猎物,否则,通过莱维飞行策略进行随机游走,位置更新公式为:
其中,Xi(t)、Xi(t+1)分别是第t次、第t+1次迭代时个体i的位置,w为自适应权重,c1和c2分别为预设的权重最大值和最小值。
本发明第二方面,公开一种基于数据分析的用户信用风险评估***,所述***包括:
数据集构建模块:用于获取不同用户的基础信息和历史信用行为数据,并进行预处理和指标筛选,分别提取不同用户的非时序属性数据和时序属性数据形成样本,构建数据集;
模型搭建模块:用于搭建基于多分支深度学习网络的风险评估模型,所述多分支深度学习网络的各个分支分别用于提取样本的非时序属性数据的特征、时序属性数据的特征;
模型训练模块:用于通过所述数据集训练所述风险评估模型,并采用改进的塘鹅优化算法优化所述风险评估模型的超参数;
风险评估模块:用于基于训练后的风险评估模型进行用户信用风险评估。
本发明第三方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现如本发明第一方面所述的方法。
本发明相对于现有技术具有以下有益效果:
1)本发明获取不同用户的基础信息和历史信用行为数据,并提取非时序属性数据和时序属性数据形成样本,通过多分支深度学习网络分别学习样本的非时序属性数据的特征、时序属性数据的特征,以此训练风险评估模型进行用户信用风险评估,可以联合用户的数据中的非时序属性和时序属性进行信用风险评估,提高信用风险评估的准确度。
2)本发明的多分支深度学习网络在采用卷积神经网络进行用户基础信息特征提取的同时,采用Reformer神经网络充分挖掘用户历史信用行为中的时序规律,并将时序属性数据的特征与非时序属性数据的特征融合,可以利用Reformer神经网络存储极致压缩的优势加快时序规律特征学习速度,同时减少待优化的超参数个数。
3)本发明通过改进的塘鹅优化算法优化多分支深度学习网络的超参数,采用混沌映射初始化塘鹅种群的位置,得到分布均匀的初值,在搜索阶段,引入折射因子评估猎物在水中的深浅,从而快速确定搜索方式,加快搜索效率。
4)本发明改进的塘鹅优化算法在搜索阶段对当前最优个***置进行镜像处理,以增加扰动,并及时更新最优个***置,避免在搜索阶段就陷入局部最优。
5)本发明改进的塘鹅优化算法在开发阶段,根据塘鹅个体的适应度值评估塘鹅个体的捕捉能力,并结合更新前后的最优个***置进行捕捉能力划分,缓解了捕捉能力判断上的不足,实现快速决策和权重动态调节,减少猎物捕捉的随机性,同时降低了算法复杂度,加快算法收敛。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于数据分析的用户信用风险评估方法流程图;
图2为本发明的多分支深度学习网络结构示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1,本发明一种基于数据分析的用户信用风险评估方法,所述方法包括:
S1、获取不同用户的基础信息和历史信用行为数据,并进行预处理和指标筛选,构建数据集。
S11、通过大数据获取用户的基础信息和历史信用行为数据。
用户的基础信息和历史信用行为是信用风险评估中非常重要的一部分,可以帮助机构或个人做出更准确的信用决策。
用户的基础信息一般包括姓名、年龄、性别、婚姻状况、教育背景以及职业类型、工作单位、工作年限等。用户的稳定性和可靠性,收入稳定性和职业发展情况偿还能力和财务稳定性。
历史信用行为数据包括用户在过去一段时间内的财务状况和信贷记录。
财务状况包括用户的收入、支出、储蓄和负债情况等,这些数据反映了用户的消费习惯和支付能力。
信贷记录包括***使用记录、贷款记录、逾期记录、欺诈记录和公共记录等。欺诈记录比如涉嫌***盗刷、虚假申请等,可以反映用户的不良信用行为和信用风险。公共记录包括用户的法院判决记录、破产记录、税务违规记录等,这些记录可以反映用户的法律信用状况和财务稳定性。
收集这些数据的目的是为了获取用户的相关信息,从而评估其信用风险。在收集数据时,需要遵守相关的法律法规,保护用户的隐私和数据安全。同时,还需要进行数据预处理,以确保数据的质量和准确性。
S12、进行数据预处理和指标筛选,提取非时序属性数据和时序属性数据形成样本,构建数据集。
首先,对不同用户的基础信息和历史信用行为数据进行数据清洗、缺失值处理和正负样本划分。其中,信用良好的为正样本,否则为负样本。
然后,通过相关性分析和主成分分析法对基础信息和历史信用行为数据进行特征筛选。具体的,
用户的基础信息具有非时序属性,而历史信用行为数据具有时序属性,因此本发明对用户的基础信息和历史信用行为数据进行分别处理,提取不同用户的非时序属性数据和时序属性数据。具体的,对筛选出的基础信息进行量化处理,形成样本的非时序属性数据。再根据历史信用行为数据的时间戳对筛选出的历史信用行为数据进行数据对齐和合并,形成样本的时序属性数据。
最后,对样本的非时序属性数据和时序属性数据进行归一化和标准化处理,结合样本标签,形成样本,以此构建数据集。
本发明分别提取用户数据中的非时序属性数据和时序属性数据,构建风险评估模型的数据集。
S2、搭建基于多分支深度学习网络的风险评估模型。
如图2所示为多分支深度学习网络的结构示意图。基于多分支深度学习网络的风险评估模型包括输入层、第一分支网络、第二分支网络、特征融合层、全连接层和输出层。
输入层,用于分别读取样本的非时序属性数据和时序属性数据,并进行格式转换。
第一分支网络,分别与输入层和特征融合层连接,第一分支网络用于对样本的非时序属性数据进行特征提取。所述第一分支网络可采用卷积神经网络。
第二分支网络,分别与输入层和特征融合层连接,第二分支网络用于对样本的时序属性数据进行特征提取。所述第二分支网络可采用Reformer神经网络。
特征融合层,用于融合第一分支网络和第二分支网络所提取的特征;
其中,特征融合层、全连接层和输出层依次连接。
本发明的多分支深度学习网络有2个分支,第一分支网络用于提取样本的非时序属性数据的特征、第二分支网络用于提取样本的时序属性数据的特征。本发明采用Reformer神经网络提取样本的时序属性数据的特征,Reformer神经网络使用局部敏感哈希(Locality-Sensitive-Hashing,LSH)来降低长序列的处理复杂度和可逆残差层,从而更有效地使用可用内存,可以很好的提取长序列数据中的时序特征,与采用卷积神经网络提取的非时序特征结合们可以提高风险评估模型的准确度。
S3、通过数据集训练所述风险评估模型,并采用改进的塘鹅优化算法优化所述风险评估模型的超参数。
将所述数据集划分为训练集和测试集,进行风险评估模型的参数训练。鉴于基于多分支深度学习网络的超参数对风险评估模型的性能有较大影响,本发明在训练过程中采用改进的塘鹅优化算法优化所述风险评估模型的超参数。
采用改进的塘鹅优化算法优化所述风险评估模型的超参数具体包括如下步骤:
S31、采用混沌映射初始化塘鹅种群的位置,设置最大迭代次数T。
将待优化的超参数组合成塘鹅的个体向量,设置超参数的边界范围[L,U],在该范围内初始化塘鹅种群的位置{Xi|i=1,2,…,N},N为种群数量。原始的塘鹅优化算法使用随机初始化的形式来生成初始种群,分布的均匀性不能保证,影响后续寻优效率,因此,本发明采用Tent混沌映射初始化塘鹅种群的位置,其分段的线性映射具有很好的随机性和遍历性,其有助于提高算法的全局寻优能力从而提升算法性能。
S32、以多分支深度学习网络预测的均方误差最小为适应度函数,计算各个塘鹅个体的适应度值,保存当前最优个***置。
多分支深度学习网络的优化目标为预测的均方误差最小,因此,将该优化目标作为适应度函数,计算各个塘鹅个体的适应度值并排序,保存当前最优个***置。
S33、以一个随机概率p选择进入搜索阶段还是开发阶段。
生成[0,1]内的随机数p,若p>0.5,进入搜索阶段,否则,进入开发阶段。
S34、在搜索阶段,引入折射因子评估猎物在水中的深浅,根据猎物在水中的深浅采用U型潜水方式和V型潜水方式进行猎物搜索。
塘鹅优化算法通过判断猎物在水中的深浅决定猎物搜索的方式,然而原始的塘鹅优化算法是通过一个随机概率的方式选择猎物搜索方式,实际上并没有对猎物在水中的深浅进行评估,因此这种随机的搜索方式收敛速度缓慢,影响寻优速度。而猎物在水中的深浅受光线折射的影响,导致塘鹅观察到的猎物在水中的位置与猎物在水中的实际位置不同,本发明根据这一原理,将塘鹅观察到的猎物在水中的位置作为局部最优解,将猎物在水中的实际位置作为全局最优解,引入了折射因子,以评估猎物在水中的深浅,并进行潜水搜索以接近猎物在水中的实际位置。
设Xi(t)、Xb(t)分别是第t次迭代时个体i的位置、最优个体的位置,计算折射因子n:
其中,ε为预设的适应度阈值,f(·)为适应度函数。
基于折射因子估算猎物在水中的深浅h:
h=n*f(Xb(t))。
计算各个塘鹅个体的适应度值的平均值f';
若h≥f',则采用U型潜水方式进行猎物搜索,否则,采用V型潜水方式进行猎物搜索;具体的,进行猎物搜索的公式为:
其中,Xi(t)、Xi(t+1)分别是第t次、第t+1次迭代时个体i的位置,A=a(2r1-1),a=2t1 cos(2πr2),B=b(2r3-1),b=2t1V(2πr4),V(·)代表V型函数,u1∈[-a,a],v1∈[-b,b],r1、r2、r3、r4均为(0,1)之间的随机数,Xb(t)、Xr(t)分别是第t次迭代时的最优个***置和随机选取的一个个体的位置。
S35、对当前最优个***置进行镜像处理,更新最优个***置。
为了平衡局部搜索与全局搜索,本发明对当前最优个***置进行镜像处理,并比较镜像处理前后当前最优个***置的适应度,以更新最优个***置。
镜像处理的公式为:
其中,U、L分别为搜索空间的上限和下限,Xb(t)为镜像处理前的最优个***置,Xb'(t)为对Xb(t)镜像处理得到的镜像位置;
更新最优个***置的公式为:
为更新后的最优个***置。
S36、在开发阶段,根据塘鹅个体的适应度值评估塘鹅个体的捕捉能力,根据塘鹅个体的捕捉能力判断进行猎物捕捉还是随机游走,进行塘鹅个***置更新。
本发明根据塘鹅个体的适应度值评价捕捉能力C=f(Xi),若则向当前最优个体前进捕捉猎物,否则,通过莱维飞行策略进行随机游走,位置更新公式为:
w为动态自适应权重,c1和c2分别为预设的权重最大值和最小值,权重w随着迭代次数的变化而改变,呈现出一种前期较小值而后期较大值状态,平衡了算法要求前期全局大范围搜索与后期小范围开发的需求。
S37、计算各个塘鹅个体的适应度值,保存当前最优个***置Xb(t)。
S38、判断是否满足迭代终止条件,即是否满足f(Xb(t)·)<ε,若是,输出最优个体的位置作为深度学习网络的超参数;若否,返回步骤S33,继续进行搜索阶段和开发阶段的位置更新,直到满足迭代终止条件。
S4、基于训练后的风险评估模型进行用户信用风险评估。
训练后的风险评估模型具有最优的预测效果,获取待测用户的基础信息和历史信用行为数据,采用步骤S1相同的方式进行数据处理,输入训练后的风险评估模型,得到用户信用风险评估结果。
与上述方法实施例相对应,本发明还提出一种基于数据分析的用户信用风险评估***,所述***包括:
数据集构建模块:用于获取不同用户的基础信息和历史信用行为数据,并进行预处理和指标筛选,分别提取不同用户的非时序属性数据和时序属性数据形成样本,构建数据集;
模型搭建模块:用于搭建基于多分支深度学习网络的风险评估模型,所述多分支深度学习网络的各个分支分别用于提取样本的非时序属性数据的特征、时序属性数据的特征;
模型训练模块:用于通过所述数据集训练所述风险评估模型,并采用改进的塘鹅优化算法优化所述风险评估模型的超参数;
风险评估模块:用于基于训练后的风险评估模型进行用户信用风险评估。
以上***实施例和方法实施例是一一对应的,***实施例简述之处请参阅方法实施例即可。
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明前述的方法。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括:U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下,可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于数据分析的用户信用风险评估方法,其特征在于,所述方法包括:
获取不同用户的基础信息和历史信用行为数据,并进行预处理和指标筛选,分别提取不同用户的非时序属性数据和时序属性数据形成样本,构建数据集;
搭建基于多分支深度学习网络的风险评估模型,所述多分支深度学习网络的各个分支分别用于提取样本的非时序属性数据的特征、时序属性数据的特征;
通过所述数据集训练所述风险评估模型,并采用改进的塘鹅优化算法优化所述多分支深度学习网络的超参数;
基于训练后的风险评估模型进行用户信用风险评估;
所述基础信息包括姓名、年龄、性别、婚姻状况、教育背景以及职业类型、工作单位、工作年限;
所述历史信用行为数据包括用户在过去一段时间内的财务状况和信贷记录;
所述财务状况包括用户的收入、支出、储蓄和负债情况;
所述信贷记录包括***使用记录、贷款记录、逾期记录、欺诈记录和公共记录;
所述采用改进的塘鹅优化算法优化所述多分支深度学习网络的超参数具体包括:
采用混沌映射初始化塘鹅种群的位置,设置最大迭代次数T;
以深度学习网络预测的均方误差最小为适应度函数,计算各个塘鹅个体的适应度值,保存当前最优个***置;
以一个随机概率p选择进入搜索阶段还是开发阶段;
在搜索阶段,引入折射因子评估猎物在水中的深浅,根据猎物在水中的深浅采用U型潜水方式和V型潜水方式进行猎物搜索;对当前最优个***置进行镜像处理,更新最优个***置;
在开发阶段,根据塘鹅个体的适应度值评估塘鹅个体的捕捉能力,根据塘鹅个体的捕捉能力判断进行猎物捕捉还是随机游走,进行塘鹅个***置更新;
计算各个塘鹅个体的适应度值;
判断是否满足迭代终止条件,若是,输出最优个体的位置作为深度学习网络的超参数;若否,继续进行搜索阶段和开发阶段的位置更新,直到满足迭代终止条件。
2.根据权利要求1所述的基于数据分析的用户信用风险评估方法,其特征在于,所述进行预处理和特征筛选,分别提取不同用户的非时序属性数据和时序属性数据形成样本,构建数据集具体包括:
对不同用户的基础信息和历史信用行为数据进行数据清洗、缺失值处理和正负样本划分;
通过相关性分析和主成分分析法对基础信息和历史信用行为数据进行特征筛选;
对筛选出的基础信息进行量化处理,形成样本的非时序属性数据;
根据历史信用行为数据的时间戳对筛选出的历史信用行为数据进行数据对齐和合并,形成样本的时序属性数据;
对样本的非时序属性数据和时序属性数据进行归一化和标准化处理,加入数据集。
3.根据权利要求2所述的基于数据分析的用户信用风险评估方法,其特征在于,所述基于多分支深度学习网络的风险评估模型包括输入层、第一分支网络、第二分支网络、特征融合层、全连接层和输出层;
所述输入层用于分别读取样本的非时序属性数据和时序属性数据,并进行格式转换;
所述第一分支网络分别与输入层和特征融合层连接,第一分支网络用于对样本的非时序属性数据进行特征提取;所述第一分支网络采用卷积神经网络;
所述第二分支网络分别与输入层和特征融合层连接,第二分支网络用于对样本的时序属性数据进行特征提取;所述第二分支网络采用Reformer神经网络;
所述特征融合层用于融合第一分支网络和第二分支网络所提取的特征;
所述特征融合层、全连接层和输出层依次连接。
4.根据权利要求1所述的基于数据分析的用户信用风险评估方法,其特征在于,所述在搜索阶段,引入折射因子评估猎物在水中的深浅,根据猎物在水中的深浅采用U型潜水方式和V型潜水方式进行猎物搜索具体包括:
计算各个塘鹅个体的适应度值的平均值f';
计算折射因子n:
其中,ε为预设的适应度阈值,f(·)为适应度函数;Xi(t)、Xb(t)分别是第t次迭代时个体i的位置、最优个体的位置;
基于折射因子估算猎物在水中的深浅h:h=n*f(Xb(t));
若h≥f',则采用U型潜水方式进行猎物搜索,否则,采用V型潜水方式进行猎物搜索。
5.根据权利要求4所述的基于数据分析的用户信用风险评估方法,其特征在于,所述对当前最优个***置进行镜像处理,更新最优个***置的公式为:
其中,U、L分别为搜索空间的上限和下限,Xb(t)为镜像处理前的最优个***置,Xb'(t)为对Xb(t)镜像处理得到的镜像位置;
为更新后的最优个***置。
6.根据权利要求5所述的基于数据分析的用户信用风险评估方法,其特征在于,所述在开发阶段,评估塘鹅个体的捕捉能力,根据塘鹅个体的捕捉能力判断进行猎物捕捉还是随机游走,进行塘鹅个***置更新具体包括:
根据塘鹅个体的适应度值评价捕捉能力C=f(Xi),若则向当前最优个体前进捕捉猎物,否则,通过莱维飞行策略进行随机游走,位置更新公式为:
其中,Xi(t)、Xi(t+1)分别是第t次、第t+1次迭代时个体i的位置,w为自适应权重,c1和c2分别为预设的权重最大值和最小值。
7.使用权利要求1~6任一项所述方法的一种基于数据分析的用户信用风险评估***,其特征在于,所述***包括:
数据集构建模块:用于获取不同用户的基础信息和历史信用行为数据,并进行预处理和指标筛选,分别提取不同用户的非时序属性数据和时序属性数据形成样本,构建数据集;
模型搭建模块:用于搭建基于多分支深度学习网络的风险评估模型,所述多分支深度学习网络的各个分支分别用于提取样本的非时序属性数据的特征、时序属性数据的特征;
模型训练模块:用于通过所述数据集训练所述风险评估模型,并采用改进的塘鹅优化算法优化所述风险评估模型的超参数;
风险评估模块:用于基于训练后的风险评估模型进行用户信用风险评估。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现如权利要求1~6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311502563.6A CN117557361B (zh) | 2023-11-10 | 2023-11-10 | 基于数据分析的用户信用风险评估方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311502563.6A CN117557361B (zh) | 2023-11-10 | 2023-11-10 | 基于数据分析的用户信用风险评估方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117557361A CN117557361A (zh) | 2024-02-13 |
CN117557361B true CN117557361B (zh) | 2024-04-26 |
Family
ID=89821336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311502563.6A Active CN117557361B (zh) | 2023-11-10 | 2023-11-10 | 基于数据分析的用户信用风险评估方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557361B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1034081A (zh) * | 1987-01-03 | 1989-07-19 | 陈树芳 | 分类文字及其学习的教育工具 |
GB201213491D0 (en) * | 2012-07-30 | 2012-09-12 | Gaiasoft Ip Ltd | Content delivery system |
WO2014108762A2 (en) * | 2013-01-14 | 2014-07-17 | Yogesh Chunilal Rathod | Dynamic products & services card & account and/or global payments & mobile network(s) mediated & managed dynamic e-commerce, advertising & marketing platform(s) and service(s) |
CN105654361A (zh) * | 2015-12-30 | 2016-06-08 | 广东科海信息科技股份有限公司 | 一种基于社区o2o的信用评价方法和*** |
CN112581264A (zh) * | 2020-12-23 | 2021-03-30 | 百维金科(上海)信息科技有限公司 | 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法 |
CN113468817A (zh) * | 2021-07-13 | 2021-10-01 | 淮阴工学院 | 一种基于igoa优化elm的超短期风电功率预测方法 |
CN113487403A (zh) * | 2021-06-29 | 2021-10-08 | 百维金科(上海)信息科技有限公司 | 一种信用风险评估***、方法、设备及介质 |
CN114330815A (zh) * | 2021-11-10 | 2022-04-12 | 淮阴工学院 | 一种基于改进goa优化lstm的超短期风电功率预测方法与*** |
CN115131131A (zh) * | 2022-07-06 | 2022-09-30 | 浙江财经大学 | 面向不平衡数据集多阶段集成模型的信用风险评估方法 |
-
2023
- 2023-11-10 CN CN202311502563.6A patent/CN117557361B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1034081A (zh) * | 1987-01-03 | 1989-07-19 | 陈树芳 | 分类文字及其学习的教育工具 |
GB201213491D0 (en) * | 2012-07-30 | 2012-09-12 | Gaiasoft Ip Ltd | Content delivery system |
WO2014108762A2 (en) * | 2013-01-14 | 2014-07-17 | Yogesh Chunilal Rathod | Dynamic products & services card & account and/or global payments & mobile network(s) mediated & managed dynamic e-commerce, advertising & marketing platform(s) and service(s) |
CN105654361A (zh) * | 2015-12-30 | 2016-06-08 | 广东科海信息科技股份有限公司 | 一种基于社区o2o的信用评价方法和*** |
CN112581264A (zh) * | 2020-12-23 | 2021-03-30 | 百维金科(上海)信息科技有限公司 | 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法 |
CN113487403A (zh) * | 2021-06-29 | 2021-10-08 | 百维金科(上海)信息科技有限公司 | 一种信用风险评估***、方法、设备及介质 |
CN113468817A (zh) * | 2021-07-13 | 2021-10-01 | 淮阴工学院 | 一种基于igoa优化elm的超短期风电功率预测方法 |
CN114330815A (zh) * | 2021-11-10 | 2022-04-12 | 淮阴工学院 | 一种基于改进goa优化lstm的超短期风电功率预测方法与*** |
CN115131131A (zh) * | 2022-07-06 | 2022-09-30 | 浙江财经大学 | 面向不平衡数据集多阶段集成模型的信用风险评估方法 |
Non-Patent Citations (2)
Title |
---|
Gannet optimization algorithm : A new metaheuristic algorithm for solving engineering optimization problems;Jeng-Shyang Pan 等;《Mathematics and Computers in Simulation》;20221231;第202卷;第343-373页 * |
QS银行小微企业信贷风险管理研究;郭春霞;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;20190515(第5期);第J152-1445页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117557361A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | A hybrid regression technique for house prices prediction | |
CN110659744B (zh) | 训练事件预测模型、评估操作事件的方法及装置 | |
CN109389494B (zh) | 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 | |
CN111369299B (zh) | 识别的方法、装置、设备及计算机可读存储介质 | |
CN113011895B (zh) | 关联账户样本筛选方法、装置和设备及计算机存储介质 | |
CN112819604A (zh) | 基于融合神经网络特征挖掘的个人信用评估方法与*** | |
CN110276679A (zh) | 一种面向深度学习的网络个人信贷欺诈行为检测方法 | |
CN105786711A (zh) | 一种数据分析的方法及装置 | |
CN112733997A (zh) | 基于woa-lstm-mc的水文时间序列预测优化方法 | |
KR102330423B1 (ko) | 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템 | |
CN110634060A (zh) | 一种用户信用风险的评估方法、***、装置及存储介质 | |
CN113240506A (zh) | 一种基于无监督领域自适应的金融风控冷启动建模方法 | |
CN111090833A (zh) | 一种数据处理方法、***及相关设备 | |
CN113657990A (zh) | 一种蚁狮算法优化narx神经网络风险预测***及方法 | |
CN114721898A (zh) | 基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质 | |
CN117557361B (zh) | 基于数据分析的用户信用风险评估方法及*** | |
CN116821759A (zh) | 类别标签的识别预测方法、装置和处理器及电子设备 | |
CN110516853B (zh) | 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法 | |
CN111833171B (zh) | 异常操作检测和模型训练方法、装置以及可读存储介质 | |
CN118037440A (zh) | 一种综合信贷***的授信数据处理方法及*** | |
CN117522562A (zh) | 一种基于核密度估计的信贷规模预测模型 | |
CN117877232A (zh) | 一种基于gis的地质灾害预警方法及*** | |
CN117788139A (zh) | 信息输出模型的训练方法、装置、计算机设备、存储介质 | |
CN116910618A (zh) | 基于超图的节点表征、节点预测、模型训练方法及装置 | |
CN115860892A (zh) | 一种网络贷款风险预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |