CN111899091A - 基于鲁棒算法的逾期风险识别方法 - Google Patents

基于鲁棒算法的逾期风险识别方法 Download PDF

Info

Publication number
CN111899091A
CN111899091A CN202010783518.2A CN202010783518A CN111899091A CN 111899091 A CN111899091 A CN 111899091A CN 202010783518 A CN202010783518 A CN 202010783518A CN 111899091 A CN111899091 A CN 111899091A
Authority
CN
China
Prior art keywords
data
identification method
basic information
robust algorithm
risk identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010783518.2A
Other languages
English (en)
Other versions
CN111899091B (zh
Inventor
徐清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unidt Technology Shanghai Co ltd
Original Assignee
Unidt Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unidt Technology Shanghai Co ltd filed Critical Unidt Technology Shanghai Co ltd
Priority to CN202010783518.2A priority Critical patent/CN111899091B/zh
Publication of CN111899091A publication Critical patent/CN111899091A/zh
Application granted granted Critical
Publication of CN111899091B publication Critical patent/CN111899091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于鲁棒算法的逾期风险识别方法,其中,包括:获取用户基本信息、多维度行为数据生成基本信息行为数据;利用鲁棒算法的损失函数对基本信息行为数据进行建模,生成模型数据。本发明不仅能解决现有技术存在的破坏样本分布、导致独立同分布条件不满足的问题,并且可以提升识别的准确率与鲁棒性。与现有技术相比,本发明具有以下优点和积极的技术效果:1、利用了极小极大的博弈理论,有效提升算法的抗干扰性和鲁棒性;2、模型相比于传统的基于下采样或上采样的方法有更高的精度;3、对于原始样本分布有很好的刻画,可以有效处理样本不均衡或者样本非独立同分布情形。

Description

基于鲁棒算法的逾期风险识别方法
技术领域
本发明涉及一种消费贷逾期风险识别方法,尤其涉及一种基于鲁棒算法的逾期风险识别方法。
背景技术
消费贷款亦称“消费者贷款”。对消费者个人贷放的、用于购买耐用消费品或支付各种费用的贷款。
风控是信贷领域举足轻重的生命线。2019年以来,各信贷机构不良率提升迹象明显,风控也得到了前所未有的重视。
消费信贷规模的扩张,又与智能风控的发展息息相关。智能风控是指应用用户的多维度行为数据对其是否会按时还贷做出预测。
通常消费贷客户的逾期比例低于5%,这是一个正负样本极度不均衡的场景。在这种情况下直接利用机器学习算法通过用户的多维度行为数据来预测逾期风险会导致机器学习算法过于关注不存在逾期风险的用户,最后导致***会倾向于将用户识别成无逾期风险,这样就使得***的召回率(recall)比较低,在实际应用中效果不理想。
为了解决这一问题,现有的做法会采用过采样(over sampling)或欠采样(downsampling)进行处理。这些技术可以在一定程度上可以减弱分布不均衡带来的影响。但是会不可避免地带来独立同分布(independent and identically distributed)条件不再满足,从而经典的训练算法将不再适用。
因此,本发明致力于提供一种利用基于非线性期望的鲁棒学习算法的方法,对消费贷逾期风险进行识别,可以有效处理样本的不均衡性,同时保证不破坏样本分布。
发明内容
本发明的上述目的是通过以下技术方案实现的:
一种基于鲁棒算法的逾期风险识别方法,其中,包括:获取用户基本信息、多维度行为数据生成基本信息行为数据;利用鲁棒算法的损失函数对基本信息行为数据进行建模,生成模型数据。
如上所述的基于鲁棒算法的逾期风险识别方法,其中,基本信息行为数据包括:静态数据特征、动态数据特征。
如上所述的基于鲁棒算法的逾期风险识别方法,其中,静态特数据征包括:性别、学历、地区。
如上所述的基于鲁棒算法的逾期风险识别方法,其中,动态数据特征包括:借款行为、借款时间。
如上所述的基于鲁棒算法的逾期风险识别方法,其中,导入用户基本信息,在python中通过深度学习框架Keras搭建自编码神经网络,提取静态数据特征。
如上所述的基于鲁棒算法的逾期风险识别方法,其中,导入多维度行为信息,在python中利用快速傅里叶变换,提取动态数据特征。
如上所述的基于鲁棒算法的逾期风险识别方法,其中,利用鲁棒算法的损失函数对基本信息行为数据进行建模包括:
在python中利用Tensorflow搭建前馈神经网络,搭建时将基本信息行为数据分成N组,保证组内独立同分布,再将各组的损失函数取最大得到最终的损失函数为:
Figure BDA0002621060600000021
对以上函数利用迭代算法求得最小值点作为整个神经网络的参数,将模型的参数进行保存。
如上所述的基于鲁棒算法的逾期风险识别方法,其中,将模型数据部署至Tensorflow平台。
如上所述的基于鲁棒算法的逾期风险识别方法,其中,最终模型参数包含θ,对于包含三层的神经网络,
y1=σ(W1x+b1)
y=σ(W2y1+b2)
Figure BDA0002621060600000022
其中,x和y分别是输入和输出,θ=(W1,b1,W2,b2)是模型参数。
综上所述,由于采用了上述技术方案,本发明不仅能解决现有技术存在的破坏样本分布、导致独立同分布条件不满足的问题,并且可以提升识别的准确率与鲁棒性。
本发明主要通过鲁棒算法结合深度学习方法有效利用用户的多维度数据,实现在不破坏原有样本分布的情形下提升模型精度。与现有技术相比,本发明具有以下优点和积极的技术效果:
1、利用了极小极大的博弈理论,有效提升算法的抗干扰性和鲁棒性;
2、模型相比于传统的基于下采样或上采样的方法有更高的精度;
3、对于原始样本分布有很好的刻画,可以有效处理样本不均衡或者样本非独立同分布情形。
具体实施方式
下面对本发明做进一步描述:
本发明公开了一种基于鲁棒算法的逾期风险识别方法,其中,包括:获取用户基本信息、多维度行为数据生成基本信息行为数据;利用鲁棒算法的损失函数对基本信息行为数据进行建模,生成模型数据。导入多个用户基本信息、多纬度行为数据,经过运算生成模型数据,通过生成的模型数据可以对新用户导入数据的逾期风险进行评估,本发明可以有效处理样本的不均衡性,同时保证不破坏样本分布。
在获取用以建模的用户基本信息、多维度行为数据之前可以先创建:用户基本信息表、用户多维度行为数据表。用户基本信息表、用户多维度行为数据表可以在Hive数据库中建立。
具体的,可以采用以下的步骤进行建立:
步骤一、在Hive数据库中创建用户基本信息表info,将用户的人口统计学信息(包括性别、年龄、地区等)存入表中,如果没有就存成缺失值。
步骤二、在Hive数据库中创建用户的多维度行为数据表behavior,将用户的多维度行为数据信息(包括借款时间、借款次数、借款金额、借款平台等)存入表中,如果没有就存成缺失值。
更进一步的,可以在Hive数据库中导出info和behavior,为后续生成基本信息行为数据提供数据源。
进一步的,基本信息行为数据包括:静态数据特征、动态数据特征。
进一步的,静态特数据征包括:性别、学历、地区。(静态数据特征是指性别、学历、地区等不随时间变化的特征,静态特征提取以后可以有助于降低维度、提高数据的利用率)。
进一步的,动态数据特征包括:借款行为、借款时间。(动态数据特征是指借款行为、借款时间等随时间变化的特征,提取以后有助于理解时序数据,从而更好地利用数据)。
进一步的,导入用户基本信息,在python中通过深度学习框架Keras搭建自编码神经网络(AutoEncoder),提取静态数据特征。
具体的,本发明的info和behavior两张数据表中各自都有静态数据特征和动态数据特征。利用这种方法提取的静态数据特征和动态数据特征是用户行为的高阶信息,有利于降低数据维度并且更好的利用数据。
进一步的,导入多维度行为信息,在python中利用快速傅里叶变换,提取动态数据特征。
进一步的,利用鲁棒算法的损失函数对基本信息行为数据进行建模包括:
在python中利用Tensorflow搭建前馈神经网络,搭建时将基本信息行为数据(数据集)分成N组,保证组内独立同分布(组间不要求独立同分布),再将各组的损失函数取最大得到最终的损失函数为:
Figure BDA0002621060600000041
其中,N为分组的组数,max表示取最大值,lj(θ)表示第j组的损失函数,例如通常的MSE损失函数,其中θ是模型参数。
最终模型参数包含θ。例如对于包含三层的神经网络,
y1=σ(W1x+b1)
y=σ(W2y1+b2)
Figure BDA0002621060600000042
其中,x和y分别是输入和输出,θ=(W1,b1,W2,b2)是模型参数。
对以上函数利用迭代算法求得最小值点作为整个神经网络的参数,将模型的参数进行保存。保存后就完成了模型的建立,模型参数保存后可以将后续的用户数据导入直接进行预测。
应用举例:假设有一批数据(xi,yi),i=1,2,…,m,其中xi表示用户的行为特征,yi为是否逾期(1表示逾期,0表示不逾期)。我们将数据分成N组,每组有k个数据点,利用三层神经网络进行训练:
y=σ(W2σ(W1x+b1)+b2)
利用我们的鲁棒损失函数进行训练:
Figure BDA0002621060600000051
利用迭代算法可以得到参数θ=(W1,b1,W2,b2)的估计值,然后对于一个新的用户特征x,就可以根据
y=σ(W2σ(W1x+b1)+b2)
计算出其逾期风险的值。
进一步的,将模型数据部署至Tensorflow平台。将建立好的模型部署在Tensorflow平台上,导入新用户的数据,便可实现对新用户的逾期风险的预测。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员可以无需创造性劳动或者通过软件编程就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (9)

1.一种基于鲁棒算法的逾期风险识别方法,其特征在于,包括:获取用户基本信息、多维度行为数据生成基本信息行为数据;利用鲁棒算法的损失函数对基本信息行为数据进行建模,生成模型数据。
2.根据权利要求1所述的基于鲁棒算法的逾期风险识别方法,其特征在于,基本信息行为数据包括:静态数据特征、动态数据特征。
3.根据权利要求2所述的基于鲁棒算法的逾期风险识别方法,其特征在于,静态特数据征包括:性别、学历、地区。
4.根据权利要求2所述的基于鲁棒算法的逾期风险识别方法,其特征在于,动态数据特征包括:借款行为、借款时间。
5.根据权利要求3所述的基于鲁棒算法的逾期风险识别方法,其特征在于,导入用户基本信息,在python中通过深度学习框架Keras搭建自编码神经网络,提取静态数据特征。
6.根据权利要求4所述的基于鲁棒算法的逾期风险识别方法,其特征在于,导入多维度行为信息,在python中利用快速傅里叶变换,提取动态数据特征。
7.根据权利要求1所述的基于鲁棒算法的逾期风险识别方法,其特征在于,利用鲁棒算法的损失函数对基本信息行为数据进行建模包括:
在python中利用Tensorflow搭建前馈神经网络,搭建时将基本信息行为数据分成N组,保证组内独立同分布,再将各组的损失函数取最大得到最终的损失函数为:
Figure FDA0002621060590000011
对以上函数利用迭代算法求得最小值点作为整个神经网络的参数,将模型的参数进行保存。
8.根据权利要求1所述的基于鲁棒算法的逾期风险识别方法,其特征在于,将模型数据部署至Tensorflow平台。
9.根据权利要求7所述的基于鲁棒算法的逾期风险识别方法,其特征在于,最终模型参数包含θ,对于包含三层的神经网络,
y1=σ(W1x+b1)
y=σ(W2y1+b2)
Figure FDA0002621060590000021
其中,x和y分别是输入和输出,θ=(W1,b1,W2,b2)是模型参数。
CN202010783518.2A 2020-08-06 2020-08-06 基于鲁棒算法的逾期风险识别方法 Active CN111899091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010783518.2A CN111899091B (zh) 2020-08-06 2020-08-06 基于鲁棒算法的逾期风险识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010783518.2A CN111899091B (zh) 2020-08-06 2020-08-06 基于鲁棒算法的逾期风险识别方法

Publications (2)

Publication Number Publication Date
CN111899091A true CN111899091A (zh) 2020-11-06
CN111899091B CN111899091B (zh) 2023-03-24

Family

ID=73246951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010783518.2A Active CN111899091B (zh) 2020-08-06 2020-08-06 基于鲁棒算法的逾期风险识别方法

Country Status (1)

Country Link
CN (1) CN111899091B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009525A (zh) * 2017-12-25 2018-05-08 北京航空航天大学 一种基于卷积神经网络的无人机对地特定目标识别方法
CN109165670A (zh) * 2018-07-12 2019-01-08 江南大学 一种应用于红外火焰识别的ts-rbf模糊神经网络鲁棒融合算法
CN110334613A (zh) * 2019-06-19 2019-10-15 杭州电子科技大学 一种鲁棒的漏油海域识别方法
CN110634476A (zh) * 2019-10-09 2019-12-31 深圳大学 一种快速搭建鲁棒性声学模型的方法及***
CN111192133A (zh) * 2019-12-12 2020-05-22 北京淇瑀信息科技有限公司 用户贷后风险模型生成方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009525A (zh) * 2017-12-25 2018-05-08 北京航空航天大学 一种基于卷积神经网络的无人机对地特定目标识别方法
CN109165670A (zh) * 2018-07-12 2019-01-08 江南大学 一种应用于红外火焰识别的ts-rbf模糊神经网络鲁棒融合算法
CN110334613A (zh) * 2019-06-19 2019-10-15 杭州电子科技大学 一种鲁棒的漏油海域识别方法
CN110634476A (zh) * 2019-10-09 2019-12-31 深圳大学 一种快速搭建鲁棒性声学模型的方法及***
CN111192133A (zh) * 2019-12-12 2020-05-22 北京淇瑀信息科技有限公司 用户贷后风险模型生成方法、装置及电子设备

Also Published As

Publication number Publication date
CN111899091B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN108154430A (zh) 一种基于机器学习和大数据技术的信用评分构建方法
CN107688667A (zh) 智能机器人客服方法、电子装置及计算机可读存储介质
CN107122327A (zh) 一种利用训练数据训练模型的方法和训练***
CN104616198A (zh) 一种基于文本分析的p2p网络借贷风险预测***
CN115423603B (zh) 一种基于机器学习的风控模型建立方法、***及存储介质
CN110796539A (zh) 一种征信评估方法及装置
CN115131131A (zh) 面向不平衡数据集多阶段集成模型的信用风险评估方法
CN112732786A (zh) 金融数据处理方法、装置、设备及存储介质
CN116071150A (zh) 数据处理方法、银行产品推广、风控***、服务器及介质
CN113743650B (zh) 电力负荷预测方法、装置、设备与存储介质
CN110400129A (zh) 一种事项审批的方法和装置
CN111967973B (zh) 银行客户数据处理方法及装置
CN117314643A (zh) 基于金融风洞数据的数据分析方法、装置及存储介质
CN111899091B (zh) 基于鲁棒算法的逾期风险识别方法
CN109754135A (zh) 信用行为数据处理方法、装置、存储介质和计算机设备
CN111831805A (zh) 一种模型创建方法、装置、电子设备和可读存储装置
CN113177733B (zh) 基于卷积神经网络的中小微企业数据建模方法及***
CN115358473A (zh) 基于深度学习的电力负荷预测方法及预测***
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN112184417A (zh) 一种业务的审批方法、装置、介质及电子设备
CN111340632A (zh) 资源管控方法以及装置
Zhu Research on Prediction Model of Financial User Churn Based on Data Mining
Sivapragasam et al. Identifying Optimal Training Data Set-A New Approach
CN107958327B (zh) 一种基于因子分析和som网络的项目进度风险预测方法
CN116701658A (zh) 业务意向的确定方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200072 9th floor, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai

Applicant after: Huayuan computing technology (Shanghai) Co.,Ltd.

Address before: 200072 9th floor, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai

Applicant before: UNIDT TECHNOLOGY (SHANGHAI) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant