CN111695989A - 一种风控信贷模型的建模方法和平台 - Google Patents

一种风控信贷模型的建模方法和平台 Download PDF

Info

Publication number
CN111695989A
CN111695989A CN202010559365.3A CN202010559365A CN111695989A CN 111695989 A CN111695989 A CN 111695989A CN 202010559365 A CN202010559365 A CN 202010559365A CN 111695989 A CN111695989 A CN 111695989A
Authority
CN
China
Prior art keywords
model
user
credit information
training
wind control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010559365.3A
Other languages
English (en)
Inventor
杨凯越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Share Technology Services Shenzhen Ltd
Original Assignee
New Share Technology Services Shenzhen Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Share Technology Services Shenzhen Ltd filed Critical New Share Technology Services Shenzhen Ltd
Priority to CN202010559365.3A priority Critical patent/CN111695989A/zh
Publication of CN111695989A publication Critical patent/CN111695989A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design
    • G06F8/24Object-oriented
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • G06F8/315Object-oriented languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/76Adapting program code to run in a different environment; Porting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种风控信贷模型的建模方法和平台,其中,风控信贷模型的建模方法,包括:获取用户基本信用信息和对应用户的风控评分;基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型;对所述待选模型进行筛选,得到预测准确率最高的模型。本实施例的风控信贷模型的建模方法通过现有用户的用户基本信用信息和对应用户的风控评分来对待测试模型进行训练得到待选模型,并对所述待选模型进行筛选,得到预测准确率最高的模型,即可获得根据开发者需要的模型,过程简单,不依赖于工程师的经验,结果准确。

Description

一种风控信贷模型的建模方法和平台
技术领域
本发明涉及风控领域,具体涉及一种风控信贷模型的建模方法和平台。
背景技术
传统的风控模型从搭建到部署、测试和上线流程繁琐,调试周期漫长,模型搭建依赖工程师的先验经验和实现能力,加之数据清理和特征工程非常多,没有统一的建模思路让很多非专业模型工程师对搭建模型望而生畏。同时部署一份已完成的模型也会根据不同的环境产生困难,这些问题导致了风控模型的搭建效率低下,造成了搭建模型到部署的周期过长,时间上数据有效性的变动也会带来上线后效果的折扣,造成人力资源和数据资源的浪费。
发明内容
(一)发明目的
本发明的目的是提供一种可以在建模速度快,效率高的风控信贷模型建模方法。
(二)技术方案
为解决上述问题,本发明的第一方面提供了一种风控信贷模型的建模方法,包括:获取用户基本信用信息和对应用户的风控评分;基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型;对所述待选模型进行筛选,得到预测准确率最高的模型。
可选地,上述风控信贷模型的建模方法还包括:基于python语言继承现有模型;对所述继承的模型进行重写,得到所述待测试模型。
可选地,所述用户基本信用信息包括:姓名、性别、年龄、学历、收入和逾期记录中的一种或多种。
可选地,所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型,包括:基于所述用户基本信用信息和所述对应用户的风控评分对所述待测试模型进行预处理,得到标准化的模型;对所述标准化的模型进行训练得到所述待选模型。
可选地,所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理,得到标准化的模型;
对所述标准化的模型进行训练得到所述待选模型,包括:
Figure BDA0002545521220000021
Figure BDA0002545521220000022
Figure BDA0002545521220000023
Figure BDA0002545521220000024
其中,(1-1)式表达的是一个给定(x,y)的数据集,所述用户基本信用信息为x,所述对应用户的风控评分为y,其中符号m代表的是数据集大小,下标i代表该数据集的第i个数据;
(1-2)式表达的是模型管道是一个执行输入为x,可训练参数为Θ,超参数为H的函数f,其输出结果为
Figure BDA0002545521220000025
代表对y的预测;
(1-3)式表达的是一个模型管道包含了k个模块,其中第j个模块可训练的参数用θj表达,不可训练的超参数用hj表示;
(1-4)式表达了训练模型的目的,J(D,Θ,H)表示的是数据集为D、可变系数为Θ以及超参数为H的代价函数J,训练模型的目的就是找到Θ*,使得该条件下的代价函数J最小化。
可选地,得到Θ*的步骤为:
Figure BDA0002545521220000031
公式(1-5)表示将
Figure BDA0002545521220000032
的计算过程分为前个模块处理完成后交付下个模块处理的循环过程;
Figure BDA0002545521220000033
(1-6)为(1-5)的分步形式,如此一来
Figure BDA0002545521220000034
则主要受到最后一个模块k的f(ak-1,θk,hk)影响,则
Figure BDA0002545521220000035
式(1-7)表示训练目的公式(1-4)的简化形式,第k个模块为所述待选模型,第1个模块至第k-1个模块为预处理过程,所述第k-1个模块为所述标准化的模型。
可选地,基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理,得到标准化的模型,包括:基于所述待测试模型的序变量进行连续变量标准化处理。
可选地,所述基于所述待测试模型的序变量进行连续变量标准化处理,包括:
Figure BDA0002545521220000036
任意第i个样本的xi为一组向量,由d个特征值组成,这d个特征又分为nd个序变量xNi,和c个类别变量xCi
可选地,基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理,得到标准化的模型,包括:基于所述待测试模型的序变量进行特征离散化处理。
可选地,所述基于所述待测试模型的序变量进行特征离散化处理,包括:
Figure BDA0002545521220000041
上式(4-2)表达了对特征离散化的处理,令xci,y为类别变量xCi中的第j个变量,则xci,j的任意取值是属于穷集合Aj中,集合Aj的基数为|A|,令集合A的第k个为ak,那么处理后的变量
Figure BDA0002545521220000042
为一个向量,其向量元素为bk,若原变量数值xci,j=ak则为1,否则则为0。
可选地,所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型,包括:基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组,得到所述待选模型。
可选地,所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组,得到所述待选模型,包括:
Figure BDA0002545521220000043
Figure BDA0002545521220000044
公式(2-1)为对数据集切分,如(1-1)所示,D为大小为m的数据集,那么将D分为T份,第t份为Dt,其数据内容为S(D,At,n),表示利用服从At分布的抽样方法,从D中抽取n个数据组成Dt;那么数据集D中每个数据(xt,i,yt,i)表述为第t个子集Dt中的第i个数据;
公式(2-2)表示的是重组过程,h0表示的是一组预设的共用超参数,任何子模型的超参数都共用相等,Θ为一组可训练的参数,第t个子模型的可训练参数为θt,对一个x进行预测为(2-2)的3式进行的内容,其中wt表达预先对每个模型权重大小的分配;
则模型训练过程公式如下:
Figure BDA0002545521220000051
可选地,所述对所述待选模型进行筛选,得到预测准确率最高的模型,包括:基于ACC、ROC、PR或KS指标进行筛选。
本发明的第二方面提供了一种风控信贷模型的建模平台,其特征在于,包括:接收模块:用于获取用户基本信用信息和对应用户的风控评分;训练模块:用于基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型;筛选模块:用于对所述待选模型进行筛选,得到预测准确率最高的模型。
(三)有益效果
本发明的上述技术方案具有如下有益的技术效果:
1.本发明的风控信贷模型的建模方法通过现有用户的用户基本信用信息和对应用户的风控评分来对待待测试模型进行训练得到待选模型,并对所述待选模型进行筛选,得到预测准确率最高的模型,即可获得根据开发者需要的模型,过程简单,不依赖于工程师的经验,结果准确。
2.本平台基于Python的环境进行开发,方便接入各种其他Python建模工具包或者自定义方法进行二次开发。解决了平台闭源和算法固化问题,方便快速迭代新模型。
3.本平台通过继承并重写对象方法,实现了命令转换已完成模型成可部署形式,可以以PMML形式在java上部署,也可以转换成sklearn版本在脱离该平台的情况下部署使用。解决了环境依赖问题和多语言混编的误差,可以在多种部署环境下上线。
4.本平台可以通过搭建通用建模管道进行一键建模,同时也能拆分各个模块精细化建模,方便快速搭建和定制化搭建。同时能使用集成学习进行模型联合,并对子模型进行评估,解决了开发低效问题,可以快速的建立Baseline模型,并在其之上细化。
附图说明
图1是本发明实施例1提供的风控信贷模型的建模方法的流程图;
图2是本发明实施例4提供的风控信贷模型的建模平台的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例1
图1是本发明实施例1提供的风控信贷模型的建模方法的流程图。
如图1所示,本实施例提供的风控信贷模型的建模方法,包括:获取用户基本信用信息和对应用户的风控评分;基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型;对所述待选模型进行筛选,得到预测准确率最高的模型。本实施例的风控信贷模型的建模方法通过现有用户的用户基本信用信息和对应用户的风控评分来对待测试模型进行训练得到待选模型,并对所述待选模型进行筛选,得到预测准确率最高的模型,即可获得根据开发者需要的模型,过程简单,不依赖于工程师的经验,结果准确。
开方法的目的是得出基于目标的预测准确率最高的模型,使用这个模型可以对新用户的风控评分进行更准确的认证,以便对新用户的借贷信息进行调整,例如借贷额度、借贷周期或利息。
优选地,本实施例的建模方法,包括对建模方法周期流程做了可视化过程,对每个建模步骤都可以显示其结果,同时能一键输出建模指标和结果,方便对数据和模型解释。解决了展示需求,同时能减少重复工作。
可选地,上述风控信贷模型的建模方法还包括:基于python语言继承现有模型;对所述继承的模型进行重写,得到所述待测试模型。具体可继承sklearn、pandas_sklearn、xgboost和lightGBM等模型方法,将这些方法置于本平台的Pipeline中可以运行具体来说,可以基于Python的环境,以Scikit-Learn为基本框架进行开发,方便接入各种其他Python建模工具包或者自定义方法进行二次开发。解决了平台闭源和算法固化问题,方便快速迭代新模型。
可选地,所述用户基本信用信息包括:姓名、性别、年龄、学历、收入和逾期记录中的一种或多种。
具体地,所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型,包括:基于所述用户基本信用信息和所述对应用户的风控评分对所述待测试模型进行预处理,得到标准化的模型;对所述标准化的模型进行训练得到所述待选模型。所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理,得到标准化的模型;对所述标准化的模型进行训练得到所述待选模型,包括:
Figure BDA0002545521220000071
Figure BDA0002545521220000072
Figure BDA0002545521220000081
Figure BDA0002545521220000082
其中,(1-1)式表达的是一个给定(x,y)的数据集,所述用户基本信用信息为x,所述对应用户的风控评分为y,其中符号m代表的是数据集大小,下标i代表该数据集的第i个数据;
(1-2)式表达的是模型管道是一个执行输入为x,可训练参数为Θ,超参数为H的函数f,其输出结果为
Figure BDA0002545521220000088
代表对y的预测;
(1-3)式表达的是一个模型管道包含了k个模块,其中第j个模块可训练的参数用θj表达,不可训练的超参数用hj表示;
(1-4)式表达了训练模型的目的,J(D,Θ,H)表示的是数据集为D、可变系数为Θ以及超参数为H的代价函数J,训练模型的目的就是找到Θ*,使得该条件下的代价函数J最小化。其细化的训练内容则是表达为对数据集
Figure BDA0002545521220000083
遍历,函数l计算每一个样本的真实yi和预测
Figure BDA0002545521220000084
的差距,最终寻得参数Θ使得整体差距最小。
其中,得到Θ*的步骤为:
Figure BDA0002545521220000085
公式(1-5)表示将
Figure BDA0002545521220000086
的计算过程分为前个模块处理完成后交付下个模块处理的循环过程;
Figure BDA0002545521220000087
(1-6)为(1-5)的分步形式,如此一来
Figure BDA0002545521220000091
则主要受到最后一个模块k的f(ak-1,θk,hk)影响,则
Figure BDA0002545521220000092
式(1-7)表示训练目的公式(1-4)的简化形式,由于预测的
Figure BDA0002545521220000093
有对照目标yi,而中间过程的
Figure BDA0002545521220000094
没有对照目标;所以仅能以训练目的公式(1-7)训练第k个模块。上述模型管道过程中,第k个模块为所述待选模型,第1个模块至第k-1个模块为预处理过程,所述第k-1个模块为所述标准化的模型。
具体地,基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理,得到标准化的模型,包括:基于所述待测试模型的序变量进行连续变量标准化处理。所述基于所述待测试模型的序变量进行连续变量标准化处理,包括:
Figure BDA0002545521220000095
任意第i个样本的xi为一组向量,由d个特征值组成,这d个特征又分为nd个序变量xNi,和c个类别变量xCi
具体地,所述对所述待选模型进行筛选,得到预测准确率最高的模型,包括:基于ACC、ROC、PR或KS指标进行筛选。例如ACC评价公式:
Figure BDA0002545521220000096
Figure BDA0002545521220000097
实施例2
本实施例与实施例1的不同之处在于,本实施例的基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理,得到标准化的模型,包括:基于所述待测试模型的序变量进行特征离散化处理。所述基于所述待测试模型的序变量进行特征离散化处理,包括:
Figure BDA0002545521220000101
上式(4-2)表达了对特征离散化的处理,令xci,j为类别变量xCi中的第j个变量,则xci,j的任意取值是属于穷集合Aj中,集合Aj的基数为|A|,令集合A的第k个为ak,那么处理后的变量
Figure BDA0002545521220000102
为一个向量,其向量元素为bk,若原变量数值xci,j=ak则为1,否则则为0。
本实施例与实施例1相同之处在此不在多做赘述。
实施例3
本实施例与实施例1的不同之处在于,本实施例的所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型,包括:基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组,得到所述待选模型。所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组,得到所述待选模型,包括:
Figure BDA0002545521220000103
Figure BDA0002545521220000104
公式(2-1)为对数据集切分,如(1-1)所示,D为大小为m的数据集,那么将D分为T份,第t份为Dt,其数据内容为S(D,At,n),表示利用服从At分布的抽样方法,从D中抽取n个数据组成Dt;那么数据集D中每个数据(xt,i,yt,i)表述为第t个子集Dt中的第i个数据;
公式(2-2)表示的是重组过程,h0表示的是一组预设的共用超参数,任何子模型的超参数都共用相等,Θ为一组可训练的参数,第t个子模型的可训练参数为θt,对一个x进行预测为(2-2)的3式进行的内容,其中wt表达预先对每个模型权重大小的分配;
则模型训练过程公式如下:
Figure BDA0002545521220000111
实施例4
图2是本发明实施例4提供的风控信贷模型的建模平台的结构示意图。
如图2所示,本实施例的建模平台包括:接收模块:用于获取用户基本信用信息和对应用户的风控评分;训练模块:基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型;筛选模块:对所述待选模型进行筛选,得到预测准确率最高的模型。本实施例的风控信贷模型的建模平台通过现有用户的用户基本信用信息和对应用户的风控评分来对待待测试模型进行训练得到待选模型,并对所述待选模型进行筛选,得到预测准确率最高的模型,即可获得根据开发者需要的模型,过程简单,不依赖于工程师的经验,结果准确。
优选地,本实施例的建模平台,包括可视化模块,用于对建模周期流程做可视化处理,对每个建模步骤都可以显示其结果,同时能一键输出建模指标和结果,方便对数据和模型解释。解决了展示需求,同时能减少重复工作。
可选地,上述风控信贷模型的建模平台还包括:继承模块:基于python语言继承现有模型;具体可继承sklearn、pandas_sklearn、xgboost和lightGBM等模型方法,将这些方法置于本平台的Pipeline中可以运行。对所述继承的模型进行重写,得到所述待测试模型。具体来说,可以基于Python的环境,以Scikit-Learn为基本框架进行开发,方便接入各种其他Python建模工具包或者自定义方法进行二次开发。解决了平台闭源和算法固化问题,方便快速迭代新模型。
可选地,所述用户基本信用信息包括:姓名、性别、年龄、学历、收入和逾期记录中的一种或多种。
具体地,训练模块包括:预处理单元,用于基于所述用户基本信用信息和所述对应用户的风控评分对所述待测试模型进行预处理,得到标准化的模型;训练单元,对所述标准化的模型进行训练得到所述待选模型。预处理单元进行以下计算:
Figure BDA0002545521220000121
Figure BDA0002545521220000122
Figure BDA0002545521220000123
Figure BDA0002545521220000124
其中,(1-1)式表达的是一个给定(x,y)的数据集,所述用户基本信用信息为x,所述对应用户的风控评分为y,其中符号m代表的是数据集大小,下标i代表该数据集的第i个数据;
(1-2)式表达的是模型管道是一个执行输入为x,可训练参数为Θ,超参数为H的函数f,其输出结果为
Figure BDA0002545521220000125
代表对y的预测;
(1-3)式表达的是一个模型管道包含了k个模块,其中第j个模块可训练的参数用θj表达,不可训练的超参数用hj表示;
(1-4)式表达了训练模型的目的,J(D,Θ,H)表示的是数据集为D、可变系数为Θ以及超参数为H的代价函数J,训练模型的目的就是找到Θ*,使得该条件下的代价函数J最小化。其细化的训练内容则是表达为对数据集
Figure BDA0002545521220000131
遍历,函数l计算每一个样本的真实ji和预测
Figure BDA0002545521220000132
的差距,最终寻得参数Θ使得整体差距最小。
其中,得到Θ*的步骤为:
Figure BDA0002545521220000133
公式(1-5)表示将
Figure BDA0002545521220000134
的计算过程分为前个模块处理完成后交付下个模块处理的循环过程;
Figure BDA0002545521220000135
(1-6)为(1-5)的分步形式,如此一来
Figure BDA0002545521220000136
则主要受到最后一个模块k的f(ak-1,θk,hk)影响,则
Figure BDA0002545521220000137
式(1-7)表示训练目的公式(1-4)的简化形式,由于预测的
Figure BDA0002545521220000138
有对照目标yi,而中间过程的
Figure BDA0002545521220000139
没有对照目标;所以仅能以训练目的公式(1-7)训练第k个模块。上述模型管道过程中,第k个模块为所述待选模型,第1个模块至第k-1个模块为预处理过程,所述第k-1个模块为所述标准化的模型。
具体地,预处理单元,包括:基于所述待测试模型的序变量进行连续变量标准化处理。预处理单元的计算过程包括:
Figure BDA0002545521220000141
任意第i个样本的xi为一组向量,由d个特征值组成,这d个特征又分为nd个序变量xNi,和c个类别变量xCi
具体地,筛选模块具体基于ACC、ROC、PR或KS指标进行筛选。例如ACC评价公式:
Figure BDA0002545521220000142
Figure BDA0002545521220000143
实施例5
本实施例与实施例4的不同之处在于,本实施例预处理单元,包括:基于所述待测试模型的序变量进行特征离散化处理。预处理单元的具体计算过程包括:
Figure BDA0002545521220000144
上式(4-2)表达了对特征离散化的处理,令xci,j为类别变量xCi中的第j个变量,则xci,j的任意取值是属于穷集合Aj中,集合Aj的基数为|A|,令集合A的第k个为ak,那么处理后的变量
Figure BDA0002545521220000145
为一个向量,其向量元素为bk,若原变量数值xci,j=ak则为1,否则则为0。
本实施例与实施例4相同之处在此不在多做赘述。
实施例6
本实施例与实施例4的不同之处在于,本实施例的训练模块包括:重构单元,用于基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组,得到所述待选模型。重构单元的计算过程包括:
Figure BDA0002545521220000151
Figure BDA0002545521220000152
公式(2-1)为对数据集切分,如(1-1)所示,D为大小为m的数据集,那么将D分为T份,第t份为Dt,其数据内容为S(D,At,n),表示利用服从At分布的抽样方法,从D中抽取n个数据组成Dt;那么数据集D中每个数据(xt,i,yt,i)表述为第t个子集Dt中的第i个数据;
公式(2-2)表示的是重组过程,h0表示的是一组预设的共用超参数,任何子模型的超参数都共用相等,Θ为一组可训练的参数,第t个子模型的可训练参数为θt,对一个x进行预测为(2-2)的3式进行的内容,其中wt表达预先对每个模型权重大小的分配;
则模型训练过程公式如下:
Figure BDA0002545521220000153
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (14)

1.一种风控信贷模型的建模方法,其特征在于,包括:
获取用户基本信用信息和对应用户的风控评分;
基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型;
对所述待选模型进行筛选,得到预测准确率最高的模型。
2.根据权利要求1所述的建模方法,其特征在于,还包括:
基于python语言继承现有模型;
对所述继承的模型进行重写,得到所述待测试模型。
3.根据权利要求1所述的建模方法,其特征在于,所述用户基本信用信息包括:姓名、性别、年龄、学历、收入和逾期记录中的一种或多种。
4.根据权利要求1所述的建模方法,其特征在于,所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型,包括:
基于所述用户基本信用信息和所述对应用户的风控评分对所述待测试模型进行预处理,得到标准化的模型;
对所述标准化的模型进行训练得到所述待选模型。
5.根据权利要求4所述的建模方法,其特征在于,所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理,得到标准化的模型;
对所述标准化的模型进行训练得到所述待选模型,包括:
Figure FDA0002545521210000011
Figure FDA0002545521210000012
Figure FDA0002545521210000021
Figure FDA0002545521210000022
其中,(1-1)式表达的是一个给定(x,y)的数据集,所述用户基本信用信息为x,所述对应用户的风控评分为y,其中符号m代表的是数据集大小,下标i代表该数据集的第i个数据;
(1-2)式表达的是模型管道是一个执行输入为x,可训练参数为Θ,超参数为H的函数f,其输出结果为
Figure FDA0002545521210000023
代表对y的预测;
(1-3)式表达的是一个模型管道包含了k个模块,其中第j个模块可训练的参数用θj表达,不可训练的超参数用hj表示;
(1-4)式表达了训练模型的目的,J(D,Θ,H)表示的是数据集为D、可变系数为Θ以及超参数为H的代价函数J,训练模型的目的就是找到Θ*,使得该条件下的代价函数J最小化。
6.根据权利要求5所述的建模方法,其特征在于,得到Θ*的步骤为:
Figure FDA0002545521210000024
公式(1-5)表示将
Figure FDA0002545521210000025
的计算过程分为前个模块处理完成后交付下个模块处理的循环过程;
Figure FDA0002545521210000026
(1-6)为(1-5)的分步形式,如此一来
Figure FDA0002545521210000027
则主要受到最后一个模块k的f(ak-1,θk,hk)影响,则
Figure FDA0002545521210000031
式(1-7)表示训练目的公式(1-4)的简化形式,第k个模块为所述待选模型,第1个模块至第k-1个模块为预处理过程,所述第k-1个模块为所述标准化的模型。
7.根据权利要求4所述的建模方法,其特征在于,基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理,得到标准化的模型,包括:
基于所述待测试模型的序变量进行连续变量标准化处理。
8.根据权利要求7所述的建模方法,其特征在于,所述基于所述待测试模型的序变量进行连续变量标准化处理,包括:
Figure FDA0002545521210000032
任意第i个样本的xi为一组向量,由d个特征值组成,这d个特征又分为nd个序变量xNi,和c个类别变量xCi
9.根据权利要求4所述的建模方法,其特征在于,基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理,得到标准化的模型,包括:
基于所述待测试模型的序变量进行特征离散化处理。
10.根据权利要求9所述的建模方法,其特征在于,所述基于所述待测试模型的序变量进行特征离散化处理,包括:
Figure FDA0002545521210000041
上式(4-2)表达了对特征离散化的处理,令xci,j为类别变量xCi中的第j个变量,则xci,j的任意取值是属于穷集合Aj中,集合Aj的基数为|A|,令集合A的第k个为ak,那么处理后的变量
Figure FDA0002545521210000042
为一个向量,其向量元素为bk,若原变量数值xci,j=ak则为1,否则则为0。
11.根据权利要求1所述的建模方法,其特征在于,所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型,包括:
基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组,得到所述待选模型。
12.根据权利要求11所述的建模方法,其特征在于,所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组,得到所述待选模型,包括:
Figure FDA0002545521210000043
Figure FDA0002545521210000044
公式(2-1)为对数据集切分,如(1-1)所示,D为大小为m的数据集,那么将D分为T份,第t份为Dt,其数据内容为S(D,At,n),表示利用服从At分布的抽样方法,从D中抽取n个数据组成Dt;那么数据集D中每个数据(xt,i,yt,i)表述为第t个子集Dt中的第i个数据;
公式(2-2)表示的是重组过程,h0表示的是一组预设的共用超参数,任何子模型的超参数都共用相等,Θ为一组可训练的参数,第t个子模型的可训练参数为θt,对一个x进行预测为(2-2)的3式进行的内容,其中wt表达预先对每个模型权重大小的分配;
则模型训练过程公式如下:
Figure FDA0002545521210000051
13.根据权利要求1所述的建模方法,其特征在于,所述对所述待选模型进行筛选,得到预测准确率最高的模型,包括:
基于ACC、ROC、PR或KS指标进行筛选。
14.一种风控信贷模型的建模平台,其特征在于,包括:
接收模块:用于获取用户基本信用信息和对应用户的风控评分;
训练模块:用于基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练,得到待选模型;
筛选模块:用于对所述待选模型进行筛选,得到预测准确率最高的模型。
CN202010559365.3A 2020-06-18 2020-06-18 一种风控信贷模型的建模方法和平台 Pending CN111695989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010559365.3A CN111695989A (zh) 2020-06-18 2020-06-18 一种风控信贷模型的建模方法和平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010559365.3A CN111695989A (zh) 2020-06-18 2020-06-18 一种风控信贷模型的建模方法和平台

Publications (1)

Publication Number Publication Date
CN111695989A true CN111695989A (zh) 2020-09-22

Family

ID=72481708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010559365.3A Pending CN111695989A (zh) 2020-06-18 2020-06-18 一种风控信贷模型的建模方法和平台

Country Status (1)

Country Link
CN (1) CN111695989A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085595A (zh) * 2020-09-27 2020-12-15 中国建设银行股份有限公司 信用评分模型的监控方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424070A (zh) * 2017-03-29 2017-12-01 广州汇融易互联网金融信息服务有限公司 一种基于机器学习的贷款用户信用评级方法及***
US20180182029A1 (en) * 2016-12-22 2018-06-28 American Express Travel Related Services Company, Inc. Systems and methods for custom ranking objectives for machine learning models applicable to fraud and credit risk assessments
CN109670940A (zh) * 2018-11-12 2019-04-23 深圳壹账通智能科技有限公司 基于机器学习的信用风险评估模型生成方法及相关设备
CN111062444A (zh) * 2019-12-21 2020-04-24 湖南大学 信用风险预测方法、***、终端及存储介质
US20200210899A1 (en) * 2017-11-22 2020-07-02 Alibaba Group Holding Limited Machine learning model training method and device, and electronic device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180182029A1 (en) * 2016-12-22 2018-06-28 American Express Travel Related Services Company, Inc. Systems and methods for custom ranking objectives for machine learning models applicable to fraud and credit risk assessments
CN107424070A (zh) * 2017-03-29 2017-12-01 广州汇融易互联网金融信息服务有限公司 一种基于机器学习的贷款用户信用评级方法及***
US20200210899A1 (en) * 2017-11-22 2020-07-02 Alibaba Group Holding Limited Machine learning model training method and device, and electronic device
CN109670940A (zh) * 2018-11-12 2019-04-23 深圳壹账通智能科技有限公司 基于机器学习的信用风险评估模型生成方法及相关设备
CN111062444A (zh) * 2019-12-21 2020-04-24 湖南大学 信用风险预测方法、***、终端及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
方匡南;陈子岚;: "基于半监督广义可加Logistic回归的信用评分方法" *
王献雨: "基于数据不平衡的P2P网贷违约识别研究" *
王静月: "基于用户行为数据的P2P网贷违约预测" *
白鹏飞;安琪;NICOLAAS FRANSDE ROOIJ;李楠;周国富;: "基于多模型融合的互联网信贷个人信用评估方法" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085595A (zh) * 2020-09-27 2020-12-15 中国建设银行股份有限公司 信用评分模型的监控方法及装置

Similar Documents

Publication Publication Date Title
CN110957012B (zh) 化合物的性质分析方法、装置、设备及存储介质
CN112446591B (zh) 一种用于学生综合能力评价的零样本评价方法
CN110503204A (zh) 识别用于机器学习任务的迁移模型
CN104798043B (zh) 一种数据处理方法和计算机***
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN111127246A (zh) 一种输电线路工程造价的智能预测方法
Gadhavi et al. Student final grade prediction based on linear regression
WO2022062193A1 (zh) 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质
CN109978870A (zh) 用于输出信息的方法和装置
CN110490304B (zh) 一种数据处理方法及设备
Pan et al. Study on the performance evaluation of online teaching using the quantile regression analysis and artificial neural network
CN109214004A (zh) 基于机器学习的大数据处理方法
CN111126552A (zh) 一种智能学习内容推送方法及***
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN112100401A (zh) 面向科技服务的知识图谱构建方法、装置、设备及存储介质
US20230267302A1 (en) Large-Scale Architecture Search in Graph Neural Networks via Synthetic Data
Alkayyali et al. A new algorithm for audio files augmentation
CN112394982B (zh) 生成语音识别***的方法、装置、介质及电子设备
CN111695989A (zh) 一种风控信贷模型的建模方法和平台
US20230359825A1 (en) Knowledge graph entities from text
CN115795025A (zh) 一种摘要生成方法及其相关设备
CN115410642A (zh) 一种生物关系网络信息建模方法与***
Yurtkan et al. Student Success Prediction Using Feedforward Neural Networks
Dajda et al. Current trends in software engineering bachelor theses
Samuel et al. A virtual “Werkstatt” for digitization in the sciences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination