CN112232944B - 一种评分卡创建方法、装置和电子设备 - Google Patents
一种评分卡创建方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112232944B CN112232944B CN202011049938.4A CN202011049938A CN112232944B CN 112232944 B CN112232944 B CN 112232944B CN 202011049938 A CN202011049938 A CN 202011049938A CN 112232944 B CN112232944 B CN 112232944B
- Authority
- CN
- China
- Prior art keywords
- feature
- sample
- regression
- regression tree
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012163 sequencing technique Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 39
- 230000006399 behavior Effects 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013077 scoring method Methods 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 26
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种评分卡创建方法、装置和电子设备,上述方法包括:获取多个样本用户的多个样本特征的数据;针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。本发明实施例提供的方法,简化了评分卡的创建过程。
Description
技术领域
本发明涉及数据分析技术领域,特别是涉及一种评分卡创建方法、装置和电子设备。
背景技术
目前,大数据分析技术被应用到各个领域中。例如:在金融领域,可以通过对用户的数据进行分析,来实现风险控制。
具体的,金融机构可以通过对用户的属性数据和行为数据等进行大数据分析,对用户进行信用风险评估。目前,主要是通过所创建的评分卡,利用用户的各种属性和行为数据,例如:年龄属性、性别属性或收入支出等属性数据,以及存取款或支付等行为数据,对用户进行信用评分。这样,金融机构可以根据用户的信用评分决定是否给予用户授信以及授信的额度和利率,从而降低金融交易中的风险。其中,用户的信用评分可以反映用户可能会发生逾期还款或者欺诈的概率,且信用评分越高,用户的信用风险越低。
可见,创建评分卡是进行信用评分的重要环节。参见图1,图1为现有技术的一种评分卡的结构示例图。其中,评分卡100包括:收入变量、年龄变量、性别变量和婚姻状况变量,每个变量可以对应多个特征分箱,每个特征分箱为该变量的一个数据区间,如图1中收入变量对应3个特征分箱:[0,10000)、[10000,50000)和[50000,50000以上),即每个特征分箱均为收入变量的一个数据区间。并且,每个特征分箱对应一个woe(weight of evidence,证据权重)值和一个对应分值,其中,每个特征分箱对应的woe值表示:该特征分箱对应的响应高风险用户和非高风险用户的比值,和所有用户中高风险用户和非高风险用户的比值的差异。且woe值越小该特征分箱对应的用户的违约风险越小;每个特征分箱对应的对应分值表示:用户的某一变量的值在该特征分箱内时所对应的评分。
针对用户,可以根据如图1所示的评分卡100,分析用户各个特征的对应分值,然后将各个特征的对应分值和基础分的和值,作为该用户的信用评分。因此,创建评分卡的过程就是对用户的数据进行大数据分析,计算出各种属性和各种行为各自对应的信用评分。例如,若用户a的性别为男性、年龄为20岁、收入为5000且是未婚状态,针对用户a,可以根据图1所示的评分卡100,确定出:性别为男性的对应分值为1.6,婚姻状况为未婚的对应分值为0.3,年龄为20岁对应特征分箱[20,40)且对应分值为22.7,收入为5000对应特征分箱[0,10000)且对应分值为-7.3。则可以将各个特征的对应分值和基础分的和值:1.6+0.3+22.7+(-7.3)+33.7=51,作为用户a的信用评分。
目前,创建评分卡最常用的是基于逻辑回归的标准评分卡,其是利用用户数据,确定出变量分箱,然后构建逻辑回归模型,确定出评分卡。其中,变量分箱是针对每个变量,确定出该变量的多个数值区间,如图1的评分卡100所示,针对年龄需要确定出如[0,20]、[20,40)、[40,50)和[50,100]多个年龄区间。然而,现有的变量分箱过程需要工程师针对每个特征多次重复操作才能确定出较好的变量分箱,操作比较繁复。
发明内容
本发明实施例的目的在于提供一种评分卡创建方法、装置和电子设备,以简化评分卡创建过程。
为了达到上述目的,本发明实施例提供了一种评分卡创建方法,包括:
获取多个样本用户的多个样本特征的数据,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据;每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户;
针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;每个回归树包括两个叶子节点,分别表示:以该回归树对应的特征值所划分的样本特征的两个数值区间;
按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;
将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。
进一步的,所述针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树的步骤,包括:
针对样本用户的每一个样本特征,基于梯度提升算法,以该样本特征的数据为特征值,选取该样本特征的一个特征值,确定出以该特征值为分界点的回归树;回归树的每个叶子节点分别对应一个预测分数,表示:该样本特征的数据位于该叶子节点表示的数值区间时所对应的分数;
确定该回归树的增益函数;
获得样本用户的各个样本特征的数据在各个回归树的预测分数之和,作为输出分数;
基于样本用户的标签和所述输出分数,确定当前的待训练梯度提升树模型的损失函数;当前的待训练梯度提升树模型包括:当前所确定的多个回归树;
判断所述损失函数是否收敛;
若是,固定当前的待训练梯度提升树模型的参数,得到目标梯度提升树模型;
若否,选取使得回归树的增益函数达到最大的特征值作为新的特征值,返回确定出以该特征值为分界点的回归树的步骤;
提取目标梯度提升树模型的各个回归树的参数,并将表示同一样本特征数据的同一特征值的多个回归树进行合并,得到每个样本特征对应的一个或多个回归树。
进一步的,所述将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡的步骤,包括:
获得每个目标数值区间对应的分数,每个目标数值区间对应的分数为:数值区间与该目标数值区间存在交集的各个叶子节点对应的预测分数之和;
将每个目标数值区间作为一个回归树分箱,并将目标数值区间对应的分数作为该回归树分箱的评分,创建包括各个回归树分箱以及各个回归树分箱所对应的评分的评分卡;其中,评分卡的评分包括各个回归树分箱对应的评分和预设的基础分。
进一步的,针对每个目标数值区间,采用如下公式确定该目标数值区间对应的分数:
Score=-B{f1+f2+…+fK}
其中,Score表示该目标数值区间对应的分数,B为预设的常数参数,f1、f2、…、fK分别表示数值区间与该目标数值区间存在交集的K个叶子节点对应的预测分数之和。
进一步的,所述将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡的步骤,包括:
将每个目标数值区间作为一个特征分箱,采用逻辑回归模型确定每个特征分箱对应的评分,并根据各个特征分箱和各个特征分箱对应的评分创建评分卡。
进一步的,所述获取多个样本用户的多个样本特征的数据,包括:
获取样本用户的多个特征的数据;
针对每个特征,检测该特征的类型;若该特征为数值型特征,将该特征作为待筛选特征;若该特征为类别型特征,按照预设的赋值规则对该特征进行赋值,将赋值后的该特征的数据作为待筛选特征;
将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度;每个特征对应存在一个标签,该标签用于表征该特征是否重要。
针对每个待筛选特征,当该待筛选特征的重要度小于等于预设重要度阈值时,将该待筛选特征作为待删除特征;
判断待删除特征的数量是否为零;若是,将各个待筛选特征确定为样本特征;
若否,判断待删除特征的数量是否小于预设数量,若是,将所有待删除特征都删除,并返回所述将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度的步骤;
若否,将待删除特征中重要度低的预设数量个待删除特征都删除,并将剩余的待删除特征作为待筛选特征,返回所述将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度的步骤。
进一步的,每个类别型特征用于表示样本用户的一种属性,类别型特征包括:样本用户的性别、样本用户的学历、样本用户所属的地域和样本用户所属的行业;
所述若该特征为类别型特征,按照预设的赋值规则对该特征进行赋值,包括:
针对每个类别型特征,将该类别型特征所表示的属性中预先已标记为高风险的样本用户的数量,除以该类别型特征所表示的属性中所有样本用户的数量的比值,作为该类别型特征的数值。
为了达到上述目的,本发明实施例还提供了一种评分卡创建装置,包括:
数据获取模块,用于获取多个样本用户的多个样本特征的数据,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据;每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户;
回归树训练模块,用于针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;每个回归树包括两个叶子节点,分别表示:以该回归树对应的特征值所划分的样本特征的两个数值区间;
区间确定模块,用于按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;
评分卡创建模块,用于将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。
相应的,本发明实施例提供了一种评分方法,包括:
获取待评分用户的多个特征数据,特征数据包括:待评分用户的行为数据和属性数据;
针对每个所述特征数据,获取该特征数据在预先创建的评分卡中对应的分数;其中,所述评分卡为权利要求1-7任一所述的方法所创建的;
将各个特征数据的分数与所述评分卡的基础分之和,确定为该待评分用户的评分;其中,评分越高表示该待评分用户的风险越低。
基于上述评分方法,本发明实施例还提供了一种评分装置,包括:
为了达到上述目的,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述评分卡创建方法步骤或所述评分方法步骤。
为了达到上述目的,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的评分卡创建方法步骤或评分方法步骤。
为了达到上述目的,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的评分卡创建方法步骤或评分方法步骤。
本发明实施例有益效果:
采用本发明实施例提供的方法,通过多个样本用户的多个样本特征的数据,针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树,按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间,将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。相较于传统的评分卡创建方式,本发明实施例提供的评分卡创建方法,将分箱过程和模型训练过程相结合生成回归树分箱,从而自动创建评分卡,既简化了评分卡的创建过程,使得操作更为简便,又能提升评分卡的评分效果。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术的一种评分卡的结构示例图;
图2为本发明实施例提供的评分卡创建方法的一种流程图;
图3a为本发明实施例提供的评分卡创建方法的另一种流程图;
图3b为基于本发明实施例提供的评分卡创建方法所创建的评分卡;
图4为本发明实施例中提供的一颗回归树的示意图;
图5为本发明实施例中对多颗回归树进行合并的示意图;
图6为本发明实施例中由同一样本特征的多颗回归树确定出目标数值区间的示意图;
图7为本发明实施例中获取样本特征的数据的一种流程示意图;
图8为基于本发明实施例提供的评分卡创建方法进行评分的流程图;
图9为本发明实施例提供的一种评分卡创建装置的结构图;
图10为本发明实施例提供的另一种评分卡创建装置的结构图;
图11为本发明实施例提供的一种评分装置的结构图;
图12为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中存在评分卡创建过程繁琐复杂的问题,为解决这一技术问题,本发明实施例提供了一种评分卡创建方法、装置和电子设备。
参见图2,一种评分卡创建的流程,包括:
步骤201,获取多个样本用户的多个样本特征的数据,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据;每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户。
步骤202,针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;每个回归树包括两个叶子节点,分别表示:以该回归树对应的特征值所划分的样本特征的两个数值区间。
步骤203,按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间。
步骤204,将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。
采用本发明实施例提供的方法,通过多个样本用户的多个样本特征的数据,针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树,按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间,将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。相较于传统的评分卡创建方式,本发明实施例提供的评分卡创建方法,将分箱过程和模型训练过程相结合生成回归树分箱,从而自动创建评分卡,既简化了评分卡的创建过程,使得操作更为简便,又能提升评分卡的评分效果。
下面通过具体实施例对本发明实施例提供的评分卡创建方法及装置进行详细描述。
在本申请的一个实施例中,参见图3a,评分卡创建方法的另一种流程,包括如下步骤:
步骤301,获取多个样本用户的多个样本特征的数据。
本发明实施例中,每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户。其中,高风险用户是指具有特定行为记录的用户。以金融领域为例,高风险用户具体可以指:存在逾期还款或者欺诈记录的用户,非高风险用户是指:不存在逾期还款和欺诈记录的用户。具体的,若样本用户为高风险用户,则该样本用户对应的标签为1,若样本用户为非高风险用户,则该样本用户对应的标签为0。
本发明实施例中,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据。以金融领域为例,样本用户的属性数据具体可以包括:样本用户的性别、年龄、学历、所属行业、所属地域和婚姻状况等等;样本用户的行为数据具体可以包括:样本用户产生购买行为的次数、样本用户针对购买行为所支付的金额、样本用户购买行为的间隔天数、样本用户的收入、样本用户的支出占收入的比例、样本用户的存款数据、样本用户的取款数据和样本用户的历史违约金额等等。
步骤302,针对样本用户的每一个样本特征,以该样本特征的数据为特征值,针对该样本特征的每一个特征值,基于梯度提升算法确定出以该特征值为分界点的回归树。
其中,每个回归树对应两个叶子节点,且每个回归树的每个叶子节点分别对应一个预测分数,表示:该样本特征的数据位于该叶子节点表示的数值区间时所对应的分数。
举例说明,若样本用户的多个样本特征包括:性别、年龄、收入和学历。若样本用户A的年龄为30岁,参见图4,针对年龄30岁,可以以该30岁为特征值,确定出以该特征值为分界点的回归树treeX,treeX包括两个叶子节点:leafX1和leafX2。leafX1表示年龄在区间[0,30),leafX2表示年龄在区间[30,100]。其中,leafX1对应预测分数fXL,且预测分数fXL表示样本用户的年龄位于区间[0,30)时所对应的分数;leafX2对应预测分数fXR,且预测分数fXR表示样本用户的年龄位于区间[30,100]时所对应的分数。
步骤303,分别确定以每一个特征值为分界点的各个回归树的增益函数。
本步骤中,具体可以采用如下公式确定各个回归树的增益函数值:
其中,Gain表示以样本特征的一个特征值为分界点的回归树对当前的待训练梯度提升树模型的贡献,GL表示所有分到左侧叶节点的样本特征的一阶梯度之和,HL表示所有分到左侧叶节点的样本特征的二阶梯度之和,GR表示所有分到右侧叶节点的样本特征的一阶梯度之和,HR表示所有分到右侧叶节点的样本特征的二阶梯度之和,λ表示L2正则化系数,γ为最小***损失,λ和γ均为预设参数。
步骤304,从各个回归树中选择增益函数值最大的回归树,作为当前所确定的回归树。
本步骤中,可以通过以所有特征值为分界点得到的各个回归树的增益函数的大小,选择增益函数最大的回归树作为当前所确定的回归树。
步骤305,获得样本用户的各个样本特征的数据在当前所确定的回归树的预测分数之和,作为输出分数。
本步骤,可以采用如下公式得到输出分数:
其中,为包含所有回归树的函数空间,回归树是一个将属性映射到分数的函数;fk为第k颗回归树对应的预测分数,即样本特征在回归树的叶子节点的分数;K为回归树的个数;FK(xi)为第i个样本用户xi的输出分数。
步骤306,确定当前的待训练梯度提升树模型的损失函数。
其中,当前的待训练梯度提升树模型包括:当前所确定的一个或多个回归树。
本步骤中,具体可以采用如下公式确定梯度提升树模型的损失函数:
其中,表示当前的待训练梯度提升树模型的损失函数值,yi表示样本用户的标签,/>表示样本特征在当前的待训练梯度提升树模型所对应的预测分数,n表示样本用户的个数。
步骤307,判断损失函数是否收敛,若是执行步骤308,若否,执行步骤309。
本步骤中,可以通过判断当前的待训练梯度提升树模型中回归树的个数是否达到预设值,若当前的待训练梯度提升模型中回归树的个数达到预设值,则可以判断出损失函数收敛,否则可以判断出损失函数不收敛。其中,预设值可以为100或200等,不做具体限定。
本步骤中,也可以通过判断当前的待训练梯度提升树模型的损失函数的值是否不再继续减小,若当前的待训练梯度提升树模型的损失函数的值不再继续减小,则可以判断出损失函数收敛,否则可以判断出损失函数不收敛。
步骤308,固定当前的待训练梯度提升树模型的参数,得到目标梯度提升树模型,执行步骤310。
步骤309,针对样本用户的每一个样本特征的每一个特征值,基于梯度提升算法重新确定出以该特征值为分界点的回归树,并返回执行步骤303。
步骤310,提取目标梯度提升树模型的各个回归树的参数,并将表示同一样本特征数据的同一特征值的多个回归树进行合并,得到每个样本特征对应的一个或多个回归树。
本发明实施例中,同一样本特征数据的同一特征值可以对应多个回归树,本步骤中,可以将这多个回归树进行合并。具体的:可以保留一个回归树,然后将同一样本特征数据的同一特征值对应各个回归树中,所表示的数值区间相同的叶子节点的预测分数求和,并将预测分数的和值作为所保留的回归树中叶子节点所对应的预测分数。
举例说明,参见图5,针对年龄这一样本特征,若其中的一个特征值为60岁,针对特征值60岁对应有:回归树treeA、回归树treeB、回归树treeC和回归树treeD。其中,回归树treeA的叶子节点leafAL和leafAR分别对应年龄区间[0,60)和年龄区间[60,100],叶子节点leafAL和leafAR所对应的预测分数分别为fAL和fAR;回归树treeB的叶子节点leafBL和leafBR分别对应年龄区间[0,60)和年龄区间[60,100],叶子节点leafBL和leafBR所对应的预测分数分别为fBL和fBR;回归树treeC的叶子节点leafCL和leafCR分别对应年龄区间[0,60)和年龄区间[60,100],叶子节点leafCL和leafCR所对应的预测分数分别为fCL和fCR;回归树treeD的叶子节点leafDL和leafDR分别对应年龄区间[0,60)和年龄区间[60,100],叶子节点leafDL和leafDR所对应的预测分数分别为fDL和fDR。
则本步骤中,可以将表示同一样本特征数据的同一特征值的多个回归树进行合并,得到每个样本特征对应的一个或多个回归树:
可以选择保留回归树treeA、回归树treeB、回归树treeC和回归树treeD中任一回归树,本例中选择保留回归树treeA;
对表示同一年龄区间[0,60)的各个叶子节点的预测分数求和,得到预测分数的和值:f和L=fAL+fBL+fCL+fDL,并将预测分数的和值f和L作为所保留的回归树中,表示年龄区间[0,60)的叶子节点的预测分数;
对表示同一年龄区间[60,100]的各个叶子节点的预测分数求和,得到预测分数的和值:f和R=fAR+fBR+fCR+fDR,并将预测分数的和值f和R作为所保留的回归树中,表示年龄区间[60,100]的叶子节点的预测分数;
得到所保留的回归树treeA作为年龄这一样本特征的特征值60岁所对应的一个回归树。
步骤311,按照各个回归树对应的特征值大小的顺序,对同一样本特征所对应的回归树进行排序;并将排序后第一个回归树左侧的叶子节点所表示的数值区间和最后一个回归树右侧的叶子节点所表示的数值区间,以及不同回归树的相邻两个叶子节点表示的数值区间的交集,分别确定为目标数值区间。
其中,针对每个目标数值区间,该目标数值区间对应的预测分数为:与该目标数值区间存在交集的各个叶子节点的数值区间所对应的预测分数之和。
针对每个回归树,该回归树左侧的叶子节点所表示的数值区间为:数值小于该回归树所对应的特征值的数值区间;该回归树右侧的叶子节点所表示的数值区间为:数值大于等于该回归树所对应的特征值的数值区间,或,数值大于等于该回归树所对应的特征值且小于某个特定的数值的数值区间。例如,参见图4,回归树treeA包括:左侧的叶子节点leafAL和右侧的叶子节点leafAR。回归树treeA对应的特征值为年龄60岁,则回归树treeA左侧的叶子节点leafAL对应年龄区间[0,60),回归树treeA右侧的叶子节点leafAR对应年龄区间[60,100]。
举例说明,参见图6,针对收入这一样本特征,若其所对应的特征值包括:1000、10000、30000和50000。且收入的特征值1000对应回归树tree1,收入的特征值10000对应回归树tree2,收入的特征值30000对应回归树tree3,收入的特征值50000对应回归树tree4。其中,回归树tree1的叶子节点leaf1L和leaf1R分别对应收入区间[0,1000)和收入区间[1000,1000以上),叶子节点leaf1L和leaf1R所对应的预测分数分别为f1L和f1R;回归树tree2的叶子节点leaf2L和leaf2R分别对应收入区间[0,10000)和收入区间[10000,10000以上),叶子节点leaf2L和leaf2R所对应的预测分数分别为f2L和f2R;回归树tree3的叶子节点leaf3L和leaf3R分别对应收入区间[0,30000)和收入区间[30000,30000以上),叶子节点leaf3L和leaf3R所对应的预测分数分别为f3L和f3R;回归树tree4的叶子节点leaf4L和leaf4R分别对应收入区间[0,50000)和收入区间[50000,50000以上),叶子节点leaf4L和leaf4R所对应的预测分数分别为f4L和f4R。
本步骤中,按照特征值从小到大的顺序对各个回归树进行排序,依次得到回归树tree1、回归树tree2、回归树tree3和回归树tree4。并将各个回归树的相邻两个叶子节点表示的数值区间的交集确定为目标数值区间:将回归树tree1和回归树tree2相邻的两个叶子节点leaf1R和leaf2L表示的数值区间[1000,1000以上)和[0,10000)的交集[1000,10000)确定为目标数值区间;将回归树tree2和回归树tree3相邻的两个叶子节点leaf2R和leaf3L表示的数值区间[10000,10000以上)和[0,30000)的交集[10000,30000)确定为目标数值区间;将回归树tree3和回归树tree4相邻的两个叶子节点leaf3R和leaf4L表示的数值区间[30000,30000以上)和[0,50000)的交集[30000,50000)确定为目标数值区间。将排序后第一个回归树tree1左侧的叶子节点leaf1L所表示的数值区间[0,1000)和最后一个梯回归树tree4右侧的叶子节点leaf4R所表示的数值区间[50000,50000以上),分别确定为目标数值区间。得到目标数值区间:[0,1000)、[1000,10000)、[10000,30000)、[30000,50000)和[50000,50000以上)。
并且,目标数值区间[0,1000)对应的预测分数为:与该目标数值区间[0,1000)存在交集的各个叶子节点的数值区间[0,1000)、[0,10000)、[0,30000)和[0,50000)所对应的预测分数之和:f1L+f2L+f3L+f4L。目标数值区间[1000,10000)对应的预测分数为:与该目标数值区间[1000,10000)存在交集的各个叶子节点的数值区间[1000,1000以上)、[0,10000)、[0,30000)和[0,50000)所对应的预测分数之和:f1R+f2L+f3L+f4L。目标数值区间[10000,30000)对应的预测分数为:与该目标数值区间[10000,30000)存在交集的各个叶子节点的数值区间[1000,1000以上)、[10000,10000以上)、[0,30000)和[0,50000)所对应的预测分数之和:f1R+f2R+f3L+f4L。目标数值区间[30000,50000)对应的预测分数为:与该目标数值区间[30000,50000)存在交集的各个叶子节点的数值区间[1000,1000以上)、[10000,10000以上)、[30000,30000以上)和[0,50000)所对应的预测分数之和:f1R+f2R+f3R+f4L。目标数值区间[50000,50000以上)对应的预测分数为:与该目标数值区间[50000,50000以上)存在交集的各个叶子节点的数值区间[1000,1000以上)、[10000,10000以上)、[30000,30000以上)和[50000,50000以上)所对应的预测分数之和:f1R+f2R+f3R+f4R。
步骤312,将每个目标数值区间作为一个提升树分箱,创建包括各个提升树分箱的评分卡。
本步骤中,可以采用如下步骤A1-A2的方式创建包括各个回归树分箱的评分卡:
步骤A1:获得每个目标数值区间对应的分数。
其中,每个目标数值区间对应的分数为:数值区间与该目标数值区间存在交集的各个叶子节点对应的预测分数之和。
本步骤中,针对每个目标数值区间,可以采用如下公式确定该目标数值区间对应的分数:
Score=-B{f1+f2+…+fK}
其中,Score表示该目标数值区间对应的分数,B为预设的常数参数,f1、f2、…、fK分别表示数值区间与该目标数值区间存在交集的K个叶子节点对应的预测分数之和。
步骤A2:将每个目标数值区间作为一个回归树分箱,并将目标数值区间对应的分数作为该回归树分箱的评分,创建包括各个回归树分箱以及各个回归树分箱所对应的评分的评分卡。
其中,评分卡的评分包括各个回归树分箱对应的评分和预设的基础分。
举例说明,图3b为创建的包括各个回归树分箱以及各个回归树分箱所对应的评分的评分卡。参见图3b,评分卡300中的特征列包括收入、年龄、性别和婚姻状况,其中,评分卡300中的基础分为预先确定的常数35,收入这一特征对应的回归树分箱包括5个:[0,1000)、[1000,10000)、[10000,30000)、[30000,50000)和[50000,50000以上);年龄这一特征对应的回归树分箱包括4个:[0,20)、[20,30)、[30,50)和[50,100];性别这一特征对应的回归树分箱包括2个:男性和女性;婚姻状况这一特征对应的回归树分箱包括2个:已婚和未婚。
参见图3b,评分卡300中每个特征的每个回归树分箱都对应一个分数,以收入的[0,1000)回归树分箱为例,该分箱对应的分数为-16分,且该回归树分箱所对应的分数可以采用如下公式计算得到:
其中,B为预设的常数参数,x1表示收入这一特征,Tree(x1)表示该分箱对应的回归树,该分箱可以对应一颗或多颗回归树。i∈Tree(x1)表示叶子节点表示的数值区间与回归树分箱[0,1000)存在交集的第i颗回归树,该回归树分箱可以对应一颗或多颗回归树。
fiL,fiR分别为回归树中第i颗树左侧叶子节点和右侧叶子节点的预测分数。δiL,δiR是0-1逻辑变量,δiL,δiR有且仅有一个变量的取值为1。例如,δiL=1与此同时δiR=0,表示表示第i颗回归树的左侧叶子节点表示的数值区间与回归树分箱[0,1000)存在交集;δiL=0与此同时δiR=1,表示第i颗回归树的右侧叶子节点表示的数值区间与回归树分箱[0,1000)存在交集。
举例说明,以图6所示的实施例为例,回归树分箱[0,1000)可以对应4颗回归树:回归树tree1、回归树tree2、回归树tree3和回归树tree4。该回归树分箱[0,1000)对应的分数为:
本发明实施例中,可以采用如下方法得到基础分A和常数参数B:
可以定义比率来表示用户违约的相对概率odds:
其中,p表示用户x为高风险用户的概率,FK(x)为将用户x的特征输入目标回归树后的得分之和;并且,/>将odds代入/>可得:
FK(x)=log(odds)
评分卡的分值Score可以定义为比率对数的线性表达,即:
Score=A-B·log(odds)=A-B·FK(x)
其中,A与B是常数,B前面的负号可以使得违约概率越低,得分越高。通常情况下,即高分值代表低风险,低分值代表高风险。
通常情况下,可以设定两个假设:假设1:一个已知的特定的相对概率下的预期评分,即根据现有的标准评分卡可以得到相对概率odds为θ0时的分数为P0;假设2:根据现有的标准评分卡可以得到相对概率每增加一倍时所减少的分数为PDO;
根据以上的假设可得:相对概率odds为θ0时的分数为P0,则相对概率odds为2θ0时的分数为P0-PDO,即相对概率odds增加一倍后减少的分数为PDO。将已知的P0和θ0,(P0-PDO)和2θ0分别代入公式Score=A-B·log(odds),得到:
解上述方程组,可得到基础分A和常数参数B:
A=P0+B×log(θ0)
采用本发明实施例提供的方法,将目标数值区间直接作为回归树分箱,并且根据各个目标数值区间对应的预测分数确定出回归树分箱对应的评分。即将分箱过程和模型训练过程相结合生成回归树分箱,同时可以得到回归树分箱对应的评分,实现了自动创建评分卡。本发明实施例提供的方法一方面简化了评分卡的创建过程,使得操作更为简便,另一方面也能提升评分卡的评分效果。
参见图7,实现上述步骤301中获取多个样本用户的多个样本特征的数据的方法,具体可以包括:
步骤701,获取样本用户的多个特征的数据。
本步骤中,可以获取样本用户的多种属性数据和行为数据。具体的,可以获取样本用户的性别、年龄、学历、所属行业、所属地域、样本用户产生购买行为的次数、样本用户针对购买行为所支付的金额、样本用户购买行为的间隔天数、样本用户的收入、样本用户的支出占收入的比例、样本用户的存款数据和样本用户的取款数据等等。
步骤702,针对每个特征,检测该特征的类型;若该特征为数值型特征,将该特征作为待筛选特征;若该特征为类别型特征,按照预设的赋值规则对该特征进行赋值,将赋值后的该特征的数据作为待筛选特征。
本发明实施例中,每个类别型特征用于表示样本用户的一种属性,类别型特征包括:样本用户的性别、样本用户的学历、样本用户所属的地域和样本用户所属的行业等等。
本步骤中,若该特征为类别型特征,按照预设的赋值规则对该特征进行赋值可以包括:
针对每个类别型特征,将该类别型特征所表示的属性中预先已标记为高风险的样本用户的数量,除以该类别型特征所表示的属性中所有样本用户的数量的比值,作为该类别型特征的数值。
举例说明,若所有样本用户的数量为1000,针对性别为男性这一类别型特征,若其中男性样本用户的数量为600,且预先标记为高风险的男性样本用户的数量为50,则可以为性别为男性这一类别型特征赋值:50÷600=0.0833;针对性别为女性这一类别型特征,若其中女性样本用户的数量为400,且预先标记为高风险的女性样本用户的数量为15,则可以为性别为女性这一类别型特征赋值:15÷400=0.0375;针对大学学历这一类别型特征,若拥有大学学历的样本用户的数量为680,且预先标记为高风险的拥有大学学历的样本用户的数量为20,则可以为大学学历这一类别型特征赋值:20÷680=0.0294;针对所属地域为A地这一类别型特征,若所属地域为A地的样本用户的数量为100,且预先标记为高风险的所属地域为A地的样本用户的数量为4,则可以为所属地域为A地这一类别型特征赋值:4÷100=0.04;针对所属行业为教师这一类别型特征,若所属行业为教师的样本用户的数量为80,且预先标记为高风险的所属行业为教师的样本用户的数量为1,则可以为所属行业为教师这一类别型特征赋值:1÷80=0.0125。
步骤703,将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度。
其中,每个待筛选特征对应存在一个标签,该标签用于表征该待筛选特征是否重要。具体的,若待筛选特征为重要的待筛选特征,其对应的标签为1,若待筛选特征为不重要的待筛选特征,其对应的标签为0。
本步骤中,将多个待筛选特征输入待训练梯度提升模型后,可以针对每个待筛选特征,提取该待筛选特征对应的重要度。
其中,待训练梯度提升模型为基于梯度提升算法所得到的模型。并且,针对待训练梯度提升模型可以预先设定一个重要度阈值和一个预设数量,其中,预设数量为单次迭代最多删除特征的个数。
步骤704,针对每个待筛选特征,当该待筛选特征的重要度小于等于预设重要度阈值时,将该待筛选特征作为待删除特征。
步骤705,判断待删除特征的数量是否为零;若是,执行步骤706,若否,执行步骤707。
步骤706,将各个待筛选特征确定为样本特征。
步骤707,判断待删除特征的数量是否小于预设数量,若是,执行步骤708,若否,执行步骤709。
步骤708,将所有待删除特征都删除,并返回执行步骤703。
步骤709,将待删除特征中重要度低的预设数量个待删除特征都删除,并将剩余的待删除特征作为待筛选特征,返回执行步骤703。
本步骤中,可以按照重要度从大到小或者重要度从小到大的顺序,对各个待删除特征进行排序,然后将其中重要度低的预设数量个待删除特征都删除,并将剩余的待删除特征作为待筛选特征。
举例说明,假设样本用户的多个特征的数据包括:样本用户的年龄、性别、学历、婚姻状况、月收入、月均支出、历史违约金额这7个特征,并且可以分别对其中的类别型特征:年龄、性别、学历、婚姻状况,按照预设规则进行赋值。然后可以将包含这七个待筛选特征的数据均输入待训练梯度提升模型,可以得到这7个待筛选特征的重要度,假设重要度分别为:年龄0.18、性别0.005、学历0.15、婚姻状况0.09、月收入0.25、月均支出0.12和历史违约金额0.3。并且,可以预先设定重要度阈值thred=0.1,单次迭代最多删除特征个数nums=1。
可以得到性别和婚姻状况的重要度均小于0.1。则将性别和婚姻状况确定为待删除特征。由于单次迭代最多删除特征个数nums=1,待删除特征个数大于1,因此,可以将重要度最低的一个待删除特征—性别,进行删除,然后将婚姻状况作为为待筛选特征,重新将各个待筛选特征输入待训练梯度提升模型,确定各个待筛选特征的重要度,不断迭代,直到所有待筛选特征的重要度均大于0.1,且模型效果不再提升为止之后,将各个待删选特征确定为样本特征。
本发明实施例中,在经过步骤301-步骤314创建出评分卡后,可以使用所创建的评分卡对待评分用户进行评分。具体可参见图8,图8为为基于本发明实施例提供的评分卡创建方法进行评分的流程,包括如下步骤:
步骤801,获取待评分用户的多个特征数据,特征数据包括:待评分用户的行为数据和属性数据。
待评分用户为需要对其进行风险评定的用户,如金融机构的用户等。待评分用户的多个特征数据具体可以包括:待评分用户的属性数据具体可以包括:待评分用户的性别、年龄、学历、所属行业、所属地域和婚姻状况等等;待评分用户的行为数据具体可以包括:待评分用户产生购买行为的次数、待评分用户针对购买行为所支付的金额、待评分用户购买行为的间隔天数、待评分用户的收入、待评分用户的支出占收入的比例、待评分用户的存款数据、待评分用户的取款数据和待评分用户的历史违约金额等等。
步骤802,针对每个特征数据,获取该特征数据在预先创建的评分卡中对应的分数。
其中,评分卡为基于本发明实施例所提供的评分卡创建方法所创建的。
步骤803,将各个特征数据的分数与评分卡的基础分之和,确定为该待评分用户的评分。
其中,评分越高表示该待评分用户的风险越低。
举例说明,若待评分用户为用户α,且用户α的特征数据包括:性别为男性、婚姻状况为未婚、年龄为25岁,收入为15000元。并且,预先创建的评分卡如图3b所示,则针对每个特征数据,可以获取该特征数据在预先创建的评分卡300中对应的分数:收入15000元对应回归树分箱[1000,10000),且对应的评分为-7.8分;年龄25岁对应回归树分箱[20,30),且对应的评分为23.3分;性别男性的回归树分箱对应的评分为1.5分;婚姻状况为未婚的回归树分箱对应的评分为0.2分;评分卡中的基础分为35。然后,可以将各个特征数据的分数与评分卡的基础分之和,确定为该待评分用户的评分:
Scoreα=-7.8+23.3+1.5+0.2+35=52.2
本发明实施例中,在经过步骤301-步骤313得到各个目标数值区间之后,可以将每个目标数值区间分别作为特征分箱,采用逻辑回归模型确定每个特征分箱对应的评分,并根据各个特征分箱和各个特征分箱对应的评分创建评分卡。此处已知特征分箱,根据各个特征分箱采用逻辑回归模型确定每个特征分箱对应的评分,以及创建对应的评分卡为现有技术中已有详细记载,此处不再赘述。本发明实施例中,已知特征分箱,可以直接应用在传统评分卡创建过程中,显著提升了创建的评分卡的效果,使得本发明的技术应用范围更广。
基于同一发明构思,根据本发明上述实施例提供的评分卡创建方法,相应地,本发明另一实施例还提供了一种评分卡创建装置,其结构示意图如图9所示,具体包括:
数据获取模块901,用于获取多个样本用户的多个样本特征的数据,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据;每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户;
回归树训练模块902,用于针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;每个回归树包括两个叶子节点,分别表示:以该回归树对应的特征值所划分的样本特征的两个数值区间;
区间确定模块903,用于按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;
评分卡创建模块904,用于将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。
可见,采用本发明实施例提供的装置,通过多个样本用户的多个样本特征的数据,针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树,按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间,将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。相较于传统的评分卡创建方式,本发明实施例提供的评分卡创建装置,将分箱过程和模型训练过程相结合生成回归树分箱,从而自动创建评分卡,既简化了评分卡的创建过程,使得操作更为简便,又能提升评分卡的评分效果。
进一步的,参见图10,回归树训练模块902包括:
回归树确定子模块1001,用于针对样本用户的每一个样本特征,以该样本特征的数据为特征值,针对该样本特征的每一个特征值,基于梯度提升算法确定出以该特征值为分界点的回归树;回归树的每个叶子节点分别对应一个预测分数,表示:该样本特征的数据位于该叶子节点表示的数值区间时所对应的分数;
增益函数确定子模块1002,用于分别确定以每一个特征值为分界点的各个回归树的增益函数;
回归树选择子模块1003,用于从各个回归树中选择增益函数最大的回归树,作为当前所确定的回归树
输出分数获得子模块1004,用于获得样本用户的各个样本特征的数据在当前所确定的回归树的预测分数之和,作为输出分数;
损失函数值确定子模块1005,用于基于样本用户的标签和所述输出分数,确定当前的待训练梯度提升树模型的损失函数;当前的待训练梯度提升树模型包括:当前所确定的一个或多个回归树;
判断子模块1006,用于判断所述损失函数是否收敛;若是,固定当前的待训练梯度提升树模型的参数,得到目标梯度提升树模型;若否,针对样本用户的每一个样本特征的每一个特征值,基于梯度提升算法重新确定出以该特征值为分界点的回归树,并返回所述分别确定以每一个特征值为分界点的各个回归树的增益函数的步骤;
合并子模块1007,用于提取目标梯度提升树模型的各个回归树的参数,并将表示同一样本特征数据的同一特征值的多个回归树进行合并,得到每个样本特征对应的一个或多个回归树。
进一步的,评分卡创建模块904,具体用于获得每个目标数值区间对应的分数,每个目标数值区间对应的分数为:数值区间与该目标数值区间存在交集的各个叶子节点对应的预测分数之和;将每个目标数值区间作为一个回归树分箱,并将目标数值区间对应的分数作为该回归树分箱的评分,创建包括各个回归树分箱以及各个回归树分箱所对应的评分的评分卡;其中,评分卡的评分包括各个回归树分箱对应的评分和预设的基础分。
进一步的,针对每个目标数值区间,采用如下公式确定该目标数值区间对应的分数:
Score=-B{f1+f2+…+fK}
其中,Score表示该目标数值区间对应的分数,B为预设的常数参数,f1、f2、…、fK分别表示数值区间与该目标数值区间存在交集的K个叶子节点对应的预测分数之和。
进一步的,评分卡创建模块904,具体用于将每个目标数值区间作为一个特征分箱,采用逻辑回归模型确定每个特征分箱对应的评分,并根据各个特征分箱和各个特征分箱对应的评分创建评分卡。
进一步的,数据获取模块901,包括:
特征数据获取子模块,用于获取样本用户的多个特征的数据;
数据类型检测子模块,用于针对每个特征,检测该特征的类型;若该特征为数值型特征,将该特征作为待筛选特征;若该特征为类别型特征,按照预设的赋值规则对该特征进行赋值,将赋值后的该特征的数据作为待筛选特征;
重要度提取子模块,用于将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度;每个特征对应存在一个标签,该标签用于表征该特征是否重要。
待删除特征确定子模块,用于针对每个待筛选特征,当该待筛选特征的重要度小于等于预设重要度阈值时,将该待筛选特征作为待删除特征;
第三判断子模块,用于判断待删除特征的数量是否为零;若是,将各个待筛选特征确定为样本特征;若否,判断待删除特征的数量是否小于预设数量,若是,将所有待删除特征都删除,并返回所述将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度的步骤;若否,将待删除特征中重要度低的预设数量个待删除特征都删除,并将剩余的待删除特征作为待筛选特征,返回所述将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度的步骤。
进一步的,每个类别型特征用于表示样本用户的一种属性,类别型特征包括:样本用户的性别、样本用户的学历、样本用户所属的地域和样本用户所属的行业;
所述若该特征为类别型特征,按照预设的赋值规则对该特征进行赋值,包括:
针对每个类别型特征,将该类别型特征所表示的属性中预先已标记为高风险的样本用户的数量,除以该类别型特征所表示的属性中所有样本用户的数量的比值,作为该类别型特征的数值。
可见,采用本发明实施例提供的装置,将目标数值区间直接作为回归树分箱,并且根据各个目标数值区间对应的预测分数确定出回归树分箱对应的评分。即将分箱过程和模型训练过程相结合生成回归树分箱,同时可以得到回归树分箱对应的评分,实现了自动创建评分卡。本发明实施例提供的装置一方面简化了评分卡的创建过程,使得操作更为简便,另一方面也能提升评分卡的评分效果。
根据本发明上述实施例提供的评分方法,相应地,本发明另一实施例还提供了一种评分装置,其结构示意图如图11所示,具体包括:
特征数据获取模块1101,用于获取待评分用户的多个特征数据,特征数据包括:待评分用户的行为数据和属性数据;
第一分数确定模块1102,用于针对每个所述特征数据,获取该特征数据在预先创建的评分卡中对应的分数;其中,所述评分卡为权利要求1-7任一所述的方法所创建的;
第二分数确定模块1103,用于将各个特征数据的分数与所述评分卡的基础分之和,确定为该待评分用户的评分;其中,评分越高表示该待评分用户的风险越低。
本发明实施例还提供了一种电子设备,如图12所示,包括处理器1201、通信接口1202、存储器1203和通信总线1204,其中,处理器1201,通信接口1202,存储器1203通过通信总线1204完成相互间的通信,
存储器1203,用于存放计算机程序;
处理器1201,用于执行存储器1203上所存放的程序时,实现如下步骤:
获取多个样本用户的多个样本特征的数据,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据;每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户;
针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;每个回归树包括两个叶子节点,分别表示:以该回归树对应的特征值所划分的样本特征的两个数值区间;
按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;
将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。
或者,实现如下步骤:
获取待评分用户的多个特征数据,特征数据包括:待评分用户的行为数据和属性数据;
针对每个所述特征数据,获取该特征数据在预先创建的评分卡中对应的分数;其中,所述评分卡为权利要求1-7任一所述的方法所创建的;
将各个特征数据的分数与所述评分卡的基础分之和,确定为该待评分用户的评分;其中,评分越高表示该待评分用户的风险越低。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一评分卡创建方法或评分方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一评分卡创建方法或评分方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种评分卡创建方法,其特征在于,包括:
获取多个样本用户的多个样本特征的数据,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据;每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户;
针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;每个回归树包括两个叶子节点,分别表示:以该回归树对应的特征值所划分的样本特征的两个数值区间;
按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;
将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡;
所述针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树的步骤,包括:
针对样本用户的每一个样本特征,以该样本特征的数据为特征值,针对该样本特征的每一个特征值,基于梯度提升算法确定出以该特征值为分界点的回归树;回归树的每个叶子节点分别对应一个预测分数,表示:该样本特征的数据位于该叶子节点表示的数值区间时所对应的分数;
分别确定以每一个特征值为分界点的各个回归树的增益函数;
从各个回归树中选择增益函数最大的回归树,作为当前所确定的回归树;
获得样本用户的各个样本特征的数据在当前所确定的回归树的预测分数之和,作为输出分数;
基于样本用户的标签和所述输出分数,确定当前的待训练梯度提升树模型的损失函数;当前的待训练梯度提升树模型包括:当前所确定的一个或多个回归树;
判断所述损失函数是否收敛;
若是,固定当前的待训练梯度提升树模型的参数,得到目标梯度提升树模型;
若否,针对样本用户的每一个样本特征的每一个特征值,基于梯度提升算法重新确定出以该特征值为分界点的回归树,并返回所述分别确定以每一个特征值为分界点的各个回归树的增益函数的步骤;
提取目标梯度提升树模型的各个回归树的参数,并将表示同一样本特征数据的同一特征值的多个回归树进行合并,得到每个样本特征对应的一个或多个回归树。
2.根据权利要求1所述的方法,其特征在于,所述将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡的步骤,包括:
获得每个目标数值区间对应的分数,每个目标数值区间对应的分数为:数值区间与该目标数值区间存在交集的各个叶子节点对应的预测分数之和;
将每个目标数值区间作为一个回归树分箱,并将目标数值区间对应的分数作为该回归树分箱的评分,创建包括各个回归树分箱以及各个回归树分箱所对应的评分的评分卡;其中,评分卡的评分包括各个回归树分箱对应的评分和预设的基础分。
3.根据权利要求2所述的方法,其特征在于,针对每个目标数值区间,采用如下公式确定该目标数值区间对应的分数:
Score=-B{f1+f2+…+fK}
其中,Score表示该目标数值区间对应的分数,B为预设的常数参数,f1、f2、…、fK分别表示数值区间与该目标数值区间存在交集的K个叶子节点对应的预测分数之和。
4.根据权利要求1所述的方法,其特征在于,所述将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡的步骤,包括:
将每个目标数值区间作为一个特征分箱,采用逻辑回归模型确定每个特征分箱对应的评分,并根据各个特征分箱和各个特征分箱对应的评分创建评分卡。
5.根据权利要求1所述的方法,其特征在于,所述获取多个样本用户的多个样本特征的数据,包括:
获取样本用户的多个特征的数据;
针对每个特征,检测该特征的类型;若该特征为数值型特征,将该特征作为待筛选特征;若该特征为类别型特征,按照预设的赋值规则对该特征进行赋值,将赋值后的该特征的数据作为待筛选特征;
将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度;每个特征对应存在一个标签,该标签用于表征该特征是否重要;
针对每个待筛选特征,当该待筛选特征的重要度小于等于预设重要度阈值时,将该待筛选特征作为待删除特征;
判断待删除特征的数量是否为零;若是,将各个待筛选特征确定为样本特征;
若否,判断待删除特征的数量是否小于预设数量,若是,将所有待删除特征都删除,并返回所述将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度的步骤;
若否,将待删除特征中重要度低的预设数量个待删除特征都删除,并将剩余的待删除特征作为待筛选特征,返回所述将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度的步骤。
6.根据权利要求5所述的方法,其特征在于,每个类别型特征用于表示样本用户的一种属性,类别型特征包括:样本用户的性别、样本用户的学历、样本用户所属的地域和样本用户所属的行业;
所述若该特征为类别型特征,按照预设的赋值规则对该特征进行赋值,包括:
针对每个类别型特征,将该类别型特征所表示的属性中预先已标记为高风险的样本用户的数量,除以该类别型特征所表示的属性中所有样本用户的数量的比值,作为该类别型特征的数值。
7.一种评分方法,其特征在于,包括:
获取待评分用户的多个特征数据,特征数据包括:待评分用户的行为数据和属性数据;
针对每个所述特征数据,获取该特征数据在预先创建的评分卡中对应的分数;其中,所述评分卡为权利要求1-6任一所述的方法所创建的;
将各个特征数据的分数与所述评分卡的基础分之和,确定为该待评分用户的评分;其中,评分越高表示该待评分用户的风险越低。
8.一种评分卡创建装置,其特征在于,包括:
数据获取模块,用于获取多个样本用户的多个样本特征的数据,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据;每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户;
回归树训练模块,用于针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;每个回归树包括两个叶子节点,分别表示:以该回归树对应的特征值所划分的样本特征的两个数值区间;
区间确定模块,用于按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;
评分卡创建模块,用于将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡;
所述回归树训练模块,具体用于:
针对样本用户的每一个样本特征,以该样本特征的数据为特征值,针对该样本特征的每一个特征值,基于梯度提升算法确定出以该特征值为分界点的回归树;回归树的每个叶子节点分别对应一个预测分数,表示:该样本特征的数据位于该叶子节点表示的数值区间时所对应的分数;
分别确定以每一个特征值为分界点的各个回归树的增益函数;
从各个回归树中选择增益函数最大的回归树,作为当前所确定的回归树;
获得样本用户的各个样本特征的数据在当前所确定的回归树的预测分数之和,作为输出分数;
基于样本用户的标签和所述输出分数,确定当前的待训练梯度提升树模型的损失函数;当前的待训练梯度提升树模型包括:当前所确定的一个或多个回归树;
判断所述损失函数是否收敛;
若是,固定当前的待训练梯度提升树模型的参数,得到目标梯度提升树模型;
若否,针对样本用户的每一个样本特征的每一个特征值,基于梯度提升算法重新确定出以该特征值为分界点的回归树,并返回所述分别确定以每一个特征值为分界点的各个回归树的增益函数的步骤;
提取目标梯度提升树模型的各个回归树的参数,并将表示同一样本特征数据的同一特征值的多个回归树进行合并,得到每个样本特征对应的一个或多个回归树。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6或权利要求7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011049938.4A CN112232944B (zh) | 2020-09-29 | 2020-09-29 | 一种评分卡创建方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011049938.4A CN112232944B (zh) | 2020-09-29 | 2020-09-29 | 一种评分卡创建方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112232944A CN112232944A (zh) | 2021-01-15 |
CN112232944B true CN112232944B (zh) | 2024-05-31 |
Family
ID=74120552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011049938.4A Active CN112232944B (zh) | 2020-09-29 | 2020-09-29 | 一种评分卡创建方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232944B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113570259A (zh) * | 2021-07-30 | 2021-10-29 | 北京房江湖科技有限公司 | 基于维度模型的数据评估方法和计算机程序产品 |
CN114418155A (zh) * | 2022-01-20 | 2022-04-29 | 深圳壹账通科技服务有限公司 | 一种评分卡训练的处理方法、装置、设备及介质 |
CN115329909A (zh) * | 2022-10-17 | 2022-11-11 | 上海冰鉴信息科技有限公司 | 用户画像生成方法、装置及计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108366045A (zh) * | 2018-01-02 | 2018-08-03 | 北京奇艺世纪科技有限公司 | 一种风控评分卡的设置方法和装置 |
CN109598095A (zh) * | 2019-01-07 | 2019-04-09 | 平安科技(深圳)有限公司 | 评分卡模型的建立方法、装置、计算机设备和存储介质 |
CN109636591A (zh) * | 2018-12-28 | 2019-04-16 | 浙江工业大学 | 一种基于机器学习的信用评分卡开发方法 |
CN110533519A (zh) * | 2019-05-16 | 2019-12-03 | 杭州排列科技有限公司 | 基于决策树的特征分箱算法 |
CN110648215A (zh) * | 2019-08-15 | 2020-01-03 | 上海新颜人工智能科技有限公司 | 分布式评分卡模型建立方法 |
CN110879821A (zh) * | 2019-11-11 | 2020-03-13 | 彩讯科技股份有限公司 | 评分卡模型衍生标签生成方法、装置、设备及存储介质 |
CN111311400A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 基于gbdt算法的评分卡模型的建模方法及其*** |
CN111311128A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于第三方数据的消费金融信用评分卡开发方法 |
CN111563810A (zh) * | 2020-04-28 | 2020-08-21 | 北京云从科技有限公司 | 信贷风控模型生成方法、信用评估方法、***、机器可读介质及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7036043B2 (en) * | 2001-12-28 | 2006-04-25 | Storage Technology Corporation | Data management with virtual recovery mapping and backward moves |
-
2020
- 2020-09-29 CN CN202011049938.4A patent/CN112232944B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108366045A (zh) * | 2018-01-02 | 2018-08-03 | 北京奇艺世纪科技有限公司 | 一种风控评分卡的设置方法和装置 |
CN109636591A (zh) * | 2018-12-28 | 2019-04-16 | 浙江工业大学 | 一种基于机器学习的信用评分卡开发方法 |
CN109598095A (zh) * | 2019-01-07 | 2019-04-09 | 平安科技(深圳)有限公司 | 评分卡模型的建立方法、装置、计算机设备和存储介质 |
CN110533519A (zh) * | 2019-05-16 | 2019-12-03 | 杭州排列科技有限公司 | 基于决策树的特征分箱算法 |
CN110648215A (zh) * | 2019-08-15 | 2020-01-03 | 上海新颜人工智能科技有限公司 | 分布式评分卡模型建立方法 |
CN110879821A (zh) * | 2019-11-11 | 2020-03-13 | 彩讯科技股份有限公司 | 评分卡模型衍生标签生成方法、装置、设备及存储介质 |
CN111311400A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 基于gbdt算法的评分卡模型的建模方法及其*** |
CN111311128A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于第三方数据的消费金融信用评分卡开发方法 |
CN111563810A (zh) * | 2020-04-28 | 2020-08-21 | 北京云从科技有限公司 | 信贷风控模型生成方法、信用评估方法、***、机器可读介质及设备 |
Non-Patent Citations (2)
Title |
---|
基于经典评分卡与机器学习的金融风险识别模型及其应用;白婧怡;《中国优秀硕士学位论文全文数据库经济与管理科学辑》(第9期);参见正文第13-15, 24-31,42页 * |
多维数据环境中决策支持相关技术研究及应用;于海鸿;《中国博士学位论文全文数据库信息科技辑》(第4期);参见正文第44-61页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112232944A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和*** | |
CN112232944B (zh) | 一种评分卡创建方法、装置和电子设备 | |
CN108475393A (zh) | 通过合成特征和梯度提升决策树进行预测的***和方法 | |
CN105718490A (zh) | 一种用于更新分类模型的方法及装置 | |
CN110400215B (zh) | 面向企业家族的小微企业信用评估模型构建方法及*** | |
CN107689008A (zh) | 一种用户投保行为预测的方法及装置 | |
CN107230108A (zh) | 业务数据的处理方法及装置 | |
US20200090058A1 (en) | Model variable candidate generation device and method | |
CN110930218A (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN110728301A (zh) | 一种个人用户的信用评分方法、装置、终端及存储介质 | |
CN110782349A (zh) | 一种模型训练方法和*** | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及*** | |
WO2022183019A1 (en) | Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact | |
CN114693428A (zh) | 数据确定方法、装置、计算机可读存储介质及电子设备 | |
CN114170000A (zh) | ***用户风险类别识别方法、装置、计算机设备和介质 | |
CN114049202A (zh) | 操作风险识别方法、装置、存储介质及电子设备 | |
CN113379212A (zh) | 基于区块链的物流信息平台违约风险评估方法、装置、设备及介质 | |
Thakur et al. | An allotment of H1B work VISA in USA using machine learning | |
KR102576143B1 (ko) | 거절자 추론 없이 대출 실행 데이터를 활용하여 신용 평가 모형을 연속 학습하는 방법 및 이 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 기록 매체 | |
Artzi | Predictive Analytics Techniques: Theory and Applications in Finance | |
CN118333737A (zh) | 构建零***风险预测模型的方法和消费信贷业务Scorebetai模型 | |
Mattanelli | Binning numerical variables in credit risk models | |
CN118071483A (zh) | 构建零***风险预测模型的方法和个人信贷业务Scorepsi模型 | |
CN118071482A (zh) | 构建零***风险预测模型的方法和消费信贷业务Scorebetad模型 | |
CN117994017A (zh) | 构建零***风险预测模型的方法和线上信贷业务Scoredelta模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |