CN110533519A - 基于决策树的特征分箱算法 - Google Patents

基于决策树的特征分箱算法 Download PDF

Info

Publication number
CN110533519A
CN110533519A CN201910404896.2A CN201910404896A CN110533519A CN 110533519 A CN110533519 A CN 110533519A CN 201910404896 A CN201910404896 A CN 201910404896A CN 110533519 A CN110533519 A CN 110533519A
Authority
CN
China
Prior art keywords
branch mailbox
decision tree
sample
algorithm
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910404896.2A
Other languages
English (en)
Inventor
段兆阳
孙博
杨森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Arrangement Technology Co Ltd
Original Assignee
Hangzhou Arrangement Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Arrangement Technology Co Ltd filed Critical Hangzhou Arrangement Technology Co Ltd
Priority to CN201910404896.2A priority Critical patent/CN110533519A/zh
Publication of CN110533519A publication Critical patent/CN110533519A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于决策树的特征分箱算法,包括建模数据样本、特征变量与目标变量组合、设置限制条件、决策树分箱和产生分箱结果;本发明所提供的设备可以应用机器学习决策树算法产生一定条件下的最佳分箱结果,最终生成的分箱结果达到了数据意义上的最佳体现以及消除了建模人员主观意识的干扰性。将此算法嵌入到传统评分卡模型或其他新兴机器学习的建立当中,可以明显提高金融行业传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。

Description

基于决策树的特征分箱算法
技术领域
本发明属于金融场景个人信用信用风险评估技术领域,具体涉及基于决策树的特征分箱算法。
背景技术
信用评分模型是根据银行或互联网金融客户的各种历史信用资料,得到不同等级的信用分数,根据客户的信用分数,授信机构可以通过分析客户贷后还款的可能性来决定是否给予授信以及授信的额度和利率。
传统上银行或金融机构采取人工审批的方式,根据审批人员的个人经验进行主观的审批判断,使得审批决策很容易受主观因素的影响,导致审批结果不一致,不能够量化风险级别,无法实现风险的分级管理,而且会使得审批过程成本高、效率低。因此,这一状况就决定了客观准确的评分卡模型的建立需求。评分卡模型运用现代的数理统计模型技术,通过对申请人信用历史记录和业务活动记录的深入挖掘,提炼出信息可以预测申请者欺诈信用逾期的概率大小。
评分卡模型是最重要、最常用的信用评分模型,而其中字段分箱操作是最为重要的一个环节。传统的建模工程师分箱操作会有很多主观因素的干预,分箱结果不能很好的反映特征变量在数据意义上的真实表现。而将机器学习中的决策树算法应用到分箱操作中去,可以高效的对于特征变量在数据意义上进行深度挖掘,避免人工干预,得到特征变量在一定限制条件内的最佳分箱效果。
传统上使用的等频或等距的分箱方法没有考虑特征变量在实际业务意义上的特点,而且也没有真正实现数据意义上的较优分箱,每箱数据并没有考虑对不同标签样本的区分能力。
传统建模工程师使用较多的分箱方法是每个特征变量的业务意义,以及业务人员的行业经验,对每个特征手动选取分箱点,将数据样本按照主观业务经验实现分箱。该方法虽然有它的优点,即可以在业务意义上有较好的解释性,但是此方法也存在很大的缺陷:
1、传统的方法没有达到一定限制条件下分箱的最优效果,在分箱结果的信息值IV(information value)上会有较大的损失,会影响模型的最终效果;
2、传统的方法比较主观,不具有统一适用性,不同的建模工程师做出的效果好坏不稳定。
发明内容
本发明的目的在于提供基于决策树的特征分箱算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于决策树的特征分箱算法,包括如下步骤:
S1、对建模数据样本进行特征变量与目标变量组合;
S2、设置决策树分箱算法中的限制条件,包括决策树最大深度,叶子节点最小样本数及特殊样本数等条件,并且设置决策树最优切分点判断指标采用Gini指标;
S3、按照限制条件,遍历所有特征变量与目标变量的组合,排除特殊样本,使用决策树算法对所有排除特殊样本后的组合进行运算分箱;
S4、将特殊样本按照限制条件分为对应数量的组,与步骤(b)形成的分箱结果进行合并,形成最终的分箱结果。
优选的,在S2中,所述决策树分箱本质上是进行二元分类,以CART为例,依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行比较,基尼变化程度最大的切分点即为最优切分点,然后再按照相同的方法分别对切分后的数据集进行再次切分,直到树的深度或叶子节点数达到一定要求为止。
优选的,在S2中,Gini指标计算式如下:
D1={(x,y)∈D|A(x)=a};
D2=D-D1
其中,D表示样本集合,A表示某一特征变量,a表示特征变量的某一切分点,D1和D2表示被可能值a切分为的两组样本,K表示样本类别数量,C1K是D1样本集合中第K类的样本子集,|D|表示样本D的样本个数。
与现有技术相比,本发明的有益效果是:本发明所提供的设备可以应用机器学习决策树算法产生一定条件下的最佳分箱结果,最终生成的分箱结果达到了数据意义上的最佳体现以及消除了建模人员主观意识的干扰性。将此算法嵌入到传统评分卡模型或其他新兴机器学习的建立当中,可以明显提高金融行业传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。
附图说明
图1为本发明的算法流程示意图;
图2为本发明中决策树的结构示意图;
具体实施方式
下面结合实施例对本发明做进一步的描述。
以下实施例用于说明本发明,但不能用来限制本发明的保护范围。实施例中的条件可以根据具体条件做进一步的调整,在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。
请参阅图1-2,基于决策树的特征分箱算法,包括如下步骤:
S1、对建模数据样本进行特征变量与目标变量组合;
S2、设置决策树分箱算法中的限制条件,包括决策树最大深度,叶子节点最小样本数及特殊样本数等条件,所述决策树分箱本质上是进行二元分类,以CART为例,依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行比较,基尼变化程度最大的切分点即为最优切分点,然后再按照相同的方法分别对切分后的数据集进行再次切分,直到树的深度或叶子节点数达到一定要求为止,并且设置决策树最优切分点判断指标采用Gini指标,Gini指标计算式如下:
D1={(x,y)∈D|A(x)=a};
D2=D-D1
其中,D表示样本集合,A表示某一特征变量,a表示特征变量的某一切分点,D1和D2表示被可能值a切分为的两组样本,K表示样本类别数量,C1K是D1样本集合中第K类的样本子集,|D|表示样本D的样本个数;
S3、按照限制条件,遍历所有特征变量与目标变量的组合,排除特殊样本,使用决策树算法对所有排除特殊样本后的组合进行运算分箱;
S4、将特殊样本按照限制条件分为对应数量的组,与步骤(b)形成的分箱结果进行合并,形成最终的分箱结果。
对比案例:
对比本算法与等频分箱算法的分箱结果,选取20个变量的分箱结果如表1所示,其中大部分变量采用决策树算法的分箱IV值均比等频分箱IV值提升20%以上,针对这20个变量决策树算法将变量分箱IV值平均提升了46.3%。
表1.决策树算法与等频分箱算法效果对比
本算法在互联网金融行业的消费分期行业、小微企业贷款行业、大额现金分期等行业得以应用,应用效果是在不影响模型稳定性的前提下,使得模型的效果大大提升,对于数据样本特征挖掘更深入更复杂,充分展现了数据样本包含的信息。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.基于决策树的特征分箱算法,其特征在于,包括如下步骤:
S1、对建模数据样本进行特征变量与目标变量组合;
S2、设置决策树分箱算法中的限制条件,包括决策树最大深度,叶子节点最小样本数及特殊样本数等条件,并且设置决策树最优切分点判断指标采用Gini指标;
S3、按照限制条件,遍历所有特征变量与目标变量的组合,排除特殊样本,使用决策树算法对所有排除特殊样本后的组合进行运算分箱;
S4、将特殊样本按照限制条件分为对应数量的组,与步骤(b)形成的分箱结果进行合并,形成最终的分箱结果。
2.根据权利要求1所述的基于决策树的特征分箱算法,其特征在于,在S2中,所述决策树分箱本质上是进行二元分类,以CART为例,依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行比较,基尼变化程度最大的切分点即为最优切分点,然后再按照相同的方法分别对切分后的数据集进行再次切分,直到树的深度或叶子节点数达到一定要求为止。
3.根据权利要求2所述的基于决策树的特征分箱算法,其特征在于,在S2中,Gini指标计算式如下:
D1={(x,y)∈D|A(x)=a};
D2=D-D1
其中,D表示样本集合,A表示某一特征变量,a表示特征变量的某一切分点,D1和D2表示被可能值a切分为的两组样本,K表示样本类别数量,C1K是D1样本集合中第K类的样本子集,|D|表示样本D的样本个数。
CN201910404896.2A 2019-05-16 2019-05-16 基于决策树的特征分箱算法 Pending CN110533519A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910404896.2A CN110533519A (zh) 2019-05-16 2019-05-16 基于决策树的特征分箱算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910404896.2A CN110533519A (zh) 2019-05-16 2019-05-16 基于决策树的特征分箱算法

Publications (1)

Publication Number Publication Date
CN110533519A true CN110533519A (zh) 2019-12-03

Family

ID=68659188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910404896.2A Pending CN110533519A (zh) 2019-05-16 2019-05-16 基于决策树的特征分箱算法

Country Status (1)

Country Link
CN (1) CN110533519A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232944A (zh) * 2020-09-29 2021-01-15 中诚信征信有限公司 一种评分卡创建方法、装置和电子设备
CN112232951A (zh) * 2020-12-17 2021-01-15 中证信用云科技(深圳)股份有限公司 基于多维度交叉特征的信用评价方法、装置、设备及介质
CN113516513A (zh) * 2021-07-20 2021-10-19 重庆度小满优扬科技有限公司 数据分析方法、装置、计算机设备和存储介质
CN117076906A (zh) * 2023-08-18 2023-11-17 云和恩墨(北京)信息技术有限公司 分布式智能故障诊断方法和***、计算机设备、存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232944A (zh) * 2020-09-29 2021-01-15 中诚信征信有限公司 一种评分卡创建方法、装置和电子设备
CN112232944B (zh) * 2020-09-29 2024-05-31 中诚信征信有限公司 一种评分卡创建方法、装置和电子设备
CN112232951A (zh) * 2020-12-17 2021-01-15 中证信用云科技(深圳)股份有限公司 基于多维度交叉特征的信用评价方法、装置、设备及介质
CN112232951B (zh) * 2020-12-17 2021-04-27 中证信用云科技(深圳)股份有限公司 基于多维度交叉特征的信用评价方法、装置、设备及介质
CN113516513A (zh) * 2021-07-20 2021-10-19 重庆度小满优扬科技有限公司 数据分析方法、装置、计算机设备和存储介质
CN117076906A (zh) * 2023-08-18 2023-11-17 云和恩墨(北京)信息技术有限公司 分布式智能故障诊断方法和***、计算机设备、存储介质
CN117076906B (zh) * 2023-08-18 2024-02-23 云和恩墨(北京)信息技术有限公司 分布式智能故障诊断方法和***、计算机设备、存储介质

Similar Documents

Publication Publication Date Title
CN110533519A (zh) 基于决策树的特征分箱算法
CN110852856B (zh) 一种基于动态网络表征的***虚开识别方法
CN112017025A (zh) 一种基于深度学习与逻辑回归相融合的企业信用评估方法
TW201732662A (zh) 一種建立資料識別模型的方法及裝置
CN111461216A (zh) 一种基于机器学习的案件风险识别方法
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
CN112613977A (zh) 一种基于政务数据的个人信用贷款准入授信方法及***
Fan et al. Improved ML‐based technique for credit card scoring in Internet financial risk control
CN107609771A (zh) 一种供应商价值评价方法
CN106530139A (zh) 电网投资分析模型指标参数计算方法
CN107563451A (zh) 一种泵站稳态工况下运行状态识别方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN103942604B (zh) 基于森林区分度模型的预测方法及***
CN111951093A (zh) 一种个人信用分评分方法
CN117010914A (zh) 风险团伙的识别方法、装置、计算机设备及存储介质
CN105741173A (zh) 农业类公司投资价值评估方法及***
CN110196797A (zh) 适于信用评分卡***的自动优化方法和***
CN110866694A (zh) 一种电网建设项目财务评价***及其方法
CN116051053A (zh) 一种科技项目申报流程精细化管理***
CN115907533A (zh) 一种评估个体工商户持续经营能力的方法及***
CN106022915A (zh) 企业信用风险评估方法和装置
CN116167629A (zh) 一种分布式的策略自动化生成方法、***及存储介质
CN114529255A (zh) 一种基于风控评分卡的贷款自动审批方法及***
CN115330147A (zh) 一种基于银行业务的多层次topsis对私客户综合评价方法
Bălan Stochastic methods for prediction of the bankruptcy risk of SMEs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination