CN112785415B - 评分卡模型构建方法、装置、设备及计算机可读存储介质 - Google Patents
评分卡模型构建方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112785415B CN112785415B CN202110078425.4A CN202110078425A CN112785415B CN 112785415 B CN112785415 B CN 112785415B CN 202110078425 A CN202110078425 A CN 202110078425A CN 112785415 B CN112785415 B CN 112785415B
- Authority
- CN
- China
- Prior art keywords
- node
- model
- positive sample
- determining
- gbdt model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002159 abnormal effect Effects 0.000 claims abstract description 148
- 238000003066 decision tree Methods 0.000 claims abstract description 143
- 238000012549 training Methods 0.000 claims abstract description 82
- 230000006399 behavior Effects 0.000 claims description 23
- 238000010276 construction Methods 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Accounting & Taxation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种评分卡模型构建方法、装置、设备及计算机可读存储介质,该方法包括:获取客户的信用行为数据,并将所述信用行为数据作为训练数据,以基于所述训练数据对GBDT模型进行训练,其中,所述GBDT模型包括多棵决策树;在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点,并对所述待定异常节点进行校验,确定所述待定异常节点中的异常节点;基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型。本发明通过控制GBDT模型内部的结构,对GBDT模型进行优化,使评分卡模型不仅保留了GBDT模型的优秀效果,而且保证了模型的可解释性。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种评分卡模型构建方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
现有的评分卡模型通常使用通用型评分卡模型或者GBDT模型。其中,金融场景的通用型评分卡模型依次采用变量分箱、WOE转换、之后再利用逻辑回归拟合的方法进行构建评分卡模型,其全过程可以人工介入干预模型,可以避免模型朝着错误的方向拟合。GBDT模型属于黑箱模型,给定输入的变量,输入的目标标签,GBDT直接按照拟合误差最小的方向去训练;由于数据源可能存在噪音,GBDT模型可能会拟合这些噪音,导致模型不够精确,用在金融场景,会发生误判等情况,容易造成资金损失。
但是,通用型评分卡模型属于简单可解释的模型,但是模型预测效果不佳;而GBDT模型属于集成树模型,虽然模型效果好但是欠缺解释性。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种评分卡模型构建方法、装置、设备及计算机可读存储介质,旨在解决GBDT模型可解释性差的技术问题。
为实现上述目的,本发明提供一种评分卡模型构建方法,所述评分卡模型构建方法包括以下步骤:
获取客户的信用行为数据,并将所述信用行为数据作为训练数据,以基于所述训练数据对GBDT模型进行训练,其中,所述GBDT模型包括多棵决策树;
在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点,并对所述待定异常节点进行校验,确定所述待定异常节点中的异常节点;
基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型。
可选地,在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点的步骤包括:
在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树中的非叶子节点各分支的正样本占比,以及确定所述非叶子节点对应的单变量趋势;
基于所述正样本占比和所述单变量趋势,确定所述非叶子节点中的待定异常节点。
可选地,所述基于所述正样本占比和所述单变量趋势,确定所述非叶子节点中的待定异常节点的步骤包括:
确定所述非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比;
基于所述第一正样本占比和第二正样本占比,确定所述GBDT模型在所述非叶子节点上的节点趋势;
基于所述GBDT模型在所述非叶子节点上的节点趋势和所述单变量趋势,确定所述非叶子节点中的待定异常节点。
可选地,所述基于所述GBDT模型在所述非叶子节点上的节点趋势和所述单变量趋势,确定所述非叶子节点中的待定异常节点的步骤包括:
检测所述GBDT模型在所述非叶子节点上的节点趋势与所述单变量趋势是否一致;
将所述节点趋势与所述单变量趋势一致的非叶子节点作为所述非叶子节点中的待定异常节点。
可选地,所述基于所述第一正样本占比和第二正样本占比,确定所述GBDT模型在所述非叶子节点上的节点趋势的步骤包括:
将所述第一正样本占比和第二正样本占比进行比较;
若所述第一正样本占比小于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为正;
若所述第一正样本占比大于或等于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为负。
可选地,所述基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型的步骤包括:
基于所述训练数据,重新训练所述GBDT模型中的各决策树;
在训练所述GBDT模型的各个决策树时,若遍历到所述决策树中的异常节点,则停止遍历所述异常节点以及所述异常节点对应的子孙节点;
在遍历到所述异常节点对应的叶子节点时,将所述异常节点对应的叶子节点输出的残差修正成对应的叶子节点的正样本占比,并在遍历完成所述决策树中的各节点后生成剪枝后以及修正后的决策树的结构文件;
基于所述结构文件,再重新训练所述GBDT模型中的各决策树,以构建评分卡模型。
可选地,所述基于所述结构文件,再重新训练所述GBDT模型中的各决策树,确定评分卡模型的步骤包括:
基于所述结构文件,重新训练所述GBDT模型,并确定所述GBDT模型中各所述决策树的输出结果;
基于所述决策树的输出结果以及预先训练的逻辑回归模型,对所述GBDT模型的决策树系数进行优化,在优化完成所述GBDT模型完成后,确定评分卡模型。
此外,为实现上述目的,本发明还提供一种评分卡模型构建装置,所述评分卡模型构建装置包括:
第一训练模块,用于获取客户的信用行为数据,并将所述信用行为数据作为训练数据,以基于所述训练数据对GBDT模型进行训练,其中,所述GBDT模型包括多棵决策树;
确定模块,用于在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点,并对所述待定异常节点进行校验,确定所述待定异常节点中的异常节点;
第二训练模块,用于基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型。
此外,为实现上述目的,本发明还提供一种评分卡模型构建设备,所述评分卡模型构建设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的评分卡模型构建程序,所述评分卡模型构建程序被所述处理器执行时实现如上述的评分卡模型构建方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有评分卡模型构建程序,所述评分卡模型构建程序被处理器执行时实现如上述的评分卡模型构建方法的步骤。
本发明通过获取客户的信用行为数据,并将所述信用行为数据作为训练数据,以基于所述训练数据对GBDT模型进行训练,其中,所述GBDT模型包括多棵决策树;在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点,并对所述待定异常节点进行校验,确定所述待定异常节点中的异常节点;基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型。在本实施例中,通过介入到GBDT模型的内部,在第一次训练时确定GBDT模型的决策树中的异常节点,以及在确定异常节点后重新对GBDT模型进行训练,进行构建评分卡模型,从而实现控制GBDT模型内部的结构,对GBDT模型进行优化,使评分卡模型不仅保留了GBDT模型的优秀效果,而且保证了模型的可解释性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的评分卡模型构建设备结构示意图;
图2为本发明评分卡模型构建方法第一实施例的流程示意图;
图3为本发明评分卡模型构建方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的评分卡模型构建设备结构示意图。
本发明实施例评分卡模型构建设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该评分卡模型构建设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的评分卡模型构建设备结构并不构成对评分卡模型构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及评分卡模型构建程序。
在图1所示的评分卡模型构建设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的评分卡模型构建程序。
在本实施例中,评分卡模型构建设备包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的评分卡模型构建程序,其中,处理器1001调用存储器1005中存储的评分卡模型构建程序时,并执行以下操作:
获取客户的信用行为数据,并将所述信用行为数据作为训练数据,以基于所述训练数据对GBDT模型进行训练,其中,所述GBDT模型包括多棵决策树;
在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点,并对所述待定异常节点进行校验,确定所述待定异常节点中的异常节点;
基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型。
进一步地,处理器1001可以调用存储器1005中存储的评分卡模型构建程序,还执行以下操作:
在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树中的非叶子节点各分支的正样本占比,以及确定所述非叶子节点对应的单变量趋势;
基于所述正样本占比和所述单变量趋势,确定所述非叶子节点中的待定异常节点。
进一步地,处理器1001可以调用存储器1005中存储的评分卡模型构建程序,还执行以下操作:
确定所述非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比;
基于所述第一正样本占比和第二正样本占比,确定所述GBDT模型在所述非叶子节点上的节点趋势;
基于所述GBDT模型在所述非叶子节点上的节点趋势和所述单变量趋势,确定所述非叶子节点中的待定异常节点。
进一步地,处理器1001可以调用存储器1005中存储的评分卡模型构建程序,还执行以下操作:
检测所述GBDT模型在所述非叶子节点上的节点趋势与所述单变量趋势是否一致;
将所述节点趋势与所述单变量趋势一致的非叶子节点作为所述非叶子节点中的待定异常节点。
进一步地,处理器1001可以调用存储器1005中存储的评分卡模型构建程序,还执行以下操作:
将所述第一正样本占比和第二正样本占比进行比较;
若所述第一正样本占比小于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为正;
若所述第一正样本占比大于或等于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为负。
进一步地,处理器1001可以调用存储器1005中存储的评分卡模型构建程序,还执行以下操作:
基于所述训练数据,重新训练所述GBDT模型中的各决策树;
在训练所述GBDT模型的各个决策树时,若遍历到所述决策树中的异常节点,则停止遍历所述异常节点以及所述异常节点对应的子孙节点;
在遍历到所述异常节点对应的叶子节点时,将所述异常节点对应的叶子节点输出的残差修正成对应的叶子节点的正样本占比,并在遍历完成所述决策树中的各节点后生成剪枝后以及修正后的决策树的结构文件;
基于所述结构文件,再重新训练所述GBDT模型中的各决策树,以构建评分卡模型。
进一步地,处理器1001可以调用存储器1005中存储的评分卡模型构建程序,还执行以下操作:
基于所述结构文件,重新训练所述GBDT模型,并确定所述GBDT模型中各所述决策树的输出结果;
基于所述决策树的输出结果以及预先训练的逻辑回归模型,对所述GBDT模型的决策树系数进行优化,在优化完成所述GBDT模型完成后,确定评分卡模型。
本发明还提供一种评分卡模型构建方法,参照图2,图2为本发明评分卡模型构建方法第一实施例的流程示意图。
在本实施例中,该评分卡模型构建方法包括以下步骤:
步骤S10,获取客户的信用行为数据,并将所述信用行为数据作为训练数据,以基于所述训练数据对GBDT模型进行训练,其中,所述GBDT模型包括多棵决策树;
本发明提出的***评分模型应用于贷款机构,用于构建应用在金融场景的一种基于GBDT的可解释评分卡模型,通过介入到GBDT模型内部对模型内部的结构进行控制,不仅可以保留了GBDT模型的优秀效果,又能控制模型内部的结构,保证了模型的解释性,从而解决了GBDT模型的可解释性差的技术问题,可以使得基于GBDT模型训练出来的评分卡模型效果好以及可解释性高。其中,GBDT(Gradient Boosting Decision Tree,梯度提升决策树)模型为用梯度提升的策略训练出来的决策树模型。
在本实施例中,客户的信用行为数据包括客户的信用历史记录和业务表现记录,其中,信用历史记录为客户在人民银行所记录到的个人征信记录,业务表现记录为该客户在该贷款机构关于贷款业务的行为表现的记录数据,包括贷款金额、借款时间以及还款时间等等。在构建评分卡模型的过程中,先获取客户的信用数据,并将该信用数据作为训练GBDT模型的训练数据;之后,将该训练数据输入至GBDT模型中,以对该GBDT模型进行训练,其中,GBDT模型为用梯度提升的策略训练出来的决策树模型,GBDT模型包括多棵决策树。
步骤S20,在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点,并对所述待定异常节点进行校验,确定所述待定异常节点中的异常节点;
在本实施例中,在对GBDT模型中的各决策树进行训练时,对于该GBDT模型中的所有决策树,遍历各个决策树中的节点,以确定各个决策树中的非叶子节点;对非叶子节点中样本的决策结果进行处理,确定非叶子节点中的待定异常节点,从而检测出GBDT模型对应的决策树中的非叶子节点中的异常节点,且当前步骤所确定的异常节点为待定的异常节点,后续还需要对待定异常节点进行进一步地分析,以确定待定异常节点中的异常节点。在确定决策树对应的非叶子节点中的异常节点之后,对于该GBDT模型中的所有决策树,对决策树的待定异常节点进行校验,以确定待定异常节点中的异常节点。
步骤S30,基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型。
在本实施例中,在确定GBDT模型的决策树中的异常节点后,获取客户的信用行为数据,并将该信用行为数据作为GBDT模型的训练数据,以对GBDT模型重新进行训练。在训练该GBDT模型的各个决策树时,若遍历到决策树中的异常节点,则停止遍历该异常节点和该异常节点对应的子孙节点,并且在遍历到异常节点对应的叶子节点时,将异常节点对应的叶子节点输出的残差改成叶子节点的正样本比例,以使评分卡模型更符合专家经验。
本实施例提出的评分卡模型构建方法,通过获取客户的信用行为数据,并将所述信用行为数据作为训练数据,以基于所述训练数据对GBDT模型进行训练,其中,所述GBDT模型包括多棵决策树;在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点,并对所述待定异常节点进行校验,确定所述待定异常节点中的异常节点;基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型。在本实施例中,通过介入到GBDT模型的内部,在第一次训练时确定GBDT模型的决策树中的异常节点,以及在确定异常节点后重新对GBDT模型进行训练,进行构建评分卡模型,从而实现控制GBDT模型内部的结构,对GBDT模型进行优化,使评分卡模型不仅保留了GBDT模型的优秀效果,而且保证了模型的可解释性。
基于第一实施例,提出本发明评分卡模型构建方法的第二实施例,参照图3,在本实施例中,步骤S20包括:
步骤S21,在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树中的非叶子节点各分支的正样本占比,以及确定所述非叶子节点对应的单变量趋势;
步骤S22,基于所述正样本占比和所述单变量趋势,确定所述非叶子节点中的待定异常节点。
在本实施例中,在对GBDT模型中的各决策树进行训练时,对于该GBDT模型中的所有决策树,遍历各个决策树中的节点,以确定各个决策树中的非叶子节点。具体地,在对GBDT模型中的各所述决策树进行训练时,对非叶子节点中样本的决策结果进行处理,确定决策树中的非叶子节点各分支的正样本占比;在确定非叶子节点各分支的正样本占比后,基于专家经验确定非叶子节点对应的单变量趋势。之后,根据正样本占比和单变量趋势,将正样本占比与单变量趋势进行比较,确定非叶子节点中的待定异常节点,从而检测出GBDT模型对应的决策树中的非叶子节点中的异常节点,且当前步骤所确定的异常节点为待定的异常节点,后续还需要对待定异常节点进行进一步地分析,以确定待定异常节点中的异常节点。
进一步地,所述基于所述正样本占比和所述单变量趋势,确定所述非叶子节点中的待定异常节点的步骤包括:
步骤S221,确定所述非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比;
步骤S222,基于所述第一正样本占比和第二正样本占比,确定所述GBDT模型在所述非叶子节点上的节点趋势;
步骤S223,基于所述GBDT模型在所述非叶子节点上的节点趋势和所述单变量趋势,确定所述非叶子节点中的待定异常节点。
在本实施例中,非叶子节点各分支的正样本占比包括非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比。在对GBDT模型中的各所述决策树进行训练时,对非叶子节点中样本的决策结果进行处理,确定决策树中非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比。
在确定非叶子节点各分支的正样本占比后,将第一正样本占比和第二正样本占比进行比较,以确定在非叶子节点上的节点趋势;以及基于专家经验确定非叶子节点对应的单变量趋势。之后,根据节点趋势和单变量趋势,将节点趋势与单变量趋势进行比较,确定非叶子节点中的待定异常节点,从而检测出GBDT模型对应的决策树中的非叶子节点中的异常节点,且当前步骤所确定的异常节点为待定的异常节点,后续还需要对待定异常节点进行进一步地分析,以确定待定异常节点中的异常节点。
进一步地,所述基于所述GBDT模型在所述非叶子节点上的节点趋势和所述单变量趋势,确定所述非叶子节点中的待定异常节点的步骤包括:
步骤S2231,检测所述GBDT模型在所述非叶子节点上的节点趋势与所述单变量趋势是否一致;
步骤S2232,将所述节点趋势与所述单变量趋势一致的非叶子节点作为所述非叶子节点中的待定异常节点。
在本实施例中,对于决策树中的各个非叶子节点,确定在非叶子节点上的节点趋势以及确定非叶子节点对应的单变量趋势之后,根据节点趋势和单变量趋势,通过检测GBDT模型在非叶子节点上的节点趋势与专家经验对应的单变量趋势是否一致,以将节点趋势与单变量趋势进行比较,从而确定非叶子节点中的待定异常节点。具体地,若非叶子节点对应的节点趋势与对应的单变量趋势一致,则该非叶子节点为正常节点;若非叶子节点对应的节点趋势与对应的单变量趋势不一致,则该非叶子节点为待定异常节点。将所述节点趋势与所述单变量趋势一致的非叶子节点作为所述非叶子节点中的待定异常节点,从而检测出GBDT模型对应的决策树中的非叶子节点中的待定异常节点。
进一步地,所述基于所述第一正样本占比和第二正样本占比,确定所述GBDT模型在所述非叶子节点上的节点趋势的步骤包括:
步骤S2221,将所述第一正样本占比和第二正样本占比进行比较;
步骤S2222,若所述第一正样本占比小于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为正;
步骤S2223,若所述第一正样本占比大于或等于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为负。
在本实施例中,在确定非叶子节点各分支的正样本占比后,将第一正样本占比和第二正样本占比进行比较,以确定在非叶子节点上的节点趋势。具体地,若第一正样本占比小于第二正样本占比,即非叶子节点左分支对应的第一正样本占比小于对应的右分支的第二正样本占比,则GBDT模型在非叶子节点上的节点趋势为正;若第一正样本占比大于或等于第二正样本占比,即非叶子节点左分支对应的第一正样本占比大于或等于对应的右分支的第二正样本占比,则GBDT模型在非叶子节点上的节点趋势为负。
进一步地,所述确定所述非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比的步骤包括:
步骤S2211,获取所述非叶子节点左分支的第一正样本数、所述非叶子节点右分支的第二正样本数以及所述非叶子节点上的样本数;
步骤S2212,基于所述第一正样本数和所述样本数,确定所述非叶子节点左分支的第一正样本占比;
步骤S2213,基于所述第二正样本数和所述样本数,确定所述非叶子节点右分支的第二正样本占比。
在本实施例中,非叶子节点各分支的正样本占比包括非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比。在对GBDT模型中的各所述决策树进行训练时,对非叶子节点中样本的决策结果进行处理,确定决策树中非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比。具体地,对于GBDT模型中的各个决策树,获取决策树中非叶子节点左分支的第一正样本数、非叶子节点右分支的第二正样本数以及非叶子节点上的样本数;之后,根据第一正样本数和非叶子节点的总的样本数,计算第一正样本数在样本数中的占比,得到非叶子节点左分支的第一正样本占比;根据第二正样本数和非叶子节点上的总的样本数,计算第二正样本数在样本数中的占比,得到非叶子节点右分支的第二正样本占比。
进一步地,所述基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型的步骤包括:
步骤S31,基于所述训练数据,重新训练所述GBDT模型中的各决策树;
步骤S32,在训练所述GBDT模型的各个决策树时,若遍历到所述决策树中的异常节点,则停止遍历所述异常节点以及所述异常节点对应的子孙节点;
步骤S33,在遍历到所述异常节点对应的叶子节点时,将所述异常节点对应的叶子节点输出的残差修正成对应的叶子节点的正样本占比,并在遍历完成所述决策树中的各节点后生成剪枝后以及修正后的决策树的结构文件;
步骤S34,基于所述结构文件,再重新训练所述GBDT模型中的各决策树,以构建评分卡模型。
在本实施例中,在确定GBDT模型的决策树中的异常节点后,获取客户的信用行为数据,并将该信用行为数据作为GBDT模型的训练数据,以对GBDT模型重新进行训练。在训练该GBDT模型的各个决策树时,若遍历到决策树中的异常节点,则停止遍历该异常节点和该异常节点对应的子孙节点,以对决策树中节点所在的分支进行剪枝;并且在遍历到异常节点对应的叶子节点时,将异常节点对应的叶子节点输出的残差改成对应的叶子节点的正样本占比,以修正异常节点所在的分支的节点结果,以使评分卡模型更符合专家经验。在对异常节点所在分支进行剪枝以及修正后,生成剪枝和修正后的决策树对应的结构文件,以供后续基于包含剪枝后以及修正后的决策树的结构文件,再重新对GBDT模型进行训练,以构建评分卡模型。
进一步地,所述基于所述结构文件,再重新训练所述GBDT模型中的各决策树,确定评分卡模型的步骤包括:
步骤S341,基于所述结构文件,重新训练所述GBDT模型,并确定所述GBDT模型中各所述决策树的输出结果;
步骤S342,基于所述决策树的输出结果以及预先训练的逻辑回归模型,对所述GBDT模型的决策树系数进行优化,在优化完成所述GBDT模型完成后,确定评分卡模型。
在本实施例中,在确定GBDT模型的决策树中的异常节点后,获取客户的信用行为数据,并将该信用行为数据作为GBDT模型的训练数据,以对结构文件对应的决策树重新进行训练,得到GBDT模型中各决策树的输出结果。在训练该GBDT模型的各个决策树时,若遍历到决策树中的异常节点,则停止遍历该异常节点和该异常节点的子孙节点,并在遍历到异常节点对应的叶子节点时,将叶子节点对应的GBDT模型输出的输出结果修正成叶子节点的正样本比例,以使评分卡模型更符合专家经验。之后,在修正决策树中异常节点对应的叶子节点的输出结果后,根据修正后的输出结果以及预先训练的逻辑回归模型,继续对GBDT模型的决策树系数进行优化,在优化完成GBDT模型完成后,得到评分卡模型。
此外,本发明实施例还提出一种评分卡模型构建装置,所述评分卡模型构建装置包括:
第一训练模块,用于获取客户的信用行为数据,并将所述信用行为数据作为训练数据,以基于所述训练数据对GBDT模型进行训练,其中,所述GBDT模型包括多棵决策树;
确定模块,用于在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点,并对所述待定异常节点进行校验,确定所述待定异常节点中的异常节点;
第二训练模块,用于基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型。
进一步地,所述确定模块,还用于:
在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树中的非叶子节点各分支的正样本占比,以及确定所述非叶子节点对应的单变量趋势;
基于所述正样本占比和所述单变量趋势,确定所述非叶子节点中的待定异常节点。
进一步地,所述确定模块,还用于:
确定所述非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比;
基于所述第一正样本占比和第二正样本占比,确定所述GBDT模型在所述非叶子节点上的节点趋势;
基于所述GBDT模型在所述非叶子节点上的节点趋势和所述单变量趋势,确定所述非叶子节点中的待定异常节点。
进一步地,所述确定模块,还用于:
检测所述GBDT模型在所述非叶子节点上的节点趋势与所述单变量趋势是否一致;
将所述节点趋势与所述单变量趋势一致的非叶子节点作为所述非叶子节点中的待定异常节点。
进一步地,所述确定模块,还用于:
将所述第一正样本占比和第二正样本占比进行比较;
若所述第一正样本占比小于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为正;
若所述第一正样本占比大于或等于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为负。
进一步地,所述第二训练模块还用于:
基于所述训练数据,重新训练所述GBDT模型中的各决策树;
在训练所述GBDT模型的各个决策树时,若遍历到所述决策树中的异常节点,则停止遍历所述异常节点以及所述异常节点对应的子孙节点;
在遍历到所述异常节点对应的叶子节点时,将所述异常节点对应的叶子节点输出的残差修正成对应的叶子节点的正样本占比,并在遍历完成所述决策树中的各节点后生成剪枝后以及修正后的决策树的结构文件;
基于所述结构文件,再重新训练所述GBDT模型中的各决策树,以构建评分卡模型。
进一步地,所述第二训练模块还用于:
基于所述结构文件,重新训练所述GBDT模型,并确定所述GBDT模型中各所述决策树的输出结果;
基于所述决策树的输出结果以及预先训练的逻辑回归模型,对所述GBDT模型的决策树系数进行优化,在优化完成所述GBDT模型完成后,确定评分卡模型。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有评分卡模型构建程序,所述评分卡模型构建程序被处理器执行时实现如上述中任一项所述的评分卡模型构建方法的步骤。
本发明计算机可读存储介质具体实施例与上述评分卡模型构建方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种评分卡模型构建方法,其特征在于,所述评分卡模型构建方法包括以下步骤:
获取客户的信用行为数据,并将所述信用行为数据作为训练数据,以基于所述训练数据对GBDT模型进行训练,其中,所述GBDT模型包括多棵决策树;
在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点,并对所述待定异常节点进行校验,确定所述待定异常节点中的异常节点;
其中,所述在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点的步骤包括:
在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树中的非叶子节点各分支的正样本占比,以及确定所述非叶子节点对应的单变量趋势;
基于所述正样本占比和所述单变量趋势,确定所述非叶子节点中的待定异常节点;
其中,所述基于所述正样本占比和所述单变量趋势,确定所述非叶子节点中的待定异常节点的步骤包括:
确定所述非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比;
基于所述第一正样本占比和第二正样本占比,确定所述GBDT模型在所述非叶子节点上的节点趋势;
其中,所述基于所述第一正样本占比和第二正样本占比,确定所述GBDT模型在所述非叶子节点上的节点趋势的步骤包括:
将所述第一正样本占比和第二正样本占比进行比较;
若所述第一正样本占比小于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为正;
若所述第一正样本占比大于或等于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为负。
基于所述GBDT模型在所述非叶子节点上的节点趋势和所述单变量趋势,确定所述非叶子节点中的待定异常节点;
其中,所述基于所述GBDT模型在所述非叶子节点上的节点趋势和所述单变量趋势,确定所述非叶子节点中的待定异常节点的步骤包括:
检测所述GBDT模型在所述非叶子节点上的节点趋势与所述单变量趋势是否一致;
将所述节点趋势与所述单变量趋势一致的非叶子节点作为所述非叶子节点中的待定异常节点;
基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型。
2.如权利要求1所述的评分卡模型构建方法,其特征在于,所述基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型的步骤包括:
基于所述训练数据,重新训练所述GBDT模型中的各决策树;
在训练所述GBDT模型的各个决策树时,若遍历到所述决策树中的异常节点,则停止遍历所述异常节点以及所述异常节点对应的子孙节点;
在遍历到所述异常节点对应的叶子节点时,将所述异常节点对应的叶子节点输出的残差修正成对应的叶子节点的正样本占比,并在遍历完成所述决策树中的各节点后生成剪枝后以及修正后的决策树的结构文件;
基于所述结构文件,再重新训练所述GBDT模型中的各决策树,以构建评分卡模型。
3.如权利要求2所述的评分卡模型构建方法,其特征在于,所述基于所述结构文件,再重新训练所述GBDT模型中的各决策树,确定评分卡模型的步骤包括:
基于所述结构文件,重新训练所述GBDT模型,并确定所述GBDT模型中各所述决策树的输出结果;
基于所述决策树的输出结果以及预先训练的逻辑回归模型,对所述GBDT模型的决策树系数进行优化,在优化完成所述GBDT模型完成后,确定评分卡模型。
4.一种评分卡模型构建装置,其特征在于,所述评分卡模型构建装置包括:
第一训练模块,用于获取客户的信用行为数据,并将所述信用行为数据作为训练数据,以基于所述训练数据对GBDT模型进行训练,其中,所述GBDT模型包括多棵决策树;
确定模块,用于在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树的非叶子节点中的待定异常节点,并对所述待定异常节点进行校验,确定所述待定异常节点中的异常节点;
其中,所述确定模块还用于在对所述GBDT模型中的各所述决策树进行训练时,确定所述决策树中的非叶子节点各分支的正样本占比,以及确定所述非叶子节点对应的单变量趋势;
基于所述正样本占比和所述单变量趋势,确定所述非叶子节点中的待定异常节点;
确定所述非叶子节点左分支的第一正样本占比以及右分支的第二正样本占比;
基于所述第一正样本占比和第二正样本占比,确定所述GBDT模型在所述非叶子节点上的节点趋势;
将所述第一正样本占比和第二正样本占比进行比较;
若所述第一正样本占比小于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为正;
若所述第一正样本占比大于或等于所述第二正样本占比,则所述GBDT模型在所述非叶子节点上的节点趋势为负。
基于所述GBDT模型在所述非叶子节点上的节点趋势和所述单变量趋势,确定所述非叶子节点中的待定异常节点;
检测所述GBDT模型在所述非叶子节点上的节点趋势与所述单变量趋势是否一致;
将所述节点趋势与所述单变量趋势一致的非叶子节点作为所述非叶子节点中的待定异常节点;
第二训练模块,用于基于所述异常节点,重新训练所述GBDT模型,在训练完成所述GBDT模型后得到对应的评分卡模型。
5.一种评分卡模型构建设备,其特征在于,所述评分卡模型构建设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的评分卡模型构建程序,所述评分卡模型构建程序被所述处理器执行时实现如权利要求1至3中任一项所述的评分卡模型构建方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有评分卡模型构建程序,所述评分卡模型构建程序被处理器执行时实现如权利要求1至3中任一项所述的评分卡模型构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110078425.4A CN112785415B (zh) | 2021-01-20 | 2021-01-20 | 评分卡模型构建方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110078425.4A CN112785415B (zh) | 2021-01-20 | 2021-01-20 | 评分卡模型构建方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112785415A CN112785415A (zh) | 2021-05-11 |
CN112785415B true CN112785415B (zh) | 2024-01-12 |
Family
ID=75758025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110078425.4A Active CN112785415B (zh) | 2021-01-20 | 2021-01-20 | 评分卡模型构建方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112785415B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018188543A1 (zh) * | 2017-04-14 | 2018-10-18 | 腾讯科技(深圳)有限公司 | 征信分实时调整处理方法、装置及处理服务器 |
WO2019061187A1 (zh) * | 2017-09-28 | 2019-04-04 | 深圳乐信软件技术有限公司 | 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置 |
CN109587000A (zh) * | 2018-11-14 | 2019-04-05 | 上海交通大学 | 基于群智网络测量数据的高延迟异常检测方法及*** |
WO2019080407A1 (zh) * | 2017-10-25 | 2019-05-02 | 深圳壹账通智能科技有限公司 | 信贷评估方法、装置、设备及计算机可读存储介质 |
CN110796485A (zh) * | 2019-10-11 | 2020-02-14 | 上海上湖信息技术有限公司 | 一种提高预测模型的预测精度的方法及装置 |
CN111311400A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 基于gbdt算法的评分卡模型的建模方法及其*** |
CN111382911A (zh) * | 2020-03-20 | 2020-07-07 | 达而观信息科技(上海)有限公司 | 一种基于银行网点业务数据的高柜人员排班预测方法 |
-
2021
- 2021-01-20 CN CN202110078425.4A patent/CN112785415B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018188543A1 (zh) * | 2017-04-14 | 2018-10-18 | 腾讯科技(深圳)有限公司 | 征信分实时调整处理方法、装置及处理服务器 |
WO2019061187A1 (zh) * | 2017-09-28 | 2019-04-04 | 深圳乐信软件技术有限公司 | 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置 |
WO2019080407A1 (zh) * | 2017-10-25 | 2019-05-02 | 深圳壹账通智能科技有限公司 | 信贷评估方法、装置、设备及计算机可读存储介质 |
CN109587000A (zh) * | 2018-11-14 | 2019-04-05 | 上海交通大学 | 基于群智网络测量数据的高延迟异常检测方法及*** |
CN110796485A (zh) * | 2019-10-11 | 2020-02-14 | 上海上湖信息技术有限公司 | 一种提高预测模型的预测精度的方法及装置 |
CN111382911A (zh) * | 2020-03-20 | 2020-07-07 | 达而观信息科技(上海)有限公司 | 一种基于银行网点业务数据的高柜人员排班预测方法 |
CN111311400A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 基于gbdt算法的评分卡模型的建模方法及其*** |
Non-Patent Citations (1)
Title |
---|
基于数据挖掘的商户风险评分方法和***;孙权;赵金涛;;软件产业与工程(第01期);33-37页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112785415A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190340516A1 (en) | System and method for quantitatively analyzing an idea | |
US20170255753A1 (en) | Computerized System and Method of Open Account Processing | |
CN110704730A (zh) | 基于大数据的产品数据推送方法、***及计算机设备 | |
US20210312288A1 (en) | Method for training classification model, classification method, apparatus and device | |
CN112906384B (zh) | 基于bert模型的数据处理方法、装置、设备及可读存储介质 | |
CN112925911B (zh) | 基于多模态数据的投诉分类方法及其相关设备 | |
CN113298288A (zh) | 一种融合时间序列和神经网络的供电所运维成本预测方法 | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN113822488A (zh) | 融资租赁的风险预测方法、装置、计算机设备及存储介质 | |
CN117235233B (zh) | 一种基于大模型的财报自动化问答方法和装置 | |
CN113919432A (zh) | 一种分类模型构建方法、数据分类方法及装置 | |
CN113902260A (zh) | 信息预测方法、装置、电子设备和介质 | |
CN116843483A (zh) | 一种车险理赔方法、装置、计算机设备及存储介质 | |
CN112785415B (zh) | 评分卡模型构建方法、装置、设备及计算机可读存储介质 | |
CN116168403A (zh) | 医疗数据分类模型训练方法、分类方法、装置及相关介质 | |
CN114968821A (zh) | 基于强化学习的测试数据生成方法及装置 | |
CN114971240A (zh) | 一种阅读行为风险评估处理方法及装置 | |
CN110955755A (zh) | 一种确定目标标准信息的方法和*** | |
CN111160662A (zh) | 一种风险预测方法、电子设备及存储介质 | |
CN117172632B (zh) | 一种企业异常行为检测方法、装置、设备及存储介质 | |
US11830081B2 (en) | Automated return evaluation with anomoly detection | |
CN117541044B (zh) | 基于项目风险分析的项目分类方法、***、介质及设备 | |
US20240202551A1 (en) | Visual Question Answering for Discrete Document Field Extraction | |
US20230342350A1 (en) | Change management process for identifying potential regulatory violations for improved processing efficiency | |
US20230342351A1 (en) | Change management process for identifying inconsistencies for improved processing efficiency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |