CN109522919A - 一种数据评估方法及装置 - Google Patents
一种数据评估方法及装置 Download PDFInfo
- Publication number
- CN109522919A CN109522919A CN201811081280.8A CN201811081280A CN109522919A CN 109522919 A CN109522919 A CN 109522919A CN 201811081280 A CN201811081280 A CN 201811081280A CN 109522919 A CN109522919 A CN 109522919A
- Authority
- CN
- China
- Prior art keywords
- model
- customers
- data
- credit data
- scorecard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了数据评估方法及装置,其中,数据评估装置使用第三方客户信用数据对机器学习分类模型进行训练,再用训练得到的模型对目标客户信用数据进行评分,再将所述评分融入传统的评分卡模型中,得到新型评分卡模型,最后将所述新型评分卡模型与传统的评分卡模型进行对比,若所述模型效果得到提升,则所述客户信用数据是有效的。该方案中,使用的机器学习模型相比传统的评分卡模型,有更强的数据表达能力,对非线性问题有更强的刻画能力且预测的精度更高,因此,通过对比新型评分卡模型和传统评分卡模型的模型效果,可以验证所述第三方数据质量和效果,从而更有效地挖掘第三方数据的价值。
Description
技术领域
本发明涉及人工智能机器学习领域,具体涉及了数据评估方法及装置。
背景技术
我国2010年开始有消费金融公司成立,2013年11月中国银行保险监督管理委员会发布《消费金融公司试点管理办法(修订稿)》,推出扩大销售金融公司试点,线上线下场景的消费金融业务进入快速发展阶段。2017年中国居民消费信贷规模已达到9.5万亿元。
目前,多数消费金融公司在给客户办理贷款申请时往往只要求客户填写关键信息,而在贷款审核评估方面,主要依赖第三方数据源公司提供的数据来把控风险。但是市场上的第三方数据源的质量参差不齐,如何判断其数据质量的好坏和如何更有效地挖掘第三方数据的价值起到了至关重要的作用。
目前,评估第三方数据质量主要有两类方法,其一,根据已知的风险客户名单去匹配第三方数据的风险名单库,得到命中的比率,通过命中的比率以及两者的风险等级差异作为依据去评估第三方数据的效果;其二,通过第三方提供的评分策略产品,将客户划分为不同风险等级的客户,再与已知的客户风险等级进行对比,从而评估第三数据的效果。上述方法存在一些不足:例如风险名单的数据源有限,匹配率往往较低;通用的评分策略产品不能依据特定的客户群体来制定专用的评分策略,其整体效果不显著且稳定性较差。
发明内容
本发明实施例提供数据评估方法及装置,以期提升评估数据效果的能力,从而更有效地挖掘数据的价值。
第一方面,提供一种数据评估方法,包括:
获取客户信用数据,其中,所述客户信用数据是根据预设关键信息从第三方数据源匹配得到的;
对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m;
使用所述缩减后的客户信用数据对分类模型进行训练,得到逾期可能性评分模型;
使用逾期可能性评分和评分卡模型创建新型评分卡模型,其中,所述逾期可能性评分是所述逾期可能性评分模型对目标客户信用数据进行评分得到的;
比较所述评分卡模型和所述新型评分卡模型,确定所述新型评分卡模型的模型效果是否提升,若所述模型效果得到提升,则所述客户信用数据是有效的。
更具体地,所述对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m,包括:
将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序,从而得到排序后的特征变量序列;
从所述特征变量序列中选择出排序在前的n个所述特征变量;
输出所述缩减后的客户信用数据,其中所述缩减后的客户信用数据由n个所述特征变量对应的n个所述数据项构成。
更具体地,在所述将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序之前,所述方法还包括:
随机初始化所述分类模型的模型参数,其中所述分类模型是集成多棵决策树的分类模型;
使用所述m个特征变量对所述集成多棵决策树的分类模型进行训练,使得所述m个特征变量分布在多棵决策树的分支节点上,从而得到变量重要性评估模型;
统计所述m个特征变量中的每一特征变量在每一决策树中被作为分支节点的次数总和,从而确定所述重要性等级,其中,所述次数总和越大所述重要性等级越高;
多次重复本实施例上述全部步骤后,使得同一所述特征变量对应多个所述重要性等级,其中,多个所述重要性等级是分别由多个模型参数初始值不同的所述变量重要性评估模型生成的;
综合多个所述重要性等级,重新确定所述重要性等级。
更具体地,所述比较所述评分卡模型和所述新型评分卡模型,包括:使用通用模型评估指标来评估所述评分卡模型和所述新型评分卡模型,其中,所述通用模型评估指标包括:ks模型评估指标和auc模型评估指标中的任一种或者两种。
更具体地,所述分类模型包括:极端梯度提升模型、随机森林模型以及支持向量机模型中的任意一种。
第二方面,提供一种数据评估装置,包括:获取单元、特征选择单元、训练单元、比较单元,
所述获取单元,用于获取客户信用数据,其中,所述客户信用数据是根据预设关键信息从第三方数据源匹配得到的;
所述特征选择单元,用于对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m;
所述训练单元,用于使用多个所述缩减后的客户信用数据对分类模型进行训练,得到逾期可能性评分模型;
所述训练单元,还用于使用逾期可能性评分和评分卡模型创建新型评分卡模型,其中,所述逾期可能性评分是所述逾期可能性评分模型对目标客户信用数据进行评分得到的;
所述比较单元,用于比较所述评分卡模型和所述新型评分卡模型,确定所述新型评分卡模型的模型效果是否提升,若所述模型效果得到提升,则所述客户信用数据是有效的。
更具体地,所述特征选择单元具体用于:
将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序,从而得到排序后的特征变量序列;
从所述特征变量序列中选择出排序在前的n个所述特征变量;
输出所述缩减后的客户信用数据,其中所述缩减后的客户信用数据由n个所述特征变量对应的n个所述数据项构成。
更具体地,所述特征选择单元还用于,在将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序之前,
随机初始化所述分类模型的模型参数,其中所述分类模型是集成多棵决策树的分类模型;
使用所述m个特征变量对所述集成多棵决策树的分类模型进行训练,使得所述m个特征变量分布在多棵决策树的分支节点上,从而得到变量重要性评估模型;
统计所述m个特征变量中的每一特征变量在每一决策树中被作为分支节点的次数总和,从而确定所述重要性等级,其中,所述次数总和越大所述重要性等级越高;
多次重复本权利要求上述全部步骤后,使得同一所述特征变量对应多个所述重要性等级,其中,多个所述重要性等级是分别由多个模型参数初始值不同的所述变量重要性评估模型生成的;
综合多个所述重要性等级,重新确定所述重要性等级。
更具体地,所述比较单元具体用于:
使用通用模型评估指标来评估所述评分卡模型和所述新型评分卡模型,其中,所述通用模型评估指标包括:ks模型评估指标和auc模型评估指标中的任一种或者两种。
更具体地,其特征在于,所述分类模型包括:极端梯度提升模型、随机森林模型以及支持向量机模型中的任意一种。
第三方面,提供一种服务器,包括处理器、输入设备、输出设备和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令,执行上述第一方面的方法。
第四方面,提供一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
实施本发明实施例,将具有如下有益效果:
上述方案中,服务器使用第三方客户信用数据对机器学习分类模型进行训练,再用训练得到的模型对目标客户信用数据进行评分,再将所述评分融入传统的评分卡模型中,得到新型评分卡模型,最后将所述新型评分卡模型与传统的评分卡模型进行对比,若所述模型效果得到提升,则所述客户信用数据是有效的。该方案中,使用的机器学习模型相比传统的评分卡模型,有更强的数据表达能力,对非线性问题有更强的刻画能力且预测的精度更高,因此,通过对比新型评分卡模型和传统评分卡模型的模型效果,可以验证所述第三方数据质量和效果,从而更有效地挖掘第三方数据的价值。
附图说明
图1是本申请提供的一种数据评估方法的流程示意图;
图2是本申请提供的一种数据评估方法及的结构示意图;
图3是本申请提供的一种设备结构示意图;
图4a是本申请提供的一种特征变量重要性等级条形图;
图4b是本申请提供的一种特征变量综合重要性等级条形图。
具体实施方式
本发明实施例提供了数据评估方法及装置,能够提升评估数据效果的能力,从而更有效地挖掘数据的价值。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
需要说明的是,在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
本发明数据评估方法的一个实施例。其中,一种数据评估方法,包括:获取客户信用数据,其中,所述客户信用数据是根据预设关键信息从第三方数据源匹配得到的;对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m;使用所述缩减后的客户信用数据对分类模型进行训练,得到逾期可能性评分模型;使用逾期可能性评分和评分卡模型创建新型评分卡模型,其中,所述逾期可能性评分是所述逾期可能性评分模型对目标客户信用数据进行评分得到的;比较所述评分卡模型和所述新型评分卡模型,确定所述新型评分卡模型的模型效果是否提升,若所述模型效果得到提升,则所述客户信用数据是有效的。
首先参见图1,图1为本发明的一个实施例提供的一种数据评估方法的流程示意图。其中,如图1所示,本发明的一个实施例提供的一种数据评估方法可以包括:
101、获取客户信用数据。
在一具体的实施例中,所述客户信用数据是根据预设关键信息从第三方数据源匹配得到的,具体地,可通过客户的姓名、身份证、手机号、银行***等信息的一种或者多种匹配第三方数据源的产品数据,其中,所述第三方数据源可以是银行提供的,也可以是第三方网络支付类公司提供的,所述产品数据可以是客户借贷与偿还记录、信用透支记录、是否发生不良信用记录等等,所述产品数据也可以是用户在手机各类APP应用的行为记录,其中,所述行为记录可以从侧面反映客户的信用,应理解,上述例子仅仅用于举例,不应构成具体限定。
102、对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据。
在一具体的实施例中,对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m。例如,通过第三方数据公司汇总得到用户在手机各类APP应用中的使用活跃度等1000多个表征用户特征的数据项,通过特征选择后,选择出最能表征客户信用的150个数据项,上述特征选择的目的在于挑选出重要的数据项,剔除次要的数据项。进一步举例,例如所述客户信用数据包括姓名、年龄、银行***、学历、职业、住址、贷款记录,经过特征筛选后得到的缩减后的客户信用数据包括:姓名、银行***、贷款记录。应理解,上述的两个例子仅仅用于举例,不应构成具体限定。
在一具体的实施例中,所述对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m,包括:将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序,从而得到排序后的特征变量序列;从所述特征变量序列中选择出排序在前的n个所述特征变量;输出所述缩减后的客户信用数据,其中所述缩减后的客户信用数据由n个所述特征变量对应的n个所述数据项构成。
在一具体的实施例中,在所述将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序之前,所述方法还包括:随机初始化所述分类模型的模型参数,其中所述分类模型是集成多棵决策树的分类模型;使用所述m个特征变量对所述集成多棵决策树的分类模型进行训练,使得所述m个特征变量分布在多棵决策树的分支节点上,从而得到变量重要性评估模型;统计所述m个特征变量中的每一特征变量在每一决策树中被作为分支节点的次数总和,从而确定所述重要性等级,其中,所述次数总和越大所述重要性等级越高;多次重复本权利要求上述全部步骤后,使得同一所述特征变量对应多个所述重要性等级,其中,多个所述重要性等级是分别由多个模型参数初始值不同的所述变量重要性评估模型生成的;综合多个所述重要性等级,重新确定所述重要性等级。具体来说,如图4a所示,本申请提供的特征变量重要性等级条形图,它是由多个不同模型参数初始值的变量重要性评估模型产生的,再如图4b所示,本申请提供的特征变量综合重要性等级条形图,图中的同一特征变量的综合重要性等级是将多个变量重要性评估模型对同一特征变量产生的重要性等级进行求和得到的,最终得到该特征变量的综合重要性等级。应理解,上述例子仅仅用于举例,不应构成具体限定。
103、使用所述缩减后的客户信用数据对分类模型进行训练,得到逾期可能性评分模型。
在一具体的实施例中,所述分类模型可以是:极端梯度提升模型(eXtremeGradient Boosting,XGBoost)、随机森林模型(Random Forests,RF)以及支持向量机模型(Support Vector Machine,SVM)中的任意一种。
优选地,使用所述缩减后的客户信用数据对XGBoost模型进行训练,得到逾期可能性评分模型,其中,使用XGBoost模型作为分类模型的方案相比使用RF模型和SVM模型的方案,其训练速度更快,且,训练后模型的效果最佳。
104、使用逾期可能性评分和评分卡模型创建新型评分卡模型。
在一具体的实施例中,使用逾期可能性评分和评分卡模型创建新型评分卡模型,具体来说,例如所述逾期可能性评分为80分,将所述逾期可能性评分通过预设比例进行折算,若所述预设比例为10%,则将所述逾期可能性评分乘以所述预设比例得到子评分8分,根据子评分和所述评分卡模型创建新型评分卡模型。应理解,上述例子仅仅用于举例,不应构成具体限定。
105、比较所述评分卡模型和所述新型评分卡模型,确定所述新型评分卡模型的模型效果是否提升,若所述模型效果得到提升,则所述客户信用数据是有效的。
在一具体的实施例中,所述比较所述评分卡模型和所述新型评分卡模型,包括:使用通用模型评估指标来评估所述评分卡模型和所述新型评分卡模型,其中,所述通用模型评估指标包括:ks模型评估指标和auc模型评估指标中的任一种或者两种。
在本发明实施例中,服务器使用第三方客户信用数据对机器学习分类模型进行训练,再用训练得到的模型对目标客户信用数据进行评分,再将所述评分融入传统的评分卡模型中,得到新型评分卡模型,最后将所述新型评分卡模型与传统的评分卡模型进行对比,若所述模型效果得到提升,则所述客户信用数据是有效的。该方案中,使用的机器学习模型相比传统的评分卡模型,有更强的数据表达能力,对非线性问题有更强的刻画能力且预测的精度更高,因此,通过对比新型评分卡模型和传统评分卡模型的模型效果,可以验证所述第三方数据质量和效果,从而更有效地挖掘第三方数据的价值。
本发明实施例还提供一种数据评估装置,请参阅图2,图2是本发明实施例提供的一种数据评估装置的结构示意图,所述装置200包括:获取单元201、特征选择单元202、训练单元203、比较单元204。
所述获取单元201,用于获取客户信用数据,其中,所述客户信用数据是根据预设关键信息从第三方数据源匹配得到的。
在一具体的实施例中,所述客户信用数据是根据预设关键信息从第三方数据源匹配得到的,具体地,可通过客户的姓名、身份证、手机号、银行***等信息的一种或者多种匹配第三方数据源的产品数据,其中,所述第三方数据源可以是银行提供的,也可以是第三方网络支付类公司提供的,所述产品数据包括客户借贷与偿还记录、信用透支记录、是否发生不良信用记录等等,所述产品数据也可以是用户在手机各类APP应用的行为记录,其中,所述行为记录可以从侧面反映客户的信用,应理解,上述例子仅仅用于举例,不应构成具体限定。
所述特征选择单元202,用于对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m。
在一具体的实施例中,所述特征选择单元,用于对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m。例如,通过第三方数据公司汇总得到用户在手机各类APP应用中的使用活跃度等1000多个表征用户特征的数据项,通过特征选择后,选择出最能表征客户信用的150个数据项,上述特征选择的目的在于挑选出重要的数据项,剔除次要的数据项,应理解,上述例子仅仅用于举例,不应构成具体限定。
在一具体的实施例中,所述特征选择单元,具体用于对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m。具体来说,将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序,从而得到排序后的特征变量序列;从所述特征变量序列中选择出排序在前的n个所述特征变量;输出所述缩减后的客户信用数据,其中所述缩减后的客户信用数据由n个所述特征变量对应的n个所述数据项构成。
在一具体的实施例中,所述特征选择单元还用于,在所述将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序之前,随机初始化所述分类模型的模型参数,其中所述分类模型是集成多棵决策树的分类模型;使用所述m个特征变量对所述集成多棵决策树的分类模型进行训练,使得所述m个特征变量分布在多棵决策树的分支节点上,从而得到变量重要性评估模型;统计所述m个特征变量中的每一特征变量在每一决策树中被作为分支节点的次数总和,从而确定所述重要性等级,其中,所述次数总和越大所述重要性等级越高;多次重复本权利要求上述全部步骤后,使得同一所述特征变量对应多个所述重要性等级,其中,多个所述重要性等级是分别由多个模型参数初始值不同的所述变量重要性评估模型生成的;综合多个所述重要性等级,重新确定所述重要性等级。具体来说,如图4a所示,本申请提供的一种特征变量重要性等级条形图,它是由多个不同模型参数初始值的变量重要性评估模型产生的,再如图4b所示,本申请提供的一种特征变量综合重要性等级条形图,图中的同一特征变量的综合重要性等级是将多个变量重要性评估模型对同一特征变量产生的重要性等级进行求和得到的,最终得到该特征变量的综合重要性等级。应理解,上述例子仅仅用于举例,不应构成具体限定。
所述训练单元203,用于使用多个所述缩减后的客户信用数据对分类模型进行训练,得到逾期可能性评分模型。
在一具体的实施例中,所述分类模型可以是:XGBoost模型、RF模型以及SVM模型中的任意一种。
优选地,使用所述缩减后的客户信用数据对XGBoost模型进行训练,得到逾期可能性评分模型,其中,使用XGBoost模型作为分类模型的方案相比使用RF模型和SVM模型的方案,其训练速度更快,且,训练后模型的效果最佳。
所述训练单元203,还用于使用逾期可能性评分和评分卡模型创建新型评分卡模型,其中,所述逾期可能性评分是所述逾期可能性评分模型对目标客户信用数据进行评分得到的;
在一具体的实施例中,所述训练单元还用于,使用逾期可能性评分和评分卡模型创建新型评分卡模型,具体来说,例如所述逾期可能性评分为80分,将所述逾期可能性评分通过预设比例进行折算,若所述预设比例为10%,则将所述逾期可能性评分乘以所述预设比例得到子评分8分,根据子评分和所述评分卡模型创建新型评分卡模型。应理解,上述例子仅仅用于举例,不应构成具体限定。
所述比较单元204,用于比较所述评分卡模型和所述新型评分卡模型,确定所述新型评分卡模型的模型效果是否提升,若所述模型效果得到提升,则所述客户信用数据是有效的。
在一具体的实施例中,所述比较单元,用于比较所述评分卡模型和所述新型评分卡模型,具体来说,使用通用模型评估指标来评估所述评分卡模型和所述新型评分卡模型,其中,所述通用模型评估指标包括:ks模型评估指标和auc模型评估指标中的任一种或者两种。
在本发明实施例中,服务器使用第三方客户信用数据对机器学习分类模型进行训练,再用训练得到的模型对目标客户信用数据进行评分,再将所述评分融入传统的评分卡模型中,得到新型评分卡模型,最后将所述新型评分卡模型与传统的评分卡模型进行对比,若所述模型效果得到提升,则所述客户信用数据是有效的。该方案中,使用的机器学习模型相比传统的评分卡模型,有更强的数据表达能力,对非线性问题有更强的刻画能力且预测的精度更高,因此,通过对比新型评分卡模型和传统评分卡模型的模型效果,可以验证所述第三方数据质量和效果,从而更有效地挖掘第三方数据的价值。
参见图3,图3是本发明实施例提供的一种设备,该设备可以为服务器,如图3所示设备包括:一个或多个处理器301;一个或多个输入设备302,一个或多个输出设备303和存储器304。上述处理器301、输入设备302、输出设备303和存储器304通过总线305连接。存储器302用于存储指令,处理器301用于执行存储器302存储的指令。
其中,该设备作为服务器使用的情况下,处理器301获取客户信用数据,其中,所述客户信用数据是根据预设关键信息从第三方数据源匹配得到的;对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m;使用所述缩减后的客户信用数据对分类模型进行训练,得到逾期可能性评分模型;使用逾期可能性评分和评分卡模型创建新型评分卡模型,其中,所述逾期可能性评分是所述逾期可能性评分模型对目标客户信用数据进行评分得到的;比较所述评分卡模型和所述新型评分卡模型,确定所述新型评分卡模型的模型效果是否提升,若所述模型效果得到提升,则所述客户信用数据是有效的。
应当理解,在本发明实施例中,所称处理器301可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备302可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备303可以包括显示器(LCD等)、扬声器等。
该存储器304可以包括只读存储器和随机存取存储器,并向处理器301提供指令和数据。存储器304的一部分还可以包括非易失性随机存取存储器。例如,存储器304还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器301、输入设备302、输出设备303可执行本发明实施例提供的一种数据评估方法及装置的第一实施例和第二实施例中所描述的实现方式,也可执行本发明实施例所描述的终端的实现方式,在此不再赘述。
在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:获取客户信用数据,对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,使用所述缩减后的客户信用数据对分类模型进行训练,得到逾期可能性评分模型,使用逾期可能性评分和评分卡模型创建新型评分卡模型,比较所述评分卡模型和所述新型评分卡模型,确定所述新型评分卡模型的模型效果是否提升,若所述模型效果得到提升,则所述客户信用数据是有效的。
所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的服务器、设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的服务器、设备和方法,可以通过其它的方式实现。例如,以上所描述的服务器实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据评估方法,其特征在于,包括:
获取客户信用数据,其中,所述客户信用数据是根据预设关键信息从第三方数据源匹配得到的;
对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m;
使用所述缩减后的客户信用数据对分类模型进行训练,得到逾期可能性评分模型;
使用逾期可能性评分和评分卡模型创建新型评分卡模型,其中,所述逾期可能性评分是所述逾期可能性评分模型对目标客户信用数据进行评分得到的;
比较所述评分卡模型和所述新型评分卡模型,确定所述新型评分卡模型的模型效果是否提升,若所述模型效果得到提升,则所述客户信用数据是有效的。
2.根据权利要求1所述的方法,其特征在于,所述对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m,包括:
将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序,从而得到排序后的特征变量序列;
从所述特征变量序列中选择出排序在前的n个所述特征变量;
输出所述缩减后的客户信用数据,其中所述缩减后的客户信用数据由n个所述特征变量对应的n个所述数据项构成。
3.根据权利要求2所述的方法,其特征在于,在所述将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序之前,所述方法还包括:
随机初始化所述分类模型的模型参数,其中所述分类模型是集成多棵决策树的分类模型;
使用所述m个特征变量对所述集成多棵决策树的分类模型进行训练,使得所述m个特征变量分布在多棵决策树的分支节点上,从而得到变量重要性评估模型;
统计所述m个特征变量中的每一特征变量在每一决策树中被作为分支节点的次数总和,从而确定所述重要性等级,其中,所述次数总和越大所述重要性等级越高;
多次重复本权利要求上述全部步骤后,使得同一所述特征变量对应多个所述重要性等级,其中,多个所述重要性等级是分别由多个模型参数初始值不同的所述变量重要性评估模型生成的;
综合多个所述重要性等级,重新确定所述重要性等级。
4.根据权利要求1所述的方法,其特征在于,所述比较所述评分卡模型和所述新型评分卡模型,包括:
使用通用模型评估指标来评估所述评分卡模型和所述新型评分卡模型,其中,所述通用模型评估指标包括:ks模型评估指标和auc模型评估指标中的任一种或者两种。
5.根据权利要求1-4任一权利要求所述的方法,其特征在于,所述分类模型包括:极端梯度提升模型、随机森林模型以及支持向量机模型中的任意一种。
6.一种数据评估装置,其特征在于,包括:获取单元、特征选择单元、训练单元、比较单元,
所述获取单元,用于获取客户信用数据,其中,所述客户信用数据是根据预设关键信息从第三方数据源匹配得到的;
所述特征选择单元,用于对所述客户信用数据的m个数据项进行特征选择,从而得到缩减后的客户信用数据,其中所述缩减后的客户信用数据包含的n个数据项,所述n小于所述m;
所述训练单元,用于使用多个所述缩减后的客户信用数据对分类模型进行训练,得到逾期可能性评分模型;
所述训练单元,还用于使用逾期可能性评分和评分卡模型创建新型评分卡模型,其中,所述逾期可能性评分是所述逾期可能性评分模型对目标客户信用数据进行评分得到的;
所述比较单元,用于比较所述评分卡模型和所述新型评分卡模型,确定所述新型评分卡模型的模型效果是否提升,若所述模型效果得到提升,则所述客户信用数据是有效的。
7.根据权利要求6所述的装置,其特征在于,所述特征选择单元具体用于:
将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序,从而得到排序后的特征变量序列;
从所述特征变量序列中选择出排序在前的n个所述特征变量;
输出所述缩减后的客户信用数据,其中所述缩减后的客户信用数据由n个所述特征变量对应的n个所述数据项构成。
8.根据权利要求7所述的装置,其特征在于,所述特征选择单元还用于,在将所述m个数据项对应的m个特征变量按照其重要性等级从高到低进行排序之前,
随机初始化所述分类模型的模型参数,其中所述分类模型是集成多棵决策树的分类模型;
使用所述m个特征变量对所述集成多棵决策树的分类模型进行训练,使得所述m个特征变量分布在多棵决策树的分支节点上,从而得到变量重要性评估模型;
统计所述m个特征变量中的每一特征变量在每一决策树中被作为分支节点的次数总和,从而确定所述重要性等级,其中,所述次数总和越大所述重要性等级越高;
多次重复本权利要求上述全部步骤后,使得同一所述特征变量对应多个所述重要性等级,其中,多个所述重要性等级是分别由多个模型参数初始值不同的所述变量重要性评估模型生成的;
综合多个所述重要性等级,重新确定所述重要性等级。
9.根据权利要求1所述的装置,其特征在于,所述比较单元具体用于:
使用通用模型评估指标来评估所述评分卡模型和所述新型评分卡模型,其中,所述通用模型评估指标包括:ks模型评估指标和auc模型评估指标中的任一种或者两种。
10.根据权利要求1-4任一权利要求所述的装置,其特征在于,所述分类模型包括:极端梯度提升模型、随机森林模型以及支持向量机模型中的任意一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811081280.8A CN109522919A (zh) | 2018-09-17 | 2018-09-17 | 一种数据评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811081280.8A CN109522919A (zh) | 2018-09-17 | 2018-09-17 | 一种数据评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522919A true CN109522919A (zh) | 2019-03-26 |
Family
ID=65771270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811081280.8A Withdrawn CN109522919A (zh) | 2018-09-17 | 2018-09-17 | 一种数据评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522919A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162995A (zh) * | 2019-04-22 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 评估数据贡献程度的方法及其装置 |
CN111127195A (zh) * | 2019-12-31 | 2020-05-08 | 中信百信银行股份有限公司 | 基于仿真的数据风控价值评估方法、装置、设备、介质 |
CN111144690A (zh) * | 2019-11-26 | 2020-05-12 | 泰康保险集团股份有限公司 | 目标对象的评估***、目标对象的评估方法 |
CN113822309A (zh) * | 2020-09-25 | 2021-12-21 | 京东科技控股股份有限公司 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
-
2018
- 2018-09-17 CN CN201811081280.8A patent/CN109522919A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162995A (zh) * | 2019-04-22 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 评估数据贡献程度的方法及其装置 |
CN110162995B (zh) * | 2019-04-22 | 2023-01-10 | 创新先进技术有限公司 | 评估数据贡献程度的方法及其装置 |
CN111144690A (zh) * | 2019-11-26 | 2020-05-12 | 泰康保险集团股份有限公司 | 目标对象的评估***、目标对象的评估方法 |
CN111127195A (zh) * | 2019-12-31 | 2020-05-08 | 中信百信银行股份有限公司 | 基于仿真的数据风控价值评估方法、装置、设备、介质 |
CN111127195B (zh) * | 2019-12-31 | 2023-08-11 | 中信百信银行股份有限公司 | 基于仿真的数据风控价值评估方法、装置、设备、介质 |
CN113822309A (zh) * | 2020-09-25 | 2021-12-21 | 京东科技控股股份有限公司 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
CN113822309B (zh) * | 2020-09-25 | 2024-04-16 | 京东科技控股股份有限公司 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522919A (zh) | 一种数据评估方法及装置 | |
CN107464183A (zh) | 基于互联网的借贷方法、电子设备、存储介质及*** | |
CN106228386A (zh) | 一种信息推送方法及装置 | |
CN108665366A (zh) | 确定用户风险等级的方法、终端设备及计算机可读存储介质 | |
CN104573304A (zh) | 一种基于信息熵和聚类分群的用户质态评估方法 | |
CN105719045A (zh) | 留任风险确定器 | |
CN109597936A (zh) | 一种新用户筛选***及方法 | |
CN105094572B (zh) | 菜单自调整滚屏显示控制方法、服务器及便携式终端 | |
CN107203866A (zh) | 订单的处理方法以及装置 | |
CN110276369A (zh) | 基于机器学习的特征选择方法、装置、设备及存储介质 | |
CN110147389A (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN111127185A (zh) | 信贷欺诈识别模型构建方法及装置 | |
CN110517071A (zh) | 基于机器模型的信息预测方法、装置、设备及存储介质 | |
CN112434501A (zh) | 工单智能生成的方法、装置、电子设备及介质 | |
CN109685641A (zh) | 一种信息处理方法及装置 | |
CN109102468A (zh) | 图像增强方法、装置、终端设备及存储介质 | |
CN106998314A (zh) | 账户交互方法及装置 | |
CN109754135A (zh) | 信用行为数据处理方法、装置、存储介质和计算机设备 | |
CN110908982A (zh) | 一种基于指标权重的数据质量科学算分评价方法及*** | |
CN110533527A (zh) | 一种信贷风险动态评估方法、***、介质和设备 | |
CN106910071A (zh) | 用户身份的验证方法及装置 | |
CN111159609A (zh) | 属性信息修改方法及相关装置 | |
CN110399818A (zh) | 一种风险预测的方法和设备 | |
CN114238062B (zh) | 板卡烧录装置性能分析方法、装置、设备及可读存储介质 | |
CN110111203A (zh) | 业务数据的批量操作方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190326 |