CN108876076A - 基于指令数据的个人信用评分方法及装置 - Google Patents

基于指令数据的个人信用评分方法及装置 Download PDF

Info

Publication number
CN108876076A
CN108876076A CN201710322533.5A CN201710322533A CN108876076A CN 108876076 A CN108876076 A CN 108876076A CN 201710322533 A CN201710322533 A CN 201710322533A CN 108876076 A CN108876076 A CN 108876076A
Authority
CN
China
Prior art keywords
index
group
sample
regression models
logic regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710322533.5A
Other languages
English (en)
Inventor
张湛梅
张晓川
徐睿
崔志顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710322533.5A priority Critical patent/CN108876076A/zh
Publication of CN108876076A publication Critical patent/CN108876076A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种基于指令数据的个人信用评分方法及装置。方法包括:获取样本账户群,并按照预设规则从样本账户群中选取出正样本和负样本;对第一预设指标群进行分箱处理,并根据每个分箱内负样本的占比获取每个分箱对应的WOE值;根据每个分箱对应的WOE值获取预构建逻辑回归模型的参数的估计量;对所述逻辑回归模型参数的估计量配置惩罚项,所述惩罚项用于配置信令数据与其他非信令数据对所述逻辑回归模型的贡献;根据所述逻辑回归模型对用户的个人信用进行评分,获取用户的个人信用评分。本发明实施例基于信令数据对逻辑回归模型进行改进,以保证信令数据在逻辑回归模型中占有较大的比重,与现有技术相比,具有评分更加准确的优点。

Description

基于指令数据的个人信用评分方法及装置
技术领域
本发明实施例涉及信用风险管理技术领域,具体涉及一种基于指令数据的个人信用评分方法及装置。
背景技术
截至2015年9月末,央行征信***已经收录8.7亿自然人和2102万户企业及其他组织,央行征信***收集的信息以银行信贷信息为核心,还包括社保、公积金、民事裁决与执行、公共事业和通讯缴费记录等。实际上,***拥有翔实的用户行为数据、用户背景资料,还可以掌握用户位置信息的信令数据、通话通信记录、交费消费记录,这些数据也早已经纳入到了国家征信***中。作为大数据应用落地最具有实用价值的征信领域,***一直都在不断的探索。
在实现本发明实施例的过程中,发明人发现通信运营商建立的个人信用评分方法主要考虑了用户的基本信息、业务订购信息、消费能力、通信行为、历史欠费停机记录、交往圈等多方面的因素,但由于考虑的因素并没有侧重点,因此实际得到的评分结果并不准确。
发明内容
本发明实施例的一个目的是解决现有技术由于评分考虑的因素没有侧重点导致评分结果不准确的问题。
本发明实施例提出了一种基于指令数据的个人信用评分方法,包括:
获取样本账户群,并按照预设规则从样本账户群中选取出正样本和负样本;
对第一预设指标群进行分箱处理,并根据每个分箱内负样本的占比获取每个分箱对应的WOE值;
根据每个分箱对应的WOE值获取预构建逻辑回归模型的参数的估计量;
对所述逻辑回归模型参数的估计量配置惩罚项,所述惩罚项用于配置信令数据与其他非信令数据对所述逻辑回归模型的贡献;
根据所述逻辑回归模型对用户的个人信用进行评分,获取用户的个人信用评分。
可选的,所述按照预设规则从样本账户群中选取出正样本和负样本包括:
采用熵值法判断每个样本账户的第二预设指标群的离散程度;
根据每个样本账户的第二预设指标群的离散程度从所述样本账户群中选取正样本和负样本。
可选的,所述对所述逻辑回归模型参数的估计量配置惩罚项包括:
对所述第一预设指标群进行分析,获取与信令数据相关的第一指标组以及与信令数据无关的第二指标组;
构建所述第二指标组中指标的系数与所述第一指标组中指标的系数的惩罚项;
将所述惩罚项配置至所述逻辑回归模型参数的估计量。
可选的,所述惩罚项为
其中,ψ1为惩罚系数,βj为所述第二指标组中第j个指标的系数,为所述第一指标组中第kn个指标的系数。
可选的,所述根据所述逻辑回归模型对用户的个人信用进行评分包括:
在预设约束条件下,将所述逻辑回归模型转化为评分模型;
将用户的第二预设指标群对应的数据作为评分模型的输入,获取所述第二预设指标群中每个指标对应各分箱的评分值;
根据每个指标对应各分箱的评分值获取用户的个人信用评分。
本发明实施例提出了一种基于指令数据的个人信用评分装置,包括:
获取模块,用于获取样本账户群,并按照预设规则从样本账户群中选取出正样本和负样本;
分箱模块,用于对第一预设指标群进行分箱处理,并根据每个分箱内负样本的占比获取每个分箱对应的WOE值;
建模模块,用于根据每个分箱对应的WOE值获取预构建逻辑回归模型的参数的估计量;
配置模块,用于对所述逻辑回归模型参数的估计量配置惩罚项,所述惩罚项用于配置信令数据与其他非信令数据对所述逻辑回归模型的贡献;
评分模块,用于根据所述逻辑回归模型对用户的个人信用进行评分,获取用户的个人信用评分。
可选的,所述获取模块,用于采用熵值法判断每个样本账户的第二预设指标群的离散程度;根据每个样本账户的第二预设指标群的离散程度从所述样本账户群中选取正样本和负样本。
可选的,所述配置模块,用于对所述第一预设指标群进行分析,获取与信令数据相关的第一指标组以及与信令数据无关的第二指标组;构建所述第二指标组中指标的系数与所述第一指标组中指标的系数的惩罚项;将所述惩罚项配置至所述逻辑回归模型参数的估计量。
可选的,所述惩罚项为
其中,ψ1为惩罚系数,βj为所述第二指标组中第j个指标的系数,为所述第一指标组中第kn个指标的系数。
可选的,所述评分模块,用于在预设约束条件下,将所述逻辑回归模型转化为评分模型;将用户的第二预设指标群对应的数据作为评分模型的输入,获取所述第二预设指标群中每个指标对应各分箱的评分值;根据每个指标对应各分箱的评分值获取用户的个人信用评分。
由上述技术方案可知,本发明实施例提出的一种基于指令数据的个人信用评分方法及装置基于信令数据对逻辑回归模型进行改进,以保证信令数据在逻辑回归模型中占有较大的比重,与现有技术相比,具有评分更加准确的优点。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明一实施例提供的基于指令数据的个人信用评分方法的流程示意图;
图2示出了本发明另一实施例提供的基于指令数据的个人信用评分方法的流程示意图;
图3示出了本发明一实施例提供的基于指令数据的个人信用评分装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的基于指令数据的个人信用评分方法的流程示意图,参见图1,该方法可由处理器实现,具体包括如下区别技术特征:
110、获取样本账户群,并按照预设规则从样本账户群中选取出正样本和负样本;
需要说明的是,此处的样本账户可以为某企业的用户的手机号码、用户编号等用户唯一标识性的信息;然后,基于一些划分的规则从中选取出正样本和负样本,即好的用户和坏的用户各有多少个,或者占总样本的百分比是多少。
其中,划分的规则有多种,例如:黄金分割法。
120、对第一预设指标群进行分箱处理,并根据每个分箱内负样本的占比获取每个分箱对应的WOE值;
需要说明的是,分箱处理法为较为成熟的技术,此处不再赘述。
130、根据每个分箱对应的WOE值获取预构建逻辑回归模型的参数的估计量;
140、对所述逻辑回归模型参数的估计量配置惩罚项,所述惩罚项用于配置信令数据与其他非信令数据对所述逻辑回归模型的贡献;
需要说明的是,为将模型的评分因素侧重于信令数据,需要限定其他非信令数据与信令数据之间的关系,以保证信令数据在逻辑回归模型中所占的比重要大于其他非信令数据所占比重。
150、根据所述逻辑回归模型对用户的个人信用进行评分,获取用户的个人信用评分。
需要说明的是,模型建立完成后,将用户的第一预设指标群的相关信息作为模型的输入,得出用户的个人信用评分。
可见,本实施例基于信令数据对逻辑回归模型进行改进,以保证信令数据在逻辑回归模型中占有较大的比重,与现有技术相比,具有评分更加准确的优点。
下面对上述步骤进行详细说明:
首先,步骤110中选取正/负样本的方法可以包括如下步骤:
采用熵值法判断每个样本账户的第二预设指标群的离散程度;
根据每个样本账户的第二预设指标群的离散程度从所述样本账户群中选取正样本和负样本。
其次,步骤140具体包括:
对所述第一预设指标群进行分析,获取与信令数据相关的第一指标组以及与信令数据无关的第二指标组;
构建所述第二指标组中指标的系数与所述第一指标组中指标的系数的惩罚项;
将所述惩罚项配置至所述逻辑回归模型参数的估计量。
所述惩罚项的形式为
其中,ψ1为惩罚系数,βj为所述第二指标组中第j个指标的系数,为所述第一指标组中第kn个指标的系数。
步骤150具体包括:
在预设约束条件下,将所述逻辑回归模型转化为评分模型;
将用户的第二预设指标群对应的数据作为评分模型的输入,获取所述第二预设指标群中每个指标对应各分箱的评分值;
根据每个指标对应各分箱的评分值获取用户的个人信用评分。
其中,转化步骤中涉及的约束条件可以为评分的范围,例如:1-100。
可见,本实施例利用基于信令数据的自适应逻辑回归模型进行个人信用评分,自适应选取对信用评分有效的指标和系数,保证了个人信用评分模型在筛选指标的时候保持稳定并体现信令数据的重要作用,减少模型系数的误差,使得评分模型更加合理。
图2示出了本发明另一实施例提供的基于指令数据的个人信用评分方法的流程示意图,下面参见图2对本发明的设计原理进行详细说明:
1、设计思路
本方案主要针对传统逻辑回归个人信用评分模型进行优化,这里采用的是基于信令数据自适应的逻辑回归模型进行个人信用评分。整个方案的主要流程是先采用熵值法提取正负样本作为标准样本数据用于后续评分建模,选取与衡量个人信用相关的指标作为建模的输入变量,包括基本信息、消费能力、信用记录、人脉关系、行为偏好方面的指标以及信令数据方面的指标。再对标准样本数据的指标进行分箱和求其WOE值等预处理,然后建立基于信令数据的自适应逻辑回归模型,利用信令数据对模型进行自适应训练,自动选取对信用评分有效的指标和系数,最后将回归模型转化为个人信用评分表,用于个人信用评分。
210、提取标准样本数据用于评分建模;
要建立个人信用评估体系,必须先选择出一部分标准的样本,作为参照体系,能够区分出哪些是好用户,那些是坏用户,后续的评分模型就基于这些数据进行分析。
本技术方案采用的是利用熵值法并结合欠费方面的指标对用户进行评分,分值由高到低排序,得分越高则用户的欠费程度越高,违约的概率也随之增加,所以取得分前1%的用户作为坏用户,即正样本;在剩下的用户中随机抽取总用户人数的10%作为好用户,即负样本。具体的步骤如下:
1、选取近三个月停机总次数、近三个月欠费总金额和客户账期类型作为指标,这些指标均衡量了用户的欠费违约情况。由于指标的取值范围不一致,为了避免过于侧重单个指标,需要对指标进行标准化,标准化公式如下:
其中,Uij,i=1,2,...,m,j=1,2,3为原始数据中第j个指标的第i个记录,m为总用户人数,Vij为标准化后的数据。
2、通过计算熵值可以用来判断三个月停机总次数、近三个月欠费总金额和客户账期类型三个指标的离散程度,离散程度越大表明该指标对综合评价影响越大。
首先计算指标的熵值,衡量了指标的离散程度,计算公式如下:
其中,rij表示第i个记录下第j个指标的比重
然后,计算指标的权重,衡量了三个月停机总次数、近三个月欠费总金额和客户账期类型三个指标在计算总分时理应乘上的系数,计算公式如下:
其中,hj为第j个指标的差异性系数hj=1-ej,j=1,2,3。
最后,根据指标的权重和指标值,计算每个用户的熵值法得分
3、对Si分值由高到低排序,分值越高表示在欠费违约方面越严重,取得分前1%的用户作为坏用户,即正样本;在剩下的用户中随机抽取总用户人数的10%作为好用户,即负样本。正负样本的合集即为标准的样本数据,用于后续建立信用评分模型。
220、选取与衡量个人信用相关的指标并进行分箱等预处理;
选取能全面评估用户信用状况的指标,同时为了便于后续的评分能形成评分表便于评估信用得分,需要对指标进行分箱处理,得到WOE值。
为了全面评估用户的信用情况,除了从传统评分角度提取用户的基本信息、消费能力、信用记录、人脉关系和行为偏好等五大方面指标,还加入用户的信令数据,这里的信令数据主要考虑位置信息。考虑用户的白天和晚上的常驻位置,白天常驻位置在高端写字楼和CBD、晚上常驻位置在高端小区的用户,其信用状况较为优质。
用户的基本信息主要包含品牌、在网时长和身份等信息;消费能力是衡量用户在通信消费的消费层次、消费级别、消费活跃度,主要包含账户余额、主套餐包含的费用、上月总通话次数、上三个自然月平均充值额度等等;信用记录用于衡量用户履约能力,包含上三个自然月欠费总额、上一自然月单停机天数、上一自然月双停机天数等等;人脉关系用于衡量用户社交关系强度,从社交影响力和身边人的信用分来评估人脉关系,包括高频对端号码个数、高频对端号码平均时长、亲密人员个数、亲密人员平均消费水平等等;行为偏好用于衡量用户使用app的活跃度以及应用偏好,包括APP类型偏好top1、社区交友使用次数、社区交友使用流量、电商购物使用次数、股票类APP使用次数等等。用户的信令数据主要选取工作日10:00至17:00常驻位置为高端写字楼和CBD的次数和22:00至次日6:00常驻位置为高端小区的次数。
为了便于后续的评分能形成评分表便于评估信用得分,需要对指标进行分箱,对于连续型指标,一个合理的分箱是应该使得每个箱内的数据量较为均衡,不宜过多或者过少,同时各个箱内负样本的占比应呈现单调上升或下降的趋势,这里采用WOE值,它既可以衡量各个分箱的趋势情况,也是后续的回归模型的变量输入,其计算公式如下:
对于离散型指标,在指标的取值不多的时候,可直接按其取值作为分箱并求取WOE值;在取值较多的时候,可对某些取值进行合并,再求对应的WOE值。
230、利用信令数据对评分模型进行自适应训练;
240、自动选取对信用评分有效的指标和系数
首先,建立基于信令数据自适应的逻辑回归模型进行个人信用评分。
逻辑回归在信用评分模型中使用比较广泛,它的结构简单,系数的作用容易在业务上解释。
用户为坏用户的概率可用P表示,则逻辑回归模型可表示为
其中xi(i=1,2,...,s)为指标,由于P取值在0到1之间,而通过logit变换后,取值范围可变换为任意实数值,需要求解的是β=(β01,...,βs)T
在使用逻辑回归预测时,可以使用全部指标进入模型,但某些对预测贡献度不高的也会进入模型,导致模型预测的偏差变大,此时的解决方法是做变量筛选如前进法、后退法、逐步回归等方法,剔除作用不明显的指标。
但这些传统的回归模型在做逐步回归的时候,变量选择和参数估计是分开两个阶段,导致了模型选择的不稳定性。基于信令数据自适应的逻辑回归模型利用了信令数据自适应地同时进行变量选择和系数估计,有效减小模型系数估计偏差。
这里首先采用Adaptive—Lasso方法求解逻辑回归模型。给定数据(X(i),y(i)),i=1,2,...,n,其中X(i)=(xi1,...,xis),表示样本数据中的第i个数据的WOE值向量,共n个,xi1表示第i个数据的第一个指标对应的WOE值,y(i)表示目标变量,若第i个数据为正样本,则y(i)=1;若第i个数据为负样本,则y(i)=0。则在Adaptive—Lasso方法下β=(β01,...,βs)T的估计量定义为
(2)式的第一部分表示模型拟合的优良度,这是一般逻辑回归模型在求解时的部分,第二部分则表示系数的惩罚项,λn为惩罚参数。而其中表示公式(1)进行最小二乘估计得到的βj的估计值,当|βj|系数较大的时候,给予较小的惩罚,能得到较小的偏差;而当|βj|系数较小的时候,给予较大的惩罚,该系数则近似为0,实现了变量选择的功能。
同时求解的过程需要利用信令数据方面的指标对其他指标的系数进行自适应地控制,确保信令数据方面的指标贡献较高的权重,所以需要在Adaptive—Lasso方法的基础上增加惩罚项。
记工作日10:00至17:00常驻位置为高端写字楼和CBD的次数和22:00至次日6:00常驻位置为高端小区的次数两个指标在所有指标xi(i=1,2,...,s)中的下标为k1,k2,即表示工作日10:00至17:00常驻位置为高端写字楼和CBD的次数,表示指标对应的系数。
为了保证信令数据方面的指标贡献较高的权重,需要对βj之间的差异进行控制。考虑添加惩罚项用于控制指标的系数值,通过限制的大小,保证了指标的系数必须大于其他指标的系数,即确保了信令数据方面的指标在模型贡献较高的权重,而ψ1为惩罚系数。
综上则有基于信令数据的自适应逻辑回归模型β=(β01,...,βs)T的估计量定义为
250、将回归模型转化为评分模型
将回归系数转换为信用评分的形式是一个量表编制的过程,为了方便业务人员使用以及评分之间的差异具有业务意义,通常需要满足一下三点要求:
1、评分控制在一定范围内,如0-900分之间。
2、在特定的分数时,好用户和坏用户具有一定的比例关系,这里采用。
衡量,如希望评分值在600分的时候好用户与坏用户的比例为50:1。
3、评分值的增加应该能反映好用户和坏用户比例的变化,如希望评分值没增加50分,odds也增加一倍。
目前业界比较通用的信用评分方程式如下:
score=offest+factor×ln(odds),
为了满足以上3个条件,该方程式需满足以下两个等式
a、score=offest+factor×ln(odds)
b、score+pdo=offest+factor×ln(2×odds)
其中pdo表示odds增加1倍需要评分值增加的值。则有
factor=pdo/ln(2),offest=score-factor×ln(odds)。
从而得到最终的评分方程式为:
score=offest+factor×ln(odds)
假如评分值在600分的时候好用户与坏用户的比例为50:1,且odds增加一倍的时候,评分增加50分。则有:
factor=50/ln(2)=72.13,offest=600-72.13×ln(50)=317.83
于是得到最终的评分方程式:score=317.83+72.13×ln(odds)。
由于逻辑回归方程的左边可知-logit(P)=ln(odds),则将步骤4得到β的估计量代入评分方程式,得到:
这里的xi表示第i个变量(指标)的值所对应的分箱的WOE值,为(3)式得到的回归模型系数。
故,根据评分公式可得到对应每个变量每个分箱的评分值。
其中,WOE表示变量的分箱对应的WOE值。
对于方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施方式并不受所描述的动作顺序的限制,因为依据本发明实施方式,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于优选实施方式,所涉及的动作并不一定是本发明实施方式所必须的。
图3示出了本发明一实施例提供的基于指令数据的个人信用评分装置的结构示意图,参见图2,该装置包括:获取模块310、分箱模块320、建模模块330、配置模块340以及评分模块,其中:
获取模块310,用于获取样本账户群,并按照预设规则从样本账户群中选取出正样本和负样本;
分箱模块320,用于对第一预设指标群进行分箱处理,并根据每个分箱内负样本的占比获取每个分箱对应的WOE值;
建模模块330,用于根据每个分箱对应的WOE值获取预构建逻辑回归模型的参数的估计量;
配置模块340,用于对所述逻辑回归模型参数的估计量配置惩罚项,所述惩罚项用于配置信令数据与其他非信令数据对所述逻辑回归模型的贡献;
评分模块350,用于根据所述逻辑回归模型对用户的个人信用进行评分,获取用户的个人信用评分。
获取模块310在接收到开始评分的指令后,从预建立数据库中获取账户样本群,然后对账户样本群进行划分,并将划分结果发送至分箱模块320;分箱模块320结合第一预设指标群对接收到的正/负样本进行分箱处理,然后获取每个分箱对应的WOE数据,然后将其发送至建模模块330,由建模模块330结合接收到的数据对预建立的模型进行解析,获取模型中未知参数的估计量,然后将模型发送至配置模块340;配置模块340通过对模型配置惩罚项,以限定信令指标和非信令指标对模型的贡献,并将建立完成的模型发送至评分模块350;评分模型350基于建立完成的模型对用户进行评分。
可见,本实施例利用基于信令数据的自适应逻辑回归模型进行个人信用评分,自适应选取对信用评分有效的指标和系数,保证了个人信用评分模型在筛选指标的时候保持稳定并体现信令数据的重要作用,减少模型系数的误差,使得评分模型更加合理。
下面对本装置的各功能模块进行详细说明:
获取模块310,用于采用熵值法判断每个样本账户的第二预设指标群的离散程度;根据每个样本账户的第二预设指标群的离散程度从所述样本账户群中选取正样本和负样本。
配置模块340,用于对所述第一预设指标群进行分析,获取与信令数据相关的第一指标组以及与信令数据无关的第二指标组;构建所述第二指标组中指标的系数与所述第一指标组中指标的系数的惩罚项;将所述惩罚项配置至所述逻辑回归模型参数的估计量。
评分模块350,用于在预设约束条件下,将所述逻辑回归模型转化为评分模型;将用户的第二预设指标群对应的数据作为评分模型的输入,获取所述第二预设指标群中每个指标对应各分箱的评分值;根据每个指标对应各分箱的评分值获取用户的个人信用评分。
可见,对比于现有的逻辑回归个人信用评分技术,本技术方案利用基于信令数据的自适应逻辑回归模型对传统的逻辑回归个人信用评分模型进行改进,保证了个人信用评分模型在筛选指标的时候保持稳定并体现信令数据的重要作用,减少模型系数的误差,使得评分模型更加合理。
综上,对比于传统的个人信用评分方法,本方案所能带来的效益对比如下:
对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。
应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合。
本发明的各个部件实施方式可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本装置中,PC通过实现因特网对设备或者装置远程控制,精准的控制设备或者装置每个操作的步骤。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样实现本发明的程序可以存储在计算机可读介质上,并且程序产生的文件或文档具有可统计性,产生数据报告和cpk报告等,能对功放进行批量测试并统计。应该注意的是上述实施方式对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施方式。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于指令数据的个人信用评分方法,其特征在于,包括:
获取样本账户群,并按照预设规则从样本账户群中选取出正样本和负样本;
对第一预设指标群进行分箱处理,并根据每个分箱内负样本的占比获取每个分箱对应的WOE值;
根据每个分箱对应的WOE值获取预构建逻辑回归模型的参数的估计量;
对所述逻辑回归模型参数的估计量配置惩罚项,所述惩罚项用于配置信令数据与其他非信令数据对所述逻辑回归模型的贡献;
根据所述逻辑回归模型对用户的个人信用进行评分,获取用户的个人信用评分。
2.根据权利要求1所述的方法,其特征在于,所述按照预设规则从样本账户群中选取出正样本和负样本包括:
采用熵值法判断每个样本账户的第二预设指标群的离散程度;
根据每个样本账户的第二预设指标群的离散程度从所述样本账户群中选取正样本和负样本。
3.根据权利要求1所述的方法,其特征在于,所述对所述逻辑回归模型参数的估计量配置惩罚项包括:
对所述第一预设指标群进行分析,获取与信令数据相关的第一指标组以及与信令数据无关的第二指标组;
构建所述第二指标组中指标的系数与所述第一指标组中指标的系数的惩罚项;
将所述惩罚项配置至所述逻辑回归模型参数的估计量。
4.根据权利要求3所述的方法,其特征在于,所述惩罚项为
其中,ψ1为惩罚系数,βj为所述第二指标组中第j个指标的系数,为所述第一指标组中第kn个指标的系数。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述逻辑回归模型对用户的个人信用进行评分包括:
在预设约束条件下,将所述逻辑回归模型转化为评分模型;
将用户的第二预设指标群对应的数据作为评分模型的输入,获取所述第二预设指标群中每个指标对应各分箱的评分值;
根据每个指标对应各分箱的评分值获取用户的个人信用评分。
6.一种基于指令数据的个人信用评分装置,其特征在于,包括:
获取模块,用于获取样本账户群,并按照预设规则从样本账户群中选取出正样本和负样本;
分箱模块,用于对第一预设指标群进行分箱处理,并根据每个分箱内负样本的占比获取每个分箱对应的WOE值;
建模模块,用于根据每个分箱对应的WOE值获取预构建逻辑回归模型的参数的估计量;
配置模块,用于对所述逻辑回归模型参数的估计量配置惩罚项,所述惩罚项用于配置信令数据与其他非信令数据对所述逻辑回归模型的贡献;
评分模块,用于根据所述逻辑回归模型对用户的个人信用进行评分,获取用户的个人信用评分。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,用于采用熵值法判断每个样本账户的第二预设指标群的离散程度;根据每个样本账户的第二预设指标群的离散程度从所述样本账户群中选取正样本和负样本。
8.根据权利要求6所述的装置,其特征在于,所述配置模块,用于对所述第一预设指标群进行分析,获取与信令数据相关的第一指标组以及与信令数据无关的第二指标组;构建所述第二指标组中指标的系数与所述第一指标组中指标的系数的惩罚项;将所述惩罚项配置至所述逻辑回归模型参数的估计量。
9.根据权利要求8所述的装置,其特征在于,所述惩罚项为
其中,Ψ1为惩罚系数,βj为所述第二指标组中第j个指标的系数,为所述第一指标组中第kn个指标的系数。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述评分模块,用于在预设约束条件下,将所述逻辑回归模型转化为评分模型;将用户的第二预设指标群对应的数据作为评分模型的输入,获取所述第二预设指标群中每个指标对应各分箱的评分值;根据每个指标对应各分箱的评分值获取用户的个人信用评分。
CN201710322533.5A 2017-05-09 2017-05-09 基于指令数据的个人信用评分方法及装置 Pending CN108876076A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710322533.5A CN108876076A (zh) 2017-05-09 2017-05-09 基于指令数据的个人信用评分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710322533.5A CN108876076A (zh) 2017-05-09 2017-05-09 基于指令数据的个人信用评分方法及装置

Publications (1)

Publication Number Publication Date
CN108876076A true CN108876076A (zh) 2018-11-23

Family

ID=64287486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710322533.5A Pending CN108876076A (zh) 2017-05-09 2017-05-09 基于指令数据的个人信用评分方法及装置

Country Status (1)

Country Link
CN (1) CN108876076A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325639A (zh) * 2018-12-06 2019-02-12 南京安讯科技有限责任公司 一种用于信用预测评估的信用评分卡自动化分箱方法
CN109584047A (zh) * 2018-11-29 2019-04-05 北京玖富普惠信息技术有限公司 一种授信方法、***、计算机设备及介质
CN110428270A (zh) * 2019-08-07 2019-11-08 佰聆数据股份有限公司 基于逻辑回归算法的渠道潜在偏好客户识别方法
CN110544155A (zh) * 2019-09-02 2019-12-06 中诚信征信有限公司 用户信用评分的获取方法、获取装置、服务器及存储介质
CN110727510A (zh) * 2019-09-25 2020-01-24 浙江大搜车软件技术有限公司 用户数据处理方法、装置、计算机设备和存储介质
WO2020125106A1 (zh) * 2018-12-21 2020-06-25 苏宁易购集团股份有限公司 基于相似度模型的数据处理方法及***
WO2020143233A1 (zh) * 2019-01-07 2020-07-16 平安科技(深圳)有限公司 评分卡模型的建立方法、装置、计算机设备和存储介质
CN114266641A (zh) * 2021-09-27 2022-04-01 东方微银科技股份有限公司 基于逻辑回归和规则的评分模型构建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110112A1 (en) * 1999-12-30 2003-06-12 Johnson Christopher D. Methods and systems for automated inferred valuation of credit scoring
CN101996381A (zh) * 2009-08-14 2011-03-30 中国工商银行股份有限公司 一种零售资产风险的计算方法及***
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN105894089A (zh) * 2016-04-21 2016-08-24 百度在线网络技术(北京)有限公司 一种征信模型的建立方法、征信确定方法及对应装置
CN106097095A (zh) * 2016-06-08 2016-11-09 腾讯科技(深圳)有限公司 确定信用的方法及装置
CN106204106A (zh) * 2016-06-28 2016-12-07 武汉斗鱼网络科技有限公司 一种特定用户识别方法及***
CN106503562A (zh) * 2015-09-06 2017-03-15 阿里巴巴集团控股有限公司 一种风险识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110112A1 (en) * 1999-12-30 2003-06-12 Johnson Christopher D. Methods and systems for automated inferred valuation of credit scoring
CN101996381A (zh) * 2009-08-14 2011-03-30 中国工商银行股份有限公司 一种零售资产风险的计算方法及***
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN106503562A (zh) * 2015-09-06 2017-03-15 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN105894089A (zh) * 2016-04-21 2016-08-24 百度在线网络技术(北京)有限公司 一种征信模型的建立方法、征信确定方法及对应装置
CN106097095A (zh) * 2016-06-08 2016-11-09 腾讯科技(深圳)有限公司 确定信用的方法及装置
CN106204106A (zh) * 2016-06-28 2016-12-07 武汉斗鱼网络科技有限公司 一种特定用户识别方法及***

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584047A (zh) * 2018-11-29 2019-04-05 北京玖富普惠信息技术有限公司 一种授信方法、***、计算机设备及介质
CN109584047B (zh) * 2018-11-29 2021-01-26 北京玖富普惠信息技术有限公司 一种授信方法、***、计算机设备及介质
CN109325639A (zh) * 2018-12-06 2019-02-12 南京安讯科技有限责任公司 一种用于信用预测评估的信用评分卡自动化分箱方法
WO2020125106A1 (zh) * 2018-12-21 2020-06-25 苏宁易购集团股份有限公司 基于相似度模型的数据处理方法及***
WO2020143233A1 (zh) * 2019-01-07 2020-07-16 平安科技(深圳)有限公司 评分卡模型的建立方法、装置、计算机设备和存储介质
CN110428270A (zh) * 2019-08-07 2019-11-08 佰聆数据股份有限公司 基于逻辑回归算法的渠道潜在偏好客户识别方法
CN110544155A (zh) * 2019-09-02 2019-12-06 中诚信征信有限公司 用户信用评分的获取方法、获取装置、服务器及存储介质
CN110544155B (zh) * 2019-09-02 2023-05-19 中诚信征信有限公司 用户信用评分的获取方法、获取装置、服务器及存储介质
CN110727510A (zh) * 2019-09-25 2020-01-24 浙江大搜车软件技术有限公司 用户数据处理方法、装置、计算机设备和存储介质
CN114266641A (zh) * 2021-09-27 2022-04-01 东方微银科技股份有限公司 基于逻辑回归和规则的评分模型构建方法

Similar Documents

Publication Publication Date Title
CN108876076A (zh) 基于指令数据的个人信用评分方法及装置
Johnston et al. The gravity of China's African export promise
CN109360084A (zh) 征信违约风险的评估方法及装置、存储介质、计算机设备
CN110428322A (zh) 一种业务数据的适配方法及装置
CN106204106A (zh) 一种特定用户识别方法及***
CN107230108A (zh) 业务数据的处理方法及装置
CN110119948B (zh) 基于时变权重动态组合的电力用户信用评价方法及***
CN107507038A (zh) 一种基于stacking和bagging算法的电费敏感用户分析方法
CN107622326A (zh) 用户分类、可用资源预测方法、装置及设备
CN108388974A (zh) 基于随机森林和决策树的优质客户优化识别方法及装置
CN109741177A (zh) 用户信用的评估方法、装置及智能终端
CN108647818A (zh) 一种预测企业涉税风险的方法及装置
CN107545038A (zh) 一种文本分类方法与设备
CN109615280A (zh) 员工数据处理方法、装置、计算机设备和存储介质
CN106991577A (zh) 一种确定目标用户的方法及装置
CN107609771A (zh) 一种供应商价值评价方法
CN108154311A (zh) 基于随机森林和决策树的优质客户识别方法及装置
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN110310012A (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN110175883A (zh) 一种排序方法、装置、电子设备和非易失性存储介质
CN109740036A (zh) Ota平台酒店排序方法及装置
CN109978575A (zh) 一种挖掘用户流量经营场景的方法及装置
CN115130811A (zh) 电力用户画像的建立方法、装置及电子设备
CN109858947A (zh) 零售用户价值分析***及方法
CN109583773A (zh) 一种纳税信用积分确定的方法、***及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination