CN112613977A - 一种基于政务数据的个人信用贷款准入授信方法及*** - Google Patents

一种基于政务数据的个人信用贷款准入授信方法及*** Download PDF

Info

Publication number
CN112613977A
CN112613977A CN202011498280.5A CN202011498280A CN112613977A CN 112613977 A CN112613977 A CN 112613977A CN 202011498280 A CN202011498280 A CN 202011498280A CN 112613977 A CN112613977 A CN 112613977A
Authority
CN
China
Prior art keywords
credit
government affair
client
model
admission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011498280.5A
Other languages
English (en)
Inventor
许晴
陈圳渠
姜晓楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011498280.5A priority Critical patent/CN112613977A/zh
Publication of CN112613977A publication Critical patent/CN112613977A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于政务数据的个人信用贷款准入授信方法及***,该方法包括:根据政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户;根据政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型;利用准入模型对准入客户进行信用风险评估,得到客户信用分;采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型;利用授信模型计算客户的基础授信额度;根据客户信用分及客户共债机构数进行风险调整;利用风险系数及基础授信额度得到客户最终的授信额度;本发明能够减轻准入审批的压力,充分利用到政务数据本身的价值,在拓展普惠金融业务的同时精准的管控金融机构自身的风险。

Description

一种基于政务数据的个人信用贷款准入授信方法及***
技术领域
本发明涉及互联网金融领域,尤指一种基于政务数据的个人信用贷款准入授信方法及***。
背景技术
近年来,我国高度重视普惠金融,出台了多份相关的政策文件,要大力发展普惠金融,要让农民、城镇低收入人群、贫困人群和残疾人、老年人等及时获取价格合理、便捷安全的金融服务。在这样的背景下,越来越多的金融机构扩展了普惠金融业务,开拓了与政府合作的新模式,政府提供政务数据,金融机构利用政务数据对个人客户进行信用评估,然后在普惠金融平台上提供线上信用贷款业务。
当前大部分贷款业务具有笔数多、单笔金额小的特征,决定了贷款需为线上申请、线上实时审批的模式,且政务数据一般包括金融机构、市场监管局、***、国土资源局、税务局等来源的数据,会存在数据杂乱和部分数据质量不佳等问题。而大部分线上审批的贷款产品仍采用传统评分卡方法,但基于政务数据的传统评分卡方法会遇到诸多难处,其评分的主观性导致难以从多来源的政务数据中抽取有用信息,也难以衡量不同特征的重要性;而且其只能利用有限的数据评估客户信用风险,无法实现风险的全面评估。
目前,普遍常见的个人信用贷款准入授信手段还是以传统评分卡方法为主,或者运用规则+逻辑回归。评分卡方法难以从多来源的政务数据中抽取有用信息,只能利用有限数据评估风险,规则+逻辑回归的方法不能很好地处理多分类特征,且不能很好地拟合非线性情况,这两种常见方法都无法精准管控信贷风险,难以对客户信用风险实现全面评估。
综上来看,亟需一种能够克服上述问题,实现对客户信用风险实现全面评估的技术方案,
发明内容
为解决现有技术存在的问题,本发明提出了一种基于政务数据的个人信用贷款准入授信方法及***,能够拓展基于政务数据的普惠金融业务,同时实现对客户风险的有效管控及精准授信。
在本发明实施例的第一方面,提出了一种基于政务数据的个人信用贷款准入授信方法,该方法包括:
获取政务数据;
根据所述政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户;
根据所述政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型;
利用所述准入模型对准入客户进行信用风险评估,得到客户信用分;
根据所述政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型;
根据所述政务数据,利用所述授信模型计算客户的基础授信额度;
根据所述客户信用分及客户共债机构数进行风险调整,得到对应的风险系数;
利用所述风险系数及所述基础授信额度得到客户最终的授信额度。
进一步的,根据所述政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户,还包括:
对所述政务数据进行个人数据清洗、个人特征衍生及个人特征筛选,得到处理后的政务数据。
进一步的,根据所述政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户,包括:
设置第一差异化规则集及第二差异化规则集;
判断所述处理后的政务数据是否符合第一差异化规则集,若符合,剔除对应的客户,若不符合,保留对应的客户为准入客户;
在所述准入客户中,判断政务数据是否符合第二差异化规则集,若符合,在政务数据中批注提示信息。
进一步的,对所述政务数据进行个人数据清洗,包括:
剔除掉数据表中全部值为空的字段,删除存在异常值的记录,并对于单位不统一的字段进行单位统一处理,得到清洗后的特征。
进一步的,对所述政务数据进行个人特征衍生,包括:
对所述政务数据进行聚合和转换处理,从原始特征中衍生出汇总值、均值、最大值及最小值在内的新特征。
进一步的,对所述政务数据进行个人特征筛选,包括:
将缺失值占比大于第一阈值的特征剔除,并将相关性大于第二阈值的特征删除,得到筛选后的特征。
进一步的,根据政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型,包括:
根据个人信贷信息设置坏样本及好样本;
根据所述政务数据,按照一定比例提取坏样本与好样本的建模样本;
根据将建模样本按照预设比例进行随机抽样,得到训练集及测试集;
利用训练集训练准入模型,并利用测试集验证准入模型,训练政务数据与信用风险之间的关系,得到训练后的准入模型。
进一步的,利用所述准入模型对准入客户进行信用风险评估,得到客户信用分;
利用训练后的准入模型预测准入客户的坏样本概率,将预测的概率转化为客户信用分。
进一步的,根据政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型,包括:
对所述建模样本进行特征清洗,将清洗后的建模样本按照预设比例进行划分,得到训练集及测试集;
利用训练集训练授信模型,并利用测试集验证授信模型,训练政务数据与授信额度之间的关系,得到训练后的授信模型。
进一步的,根据所述客户信用分及客户共债机构数进行风险调整,得到对应的风险系数,包括:
将客户信用分按照分值划分为多个评级,其中,在每个评级中根据客户共债机构数设置对应的风险系数。
进一步的,利用所述风险系数及所述基础授信额度得到客户最终的授信额度,包括:
客户最终的授信额度的计算式为:
L=L1×C;
其中,L为客户最终的授信额度;L1为基础授信额度;C为风险系数。
在本发明实施例的第二方面,提出了一种基于政务数据的个人信用贷款准入授信***,该***包括:
数据获取模块,用于获取政务数据;
准入筛选模块,用于根据所述政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户;
准入模型构建模块,用于根据所述政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型;
信用评估模块,用于利用所述准入模型对准入客户进行信用风险评估,得到客户信用分;
授信模型构建模块,用于根据所述政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型;
基础授信计算模块,用于根据所述政务数据,利用所述授信模型计算客户的基础授信额度;
风险调整模块,用于根据所述客户信用分及客户共债机构数进行风险调整,得到对应的风险系数;
最终授信计算模块,用于利用所述风险系数及所述基础授信额度得到客户最终的授信额度。
在本发明实施例的第三方面,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于政务数据的个人信用贷款准入授信方法。
在本发明实施例的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于政务数据的个人信用贷款准入授信方法。
本发明提出的基于政务数据的个人信用贷款准入授信方法及***通过获取政务数据,根据政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户;根据政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型;利用准入模型对准入客户进行信用风险评估,得到客户信用分;根据政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型;根据政务数据,利用授信模型计算客户的基础授信额度;根据客户信用分及客户共债机构数进行风险调整,得到对应的风险系数;利用风险系数及基础授信额度得到客户最终的授信额度,减轻准入审批的压力,充分利用到政务数据本身的价值,精准评估客户的信用风险、资产、还债能力、还债意愿,在拓展普惠金融业务的同时精准的管控金融机构自身的风险。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一实施例的基于政务数据的个人信用贷款准入授信方法流程示意图。
图2是本发明一具体实施例的个人贷款准入流程示意图。
图3是本发明一具体实施例的开发训练集的指标示意图。
图4是本发明一具体实施例的开发测试集的指标示意图。
图5是本发明一具体实施例的开开发测试集上各评分区间的坏客户的分布占比示意图。
图6是本发明一具体实施例的个人贷款授信的流程示意图。
图7是本发明一实施例的基于政务数据的个人信用贷款准入授信***架构示意图。
图8是本发明一实施例的计算机设备结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种基于政务数据的个人信用贷款准入授信方法及***,通过建立了底线及非底线的公共准入规则集合作为第一道防线,对申请客户进行准入初筛;进而基于机器学习在准入和授信两个环节分别构建了模型,准入模型基于政务数据计算客户的风险分,精准评估客户的信用风险,授信模型基于政务数据及客户的风险分计算客户的最终授信额度,准确评估客户的资产、还债能力、还债意愿;在实施过程中通过准入规则集合的设置,减轻了准入审批的压力,又通过机器学习的方法,构建了准入和授信两个模型,充分利用到政务数据本身的价值,有效地降低贷款的潜在风险,在普惠人民群众的同时,也精准地管控了金融机构自身的风险。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
图1是本发明一实施例的基于政务数据的个人信用贷款准入授信方法流程示意图。如图1所示,该方法包括:
步骤S1,获取政务数据;
步骤S2,根据政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户;
步骤S3,根据政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型;
步骤S4,利用所述准入模型对准入客户进行信用风险评估,得到客户信用分;
步骤S5,根据政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型;
步骤S6,根据政务数据,利用所述授信模型计算客户的基础授信额度;
步骤S7,根据所述客户信用分及客户共债机构数进行风险调整,得到对应的风险系数;
步骤S8,利用所述风险系数及所述基础授信额度得到客户最终的授信额度。
需要说明的是,尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
为了对上述基于政务数据的个人信用贷款准入授信方法进行更为清楚的解释,下面结合每一步进行详细说明。
参考图2,为本发明一具体实施例的个人贷款准入流程示意图。如图2所示,结合步骤S1至步骤S4对个人贷款准入进行说明。
步骤S1,获取政务数据。
政务数据可以用于个人贷款准入的数据,其中,该些数据可以来自***、国土局、金融机构、手机运营商等多个部门。
由于数据质量参差不齐,例如有些数据错位严重(性别信息放到了身份证字段上),有的单位不统一(年收入、抵押价值等字段有些单位为元,有些为万元),有的字段缺失率高达90%以上。因此,经过分析处理,最终使用的数据如表1所示,主要涉及以下几个方面:
表1数据表统计情况
Figure BDA0002842846020000071
步骤S2,根据所述政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户。
其中,具体包括:
步骤S21,对政务数据进行个人数据清洗、个人特征衍生及个人特征筛选,得到处理后的政务数据。
步骤S22,设置第一差异化规则集及第二差异化规则集;判断所述处理后的政务数据是否符合第一差异化规则集,若符合,剔除对应的客户,若不符合,保留对应的客户为准入客户;在所述准入客户中,判断政务数据是否符合第二差异化规则集,若符合,在政务数据中批注提示信息。
其中,个人数据清洗:个人数据清洗主要涉及以下三个方面的内容:首先,剔除掉数据表中全部值为空的字段。其次,删除掉一些异常值,比如个人年收入大于500亿的记录。最后,对于单位不统一的字段,要将其统一单位,例如元和万元统一为元。
个人特征衍生:该步骤所使用的技术为特征引擎,其主要通过聚合和转换,从原始特征中衍生出汇总值、均值、最大值、最小值等新特征,从而在入模后提升模型的学习能力。针对个人数据的特征衍生,所用到的衍生方法为下面几种:
1、透传:透传是指直接传入模型使用即可,无需进行任何加工。针对单条样本仅有单条记录的情况,例如年龄,性别等可直接使用而无需多值聚合的特征,即采用透传的方法,直接传进模型使用。
2、合成:合成即指将单独的特征进行组合,从而形成合成特征。其可以通过相乘、相除或笛卡尔积得到新的组合特征。除此之外,针对分类型的变量,例如职业、职务等字段,由于其囊括的类别通常较多,更有甚者成千上万,通常会在入模前将一些不常见的类别进行合并,这也是合成的一种体现。
3、聚合:聚合适用的情况为每个人可能有多条记录时,典型代表是个人信贷数据中,当月每个客户在不同的机构均会有信贷记录,此时要统计某用户的授信额度时,可以对多条记录中的授信额度字段进行求和、求均值、求极值等,同时还可以计算出为该客户进行授信的机构个数。
4、交叉比对:交叉比对多用于计算相似度,例如信贷信息中的家庭地址与基本信息中的家庭地址的相似度。针对于一人存在多条记录的情况,还可以将每一条记录进行交叉比对,再对各个相似度进行聚合操作,比如求和、求平均、求极值等。
个人特征筛选:此阶段的筛选涉及两个方面,一是剔除掉缺失值占比大于90%的特征,防止其限制模型的进行区分的能力;二是删除相关性大于0.9的特征,从而降低模型的共线性。
具体的,步骤S22进行规则集判断的详细过程为:
在入模之前,用户会先经过准入规则集的验证,规则集则分为强规则(第一差异化规则集)和弱规则(第二差异化规则集),其中,强规则是指当其被某一条规则击中时,说明用户在该方面未达到准入要求,会直接被拒绝,准入评分则直接输出0分,同时输出该条命中的规则;而弱规则命中后,用户不会直接被拒绝,其评分也为未受影响,只是会在后续输出准入评分的时候同时输出该条规则作为提示信息。个人的准入规则集涵盖的强弱规则如表2及表3所示:
表2强规则集
Figure BDA0002842846020000091
表3弱规则集
Figure BDA0002842846020000092
当用户未被上述规则命中时,则会输出提示信息“通过准入规则”,并直接进入到准入模型,获得相应的准入评分。
步骤S3,根据政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型。
其中,具体包括:
步骤S31,根据个人信贷信息设置坏样本及好样本;
步骤S32,根据所述政务数据,按照一定比例提取坏样本与好样本的建模样本;
步骤S33,根据将建模样本按照预设比例进行随机抽样,得到训练集及测试集;
步骤S34,利用训练集训练准入模型,并利用测试集验证准入模型,训练政务数据与信用风险之间的关系,得到训练后的准入模型。
步骤S4,利用所述准入模型对准入客户进行信用风险评估,得到客户信用分。
其中,具体包括:
利用训练后的准入模型预测准入客户的坏样本概率,将预测的概率转化为客户信用分。
本发明采用的是LightGBM算法:LigthGBM算法是是boosting集合模型的新进成员,主要思想是利用弱分类器(决策树)迭代训练以得到最优模型。该算法具有训练效果好、训练效率快、准确率高、支持并行化学习等优势。
首先,在构建LightGBM准入模型时,需要对好客户及坏客户进行定义:
好客户及坏客户的定义即为模型标签的定义,即模型的预测值为某客户为好客户还是坏客户。好坏客户的概念来源于个人信贷信息中的字段,具体为:该客户在某一月份的关注类、次级类、可疑类、损失类信贷业务余额之和(下文简称余额之和)大于0,且在之前的月份余额之和等于0。例如某客户在4月余额之和等于0,而在5、6两个月余额之和均大于0,则视其为坏客户。相反,当用户在所有月份的余额之和等于0时,则定义为好客户。
在本实施例中,为保障模型训练效果,以下三种情况的样本是被剔除掉的:客户在首月批次数据中余额之和大于0、客户在所有月份批次数据中余额之和均大于0、客户在所有月份批次数据中由坏变好。
在本实施例中,为确保模型能够学习到足量的坏样本数据,在全量样本的基础上按照好坏比9:1进行抽样,即得到建模样本。
在本实施例中,在上述抽样好的建模样本上,再按照7:3随机抽样,划分出开发训练集和开发测试集,前者用于准入模型的训练,后者则用于模型的验证。
下面对模型机制解释及模型指标进行说明。
LightGBM作为目前最先进的集成学习模型框架,相较于其他集成模型,具有直接支持类别特征、多线程优化、支持高效并行等特点。LightGBM的核心是一种以决策树为基分类器的集成学习模型,即为非线性模型GBDT(Gradient Boosting Decision Tree)算法。其旨在通过多棵决策树的迭代过程,逐步对基学习器进行改进,直至基学习器的数量达到目标值。同时,为了解决GBDT的低效率和低扩展性的问题,其采用了单边梯度采样GOSS(Gradient-based One-Side Sampling)算法以及互斥特征绑定EFB(Exclusive FeatureBundling)算法,其中前者是从减少样本的角度出发,排除了大部分小梯度的样本,后者是从减少特征的角度出发,捆绑互斥特征,二者结合,双管齐下,从而确保高效实现。
考虑到该模型是用来处理二分类问题的,即模型的预测结果是用户的标签为好客户还是坏客户,故模型指标可以使用KS值(Kolmogorov-Smirnov),即好坏样本累计分部之间的差值,以及AUC值(Area under the ROC Curve),即ROC曲线下的面积,作为模型的评价指标。KS和AUC指标越大,说明模型的风险区分能力越强,如图3及图4所示,分别为开发训练集和测试集的指标示意图。
另外,除上述两个指标外,特征重要性作为一种为预测模型的输入特征评分的方法,揭示了进行预测时每个特征的相对重要程度。如表4所示,列出了重要性排名前十的特征。
表4排名前十的特征及其重要性
特征名称 特征重要性
贷款余额总额 0.1759
授信额度平均值 0.1287
授信额度>0的机构个数 0.09
个人年收入项目均值(农户) 0.0879
授信额度最大值 0.0721
贷款余额平均值 0.0661
个人年收入(工人) 0.0599
职业信息 0.0491
家庭人数(农户) 0.0462
年龄 0.0383
利用准入模型,可以开发测试集的用户,得到样本是坏样本的概率。为了提高模型输出结果的可读性及可解释性,本发明将预测概率转化为评分,从而方便金融机构的业务人员进行快速研判。
在转分时,首先设置基础分数为575分,p0=575,设置好样本概率的翻倍分数为70分,pdo=70,根据如下公式对基础分数进行调整,更新基础分数为p1
Figure BDA0002842846020000111
根据下式计算分数score:
Figure BDA0002842846020000112
其中,ln(odds)即为某用户为好样本的概率与其为坏样本的概率之比;用x来表示用户为坏样本的概率,则公式为:
Figure BDA0002842846020000121
将评分的区间限定为[300,850],即超过该范围的分数将会被映射为300或850。
参考图5,为开发测试集上各评分区间的坏客户的分布占比,可以看出随着分数区间的递增,坏样本的占比基本是逐步降低的,在评分较低的区间下降的尤为明显。
在准入流程之后,下面对授信流程进行详细叙述。
参考图6,为个人贷款授信的流程示意图。如图6所示,授信模型使用准入评分模型中的建模样本,基于政务数据特征,建立授信测额模型,给客户输出一个基础额度,完成对个人客户的初步测额。然后构建基于准入模型信用评分及当前共债机构数的风险系数矩阵,通过风险系数矩阵计算每个客户的风险系数,最终使用客户的基础额度乘以客户的风险系数即得到最终的测算额度。
下面结合图6及步骤S5至步骤S8对个人贷款授信进行说明。
步骤S5,根据政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型。
其中,具体包括:
步骤S51,对所述建模样本进行特征清洗,将清洗后的建模样本按照预设比例进行划分,得到训练集及测试集;
其中,个人授信模型的构建使用的是准入评分模型中的建模样本,且将样本按7:3比例划分训练集和测试集,并以信贷表中的“金融机构当前授信额度均值”为标签。
由于抵押类特征和信贷特征与标签有极大的相关性,故过滤掉此部分特征。其次,考虑到家庭人数和年收入这两个特征存在异常值,有超出正常范围的异常数据,可能会造成模型不稳定,所以对这两个特征进行分箱处理。最后,与准入时的流程类似,删除掉相关性大于0.9的特征。
步骤S52,利用训练集训练授信模型,并利用测试集验证授信模型,训练政务数据与授信额度之间的关系,得到训练后的授信模型。
本发明在进行授信时,选择的模型同样为LightGBM,在经过样本选择和特征筛选处理后,就开始训练模型。由于最终需要输出一个基础授信额度,属于数值输出,所以在训练集上采用LightGBM回归模型进行训练,模型的特征重要性如表5所示。
表5排名前十的特征及其重要性
特征名称 特征重要性
年龄 4122
收入 1810
投资总额 1583
性别 1445
家庭人数 1386
投资企业数 1345
文化程度 616
行业 589
收入项目数 544
职业 510
步骤S6,根据政务数据,利用所述授信模型计算客户的基础授信额度;
步骤S7,根据所述客户信用分及客户共债机构数进行风险调整,得到对应的风险系数。
具体可以将客户信用分按照分值划分为多个评级,其中,在每个评级中根据客户共债机构数设置对应的风险系数。
在本实施例中,风险调整可以通过风险系数矩阵来完成的。风险系数矩阵由两个因素共同决定,一个是准入模型输出的信用分,一个是当前共债的机构数。如表6所示,将信用分划分为五段,并给定A、B、C、D、E五个评级,具体划分为:A(700分以上),B(600-700分),C(500-600分),D(400-500分),E(400分以下)。将当前共债机构数划分为四段,并给定A、B、C、D四个评级,具体划分为:A(0-1家共债机构),B(2家共债机构),C(3-4家共债机构),D(大于4家共债机构)。
通过两个评级共同决策的风险系数矩阵,可以得到每个客户对应的风险系数。
表6风险系数矩阵
Figure BDA0002842846020000131
步骤S8,利用所述风险系数及所述基础授信额度得到客户最终的授信额度。
具体的,客户最终的授信额度的计算式为:
L=L1×C;
其中,L为客户最终的授信额度;L1为基础授信额度;C为风险系数。
通过该公式计算得到的即为最终的授信额度,将该额度输出,本次个人客户准入授信的流程完成。
在本发明进行个人客户准入授信的流程中,实现了算法选择创新,在准入和授信两个阶段,均使用了机器学习算法LightGBM,从而可以更高效、准确地捕捉到因变量与自变量之间的复杂关系,实现更可靠的互联网信贷风控;在数据利用上,基于政务大数据,充分利用了其高精度、高质量的特点,将各个机构的数据进行关联分析,加之特征衍生技术,在原始数据的基础上衍生出具有业务含义的新特征,可谓充分挖掘了政务大数据的价值;在整体流程上做出了较大改进,通过准入规则、准入模型及授信模型,实现层层筛选,层层把控,在追求数据价值最大化的同时,能够有效地识别个体欺诈风险;本发明还在风险调整环节,对准入模型的评分结果进行分档,并配以相应的风险系数,最终的授信额度即为授信模型结果乘以风险调整系数,从而控制额度不良风险。
相较于现有技术,本发明提出的基于政务数据的个人信用贷款准入授信至少存在以下优点:
模型更可靠:相对于传统的专家评分卡、线性回归方法以及逻辑回归,LightGBM作为先进的机器学习集成模型,不仅能更好地捕捉到非线性关系,从而达到更高的精确度,而且对大量级的数据十分友好,具有极高的模型开发效率;
安全系数高:三层机制,串行工作,加之风险系数的调整,相比传统的单模型体系,极大地提高了对风险的识别能力与把控能力;
助推普惠金融服务:本发明致力于为群众,例如农民、工人提供线上的无抵押、无担保的、个人信用贷款服务,相较于传统的抵押实物或民间借贷的方式,更可靠、更便捷,可谓是为普惠金融的发展添砖加瓦
提高金融机构服务效率:本发明相比于传统的线下贷款服务,充分利用了人工智能等先进技术,基于对多维度政务数据的探索,为金融机构打造了准入评分、额度测算等流程化的服务体系,免除了线下人工审核的环节,减少了工作量,极大地提高了金融机构的服务效率。
在介绍了本发明示例性实施方式的方法之后,接下来,参考图7对本发明示例性实施方式的基于政务数据的个人信用贷款准入授信***进行介绍。
基于政务数据的个人信用贷款准入授信***的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”或者“单元”,可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
基于同一发明构思,本发明还提出了一种基于政务数据的个人信用贷款准入授信***,如图7所示,该***包括:
数据获取模块710,用于获取政务数据;
准入筛选模块720,用于根据所述政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户;
准入模型构建模块730,用于根据政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型;
信用评估模块740,用于利用所述准入模型对准入客户进行信用风险评估,得到客户信用分;
授信模型构建模块750,用于根据政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型;
基础授信计算模块760,用于根据政务数据,利用所述授信模型计算客户的基础授信额度;
风险调整模块770,用于根据所述客户信用分及客户共债机构数进行风险调整,得到对应的风险系数;
最终授信计算模块780,用于利用所述风险系数及所述基础授信额度得到客户最终的授信额度。
应当注意,尽管在上文详细描述中提及了基于政务数据的个人信用贷款准入授信***的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
在本实施例中,准入筛选模块720具体用于:
对政务数据进行个人数据清洗、个人特征衍生及个人特征筛选,得到处理后的政务数据。
在本实施例中,准入筛选模块720具体用于:
设置第一差异化规则集及第二差异化规则集;
判断所述处理后的政务数据是否符合第一差异化规则集,若符合,剔除对应的客户,若不符合,保留对应的客户为准入客户;
在所述准入客户中,判断政务数据是否符合第二差异化规则集,若符合,在政务数据中批注提示信息。
在本实施例中,准入模型构建模块730具体用于:
根据个人信贷信息设置坏样本及好样本;
根据所述政务数据,按照一定比例提取坏样本与好样本的建模样本;
根据将建模样本按照预设比例进行随机抽样,得到训练集及测试集;
利用训练集训练准入模型,并利用测试集验证准入模型,训练政务数据与信用风险之间的关系,得到训练后的准入模型。
在本实施例中,信用评估模块740具体用于:
利用训练后的准入模型预测准入客户的坏样本概率,将预测的概率转化为客户信用分。
在本实施例中,授信模型构建模块750具体用于:
对所述建模样本进行特征清洗,将清洗后的建模样本按照预设比例进行划分,得到训练集及测试集;
利用训练集训练授信模型,并利用测试集验证授信模型,训练政务数据与授信额度之间的关系,得到训练后的授信模型。
在本实施例中,风险调整模块770具体用于:
将客户信用分按照分值划分为多个评级,其中,在每个评级中根据客户共债机构数设置对应的风险系数。
在本实施例中,最终授信计算模块780计算客户最终的授信额度采用计算式为:
L=L1×C;
其中,L为客户最终的授信额度;L1为基础授信额度;C为风险系数。
基于前述发明构思,如图8所示,本发明还提出了一种计算机设备800,包括存储器810、处理器820及存储在存储器810上并可在处理器820上运行的计算机程序830,所述处理器820执行所述计算机程序830时实现前述基于政务数据的个人信用贷款准入授信方法。
基于前述发明构思,本发明提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述基于政务数据的个人信用贷款准入授信方法。
本发明提出的基于政务数据的个人信用贷款准入授信方法及***通过获取政务数据,根据政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户;根据政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型;利用准入模型对准入客户进行信用风险评估,得到客户信用分;根据政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型;根据政务数据,利用授信模型计算客户的基础授信额度;根据客户信用分及客户共债机构数进行风险调整,得到对应的风险系数;利用风险系数及基础授信额度得到客户最终的授信额度,减轻准入审批的压力,充分利用到政务数据本身的价值,精准评估客户的信用风险、资产、还债能力、还债意愿,在拓展普惠金融业务的同时精准的管控金融机构自身的风险。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种基于政务数据的个人信用贷款准入授信方法,其特征在于,该方法包括:
获取政务数据;
根据所述政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户;
根据所述政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型;
利用所述准入模型对准入客户进行信用风险评估,得到客户信用分;
根据所述政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型;
根据所述政务数据,利用所述授信模型计算客户的基础授信额度;
根据所述客户信用分及客户共债机构数进行风险调整,得到对应的风险系数;
利用所述风险系数及所述基础授信额度得到客户最终的授信额度。
2.根据权利要求1所述的基于政务数据的个人信用贷款准入授信方法,其特征在于,根据所述政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户,还包括:
对所述政务数据进行个人数据清洗、个人特征衍生及个人特征筛选,得到处理后的政务数据。
3.根据权利要求2所述的基于政务数据的个人信用贷款准入授信方法,其特征在于,根据所述政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户,包括:
设置第一差异化规则集及第二差异化规则集;
判断所述处理后的政务数据是否符合第一差异化规则集,若符合,剔除对应的客户,若不符合,保留对应的客户为准入客户;
在所述准入客户中,判断政务数据是否符合第二差异化规则集,若符合,在政务数据中批注提示信息。
4.根据权利要求2所述的基于政务数据的个人信用贷款准入授信方法,其特征在于,对所述政务数据进行个人数据清洗,包括:
剔除掉数据表中全部值为空的字段,删除存在异常值的记录,并对于单位不统一的字段进行单位统一处理,得到清洗后的特征。
5.根据权利要求2所述的基于政务数据的个人信用贷款准入授信方法,其特征在于,对所述政务数据进行个人特征衍生,包括:
对所述政务数据进行聚合和转换处理,从原始特征中衍生出汇总值、均值、最大值及最小值在内的新特征。
6.根据权利要求2所述的基于政务数据的个人信用贷款准入授信方法,其特征在于,对所述政务数据进行个人特征筛选,包括:
将缺失值占比大于第一阈值的特征剔除,并将相关性大于第二阈值的特征删除,得到筛选后的特征。
7.根据权利要求1所述的基于政务数据的个人信用贷款准入授信方法,其特征在于,根据政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型,包括:
根据个人信贷信息设置坏样本及好样本;
根据所述政务数据,按照一定比例提取坏样本与好样本的建模样本;
根据将建模样本按照预设比例进行随机抽样,得到训练集及测试集;
利用训练集训练准入模型,并利用测试集验证准入模型,训练政务数据与信用风险之间的关系,得到训练后的准入模型。
8.根据权利要求7所述的基于政务数据的个人信用贷款准入授信方法,其特征在于,利用所述准入模型对准入客户进行信用风险评估,得到客户信用分;
利用训练后的准入模型预测准入客户的坏样本概率,将预测的概率转化为客户信用分。
9.根据权利要求7所述的基于政务数据的个人信用贷款准入授信方法,其特征在于,根据政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型,包括:
对所述建模样本进行特征清洗,将清洗后的建模样本按照预设比例进行划分,得到训练集及测试集;
利用训练集训练授信模型,并利用测试集验证授信模型,训练政务数据与授信额度之间的关系,得到训练后的授信模型。
10.根据权利要求1所述的基于政务数据的个人信用贷款准入授信方法,其特征在于,根据所述客户信用分及客户共债机构数进行风险调整,得到对应的风险系数,包括:
将客户信用分按照分值划分为多个评级,其中,在每个评级中根据客户共债机构数设置对应的风险系数。
11.根据权利要求10所述的基于政务数据的个人信用贷款准入授信方法,其特征在于,利用所述风险系数及所述基础授信额度得到客户最终的授信额度,包括:
客户最终的授信额度的计算式为:
L=L1×C;
其中,L为客户最终的授信额度;L1为基础授信额度;C为风险系数。
12.一种基于政务数据的个人信用贷款准入授信***,其特征在于,该***包括:
数据获取模块,用于获取政务数据;
准入筛选模块,用于根据所述政务数据,利用模型的准入策略集及差异化规则对客户进行筛选,获取准入客户;
准入模型构建模块,用于根据所述政务数据,采用机器学习集合算法训练政务数据与信用风险之间的关系,构建准入模型;
信用评估模块,用于利用所述准入模型对准入客户进行信用风险评估,得到客户信用分;
授信模型构建模块,用于根据所述政务数据,采用机器学习集合算法训练政务数据与授信额度之间的关系,构建授信模型;
基础授信计算模块,用于根据所述政务数据,利用所述授信模型计算客户的基础授信额度;
风险调整模块,用于根据所述客户信用分及客户共债机构数进行风险调整,得到对应的风险系数;
最终授信计算模块,用于利用所述风险系数及所述基础授信额度得到客户最终的授信额度。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11任一所述方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至11任一所述方法。
CN202011498280.5A 2020-12-17 2020-12-17 一种基于政务数据的个人信用贷款准入授信方法及*** Pending CN112613977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011498280.5A CN112613977A (zh) 2020-12-17 2020-12-17 一种基于政务数据的个人信用贷款准入授信方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011498280.5A CN112613977A (zh) 2020-12-17 2020-12-17 一种基于政务数据的个人信用贷款准入授信方法及***

Publications (1)

Publication Number Publication Date
CN112613977A true CN112613977A (zh) 2021-04-06

Family

ID=75240280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011498280.5A Pending CN112613977A (zh) 2020-12-17 2020-12-17 一种基于政务数据的个人信用贷款准入授信方法及***

Country Status (1)

Country Link
CN (1) CN112613977A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990369A (zh) * 2021-04-26 2021-06-18 四川新网银行股份有限公司 一种基于社交网络的逃废债行为识别方法及***
CN113256402A (zh) * 2021-06-03 2021-08-13 上海冰鉴信息科技有限公司 风险控制规则确定方法、装置和电子设备
CN113362176A (zh) * 2021-06-29 2021-09-07 中国农业银行股份有限公司 数据处理方法和数据处理装置
CN113919933A (zh) * 2021-08-25 2022-01-11 北京睿知图远科技有限公司 一种基于好坏标签的客户评分验证方法
CN116416054A (zh) * 2023-04-03 2023-07-11 东方微银科技股份有限公司 一种基于风险管理的小微信贷业务准入优化方法及***
CN117114858A (zh) * 2023-10-19 2023-11-24 湖南三湘银行股份有限公司 基于aviator表达式的计算检查公式的配置化实现方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078073A1 (en) * 2009-09-30 2011-03-31 Suresh Kumar Annappindi System and method for predicting consumer credit risk using income risk based credit score
CN108921689A (zh) * 2018-06-29 2018-11-30 重庆富民银行股份有限公司 贷款风险监控***及方法
CN109978680A (zh) * 2019-03-18 2019-07-05 杭州绿度信息技术有限公司 一种细分客群信贷业务风控差异化定价的风控方法和***
CN110119413A (zh) * 2019-04-30 2019-08-13 京东城市(南京)科技有限公司 数据融合的方法和装置
CN111210341A (zh) * 2020-01-14 2020-05-29 中国建设银行股份有限公司 一种确定业务额度的方法和装置
US20200349641A1 (en) * 2019-05-03 2020-11-05 Mo Tecnologias, Llc System and method for determining credit and issuing a business loan using tokens and machine learning
CN111967973A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 银行客户数据处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078073A1 (en) * 2009-09-30 2011-03-31 Suresh Kumar Annappindi System and method for predicting consumer credit risk using income risk based credit score
CN108921689A (zh) * 2018-06-29 2018-11-30 重庆富民银行股份有限公司 贷款风险监控***及方法
CN109978680A (zh) * 2019-03-18 2019-07-05 杭州绿度信息技术有限公司 一种细分客群信贷业务风控差异化定价的风控方法和***
CN110119413A (zh) * 2019-04-30 2019-08-13 京东城市(南京)科技有限公司 数据融合的方法和装置
US20200349641A1 (en) * 2019-05-03 2020-11-05 Mo Tecnologias, Llc System and method for determining credit and issuing a business loan using tokens and machine learning
CN111210341A (zh) * 2020-01-14 2020-05-29 中国建设银行股份有限公司 一种确定业务额度的方法和装置
CN111967973A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 银行客户数据处理方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990369A (zh) * 2021-04-26 2021-06-18 四川新网银行股份有限公司 一种基于社交网络的逃废债行为识别方法及***
CN113256402A (zh) * 2021-06-03 2021-08-13 上海冰鉴信息科技有限公司 风险控制规则确定方法、装置和电子设备
CN113362176A (zh) * 2021-06-29 2021-09-07 中国农业银行股份有限公司 数据处理方法和数据处理装置
CN113362176B (zh) * 2021-06-29 2024-03-22 中国农业银行股份有限公司 数据处理方法和数据处理装置
CN113919933A (zh) * 2021-08-25 2022-01-11 北京睿知图远科技有限公司 一种基于好坏标签的客户评分验证方法
CN116416054A (zh) * 2023-04-03 2023-07-11 东方微银科技股份有限公司 一种基于风险管理的小微信贷业务准入优化方法及***
CN117114858A (zh) * 2023-10-19 2023-11-24 湖南三湘银行股份有限公司 基于aviator表达式的计算检查公式的配置化实现方法
CN117114858B (zh) * 2023-10-19 2024-03-19 湖南三湘银行股份有限公司 基于aviator表达式的计算检查公式的配置化实现方法

Similar Documents

Publication Publication Date Title
CN112613977A (zh) 一种基于政务数据的个人信用贷款准入授信方法及***
CN111652710B (zh) 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法
CN112017025A (zh) 一种基于深度学习与逻辑回归相融合的企业信用评估方法
CN112700319A (zh) 基于政务数据的企业授信额度确定方法及装置
CN112348654A (zh) 企业授信额度自动评定方法、***及可读存储介质
CN112102073A (zh) 信贷风险控制方法及***、电子设备及可读存储介质
CN112541817A (zh) 一种个人消费贷款潜在客户的营销响应处理方法及***
CN112598500A (zh) 一种无额度客户的授信处理方法及***
CN111401600A (zh) 基于关联关系的企业信用风险评价方法和***
CN111476660A (zh) 一种基于数据分析的智能风控***及方法
CN110796539A (zh) 一种征信评估方法及装置
CN108492001A (zh) 一种用于担保贷款网络风险管理的方法
CN113989019A (zh) 识别风险的方法、装置、设备及存储介质
CN114328461A (zh) 一种基于大数据分析的企业创新与成长能力的评价方法及***
CN111062597A (zh) 一种上市公司财务报表粉饰嫌疑检测方法及装置
CN111951093A (zh) 一种个人信用分评分方法
CN112037006A (zh) 小微企业的信用风险识别方法及装置
CN116468273A (zh) 客户风险识别方法及装置
CN117114812A (zh) 一种针对企业的金融产品推荐方法及装置
WO2022143431A1 (zh) 一种反洗钱模型的训练方法及装置
CN113177733B (zh) 基于卷积神经网络的中小微企业数据建模方法及***
CN115564591A (zh) 一种融资产品的确定方法及相关设备
CN115423601A (zh) 一种线上贷产品设计方法及装置
CN114626940A (zh) 数据分析方法、装置及电子设备
CN114154682A (zh) 一种客户贷款收益率等级预测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination