CN113421154B - 基于控制图的信贷风险评估方法及*** - Google Patents

基于控制图的信贷风险评估方法及*** Download PDF

Info

Publication number
CN113421154B
CN113421154B CN202110584049.6A CN202110584049A CN113421154B CN 113421154 B CN113421154 B CN 113421154B CN 202110584049 A CN202110584049 A CN 202110584049A CN 113421154 B CN113421154 B CN 113421154B
Authority
CN
China
Prior art keywords
data
transaction flow
credit
module
risk assessment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110584049.6A
Other languages
English (en)
Other versions
CN113421154A (zh
Inventor
陈宏�
叶恒青
张思宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110584049.6A priority Critical patent/CN113421154B/zh
Publication of CN113421154A publication Critical patent/CN113421154A/zh
Application granted granted Critical
Publication of CN113421154B publication Critical patent/CN113421154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Technology Law (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供了一种基于控制图的信贷风险评估方法及***,包括采集交易流水数据、信贷审核数据和逾期天数数据,进行预处理,得到常规特征和违约特征;交易流水数据聚合,得到初始交易流水指标;初始交易流水指标转换为警告信号;警告信号处理成信号特征;整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征得到多类风控评估样本;针对风控评估样本,建立机器学***台线上机器学习模型,对申请客户进行实时风险评估,输出风险评估结果。本发明提高了信贷风险评估的准确性,且应用于不同场景下的信贷风险评估,有利于提高信贷风险评估的适用范围。

Description

基于控制图的信贷风险评估方法及***
技术领域
本发明涉及信贷风险评估的技术领域,具体地,涉及一种基于控制图的信贷风险评估方法及***。
背景技术
在信贷审批过程中,目前众多的风险评估方法集中在实现智能化风险评级,而缺乏对不同渠道数据源的挖掘。
公开号为CN110415111A的中国发明专利公开了基于用户数据与专家特征合并逻辑回归信贷审批的方法,包括输入数据进行清洗、数据降维和预处理、对数据进行分类、对数据进行特征工程并提取特征、引入专家特征、对特征进行预测和输出审批名单。此专利中,该信贷审批的方法将传统金融模型中的专家特征和经典机器学习方法结合起来,并结合市场实时更新数据和特征工程来对可能的动态变化的未来违约可能性进行预测,采用了预测模型和优化的逻辑回归算法,满足复杂的信贷约束,获得的违约概率预测和风险溢价的结果更加准确,并且使得审核人员可以从繁重的信用风险评估审核和定价中解放出来,使得大规模的小微企业信贷审批得以快速实现,确保智能评级和规避风险成为可能。该方法分析了用户数据及专家特征,整合了两类常见的数据源,其虽然能够实现快速审批,但在违约概率预测的准确性上仍然存在提升空间。
公开号为CN107093101A的中国发明专利公开了一种基于POS交易流水数据的潜在贷款用户挖掘与风险评分方法,包括:获取POS交易流水数据;从扩大经营方面和***方面这两方面入手对获取的POS交易流水数据进行潜在贷款用户挖掘;确定用于POS交易流水风险评分的统计指标,并根据确定的统计指标和获取的POS交易流水数据采用设定的评分模型进行POS交易流水风险评分。本发明结合了POS交易流水数据从扩大经营方面和***方面入手进行潜在贷款用户挖掘,能快速且准确地挖掘出潜在的贷款用户,且POS交易流水数据很好地体现了商户对于资金以及贷款的需求量,转化的成功率较高;基于POS交易流水数据提出了新的POS交易流水风险评分方法,更加有效。该方法可广泛应用于数据挖掘领域。该方法提出通过POS交易流水的统计指标进行风险评估,其虽然实现了对POS交易流水数据的分析,但其使用的数据挖掘方法过于简易且缺少扩展性,该技术披露的方法及给定的数值结果过于具体,并不适用于广泛应用于不同场景下的信贷审核过程。
针对上述中的现有技术,发明人认为违约概率预测的准确性较差,且信贷审核过程的适用范围较小,导致信贷风险评估的效果较差。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于控制图的信贷风险评估方法及***。
根据本发明提供的一种基于控制图的信贷风险评估方法,包括如下步骤:
步骤1:采集已发放贷款客户的交易流水数据、信贷审核数据和逾期天数数据,并对各类数据进行预处理,得到常规特征和违约特征;
步骤2:将预处理过后的所述交易流水数据聚合并进行标准化,得到标准化后的初始交易流水指标;
步骤3:将所述标准化后的初始交易流水指标转换为警告信号;
步骤4:将所述警告信号处理成信号特征;
步骤5:整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征,得到多类风控评估样本;
步骤6:针对所述风控评估样本,建立对应的机器学习模型,评估根据不同风控评估样本的机器学习模型结果,选定最佳风控模型;
步骤7:根据最佳风控模型建立信贷平台线上机器学习模型,对申请客户进行实时风险评估,输出风险评估结果。
优选的,所述步骤1中的预处理包括如下步骤:
交易流水数据预处理步骤:针对交易流水,剔除预定交易金额范围的交易;
信贷审核数据预处理步骤:针对客户信贷的生命周期,剔除预定日期范围的客户所有数据记录;
逾期天数数据预处理步骤:针对客户逾期程度,剔除预定逾期天数范围的客户所有数据记录,根据逾期天数形成违约特征。
优选的,所述步骤2包括如下步骤:
步骤2.1:将预处理后的交易流水数据聚合成初始交易流水特征指标,按照多类控制图对初始交易流水特征指标进行分组;
步骤2.2:对初始交易流水特征指标进行标准化,得到标准化后的初始交易流水指标。
优选的,所述步骤3包括如下步骤:
步骤3.1:针对标准化后的初始交易流水指标计算每组中该指标对应的控制图的均值、上限及下限;
步骤3.2:根据步骤3.1得到的多类控制图的均值、上限和下限,制定交易流水监测期间预定时间段的警告信号。
优选的,所述步骤4包括如下步骤:
步骤4.1:分别统计在交易流水监测期间每类控制图中每种警告信号的总和,将警告信号转化为信号特征;
步骤4.2:为方便解读最后一个预定时间段的异常状态,再引入一个信号特征标识最后一个预定时间段的交易流水总体异常情况。
根据本发明提供的一种基于控制图的信贷风险评估***,包括如下模块:
模块M1:采集已发放贷款客户的交易流水数据、信贷审核数据和逾期天数数据,并对各类数据进行预处理,得到常规特征和违约特征;
模块M2:将预处理过后的所述交易流水数据聚合并进行标准化,得到标准化后的初始交易流水指标;
模块M3:将所述标准化后的初始交易流水指标转换为警告信号;
模块M4:将所述警告信号处理成信号特征;
模块M5:整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征,得到多类风控评估样本;
模块M6:针对所述风控评估样本,建立对应的机器学习模型,评估根据不同风控评估样本的机器学习模型结果,选定最佳风控模型;
模块M7:根据最佳风控模型建立信贷平台线上机器学习模型,对申请客户进行实时风险评估,输出风险评估结果。
优选的,所述模块M1中的预处理包括如下模块:
交易流水数据预处理模块:针对交易流水,剔除预定交易金额范围的交易;
信贷审核数据预处理模块:针对客户信贷的生命周期,剔除预定日期范围的客户所有数据记录;
逾期天数数据预处理模块:针对客户逾期程度,剔除预定逾期天数范围的客户所有数据记录,根据逾期天数形成违约特征。
优选的,所述模块M2包括如下模块:
模块M2.1:将预处理后的交易流水数据聚合成初始交易流水特征指标,按照多类控制图对初始交易流水特征指标进行分组;
模块M2.2:对初始交易流水特征指标进行标准化,得到标准化后的初始交易流水指标。
优选的,所述模块M3包括如下模块:
模块M3.1:针对标准化后的初始交易流水指标计算每组中该指标对应的控制图的均值、上限及下限;
模块M3.2:根据模块M3.1得到的多类控制图的均值、上限和下限,制定交易流水监测期间预定时间段的警告信号。
优选的,所述模块M4包括如下模块:
模块M4.1:分别统计在交易流水监测期间每类控制图中每种警告信号的总和,将警告信号转化为信号特征;
模块M4.2:为方便解读最后一个预定时间段的异常状态,再引入一个信号特征标识最后一个预定时间段的交易流水总体异常情况。
与现有技术相比,本发明具有如下的有益效果:
1、通过三类控制图的技术原理解析客户的交易流水数据,捕捉和解析异常交易流水,形成警告信号,并进一步将其转化为衡量风险的信贷指标。填补了业内利用交易流水进行风险评估的空白;
2、增加了从交易流水数据源中提取的信号特征,作为信贷风控模型的输入指标。结果表明,该技术提高了信贷风险评估的准确性,从而提高了信贷风险评估的效果;
3、可应用于不同场景下的信贷风险评估,如可应用于贷前审核帮助决策信贷审批,贷中管理帮助进行客户管理。既适用于B端小微企业,利用其经营交易流水进行信贷评估,也适用于C端消费者,利用个人交易流水进行信贷评估。适用性强,有利于提高信贷风险评估的适用范围;
4、在构造特征的过程中依赖于客户自己的交易流水信息,对于金融机构而言,获得客户授权即可采集交易流水数据。数据源易于获取且本发明方法易于实现;
5、针对交易流水数据进行动态评估,实时性强,有利于金融机构掌握客户最真实的风险情况,快速对其采取对应的管理手段。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为I-MR控制图中的I控制图;
图2为I-MR控制图中的MR控制图;
图3为
Figure BDA0003087428160000051
控制图中的
Figure BDA0003087428160000056
控制图;
图4为
Figure BDA0003087428160000052
控制图中的R控制图;
图5为
Figure BDA0003087428160000053
控制图中的
Figure BDA0003087428160000055
控制图;
图6为
Figure BDA0003087428160000054
控制图中的s控制图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例公开了一种基于控制图的信贷风险评估方法及***,包括如下步骤:
步骤1:从信贷平台数据库中采集已发放贷款客户的交易流水数据及其他可获得的信贷审核数据,其中,交易流水数据的时间窗口为申请贷款前30天。如,某客户于2021年4月1日提出贷款申请,金融机构采集的交易流水数据为该客户在2021年3月2日至2021年3月31日产生的交易流水。同时采集已发放贷款客户的逾期天数数据,并对各类数据进行预处理。
步骤1中的预处理包括如下步骤:交易流水数据预处理步骤:针对每一笔交易流水,剔除预定交易金额范围的交易,预定交易金额范围比如是交易金额小于0.1元。信贷审核数据预处理步骤:针对客户信贷的生命周期,剔除预定日期范围的已发放贷款客户所有数据记录,预定日期范围比如是未超过第一期还款日30天。逾期天数数据预处理步骤:针对客户逾期程度,剔除在预定逾期天数范围内的客户的所有数据记录,预定逾期天数范围比如是逾期天数大于0且小于30天;根据逾期天数形成违约特征,逾期天数为0的客户其违约特征取值为0,逾期天数大于0的客户其违约特征取值为1。
步骤2:将预处理过后的交易流水数据聚合并进行标准化,得到标准化后的初始交易流水指标。
步骤2包括如下步骤:步骤2.1:从交易时间、交易金额、交易类型、交易卡类型四个方面解析交易流水数据。其中,交易类型包括消费、预授权及退款;交易卡类型包括***、借记卡、准贷记卡。将交易流水数据以每日为统计维度聚合成如表1所示的初始交易流水特征指标,如交易金额,交易笔数,终端使用数量等,并按照三类控制图对初始交易流水特征指标进行分组,三类控制图分别是I-MR控制图、
Figure BDA0003087428160000062
控制图和
Figure BDA0003087428160000063
控制图。如在I-MR控制图中,交易金额为组1,交易笔数为组2,终端使用数量为组3;在
Figure BDA0003087428160000064
控制图中,交易金额,交易笔数及终端使用数量三个初始交易流水特征指标构成组1;在
Figure BDA0003087428160000065
控制图中,所有的初始交易流水特征指标构成组1。根据三类控制图每一个分组中初始交易流水特征指标的数量,列出控制图参数设置的取值。表1详细列明了初始交易流水特征指标及其说明,各指标在三类控制图中的所属分组编号及其参数设置。
表1初始交易流水特征指标
Figure BDA0003087428160000061
步骤2.2:对单个初始交易流水特征指标进行均值为0方差为1的标准化得到标准化后的初始交易流水指标,例如,在交易流水监测时间窗口长度为T的场景下,第i个单个初始交易流水特征指标Xi包含每一天该初始交易流水特征指标的取值,用Xi={x1i,x2i,...xti,...xTi}表示,如,第i个单个初始交易流水特征指标在第t天的取值为xti,在最后一天的取值为xTi,其标准化后的初始交易流水指标记为Xi′={x′1i,x′2i,...x′ti,...x′Ti},标准化后的第i个单个初始交易流水特征指标在第t天的取值计算逻辑为
Figure BDA0003087428160000071
其中
Figure BDA0003087428160000072
代表第i个单个初始交易流水特征指标Xi在监测时间T内的均值,
Figure BDA0003087428160000073
代表第i个单个初始交易流水特征指标Xi在监测时间T内的方差,且T=30,从业务场景考虑,T也代表了当前时间,即客户递交贷款申请的时间点。
步骤3:将标准化后的初始交易流水指标通过三类控制图原理转换为警告信号。
步骤3包括如下步骤:步骤3.1:针对表1中三类控制图的初始交易流水特征指标分组情况,计算每组标准化后的初始交易流水指标中每类控制图的均值、上限及下限。其中,由于每类控制图产生两组控制图,即I-MR控制图包含I控制图和MR控制图,
Figure BDA0003087428160000074
Figure BDA0003087428160000075
控制图包含
Figure BDA0003087428160000076
控制图和R控制图,
Figure BDA0003087428160000077
控制图包含
Figure BDA0003087428160000078
控制图和s控制图,以CLx,UCLx和LCLx表示第一组控制图的均值、上限及下限,以CLs,UCLs和LCLs表示第二组控制图的均值、上限及下限,并以T作为交易流水监测时间窗口长度(T=30)。以下详细说明每类控制图中均值、上限和下限的计算方法。
如图1和图2所示,对I-MR控制图而言,每个分组内包含如表1所列一个标准化后的初始交易流水指标。与步骤2.2的定义相同,以x′ti表示组内第i个单个标准化后的初始交易流水指标在第t天的取值。由于I-MR控制图每组仅含一个标准化后的初始交易流水指标,即i恒等于1,为简化说明,以x′t代表每个组内标准化后的初始交易流水指标在第t天的取值(即把下标i省略),计算均值
Figure BDA0003087428160000079
第t天与前一天的极差MRt,并进一步计算移动极差
Figure BDA00030874281600000710
Figure BDA00030874281600000711
根据均值
Figure BDA00030874281600000712
和移动极差
Figure BDA00030874281600000713
以及表1中所示I-MR控制图参数d2、D3及D4,计算I-MR控制图的均值、上限及下限:
Figure BDA00030874281600000714
Figure BDA00030874281600000715
以交易流水监测时间t为横坐标(t取值为1,2,…,T),在I控制图画出xt、均值CLx、上限UCLx及下限LCLx,在MR控制图画出MRt、均值CLs、上限UCLs及下限LCLs。如图1所示,以表1中X1,即交易金额为例,描绘了某一客户申请贷款前30天其交易金额的标准化取值,并给出了根据I控制图计算得到的均值、上限及下限。
如图3和图4所示,对
Figure BDA00030874281600000833
控制图而言,每个分组内包含如表1所列2到4个标准化后的初始交易流水指标。与步骤2.2的定义相同,以x′ti表示组内第i个单个标准化后的初始交易流水指标在第t天的取值。先将每组内的标准化后的初始交易流水指标以交易流水监测时间t为统计维度汇总,得到组内均值
Figure BDA0003087428160000081
及组内极差Rt,并进一步计算组内均值
Figure BDA0003087428160000082
和组内极差Rt的均值,分别记为
Figure BDA0003087428160000083
Figure BDA0003087428160000084
计算逻辑如下:
Figure BDA0003087428160000085
Rt=max{x′ti,x′ti,...x′tN}-min{x′ti,x′ti,...x′tN},t=1,2,...,T;
Figure BDA0003087428160000086
其中,N为组内标准化后的初始交易流水指标的数量,取值为2,3或4,详细分组及取值情况可见表1。根据
Figure BDA0003087428160000087
Figure BDA0003087428160000088
以及表1中所示
Figure BDA0003087428160000089
控制图参数A2、D3及D4,计算
Figure BDA00030874281600000810
Figure BDA00030874281600000811
控制图的均值、上限及下限:
Figure BDA00030874281600000812
Figure BDA00030874281600000813
以交易流水监测时间t为横坐标(t取值为1,2,…,T),在
Figure BDA00030874281600000814
控制图画出
Figure BDA00030874281600000815
均值、上限及下限,在R控制图画出Rt、均值、上限及下限。
如图5和图6所示,对
Figure BDA00030874281600000816
控制图而言,只有一个分组,该组包含如表1所列23个标准化后的初始交易流水指标。与步骤2.2的定义相同,以x′ti表示组内第i个单个标准化后的初始交易流水指标在第t天的取值。
Figure BDA00030874281600000817
控制图的均值
Figure BDA00030874281600000818
及均值
Figure BDA00030874281600000819
的均值
Figure BDA00030874281600000820
Figure BDA00030874281600000834
控制图的均值计算逻辑一致,根据xti和均值
Figure BDA00030874281600000822
计算交易流水监测时间t时的方差st,并进一步计算方差st的均值,记为
Figure BDA00030874281600000823
计算逻辑如下:
Figure BDA00030874281600000824
其中,N为组内标准化后的初始交易流水指标的数量,即为23。根据
Figure BDA00030874281600000825
Figure BDA00030874281600000826
以及表1中所示
Figure BDA00030874281600000827
控制图参数A3、B3及B4,计算
Figure BDA00030874281600000828
控制图的均值、上限及下限:
Figure BDA00030874281600000829
Figure BDA00030874281600000830
以交易流水监测时间t为横坐标(t取值为1,2,…,T),在
Figure BDA00030874281600000831
控制图画出
Figure BDA00030874281600000832
均值、上限及下限,在s控制图画出st、均值、上限及下限。
步骤3.2:根据步骤3.1各类控制图均值、上限和下限的计算结果,制定交易流水监测期间的每个预定时间段的警告信号,预定时间段为监测日,警告信号为二进制,其中,取值“1”代表该监测日交易流水有显著变化,取值“0”代表该监测日交易流水无异常。在一张控制图中,每个监测日包含三个警告信号,分别统计该监测日是否出现以下三种情况:(1)监测日当日的取值超出了控制图的上下限;(2)近8日中,连续8个监测日的取值均位于均值同一侧;(3)近6日中,连续6个监测日的取值均持续上升或下降。若符合,则取值为“1”。
步骤4:将警告信号处理成信号特征。
步骤4包括如下步骤:步骤4.1:分别统计在交易流水监测期间每类控制图出现三种异常情况的交易流水监测日天数,即分别统计在交易流水监测期间每类控制图中每种警告信号的总和,将警告信号转化为信号特征。
步骤4.2:为方便解读最后一个监测日T的异常状态,再引入一个信号特征标识最后一个监测日的交易流水总体异常情况,其取值逻辑为该监测日产生的六个警告信号的并集运算,即若该监测日的任意一张控制图存在步骤3.2中三种情况之一,则取值为“1”,否则取值为“0”。结合步骤4.1中的六个信号特征可知,每类控制图产生共七个信号特征。以I-MR控制图为例,它的信号特征包括:(1)I控制图中超过控制图上下限的天数;(2)I控制图中连续8个监测日位于均值同一侧的天数;(3)I控制图中连续6个监测日持续上升或下降的天数;(4)MR控制图中超过控制图上下限的天数;(5)MR控制图中连续8个监测日位于均值同一侧的天数;(6)MR控制图中连续6个监测日持续上升或下降的天数;(7)最后一个监测日交易流水是否异常。
步骤5:整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征,得到三类风控评估样本。
步骤5包括如下步骤:步骤5.1:将由I-MR控制图产生的23组信号特征(共23×7个)与信贷审核数据提炼的常规特征及逾期天数数据提炼的违约特征整合,得到I-MR风控评估样本。步骤5.2:将由
Figure BDA0003087428160000091
控制图产生的8组信号特征(共8×7个)与信贷审核数据提炼的常规特征及逾期天数数据提炼的违约特征整合,得到
Figure BDA0003087428160000092
风控评估样本。步骤5.3:将由
Figure BDA0003087428160000093
控制图产生的1组信号特征(共1×7个)与信贷审核数据提炼的常规特征及逾期天数数据提炼的违约特征整合,得到
Figure BDA0003087428160000094
风控评估样本。
步骤6:针对每一类风控评估样本,分别做样本预处理和自变量挑选,建立机器学习模型,评估根据不同风控评估样本的机器学习模型结果,选定最佳风控模型,本实施例机器学习模型比如是逻辑回归模型。
步骤6包括如下步骤:步骤6.1:处理样本缺失值,检查每一个特征中缺失值的情况,对可以根据业务含义补全的特征,依据业务意义填补缺失值(如某一天的交易流水交易金额为空,可填补为0),对无法根据业务含义填补且缺失比例过高的特征,删除特征,对缺失比例较小的特征,判断其数据类型,若为类型变量,将缺失值归为一组,若为数值型变量,取该特征均值填补。
步骤6.2:处理类型变量,借助哑变量将样本中的类型变量转换为0-1取值。
步骤6.3:基于主成分分析对自变量进行分组,具体如下,
对所有自变量做主成分分析,挑选出最显著的第一主成分和第二主成分,并依据所有自变量与两个主成分的相关系数大小关系将变量分成两组A和B。对任一自变量,若它和第一主成分相关系数大于和第二主成分的相关系数,则把它归于A组,否则把它归于B组。针对每一组,再次利用主成分分析分成两组,直至满足以下条件之一:
1)该组中只有一个自变量;
2)与上一次迭代结果相比,一半以上的自变量x的决定系数比(R-Squared Ratio)下降,决定系数比R2-r(x)的计算逻辑为
Figure BDA0003087428160000101
其中,自变量x的所属组为m,当前迭代结束时,全部自变量分成了n组。
Figure BDA0003087428160000102
代表用第i组的所有自变量线性回归拟合x,得到的决定系数。
Figure BDA0003087428160000103
代表用第m组的除x以外的自变量进行线性回归拟合x,得到的决定系数。
步骤6.4:依据信息值挑选自变量,具体如下,
计算每个自变量的信息值,删除信息值大于0.5的自变量,对步骤6.3得到的每一类进行自变量筛选,在保证每类中至少有一个自变量下,保留自变量数量由该类中所有自变量的信息值与所有类的总信息值的比例决定,如类i包含ni个自变量,该类的信息值为Mi,所有自变量的信息值为M,自变量的挑选过程为选取该类中信息值大的前ni×Mi/M个自变量,并遵循向上取整的原则,其中,信息值的计算逻辑为,
针对单个自变量,依照其取值将其分成K组,并依照以下公式计算分组i的证据权重
Figure BDA0003087428160000104
%defaulti代表第i组中违约样本在所有违约样本的占比,%paidi代表第i组中正常还款样本在所有正常还款样本中的占比,并根据以下公式计算该自变量的信息值IV,
Figure BDA0003087428160000111
步骤6.5:使用随机抽样的方法切割训练样本与测试样本,使它们保持6:4的结构,同时,对训练样本采取重复抽样的方法使其中的非违约样本与违约样本的比例保持1:1的结构。
步骤6.6:对每一类预处理及自变量挑选完成的样本,分别对训练样本建立机器学习模型,将违约概率p(X)=Pr(Y=1|X)表述为自变量X=(X1,...,Xn)关于因变量Y,即违约特征的函数,
Figure BDA0003087428160000112
其中,Xi代表第i个自变量,βi(i=0到n)为回归系数,Yi代表第i个因变量,并利用极大似然估计求解回归系数,即极大化
Figure BDA0003087428160000113
求解得到回归系数后代入违约概率p(X)的表达式中,并检验方程的显著性及各个自变量的显著性,确定最终变量组合及其回归系数为最终的机器学习模型。
步骤6.7:计算测试样本在最终的机器学习模型中的预测结果,通过列出混淆矩阵与实际违约特征进行比较,以混淆矩阵为基础,根据业务目标选定评估指标,评估三类风控评估样本的三种机器学习模型,选定最佳风控模型。
步骤7:根据最佳风控模型建立信贷平台线上机器学***台线上机器学***台线上逻辑回归模型),对申请客户进行实时风险评估,输出风险评估结果,并定期重复步骤1-6,导入新的客户进行训练,更新信贷平台线上机器学习模型。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (7)

1.一种基于控制图的信贷风险评估方法,其特征在于,包括如下步骤:
步骤1:采集已发放贷款客户的交易流水数据、信贷审核数据和逾期天数数据,并对各类数据进行预处理,得到常规特征和违约特征;
步骤2:将预处理过后的所述交易流水数据聚合并进行标准化,得到标准化后的初始交易流水指标;
步骤3:将所述标准化后的初始交易流水指标转换为警告信号;
步骤4:将所述警告信号处理成信号特征;
步骤5:整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征,得到多类风控评估样本;
步骤6:针对所述风控评估样本,建立对应的机器学习模型,评估根据不同风控评估样本的机器学习模型结果,选定最佳风控模型;
步骤7:根据最佳风控模型建立信贷平台线上机器学习模型,对申请客户进行实时风险评估,输出风险评估结果;
所述步骤2包括如下步骤:
步骤2.1:将预处理后的交易流水数据聚合成初始交易流水特征指标,按照多类控制图对初始交易流水特征指标进行分组;
步骤2.2:对初始交易流水特征指标进行标准化,得到标准化后的初始交易流水指标;
所述步骤3包括如下步骤:
步骤3.1:针对标准化后的初始交易流水指标,计算每组中该指标对应的控制图的均值、上限及下限;
步骤3.2:根据步骤3.1得到的多类控制图的均值、上限和下限,制定交易流水监测期间预定时间段的警告信号;
所述步骤4包括如下步骤:
步骤4.1:分别统计在交易流水监测期间每类控制图中每种警告信号的总和,将警告信号转化为信号特征;
步骤4.2:为方便解读最后一个预定时间段的异常状态,再引入一个信号特征标识最后一个预定时间段的交易流水总体异常情况。
2.根据权利要求1所述的基于控制图的信贷风险评估方法,其特征在于,所述步骤1中的预处理包括如下步骤:
交易流水数据预处理步骤:针对交易流水,剔除预定交易金额范围的交易;
信贷审核数据预处理步骤:针对客户信贷的生命周期,剔除预定日期范围的客户所有数据记录;
逾期天数数据预处理步骤:针对客户逾期程度,剔除预定逾期天数范围的客户所有数据记录,根据逾期天数形成违约特征。
3.一种基于控制图的信贷风险评估***,其特征在于,应用权利要求1-2任一所述的基于控制图的信贷风险评估方法,包括如下模块:
模块M1:采集已发放贷款客户的交易流水数据、信贷审核数据和逾期天数数据,并对各类数据进行预处理,得到常规特征和违约特征;
模块M2:将预处理过后的所述交易流水数据聚合并进行标准化,得到标准化后的初始交易流水指标;
模块M3:将所述标准化后的初始交易流水指标转换为警告信号;
模块M4:将所述警告信号处理成信号特征;
模块M5:整合信号特征、信贷审核数据提炼的常规特征和逾期天数数据提炼的违约特征,得到多类风控评估样本;
模块M6:针对所述风控评估样本,建立对应的机器学习模型,评估根据不同风控评估样本的机器学习模型结果,选定最佳风控模型;
模块M7:根据最佳风控模型建立信贷平台线上机器学习模型,对申请客户进行实时风险评估,输出风险评估结果。
4.根据权利要求3所述的基于控制图的信贷风险评估***,其特征在于,所述模块M1中的预处理包括如下模块:
交易流水数据预处理模块:针对交易流水,剔除预定交易金额范围的交易;
信贷审核数据预处理模块:针对客户信贷的生命周期,剔除预定日期范围的客户所有数据记录;
逾期天数数据预处理模块:针对客户逾期程度,剔除预定逾期天数范围的客户所有数据记录,根据逾期天数形成违约特征。
5.根据权利要求3所述的基于控制图的信贷风险评估***,其特征在于,所述模块M2包括如下模块:
模块M2.1:将预处理后的交易流水数据聚合成初始交易流水特征指标,按照多类控制图对初始交易流水特征指标进行分组;
模块M2.2:对初始交易流水特征指标进行标准化,得到标准化后的初始交易流水指标。
6.根据权利要求5所述的基于控制图的信贷风险评估***,其特征在于,所述模块M3包括如下模块:
模块M3.1:针对标准化后的初始交易流水指标计算每组中该指标对应的控制图的均值、上限及下限;
模块M3.2:根据模块M3.1得到的多类控制图的均值、上限和下限,制定交易流水监测期间预定时间段的警告信号。
7.根据权利要求6所述的基于控制图的信贷风险评估***,其特征在于,所述模块M4包括如下模块:
模块M4.1:分别统计在交易流水监测期间每类控制图中每种警告信号的总和,将警告信号转化为信号特征;
模块M4.2:为方便解读最后一个预定时间段的异常状态,再引入一个信号特征标识最后一个预定时间段的交易流水总体异常情况。
CN202110584049.6A 2021-05-27 2021-05-27 基于控制图的信贷风险评估方法及*** Active CN113421154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110584049.6A CN113421154B (zh) 2021-05-27 2021-05-27 基于控制图的信贷风险评估方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110584049.6A CN113421154B (zh) 2021-05-27 2021-05-27 基于控制图的信贷风险评估方法及***

Publications (2)

Publication Number Publication Date
CN113421154A CN113421154A (zh) 2021-09-21
CN113421154B true CN113421154B (zh) 2022-10-04

Family

ID=77713100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110584049.6A Active CN113421154B (zh) 2021-05-27 2021-05-27 基于控制图的信贷风险评估方法及***

Country Status (1)

Country Link
CN (1) CN113421154B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793060A (zh) * 2021-09-27 2021-12-14 武汉众邦银行股份有限公司 一种基于客户交易数据的客户评级方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346749A (zh) * 2013-08-07 2015-02-11 辅富投资(上海)有限公司 基于抵押的网络借贷流程监控方法
CN110738564A (zh) * 2019-10-16 2020-01-31 信雅达***工程股份有限公司 贷后风险评估方法及装置、存储介质
CN111507831A (zh) * 2020-05-29 2020-08-07 长安汽车金融有限公司 信贷风险自动评估方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101421756A (zh) * 2006-02-10 2009-04-29 芝加哥气候交易公司 排放信贷和限额期货的当前估值
US10977654B2 (en) * 2018-06-29 2021-04-13 Paypal, Inc. Machine learning engine for fraud detection during cross-location online transaction processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346749A (zh) * 2013-08-07 2015-02-11 辅富投资(上海)有限公司 基于抵押的网络借贷流程监控方法
CN110738564A (zh) * 2019-10-16 2020-01-31 信雅达***工程股份有限公司 贷后风险评估方法及装置、存储介质
CN111507831A (zh) * 2020-05-29 2020-08-07 长安汽车金融有限公司 信贷风险自动评估方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于质量管理工具的交行包头分行信贷风险管理研究;栗秋佳;《中国优秀博硕士学位论文全文数据库(硕士)经济与管理科学辑》;20120215;文章第2-4章 *

Also Published As

Publication number Publication date
CN113421154A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
KR102009309B1 (ko) 금융상품 관리자동화 시스템 및 관리자동화 방법
EP1361526A1 (en) Electronic data processing system and method of using an electronic processing system for automatically determining a risk indicator value
CN110895758B (zh) 存在作弊交易的***账户的筛选方法、装置及***
CN112598500A (zh) 一种无额度客户的授信处理方法及***
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN111738819A (zh) 表征数据筛选方法、装置和设备
CN111709826A (zh) 目标信息确定方法和装置
CN107392217B (zh) 计算机实现的信息处理方法及装置
CA2845645A1 (en) In the market model systems and methods
CN107133862A (zh) 动态产生增强信用评估的详细交易支付经历的方法和***
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN113421154B (zh) 基于控制图的信贷风险评估方法及***
CN112508689A (zh) 一种基于多维度实现决策评估的方法
CN117252677A (zh) 信贷额度确定方法和装置、电子设备及存储介质
JP7344609B2 (ja) 確定値及び推定値に基づくデータ定量化方法
Niknya et al. Financial distress prediction of Tehran Stock Exchange companies using support vector machine
CN113822751A (zh) 一种线上贷款的风险预测方法
CN115099933A (zh) 一种业务预算方法、装置及设备
CN114626940A (zh) 数据分析方法、装置及电子设备
CN113807943A (zh) 一种不良资产的多因子估值方法及***、介质、设备
Zeng A comparison study on the era of internet finance China construction of credit scoring system model
CN118333738A (zh) 构建零***风险预测模型的方法和***业务Scorealpha模型
CN117764692A (zh) 一种用于预测信用风险违约概率的方法
CN118071483A (zh) 构建零***风险预测模型的方法和个人信贷业务Scorepsi模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant