CN112348654A - 企业授信额度自动评定方法、***及可读存储介质 - Google Patents

企业授信额度自动评定方法、***及可读存储介质 Download PDF

Info

Publication number
CN112348654A
CN112348654A CN202011009943.2A CN202011009943A CN112348654A CN 112348654 A CN112348654 A CN 112348654A CN 202011009943 A CN202011009943 A CN 202011009943A CN 112348654 A CN112348654 A CN 112348654A
Authority
CN
China
Prior art keywords
credit
enterprise
samples
model
credit line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011009943.2A
Other languages
English (en)
Inventor
李振
张刚
刘昊霖
李千惠
张晨星
周光传
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minsheng Science And Technology Co ltd
Original Assignee
Minsheng Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minsheng Science And Technology Co ltd filed Critical Minsheng Science And Technology Co ltd
Priority to CN202011009943.2A priority Critical patent/CN112348654A/zh
Publication of CN112348654A publication Critical patent/CN112348654A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供了企业授信额度自动评定方法、***及可读存储介质,从贷前、贷中、贷后三个时间维度实现了授信额度的审批和评定。在贷前阶段,对提交申请的客户进行客户准入和信用评分,满足条件的客户会进入授信额度评定环节。授信额度自动评定先采用差异性大的Random Forest Regressor算法、Catboost算法以及DNN模型作为基学习器并行学习,每个模型的学习都进行5折交叉验证,输出的预测结果作为第二层输入数据,进入LightGBM模型进行训练,最终得到综合授信额度。同时通过关键指标跟踪预测客户还款能力和还款意愿,必要时可降低授信额度或停止继续发放贷款,为贷后管理提供了解决方案。

Description

企业授信额度自动评定方法、***及可读存储介质
【技术领域】
本发明涉及信息评估技术领域,尤其涉及一种企业授信额度自动评定方法、***及可读存储介质。
【背景技术】
近年来,我国中小企业发展迅猛,其总量已占全国企业总数的90%以上,在国民经济和国际贸易中占有重要地位。国际贸易业务的快速发展推动着金融平台需要建立完善的配套服务机制,为客户提供便捷的贷款申请通道,构建精准的授信额度计算与评价体系显得尤为重要。授信是指商业银行向非金融机构客户直接提供的资金或者对客户在有关经济活动中可能产生的赔偿、支付责任做出的保证,包括贷款、贸易融资、票据融资、融资租赁、借款担保等业务;授信额度是指商业银行为客户核定的短期授信业务的存量管理指标,使企业可以循环使用银行的短期授信资金,从而满足客户对金融服务快捷性和便利性的要求。
随着我国商业银行体制改革和监管制度的不断完善深入,商业银行提供授信的风险管理水平正在迅速提高,授信额度的计算方法逐渐合理。在金融平台申请授信的企业来自各行各业,基于多种来源的数据积累和多维数据进行客户画像,并结合现有政策制度、历史授信额度构建企业的授信额度计算方法更加全面合理。
因此,有必要研究企业授信额度自动评定方法、***及可读存储介质来应对现有技术的不足,以解决或减轻上述一个或多个问题。
【发明内容】
有鉴于此,本发明提供了一种企业授信额度自动评定方法、***及可读存储介质,本发明从贷前、贷中、贷后三个时间维度实现了授信额度的审批和评定。在贷前审批阶段,对提交申请的客户进行客户准入和信用评分,满足条件的客户会流转进入授信额度评定环节。授信额度评定基于多层次集成学习的思想,先采用差异性大的Random ForestRegressor算法、Catboost算法以及DNN模型作为基学习器并行学习,每个模型的学习都进行5折交叉验证,输出的预测结果作为第二层输入数据,进入LightGBM模型进行训练,最终得到综合授信额度。同时,为了保证客户及时还款,通过关键指标跟踪预测客户还款能力和还款意愿,必要时可降低授信额度或停止继续发放贷款,为贷后管理提供了解决方案。
一方面,本发明提供企业授信额度自动评定方法,所述评定方法具体包括以下步骤:
S1:对企业用户画像数据进行提取与预处理;
S2:将预处理后的变量数据分为连续型变量和分类变量,分别进行特征选择,根据特征变量与目标变量的相关性强弱选择相关性强的特征纳入模型的构建与评估;
S4:将满足准入条件企业以平均滚动率为依据评定信用等级,通过企业的历史还款行为特征区分企业特性,并预测未来属性;
S5:对满足准入条件和符合信用等级的企业进入贷中审查和放款;
S6:放款后对企业进行贷后跟踪和管理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S1具体包括:
S11:数据提取,从数据库中提取历史授信的客户信息,包括企业基本信息、授信额度、授信审批时间、分期和还款状态;
S12:整理外部数据,包括财报、工商信息和进出口贸易往来,以企业名称为主键与历史授信的客户信息进行拼接,构建进出口企业完整的数据集;
S13:数据预处理,对数据集中存在不同程度的缺失和异常的字段进行预处理,异常值统一处理为指定字符串,缺失值采用插补法进行填充;
S14:统一不同国别的币制,降低模型的复杂度;
S15:构造衍生特征,包括衍生资产负债率、平均进口额、平均出口额、和平均缴税金额特征,同时以进出口日期做时间切片构建时间相关的衍生特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S2具体包括以下步骤:
S21:对分类型变量进行WOE编码,然后通过信息值IV衡量自变量对被解释变量的影响程度,IV≤0.03,相关性较弱;0.03<IV≤0.1,相关性较强;IV>0.1,相关性强,具体公式如下:
Figure RE-GDA0002884641610000031
IV=(Pyi-Pni)*WOEi
其中,yi为第i组样本中的坏样本数,ys为全部坏样本数,ni为第i 组样本中的好样本数,ns为全部好样本数。Pyi为第i组样本中的坏样本占全部坏样本比例,Pni为第i组样本中的好样本占全部好样本比例。
S22:对连续型变量采用GBDT提升树进行特征选择,以迭代多棵回归树来共同决策,在每次迭代开始之前,计算损失函数在每个训练样本点的一阶导数gi和二阶导数hi;通过贪心策略生成新的决策树,计算每个叶节点对应的预测值;把新生成的决策树ft(x)添加到模型中,回归树分支时穷举每个特征的每一个阈值寻找最好的分割点,用最小化平方误差来衡量分割的效果;对样本i的前t-1棵树的损失函数求一阶偏导记为Gj,对样本 i的前t-1棵树的损失函数求二阶偏导记为Hj,具体计算公式为:
Figure RE-GDA0002884641610000041
Figure RE-GDA0002884641610000042
Figure RE-GDA0002884641610000043
其中,∈表示步长或者学习率;λ为预设参数,用于控制决策树的复杂度;
Figure RE-GDA0002884641610000044
为叶子节点j最优分割点的值。
S23:利用方差膨胀因子VIF分析特征之间的多重共线性:若VIF>5,则说明变量间存在较严重的多重共线性,需进行剔除,以保证模型的可解释性,VIF定义为:
Figure RE-GDA0002884641610000045
其中,Ri为自变量对其余自变量作回归分析的负相关系数,方差膨胀系数VIF越大,说明自变量之间存在共线性的可能性越大;
S24:确定准入负面清单。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式, S3具体包括以下步骤:
S31:采用Logistic回归交叉验证训练模型,每次随机抽样75%为训练集,25%为测试集,通过ROC和KS来评估模型的稳定性和对企业进行区分,逻辑回归计算比率:
log(odds)=β01x12x2+…+βnxn
其中,xi为变量i的值,β0为常数系数,βi为变量xi的系数。
S32:根据企业违约概率建立信用风险评分卡,给比率p0的预期分值为 S0,比率翻倍的分值POD为r0,评分卡的分值表示为:
Score=A-Blog(odds)
其中,A为补偿,B为刻度,变量x1……xn为入模指标;
S33:增加综合调整部分,以应对企业信用影响较大的突发事件,形成完整的信用风险标准评分卡;
S34:对模型的稳健性进行跟踪检验,通过模型稳定性指数I衡量模型真实值与预测值之间的差异,具体计算公式为:
Figure RE-GDA0002884641610000051
其中,Ai为当前阶段第i组样本数占全部样本数的比例,Ei为上一阶段第i组样本数占全部样本数的比例。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S4具体包括以下步骤:
S41:采用基于Bagging的Random Forest Regressor算法、基于 Boosting的Catboost算法以及DNN为基学习器,记为M1、M2、M3;分别对训练集进行5折交叉验证,其中,训练集占80%,验证集占20%,每折输出结果保存合并;
数据集D={(xi,yi):i=1,2…,n,xi∈Rq,yi∈R},xi为第i个数据点特征向量,fk为回归树,F为回归树的集合空间,则迭代后集成的模型可表示为:
Figure RE-GDA0002884641610000052
目标函数为:
Figure RE-GDA0002884641610000053
S42:每次交叉验证都会对测试集进行预测,测试集的预测结果等于每个基学***均值;
S43:第二层学习器采用LightGBM回归模型对基学习器得到的预测结果当作输入特征,再次进行训练,最终得到企业的综合授信额度。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S5具体包括:
S51:对企业的主体资格、基本条件和抵质押物指标进行审查,
S52:根据企业意愿和审查结果,确定具体的授信额度和授信策略。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S6具体为:
S61:贷后实时预警,基于上述模型构建过程中使用的键指标,对部分动态变化的指标进行定期或不定期更新;
S62:根据贷后指标综合计算得分,高危预警会停止企业已申请的授信额度使用并且不能申请新的授信额度,并触发人工介入;同时预警等级会影响银行后续减值计量的评定。
如上所述的方面和任一可能的实现方式,进一步提供一种企业授信额度评定***,所述***包括:
企业画像单元,对企业用户画像数据进行提取与预处理;
特征选择与模型构建单元,将预处理后的变量数据分为连续型变量和分类变量,分别进行特征选择,根据特征变量与目标变量的相关性强弱,选择相关性强的特征纳入模型的构建与评估;
信用评定单元,以平均滚动率为依据评定满足准入条件的企业的信用等级,通过企业的历史还款行为特征区分企业特性,并预测未来属性;
追踪评定单元,对满足准入条件和符合信用等级的企业进入贷中审查和放款,同时在放款后对企业进行贷后跟踪和管理。
如上所述的方面和任一可能的实现方式,进一步提供一种企业授信额度评定***,所述企业授信额度评定***包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业授信额度评定程序,所述企业授信额度评定程序被所述处理器执行时实现如任一项所述的企业授信额度评定的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有企业授信额度评定程序,所述企业授信额度评定程序被处理器执行时实现任一项所述的企业授信额度自动评定方法的步骤。
与现有技术相比,本发明可以获得包括以下技术效果:本发明从贷前、贷中、贷后三个时间维度实现了授信额度的审批和评定。在贷前审批阶段,对提交申请的客户进行客户准入和信用评分,满足条件的客户会流转进入授信额度评定环节。授信额度评定基于多层次集成学习的思想,先采用差异性大的Random Forest Regressor算法、Catboost算法以及DNN模型作为基学习器并行学习,每个模型的学习都进行5折交叉验证,输出的预测结果作为第二层输入数据,进入LightGBM模型进行训练,最终得到综合授信额度。同时,为了保证客户及时还款,通过关键指标跟踪预测客户还款能力和还款意愿,必要时可降低授信额度或停止继续发放贷款,为贷后管理提供了解决方案。全流程信贷审批和管理,旨在提高审批额度准确性和效率,优化当前重过程、轻结果的现状,为客户和金融机构提供便捷可靠的选择。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一个实施例提供的企业授信额度自动评定方法的工作流程图;
图2是本发明一个实施例提供的企业授信额度自动评定方法中基于 stacking的集成学习逻辑图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本发明旨在通过集成学习方法对多源数据进行深入挖掘,实现信息交互对称,从而构建关于贸易通关企业的授信额度评定方法,为贸易通关企业提供相应的综合授信额度。所述体系包括客户准入、风险评估、授信额度评定、贷后实时预警四个模块,为银行贷前、贷中、贷后全流程风险控制提供决策依据。客户准入是风险控制的第一道防线,该模块全面审核贷款申请人的资质和信用,运用评分卡模型从企业生产、运营、流通、财务、销售等不同维度衡量客户资质,满足条件的优质客户将进入风险等级评估环节;风险评估主要从企业规模、进出口业务情况、历史信用评分、经营环境、管理能力等方面进行风险审查,并计算企业的信用风险评分,不同风险等级的客户给予不同的授信策略;授信额度评定模块主要以企业的历史授信额度、财报数据、工商数据、进出口贸易数据、客户信用评分等多种来源的数据为基础,有放回随机抽样将数据输入DNN、Catboost和Random Forest Regressor模型,然后对不同的子模型的训练结果进行集成学习的思想——Stacking融合,得到最终综合授信额度。贷后管理是信贷业务的最后一公里,对贷款回收起着关键作用,本例实时监测客户还款能力和还款意愿,必要时及时进行人工干预,同时,根据客户画像动态调整负面清单,为新客户准入提供依据,使整个过程形成完整的闭环。
本发明所述方法具体内容包括以下步骤:
S1:数据提取与预处理。多种数据来源的数据质量参差不齐,首先,需要提取并整理数据,对已有的数据质量进行深入探究及预处理,如清洗重复数据、缺失值、异常值、离群点等,为模型的构建提供基础条件。
S1.1:从数据库中提取历史授信的客户信息,包括企业基本信息、授信额度、授信审批时间、分期、还款状态等。
S1.2:整理财报、工商信息、进出口贸易往来等外部数据,以企业名称为主键与历史授信的客户信息进行拼接,从而构建进出口企业完整的数据集。
S1.3:数据预处理,数据集中的字段存在不同程度的缺失和异常。在此,异常值统一处理为指定字符串,缺失值采用插补法进行填充。
S1.4:贸易国别的不同产生了币制的多样性,按照实时汇率转换为美元计算,有利于降低模型的复杂度。
S1.5:构造衍生特征。本例衍生资产负债率、平均进(出)口额、平均缴税金额等特征,同时以进出口日期做时间切片构建时间相关的衍生特征。
S2:将变量分为连续型变量和分类变量,分别进行特征选择,根据特征变量与目标变量的相关性强弱选择相关性强的特征纳入模型的构建与评估。入选的特征基于专家经验进行准入判断。
S2.1:对分类型变量进行WOE编码,然后通过信息值IV衡量自变量对被解释变量的影响程度。通常,IV≤0.03,相关性较弱;0.03<IV≤0.1,相关性较强;IV>0.1,相关性强。具体公式如下:
Figure RE-GDA0002884641610000101
IV=(Pyi-Pni)*WOEi
其中,yi为第i组样本中的坏样本数,ys为全部坏样本数,ni为第i 组样本中的好样本数,ns为全部好样本数。Pyi为第i组样本中的坏样本占全部坏样本比例,Pni为第i组样本中的好样本占全部好样本比例。
S2.2:对连续型变量采用GBDT提升树进行特征选择,即迭代多棵回归树来共同决策。其中,在每次迭代开始之前,计算损失函数在每个训练样本点的一阶导数gi和二阶导数hi;通过贪心策略生成新的决策树,计算每个叶节点对应的预测值;把新生成的决策树ft(x)添加到模型中。回归树分支时穷举每个特征的每一个阈值寻找最好的分割点,用最小化平方误差来衡量分割的效果。对样本i的前t-1棵树的损失函数求一阶偏导记为Gj,对样本i的前t-1棵树的损失函数求二阶偏导记为Hj,具体计算公式为:
Figure RE-GDA0002884641610000102
Figure RE-GDA0002884641610000103
Figure RE-GDA0002884641610000104
其中,∈表示步长或者学习率;λ为预设参数,用于控制决策树的复杂度;
Figure RE-GDA0002884641610000105
为叶子节点j最优分割点的值。
S2.3:利用方差膨胀因子(VIF)分析特征之间的多重共线性:若VIF>5,则说明变量间存在较严重的多重共线性,需要进行剔除,以保证模型的可解释性。VIF定义为:
Figure RE-GDA0002884641610000111
Ri为自变量对其余自变量作回归分析的负相关系数,方差膨胀系数VIF 越大,说明自变量之间存在共线性的可能性越大。
S2.4:结合专家经验确定的客户准入负面清单,存在以下任一情况的客户则不能准入:负面清单的内容包括:
(1)企业成立期限在N年以内,不含N年;(2)资产负债率超过一定百分比的企业;
(3)最近M个自然年度,进出口业务的进口商所在国家或地区,以及货物目的地国家或地区在预设的范围内;
(4)连续Y年自然年度海关数据同比下降一定百分比;
(5)海关信用评级为失信企业。
S3:满足准入条件的客户将以平均滚动率为依据评定信用等级,通过历史客户的行为特征区别好客户和坏客户,表现期内正常还款或N1不超过一次的为好客户,记为0;出现N3一次及以上、N2两次及以上为坏客户,记为1,以此为标准来预测未来客户的属性。
S3.1:采用Logistic回归交叉验证训练模型,每次随机抽样75%为训练集,25%为测试集。通过ROC和KS来评估模型的稳定性和对好坏客户的区分度。逻辑回归计算比率:
log(odds)=β01x12x2+…+βnxn
其中,xi为变量i的值,β0为常数系数,βi为变量xi的系数。
S3.2:根据客户违约概率建立信用风险评分卡。假设给比率p0的预期分值为S0,比率翻倍的分值POD为r0,评分卡的分值可以表示为:
Score=A-Blog(odds)
其中,A为补偿,B为刻度,变量x1……xn为入模指标。
S3.3:增加综合调整部分,以应对可能对客户信用影响较大的突发事件,如客户被刑事起诉、遭遇重大疾病等,形成完整的信用风险标准评分卡。根据评分的大小,可以将客户信用从高到低划分为AAA、AA、A、B、 BB五个等级。
S3.4:信用评分模型的准确性会因时间、政策、审核机制等因素的变化而改变,因此,有必要对模型的稳健性进行跟踪检验。模型稳定性指数 I可以衡量模型真实值与预测值之间的差异,具体计算公式为:
Figure RE-GDA0002884641610000121
其中,Ai为当前阶段第i组样本数占全部样本数的比例,Ei为上一阶段第i组样本数占全部样本数的比例。
S4:客户信用评分是影响授信额度的关键因素,综合授信额度的计算在特征选择得到的指标的基础上,将客户信用评分纳入其中;接着,运用分层Stacking模型预测客户的综合授信额度。
S4.1:采用基于Bagging的Random Forest Regressor算法、基于 Boosting的Catboost算法以及DNN为基学习器,分别记为M1、M2、M3;分别对训练集进行5折交叉验证,其中,训练集占80%,验证集占20%,每折输出结果保存合并。
数据集D={(xi,yi):i=1,2…,n,xi∈Rq,yi∈R},xi为第i个数据点特征向量, fk为回归树,F为回归树的集合空间,则迭代后集成的模型可表示为:
Figure RE-GDA0002884641610000122
目标函数为:
Figure RE-GDA0002884641610000123
S4.2:每次交叉验证都会对测试集进行预测,测试集的预测结果等于每个基学***均值。
S4.3:第二层学习器采用LightGBM回归模型对基学习器得到的预测结果当作输入特征,再次进行训练,最终得到客户的综合授信额度。
S5:申请贷款的客户通过准入门槛并获得授信额度并后,进入贷中审查和放款环节。
S5.1:对借款人的主体资格、基本条件、抵质押物等各项相关指标进行专业审查。对拟签订的借款合同和担保合同的合法性、合规性进行的书面审查以及在借款合同和担保合同履行的过程中对有关法律问题进行检查。
S5.2:根据客户意愿和审查结果,确定具体的授信额度和授信策略,并签订协议,双方按期履约。
S6:贷后管理是授信机构为客户放款后,进行跟踪管理的过程。
S6.1:贷后实时预警主要基于上述模型构建过程中使用的关键指标,部分动态变化的指标需要定期或不定期更新,如企业经营状况、财务报表等;从而随时掌握客户的还款能力和还款意愿。
S6.2:根据贷后指标综合计算得分,分为高、中、低三档。高危预警会停止客户已申请的授信额度使用并且不能申请新的授信额度,并触发人工介入;同时预警等级会影响银行后续减值计量的评定。
本发明从贷前、贷中、贷后三个时间维度实现了授信额度的审批和评定。在贷前审批阶段,对提交申请的客户进行客户准入和信用评分,满足条件的客户会流转进入授信额度评定环节。授信额度评定基于多层次集成学习的思想,先采用差异性大的Random ForestRegressor算法、Catboost算法以及DNN模型作为基学习器并行学习,每个模型的学习都进行5折交叉验证,输出的预测结果作为第二层输入数据,进入LightGBM模型进行训练,最终得到综合授信额度。同时,为了保证客户及时还款,通过关键指标跟踪预测客户还款能力和还款意愿,必要时可降低授信额度或停止继续发放贷款,为贷后管理提供了解决方案。全流程信贷审批和管理,旨在提高审批额度准确性和效率,优化当前重过程、轻结果的现状,为客户和金融机构提供便捷可靠的选择。
本发明将机器学习技术与实际金融业务场景相结合,从贷前、贷中、贷后不同时间维度进行考虑,集成了企业的偿债能力、财务状况、信用评级、进出口业务等多个维度的信息数据,从而给出授信额度,既为进出口企业提供了融资的途径,也为金融机构提供了计算授信额度的有效方法。采用集成方法的思想并行学习单一的弱学习器,生成偏置比其组成部分更低的强模型,从而提高了模型预测的性能,也增强了模型鲁棒性。其中,梯度提升算法(GBDT)通过引入bagging思想、加入正则项等方法能够有效地抵御训练数据中的噪音,具有更好的健壮性。LightGBM作为梯度 boosting框架,使用基于学习算法的决策树;相较于Xgboost模型,它有更快的训练效率,支持并行化处理,低内存消耗等优点。为了提高模型融合的效果,选择存在差异性大的Random Forest Regressor算法、Catboost 算法以及DNN模型作为基学习器,其本质是在不同的数据空间角度和数据结构角度度量原始数据的分布和组合,从而构建不同的模型,充分考虑不同模型相关性和差异性。此外,元学习器的训练集是由基学习器的输出产生的,有效避免了过拟合现象的发生。
以上对本申请实施例所提供的企业授信额度自动评定方法、***及可读存储介质,进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语,故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者***中还存在另外的相同要素。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求书的保护范围内。

Claims (10)

1.一种企业授信额度自动评定方法,其特征在于,所述评定方法具体包括以下步骤:
S1:对企业用户画像数据进行提取与预处理;
S2:将预处理后的变量数据分为连续型变量和分类变量,分别进行特征选择,根据特征变量与目标变量的相关性强弱,选择相关性强的特征纳入模型的构建与评估;
S4:将满足准入条件企业以平均滚动率为依据评定信用等级,通过企业的历史还款行为特征区分企业特性,并预测未来属性;
S5:对满足准入条件和符合信用等级的企业进入贷中自动审查和自动放款;
S6:完成放款后自动对企业进行贷后跟踪和管理。
2.根据权利要求1所述的企业授信额度自动评定方法,其特征在于,所述S1具体包括:
S11:数据提取,从数据库中提取历史授信的客户信息,包括企业基本信息、授信额度、授信审批时间、分期和还款状态;
S12:整理外部数据,包括财报、工商信息和进出口贸易往来,以企业名称为主键与历史授信的客户信息进行拼接,构建进出口企业完整的数据集;
S13:数据预处理,对数据集中存在不同程度的缺失和异常的字段进行预处理,异常值统一处理为指定字符串,缺失值采用插补法进行填充;
S14:统一不同国别的币制,降低模型的复杂度;
S15:构造衍生特征,包括衍生资产负债率、平均进口额、平均出口额、和平均缴税金额特征,同时以进出口日期做时间切片构建时间相关的衍生特征。
3.根据权利要求2所述的企业授信额度自动评定方法,其特征在于,所述S2具体包括以下步骤:
S21:对分类型变量进行WOE编码,然后通过信息值IV衡量自变量对被解释变量的影响程度,IV≤0.03,相关性较弱;0.03<IV≤0.1,相关性较强;IV>0.1,相关性强,具体公式如下:
Figure FDA0002697241450000021
IV=(Pyi-Pni)*WOEi
其中,yi为第i组样本中的坏样本数,ys为全部坏样本数,ni为第i组样本中的好样本数,ns为全部好样本数;Pyi为第i组样本中的坏样本占全部坏样本比例,Pni为第i组样本中的好样本占全部好样本比例;
S22:对连续型变量采用GBDT提升树进行特征选择,以迭代多棵回归树来共同决策,在每次迭代开始之前,计算损失函数在每个训练样本点的一阶导数gi和二阶导数hi;通过贪心策略生成新的决策树,计算每个叶节点对应的预测值;把新生成的决策树ft(x)添加到模型中,回归树分支时穷举每个特征的每一个阈值寻找最好的分割点,用最小化平方误差来衡量分割的效果;对样本i的前t-1棵树的损失函数求一阶偏导记为Gj,对样本i的前t-1棵树的损失函数求二阶偏导记为Hj,具体计算公式为:
Figure FDA0002697241450000022
Figure FDA0002697241450000023
Figure FDA0002697241450000024
其中,∈表示步长或者学习率;λ为预设参数,用于控制决策树的复杂度;
Figure FDA0002697241450000025
为叶子节点j最优分割点的值;
S23:利用方差膨胀因子VIF分析特征之间的多重共线性:若VIF>5,则说明变量间存在较严重的多重共线性,需进行剔除,以保证模型的可解释性,VIF定义为:
Figure FDA0002697241450000031
其中,Ri为自变量对其余自变量作回归分析的负相关系数,方差膨胀系数VIF越大,说明自变量之间存在共线性的可能性越大;
S24:确定准入负面清单。
4.根据权利要求3所述的企业授信额度自动评定方法,其特征在于,所述S3具体包括以下步骤:
S31:采用Logistic回归交叉验证训练模型,每次随机抽样75%为训练集,25%为测试集,通过ROC和KS来评估模型的稳定性和对企业进行区分,逻辑回归计算比率:
log(odds)=β01x12x2+…+βnxn
其中,xi为变量i的值,β0为常数系数,βi为变量xi的系数;
S32:根据企业违约概率建立信用风险评分卡,给比率p0的预期分值为S0,比率翻倍的分值POD为r0,评分卡的分值表示为:
Score=A-Blog(odds)
其中,A为补偿,B为刻度,变量x1……xn为入模指标;
S33:增加综合调整部分,以应对企业信用影响较大的突发事件,形成完整的信用风险标准评分卡;
S34:对模型的稳健性进行跟踪检验,通过模型稳定性指数I衡量模型真实值与预测值之间的差异,具体计算公式为:
Figure FDA0002697241450000032
其中,Ai为当前阶段第i组样本数占全部样本数的比例,Ei为上一阶段第i组样本数占全部样本数的比例。
5.根据权利要求4所述的企业授信额度自动评定方法,其特征在于,所述S4具体包括以下步骤:
S41:采用基于Bagging的Random Forest Regressor算法、基于Boosting的Catboost算法以及DNN为基学习器,分别记为M1、M2、M3;分别对训练集进行5折交叉验证,其中,训练集占80%,验证集占20%,每折输出结果保存合并;
数据集D={(xi,yi):i=1,2…,n,xi∈Rq,yi∈R},xi为第i个数据点特征向量,fk为回归树,F为回归树的集合空间,则迭代后集成的模型可表示为:
Figure FDA0002697241450000041
目标函数为:
Figure FDA0002697241450000042
S42:每次交叉验证都会对测试集进行预测,测试集的预测结果等于每个基学***均值;
S43:第二层学习器采用LightGBM回归模型对基学习器得到的预测结果当作输入特征,再次进行训练,最终得到企业的综合授信额度。
6.根据权利要求4所述的企业授信额度自动评定方法,其特征在于,所述S5具体包括:
S51:对企业的主体资格、基本条件和抵质押物指标进行自动审查,
S52:根据企业意愿和审查结果,自动确定具体的授信额度和授信策略。
7.根据权利要求4所述的企业授信额度自动评定方法,其特征在于,所述S6具体为:
S61:贷后实时预警,基于上述模型构建过程中使用的键指标,对部分动态变化的指标进行定期或不定期更新;
S62:根据贷后指标综合计算得分,高危预警会停止企业已申请的授信额度使用并且不能申请新的授信额度,并触发人工介入;同时预警等级会影响银行后续减值计量的评定。
8.一种企业授信额度评定***,包括上述权利要求1-7之一所述的企业授信额度自动评定方法,其特征在于,所述***包括:
企业画像单元,对企业用户画像数据进行提取与预处理;
特征选择与模型构建单元,将预处理后的变量数据分为连续型变量和分类变量,分别进行特征选择,根据特征变量与目标变量的相关性强弱,选择相关性强的特征纳入模型的构建与评估;
信用评定单元,以平均滚动率为依据评定满足准入条件的企业的信用等级,通过企业的历史还款行为特征区分企业特性,并预测未来属性;
追踪评定单元,对满足准入条件和符合信用等级的企业进入贷中审查和放款,同时在放款后对企业进行贷后跟踪和管理。
9.一种企业授信额度评定***,所述企业授信额度评定***包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业授信额度评定程序,所述企业授信额度评定程序被所述处理器执行时实现如权利要求1至7中任一项所述的企业授信额度自动评定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有企业授信额度评定程序,所述企业授信额度评定程序被处理器执行时实现如权利要求1至7中任一项所述的企业授信额度自动评定方法的步骤。
CN202011009943.2A 2020-09-23 2020-09-23 企业授信额度自动评定方法、***及可读存储介质 Pending CN112348654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011009943.2A CN112348654A (zh) 2020-09-23 2020-09-23 企业授信额度自动评定方法、***及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011009943.2A CN112348654A (zh) 2020-09-23 2020-09-23 企业授信额度自动评定方法、***及可读存储介质

Publications (1)

Publication Number Publication Date
CN112348654A true CN112348654A (zh) 2021-02-09

Family

ID=74357408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011009943.2A Pending CN112348654A (zh) 2020-09-23 2020-09-23 企业授信额度自动评定方法、***及可读存储介质

Country Status (1)

Country Link
CN (1) CN112348654A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282886A (zh) * 2021-05-26 2021-08-20 北京大唐神州科技有限公司 基于逻辑回归的银行对公贷款违约判别方法
CN113379532A (zh) * 2021-06-11 2021-09-10 重庆农村商业银行股份有限公司 一种信用意识水平预测方法、装置、设备及存储介质
CN113538132A (zh) * 2021-07-26 2021-10-22 天元大数据信用管理有限公司 一种基于回归树算法的信用评分方法、设备及介质
CN113610630A (zh) * 2021-08-06 2021-11-05 东方口岸科技有限公司 基于进出口贸易数据的金融信贷建模方法和***
CN113674087A (zh) * 2021-08-19 2021-11-19 工银科技有限公司 企业信用等级评定方法、装置、电子设备和介质
CN113689287A (zh) * 2021-08-24 2021-11-23 中国工商银行股份有限公司 一种贷款额度确定方法及装置
CN113837862A (zh) * 2021-09-27 2021-12-24 天元大数据信用管理有限公司 一种基于征信的贷后风险预警方法、设备及介质
CN114154866A (zh) * 2021-12-02 2022-03-08 北京顶象技术有限公司 一种上市企业财务风险预警方法和***
CN114202413A (zh) * 2022-02-17 2022-03-18 中云融拓数据科技发展(深圳)有限公司 基于产业链数字化场景金融模型建立金融风控体系的方法
CN116503872A (zh) * 2023-06-26 2023-07-28 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN117094816A (zh) * 2023-10-18 2023-11-21 天津市职业大学 一种基于大数据的企业财务评估方法及***
CN117808576A (zh) * 2024-01-08 2024-04-02 深度(山东)数字科技集团有限公司 一种用于企业融资额度估算的商业汇票大数据分析方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050137949A1 (en) * 2003-12-17 2005-06-23 Danny Rittman Automatic, characterized and prioritized transactions to credit card accounts from one credit card account, method and computer software
US20090313163A1 (en) * 2004-02-13 2009-12-17 Wang ming-huan Credit line optimization
CN106651570A (zh) * 2016-12-27 2017-05-10 中国建设银行股份有限公司 一种贷款实时审批***和方法
CN107862602A (zh) * 2017-11-23 2018-03-30 安趣盈(上海)投资咨询有限公司 一种基于多维度指标计算、自学习及分群模型应用的授信决策方法与***
CN108198067A (zh) * 2017-12-04 2018-06-22 屠雪祥 贷款额度自动评定***及贷款额度自动评定方法
CN108961040A (zh) * 2018-06-29 2018-12-07 重庆富民银行股份有限公司 用于授信贷款的贷款额度评估***及方法
WO2019080407A1 (zh) * 2017-10-25 2019-05-02 深圳壹账通智能科技有限公司 信贷评估方法、装置、设备及计算机可读存储介质
CN110458693A (zh) * 2019-08-08 2019-11-15 中国建设银行股份有限公司 一种企业贷款自动审批方法、装置、存储介质及电子设备
CN111062801A (zh) * 2019-12-03 2020-04-24 泰州企业征信服务有限公司 一种综合式评估企业授信额度分析***及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050137949A1 (en) * 2003-12-17 2005-06-23 Danny Rittman Automatic, characterized and prioritized transactions to credit card accounts from one credit card account, method and computer software
US20090313163A1 (en) * 2004-02-13 2009-12-17 Wang ming-huan Credit line optimization
CN106651570A (zh) * 2016-12-27 2017-05-10 中国建设银行股份有限公司 一种贷款实时审批***和方法
WO2019080407A1 (zh) * 2017-10-25 2019-05-02 深圳壹账通智能科技有限公司 信贷评估方法、装置、设备及计算机可读存储介质
CN107862602A (zh) * 2017-11-23 2018-03-30 安趣盈(上海)投资咨询有限公司 一种基于多维度指标计算、自学习及分群模型应用的授信决策方法与***
CN108198067A (zh) * 2017-12-04 2018-06-22 屠雪祥 贷款额度自动评定***及贷款额度自动评定方法
CN108961040A (zh) * 2018-06-29 2018-12-07 重庆富民银行股份有限公司 用于授信贷款的贷款额度评估***及方法
CN110458693A (zh) * 2019-08-08 2019-11-15 中国建设银行股份有限公司 一种企业贷款自动审批方法、装置、存储介质及电子设备
CN111062801A (zh) * 2019-12-03 2020-04-24 泰州企业征信服务有限公司 一种综合式评估企业授信额度分析***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹再辉;余东先;施进发;宗思生;: "两层分类器模型应用于个人信用评估", 控制工程, no. 12, pages 2231 - 2234 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282886B (zh) * 2021-05-26 2021-12-14 北京大唐神州科技有限公司 基于逻辑回归的银行对公贷款违约判别方法
CN113282886A (zh) * 2021-05-26 2021-08-20 北京大唐神州科技有限公司 基于逻辑回归的银行对公贷款违约判别方法
CN113379532A (zh) * 2021-06-11 2021-09-10 重庆农村商业银行股份有限公司 一种信用意识水平预测方法、装置、设备及存储介质
CN113538132B (zh) * 2021-07-26 2024-04-23 天元大数据信用管理有限公司 一种基于回归树算法的信用评分方法、设备及介质
CN113538132A (zh) * 2021-07-26 2021-10-22 天元大数据信用管理有限公司 一种基于回归树算法的信用评分方法、设备及介质
CN113610630A (zh) * 2021-08-06 2021-11-05 东方口岸科技有限公司 基于进出口贸易数据的金融信贷建模方法和***
CN113674087A (zh) * 2021-08-19 2021-11-19 工银科技有限公司 企业信用等级评定方法、装置、电子设备和介质
CN113689287A (zh) * 2021-08-24 2021-11-23 中国工商银行股份有限公司 一种贷款额度确定方法及装置
CN113837862A (zh) * 2021-09-27 2021-12-24 天元大数据信用管理有限公司 一种基于征信的贷后风险预警方法、设备及介质
CN114154866A (zh) * 2021-12-02 2022-03-08 北京顶象技术有限公司 一种上市企业财务风险预警方法和***
CN114202413A (zh) * 2022-02-17 2022-03-18 中云融拓数据科技发展(深圳)有限公司 基于产业链数字化场景金融模型建立金融风控体系的方法
CN116503872A (zh) * 2023-06-26 2023-07-28 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN116503872B (zh) * 2023-06-26 2023-09-05 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN117094816A (zh) * 2023-10-18 2023-11-21 天津市职业大学 一种基于大数据的企业财务评估方法及***
CN117094816B (zh) * 2023-10-18 2024-02-06 天津市职业大学 一种基于大数据的企业财务评估方法及***
CN117808576A (zh) * 2024-01-08 2024-04-02 深度(山东)数字科技集团有限公司 一种用于企业融资额度估算的商业汇票大数据分析方法
CN117808576B (zh) * 2024-01-08 2024-05-28 深度(山东)数字科技集团有限公司 一种用于企业融资额度估算的商业汇票大数据分析方法

Similar Documents

Publication Publication Date Title
CN112348654A (zh) 企业授信额度自动评定方法、***及可读存储介质
Xia et al. Cost-sensitive boosted tree for loan evaluation in peer-to-peer lending
Alvarez et al. Heterogeneous effects of financial constraints on innovation: Evidence from Chile
US7653593B2 (en) Macroeconomic-adjusted credit risk score systems and methods
US20200364786A1 (en) Method for determining optimal weight vector of credit rating based on maximum default identification ability measured by approaching ideal points
CN111401600A (zh) 基于关联关系的企业信用风险评价方法和***
CN112598500A (zh) 一种无额度客户的授信处理方法及***
Boguslauskas et al. The selection of financial ratios as independent variables for credit risk assessment
Muscettola Leverage risk. The weight of borrowed capital distinguishes the solvency of firms: an empirical analysis on a sample of 4,500 Italian SMEs
Davis et al. A quarter century of mortgage risk
Zhu et al. Explainable prediction of loan default based on machine learning models
CN117114812A (zh) 一种针对企业的金融产品推荐方法及装置
Biswas et al. Automated credit assessment framework using ETL process and machine learning
Tsuruta Lack of successors, firm default, and the performance of small businesses
Cucaro The bankruptcy prediction model Z-ScoreM for Italian Manufacturing Listed Companies and Z'-ScoreM for Italian Industrial Company
Dewaelheyns et al. The impact of business groups on bankruptcy prediction modeling
Wang et al. Are crises predictable? a review of the early warning systems in currency and stock markets
Bakhshi et al. Developing a hybrid approach to credit priority based on accounting variables (using analytical network process (ANP) and multi-criteria decision-making)
Pradnyana et al. Loan Default Prediction in Microfinance Group Lending with Machine Learning
Njoku Defacement of bank going concern public secrecy
Sadatrasoul et al. Investigating Revenue Smoothing Thresholds That Affect Bank Credit Scoring Models: An Iranian Bank Case Study
He¹ et al. Check for updates
Şakar Variable Importance Analysis in Default Prediction using Machine Learning Techniques
Muriuki Logistical Regression Model For Predicting Small And Medium Enterprises’(Smes) Credit Risk For Commercial Banks In Kenya.
He et al. Optimization of Machine Learning Models for Prediction of Personal Loan Default Rate

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination