CN110675243A - 一种融合机器学习的信贷预测逾期方法及*** - Google Patents

一种融合机器学习的信贷预测逾期方法及*** Download PDF

Info

Publication number
CN110675243A
CN110675243A CN201910814229.1A CN201910814229A CN110675243A CN 110675243 A CN110675243 A CN 110675243A CN 201910814229 A CN201910814229 A CN 201910814229A CN 110675243 A CN110675243 A CN 110675243A
Authority
CN
China
Prior art keywords
credit
data
overdue
factor data
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910814229.1A
Other languages
English (en)
Inventor
邱晓慧
杨波
于鸽
董晶
王海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Unionpay Gold Card Technology Co Ltd
Original Assignee
Beijing Unionpay Gold Card Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Unionpay Gold Card Technology Co Ltd filed Critical Beijing Unionpay Gold Card Technology Co Ltd
Priority to CN201910814229.1A priority Critical patent/CN110675243A/zh
Publication of CN110675243A publication Critical patent/CN110675243A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供融合机器学***衡情况用过采样方法进行处理,平衡数据分布;对影响信贷逾期的全部因素进行排序并剔除冗余,提高因素选择的合理性;基于双向LSTM结合时序因素综合建立信贷逾期预测模型,通过S折交叉确定最优模型参数,提高最佳模型质量。

Description

一种融合机器学习的信贷预测逾期方法及***
技术领域
本发明涉及一种融合机器学习的信贷逾期预测方法及***。
背景技术
近年来随着信贷申请的便捷快速、用户消费习惯的日渐改变,信贷量 不断增长,信贷的业务风险也在不断增加。截至2018年一季度末,信用 卡授信总额为13.14万亿元,保持着快速增长的态势;***逾期半年 未偿信贷总额占期末应偿信贷总额的1.21%,坏账率相对较高。信贷是商 业银行利润的重要组成部分,但目前面临较高风险,因此商业银行需在风 险防控领域重视此问题。
当用户提出信贷申请时,对用户进行信贷逾期预测可有效降低借贷后 发生逾期甚至形成坏账的风险。但是信贷业务涉及申贷人、放贷机构、特 约商户甚至政府宏观金融政策,任何主体变动皆会对信贷风险产生影响, 其跨行业、跨市场的特点使预测的复杂性大大增加。用户信贷逾期预测具 有复杂的时空变异性,受多尺度、随机性等因素影响。传统上,相关机构 根据以往用户信用状况统计分析用户信用评估准则,基于评估准则进行信贷逾期风险预测如5C分析法,从品格、资本、偿付能力、抵押品和经济 周期五个因素对借款人进行判断和权衡。此方法不仅对分析者要求和依赖 性高,还需要培训后备专家,成本较高,而且此多依赖于申贷人的历史表 现和专家主观判断,缺乏客观评价分析,准确性较差。
近期研究者将机器学习应用于信贷逾期预测领域,基于历史消费数据、 人口统计数据、消费数据,采用逻辑回归方法(LR)预测申贷人信用状况; 在信用评分问题中,对传统的统计和现代数据挖掘、机器学习工具进行评 估,结果表明现代机器学习方法优势明显;有研究者提出了一个总体框架, 通过使用机器学习方法评估个人消费信贷风险,其证明回归优化射频性能 在短期分期付款的测试数据上优于逻辑回归模型、近邻算法;但上述方法获得的数据存在局限性,忽略了用户财务信息、其他金融机构信用记录等 数据。另一方面,原始数据一般存在较严重缺失、重复、不规范状况,直 接建模会对预测精度产生较大影响,已有研究没进行充分的数据清洗与特 征选择。此外,不同因素对信贷逾期影响差异较大,当因素较多时,仅依 靠经验、已有研究对因素进行选择,不但效率低而且合理性差。综上所述, 如何能够提供一种能够综合考虑影响信贷逾期的各种因素,并有效的进行 数据预处理及因素选择,从而提供信贷逾期预测准确率成为亟待解决的问 题。
发明内容
本发明提供一种融合机器学习的信贷逾期预测方法及***,用以解决现 有技术中由于原始数据缺失、数据分布不均衡、多依赖人工经验等,导致信 贷逾期预测效率低而且预测结果不准确的问题。
为了实现上述目的,本发明技术方案提供了一种融合机器学习的信贷逾期 预测方法,所述方法包括:判断信贷因素数据的数据状态并进行数据处理, 得到预处理结果。采用梯度提升树方法计算所述预处理结果中的各信贷因素 数据的重要度并排序,基于排序结果删除冗余因素,得到选择后信贷因素数 据。基于时间序列构建训练样本后,利用LSTM建立并训练信贷逾期预测模型, 并通过S折交叉验证确定所述信贷逾期预测模型的最优参数,得到最佳模型。 通过所述最佳模型对申贷用户进行信贷逾期预测。
作为上述技术方案的优选,较佳的,收集若干用户的若干所述信贷因素数 据包括,申请信息数据、信用记录数据、贷款状态数据、申请记录数据、信 用卡数据。计算收集样本中逾期用户和未逾期用户之比,若计算结果为逾期 用户远少于未逾期用户的类不平衡情况,则对所述逾期用户过采样,使得所 述逾期用户和所述未逾期用户之比满足预设比例阈值。其中,所述信贷因素 数据不少于150维。
作为上述技术方案的优选,较佳的,判断信贷因素数据的数据状态并进行 数据处理,得到预处理结果,包括:判断所述信贷因素数据中的数据缺失状 态,若大于缺失阈值则采用随机森林算法填补缺失数据;若小于缺失阈值则 采用均值法对缺失数据进行填补。
作为上述技术方案的优选,较佳的,采用随机森林算法填补缺失数据,包 括:统计所述信贷因素数据中的每个因素数据缺失情况,得到每个因素的完 整数据集和缺失数据集。以完整数据集作为训练样本构建随机森林模型,将 缺失数据集输入所述随机森林模型,得到预测结果来填补因素的缺失数据, 具体的,训练样本为(xi1,xi2,xi3...xij-1,xij+1...xin,xij),其中xij为预测目 标;xi1,xi2,xi3...xin为特征向量,建立随机森林模型获取预测目标即缺失数 据。其中,采用one-hot编码对离散非数值型因素进行处理。
作为上述技术方案的优选,较佳的,采用均值法对缺失数据进行填补,包 括:统计信贷因素数据中的每个因素数据缺失情况,将缺失因素分为数值属 性和非数值属性,若缺失因素为数值型则计算所有对象的平均值进行填充, 若缺失因素为离散非数值型则利用所有对象取值次数最多的值进行填充。其 中,采用one-hot编码对离散非数值型因素进行处理。
作为上述技术方案的优选,较佳的,采用梯度提升树方法计算所述预处理 结果中各因素的重要度通过排序删除冗余因素,得到选择后信贷因素数据, 包括:计算用于判别用户信贷逾期的信贷因素数据在单棵决策树中重要度。 根据单棵决策树中重要度计算结果,计算每个所述信贷因素数据在全部梯度 提升树的全局重要度。依据每个信贷因素数据的全局重要度计算结果,对全 部所述信贷因素数据依据全局重要度进行排序,将部分冗余信贷因素数据进 行删除,得到所述选择后信贷因素数据。
作为上述技术方案的优选,较佳的,基于时间序列对所述信贷因素数据构 建训练样本后,基于训练样本利用LSTM建立并训练信贷逾期预测模型,包括: 将用户在周期内各时刻的信贷因素数据和此用户信贷逾期与否状态作为所述 训练样本。对所选信贷因素数据进行归一化处理后输入1-D全卷积层并获取 卷积层输出结果。将全卷积层输出结果输入双向LSTM模型,从而构建所述信 贷逾期预测模型。
作为上述技术方案的优选,较佳的,并通过S折交叉验证确定所述信贷逾 期预测模型的最优参数,得到最佳模型,包括:将若干用户的若干信贷因素 数据划分为k份,验证集1份,训练样本k-1份。根据所述训练样本训练所 述信贷逾期预测模型。将所述验证集输入信贷逾期预测模型通过ROC对所述 信贷逾期预测模型的预测性能进行评估。根据ROC对所述信贷逾期预测模型 的预测性能进行评估,具体的,
Figure BDA0002185922720000041
在k次信贷逾期模型训练及预测中,ROCavg的曲线面积最靠近1时,信 贷逾期预测模型为最佳模型;其中,ROCi为每个测试集的结果。
为了实现上述目的,本发明技术方案还提供了一种融合机器学习的信贷 逾期预测***能够实上述方法,包括:数据收集模块:用于收集若干用户的 若干所述信贷因素数据,包括,申请信息数据、信用记录数据、贷款状态数 据、申请记录数据、***数据;其中,所述信贷因素数据不少于150维。 数据预处理模块:用于判断信贷因素数据的数据状态并进行数据处理,得到 预处理结果,包括,判断所述信贷因素数据中的数据缺失状态,若大于缺失 阈值则采用随机森林算法填补缺失数据;若小于缺失阈值则采用均值法对缺 失数据进行填补,对离散非数值型属性进行one-hot编码,得到预处理结果。 信贷因素数据选择模块:采用梯度提升树方法计算所述预处理结果中的各信 贷因素数据的重要度进行计算通过排序删除冗余因素,得到选择后信贷因素 数据,包括,计算用于判别用户信贷逾期的信贷因素数据在单棵决策树中重 要度,根据单棵决策树中重要度计算结果,计算每个所述信贷因素数据在全 部梯度提升树的全局重要度,全部所述信贷因素数据依据全局重要度进行排 序,删除部分冗余信贷因素,得到所述选择后信贷因素数据。模型建立模块: 基于时间序列构建训练样本后,基于训练样本利用LSTM建立并训练信贷逾期 预测模型,通过S折交叉验证确定所述信贷逾期预测模型的最优参数,得到 最佳模型。结果预测模块:利用所述最佳模型预测待申请贷款客户的信贷逾 期状况,辅助工作人员判断申贷客户信用逾期情形,实现合理放贷。
作为上述技术方案的优选,较佳的,数据收集模块,还用于计算所收集样 本中逾期用户和未逾期用户之比,若计算结果为逾期用户与未逾期用户之比 不满足阈值,则对逾期用户过采样,使得所述逾期用户和所述未逾期用户之 比满足预设比例阈值。
本发明技术方案提供了一种融合机器学习的信贷逾期预测方法及***,收 集若干用户的信贷因素数据,判断此数据状态并进行数据处理,得到预处理 结果。采用梯度提升树对预处理结果中的各信贷因素数据的重要度进行计算 排序并删除冗余因素,得到选择后信贷因素数据。基于时间序列对信贷因素 数据构建训练样本后,利用LSTM建立并训练信贷逾期预测模型,并通过S折 交叉验证确定信贷逾期预测模型的最优参数,得到最佳模型后进行信贷逾期 预测。
本发明的优点是:
(1)本发明通过广泛收集多种有助于判断用户信贷逾期状况的用户电 信和其他交易数据,全面构建影响因素,提升了信贷逾期预测的全面性。
(2)本发明采取系列措施进行数据预处理,对训练数据存在缺失情况采 用随机森林与均值法分类处理;对离散非数值型属性进行one-hot编码,提 升了数据质量。
(3)本发明针对逾期用户远少于未逾期用户的类不平衡情况,采用过采 样方法进行处理,有效平衡了数据分布。
(4)本发明利用梯度提升树对影响信贷逾期的全部因素进行排序,结合 因素间相关性,对因素进行选择,删除冗余因素,提高了因素选择的合理性。
(5)本发明基于双向LSTM结合时序因素综合建立信贷逾期预测模型, 同时基于S折交叉验证确定最优模型参数,提高了最佳模型的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描 述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种融合机器学习的信贷逾期预测方法的流 程示意图一。
图2为本发明实施例提供的一种融合机器学习的信贷逾期预测方法的流 程示意图二。
图3为本发明实施例提供的一种融合机器学习的信贷逾期预测方法的流 程示意图三。
图4为本发明实施例提供的一种融合机器学习的信贷逾期预测方法的数 据流示意图。
图5为本发明实施例提供的一种融合机器学习的信贷逾期预测方法的部 分信贷因素数据重要度排序结果的示意图。
图6为本发明实施例提供的一种融合机器学习的信贷逾期预测方法的双 向LSTM模型方法的示意图。
图7为本发明实施例提供的一种融合机器学习的信贷逾期预测***的结 构示意图一。
图8为本发明实施例提供的一种融合机器学习的信贷逾期预测***的结 构示意图二。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前 提下所获得的所有其他实施例,都属于本发明保护的范围。
现具体说明本发明技术方案,图1为本发明实施例提供的流程示意图一, 如图1所示,包括:
步骤101、收集若干用户的若干信贷因素数据。
信贷因素数据包括但不限于:申请信息数据、信用记录数据、贷款状态 数据、申请记录数据、***数据。其中,信贷因素数据不少于150维。
步骤102、判断用户的类不平衡状况。
具体的,判断是否需对逾期用户过采样。
计算收集用户数据中逾期用户和未逾期用户之比,若计算结果为逾期用 户与未逾期用户之比不满足阈值,则属于用户的类不平衡状况,需对逾期用 户进行过采样,使得逾期用户和未逾期用户之比满足预设比例阈值,比例阈 值为1:9。
步骤103、判断信贷因素数据的数据状态并进行数据处理,得到预处理 结果。
具体的,判断信贷因素数据中的数据缺失状态,若大于缺失阈值则采用 随机森林算法填补缺失数据;若小于缺失阈值则采用均值法对缺失数据进行 填补。其中缺失阈值为20%。
若采用随机森林算法填补缺失数据:
统计信贷因素数据中的每个因素数据缺失情况,得到因素的完整数据集 和缺失数据集。以完整数据集作为训练样本构建随机森林模型,将缺失数据 集输入随机森林模型进行预测,结果用于填补因素的缺失数据,具体的,训 练样本为(xi1,xi2,xi3...xij-1,xij+1...xin,xij),其中xij为预测目标; xi1,xi2,xi3...xin为特征向量,建立随机森林模型,通过模型预测获取的预测 目标即为因素的缺失数据。对信贷因素数据中的离散非数值型因素采用 one-hot编码对其进行编码处理。
若采用均值法对缺失数据进行填补:
统计信贷因素数据中的每个因素数据缺失情况,将缺失因素分为数值属 性和非数值属性,若为数值型则计算所有对象的平均值进行填充,若缺失因 素为离散非数值型则利用所有对象取值次数最多的值进行填充。对信贷因素 数据中的离散非数值型因素采用one-hot编码对其进行编码处理。
步骤104、采用梯度提升树方法对预处理结果中的各信贷因素数据的重 要度计算并排序并删除冗余因素,得到选择后信贷因素数据。
计算用于判别用户信贷逾期的信贷因素数据在单棵决策树中重要度。
根据此重要度计算结果,计算每个信贷因素数据在全部梯度提升树的全 局重要度。依据全局重要度计算结果,对每个信贷因素数据进行排序,将部 分冗余信贷因素数据进行删除,得到选择后信贷因素数据。
步骤105、构建训练样本,利用训练样本基于LSTM建立并训练信贷逾期 预测模型。
将用户在周期内各时刻的信贷因素数据和此用户是否信贷逾期作为所述 训练样本。对选择后信贷因素数据进行归一化处理后,输入1-D全卷积层并 获取卷积层输出结果。将1-D全卷积层输出结果输入双向LSTM模型,从而构 建信贷逾期预测模型。
步骤106、通过S折交叉验证确定信贷逾期预测模型的最优参数,得到最 佳模型。
将若干用户的若干信贷因素数据划分为k份,验证集1份,训练样本k-1 份,根据训练样本训练信贷逾期预测模型。
信贷逾期预测模型通过ROC对信贷逾期预测模型的预测性能进行评估。
根据ROC值对信贷逾期预测模型的预测性能进行评估,具体的,
在k次信贷逾期模型训练及预测中,ROCavg的曲线面积最靠近1时,信 贷逾期预测模型为最佳模型;其中,ROCi为每个每个验证集的结果。
步骤107、工作人员通过最佳模型进行信贷逾期预测。
现用一具体实施例进一步说明本发明实施方案,具体的,如图2所示, 图2为本发明实施例提供的流程示意图,并进一步结合图3、图4、图5和图 6进行说明:
步骤201、收集信贷因素数据。
如图4所示,信贷因素数据主要包括用户申请信息数据、其他金融机构 用户信用记录数据、贷款状态数据、用户申请记录数据、用户***还款及 消费记录数据,共200维。所述用户申请信息数据包括用户申请的贷款信息 数据(贷款类型、贷款总额、年金等)、用户基本信息数据(性别、年龄、 学历、职业、行业、居住情况等)、用户财务信息数据(年收入、房和车情 况等)、申请时提供的资料等;所述其他金融机构用户信用记录数据包括用 户在征信中心或其他金融机构的信用记录、违约金额、违约时间等;所述贷 款状态数据包括用户在本机构贷款已付款与未付款数据等;所述用户申请记 录数据包括申请信息、申请结果等;所述用户***还款及消费记录数据包 括还款日期、是否逾期、还款金额、是否欠款、消费次数、消费金额等。具 体的,用户申请信息通过用户申贷时填写的相关表单获取;所述用户申请记 录和用户***还款及消费记录数据通过查询用户在本机构过往记录获得;所述其他金融机构用户信用记录数据通过公开数据以及从其他单位合作获取。
在本实施例中,以2011.1.1~2018.12.31期间信贷活动产生的数据为例 进行说明,提高了数据有效性与预测准确度,避免因时间因素引起的数据扰 动。
步骤202、判断逾期用户和未逾期用户之比是否低于1:9。若是执行步骤 203,否则执行步骤204。
步骤203、对逾期用户进行过采样处理。
当逾期用户和未逾期用户之比低于1:9时,属于逾期用户远少于未逾期 用户的类不平衡情况,采用过采样的方式进行处理。首先在收集到的用户记 录中统计逾期用户状况,之后将逾期用户记录进行复制重新放回至样本,达 到对逾期用户过采样的效果。数据过采样后,逾期用户比例从原来的不足2% 扩大至10%。
步骤204、判断信贷因素数据中的数据缺失量是否大于缺失阈值,若是 执行步骤205,否则执行步骤206。其中,缺失阈值为20%。
申贷客户相关数据大部分是工作人员现场收集的原始数据,部分从网络 或其他金融机构获取,数据缺失与数据杂乱情况较严重。为有效解决上述问 题,针对数据缺失情况利用随机森林算法与均值法进行处理。若在收集的信 贷因素数据中数据缺失量达到20%则认为数据缺失量较大采用步骤205中方 法对缺失数据进行填补,反之采用步骤206中方法对缺失数据进行填补。
步骤205、利用随机森林算法对缺失数据进行处理。
具体的,数据集根据是否含有待处理因素的数据分为因素缺失集与因素 完整集两部分,以因素完整集部分作为训练样本构建随机森林模型,将因素 缺失集的数据记录输入随机森林模型进行预测,填补缺失值。以拥有汽车的 年龄因素为例,通过统计发现其数据缺失25%,之后根据拥有汽车的年龄这 个因素是否缺失将数据集分为因素完整集与因素缺失集两部分,以因素完整 集为训练样本(xi1,xi2,xi3...xij-1,xij+1...xin,xij),xij为拥有汽车的年龄, 其为预测目标,xi1,xi2,xi3...为特征向量,建立随机森林模型。利用构建的随 机森林模型预测缺失的拥有汽车年龄数据。
步骤206、利用均值法对缺失数据进行处理。
包括如下过程:将因素分为数值型与非数值型分别处理,若为数值型因 素则利用所有对象的平均值进行填充,若为非数值型因素则利用所有对象取 值次数最多的值进行填充。
在步骤205和206中均采用one-hot编码对职业、性别、学历、行业、 居住地等离散、无序、非数值型因素进行处理。以性别为例,性别特征为[“男”, “女”],按照N位状态寄存器来对N个状态进行编码的原理,由于仅有2个 特征因此N=2。编码结果为,男:10,女:01。
步骤207、对信贷因素数据的重要度进行计算并删除冗余数据得到选择 后信贷因素数据。
采用梯度提升树计算信贷因素数据的重要度计算并排序,结合因素相关 性进行特征选择,后删除冗余因素数据,具体的:
梯度提升树是一种由基函数组成的加法模型,其基函数为决策树。利用 收集2011.1.1~2018.12.31期间的N组信贷逾期影响因素-信贷逾期与否对即 (x1,y1),(x2,y2),....(xN,yN)构建梯度提升树模型,基于此模型对有助于判断 客户信贷逾期状况的因素进行重要度排序。具体过程如下所示:
首先,构建梯度提升树:
确定初始梯度提升树
Figure RE-GDA0002269583330000101
第m步的提升树为fm(x)= fm-1(x)+T(x;θm),其中p=1/(1+exp(-f(x)))。
对于m=1,2,.....M。
确定参数,在本发明中采 用log损失函数即L(y,f(x))=-ylog(p)-(1-y)log(1-p),其中p= 1/(1+exp(-f(x))),进而可近似求解为
Figure RE-GDA0002269583330000102
拟合残差rmi学习一棵决策树,得到T(x;θm)。
更新fm(x)=fm-1(x)+T(x;θm)。
其次,计算单棵决策树经过节点t***后,log损失的减少值。
其中,
Figure BDA0002185922720000108
为损失值即不同影响信贷逾期的因素在节点t的重要度, T(x;θm)为单棵决策树函数,xi,yi为信贷逾期影响因素-信贷逾期与否对,Rw为当前节点包含的影响因素。
最后,计算信贷因素数据的重要度排序,具体的,对信贷因素数据中信贷 逾期影响因素全局重要度排序。
首先,计算每个信贷逾期影响因素在单棵信贷逾期预测梯度提升树中重 要度,
Figure BDA0002185922720000109
其中,j为第j个信贷逾期影响因素,L为单棵决策树的节点数量,t为单 棵决策树第t个节点,vt为第t个节点所表示的因素值,
Figure BDA00021859227200001010
是第t节点***之后 log损失的减少值。
进一步的,根据上述单棵决策树中重要度计算结果,计算每个信贷因素 数据在全部梯度提升树全局重要度Ej 2
Figure BDA00021859227200001011
其中,Ej 2为第j个因素数据在梯度提升树中重要度,Tm表示第m棵决策 树,是梯度提升树含有决策树的数量。
根据Ej 2对影响信贷逾期的全部因素依据重要度进行排序。
最后,依据梯度提升树对收集的信贷因素数据计算重要度并进行排序, 部分信贷因素数据重要度排序结果如图5所示,结合信贷因素数据间相关性 将重要度较弱的特征删除,完成特征选择,至此完成步骤207。
步骤208、基于选择后信贷因素数据利用LSTM建立并训练信贷逾期预测 模型。其中,将申贷用户在周期内各时刻的信贷因素数据和此申贷用户信贷 逾期与否的状态作为所述训练样本。
具体的,在LSTM网络中通常以[X(t-n),X(t-n+1),....,X(t-1),X(t)]n 个时刻的数据作为输入来预测(t+1)时刻的输出。对申贷客户来说,在t时 刻信贷因素数据会有若干特征,因此将f(feature per time)×n(time)的二 维向量作为训练样本。
其中,信贷逾期预测模型是基于双向LSTM建立的。
双向LSTM可以较好捕捉长距离依赖关系,通过记忆与遗忘部分信息更好 的进行模型训练,有效防止了梯度***及梯度消失,同时双向LSTM可以从两 个方向共同捕捉信息,提升获取的信息全面性。
具体的,对选择后信贷因素数据进行归一化处理,依据进行处 理。Xi为归一化前因素数据,Xmin与Xmax分别为因素数据中的最小值与最大 值。
然后将96个月即过去8年的因素数据输入1-D的全卷积层,全卷积层为 96*2,共128个过滤器。用其连接两个连续的月以查看用户在两个月期间的 因素变化状况。
之后将卷积层输出结果输入双向LSTM模型具体如图6所示,LSTM模块 的激活函数为tanh函数,并用linear函数作为LSTM输出的完全连接网络的 激活函数,采用均方误差作为误差计算函数即
Figure BDA0002185922720000113
其中y 为样本真实值,y′为样本预测值,n为样本个数。将Adam(随机梯度下降) 算法作为权重参数的迭代更新方式。为有效防止过拟合在每层网络添加 dropout,其舍弃率为0.2。
步骤209、通过S折交叉验证确定信贷逾期预测模型的最优参数,得到 最佳模型。
在本发明实施例中,收集的数据为2011.1.1~2018.12.31,共8年数据, 采用八折交叉验证法来确定模型参数。多次实验每次将数据集随机分为八份, 随机选择其中七份进行训练构建信贷逾期预测模型,一份进行测试,根据ROC 评估模型预测准确率。
Figure BDA0002185922720000121
其中k为对每个模型进行实验的次数,ROCi为每 次实验中验证集的得分。每个模型会计算ROCavg,根据其确定最佳模型。当 ROCavg的曲线面积最靠近1时,信贷逾期预测模型为最佳模型
步骤210、基于上述训练模型预测申贷客户逾期情况。
在此实例中,将训练好的最佳信贷逾期预测模型运行在后台服务器中, 当客户申请贷款时,广泛收集客户的各种信息数据(线上、线下相结合), 然后将客户信息数据传送至后台服务器,服务器返回客户信贷逾期与否的结 果,银行等金融机构工作人员根据返回结果合理放贷。信贷逾期预测可有效 辅助工作人员判断申贷客户信用风险状况,将贷后催收转变为贷前预测,降 低金融风险。
本发明还提供了一种融合机器学习的信贷逾期预测***,其结构示意图 如图7和图8所示:
数据收集模块301、用于收集若干用户的若干信贷因素数据。信贷因素 数据包括但不限于:申请信息数据、信用记录数据、贷款状态数据、申请记 录数据、***数据。其中,信贷因素数据不少于150维。数据收集模块301, 还用于计算收集样本(若干用户)中逾期用户和未逾期用户之比,若计算结 果为逾期用户远少于未逾期用户的类不平衡情况,则对逾期用户过采样,使 得逾期用户和所述未逾期用户之比满足预设比例阈值。
数据预处理模块302、用于判断数据收集模块301收集的信贷因素数据 的数据状态并进行数据处理,得到预处理结果。具体用于:判断信贷因素数 据中的数据缺失状态,若缺失数据量在信贷因素数据中的占比大于缺失阈值 则采用随机森林算法填补缺失数据;若小于缺失阈值则采用均值法对缺失数 据进行填补,对信贷因素数据中的离散非数值型属性进行one-hot编码,得 到预处理结果。
信贷因素数据选择模块303、采用梯度提升树方法对数据预处理模块302 得到的预处理结果中的各信贷因素数据的重要度进行计算并排序后,删除冗 余因素,得到选择后信贷因素数据,具体用于:计算用于判别用户信贷逾期 的信贷因素数据在单棵决策树中重要度,根据单棵决策树中重要度计算结果, 计算每个所述信贷因素数据在全部梯度提升树的全局重要度,全部所述信贷 因素数据依据全局重要度进行排序,删除部分冗余信贷因素数据,得到所述 选择后信贷因素数据。
模型建立模块304、基于时间序列构建训练样本后,利用训练样本基于 LSTM建立并训练信贷逾期预测模型,通过S折交叉验证确定信贷逾期预测模 型的最优参数,得到最佳模型。具体的,根据ROC评估模型预测准确率,当 ROCavg的曲线面积最靠近1时,当前信贷逾期预测模型为最佳模型
结果预测模块305、工作人员利用上述最佳模型预测待申请贷款客户的 信贷逾期状况,判断申贷客户信用逾期情形,实现合理放贷。
本发明提供的一种融合机器学习的信贷逾期预测***的布局如图6所示, 包括用户设备与后台服务器。本实施实例效果是,用户(银行等放贷机构信 贷办理人员)将现场收集的申贷客户数据通过相关设备如笔记本、台式机等 上传到后台服务器,服务器运行信贷逾期预测模型,对上传客户数据进行清 洗、扩展等,然后利用训练好的双向LSTM模型预测申贷客户信贷逾期状态, 最后服务器将预测结果返回给工作人员,工作人员结合信贷逾期预测结果合 理放贷。其中,信贷逾期模型布放于服务器前需进行模型训练及模型选择等前期工作。
本发明技术方案提供了一种融合机器学习的信贷逾期预测方法及***, 收集若干用户的信贷因素数据并进行预处理,对预处理结果中信贷因素数据 的重要度进行计算排序并删除冗余,得到选择后信贷因素数据。基于信贷因 素数据构建训练样本,基于训练样本利用LSTM建立并训练信贷逾期预测模型, 确定最优参数,得到最佳模型后进行信贷逾期预测。
本发明的优点是:
(1)本发明通过广泛收集多种有助于判断用户信贷逾期状况的用户电 信和其他交易数据,全面构建影响因素,提升了信贷逾期预测的全面性。
(2)本发明采取系列措施进行数据预处理,对训练数据存在缺失情况采 用随机森林与均值法分类处理;对离散非数值型属性进行one-hot编码,提 升了数据质量。
(3)本发明针对逾期用户远少于未逾期用户的类不平衡情况,采用过采 样方法进行处理,有效平衡了数据分布。
(4)本发明利用梯度提升树对影响信贷逾期的全部因素进行排序,结合 因素间相关性,对因素进行选择,删除冗余因素,提高了因素选择的合理性。
(5)本发明基于双向LSTM结合时序因素综合建立信贷逾期预测模型, 同时基于S折交叉验证确定最优模型参数,提高了最佳模型的质量。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对 其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通 技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并 不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种融合机器学习的信贷逾期预测方法,其特征在于,所述方法包括:
判断信贷因素数据的数据状态并进行数据处理,得到预处理结果;
采用梯度提升树方法对所述预处理结果中的各信贷因素数据的重要度进行计算排序后删除冗余因素,得到选择后信贷因素数据;
基于时间序列对所述信贷因素数据构建训练样本后,基于训练样本利用LSTM建立并训练信贷逾期预测模型,通过S折交叉验证确定所述信贷逾期预测模型的最优参数,得到最佳模型;
通过所述最佳模型进行信贷逾期预测。
2.根据权利要求1所述的融合机器学习的信贷逾期预测方法,其特征在于,还包括:收集若干用户的若干所述信贷因素数据包括,申请信息数据、信用记录数据、贷款状态数据、申请记录数据、***数据作为收集样本;
根据所述信贷因素数据计算所述收集样本中逾期用户和未逾期用户之比,若计算结果为逾期用户少于未逾期用户的类不平衡情况,则对所述逾期用户过采样,使得所述逾期用户和所述未逾期用户之比满足预设比例阈值;
其中,所述信贷因素数据不少于150维。
3.根据权利要求2所述的融合机器学习的信贷逾期预测方法,其特征在于,所述判断信贷因素数据的数据状态并进行数据处理,得到预处理结果,包括:
判断所述信贷因素数据中的数据缺失状态,若大于缺失阈值则采用随机森林算法填补缺失数据;若小于缺失阈值则采用均值法对缺失数据进行填补。
4.根据权利要求3所述的融合机器学习的信贷逾期预测方法,其特征在于,所述采用随机森林算法填补缺失数据,包括:
统计所述信贷因素数据中的每个因素数据缺失情况,得到此因素的完整数据集和因素缺失数据集;
以完整数据集作为训练样本构建随机森林模型,将缺失数据集输入所述随机森林模型用于填补该因素的缺失数据,具体的,
训练样本为(xi1,xi2,xi3...xij-1,xij+1...xin,xij),其中xij为预测目标;xi1,xi2,xi3...xin为特征向量,建立随机森林模型,通过所述随机森林模型预测缺失数据;
其中,采用one-hot编码对离散非数值型因素进行处理。
5.根据权利要求3所述的融合机器学习的信贷逾期预测方法,其特征在于,采用均值法对缺失数据进行填补,包括:
统计所述信贷因素数据中的每个因素数据缺失情况,将缺失因素分为数值属性和非数值属性,若所述缺失因素为数值型则计算所有对象的平均值进行填充,若所述缺失因素为离散非数值型则利用所有对象取值次数最多的值进行填充;
其中,采用one-hot编码对离散非数值型因素进行处理。
6.根据权利要求2所述的融合机器学习的信贷逾期预测方法,其特征在于,采用梯度提升树方法对所述预处理结果中的各因素的重要度进行计算排序后删除冗余因素,得到选择后信贷因素数据,包括:
计算用于判别用户信贷逾期的信贷因素数据在单棵决策树中重要度;
根据单棵决策树中重要度计算结果,计算每个所述信贷因素数据在全部梯度提升树的全局重要度;
依据每个所述信贷因素数据的全局重要度计算结果,对全部所述信贷因素数据依据全局重要度进行排序,将部分冗余信贷因素数据进行删除,得到所述选择后信贷因素数据。
7.根据权利要求2所述的融合机器学习的信贷逾期预测方法,其特征在于,所述基于时间序列对所述信贷因素数据构建训练样本后,基于训练样本利用LSTM建立并训练信贷逾期预测模型,包括:
将用户在周期内各时刻的信贷因素数据和此用户信贷逾期与否状态作为所述训练样本;
对所述选择后信贷因素数据进行归一化处理后输入1-D全卷积层并获取卷积层输出结果;
将所述全卷积层输出结果输入双向LSTM模型,从而构建所述信贷逾期预测模型。
8.根据权利要求2所述的融合机器学习的信贷逾期预测方法,其特征在于,所述通过S折交叉验证确定所述信贷逾期预测模型的最优参数,得到最佳模型,包括:
将若干用户的若干所述信贷因素数据划分为k份,验证集1份,训练样本k-1份;
根据所述训练样本训练所述信贷逾期预测模型;
将所述验证集输入所述信贷逾期预测模型通过ROC对所述信贷逾期预测模型的预测准确率进行评估:
根据ROC的值对所述信贷逾期预测模型的预测性能进行评估,具体的,
在k次信贷逾期模型训练及预测中,ROCavg的曲线面积最靠近1时,所述信贷逾期预测模型为最佳模型;其中,ROCi为每个验证集的得分。
9.一种融合机器学习的信贷逾期预测***能够实现权利要求1-8任一项所述的方法,其特征在于,包括:
数据收集模块:用于收集若干用户的若干所述信贷因素数据,包括,申请信息数据、信用记录数据、贷款状态数据、申请记录数据、***数据;其中,所述信贷因素数据不少于150维;
数据预处理模块:用于判断信贷因素数据的数据状态并进行数据处理,得到预处理结果,包括,判断所述信贷因素数据中的数据缺失状态,若大于缺失阈值则采用随机森林算法填补缺失数据;若小于缺失阈值则采用均值法对缺失数据进行填补,对离散非数值型属性进行one-hot编码,得到预处理结果;
信贷因素数据选择模块:采用梯度提升树方法对所述预处理结果中的各信贷因素数据进行重要度计算通过排序删除冗余因素,得到选择后信贷因素数据,包括,计算用于判别用户信贷逾期的信贷因素数据在单棵决策树中重要度,根据单棵决策树中重要度计算结果,计算每个所述信贷因素数据在全部梯度提升树的全局重要度,全部所述信贷因素数据依据全局重要度进行排序,删除部分冗余信贷因素,得到所述选择后信贷因素数据;
模型建立模块:基于时间序列构建训练样本后,利用训练样本基于LSTM建立并训练信贷逾期预测模型,通过S折交叉验证确定所述信贷逾期预测模型的最优参数,得到最佳模型;
结果预测模块:利用所述最佳模型预测待申请贷款客户的信贷逾期状况,辅助工作人员判断申贷客户信用逾期情形,实现合理放贷。
10.根据权利要求9所述的融合机器学***衡情况,则对所述逾期用户过采样,使得所述逾期用户和所述未逾期用户之比满足预设比例阈值。
CN201910814229.1A 2019-08-30 2019-08-30 一种融合机器学习的信贷预测逾期方法及*** Pending CN110675243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910814229.1A CN110675243A (zh) 2019-08-30 2019-08-30 一种融合机器学习的信贷预测逾期方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910814229.1A CN110675243A (zh) 2019-08-30 2019-08-30 一种融合机器学习的信贷预测逾期方法及***

Publications (1)

Publication Number Publication Date
CN110675243A true CN110675243A (zh) 2020-01-10

Family

ID=69075858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910814229.1A Pending CN110675243A (zh) 2019-08-30 2019-08-30 一种融合机器学习的信贷预测逾期方法及***

Country Status (1)

Country Link
CN (1) CN110675243A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210086A (zh) * 2020-01-15 2020-05-29 杭州华网信息技术有限公司 一种国家电网覆冰灾害预测方法
CN111222982A (zh) * 2020-01-16 2020-06-02 随手(北京)信息技术有限公司 一种互联网信贷逾期预测方法、装置、服务器和存储介质
CN111222709A (zh) * 2020-01-15 2020-06-02 杭州华网信息技术有限公司 一种国家电网树线放电预测方法
CN111275193A (zh) * 2020-01-15 2020-06-12 杭州华网信息技术有限公司 一种国家电网雷击预测方法
CN111275298A (zh) * 2020-01-15 2020-06-12 杭州华网信息技术有限公司 一种基于电网的地质灾害风险预警方法
CN111291027A (zh) * 2020-01-15 2020-06-16 杭州华网信息技术有限公司 一种数据预处理方法
CN111310785A (zh) * 2020-01-15 2020-06-19 杭州华网信息技术有限公司 一种国家电网机械外破预测方法
CN111476658A (zh) * 2020-04-13 2020-07-31 中国工商银行股份有限公司 一种贷款连续逾期的预测方法及装置
CN111753911A (zh) * 2020-06-28 2020-10-09 北京百度网讯科技有限公司 用于融合模型的方法和装置
CN111950600A (zh) * 2020-07-20 2020-11-17 上海淇馥信息技术有限公司 一种预测逾期用户资源返还表现的方法、装置和电子设备
CN112269841A (zh) * 2020-09-24 2021-01-26 华控清交信息科技(北京)有限公司 一种数据生成方法、装置和用于数据生成的装置
CN112288585A (zh) * 2020-11-20 2021-01-29 中国人寿保险股份有限公司 保险业务精算数据处理方法、装置及电子设备
CN112308703A (zh) * 2020-11-02 2021-02-02 创新奇智(重庆)科技有限公司 用户分群方法、装置、设备及存储介质
CN112419045A (zh) * 2020-11-25 2021-02-26 苏州大学 基于过采样与随机森林的不平衡信贷用户分类方法
CN113469252A (zh) * 2021-07-02 2021-10-01 河海大学 一种考虑不平衡样本的特高压换流阀运行状态评估方法
CN113781210A (zh) * 2021-09-29 2021-12-10 中国银行股份有限公司 基于客户金融交易数据结构的自动化特征工程方法及装置
CN117437036A (zh) * 2023-12-18 2024-01-23 杭银消费金融股份有限公司 一种基于多任务提升树的信贷风控管理方法与***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766695A (zh) * 2017-10-20 2018-03-06 中国科学院北京基因组研究所 一种获取外周血基因模型训练数据的方法及装置
CN108172301A (zh) * 2018-01-31 2018-06-15 中国科学院软件研究所 一种基于梯度提升树的蚊媒传染病疫情预测方法及***
CN108389125A (zh) * 2018-02-27 2018-08-10 挖财网络技术有限公司 信贷申请的逾期风险预测方法及装置
CN109344998A (zh) * 2018-09-06 2019-02-15 盈盈(杭州)网络技术有限公司 一种基于医疗美容场景的客户违约概率预测方法
CN109871843A (zh) * 2017-12-01 2019-06-11 北京搜狗科技发展有限公司 字符识别方法和装置、用于字符识别的装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766695A (zh) * 2017-10-20 2018-03-06 中国科学院北京基因组研究所 一种获取外周血基因模型训练数据的方法及装置
CN109871843A (zh) * 2017-12-01 2019-06-11 北京搜狗科技发展有限公司 字符识别方法和装置、用于字符识别的装置
CN108172301A (zh) * 2018-01-31 2018-06-15 中国科学院软件研究所 一种基于梯度提升树的蚊媒传染病疫情预测方法及***
CN108389125A (zh) * 2018-02-27 2018-08-10 挖财网络技术有限公司 信贷申请的逾期风险预测方法及装置
CN109344998A (zh) * 2018-09-06 2019-02-15 盈盈(杭州)网络技术有限公司 一种基于医疗美容场景的客户违约概率预测方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275298B (zh) * 2020-01-15 2023-11-28 国网浙江省电力有限公司杭州供电公司 一种基于电网的地质灾害风险预警方法
CN111291027B (zh) * 2020-01-15 2023-08-15 浙江华网恒业科技有限公司 一种数据预处理方法
CN111222709A (zh) * 2020-01-15 2020-06-02 杭州华网信息技术有限公司 一种国家电网树线放电预测方法
CN111275193A (zh) * 2020-01-15 2020-06-12 杭州华网信息技术有限公司 一种国家电网雷击预测方法
CN111275298A (zh) * 2020-01-15 2020-06-12 杭州华网信息技术有限公司 一种基于电网的地质灾害风险预警方法
CN111291027A (zh) * 2020-01-15 2020-06-16 杭州华网信息技术有限公司 一种数据预处理方法
CN111310785A (zh) * 2020-01-15 2020-06-19 杭州华网信息技术有限公司 一种国家电网机械外破预测方法
CN111222709B (zh) * 2020-01-15 2023-12-12 国网冀北电力有限公司超高压分公司 一种国家电网树线放电预测方法
CN111210086A (zh) * 2020-01-15 2020-05-29 杭州华网信息技术有限公司 一种国家电网覆冰灾害预测方法
CN111210086B (zh) * 2020-01-15 2023-09-22 国网安徽省电力有限公司宁国市供电公司 一种国家电网覆冰灾害预测方法
CN111222982A (zh) * 2020-01-16 2020-06-02 随手(北京)信息技术有限公司 一种互联网信贷逾期预测方法、装置、服务器和存储介质
CN111476658A (zh) * 2020-04-13 2020-07-31 中国工商银行股份有限公司 一种贷款连续逾期的预测方法及装置
CN111753911A (zh) * 2020-06-28 2020-10-09 北京百度网讯科技有限公司 用于融合模型的方法和装置
CN111950600A (zh) * 2020-07-20 2020-11-17 上海淇馥信息技术有限公司 一种预测逾期用户资源返还表现的方法、装置和电子设备
CN111950600B (zh) * 2020-07-20 2024-05-14 奇富数科(上海)科技有限公司 一种预测逾期用户资源返还表现的方法、装置和电子设备
CN112269841A (zh) * 2020-09-24 2021-01-26 华控清交信息科技(北京)有限公司 一种数据生成方法、装置和用于数据生成的装置
CN112308703A (zh) * 2020-11-02 2021-02-02 创新奇智(重庆)科技有限公司 用户分群方法、装置、设备及存储介质
CN112288585B (zh) * 2020-11-20 2024-05-28 中国人寿保险股份有限公司 保险业务精算数据处理方法、装置及电子设备
CN112288585A (zh) * 2020-11-20 2021-01-29 中国人寿保险股份有限公司 保险业务精算数据处理方法、装置及电子设备
CN112419045A (zh) * 2020-11-25 2021-02-26 苏州大学 基于过采样与随机森林的不平衡信贷用户分类方法
CN113469252A (zh) * 2021-07-02 2021-10-01 河海大学 一种考虑不平衡样本的特高压换流阀运行状态评估方法
CN113781210A (zh) * 2021-09-29 2021-12-10 中国银行股份有限公司 基于客户金融交易数据结构的自动化特征工程方法及装置
CN117437036B (zh) * 2023-12-18 2024-03-26 杭银消费金融股份有限公司 一种基于多任务提升树的信贷风控管理方法与***
CN117437036A (zh) * 2023-12-18 2024-01-23 杭银消费金融股份有限公司 一种基于多任务提升树的信贷风控管理方法与***

Similar Documents

Publication Publication Date Title
CN110675243A (zh) 一种融合机器学习的信贷预测逾期方法及***
Jin et al. A data-driven approach to predict default risk of loan for online peer-to-peer (P2P) lending
Abdou et al. Predicting creditworthiness in retail banking with limited scoring data
Khemakhem et al. Credit risk prediction: A comparative study between discriminant analysis and the neural network approach
CN110956273A (zh) 融合多种机器学习模型的征信评分方法及***
CN108898476A (zh) 一种贷款客户信用评分方法和装置
Purohit et al. Credit evaluation model of loan proposals for Indian Banks
CN111861698A (zh) 一种基于贷款多头数据的贷前审批预警方法及***
CN109583782B (zh) 支持多数据源的汽车金融风控方法
Eddy et al. Credit scoring models: Techniques and issues
Ruyu et al. A comparison of credit rating classification models based on spark-evidence from lending-club
Kumar et al. Credit score prediction system using deep learning and k-means algorithms
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
Nurlybayeva et al. Algorithmic scoring models
Kun et al. Default identification of p2p lending based on stacking ensemble learning
Li et al. Strengthen credit scoring system of small and micro businesses with soft information: Analysis and comparison based on neural network models
US20230252387A1 (en) Apparatus, method and recording medium storing commands for providing artificial-intelligence-based risk management solution in credit exposure business of financial institution
CN115936841A (zh) 一种构建信贷风险评估模型的方法及装置
TWM583089U (zh) 智慧型信用風險評估系統
CN116152018A (zh) 一种高新技术企业专利知识产权项目可行性预评估***
CN117455681A (zh) 业务风险预测方法和装置
CN115204457A (zh) 一种基于图注意力网络贷款违约风险预测方法
Rahman et al. Nearest neighbor classifier method for making loan decision in commercial bank
CN114170000A (zh) ***用户风险类别识别方法、装置、计算机设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110

RJ01 Rejection of invention patent application after publication