CN112037009A - 一种基于随机森林算法的消费信贷场景的风险评估方法 - Google Patents

一种基于随机森林算法的消费信贷场景的风险评估方法 Download PDF

Info

Publication number
CN112037009A
CN112037009A CN202010784787.0A CN202010784787A CN112037009A CN 112037009 A CN112037009 A CN 112037009A CN 202010784787 A CN202010784787 A CN 202010784787A CN 112037009 A CN112037009 A CN 112037009A
Authority
CN
China
Prior art keywords
model
random forest
feature
module
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010784787.0A
Other languages
English (en)
Inventor
江远强
韩璐
李兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baiweijinke Shanghai Information Technology Co ltd
Original Assignee
Baiweijinke Shanghai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baiweijinke Shanghai Information Technology Co ltd filed Critical Baiweijinke Shanghai Information Technology Co ltd
Priority to CN202010784787.0A priority Critical patent/CN112037009A/zh
Publication of CN112037009A publication Critical patent/CN112037009A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于随机森林算法的消费信贷场景的风险评估方法,包括信息采集模块、数据预处理模块、特征工程模块、模型训练及调参模块、特征重要性评估模块、模型评价与选择模块和模型部署监控模块。有益效果:数据预处理简单、特征工程和模型训练效率高、模型准确率高,将随机森林模型结合互联网金融的消费信贷场景,随机森林根据自身的算法优越性,能更好处理互联网数据的高维稀疏、噪声多和变量冗余的问题,随机森林模型相比其他传统评分卡模型具有更高的风险预测准确率以及稳定性,提升了对信用风险的识别,对互联网金融的消费信贷的实际应用具有一定的参考价值。

Description

一种基于随机森林算法的消费信贷场景的风险评估方法
技术领域
本发明涉及互联网金融消费信贷行业的风控技术领域,具体来说,涉及一种基于随机森林算法的消费信贷场景的风险评估方法。
背景技术
随着互联网+概念的兴起,以P2P借贷、消费金融、汽车租赁等为代表的互联网金融消费信贷公司如雨后春笋般,但在野蛮生长之后,公司的发展速度和命门都集中在风控上面。传统的风控审核是基于机器学习算法的评分卡模型,包括逻辑回归、决策树、支持向量机和神经网络等,这几类算法解释性强,且简单易于理解,能够直接看到各个特征的权重,也能容易地吸收新的数据来更新模型,所以在GBDT、随机森林、lightGBM等集成算法陆续出现的时候,传统评分卡模型仍然是消费信贷行业风险评估的常用方法。
随着大数据的发展,互联网信贷数据不在局限于申请及征信数据,而更多结合网购消费、网络社交、APP使用行为等第三方数据,整个数据呈现出高维稀疏的特点,传统评分卡模型对于该类互联网数据局限性也比较明显,具体问题及难点有以下几个方面:
数据预处理繁琐:传统评分卡模型对于数据预处理要求极高,针对大量存在数据稀疏或缺失值的样本,为了便于计算,直接进行了删除,数据价值的损失较大;
特征工程困难:传统评分卡模型特征工程复杂,需要对连续型数据离散化处理及特征筛选,对特征根据证据权重(WOE)转换、根据信息价值(IV)大小作特征选择,还需根据变量之间的共线性剔除变量,对于当前大数据风控的高维数据来说,远超出传统风控建模评分卡体系的数据处理能力范围,亟需更前沿的机器学习算法处理;
模型准确率不足:传统评分卡模型的算法属于弱分类器,相比基于多个弱分类器组合的集成算法模型,传统评分卡的单模型缺少模型间的探索与验证,可能存在模型稳定性不足及泛化能力较弱的问题。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于随机森林算法的消费信贷场景的风险评估方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种基于随机森林算法的消费信贷场景的风险评估方法,包括信息采集模块、数据预处理模块、特征工程模块、模型训练及调参模块、特征重要性评估模块、模型评价与选择模块和模型部署监控模块,所述信息采集模块通过所述数据预处理模块与所述特征工程模块连接,所述特征工程模块通过所述模型训练及调参模块与所述特征重要性评估模块连接,所述特征重要性评估模块通过所述模型评价与选择模块与所述模型部署监控模块连接。
进一步的,所述基于随机森林算法的消费信贷场景的风险评估方法,包括以下步骤:
建模数据获取:从公司业务***中按申请月份随机抽取建模样本客户,对于表现不充分(近期申请,坏账率明显低于前期客户)的不平衡样本通过SMOTE(syntheticminority oversampling technique:合成少数过采样技术)获得建模客户,用建模客户的编号作为主键去关联提取建模客户的申请数据、征信数据、APP操作埋点数据及客户授权的第三方数据合并成建模数据集;
数据预处理:检验用户编号的唯一性和样本完整性作为对样本数据质量检验标准,并对建模样本的变量做统计性分析,可做分布图直观描述变量的分布范围,并统计变量的均值、分位点值、异常值、缺失值,若和业务关联性比较高的变量率比较高,可使用随机森林算法构造决策树对缺失值预测插补缺失值,能够有效辅助填充缺失变量信息,针对较为稀疏的变量可采用K-Means算法进行聚类,对稀疏变量的聚类利于变量特征工程的处理;
特征工程:对原始数据预处理之后进行特征处理和加工,一般通过构建衍生变量来获取更有预测力和解释性的变量,常用的特征衍生方法有:计数、求和、比例、时间差和波动率等,深层次挖掘更多更有用的变量,也可以把两个有关联业务逻辑的变量通过加减乘除等运算生成衍生变量,最终生成更高维的特征宽表,特征选择工作可在随机森林模型训练优化中进行;
模型训练及调参:运用python的sklearn模块中的随机森林分类器(RandomForest Classifier)进行模型训练及调参;
特征重要性评估及特征选择:随机森林模型不同于其他传统评分卡模型在于能够输出特征的重要性程度,重要性程度是各个特征的重要性值经过归一化的结果,特征重要性越高代表特征越匹配预测函数,在sklearn中已经实现了用随机森林评估特征重要性,在训练好随机森林模型后,直接调用feature_importances属性就能得到每个特征的重要性,并按降序排序,根据样本的总特征数选取重要性的TOP500或T0P100特征得到一个新的特征子集后重新进行训练调参,最终得到泛化性和稳定性更优的随机森林模型,并且根据特征重要性可以构建消费信贷行业风险评估方体系及其指标权重,以此评估客户信用得分及逾期风险等级;
模型评价与选择:通过KS和AUC来评估随机森林模型的整体效果,KS值不仅能够反映模型是否准确,还能够评估模型对好坏客户是否有足够的区分度;AUC值能够保证在样本不均匀的情况下,准确评估模型的好坏与否,并结合对比LR、SVM、GBDT、XGBoost等其他传统评分卡模型,综合评估比较随机森林模型准确性和稳定性;
模型部署监控:通过网格化调参及五折交叉验证方法重复训练达到最优参数组合的随机森林模型后,将模型部署至***平台,通过监控变量IV及均值、模型的PSI(Population Stability Index,人群稳定性指数)、KS、AUC等指标来更新调整优化模型。
进一步的,所述随机森林分类器(Random Forest Classifier)包括以下模型参数:
子模型的数量(n_estimators):关系到随机森林模型的复杂度,理论上,子模型的数量越大结果更稳定,但计算量会大增,且n_estimators到达一定数量后,模型的表现提升度不大,故实际中,一般需要调参选择一个适中的数值;
每棵决策树的最大特征数(max_features):指定了在***时单棵树随机选取的最大特征数目,max_features越小模型整体的方差越小,模型的准确率提高,max_features在随机森林分类问题中一般设为整体特征数目开方(sqrt)的结果;
树的最大深度(max_depth):根据经验,一般设置为None(即不设限),划分时考虑所有的特征数,完全生长;
节点最小分割的样本数(min_samples_split):限制了子树继续划分的条件,min_samples_split表示当前树节点还可以被进一步切割的最少样本数,默认值是1,如果样本及特征较多,为了计算方便,可适当调高min_samples_split;
最大叶节点数(max_leaf_nodes):通过限制最大叶子节点数,可以防止过拟合,默认是"None”(即不限制最大的叶子节点数),如果模型特征较多,可通过交叉验证选取具体的值来加以限制;
叶节点最小样本数(min_samples_leaf):指定每颗决策树完全生成,即叶子只包含单一的样本,如果某叶子节点数目小于该阈值,则会和兄弟节点一起被剪枝,默认值是1,如果样本量的数量级非常大,则建议增大这个值;
叶节点最小权重总值(min_weight_fraction_leaf):限制了叶子节点所有样本权重和的最小值,如果小于该阈值,则会和兄弟节点一起被剪枝,默认值是0,即不考虑权重问题,一般来说,如果样本缺失值较多或样本的分布偏差较大,调整min_weight_fraction_leaf,引入样本权重可以使缺失数据和非平衡数据更加稳健。
进一步的,在对单棵树调参中,调整max_leaf_nodes或max_depth,可以粗粒度地调整树的结构:叶节点越多或者树越深,意味着子模型的偏差越低,方差越高;调整min_samples_split、min_samples_leaf和min_weight_fraction_leaf,可以细粒度地调整树的结构:***所需样本数越少或者叶节点所需样本越少,也意味着子模型越复杂,从而得到更高准确率和效率的模型。另外调整模型的参数,warm_start(热启动,默认为True)、n_jobs(并行使用的进程数)、criterion(切分策略默认基尼系数"gini",即CART算法),可实现随机森林模型多线程并行化运行,达到更快的训练效果。
进一步的,通过所述信息采集模块从公司业务***抽取建模样本客户,获取客户申请数据、APP操作埋点数据及授权的第三方数据,得到模型初始建模数据;通过所述数据预处理模块对数据变量描述性统计,用随机森林算法插补缺失值,用K-Means算法对稀疏变量聚类;通过所述特征工程模块根据业务逻辑及变量联系,构建衍生变量,生成更高维的特征宽表,特征选择可在随机森林模型训练中进行。
进一步的,所述模型训练及调参模块中通过调整随机森林集成算法、弱分类器及***设置,实现随机森林模型多线程并行化最优参数组合训练,达到更快的训练效果;所述特征重要性评估模块在训练好随机森林模型后,得到每个特征的重要性,并按特征重要性大小降序排序进行特征选择,重新进行训练调参得到泛化性及稳定性更高的随机森林模型,并根据特征重要性构建消费信贷行业风险评估方体系及其指标权重。
进一步的,所述模型评价与选择模块通过KS和AUC来评估随机森林模型的整体效果,对初始建模数据的LR、SVM、GBDT、XGBoost等模型结果对比;所述模型部署监控模块将最终随机森林模型部署至***平台,监控变量IV及均值、模型分布的PSI、KS、AUC等指标,更新调整优化模型。
本发明的有益效果为:
1、数据预处理简单:随机森林可以有效处理稀疏数据,将稀疏数据单独作为一类而不需要填充处理,由于随机森林是树模型,能处理连续型及离散型等多种数据类型,数据不需要归一化等规范化处理,随机森林套袋法(bagging)和随机选择特征***两种相结合的方法能够更好容忍异常值和噪声数据,另外利用随机森林算法构造决策树对缺失值预测插补,能够很好补充缺失值的潜在数据信息。
2、特征工程和模型训练效率高:随机森林的每棵决策树可以独立、同时生成,容易做成高度并行化,易于分布式实现训练,可以处理成千上万的高维变量,并且不需要特征选择,符合当前大数据时代的高维大数据样本训练速度和效率的需求。
3、模型准确率高:套袋法(bagging)和随机选择特征***等方法,产生了两个随机:样本随机,特征随机,建模在不损失训练数据量的同时取得真实误差的无偏估计,当建模样本存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法,而且随机森林采用列采样(feature bagging)减小了模型之间的相关性从而减小集成模型的方差,随机森林通过降低弱分类器的方差,改善了泛化误差,实现集成模型的准确率提高的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于随机森林算法的消费信贷场景的风险评估方法的模块连接示意图;
图2是根据本发明实施例的一种基于随机森林算法的消费信贷场景的风险评估方法的流程图。
图中:
1、信息采集模块;2、数据预处理模块;3、特征工程模块;4、模型训练及调参模块;5、特征重要性评估模块;6、模型评价与选择模块;7、模型部署监控模块。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于随机森林算法的消费信贷场景的风险评估方法。
实施例一:
如图1-2所示,根据本发明实施例的基于随机森林算法的消费信贷场景的风险评估方法,包括信息采集模块1、数据预处理模块2、特征工程模块3、模型训练及调参模块4、特征重要性评估模块5、模型评价与选择模块6和模型部署监控模块7,所述信息采集模块1通过所述数据预处理模块2与所述特征工程模块3连接,所述特征工程模块3通过所述模型训练及调参模块4与所述特征重要性评估模块5连接,所述特征重要性评估模块5通过所述模型评价与选择模块6与所述模型部署监控模块7连接。
在一个实施例中,所述基于随机森林算法的消费信贷场景的风险评估方法,包括以下步骤:
步骤S101,建模数据获取:从公司业务***中按申请月份随机抽取建模样本客户,对于表现不充分(近期申请,坏账率明显低于前期客户)的不平衡样本通过SMOTE(synthetic minority oversampling technique:合成少数过采样技术)获得建模客户,用建模客户的编号作为主键去关联提取建模客户的申请数据、征信数据、APP操作埋点数据及客户授权的第三方数据合并成建模数据集;
步骤S103,数据预处理:检验用户编号的唯一性和样本完整性作为对样本数据质量检验标准,并对建模样本的变量做统计性分析,可做分布图直观描述变量的分布范围,并统计变量的均值、分位点值、异常值、缺失值,若和业务关联性比较高的变量缺失率比较高,可使用随机森林算法构造决策树对缺失值预测插补缺失率,该方法能够有效辅助填充缺失变量信息,针对较为稀疏的变量可采用K-Means算法进行聚类,对稀疏变量聚类利于变量特征工程的处理;
步骤S105,特征工程:对原始数据预处理之后进行特征处理和加工,一般通过构建衍生变量来获取更有预测力和解释性的变量,常用的特征衍生方法有:计数、求和、比例、时间差和波动率等,深层次挖掘更多更有用的变量,也可以把两个有关联业务逻辑的变量通过加减乘除等运算生成衍生变量,最终生成更高维的特征宽表,特征选择工作可在随机森林模型训练优化中进行;
步骤S107,模型训练及调参:运用python的sklearn模块中的随机森林分类器(Random Forest Classifier)进行模型训练及调参;
步骤S109,特征重要性评估及特征选择:随机森林模型不同于其他传统评分卡模型在于能够输出特征的重要性程度,重要性程度是各个特征的重要性值经过归一化的结果,特征重要性越高代表特征越匹配预测函数,在sklearn中已经实现了用随机森林评估特征重要性,在训练好随机森林模型后,直接调用feature_importances属性就能得到每个特征的重要性,并按降序排序,根据样本的总特征数选取重要性的TOP500或T0P100特征得到一个新的特征子集后重新进行训练调参,最终得到泛化性和稳定性更优的随机森林模型,并且根据特征重要性可以构建消费信贷行业风险评估方体系及其指标权重,以此评估客户信用得分及逾期风险等级;
步骤S111,模型评价与选择:通过KS和AUC来评估随机森林模型的整体效果,KS值不仅能够反映模型是否准确,还能够评估模型对好坏客户是否有足够的区分度;AUC值能够保证在样本不均匀的情况下,准确评估模型的好坏与否,并结合对比LR、SVM、GBDT、XGBoost等其他传统评分卡模型,综合评估比较随机森林模型准确性和稳定性;
步骤S113,模型部署监控:通过网格化调参及五折交叉验证方法重复训练达到最优参数组合的随机森林模型后,将模型部署至***平台,通过监控变量IV及均值、模型分布的PSI(Population Stability Index,人群稳定性指数)、KS、AUC等指标来更新调整优化模型。
在一个实施例中,所述随机森林分类器(Random Forest Classifier)包括以下模型参数:
子模型的数量(n_estimators):关系到随机森林模型的复杂度,理论上子模型的数量越大结果更稳定,但计算量会大增,且n_estimators到达一定数量后模型的表现提升度不大,故实际中一般需要调参选择一个适中的数值;
每棵决策树的最大特征数(max_features):指定了在***时单棵树随机选取的最大特征数目,max_features越小模型整体的方差越小,模型的准确率提高,max_features在随机森林分类问题中一般设为整体特征数目开方(sqrt)的结果;
树的最大深度(max_depth):根据经验,一般设置为None(即不设限),划分时考虑所有的特征数,完全生长;
节点最小分割的样本数(min_samples_split):限制了子树继续划分的条件,min_samples_split表示当前树节点还可以被进一步切割的最少样本数,默认值是1,如果样本及特征较多,为了计算方便,可适当调高min_samples_split;
最大叶节点数(max_leaf_nodes):通过限制最大叶子节点数,可以防止过拟合,默认是"None”(即不限制最大的叶子节点数),如果模型特征较多,可通过交叉验证选取具体的值来加以限制;
叶节点最小样本数(min_samples_leaf):指定每颗决策树完全生成,即叶子只包含单一的样本,如果某叶子节点数目小于该阈值,则会和兄弟节点一起被剪枝,默认值是1,如果样本量的数量级非常大,则建议增大这个值;
叶节点最小权重总值(min_weight_fraction_leaf):限制了叶子节点所有样本权重和的最小值,如果小于该阈值,则会和兄弟节点一起被剪枝,默认值是0,即不考虑权重问题,一般来说,如果样本缺失值较多或样本的分布偏差较大,调整min_weight_fraction_leaf,引入样本权重可以使缺失数据和非平衡数据更加稳健。
在一个实施例中,在对单棵树调参中,调整max_leaf_nodes或max_depth,可以粗粒度地调整树的结构:叶节点越多或者树越深,意味着子模型的偏差越低,方差越高;调整min_samples_split、min_samples_leaf和min_weight_fraction_leaf,可以细粒度地调整树的结构:***所需样本数越少或者叶节点所需样本越少,也意味着子模型越复杂,从而得到更高准确率和效率的模型。另外调整模型的参数,warm_start(热启动,默认为True)、n_jobs(并行使用的进程数)、criterion(切分策略默认基尼系数"gini",即CART算法),可实现随机森林模型多线程并行化运行,达到更快的训练效果。
在一个实施例中,通过所述信息采集模块1从公司业务***抽取建模样本客户,获取客户申请数据、APP操作埋点数据及授权的第三方数据,得到模型初始建模数据;通过所述数据预处理模块2对数据变量描述性统计,用随机森林算法插补缺失值,用K-Means算法对稀疏变量聚类;通过所述特征工程模块3根据业务逻辑及变量联系,构建衍生变量,生成更高维的特征宽表,特征选择可在随机森林模型训练中进行。
在一个实施例中,所述模型训练及调参模块4中通过调整随机森林集成算法、弱分类器及***设置,实现随机森林模型多线程并行化最优参数组合训练,达到更快的训练效果;所述特征重要性评估模块5在训练好随机森林模型后,得到每个特征的重要性,并按特征重要性大小降序排序进行特征选择,重新进行训练调参得到泛化性及稳定性更高的随机森林模型,并根据特征重要性构建消费信贷行业风险评估方体系及其指标权重。
在一个实施例中,所述模型评价与选择模块6通过KS和AUC来评估随机森林模型的整体效果,对初始建模数据的LR、SVM、GBDT、XGBoost等模型结果对比;所述模型部署监控模块7将最终随机森林模型部署至***平台,监控变量IV及均值、模型分布的PSI、KS、AUC等指标,更新调整优化模型。
综上所述,随机森林是一种比较先进的集成算法,集成了套袋法(bagging:bootstrap aggregating)和随机选择特征***等方法的特点,方差和偏差都比较低,泛化性能较为优越,在运算量没有显著提高的前提下能够提高预测精度,也能处理复杂高维稀疏的数据,还弥补传统评分卡单一模型的稳定性、准确性及泛化性不足的缺点,具体有以下的优点:
数据预处理简单:随机森林可以有效处理稀疏数据,将稀疏数据单独作为一类而不需要填充处理,由于随机森林是树模型,能处理连续型及离散型等多种数据类型,数据不需要归一化等规范化处理,随机森林套袋法(bagging)和随机选择特征***两种相结合的方法能够更好容忍异常值和噪声数据,另外利用随机森林算法构造决策树对缺失值预测插补,能够很好补充缺失值的潜在数据信息。
特征工程和模型训练效率高:随机森林的每棵决策树可以独立、同时生成,容易做成高度并行化,易于分布式实现训练,可以处理成千上万的高维变量,并且不需要特征选择,符合当前大数据时代的高维大数据样本训练速度和效率的需求。
模型准确率高:套袋法(bagging)和随机选择特征***等方法,产生了两个随机:样本随机,特征随机,建模在不损失训练数据量的同时取得真实误差的无偏估计,当建模样本存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法,而且随机森林采用列采样(feature bagging)减小了模型之间的相关性从而减小集成模型的方差,随机森林通过降低弱分类器的方差,改善了泛化误差,实现集成模型的准确率提高的目的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,包括信息采集模块(1)、数据预处理模块(2)、特征工程模块(3)、模型训练及调参模块(4)、特征重要性评估模块(5)、模型评价与选择模块(6)和模型部署监控模块(7),所述信息采集模块(1)通过所述数据预处理模块(2)与所述特征工程模块(3)连接,所述特征工程模块(3)通过所述模型训练及调参模块(4)与所述特征重要性评估模块(5)连接,所述特征重要性评估模块(5)通过所述模型评价与选择模块(6)与所述模型部署监控模块(7)连接。
2.根据权利要求1所述的一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,所述基于随机森林算法的消费信贷场景的风险评估方法,包括以下步骤:
建模数据获取:从公司业务***中按申请月份随机抽取建模样本客户,对于表现不充分(近期申请,坏账率明显低于前期客户)的不平衡样本通过SMOTE(synthetic minorityoversampling technique:合成少数过采样技术)获得建模客户,用建模客户的编号作为主键去关联提取建模客户的申请数据、征信数据、APP操作埋点数据及客户授权的第三方数据合并成建模数据集;
数据预处理:检验用户编号的唯一性和样本完整性作为对样本数据质量检验标准,并对建模样本的变量做统计性分析,可做分布图直观描述变量的分布范围,并统计变量的均值、分位点值、异常值、缺失值,若和业务关联性比较高的变量缺失率比较高,可使用随机森林算法构造决策树对缺失值预测插补缺失率,该方法能够有效辅助填充缺失变量信息,针对较为稀疏的变量可采用K-Means算法进行聚类,对稀疏变量聚类利于变量特征工程的处理;
特征工程:对原始数据预处理之后进行特征处理和加工,一般通过构建衍生变量来获取更有预测力和解释性的变量,常用的特征衍生方法有:计数、求和、比例、时间差和波动率等,深层次挖掘更多更有用的变量,也可以把两个有关联业务逻辑的变量通过加减乘除等运算生成衍生变量,最终生成更高维的特征宽表,特征选择工作可在随机森林模型训练优化中进行;
模型训练及调参:运用python的sklearn模块中的随机森林分类器(Random ForestClassifier)进行模型训练及调参;
特征重要性评估及特征选择:随机森林模型不同于其他传统评分卡模型在于能够输出特征的重要性程度,重要性程度是各个特征的重要性值经过归一化的结果,特征重要性越高代表特征越匹配预测函数,在sklearn中已经实现了用随机森林评估特征重要性,在训练好随机森林模型后,直接调用feature_importances属性就能得到每个特征的重要性,并按降序排序,根据样本的总特征数选取重要性的TOP500或T0P100特征得到一个新的特征子集后重新进行训练调参,最终得到泛化性和稳定性更优的随机森林模型,并且根据特征重要性可以构建消费信贷行业风险评估方体系及其指标权重,以此评估客户信用得分及逾期风险等级;
模型评价与选择:通过KS和AUC来评估随机森林模型的整体效果,KS值不仅能够反映模型是否准确,还能够评估模型对好坏客户是否有足够的区分度;AUC值能够保证在样本不均匀的情况下,准确评估模型的好坏与否,并结合对比LR、SVM、GBDT、XGBoost等其他传统评分卡模型,综合评估比较随机森林模型准确性和稳定性;
模型部署监控:通过网格化调参及五折交叉验证方法重复训练达到最优参数组合的随机森林模型后,将模型部署至***平台,通过监控变量IV及均值、模型分布的PSI(Population Stability Index,人群稳定性指数)、KS、AUC等指标来更新调整优化模型。
3.根据权利要求2所述的一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,所述随机森林分类器(Random Forest Classifier)包括以下模型参数:
子模型的数量(n_estimators):关系到随机森林模型的复杂度,理论上,子模型的数量越大结果更稳定,但计算量会大增,且n_estimators到达一定数量后,模型的表现提升度不大,故实际中,一般需要调参选择一个适中的数值;
每棵决策树的最大特征数(max_features):指定了在***时单棵树随机选取的最大特征数目,max_features越小模型整体的方差越小,模型的准确率提高,max_features在随机森林分类问题中一般设为整体特征数目开方(sqrt)的结果;
树的最大深度(max_depth):根据经验,一般设置为None(即不设限),划分时考虑所有的特征数,完全生长;
节点最小分割的样本数(min_samples_split):限制了子树继续划分的条件,min_samples_split表示当前树节点还可以被进一步切割的最少样本数,默认值是1,如果样本及特征较多,为了计算方便,可适当调高min_samples_split;
最大叶节点数(max_leaf_nodes):通过限制最大叶子节点数,可以防止过拟合,默认是“None”(即不限制最大的叶子节点数),如果模型特征较多,可通过交叉验证选取具体的值来加以限制;
叶节点最小样本数(min_samples_leaf):指定每颗决策树完全生成,即叶子只包含单一的样本,如果某叶子节点数目小于该阈值,则会和兄弟节点一起被剪枝,默认值是1,如果样本量的数量级非常大,则建议增大这个值;
叶节点最小权重总值(min_weight_fraction_leaf):限制了叶子节点所有样本权重和的最小值,如果小于该阈值,则会和兄弟节点一起被剪枝,默认值是0,即不考虑权重问题,一般来说,如果样本缺失值较多或样本的分布偏差较大,调整min_weight_fraction_leaf,引入样本权重可以使缺失数据和非平衡数据更加稳健。
4.根据权利要求2所述的一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,在对单棵树调参中,调整max_leaf_nodes或max_depth,可以粗粒度地调整树的结构:叶节点越多或者树越深,意味着子模型的偏差越低,方差越高;调整min_samples_split、min_samples_leaf和min_weight_fraction_leaf,可以细粒度地调整树的结构:***所需样本数越少或者叶节点所需样本越少,也意味着子模型越复杂,从而得到更高准确率和效率的模型。另外调整模型的超参数,warm_start(热启动,默认为True)、n_jobs(并行使用的进程数)、criterion(切分策略默认基尼系数"gini",即CART算法),可实现随机森林模型多线程并行化运行,达到更快的训练效果。
5.根据权利要求1所述的一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,通过所述信息采集模块(1)从公司业务***抽取建模样本客户,获取客户申请数据、APP操作埋点数据及授权的第三方数据,得到模型初始建模数据;通过所述数据预处理模块(2)对数据变量描述性统计,用随机森林算法插补缺失值,用K-Means算法对稀疏变量聚类;通过所述特征工程模块(3)根据业务逻辑及变量联系,构建衍生变量,生成更高维的特征宽表,特征选择可在随机森林模型训练中进行。
6.根据权利要求1所述的一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,所述模型训练及调参模块(4)中通过调整随机森林集成算法、弱分类器及***设置,实现随机森林模型多线程并行化最优参数组合训练,达到更快的训练效果;所述特征重要性评估模块(5)在训练好随机森林模型后,得到每个特征的重要性,并按特征重要性大小降序排序进行特征选择,重新进行训练调参得到泛化性及稳定性更高的随机森林模型,并根据特征重要性构建消费信贷行业风险评估方体系及其指标权重。
7.根据权利要求1所述的一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,所述模型评价与选择模块(6)通过KS和AUC来评估随机森林模型的整体效果,对初始建模数据的LR、SVM、GBDT、XGBoost等模型结果对比;所述模型部署监控模块(7)将最终随机森林模型部署至***平台,监控变量IV及均值、模型分布的PSI、KS、AUC等指标,更新调整优化模型。
CN202010784787.0A 2020-08-06 2020-08-06 一种基于随机森林算法的消费信贷场景的风险评估方法 Withdrawn CN112037009A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010784787.0A CN112037009A (zh) 2020-08-06 2020-08-06 一种基于随机森林算法的消费信贷场景的风险评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010784787.0A CN112037009A (zh) 2020-08-06 2020-08-06 一种基于随机森林算法的消费信贷场景的风险评估方法

Publications (1)

Publication Number Publication Date
CN112037009A true CN112037009A (zh) 2020-12-04

Family

ID=73582353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010784787.0A Withdrawn CN112037009A (zh) 2020-08-06 2020-08-06 一种基于随机森林算法的消费信贷场景的风险评估方法

Country Status (1)

Country Link
CN (1) CN112037009A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200272A (zh) * 2020-12-07 2021-01-08 上海冰鉴信息科技有限公司 业务分类方法及装置
CN112419050A (zh) * 2020-12-24 2021-02-26 浙江工商大学 基于电话通讯网络和社交行为的信用评估方法及装置
CN112561376A (zh) * 2020-12-23 2021-03-26 北京橙色云科技有限公司 对项目进行拆分的方法、装置以及存储介质
CN112785418A (zh) * 2021-01-22 2021-05-11 深圳前海微众银行股份有限公司 信贷风险建模方法、装置、设备及计算机可读存储介质
CN112801563A (zh) * 2021-04-14 2021-05-14 支付宝(杭州)信息技术有限公司 风险评估方法和装置
CN112862594A (zh) * 2021-02-01 2021-05-28 深圳无域科技技术有限公司 金融风险控制方法、***、设备及计算机可读介质
CN112907359A (zh) * 2021-03-24 2021-06-04 四川奇力韦创新科技有限公司 一种银行贷款业务资质审核与风险控制***及方法
CN113409139A (zh) * 2021-07-27 2021-09-17 深圳前海微众银行股份有限公司 信贷风险识别方法、装置、设备及程序
CN113610366A (zh) * 2021-07-23 2021-11-05 上海淇玥信息技术有限公司 风险警告生成方法、装置及电子设备
CN113705904A (zh) * 2021-08-31 2021-11-26 国网上海市电力公司 一种基于随机森林算法的化工厂区用电故障预测方法
CN115409613A (zh) * 2022-09-13 2022-11-29 中债金科信息技术有限公司 债券风险检测模型训练方法和债券风险检测方法
CN115953239A (zh) * 2023-03-15 2023-04-11 无锡锡商银行股份有限公司 一种基于多频流网络模型的面审视频场景评估方法
CN115993444A (zh) * 2022-12-19 2023-04-21 郑州大学 一种用于人血清脑脊液gfap抗体的双色免疫荧光检测方法
CN116702052A (zh) * 2023-08-02 2023-09-05 云南香农信息技术有限公司 一种社区社会信用体系信息处理***及方法
CN116862643A (zh) * 2023-06-25 2023-10-10 福建润楼数字科技有限公司 面向多渠道资金整合型信贷业务的风控特征自动筛选方法
CN117150389A (zh) * 2023-07-14 2023-12-01 广州易尊网络科技股份有限公司 模型训练方法、运营商号卡激活预测方法及其设备
CN117171533A (zh) * 2023-11-02 2023-12-05 山东省国土测绘院 一种地理测绘作业数据实时采集处理方法及***
CN117370827A (zh) * 2023-12-07 2024-01-09 飞特质科(北京)计量检测技术有限公司 一种基于深度聚类模型的风机质量等级评估方法
CN117786538A (zh) * 2023-12-06 2024-03-29 国网上海市电力公司 基于代价敏感改进的CsAdaBoost集成学习算法
CN117874654A (zh) * 2024-03-13 2024-04-12 杭州小策科技有限公司 基于随机森林算法的风险监控方法及***

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200272A (zh) * 2020-12-07 2021-01-08 上海冰鉴信息科技有限公司 业务分类方法及装置
CN112561376A (zh) * 2020-12-23 2021-03-26 北京橙色云科技有限公司 对项目进行拆分的方法、装置以及存储介质
CN112419050A (zh) * 2020-12-24 2021-02-26 浙江工商大学 基于电话通讯网络和社交行为的信用评估方法及装置
CN112419050B (zh) * 2020-12-24 2022-05-24 浙江工商大学 基于电话通讯网络和社交行为的信用评估方法及装置
CN112785418A (zh) * 2021-01-22 2021-05-11 深圳前海微众银行股份有限公司 信贷风险建模方法、装置、设备及计算机可读存储介质
CN112785418B (zh) * 2021-01-22 2024-02-06 深圳前海微众银行股份有限公司 信贷风险建模方法、装置、设备及计算机可读存储介质
CN112862594A (zh) * 2021-02-01 2021-05-28 深圳无域科技技术有限公司 金融风险控制方法、***、设备及计算机可读介质
CN112907359A (zh) * 2021-03-24 2021-06-04 四川奇力韦创新科技有限公司 一种银行贷款业务资质审核与风险控制***及方法
CN112907359B (zh) * 2021-03-24 2024-03-12 四川奇力韦创新科技有限公司 一种银行贷款业务资质审核与风险控制***及方法
CN112801563A (zh) * 2021-04-14 2021-05-14 支付宝(杭州)信息技术有限公司 风险评估方法和装置
CN112801563B (zh) * 2021-04-14 2021-08-17 支付宝(杭州)信息技术有限公司 风险评估方法和装置
CN113610366A (zh) * 2021-07-23 2021-11-05 上海淇玥信息技术有限公司 风险警告生成方法、装置及电子设备
CN113409139A (zh) * 2021-07-27 2021-09-17 深圳前海微众银行股份有限公司 信贷风险识别方法、装置、设备及程序
CN113409139B (zh) * 2021-07-27 2024-05-28 深圳前海微众银行股份有限公司 信贷风险识别方法、装置、设备及程序
CN113705904A (zh) * 2021-08-31 2021-11-26 国网上海市电力公司 一种基于随机森林算法的化工厂区用电故障预测方法
CN115409613A (zh) * 2022-09-13 2022-11-29 中债金科信息技术有限公司 债券风险检测模型训练方法和债券风险检测方法
CN115993444A (zh) * 2022-12-19 2023-04-21 郑州大学 一种用于人血清脑脊液gfap抗体的双色免疫荧光检测方法
CN115953239A (zh) * 2023-03-15 2023-04-11 无锡锡商银行股份有限公司 一种基于多频流网络模型的面审视频场景评估方法
CN116862643A (zh) * 2023-06-25 2023-10-10 福建润楼数字科技有限公司 面向多渠道资金整合型信贷业务的风控特征自动筛选方法
CN117150389A (zh) * 2023-07-14 2023-12-01 广州易尊网络科技股份有限公司 模型训练方法、运营商号卡激活预测方法及其设备
CN117150389B (zh) * 2023-07-14 2024-04-12 广州易尊网络科技股份有限公司 模型训练方法、运营商号卡激活预测方法及其设备
CN116702052B (zh) * 2023-08-02 2023-10-27 云南香农信息技术有限公司 一种社区社会信用体系信息处理***及方法
CN116702052A (zh) * 2023-08-02 2023-09-05 云南香农信息技术有限公司 一种社区社会信用体系信息处理***及方法
CN117171533A (zh) * 2023-11-02 2023-12-05 山东省国土测绘院 一种地理测绘作业数据实时采集处理方法及***
CN117171533B (zh) * 2023-11-02 2024-01-16 山东省国土测绘院 一种地理测绘作业数据实时采集处理方法及***
CN117786538A (zh) * 2023-12-06 2024-03-29 国网上海市电力公司 基于代价敏感改进的CsAdaBoost集成学习算法
CN117370827A (zh) * 2023-12-07 2024-01-09 飞特质科(北京)计量检测技术有限公司 一种基于深度聚类模型的风机质量等级评估方法
CN117874654A (zh) * 2024-03-13 2024-04-12 杭州小策科技有限公司 基于随机森林算法的风险监控方法及***
CN117874654B (zh) * 2024-03-13 2024-05-24 杭州小策科技有限公司 基于随机森林算法的风险监控方法及***

Similar Documents

Publication Publication Date Title
CN112037009A (zh) 一种基于随机森林算法的消费信贷场景的风险评估方法
CN108898479B (zh) 信用评价模型的构建方法及装置
Isa et al. Using the self organizing map for clustering of text documents
CN112069310B (zh) 基于主动学习策略的文本分类方法及***
CN111311401A (zh) 一种基于LightGBM的金融违约概率预测模型
CN108898154A (zh) 一种电力负荷som-fcm分层聚类方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN112001788B (zh) 一种基于rf-dbscan算法的***违约欺诈识别方法
Pandey et al. An analysis of machine learning techniques (J48 & AdaBoost)-for classification
CN111967971A (zh) 银行客户数据处理方法及装置
CN110717610A (zh) 一种基于数据挖掘的风电功率预测方法
CN115048988B (zh) 基于高斯混合模型的不平衡数据集分类融合方法
CN115641177B (zh) 一种基于机器学习的防秒杀预判***
CN111488917A (zh) 一种基于增量学习的垃圾图像细粒度分类方法
CN110826617A (zh) 态势要素分类方法及其模型的训练方法、装置及服务器
AU2018101531A4 (en) Stock forecast model based on text news by random forest
CN113139570A (zh) 一种基于最优混合估值的大坝安全监测数据补全方法
CN114463036A (zh) 一种信息处理方法及装置、存储介质
CN111275485A (zh) 基于大数据分析的电网客户等级划分方法、***、计算机设备及存储介质
CN111797899B (zh) 一种低压台区kmeans聚类方法及***
CN113239199A (zh) 一种基于多方数据集的信用分类方法
CN111984842A (zh) 银行客户数据处理方法及装置
CN112819499A (zh) 信息发送方法、装置、服务器及存储介质
Zhang et al. Credit risk control algorithm based on stacking ensemble learning
Mao et al. Naive Bayesian algorithm classification model with local attribute weighted based on KNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201204

WW01 Invention patent application withdrawn after publication