CN111951097A - 企业信用风险评估方法、装置、设备及存储介质 - Google Patents

企业信用风险评估方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111951097A
CN111951097A CN202010805252.7A CN202010805252A CN111951097A CN 111951097 A CN111951097 A CN 111951097A CN 202010805252 A CN202010805252 A CN 202010805252A CN 111951097 A CN111951097 A CN 111951097A
Authority
CN
China
Prior art keywords
variable
data
sample
model
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010805252.7A
Other languages
English (en)
Inventor
许卫
温水根
何志坚
薛永营
赵彦晖
耿心伟
曾源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Weizhong Credit Technology Co ltd
Original Assignee
Shenzhen Weizhong Credit Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Weizhong Credit Technology Co ltd filed Critical Shenzhen Weizhong Credit Technology Co ltd
Priority to CN202010805252.7A priority Critical patent/CN111951097A/zh
Publication of CN111951097A publication Critical patent/CN111951097A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/123Tax preparation or submission

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请公开了一种企业信用风险评估方法,该方法中通过接收企业税务数据,从税务数据维度出发量化企业的经营信用风险,为企业信用的精准风险评估奠定基础;同时,该方法调用的小微企业信用风险模型基于XGBoost算法搭建,保障了模型的较弱变量的特征交叉能力;在训练过程中基于税务样本数据的分析,对变量预处理后以样本变量数据的变量稳定性以及模型稳定性作为评估指标,对样本变量数据进行入模变量筛选,可以过滤异常样本变量对于模型训练中的影响,缓解小微企业信用风险模型采用XGBoost算法时过拟合的问题,提升企业信用风险评估精准度。本申请还提供了一种企业信用风险评估装置、设备及一种可读存储介质,具有上述有益效果。

Description

企业信用风险评估方法、装置、设备及存储介质
技术领域
本申请涉及眼前节检查技术领域,特别涉及一种企业信用风险评估方法、装置、设备及一种可读存储介质。
背景技术
大数据和互联网技术广泛的应用,对我国的金融生态产生深刻的影响,同时也为小微企业融资提供了新的平台和渠道;大数据技术在互联网金融领域的创新应用,更为小微企业的金融业务发展创造了更多可能。
企业征信也随着这些技术的发展而随之发展,企业征信制度可以解决一些信息不对称的问题,降低信息成本和交易成本,进而减轻逆向选择。征信体系能大规模高效率地收集、加工、处理交易的信息,尽可能降低交易过程中的不确定性,降低银行信息成本,也提高了银行贷款的质量。同时,企业征信制度使得中小企业的风险更加透明化,进而增加中小企业的融资机会,此外,企业征信制度还可以形成企业经营风险约束机制,征信***为企业展示自身的经营风险水平和信誉提供了一个平台,企业会自发形成约束机制,倾向于披露真实信息,最终形成社会认可的信誉交易机制。
目前信用风险模型普遍用的还是传统逻辑回归模型,虽然逻辑回归有比较好的业务可解释性,但在互联网时代一些较弱变量的特征交叉能力模型无法学习到,因此,现在越来越多的机器学习算法应用到了小微企业信用风险模型。
目前,小微企业信用风险模型常采用XGBoost方法进行数据处理,XGBoost(eXtreme Gradient Boosting)是一种集成学习数据处理方法,由于小微企业风控建模样本少、企业类型复杂等特点,采用XGBoost方法进行数据处理会导致模型容易出现过拟合的情况,模型过拟合后会导致模型的泛化能力弱,影响模型的识别精度。
因此,如何在保证较弱变量的特征交叉能力,同时避免模型过拟合对于识别精度的影响,是本领域技术人员急需解决的问题。
发明内容
本申请的目的是提供一种企业信用风险评估方法,该方法可以保证较弱变量的特征交叉能力,同时避免模型过拟合对于识别精度的影响;本申请的另一目的是提供一种企业信用风险评估装置、设备及一种可读存储介质。
为解决上述技术问题,本申请提供一种企业信用风险评估方法,包括:
接收待评估企业的企业税务数据;
调用基于XGBoost算法搭建的预训练的小微企业信用风险模型对所述企业税务数据进行经营信用风险评估,得到评估结果;
其中,所述小微企业信用风险模型的训练方法包括:
获取企业的税务样本数据;
对所述税务样本数据进行变量预处理,得到样本变量数据;
以所述样本变量数据的变量稳定性以及模型稳定性作为评估指标,对所述样本变量数据进行变量筛选,确定所述样本变量数据中的入模变量;
确定基于XGBoost算法搭建的小微企业信用风险模型中的模型参数;
调用所述样本变量数据对所述小微企业信用风险模型进行训练。
可选地,对所述税务样本数据进行变量预处理,得到样本变量数据,包括:
对所述税务样本数据进行变量分析,并将所述变量分析输出的数据作为预处理样本数据;
对所述预处理样本数据进行分箱woe处理,得到分箱后变量数据,将所述分箱后变量数据作为样本变量数据。
可选地,对所述税务样本数据进行变量分析,并将所述变量分析输出的数据作为预处理样本数据,包括:
对税务样本数据的分布进行统计分析,得到样本分布统计信息;
对所述样本分布统计信息中的缺失值以及异常值进行数据填充处理,并将处理后的数据作为预处理样本数据。
可选地,以所述样本变量数据的变量稳定性以及模型稳定性作为评估指标,对所述样本变量数据进行变量筛选,确定所述样本变量数据中的入模变量,包括:
根据所述样本变量数据间的相关性以及变量重要性对所述样本变量数据进行筛选,得到第一变量;
计算所述第一变量的模型稳定性指标,并取所述模型稳定性指标低于阈值的第一变量作为入模变量。
可选地,所述确定基于XGBoost算法搭建的小微企业信用风险模型中的模型参数,包括:
确定XGBoost模型基学习器类型;其中,所述XGBoost模型基学习器类型包括:gbtree和gbliner;
确定XGBoost的学习目标函数以及模型评估指标;其中,所述目标函数包括:逻辑回归、线性回归,所述模型评估指标包括:auc、logloss、rmse、mae、error;
对XGBoost算法参数进行调优处理,并将得到的最佳模型参数组合作为XGBoost模型参数。
本申请还提供了一种企业信用风险评估装置,包括:
数据接收单元,用于接收待评估企业的企业税务数据;
模型评估单元,用于调用基于XGBoost算法搭建的预训练的小微企业信用风险模型对所述企业税务数据进行经营信用风险评估,得到评估结果;
其中,所述用于训练所述模型评估单元调用的所述小微企业信用风险模型的模型训练单元包括:
数据获取子单元,用于获取企业的税务样本数据;
变量预处理子单元,用于对所述税务样本数据进行变量预处理,得到样本变量数据;
变量筛选子单元,用于以所述样本变量数据的变量稳定性以及模型稳定性作为评估指标,对所述样本变量数据进行变量筛选,确定所述样本变量数据中的入模变量;
参数确定子单元,用于确定基于XGBoost算法搭建的小微企业信用风险模型中的模型参数;
训练子单元,用于调用所述样本变量数据对所述小微企业信用风险模型进行训练。
可选地,所述变量预处理子单元包括:
变量分析子单元,用于对所述税务样本数据进行变量分析,并将所述变量分析输出的数据作为预处理样本数据;
分箱处理子单元,用于对所述预处理样本数据进行分箱woe处理,得到分箱后变量数据,将所述分箱后变量数据作为样本变量数据。
可选地,所述变量分析子单元包括:
统计分析子单元,用于对税务样本数据的分布进行统计分析,得到样本分布统计信息;
异常处理子单元,用于对所述样本分布统计信息中的缺失值以及异常值进行数据填充处理,并将处理后的数据作为预处理样本数据。
本申请还提供了一种企业信用风险评估设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的企业信用风险评估方法的步骤。
本申请还提供了一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现所述企业信用风险评估方法的步骤。
本申请所提供的企业信用风险评估方法,该方法中通过接收企业税务数据,从税务数据维度出发量化企业的经营信用风险,相比其他评估维度可以较为评估企业的信用,为企业信用的精准风险评估奠定基础;同时,该方法调用的小微企业信用风险模型基于XGBoost算法搭建,保障了模型的较弱变量的特征交叉能力;在训练过程中基于税务样本数据的分析,构造特征工程,对变量预处理后以样本变量数据的变量稳定性以及模型稳定性作为评估指标,对样本变量数据进行入模变量筛选,可以过滤异常样本变量对于模型训练中的影响,缓解小微企业信用风险模型采用XGBoost算法时过拟合的问题,从而提升训练后模型的识别效果,提升企业信用风险评估精准度。
本申请还提供了一种企业信用风险评估装置、设备及一种可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种企业信用风险评估方法的流程图;
图2为本申请实施例提供的一种企业信用风险评估装置的结构框图;
图3为本申请实施例提供的另一种企业信用风险评估装置的结构框图;
图4为本申请实施例提供的一种企业信用风险评估设备的结构示意图。
具体实施方式
本申请的核心是提供一种企业信用风险评估方法,该方法可以保证较弱变量的特征交叉能力,同时避免模型过拟合对于识别精度的影响;本申请的另一核心是提供一种企业信用风险评估装置、设备及一种可读存储介质。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本实施例提供的企业信用风险评估方法的流程图,该方法主要包括:
步骤s110、接收待评估企业的企业税务数据;
接收待评估企业的企业税务数据,企业税务数据中具体包括的信息种类不做限定,可以根据实际企业经营管理的需要进行相应设定,比如可以包括增值税、消费税、城建税、房产税、土地使用税、车船使用税、企业和个人所得税、印花税等,企业税务数据可以从企业资产负债表和利润表中得到。本实施例中从税务数据维度出发量化企业的经营风险,基于税务数据的机器学习评级方法可以更全面、准确的评估企业的经营风险,同时也可以形成企业经营风险约束机制。
而其中,企业税务数据可以由***采集获取,也可以直接导入预收集的企业税务数据,本实施例中对于企业税务数据获取方式不做限定,可以根据实际数据采集的需要进行设定。
步骤s120、调用基于XGBoost算法搭建的预训练的小微企业信用风险模型对企业税务数据进行经营信用风险评估,得到评估结果;
相较于传统的逻辑回归模型,基于XGBoost算法搭建的预训练的小微企业信用风险模型可以学习到一些弱变量的交叉作用,具有更好的模型预测能力,本实施例中通过XGBoost算法这种机器学习算法进行小微企业信用风险模型的搭建,使得小微企业的风险量化更加透明化,进而增加中小企业的融资机会,同时也降低了银行等金融机构为实体小微企业授信的信用风险。
而其中,本实施例调用的小微企业信用风险模型的训练方法具体包括以下步骤:
(1)获取企业的税务样本数据;
(2)对税务样本数据进行变量预处理,得到样本变量数据;
变量预处理主要指对样本数据进行变量分析处理,剔除其中的无关变量以及异常变量等,避免这些数据对于后续的数据分析的影响。
而其中具体的变量预处理手段本实施例中不做限定,可以根据实际样本数据的数据项以及数据分析的需要进行相应设定,本实施例中对此不做限定。
(3)以样本变量数据的变量稳定性以及模型稳定性作为评估指标,对样本变量数据进行变量筛选,确定样本变量数据中的入模变量;
变量稳定性指变量体现特征的稳定性因素,具体的衡量指标可以为异常数据的剔除、重新赋值,缺失数据的赋值等,对此不做限定;模型稳定性指变量应用于模型后模型训练过程的稳定性因素,具体的衡量指标可以为稳定性指标等,对此不做限定。
(4)确定基于XGBoost算法搭建的小微企业信用风险模型中的模型参数;
通过XGBoost参数来进行模型参数选择,XGBoost参数具体可以包括:基学习器(booster)、目标函数(objective)、模型评估指标(eval_metric)、迭代次数(n_estimators)、树的最大深度(max_depth)、节点划分所需的最低loss function值(gamma)、最小叶子节点样本权重和(min_child_weight)、训练模型的子样本占整个样本集合的比例(subsample)、特征随机采样的比例(colsample_bytree)、L1正则化项权重系数(alpha)、L2正则化项权重系数(lambda)、学习率(learning_rate)等。
而其中,具体的模型参数确定策略本实施例中不做限定,可以根据实际的风险评估需求进行设定。
(5)调用样本变量数据对小微企业信用风险模型进行训练。
模型的训练具体实现步骤可以参照相关技术中的实现方式,本实施例中不做限定,在此不再赘述。
基于上述介绍,本实施例提供的企业信用风险评估方法中通过接收企业税务数据,从税务数据维度出发量化企业的经营信用风险,相比其他评估维度可以较为评估企业的信用,为企业信用的精准风险评估奠定基础;同时,该方法调用的小微企业信用风险模型基于XGBoost算法搭建,保障了模型的较弱变量的特征交叉能力;在训练过程中基于税务样本数据的分析,构造特征工程,对变量预处理后以样本变量数据的变量稳定性以及模型稳定性作为评估指标,对样本变量数据进行入模变量筛选,可以过滤异常样本变量对于模型训练中的影响,缓解小微企业信用风险模型采用XGBoost算法时过拟合的问题,从而提升训练后模型的识别效果,提升企业信用风险评估精准度。
上述实施例中对小微企业信用风险模型的训练中对税务样本数据进行变量预处理的具体实现过程不做限定,可选地,一种变量预处理过程具体可以包括以下步骤:
(1)对税务样本数据进行变量分析,并将变量分析输出的数据作为预处理样本数据;
对样本实际进行变量分析的过程在此不做限定,可以根据实际数据分析的需要进行设定。
可选地,一种对税务样本数据进行变量分析的处理过程具体可以包括以下步骤:
(1.1)对税务样本数据的分布进行统计分析,得到样本分布统计信息;对样本目标变量的分布,连续型和类别型变量的分布进行数据可视化
(1.2)对样本分布统计信息中的缺失值以及异常值进行数据填充处理,并将处理后的数据作为预处理样本数据。
启动数据清洗模块的程序,并对税务数据进行缺失值,异常值的清洗和加工,加工具体可以包括对数据的转置,求和等操作。本实施例中仅以上述预处理过程为例进行介绍,其他实现方式均可参照本实施例的介绍,在此不再赘述。
(2)对预处理样本数据进行分箱woe处理,得到分箱后变量数据,将分箱后变量数据作为样本变量数据。
将预处理样本数据进行分箱,得到分箱后的样本数据集。
由于小微企业风控模型样本数据量少,应用XGBoost算法建模时对变量进行分箱woe后再进行模型训练,可以防止模型过拟合。而其中,分箱woe处理具体可以包括决策树分箱、卡方分箱、等频分箱、等距分箱等处理,可以参照相关分箱处理技术的操作处理步骤,本实施例中对于具体的分箱处理操作步骤不做具体限定。
而在样本数据分箱后,可以将样本切分训练集,测试集,以适应不同模型使用场景下的样本数据需求。
本实施例提供的上述变量筛选方式通过变量缺失率、特征重要性等变量筛选条件筛选入模变量,实现方式简单,且可以保证变量有效性高,可以有效缓解模型过拟合的情况。
上述实施例中对于对样本变量数据进行变量筛选,确定样本变量数据中的入模变量的具体实现步骤不做限定,本实施例中主要介绍一种变量筛选实现方式,主要包括以下步骤:
(1)根据样本变量数据间的相关性以及变量重要性对样本变量数据进行筛选,得到第一变量;
其中,相关性以及变量重要性的具体评估指标本实施例中不做限定,比如评估样本数据的相关性时可以以woe值作为评估标准,也可以以计算两变量之间的相对距离等;评估样本数据的变量重要性时可以以随机森林或GBDT(Gradient Boosting Decision Tree梯度提升迭代决策树)算法等作为评估标准。例如,可以根据样本变量数据变量woe相关性(小于0.6)、随机森林或GBDT算法变量重要性对变量进行筛选第一变量的筛选规则。
(2)计算第一变量的模型稳定性指标,并取模型稳定性指标低于阈值的第一变量作为入模变量。
模型稳定性指标指(population stability index,PSI),可衡量测试样本及模型开发样本评分的分布差异,若模型稳定性指标不低于阈值的第一变量作为入模变量,则说明测试样本与模型开发样本评分的分布差异大,模型实际评估中的评估准确度可能会较低,若模型稳定性指标低于阈值的第一变量作为入模变量,则说明测试样本与模型开发样本评分的分布差异小,模型实际评估中的评估准确度可能会较高。例如,可以计算变量PSI,筛选PSI小于0.1的变量作为最后入模变量。
本实施例提供的上述变量筛选方式通过变量相关性、训练和测试样本变量PSI等变量筛选条件筛选入模变量,实现方式简单,且可以保证变量有效性高,可以有效缓解模型过拟合的情况。
另外,上述实施例中对于模型参数的选择确定的具体实现步骤也不做具体限定,为加深对该步骤的理解,本实施例中介绍一种具体实现方式。
实现步骤如下:
(1)确定XGBoost模型基学习器类型;其中,XGBoost模型基学习器类型包括:gbtree和gbliner;
对XGBoost模型基学习器进行选择,XGBoost模型基学习器主要包括两种类型:gbtree(决策树)和gbliner(线性分类器)。不同应用场景下的不同使用需求可以配置不同类型的基学习器,本实施例中对此不做限定。
(2)确定XGBoost的学***均绝对误差)、error(错误率);
对XGBoost的学习目标函数和模型评估指标进行选择,其中,目标函数主要包括:逻辑回归、线性回归,模型评估指标主要包括:auc、logloss、rmse、mae、error等。
(3)对XGBoost算法参数进行调优处理,并将得到的最佳模型参数组合作为XGBoost模型参数。
对常用的参数进行调优得到最佳模型参数组合。由于小微企业风控模型样本量少,一般可以设置树的最大深度为5,L1和L2正则参数也可以设置大一些。
以上模型参数的确定方式不仅可以广泛适用于不同企业下的风险评估场景,还可以保证样本量较少时较优的模型训练效果,提升模型识别的精准度。
请参考图2,图2为本实施例提供的企业信用风险评估装置的结构框图;该装置主要包括:数据接收单元110、模型评估单元120以及模型训练单元130。本实施例提供的企业信用风险评估装置可与上述企业信用风险评估方法相互对照。
其中,数据接收单元100主要用于接收待评估企业的企业税务数据;
模型评估单元200主要用于调用基于XGBoost算法搭建的预训练的小微企业信用风险模型对企业税务数据进行经营信用风险评估,得到评估结果;
其中,主要用于训练模型评估单元调用的小微企业信用风险模型的模型训练单元130包括:
数据获取子单元131主要用于获取企业的税务样本数据;
变量预处理子单元132主要用于对税务样本数据进行变量预处理,得到样本变量数据;
变量筛选子单元133主要用于以样本变量数据的变量稳定性以及模型稳定性作为评估指标,对样本变量数据进行变量筛选,确定样本变量数据中的入模变量;
参数确定子单元134主要用于确定基于XGBoost算法搭建的小微企业信用风险模型中的模型参数;
训练子单元135主要用于调用样本变量数据对小微企业信用风险模型进行训练。
可选地,变量预处理子单元具体可以包括:
变量分析子单元,用于对税务样本数据进行变量分析,并将变量分析输出的数据作为预处理样本数据;
分箱处理子单元,用于对预处理样本数据进行分箱woe处理,得到分箱后变量数据,将分箱后变量数据作为样本变量数据。
可选地,变量分析子单元具体可以包括:
统计分析子单元,用于对税务样本数据的分布进行统计分析,得到样本分布统计信息;
异常处理子单元,用于对样本分布统计信息中的缺失值以及异常值进行数据填充处理,并将处理后的数据作为预处理样本数据。
本实施例提供另一种企业信用风险评估装置,如图3所示为本实施例提供的企业信用风险评估装置的结构框图;该装置主要包括:变量选择后台和模型参数控制台。
其中,变量选择后台负责对企业数据进行处理和变量选择。
企业数据处理单元主要用于对数据进行清洗和描述性数据分析,对样本特征的分布进行可视化展示,以便对数据有初步的了解。
变量选择单元根据变量缺失率,特征重要性,变量分箱,变量相关性,变量分箱后的相关性等方法来筛选变量。通过随机森林(Random Forest)等集成学习方法构建特征工程。最后,可以根据变量分箱后的结果计算训练集和测试集的变量PSI,筛选变量PSI小于0.1的变量来作为最终的入模变量。
具体地,变量选择后台包含以下单元:
(1)数据采集单元:***采集原始的企业样本数据
(2)变量分布单元:负责对样本变量的分布进行统计分析,并可视化变量分布图
(3)数据清洗单元:负责对样本数据进行清洗、缺失值、异常值处理,对数据进行缺失值,异常值填充,具体包括对数据的转置,数学运算等操作
(4)变量分箱单元:由于小微企业风控模型样本数据量少,应用XGBoost算法建模时需要对变量进行分箱woe后再进行模型训练,防止模型过拟合。因此,本单元负责对预处理样本数据进行分箱,具体包括决策树分箱、卡方分箱、等频分箱、等距分箱。并支持图形化输出分箱趋势图。
(5)变量选择单元:支持训练测试集划分,根据分箱woe后变量相关性对变量进行筛选,提供多个算法(随机森林,GBDT等算法)根据变量重要性对变量进行选择。最后,还需要根据划分后的数据集变量的PSI值进行变量的选择。
模型参数控制台主要负责XGBoost模型参数调优。
数据经过变量选择后台处理后,样本数据进入到模型参数控制台。通过对XGBoost常用模型参数进行调参,确定最终合适的一组参数组合。
具体地,模型参数控制台包含以下单元:
(1)通用参数单元:负责XGBoost模型宏观函数的控制,主要参数为基学习器类型。
(2)学习目标参数单元:负责模型目标函数和模型评估指标的控制。
(3)Booster参数单元:负责常用booster参数的控制,具体包括迭代次数、树的最大深度、节点划分所需的最低loss function值、最小叶子节点样本权重和、训练模型的子样本占整个样本集合的比例、特征随机采样的比例、L1正则化项权重系数、L2正则化项权重系数、学习率。
本实施例提供的企业信用风险评估装置对模型的入模变量进行严格的筛选,对变量的共线性问题、变量重要性、变量的稳定性进行筛选,得到最终有效且稳定的入模变量,构建XGBoost模型,避免了小微企业风险模型因为建模样本量少导致模型过拟合的问题。
本实施例提供一种企业信用风险评估设备,主要包括:存储器以及处理器。
其中,存储器用于存储程序;
处理器用于执行程序时实现如上述实施例介绍的企业信用风险评估方法的步骤,具体可参照上述企业信用风险评估方法的介绍。
请参考图4,为本实施例提供的企业信用风险评估设备的结构示意图,该企业信用风险评估设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在企业信用风险评估设备301上执行存储介质330中的一系列指令操作。
企业信用风险评估设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作***341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上面图1所描述的企业信用风险评估方法中的步骤可以由本实施例介绍的企业信用风险评估设备的结构实现。
本实施例公开一种可读存储介质,其上存储有程序,程序被处理器执行时实现如上述实施例介绍的企业信用风险评估方法的步骤,具体可参照上述实施例中对企业信用风险评估方法的介绍。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的企业信用风险评估方法、装置、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种企业信用风险评估方法,其特征在于,包括:
接收待评估企业的企业税务数据;
调用基于XGBoost算法搭建的预训练的小微企业信用风险模型对所述企业税务数据进行经营信用风险评估,得到评估结果;
其中,所述小微企业信用风险模型的训练方法包括:
获取企业的税务样本数据;
对所述税务样本数据进行变量预处理,得到样本变量数据;
以所述样本变量数据的变量稳定性以及模型稳定性作为评估指标,对所述样本变量数据进行变量筛选,确定所述样本变量数据中的入模变量;
确定基于XGBoost算法搭建的小微企业信用风险模型中的模型参数;
调用所述样本变量数据对所述小微企业信用风险模型进行训练。
2.如权利要求1所述的企业信用风险评估方法,其特征在于,对所述税务样本数据进行变量预处理,得到样本变量数据,包括:
对所述税务样本数据进行变量分析,并将所述变量分析输出的数据作为预处理样本数据;
对所述预处理样本数据进行分箱woe处理,得到分箱后变量数据,将所述分箱后变量数据作为样本变量数据。
3.如权利要求2所述的企业信用风险评估方法,其特征在于,对所述税务样本数据进行变量分析,并将所述变量分析输出的数据作为预处理样本数据,包括:
对税务样本数据的分布进行统计分析,得到样本分布统计信息;
对所述样本分布统计信息中的缺失值以及异常值进行数据填充处理,并将处理后的数据作为预处理样本数据。
4.如权利要求1所述的企业信用风险评估方法,其特征在于,以所述样本变量数据的变量稳定性以及模型稳定性作为评估指标,对所述样本变量数据进行变量筛选,确定所述样本变量数据中的入模变量,包括:
根据所述样本变量数据间的相关性以及变量重要性对所述样本变量数据进行筛选,得到第一变量;
计算所述第一变量的模型稳定性指标,并取所述模型稳定性指标低于阈值的第一变量作为入模变量。
5.如权利要求1所述的企业信用风险评估方法,其特征在于,所述确定基于XGBoost算法搭建的小微企业信用风险模型中的模型参数,包括:
确定XGBoost模型基学习器类型;其中,所述XGBoost模型基学习器类型包括:gbtree和gbliner;
确定XGBoost的学习目标函数以及模型评估指标;其中,所述目标函数包括:逻辑回归、线性回归,所述模型评估指标包括:auc、logloss、rmse、mae、error;
对XGBoost算法参数进行调优处理,并将得到的最佳模型参数组合作为XGBoost模型参数。
6.一种企业信用风险评估装置,其特征在于,包括:
数据接收单元,用于接收待评估企业的企业税务数据;
模型评估单元,用于调用基于XGBoost算法搭建的预训练的小微企业信用风险模型对所述企业税务数据进行经营信用风险评估,得到评估结果;
其中,所述用于训练所述模型评估单元调用的所述小微企业信用风险模型的模型训练单元包括:
数据获取子单元,用于获取企业的税务样本数据;
变量预处理子单元,用于对所述税务样本数据进行变量预处理,得到样本变量数据;
变量筛选子单元,用于以所述样本变量数据的变量稳定性以及模型稳定性作为评估指标,对所述样本变量数据进行变量筛选,确定所述样本变量数据中的入模变量;
参数确定子单元,用于确定基于XGBoost算法搭建的小微企业信用风险模型中的模型参数;
训练子单元,用于调用所述样本变量数据对所述小微企业信用风险模型进行训练。
7.如权利要求6所述的企业信用风险评估装置,其特征在于,所述变量预处理子单元包括:
变量分析子单元,用于对所述税务样本数据进行变量分析,并将所述变量分析输出的数据作为预处理样本数据;
分箱处理子单元,用于对所述预处理样本数据进行分箱woe处理,得到分箱后变量数据,将所述分箱后变量数据作为样本变量数据。
8.如权利要求7所述的企业信用风险评估装置,其特征在于,所述变量分析子单元包括:
统计分析子单元,用于对税务样本数据的分布进行统计分析,得到样本分布统计信息;
异常处理子单元,用于对所述样本分布统计信息中的缺失值以及异常值进行数据填充处理,并将处理后的数据作为预处理样本数据。
9.一种企业信用风险评估设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的企业信用风险评估方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至5任一项所述企业信用风险评估方法的步骤。
CN202010805252.7A 2020-08-12 2020-08-12 企业信用风险评估方法、装置、设备及存储介质 Pending CN111951097A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010805252.7A CN111951097A (zh) 2020-08-12 2020-08-12 企业信用风险评估方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010805252.7A CN111951097A (zh) 2020-08-12 2020-08-12 企业信用风险评估方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111951097A true CN111951097A (zh) 2020-11-17

Family

ID=73332732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010805252.7A Pending CN111951097A (zh) 2020-08-12 2020-08-12 企业信用风险评估方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111951097A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529477A (zh) * 2020-12-29 2021-03-19 平安普惠企业管理有限公司 信用评估变量筛选方法、装置、计算机设备及存储介质
CN112633635A (zh) * 2020-11-29 2021-04-09 龙马智芯(珠海横琴)科技有限公司 参展商风险评估方法、装置、服务器以及可读存储介质
CN112749922A (zh) * 2021-02-01 2021-05-04 深圳无域科技技术有限公司 风控模型训练方法、***、设备及计算机可读介质
CN113205403A (zh) * 2021-03-30 2021-08-03 北京中交兴路信息科技有限公司 一种企业信用等级的计算方法、装置、存储介质及终端
CN113222731A (zh) * 2021-04-25 2021-08-06 北京工业大学 一种基于机器学习的小样本信用评估方法、***和介质
CN113393328A (zh) * 2021-06-21 2021-09-14 深圳微众信用科技股份有限公司 融资贷前审批评估方法、装置及计算机存储介质
CN113409150A (zh) * 2021-06-21 2021-09-17 深圳微众信用科技股份有限公司 经营风险及信用风险评估方法、装置及计算机存储介质
CN113793212A (zh) * 2021-09-24 2021-12-14 重庆富民银行股份有限公司 一种信用评估方法
CN114492929A (zh) * 2021-12-23 2022-05-13 江南大学 一种基于XGboost的金融信贷企业信用预测方法
CN115329207A (zh) * 2022-10-17 2022-11-11 启客(北京)科技有限公司 智能销售信息推荐方法及***
CN115860926A (zh) * 2023-02-20 2023-03-28 江西汉辰信息技术股份有限公司 基于决策树的风控决策方法及***
CN116051296A (zh) * 2022-12-28 2023-05-02 中国银行保险信息技术管理有限公司 基于标准化保险数据的客户评价分析方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779457A (zh) * 2016-12-29 2017-05-31 深圳微众税银信息服务有限公司 一种企业信用评估方法及***
CN110163743A (zh) * 2019-04-28 2019-08-23 钛镕智能科技(苏州)有限公司 一种基于超参数优化的信用评分方法
CN111507822A (zh) * 2020-04-13 2020-08-07 深圳微众信用科技股份有限公司 一种基于特征工程的企业风险评估方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779457A (zh) * 2016-12-29 2017-05-31 深圳微众税银信息服务有限公司 一种企业信用评估方法及***
CN110163743A (zh) * 2019-04-28 2019-08-23 钛镕智能科技(苏州)有限公司 一种基于超参数优化的信用评分方法
CN111507822A (zh) * 2020-04-13 2020-08-07 深圳微众信用科技股份有限公司 一种基于特征工程的企业风险评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴锦华 等: "特征选择方法在信用评分***中的应用", 信息与电脑(理论版), no. 08, 25 April 2019 (2019-04-25) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633635A (zh) * 2020-11-29 2021-04-09 龙马智芯(珠海横琴)科技有限公司 参展商风险评估方法、装置、服务器以及可读存储介质
CN112529477A (zh) * 2020-12-29 2021-03-19 平安普惠企业管理有限公司 信用评估变量筛选方法、装置、计算机设备及存储介质
CN112749922A (zh) * 2021-02-01 2021-05-04 深圳无域科技技术有限公司 风控模型训练方法、***、设备及计算机可读介质
CN113205403A (zh) * 2021-03-30 2021-08-03 北京中交兴路信息科技有限公司 一种企业信用等级的计算方法、装置、存储介质及终端
CN113222731A (zh) * 2021-04-25 2021-08-06 北京工业大学 一种基于机器学习的小样本信用评估方法、***和介质
CN113409150A (zh) * 2021-06-21 2021-09-17 深圳微众信用科技股份有限公司 经营风险及信用风险评估方法、装置及计算机存储介质
CN113393328A (zh) * 2021-06-21 2021-09-14 深圳微众信用科技股份有限公司 融资贷前审批评估方法、装置及计算机存储介质
CN113793212A (zh) * 2021-09-24 2021-12-14 重庆富民银行股份有限公司 一种信用评估方法
CN114492929A (zh) * 2021-12-23 2022-05-13 江南大学 一种基于XGboost的金融信贷企业信用预测方法
CN115329207A (zh) * 2022-10-17 2022-11-11 启客(北京)科技有限公司 智能销售信息推荐方法及***
CN116051296A (zh) * 2022-12-28 2023-05-02 中国银行保险信息技术管理有限公司 基于标准化保险数据的客户评价分析方法及***
CN116051296B (zh) * 2022-12-28 2023-09-29 中国银行保险信息技术管理有限公司 基于标准化保险数据的客户评价分析方法及***
CN115860926A (zh) * 2023-02-20 2023-03-28 江西汉辰信息技术股份有限公司 基于决策树的风控决策方法及***

Similar Documents

Publication Publication Date Title
CN111951097A (zh) 企业信用风险评估方法、装置、设备及存储介质
CN113642849B (zh) 考虑空间分布特征的地质灾害危险性综合评价方法及装置
CN110738564A (zh) 贷后风险评估方法及装置、存储介质
CN108960269B (zh) 数据集的特征获取方法、装置及计算设备
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN113361690A (zh) 水质预测模型训练、水质预测方法、装置、设备及介质
CN113344438A (zh) 对贷中行为进行监控的贷款***、监控方法、设备及介质
CN112488496A (zh) 一种财务指标预测方法及装置
CN117708551B (zh) 基于双精度gdp数据展布的洪涝灾害影响评估方法和***
CN113435713B (zh) 基于gis技术和两模型融合的风险地图编制方法及***
CN115203496A (zh) 基于大数据的项目智能预测及评估方法、***及可读存储介质
CN116933947A (zh) 一种基于软投票集成分类器的滑坡易发性预测方法
CN116129189A (zh) 一种植物病害识别方法、设备、存储介质及装置
CN115906669A (zh) 一种顾及负样本选取策略的密集残差网络滑坡易发性评价方法
CN113673609B (zh) 一种基于线性隐变量的调查问卷数据分析方法
CN113240513A (zh) 一种用户授信额度的确定方法和相关装置
CN112907141A (zh) 一种压力测试方法、装置、设备及存储介质
CN113553754A (zh) 存储器、火灾风险预测模型构建方法、***和装置
CN112862014A (zh) 客户信用预警方法及装置
CN111695989A (zh) 一种风控信贷模型的建模方法和平台
CN111612626A (zh) 一种债券评估数据预处理方法和装置
Thilaka et al. A Machine Learning Approach to GDP Prediction by Analyzing Economic Indicators
CN112465310A (zh) 计算机执行的数据处理方法、***、装置和存储介质
Subagyo et al. Study of Economic Inequality in The Agglomeration Region of Malang Raya
CN114511201A (zh) 一种评估企业综合能力的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination