CN110414716B - 一种基于LightGBM的企业失信概率预测方法及*** - Google Patents

一种基于LightGBM的企业失信概率预测方法及*** Download PDF

Info

Publication number
CN110414716B
CN110414716B CN201910595699.3A CN201910595699A CN110414716B CN 110414716 B CN110414716 B CN 110414716B CN 201910595699 A CN201910595699 A CN 201910595699A CN 110414716 B CN110414716 B CN 110414716B
Authority
CN
China
Prior art keywords
lightgbm
feature
enterprise
model
lightgbm model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910595699.3A
Other languages
English (en)
Other versions
CN110414716A (zh
Inventor
阿孜古丽
赵伟康
谢永红
张德政
孙义
栗辉
孙宏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201910595699.3A priority Critical patent/CN110414716B/zh
Publication of CN110414716A publication Critical patent/CN110414716A/zh
Application granted granted Critical
Publication of CN110414716B publication Critical patent/CN110414716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种基于LightGBM的企业失信概率预测方法及***,所述方法包括对企业在各个方面留下的信誉行为足迹信息进行分析与理解,并对数据进行预处理,同时结合业务需求在已有的数据特征维度上做进一步的特征工程,然后利用特征选择和特征降维的相关方法去降低特征的维度,使用以LightGBM为主的机器学习模型去学习数据,利用训练出的模型得到企业失信的概率风险值以及是否会失信的分类。本发明的技术方案可进一步提高金融机构防范欺诈和降低不良率的能力,实现对企业是否会出现失信的精准识别,适用于解决企业融资以及信用评价的问题,能够有效提高融资风险防范能力,可广泛应用于银行对企业贷款审核以及企业社会信用评估领域。

Description

一种基于LightGBM的企业失信概率预测方法及***
技术领域
本发明涉及机器学习技术领域,特别是指一种基于LightGBM的企业失信概率预测方法。
背景技术
信用是整个社会的基础,市场交易中所有的经济活动,均与信用息息相关。目前,我国企业正处于飞速发展阶段,影响力逐渐扩大,已逐渐成为社会经济发展的重要推动力。因此加强融资市场的风险管理与处理能力,降低企业的融资风险,促进融资市场的发展,建立完善的融资风险评测体系迫在眉睫;其中,准确预测企业失信概率,实现对企业是否会出现失信的精准识别,是建立完善的融资风险评测体系的基础;企业失信与否,关乎整个企业命运。但目前还未有对企业失信概率进行预测,实现对企业是否会出现失信的精准识别的方法。
发明内容
本发明要解决的技术问题是提供一种基于LightGBM的企业失信概率预测方法及***,填补相关领域的技术空白,利用大数据和人工智能、机器学习等相关技术,调动社会全员的大数据建模创新积极性,帮助社会各界为解决企业融资问题提供思路,进一步提高融资风险防范能力。
为解决上述技术问题,本发明提供一种基于LightGBM的企业失信概率预测方法,所述基于LightGBM的企业失信概率预测方法包括:
获取企业信誉行为足迹信息数据集,构建训练数据集,并对所述训练数据集进行预处理和特征提取,构建第一特征集;
基于所述第一特征集,首先使用LightGBM模型进行训练,得到第一LightGBM模型;然后使用XGBoost、CatBoost、LightGBM三个模型进行训练,并分别提取各模型按照特征重要性排序的前30个特征,构建第二特征集;
基于所述第二特征集,用LightGBM模型进行训练,得第二LightGBM模型;
利用所述第一LightGBM模型和第二LightGBM模型,根据待预测企业的信誉行为足迹信息分别预测其失信概率,并对所述第一LightGBM模型和第二LightGBM模型的预测结果进行加权综合,得到最终预测结果。
可选地,所述信誉行为足迹信息包括:脱敏后的工商股权信息、行政处罚信息、司法诉讼信息,以及民间欠款信息。
进一步地,对训练数据集进行预处理和特征提取,构建第一特征集,包括:
对所述训练数据集进行清洗,剔除噪声数据,并进行缺失值填充;
对预处理后的训练数据集分别从统计特征、交叉特征、业务特征三个角度做特征工程,进行特征数据提取;
利用预设特征降维方法对提取的特征数据进行降维,构建第一特征集。
进一步地,对训练数据集进行缺失值填充的方法为均值填充、0填充、LightGBM填充中的任一种;对提取的特征数据进行降维的方法为PCA降维法。
进一步地,基于第一特征集,使用LightGBM模型进行训练时,和基于第二特征集,使用LightGBM模型进行训练时,均采用交叉验证法进行训练。
进一步地,所述对所述第一LightGBM模型和第二LightGBM模型的预测结果进行加权综合,得到最终预测结果,具体为:
对所述第一LightGBM模型和第二LightGBM模型的预测结果取平均值;将所述第一LightGBM模型和第二LightGBM模型的预测结果的平均值作为对所述待预测企业的失信概率的最终预测结果。
相应地,为解决上述技术问题,本发明还提供一种基于LightGBM的企业失信概率预测***,所述基于LightGBM的企业失信概率预测***包括:
第一特征集构建模块,用于获取企业信誉行为足迹信息数据集,构建训练数据集,并对所述训练数据集进行预处理和特征提取,构建第一特征集;
第一LightGBM模型构建模块,用于基于所述第一特征集,使用LightGBM模型进行训练,得到第一LightGBM模型;
第二特征集构建模块,用于基于所述第一特征集,使用XGBoost、CatBoost、LightGBM三个模型进行训练,并分别提取各模型按照特征重要性排序的前30个特征,构建第二特征集;
第二LightGBM模型构建模块,用于基于所述第二特征集,用LightGBM模型进行训练,得第二LightGBM模型;
融合模块,用于利用所述第一LightGBM模型和第二LightGBM模型,根据待预测企业的信誉行为足迹信息分别预测其失信概率,并对第一LightGBM模型和第二LightGBM模型的预测结果进行加权综合,得到最终预测结果。
可选地,所述第一特征集构建模块获取的信誉行为足迹信息包括:脱敏后的工商股权信息、行政处罚信息、司法诉讼信息,以及民间欠款信息。
进一步地,所述第一特征集构建模块,具体用于:
对所述训练数据集进行清洗,剔除噪声数据,并进行缺失值填充;
对预处理后的训练数据集分别从统计特征、交叉特征、业务特征三个角度做特征工程,进行特征数据提取;
利用预设特征降维方法对提取的特征数据进行降维,构建第一特征集。
进一步地,所述第一特征集构建模块对训练数据集进行缺失值填充的方法为均值填充、0填充,以及LightGBM填充中的任意一种;所述第一特征集构建模块对提取的特征数据进行降维的方法为PCA降维法。
进一步地,所述融合模块,具体用于:
对第一LightGBM模型和第二LightGBM模型的预测结果取平均值;将第一LightGBM模型和第二LightGBM模型的预测结果的平均值作为对所述待预测企业的失信概率的最终预测结果。
本发明的上述技术方案的有益效果如下:
本发明通过获取企业信誉行为足迹信息数据集,构建训练数据集,并对训练数据集进行预处理和特征提取,构建第一特征集;基于第一特征集,首先使用LightGBM模型进行训练,得到第一LightGBM模型;然后使用XGBoost、CatBoost、LightGBM三个模型进行训练,并分别提取各模型按照特征重要性排序的前30个特征,构建第二特征集;基于第二特征集,用LightGBM模型进行训练,得第二LightGBM模型;利用第一LightGBM模型和第二LightGBM模型,根据待预测企业的信誉行为足迹信息分别预测其失信概率,并对第一LightGBM模型和第二LightGBM模型的预测结果进行加权综合,得到最终预测结果。从而实现对企业失信行为的精准评估,提高金融机构防范欺诈和降低不良率的能力,适用于解决企业融资以及信用评价的问题,能够有效提高融资风险防范能力,可广泛应用于银行对企业贷款审核以及企业社会信用评估领域。
附图说明
图1为本发明的基于LightGBM的企业失信概率预测方法的原理示意图;
图2为本发明的基于LightGBM的企业失信概率预测方法的流程示意图
图3为交叉特征的组合表现示意图;
图4五折交叉验证的示意图;
图5为本发明的LightGBM模型的特征重要性示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
第一实施例
如图1所示,本实施例提供一种基于LightGBM的企业失信概率预测方法,以企业为中心,围绕企业在多方面留下的信誉行为足迹信息,进行业务需求分析和业务需求理解,构建训练数据集,对所有数据进行划分,分为训练集和测试集,并分别对训练集和测试集进行预处理及特征工程;利用训练集完成大数据算法模型的开发设计,利用融合模型实现对企业失信行为的精准评估。其价值在于利用算法模型为解决企业融资问题提供新思路,提高融资风险防范能力。具体地,本实施例的预测方法的步骤流程如图2所示,包括:
S101,获取企业信誉行为足迹信息数据集,构建训练数据集,并对训练数据集进行预处理和特征提取,构建第一特征集;
S102,基于第一特征集,首先用LightGBM模型进行训练,得到训练好的第一LightGBM模型;然后用XGBoost、CatBoost、LightGBM三个模型进行训练,并分别提取各模型按照特征重要性排序的前30个特征,构建第二特征集;
S103,基于第二特征集,使用LightGBM模型进行训练,得到训练好的第二LightGBM模型;
S104,利用第一LightGBM模型和第二LightGBM模型,根据待预测企业的信誉行为足迹信息分别预测其失信概率,并对第一LightGBM模型和第二LightGBM模型的预测结果进行加权综合,得到最终预测结果。
需要说明的是,上述第一LightGBM模型和第二LightGBM模型是基于不同的特征集而训练得到的,对企业失信概率进行预测时,是通过第一LightGBM模型和第二LightGBM模型分别进行预测,从而得到两个预测结果,而上述S104中则是通过对第一LightGBM模型和第二LightGBM模型的预测结果加权取平均值,得到最终的预测结果。
上述S101中的信誉行为足迹信息包括:脱敏后的工商股权信息、行政处罚信息、司法诉讼信息,以及民间欠款信息等等。
上述对训练数据集进行预处理和特征提取,构建第一特征集的过程,包括:
1)对训练数据集进行清洗,剔除噪声数据,并进行缺失值填充;
其中,噪声数据是指仅仅在企业基本信息中出现过的企业,在后面的民商事审判文书、民商事审判流程、行政违法记录、欠税名单、纳税非正常户以及限制高消费名单任何一张表中再也没有出现过的企业,本实施例在预处理过程中对此类数据进行了剔除。
进行缺失值填充时,根据实际情况可以选择均值填充、0填充,以及LightGBM填充中的任一种。
此外,由于本实例的数据存在典型的样本不均衡问题,因此为了在一定程度避免正负样本不均衡现象,本实施例采用了随机采样法,具体做法是随机地在正样本和负样本之间采样,从而使得正负样本数量在一定程度上达到均衡。
2)对预处理后的训练数据集做特征工程,进行特征数据提取;
具体地,本实施例分别从统计特征、交叉特征、业务特征三个角度做特征工程进行特征数据提取,因此本实例大部分的工作都是在于不断地进行数据清洗,分析业务,然后不断地找特征。
在交叉特征中比如企业基本信息中注册资金与从业人数可以组合出新的特征从业人数占平均注册资金;民商事审判文书中每个企业诉讼地位的被执行人与涉案事件中恢复执行案件同时出现的次数等等就是交叉特征的组合表现。
在业务特征中比如在民商事审判文书的诉讼地位是否出现过原审被告、被申请人、被执行人、被告的企业是否为失信企业对比的业务表现,在所欠税种中是否出现过地方教育费附加税、土地增值水税等税种的企业是否为失信企业的业务表现等等;如图3所示。
3)利用PCA降维法对提取的特征数据进行降维,构建第一特征集。
具体地,所构建的第一特征集中的特征按照特征重要性排名主要包括:
't1_成立日期','t1_行业门类代码_ratio_t1_经营(业务)范围','t1_从业人数','t3_具体日期_mean','t2_结案时间_mean','t1_经营(业务)范围_ratio_t1_企业(机构)类型','t2_诉讼地位_被告_涉案金额(元)_sum','t2_结案时间_diff_mean','t1_注册资金(万元)','t2_结案时间_min','t2_涉案金额(元)_sum','t2_结案时间_max','t2_count','t1_企业(机构)类型_ratio_t1_经营(业务)范围','onehot_t2_诉讼地位_被执行人_mean','t1_经营(业务)范围_ratio_t1_行业门类代码','t1_企业(机构)类型_ratio_t1_行业门类代码','t2_涉案金额(元)_mean','t2_诉讼地位_被执行人_涉案金额(元)_sum','t3_具体日期_diff_mean','t2_涉案金额(元)_max','t1_行业门类代码_ratio_t1_企业(机构)类型','t2_诉讼地位_上诉人_rat','t2_诉讼地位_被_mean','t1_经营(业务)范围','t3_count','onehot_t2_诉讼地位_被告_mean','t2_诉讼地位_原告_涉案金额(元)_sum','t2_诉讼地位_执行_mean','t1_行业门类代码','onehot_t3_诉讼地位_当事人_mean','t2_诉讼地位_被告_rat','t7_具体日期_max','onehot_t3_诉讼地位_当事人_sum','onehot_t3_诉讼地位_原告_mean','t5_欠税余额(元)_std','t2_诉讼地位_被告_count','onehot_t3_诉讼地位_申请人_mean','t3_诉讼地位_被_mean','onehot_t2_诉讼地位_上诉人_mean','onehot_t3_诉讼地位_被告_mean','t5_具体日期_diff_mean','onehot_t2_诉讼地位_原告_mean','t1_企业(机构)类型','t5_具体日期_min','t5_count','onehot_t3_诉讼地位_申请人_sum','t5_具体日期_mean','t6_认定日期_min','onehot_t3_诉讼地位_被告_sum','t5_欠税余额(元)_max','onehot_t2_诉讼地位_申请执行人_mean','t4_具体日期_min','t2_诉讼地位_上诉人_涉案金额(元)_sum','onehot_t5_所欠税种_增值税_mean','onehot_t3_诉讼地位_原告_sum','t5_欠税余额(元)_min','onehot_t3_诉讼地位_nan_mean','t7_具体日期_min','t2_诉讼地位_原告_rat','t2_诉讼地位_原告_count','onehot_t3_诉讼地位_被申请人_sum','onehot_t3_诉讼地位_被申请人_mean','onehot_t2_诉讼地位_被上诉人_mean','t5_所欠税种_所得税_sum','t6_count','t5_具体日期_max','onehot_t2_诉讼地位_原审被告_mean','onehot_t5_所欠税种_城市维护建设税_sum','onehot_t5_所欠税种_城市维护建设税_mean','onehot_t5_所欠税种_印花税_mean','onehot_t2_诉讼地位_被申请人_mean','t7_具体日期_mean','t7_count','onehot_t5_所欠税种_10106|个人所得税_mean','onehot_t5_所欠税种_10109|城市维护建设税_mean','t4_count','t6_认定日期_mean','t5_所欠税种_所得税_mean','onehot_t5_所欠税种_增值税_sum','t2_诉讼地位_被上诉人_涉案金额(元)_sum','onehot_t5_所欠税种_10111|印花税_mean','t2_诉讼地位_申请执行人_rat','onehot_t5_所欠税种_个人所得税_mean','onehot_t3_诉讼地位_nan_sum','onehot_t5_所欠税种_个人所得税_sum','onehot_t2_诉讼地位_被上诉人(原审原告)_mean','onehot_t5_所欠税种_企业所得税_mean','t2_诉讼地位_申请人_涉案金额(元)_sum','onehot_t3_诉讼地位_被上诉人_mean','onehot_t3_诉讼地位_被上诉人_sum','onehot_t3_诉讼地位_上诉人_mean','onehot_t5_所欠税种_企业所得税_sum','onehot_t3_诉讼地位_被告/被上诉人_mean','onehot_t3_诉讼地位_申请人:被告_mean','onehot_t3_诉讼地位_申请人:被告_sum','t2_诉讼地位_原审被告_涉案金额(元)_sum','t2_诉讼地位_申请执行人_count','onehot_t5_所欠税种_印花税_sum','onehot_t3_诉讼地位_被告/被告人/被上诉人/被申请人_sum','onehot_t5_所欠税种_10111|印花税_sum','t2_诉讼地位_申请执行人_涉案金额(元)_sum','onehot_t3_诉讼地位_上诉人被告_mean','onehot_t2_诉讼地位_申请人_mean','onehot_t2_诉讼地位_上诉人(原审被告)_mean','onehot_t3_诉讼地位_再审申请人_mean','onehot_t5_所欠税种_10112|城镇土地使用税_mean','onehot_t5_所欠税种_10113|土地增值税_sum','onehot_t5_所欠税种_10113|土地增值税_mean','onehot_t5_所欠税种_30203|教育费附加_sum','onehot_t5_所欠税种_30203|教育费附加_mean','onehot_t5_所欠税种_30216|地方教育附加_sum','onehot_t5_所欠税种_30216|地方教育附加_mean','onehot_t2_诉讼地位_被上诉人(原审原告、反诉被告)_mean','onehot_t2_诉讼地位_申请复议人_mean','onehot_t2_诉讼地位_第三人_mean','onehot_t2_诉讼地位_被上诉人(原审被告)_mean','onehot_t2_诉讼地位_申请再审人_mean','onehot_t5_所欠税种_企业所得税增值税_sum','onehot_t5_所欠税种_企业所得税增值税_mean','onehot_t2_诉讼地位_案外人_mean','onehot_t5_所欠税种_土地增值税_sum','onehot_t5_所欠税种_土地增值税_mean','onehot_t5_所欠税种_地方教育附加_sum','onehot_t5_所欠税种_10112|城镇土地使用税_sum','onehot_t2_诉讼地位_被上诉人(原审被告、反诉原告)_mean','onehot_t2_诉讼地位_异议人(被执行人)_mean','onehot_t2_诉讼地位_被告人_mean','onehot_t2_诉讼地位_被申请执行人_mean','onehot_t2_诉讼地位_被申请人(原审被告)_mean','onehot_t2_诉讼地位_被申请人(一审被告、二审被上诉人)_mean','onehot_t2_诉讼地位_被申请人(一审原告、二审上诉人)_mean','onehot_t2_诉讼地位_被申请人(一审原告)_mean','onehot_t2_诉讼地位_被申诉人_mean','onehot_t2_诉讼地位_被审申请人_mean','onehot_t2_诉讼地位_被告单位_mean','onehot_t5_所欠税种_10103|营业税_sum','onehot_t5_所欠税种_10110|房产税_mean','onehot_t5_所欠税种_10103|营业税_mean','onehot_t5_所欠税种_10104|企业所得税_sum','onehot_t5_所欠税种_10104|企业所得税_mean','onehot_t5_所欠税种_10106|个人所得税_sum','onehot_t2_诉讼地位_被告(反诉原告)_mean','onehot_t5_所欠税种_10109|城市维护建设税_sum','onehot_t2_诉讼地位_被告(原告)_mean','onehot_t5_所欠税种_10110|房产税_sum','onehot_t5_所欠税种_地方教育附加_mean','onehot_t2_诉讼地位_异议人_mean','onehot_t2_诉讼地位_赔偿请求人_mean','onehot_t2_诉讼地位_再审申请人(一审原告、二审上诉人)_mean'。
具体地,本实施例选用的LightGBM模型所表现的特征重要性如图5所示。
进一步地,为了提高模型的泛化能力,本实例在进行模型训练时采用了5折交叉验证法,训练了5个LightGBM模型,然后将5个LightGBM模型的预测结果取均值作为最后的预测结果,如图4所示。采用交叉验证法的优势在于,可以有效防止过拟合,增强模型的泛化能力。
此外,Auc只反应模型对正负样本排序能力强弱,对score的大小和精度没有要求。本实施例采用ranking的方法进行模型的融合,它可以较快的利用排名融合多个模型之间的差异,而不需要加权融合概率;Ranking的公式如下:
Figure BDA0002117577960000091
具体地,本实施例对LightGBM模型进行参数调整的过程如下:
首先选择较高的学习率,大概0.1附近,这样是为了加快收敛的速度。然后对决策树的基本参数调参,然后是正则化参数的调参,最后降低学习率,这里最后是为了提高准确率;具体做法是:
Step1.学习率和迭代次数的设置:learning_rate=0.1,迭代次数n_estimator先设一个较大的数,然后交叉验证的结果中查看最优的迭代次数,本实例设置的是8000。
Step2.树的最大深度和叶子节点数:这里是提高精确度的最重要参数,max_depth=5,num_leaves=2^(max_depth),但是它的值设置应该小于2^(max_depth),否则会导致过拟合。这一步可同时对这两个参数进行调优,先粗调再细调。
Step3.Min_data_in_leaf和min_sum_hessian_in_leaf:这一步是为了降低过拟合,min_data_in_leaf是一个很重要的参数,也叫min_child_samples,它的值取决于训练数据的样本个数和num_leaves.将其设置的较大可以避免生成一个过深的树,但有可能导致欠拟合。min_sum_hessian_in_leaf:也叫min_child_weight,是一个结点***的最小Hessian值之和。
经过调整之后本实例设置的参数值分别是20,0.001。
Step4.feature_fraction和bagging_fraction:这两个参数都是为了降低过拟合的。bagging_feaction=1.0,feature_fraction=0.7。
Step5.正则化参数本实例直接使用的默认值并没有调整。
Step6.降低学习率:根据模型的表现将学习率定在了0.005。
第二实施例
本实施例提供一种基于LightGBM的企业失信概率预测***,该基于LightGBM的企业失信概率预测***包括:
第一特征集构建模块,用于获取企业信誉行为足迹信息数据集,构建训练数据集,并对训练数据集进行预处理和特征提取,构建第一特征集;
第一LightGBM模型构建模块,用于基于第一特征集,使用LightGBM模型进行训练,得到第一LightGBM模型;
第二特征集构建模块,用于基于第一特征集,使用XGBoost、CatBoost、LightGBM三个模型进行训练,并分别提取各模型按照特征重要性排序的前30个特征,构建第二特征集;
第二LightGBM模型构建模块,用于基于第二特征集,用LightGBM模型进行训练,得第二LightGBM模型;
融合模块,用于利用第一LightGBM模型和第二LightGBM模型,根据待预测企业的信誉行为足迹信息分别预测其失信概率,并对第一LightGBM模型和第二LightGBM模型的预测结果进行加权综合,得到最终预测结果。
本实施例的基于LightGBM的企业失信概率预测***与上述第一实施例中的基于LightGBM的企业失信概率预测方法相互对应,其中,该***中各模块单元所实现的功能与上述方法中的各流程步骤一一对应;故,在此不再赘述。
本发明通过获取企业信誉行为足迹信息数据集,构建训练数据集,并对训练数据集进行预处理和特征提取,构建第一特征集;基于第一特征集,首先使用LightGBM模型进行训练,得到第一LightGBM模型;然后使用XGBoost、CatBoost、LightGBM三个模型进行训练,并分别提取各模型按照特征重要性排序的前30个特征,构建第二特征集;基于第二特征集,用LightGBM模型进行训练,得第二LightGBM模型;利用第一LightGBM模型和第二LightGBM模型,根据待预测企业的信誉行为足迹信息分别预测其失信概率,并对第一LightGBM模型和第二LightGBM模型的预测结果进行加权综合,得到最终预测结果。从而实现对企业失信行为的精准评估,提高金融机构防范欺诈和降低不良率的能力,适用于解决企业融资以及信用评价的问题,能够有效提高融资风险防范能力,可广泛应用于银行对企业贷款审核以及企业社会信用评估领域。
此外,需要说明的是,本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于LightGBM的企业失信概率预测方法,其特征在于,包括:
获取企业信誉行为足迹信息数据集,构建训练数据集,并对所述训练数据集进行预处理和特征提取,构建第一特征集;
基于所述第一特征集,首先使用LightGBM模型进行训练,得到第一LightGBM模型;然后使用XGBoost、CatBoost、LightGBM三个模型进行训练,并分别提取各模型按照特征重要性排序的前30个特征,构建第二特征集;
基于所述第二特征集,用LightGBM模型进行训练,得第二LightGBM模型;
利用所述第一LightGBM模型和第二LightGBM模型,根据待预测企业的信誉行为足迹信息分别预测其失信概率,并对所述第一LightGBM模型和第二LightGBM模型的预测结果进行加权综合,得到最终预测结果;
所述对所述训练数据集进行预处理和特征提取,构建第一特征集,包括:
对所述训练数据集进行清洗,剔除噪声数据,并进行缺失值填充;
对预处理后的训练数据集分别从统计特征、交叉特征、业务特征三个角度做特征工程,进行特征数据提取;
利用预设特征降维方法对提取的特征数据进行降维,构建第一特征集;
对训练数据集进行缺失值填充的方法为均值填充、0填充,以及LightGBM填充中的任意一种;对提取的特征数据进行降维的方法为PCA降维法;
所述对所述第一LightGBM模型和第二LightGBM模型的预测结果进行加权综合,得到最终预测结果,具体为:对所述第一LightGBM模型和第二LightGBM模型的预测结果取平均值;将所述第一LightGBM模型和第二LightGBM模型的预测结果的平均值作为对所述待预测企业的失信概率的最终预测结果。
2.如权利要求1所述的基于LightGBM的企业失信概率预测方法,其特征在于,所述信誉行为足迹信息包括:脱敏后的工商股权信息、行政处罚信息、司法诉讼信息,以及民间欠款信息。
3.如权利要求1所述的基于LightGBM的企业失信概率预测方法,其特征在于,基于所述第一特征集,使用LightGBM模型进行训练时,和基于所述第二特征集,使用LightGBM模型进行训练时,均采用交叉验证法进行训练。
4.一种基于LightGBM的企业失信概率预测***,其特征在于,包括:
第一特征集构建模块,用于获取企业信誉行为足迹信息数据集,构建训练数据集,并对所述训练数据集进行预处理和特征提取,构建第一特征集;
第一LightGBM模型构建模块,用于基于所述第一特征集,使用LightGBM模型进行训练,得到第一LightGBM模型;
第二特征集构建模块,用于基于所述第一特征集,使用XGBoost、CatBoost、LightGBM三个模型进行训练,并分别提取各模型按照特征重要性排序的前30个特征,构建第二特征集;
第二LightGBM模型构建模块,用于基于所述第二特征集,用LightGBM模型进行训练,得第二LightGBM模型;
融合模块,用于利用所述第一LightGBM模型和第二LightGBM模型,根据待预测企业的信誉行为足迹信息分别预测其失信概率,并对第一LightGBM模型和第二LightGBM模型的预测结果进行加权综合,得到最终预测结果;
所述第一特征集构建模块,具体用于:
对所述训练数据集进行清洗,剔除噪声数据,并进行缺失值填充;
对预处理后的训练数据集分别从统计特征、交叉特征、业务特征三个角度做特征工程,进行特征数据提取;
利用预设特征降维方法对提取的特征数据进行降维,构建第一特征集;
所述第一特征集构建模块对训练数据集进行缺失值填充的方法为均值填充、0填充,以及LightGBM填充中的任意一种;所述第一特征集构建模块对提取的特征数据进行降维的方法为PCA降维法;
所述融合模块,具体用于:
对第一LightGBM模型和第二LightGBM模型的预测结果取平均值;将第一LightGBM模型和第二LightGBM模型的预测结果的平均值作为对所述待预测企业的失信概率的最终预测结果。
CN201910595699.3A 2019-07-03 2019-07-03 一种基于LightGBM的企业失信概率预测方法及*** Active CN110414716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910595699.3A CN110414716B (zh) 2019-07-03 2019-07-03 一种基于LightGBM的企业失信概率预测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910595699.3A CN110414716B (zh) 2019-07-03 2019-07-03 一种基于LightGBM的企业失信概率预测方法及***

Publications (2)

Publication Number Publication Date
CN110414716A CN110414716A (zh) 2019-11-05
CN110414716B true CN110414716B (zh) 2022-05-20

Family

ID=68358786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910595699.3A Active CN110414716B (zh) 2019-07-03 2019-07-03 一种基于LightGBM的企业失信概率预测方法及***

Country Status (1)

Country Link
CN (1) CN110414716B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941963A (zh) * 2019-11-29 2020-03-31 福州大学 一种基于句子情感属性的文本属性生成观点摘要方法与***
CN111242364A (zh) * 2020-01-07 2020-06-05 上海钧正网络科技有限公司 基于神经网络的车辆故障和舒适度预测方法、装置、终端及介质
CN111310785A (zh) * 2020-01-15 2020-06-19 杭州华网信息技术有限公司 一种国家电网机械外破预测方法
CN111291798B (zh) * 2020-01-21 2021-04-20 北京工商大学 一种基于集成学习的用户基础属性预测方法
CN111798303A (zh) * 2020-07-06 2020-10-20 浙江公共安全技术研究院有限公司 一种法院被执行人履行能力评估的方法
CN112418010A (zh) * 2020-11-09 2021-02-26 电子科技大学 一种基于LightGBM融合模型的设备温度监测方法
CN112215616B (zh) * 2020-11-30 2021-04-30 四川新网银行股份有限公司 一种基于网络的自动识别资金异常交易的方法和***
CN113205271A (zh) * 2021-05-12 2021-08-03 国家税务总局山东省税务局 一种基于机器学习对企业所得税风险评估的方法
CN113240509B (zh) * 2021-05-18 2022-04-22 重庆邮电大学 一种基于多源数据联邦学习的贷款风险评估方法
CN113537576A (zh) * 2021-06-25 2021-10-22 合肥工业大学 用于预测上市企业财务困境的方法及***
CN114418024B (zh) * 2022-01-26 2024-05-31 深圳前海微众银行股份有限公司 学历预测方法、***、终端设备及存储介质
CN115409104A (zh) * 2022-08-25 2022-11-29 贝壳找房(北京)科技有限公司 用于识别对象类型的方法、装置、设备、介质和程序产品

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697469B2 (en) * 2014-08-13 2017-07-04 Andrew McMahon Method and system for generating and aggregating models based on disparate data from insurance, financial services, and public industries
KR101599675B1 (ko) * 2015-07-02 2016-03-03 한국기업데이터 주식회사 빅 데이터 기술에 기반한 기업 뉴스 검색 기술을 이용한 기업 신용 위험도 예측 장치 및 방법
CN105868847A (zh) * 2016-03-24 2016-08-17 车智互联(北京)科技有限公司 一种购物行为的预测方法及装置
CN109961248B (zh) * 2017-12-25 2023-07-04 顺丰科技有限公司 运单投诉预测方法、装置、设备及其存储介质
CN108985489B (zh) * 2018-06-08 2021-12-31 创新先进技术有限公司 一种风险预测方法、风险预测装置和终端设备
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法
CN109255651A (zh) * 2018-08-22 2019-01-22 重庆邮电大学 一种基于大数据的搜索广告转化智能预测方法
CN109063931A (zh) * 2018-09-06 2018-12-21 盈盈(杭州)网络技术有限公司 一种预测货运物流司机违约概率的模型方法
CN109389247A (zh) * 2018-09-27 2019-02-26 智庭(北京)智能科技有限公司 一种基于大数据的区域房屋租金预测方法
CN109509033B (zh) * 2018-12-14 2023-04-07 重庆邮电大学 一种消费金融场景下的用户购买行为大数据预测方法
CN109784979B (zh) * 2018-12-19 2023-06-16 中交(厦门)电子商务有限公司 一种大数据驱动的供应链需求预测方法
CN109740764A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于大数据的小型企业失信预测方法

Also Published As

Publication number Publication date
CN110414716A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110414716B (zh) 一种基于LightGBM的企业失信概率预测方法及***
US20180260891A1 (en) Systems and methods for generating and using optimized ensemble models
Jiang et al. A prediction-driven mixture cure model and its application in credit scoring
Drechsler Synthetic datasets for statistical disclosure control: theory and implementation
Fan et al. Investing in African agriculture to halve poverty by 2015
CN112668822B (zh) 科技成果转化平台共享***、方法、存储介质、手机app
CN110634060A (zh) 一种用户信用风险的评估方法、***、装置及存储介质
Robinson A richness index for baselining climate change adaptations in small island developing states
Fix How the rich are different: Hierarchical power as the basis of income size and class
Li et al. Can energy efficiency and natural resources foster economic growth? Evidence from BRICS countries
Bagger et al. Income taxation and the equilibrium allocation of labor
Jumaniyazov et al. METHODOLOGICAL BASIS FOR FORECASTING THE TAX POTENTIAL OF THE RUSSIAN FEDERATION
Alisherovna Formation of a Database in The Assessment of Investment Attractiveness of Auto Transport Enterprises
Curci et al. BIMic: The Bank of Italy microsimulation model for the Italian tax and benefit system
Conti et al. The Italian Treasury Dynamic Microsimulation Model (T-DYMM): data, structure and baseline results
Zhu et al. Administrative approval reform and the quality of economic development
Cuong et al. Does innovation promote access to informal loans? Evidence from a transitional economy
Yangyudongnanxin Financial credit risk control strategy based on weighted random forest algorithm
CN116596674A (zh) 基于大数据分析的对外贸易风险评估方法
Fang Credit Risk Evaluation Model of Small-Micro Enterprises for Rural Commercial Bank Based on XGBoost and Random Forest
Chinedu et al. Economic globalisation and economic growth dynamics in Nigeria
Liu et al. Network centrality and credit risk: A comprehensive analysis of peer-to-peer lending dynamics
Cumpston New techniques for household microsimulation, and their application to Australia
Aggelopoulos Branch manager characteristics and efficiency during capital controls
Zhulavskyi et al. Investment Potential of the Enterprise: Theory and Practice of Assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant