CN116977059A

CN116977059A - 一种信用风险预测方法、装置、存储介质及电子设备

Info

Publication number: CN116977059A
Application number: CN202310963988.0A
Authority: CN
Inventors: 陈怡桐; 董波; 聂元清; 葛俊; 王嘉琪; 陈旭
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-10-31

Abstract

本说明书公开了一种信用风险预测方法、装置、存储介质及电子设备。在本说明书提供的信用风险预测方法中，获取目标企业的多源数据，所述多源数据至少包括区域数据、行业数据、企业数据；根据所述多源数据确定所述目标企业的特征指标；对所述特征指标进行预处理；将预处理后的特征指标输入预先训练的预测模型，得到所述预测模型输出的预测结果；根据所述预测结果，确定所述目标企业是否存在信用风险。

Description

一种信用风险预测方法、装置、存储介质及电子设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种信用风险预测方法、装置、存储介质及电子设备。

背景技术

近年来，随着社会信用体系的搭建和完善，“信用”的内涵逐渐得到延展，由狭义上“经济领域资本额的借贷偿还”拓展到广义上“经济和社会领域，个人或组织履行承诺的意愿和能力”，突破了“货币资金”的媒介限制，扩展至生活中一切以“信任”为前提的交往关系。在向成熟市场经济转轨过程中，社会诚信缺失和信用交易风险两大问题都比较突出，因此需要重视对公共社会信用的评估预警。

目前，在公共信用领域对企业存在的风险进行预测时，现有方法大多主要是考虑特定行业或企业群体，例如中小微型企业等。当应用场景改变，行业或企业种类发生变化时，现有方法所提供的模型便不再适用。换句话说，现有方法的鲁棒性和通用性较差。

因此，如何更加全面地对企业的信用风险进行准确且通用的预测是一个亟待解决的问题。

发明内容

本说明书提供一种信用风险预测方法、装置、存储介质及电子设备，以至少部分地解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种信用风险预测方法，包括：

获取目标企业的多源数据，所述多源数据至少包括区域数据、行业数据、企业数据；

根据所述多源数据确定所述目标企业的特征指标；

对所述特征指标进行预处理；

将预处理后的特征指标输入预先训练的预测模型，得到所述预测模型输出的预测结果；

根据所述预测结果，确定所述目标企业是否存在信用风险。

可选地，获取目标企业的行业数据，具体包括：

将各三级行业确定为候选行业，并统计指定区域内属于每个三级行业的企业数量；

将各企业数量不小于指定阈值的三级行业确定为有效行业；

针对每个二级行业，将该二级行业下的各企业数量小于所述指定阈值的三级行业合并，作为该二级行业对应的其它行业；

将各企业数量不小于指定阈值的其它行业确定为有效行业；

针对每个一级行业，将该一级行业下的各二级行业对应的企业数量小于所述指定阈值的其他行业合并，作为该一级行业对应的其他行业，并将该一级行业对应的其他行业确定为有效行业；

根据所述目标企业属于的三级行业，确定所述目标企业属于的有效行业；

获取所述目标企业属于的有效行业的行业数据。

可选地，对所述特征指标进行预处理，具体包括：

在所述目标企业的各特征指标中确定存在数据缺失的特征指标；

针对所述目标企业的每个存在数据缺失且数据类型为整型的特征指标，采用预设数值对该特征指标进行填充；

针对所述目标企业的每个存在数据缺失且数据类型为浮点型的特征指标，确定在所述目标企业属于的有效行业中，除所述目标企业外的其他企业的该特征指标的数据的均值，并采用所述均值填充所述目标企业的该特征指标。

可选地，对所述特征指标进行预处理，具体包括：

针对每个特征指标，确定该特征指标的方差膨胀系数；

当该特征指标的方差膨胀系数不小于指定系数时，舍弃该特征指标。

可选地，所述预测结果为所述目标企业存在信用风险的概率；

根据所述预测结果，确定所述目标企业是否存在信用风险，具体包括：

当所述目标企业存在信用风险的概率不小于指定概率时，确定所述目标企业存在信用风险；

当所述目标企业存在信用风险的概率小于指定概率时，确定所述目标企业不存在信用风险。

可选地，预先训练预测模型，具体包括：

在历史数据中获取样本企业的样本多源数据，并确定所述样本企业的信用风险标注，所述样本多源数据至少包括样本区域数据、样本行业数据、样本企业数据，所述信用风险标注用于表征所述样本企业是否存在信用风险的真实结果；

根据所述样本多源数据确定所述样本企业的特征指标；

对所述特征指标进行预处理；

将预处理后的特征指标输入待训练的预测模型，得到所述预测模型输出的待优化预测结果；

以所述预测结果与所述信用风险标注之间的差异最小为优化目标，对所述预测模型进行训练。

可选地，所述方法还包括：

确定各预设区域中存在信用风险的企业的数量，并将存在信用风险的企业数量的最多的预设区域中存在信用风险的企业的数量确定为第一最大数量，将存在信用风险的企业的数量最少的预设区域中存在信用风险的企业的数量确定为第一最小数量；

针对每个预设区域，根据属于该预设区域的企业中存在信用风险的企业的数量，以及所述第一最大数量和所述第一最小数量，确定该预设区域的风险预警指数和风险变化指数。

本说明书提供的一种信用风险预测装置，所述装置包括：

获取模块，用于获取目标企业的多源数据，所述多源数据至少包括区域数据、行业数据、企业数据；

特征模块，用于根据所述多源数据确定所述目标企业的特征指标；

处理模块，用于对所述特征指标进行预处理；

预测模块，用于将预处理后的特征指标输入预先训练的预测模型，得到所述预测模型输出的预测结果；

确定模块，用于根据所述预测结果，确定所述目标企业是否存在信用风险。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述信用风险预测方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述信用风险预测方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的信用风险预测方法中，获取目标企业的多源数据，所述多源数据至少包括区域数据、行业数据、企业数据；根据所述多源数据确定所述目标企业的特征指标；对所述特征指标进行预处理；将预处理后的特征指标输入预先训练的预测模型，得到所述预测模型输出的预测结果；根据所述预测结果，确定所述目标企业是否存在信用风险。

在采用本说明书提供的信用风险预测方法对目标企业进行预测时，可根据目标企业的区域数据、行业数据、企业数据，多源地确定出目标企业的特征指标；采用预处理后的特征指标输入给预测模型，使预测模型输出预测结果，并根据预测结果判断出目标企业是否存在信用风险。采用本方法可根据较为全面的多源数据判断目标企业是否存在信用风险，提高了预测的准确率的同时，具有较强的通用性，在面对各种不同的企业时均能起到较好的预测效果。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种信用风险预测方法的流程示意图；

图2为本说明书中各方面因素存在的对企业的信用风险的影响的示意图；

图3为本说明书中XGBoost特征重要性分析的柱状图；

图4为本说明书中SHAP值分析的柱状示意图；

图5为本说明书提供的一种信用风险预测装置的示意图；

图6为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种信用风险预测方法的流程示意图，具体包括以下步骤：

S100：获取目标企业的多源数据，所述多源数据至少包括区域数据、行业数据、企业数据。

本说明书所提供的信用风险预测方法中的所有步骤均可由任何具有计算功能的电子设备实现，例如终端、服务器等设备。

本方法主要应用于预测目标企业是否会存在信用风险，基于此，可首先在此步骤中，获取目标企业的多源数据，其中，多源数据可至少包括目标企业的区域数据、行业数据、企业数据。图2为本说明书提供的各方面因素存在的对企业的信用风险的影响的示意图。如图2所示，在本说明书提供的信用风险预测方法中认为，企业是否会存在信用风险会受到企业所在的区域、企业所属的行业，以及企业本身等多方面因素的影响。本说明书在此对各方面因素分别进行分析。

区域数据通常是根据目标企业所在的区域采集到的数据，目标企业所在的区域的范围大小可根据具体需求进行设置，例如区域可以是区、市、省等，本说明书对此不做具体限制。在本说明书中，主要以区域为城市对本方法进行说明，在无特殊说明的情况下，后续实施例中出现的区域均表示城市。区域因素对企业的影响参考PEST模型进行分析和指标构建，PEST分析是进行宏观环境分析的经典分析模型，将影响企业的区域因素分为政治(Political，P)、经济(Economic，E)、社会(Social，S)和技术(Technological，T)四大类。政治和技术因素采用各城市评价的综合信用指数表示，该指数由信用中国网发布，按信用制度和基础建设、营商环境、信用监管、权益保护四大维度综合评价各城市的信用情况，可以代表当地政府的信用监管水平和信用技术情况。经济因素采用宏观经济最常见的GDP、CPI构造相关指标。社会因素采用城市年末金融机构存款余额/区域GDP、城市年末金融机构贷款余额/区域GDP和区域人均可支配收入构造指标。区域年末金融机构存款余额/区域GDP可以量化该区域的金融机构信用规模，区域年末金融机构贷款余额/区域GDP可以量化该区域的非金融企业部门和居民的信用规模。区域的金融体系信用发展水平会直接影响当地企业维护自身信用的动力，而非金融企业部门和居民的信用规模反映了当地参与信用贷款的活跃度，也会一定程度反映区域企业和居民对信用的了解和重视度。最后，区域人均可支配收入越高，当地居民对生活品质和产品质量要求也越高，消费力也越强，企业有动力生产高质量产品来满足消费者。

行业数据通常是根据目标企业的业务内容所主要设计的行业确定的。行业的资源丰度和行业的复杂性可以反映企业的行业环境状况。其中行业的资源丰度指的是行业中资源的充足性，行业充足性低时、行业内的成长空间较小，企业面临的行业环境压力较大，越有可能进行价格战和失信。行业的复杂性主要包括资源的地理集中度和竞争性，行业资源地理集中度越低或竞争性越强，则行业环境越复杂。行业竞争性可采用行业赫芬达尔指数(Herfindahl-HirschmanIndex，HHI)来衡量。例如某一行业的销售收入HHI的计算方式可下如公式：

其中x_i为企业i的年度销售收入，X表示一个区域中某一行业内所有企业的年销售收入之和，n表示该行业下的企业总数量。

某一行业的销售收入地理集中度C_j的计算方式可如下公式：

其中S_jk代表区域k中行业j的销售收入。

行业数据通常是根据目标企业本身得到的。企业自身因素分为企业基础信息、企业财务因素和企业历史履约情况。其中企业财务因素分为基础财务指标、企业负债水平、企业盈利能力、企业成长能力和企业经营能力相关指标。企业历史履约情况则分别考虑法人和企业的历史履约情况。

可以想到的，在上述确定目标企业的行业数据的过程中，需要先确定出目标企业所属的行业，才能够获取到对应的行业数据。而具有参考性的行业数据是需要一定的数据量来支撑的，当一个行业内的企业数量过少，那么该行业的行业数据的可靠性就会较差。为解决上述问题，可考虑将同一属性的企业数量较少的行业合并。具体地，可将各三级行业确定为候选行业，并统计指定区域内属于每个三级行业的企业数量；将各企业数量不小于指定阈值的三级行业确定为有效行业；针对每个二级行业，将该二级行业下的各企业数量小于所述指定阈值的三级行业合并，作为该二级行业对应的其它行业；将各企业数量不小于指定阈值的其它行业确定为有效行业；针对每个一级行业，将该一级行业下的各二级行业对应的企业数量小于所述指定阈值的其他行业合并，作为该一级行业对应的其他行业，并将该一级行业对应的其他行业确定为有效行业；根据所述目标企业属于的三级行业，确定所述目标企业属于的有效行业；获取所述目标企业属于的有效行业的行业数据。

在本说明书提供的信用风险预测方法中，采用中国行业分类中的三级分类的方式，对各行业进行划分。其中，一级行业范围最广，例如采矿业、制造业、建筑业等；二级行业次之，在一级行业之下，例如农业、林业、畜牧业、渔业等；三级行业在二级行业之下，粒度最细，例如谷物种植、牲畜饲养、铁矿采选、造纸等。每个一级行业下包含若干二级行业，每个二级行业下包含若干三级行业。

通常情况下，本方法希望尽可能地以目标企业所属的三级行业作为目标企业的有效行业，并获取相应的行业数据，以保证最细粒度的分类。但实际上，在指定区域，也就是目标企业所属的区域内，很可能出现属于相同三级行业的企业过少，导致行业数据不可靠的情况。因此，可通过合并企业数量较少的三级行业的方式来确定最终的有效行业。当一个三级行业中企业的数量不小于指定阈值时，说明该三级行业的行业数据量足够，可直接将该三级行业确定为有效行业；反之，当一个三级行业中企业的数量小于指定阈值时，说明该三级行业的行业数据量不足，不能够单独作为一个有效行业。而对于这部分数据量不足的三级行业，可针对每个二级行业，将该二级行业下所有数据量不足的三级行业合并，作为该二级行业对应的其他行业，而这部分数据量不足的三级行业中的各企业也就自然都属于该二级行业的其他行业。此时，可仍以指定阈值为标准，再次对每个二级行业的其他行业进行判断。当一个二级行业对应的其他行业下的企业的数量不小于指定阈值时，可将该二级行业对应的其它行业确定为有效行业；反之，当一个二级行业对应的其它行业下的企业的数量小于指定阈值时，则不能将该二级行业对应的其它行业确定为有效行业。由此，可更进一步地，针对每个一级行业，将该一级行业下的各二级行业对应的数据量不足的其他行业，合并为该一级行业的其他行业。此时，由于一级行业无法再向上合并，因此，可将所有一级行业的其他行业直接确定为有效行业。至此，对所有行业的重分类完毕，在最大程度地保留了细粒度划分的同时，尽可能地使确定出的每个有效行业中均包含充足的数据量，以得到可靠的行业数据。其中，指定阈值可根据具体需求确定，本说明书对此不做具体限制。

S102：根据所述多源数据确定所述目标企业的特征指标。

在步骤S100中获取到目标企业的多源数据后，可在此步骤中，根据获取到的多源数据确定出目标企业的特征指标。其中，特征指标可以包括特征指标项与特征指标值，每个特征指标项均存在一个对应的特征指标值，二者合并称之为特征指标。

在本说明书提供的信用风险预测方法中，特征指标项可以是根据历史中的多源数据以及实际应用时的具体需求预先进行设置的，本说明书对此不做具体限制；特征指标值为根据目标企业的多源数据得到的，即，从目标企业的区域数据、行业数据、企业数据中，确定出与特征指标项对应的特征指标值。

S104：对所述特征指标进行预处理。

在得到目标企业的特征指标后，可对目标企业的特征指标进行一定的预处理，使特征指标的整体分布更加合理，最终起到更好的预测效果。根据实际应用时的不同需求，可对特征指标进行多种不同的预处理，本说明书在此提供若干具体实施例以供参考。

例如，为了能够更好地对企业的信用风险进行评估，可对所有的特征指标均进行量化处理。其中，对于连续型的特征指标，可不做处理，使用其原本的数值；而对于离散型特征指标，例如企业经营状态等，可对其进行独热编码，使特征之间的距离计算更加合理。

再例如，在实际应用时，很难完完全全地收集到所有想要的数据。换句话说，很可能会存在部分无法收集到的数据，进而导致目标企业的部分特征指标缺少特征指标值。而对于这部分存在数据缺失的特征指标，需要进行数据填充以保证后续正常使用。具体地，可在所述目标企业的各特征指标中确定存在数据缺失的特征指标；针对所述目标企业的每个存在数据缺失且数据类型为整型的特征指标，采用预设数值对该特征指标进行填充；针对所述目标企业的每个存在数据缺失且数据类型为浮点型的特征指标，确定在所述目标企业属于的有效行业中，除所述目标企业外的其他企业的该特征指标的数据的均值，并采用所述均值填充所述目标企业的该特征指标。

当特征指标出现数据缺失时，对于不同数据类型的特征指标，可采用不同的方式进行数据填充。对于数据类型为整型的特征指标，通常特征指标值的取值范围较少且较为固定，因此可直接采用预设数据对特征指标进行填充例如0、1等数值。另外，此类数据类型为整型的特征指标很可能出现本身就不存在对应数据的情况，也就是为空值，例如次数相关的特征指标，在没有做出相应行为的情况下就没有对应的数据记录，次数为0。因此，通常可将预设数据取0以较大程度地实现准确地数据填充。更进一步地，在对离散型特征进行过独特编码后，其数据类型同样为整型，此时预设的数值可以是对应的编码。

另一方面，对于数据类型为浮点型的特征指标，例如盈亏等方面的数据，通常各企业的特征指标值均不相同，取值范围不固定且差异较大。因此，当此类特征指标出现数据缺失时，可将目标企业所属的有效行业中，其它企业的特征指标的数据均值，确定为目标企业的特征指标值。通过上述方式，便能够完成对存在数据缺失的特征指标的数据填充。

更进一步地，部分特征指标之间可能会由于高度相关而存在较为严重的共线性，这部分特征指标可能会对模型的预测产生过高的影响，从而使预测得到的结果不准确。因此，可利用历史数据在预设的特征指标项中删除部分共线性较为严重的特征指标项。具体地，可针对每个特征指标，确定该特征指标的方差膨胀系数；当该特征指标的方差膨胀系数不小于指定系数时，舍弃该特征指标。针对每个特征指标项，可采用历史数据中对应的特征指标值计算该特征指标的方差膨胀系数(Variance Inflation Factor，VIF)。VIF能够较好地描述一个特征与其它特征之间的共线性的大小，一个特征指标的VIF越高，那么它与其它特征指标之间的共线性就越大。当一个特征指标的VIF过高，也就是不小于指定系数时，可认为该特征指标与其它特征之间的共线性过大，可将该特征指标删除。其中，指定系数可根据具体需求进行设置，通常可设置为10。

表1为本方法经过预处理后得到的各特征指标项的列表。

表1

其中，第一维度为区域因素、行业因素与企业因素，企业因素又分为企业的基本因素、财务因素与历史履约因素；第二维度为在第一维度下更进一步的划分，将每个第一维度下的因素更进一步地分为了多种不同的因素。每个第二维度的因素对应多个不同的特征指标。

S106：将预处理后的特征指标输入预先训练的预测模型，得到所述预测模型输出的预测结果。

在经过预处理后，可将各特征指标项对应的特征指标值输入到预先训练的预测模型中，得到预测模型给出的预测结果，预测结果用于表征目标企业是否存在信用风险。预测模型的结构与参数可存在多种不同的形式，本说明书对此不做具体限制，仅需保证预测模型能够完成根据目标企业的特征指标预测目标企业是否存在信用风险的功能即可。

S108：根据所述预测结果，确定所述目标企业是否存在信用风险。

根据步骤S106中得到的预测模型给出的预测结果，便可在此步骤中，确定出目标企业是否存在信用风险。其中，根据预测模型给出的输出结果的形式不同，根据输出结果判断目标企业是否存在风险的方式可能也不同。本说明书在此给出一种具体实施例以供参考。例如，预测结果可以是所述目标企业存在信用风险的概率，此时，可具体地，当所述目标企业存在信用风险的概率不小于指定概率时，确定所述目标企业存在信用风险；当所述目标企业存在信用风险的概率小于指定概率时，确定所述目标企业不存在信用风险。其中，指定概率可根据具体需求进行设置，例如70％、80％等，本说明书对此不做具体限制。

通过上述方法便能够较为准确地确定出目标企业是否存在信用风险。

额外的，本说明书提供的预测模型可预先进行训练。具体地，可在历史数据中获取样本企业的样本多源数据，并确定所述样本企业的信用风险标注，所述样本多源数据至少包括样本区域数据、样本行业数据、样本企业数据，所述信用风险标注用于表征所述样本企业是否存在信用风险的真实结果；根据所述样本多源数据确定所述样本企业的特征指标；对所述特征指标进行预处理；将预处理后的特征指标输入待训练的预测模型，得到所述预测模型输出的待优化预测结果；以所述预测结果与所述信用风险标注之间的差异最小为优化目标，对所述预测模型进行训练。

其中，可将选定任意企业作为样本企业，并从历史数据中获取样本企业的多源样本数据。样本企业的信用风险标注可以为“是”或“否”，分别表示样本企业存在信用风险以及样本企业不存在信用风险；信用风险标注可根据样本企业在历史上是否真实发生过信用问题确定，当样本企业真实存在信用问题时，信用风险标注可以为“是”，当样本企业不存在信用问题时，信用风险标注可以是“否”。在预测模型的输出结果为概率的情况下，样本风险标注中，“是”可以对应于“100％”，“否”可以对应于“0％”。最终，以预测模型输出的待优化预测结果与信用风险标注之间的差异最小为优化目标，对预测模型进行训练，调整预测模型的参数即可。

当然，预测模型可存在多种不同的结构，例如可以是基于XGBoost模型的结构，也可以是基于结构化数据的深度模型，包含Transformer、多层感知机、残差网络等结构。本说明书对此不做具体限制。进一步地，在实际应用时，可对多种不同结构的预测模型同时采用上述方法进行训练，并最终保留训练效果最好的模型作为预测模型在实际应用时使用。其中，可采用精准率、召回率、F1值等评价指标进行模型评估。

额外的，在采用本说明书提供的信用风险预测方法预测出所有需要预测的企业是否存在信用风险后，可根据所有企业的预测结果，进行后续的整体评估。具体地，可确定各预设区域中存在信用风险的企业的数量，并将存在信用风险的企业数量的最多的预设区域中存在信用风险的企业的数量确定为第一最大数量，将存在信用风险的企业的数量最少的预设区域中存在信用风险的企业的数量确定为第一最小数量；针对每个预设区域，根据属于该预设区域的企业中存在信用风险的企业的数量，以及所述第一最大数量和所述第一最小数量，确定该预设区域的风险预警指数和风险变化指数。

通过上述方式，能够得到用于反映出一个区域内的所有企业的信用情况的风险预警指数与风险变化指数，以在后续做出快速地政策应对。举例来说，假设某省内存在信用风险的企业预测数量最多的市为X1(10000家)，存在信用风险的企业预测数量最少的市为X2(100家)。将存在信用风险的企业数量由低到高排序后线性映射到[1,100]区间内得到各级区域风险预警指数，计算方式如下：

风险预警指数(A市)＝(100-1)/(10000-100)*(A中存在信用风险的企业数-100)+1。例如，假设预测出M市存在信用风险的企业数量为500家，风险指数为(100-1)/(10000-100)*(500-100)+1＝5。

通过上述方式可得到省内各市信用风险预警指数排名表。

当然，区域的大小可根据具体需求进行变化，上述实施例以市为区域，下面以县为区域进行说明。同样地，假设某市内存在信用风险的企业预测数量最多的县为X3县(1000家)，存在信用风险的企业预测数量最少的县为X4县(10家)。那么则有：

风险预警指数(B县)＝(100-1)/(1000-10)*(B中存在信用风险的企业数-10)+1。假设预测出N市存在信用风险的企业数量为300家，则风险指数为(100-1)/(1000-10)*(300-10)+1＝30。

上述公式可以总结为，风险预警指数(区域Z)＝(100-1)/(第一最大数量-第二最小数量)*(Z中存在信用风险的企业数-预设数量)+常数项。其中，预设数量可根据区域的大小进行设定，例如对于市，可将预设数量设定为100，对于县，可将预设数量设定为10。公式中最后的常数项是为了保证风险预警指数最终不为0而设置的，通常可设置为1。

同样地，风险变化指数也可基于相同的思路进行确定。例如，假设某省内存在信用风险的企业预测增加最多的市为X1(增加4000家)，存在信用风险的企业预测增加最少的市为X2(增加200家)；假设某市内存在信用风险的企业预测增加最多的县为X3县(增加700家)，存在信用风险的预测增加最少的县为X4县(减少30家)。将存在信用风险的企业增加数量由低到高排序后线性映射到[1,100]区间内得到各级区域风险变化指数。此时可得：

风险变化指数(A市)＝(100-1)/(4000-200)*(A中存在信用风险的变化数-200)+1。风险变化指数(B县)＝(100-1)/(700-(-30))*(B中存在信用风险的企业变化数-(-30))+1。

更进一步地，基于同样地思路，还可针对行业确定出各行业的风险预警指数和风险变化指数。具体地，可确定各有效行业中存在信用风险的企业的数量，并将存在信用风险的企业数量的最多的有效行业中存在信用风险的企业的数量确定为第二最大数量，将存在信用风险的企业的数量最少的有效行业中存在信用风险的企业的数量确定为第二最小数量；针对每个有效行业，根据属于该有效行业的企业中存在信用风险的企业的数量，以及所述第二最大数量和所述第二最小数量，确定该有效行业的风险预警指数和风险变化指数。

例如，假设存在信用风险的企业预测数量最多的行业为投资与资产管理(2000家)，存在信用风险的企业预测数量最少的行业为商业银行服务(3家)。那么可得，风险预警指数(行业A)＝(100-1)/(2000-3)*(行业A中存在信用风险的企业数-3)+1。同样地，假设存在信用风险的企业预测增加最多的行业为投资与资产管理(增加900家)，存在信用风险的企业预测数量增加最少的行业为互联网批发(减少10家)。那么可得，风险预警变化指数(行业A)＝(100-1)/(900-(-10))*(行业A中存在信用风险的企业变化数-(-10))+1。上述公式的设计思路与确定区域的风险预警指数和风险变化指数时的设计思路相同，本说明书在此不再进行赘述。

更进一步地，当基于XGBoost结构设计预测模型时，在得到训练完成的预测模型后，可基于XGBoost特征重要性结合SHAP值分析影响较高的特征指标，从而辅助公共监管部门进行政策决策及调整。以图3和图4为例，图3和图4分别给出了在本方法中，一种可能的XGBoost特征重要性与SHAP值分析的柱状图。

如图3所示，根据XGBoost特征重要性可知，重要性排名前十的特征中有8个是和企业历史履约因素有关；1个涉及行业因素，即行业从业人数集中度；1个涉及企业基本属性，即企业成立时间。如图4所示，根据SHAP值平均值排序可知，相关性前十的特征中有4个是和企业履约因素有关；4个与行业因素有关；2个与企业基本属性有关。基于以上分析可得，企业是否存在信用风险和企业历史履约情况的相关性最大，其次是行业因素(例如：行业竞争性因素和行业丰度因素)以及企业基本因素(例如：成立时间和注册资本)。通过提供相关分析及重要因素辅助政府进行一些决策和调控，从而改善公共信用整体环境。

以上是本说明书提供的信用风险预测方法，基于同样地思路，本说明书还提供了相应的信用风险预测装置，如图5所示。

图5为本说明书提供的一种信用风险预测装置示意图，具体包括：

获取模块200，用于获取目标企业的多源数据，所述多源数据至少包括区域数据、行业数据、企业数据；

特征模块202，用于根据所述多源数据确定所述目标企业的特征指标；

处理模块204，用于对所述特征指标进行预处理；

预测模块206，用于将预处理后的特征指标输入预先训练的预测模型，得到所述预测模型输出的预测结果；

确定模块208，用于根据所述预测结果，确定所述目标企业是否存在信用风险。

可选地，所述获取模块200，具体用于将各三级行业确定为候选行业，并统计指定区域内属于每个三级行业的企业数量；将各企业数量不小于指定阈值的三级行业确定为有效行业；针对每个二级行业，将该二级行业下的各企业数量小于所述指定阈值的三级行业合并，作为该二级行业对应的其它行业；将各企业数量不小于指定阈值的其它行业确定为有效行业；针对每个一级行业，将该一级行业下的各二级行业对应的企业数量小于所述指定阈值的其他行业合并，作为该一级行业对应的其他行业，并将该一级行业对应的其他行业确定为有效行业；根据所述目标企业属于的三级行业，确定所述目标企业属于的有效行业；获取所述目标企业属于的有效行业的行业数据。

可选地，所述处理模块204，具体用于在所述目标企业的各特征指标中确定存在数据缺失的特征指标；针对所述目标企业的每个存在数据缺失且数据类型为整型的特征指标，采用预设数值对该特征指标进行填充；针对所述目标企业的每个存在数据缺失且数据类型为浮点型的特征指标，确定在所述目标企业属于的有效行业中，除所述目标企业外的其他企业的该特征指标的数据的均值，并采用所述均值填充所述目标企业的该特征指标。

可选地，所述处理模块204，具体用于针对每个特征指标，确定该特征指标的方差膨胀系数；当该特征指标的方差膨胀系数不小于指定系数时，舍弃该特征指标。

所述确定模块208，具体用于当所述目标企业存在信用风险的概率不小于指定概率时，确定所述目标企业存在信用风险；当所述目标企业存在信用风险的概率小于指定概率时，确定所述目标企业不存在信用风险。

可选地，所述装置还包括训练模块210，具体用于在历史数据中获取样本企业的样本多源数据，并确定所述样本企业的信用风险标注，所述样本多源数据至少包括样本区域数据、样本行业数据、样本企业数据，所述信用风险标注用于表征所述样本企业是否存在信用风险的真实结果；根据所述样本多源数据确定所述样本企业的特征指标；对所述特征指标进行预处理；将预处理后的特征指标输入待训练的预测模型，得到所述预测模型输出的待优化预测结果；以所述预测结果与所述信用风险标注之间的差异最小为优化目标，对所述预测模型进行训练。

可选地，所述评估模块212，具体用于确定各预设区域中存在信用风险的企业的数量，并将存在信用风险的企业数量的最多的预设区域中存在信用风险的企业的数量确定为第一最大数量，将存在信用风险的企业的数量最少的预设区域中存在信用风险的企业的数量确定为第一最小数量；针对每个预设区域，根据属于该预设区域的企业中存在信用风险的企业的数量，以及所述第一最大数量和所述第一最小数量，确定该预设区域的风险预警指数和风险变化指数。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的信用风险预测方法。

本说明书还提供了图6所示的电子设备的示意结构图。如图6所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的信用风险预测方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(ProgrammableLogic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware DescriptionLanguage，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced BooleanExpression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java HardwareDescription Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware DescriptionLanguage)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated CircuitHardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体地，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框，以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种信用风险预测方法，其特征在于，包括：

根据所述多源数据确定所述目标企业的特征指标；

对所述特征指标进行预处理；

根据所述预测结果，确定所述目标企业是否存在信用风险。

2.如权利要求1所述的方法，其特征在于，获取目标企业的行业数据，具体包括：

将各企业数量不小于指定阈值的三级行业确定为有效行业；

将各企业数量不小于指定阈值的其它行业确定为有效行业；

获取所述目标企业属于的有效行业的行业数据。

3.如权利要求2所述的方法，其特征在于，对所述特征指标进行预处理，具体包括：

4.如权利要求1所述的方法，其特征在于，对所述特征指标进行预处理，具体包括：

针对每个特征指标，确定该特征指标的方差膨胀系数；

5.如权利要求1所述的方法，其特征在于，所述预测结果为所述目标企业存在信用风险的概率；

6.如权利要求1所述的方法，其特征在于，预先训练预测模型，具体包括：

根据所述样本多源数据确定所述样本企业的特征指标；

对所述特征指标进行预处理；

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种信用风险预测装置，其特征在于，包括：

处理模块，用于对所述特征指标进行预处理；

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～7任一项所述的方法。