CN115545912A

CN115545912A - 基于绿色识别信息的信贷风险预测方法及装置

Info

Publication number: CN115545912A
Application number: CN202211513284.5A
Authority: CN
Inventors: 罗文辉; 朱赛; 张楠; 梁重庆; 吉秋红; 连霞
Original assignee: United Equatorial Environmental Assessment Co ltd
Current assignee: United Equatorial Environmental Assessment Co ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2022-12-30
Anticipated expiration: 2042-11-30
Also published as: CN115545912B

Abstract

本发明公开了一种基于绿色识别信息的信贷风险预测方法及装置，所述方法包括：接收绿色信贷申请信息，根据绿色信贷申请信息确定对应的绿色信贷类别；获取绿色信贷类别的完整样本；在完整样本数量小于预设的数量时，获取近似绿色信贷类别和相关传统类别样本；将近似绿色信贷类别和相关传统类别样本进行混合融合，生成虚拟样本；将所述虚拟样本通过预设的分类决策树，利用基尼系数对所述虚拟样本进行验证；将所述验证合格的虚拟样本加入到样本中对随机森林进行训练，并将接收的绿色信贷申请信息输入到训练完成的随机森林中，输出信贷风险预测结果，可以在缺少足够样本数量的情况下，提高信贷风险预测的准确性。

Description

基于绿色识别信息的信贷风险预测方法及装置

技术领域

本发明涉及信贷风险预测技术领域，尤其涉及一种基于绿色识别信息的信贷风险预测方法及装置。

背景技术

绿色信贷是环保总局、人民银行、银监会三部门为了遏制高耗能高污染产业的盲目扩张联合提出的一项全新的信贷政策。绿色信贷的本质在于正确处理金融业与可持续发展的关系。其主要表现形式为：为生态保护、生态建设和绿色产业融资，构建新的金融体系和完善金融工具。

信贷作为金融工具的一种，需要对风险进行预测，以尽可能规避可能的风险。其中，最主要的是避免违约风险，违约则会引发贷款的全部或部分损失。传统的信贷风险预测可采用数学模型，特别是神经网络模型方式进行风险预测，并将风险预测结果作为信贷审批的重要参考条件。

在利用神经网络模型对绿色信贷风险进行预测时，由于绿色信贷的种类众多，项目周期长，且绿色信贷发展时期较短，导致每种绿色信贷的样本数量过少，无法实现对神经网络模型进行充分训练，进而导致预测准确率较低。并且一般绿色信贷融资的项目多为减排节能类，其营利点更多集中于碳排放交易，影响因素与传统信贷因素差别较大，致使输入的数据较为分散，进而导致神经网络模型预测结果准确性较低，无法作为绿色信贷的审批参考条件。

发明内容

本发明实施例提供一种基于绿色识别信息的信贷风险预测方法及装置，以解决现有技术中优于绿色信贷样本数量过少和数据分散导致预测准确率下降的技术问题。

第一方面，本发明实施例提供了一种基于绿色识别信息的信贷风险预测方法，包括：

接收信贷申请信息，从所述信贷申请信息中提取字段和贷款投向、项目名称的关键字，根据所述关键字确定行业类别多级内容；

根据所述多级内容中的最小分类内容判断是否为绿色信贷，在为绿色信贷时确定对应的绿色信贷类别；

获取所述绿色信贷类别的完整样本；

在所述绿色信贷类别的完整样本数量小于预设的样本数量时，根据所述绿色信贷类别确定相关传统类别和近似绿色信贷类别；

获取近似绿色信贷类别样本和相关传统类别样本；

将近似绿色信贷类别样本和相关传统类别样本进行混合融合，生成虚拟样本；

将所述虚拟样本通过预设的分类决策树，利用基尼系数对所述虚拟样本进行验证，筛选得到验证合格的虚拟样本；

将所述验证合格的虚拟样本加入到样本中对随机森林进行训练，并将接收的绿色信贷申请信息输入到训练完成的随机森林中，输出基于绿色识别信息的信贷风险预测结果；

所述将近似绿色信贷类别和相关传统类别样本进行混合融合，包括：

对相关传统类别样本初始数据进行划分，分为项目数据和信贷申请人数据，分别建立项目数据矩阵和信贷申请人数据矩阵；

提取近似绿色信贷类别样本中每个考核节点对应的项目数据与政策补贴比例和环境效益转换参数的比例系数，生成考核节点影响矩阵，每个考核节点影响矩阵对应一个项目考察节点；

将所述项目数据矩阵和信贷申请人数据矩阵分别与每个考核节点影响矩阵相乘，得到每个考核节点对应的项目数据矩阵和信贷申请人数据矩阵；

从所述每个考核节点对应的项目数据矩阵和信贷申请人数据矩阵中提取对应的元素，作为虚拟样本的数据。

进一步的，所述随机森林,包括：

五个决策树，每个决策树中输入的数据至少包括其它一个决策树中的部分数据。

进一步的，所述五个决策树包括：

盈利能力决策树，营运能力决策树，环境效益决策树、减排额收益决策树和补贴收益决策树。

进一步的，所述根据所述绿色信贷类别确定相关传统类别，包括：

确定所述绿色信贷类别对应的最小级别；

获取与所述最小级别同级别的名称；

根据所述最小级别同级别的名称确定相关传统类别。

第二方面，本发明实施例还提供了一种基于绿色识别信息的信贷风险预测装置，包括：

接收模块，用于接收信贷申请信息，从所述信贷申请信息中提取字段和贷款投向、项目名称的关键字，根据所述关键字确定行业类别多级内容；

判断模块，用于根据所述多级内容中的最小分类内容判断是否为绿色信贷，在为绿色信贷时确定对应的绿色信贷类别；

绿色信贷类别完整样本获取模块，用于获取所述绿色信贷类别的完整样本；

确定模块，用于在所述绿色信贷类别的完整样本数量小于预设的样本数量时，根据所述绿色信贷类别确定相关传统类别和近似绿色信贷类别；

近似和相关样本获取模块，用于获取近似绿色信贷类别样本和相关传统类别样本；

生成模块，用于将近似绿色信贷类别样本和相关传统类别样本进行混合融合，生成虚拟样本；

验证模块，用于将所述虚拟样本通过预设的分类决策树，利用基尼系数对所述虚拟样本进行验证，筛选得到验证合格的虚拟样本；

训练模块，用于将所述验证合格的虚拟样本加入到样本中对随机森林进行训练，并将接收的绿色信贷申请信息输入到训练完成的随机森林中，输出基于绿色识别信息的信贷风险预测结果；

所述生成模块，包括：

划分单元，用于对相关传统类别样本初始数据进行划分，分为项目数据和信贷申请人数据，分别建立项目数据矩阵和信贷申请人数据矩阵；

提取单元，用于提取近似绿色信贷类别样本中每个考核节点对应的项目数据与政策补贴比例和环境效益转换参数的比例系数，生成考核节点影响矩阵，每个考核节点影响矩阵对应一个项目考察节点；

相乘单元，用于将所述项目数据矩阵和信贷申请人数据矩阵分别与每个考核节点影响矩阵相乘，得到每个考核节点对应的项目数据矩阵和信贷申请人数据矩阵；

作为单元，用于从所述每个考核节点对应的项目数据矩阵和信贷申请人数据矩阵中提取对应的元素，作为虚拟样本的数据。

进一步的，所述随机森林,包括：

进一步的，所述五个决策树包括：

更进一步的，所述确定模块包括：

最小级别确定单元，用于确定所述绿色信贷类别对应的最小级别；

获取单元，用于获取与所述最小级别同级别的名称；

相关传统类别确定单元，用于根据所述最小级别同级别的名称确定相关传统类别。

本发明实施例提供的基于绿色识别信息的信贷风险预测方法及装置，通过接收绿色信贷申请信息，根据所述绿色信贷申请信息确定对应的绿色信贷类别；获取所述绿色信贷类别的完整样本；在所述绿色信贷类别的完整样本数量小于预设的样本数量时，根据所述绿色信贷类别确定相关传统类别；获取相关传统类别样本和所述绿色信贷类别的不完整样本；获取近似绿色信贷类别和相关传统类别样本；将近似绿色信贷类别和相关传统类别样本进行混合融合，生成虚拟样本；将绿色信贷类别的不完整样本和相关传统类别样本进行混合融合，生成虚拟样本；将所述虚拟样本通过预设的分类决策树，利用基尼系数对所述虚拟样本进行验证；将所述验证合格的虚拟样本加入到样本中对随机森林进行训练，并将接收的绿色信贷申请信息输入到训练完成的随机森林中，输出基于绿色识别信息的信贷风险预测结果。利用近似绿色信贷类别和相关传统类别和绿色信贷类别样本数据之间的近似性和关联性，对近似绿色信贷类别和相关传统类别样本进行融合，保证数据之间的关联性。生成虚拟的绿色信贷类别样本数据。并利用绿色样本识别数据之间的关联性，通过预先设定的分类决策树，利用基尼系数对虚拟绿色信贷类别样本数据进行可靠性验证。并利用通过可靠性验证的虚拟绿色信贷类别样本数据和绿色信贷类别的完整样本对决策森林进行训练。有效解决了训练样本不足的问题，并利用训练完成的决策森林对绿色信贷类别的信贷风险进行预测。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一提供的基于绿色识别信息的信贷风险预测方法的流程图；

图2为本发明实施例二提供的基于绿色识别信息的信贷风险预测方法的流程图；

图3为本发明实施例三提供的基于绿色识别信息的信贷风险预测装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的基于绿色识别信息的信贷风险预测方法的流程图，本实施例可适用于在缺少足够绿色信贷类别样本的情况下，对绿色信贷风险进行精准预测的情况，具体包括如下步骤：

步骤110、接收信贷申请信息，从所述信贷申请信息中读取字段和贷款投向、项目名称的关键字，根据所述关键字确定行业类别多级内容。

在本实施例中，绿色信贷申请人或者绿色信贷客户经理可在绿色信贷审批***中输入绿色信贷申请信息。所述绿色信贷申请信息可以包括：申请人名称、成立时间、近年财务数据，贷款数据等申请人信息和项目类别，设计指标，实现周期，周期对应的指标、项目总投资额、项目预计贷款额、政策补贴额和环境效益转换参数等。根据输入申请信息中预设的数据类型和申请表单中的预设位置提取相应的关键词。

根据提取到的关键字确定行业类别的多级内容。在本实施例中，可以基于项目信息中提取的关键字确定行业类别多级内容。由于国民经济行业分类可依照包含关系分为四层类别关系，并分别设有对应的编码，并在第四层类别下再设有具体的描述，可作为补充第五类。可根据关键字中的项目名称和类别与国民经济行业类别进行匹配，并匹配对应的小类，得到行业类别多级内容。

步骤120、根据所述多级内容中的最小分类内容判断是否为绿色信贷，在为绿色信贷时确定对应的绿色信贷类别。

可根据上述提取的多级内容中的最小分类，即第四类或者第五类内容，与绿色产业目录中的内容进行匹配，根据匹配结果判断是否为绿色信贷。在匹配成功时，确定为绿色信贷。在为绿色信贷时，将所述小类作为对应的绿色信贷类别。示例性的，可以根据第5级分类中中的“生物质供热、余热余压利用”确定为绿色燃料类别。

步骤130、获取所述绿色信贷类别的完整样本。

获取之前相同绿色信贷类别的信贷的所有信息，作为完整样本。由于绿色信贷对应的周期较长，通常分为多个周期，因此，应收集每个周期节点的所有数据，特别是随时间变化的数据，例如：政策补贴比例和环境效益转换参数等数据。

步骤140、在所述绿色信贷类别的完整样本数量小于预设的样本数量时，根据所述绿色信贷类别确定相关传统类别和近似绿色信贷类别。

通常，为满足神经网络模型或者其他分类器的训练需求，通常需要足够多的样本。由于绿色项目执行周期长，通常在4-7年，因此，能够完整执行完所有周期的绿色项目数量较少。因此，首先需要判断该绿色信贷类别的完整执行的项目的数量，如果小于预设的样本数量时，则需要额外生成部分虚拟样本，用于对分类器进行训练。在本实施例中，可通过相关传统类别和近似绿色信贷类别的相关信息生成虚拟样本。所述相关传统类别可以为与所述绿色信贷类别在前述国民经济行业类别表中相同行业类别中的传统行业。例如：绿色信贷类别为垃圾生物质能源供热供压类别，则对应的传统类别为燃煤能源供热供压类别。所述近似绿色信贷类别可根据绿色信贷项目的环保效益效果确定。选择环保效益效果近似的类别作为近似绿色信贷类别。近似绿色信贷类别的环保效益结果与绿色信贷项目的环保效益效果相同或者近似。仍以前述生物质能源供热供压类别为例，其所实现的环保效益效果对应为节能减排，则可将天然气供热供压作为近似绿色信贷类别。

示例性的，所述根据所述绿色信贷类别确定相关传统类别，可以包括：确定所述绿色信贷类别对应的最小级别；获取与所述最小级别同级别的名称；根据所述最小级别同级别的名称确定相关传统类别。

步骤150、获取近似绿色信贷类别和相关传统类别样本。

由于相关传统类别样本中不能体现周期长的特定，且没有政策补贴比例和环境效益转换参数响应数据，因此，需要近似绿色信贷类别的样本和所述绿色信贷类别的不完整样本作为补充，用于后期与相关传统类别样本综合进行处理，以保证虚拟样本数据的完整性。

步骤160、将近似绿色信贷类别和相关传统类别样本进行混合融合，生成虚拟样本。

由于近似绿色信贷类别样本中包括：项目完整周期内每个阶段的特定节点中的数据，特别是处于变化中的政策补贴比例和环境效益转换参数等数据。而对应相关传统类别可提供近似的项目建设费用，运营和成本等信息。因此，可通过二者之间的融合，能够生成体现绿色信贷类别信贷特点的虚拟样本。

可选的，所述将近似绿色信贷类别和相关传统类别样本进行混合融合，可以包括：对相关传统类别样本初始数据进行划分，分为项目数据和信贷申请人数据，分别建立项目数据矩阵和信贷申请人数据矩阵；提取近似绿色信贷类别样本中每个考核节点对应的项目数据与政策补贴比例和环境效益转换参数的比例系数，生成考核节点影响矩阵，每个考核节点影响矩阵对应一个项目考察节点；将所述项目数据矩阵和信贷申请人数据矩阵分别与每个考核节点影响矩阵相乘，得到每个考核节点对应的项目数据矩阵和信贷申请人数据矩阵；从所述每个考核节点对应的项目数据矩阵和信贷申请人数据矩阵中提取对应的元素，作为虚拟样本的数据。

其中，所述考核节点可以为与绿色信贷项目中项目执行的各个考核时间节点。由于绿色项目周期较长，从投入-试运行-小规模中试-全面生成的各个周期中，每个时间节点对应的补贴和绿色效益都不尽相同。因此，需要考虑每个时间节点对应的项目数据与政策补贴比例。

此外，所述项目数据矩阵可包括涉及项目的多种财务数据，并按照财务数据类别与矩阵元素对应的位置关系依次填入，形成对应的项目数据矩阵。项目矩阵应为M×M矩阵，不足数则可以填入0。相应的，所述考核节点影响矩阵对应的行数与对应的项目数据矩阵的列数相同。

步骤170、将所述虚拟样本通过预设的分类决策树，利用基尼系数对所述虚拟样本进行验证。

决策树的生成过程最主要的部分是特征选择。特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的***标准，如何选择特征有着很多不同量化评估标准，从而衍生出不同的决策树算法。利用基尼系数可选择具有最高信息增益的特征作为测试特征，利用该特征对节点样本进行划分子集，会使得各子集中不同类别样本的混合程度最低，在各子集中对样本划分所需的信息（熵）最少。

在本实施例中，所述预设的分类决策树，可通过少量的绿色信贷类别的完整样本进行训练。在训练完成后，并计算第一个节点对应的基尼系数。然后将生成的少量虚拟样本也进行训练，同样计算第一个节点对应的基尼系数。如果二者较为接近，则说明第一节点的分类特征较为接近。则可说明模拟样本的质量较高，能够和真实的绿色信贷类别的完整样本较一致。可以用于对后期的风险预测模型进行训练。

步骤180、将所述验证合格的虚拟样本加入到样本中对随机森林进行训练，并将接收的绿色信贷申请信息输入到训练完成的随机森林中，输出基于绿色识别信息的信贷风险预测结果。

利用大量的验证合格的虚拟样本，可以对随机森林进行训练。使得随机森林在大量样本训练下，能够准确得到对应的风险预测识别结果。在训练完成后，可将当前接收到的绿色信贷申请信息输入到训练完成的随机森林中，并接收随机森林输出的绿色信贷风险结果。

本实施例通过接收绿色信贷申请信息，根据所述绿色信贷申请信息确定对应的绿色信贷类别；获取所述绿色信贷类别的完整样本；在所述绿色信贷类别的完整样本数量小于预设的样本数量时，根据所述绿色信贷类别确定相关传统类别；获取相关传统类别样本和所述绿色信贷类别的不完整样本；获取近似绿色信贷类别和相关传统类别样本；将近似绿色信贷类别和相关传统类别样本进行混合融合，生成虚拟样本；将绿色信贷类别的不完整样本和相关传统类别样本进行混合融合，生成虚拟样本；将所述虚拟样本通过预设的分类决策树，利用基尼系数对所述虚拟样本进行验证；将所述验证合格的虚拟样本加入到样本中对随机森林进行训练，并将接收的绿色信贷申请信息输入到训练完成的随机森林中，输出基于绿色识别信息的信贷风险预测结果。利用近似绿色信贷类别和相关传统类别和绿色信贷类别样本数据之间的近似性和关联性，对近似绿色信贷类别和相关传统类别样本进行融合，保证数据之间的关联性。生成虚拟的绿色信贷类别样本数据。并利用绿色样本识别数据之间的关联性，通过预先设定的分类决策树，利用基尼系数对虚拟绿色信贷类别样本数据进行可靠性验证。并利用通过可靠性验证的虚拟绿色信贷类别样本数据和绿色信贷类别的完整样本对决策森林进行训练。有效解决了训练样本不足的问题，并利用训练完成的决策森林对绿色信贷类别的信贷风险进行预测。

实施例二

图2为本发明实施例二提供的基于绿色识别信息的信贷风险预测方法的流程图，参见图2，本实施例在上述实施例的基础上进行优化，在本实施例中，对所述随机森林结构进行优化，所述随机森林包括：五个决策树，所述五个决策树包括：盈利能力决策树，营运能力决策树，环境效益决策树、减排额收益决策树和补贴收益决策树。

相应的，本实施例提供的基于绿色识别信息的信贷风险预测方法，包括：

步骤210，接收信贷申请信息，从所述信贷申请信息中提取字段和贷款投向、项目名称的关键字，根据所述关键字确定行业类别多级内容。

步骤220，根据所述多级内容中的最小分类内容判断是否为绿色信贷，在为绿色信贷时确定对应的绿色信贷类别。

步骤230，获取所述绿色信贷类别的完整样本。

步骤240，在所述绿色信贷类别的完整样本数量小于预设的样本数量时，根据所述绿色信贷类别确定相关传统类别和近似绿色信贷类别。

步骤250，获取近似绿色信贷类别和相关传统类别样本。

步骤260，将近似绿色信贷类别和相关传统类别样本进行混合融合，生成虚拟样本。

步骤270，将所述虚拟样本通过预设的分类决策树，利用基尼系数对所述虚拟样本进行验证，筛选得到验证合格的虚拟样本。

步骤280，将所述验证合格的虚拟样本加入到样本中对随机森林进行训练，并将接收的绿色信贷申请信息输入到训练完成的随机森林中，所述随机森林包括：五个决策树，所述五个决策树包括：盈利能力决策树，营运能力决策树，环境效益决策树、减排额收益决策树和补贴收益决策树输出基于绿色识别信息的信贷风险预测结果。

随机森林是一种分类器，具有平衡误差，并计算各例中的亲近度等优点。因此，在本实施例中采用随机森林作为分类器。一方面，由于训练数据大部分是构建得到的虚拟数据，利用平衡误差的特点，可减少识别错误。另外一方面，通过选用的五个决策树，盈利能力决策树，营运能力决策树，环境效益决策树、减排额收益决策树和补贴收益决策树，每个决策树的输出结果都能体现绿色信贷在该方面的结果，且绿色信贷的评价标准与传统信贷不同，其并不以能够稳定收回本息为唯一的判断点。其需要综合考虑社会效益和经济效益的结合，因此，设定上述五个决策树，同时，由于上述五个决策树之间互相彼此也会产生影响。例如：运营和盈利和环境效益之间密不可分，减排额收益则与环境效益和盈利能力存在关联。进而每个决策树之间对应采用的数据彼此之间存在关联，通过对上述五个决策树之间输入数据之间的控制和约束，能够进一步增强随机森林中各个决策树之间的亲近度，使得每个决策树得到的判别结果均趋向一致，也可避免由于输入数量类型过多出现过拟合，导致出现矛盾的判断结果。

此外，由于五个决策树之间互相彼此也会产生影响，因此，需要将每个决策树输入的数据设置为至少包括其它一个决策树中的部分数据。利用绿色信贷的各个评价指标对应的产生数据彼此存在关联的特点，进一步提升决策树之间的约束，保证每个决策树得到的判别结果均趋向一致。

本实施例通过对所述随机森林结构进行优化，所述随机森林包括：五个决策树，所述五个决策树包括：盈利能力决策树，营运能力决策树，环境效益决策树、减排额收益决策树和补贴收益决策树。利用平衡误差的特点，可减少识别错误。并且利用判别因素彼此关联的特性，进一步增强随机森林中各个决策树之间的亲近度，使得每个决策树得到的判别结果均趋向一致，也可避免出现过拟合，导致出现矛盾的判断结果。进一步提升了利用随机森林对基于绿色识别信息的信贷风险预测的准确性。

实施例三

图3为本发明实施例三提供的基于绿色识别信息的信贷风险预测装置的结构图，参见图3，所述基于绿色识别信息的信贷风险预测装置，包括：

接收模块310，用于接收信贷申请信息，从所述信贷申请信息中提取字段和贷款投向、项目名称的关键字，根据所述关键字确定行业类别多级内容；

判断模块320，用于根据所述多级内容中的最小分类内容判断是否为绿色信贷，在为绿色信贷时确定对应的绿色信贷类别；

绿色信贷类别完整样本获取模块330，用于获取所述绿色信贷类别的完整样本；

确定模块340，用于在所述绿色信贷类别的完整样本数量小于预设的样本数量时，根据所述绿色信贷类别确定相关传统类别和近似绿色信贷类别；

近似和相关样本获取模块350，用于获取近似绿色信贷类别样本和相关传统类别样本；

生成模块360，用于将近似绿色信贷类别样本和相关传统类别样本进行混合融合，生成虚拟样本；

验证模块370，用于将所述虚拟样本通过预设的分类决策树，利用基尼系数对所述虚拟样本进行验证，筛选得到验证合格的虚拟样本；

训练模块380，用于将所述验证合格的虚拟样本加入到样本中对随机森林进行训练，并将接收的绿色信贷申请信息输入到训练完成的随机森林中，输出基于绿色识别信息的信贷风险预测结果。

本实施例提供的基于绿色识别信息的信贷风险预测装置，通过接收绿色信贷申请信息，根据所述绿色信贷申请信息确定对应的绿色信贷类别；获取所述绿色信贷类别的完整样本；在所述绿色信贷类别的完整样本数量小于预设的样本数量时，根据所述绿色信贷类别确定相关传统类别；获取相关传统类别样本和所述绿色信贷类别的不完整样本；获取近似绿色信贷类别和相关传统类别样本；将近似绿色信贷类别和相关传统类别样本进行混合融合，生成虚拟样本；将绿色信贷类别的不完整样本和相关传统类别样本进行混合融合，生成虚拟样本；将所述虚拟样本通过预设的分类决策树，利用基尼系数对所述虚拟样本进行验证；将所述验证合格的虚拟样本加入到样本中对随机森林进行训练，并将接收的绿色信贷申请信息输入到训练完成的随机森林中，输出基于绿色识别信息的信贷风险预测结果。利用近似绿色信贷类别和相关传统类别和绿色信贷类别样本数据之间的近似性和关联性，对近似绿色信贷类别和相关传统类别样本进行融合，保证数据之间的关联性。生成虚拟的绿色信贷类别样本数据。并利用绿色样本识别数据之间的关联性，通过预先设定的分类决策树，利用基尼系数对虚拟绿色信贷类别样本数据进行可靠性验证。并利用通过可靠性验证的虚拟绿色信贷类别样本数据和绿色信贷类别的完整样本对决策森林进行训练。有效解决了训练样本不足的问题，并利用训练完成的决策森林对绿色信贷类别的信贷风险进行预测。

在上述各实施例的基础上，所述生成模块，包括：

在上述各实施例的基础上，所述随机森林,包括：

在上述各实施例的基础上，所述五个决策树包括：

在上述各实施例的基础上，所述确定模块包括：

获取单元，用于获取与所述最小级别同级别的名称；

本发明实施例所提供的基于绿色识别信息的信贷风险预测装置可执行本发明任意实施例所提供的基于绿色识别信息的信贷风险预测方法，具备执行方法相应的功能模块和有益效果。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于绿色识别信息的信贷风险预测方法，其特征在于，包括：

获取所述绿色信贷类别的完整样本；

在所述绿色信贷类别的完整样本的数量小于预设的样本数量时，根据所述绿色信贷类别确定相关传统类别和近似绿色信贷类别；

获取近似绿色信贷类别样本和相关传统类别样本；

2.根据权利要求1所述的方法，其特征在于，所述随机森林,包括：

3.根据权利要求2所述的方法，其特征在于，所述五个决策树包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述绿色信贷类别确定相关传统类别，包括：

确定所述绿色信贷类别对应的最小级别；

获取与所述最小级别同级别的名称；

根据所述最小级别同级别的名称确定相关传统类别。

5.一种基于绿色识别信息的信贷风险预测装置，其特征在于，包括：

所述生成模块，包括：

6.根据权利要求5所述的装置，其特征在于，所述随机森林,包括：

7.根据权利要求6所述的装置，其特征在于，所述五个决策树包括：

8.根据权利要求5所述的方法，其特征在于，所述确定模块包括：

获取单元，用于获取与所述最小级别同级别的名称；