CN109670940A

CN109670940A - 基于机器学习的信用风险评估模型生成方法及相关设备

Info

Publication number: CN109670940A
Application number: CN201811342552.5A
Authority: CN
Inventors: 苏晓翠
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2019-04-23

Abstract

本发明涉及机器学习领域，其公开了一种基于机器学习的信用风险评估模型生成方法及相关设备，所述方法包括：获取用户的贷款样本数据；统计所述贷款样本数据中存有的预设样本数据；在所述贷款样本数据中存有的预设样本数据数量达到预设阈值时，将所述贷款样本数据作为目标训练数据；将所述目标训练数据转换为损失函数，并将所述损失函数添加进预设信用风险评估模型进行训练，从而生成目标信用风险评估模型。本发明通过预设样本数据对贷款样本数据进行预先判断，将判断后的有效的贷款样本数据对预先建立的信用风险评估模型进行训练，从而生成目标信用风险评估模型，通过有效的样本数据对机器模型进行训练，从而缩短机器模型的迭代周期。

Description

基于机器学习的信用风险评估模型生成方法及相关设备

技术领域

本发明涉及机器模型技术领域，尤其涉及一种基于机器学习的信用风险评估模型生成方法及相关设备。

背景技术

机器学习是一种终端设备利用数据进行各种工作的方法，通过机器学习可对输入的数据进行分析，总结出数据中的规律并生成机器模型，从而实现对数据的分析和判断，但是，判断生成的机器模型是否精确需要通过较长时间的表现才能得到，从而加大机器学习模型的迭代周期。

发明内容

本发明的主要目的在于提出一种基于机器学习的信用风险评估模型生成方法及相关设备，旨在缩短机器模型的迭代周期。

为实现上述目的，本发明提供一种基于机器学习的信用风险评估模型生成方法，所述基于机器学习的信用风险评估模型生成方法包括以下步骤：

获取用户的贷款样本数据；

统计所述贷款样本数据中存有的预设样本数据；

在所述贷款样本数据中存有的预设样本数据数量达到预设阈值时，将所述贷款样本数据作为目标训练数据；

将所述目标训练数据转换为损失函数，并将所述损失函数添加进预设信用风险评估模型进行训练，从而生成目标信用风险评估模型。

优选地，所述预设样本数据包括逾期时间信息或迁移率信息。

优选地，所述统计所述贷款样本数据中存有的预设样本数据之前，所述方法还包括：

将所述贷款样本数据与预设样本数据进行比较，在所述贷款样本数据中存有所述预设样本数据时，通过第一预设公式计算所述预设样本数据占所述贷款样本数据的集中度信息，所述第一预设公式为：

其中，CR表示集中度信息，X_i表示所述预设样本数据，X表示所述贷款样本数据，S表示所述预设样本数据占所述贷款样本数据中的比例，i表示第i个贷款样本数据，n表示所述贷款样本数据的数量；

根据所述集中度信息统计所述贷款样本数据中存有的预设样本数据。

优选地，所述根据所述集中度信息统计所述贷款样本数据中存有的预设样本数据，包括：

获取预设样本数据占所述贷款样本数据的集中度信息，根据所述集中度信息将所述贷款样本数据由高到底的顺序进行排序，判断所述贷款样本数据中存有的预设样本数据的数量。

优选地，所述将所述目标训练数据转换为损失函数，并将所述损失函数添加进预设信用风险评估模型进行训练，从而生成目标信用风险评估模型，包括：

获取所述目标训练数据的信用风险实际值，并根据所述目标训练数据进行预测，获取所述目标训练数据的信用风险预测值，根据所述信用风险实际值和所述信用风险预测值将所述目标训练数据通过第二预设公式转换为损失函数，将所述损失函数添加进预设信用风险评估模型进行训练，从而生成所述目标信用风险评估模型。

优选地，所述第二预设公式为：

其中，J表示损失函数，w、b表示所述目标训练数据的线性关系，y表示所述目标训练数据的信用风险实际值，表示对所述目标训练数据的信用风险预测值，i表示第i个所述目标训练数据，m表示所述目标训练数据的数量。

优选地，所述将所述目标训练数据转换为损失函数，并将所述损失函数添加进预设信用风险评估模型进行训练，从而生成目标信用风险评估模型之前，所述方法还包括：

获取历史贷款样本数据，将所述历史贷款样本数据与预设信用风险数据进行比较，根据比较结果提取所述历史贷款样本数据中的预设信用风险数据，获取所述预设信用风险数据中的目标信用风险特征变量，将所述目标信用风险特征变量输入到预先建立的卷积神经网络中，获得所述预设信用风险评估模型。

此外，为实现上述目的，本发明还提出一种基于机器学习的信用风险评估模型生成装置，所述基于机器学习的信用风险评估模型生成装置包括：

获取模块，用于获取用户的贷款样本数据；

统计模块，用于统计所述贷款样本数据中存有的预设样本数据；

定义模块，用于在所述贷款样本数据中存有的预设样本数据数量达到预设阈值时，将所述贷款样本数据作为目标训练数据；

生成模块，用于将所述目标训练数据转换为损失函数，并将所述损失函数添加进预设信用风险评估模型进行训练，从而生成目标信用风险评估模型。

此外，为实现上述目的，本发明还提出一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器学习的信用风险评估模型生成程序，所述基于机器学习的信用风险评估模型生成程序配置为实现如上所述的基于机器学习的信用风险评估模型生成方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于机器学习的信用风险评估模型生成程序，所述基于机器学习的信用风险评估模型生成程序被处理器执行时实现如上文所述的基于机器学习的信用风险评估模型生成方法的步骤。

本发明提出的基于机器学习的信用风险评估模型生成方法，通过预设样本数据对贷款样本数据进行预先判断，将判断后的有效的贷款样本数据对预先建立的预设信用风险评估模型进行训练，从而生成目标信用风险评估模型，通过有效的样本数据对机器模型进行训练，从而缩短机器模型的迭代周期。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端设备结构示意图；

图2为本发明基于机器学习的信用风险评估模型生成方法第一实施例的流程示意图；

图3为本发明基于机器学习的信用风险评估模型生成方法第二实施例的流程示意图；

图4为本发明基于机器学习的信用风险评估模型生成方法第三实施例的流程示意图；

图5为本发明基于机器学习的信用风险评估模型生成装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的终端设备结构示意图。

如图1所示，该终端设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及基于机器学习的信用风险评估模型生成程序。

在图1所示的终端设备中，网络接口1004主要用于连接外网，与其他网络终端设备进行数据通信；用户接口1003主要用于连接用户终端设备，与终端设备进行数据通信；本发明终端设备通过处理器1001调用存储器1005中存储的基于机器学习的信用风险评估模型生成程序，并执行本发明实施例提供的基于机器学习的信用风险评估模型生成的实施方法。

基于上述硬件结构，提出本发明基于机器学习的信用风险评估模型生成方法实施例。

参照图2，图2为本发明基于机器学习的信用风险评估模型生成方法第一实施例的流程示意图。

在第一实施例中，所述基于机器学习的信用风险评估模型生成方法包括以下步骤：

步骤S10，获取用户的贷款样本数据。

需要说明的是，所述贷款样本数据可为通过金融数据平台导入用户的贷款样本数据，还可为通过其他方式获取用户的贷款样本数据，本实施例对此不作限制，在本实施例中，以导入的贷款样本数据为例进行说明。

在本实施例中，所述贷款样本数据包括用户个人信息，贷款额度信息，贷款时间信息，已还贷款时间信息，还可包括其他贷款信息，本实施例对此不作限制。

可以理解的是，在本实施例中，执行主体为终端设备，例如服务器等。

步骤S20，统计所述贷款样本数据中存有的预设样本数据。

需要说明的是，所述预设样本数据包括逾期时间信息或迁移率信息，通过逾期时间信息可对用户的欺诈行为进行判断，通过迁移率信息可作为进行催收的判断标准，从而可扩展在反欺诈领域以及催收领域进行分析判断，提高机器模型的灵活性。

可以理解的是，逾期时间为到了还款期限而没有还款，则表示该用户进入了逾期，根据逾期天数，又分为M0-M7+等八个阶段，没有逾期的是M0，逾期1～29天的是为M1，逾期30～59的定义为M2，以此类推，逾期超过180天的定义为M7+，将处于某一逾期阶段的客户转到其他逾期阶段的变化情况为迁移率，通过迁移率通常可以用来预测不同逾期阶段的未来坏账损失。比如，M2-M3，表示从逾期阶段M2转到逾期阶段M3的比例，从而针对催收应用上实现对样本数据的预判。

在本实施例中，将所述贷款样本数据与有效的的参考数据，即逾期时间信息或迁移率信息，判断所述贷款样本数据是否包含所述参考数据，在所述贷款数据中未存有所述参考数据，则说明所述贷款样本数据中未存有有效的训练数据，在这种情况下，无需将所述贷款样本数据对预设信用风险评估模型进行训练，避免增大迭代时间，并且对预设信用风险评估模型也并没有提高，反而增大预设信用风险评估模型的噪声。

需要说明的是，由于所述预设样本数据包括逾期时间信息或迁移率信息，因此，对于在线学习的应用场景，不局限于传统意义上的信用风险模型和预测模型，可拓展到反欺诈、催收领域。

在具体实现中，对实时的申请反欺诈行为，由于传统模型需要一段时间贷后表现才能精确确定是否为欺诈，线上在线学习模型通过对短时间内相似可疑行为模式的集中度判断，从而可根据集中度判断出所述贷款样本数据是否含有异常数据信息，实现提前对贷款样本数据的预判，从而提高对样本数据判断的准确性。

步骤S30，在所述贷款样本数据中存有的预设样本数据数量达到预设阈值时，将所述贷款样本数据作为目标训练数据。

需要说明的是，所述预设阈值可为预设样本数据占所述贷款样本数据中的比例阈值，例如可设为70％，还可设为其他阈值参数，本实施例对此不作限制，在本实施例中，以70％为了进行说明。

在本实施例中，可通过判断预设样本数据在所述贷款样本***的集中度，例如所述集中度超过70％，表明所述贷款样本数据中含有有效的异常数据，可将所述贷款样本数据对所述预设信用风险评估模型进行训练，在所述集中度为50％，未超过所述预设阈值，则表明所述贷款样本数据中基本为无效的异常数据，则不将所述贷款样本数据对所述预设信用风险评估模型进行训练，从而缩短所述预设信用风险评估模型的迭代时间。

步骤S40，将所述目标训练数据转换为损失函数，并将所述损失函数添加进预设信用风险评估模型进行训练，从而生成目标信用风险评估模型。

需要说明的是，所述信用风险评估模型可为预先建立的机器学习模型，在对所述预设信用风险评估模型进行训练时，可通过预先选取的有效训练数据对所述预先建立的机器学习模型进行自动化优化，从而缩短所述信用风险评估模型的迭代时间。

本实施例通过上述方案，通过预设样本数据对贷款样本数据进行预先判断，将判断后的有效的贷款样本数据对预先建立的信用风险评估模型进行训练，从而生成目标信用风险评估模型，通过有效的样本数据对机器模型进行训练，从而缩短机器模型的迭代周期。

进一步地，如图3所示，基于第一实施例提出本发明基于机器学习的信用风险评估模型生成方法第二实施例，在本实施例中，所述步骤S20之前，所述方法还包括：

步骤S201，将所述贷款样本数据与预设样本数据进行比较，在所述贷款样本数据中存有所述预设样本数据时，通过第一预设公式计算所述预设样本数据占所述贷款样本数据的集中度信息。

需要说明的是，在本实施例中，对所述预设样本数据进行统计可进行数量的统计，还可进行集中度判断，在进行数量统计时，可统计所述贷款样本数据中的预设样本数据的数量，将所述数量与预设数量进行比较，从而判断出贷款样本数据中是否含有更多有效的预设样本数据。

步骤S202，根据所述集中度信息统计所述贷款样本数据中存有的预设样本数据。

在本实施例中，还可在短时间内进行集中度判断，具体为，获取预设样本数据，提取预设样本数据中权重较大的参考信息，判断所述参考信息在贷款样本数据信息中的比例，比例越大，说明贷款样本数据中是否含有更多有效的预设样本数据，例如所述预设样本数据中的逾期时间是反映欺诈行为一个重要指标，提取贷款样本数据中的逾期时间，当逾期时间占贷款时间的50％以上时，表明当前的贷款样本数据为具有欺诈行为的样本数据。

在具体实现中，通过所述第一预设公式计算出所述预设样本数据占所述贷款样本数据的集中度，所述第一预设公式为：

其中，CR表示集中度信息，X_i表示所述预设样本数据，X表示所述贷款样本数据，S表示所述预设样本数据占所述贷款样本数据中的比例，i表示第i个贷款样本数据，n表示所述贷款样本数据的数量。

进一步地，所述步骤S202，包括：

步骤S203，获取预设样本数据占所述贷款样本数据的集中度信息，根据所述集中度信息将所述贷款样本数据由高到底的顺序进行排序，判断所述贷款样本数据中存有的预设样本数据的数量。

在本实施例中，根据所述集中度信息将所述贷款样本数据由高到底的顺序进行排序，从而可根据集中度信息将所述贷款样本数据进行统计，从所述贷款样本数据中选取更符合业务需求的样本数据，从而提高对建立模型的准确性。

本实施例提供的方案，通过计算所述预设样本数据占所述贷款样本数据的集中度信息，通过所述集中度信息判断所述贷款样本数据中是否含有有效的预设样本数据，从而提高对贷款样本数据判断的正确性。

进一步地，如图4所示，基于第一实施例或第二实施例提出本发明基于机器学习的信用风险评估模型生成方法第三实施例，在本实施例中，基于第一实施例进行说明，所述步骤S40，包括：

步骤S401，获取所述目标训练数据的信用风险实际值，并根据所述目标训练数据进行预测，获取所述目标训练数据的信用风险预测值，根据所述信用风险实际值和所述信用风险预测值将所述目标训练数据通过第二预设公式转换为损失函数，将所述损失函数添加进预设信用风险评估模型进行训练，从而生成所述目标信用风险评估模型。

在本实施例中，通过所述损失函数将有效的的信用风险数据放入所述预设信用风险评估模型进行训练，从而提高所述预设信用风险评估模型对数据预测的正确性，并通过更多有效的信用风险数据对所述预设信用风险评估模型进行训练，从而缩短所述预设信用风险评估模型的迭代周期。

需要说明的是，通过所述第二预设公式将有效的信用风险数据转换为损失函数，所述第二预设公式为：

需要说明的是，在本实施例中，还可在损失函数中加入对客户放款额度指标，使得所述预设信用风险评估模型给出相应的建议审批额度，从而提高所述预设信用风险评估模型的灵活性，还可实现不同信用风险评分段对应的坏客户比例保持不变，风控政策不需要频繁调整规则切分点。

进一步地，所述步骤S40之前，所述方法还包括：

步骤S402，获取历史贷款样本数据，将所述历史贷款样本数据与预设信用风险数据进行比较，根据比较结果提取所述历史贷款样本数据中的预设信用风险数据，获取所述预设信用风险数据中的目标信用风险特征变量，将所述目标信用风险特征变量输入到预先建立的卷积神经网络中，获得所述预设信用风险评估模型。

需要说明的是，在本实施例中，所述预设信用风险评估模型为基于卷积神经网络建立的，通过历史贷款样本数据，例如包括用户的逾期时间等，提取所述历史贷款样本数据中的预设信用风险数据，将所述预设信用风险数据，根据逾期时间或者迁移率信息生成预设维度的信用风险评估模型，其中，所述预设维度为多维度，例如从时间维度，或者迁移率维度，并将生成的预设信用风险数据放入卷积神经网络进行训练，根据训练结果生成所述预设信用风险评估模型，从而实现信用风险评估模型的建立。

本实施例提供的方案，将用户的历史贷款样本数据生成预设维度的预设信用风险数据放入卷积神经网络进行训练，从而实现预设信用风险评估模型的建立。

本发明进一步提供一种基于机器学习的信用风险评估模型生成装置。

参照图5，图5为本发明基于机器学习的信用风险评估模型生成装置第一实施例的功能模块示意图。

本发明基于机器学习的信用风险评估模型生成装置第一实施例中，该基于机器学习的信用风险评估模型生成装置包括：

获取模块10，用于获取用户的贷款样本数据。

统计模块20，用于统计所述贷款样本数据中存有的预设样本数据。

在本实施例中，将所述贷款样本数据与有效的的参考数据，即逾期时间信息或迁移率信息，判断所述贷款样本数据是否包含所述参考数据，在所述贷款数据中未存有所述参考数据，则说明所述贷款样本数据中未存有有效的训练数据，在这种情况下，无需将所述贷款样本数据对预设预设信用风险评估模型进行训练，避免增大迭代时间，并且对预设信用风险评估模型也并没有提高，反而增大预设信用风险评估模型的噪声。

定义模块30，用于在所述贷款样本数据中存有的预设样本数据数量达到预设阈值时，将所述贷款样本数据作为目标训练数据。

生成模块40，用于将所述目标训练数据转换为损失函数，并将所述损失函数添加进预设信用风险评估模型进行训练，从而生成目标信用风险评估模型。

此外，为实现上述目的，本发明还提出一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器学习的信用风险评估模型生成程序，所述基于机器学习的信用风险评估模型生成程序配置为实现如上文所述的基于机器学习的信用风险评估模型生成方法的步骤。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于机器学习的信用风险评估模型生成程序，所述基于机器学习的信用风险评估模型生成程序被处理器执行如上文所述的基于机器学习的信用风险评估模型生成方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台智能终端设备(可以是手机，计算机，终端设备，空调器，或者网络终端设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于机器学习的信用风险评估模型生成方法，其特征在于，所述基于机器学习的信用风险评估模型生成方法包括：

获取用户的贷款样本数据；

统计所述贷款样本数据中存有的预设样本数据；

2.如权利要求1所述的基于机器学习的信用风险评估模型生成方法，其特征在于，所述预设样本数据包括逾期时间信息或迁移率信息。

3.如权利要求1所述的基于机器学习的信用风险评估模型生成方法，其特征在于，所述统计所述贷款样本数据中存有的预设样本数据之前，所述方法还包括：

4.如权利要求3所述的基于机器学习的信用风险评估模型生成方法，其特征在于，所述根据所述集中度信息统计所述贷款样本数据中存有的预设样本数据，包括：

5.如权利要求1至4中任一项所述的基于机器学习的信用风险评估模型生成方法，其特征在于，所述将所述目标训练数据转换为损失函数，并将所述损失函数添加进预设信用风险评估模型进行训练，从而生成目标信用风险评估模型，包括：

6.如权利要求5所述的基于机器学习的信用风险评估模型生成方法，其特征在于，所述第二预设公式为：

7.如权利要求1至4中任一项所述的基于机器学习的信用风险评估模型生成方法，其特征在于，所述将所述目标训练数据转换为损失函数，并将所述损失函数添加进预设信用风险评估模型进行训练，从而生成目标信用风险评估模型之前，所述方法还包括：

8.一种基于机器学习的信用风险评估模型生成装置，其特征在于，所述基于机器学习的信用风险评估模型生成装置包括：

获取模块，用于获取用户的贷款样本数据；

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器学习的信用风险评估模型生成程序，所述基于机器学习的信用风险评估模型生成程序配置为实现如权利要求1至7中任一项所述的基于机器学习的信用风险评估模型生成方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有基于机器学习的信用风险评估模型生成程序，所述基于机器学习的信用风险评估模型生成程序被处理器执行时实现如权利要求1至7中任一项所述的基于机器学习的信用风险评估模型生成方法的步骤。