CN111695989A

CN111695989A - 一种风控信贷模型的建模方法和平台

Info

Publication number: CN111695989A
Application number: CN202010559365.3A
Authority: CN
Inventors: 杨凯越
Original assignee: New Share Technology Services Shenzhen Ltd
Current assignee: New Share Technology Services Shenzhen Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-09-22

Abstract

一种风控信贷模型的建模方法和平台，其中，风控信贷模型的建模方法，包括：获取用户基本信用信息和对应用户的风控评分；基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练，得到待选模型；对所述待选模型进行筛选，得到预测准确率最高的模型。本实施例的风控信贷模型的建模方法通过现有用户的用户基本信用信息和对应用户的风控评分来对待测试模型进行训练得到待选模型，并对所述待选模型进行筛选，得到预测准确率最高的模型，即可获得根据开发者需要的模型，过程简单，不依赖于工程师的经验，结果准确。

Description

一种风控信贷模型的建模方法和平台

技术领域

本发明涉及风控领域，具体涉及一种风控信贷模型的建模方法和平台。

背景技术

传统的风控模型从搭建到部署、测试和上线流程繁琐，调试周期漫长，模型搭建依赖工程师的先验经验和实现能力，加之数据清理和特征工程非常多，没有统一的建模思路让很多非专业模型工程师对搭建模型望而生畏。同时部署一份已完成的模型也会根据不同的环境产生困难，这些问题导致了风控模型的搭建效率低下，造成了搭建模型到部署的周期过长，时间上数据有效性的变动也会带来上线后效果的折扣，造成人力资源和数据资源的浪费。

发明内容

(一)发明目的

本发明的目的是提供一种可以在建模速度快，效率高的风控信贷模型建模方法。

(二)技术方案

为解决上述问题，本发明的第一方面提供了一种风控信贷模型的建模方法，包括：获取用户基本信用信息和对应用户的风控评分；基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练，得到待选模型；对所述待选模型进行筛选，得到预测准确率最高的模型。

可选地，上述风控信贷模型的建模方法还包括：基于python语言继承现有模型；对所述继承的模型进行重写，得到所述待测试模型。

可选地，所述用户基本信用信息包括：姓名、性别、年龄、学历、收入和逾期记录中的一种或多种。

可选地，所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练，得到待选模型，包括：基于所述用户基本信用信息和所述对应用户的风控评分对所述待测试模型进行预处理，得到标准化的模型；对所述标准化的模型进行训练得到所述待选模型。

可选地，所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理，得到标准化的模型；

对所述标准化的模型进行训练得到所述待选模型，包括：

其中，(1-1)式表达的是一个给定(x,y)的数据集，所述用户基本信用信息为x，所述对应用户的风控评分为y，其中符号m代表的是数据集大小，下标i代表该数据集的第i个数据；

(1-2)式表达的是模型管道是一个执行输入为x，可训练参数为Θ，超参数为H的函数f，其输出结果为

代表对y的预测；

(1-3)式表达的是一个模型管道包含了k个模块，其中第j个模块可训练的参数用θ_j表达，不可训练的超参数用h_j表示；

(1-4)式表达了训练模型的目的，J(D，Θ，H)表示的是数据集为D、可变系数为Θ以及超参数为H的代价函数J，训练模型的目的就是找到Θ^*，使得该条件下的代价函数J最小化。

可选地，得到Θ^*的步骤为：

公式(1-5)表示将

的计算过程分为前个模块处理完成后交付下个模块处理的循环过程；

(1-6)为(1-5)的分步形式，如此一来

则主要受到最后一个模块k的f(a_k-1，θ_k，h_k)影响，则

式(1-7)表示训练目的公式(1-4)的简化形式，第k个模块为所述待选模型，第1个模块至第k-1个模块为预处理过程，所述第k-1个模块为所述标准化的模型。

可选地，基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理，得到标准化的模型，包括：基于所述待测试模型的序变量进行连续变量标准化处理。

可选地，所述基于所述待测试模型的序变量进行连续变量标准化处理，包括：

任意第i个样本的x_i为一组向量，由d个特征值组成，这d个特征又分为nd个序变量xN_i，和c个类别变量xC_i。

可选地，基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理，得到标准化的模型，包括：基于所述待测试模型的序变量进行特征离散化处理。

可选地，所述基于所述待测试模型的序变量进行特征离散化处理，包括：

上式(4-2)表达了对特征离散化的处理，令xc_i，y为类别变量xC_i中的第j个变量，则xc_i，j的任意取值是属于穷集合A_j中，集合A_j的基数为|A|，令集合A的第k个为a_k，那么处理后的变量

为一个向量，其向量元素为b_k，若原变量数值xc_i，j＝a_k则为1，否则则为0。

可选地，所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练，得到待选模型，包括：基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组，得到所述待选模型。

可选地，所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组，得到所述待选模型，包括：

公式(2-1)为对数据集切分，如(1-1)所示，D为大小为m的数据集，那么将D分为T份，第t份为D_t，其数据内容为S(D，A_t，n)，表示利用服从A_t分布的抽样方法，从D中抽取n个数据组成D_t；那么数据集D中每个数据(x_t，i，y_t，i)表述为第t个子集D_t中的第i个数据；

公式(2-2)表示的是重组过程，h₀表示的是一组预设的共用超参数，任何子模型的超参数都共用相等，Θ为一组可训练的参数，第t个子模型的可训练参数为θ_t，对一个x进行预测为(2-2)的3式进行的内容，其中w_t表达预先对每个模型权重大小的分配；

则模型训练过程公式如下：

可选地，所述对所述待选模型进行筛选，得到预测准确率最高的模型，包括：基于ACC、ROC、PR或KS指标进行筛选。

本发明的第二方面提供了一种风控信贷模型的建模平台，其特征在于，包括：接收模块：用于获取用户基本信用信息和对应用户的风控评分；训练模块：用于基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练，得到待选模型；筛选模块：用于对所述待选模型进行筛选，得到预测准确率最高的模型。

(三)有益效果

本发明的上述技术方案具有如下有益的技术效果：

1.本发明的风控信贷模型的建模方法通过现有用户的用户基本信用信息和对应用户的风控评分来对待待测试模型进行训练得到待选模型，并对所述待选模型进行筛选，得到预测准确率最高的模型，即可获得根据开发者需要的模型，过程简单，不依赖于工程师的经验，结果准确。

2.本平台基于Python的环境进行开发，方便接入各种其他Python建模工具包或者自定义方法进行二次开发。解决了平台闭源和算法固化问题，方便快速迭代新模型。

3.本平台通过继承并重写对象方法，实现了命令转换已完成模型成可部署形式，可以以PMML形式在java上部署，也可以转换成sklearn版本在脱离该平台的情况下部署使用。解决了环境依赖问题和多语言混编的误差，可以在多种部署环境下上线。

4.本平台可以通过搭建通用建模管道进行一键建模，同时也能拆分各个模块精细化建模，方便快速搭建和定制化搭建。同时能使用集成学习进行模型联合，并对子模型进行评估，解决了开发低效问题，可以快速的建立Baseline模型，并在其之上细化。

附图说明

图1是本发明实施例1提供的风控信贷模型的建模方法的流程图；

图2是本发明实施例4提供的风控信贷模型的建模平台的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例1

图1是本发明实施例1提供的风控信贷模型的建模方法的流程图。

如图1所示，本实施例提供的风控信贷模型的建模方法，包括：获取用户基本信用信息和对应用户的风控评分；基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练，得到待选模型；对所述待选模型进行筛选，得到预测准确率最高的模型。本实施例的风控信贷模型的建模方法通过现有用户的用户基本信用信息和对应用户的风控评分来对待测试模型进行训练得到待选模型，并对所述待选模型进行筛选，得到预测准确率最高的模型，即可获得根据开发者需要的模型，过程简单，不依赖于工程师的经验，结果准确。

开方法的目的是得出基于目标的预测准确率最高的模型，使用这个模型可以对新用户的风控评分进行更准确的认证，以便对新用户的借贷信息进行调整，例如借贷额度、借贷周期或利息。

优选地，本实施例的建模方法，包括对建模方法周期流程做了可视化过程，对每个建模步骤都可以显示其结果，同时能一键输出建模指标和结果，方便对数据和模型解释。解决了展示需求，同时能减少重复工作。

可选地，上述风控信贷模型的建模方法还包括：基于python语言继承现有模型；对所述继承的模型进行重写，得到所述待测试模型。具体可继承sklearn、pandas_sklearn、xgboost和lightGBM等模型方法，将这些方法置于本平台的Pipeline中可以运行具体来说，可以基于Python的环境，以Scikit-Learn为基本框架进行开发，方便接入各种其他Python建模工具包或者自定义方法进行二次开发。解决了平台闭源和算法固化问题，方便快速迭代新模型。

具体地，所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练，得到待选模型，包括：基于所述用户基本信用信息和所述对应用户的风控评分对所述待测试模型进行预处理，得到标准化的模型；对所述标准化的模型进行训练得到所述待选模型。所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理，得到标准化的模型；对所述标准化的模型进行训练得到所述待选模型，包括：

代表对y的预测；

(1-4)式表达了训练模型的目的，J(D，Θ，H)表示的是数据集为D、可变系数为Θ以及超参数为H的代价函数J，训练模型的目的就是找到Θ^*，使得该条件下的代价函数J最小化。其细化的训练内容则是表达为对数据集

遍历，函数l计算每一个样本的真实y_i和预测

的差距，最终寻得参数Θ使得整体差距最小。

其中，得到Θ^*的步骤为：

公式(1-5)表示将

(1-6)为(1-5)的分步形式，如此一来

则主要受到最后一个模块k的f(a_k-1，θ_k，h_k)影响，则

式(1-7)表示训练目的公式(1-4)的简化形式，由于预测的

有对照目标y_i，而中间过程的

没有对照目标；所以仅能以训练目的公式(1-7)训练第k个模块。上述模型管道过程中，第k个模块为所述待选模型，第1个模块至第k-1个模块为预处理过程，所述第k-1个模块为所述标准化的模型。

具体地，基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理，得到标准化的模型，包括：基于所述待测试模型的序变量进行连续变量标准化处理。所述基于所述待测试模型的序变量进行连续变量标准化处理，包括：

具体地，所述对所述待选模型进行筛选，得到预测准确率最高的模型，包括：基于ACC、ROC、PR或KS指标进行筛选。例如ACC评价公式：

实施例2

本实施例与实施例1的不同之处在于，本实施例的基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行预处理，得到标准化的模型，包括：基于所述待测试模型的序变量进行特征离散化处理。所述基于所述待测试模型的序变量进行特征离散化处理，包括：

上式(4-2)表达了对特征离散化的处理，令xc_i，j为类别变量xC_i中的第j个变量，则xc_i，j的任意取值是属于穷集合A_j中，集合A_j的基数为|A|，令集合A的第k个为a_k，那么处理后的变量

本实施例与实施例1相同之处在此不在多做赘述。

实施例3

本实施例与实施例1的不同之处在于，本实施例的所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练，得到待选模型，包括：基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组，得到所述待选模型。所述基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组，得到所述待选模型，包括：

则模型训练过程公式如下：

实施例4

如图2所示，本实施例的建模平台包括：接收模块：用于获取用户基本信用信息和对应用户的风控评分；训练模块：基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行训练，得到待选模型；筛选模块：对所述待选模型进行筛选，得到预测准确率最高的模型。本实施例的风控信贷模型的建模平台通过现有用户的用户基本信用信息和对应用户的风控评分来对待待测试模型进行训练得到待选模型，并对所述待选模型进行筛选，得到预测准确率最高的模型，即可获得根据开发者需要的模型，过程简单，不依赖于工程师的经验，结果准确。

优选地，本实施例的建模平台，包括可视化模块，用于对建模周期流程做可视化处理，对每个建模步骤都可以显示其结果，同时能一键输出建模指标和结果，方便对数据和模型解释。解决了展示需求，同时能减少重复工作。

可选地，上述风控信贷模型的建模平台还包括：继承模块：基于python语言继承现有模型；具体可继承sklearn、pandas_sklearn、xgboost和lightGBM等模型方法，将这些方法置于本平台的Pipeline中可以运行。对所述继承的模型进行重写，得到所述待测试模型。具体来说，可以基于Python的环境，以Scikit-Learn为基本框架进行开发，方便接入各种其他Python建模工具包或者自定义方法进行二次开发。解决了平台闭源和算法固化问题，方便快速迭代新模型。

具体地，训练模块包括：预处理单元，用于基于所述用户基本信用信息和所述对应用户的风控评分对所述待测试模型进行预处理，得到标准化的模型；训练单元，对所述标准化的模型进行训练得到所述待选模型。预处理单元进行以下计算：

代表对y的预测；

遍历，函数l计算每一个样本的真实j_i和预测

的差距，最终寻得参数Θ使得整体差距最小。

其中，得到Θ^*的步骤为：

公式(1-5)表示将

(1-6)为(1-5)的分步形式，如此一来

则主要受到最后一个模块k的f(a_k-1，θ_k，h_k)影响，则

式(1-7)表示训练目的公式(1-4)的简化形式，由于预测的

有对照目标y_i，而中间过程的

具体地，预处理单元，包括：基于所述待测试模型的序变量进行连续变量标准化处理。预处理单元的计算过程包括：

具体地，筛选模块具体基于ACC、ROC、PR或KS指标进行筛选。例如ACC评价公式：

实施例5

本实施例与实施例4的不同之处在于，本实施例预处理单元，包括：基于所述待测试模型的序变量进行特征离散化处理。预处理单元的具体计算过程包括：

本实施例与实施例4相同之处在此不在多做赘述。

实施例6

本实施例与实施例4的不同之处在于，本实施例的训练模块包括：重构单元，用于基于所述用户基本信用信息和所述对应用户的风控评分对待测试模型进行拆分和重组，得到所述待选模型。重构单元的计算过程包括：

则模型训练过程公式如下：

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。