CN108154430A

CN108154430A - 一种基于机器学习和大数据技术的信用评分构建方法

Info

Publication number: CN108154430A
Application number: CN201711465724.3A
Authority: CN
Inventors: 周春英; 朱明杰; 闵薇; 朱敏; 袁克皋
Original assignee: Shanghai Krypton Information Technology Co Ltd
Current assignee: Shanghai Krypton Information Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-06-12

Abstract

本发明公开了一种基于机器学习和大数据技术的信用评分构建方法,其特征在于，具体包括以下步骤：构建信贷主体人统一用户ID；将具有统一用户ID的信贷主体人数据进行提取和预处理成训练样本数据；通过机器学习分类算法‑集成树模型构建信用风险模型，根据信用风险模型获取风险概率；将风险概率自动转换为信用风险评分。本发明通过ID‑Mapping技术实现了信贷主体人的全域多维度大数据的高效准确的集成与融合，为信用风险模型的构建提供了信贷主体人的全域数据，并在此之上运用机器学习和大数据技术对信贷主体人进行定量信用风险分析从而提升了金融风控能力和降低信贷风险。

Description

一种基于机器学习和大数据技术的信用评分构建方法

技术领域

本发明涉及金融风控技术领域，特别是涉及一种基于机器学习和大数据技术的信用评分构建方法。

背景技术

当下，我国金融改革持续深化，以互联网金融为代表的普惠金融呈爆发式增长。2015年我国消费信贷规模达到19万亿，同比增长23.3%，据第三方权威报告预计2019年将达到41.1万亿之巨。风口背后，一方面是传统金融未服务到的人群基数庞大，且长期缺乏金融产品，因此普惠金融是刚需，规模、潜力巨大；另一方面，移动互联网设备迅速普及，新型交互模式极大提升信贷效率，且数据爆发时代使得海量数据获取成本和难度大幅降低，在此之上运用机器学习技术对庞大人群进行定量风险分析并对应匹配合理的金融服务不仅成为可能，而且规模效应明显。

因此，整个金融行业正在技术、资本和市场的共同作用下发生数字化重构，面对剧烈变化的商业竞争格局和愈加完善的政府监管措施，金融机构纷纷寻求成熟的相关技术以强化其数据化风险体系。

但在实际操作中，由于互联网数据（如行为，电商，社交等数据）与传统征信数据（如信贷记录，银行流水，房产证件等数据）存在天然的巨大差别，传统的金融风险数据技术往往难以对新型互联网数据进行有效的风险价值提取，更无法支撑普惠金融下高并发实时的金融业务需求，具体难点分解如下：

（1）数据融合困难，数据一般来自多个渠道和***，异质异构，且形式多样，诸如文本，时序，影像等类型，数据打通具有较大难度；

（2）数据使用困难，由于数据复杂度极大提升，且具有非结构化，低饱和，稀疏等特性，人工定义特征普遍耗时耗力，效率低；

（3）数据风险建模困难，特征加工之后往往会产生上千甚至上万维度变量，远远超出传统风控建模基于LR和评分卡体系的处理能力范围，急需更前沿的机器学习算法处理相应特征；

（4）模型集成困难，由于单一模型可能存在性能不稳定的问题，往往需要对不同模型进行集成以增强稳定性和泛化能力，传统方式缺乏相应的探索与验证；

（5）数据链条整合困难，从数据接入，预处理，特征加工到风险建模与迭代，形成持续优化的完整闭环***，并且能够快速迁移和复用进不同金融业务取得实际效果，也需要较长时间的积累和打磨。

因此，金融风控领域急需一套更加科学合理以及成熟的基于机器学习和全域大数据技术的信用风险评分构建方法来提升金融风控能力、降低信贷风险。

发明内容

本发明的目的是克服现有技术的不足，设计出一种基于机器学习和大数据技术的信用评分构建方法。

为达到上述目的，本发明所采用的技术方案是：

一种基于机器学习和大数据技术的信用评分构建方法，具体包括以下步骤：

步骤1：构建信贷主体人统一用户ID；

步骤2：将具有统一用户ID的信贷主体人数据进行提取和预处理成训练样本数据；

步骤3：通过机器学习分类算法-集成树模型构建信用风险模型；

具体地，首先，对所述训练样本数据的文本数据、时序数据和移动设备行为数据进行分析，自动提取得到其样本特征；其次，预设超参数最佳选择空间，根据特征选择后的训练样本数据和机器学习分类算法-集成树模型的标准性能指标，利用贝叶斯优化算法自动寻找出最佳超参数组合；根据机器学习分类算法-集成树模型以及最佳超参数组合构建出行为风险子模型、社交风险子模型和语义风险子模型；然后，根据行为风险子模型、社交风险子模型和语义风险子模型获得信用风险集成模型；最后，根据信用风险集成模型获取风险概率；

步骤4：将风险概率自动转换为信用风险评分。

作为优选地，所述步骤1中构建信贷主体人统一用户ID的具体步骤为：

首先，从主流数据平台获取同一信贷主体人的各类身份原始数据；

然后，利用ID-Mapping技术将获取的各类数据信息会聚融合成可唯一标识信贷主体人身份的统一用户ID。

作为优选地，所述主流数据平台包括关系型数据库、分布式数据存贮***、本地文件、在线实时服务调用数据接口。

作为优选地，所述同一信贷主体人的各类身份原始数据包括身份证号、手机号、设备号、用户编号。

作为优选地，所述步骤2中将具有统一用户ID的信贷主体人身份数据预处理成训练样本数据的具体步骤为：

判断信贷主体人身份数据的数据类型，所述数据类型包括离散型数据和连续型数据；

当所述信贷主体人身份数据为离散型数据时，对该数据进行去重复值处理、离散数据填补缺失值处理、去噪音处理以及离散数据特征变换处理；所述离散数据填补缺失值处理包括用户选择、直接丢弃、归为新类别和最高频类别；所述离散数据特征变换处理为二值化/哑编码处理；

当所述信贷主体人身份数据为连续型数据时，对该数据进行去重复值处理、连续数据填补缺失值处理、去噪音处理以及连续数据特征变换处理；所述连续数据填补缺失值处理包括用户选择、均值、归为新类和直接丢弃；所述连续数据特征变换处理包括用户选择、无量纲化、归一化/标准化、取对数。

作为优选地，所述训练样本数据的样本特征包括身份属性、履约能力、信贷历史、行为特质、消费偏好和社交影响。

作为优选地，所述机器学习分类算法-集成树模型采用LightGBM集成树模型、随机森林或XGBoost集成树模型。

作为优选地，所述贝叶斯优化算法采用Grid Search算法、Random Search算法或Hyperopt/skopt算法。

作为优选地，所述步骤4中风险概率转换为信用风险评分的计算公式为：

Factor = pdo/ln(2)；

Odds0 = (1-prob_1)/ prob_1;

Offset = score0 – Factor*ln(Odds0))；

Score = offset + Factor*ln(Odds))；

其中，Factor为Offset计算时使用的调整系数；pdo为好坏比增加一倍时增加的信用分数；Offset为计算Score时使用的调整分数变量；score0为好坏比为1时所对应的信用分，一般取值575；Odds为好坏比，好定义为未违约，坏为违约；prob_1为风险概率输出；Score 为最终计算出的信用风险评分。

本发明的积极有益效果：

1、本发明的基于机器学习和大数据技术的信用评分构建方法，通过ID-Mapping技术实现了信贷主体人的全域多维度大数据的高效准确的集成与融合，为信用风险模型的构建提供了信贷主体人的全域数据，并在此之上运用机器学习和大数据技术对信贷主体人进行定量信用风险分析从而提升了金融风控能力和降低信贷风险。

2、通过采用互联网级别的机器学习分类算法-集成树算法，极大提升了对高维、稀疏、低饱和的大数据的处理和风控建模能力，提升了模型算法训练时间性能、模型的准确性、稳定性。

3、本发明实现了模型算法的并行化（时间性能优化）、参数预置、自动调参、模型评估，形成Piepline式建模方式，从而使得模型构建智能化、标准化、快速化。

附图说明

图1为本发明方法流程图。

图2为将多种身份数据融合成统一用户ID的示意图。

图3为构建信贷主体人统一用户ID的流程图。

图4为信贷主体人数据预处理的流程图。

图5为构建信用风险模型的流程图。

图6为训练样本数据特征提取的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

结合图1说明本实施方式，本发明的基于机器学习和大数据技术的信用评分构建方法，可以汇聚信贷主体人的全域多维度大数据，包括移动互联网行为数据、贷款App内行为数据、信贷历史、运营商数据等，在此之上运用机器学习和大数据技术对信贷主体人进行定量信用风险分析从而提升了金融风控能力和降低信贷风险。

具体包括以下步骤：

步骤1：构建信贷主体人统一用户ID。

具体地，首先，从关系型数据库、分布式数据存贮***、本地文件或在线实时服务调用数据接口（如REST API接口）等主流数据平台获取同一信贷主体人的各类身份原始数据，所述身份原始数据包括身份证号、手机号、手机设备号、用户编号、社交网络账号、cookie、mac等数据。然后，利用ID-Mapping技术将获取的各类数据信息会聚融合成可唯一标识信贷主体人身份的统一用户ID。

步骤2：将具有统一用户ID的信贷主体人数据进行提取和预处理成训练样本数据。

机器学习分类模型的训练样本数据一般要求数据完整、二值化、量纲一致等，因此，需要对具有统一用户ID的信贷主体人数据进行预处理操作，所述预处理操作具体包括以下步骤：

首先，判断信贷主体人身份数据的数据类型，所述数据类型包括离散型数据和连续型数据。然后，对数据进行预处理操作。

当所述信贷主体人身份数据为离散型数据时，对该数据进行去重复值处理、离散数据填补缺失值处理、去噪音处理以及离散数据特征变换处理；所述离散数据的填补缺失值处理包括用户选择、直接丢弃、归为新类别和最高频类别；所述离散数据的特征变换处理为二值化/哑编码处理。

步骤3：通过机器学习分类算法-集成树模型构建信用风险模型。

具体地，首先，采用统计学方法对所述训练样本数据的文本数据、时序数据和移动设备行为数据进行分析，自动提取得到其样本特征，所述样本特征包括身份属性、履约能力、信贷历史、行为特质、消费偏好和社交影响，所述统计学方法包括描述和推断统计、物理动量以及计量学方法。图5所示，针对训练样本数据的文本数据和时序数据，通过上述统计学方法提取出其描述统计特征、推断统计特征、信息论特征和物理能量相关特征，从而得到最大值第一次出现的位置、估计信息熵、绝对动能等特征数据。针对训练样本数据的移动设备行为数据，通过提取出其金融领域知识特征、基于统计的特征，得到近一个月的通话总次数、联系人数量、安装APP总数等特征数据，所述移动设备行为数据包括通话记录、通讯录、移动APP安装信息、移动设备信息等数据。以电商交易数据这一时序数据为例，利用上述方法，可获得“最近一个月交易次数”，“最近一个月交易金额”等特征数据。

其次，根据机器学习分类算法-集成树模型构建出行为风险子模型、社交风险子模型和语义风险子模型。

由于复杂机器学习模型超参数较多并且参数之间互相依赖，例如LightGBM有多达几十个参数， learning_rate与n_estimators之间存在强依赖关系，使得在模型构建过程中，人工调参不仅对建模人员在算法原理上要求很高并且也很耗时。为了解决人工调参技术门槛高和效率低的问题，本申请中，在集成树模型算法进行数据拟合之前，预设超参数最佳选择空间，根据特征选择后的训练样本数据和机器学习分类算法-集成树模型的标准性能指标（例如AUC/ accuracy），利用贝叶斯优化算法自动调参寻找出模型效果最佳的最佳超参数组合。本实施例具体支持三种贝叶斯优化算法：Grid Search算法、Random Search算法或Hyperopt/skopt算法。

Grid Search算法：根据预设超参数最佳选择空间，枚举出所有参数组合，针对每个参数组合训练模型并评估，寻找最优参数组合。最耗时，但一定是最优解。

Random Search算法：根据超参数最佳选择空间和取值分布，对参数组合进行随机抽样形成备选参数组合，针对每一个参数组合训练模型并评估，寻找到最优参数组合。时间效率较Grid Search有很大提升，但不保证是最优解。

Hyperopt/skopt算法：基本思想是利用模型算法（目前支持三种算法：GP、GBRT、RF）对优化目标与参数之间进行拟合，并根据贝叶斯编程思想，根据每一轮的拟合结果预测下一轮能使优化目标最大化的最佳参数，迭代进行N轮直到优化目标达到收敛。

根据机器学习分类算法-集成树模型以及最佳超参数组合构建出行为风险子模型、社交风险子模型和语义风险子模型；所述机器学习分类算法-集成树模型可采用LightGBM集成树模型、随机森林或XGBoost集成树模型。

然后，根据行为风险子模型、社交风险子模型和语义风险子模型获得信用风险集成模型；

最后，根据信用风险集成模型获取风险概率；

步骤4：将风险概率自动转换为信用风险评分。

风险概率转换为信用风险评分的计算公式为：

Factor = pdo/ln(2)；

Odds0 = (1-prob_1)/ prob_1;

Offset = score0 – Factor*ln(Odds0))；

Score = offset + Factor*ln(Odds))；

其中，Factor为Offset计算时使用的调整系数，根据pdo计算得到；pdo为好坏比增加一倍时增加的信用分数；Offset最后计算Score时使用的调整分数变量，取值由score0，Factor和Odds计算得到；score0为好坏比为1时所对应的信用分，一般取值575；Odds为好坏比（好定义为未违约，坏为违约）；prob_1为风险概率输出；Score 为最终计算出的信用分。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解；依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种基于机器学习和大数据技术的信用评分构建方法,其特征在于，具体包括以下步骤：

步骤1：构建信贷主体人统一用户ID；

具体地，首先，对所述训练样本数据的文本数据、时序数据和移动设备行为数据进行分析，自动提取得到其样本特征；

其次，预设超参数最佳选择空间，根据特征选择后的训练样本数据和机器学习分类算法-集成树模型的标准性能指标，利用贝叶斯优化算法自动寻找出最佳超参数组合；根据机器学习分类算法-集成树模型以及最佳超参数组合构建出行为风险子模型、社交风险子模型和语义风险子模型；

最后，根据信用风险集成模型获取风险概率；

步骤4：将风险概率自动转换为信用风险评分。

2.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法，其特征在于，所述步骤1中构建信贷主体人统一用户ID的具体步骤为：

3.根据权利要求2所述的基于机器学***台包括关系型数据库、分布式数据存贮***、本地文件、在线实时服务调用数据接口。

4.根据权利要求2所述的基于机器学习和大数据技术的信用评分构建方法，其特征在于，所述同一信贷主体人的各类身份原始数据包括身份证号、手机号、设备号、用户编号。

5.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法，其特征在于，所述步骤2中将具有统一用户ID的信贷主体人身份数据预处理成训练样本数据的具体步骤为：

6.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法，其特征在于，所述训练样本数据的样本特征包括身份属性、履约能力、信贷历史、行为特质、消费偏好和社交影响。

7.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法，其特征在于，所述机器学习分类算法-集成树模型采用LightGBM集成树模型、随机森林或XGBoost集成树模型。

8.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法，其特征在于，所述贝叶斯优化算法采用Grid Search算法、Random Search算法或Hyperopt/skopt算法。

9.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法，其特征在于，所述步骤4中风险概率转换为信用风险评分的计算公式为：

Factor = pdo/ln(2)；

Odds0 = (1-prob_1)/ prob_1;

Offset = score0 – Factor*ln(Odds0)；

Score = offset + Factor*ln(Odds)；

其中，Factor为Offset计算时使用的调整系数；pdo为好坏比增加一倍时增加的信用分数；Offset为计算Score时使用的调整分数变量；score0为好坏比为1时所对应的信用分；Odds为好坏比，好定义为未违约，坏为违约；prob_1为风险概率输出；Score 为最终计算出的信用风险评分。