CN112488228A

CN112488228A - 面向风控***数据补全的双向聚类方法

Info

Publication number: CN112488228A
Application number: CN202011439471.4A
Authority: CN
Inventors: 郑小禄; 诸葛天心; 刘羽中; 胡亮; 仵伟强; 尹昌
Original assignee: Jingke Internet Technology Shandong Co ltd
Current assignee: Jingke Internet Technology Shandong Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-12

Abstract

本发明涉及聚类分析技术领域，尤其涉及面向风控***数据补全的双向聚类方法，示例聚类主要是以簇内高相似性和簇间低相似性为目标，把样本点分配到不同的簇中，属性聚类将示例聚类得到的质心进行属性维度的聚类，充分考虑了示例维度与属性维度的信息，联合聚类有效捕获行列间的潜在规律，并以此构造局部矩阵，局部矩阵内的用户与项目存在着较强的相关性，通过潜在因子模型来填充局部矩阵，本发明通过双向聚类，具有对噪声鲁棒性较好的特点，通过捕获多个维度的特征，从而提高处理结果的精确度。

Description

面向风控***数据补全的双向聚类方法

技术领域

本发明涉及聚类分析技术领域，尤其涉及面向风控***数据补全的双向聚类方法。

背景技术

随着信息技术和互联网的发展，越来越多的机器学习算法应用于传统的金融领域。传统的金融领域中，如何通过大数据结合机器学习来进行金融风控备受关注。传统的风控模型大多都是建立在有标签的监督学习任务上。但随着数据量的不断增大，存储错误、采集设备不可靠、网络状态不稳定或用户恶意欺诈等原因，采集到的数据大多是不完整的。而这些不完整的数据可能是冗余、噪声或缺失等。数据缺失在风控***中是一个普遍现象，且丢失的数据量随用户规模、业务规模的增长呈指数级增长。缺失数据影响风控决策的准确性和可靠性，例如各种成熟的基于结构化完整数据的风控模型无用武之地；由于数据缺失导致不能产生决策等。数据缺失给风控***带来很多不利影响，不仅影响用户体验，同时提高决策风险。

基于矩阵分解的潜在因子模型已广泛用于面向风控***的数据补全中。然而传统的潜在因子模型只能从单一维度进行补全，存在着准确度的损失。从多个维度充分利用信息，已成为数据补全的重要研究方向。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种面向风控***数据补全的双向聚类方法，以解决对缺失数据补全的速度不足和效率不足的问题。

本发明是通过以下技术方案实现的：一种面向风控***数据补全的双向聚类方法，包括示例聚类、属性聚类、局部矩阵构造、局部矩阵填充、矩阵填充五个步骤，其中：

所述示例聚类为将样本点分配到不同的簇一内，各簇一的质心不同，各簇一的质心通过更新公式一得到，所述示例聚类中相似性通过距离计算公式一计算，距离计算公式一为

其中，D表示数据对象的属性个数，所述示例聚类中聚类分配的子集c的公式为

所述属性聚类为将示例聚类得到数据进行属性维度的聚类，分配到不同的簇二内，各簇二的质心不同，各簇二的质心通过更新公式二得到，所述属性聚类中相似性通过距离公式一计算，所述属性聚类中聚类分配的子集d的公式为

所述局部矩阵构造为将示例聚类和属性聚类进行联合聚类，得到局部矩阵；

所述局部矩阵填充为根据用户与项目存在的相关性，用潜在因子模型来填充局部矩阵，得到完整矩阵，所述潜在因子模型为A＝UV^T，其中A为局部模型，U和V分别为用户和特征项的潜在因子矩阵；

所述矩阵填充为将经过填充的局部矩阵填充至矩阵中，得到完整的矩阵。

进一步地，所述更新公式一和更新公式二均为

其中，Centerk定义为第k个簇的质心，Center_k表示第k个类簇，|C_k|表示第k个类簇中数据对象的个数。

进一步地，计算出Center_k后，选取样本点中距离该质心距离最近的点，更新为质心。

本发明的有益效果在于：示例聚类主要是以簇内高相似性和簇间低相似性为目标，把样本点分配到不同的簇中，属性聚类将示例聚类得到的质心进行属性维度的聚类，充分考虑了示例维度与属性维度的信息，联合聚类有效捕获行列间的潜在规律，并以此构造局部矩阵，局部矩阵内的用户与项目存在着较强的相关性，通过潜在因子模型来填充局部矩阵，本发明通过双向聚类，具有对噪声鲁棒性较好的特点，通过捕获多个维度的特征，从而提高处理结果的精确度，相比于现有的offset、KNN等均值填充的方法，本发明通过潜在因子填充的方式进行数据补全，有效提高了拟合效果。相比于现有的矩阵分解、多聚类等基于潜在因子填充的方法，本发明通过示例聚类与属性聚类，从两个维度捕获局部信息，对于局部信息有着更充分的挖掘与利用，从而得到更优的补全效果。

附图说明

图1为本发明主要步骤的简要流程图；

图2为本发明的算法全过程的流程图；

图3为本发明的数据示意图；

图4为本发明的可视化对比图。

具体实施方式

下面将结合发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下各实施例中，样本见附表1，

附表1

附表1为公开数据集“LendingClub”的部分数据，该公开数据集提供客户的个人信息和履约情况，常被用于测试算法基于客户个人信息对于客户履约与否的准确率判断。附表1中的每一行是一个客户的信息，每一列是该客户的所有属性，最后一列是该客户的履约情况，通常被用于算法预测客户履约与否的标签。

示例聚类中，获得第u个子集c_u的公式为

其中R为整个表的数据，R_u,:为整个表中属于第u个子集的所有行组成的局部示例矩阵，v_c为第u个子集的质心向量，是这个局部矩阵的代表特征向量。

附表2为一个示例子集矩阵例子。

附表2

属性聚类是将示例聚类得到的数据进行属性维度的聚类，分配到不同的簇二内，各簇二的质心不同，各簇二的质心通过更新公式二得到，属性聚类中相似性通过距离公式一计算，属性聚类中，获得第m个子集d_m公式为

其中

为属性聚类得到的局部矩阵数据，如附表3所示，

为整个表中属于第m个子集的所有列组成的局部属性矩阵，V_:,d为第m个子集的质心向量，是这个局部矩阵的代表特征向量。附表3为一个属性子集矩阵例子。值得注意的是，“违约与否”通常被视为一个标签，而不是属性，因此在属性聚类时，通常将这一维度数据删除后进行聚类操作，即

中不包含“违约与否”这一列。

附表3

实施例1

如图1-3所示，一种面向风控***数据补全的双向聚类方法，包括示例聚类、属性聚类、局部矩阵构造、局部矩阵填充、矩阵填充五个步骤，其中：

示例聚类为将样本点分配到不同的簇一内，各簇一的质心不同，各簇一的质心通过更新公式一得到，示例聚类中相似性通过距离计算公式一计算，距离计算公式一为

其中，D表示数据对象的属性个数，,示例聚类中聚类分配的子集c的公式为

其中d_m为属性聚类得到的局部矩阵数据，

为整个表中属于第m个子集的所有列组成的局部属性矩阵，V_:,d为第m个子集的质心向量，是这个局部矩阵的代表特征向量。

局部矩阵构造为将示例聚类和属性聚类进行联合聚类，得到局部矩阵；

局部矩阵填充为根据用户与项目存在的相关性，用潜在因子模型来填充局部矩阵，得到完整矩阵，潜在因子模型为A＝UV^T，其中A为局部模型，U和V分别为用户和特征项的潜在因子矩阵，其中，更新公式一和更新公式二均为

其中，Center_k定义为第k个簇的质心，Center_k表示第k个类簇，|C_k|表示第k个类簇中数据对象的个数，算出Center_k后，选取样本点中距离该质心距离最近的点，更新为质心。

矩阵填充为将经过填充的局部矩阵填充至矩阵中，得到完整的矩阵，缺失数据得到填充。

以附表1的样本处理为例，

面向风控***数据补全的双向聚类方法，操作步骤如下，

步骤1，输入缺失的风控数据，见附表1；

步骤2，构造模型，设定参数kn、km、I、J，kn为行向量聚类质心数量，取值与用户数量有关，对于附表1中的样本数据，kn＝3，km为列向量聚类质心数量，取值与属性数量有关，对于附表1中的样本数据，km＝2，I、J均为最大迭代次数，取值与矩阵行列维数有关，对于附表1中的样本数据，I＝J＝5，迭代次数i＝0，j＝0。

步骤3，从风控数据如附表1中随机选取kn个用户向量作为代表用户向量得到质心一，得到质量向量kn个如附表4所示，其中每行均为一个质心向量；

附表4

步骤4，根据距离公式一计算各个用户向量到kn个质心向量的距离，距离公式一为

D表示数据对象的属性个数，将用户向量的类划分至离其最近的质心向量，得到kn个簇一，其中三个簇分别如附表2、附表5、附表6所示；

附表5

16	5000	704	0.11	9	6	0.47	8	36	0.12	履约
											3	4000	689	0.22			0.58	16	36	0.16	履约
20	10225	689	0.33	30		0.7	52		0.16	履约
											18	6000	679		11	10	0.3	38	36	0.08	履约
19	24000	679	0.25	20			29	36	0.12	履约
											7	3000	674	0.15	32	10	0.34	25	36	0.16	履约
2	6000	669	0.08	37	1		8	36	0.12	履约
											6	3000	669	0.29		4			36	0.16	履约
13	5000	669	0.19	10	10	0.51	41	36	0.09	履约

附表6

14	35000	669	0.17	23		0.87	53	60	0.19	履约
											24	14400	669	0.27	37	10	0.74	29	60	0.19	违约
1	19150		0.13	11	1	0.39	41	36	0.19	履约
											5	12000		0.06	33	10	0.8	5	60	0.14	履约
11	5700		0.15	16	6	0.34		36	0.07	履约
											17	9600		0.15	10	6	0.86		36	0.11	履约
23	14000		0.13	32	9		22	36	0.16	违约

步骤5，通过质心公式对簇一求平均值，质心更新公式为

Center_k定义为第k个簇一的质心，C_k表示第k个类簇，|C_k|表示第k个簇一中数据对象的个数，得到质心二；

步骤6，迭代次数i＝i+1,判断迭代次数i是否等于I，若不相等执行步骤4，若相等执行步骤7；

步骤7，将得到的质心二矩阵转置，如附表7所示，得到质心二矩阵，从质心二矩阵中随机选取km个质心向量如附表8所示，每一行均为一个质心向量。

附表7

用户ID	7	21	24
				借贷数额	3000	6500	14400
信用评分值	674	714	669
				债务收入比	0.15	0.21	0.27
省份	32	37	37
				工作时长	10	10	10
周转额度利用率	0.34	0.75	0.74
				开通账户数量	25	12	29
贷款支付次数	36	36	60
				利率	0.16	0.12	0.19
违约与否	履约	履约	违约

附表8

信用评分值	674	714	669
				开通账户数量	25	12	29

步骤8，通过距离公式一计算每列到质心三的距离，，将每列的类划分至离其最近的质心三，形成km个簇二，其中两个簇二分别如附表9，附表10所示；

附表9

借贷数额	3000	6500	14400
				信用评分值	674	714	669
省份	32	37	37
				开通账户数量	25	12	29
贷款支付次数	36	36	60

附表10

债务收入比	0.15	0.21	0.27
				工作时长	10	10	10
周转额度利用率	0.34	0.75	0.74
				利率	0.16	0.12	0.19

步骤9，对簇二内求平均值，得到质心四；

步骤10，迭代次数j＝J+1,判断迭代次数j是否等于J，若不相等执行步骤8，若相等执行步骤11；

步骤11，通过行向量聚类结果(簇一)和列向量聚类结果(簇二)构建局部矩阵，附表4的行向量簇和附表9的列向量簇构建的局部矩阵如附表11所示，附表4的行向量簇和附表10的列向量簇构建的局部矩阵如附表12所示；

附表11

附表12

步骤12，通过潜在因子模型填充局部矩阵，潜在因子模型为A＝UV^T，其中A为局部模型，U和V分别为用户和属性的潜在因子矩阵，行数分别为用户数和属性数，列数为潜在因子维数，在本实例中，潜在因子维数为3，以附表11为例，通过公式A＝UV^T对于用户8的潜在向量U8和属性“省份”上的潜在向量V3，分别得到U8为[32.94，48.43，10.14]、特征“省份”V3为[0.22，0.04，3.24]，因此可以通过公式UV^T＝A’得到用户8在属性“省份”上的缺失值为U8V3^T＝42，可由此得到无缺失值的局部矩阵A’，对步骤11得到的所有局部矩阵进行填充；

步骤13，以步骤12得到的无缺失值局部矩阵的结果填充数据矩阵；

步骤14，输出数据矩阵，见附表13。

附表13

由附表13可以知道，通过本发明提供的面向风控***数据补全的双向聚类方法，能够稳定的补充缺失数据，对于目前阶段海量的缺失数据补充有及其重要的作用。

公开数据集实验效果对比：

该公开数据集由“LendingClub”在2013年至2015年之间发布的656，724条贷款记录组成。共有115个属性描述贷款申请。描述贷款当前状态的“贷款状态”属性具有以下值：“已发出”，“当前”，“已全额支付”，“默认”，“已收取”，“延迟(16-30天)”，“后期(31-120天)”和“处于宽限期”。这些状态用于将它们简化为二进制分类问题，即，具有“已收费”，“默认”，“延迟(31-120天)”和“延迟(16-30天)”的贷款申请被视为“不良”或“违约”贷款，而“当前”，“已全额支付”和“处于宽限期”被归类为“不良”贷款，其余则被忽略。值为0表示信誉良好，值为1表示信誉不良或违约。贷款额从$1000到$35,000不等，每笔贷款都有一个与之相关的“等级”(从A-G到A)。该等级按从小到大的顺序指定利率范围，范围从5.32％到29％。结果表明，利率较高的贷款有较高的违约风险。G级贷款中有31％是不良贷款，而A级贷款中只有3％是不良贷款。在该数据集中，算法性能的比较，通过AUC的高低来评价，AUC高的算法，准确率就更高。

为了进行比较，本申请人考虑了以下方法作为对比参考：

Offset：Offset使用项目的用户所有数据的平均值作为预测值，广泛用于对预测精度进行基准测试。

ItemKNN：ItemKNN将用户的属性聚类为多个子集，并使用每个子集的平均值作为预测值。

MF：矩阵分解(Matrix Factorization)是一种潜在因子模型。已广泛应用于风控***中。

ADFT：替代距离函数变换(Alternative Distance Function Transformation)使用必须链接并且不能在实例之间链接约束来学习距离函数，并使用距离函数来计算变换矩阵，从而使用一组特征来生成替代聚类。

MSC：稳定多聚类(Multiple Stable Clusterings)使用单纯形约束生成分配给特征的不同稀疏权重，然后使用谱聚类产生多个稳定聚类。

MetaClustering：元聚类是无监督多聚类类别中的一种众所周知的方法。它首先根据Zipf分布为特征赋予不同的权重，然后通过将k均值应用于加权特征来获得多个聚类。

本方案的方法用DCM表示。

实验结果：实验结果如表一所示，表一说明了本方案的方法和其他基线方法在AUC方面的性能。结果表明，所提出的DCM获得更好的性能。

表3

Offset

ItemKNN

MF

ADFT

MSC

MetaClustering

DCM

AUC

66.80％

77.79％

79.69％

84.55％

87.97％

88.22％

92.09％

可视化实验效果对比：为了更进一步说明本方案方法的性能，本方案采用可视化做进一步展示，如附图4所示，将ItemKNN和DCM聚类后得到的簇内填充后得到的图像进行对比，可以看到在相同簇数时，ItemKNN对于特征的表达不如DCM，这是由于DCM利用了两个维度的信息进行聚类。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向风控***数据补全的双向聚类方法，其特征在于，包括示例聚类、属性聚类、局部矩阵构造、局部矩阵填充、矩阵填充五个步骤，其中：

2.根据权利要求1所述的面向风控***数据补全的双向聚类方法，其特征在于，所述更新公式一和更新公式二均为

其中，Center_k定义为第k个簇的质心，Center_k表示第k个类簇，|C_k|表示第k个类簇中数据对象的个数。

3.根据权利要求2所述的面向风控***数据补全的双向聚类方法，其特征在于，计算出Center_k后，选取样本点中距离该质心距离最近的点，更新为新的质心。