CN112560921A

CN112560921A - 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法

Info

Publication number: CN112560921A
Application number: CN202011434807.8A
Authority: CN
Inventors: 江远强
Original assignee: Baiweijinke Shanghai Information Technology Co ltd
Current assignee: Baiweijinke Shanghai Information Technology Co ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-26

Abstract

本发明公开了一种基于模糊C‑均值算法的互联网金融平台欺诈行为检测方法，通过对采集互联网平台客户账户注册时的信息获取实时测点数据进行Z‑score归一化和降维标准处理，划分训练集和验证集，初始化模糊C‑均值的参数，采用模糊聚类有效性函数自动优选初始聚类数，由目标函数得到模糊C‑均值聚类模型，并根据训练集确定分类决策规则，将验证集进行分类并与用户的申请行为和贷后表现优化模型，将优化后的模糊C‑均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控，对疑似异常状态的申请发出***预警，进行人工审批环节或拒绝申请；本发明实现预警结果准确率高，欺诈识别能力强，降低了金融欺诈风险。

Description

一种基于模糊C-均值的互联网金融平台申请欺诈行为检测方法

技术领域

本发明属于互联网金融平台行业的风控技术领域，具体利用模糊C-均值算法提供一种检测互联网金融平台申请是否存在欺诈行为的方法。

背景技术

在互联网金融平台反欺诈中，传统的反欺诈检测方法主要是依赖先验知识制定的基于预先定义的反欺诈规则和有监督的机器学习算法，所检测的数据级别通常是原始属性或是细粒度级别的数据。而在当今大数据时代，金融风险维度通常是成百上千个且异常复杂，很难从单个或几个属性的制定有效反欺诈规则，而有监督的机器学习又需要积累大量表现样本来训练模型，不能及时识别出新型欺诈类型。针对这种问题，基于海量数据构建正常行为模型的异常检测技术被广泛采用。虽然目前针对于异常检测的方法有很多，但是各种方法多数并不能获得全局最优解，且误报率仍然有待于改善。

模糊C-均值(Fuzzy C-Means，FCM)算法是一种基于划分的模糊聚类算法，它的思想就是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。它通过优化目标函数得到每个样本点对所有类中心的隶属度，以极小化所有数据点与各聚类中心的欧式距离及模糊隶属度的加权和为目标，不断修正聚类中心和分类矩阵到符合终止准则，将具有类似特征的数据样本聚为一类。模糊C-均值聚类算法由于速度快、思想简单，得到广泛的使用，且非常适用于互金平台异常行为检测识别。

但传统的模糊C-均值算法应用时存在两个缺陷：一是初始聚类数c值只能依靠经验人为选取，不能自动优选初始聚类数；二是模糊C-均值算法对于样本中的孤立点、噪音数据比较敏感，易陷入局部最优，导致分类出现偏差，进而影响其异常检测的准确率和稳定性。

发明内容

为了解决上述技术问题，本发明中披露了一种基于模糊C-均值算法的互联网金融平台申请欺诈行为检测方法，本发明的技术方案是这样实施的：

一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法，包括以下步骤：

步骤1：数据采集，从互联网平台后端采集客户账户注册时的个人基本信息及历史行为数据，以及监测软件中获取实时测点数据；

步骤2：对采集的数据Z-score归一化和主成分分析降维，划分训练集和验证集；

步骤3：初始化模糊C-均值的参数，采用模糊聚类有效性函数确定聚类数；

步骤4：根据初始隶属度计算聚类中心，并更新隶属度，根据目标函数收敛得到模糊C-均值聚类模型；

步骤5：根据训练集确定分类决策规则，将验证集进行分类结合用户的申请行为和贷后表现优化模型；

步骤6：异常在线检测，将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控，对疑似异常状态的申请发出***预警，进行人工审批环节或拒绝申请。

进一步地，所述步骤1中，账户个人基本信息及注册申请节点数据，个人基本信息包括：性别、年龄、居住情况、婚姻状态、工作状态，注册申请数据包括账户注册手机号、绑定银行***、GPS位置、申请贷款类型、贷款年限、还款计划，用户操作行为数据包括操作行为和设备信息，其中操作行为埋点数据包括：登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时；设备信息包括：手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度，并对账户信贷、消费、提现行为数据中提取进行数字化处理。

进一步地，所述的步骤2中，由于模糊C-均值聚类算法对孤立点、噪音数据比较敏感，因此需要对原始数据集标准化处理，包括Z-score标准化和主成分分析法(PrincipalComponentAnalysis，PCA)降维，Z-score标准化可以统一量纲，主成分分析法可处理样本中的孤立点、噪音数据，消除特征间的自关联性，降维也可以降低计算量，便于处理高维数据，方法如下：

步骤2-1：将采集的n个样本的特征数据构成空间特征数据集X_(n×m)＝{x₁,x₂,…,x_i,…,x_n}，其中每个样本测得m个变量的数据，这n×m个数据构成一个空间特征数据集分析矩阵X：

可知x_ij(i＝1,2,…,n；j＝1,2,…,m)为第i条样本的第j个特征变量的取值。

步骤2-2：计算每个申请行为样本各个特征的均值和标准差：

步骤2-3：利用Z-score归一化得到标准化矩阵Z＝(z_ij)_n×m，计算公式如下：

步骤2-4：求解相关系数矩阵R＝(r_jk)_m×m，计算公式如下：

步骤2-5：求解特征值及特征向量：由特征方程|λE-R|＝0(其中E为单位向量)求出相关系数矩阵R的特征值由大到小排序λ₁＞λ₂＞…＞λ_m及对应特征向量为l₁,l₂,…,l_m。

步骤2-6：降维：按累计方差贡献率

的原则确定k值，从而通过取前k个主成分，得到主成分矩阵(F_ij)_n×k，主成分降维后的矩阵计算公式如下：

由原始数据X_(n×m)降维主成分矩阵(F_ij)_n×k得到从原始m维降至k维，矩阵中的各个列向量F_v(v＝1,2,…,k)即为所有申请样本的第v主成分值。

进一步地，所述的步骤3包括以下步骤：

步骤3-1：模糊C-均值的参数初始化，设定聚类数

和模糊因子m∈(1,+∝)(m决定隶属度矩阵的模糊程度，一般情况下m取值为2)，收敛精度ε(ε＞0，为常数)，初始迭代次数t＝0。

步骤3-2：初始化一个隶属度隶属度：对给定数据集X的聚类就是要产生X的c个模糊子类X₁,X₂,…,X_c划分，隶属度u_ij表示第i个样本属于第j类的隶属度，满足：

u_ik∈[0,1]且

即隶属度矩阵U使用[0,1]之间的随机数来进行初始化，U＝(u_ij)为n×c维隶属度函数，表达式如下：

其中，i＝1,2,…,n为样本个数，j＝1,2,…,c是聚类数；

步骤3-3：使用模糊聚类有效性函数确定聚类数c，模糊聚类有效性函数如下：

得到聚类中心矩阵V＝{v₁,v₂,…,v_j,…,v_c}；

步骤3-4，使用模糊聚类有效性函数确定聚类数c，计算公式如下：

其中，i＝1,2,…,n为样本个数，j＝1,2,…,c是聚类数，m是模糊因子，u_ij是隶属矩阵U矩阵中的元素，v_i、v_j分别是聚类中心矩阵V中的第i、j行。

V_xb是类内紧凑度和类间分离度的比例，其中

为度量类内紧密性，其值越小，则该类越紧凑，min||v_i-v_j||²为度量类间的分离性，其值越大，分离度越大，V_xb在类内紧凑度和类问分离度之间找一个平衡点，使其达到最小，从而获得最好的聚类效果。

根据函数V_xb确定类数c，步骤如下：

(1)经过学者研究，经验性给定聚类数c的范围是

(2)取

时c的每个整数值及带入模糊聚类有效性函数计算所对应的V_xb值；

(3)比较各V_xb的值，取V_xb最小时所对应的c值，所获得聚类的效果最好。

进一步地，所述的步骤4包括以下步骤：

步骤4-1：根据步骤3-3聚类中心求出新的隶属度矩阵U，隶属度公式如下：

由更新的隶属度矩阵U^(t)得到此时的目标函数J^(t)：

其中，c表示通过模糊聚类有效性函数确定聚类数，m是模糊因子(一般情况下m取值为2)，d_ik＝||x_i-v_k||、d_ij＝||x_i-v_j||分别表示第i个样本与第k个、第j个聚类中心之间的欧式距离，i＝1,2,…,n、k＝1,2,…,n均是样本数，j＝1,2,…,c是聚类数；

步骤4-2：如果|J^(t)-J^(t-1)|≤ε(优选收敛精度ε为隶属度矩阵U范数值的1％)，则迭代结束，否则迭代次数t＝t+1，转步骤3-3、4-1、4-2继续迭代直至收敛。

模糊C-均值聚类算法的整体步骤如下：首先需要确定聚类数目c、模糊指数m和收敛精度ε的值，初始迭代次数t＝0。根据约束条件随机初始化一个隶属度矩阵，计算此时的聚类中心，由此得到目标函数J^(t)，并与上次目标函数J^(t-1)改变量小于收敛精度ε，即|J^(t)-J^(t-1)|＜ε则迭代结束，否则迭代次数t＝t+1，继续迭代。

进一步地，所述的步骤5中，当训练集聚类簇完成后，可将所有的聚类按其中包含的实例数量大小进行排序，根据训练集或实际业务的欺诈率设定阈值，确定分类决策规则，对于大于的聚类簇即认为是正常行为，否则即为异常。

然后将上述训练集训练的模糊C-均值模型在验证集分类，计算验证集属于正常或异常的概率，结合用户的申请行为和贷后表现作为分类标签和模糊C-均值模型的分类结果进行比对，判定分类的准确性，也通过选用其他距离度量方式，如曼哈顿距离，或根据其他实际业务确定的分类决策规则，进一步调整优化模型。

进一步地，所述步骤6中，将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控，通过训练好的模糊C-均值聚类模板库匹配出在线申请样本属于异常的概率，若达到异常申请状态的阈值，对疑似异常状态的申请发出***预警，进行人工审批或直接拒绝申请。

与现有技术相比，本发明具有以下有益的技术效果：

(1)对原始数据通主成分分析处理去除了孤立点、噪音数据影响，应用模糊聚类有效性函数自动优选初始聚类数c，根据经验法确定模糊指数m＝2和收敛精度ε为隶属度矩阵U范数值的1％，减少了人为主观因素，提高了模糊C-均值算法的异常检测准确率和稳定性；

(2)基于构建好的模糊C-均值计算匹配度进行申请行为异常检测，对实时进军申请行为数据计算已有模糊模型的匹配度，降低了数据处理过程中的计算量，能够自动快速且有效地实现互联网金融平台申请行为监测，保证互联网金融平台申请行为检测设别实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一种实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一种优选的实施方式中，结合图1所示，步骤2中所述的归一化处理是采用Z-score标准化，统一了量纲，使数据满足标准的高斯分布分布，避免了放大某些数量级较大的值的影响，从而使分类结果更加准确。

在一种优选的实施方式中，结合图1所示，步骤3和4采用欧式距离作为距离度量方式计算第i个样本与它的第j个聚类中心的欧式距离的公式如下：

作为模型优化，也可以采用曼哈顿距离

代替欧式距离作为距离度量方式，可进一步优化模糊C-均值模型。

为实现上述发明目的，本申请一方面提供了一种基于模糊C-均值算法的互联网金融平台欺诈行为在线检测自动识别模型，所述自动识别模型包括以下几个模块：

数据采集模块：从互联网金融平台后端采集客户账户注册时的个人基本信息及历史行为数据，以及监测软件中获取实时测点数据；

数据预处理模块：对样本数据采用Z-score归一化和主成分分析降维，提取倒谱特征作为特征参数；

训练模块，用于利用特征参数来训练模糊聚类模板库；

模型部署及在线检测：将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控，通过模糊聚类模板库匹配出待检测申请行为分类的最优模板，对疑似异常状态的申请发出***预警，进行人工审批流程或拒绝申请。

需要指出的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法，其特征在于，包括以下步骤：

步骤3：初始化模糊C-均值的参数，采用模糊聚类有效性函数自动优选初始聚类数；

步骤5：根据训练集确定分类决策规则，将验证集进行分类并结合用户的申请行为和贷后表现优化模型；

2.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法，其特征在于，所述步骤1中，账户个人基本信息及注册申请节点数据，个人基本信息包括：性别、年龄、居住情况、婚姻状态、工作状态；注册申请数据包括账户注册手机号、绑定银行***、GPS位置、申请贷款类型、贷款年限、还款计划；用户操作行为数据包括操作行为和设备信息，其中操作行为埋点数据包括：登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时；设备信息包括：手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度；并对账户信贷、消费、提现行为数据中提取进行数字化处理。

3.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法，其特征在于，所述的步骤2中由于模糊C-均值聚类算法对孤立点、噪音数据比较敏感，因此需要对原始数据集标准化处理，包括Z-score标准化和主成分分析法(PrincipalComponent Analysis，PCA)降维，Z-score标准化可以统一量纲，主成分分析法可处理样本中的孤立点、噪音数据，消除特征间的自关联性，降维也可以降低计算量，便于处理高维数据，方法如下：

步骤2-1：将采集的n个样本的特征数据构成空间特征数据集X＝{x₁,x₂,…,x_i,…,x_n}∈R^n×m，其中每个样本测得m个变量的数据，这n×m个数据构成一个空间特征数据集分析矩阵X如下：

步骤2-2：计算每个申请行为样本各个特征的均值

和标准差s_j：

步骤2-4：求解相关系数矩阵R＝(r_jk)_m×m，计算公式如下：

步骤2-5：求解特征值及特征向量：由特征方程|λE-R|＝0(其中E为单位向量)求出相关系数矩阵R的特征值由大到小排序λ₁＞λ₂＞…＞λ_m以及对应特征向量为l₁,l₂,…,l_m；

步骤2-6：降维：按累计方差贡献率

的原则，确定k，从而通过取前k个主成分，得到主成分矩阵(F_ij)_n×k，主成分降维后的矩阵计算公式如下：

由原始数据X_(n×m)降维至主成分矩阵(F_ij)_n×k，即从原始m维降至k维，矩阵中的各个列向量F_v(v＝1,2,…,k)即为所有申请样本的第v主成分值。

4.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法，其特征在于，所述的步骤3包括以下步骤：

步骤3-1：模糊C均值的参数初始化：设定聚类数

和模糊因子m∈(1,+∝)(m决定隶属度矩阵的模糊程度，一般情况下m取值为2)，收敛精度ε(ε＞0，为常数)，初始迭代次数t＝0；

u_ik∈[0,1]且

其中：i＝1,2,…,n为样本个数，j＝1,2,…,c是聚类数；

步骤3-3：根据隶属度计算聚类中心v_j(j＝1,2,…,c)，公式如下：

得到聚类中心矩阵V＝{v₁,v₂,…,v_j,…,v_c}；

步骤3-4，使用模糊聚类有效性函数确定聚类数c，模糊聚类有效性函数V_xb计算公式如下：

V_xb是类内紧凑度和类间分离度的比例，其中

根据函数V_xb确定类数c，步骤如下：

(1)经过学者研究，经验性给定聚类数c的取值范围为

(2)

时，遍历计算每个整数c所对应的V_xb值；

(3)比较各V_xb的值，取V_xb最小时所对应的c值，所获得的聚类效果最好。

5.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法，其特征在于，所述的步骤4包括以下步骤：

由更新的隶属度矩阵U^(t)得到此时的目标函数J^(t)：

其中，c表示通过模糊聚类有效性函数确定聚类数，m是模糊因子(一般情况下m取值为2)，d_ik＝||x_i-v_k||、d_ij＝||x_i-v_j||分别表示第i个样本与第k个、第j个聚类中心之间的欧式距离，i、k＝1,2,…,n是样本数，j＝1,2,…,c是聚类数；

步骤4-2：优选收敛精度ε为隶属度矩阵U范数值的1％，如果|J^(t)-J^(t-1)|≤ε，则迭代结束，否则迭代次数t＝t+1，转步骤3-3、4-1、4-2继续迭代直至收敛；

6.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法，其特征在于，所述的步骤5中，当训练集聚类簇完成后，可将所有的聚类按其中包含的实例数量大小进行排序，根据训练集的欺诈占比设定阈值，确定分类决策规则，对于大于的聚类簇即认为是正常行为，否则即为异常；

将上述训练集训练的模糊C-均值模型在验证集分类，计算验证集属于正常或异常的概率，结合用户的申请行为和贷后表现作为分类标签和模糊C-均值模型的分类结果进行比对，判定分类的准确性，也可通过选用其他距离度量方式，如曼哈顿距离，或根据业务的具体情况确定分类决策规则，进一步调整优化模型。

7.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法，其特征在于，所述步骤6中，将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控，通过训练好的模糊C-均值聚类模板库匹配出在线申请样本属于异常的概率，若达到异常申请状态的阈值，对疑似异常状态的申请发出***预警，进行人工审批或直接拒绝。