CN116797346A

CN116797346A - 基于联邦学习的金融欺诈行为检测方法及***

Info

Publication number: CN116797346A
Application number: CN202310669873.0A
Authority: CN
Inventors: 司徒任远; 谷文聪; 罗旭东; 王慧慧
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-09-22

Abstract

本发明公开了一种基于联邦学***均后的参数广播至客户端进行迭代更新。根据本地模型参数来维护全局共享模型，在一定程度上可以缓解金融欺诈行为检测领域中数据孤岛带来的有效可利用的数据量不足，数据样本极度倾斜不平衡等的问题，同时也增强了对数据集安全性和数据隐私的保护。

Description

基于联邦学习的金融欺诈行为检测方法及***

技术领域

本发明涉及机器学习技术应用领域，具体是一种基于联邦学习的金融欺诈行为检测方法及***。

背景技术

国外最早使用支持向量机(SVM)、BP神经网络等机器学习方法对金融信贷欺诈交易进行检测，并取得了一定的成果，在后续的发展中，基于HMM的随机森林方法、在联盟博弈论中开发使用功效指数Shapley值(SV)等方法被陆续提出；国内主要通过集成学习框架，构建了主动学习和监督学习相结合的欺诈检测方案对比传统方案，并利用高后验概率算法分别对两组***数据进行训练验证。

随着现代技术的发展，已经很多新技术已经被应用于分析客户可能造成欺诈的交易。一方面，由于金融交易和客户信息高度保密，各金融信贷机构的数据被认为敏感而不能相互传递，形成了一个个数据孤岛，数据都无法进行完备的整合，对于跨地区的数据的整合更具困难且成本更高。

另一方面，因为欺诈样本的数量较于正常样本过少，一般的检测***难以侦察欺诈模式，往往这种建立出的模型因缺乏足够的数据或数据特征而效果不佳。而联邦学习框架的应用可以很好的解决第一个问题，可以在避开端与端直接数据交换的基础上完成模型的训练。引入合适的过采样算法可以一定程度上解决第二个问题。

发明内容

本发明的目的在于提供一种基于联邦学习的金融欺诈行为检测方法及***。

实现本发明目的的技术解决方案为：一种基于联邦学习的金融欺诈行为检测方法，包括以下步骤：

在金融欺诈行为检测所在地区金融信贷网络上建立中央服务器，中央服务器保存有金融欺诈行为检测模型和全局模型参数；

金融信贷机构客户端下载当前金融欺诈行为检测模型和全局模型参数；

金融信贷机构客户端根据本地数据集，利用SMOTE算法对数据集进行过采样，提高欺诈样本在整个数据集中的占比；

金融信贷机构客户端用基于一维CNN网络的深度学习进行特征提取；

金融信贷机构客户端根据本地私有数据集，采用自己数据集的一阶导数和二阶导数进行模型参数计算，并对检测模型进行更新，对更新后的检测模型进行模型准确率计算；

中央服务器接收金融信贷机构客户端计算的模型参数进行聚合更新，广播加权平均后的参数到客户端，计算更新检测模型；

金融信贷机构客户端接收更新参数，进行迭代更新，对更新后的检测模型进行模型准确率计算；

当所有金融信贷机构客户端的金融欺诈行为检测模型准确率均达到设定要求后，利用最终更新的金融欺诈行为检测模型，对应金融信贷机构客户端对本地金融信贷数据进行检测，输出疑似金融欺诈样本。

进一步地，所有金融信贷机构客户端都加入或连接地区金融信贷网络。

进一步地，所述本地私有数据集包括多组数据，每组数据包括特征向量和对应的标签。

进一步地，所述特征向量，数据集仅包含了数字输入变量，除了“交易时间”、“交易数额”以及响应变量“交易类别”外，V1-V28均为主成分分析(PCA)转换后的信息。

进一步地，所述金融欺诈行为检测模型主体为XGBoost决策树模型，其学习目标为当前的全局模型参数下本地私有数据集的信息增益最大；本地数据集使用SMOTE算法进行过采样并通过一维CNN进行特征提取。

进一步地，所述对检测模型进行更新的具体过程包括：金融信贷机构客户端自适应调整的学习率，在当前全局模型参数下计算自己的私有数据集上的一阶导数g和二阶导数h以及信息增益并将参数上传至服务器，根据服务器广播的更新的全局参数g和h和客户端金融欺诈检测模型准确率，对本地的金融欺诈检测模型进行更新。

进一步地，中央服务器接收金融信贷机构客户端计算的模型参数进行聚合更新，更新检测模型的具体过程包括：

将K家金融信贷机构客户端对自己第t轮的更新参数和/>上传至中央服务器，中央服务器聚合所有金融信贷机构客户端的模型并通过加权平均计算更新参数，产生新一轮的全局金融欺诈检测模型参数g_t+1和h_t+1并将全局模型参数广播至客户端，继续迭代更新，直到所有金融信贷机构客户端金融欺诈检测模型准确率均达到设定要求。

一种基于联邦学习的金融欺诈行为检测***，包括：

中央服务器，用于保存金融欺诈行为检测模型和全局模型参数，接收金融信贷机构客户端计算的模型参数进行聚合更新，更新检测模型，加权计算并广播全局参数，当所有金融信贷机构客户端的金融欺诈行为检测模型准确率均达到设定要求后，停止更新；

金融信贷机构客户端，用于下载当前金融欺诈行为检测模型和接收中央服务器广播的全局模型参数，根据本地私有数据集，采用自己的一阶导数和二阶导数进行模型参数计算，并将计算值上传至中央服务器，接收广播的全局参数并对检测模型进行更新，对更新后的检测模型进行模型准确率计算，下载最新金融欺诈行为检测模型，利用其对本地金融信贷数据进行检测，输出疑似金融欺诈数据。

作为可选择的实施方式，所述中央服务器设置在金融欺诈行为检测所在地区金融信贷网络上。

作为可选择的实施方式，所述金融信贷机构客户端，包括：

接收模块，其用于从中央服务器下载金融欺诈行为检测模型和接受中央服务器广播的全局模型参数；

计算模块，其用于对本地数据进行模型训练计算，得到模型准确率和本地模型参数；

上传模块，其用于上传本地模型参数至中央服务器；

本地检测模块，其用于对本地金融信贷数据进行检测，输出疑似金融欺诈样本。

本发明与现有技术相比，其显著优点：(1)本发明使用了联邦学***均聚合算法，根据本地模型参数来维护全局共享模型，增强了对数据集安全性和数据隐私的保护。(3)金融信贷机构端在进行训练前，首先执行SMOTE过采样算法，在一定程度上可以缓解欺金融欺诈行为检测领域中数据孤岛带来的有效可利用的数据量不足。

附图说明

图1是本发明的基于联邦学习的金融欺诈行为检测***的结构图。

图2是本发明的基于联邦学习的金融信贷欺诈行为训练检测流程示意图。

具体实施方式

本发明提出的基于联邦学***均后的参数广播至客户端进行迭代更新。

本发明所采用的方案使联邦学习与金融领域中的金融欺诈行为检测相结合，一方面为打破各个金融信贷机构间的数据孤岛问题提供了新方法和思路，在保护客户隐私的同时减少金融信贷机构的损失，另一方面保护了金融信贷机构的数据安全和数据隐私，使参与进联邦学习的金融信贷机构能借助第三方的数据学习共享金融欺诈检测模型进行风险控制。

下面结合说明书附图和实施例对本发明作进一步的说明。

本发明基于联邦学习的金融欺诈行为检测***的一种具体实施方式如下：

结合图1所示，一种基于联邦学习的金融欺诈行为检测***，由中央服务器模块101、金融信贷机构端模块102、接收模块103、计算模块104、上传模块105、聚合更新模块106、本地检测模块107组成。

中央服务器模块101，其用于确定中央服务器；

金融信贷机构客户端102，其用于确定参与金融欺诈行为检测的金融信贷机构；

接收模块103，其用于金融信贷机构端从中央服务器下载金融欺诈行为检测模型和接收中央服务器广播的全局模型参数；

计算模块104，其用于金融信贷机构端对本地数据进行模型训练计算，得到模型准确率和本地模型参数；

上传模块105，其用于金融信贷机构端上传本地模型参数至中央服务器；

聚合更新模块106，其用于中央服务器聚合所有金融信贷机构端的模型更新参数，加权平均产生新的模型参数广播至所有金融信贷机构端，继续迭代更新；

本地检测模块107，其用于金融信贷机构端本地，对本地金融信贷数据进行检测，输出疑似金融欺诈样本。

本发明基于联邦学习的金融欺诈行为检测方法的一种具体实施方式如下：

结合图2所示，本发明一种基于联邦学习的金融信贷欺诈行为检测方法的具体流程为：

步骤201，通过中央服务器模块101确定中央服务器。

步骤202，通过金融机构客户端模块102确定参与联邦学习金融信贷欺诈行为检测的金融信贷机构。

步骤203，通过计算模块104对本地数据集进行过采样，提高欺诈样本占比。

步骤204，其次通过计算模块104对本地数据集进行特征提取。

步骤205，最后通过计算模块104本地数据进行模型训练计算，得到模型准确率和本地模型参数。

步骤206，金融机构客户端通过上传模块105将本地模型参数上传至中央服务器。

步骤207，中央服务器通过聚合更新模块106聚合所有金融机构客户端的模型更新参数，产生新的模型参数并广播至所有金融机构客户端，继续迭代更新。

步骤208，金融机构客户端通过接收模块103接收中央服务器广播的加权平均更新后的全局模型参数，进行迭代更新。

步骤209，所有金融机构客户端在准确率达标后，暂停联邦学习，通过本地检测模块107，对未知金融信贷数据进行检测，输出疑似金融信贷欺诈样本。

具体的，在步骤201中，在中央服务器的协调下，所有参与进联邦学习的金融信贷机构客户端协作训练联合金融欺诈行为检测***。固定的一组数量为K家金融信贷机构作为联邦学习的参与者，每个金融信贷机构都有一个自己本地的私有数据集是特征向量，特征V1,V2,...V28是用PCA获得的主成分，只有两个特征，时间和数量，/>是对应的标签，表示是否为欺诈行为，用n表示参与进整个联合欺诈检测***构建的所有数据集大小，n_k表示参与进联邦学习的第k个金融机构客户端的数据集的大小，因此有n_k＝|Di|，从中央服务器来看宏观数据总量为/>

在步骤203中，现实当中存在金融信贷欺诈的行为远远少于金融信贷正常的行为，金融信贷客户端会对本地数据集会采取SMOTE算法进行过采样。SMOTE算法将以存在的欺诈样本为蓝本生成随机的欺诈样本，提高欺诈样本在整个数据集中的占比，使得数据集的类分布相对平衡。

在步骤204中，我们所需要进行分类的数据由文本和数值构成，因此考虑使用一维卷积，因此会使用基于一维CNN网络的深度学习进行特征提取。CNN中卷积层对金融样本的原始特征进行学习和表示，在池化层采用最大池化对特征进行降维。以此网络基本架构，选择合适的激活函数和网络层数。之后会使用Droput技术克服深层网络过拟合的问题。最后得到经过全连接层的一维向量即所提取的特征。

在步骤205中，各个金融机构客户端金融信贷欺诈检测模型使用的是XGBoost决策树，所有参与进联邦学习的金融机构客户端和中央服务器都维护着这同一个欺诈检测模型。

在步骤205中，所有金融机构客户端对XGBoost决策树模型的学习目标是：

其中是整个累加模型的输出，正则化项∑_kΩ(f_k)是则表示树的复杂度的函数。计算损失函数的一阶导数g和二阶导数h得到信息增益，并以此进行树的优化。目标损失函数越小，学习效果越好，在学习过程中，为了促进学习，每个模型都有一个针对g和h定义的损失函数，损失函数数据上捕获模型的错误。

在每一轮的通信t＝1,2,...T过程中，各个参与进联邦学习的金融机构客户端从服务器下载当前的全局模型参数g_t和h_t。通过使用贪婪算法搜索最佳分割，旨在最大化每次迭代的学习收益:

其中这里I_L和I_R表示左、右数据样本索引集。

在步骤207中，将K家金融机构客户端对自己第t轮的更新参数和/>上传至中央服务器，中央服务器聚合所有金融机构客户端的模型更新参数，产生新一轮的全局金融欺诈检测模型参数g_t+1和h_t+1广播至所有客户端，继续迭代。

在步骤209中，在迭代T次后，当所有金融机构客户端金融信贷欺诈检测模型准确率均达到90％以上后，为了避免资源浪费，可以暂停更新模型参数，各客户端在本地对金融信贷数据进行金融欺诈行为检测。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于联邦学习的金融欺诈行为检测方法，其特征在于，包括以下步骤：

第一步，在所在地区金融信贷网络上建立中央服务器，所有金融信贷机构客户端都加入或连接地区金融信贷网络，中央服务器保存有金融欺诈行为检测模型和全局模型参数，检测模型主体为XGBoost决策树模型；

第二步，金融信贷机构客户端下载当前金融欺诈行为检测模型和全局模型参数；

第三步，金融信贷机构客户端根据本地私有数据集，利用SMOTE算法对数据集进行过采样；

第四步，进行客户/服务器端联合欺诈检测模型训练，在联邦学习框架下完成检测模型XGBoost决策树的训练，金融信贷机构客户端对检测模型采用XGBoost决策树模型进行训练；

第五步，中央服务器接收金融信贷机构客户端计算的模型参数进行全局参数计算并聚合更新。

第六步，当所有金融信贷机构客户端的金融欺诈行为检测模型准确率均达到设定要求后，金融信贷机构客户端利用最终更新的金融欺诈行为检测模型，对本地金融信贷数据进行检测，输出疑似金融欺诈样本。

2.根据权利要求1所述的基于联邦学习的金融欺诈行为检测方法，其特征在于：所述本地私有数据集包括多组数据，每组数据包括特征向量和对应的标签，具体为：数据集仅包含数字输入变量，包括“交易时间”、“交易数额”、响应变量“交易类别”以及V1-V28均为主成分分析PCA转换后的信息，对应的标签表示是否为欺诈行为。

3.根据权利要求1所述的基于联邦学习的金融欺诈行为检测方法，其特征是：所述XGBoost决策树模型，其学习目标为当前的全局模型参数下本地私有数据集的信息增益最大。

4.根据权利要求1所述的基于联邦学习的金融欺诈行为检测方法，其特征在于，所述客户/服务器端联合欺诈检测模型训练的方法具体为：

金融信贷机构客户端对数据集采用基于一维CNN网络的深度学习进行特征提取；

金融信贷机构客户端针对经过过采样和特征提取后的数据集采用XGBoost决策树模型进行训练，采用决策树的一阶导数和二阶导数进行模型参数计算；

中央服务器接收金融信贷机构客户端上传的模型参数进行聚合更新，广播加权平均后的参数到客户端，计算更新检测模型；

金融信贷机构客户端接收更新参数，进行迭代更新，对更新后的检测模型进行模型准确率计算。

5.根据权利要求1所述的基于联邦学习的金融欺诈行为检测方法，其特征在于，金融信贷机构客户端对检测模型采用XGBoost决策树模型进行训练的具体过程包括：

金融信贷机构客户端在当前全局模型参数下计算自己的私有数据集上的所训练决策树的一阶导数g和二阶导数h，并将两个非全局参数上传至服务器，客户端接受服务器广播的加权平均更新的全局参数的g和h，计算客户端金融欺诈检测模型准确率，对本地的金融欺诈检测模型进行迭代更新。

6.根据权利要求1所述的基于联邦学习的金融欺诈行为检测方法，其特征在于：中央服务器接收金融信贷机构客户端计算的模型参数进行全局参数计算并聚合更新，更新检测模型的具体过程包括：

将K家金融信贷机构客户端对自己第t轮的更新参数和/>上传至中央服务器，中央服务器聚合所有金融信贷机构客户端的模型并通过加权平均计算更新参数，产生新一轮的全局金融欺诈检测模型参数g_t+1和h_t+1，并将全局模型参数广播至客户端，继续迭代更新，直到所有金融信贷机构客户端金融欺诈检测模型准确率均达到设定要求。

7.一种基于联邦学习的金融欺诈行为检测***，其特征在于，包括：

中央服务器模块，用于保存金融欺诈行为检测模型和全局模型参数，调用聚合更新模块进行全局的聚合更新，更新检测模型，加权计算并广播全局参数；中央服务器模块设置在金融欺诈行为检测所在地区金融信贷网络上，

金融信贷机构客户端，调用接收模块下载当前金融欺诈行为检测模型；根据本地私有数据集，调用计算模块，采用自己的一阶导数和二阶导数进行模型参数计算，并将计算值通过上传模块上传至中央服务器；调用接收模块接收广播的全局参数并对检测模型进行更新，通过计算模块对更新后的检测模型进行模型准确率计算；

接收模块，用于从中央服务器下载金融欺诈行为检测模型和接受中央服务器广播的全局模型参数；

计算模块，用于对本地数据进行模型训练计算，得到模型准确率和本地模型参数；

上传模块，用于上传本地模型参数至中央服务器；