CN110555455A

CN110555455A - 一种基于实体关系的在线交易欺诈检测方法

Info

Publication number: CN110555455A
Application number: CN201910525215.8A
Authority: CN
Inventors: 章昭辉; 蒋昌俊; 王鹏伟; 孟盈
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-12-10

Abstract

本发明涉及一种基于实体关系的在线交易欺诈检测方法，其关键在于，根据交易数据抽取实体关系，构建关系网络二部图，提出了基于节点收缩的异质网络同质化方法和基于集成学习、图表征学习的邻域信息聚合提升树分类模型机制。本发明提供的方法从实用性角度出发，通过将注意力从交易节点本身转化到关系网络中交易的若干阶邻域信息，充分考虑交易之间潜在的关联关系，为挖掘团伙欺诈提供了可能性。梯度提升模型通过不断拟合模型的残差，提高欺诈识别的效果，有很好的表现效果。同时，该方法将集成学习从网格型数据的应用扩展至图数据的应用领域。基于以上方面，建立了借贷交易欺诈检测方法的框架，为解决欺诈交易检测提供了技术支持。

Description

一种基于实体关系的在线交易欺诈检测方法

技术领域

本发明涉及一种网络交易检测方法，属于信息技术领域。

背景技术

近年来，随着互联网技术的发展，在金融领域催生了一大批新兴业务。网络交易为用户带来便利的同时，也为网络黑产提供了可乘之机。当前网络黑产呈现产业化、精准化、移动化、技术化等特征，尤其是线上信贷金融业务领域，这不仅要求对借款人的信用资质进行评估，还需要格外关注潜在的欺诈行为。对抗网络黑产已经成为互联网金融企业的一项核心研究课题。

类比传统的线下贷款流程需要收集申请人的关系信息，相关联系人在贷款业务中扮演着担保人的角色。目前的研究方法，主要是利用逻辑回归、决策树、随机森林等机器学习模型对金融交易特征进行分析，对于交易记录中的诸如联系人这样具有实体特征的属性，由于其离散化数量多方差大等特点，在建模过程中基本不予考虑，这些实体属性未能很好地表征和利用。尤其是在互联网信贷领域，借款申请人的社交关系在一定程度上能够反映该申请人较为准确的社会特征，对欺诈检测具有一定的作用。

不同于传统的社交关系网络，金融交易网络是异质的非连通稀疏图，且带有属性。这就使得传统的社交网络分析方法无法运用，非连通性导致衡量网络传递性的指标失效，例如，标签染色算法、pagerank算法和聚类系数指标等；稀疏图的属性使得中心性指标意义不大；而节点的同质性是社会网络分析的前提，不同物理意义、不同属性特征的节点在图域中属于不同的维度空间。同时，社会网络分析仅仅根据图的图的拓扑结构进行分析，然而线上业务间的弱关系性，无法作为交易欺诈检测的唯一且可信的依据。因此，如何将关系网络应用到互联网金融业务的欺诈检测中来，目前没有现成可以借鉴的方法。

线上借贷申请门槛低，申请对象一般不具有良好的抵押和信用机制，欺诈风险高于传统借贷方式。同时由于问题的特殊性，公开数据很少，在一定程度上限制了研究人员的研究进展。

基于规则的专家***和以机器学习为核心的数据挖掘方法是常用的反欺诈方式。专家***是指建立在专家的规则之上，通过大量规则的组合来完成对欺诈交易的拦截，可解释性强。机器学习是在给定一组描述交易的特征的条件下，预测交易的异常可能性。

Kulkarni和Ade提出了一个使用逻辑回归来解决***欺诈检测中数据不平衡问题的框架，Panigrahi等人在***诈骗的合成数据集上解决问题，使用Dempster-Schaefer加法器与贝叶斯模型，Sahin等人利用一家银行6个月的样本，研究了决策树识别***欺诈交易的能力。金融欺诈检测领域正负样本分布不均衡，为了提高分类器的学习能力，许多学者开始采用基于有放回抽样(bagging)机制的随机森林以及多模型的集成学习算法等。这些方法只能通过人工特征工程挖掘交易属性和欺诈行为的简单关系，由于数据的复杂性和隐特征的存在，无法检测强隐蔽性的欺诈交易。以CNN为代表的深度学习技术能够自动提取特征，K.Fu等人提出通过卷积神经网络对***欺诈进行检测。作为最基本的无监督学习方法之一的k-means也被应用于金融欺诈检测领域，此外，Dominik利用基于无标记聚类的SOM(self-organizing maps)算法进行用户行为建模。

这些研究方法都是通过对交易记录的特征分析建模，寻求群体间的共性和正常异常交易间的个体差异。网络信贷交易数据维度低、相关性低，存在许多实体类型的信息特征，例如家庭住址、联系人等信息。因此需要对相关实体进行关联分析，利用关系网络进行欺诈检测的思想逐渐被提出来，但是应用关系网络建模，挖掘金融欺诈落地的应用案例很少。

关系网络的研究本质是图，图是一种抽象程度高、表达能力强的数据结构，它通过对节点和边的定义来描述实体与实体之间的关联关系。实际场景中，图表征学习应用在社交关系网络、商品网络、知识图谱等很多方面。传统的基于图的异常检测方法主要分两类：定量检测和定性解释，都是根据图上的结构信息，例如中心度指标、集聚系数等，进行离群点、异常值的检测等。这种做法虽然考虑了实体间的关系，但是仅适用于不带属性的图。而信贷交易网络是带属性的图，传统的图异常检测算法忽略了节点或边的自身属性，造成了大量有价值信息的丢失。网络表示学习算法将网络信息转化为低维、实值、稠密的向量形式。图表征学习的主要算法有：借鉴自然语言处理领域Word2vec的向量化思想，提出一种无监督算法node2vec，将图中的node信息向量化表示，起到降维的效果，并且提取图上特征的同时，能够保存网络结构信息。但是，node2vec是一种无监督的算法，没有利用节点本身的标签信息，无法针对特定的分类任务有效提取特征信息。Cunchao Tu等人提出了一个网络表示学习(NRL)的节点判别模型max-margin DeepWalk(MMDW)，用于寻找社交网络中顶点的预测表示，将标记信息合并到节点表示中，构建半监督分类模型，联合优化了基于最大边缘的分类器(如支持向量)和NRL模型。Franco等人提出了图神经网络模型(graph neuralnetwork)的思想，将神经网络应用在图数据结构中。目前，网络表征学习算法主要用于无差异同质节点之间的挖掘，异质网络中不同节点由于其特征维度不同，特征表征困难。同时，Vlasselaer等人指出，图模式挖掘很少作为一种独立的金融欺诈检测模型，基于图挖掘的关系网络金融欺诈检测可以作为其他传统模型的补充，挖掘潜在的欺诈关系。因此，通过借鉴图表征学习机制，将电子交易的欺诈检测问题转化为图中节点分类预测问题，通过对网络结构特征进行表征学习，实现节点的分类预测任务。

发明内容

本发明的目的是：利用实体属性间的关系信息，结合图表征与集成学习的优势用于欺诈检测。

为了达到上述目的，本发明的技术方案是提供了一种基于实体关系的在线交易欺诈检测方法，包括基于关系网络的同质化节点收缩算法和基于图表征与集成学习的邻域聚合提升树算法，其特征在于，包括以下步骤：

(1)构建交易实体与属性实体之间的金融交易二分图关系网络，本质上是异质的带有属性的非连通稀疏图，构建过程包括如下步骤：

S101、划分数据集

将交易数据根据属性是否具有实体意义，划分为纯交易属性集合和用于构建网络的实体关系集合；

S102、特征工程

对于纯交易属性集合做特征工程，衍生变量；

S103、原始网络构建

对于实体关系集合，进行交易实体和属性实体之间的连接，得到代表不同物理意义节点的交易网络，该交易网络的本质上异质的带有属性的非连通稀疏二分图，一部分是交易实体节点集合，另一部分是抽象化掉实际物理意义的实体属性节点集合；

S104、返回数据集；

(2)金融交易二分图关系网络为异质网络，针对异质网络无法统一表征问题，利用节点收缩算法对金融交易二分图关系网络进行同质化处理得到同质化网络H，包括以下步骤：

S201、计算准备

金融交易二分图关系网络包括交易节点集合T和属性节点集合A，各集合内部没有边，集合之间有边相连表示交易实体和其属性之间的表征关系，以属性节点集合A为中心，计算属性节点集合A中的每个属性节点的邻居节点个数；

S203、节点收缩过程

对于属性节点集合A中，邻居节点个数大于1的属性节点，将与其相连的交易节点直接相连，同时将该属性节点删除，构成同质网络H；

S204、在同质网络H中删除重复出现的边；

S205、同质化过程结束；

(3)基于图的邻域信息聚合提升树方法，将交易特征通过关系网络进行信息融合，关注交易自身属性的同时，关注其邻域节点的属性，邻域信息聚合提升树算法以cart回归树作为基分类器，采用boosting串行基分类器的思想，每一棵新树的建立是为了拟合残差，包括以下步骤：

S301、节点***依据

加入防止过拟合的正则化操作，对残差进行二阶梯度拟合，加快收敛速度同时，对树的深度和宽度进行约束，得到目标函数：式中，T表示叶子节点个数，I_j表示第j个叶子节点的属性特征，g_i表示二阶导数，h_i表示泰勒一阶展开，λ表示叶子节点参数权重，γ表示叶子节点权重，δ表示树深的参数，d表示树的深度，表示当前模型的损失函数只和当前这棵树的所有叶子节点上邻域信息聚合后的当前特征，以及树的深度和叶节点个数有关；

考虑决策树当前节点是否进行***，看在关系网络中，指定邻域的节点属性特征聚合后，当前特征***之后左右子节点的目标函数值和是否大于该节点的目标函数值，即：式中，GL表示当前节点左子树的二阶导，G_R表示当前节点右子树的二阶导，G表示当前节点的二阶导，H_L表示当前节点左子树的一阶导数，H_R表示当前节点右子树的一阶导，H表示当前节点的一阶导数，如果是，则进行***；

S302、层次聚合

关系网络的本质是图，可以由邻接矩阵进行唯一表示，记作：关系矩阵R＝R+E，第i行所表示的节点的一阶邻居邻域信息聚合的过程可以表示为：R_i·X，式中，R表示关系矩阵，E表示单位矩阵，R_i表示节点i的关系向量，X表示属性矩阵；

而二阶邻域的信息聚合可以看作是当前节点一阶邻域的一阶邻域信息聚合，因此，递推可得下述公式：X′＝R·(R…··(R·(RX))…)，即：X′＝R^lX，式中，X′表示邻域信息聚合的过程，R^l表示聚合l层邻域信息的矩阵幂乘操作；

邻域信息聚合的层次选择，和同质网络的中心性特征相关；对于单笔交易，基于关系网络的邻域信息聚合通过网络关系因子与属性矩阵的幂乘操作进行实现；

S303、设定超参数

初始化该模型的参数有：邻域信息的聚合层次，决定关系网络的局部关注范围，同时聚合层次越高，计算复杂性越高，层次的选择对于本模型的效果有很大影响；此外，考虑到基分类器树模型的贪心算法本质，很容易过拟合，增加了树的最大深度，叶子节点的个数；

S304、分类预测

将同质网络和交易属性矩阵作为输入，对交易记录进行分类预测。

本发明涉及一种两阶段的基于关系网络的互联网借贷欺诈检测模型，其关键在于，在原始交易数据中，抽取实体关系，构建交易实体与属性实体之间的金融交易二分图关系网络，提出了基于节点收缩的同质化网络方法和基于集成学习、图表征学习的邻域信息聚合提升树分类模型机制。本发明提出的借贷交易欺诈检测方法，可以有效检测借贷交易中的欺诈行为。本发明提供的方法从实用性角度出发，通过将注意力从交易节点本身转化到关系网络中交易的若干阶邻域信息，充分考虑交易之间潜在的关联关系，为挖掘团伙欺诈提供了可能性。梯度提升模型通过不断拟合模型的残差，提高欺诈识别的效果，在正常异常交易的识别场景中，有很好的表现效果。基于这两方面，建立了借贷交易欺诈检测方法的框架，为解决欺诈交易检测提供了技术支持。

附图说明

图1是电子交易的欺诈深度检测方法的整体框架，通过将传统交易属性与交易关系网络结合考虑，进行建模；

图2是本发明的具体流程图；

图3是节点收缩算法的过程示意图；

图4是不同邻域信息采集层次的模型效果图；

图5是本模型与其他欺诈检测模型KS指标对比图；

图6是本模型与其他欺诈检测模型ROC指标对比图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明涉及的网络交易欺诈检测方法主要有以下三部分内容：

(1)基于关系网络的考量，对原始数据集进行实体关系抽取，构建异质的非连通的稀疏的原生网络二分图。

(2)借鉴同质网络研究的普遍性，提出基于节点收缩的异质网络同质化的方法。

(3)基于图表征学习和集成学习boosting的思想，在基分类器决策树的构建中，不仅考虑当前节的自身属性，通过结合关系算子，将注意力扩展至其邻域，提升特征的表征效果，进一步提升模型的效果。

本发明的技术核心在于第(2)部分和第(3)部分，在此基础上提出网络交易欺诈检测方法。在欺诈交易检测任务上，电子交易欺诈检测方法实现的关键在于两点：一方面欺诈交易呈现出的隐蔽性会严重影响欺诈检测模型的检测效果，检测方法的特征学习能力对检测欺诈交易十分重要；同时借贷交易欺诈检测的样本不均衡也影响模型检测效果。针对电子交易中欺诈行为的隐蔽性和借贷交易潜在的关联性，本发明提出了基于关系网络的同质化节点收缩算法和基于图表征与集成学习的邻域聚合梯度提升树算法，建立了本发明的借贷交易欺诈检测方法。

根据以上思想，建立本发明的电子欺诈交易检测方法的框架如下：

(1)构建交易实体与属性实体之间的金融交易二分图关系网络，本质上是异质的带有属性的非连通稀疏图，构建过程分为如下步骤：

S101、划分数据集

S102、特征工程

对于纯交易属性集合，做特征工程，衍生变量等工作；

S103、原始网络构建

对于实体关系集合，进行交易实体和属性实体之间的连接，得到代表不同物理意义节点的网络，该交易网络的本质上异质的带有属性的非连通稀疏二分图，一部分是交易实体节点集合，另一部分是抽象化掉实际物理意义的实体属性节点集合；

S104、返回数据集；

(2)在此基础上，针对异质网络无法统一表征问题，提出节点收缩算法进行同质化处理，包括以下步骤：

S201、数据输入

将交易网络二分图作为该算法的输入；

S202、计算准备

交易网络包括交易节点集合T和属性节点集合A，各集合内部没有边，集合之间有边相连表示交易实体和其属性之间的表征关系，以集合A为中心，计算A中的每个属性节点的邻居节点个数；

S203、节点收缩过程

对于节点集合A中，邻居节点个数大于1的节点，将与其相连的节点(交易实体)直接相连，同时将该节点删除；

S204、在同质网络H中删除重复出现的边；

S205、返回同质化网络。

至此，得到的同质化网络H中，只包含交易实体节点，同时也是我们欺诈检测模型关注的对象。

(3)基于图的邻域信息聚合提升树方法，将交易特征通过关系网络进行信息融合，关注交易自身属性的同时，关注其邻域节点的属性，邻域信息聚合提升树算法以cart回归树作为基分类器，采用boosting串行基分类器的思想，每一棵新树的建立是为了拟合残差。模型的重点在于如何建树，建树的重点在于如何实施节点***：

S301、节点***依据

借鉴集成学习GBDT的思想，加入防止过拟合的正则化操作，对残差进行二阶梯度拟合，加快收敛速度同时，对树的深度和宽度进行约束，得到目标函数：式中，T表示叶子节点个数，I_j表示第j个叶子节点的属性特征，g_i表示二阶导数，h_i表示泰勒一阶展开，λ表示叶子节点参数权重，y表示叶子节点权重，δ表示树深的参数，d表示树的深度，表示当前模型的损失函数只和当前这棵树的所有叶子节点上邻域信息聚合后的当前特征，以及树的深度和叶节点个数有关。

S302、层次聚合

关系网络的本质是图，可以由邻接矩阵进行唯一表示，记作：关系矩阵R＝R+E，第i行所表示的节点的一阶邻居邻域信息聚合的过程可以表示为：R_i·X；而二阶邻域的信息聚合可以看作是当前节点一阶邻域的一阶邻域信息聚合，因此，递推可得下述公式：X′＝R·(R…··(R·(RX))…)；即：X′＝R^lX，式中，R表示关系矩阵，E表示单位矩阵，R_i表示节点i的关系向量，X表示属性矩阵。

S303、设定超参数

初始化该模型的参数有：邻域信息的聚合层次，决定关系网络的局部关注范围，同时聚合层次越高，计算复杂性越高，层次的选择对于本模型的效果有很大影响；此外，考虑到基分类器树模型的贪心算法本质，很容易过拟合，增加了树的最大深度，叶子节点的个数等超参数；

S304、分类预测

将同质网络和交易属性矩阵作为输入，对交易记录进行分类预测；

本发明所述的基于实体关系的在线交易欺诈检测方法及***可以应用到某金融机构等在线网贷交易***之中，本发明所述的方法得到了国内某保险公司数据的实验验证。

以国内某家保险公司提供的真实贷款数据为例，数据集包含了308476条贷款记录，其中正样本占91.8％，欺诈记录占8.2％。

S1、根据原始贷款记录进行实体关系抽取，做特征工程，构建关系网络和属性矩阵。

S2、对原始异质信息网络进行同质化处理。

S3、将同质信息网络和属性矩阵作为邻域信息聚合提升树算法的输入，设置参数，对交易记录进行端到端的检测。

Claims

1.一种基于实体关系的在线交易欺诈检测方法，包括基于关系网络的同质化节点收缩算法和基于图表征与集成学习的邻域聚合提升树算法，其特征在于，包括以下步骤：

S101、划分数据集

S102、特征工程

对于纯交易属性集合做特征工程，衍生变量；

S103、原始网络构建

S104、返回数据集；

S201、计算准备

S203、节点收缩过程

S204、在同质网络H中删除重复出现的边；

S205、同质化过程结束；

S301、节点***依据

加入防止过拟合的正则化操作，对残差进行二阶梯度拟合，加快收敛速度同时，对树的深度和宽度进行约束，得到目标函数：式中，T表示叶子节点个数，I_j表示第j个叶子节点的属性特征，g_i表示二阶导数，h_i表示泰勒一阶展开，λ表示叶子节点参数权重，γ表示叶子节点权重)，δ表示树深的参数，d表示树的深度，表示当前模型的损失函数只和当前这棵树的所有叶子节点上邻域信息聚合后的当前特征，以及树的深度和叶节点个数有关；

考虑决策树当前节点是否进行***，看在关系网络中，指定邻域的节点属性特征聚合后，当前特征***之后左右子节点的目标函数值和是否大于该节点的目标函数值，即：式中，G_L表示当前节点左子树的二阶导，G_R表示当前节点右子树的二阶导，G表示当前节点的二阶导，H_L表示当前节点左子树的一阶导数，H_R表示当前节点右子树的一阶导，H表示当前节点的一阶导数，如果是，则进行***；

S302、层次聚合

而二阶邻域的信息聚合可以看作是当前节点一阶邻域的一阶邻域信息聚合，因此，递推可得下述公式：X′＝R·(R……(R·(RX))…)，即：X′＝R^lX，式中，X′表示邻域信息聚合的过程，R^l表示聚合l层邻域信息的矩阵幂乘操作；

S303、设定超参数

S304、分类预测