CN110555455A - 一种基于实体关系的在线交易欺诈检测方法 - Google Patents
一种基于实体关系的在线交易欺诈检测方法 Download PDFInfo
- Publication number
- CN110555455A CN110555455A CN201910525215.8A CN201910525215A CN110555455A CN 110555455 A CN110555455 A CN 110555455A CN 201910525215 A CN201910525215 A CN 201910525215A CN 110555455 A CN110555455 A CN 110555455A
- Authority
- CN
- China
- Prior art keywords
- transaction
- network
- node
- attribute
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 230000002776 aggregation Effects 0.000 claims abstract description 43
- 238000004220 aggregation Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000000694 effects Effects 0.000 claims abstract description 14
- 238000000265 homogenisation Methods 0.000 claims abstract description 13
- 230000008602 contraction Effects 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 abstract description 6
- 238000005065 mining Methods 0.000 abstract description 6
- 230000007246 mechanism Effects 0.000 abstract description 5
- 238000013145 classification model Methods 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 238000003012 network analysis Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/382—Payment protocols; Details thereof insuring higher security of transaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于实体关系的在线交易欺诈检测方法,其关键在于,根据交易数据抽取实体关系,构建关系网络二部图,提出了基于节点收缩的异质网络同质化方法和基于集成学习、图表征学习的邻域信息聚合提升树分类模型机制。本发明提供的方法从实用性角度出发,通过将注意力从交易节点本身转化到关系网络中交易的若干阶邻域信息,充分考虑交易之间潜在的关联关系,为挖掘团伙欺诈提供了可能性。梯度提升模型通过不断拟合模型的残差,提高欺诈识别的效果,有很好的表现效果。同时,该方法将集成学习从网格型数据的应用扩展至图数据的应用领域。基于以上方面,建立了借贷交易欺诈检测方法的框架,为解决欺诈交易检测提供了技术支持。
Description
技术领域
本发明涉及一种网络交易检测方法,属于信息技术领域。
背景技术
近年来,随着互联网技术的发展,在金融领域催生了一大批新兴业务。网络交易为用户带来便利的同时,也为网络黑产提供了可乘之机。当前网络黑产呈现产业化、精准化、移动化、技术化等特征,尤其是线上信贷金融业务领域,这不仅要求对借款人的信用资质进行评估,还需要格外关注潜在的欺诈行为。对抗网络黑产已经成为互联网金融企业的一项核心研究课题。
类比传统的线下贷款流程需要收集申请人的关系信息,相关联系人在贷款业务中扮演着担保人的角色。目前的研究方法,主要是利用逻辑回归、决策树、随机森林等机器学习模型对金融交易特征进行分析,对于交易记录中的诸如联系人这样具有实体特征的属性,由于其离散化数量多方差大等特点,在建模过程中基本不予考虑,这些实体属性未能很好地表征和利用。尤其是在互联网信贷领域,借款申请人的社交关系在一定程度上能够反映该申请人较为准确的社会特征,对欺诈检测具有一定的作用。
不同于传统的社交关系网络,金融交易网络是异质的非连通稀疏图,且带有属性。这就使得传统的社交网络分析方法无法运用,非连通性导致衡量网络传递性的指标失效,例如,标签染色算法、pagerank算法和聚类系数指标等;稀疏图的属性使得中心性指标意义不大;而节点的同质性是社会网络分析的前提,不同物理意义、不同属性特征的节点在图域中属于不同的维度空间。同时,社会网络分析仅仅根据图的图的拓扑结构进行分析,然而线上业务间的弱关系性,无法作为交易欺诈检测的唯一且可信的依据。因此,如何将关系网络应用到互联网金融业务的欺诈检测中来,目前没有现成可以借鉴的方法。
线上借贷申请门槛低,申请对象一般不具有良好的抵押和信用机制,欺诈风险高于传统借贷方式。同时由于问题的特殊性,公开数据很少,在一定程度上限制了研究人员的研究进展。
基于规则的专家***和以机器学习为核心的数据挖掘方法是常用的反欺诈方式。专家***是指建立在专家的规则之上,通过大量规则的组合来完成对欺诈交易的拦截,可解释性强。机器学习是在给定一组描述交易的特征的条件下,预测交易的异常可能性。
Kulkarni和Ade提出了一个使用逻辑回归来解决***欺诈检测中数据不平衡问题的框架,Panigrahi等人在***诈骗的合成数据集上解决问题,使用Dempster-Schaefer加法器与贝叶斯模型,Sahin等人利用一家银行6个月的样本,研究了决策树识别***欺诈交易的能力。金融欺诈检测领域正负样本分布不均衡,为了提高分类器的学习能力,许多学者开始采用基于有放回抽样(bagging)机制的随机森林以及多模型的集成学习算法等。这些方法只能通过人工特征工程挖掘交易属性和欺诈行为的简单关系,由于数据的复杂性和隐特征的存在,无法检测强隐蔽性的欺诈交易。以CNN为代表的深度学习技术能够自动提取特征,K.Fu等人提出通过卷积神经网络对***欺诈进行检测。作为最基本的无监督学习方法之一的k-means也被应用于金融欺诈检测领域,此外,Dominik利用基于无标记聚类的SOM(self-organizing maps)算法进行用户行为建模。
这些研究方法都是通过对交易记录的特征分析建模,寻求群体间的共性和正常异常交易间的个体差异。网络信贷交易数据维度低、相关性低,存在许多实体类型的信息特征,例如家庭住址、联系人等信息。因此需要对相关实体进行关联分析,利用关系网络进行欺诈检测的思想逐渐被提出来,但是应用关系网络建模,挖掘金融欺诈落地的应用案例很少。
关系网络的研究本质是图,图是一种抽象程度高、表达能力强的数据结构,它通过对节点和边的定义来描述实体与实体之间的关联关系。实际场景中,图表征学习应用在社交关系网络、商品网络、知识图谱等很多方面。传统的基于图的异常检测方法主要分两类:定量检测和定性解释,都是根据图上的结构信息,例如中心度指标、集聚系数等,进行离群点、异常值的检测等。这种做法虽然考虑了实体间的关系,但是仅适用于不带属性的图。而信贷交易网络是带属性的图,传统的图异常检测算法忽略了节点或边的自身属性,造成了大量有价值信息的丢失。网络表示学习算法将网络信息转化为低维、实值、稠密的向量形式。图表征学习的主要算法有:借鉴自然语言处理领域Word2vec的向量化思想,提出一种无监督算法node2vec,将图中的node信息向量化表示,起到降维的效果,并且提取图上特征的同时,能够保存网络结构信息。但是,node2vec是一种无监督的算法,没有利用节点本身的标签信息,无法针对特定的分类任务有效提取特征信息。Cunchao Tu等人提出了一个网络表示学习(NRL)的节点判别模型max-margin DeepWalk(MMDW),用于寻找社交网络中顶点的预测表示,将标记信息合并到节点表示中,构建半监督分类模型,联合优化了基于最大边缘的分类器(如支持向量)和NRL模型。Franco等人提出了图神经网络模型(graph neuralnetwork)的思想,将神经网络应用在图数据结构中。目前,网络表征学习算法主要用于无差异同质节点之间的挖掘,异质网络中不同节点由于其特征维度不同,特征表征困难。同时,Vlasselaer等人指出,图模式挖掘很少作为一种独立的金融欺诈检测模型,基于图挖掘的关系网络金融欺诈检测可以作为其他传统模型的补充,挖掘潜在的欺诈关系。因此,通过借鉴图表征学习机制,将电子交易的欺诈检测问题转化为图中节点分类预测问题,通过对网络结构特征进行表征学习,实现节点的分类预测任务。
发明内容
本发明的目的是:利用实体属性间的关系信息,结合图表征与集成学习的优势用于欺诈检测。
为了达到上述目的,本发明的技术方案是提供了一种基于实体关系的在线交易欺诈检测方法,包括基于关系网络的同质化节点收缩算法和基于图表征与集成学习的邻域聚合提升树算法,其特征在于,包括以下步骤:
(1)构建交易实体与属性实体之间的金融交易二分图关系网络,本质上是异质的带有属性的非连通稀疏图,构建过程包括如下步骤:
S101、划分数据集
将交易数据根据属性是否具有实体意义,划分为纯交易属性集合和用于构建网络的实体关系集合;
S102、特征工程
对于纯交易属性集合做特征工程,衍生变量;
S103、原始网络构建
对于实体关系集合,进行交易实体和属性实体之间的连接,得到代表不同物理意义节点的交易网络,该交易网络的本质上异质的带有属性的非连通稀疏二分图,一部分是交易实体节点集合,另一部分是抽象化掉实际物理意义的实体属性节点集合;
S104、返回数据集;
(2)金融交易二分图关系网络为异质网络,针对异质网络无法统一表征问题,利用节点收缩算法对金融交易二分图关系网络进行同质化处理得到同质化网络H,包括以下步骤:
S201、计算准备
金融交易二分图关系网络包括交易节点集合T和属性节点集合A,各集合内部没有边,集合之间有边相连表示交易实体和其属性之间的表征关系,以属性节点集合A为中心,计算属性节点集合A中的每个属性节点的邻居节点个数;
S203、节点收缩过程
对于属性节点集合A中,邻居节点个数大于1的属性节点,将与其相连的交易节点直接相连,同时将该属性节点删除,构成同质网络H;
S204、在同质网络H中删除重复出现的边;
S205、同质化过程结束;
(3)基于图的邻域信息聚合提升树方法,将交易特征通过关系网络进行信息融合,关注交易自身属性的同时,关注其邻域节点的属性,邻域信息聚合提升树算法以cart回归树作为基分类器,采用boosting串行基分类器的思想,每一棵新树的建立是为了拟合残差,包括以下步骤:
S301、节点***依据
加入防止过拟合的正则化操作,对残差进行二阶梯度拟合,加快收敛速度同时,对树的深度和宽度进行约束,得到目标函数: 式中,T表示叶子节点个数,Ij表示第j个叶子节点的属性特征,gi表示二阶导数,hi表示泰勒一阶展开,λ表示叶子节点参数权重,γ表示叶子节点权重,δ表示树深的参数,d表示树的深度,表示当前模型的损失函数只和当前这棵树的所有叶子节点上邻域信息聚合后的当前特征,以及树的深度和叶节点个数有关;
考虑决策树当前节点是否进行***,看在关系网络中,指定邻域的节点属性特征聚合后,当前特征***之后左右子节点的目标函数值和是否大于该节点的目标函数值,即:式中,GL表示当前节点左子树的二阶导,GR表示当前节点右子树的二阶导,G表示当前节点的二阶导,HL表示当前节点左子树的一阶导数,HR表示当前节点右子树的一阶导,H表示当前节点的一阶导数,如果是,则进行***;
S302、层次聚合
关系网络的本质是图,可以由邻接矩阵进行唯一表示,记作:关系矩阵R=R+E,第i行所表示的节点的一阶邻居邻域信息聚合的过程可以表示为:Ri·X,式中,R表示关系矩阵,E表示单位矩阵,Ri表示节点i的关系向量,X表示属性矩阵;
而二阶邻域的信息聚合可以看作是当前节点一阶邻域的一阶邻域信息聚合,因此,递推可得下述公式:X′=R·(R…··(R·(RX))…),即:X′=RlX,式中,X′表示邻域信息聚合的过程,Rl表示聚合l层邻域信息的矩阵幂乘操作;
邻域信息聚合的层次选择,和同质网络的中心性特征相关;对于单笔交易,基于关系网络的邻域信息聚合通过网络关系因子与属性矩阵的幂乘操作进行实现;
S303、设定超参数
初始化该模型的参数有:邻域信息的聚合层次,决定关系网络的局部关注范围,同时聚合层次越高,计算复杂性越高,层次的选择对于本模型的效果有很大影响;此外,考虑到基分类器树模型的贪心算法本质,很容易过拟合,增加了树的最大深度,叶子节点的个数;
S304、分类预测
将同质网络和交易属性矩阵作为输入,对交易记录进行分类预测。
本发明涉及一种两阶段的基于关系网络的互联网借贷欺诈检测模型,其关键在于,在原始交易数据中,抽取实体关系,构建交易实体与属性实体之间的金融交易二分图关系网络,提出了基于节点收缩的同质化网络方法和基于集成学习、图表征学习的邻域信息聚合提升树分类模型机制。本发明提出的借贷交易欺诈检测方法,可以有效检测借贷交易中的欺诈行为。本发明提供的方法从实用性角度出发,通过将注意力从交易节点本身转化到关系网络中交易的若干阶邻域信息,充分考虑交易之间潜在的关联关系,为挖掘团伙欺诈提供了可能性。梯度提升模型通过不断拟合模型的残差,提高欺诈识别的效果,在正常异常交易的识别场景中,有很好的表现效果。基于这两方面,建立了借贷交易欺诈检测方法的框架,为解决欺诈交易检测提供了技术支持。
附图说明
图1是电子交易的欺诈深度检测方法的整体框架,通过将传统交易属性与交易关系网络结合考虑,进行建模;
图2是本发明的具体流程图;
图3是节点收缩算法的过程示意图;
图4是不同邻域信息采集层次的模型效果图;
图5是本模型与其他欺诈检测模型KS指标对比图;
图6是本模型与其他欺诈检测模型ROC指标对比图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明涉及的网络交易欺诈检测方法主要有以下三部分内容:
(1)基于关系网络的考量,对原始数据集进行实体关系抽取,构建异质的非连通的稀疏的原生网络二分图。
(2)借鉴同质网络研究的普遍性,提出基于节点收缩的异质网络同质化的方法。
(3)基于图表征学习和集成学习boosting的思想,在基分类器决策树的构建中,不仅考虑当前节的自身属性,通过结合关系算子,将注意力扩展至其邻域,提升特征的表征效果,进一步提升模型的效果。
本发明的技术核心在于第(2)部分和第(3)部分,在此基础上提出网络交易欺诈检测方法。在欺诈交易检测任务上,电子交易欺诈检测方法实现的关键在于两点:一方面欺诈交易呈现出的隐蔽性会严重影响欺诈检测模型的检测效果,检测方法的特征学习能力对检测欺诈交易十分重要;同时借贷交易欺诈检测的样本不均衡也影响模型检测效果。针对电子交易中欺诈行为的隐蔽性和借贷交易潜在的关联性,本发明提出了基于关系网络的同质化节点收缩算法和基于图表征与集成学习的邻域聚合梯度提升树算法,建立了本发明的借贷交易欺诈检测方法。
根据以上思想,建立本发明的电子欺诈交易检测方法的框架如下:
(1)构建交易实体与属性实体之间的金融交易二分图关系网络,本质上是异质的带有属性的非连通稀疏图,构建过程分为如下步骤:
S101、划分数据集
将交易数据根据属性是否具有实体意义,划分为纯交易属性集合和用于构建网络的实体关系集合;
S102、特征工程
对于纯交易属性集合,做特征工程,衍生变量等工作;
S103、原始网络构建
对于实体关系集合,进行交易实体和属性实体之间的连接,得到代表不同物理意义节点的网络,该交易网络的本质上异质的带有属性的非连通稀疏二分图,一部分是交易实体节点集合,另一部分是抽象化掉实际物理意义的实体属性节点集合;
S104、返回数据集;
(2)在此基础上,针对异质网络无法统一表征问题,提出节点收缩算法进行同质化处理,包括以下步骤:
S201、数据输入
将交易网络二分图作为该算法的输入;
S202、计算准备
交易网络包括交易节点集合T和属性节点集合A,各集合内部没有边,集合之间有边相连表示交易实体和其属性之间的表征关系,以集合A为中心,计算A中的每个属性节点的邻居节点个数;
S203、节点收缩过程
对于节点集合A中,邻居节点个数大于1的节点,将与其相连的节点(交易实体)直接相连,同时将该节点删除;
S204、在同质网络H中删除重复出现的边;
S205、返回同质化网络。
至此,得到的同质化网络H中,只包含交易实体节点,同时也是我们欺诈检测模型关注的对象。
(3)基于图的邻域信息聚合提升树方法,将交易特征通过关系网络进行信息融合,关注交易自身属性的同时,关注其邻域节点的属性,邻域信息聚合提升树算法以cart回归树作为基分类器,采用boosting串行基分类器的思想,每一棵新树的建立是为了拟合残差。模型的重点在于如何建树,建树的重点在于如何实施节点***:
S301、节点***依据
借鉴集成学习GBDT的思想,加入防止过拟合的正则化操作,对残差进行二阶梯度拟合,加快收敛速度同时,对树的深度和宽度进行约束,得到目标函数:式中,T表示叶子节点个数,Ij表示第j个叶子节点的属性特征,gi表示二阶导数,hi表示泰勒一阶展开,λ表示叶子节点参数权重,y表示叶子节点权重,δ表示树深的参数,d表示树的深度,表示当前模型的损失函数只和当前这棵树的所有叶子节点上邻域信息聚合后的当前特征,以及树的深度和叶节点个数有关。
考虑决策树当前节点是否进行***,看在关系网络中,指定邻域的节点属性特征聚合后,当前特征***之后左右子节点的目标函数值和是否大于该节点的目标函数值,即:式中,GL表示当前节点左子树的二阶导,GR表示当前节点右子树的二阶导,G表示当前节点的二阶导,HL表示当前节点左子树的一阶导数,HR表示当前节点右子树的一阶导,H表示当前节点的一阶导数,如果是,则进行***;
S302、层次聚合
关系网络的本质是图,可以由邻接矩阵进行唯一表示,记作:关系矩阵R=R+E,第i行所表示的节点的一阶邻居邻域信息聚合的过程可以表示为:Ri·X;而二阶邻域的信息聚合可以看作是当前节点一阶邻域的一阶邻域信息聚合,因此,递推可得下述公式:X′=R·(R…··(R·(RX))…);即:X′=RlX,式中,R表示关系矩阵,E表示单位矩阵,Ri表示节点i的关系向量,X表示属性矩阵。
邻域信息聚合的层次选择,和同质网络的中心性特征相关;对于单笔交易,基于关系网络的邻域信息聚合通过网络关系因子与属性矩阵的幂乘操作进行实现;
邻域信息聚合的层次选择,和同质网络的中心性特征相关;对于单笔交易,基于关系网络的邻域信息聚合通过网络关系因子与属性矩阵的幂乘操作进行实现;
S303、设定超参数
初始化该模型的参数有:邻域信息的聚合层次,决定关系网络的局部关注范围,同时聚合层次越高,计算复杂性越高,层次的选择对于本模型的效果有很大影响;此外,考虑到基分类器树模型的贪心算法本质,很容易过拟合,增加了树的最大深度,叶子节点的个数等超参数;
S304、分类预测
将同质网络和交易属性矩阵作为输入,对交易记录进行分类预测;
本发明所述的基于实体关系的在线交易欺诈检测方法及***可以应用到某金融机构等在线网贷交易***之中,本发明所述的方法得到了国内某保险公司数据的实验验证。
以国内某家保险公司提供的真实贷款数据为例,数据集包含了308476条贷款记录,其中正样本占91.8%,欺诈记录占8.2%。
S1、根据原始贷款记录进行实体关系抽取,做特征工程,构建关系网络和属性矩阵。
S2、对原始异质信息网络进行同质化处理。
S3、将同质信息网络和属性矩阵作为邻域信息聚合提升树算法的输入,设置参数,对交易记录进行端到端的检测。
Claims (1)
1.一种基于实体关系的在线交易欺诈检测方法,包括基于关系网络的同质化节点收缩算法和基于图表征与集成学习的邻域聚合提升树算法,其特征在于,包括以下步骤:
(1)构建交易实体与属性实体之间的金融交易二分图关系网络,本质上是异质的带有属性的非连通稀疏图,构建过程包括如下步骤:
S101、划分数据集
将交易数据根据属性是否具有实体意义,划分为纯交易属性集合和用于构建网络的实体关系集合;
S102、特征工程
对于纯交易属性集合做特征工程,衍生变量;
S103、原始网络构建
对于实体关系集合,进行交易实体和属性实体之间的连接,得到代表不同物理意义节点的交易网络,该交易网络的本质上异质的带有属性的非连通稀疏二分图,一部分是交易实体节点集合,另一部分是抽象化掉实际物理意义的实体属性节点集合;
S104、返回数据集;
(2)金融交易二分图关系网络为异质网络,针对异质网络无法统一表征问题,利用节点收缩算法对金融交易二分图关系网络进行同质化处理得到同质化网络H,包括以下步骤:
S201、计算准备
金融交易二分图关系网络包括交易节点集合T和属性节点集合A,各集合内部没有边,集合之间有边相连表示交易实体和其属性之间的表征关系,以属性节点集合A为中心,计算属性节点集合A中的每个属性节点的邻居节点个数;
S203、节点收缩过程
对于属性节点集合A中,邻居节点个数大于1的属性节点,将与其相连的交易节点直接相连,同时将该属性节点删除,构成同质网络H;
S204、在同质网络H中删除重复出现的边;
S205、同质化过程结束;
(3)基于图的邻域信息聚合提升树方法,将交易特征通过关系网络进行信息融合,关注交易自身属性的同时,关注其邻域节点的属性,邻域信息聚合提升树算法以cart回归树作为基分类器,采用boosting串行基分类器的思想,每一棵新树的建立是为了拟合残差,包括以下步骤:
S301、节点***依据
加入防止过拟合的正则化操作,对残差进行二阶梯度拟合,加快收敛速度同时,对树的深度和宽度进行约束,得到目标函数: 式中,T表示叶子节点个数,Ij表示第j个叶子节点的属性特征,gi表示二阶导数,hi表示泰勒一阶展开,λ表示叶子节点参数权重,γ表示叶子节点权重),δ表示树深的参数,d表示树的深度,表示当前模型的损失函数只和当前这棵树的所有叶子节点上邻域信息聚合后的当前特征,以及树的深度和叶节点个数有关;
考虑决策树当前节点是否进行***,看在关系网络中,指定邻域的节点属性特征聚合后,当前特征***之后左右子节点的目标函数值和是否大于该节点的目标函数值,即:式中,GL表示当前节点左子树的二阶导,GR表示当前节点右子树的二阶导,G表示当前节点的二阶导,HL表示当前节点左子树的一阶导数,HR表示当前节点右子树的一阶导,H表示当前节点的一阶导数,如果是,则进行***;
S302、层次聚合
关系网络的本质是图,可以由邻接矩阵进行唯一表示,记作:关系矩阵R=R+E,第i行所表示的节点的一阶邻居邻域信息聚合的过程可以表示为:Ri·X,式中,R表示关系矩阵,E表示单位矩阵,Ri表示节点i的关系向量,X表示属性矩阵;
而二阶邻域的信息聚合可以看作是当前节点一阶邻域的一阶邻域信息聚合,因此,递推可得下述公式:X′=R·(R……(R·(RX))…),即:X′=RlX,式中,X′表示邻域信息聚合的过程,Rl表示聚合l层邻域信息的矩阵幂乘操作;
邻域信息聚合的层次选择,和同质网络的中心性特征相关;对于单笔交易,基于关系网络的邻域信息聚合通过网络关系因子与属性矩阵的幂乘操作进行实现;
S303、设定超参数
初始化该模型的参数有:邻域信息的聚合层次,决定关系网络的局部关注范围,同时聚合层次越高,计算复杂性越高,层次的选择对于本模型的效果有很大影响;此外,考虑到基分类器树模型的贪心算法本质,很容易过拟合,增加了树的最大深度,叶子节点的个数;
S304、分类预测
将同质网络和交易属性矩阵作为输入,对交易记录进行分类预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910525215.8A CN110555455A (zh) | 2019-06-18 | 2019-06-18 | 一种基于实体关系的在线交易欺诈检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910525215.8A CN110555455A (zh) | 2019-06-18 | 2019-06-18 | 一种基于实体关系的在线交易欺诈检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110555455A true CN110555455A (zh) | 2019-12-10 |
Family
ID=68736449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910525215.8A Pending CN110555455A (zh) | 2019-06-18 | 2019-06-18 | 一种基于实体关系的在线交易欺诈检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555455A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105317A (zh) * | 2019-12-28 | 2020-05-05 | 哈尔滨工业大学 | 一种基于购药记录的医疗保险欺诈检测方法 |
CN111210343A (zh) * | 2020-02-21 | 2020-05-29 | 浙江工商大学 | 一种基于不平衡流数据分类的***欺诈检测方法 |
CN111260462A (zh) * | 2020-01-16 | 2020-06-09 | 东华大学 | 一种基于异质关系网络注意力机制的交易欺诈检测方法 |
CN111275189A (zh) * | 2020-02-25 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 一种网络表示学习方法、***及装置 |
CN111277433A (zh) * | 2020-01-15 | 2020-06-12 | 同济大学 | 基于属性网络表征学习的网络服务异常检测方法及装置 |
CN111340509A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种虚假交易识别方法、装置及电子设备 |
CN111368147A (zh) * | 2020-02-25 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 图特征处理的方法及装置 |
CN111368901A (zh) * | 2020-02-28 | 2020-07-03 | 深圳前海微众银行股份有限公司 | 基于联邦学习的多方联合建模方法、设备和介质 |
CN111382843A (zh) * | 2020-03-06 | 2020-07-07 | 浙江网商银行股份有限公司 | 企业上下游关系识别模型建立、关系挖掘的方法及装置 |
CN111507382A (zh) * | 2020-04-01 | 2020-08-07 | 北京互金新融科技有限公司 | 样本文件的聚类方法及装置、电子设备 |
CN111694995A (zh) * | 2020-05-15 | 2020-09-22 | 支付宝(杭州)信息技术有限公司 | 一种关系网络的优化方法、装置及处理设备 |
CN112600810A (zh) * | 2020-12-07 | 2021-04-02 | 中山大学 | 一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置 |
CN112907380A (zh) * | 2021-03-25 | 2021-06-04 | 中国科学院计算技术研究所 | 一种用于金融市场监管的流动性评价方法 |
CN113159778A (zh) * | 2020-12-24 | 2021-07-23 | 西安四叶草信息技术有限公司 | 一种金融欺诈的检测方法及装置 |
CN113379176A (zh) * | 2020-03-09 | 2021-09-10 | ***通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN113592517A (zh) * | 2021-08-09 | 2021-11-02 | 深圳前海微众银行股份有限公司 | 欺诈客群识别方法、装置、终端设备及计算机存储介质 |
CN114693317A (zh) * | 2022-04-08 | 2022-07-01 | 重庆邮电大学 | 一种融合同质图与二分图的电信诈骗安全联邦检测方法 |
CN116308365A (zh) * | 2023-05-10 | 2023-06-23 | 北京理工大学 | 一种基于最大权重匹配的门罗币去匿名化攻击方法 |
CN116862667A (zh) * | 2023-08-16 | 2023-10-10 | 杭州自旋科技有限责任公司 | 一种基于对比学习和解耦图神经的欺诈检测和信用评估方法 |
CN117891955A (zh) * | 2024-01-17 | 2024-04-16 | 哈尔滨工业大学 | 基于多尺度注意力网络的知识图谱链接预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020133721A1 (en) * | 2001-03-15 | 2002-09-19 | Akli Adjaoute | Systems and methods for dynamic detection and prevention of electronic fraud and network intrusion |
CN108475393A (zh) * | 2016-01-27 | 2018-08-31 | 华为技术有限公司 | 通过合成特征和梯度提升决策树进行预测的***和方法 |
CN109754258A (zh) * | 2018-12-24 | 2019-05-14 | 同济大学 | 一种基于个体行为建模的面向线上交易欺诈检测方法 |
-
2019
- 2019-06-18 CN CN201910525215.8A patent/CN110555455A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020133721A1 (en) * | 2001-03-15 | 2002-09-19 | Akli Adjaoute | Systems and methods for dynamic detection and prevention of electronic fraud and network intrusion |
CN108475393A (zh) * | 2016-01-27 | 2018-08-31 | 华为技术有限公司 | 通过合成特征和梯度提升决策树进行预测的***和方法 |
CN109754258A (zh) * | 2018-12-24 | 2019-05-14 | 同济大学 | 一种基于个体行为建模的面向线上交易欺诈检测方法 |
Non-Patent Citations (1)
Title |
---|
YINGMENG: ""A Novel Method Based on Entity Relationship for Online Transaction Fraud Detection"" * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105317B (zh) * | 2019-12-28 | 2023-05-12 | 哈尔滨工业大学 | 一种基于购药记录的医疗保险欺诈检测方法 |
CN111105317A (zh) * | 2019-12-28 | 2020-05-05 | 哈尔滨工业大学 | 一种基于购药记录的医疗保险欺诈检测方法 |
CN111277433B (zh) * | 2020-01-15 | 2021-02-12 | 同济大学 | 基于属性网络表征学习的网络服务异常检测方法及装置 |
CN111277433A (zh) * | 2020-01-15 | 2020-06-12 | 同济大学 | 基于属性网络表征学习的网络服务异常检测方法及装置 |
CN111260462A (zh) * | 2020-01-16 | 2020-06-09 | 东华大学 | 一种基于异质关系网络注意力机制的交易欺诈检测方法 |
CN111260462B (zh) * | 2020-01-16 | 2022-05-27 | 东华大学 | 一种基于异质关系网络注意力机制的交易欺诈检测方法 |
CN111210343A (zh) * | 2020-02-21 | 2020-05-29 | 浙江工商大学 | 一种基于不平衡流数据分类的***欺诈检测方法 |
CN111210343B (zh) * | 2020-02-21 | 2022-03-29 | 浙江工商大学 | 一种基于不平衡流数据分类的***欺诈检测方法 |
CN111275189A (zh) * | 2020-02-25 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 一种网络表示学习方法、***及装置 |
CN111368147A (zh) * | 2020-02-25 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 图特征处理的方法及装置 |
CN111368147B (zh) * | 2020-02-25 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 图特征处理的方法及装置 |
CN111368901A (zh) * | 2020-02-28 | 2020-07-03 | 深圳前海微众银行股份有限公司 | 基于联邦学习的多方联合建模方法、设备和介质 |
CN111382843A (zh) * | 2020-03-06 | 2020-07-07 | 浙江网商银行股份有限公司 | 企业上下游关系识别模型建立、关系挖掘的方法及装置 |
CN111382843B (zh) * | 2020-03-06 | 2023-10-20 | 浙江网商银行股份有限公司 | 企业上下游关系识别模型建立、关系挖掘的方法及装置 |
CN113379176A (zh) * | 2020-03-09 | 2021-09-10 | ***通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN113379176B (zh) * | 2020-03-09 | 2023-12-19 | ***通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN111507382B (zh) * | 2020-04-01 | 2023-05-05 | 北京互金新融科技有限公司 | 样本文件的聚类方法及装置、电子设备 |
CN111507382A (zh) * | 2020-04-01 | 2020-08-07 | 北京互金新融科技有限公司 | 样本文件的聚类方法及装置、电子设备 |
CN111694995B (zh) * | 2020-05-15 | 2024-02-06 | 支付宝(杭州)信息技术有限公司 | 一种关系网络的优化方法、装置及处理设备 |
CN111694995A (zh) * | 2020-05-15 | 2020-09-22 | 支付宝(杭州)信息技术有限公司 | 一种关系网络的优化方法、装置及处理设备 |
CN111340509A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种虚假交易识别方法、装置及电子设备 |
CN111340509B (zh) * | 2020-05-22 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种虚假交易识别方法、装置及电子设备 |
CN112600810B (zh) * | 2020-12-07 | 2021-10-08 | 中山大学 | 一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置 |
CN112600810A (zh) * | 2020-12-07 | 2021-04-02 | 中山大学 | 一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置 |
CN113159778B (zh) * | 2020-12-24 | 2023-11-24 | 西安四叶草信息技术有限公司 | 一种金融欺诈的检测方法及装置 |
CN113159778A (zh) * | 2020-12-24 | 2021-07-23 | 西安四叶草信息技术有限公司 | 一种金融欺诈的检测方法及装置 |
CN112907380A (zh) * | 2021-03-25 | 2021-06-04 | 中国科学院计算技术研究所 | 一种用于金融市场监管的流动性评价方法 |
CN113592517A (zh) * | 2021-08-09 | 2021-11-02 | 深圳前海微众银行股份有限公司 | 欺诈客群识别方法、装置、终端设备及计算机存储介质 |
CN114693317A (zh) * | 2022-04-08 | 2022-07-01 | 重庆邮电大学 | 一种融合同质图与二分图的电信诈骗安全联邦检测方法 |
CN116308365A (zh) * | 2023-05-10 | 2023-06-23 | 北京理工大学 | 一种基于最大权重匹配的门罗币去匿名化攻击方法 |
CN116308365B (zh) * | 2023-05-10 | 2023-09-19 | 北京理工大学 | 一种基于最大权重匹配的门罗币去匿名化攻击方法 |
CN116862667A (zh) * | 2023-08-16 | 2023-10-10 | 杭州自旋科技有限责任公司 | 一种基于对比学习和解耦图神经的欺诈检测和信用评估方法 |
CN117891955A (zh) * | 2024-01-17 | 2024-04-16 | 哈尔滨工业大学 | 基于多尺度注意力网络的知识图谱链接预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555455A (zh) | 一种基于实体关系的在线交易欺诈检测方法 | |
CN109918511B (zh) | 一种基于bfs和lpa的知识图谱反欺诈特征提取方法 | |
CN111260462B (zh) | 一种基于异质关系网络注意力机制的交易欺诈检测方法 | |
Fu et al. | HesGCN: Hessian graph convolutional networks for semi-supervised classification | |
Chang et al. | Digital payment fraud detection methods in digital ages and Industry 4.0 | |
CN112906770A (zh) | 一种基于跨模态融合的深度聚类方法及*** | |
CN109754258A (zh) | 一种基于个体行为建模的面向线上交易欺诈检测方法 | |
Li et al. | Transaction fraud detection using gru-centered sandwich-structured model | |
Li et al. | Research and Practice of Financial Credit Risk Management Based on Federated Learning. | |
Yang | Research on financial credit evaluation and early warning system of internet of things driven by computer-aided technology | |
Zhang | Research on precision marketing based on consumer portrait from the perspective of machine learning | |
Zhang et al. | Consumer credit risk assessment: A review from the state-of-the-art classification algorithms, data traits, and learning methods | |
Zhu et al. | Loan default prediction based on convolutional neural network and LightGBM | |
CN115797041A (zh) | 基于深度图半监督学习的金融信用评估方法 | |
Wang et al. | Identifying and evaluating anomalous structural change-based nodes in generalized dynamic social networks | |
Cui et al. | Strip Surface Defects Recognition Based on PSO‐RS&SOCP‐SVM Algorithm | |
Bu et al. | A High‐Order CFS Algorithm for Clustering Big Data | |
Fan et al. | A network intrusion detection method based on improved Bi-LSTM in Internet of Things environment | |
CN106156259A (zh) | 一种用户行为信息展示方法及*** | |
CN114818681A (zh) | 一种实体识别方法及***、计算机可读存储介质及终端 | |
CN113988878A (zh) | 一种基于图数据库技术的反欺诈方法及*** | |
Yu et al. | [Retracted] Complexity Analysis of Consumer Finance following Computer LightGBM Algorithm under Industrial Economy | |
Huang et al. | Imbalanced credit card fraud detection data: A solution based on hybrid neural network and clustering-based undersampling technique | |
Kulothungan | Loan Forecast by Using Machine Learning | |
Gao et al. | Statistics and Analysis of Targeted Poverty Alleviation Information Integrated with Big Data Mining Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191210 |