CN111105303B - 基于增量式网络表征学习的网络借贷欺诈检测方法 - Google Patents

基于增量式网络表征学习的网络借贷欺诈检测方法 Download PDF

Info

Publication number
CN111105303B
CN111105303B CN201911101580.2A CN201911101580A CN111105303B CN 111105303 B CN111105303 B CN 111105303B CN 201911101580 A CN201911101580 A CN 201911101580A CN 111105303 B CN111105303 B CN 111105303B
Authority
CN
China
Prior art keywords
network
lending
data
test
loan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911101580.2A
Other languages
English (en)
Other versions
CN111105303A (zh
Inventor
王成
朱航宇
胡瑞鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911101580.2A priority Critical patent/CN111105303B/zh
Publication of CN111105303A publication Critical patent/CN111105303A/zh
Application granted granted Critical
Publication of CN111105303B publication Critical patent/CN111105303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

一种基于增量式网络表征学习的网络借贷欺诈检测方法。本发明原理:用表征能力强大的异质信息网络的形式来分析现实世界借贷数据,将借贷数据以异质信息网络的形式建立一个关系借贷网络。从多类型异质的关系借贷网络中抽取特定关系,形成仅保留一种节点类型的同质借贷网络。针对每一批到达的借贷数据,依次更新关系借贷网络和同质借贷网络,并运用增量式的网络表征学习算法及时更新同质借贷网络中节点的向量表征,以期能够捕获数据之间的最新关联性。基于学习到的向量表征构造和与时序有关的新特征(如:单号与前n个发生的单号的关系),结合分类器实现对借贷数据欺诈检测的二分类模型,进而实现对欺诈的检测与识别。

Description

基于增量式网络表征学习的网络借贷欺诈检测方法
技术领域
本发明涉及互联网金融网络借贷的反欺诈检测。
背景技术
随着互联网的迅速发展,各种传统的业务逐渐转至线上,互联网金融中的网络借贷迅速发展,网络借贷的产生将带来大量的电子交易数据,同时伴随着网络借贷欺诈数量的大量增加[1]。近年来,B2C网络借贷在全球尤其是中国发展迅速,其中,B2C网络借贷机构遭受大量坏账和借贷,产生巨大的经济损失[2]。欺诈者通过伪造虚假的借款人信息,甚至生成团伙化的虚假借款人来完成大批量网络借贷欺诈。为保障网络借贷中投资机构和正常用户的业务安全,需要建立切实有效的网络借贷欺诈检测***。
在B2C借贷场景中,个人可能通过伪冒申请、提供虚假资料和虚假联系人、多头借贷等方式获取信贷资源;更有甚者,通过黑灰色产业的***包装、组团骗贷等方式获取额度和资金。这些虚假的借贷数据中往往存在潜在的关联。网络表征学习已经在挖掘数据之间的潜在联系上表现出强有力的作用[3]。然而,目前大多数的欺诈检测***基于静态的借贷数据网络进行周期性地更新网络,这无法适应网络时代欺诈手段的快速变化,如:黑灰色产业在短时间内生成大量相关联借贷数据,由于静态的借贷网络并未及时学习到这些关联,而无法有效阻止欺诈行为的发生。此外,B2C网络借贷极短的时间内就可以产生大量的借贷数据,借贷数据的不断增长和欺诈手段的不断变化,迫切需要动态的增加新数据和删除旧数据,这将导致基于静态网络表征学习的欺诈检测方法不能适应借贷网络结构的变化。
目前为止,关于网络借贷方面的研究主要集中在静态的数据上如何建立高效的欺诈检测模型[4],只有较少的研究涉及到动态地更新模型。Talaver等人[5]训练了一个径向基函数网络来区分客户是否有借贷欺诈行为,并建立一个模糊c-means聚类来对数据点进行分组,以通过对簇内数据进行分组创建客户档案。Babaev等人[6]在细粒度的跨国数据上使用神经网络来处理贷款数据,仅基于业务数据提出一个新的方法—E.T.RNN,实现自动化地对贷款申请作出决策。
通过以上研究发现,B2C网络借贷欺诈检测的一个主要问题是缺乏对短期内新颖欺诈手段的应对方法。传统检测方法存在一个较长的周期,随着时间推移,很多欺诈方法发生改变,进而缺乏较好的泛化能力。
发明内容
欺诈的借贷申请往往通过伪冒申请、提供虚假资料和多头借贷等方式通过审核***,这些虚假的信息之间往往存在潜在的关联性,尤其是在黑灰色产业的***包装、组团骗贷中更为明显。得益于当前网络借贷产生的丰富借贷数据,分析并以此作为基础,本发明公开一种网络借贷欺诈检测方法,保护用户和企业的安全。
本发明原理:用表征能力强大的异质信息网络的形式来分析现实世界借贷数据,将借贷数据以异质信息网络(包含多种类型的节点和边,如:借贷单号、车牌号、电话、住址等)的形式建立一个关系借贷网络。从多类型异质的关系借贷网络中抽取特定关系,形成仅保留一种节点类型的同质借贷网络(借贷数据的同质网络生成过程如图1所示)。针对每一批到达的借贷数据,依次更新关系借贷网络和同质借贷网络,并运用增量式的网络表征学习算法及时更新同质借贷网络中节点的向量表征,以期能够捕获数据之间的最新关联性。基于学习到的向量表征构造和与时序有关的新特征(如:单号与前n个发生的单号的关系),结合分类器实现对借贷数据欺诈检测的二分类模型,进而实现对欺诈的检测与识别。
本发明方法技术方案:
一种基于增量式网络表征学习的网络借贷欺诈检测方法,其特征在于,过程为:
步骤1,建立关系借贷网络并完成同质化
收集历史网络借贷产生的丰富借贷数据,建立异质的关系借贷网络,以此再以单号为节点,以不同借贷数据中同时拥有的属性关系为边,衍生出同质借贷网络;提供给步骤2;
步骤2,构建训练样本集
汇集原始静态数据,建立初始静态数据集,利用网络表征学习算法变换网络结构,进行向量化,得到基于初始网络借贷数据集的节点对应的向量表征,由这些学习到的向量数据构成训练样本集;提供给步骤3;
步骤3,特征构造
对训练样本集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤4;
步骤4,训练欺诈检测模型
采用python中机器学习集成库scikit-learn中的XGBoost分类器为本发明的欺诈检测模型,对步骤3构造出的特征输入该分类器进行欺诈检测模型训练;提供给步骤7;
步骤5,更新关系借贷网络和同质借贷网络
更新收集网络借贷目前产生的借贷数据,针对以时间序列依次到来的增量流式借贷数据,更新关系借贷网络和同质借贷网络,提供给步骤6;
步骤6:更新当前测试数据集
利用步骤2构建的训练样本集,将以时间序列依次到来的流式借贷数据构建当前的测试数据集,即:将新到来k笔借贷数据加入,并删除初始数据集中时间最早的k笔借贷数据,以实时更新当前测试数据集;
参照步骤2,利用网络表征学习算法变换网络结构,进行向量化,得到当前测试数据集的节点对应的向量表征,更新学习到的向量数据更新了当前测试数据集;提供给步骤7;
步骤7,特征构造
参照步骤3,对测试数据集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤8;
步骤8,欺诈检测模型进行测试
将步骤7当前测试数据集输入步骤4欺诈检测模型,获得到欺诈检测模型的判断结果。
进一步的,判断当前测试数据集对应时刻是否超出模型更新周期,若不超出,重复执行步骤5,若超出,重复执行步骤1。直至针对所有测试数据集完成欺诈检测,算法结束。
本发明在于克服静态的欺诈检测方法针对快速变化的网络借贷欺诈的乏力性,增加欺诈检测***对变化环境的适应能力,对检测欺诈借贷、拦截欺诈借贷和保护用户和企业的资金安全有更好的保障。
本发明公开了基于增量式网络表征的网络借贷欺诈检测方法,实现对借贷数据网络进行动态的更新,借助增量式的网络表征学习挖掘到泛化能力强的表征,进而提高模型拦截欺诈借贷的实时性、准确性和鲁棒性。
附图说明
图1:本发明网络借贷场景下借贷数据的同质网络生成过程示例图;
图2:本发明基于增量式网络表征学习的网络借贷欺诈检测方法流程图;
图3:实施例的借贷数据变换为向量表征示意图;
图4:实施例某时刻下增量式借贷数据集划分示意图。
具体实施方式
以下结合实施例和附图进一步介绍本发明技术方案。
基于增量式网络表征学习的网络借贷欺诈检测方法流程图,如图2所示过程为:
步骤1,建立关系借贷网络并完成同质化
收集历史网络借贷产生的丰富借贷数据,建立异质的关系借贷网络,以此再以单号为节点,以不同借贷数据中同时拥有的属性关系为边,衍生出同质借贷网络;提供给步骤2;
步骤2,构建训练样本集
汇集原始静态数据,建立初始静态数据集,利用网络表征学习算法变换网络结构,进行向量化,得到基于初始网络借贷数据集的节点对应的向量表征,由这些学习到的向量数据构成训练样本集;提供给步骤3;
步骤3,特征构造
对训练样本集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤4;
步骤4,训练欺诈检测模型
采用python中机器学习集成库scikit-learn中的XGBoost分类器为本发明的欺诈检测模型,对步骤3构造出的特征输入该分类器进行欺诈检测模型训练;提供给步骤7;
步骤5,更新关系借贷网络和同质借贷网络
更新收集网络借贷目前产生的借贷数据,针对以时间序列依次到来的增量流式借贷数据,更新关系借贷网络和同质借贷网络,提供给步骤6;
步骤6:更新当前测试数据集
利用步骤2构建的训练样本集,将以时间序列依次到来的流式借贷数据构建当前的测试数据集,即:将新到来k笔借贷数据加入,并删除初始数据集中时间最早的k笔借贷数据,以实时更新当前测试数据集;
参照步骤2,利用网络表征学习算法变换网络结构,进行向量化,得到当前测试数据集的节点对应的向量表征,更新学习到的向量数据更新了当前测试数据集;提供给步骤7;
步骤7,特征构造
参照步骤3,对测试数据集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤8;
步骤8,欺诈检测模型进行测试
将步骤7当前测试数据集输入步骤4欺诈检测模型,获得到欺诈检测模型的判断结果。
进一步的,判断当前测试数据集对应时刻是否超出模型更新周期,若不超出,重复执行步骤5,若超出,重复执行步骤1。直至针对所有测试数据集完成欺诈检测,算法结束。
进一步的,给出详细的实施例。
实施例1
分成四大步骤
第一部分,生成初始的网络表征,其过程如下:
输入:
用户网络借贷数据的数据B,
网络表征学习方法参数We
输出:
初始时刻t时节点v与对应向量γ的映射关系γ=Ft(v)。
详细的,生成初始的网络表征,其过程如下:
步骤1.1:从原始借贷数据中筛选出可利用的原始字段(如表1所示),进行字段类型转换和空值去除填充等数据预处理操作,并针对各字段制定离散化规则,将取值离散化降低数据精度。如:本实施例将金额依据不同区间划分为有限个类别;将地址依据不同街道划分为粗粒度离散化取值。
将原始借贷数据划分为单号(APPLYNO)与属性(ATTRIBUTE)两种类型,所述属性(ATTRIBUTE)为借贷数据中除去单号(APPLYNO)以外的其他数据。针对一笔借贷数据,将其记为(bi,ATT(bi)),bi是借贷数据b的单号,ATT(bi)是借贷数据b对应的属性集合,attk(bi)是ATT(bi)中第k个元素。
基于原始借贷数据建立关系借贷网络Nr=(V,E),V是节点集,E是边集,其中边e=(u,v),u与v属于节点集V(包含多种类型节点)。针对借贷数据b中的每一笔数据bi,首先bi加入节点集V,将ATT(bi)中每一个元素依次加入节点集V,最后将边(bi,attk(bi))加入边集E,attk(bi)是ATT(bi)中第k个元素。执行步骤1.2。图1左部为关系借贷网络Nr的示例图。
步骤1.2:基于关系借贷网络建立同质借贷网络Nh=(Vh,Eh),Vh是节点集,Eh是边集,其中边e=(u,v,w),u与v属于节点集Vh(仅包含类型为借贷单号的节点)。当attk(bi)=attk(bj)时,关系借贷网络中一对边(bi,attk(bi))和(bj,attk(bj))被视为边集Eh中的边(bi,bj),w为边(bi,bj)出现的次数,作为同质借贷网络Nh中的权重。基于关系借贷网络Nr,将节点集V中所有类型为借贷单号的节点加入节点集Vh。然后遍历每一对边(bi,attk(bi))和(bj,attk(bj)),当attk(b-i)=attk(bi)时,将边(bi,bj)加入边集Eh。得到同质借贷网络Nh=(Vh,Eh)。执行步骤1.3。
图1右部为基于左部关系借贷网络Nr生成同质借贷网络Nh的示例图。
步骤1.3:基于已构建的同质借贷网络Nh,本实施例采用现有的网络表征学习方法NetWalk来学习同质借贷网络Nh中全部网络节点的向量表征,同时避免手动提取特征的麻烦,自动化抽取特征信息。网络表征学习方法NetWalk学习向量表征的主要参数如表2所示,参数的设定与网络的结构有关,通常情况下参数walk-length、number_walks和网络中节点、边的数量成正比,网络中节点、边数量越多,参数walk-length和number_walks应当越大;参数learning_rate影响网络表征学习方法NetWalk的性能,过大的值可能导致过拟合,过小的值则导致欠拟合,本实施例设置为0.01;参数dim是所得到的输出向量表征的维度,一个大的维度往往包含更多潜在的关联,但随之带了更高的计算复杂度,本实施例设置为128;参数init和snap为网络表征学习方法NetWalk的输入参数,其形式为借贷网络中的边集,在本实施例的网络表征学习方法中,init为基于初始借贷数据生成的同质借贷网络的边集,snap为基于流式借贷数据生成的同质借贷网络中新增或删除的边集。执行步骤1.4。
步骤1.4:将步骤1.3中的网络表征学习方法NetWalk针对同质借贷网络Nh得到在初始时刻t时网络中节点v与其对应的向量表征γ,建立映射关系γ=Ft(v)。依据映射关系γ=Ft(v),将初始借贷数据表示为向量表征形式,如图4所示,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征(图4中向量维度dim由网络表征学习方法NetWalk中参数dim决定)。
表1可利用原始字段
Figure BDA0002270027860000071
表2 NetWalk主要参数
Figure BDA0002270027860000072
Figure BDA0002270027860000081
第二步,欺诈检测模型的建立,其过程如下:
分类器环境:python,XGBoost分类器
输入:
时刻tk对应的节点v与对应向量γ的映射关系
Figure BDA0002270027860000082
分类器参数集Wc
分类器输入的特征数量h,
用于模型训练借贷数据的集合Btrain(tk)。
输出:
欺诈检测模型
Figure BDA0002270027860000083
详细的,欺诈检测模型的建立,其过程如下:
步骤2.1:一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点。根据步骤1.4可知,基于tk时刻节点和映射关系
Figure BDA0002270027860000084
Figure BDA0002270027860000085
借贷数据变换为每个借贷单号所对应的维数为dim的向量。在得到向量后即可直接输入分类模型进行节点分类后续任务。(此为:“方法一”)。
本实施例进一步创新,进一步披露给出“方法二”:在基于所得到的向量表征,针对每一笔借贷数据依次先计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离(欧氏距离为向量相似度的一种计算方法),并按照从小到大的顺序排序这h项,将其作为对应单号的所构造的时序特征。然后,再引入待检测单号与其前h项单号所对应向量相似度作为欺诈检测模型的输入。
对比之:
“方法一”,其方法仅考虑向量的绝对空间位置,在借贷数据中性能较差。
“方法二”相比于“方法一”更有利于检测借贷欺诈中的团伙欺诈问题,不使用绝对空间位置,使用向量相似度,增强了后续欺诈检测模型的泛化能力。面对向量X=(x1,····,xdim)、Y=(y1,····,ydim),其欧氏距离的计算如下所示
Figure BDA0002270027860000091
步骤2.2:基于步骤2.1中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型
Figure BDA0002270027860000092
第三部,生成增量式的网络表征,其过程如下:
输入:
时刻tk时对应的节点v与对应向量γ的映射关系
Figure BDA0002270027860000093
时刻tk时网络表征学习所用数据集Btrain(tk),
流式到来的tk+1时刻的网络借贷数据集Btest(tk+1)。
输出:
时刻tk+1时节点v与对应向量γ的映射关系
Figure BDA0002270027860000094
详细的,生成增量式的网络表征,其过程如下:
步骤3.1:依据数据集Btrain(tk)时间戳顺序,选取与数据集Btest(tk+1)同样数量的最早数据放入数据集B′test(tk+1)。将数据集Btest(tk+1)与B′test(tk+1)采用与步骤1.1中相同的预处理操作,将处理后的数据集Btest(tk+1)与B′test(tk+1)基于数据集Btrain(tk)进行关系借贷网络的更新。基于步骤1.1的定义,分别处理网络借贷数据Btest(tk+1)与B′test(tk+1)得到关系借贷网络中的节点集Vtest(tk+1)和V′test(tk+1)与边集Etest(tk+1)和E′test(tk+1),Etest(tk+1)是流式到达的借贷数据中单号与上一时刻关系借贷网络Nr中现有节点之间的存在关系的边集,
Figure BDA0002270027860000096
是关系借贷网络Nr即将删除的过期边集。令V=V∪Vtest(tk+1)-V′test(tk+1)和E=E∪Etest(tk+1)-E′test(tk+1),更新关系借贷网络Nr=(V,E)。执行步骤3.2。
步骤3.2:基于更新后的关系借贷网络Nr=(V,E),采用步骤1.2获得更新后的同质借贷网络Nh=(Vh,Eh)。执行步骤3.3。
步骤3.3:基于时刻tk对应的节点v与对应向量γ的映射关系
Figure BDA0002270027860000095
分别设置边集Etest(tk+1)和E′test(tk+1)为新到来的边集和待删除的边集,运用网络表征学习方法NetWalk,对涉及到边集Etest(tk+1)和E′test(tk+1)中的节点和边进行增量式的网络表征学习,得到时刻tk+1对应的节点v与对应向量γ的映射关系
Figure BDA0002270027860000101
Figure BDA0002270027860000102
执行步骤3.4。
步骤3.4:将步骤3.3中针对同质借贷网络Nh得到在时刻tk时网络中节点v与其对应的向量表征γ之间的映射关系
Figure BDA0002270027860000103
依据映射关系γ=Ft(v),将流式借贷数据重新表示为向量表征形式,如图4所示,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征。
第四部,欺诈检测模型的测试,其过程如下:
分类器环境:python,XGBoost分类器
输入:
模型更新周期T,
欺诈检测模型
Figure BDA0002270027860000104
时刻tk对应的节点v与对应向量γ的映射关系
Figure BDA0002270027860000105
时刻tk用于模型测试借贷数据的集合Btest(tk)。
输出:
测试数据为欺诈的概率P。
详细的,欺诈检测模型的测试,其过程如下:
步骤4.1:一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点。根据步骤3.4可知,基于tk时刻节点和映射关系
Figure BDA0002270027860000107
Figure BDA0002270027860000106
借贷数据变换为每个借贷单号所对应的维数为dim的向量。基于所得到的向量表征,针对每一笔借贷数据依次计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离,并按照从小到大的顺序排序这h项,将其作为对应单号的时序特征。执行步骤4.2。
步骤4.2:导入步骤2.2得到的欺诈检测模型
Figure BDA0002270027860000108
将tk时刻的测试数据对应的时序特征输入欺诈检测模型
Figure BDA0002270027860000111
得到测试借贷数据的集合Btest(tk)中每一笔借贷数据的欺诈概率p(bi),输出测试数据为欺诈的概率集合P,其中p(bi)∈P。判断时刻tk+1+t0是否大于周期T,若大于,则将tk时刻的借贷数据集Btrain(tk)视为初始借贷数据集,执行第一部分步骤1.1重新构建关系借贷网络。若小于,令
Figure BDA0002270027860000112
在时刻tk+1时执行第三部分步骤3.1,根据到来的流式借贷数据,增量式地更新网络表征。
本发明通过在真实互联网金融平台借贷数据集上进行检测证明,得出不同打扰率(误拦截率,False Positive Rate)下的召回率(拦截率,True Positive Rate),并由此来计算KS值(是不同情况下召回率-打扰率的最大值)来评价***的性能,该方法在此指标上和计算时间上都优于先前的研究,并且有着很好的鲁棒性。
本项目的创新点
1.通过从记录型的借贷数据建立关联借贷网络,并衍生出同质借贷网络将借贷数据之间的关系以网络的形式表现,同时基于上述同质信息网络并进行网络表征学习,实现自动从数据中抽取潜在关联特征,减少了***对业务知识的依赖程度。
2.针对流式借贷数据,动态更新关联借贷网络和同质借贷网络结构,并通过增量式的网络表征学习方法,准确地对不断变化的借贷网络进行动态地更新相关表征,基于节点的向量表征构造出借贷数据新的特征,输入已有训练好的模型返回借贷数据的欺诈概率。对比传统的方法,本模型中表征的更新具有更强的实时性,适合网络借贷场景下对数据快速审核的要求,具有更高的准确性和鲁棒性。
批注:本发明中的有关术语以及对于先前的主要技术可参见如下资料。
[1]Chen Y Q,Zhang J,Ng W W Y.Loan Default Prediction UsingDiversified Sensitivity Undersampling[C]//2018International Conference onMachine Learning and Cybernetics(ICMLC).IEEE,2018,1:240-245.
[2]Shi Y F,Song P P.Improvement Research on the Project LoanEvaluation of Commercial Bank Based on the Risk Analysis[C]//2017 10thInternational Symposium on Computational Intelligence and Design(ISCID).IEEE,2017,1:3-6.
[3]Cui P,Wang X,Pei J,et al.A survey on network embedding[J].IEEETransactions on Knowledge and Data Engineering,2018,31(5):833-852.
[4]Saha P,Bose I,Mahanti A.A knowledge based scheme for riskassessment in loan processing by banks[J].Decision Support Systems,2016,84:78-88.
[5]Talavera A,Cano L,Paredes D,et al.Data Mining Algorithms for RiskDetection in Bank Loans[C]//Annual International Symposium on InformationManagement and Big Data.Springer,Cham,2018:151-159.
[6]Babaev D,Savchenko M,Tuzhilin A,et al.ET-RNN:Applying DeepLearning to Credit Loan Applications[C]//Proceedings of the 25th ACM SIGKDDInternational Conference on Knowledge Discovery&Data Mining.ACM,2019:2183-2190.
[7]Yu W,Cheng W,Aggarwal C C,et al.Netwalk:A flexible deep embeddingapproach for anomaly detection in dynamic networks[C]//Proceedings of the24th ACM SIGKDD International Conference on Knowledge Discovery&DataMining.ACM,2018:2672-2681.
[8]Chen T,Guestrin C.XGBoost:A scalable tree boosting system[C]//Proceedings of the 22nd acm sigkdd international conference on knowledgediscovery and data mining.ACM,2016:785-794.

Claims (4)

1.一种基于增量式网络表征学习的网络借贷欺诈检测方法,其特征在于,过程为:
步骤1,建立关系借贷网络并完成同质化
收集历史网络借贷产生的丰富借贷数据,建立异质的关系借贷网络,以此再以单号为节点,以不同借贷数据中同时拥有的属性关系为边,衍生出同质借贷网络;提供给步骤2;
步骤2,构建训练样本集
汇集原始静态数据,建立初始静态数据集,利用网络表征学习算法变换网络结构,进行向量化,得到基于初始网络借贷数据集的节点对应的向量表征,由这些学习到的向量数据构成训练样本集;提供给步骤3;
步骤3,特征构造
对训练样本集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤4;
步骤4,训练欺诈检测模型
采用python中机器学习集成库scikit-learn中的XGBoost分类器为本发明的欺诈检测模型,对步骤3构造出的特征输入该分类器进行欺诈检测模型训练;提供给步骤7;
步骤5,更新关系借贷网络和同质借贷网络
更新收集网络借贷目前产生的借贷数据,针对以时间序列依次到来的增量流式借贷数据,更新关系借贷网络和同质借贷网络,提供给步骤6;
步骤6:更新当前测试数据集
利用步骤2构建的训练样本集,将以时间序列依次到来的流式借贷数据构建当前的测试数据集,即:将新到来k笔借贷数据加入,并删除初始数据集中时间最早的k笔借贷数据,以实时更新当前测试数据集;
参照步骤2,利用网络表征学习算法变换网络结构,进行向量化,得到当前测试数据集的节点对应的向量表征,更新学习到的向量数据更新了当前测试数据集;提供给步骤7;
步骤7,特征构造
参照步骤3,对测试数据集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤8;
步骤8,欺诈检测模型进行测试
将步骤7当前测试数据集输入步骤4欺诈检测模型,获得到欺诈检测模型的判断结果。
2.如权利要求1所述的方法,其特征在于,包括如下步骤
步骤1.1:从原始借贷数据中筛选出原始字段,进行字段类型转换和空值去除填充预处理操作;
将原始借贷数据划分为单号(APPLYNO)与属性(ATTRIBUTE)两种类型,所述属性(ATTRIBUTE)为借贷数据中除去单号(APPLYNO)以外的其他数据;针对一笔借贷数据,将其记为(bi,ATT(bi)),bi是借贷数据b的单号,ATT(bi)是借贷数据b对应的属性集合,attk(bi)是ATT(bi)中第k个元素;
基于原始借贷数据建立关系借贷网络Nr=(V,E),V是节点集,E是边集,其中边e=(u,v),u与v属于节点集V,节点集V包含多种类型节点;针对借贷数据b中的每一笔数据bi,首先bi加入节点集V,将ATT(bi)中每一个元素依次加入节点集V,最后将边(bi,attk(bi))加入边集E,attk(bi)是ATT(bi)中第k个元素;执行步骤1.2;
步骤1.2:基于关系借贷网络建立同质借贷网络Nh=(Vh,Eh),Vh是节点集,Eh是边集,其中边e=(u,v,w),u与v属于节点集Vh,节点集Vh仅包含类型为借贷单号的节点;当attk(bi)=attk(bj)时,关系借贷网络中一对边(bi,attk(bi))和(bj,attk(bj))被视为边集Eh中的边(bi,bj),w为边(bi,bj)出现的次数,作为同质借贷网络Nh中的权重;基于关系借贷网络Nr,将节点集V中所有类型为借贷单号的节点加入节点集Vh;然后遍历每一对边(bi,attk(bi))和(bj,attk(bj)),当attk(bi)=attk(bi)时,将边(bi,bj)加入边集Eh;得到同质借贷网络Nh=(Vh,Eh);执行步骤1.3;
步骤1.3:基于已构建的同质借贷网络Nh,采用网络表征学习方法NetWalk来学习同质借贷网络Nh中全部网络节点的向量表征;执行步骤1.4;
步骤1.4:将步骤1.3中的网络表征学习方法NetWalk针对同质借贷网络Nh得到在初始时刻t时网络中节点v与其对应的向量表征γ,建立映射关系γ=Ft(v);依据映射关系γ=Ft(v),将初始借贷数据表示为向量表征形式,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征;
步骤2.1:基于tk时刻节点和映射关系
Figure FDA0004119424370000031
借贷数据变换为每个借贷单号所对应的维数为dim的向量;
在基于所得到的向量表征,针对每一笔借贷数据依次先计算每个单号与在数据集中前h项单号的欧氏距离,单号按生成时间排序,并按照从小到大的顺序排序这h项,将其作为对应单号的所构造的时序特征;然后,再引入待检测单号与其前h项单号所对应向量相似度作为欺诈检测模型的输入,面对向量X=(x1,····,xdim)、Y=(y1,····,ydim),其欧氏距离的计算如下所示
Figure FDA0004119424370000032
步骤2.2:基于步骤2.1中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型
Figure FDA0004119424370000033
步骤3.1:依据数据集Btrain(tk)时间戳顺序,选取与数据集Btest(tk+1)同样数量的最早数据放入数据集B′test(tk+1);将数据集Btest(tk+1)与B′test(tk+1)采用与步骤1.1中相同的预处理操作,将处理后的数据集Btest(tk+1)与B′test(tk+1)基于数据集Btrain(tk)进行关系借贷网络的更新;基于步骤1.1的定义,分别处理网络借贷数据Btest(tk+1)与B′test(tk+1)得到关系借贷网络中的节点集Vtest(tk+1)和V′test(tk+1)与边集Etest(tk+1)和E′test(tk+1),Etest(tk+1)是流式到达的借贷数据中单号与上一时刻关系借贷网络Nr中现有节点之间的存在关系的边集,
Figure FDA0004119424370000034
是关系借贷网络Nr即将删除的过期边集;令V=V∪Vtest(tk+1)-V′test(tk+1)和E=E∪Etest(tk+1)-E′test(tk+1),更新关系借贷网络Nr=(V,E);执行步骤3.2;
步骤3.2:基于更新后的关系借贷网络Nr=(V,E),采用步骤1.2获得更新后的同质借贷网络Nh=(Vh,Eh);执行步骤3.3;
步骤3.3:基于时刻tk对应的节点v与对应向量γ的映射关系
Figure FDA0004119424370000035
分别设置边集Etest(tk+1)和E′test(tk+1)为新到来的边集和待删除的边集,运用网络表征学习方法NetWalk,对涉及到边集Etest(tk+1)和E′test(tk+1)中的节点和边进行增量式的网络表征学习,得到时刻tk+1对应的节点v与对应向量γ的映射关系
Figure FDA0004119424370000041
执行步骤3.4;
步骤3.4:将步骤3.3中针对同质借贷网络Nh得到在时刻tk时网络中节点v与其对应的向量表征γ之间的映射关系
Figure FDA0004119424370000042
依据映射关系γ=Ft(v),将流式借贷数据重新表示为向量表征形式,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征;
步骤4.1:一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点;根据步骤3.4可知,基于tk时刻节点和映射关系
Figure FDA0004119424370000043
借贷数据变换为每个借贷单号所对应的维数为dim的向量;基于所得到的向量表征,针对每一笔借贷数据依次计算每个单号与在数据集中前h项单号的欧氏距离,单号按生成时间排序,并按照从小到大的顺序排序这h项,将其作为对应单号的时序特征;执行步骤4.2;
步骤4.2:导入步骤2.2得到的欺诈检测模型
Figure FDA0004119424370000044
将tk时刻的测试数据对应的时序特征输入欺诈检测模型
Figure FDA0004119424370000045
得到测试借贷数据的集合Btest(tk)中每一笔借贷数据的欺诈概率p(bi),输出测试数据为欺诈的概率集合P,其中p(bi)∈P。
3.如权利要求1所述的方法,其特征在于,判断当前测试数据集对应时刻是否超出模型更新周期,若不超出,重复执行步骤5,若超出,重复执行步骤1;直至针对所有测试数据集完成欺诈检测,算法结束。
4.如权利要求3所述的方法,其特征在于,判断时刻tk+1+t0是否大于周期T,若大于,则将tk时刻的借贷数据集Btrain(tk)视为初始借贷数据集,执行第一部分步骤1.1重新构建关系借贷网络;若小于,令
Figure FDA0004119424370000046
Btrain(tk+1)=Btrain(tk)∪Btest(tk+1)-B′test(tk+1);在时刻tk+1时执行步骤3.1,根据到来的流式借贷数据,增量式地更新网络表征。
CN201911101580.2A 2019-11-12 2019-11-12 基于增量式网络表征学习的网络借贷欺诈检测方法 Active CN111105303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911101580.2A CN111105303B (zh) 2019-11-12 2019-11-12 基于增量式网络表征学习的网络借贷欺诈检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911101580.2A CN111105303B (zh) 2019-11-12 2019-11-12 基于增量式网络表征学习的网络借贷欺诈检测方法

Publications (2)

Publication Number Publication Date
CN111105303A CN111105303A (zh) 2020-05-05
CN111105303B true CN111105303B (zh) 2023-05-12

Family

ID=70420478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911101580.2A Active CN111105303B (zh) 2019-11-12 2019-11-12 基于增量式网络表征学习的网络借贷欺诈检测方法

Country Status (1)

Country Link
CN (1) CN111105303B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270548B (zh) * 2020-11-17 2022-09-20 中国人民解放军国防科技大学 一种基于深度学习的***欺诈检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1309147A1 (en) * 2001-10-30 2003-05-07 Hewlett-Packard Company, A Delaware Corporation Method and apparatus for managing profile information in a heterogeneous or homogeneous network environment
EP2640108A1 (de) * 2012-03-16 2013-09-18 Deutsche Telekom AG Verfahren und Einrichtung zur Zuweisung von Funkressourcen in einem heterogenen Mobilfunknetz
CN110276679A (zh) * 2019-05-23 2019-09-24 武汉大学 一种面向深度学习的网络个人信贷欺诈行为检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1309147A1 (en) * 2001-10-30 2003-05-07 Hewlett-Packard Company, A Delaware Corporation Method and apparatus for managing profile information in a heterogeneous or homogeneous network environment
EP2640108A1 (de) * 2012-03-16 2013-09-18 Deutsche Telekom AG Verfahren und Einrichtung zur Zuweisung von Funkressourcen in einem heterogenen Mobilfunknetz
CN110276679A (zh) * 2019-05-23 2019-09-24 武汉大学 一种面向深度学习的网络个人信贷欺诈行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张燕.基于本质特征和网络特征的***欺诈检测.微型电脑应用.2016,第32卷(第12期),72-77. *

Also Published As

Publication number Publication date
CN111105303A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN110852856B (zh) 一种基于动态网络表征的***虚开识别方法
US11263644B2 (en) Systems and methods for detecting unauthorized or suspicious financial activity
CN109034194B (zh) 基于特征分化的交易欺诈行为深度检测方法
US20170103203A1 (en) Applying Multi-Level Clustering at Scale to Unlabeled Data For Anomaly Detection and Security
US20220253856A1 (en) System and method for machine learning based detection of fraud
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
Savage et al. Detection of money laundering groups: Supervised learning on small networks
CN112862585A (zh) 基于LightGBM决策树算法的个贷类不良资产风险评级方法
CN111105303B (zh) 基于增量式网络表征学习的网络借贷欺诈检测方法
CN111178902A (zh) 基于自动化特征工程的网络支付欺诈检测方法
Yahaya et al. An enhanced bank customers churn prediction model using a hybrid genetic algorithm and k-means filter and artificial neural network
CN110956543A (zh) 异常交易检测的方法
CN111245815B (zh) 数据处理方法、装置、存储介质及电子设备
CN111028073B (zh) 互联网金融平台网络借贷欺诈检测***
Najadat et al. Performance evaluation of industrial firms using DEA and DECORATE ensemble method.
CN114493858A (zh) 一种非法资金转移可疑交易监测方法及相关组件
Lee et al. Application of machine learning in credit risk scorecard
CN111275447A (zh) 基于自动化特征工程的在线网络支付欺诈检测***
Muranda et al. Deep learning method for detecting fraudulent motor insurance claims using unbalanced data
Eria et al. Decision support credit scoring model to improve loan default prediction in financial institutions
Religia et al. Analysis of the Use of Particle Swarm Optimization on Naïve Bayes for Classification of Credit Bank Applications
Domashova et al. Development of a generalized algorithm for identifying atypical bank transactions using machine learning methods
CN111833171B (zh) 异常操作检测和模型训练方法、装置以及可读存储介质
Krokhalev Fraud Detection System based on Artificial Immune System
Jawalkar et al. ADVANCED NEURAL NETWORK ARCHITECTURE FOR DETECTING FRAUD IN INTERNET LOAN APPLICATIONS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant