CN114818999B - 基于自编码器和生成对抗网络的账户识别方法及*** - Google Patents

基于自编码器和生成对抗网络的账户识别方法及*** Download PDF

Info

Publication number
CN114818999B
CN114818999B CN202210745030.XA CN202210745030A CN114818999B CN 114818999 B CN114818999 B CN 114818999B CN 202210745030 A CN202210745030 A CN 202210745030A CN 114818999 B CN114818999 B CN 114818999B
Authority
CN
China
Prior art keywords
account
transaction
encoder
discriminator
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210745030.XA
Other languages
English (en)
Other versions
CN114818999A (zh
Inventor
韩晓晖
罗雪姣
刘广起
左文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Computer Science Center National Super Computing Center in Jinan
Priority to CN202210745030.XA priority Critical patent/CN114818999B/zh
Publication of CN114818999A publication Critical patent/CN114818999A/zh
Application granted granted Critical
Publication of CN114818999B publication Critical patent/CN114818999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自编码器和生成对抗网络的账户识别方法及***,属于金融信息安全技术领域,该方法包括:获取银行账户的账户交易报告和账户属性图序列,人工标注账户类别;通过自编码器提取账户的融合特征;基于融合特征,利用生成对抗网络生成带有类型标注的账户特征,利用账户融合特征和生成的账户特征训练判别器;根据待测账户的账户交易报告和属性图序列,提取待测账户的融合特征,输入训练完成的判别器中,识别待测账户的真伪并预测待测账户的类别。本发明通过自编码器结构以端到端的方式自动捕捉洗钱账号的行为动态模式和结构动态模式及其之间的影响,并通过基于生成对抗的样本增强,提高账户识别性能,实现对洗钱账号的细粒度识别。

Description

基于自编码器和生成对抗网络的账户识别方法及***
技术领域
本发明属于金融信息安全技术领域,尤其涉及一种基于自编码器和生成对抗网络的账户识别方法及***。
背景技术
洗钱是指有组织的犯罪分子利用金融机构为工具,将非法资金通过转账等手段使其变成看似合法化的同时隐藏资金来源和去向。洗钱活动涉及的***不仅严重扰乱经济秩序,而且助长犯罪组织的发展。因此,反洗钱技术对经济安全和社会安全有着重要意义。
洗钱通常涉及大量银行账号间的资金转移行为,从交易记录中检测参与洗钱的银行账号是反洗钱过程中的关键一环。现有的洗钱账号检测技术经历了基于规则、基于统计和基于机器学习的发展路线。早期基于规则的方法通过人的经验或专家知识制定识别规则来检测洗钱账号,由于人工制定的规则容易受到人的主观影响,因此这类方法的误报率高、容易被规避,无法识别新型洗钱模式下的洗钱账号;基于统计的方法通过分析和总结得到洗钱账户的一般性规律,如资金流水量与同类型职业收入差异大等,从而制定检测策略,但随着洗钱模式的不断复杂化,这类方法的有效性逐渐降低;基于机器学习技术的自动化检测方法中,通常基于人工设计的特征使用支持向量机(Support Vector Mechine,SVM)、随机森林(Random Forest,RF)等传统机器学习模型来学习洗钱账号的模式,然而人工设计特征往往耗时耗力,且仍然容易被犯罪分子规避。现有技术中,基于深度学习的洗钱账号检测技术逐渐兴起,这类技术无需人工设计特征,可以以“端到端”的方式检测洗钱账号,但这类技术往往需要大量的训练数据来拟合模型参数。
根据分析对象的不同,现有洗钱账号技术可分为三类。一类技术基于洗钱账号的交易行为特性构建识别模型,如每日平均交易流水量、每日平均交易对手量等;另一类技术基于账号在洗钱资金交易网络中的结构特性来构建识别模型,如入度、出度、向心度等;还有一类方法将上述两类特性结合来构建识别模型,这类技术的检测性能通常高于前两类技术。
也就是说,基于规则、基于统计、基于传统机器学习技术的方法均需要依赖人对洗钱模式的规律总结,因此,在应对新型洗钱模式时存在滞后性,无法及时有效地对其检测,如专利CN202011479935 .4基于时序交易图谱和预设账户识别策略识别风险账户,该方案通过人工设计识别规则,耗时耗力,且识别规则更新滞后,容易漏检和误检风险账户;现有基于深度学习的方法在一定程度上解决了这一问题,但这些方法往往需要大量的训练数据,但是现实中可作为训练数据的洗钱交易数据比较匮乏,导致这类模型训练不易收敛,且泛化性较差,如专利CN201611134189 .9基于有监督机器学习的证券配资账户识别方法,该方案未考虑由于真实场景中风险账户数量少,使得分类模型存在难收敛、泛化性差等问题。
其次,洗钱过程是一个动态过程,因此充分捕捉洗钱账号的行为动态特性和结构动态特性才能够更有效的对其进行识别。现有技术一方面将洗钱交易网络视为一个静态网络,没有关注网络结构的发展演化,另一方面也没有充分考虑行为动态和结构动态之间复杂的相互影响,而只是将两类特性简单的叠加进行建模,因而对于复杂的洗钱模式识别性能并不理想。
最后,已有洗钱账号检测技术的识别粒度较粗,只能识别目标账号是否参与洗钱,即二分类,无法更细粒度地对洗钱账号在整个洗钱交易过程中承担的功能角色进行识别,如散款、资金汇集、来源混淆等,而这类分析结果将极大地有助于分析洗钱组织的运行机制从而更有效的对其进行打击和瓦解。
如现有技术Variational Autoencoders and Wasserstein GenerativeAdversarial Networks for Improving the Anti-Money Laundering Process,该方法使用自编码器和生成对抗网络基于交易金额、交易次数等静态交易行为提取交易特征并进行数据增强,该方案(1)未结合目标账户的交易结构对账户类别进行预测,交易对手的类别有助于预测目标账户的类别,例如一个良性账户的交易对手大概率也是良性账户;(2)未考虑账户的行为动态和结构动态之间复杂的相互影响,例如一个良性账户与一个洗钱账户均累计转出资金数额巨大,从行为动态的视角来看,良性账户在很长一段时间内陆续转出不同金额的资金,洗钱账户则在很短时间内集中转出大额资金;从结构动态的视角来看,仅考虑上述资金的流向,良性账户的交易对手数量多而洗钱账户的交易对手数量少且相对固定;但从静态视角来看,此良性账户与洗钱账户特征相似,因此,该方案在预测特征相似的洗钱账户和良性账户时存在高误报率,不适用于检测分散化、隐蔽化的洗钱模式;(3)只能识别目标账户是否参与洗钱,即二分类,不能为有关人员分析洗钱组织的运行机制提供技术支持。
发明内容
针对现有技术的不足,本发明提供了一种基于自编码器和生成对抗网络的账户识别方法及***,能够通过自编码器结构以端到端的方式自动捕捉洗钱账号的行为动态模式和结构动态模式,无需人工参与,并通过多任务学习结构来充分捕捉行为动态和结构动态之间复杂的相互影响;通过生成对抗网络来生成一部分接近于真实样本分布的伪样本,实现了对训练数据的增强,缓解了现有深度学习的方法因训练样本匮乏导致的收敛难、泛化性差等问题;能够对洗钱账号在整个洗钱过程中所承担的角色进行细粒度识别,有助于分析洗钱组织的运行机制从而更有效的对其进行打击和瓦解。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了一种基于自编码器和生成对抗网络的账户识别方法。
一种基于自编码器和生成对抗网络的账户识别方法,包括:
获取银行账户的档案和交易记录,人工标注账户类别,构建账户交易报告和账户属性图序列;
基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;
将带有账户类别标注的账户特征作为真实样本,基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征,将该生成的账户特征作为伪样本,利用真实样本和伪样本训练生成对抗网络的生成器和判别器;
根据待测账户的档案和交易记录,构建待测账户交易报告和待测账户属性图序列,提取待测账户的融合特征,将账户融合特征输入训练完成的判别器中,识别待测账户的真伪并预测待测账户的类别。
进一步的技术方案,所述融合账户交易行为特征和账户交易关系特征,得到特征融合向量,包括:
将账户交易行为特征和账户交易关系特征进行横向拼接,得到拼接后的特征向量;
将拼接后的特征向量输入全连接层中,得到融合行为动态模式和结构动态模式的特征融合向量。
进一步的技术方案,基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征的具体过程包括:基于特征融合向量的均值和方差构造先验分布,从先验分布中采样随机向量,然后将随机向量和账户类别标签输入由全连接层构成的生成器,生成带有类型标注的账户特征向量。
进一步的技术方案,利用真实样本和伪样本训练生成对抗网络的生成器和判别器,是指:
将生成器生成的伪样本输入判别器,根据判别器输出的类别识别结果与伪样本实际的标注类别,计算生成器的损失值,基于该损失值优化更新生成器的参数,实现对生成器的训练;
基于真实样本,利用训练后的生成器再次生成伪样本,将该伪样本和真实样本混合后输入判别器,根据判别器输出的类别识别结果与输入样本实际的标注类别,计算判别器的损失值,基于该损失值优化更新判别器的参数,实现对判别器的训练;
循环迭代上述训练过程,直至生成器和判别器的损失值最小,完成训练。
进一步的技术方案,还包括利用特征融合向量循环迭代训练自编码器,具体为:计算自编码器的损失函数,使用梯度下降法最小化自编码器的损失函数,通过反向传播更新自编码器的参数,实现对自编码器的训练。
进一步的技术方案,自编码器损失函数的计算过程包括:
将特征融合向量分别输入行为特征解码器和结构特征解码器中,重构账户交易行为特征和账户交易关系特征;
基于重构的账户交易行为特征和账户交易关系特征,分别使用行为特征损失函数和交易关系特征损失函数计算二者损失,通过加权求和,获得自编码器的损失函数。
进一步的技术方案,所述判别器为多头判别器,以真伪混合账户为输入,输出两组概率分布,分别是待测账户的真伪概率分布以及待测账户所属类别的概率分布。
本发明第二方面提供了一种基于自编码器和生成对抗网络的账户识别***。
一种基于自编码器和生成对抗网络的账户识别***,包括:
数据获取模块,用于获取账户的档案和交易记录,构建账户交易报告和账户属性图序列;
特征提取模块,用于基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;
预测模块,用于将提取的账户融合特征输入训练完成的判别器中,识别账户的真伪并预测账户的类别。
进一步的技术方案,所述融合账户交易行为特征和账户交易关系特征,得到特征融合向量,包括:
将账户交易行为特征和账户交易关系特征进行横向拼接,得到拼接后的特征向量;
将拼接后的特征向量输入全连接层中,得到融合行为动态模式和结构动态模式的特征融合向量。
进一步的技术方案,所述判别器为多头判别器,以真伪混合账户为输入,输出两组概率分布,分别是待测账户的真伪概率分布以及待测账户所属类别的概率分布。
以上一个或多个技术方案存在以下有益效果:
(1)本发明提供了一种基于自编码器和生成对抗网络的账户识别方法,以端到端的方式检测洗钱账号,通过自动捕捉洗钱账号的行为动态模式、结构动态模式及二者之间复杂的相互影响,并通过基于生成对抗的样本增强,在低人力成本的条件下缓解了现有技术无法有效应对新型、复杂洗钱模式的问题,能够进一步提升洗钱账号检测的性能。
(2)本发明所提供的方法能够对洗钱账号在整个洗钱过程中所承担的角色进行细粒度识别,能够更好的帮助调查人员分析洗钱组织的运行机制,更有效的对其进行打击和瓦解。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一所述识别方法的整体结构示意图;
图2为本发明实施例一所述识别方法中结构编码器的特征提取流程示意图;
图3为本发明实施例一所述识别方法中结构解码器的重构流程示意图;
图4为本发明实施例一所述识别方法中判别器的预测流程示意图;
图5为本发明实施例二所述识别***的结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
为了解决现有的洗钱账号识别技术识别性能较差的问题,本实施例提供了一种基于自编码器和生成对抗网络的账户识别方法,如图1所示,该方法包括:
获取银行账户的档案和交易记录,人工标注账户类别,构建账户交易报告和账户属性图序列;
基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;
将带有账户类别标注的账户特征作为真实样本,基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征,将该生成的账户特征作为伪样本,利用真实样本和伪样本训练生成对抗网络的生成器和判别器;
根据待测账户的档案和交易记录,构建待测账户交易报告和待测账户属性图序列,提取待测账户的融合特征,将账户融合特征输入训练完成的判别器中,识别待测账户的真伪并预测待测账户的类别。
首先,获取银行账户的档案和交易记录,基于所获取的账户档案和交易记录,人工标注账户类别,即通过人工标注每个账户是否为洗钱账户以及洗钱账户的分工,同时,根据所获取账户的档案和交易记录,构建账户交易报告和账户属性图序列。其中,账户档案包括账户ID、拥有银行卡数量及开卡日期等,交易记录中每一条数据表示为r=[orig, dst,amount, time],其中orig为汇款账户,dst为收款账户,amount为交易金额,time为交易时间。
构建账户交易报告,包括:以时间间隔t为单位划分交易记录r=[orig, dst,amount, time],计算单位时间t内的评估洗钱行为的统计量,如:收款总额、汇款总额、向该账户汇款的账户数量等,得到账户交易报告R
Figure 864008DEST_PATH_IMAGE001
),N表示所获取的账户数量,k表示评估洗钱行为统计量的个数,T表示时间段的总数。
构建账户属性图序列,包括:根据所获取的交易记录构造账户属性图序列,记为G= (G 1 ,G 2 ,…,G T ),t∈(1,2,…,T)。其中,G t =(V, E t )为在t时间内构造的属性图,即在时间t内交易网络的状态;V={v 1,v 2,…,v N }表示属性图序列的共享点集;E t 表示在t时间内发生的交易集合,例如,v 1v 2汇款,则用一条有向边连接,有向边的起点为v 1 ,终点为v 2;用户档案X(
Figure 249859DEST_PATH_IMAGE002
)作为属性图序列的共享节点属性特征,d a 为用户档案中描述该用户特征的维度。
其次,基于账户交易报告和账户属性图序列提取账户特征。
为了捕捉账户u i 的行为动态模式,从账户交易报告R中获取u i 的账户交易报告R i
Figure 856421DEST_PATH_IMAGE003
),将R i 作为行为特征编码器的输入,行为特征编码器自动地从R i 中提取交易行为特征b i
具体的,(1)首先使用卷积神经网络提取u i 的短期交易特征,即使用32个大小为k* w,步长为1的卷积核在R i 上做卷积运算,卷积操作后使用ReLU函数进行激活,记卷积层的输出为
Figure 849785DEST_PATH_IMAGE004
,其中
Figure 791065DEST_PATH_IMAGE005
,参数k、w均为常数;(2)然后基于卷积层的输出,使用循环神经网络(如长短期记忆网络)提取
Figure 528077DEST_PATH_IMAGE006
时间内的长期交易特征,取最后一个时间步的输出作为u i 的交易行为特征b i
为了捕捉账户u i 的结构动态模式,结构特征编码器以账户属性图序列G为输入,通过图神经网络聚合u i 的邻居信息来捕捉账户交易关系的短期模式,使用循环神经网络融合多个短期模式得到交易关系的长期特征来模拟交易网络的演化过程,从而提取u i 的交易关系特征si
具体的,如图2所示,结构特征编码器由图神经网络和循环神经网络组成,分别用于提取时间t的窗口内短期模式和多个窗口之间的长期模式。在本实施例中,以图卷积神经网络(Graph Convolutional Network, GCN)和门控单元网络(Gated Recurrent Unit,GRU)构成结构特征编码器,交易关系特征s i 的提取步骤包括:
(1)将带有节点属性矩阵X的图序列G输入结构特征编码器的图卷积神经网络GCN中,对于u i 的第t个子图G t ,GCN在G t 上对u i 的邻居信息进行聚合,得到聚合了l阶邻居信息的结构特征表示:
Figure 989145DEST_PATH_IMAGE007
其中,
Figure 418990DEST_PATH_IMAGE008
Figure 847566DEST_PATH_IMAGE009
Figure 122689DEST_PATH_IMAGE010
表示节点u i 与节点v j 的度,
Figure 703843DEST_PATH_IMAGE011
u i 的邻居节点,
Figure 39010DEST_PATH_IMAGE012
为聚合的第l阶邻居节点特征,W l 为第l层的参数矩阵。当l=1时,u i 的初始结构特征为节点u i 在属性矩阵X中的向量,即
Figure 954882DEST_PATH_IMAGE013
(2)结构特征编码器的门控单元网络GRU以上一时刻的结构特征表示
Figure 33696DEST_PATH_IMAGE014
和时间t的结构特征表示
Figure 469357DEST_PATH_IMAGE015
为输入,编码账户u i 交易结构中的时序特征,取GRU在最后一个时间步T的输出,作为u i 的交易行为特征s i
作为另一种实施方式,上述使用图神经网络构建账户交易结构的短期特征的方案中,所用的图卷积神经网络可用其他具有相似功能的图神经网络所替代,如图注意力网络(Graph Attention Network)等。
作为另一种实施方式,上述使用门控循环单元网络获得账户交易结构的长期特征的方案中,所用的模型可用其他循环神经网络替代,如长短期记忆网络(Long Short-TermMemory)等。
在获取账户交易行为特征和账户交易关系特征后,为了实现更有效的识别,本实施例所述方案融合账号u i 的行为动态模式和结构动态模式,使用由全连接构成的特征融合层来融合u i 的交易行为特征b i 和交易关系特征s i
具体的,首先将b i 和s i 进行横向拼接,得到拼接后的特征向量c i ,然后将c i 输入全连接层中,最终得到融合了行为动态模式和结构动态模式的特征融合向量
Figure 241004DEST_PATH_IMAGE016
接下来,将带有账户类别标注的账户特征作为真实样本,基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征,将该生成的账户特征作为伪样本,利用真实样本和伪样本训练生成对抗网络的生成器和判别器。
利用生成网络生成伪样本的过程中,为了减小生成器生成结果的随机性,基于特征融合向量
Figure 378593DEST_PATH_IMAGE017
的均值和方差构造先验分布P pior ,从先验分布P pior 中采样随机向量z,然后将随机向量z和账户类别标签y c 输入由全连接层构成的生成器,生成类别为y c 的特征向量表示g j
作为另一种实施方式,上述生成对抗网络中的生成器的结构不限于全连接层,此处所用的模型可用其他神经网络替代,如卷积神经网络(Convolutional Neural Network)等。
将真实样本和伪样本输入判别器中,进行训练。判别器一方面预测输入样本是否为真实样本,同时,另一方面预测该样本是否为洗钱账号,若输入样本的预测结果为洗钱账号,则直接输出其在洗钱过程中所承担的角色。在本实施例中,如图4所示,判别器采用多头判别器,即同时具有sigmoid函数和softmax函数,可分别用于区分真伪样本和对待预测样本的具体类别进行预测。其中,区分真伪样本是指对输入样本是否为生成器所生成的伪样本进行区分。
判别器的基本单元由全连接层和激活层构成,输入真伪混合样本,先使用线性回归层提取更高层次的特征,经过激活之后输入双头判别器,双头判别器中的全连接层将高维特征映射到低维后,使用激活函数将预测结果映射到0和1之间,即样本在每个类别上的概率分布。
作为另一种实施方式,上述多头判别器包括全连接层和激活层,全连接层和激活层的作用是基于自编码器得到的融合表示对样本的真伪和类别进一步预测,此处所用的网络结构可用其他分类器替代,如支持向量机(Support Vector Machine)等。其中,自编码器是指行为特征编码器和结构特征编码器。
上述利用生成对抗网络的生成器生成伪样本的方案,由于生成器通过生成伪样本对数据进行增强,避免了训练过程难收敛的问题。
实际上,本实施例所述账户识别方法中,通过自编码器、生成器、判别器共同构成账户识别模型,其中,自编码器用于提取账户的特征,生成器用于根据先验分布生成伪样本,判别器用于识别样本真伪和类别。为了进一步提高该账户识别模型的识别效果,则需要进一步优化该模型中自编码器、生成器、判别器的参数,本实施例中,基于损失函数,通过预测结果与真值之间的差距,分别对自编码器、生成器和判别器进行迭代训练,通过不断迭代更新该自编码器、生成器和判别器的参数,直至账户识别模型收敛,完成账户识别模型的训练,保证识别模型识别的准确性。
利用损失函数更新生成器的参数,以此使得生成器生成的伪样本的分布近似拟合真实样本,约束生成器的生成结果,并生成带有类别信息的特征。
具体的,将生成的伪样本的特征向量表示g j 输入判别器中,得到g j 属于真样本的概率和在每个类别上的概率分布。模型预测的g j 属于真样本的概率值被映射到0和1之间,即计算
Figure 261098DEST_PATH_IMAGE018
,其中x为判别器中第二个全连接层的输出向量。模型预测的g j 属于真样本的概率与真实类别y j 输入二分类交叉熵损失函数进行计算,计算所得损失值记为L gadv
Figure 551265DEST_PATH_IMAGE019
其中,p j 表示样本j预测为真样本的概率;y j 表示样本j的类别,真实样本设为1,伪样本设为0,即y j =0。因此,L gadv 可简化为:
Figure 493814DEST_PATH_IMAGE020
模型预测的g j 在每个账户类别上的概率分布由softmax函数计算得到,即计算
Figure 118699DEST_PATH_IMAGE021
,其中x j 为账户j在判别器中第二个全连接层(位于softmax之前)的输出向量,C为账户类别数量。
账户j的在每个类别上的概率分布与真实类别的one hot编码输入多分类交叉熵损失函数进行计算,计算所得损失值记为L gaux
Figure 539316DEST_PATH_IMAGE022
其中,
Figure 949569DEST_PATH_IMAGE023
为输入生成器的账户类别标签y c
Figure 63018DEST_PATH_IMAGE024
j属于类别y c 的概率。
则,生成器最终的损失函数形式为:
Figure 175200DEST_PATH_IMAGE025
其中,α为调整不同损失所占比重的超参数。通过梯度下降法和反向传播算法,更新生成器参数。
基于上述计算生成器损失函数,利用损失函数更新生成器参数,提升生成器生成伪样本效果的方案。同样,在本实施例中,基于损失函数,优化更新自编码器和判别器的参数,使得模型学到训练样本的行为特征和结构特征,达到收敛状态,进而提高模型的识别性能。
针对判别器参数的更新,基于真实样本,利用训练后的生成器再次生成伪样本,将该伪样本和真实样本混合后输入判别器,根据判别器输出的类别识别结果与输入样本实际的标注类别,计算判别器的损失值,此时,使用与计算生成器损失函数形式相似的方案分别计算真实样本分类的损失L real 和生成伪样本的分类损失L fake ,判别器最终的损失函数形式为:
Figure 399508DEST_PATH_IMAGE026
其中,β为调整L real L fake 所占比重的超参数。通过梯度下降法和反向传播算法,更新判别器参数。
针对自编码器参数的更新,首先,为了进一步捕捉洗钱账号的行为动态和结构动态之间复杂的相互影响,将得到的融合向量
Figure 398688DEST_PATH_IMAGE027
用于行为重构任务和结构重构任务,即将
Figure 869989DEST_PATH_IMAGE017
分别输入结构解码器和行为特征解码器中,包括:使用结构解码器将融合向量
Figure 282516DEST_PATH_IMAGE027
重构为与G子图个数相同、节点数相同的图序列
Figure 248198DEST_PATH_IMAGE028
;使用由循环神经网络和反卷积组成的行为特征解码器,将融合向量
Figure 429780DEST_PATH_IMAGE017
重构为与bi分布相似的表示
Figure 806404DEST_PATH_IMAGE029
具体的,如图3所示,结构解码器由循环神经网络和内积解码器组成。循环神经网络为每个时间步重构节点高阶表示,内积解码器将t时刻的节点高阶表示进一步地重构为子图的邻接矩阵,具体步骤包括:
(1)对于账户u i ,将融合了交易行为和交易结构信息的特征
Figure 643910DEST_PATH_IMAGE027
输入门控单元网络GRU中,门控单元网络GRU基于上一时刻的输出和
Figure 210021DEST_PATH_IMAGE027
,重构T个子图的结构向量表示,记t时刻的GRU输出为
Figure 698640DEST_PATH_IMAGE030
(2)在t时刻,内积解码器通过对
Figure 59214DEST_PATH_IMAGE031
求内积,得到重构后的邻接矩阵:
Figure 384016DEST_PATH_IMAGE032
经过对GRU每个时间步的输出求内积,最终得到T个重构后的邻接矩阵
Figure 940768DEST_PATH_IMAGE033
在完成行为重构任务和结构重构任务后,采用多任务学习结构优化自编码器的参数,即自编码器的损失L AE 由行为重构任务L behav 和结构重构任务L struc 加权求和组成。具体的,使用均方差损失函数衡量模型重构的行为特征与真实行为特征之间的差异,其形式如下:
Figure 831364DEST_PATH_IMAGE034
其中,
Figure 566101DEST_PATH_IMAGE035
为模型重构的特征值,
Figure 174937DEST_PATH_IMAGE036
i的真实特征值。
使用同计算生成器损失值L gadv 形式相同的损失函数计算模型重构的邻接矩阵与真实邻接矩阵之间的差距,即:
Figure 535380DEST_PATH_IMAGE037
其中,E train 表示训练集边的总数,
Figure 546062DEST_PATH_IMAGE038
为第t个子图中e i 位置上的边,若该位置上存在边,则该位置上的值为1,否则值为0;
Figure 451701DEST_PATH_IMAGE039
为模型预测的第t个子图中e i 位置上存在边的概率,
Figure 547833DEST_PATH_IMAGE040
为sigmoid函数。
因此,自编码器的损失函数形式为:
Figure 446388DEST_PATH_IMAGE041
其中,γ为调整各项损失所占比重的超参数。
在计算自编码器和判别器的损失函数的基础上,自编码器和判别器分别基于L dis L AE ,循环迭代上述训练过程,使用梯度下降法和反向传播更新模型参数,直至识别模型收敛,即损失值基本不变或损失值在一个很小的区间内浮动,此时该模型拟合了训练数据的特征,完成了识别模型的训练,提高模型的鲁棒性。
最后,对待测账户u x 的数据进行预处理,即,根据待测账户u x 的档案和交易记录,构建待测账户交易报告和待测账户属性图序列,将其输入到训练完成的自编码器中,得到待测账户u x 的特征表示e x ,训练完成的判别器基于e x 预测得到待测账户u x 的类别。
本实施例所述方案中,特征提取过程包含两个阶段,分别是行为动态特征和结构动态特征的编码阶段以及解码阶段,该过程使用多任务学习结构捕捉行为动态和结构动态之间复杂的相互影响;数据增强过程将先验分布中采样噪声向量和类别标签构造接近于真实样本分布的伪样本。通过自动捕捉洗钱账号的行为动态模式、结构动态模式及二者之间复杂的相互影响,并通过基于生成对抗的样本增强,在低人力成本的条件下缓解了现有技术无法有效应对新型、复杂洗钱模式的问题,能够进一步提升洗钱账号检测的性能。
本实施例所述方案中,多头判别器以真伪混合样本为输入,输出两组概率分布,分别是待测样本的真伪概率分布以及待测样本所属类别或角色的概率分布,实现对洗钱账号在整个洗钱过程中所承担的角色进行细粒度识别,能够更好的帮助调查人员分析洗钱组织的运行机制,更有效的对其进行打击和瓦解。
实施例二
本实施例提供了一种基于自编码器和生成对抗网络的账户识别***,如图5所示,该***包括:
数据获取模块,用于获取账户的档案和交易记录,构建账户交易报告和账户属性图序列;
特征提取模块,用于基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;
预测模块,用于将提取的账户融合特征输入训练完成的判别器中,识别账户的真伪并预测账户的类别。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种基于自编码器和生成对抗网络的账户识别方法,其特征是,包括:
获取银行账户的档案和交易记录,人工标注账户类别,构建账户交易报告和账户属性图序列;所述人工标注账户类别,具体为:通过人工标注每个账户是否为洗钱账户以及洗钱账户的分工;
基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;其中,提取账户交易行为特征,具体为:通过卷积神经网络提取账户的短期交易特征,在此基础上,使用循环神经网络提取账户的长期交易特征,得到账户交易行为特征;提取账户交易关系特征,具体为:通过图神经网络捕捉账户交易关系的短期模式,在此基础上,使用循环神经网络融合多个短期模式得到长期交易特征,得到账户交易关系特征;
将带有账户类别标注的账户特征作为真实样本,基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征,将该生成的账户特征作为伪样本,利用真实样本和伪样本训练生成对抗网络的生成器和判别器;所述基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征,具体过程包括:基于特征融合向量的均值和方差构造先验分布,从先验分布中采样随机向量,然后将随机向量和账户类别标签输入由全连接层构成的生成器,生成带有类型标注的账户特征向量;
根据待测账户的档案和交易记录,构建待测账户交易报告和待测账户属性图序列,提取待测账户的融合特征,将账户融合特征输入训练完成的判别器中,识别待测账户的真伪并预测待测账户的类别。
2.如权利要求1所述的一种基于自编码器和生成对抗网络的账户识别方法,其特征是,所述融合账户交易行为特征和账户交易关系特征,得到特征融合向量,包括:
将账户交易行为特征和账户交易关系特征进行横向拼接,得到拼接后的特征向量;
将拼接后的特征向量输入全连接层中,得到融合行为动态模式和结构动态模式的特征融合向量。
3.如权利要求1所述的一种基于自编码器和生成对抗网络的账户识别方法,其特征是,利用真实样本和伪样本训练生成对抗网络的生成器和判别器,是指:
将生成器生成的伪样本输入判别器,根据判别器输出的类别识别结果与伪样本实际的标注类别,计算生成器的损失值,基于该损失值优化更新生成器的参数,实现对生成器的训练;
基于真实样本,利用训练后的生成器再次生成伪样本,将该伪样本和真实样本混合后输入判别器,根据判别器输出的类别识别结果与输入样本实际的标注类别,计算判别器的损失值,基于该损失值优化更新判别器的参数,实现对判别器的训练;
循环迭代上述训练过程,直至生成器和判别器的损失值最小,完成训练。
4.如权利要求1所述的一种基于自编码器和生成对抗网络的账户识别方法,其特征是,还包括利用特征融合向量循环迭代训练自编码器,具体为:计算自编码器的损失函数,使用梯度下降法最小化自编码器的损失函数,通过反向传播更新自编码器的参数,实现对自编码器的训练。
5.如权利要求4所述的一种基于自编码器和生成对抗网络的账户识别方法,其特征是,自编码器损失函数的计算过程包括:
将特征融合向量分别输入行为特征解码器和结构特征解码器中,重构账户交易行为特征和账户交易关系特征;
基于重构的账户交易行为特征和账户交易关系特征,分别使用行为特征损失函数和交易关系特征损失函数计算二者损失,通过加权求和,获得自编码器的损失函数。
6.如权利要求1所述的一种基于自编码器和生成对抗网络的账户识别方法,其特征是,所述判别器为多头判别器,以真伪混合账户为输入,输出两组概率分布,分别是待测账户的真伪概率分布以及待测账户所属类别的概率分布。
7.一种基于自编码器和生成对抗网络的账户识别***,其特征是,包括:
数据获取模块,用于获取账户的档案和交易记录,构建账户交易报告和账户属性图序列;
特征提取模块,用于基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;其中,提取账户交易行为特征,具体为:通过卷积神经网络提取账户的短期交易特征,在此基础上,使用循环神经网络提取账户的长期交易特征,得到账户交易行为特征;提取账户交易关系特征,具体为:通过图神经网络捕捉账户交易关系的短期模式,在此基础上,使用循环神经网络融合多个短期模式得到长期交易特征,得到账户交易关系特征;
预测模块,用于将提取的账户融合特征输入训练完成的判别器中,识别账户的真伪并预测账户的类别。
8.如权利要求7所述的一种基于自编码器和生成对抗网络的账户识别***,其特征是,所述融合账户交易行为特征和账户交易关系特征,得到特征融合向量,包括:
将账户交易行为特征和账户交易关系特征进行横向拼接,得到拼接后的特征向量;
将拼接后的特征向量输入全连接层中,得到融合行为动态模式和结构动态模式的特征融合向量。
9.如权利要求7所述的一种基于自编码器和生成对抗网络的账户识别***,其特征是,所述判别器为多头判别器,以真伪混合账户为输入,输出两组概率分布,分别是待测账户的真伪概率分布以及待测账户所属类别的概率分布。
CN202210745030.XA 2022-06-29 2022-06-29 基于自编码器和生成对抗网络的账户识别方法及*** Active CN114818999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210745030.XA CN114818999B (zh) 2022-06-29 2022-06-29 基于自编码器和生成对抗网络的账户识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210745030.XA CN114818999B (zh) 2022-06-29 2022-06-29 基于自编码器和生成对抗网络的账户识别方法及***

Publications (2)

Publication Number Publication Date
CN114818999A CN114818999A (zh) 2022-07-29
CN114818999B true CN114818999B (zh) 2022-09-16

Family

ID=82522447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210745030.XA Active CN114818999B (zh) 2022-06-29 2022-06-29 基于自编码器和生成对抗网络的账户识别方法及***

Country Status (1)

Country Link
CN (1) CN114818999B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720123B (zh) * 2023-08-10 2023-11-28 中南大学 一种账户识别方法、装置、终端设备及介质
CN117573865A (zh) * 2023-10-19 2024-02-20 南昌大学 一种基于可解释自适应学习的谣言模糊检测方法
CN118133214A (zh) * 2024-05-09 2024-06-04 北京芯盾时代科技有限公司 账号分类方法、装置、设备及程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210241118A1 (en) * 2020-01-30 2021-08-05 Visa International Service Association System, Method, and Computer Program Product for Implementing a Generative Adversarial Network to Determine Activations

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10621586B2 (en) * 2017-01-31 2020-04-14 Paypal, Inc. Fraud prediction based on partial usage data
US20200167787A1 (en) * 2018-11-26 2020-05-28 Bank Of America Corporation System for anomaly detection and remediation based on dynamic directed graph network flow analysis
CN111539811B (zh) * 2020-05-27 2022-06-14 支付宝(杭州)信息技术有限公司 风险账户的识别方法及装置
CN111882446B (zh) * 2020-07-28 2023-05-16 哈尔滨工业大学(威海) 一种基于图卷积网络的异常账户检测方法
CN112819175B (zh) * 2021-01-14 2024-07-05 中博信征信有限公司 非法所得合法化账户识别方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210241118A1 (en) * 2020-01-30 2021-08-05 Visa International Service Association System, Method, and Computer Program Product for Implementing a Generative Adversarial Network to Determine Activations

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Credit Card Fraud Detection Using Sparse Autoencoder and Generative Adversarial Network;Jian Chen etc.;《IEEE》;20181230;全文 *
基于自编码器和对抗生成网络的***欺诈检测;陈健;《中国优秀硕士学位论文全文数据库信息科技辑》;20200615;全文 *

Also Published As

Publication number Publication date
CN114818999A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114818999B (zh) 基于自编码器和生成对抗网络的账户识别方法及***
Roseline et al. Autonomous credit card fraud detection using machine learning approach☆
Suryanarayana et al. Machine learning approaches for credit card fraud detection
Fang et al. Deep learning anti-fraud model for internet loan: Where we are going
CN113283909B (zh) 一种基于深度学习的以太坊钓鱼账户检测方法
CN110084609B (zh) 一种基于表征学习的交易欺诈行为深度检测方法
CN114187112A (zh) 账户风险模型的训练方法和风险用户群体的确定方法
Cheong et al. Interpretable stock anomaly detection based on spatio-temporal relation networks with genetic algorithm
CN116485406A (zh) 账户的检测方法及装置、存储介质和电子设备
CN114240659A (zh) 一种基于动态图卷积神经网络的区块链异常节点识别方法
CN115375480A (zh) 基于图神经网络的异常虚拟币钱包地址检测方法
Kataria et al. Internet banking fraud detection using deep learning based on decision tree and multilayer perceptron
Iscan et al. Wallet-based transaction fraud prevention through LightGBM with the focus on minimizing false alarms
Yang et al. Anti-money laundering supervision by intelligent algorithm
Pandey et al. A review of credit card fraud detection techniques
Xiao et al. Explainable fraud detection for few labeled time series data
Wu et al. Customer churn prediction for commercial banks using customer-value-weighted machine learning models
El Orche et al. Approach to combine an ontology-based on payment system with neural network for transaction fraud detection
Jing et al. Improving the data quality for credit card fraud detection
Sengupta et al. A review of payment card fraud detection methods using artificial intelligence
Huang et al. Imbalanced credit card fraud detection data: A solution based on hybrid neural network and clustering-based undersampling technique
Rahman Supervised machine learning algorithms for credit card fraudulent transaction detection: A comparative survey
Jena et al. A comparative analysis of financial fraud detection in credit card by decision tree and random forest techniques
Singh Application of Classification and Regression Techniques in Bank Fraud Detection
Karim et al. Scalable Semi-Supervised Graph Learning Techniques for Anti Money Laundering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant