CN114638704A - 非法资金转移的识别方法及其装置、电子设备及存储介质 - Google Patents
非法资金转移的识别方法及其装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114638704A CN114638704A CN202210361935.7A CN202210361935A CN114638704A CN 114638704 A CN114638704 A CN 114638704A CN 202210361935 A CN202210361935 A CN 202210361935A CN 114638704 A CN114638704 A CN 114638704A
- Authority
- CN
- China
- Prior art keywords
- account
- directed graph
- information
- accounts
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种非法资金转移的识别方法及其装置、电子设备及存储介质,涉及金融科技领域,其中,该识别方法包括:获取多个账户信息,并基于账户信息,构建有向图,基于客户信息和账户属性信息,计算具有连接边的节点之间的相似度,基于相似度,计算连接边的权重参数,并基于权重参数,构建邻接矩阵,基于邻接矩阵,构建有向图的特征集,并将特征集输入至预设集成模型中进行识别,得到识别结果。本发明解决了相关技术中对于复杂的非法资金转移无法提取合适的特征,导致对非法资金转移行为的识别准确率较低的技术问题。
Description
技术领域
本发明涉及金融科技领域,具体而言,涉及一种非法资金转移的识别方法及其装置、电子设备及存储介质。
背景技术
非法资金转移是一种掩盖由犯罪活动获得或产生的资金的非法来源,以掩盖资金与原始犯罪活动之间联系的过程,当前每年有大量非法资金被清洗,非法资金转移者利用分成来掩盖犯罪线索,试图进一步将资金与其来源分离。
相关技术中,使用一些聚簇算法,例如,clustering聚簇、Decision Tree决策树和神经网络等,对非法资金转移进行识别,大多时候对于非法资金转移的识别还需要金融从业人员的人为判断,费事费力。现有的对非法资金转移进行识别的方法中存在如下缺陷:(1)针对通过频繁复杂的转账交易转移非法资金,掩盖其来源和去向的非法资金转移方式无法提取合适的特征,聚簇与普通神经网络类算法只是考虑对两个账号之间的转账信息进行判断,而对于频繁的转账交易,交易链路比较长的情况下通过两个账号之间的交易情况无法捕捉到更深层次的交易信息;(2)非法资金转移者大多数情况下会选择多账号小额转账,仅从两个账号之间的转账记录来看和正常的转账往来一致,容易导致对非法资金转移行为进行识别的准确率较低的问题;(3)对于专业的金融从业人员人为判断当中,在海量的金融交易数据面前进行非法资金转移行为识别,效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种非法资金转移的识别方法及其装置、电子设备及存储介质,以至少解决相关技术中对于复杂的非法资金转移无法提取合适的特征,导致对非法资金转移行为的识别准确率较低的技术问题。
根据本发明实施例的一个方面,提供了一种非法资金转移的识别方法,包括:获取多个账户信息,并基于所述账户信息,构建有向图,其中,账户信息至少包括:客户信息、账户属性信息、转账信息,所述有向图以账户为节点,在账户之间存在所述转账信息的情况下,建立所述账户表征的节点之间的连接边;基于所述客户信息和所述账户属性信息,计算具有连接边的节点之间的相似度;基于所述相似度,计算所述连接边的权重参数,并基于所述权重参数,构建邻接矩阵;基于所述邻接矩阵,构建所述有向图的特征集,并将所述特征集输入至预设集成模型中进行识别,得到识别结果,其中,所述识别结果用于指示账户之间是否存在非法资金转移。
可选地,基于所述账户信息,构建有向图的步骤,包括:将账户作为所述有向图中的一个节点;基于所述账户信息中的所述转账信息,判断每两个账户之间是否存在转账记录;在账户之间存在转账记录的情况下,建立所述账户表征的节点之间的连接边,得到所述有向图。
可选地,基于所述客户信息和所述账户属性信息,计算具有连接边的节点之间的相似度的步骤,包括:将所述客户信息中的特征变量和所述账户属性信息中的特征变量进行分类,得到离散型变量和连续型变量;在所述特征变量的类型为离散型变量的情况下,采用第一计算公式,计算具有连接边的节点之间的第一相似度;在所述特征变量的类型为连续型变量的情况下,采用第二计算公式,计算具有连接边的节点之间的第二相似度;结合所述第一相似度和所述第二相似度,得到具有连接边的节点之间的相似度。
可选地,在基于所述账户信息,构建有向图之后,还包括:去除所述有向图中的回路,得到无回路的有向图。
可选地,在去除所述有向图中的回路,得到无回路的有向图之后,还包括:判断具有连接边的节点所指示的账户之间在预设历史时间段内是否存在历史转账信息;在具有连接边的节点所指示的账户之间在预设历史时间段内存在历史转账信息的情况下,计算当前转账信息与所述历史转账信息之间的第三相似度;在所述第三相似度大于第一预设阈值的情况下,去除所述账户表征的节点之间的连接边。
可选地,在去除所述有向图中的回路,得到无回路的有向图之后,还包括:计算具有连接边的节点所指示的账户之间的账户余额差;在所述账户余额差小于第二预设阈值的情况下,去除所述账户表征的节点之间的连接边。
可选地,基于所述邻接矩阵,构建所述有向图的特征集的步骤,包括:对所述邻接矩阵进行归一化处理,得到归一化后的权重参数;将所述有向图中的每个节点所指示的账户的特征向量乘以所述归一化后的权重参数,得到目标特征向量;综合所有账户的目标特征向量,得到所述特征集。
根据本发明实施例的另一方面,还提供了一种非法资金转移的识别装置,包括:第一构建单元,用于获取多个账户信息,并基于所述账户信息,构建有向图,其中,账户信息至少包括:客户信息、账户属性信息、转账信息,所述有向图以账户为节点,在账户之间存在所述转账信息的情况下,建立所述账户表征的节点之间的连接边;第一计算单元,用于基于所述客户信息和所述账户属性信息,计算具有连接边的节点之间的相似度;第二计算单元,用于基于所述相似度,计算所述连接边的权重参数,并基于所述权重参数,构建邻接矩阵;第二构建单元,用于基于所述邻接矩阵,构建所述有向图的特征集,并将所述特征集输入至预设集成模型中进行识别,得到识别结果,其中,所述识别结果用于指示账户之间是否存在非法资金转移。
可选地,所述第一构建单元包括:第一表征模块,用于将账户作为所述有向图中的一个节点;第一判断模块,用于基于所述账户信息中的所述转账信息,判断每两个账户之间是否存在转账记录;第一建立模块,用于在账户之间存在转账记录的情况下,建立所述账户表征的节点之间的连接边,得到所述有向图。
可选地,所述第一计算单元包括:第一分类模块,用于将所述客户信息中的特征变量和所述账户属性信息中的特征变量进行分类,得到离散型变量和连续型变量;第一计算模块,用于在所述特征变量的类型为离散型变量的情况下,采用第一计算公式,计算具有连接边的节点之间的第一相似度;第二计算模块,用于在所述特征变量的类型为连续型变量的情况下,采用第二计算公式,计算具有连接边的节点之间的第二相似度;第一结合模块,用于结合所述第一相似度和所述第二相似度,得到具有连接边的节点之间的相似度。
可选地,所述识别装置还包括:第一去除模块,用于在基于所述账户信息,构建有向图之后,去除所述有向图中的回路,得到无回路的有向图。
可选地,所述识别装置还包括:第二判断模块,用于在去除所述有向图中的回路,得到无回路的有向图之后,判断具有连接边的节点所指示的账户之间在预设历史时间段内是否存在历史转账信息;第三计算模块,用于在具有连接边的节点所指示的账户之间在预设历史时间段内存在历史转账信息的情况下,计算当前转账信息与所述历史转账信息之间的第三相似度;第二去除模块,用于在所述第三相似度大于第一预设阈值的情况下,去除所述账户表征的节点之间的连接边。
可选地,所述识别装置还包括:第四计算模块,用于在去除所述有向图中的回路,得到无回路的有向图之后,计算具有连接边的节点所指示的账户之间的账户余额差;第三去除模块,用于在所述账户余额差小于第二预设阈值的情况下,去除所述账户表征的节点之间的连接边。
可选地,所述第二构建单元包括:第一处理模块,用于对所述邻接矩阵进行归一化处理,得到归一化后的权重参数;第一输出模块,用于将所述有向图中的每个节点所指示的账户的特征向量乘以所述归一化后的权重参数,得到目标特征向量;第二输出模块,用于综合所有账户的目标特征向量,得到所述特征集。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述所述的非法资金转移的识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述所述的非法资金转移的识别方法。
在本公开中,获取多个账户信息,并基于账户信息,构建有向图,基于客户信息和账户属性信息,计算具有连接边的节点之间的相似度,基于相似度,计算连接边的权重参数,并基于权重参数,构建邻接矩阵,基于邻接矩阵,构建有向图的特征集,并将特征集输入至预设集成模型中进行识别,得到识别结果。在本申请中,可以构建有转账关联的账户之间的有向图,基于有向图中账户的账户信息,计算连接边的权重参数,并构建邻接矩阵,从而构建有向图的特征集,将特征集输入至预设集成模型中进行非法资金转移识别,能够提取频繁进行转账的非法资金转移方式中的合适的特征,提高对非法资金转移行为进行识别的准确率,进而解决了相关技术中对于复杂的非法资金转移无法提取合适的特征,导致对非法资金转移行为的识别准确率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的非法资金转移的识别方法的流程图;
图2是根据本发明实施例的一种可选的账户节点的属性信息的示意图;
图3是根据本发明实施例的一种可选的带有回路的有向图的示意图;
图4是根据本发明实施例的一种可选的去除回路的有向图的示意图;
图5是根据本发明实施例的一种可选的样本平衡化的示意图;
图6是根据本发明实施例的一种可选的构建特征集的示意图;
图7是根据本发明实施例的一种可选的模型结构的示意图;
图8是根据本发明实施例的一种可选的非法资金转移的识别装置的示意图;
图9是根据本发明实施例的一种用于非法资金转移的识别方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本公开中的非法资金转移的识别方法及其装置可用于金融科技领域在识别非法资金转移的情况下,也可用于除金融科技领域之外的任意领域在识别非法资金转移的情况下,本公开中对非法资金转移的识别方法及其装置的应用领域不做限定。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本发明下述各实施例可应用于各种识别非法资金转移的***/应用/设备中。本发明针对通过频繁复杂的转账交易转移非法资金,掩盖其来源和去向的非法资金转移方式,可以通过图卷积方法和集成算法进行识别,通过将各个账号作为节点,在具有转账动作的账号之间建立边,构建有向图,基于有向图中账户的账户信息,计算连接边的权重参数,并构建邻接矩阵,从而得到有向图的特征集,将特征集输入至预设集成模型中进行非法资金转移识别,能够利用图结构捕捉转账中的链式特征,并利用集成算法,基于获取到的特征进行识别,能够有效提高对非法资金转移行为进行识别的准确率。
下面结合各个实施例来详细说明本发明。
实施例一
根据本发明实施例,提供了一种非法资金转移的识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的非法资金转移的识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取多个账户信息,并基于账户信息,构建有向图,其中,账户信息至少包括:客户信息、账户属性信息、转账信息,有向图以账户为节点,在账户之间存在转账信息的情况下,建立账户表征的节点之间的连接边。
步骤S102,基于客户信息和账户属性信息,计算具有连接边的节点之间的相似度。
步骤S103,基于相似度,计算连接边的权重参数,并基于权重参数,构建邻接矩阵。
步骤S104,基于邻接矩阵,构建有向图的特征集,并将特征集输入至预设集成模型中进行识别,得到识别结果,其中,识别结果用于指示账户之间是否存在非法资金转移。
通过上述步骤,可以获取多个账户信息,并基于账户信息,构建有向图,基于客户信息和账户属性信息,计算具有连接边的节点之间的相似度,基于相似度,计算连接边的权重参数,并基于权重参数,构建邻接矩阵,基于邻接矩阵,构建有向图的特征集,并将特征集输入至预设集成模型中进行识别,得到识别结果。在本发明实施例中,可以构建有转账关联的账户之间的有向图,基于有向图中账户的账户信息,计算连接边的权重参数,并构建邻接矩阵,从而构建有向图的特征集,将特征集输入至预设集成模型中进行非法资金转移识别,能够提取频繁进行转账的非法资金转移方式中的合适的特征,提高对非法资金转移行为进行识别的准确率,进而解决了相关技术中对于复杂的非法资金转移无法提取合适的特征,导致对非法资金转移行为的识别准确率较低的技术问题。
下面结合上述各步骤对本发明实施例进行详细说明。
步骤S101,获取多个账户信息,并基于账户信息,构建有向图,其中,账户信息至少包括:客户信息、账户属性信息、转账信息,有向图以账户为节点,在账户之间存在转账信息的情况下,建立账户表征的节点之间的连接边。
在本发明实施例中,可以先获取账户信息,账户信息可以包括:客户信息(例如,性别、年龄、户籍所在地等)、账户属性信息(例如,开户地址、所属银行、账户类型、开户时间等)、转账信息(例如,金额、日期、转账途径(如手机、ATM、柜台等)),本实施例中,可以以账户为节点,在账户之间存在转账信息的情况下,建立表征账户的节点之间的连接边,从而得到有向图,其中,账户节点可以包含一些属性信息。
图2是根据本发明实施例的一种可选的账户节点的属性信息的示意图,如图2所示,账户节点可以包括客户基本信息、账户基本信息、转账基本信息等属性信息,其中,客户基本信息包括:性别、年龄、户籍所在地等,账户基本信息包括:开户地址、所属银行、账户类型、开户时间等,转账基本信息包括:金额、日期、转账途径等。
可选的,基于账户信息,构建有向图的步骤,包括:将账户作为有向图中的一个节点;基于账户信息中的转账信息,判断每两个账户之间是否存在转账记录;在账户之间存在转账记录的情况下,建立账户表征的节点之间的连接边,得到有向图。
在本发明实施例中,可以将账户作为有向图中的一个节点,并基于账户信息中的转账信息,判断每两个账户之间是否存在转账记录,如果账户之间存在转账记录,则建立该账户表征的节点之间的连接边,从而得到有向图。
可选的,在基于账户信息,构建有向图之后,还包括:去除有向图中的回路,得到无回路的有向图。
在本发明实施例中,通过转账动作作为边,容易使图产生回路,当使用邻接矩阵进行特征计算时有回路的图容易产生大量的重复计算,需要根据账号之间的转账信息特征去掉相应的边,以避免回路的产生。
本实施例中,为避免回路带来的无效计算量,去除有向图中的回路,得到无回路的有向图。
图3是根据本发明实施例的一种可选的带有回路的有向图的示意图,如图3所示,包括:账户1到账户7,其中,账户4和账户3之间存在回路,账户3和账户2之间存在回路,账户5和账户3、账户2和账户1、账户6和账户2、账户7和账户6之间存在连接边。
图4是根据本发明实施例的一种可选的去除回路的有向图的示意图,如图4所示,包括:账户1到账户7,其中,账户4和账户3、账户3和账户2、账户5和账户3、账户2和账户1、账户6和账户2、账户7和账户6之间存在连接边,图4是通过将图3中的回路去除得到的无回路的有向图。
可选的,在去除有向图中的回路,得到无回路的有向图之后,还包括:判断具有连接边的节点所指示的账户之间在预设历史时间段内是否存在历史转账信息;在具有连接边的节点所指示的账户之间在预设历史时间段内存在历史转账信息的情况下,计算当前转账信息与历史转账信息之间的第三相似度;在第三相似度大于第一预设阈值的情况下,去除账户表征的节点之间的连接边。
在本发明实施例中,在将有向图中的回路去除之后,可以将一些不可疑的转账去除,更加关注可疑转账,以减少计算量。本实施例中,可以计算当前边(当前具有转账记录的两账户节点之间的连接边)在历史时间上有没有发生过转账记录(即判断具有连接边的节点所指示的账户之间在预设历史时间段内是否存在历史转账信息),如果具有连接边的节点所指示的账户之间在预设历史时间段内存在历史转账信息,则计算两次转账(即当前转账信息与历史转账信息)的相似度(即第三相似度),在第三相似度大于第一预设阈值(可以根据实际情况进行设置)的情况下,表明这两个账号之前经常发生转账往来,可能是亲信账号,这两个账号在本次转账的可疑性下降,可以去除这两个账号表征的节点之间的连接边。
可选的,在去除有向图中的回路,得到无回路的有向图之后,还包括:计算具有连接边的节点所指示的账户之间的账户余额差;在账户余额差小于第二预设阈值的情况下,去除账户表征的节点之间的连接边。
在本发明实施例中,可以计算转账时两个账号之间的余额差(即计算具有连接边的节点所指示的账户之间的账户余额差),以非法资金转移的目的是为了金额聚集,两个账户的余额差越小,可疑性也越小,可以在账户余额差小于第二预设阈值(可以根据实际情况进行设置)的情况下,去除账户表征的节点之间的连接边。
步骤S102,基于客户信息和账户属性信息,计算具有连接边的节点之间的相似度。
可选的,基于客户信息和账户属性信息,计算具有连接边的节点之间的相似度的步骤,包括:将客户信息中的特征变量和账户属性信息中的特征变量进行分类,得到离散型变量和连续型变量;在特征变量的类型为离散型变量的情况下,采用第一计算公式,计算具有连接边的节点之间的第一相似度;在特征变量的类型为连续型变量的情况下,采用第二计算公式,计算具有连接边的节点之间的第二相似度;结合第一相似度和第二相似度,得到具有连接边的节点之间的相似度。
在本发明实施例中,可以计算相邻节点中的客户基本信息和账户基本信息的相似度,从而得到具有连接边的节点之间的相似度(即基于客户信息和账户属性信息,计算具有连接边的节点之间的相似度),具体为:可以将客户信息中的特征变量和账户属性信息中的特征变量分为离散型变量和连续型变量,离散型变量可以为性别、开户地址等可以离散化的变量,连续型变量可以为年龄等可以量化的变量。对于离散型变量,计算相似度的公式为(即采用第一计算公式,计算具有连接边的节点之间的第一相似度,其中,x为其中一个账户的特征向量(由该账户的离散型变量组成),y为其中另一个账户的特征向量(由该账户的离散型变量组成),n为特征向量的长度),对于连续型变量,计算相似度的公式可以为欧式距离加一的倒数(即采用第二计算公式,计算具有连接边的节点之间的第二相似度,其中,x为其中一个账户的特征向量(由该账户的连续型变量组成),y为其中另一个账户的特征向量(由该账户的连续型变量组成)),之后,可以结合第一相似度和第二相似度,得到具有连接边的节点之间的相似度D(即采用公式D=D1+kD2,计算得到相似度D,其中,K为超参数,在D的计算当中加入k这个超参数可以通过训练使得两个账户相似性越小,构建的边权重越大)。
步骤S103,基于相似度,计算连接边的权重参数,并基于权重参数,构建邻接矩阵。
在本发明实施例中,账户属性越不相似,属于非法资金转移转账可能性越大(相似度可以根据账户属性判断,例如,开户行是否同城、客户基本信息是否同地区、是否跨行等),本实施例中,可以根据计算得到的相似度,计算连接边的权重参数(即可以根据实际情况实际比例系数,使得两个账户的相似越小,构建的边权重越大),之后,可以基于权重参数,构建邻接矩阵。
表1为一种可选的基于账户1到账户4构建的邻接矩阵,如表1所示,表明账户3和账户3之间的相似度最小。
表1
另一种可选的,在构建邻接矩阵(即相似性矩阵D)之后,可以计算注意力矩阵,具体计算公式如下:
其中,Z为通过相似性矩阵D和输入特征h而获得的隐向量矩阵,为通过当前节点和其邻接节点使用非线性函数σ获得的,i表示第i个账户节点,j表示第j个账户节点,l表示当前层,利用计算注意力矩阵得到注意力矩阵后,便计算下一层特征n表示某个账户节点所有邻接账户节点数,k表示当前是第k个邻接账户节点,w表示共享参数矩阵。
步骤S104,基于邻接矩阵,构建有向图的特征集,并将特征集输入至预设集成模型中进行识别,得到识别结果,其中,识别结果用于指示账户之间是否存在非法资金转移。
在本发明实施例中,当将图中节点和边构建完毕时(即构建后有向图后),可以训练集成模型,用于对非法资金转移行为进行识别,例如,如图4中,假设账户2向账户1转账为一次非法资金转移行为,通过构建的有向图结构获取到相关的发生转账链路(即从账户4到账户3到账户2到账户1、从账户5到账户3到账户2到账户1、从账户7到账户6到账户2到账户1等)的一系列账号特征(即每条链路涉及到的账户的特征集合)用来识别当前转账的特征,之后可以通过集成算法中LGB(Light Gradient Boosting Machine)算法进行结果识别。
本实施例中,可以先基于邻接矩阵,构建有向图的特征集,之后将特征集输入至预设集成模型中进行识别,从而识别出账户之间是否存在非法资金转移的情况。
可选的,在进行识别之前,可以对样本进行平衡化处理(例如,采用Bootstrap(一种统计学上的估算方法)算法进行样本平衡化),具体为:可以将预测模型中正确预测正例的样本单独拿出来,将该条数据加入高斯噪声并重新放入训练集中进行训练。进行样本平衡化的目的主要有两个:(1)为了将训练的样本进行平衡,避免因为正例和反例的数量失衡而导致精度和召回率不平衡;(2)将预测正确的正例样本增加噪声放入模型中重新训练,增加模型的泛化能力.
图5是根据本发明实施例的一种可选的样本平衡化的示意图,如图5所示,将图卷积获得反洗钱数据特征输入至Boost ing集成预测模型进行预测(即预设集成模型中进行识别,其中,Boost ing集成预测模型是一种可选的集成模型),判断是否正确预测的正例,之后,加入高斯噪声重新进行图卷积获得反洗钱数据特征。
可选的,基于邻接矩阵,构建有向图的特征集的步骤,包括:对邻接矩阵进行归一化处理,得到归一化后的权重参数;将有向图中的每个节点所指示的账户的特征向量乘以归一化后的权重参数,得到目标特征向量;综合所有账户的目标特征向量,得到特征集。
在本发明实施例中,可以先对邻接矩阵进行归一化处理,得到归一化后的权重参数,然后将有向图中的每个节点所指示的账户的特征向量乘以归一化后的权重参数,得到目标特征向量,之后综合所有账户的目标特征向量,得到特征集(即将多维向量压缩为一维向量),将得到的特征集输入至集成模型中进行识别,以识别当前转账行为是否为非法资金转移行为。例如,可以以图4中的从账户4到账户3到账户2到账户1的资金转移路径为例,详细说明如何得到该有向图的特征集。
图6是根据本发明实施例的一种可选的构建特征集的示意图,如图6所示,对图4中的从账户4到账户3到账户2到账户1的资金转移路径的有向图构建特征集,可以将账户4特征集合(即该账户包括的属性信息的特征集合)乘以边权重4->3(即账户节点4到账户节点3之间的连接边的权重参数),账户3特征集合(即该账户包括的属性信息的特征集合)乘以边权重3->2(即账户节点3到账户节点2之间的连接边的权重参数),账户2特征集合(即该账户包括的属性信息的特征集合)乘以边权重2->1(即账户节点2到账户节点1之间的连接边的权重参数),账户1特征集合(即该账户包括的属性信息的特征集合)进行求和计算,得到识别模型输入特征(即特征集,用于输入至集成模型进行识别)。
另一种可选的,构建预测的特征集的步骤包括:对于每次反洗钱的转账过程中是一连串账户之间的资金池流动,当洗钱行为发现时当前转账资金已经经过多个账号进行流转,对此将账户与账户之间的关系按照图结构将节点和边构建完成后,通过图注意力卷积神经网络计算其特征进行提取,通过图卷积获取到的账户转账特征包含了与其进行一系列资金划转操作的账户特征,这些转账的账户链之间组成一个序列,基于其序列的特征本文基于长短时模型(LSTM,Long Short Term Memory),对洗钱行为建模预测。
图7是根据本发明实施例的一种可选的模型结构的示意图,如图7所示,模型结构中,符号σ对应s igmoid函数,τ对应tanh函数,为矩阵相加,为矩阵点乘,ft表示选择忘记过去某些信息函数,it表示记忆现在的某些信息函数,C~t表示将过去与现在的记忆进行合并函数,ot表示输出函数,当“账号-1”、“账号-2”到“账号-n”中的转账构成洗钱时,使用LSTM模型进行建模预测时,每个账号经过非线性函数的计算后会产生两个变量c和h(其中,c表示前面账号传递到当前账号参数的传递信息;h表示当前账号特征经过非线性函数参数的隐藏变量),取最后一个账号的hn作为当前洗钱序列数据的最终预测特征,并使用简单的全连接网络进行预测(即DDIs predict),经过LSTM模型的预测可以将洗钱数列数据从开头账号中比较重要的特征传递到最后一个账号进行预测时的特征,可以提高预测的准确率。
本发明实施例中,通过账户的账户信息构建的有向图可以很好的捕捉频繁进行转账的非法资金转移方式中的特征,利用提取的特征可以提高对频繁转账非法资金转移方式进行识别的准确率,能够避免更多的金融犯罪。
实施例二
本实施例中提供的一种非法资金转移的识别装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
图8是根据本发明实施例的一种可选的非法资金转移的识别装置的示意图,如图8所示,该识别装置可以包括:第一构建单元80,第一计算单元81,第二计算单元82,第二构建单元83,其中,
第一构建单元80,用于获取多个账户信息,并基于账户信息,构建有向图,其中,账户信息至少包括:客户信息、账户属性信息、转账信息,有向图以账户为节点,在账户之间存在转账信息的情况下,建立账户表征的节点之间的连接边;
第一计算单元81,用于基于客户信息和账户属性信息,计算具有连接边的节点之间的相似度;
第二计算单元82,用于基于相似度,计算连接边的权重参数,并基于权重参数,构建邻接矩阵;
第二构建单元83,用于基于邻接矩阵,构建有向图的特征集,并将特征集输入至预设集成模型中进行识别,得到识别结果,其中,识别结果用于指示账户之间是否存在非法资金转移。
上述识别装置,可以通过第一构建单元80获取多个账户信息,并基于账户信息,构建有向图,通过第一计算单元81基于客户信息和账户属性信息,计算具有连接边的节点之间的相似度,通过第二计算单元82基于相似度,计算连接边的权重参数,并基于权重参数,构建邻接矩阵,通过第二构建单元83基于邻接矩阵,构建有向图的特征集,并将特征集输入至预设集成模型中进行识别,得到识别结果。在本发明实施例中,可以构建有转账关联的账户之间的有向图,基于有向图中账户的账户信息,计算连接边的权重参数,并构建邻接矩阵,从而构建有向图的特征集,将特征集输入至预设集成模型中进行非法资金转移识别,能够提取频繁进行转账的非法资金转移方式中的合适的特征,提高对非法资金转移行为进行识别的准确率,进而解决了相关技术中对于复杂的非法资金转移无法提取合适的特征,导致对非法资金转移行为的识别准确率较低的技术问题。
可选的,第一构建单元包括:第一表征模块,用于将账户作为有向图中的一个节点;第一判断模块,用于基于账户信息中的转账信息,判断每两个账户之间是否存在转账记录;第一建立模块,用于在账户之间存在转账记录的情况下,建立账户表征的节点之间的连接边,得到有向图。
可选的,第一计算单元包括:第一分类模块,用于将客户信息中的特征变量和账户属性信息中的特征变量进行分类,得到离散型变量和连续型变量;第一计算模块,用于在特征变量的类型为离散型变量的情况下,采用第一计算公式,计算具有连接边的节点之间的第一相似度;第二计算模块,用于在特征变量的类型为连续型变量的情况下,采用第二计算公式,计算具有连接边的节点之间的第二相似度;第一结合模块,用于结合第一相似度和第二相似度,得到具有连接边的节点之间的相似度。
可选的,识别装置还包括:第一去除模块,用于在基于账户信息,构建有向图之后,去除有向图中的回路,得到无回路的有向图。
可选的,识别装置还包括:第二判断模块,用于在去除有向图中的回路,得到无回路的有向图之后,判断具有连接边的节点所指示的账户之间在预设历史时间段内是否存在历史转账信息;第三计算模块,用于在具有连接边的节点所指示的账户之间在预设历史时间段内存在历史转账信息的情况下,计算当前转账信息与历史转账信息之间的第三相似度;第二去除模块,用于在第三相似度大于第一预设阈值的情况下,去除账户表征的节点之间的连接边。
可选的,识别装置还包括:第四计算模块,用于在去除有向图中的回路,得到无回路的有向图之后,计算具有连接边的节点所指示的账户之间的账户余额差;第三去除模块,用于在账户余额差小于第二预设阈值的情况下,去除账户表征的节点之间的连接边。
可选的,第二构建单元包括:第一处理模块,用于对邻接矩阵进行归一化处理,得到归一化后的权重参数;第一输出模块,用于将有向图中的每个节点所指示的账户的特征向量乘以归一化后的权重参数,得到目标特征向量;第二输出模块,用于综合所有账户的目标特征向量,得到特征集。
上述的识别装置还可以包括处理器和存储器,上述第一构建单元80,第一计算单元81,第二计算单元82,第二构建单元83等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来将特征集输入至预设集成模型中进行识别,得到识别结果。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取多个账户信息,并基于账户信息,构建有向图,基于客户信息和账户属性信息,计算具有连接边的节点之间的相似度,基于相似度,计算连接边的权重参数,并基于权重参数,构建邻接矩阵,基于邻接矩阵,构建有向图的特征集,并将特征集输入至预设集成模型中进行识别,得到识别结果。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述的非法资金转移的识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的非法资金转移的识别方法。
图9是根据本发明实施例的一种用于非法资金转移的识别方法的电子设备(或移动设备)的硬件结构框图。如图9所示,电子设备可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种非法资金转移的识别方法,其特征在于,包括:
获取多个账户信息,并基于所述账户信息,构建有向图,其中,账户信息至少包括:客户信息、账户属性信息、转账信息,所述有向图以账户为节点,在账户之间存在所述转账信息的情况下,建立所述账户表征的节点之间的连接边;
基于所述客户信息和所述账户属性信息,计算具有连接边的节点之间的相似度;
基于所述相似度,计算所述连接边的权重参数,并基于所述权重参数,构建邻接矩阵;
基于所述邻接矩阵,构建所述有向图的特征集,并将所述特征集输入至预设集成模型中进行识别,得到识别结果,其中,所述识别结果用于指示账户之间是否存在非法资金转移。
2.根据权利要求1所述的识别方法,其特征在于,基于所述账户信息,构建有向图的步骤,包括:
将账户作为所述有向图中的一个节点;
基于所述账户信息中的所述转账信息,判断每两个账户之间是否存在转账记录;
在账户之间存在转账记录的情况下,建立所述账户表征的节点之间的连接边,得到所述有向图。
3.根据权利要求1所述的识别方法,其特征在于,基于所述客户信息和所述账户属性信息,计算具有连接边的节点之间的相似度的步骤,包括:
将所述客户信息中的特征变量和所述账户属性信息中的特征变量进行分类,得到离散型变量和连续型变量;
在所述特征变量的类型为离散型变量的情况下,采用第一计算公式,计算具有连接边的节点之间的第一相似度;
在所述特征变量的类型为连续型变量的情况下,采用第二计算公式,计算具有连接边的节点之间的第二相似度;
结合所述第一相似度和所述第二相似度,得到具有连接边的节点之间的相似度。
4.根据权利要求1所述的识别方法,其特征在于,在基于所述账户信息,构建有向图之后,还包括:
去除所述有向图中的回路,得到无回路的有向图。
5.根据权利要求4所述的识别方法,其特征在于,在去除所述有向图中的回路,得到无回路的有向图之后,还包括:
判断具有连接边的节点所指示的账户之间在预设历史时间段内是否存在历史转账信息;
在具有连接边的节点所指示的账户之间在预设历史时间段内存在历史转账信息的情况下,计算当前转账信息与所述历史转账信息之间的第三相似度;
在所述第三相似度大于第一预设阈值的情况下,去除所述账户表征的节点之间的连接边。
6.根据权利要求4所述的识别方法,其特征在于,在去除所述有向图中的回路,得到无回路的有向图之后,还包括:
计算具有连接边的节点所指示的账户之间的账户余额差;
在所述账户余额差小于第二预设阈值的情况下,去除所述账户表征的节点之间的连接边。
7.根据权利要求1所述的识别方法,其特征在于,基于所述邻接矩阵,构建所述有向图的特征集的步骤,包括:
对所述邻接矩阵进行归一化处理,得到归一化后的权重参数;
将所述有向图中的每个节点所指示的账户的特征向量乘以所述归一化后的权重参数,得到目标特征向量;
综合所有账户的目标特征向量,得到所述特征集。
8.一种非法资金转移的识别装置,其特征在于,包括:
第一构建单元,用于获取多个账户信息,并基于所述账户信息,构建有向图,其中,账户信息至少包括:客户信息、账户属性信息、转账信息,所述有向图以账户为节点,在账户之间存在所述转账信息的情况下,建立所述账户表征的节点之间的连接边;
第一计算单元,用于基于所述客户信息和所述账户属性信息,计算具有连接边的节点之间的相似度;
第二计算单元,用于基于所述相似度,计算所述连接边的权重参数,并基于所述权重参数,构建邻接矩阵;
第二构建单元,用于基于所述邻接矩阵,构建所述有向图的特征集,并将所述特征集输入至预设集成模型中进行识别,得到识别结果,其中,所述识别结果用于指示账户之间是否存在非法资金转移。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的非法资金转移的识别方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的非法资金转移的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210361935.7A CN114638704A (zh) | 2022-04-07 | 2022-04-07 | 非法资金转移的识别方法及其装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210361935.7A CN114638704A (zh) | 2022-04-07 | 2022-04-07 | 非法资金转移的识别方法及其装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114638704A true CN114638704A (zh) | 2022-06-17 |
Family
ID=81952666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210361935.7A Pending CN114638704A (zh) | 2022-04-07 | 2022-04-07 | 非法资金转移的识别方法及其装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114638704A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117035433A (zh) * | 2023-10-10 | 2023-11-10 | 中国建设银行股份有限公司 | 非法资金转移客户识别方法及装置 |
CN117236721A (zh) * | 2023-11-09 | 2023-12-15 | 湖南财信数字科技有限公司 | 企业异常行为的监控方法、***、计算机设备及存储介质 |
-
2022
- 2022-04-07 CN CN202210361935.7A patent/CN114638704A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117035433A (zh) * | 2023-10-10 | 2023-11-10 | 中国建设银行股份有限公司 | 非法资金转移客户识别方法及装置 |
CN117035433B (zh) * | 2023-10-10 | 2023-12-22 | 中国建设银行股份有限公司 | 非法资金转移客户识别方法及装置 |
CN117236721A (zh) * | 2023-11-09 | 2023-12-15 | 湖南财信数字科技有限公司 | 企业异常行为的监控方法、***、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ostapowicz et al. | Detecting fraudulent accounts on blockchain: A supervised approach | |
CN107133865B (zh) | 一种信用分的获取、特征向量值的输出方法及其装置 | |
US8355896B2 (en) | Co-occurrence consistency analysis method and apparatus for finding predictive variable groups | |
CN110263821B (zh) | 交易特征生成模型的训练、交易特征的生成方法和装置 | |
CN108898476A (zh) | 一种贷款客户信用评分方法和装置 | |
CN114638704A (zh) | 非法资金转移的识别方法及其装置、电子设备及存储介质 | |
JP2019511037A (ja) | 機械学習モデルのモデリング方法及びデバイス | |
CN111080397A (zh) | 信用评估方法、装置及电子设备 | |
WO2020023647A1 (en) | Privacy preserving ai derived simulated world | |
CN111428217B (zh) | 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质 | |
WO2021164373A1 (zh) | 有向网络的检测方法、计算机可读存储介质及相关设备 | |
CN111325619A (zh) | 一种基于联合学习的***欺诈检测模型更新方法及装置 | |
CN114187112A (zh) | 账户风险模型的训练方法和风险用户群体的确定方法 | |
Sharma et al. | Machine learning model for credit card fraud detection-a comparative analysis. | |
CN113657896A (zh) | 一种基于图神经网络的区块链交易拓扑图分析方法和装置 | |
CN113159922A (zh) | 一种数据的流向识别方法、装置、设备及介质 | |
Boughaci et al. | Enhancing the security of financial transactions in Blockchain by using machine learning techniques: towards a sophisticated security tool for banking and finance | |
CN113689218A (zh) | 风险账户的识别方法、装置、计算机设备和存储介质 | |
CN114240659A (zh) | 一种基于动态图卷积神经网络的区块链异常节点识别方法 | |
US11921821B2 (en) | System and method for labelling data for trigger identification | |
CN113344581A (zh) | 业务数据处理方法及装置 | |
CN114445210A (zh) | 异常交易行为的检测方法及其检测装置、电子设备 | |
CN107463564A (zh) | 服务器中数据的特征分析方法和装置 | |
US20230316394A1 (en) | Pairing and grouping user profiles accessed from pre-current systems | |
US20240257235A1 (en) | System and method for grouping data files into related groups |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |