CN117829994A

CN117829994A - 一种基于图计算的洗钱风险分析方法

Info

Publication number: CN117829994A
Application number: CN202311864582.3A
Authority: CN
Inventors: 金铭; 薛向东; 荣聚岭; 马晓琨; 齐迪
Original assignee: DHC Software Co Ltd
Current assignee: DHC Software Co Ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-05

Abstract

本申请公开了一种基于图计算的洗钱风险分析方法。方法包括：将经过清洗后的客户相关信息和资金交易相关数据转换为图数据；构建客户关系网络和资金交易网络；将经过清洗后的客户相关信息和资金交易相关数据与洗钱风险特征库进行匹配，寻找到与已知洗钱案例相似的客户和资金交易，输出相应预警提示信息；利用图算法，标记预警客户关系网络和资金关系网络中的潜在洗钱线索，计算网络中每个节点和/或关系的风险得分，并根据洗钱风险系数输出预警提示信息；为潜在洗钱线索的节点和关系打上风险特征标签，并进行可视化展示。本申请无需依赖专家工作经验，从根本上改变了现有洗钱风险分析的方法，逐渐提高预警洗钱风险的准确性、分析洗钱线索的全面性。

Description

一种基于图计算的洗钱风险分析方法

技术领域

本申请涉及反洗钱技术领域，特别是涉及一种洗钱风险分析方法。

背景技术

近年来，随着国内国外双循环经济格局的形成、新型支付工具的快速发展，洗钱犯罪活动呈现智能化、集团化、复杂化的新趋势。同时随着产业结构调整、行业结构优化，洗钱行为与多种经济活动呈现出交叉、融合的现象，这不仅增加了银行机构识别、发现、上报洗钱活动的难度，而且严重影响社会稳定和金融行业的健康发展。

当前，绝大多数反洗钱***仍然是以专家经验为基础构建规则监测模型。这些指标规则虽然能够发现一些异常行为，但毕竟大多是根据长期的工作经验总结出来的，模型的准确性、覆盖性和稳定性都受限于人员水平。但是由于金融犯罪的手法日新月异，传统的规则模型很难及时检测出新出现的欺诈模式。

因此，如何使规则***始终保持高时效性、相关性和准确性一直是风控难点。另外，洗钱活动往往是以团伙形式进行的，而传统的规则模型监测到的更多是单个主体账户，对隐藏在资金交易图谱背后的洗钱团伙难以有效识别，无法完整刻画账户间的多层资金流向。另外，人工在甄别可疑案例工作中，所需案例相关数据分散、获取难、展示不直观、分析难度大，更多依赖业务人员的认知和经验水平，容易造成疏漏。

发明内容

本申请提供一种基于图计算的洗钱风险分析方法，旨在解决现有反洗钱***准确性受限的技术问题。

一种基于图计算的洗钱风险分析方法，包括：

S1，从数据源抽取多维度的客户相关信息和资金交易相关数据；

S2，对所述客户相关信息和资金交易相关数据进行清洗；

S3，将经过清洗后的所述客户相关信息和资金交易相关数据转换为图数据；

S4，根据所述图数据，构建客户关系网络和资金交易网络；

S5，利用已知洗钱案例形成洗钱风险特征库；

S6，将经过清洗后的所述客户相关信息和资金交易相关数据与所述洗钱风险特征库进行匹配，寻找到与已知洗钱案例相似的客户和资金交易，输出相应预警提示信息；

S7，利用图算法，标记预警所述客户关系网络和资金关系网络中的潜在洗钱线索，计算所述客户关系网络和资金关系网络中每个节点和/或关系的风险得分，并计算账户的洗钱风险系数，根据所述洗钱风险系数输出预警提示信息；

S8，为所述潜在洗钱线索的节点和关系打上风险特征标签，并将所述潜在洗钱线索和相应风险特征标签进行可视化展示，呈现分析结果。

上述方案中，可选地，所述客户相关信息包括客户身份信息和客户行为信息，所述资金交易相关数据包括账户信息和交易信息。

上述方案中，进一步可选地，所述客户身份信息包括自然人客户主体的姓名、性别、出生日期、国籍、职业、住所地址、联系方式和身份证明信息，以及非自然人客户主体的名称、身份证明信息、注册地址、经营地址、经营范围、经营状态、法定代表人信息、受益所有人信息和企业高管信息；

所述客户行为信息包括重要信息变更记录、查冻扣记录、负面舆情、命中黑名单记录和上报可疑记录；

所述账户信息包括账号名称、账号、账号类型、账户开户行、开户时间、账户状态、销户时间和管控状态；

所述交易信息包括交易流水号、金融网点、账户、交易金额、交易币种、交易手段、交易类型、交易时间、交易发生地、资金来源和资金用途。

上述方案中，可选地，步骤S2包括：

删除所述客户相关信息和资金交易相关数据中的脏数据；

将相同的客户相关信息和资金交易相关数据进行去重处理；

将所述客户相关信息和资金交易相关数据中非结构化的数据进行结构化处理；

将所述资金交易相关数据中的数据字段转化为标准格式；

将所述客户相关信息和资金交易相关数据中相同含义的数据映射到统一的字段中。

上述方案中，可选地，步骤S3包括：

根据金融数据的特征，从所述客户相关信息和资金交易相关数据中抽象出实体、实体属性及实体关系；

构建实体节点和节点关系；

根据实体节点包含的信息生成实体节点属性数组，通过JSON格式对所述实体节点属性数组进行存储；

根据节点关系包含的信息生成节点关系属性数组，通过JSON格式对所述节点关系属性数组进行存储；

将所述实体节点属性数组和节点关系属性数组上传到图数据库中，进行数据字段映射，使所述实体节点属性数组和节点关系属性数组按照预先设定的映射规则，被正确地赋值给对应的节点和边，生成相应图数据。

上述方案中，可选地，步骤S5包括：

获取已知洗钱案例；

挖掘、总结出所述已知洗钱案例的交易模式、交易路径和客户关系网络特征，得到多个洗钱风险特征和相应风险特征阈值，形成洗钱风险特征库；所述多个洗钱风险特征包括资金交易次数、交易数额、交易时间段、账户余额、资金来源、资金用途。

上述方案中，可选地，步骤S6包括：

从经过清洗后的所述客户相关信息和资金交易相关数据中提取出关键特征；

将提取出的关键特征依次与所述洗钱风险特征库中的每个洗钱风险特征进行相似度计算；

将相似度超过预设相似度阈值的关键特征的相应客户相关信息和资金交易相关数据，判定为与已知洗钱案例相似的客户和资金交易。

上述方案中，进一步可选地，步骤S7中所述计算所述客户关系网络和资金关系网络中每个节点和/或关系的风险得分，包括：

计算所述客户关系网络和资金交易网络中每个节点和/或关系的相应洗钱风险特征指标值；

将所述洗钱风险特征指标值与所述洗钱风险特征库中的风险特征阈值进行相似度计算，并根据预先设定的相似度对应风险得分区间，计算得到所述客户关系网络和资金交易网络中每个节点和/或关系的风险得分。

上述方案中，可选地，步骤S7中所述计算账户的洗钱风险系数，根据所述洗钱风险系数输出预警提示信息，包括：

通过环路探测算法，计算资金交易网络中每个账户节点的环路条数，搜索资金交易网络中的循环，探索资金交易网络中的闭环交易模式的情况，得出资金交易网络的交易行为模式相似度；

利用PageRank算法，计算所述风险客户关系网络中每个客户主体节点的客户关键程度，以及计算所述风险资金关系网络中每个账户主体节点的账户关键程度；

结合所述交易行为模式相似度、客户关键程度权重、账户关键程度权重、客户关键程度和账户关键程度，计算账户即将发生或已发生的交易记录的洗钱风险系数；

判断所述洗钱风险系数是否超过预设洗钱风险系数阈值；

若所述洗钱风险系数超过预设洗钱风险系数阈值，输出相应预警提示信息。

上述方案中，可选地，所述图算法为社区检测算法、最短路径算法或中心性算法。

相比现有技术，本申请至少具有以下有益效果：

本申请实施例提供了一种基于图计算的洗钱风险分析方法，该方法首先收集多维度的交易和客户数据，构建交易网络关系图；通过将交易和客户数据与建立的洗钱风险特征库进行匹配，找到与已知洗钱案例相似的客户和资金交易，输出相应预警提示信息；然后利用图算法标记预警可能的洗钱线索，计算每个节点或连接的风险得分，并计算账户的洗钱风险系数，根据洗钱风险系数输出预警提示信息；最后，通过可视化和分析结果，帮助分析人员直观地理解和探索洗钱线索，来进行进一步的调查和验证；本申请实施例所提供的方法，区别于传统的规则模型方法，从另外一个方面，即通过将行内、外部***的多维度数据进行知识层面上的模型构建，并基于该知识模型实现风险因素、洗钱特征的分析及挖掘，无需依赖专家工作经验，从根本上改变了现有洗钱风险分析的方法，从而逐渐提高预警洗钱风险的准确性、分析洗钱线索的全面性，进而实现从事后预警、事中监测，帮助金融机构提前对即将发生的洗钱行为进行阻断，对相关客户进行管控和报送，对已经发生的洗钱客户及交易进行报送，逐渐实现以风险为导向的洗钱风险管理目标。

附图说明

图1为本申请一个实施例提供的一种基于图计算的洗钱风险分析方法的流程示意图；

图2为本申请一个实施例中的交易模式示意图；

图3为本申请一个实施例中的可视化展示示意图；

图4为本申请一个实施例提供的一种基于图计算的洗钱风险分析方法的另一种简略流程示意图；

图5为本申请一个实施例提供的一种洗钱线索智能分析***的模块架构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义(例如，不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”(某些单元、部件、材料、步骤等)。

在一个实施例中，如图1所示，提供了一种基于图计算的洗钱风险分析方法，该方法包括以下步骤：

S1，从数据源抽取多维度的客户相关信息和资金交易相关数据。

其中，客户相关信息包括客户身份信息和客户行为信息，资金交易相关数据包括账户信息和交易信息。

也就是说，首先要对多维度的客户和交易数据进行数据抽取收集，抽取的数据包含客户信息、账户信息、交易相关信息、客户行为信息、外部监管数据等。

具体地，客户分为自然人客户和非自然人客户，对客户主体的基本信息进行提取；客户身份信息包括自然人客户主体的姓名、性别、出生日期、国籍、职业、住所地址、联系方式和身份证明信息等(身份证明的种类、号码和有效期限)，以及非自然人客户主体的名称、身份证明信息(身份证明的种类、号码和有效期)、注册地址、经营地址、经营范围、经营状态、法定代表人信息、受益所有人信息和企业高管信息等。

客户行为信息包括重要信息变更记录、查冻扣记录、负面舆情、命中黑名单记录和上报可疑记录等。

账户信息包括账号名称、账号、账号类型、账户开户行、开户时间、账户状态、销户时间和管控状态等；

交易信息包括交易流水号、金融网点、账户、交易金额、交易币种、交易手段、交易类型、交易时间、交易发生地、资金来源和资金用途等信息。

换句话说，数据收集：通过多维度获取客户的相关信息，如行内的客户身份基本信息、客户受益所有人、法定代表人及其他关联人信息、账号信息、交易信息、外部***的黑名单数据、股权变更信息、行政处罚信息、负面舆情、刑事查冻扣等，将客户相关数据、交易相关数据从数据源导入。

S2，对客户相关信息和资金交易相关数据进行清洗。

进一步地，步骤S2包括：

删除客户相关信息和资金交易相关数据中的脏数据；

将相同的客户相关信息和资金交易相关数据进行去重处理；

将客户相关信息和资金交易相关数据中非结构化的数据进行结构化处理；

将资金交易相关数据中的数据字段转化为标准格式；

将客户相关信息和资金交易相关数据中相同含义的数据映射到统一的字段中。

抽取的源头数据存在几个问题：

其一，存在大量脏数据，例如客户基本信息字段因格式错误、长度不符、存在乱码、信息缺失等诸多情形导致的脏数据；

其二，客户唯一性识别存在偏差，同一个客户用身份证件号、护照或其他证件开户，未归并从而导致被视为不同客户，存在不同的客户编码，不符合反洗钱的要求；

其三，不同渠道留存客户信息不一致；所以数据抽取后要对客户进行数据清洗，同一客户在不同业务条线对客户数据、资金交易数据进行清洗，借助大数据技术、ChatGPT等科技手段，对内外部数据进行清洗、合并、钻取及存储，实现数据的标准性、准确性、完整性。

对客户数据、资金交易数据进行清洗，清洗步骤包括将相同的交易流水数据进行去重处理，删除缺少关键信息的脏数据，把资金交易数据的时间、金额等字段转化为标准格式，把多数据源中的相同含义的数据映射到统一的字段中等。

S3，将经过清洗后的客户相关信息和资金交易相关数据转换为图数据。

进一步地，步骤S3包括：

根据金融数据的特征，从客户相关信息和资金交易相关数据中抽象出实体(如客户、账户、交易等)、实体属性(如客户的姓名、账户的开户时间等)及实体关系(如客户拥有账户、账户之间的转账关系等)；

构建实体节点和节点关系；

根据实体节点包含的信息生成实体节点属性数组，通过JSON格式对实体节点属性数组进行存储；

根据节点关系包含的信息生成节点关系属性数组，通过JSON格式对节点关系属性数组进行存储；

将实体节点属性数组和节点关系属性数组上传到图数据库中，进行数据字段映射，使实体节点属性数组和节点关系属性数组按照预先设定的映射规则，被正确地赋值给对应的节点和边，生成相应图数据。

换句话说，将步骤S2处理后的数据转换为图数据，便于在图数据库中存储、查询、操作。数据转换的步骤为：抽象实体、实体属性及实体关系→构建图scheme→上传数据到图数据库中→数据字段映射。

根据金融数据的特征，抽象出实体、实体属性及实体关系，构建实体节点和节点关系，根据实体节点包含的信息生成实体节点属性数组，并通过JSON的方式对实体节点属性数组进行存储，根据节点关系包含的信息生成节点关系属性数组，并通过JSON的方式对节点关系属性数组进行存储。

基于实体节点、实体节点属性数组、节点关系和节点关系属性数组，通过图数据库和数据***构建数个图模型，将关系型数据上传到图数据库中，进行数据字段映射。

换句话说，将客户相关信息和资金交易相关数据转换为图数据涉及以下几个步骤：

(1)定义实体和关系

首先，需要定义图数据库中的实体(节点)和关系(边)。在金融场景中，通常有如下实体和关系：

实体：

客户：自然人或非自然人客户

账户：与客户关联的银行账户

交易：账户之间的资金流动事件

关系：

客户与账户之间的“拥有”关系

账户与交易之间的“发生”关系

交易与交易之间可能存在的“连续”关系，表示资金流向

(2)提取实体属性

对于每个实体，提取其属性作为节点的属性。例如：

客户节点可能包含：姓名、性别、出生日期、国籍等

账户节点可能包含：账号名称、账号类型、开户时间等

交易节点可能包含：交易金额、币种、交易时间等

(3)提取关系属性

对于每个关系，提取其属性作为边的属性。例如：

“拥有”关系可能包含：开户日期、账户状态等

“发生”关系可能包含：交易金额、交易时间、资金来源和用途等

(4)构建图数据库结构

使用图数据库管理***(如Neo4j、OrientDB等)，根据提取的实体和关系属性构建图数据库的结构。

(5)数据映射和上传

将关系型数据库中的数据按照图数据库的结构进行映射，并上传到图数据库中。这个过程可能涉及以下操作：

将客户、账户和交易的记录转换为图数据库中的节点；

将客户与账户、账户与交易之间的关联转换为图数据库中的边；

为每个节点和边分配唯一标识符，并保持原有数据的关联性。

(6)使用JSON格式存储

实体节点和节点关系的属性数组可以通过JSON格式进行存储，因为JSON是一种轻量级的数据交换格式，易于人阅读和机器解析。

(7)图查询和分析

一旦数据被成功转换并上传到图数据库中，就可以使用图查询语言(如CypherforNeo4j)来查询和分析数据，从而揭示客户之间、账户之间以及交易之间的复杂关系和模式。

通过以上步骤，可以将客户相关信息和资金交易相关数据有效地转换为图数据，进而利用图数据库的强大分析能力来支持反洗钱等金融风险管理工作。

S4，根据图数据，构建客户关系网络和资金交易网络。

基于步骤S2的数据，构建客户关系网络、资金交易网络图。进行图查询，根据每个客户相关联关系形成客户关系网络，每笔交易流水会形成一个单独的小型资金网络，然后通过客户关系网络、交易资金网络、交易对手等对象信息形成多个网络间的关联关系，最终形成复杂资金链路关系网。

S5，利用已知洗钱案例形成洗钱风险特征库。

进一步地，步骤S5包括：

获取已知洗钱案例；

利用图算法和机器学习方法，挖掘、总结出已知洗钱案例的交易模式、交易路径和客户关系网络特征，得到多个洗钱风险特征和相应风险特征阈值，形成洗钱风险特征库；多个洗钱风险特征包括资金交易次数、交易数额、交易时间段、账户余额、资金来源、资金用途。

利用图算法和机器学习方法挖掘、总结已知洗钱案例的交易模式、交易路径、客户关系网络特征，形成风险特征库。

交易特征构建：基于洗钱交易的基础特征，包括交易金额、交易时间和账户初始余额，首先构建账户和交易相关的具体交易特征，随后通过交易网络分析，以账户为节点、账户间的交易为关系，挖掘账户交易间的隐含关系，并基于图算法构建网络特征，例如扇入、扇出、环路、分散聚集、聚集分散等交易模式，详见图2。洗钱风险特征构建完毕之后，输入到交易评估模型进行训练及洗钱线索预测。

S6，将经过清洗后的客户相关信息和资金交易相关数据与洗钱风险特征库进行匹配，寻找到与已知洗钱案例相似的客户和资金交易，输出相应预警提示信息。

进一步地，步骤S6包括：

从经过清洗后的客户相关信息和资金交易相关数据中提取出关键特征；

将提取出的关键特征依次与洗钱风险特征库中的每个洗钱风险特征进行相似度计算；

将步骤S2的基础数据、步骤S5的风险特征库，利用图算法和机器学习算法进行匹配监测，发现与已知洗钱案例的交易模式相似的客户和交易进行预警。

S7，利用图算法，标记预警客户关系网络和资金关系网络中的潜在洗钱线索，计算客户关系网络和资金关系网络中每个节点和/或关系的风险得分，并计算账户的洗钱风险系数，根据洗钱风险系数输出预警提示信息。

进一步地，计算客户关系网络和资金关系网络中每个节点和/或关系的风险得分，包括：

计算客户关系网络和资金交易网络中每个节点和/或关系的相应洗钱风险特征指标值；洗钱风险特征指标值即洗钱风险特征的具体值，例如可以是“资金交易次数”的具体交易次数；

将洗钱风险特征指标值与洗钱风险特征库中的风险特征阈值进行相似度计算，并根据预先设定的相似度对应风险得分区间，计算得到客户关系网络和资金交易网络中每个节点和/或关系的风险得分。

具体来说，步骤S7中，图算法可以为社区检测算法、最短路径算法或中心性算法：

(1)社区检测算法：社区检测算法旨在识别网络中紧密相连的节点子集，这些节点之间存在着更密切的关联。在反洗钱领域，社区检测算法可以帮助识别资金交易网络中存在的密切联系，从而揭示出潜在的洗钱活动。通过识别这些社区，可以更好地理解资金流动和客户之间的关系。

(2)最短路径算法：最短路径算法用于找到网络中两个节点之间的最短路径，即最小成本的路径。在反洗钱监测中，最短路径算法可以帮助发现资金流动的最直接路径，从而揭示出是否存在异常的资金转移行为。

(3)中心性算法：中心性算法用于确定网络中节点的重要性或中心性程度。在反洗钱监测中，中心性算法可以帮助确定哪些节点在客户关系网络或资金交易网络中起着关键作用，从而帮助鉴别潜在的洗钱行为。

综合利用这些算法，可以更全面地分析客户关系网络和资金交易网络，识别潜在的洗钱线索，有助于提高对洗钱活动的监测和预警能力。

可视化展示示意图如图3所示，通过可视化和分析结果，帮助分析人员直观地理解和探索洗钱线索，并进行进一步的调查和验证。该方法能够有效提高对洗钱活动的识别和预防能力，为金融机构或执法部门提供有力的工具和支持。

进一步地，计算账户的洗钱风险系数，根据洗钱风险系数输出预警提示信息，包括：

使用KNN算法对洗钱数据中与洗钱相关的交易特征进行聚类分析，并根据聚类结果，计算风险资金关系网络中交易账户节点的关联强度；

利用PageRank算法，计算风险客户关系网络中每个客户主体节点的客户关键程度，以及计算风险资金关系网络中每个账户主体节点的账户关键程度；

结合交易行为模式相似度、客户关键程度权重、账户关键程度权重、客户关键程度和账户关键程度，计算账户即将发生或已发生的交易记录的洗钱风险系数；

判断洗钱风险系数是否超过预设洗钱风险系数阈值；

若洗钱风险系数超过预设洗钱风险系数阈值，输出相应预警提示信息。

S8，为潜在洗钱线索的节点和关系打上风险特征标签，并将潜在洗钱线索和相应风险特征标签进行可视化展示，呈现分析结果。帮助分析人员直观地理解和探索洗钱线索，并进行进一步的调查和验证。

对预警的洗钱线索进行客户关系、资金网络可视化展示。

其中，洗钱线索是指可能表明存在洗钱活动的迹象或证据。在金融领域，洗钱线索通常是指一系列异常或可疑的交易模式、行为或数据模式，这些模式可能暗示着资金洗钱的可能性。

风险特征标签可以指用来描述节点和关系的特定属性或行为的标记，这些属性或行为具有潜在的风险或异常性。在反洗钱领域中，分析人员可以通过为节点和关系打上相应的风险特征标签，来辅助识别可疑的交易行为或交易方。

例如风险特征标签可以包含分散转入、集中转出、过渡账户、机关负责人等。分散转入标签表示该客户账户从多个来源接收资金，且资金量较小，这可能涉及到将资金分散转入多个账户以避免被监管机构察觉的洗钱行为。集中转出标签则表示该客户账户向多个收款人转账，且资金量较大，这可能涉及到将来自不合法来源的资金聚集后集中转出的洗钱行为。过渡账户标签表示该客户只作为资金流向的过渡账户，没有明显的业务逻辑或合法性，这可能涉及到将不法资金转移到其他账户时通过过渡账户来掩盖资金流向的洗钱行为。机关负责人标签则表示该客户节点是政府机关或企事业单位的负责人，其账户资金往来可能受到行业监管等因素的影响，需要特殊关注。

通过为节点和关系打上风险特征标签，分析人员可以更精细地刻画客户账户的交易模式和行为特征，有助于筛选出潜在的可疑交易行为或交易方。同时，风险特征标签也为反洗钱***提供了一种可配置的、灵活的、可扩展的方式，便于根据不同的风险类型和业务需求进行定制化的监测和分析。

也就是说，利用图计算的社区检测、最短路径、中心性算法，标记可能的洗钱线索，并计算每个节点或连接的风险得分。

基于构建完成的资金交易网络、客户关系网络，通过图算法从交易行为模式、账户间关联强度、账户关键程度、客户关键程度这四个维度计算每个节点和关系的风险得分和洗钱风险系数，标识洗钱风险特征。

首先通过环路探测算法搜索图中的循环，探索闭环交易模式的情况，计算每个账户节点的环路条数，得出交易行为模式相似度；其次使用KNN算法对洗钱数据进行聚类分析，洗钱相关的交易特征进行聚类分析，计算洗钱关键风险特征指标值，并与风险特征库阈值进行相似度计算得出各个实体、各个关系的风险得分。

对实体节点、关系标识风险特征，再结合交易行为模式相似度、账户、客户关键程度权重、账户关键程度计算账户即将发生或已发生的交易记录的洗钱风险系数，洗钱风险系数越高，洗钱风险越大，根据洗钱风险系数及时给出预警。

其中，洗钱风险特征包括但不限于：资金交易次数、交易数额、交易时间段、账户余额、资金来源、资金用途等。

在上述方案中，示例性地，洗钱风险系数可以通过如下公式来计算：

洗钱风险系数＝交易行为模式相似度+客户关键程度权重*客户关键程度+账户关键程度权重*账户关键程度。

详细过程如下：

(1)交易行为模式匹配：模式匹配可用于挖掘潜在洗钱团伙的资金链路，本文通过环路探测算法分析闭环交易模式的匹配情况。环路探测算法通过深度优先搜索(DFS)检测图中的循环，可用来探索交易网络中资金回流到初始账户的闭环交易。通过环路探测算法计算每账户节点的环路条数，以此构建交易行为模式匹配的特征。

(2)计算账户间关联强度：洗钱行为模式往往具有缺少样本、簇数量未知、簇结果动态变化这几个特点，无监督聚类算法对簇的数量与结果均没有假设，因此，本申请使用KNN算法来对洗钱数据进行聚类分析，计算交易双方账户节点的关联强度。按照与洗钱相关的预设交易特征对预处理后的交易数据进行统计与归并处理，得到交易数据集。聚类方法中的属性应包括对存取资金交易金额、存取资金的交易次数、资金来源和资金用途等方面。

相应的，本发明结合交易流水的账户关键程度，账户的客户主体的关键程度以及洗钱特点的基础上进行数据探索，定义一系列与洗钱相关的交易特征，主要包括：账号、资金收付标志、交易次数、交易数额、对手账号、账户余额、账号主体的关系人、是否涉及名单关系、是否发生查冻扣、负面舆情、上报可疑等。

并对数据库中预处理过的全部交易数据按照账号、资金收付标志、交易金额、对手账号、账户余额等交易特征进行统计和归并处理，得到后续聚类需要使用的第二交易数据集。

按与洗钱相关的预设交易特征、账户特征、客户特征，对第二交易数据集对应的各个交易账户、账户主体进行聚类处理，得到交易账户的多个目标聚类集。该阶段具体是通过两阶段聚类处理交易数据集，把具有相似交易特征的账户聚集在一起，并且把一些异常交易账户进行洗钱线索预警，为业务人员对案件分析提供有效的线索。

使用KNN算法来对账户交易数据进行聚类分析，计算交易账户节点的关联强度。选择欧氏距离作为节点间距离度量，对于标量属性，它的欧式距离计算公式如下：

其中n是特征维度。

根据KNN算法的聚类结果，可以对洗钱数据进行归类，并将同一类别的交易账户视为一个群组或簇，进而可以对风险资金关系网络中的交易账户节点进行分类。

(3)计算账户关键程度：通过PageRank算法，PageRank算法也叫网页排名法、Google左侧排名算法或佩奇排名算法，是一种由根据网页之间相互的超链接计算的技术。

本申请中利用PageRank来计算交易网络中单个账户节点的重要，PageRank算法根据关系的数量和关联节点的重要性来衡量网络中每个节点的重要性；

PageRank算法根据关系的数量和关联节点的重要性来衡量网络中每个节点的重要性，其计算公式如下：

其中：PR(A)表示节点的PR值，即节点A的重要程度，d为阻尼系数，是指到达当前节点后，挑选任一几点继续向后进行游走的概率，Ti表示在图上纸箱节点A的节点，C(Ti)是页面Ti的出度。

(4)计算客户关键程度：也是通过PageRank算法计算客户关系网络中单个客户主体节点的重要性。

在本申请实施方式中，获取客户主体、账户的交易流水记录后，采用逐一排查的方法为图关系网络中的各个实体及实体关系打上风险特征标签，并计算风险得分，根据风险得分及账户、客户关键程度权重计算账户即将发生或已发生的交易记录的洗钱风险系数，洗钱风险系数越高，洗钱风险越大，根据洗钱风险系数及时给出预警。

本申请实施例提供了一种基于图计算的洗钱线索智能分析方法，旨在通过构建和分析交易关系图来揭示潜在的洗钱行为，该方法的另一种简略示意图可参见图4。

本申请实施例提供了一种基于图计算的洗钱风险分析方法，旨在通过构建和分析交易关系图来揭示潜在的洗钱行为。该方法首先收集交易和客户数据，并构建交易网络关系图，将每个账户作为节点，使用交易记录中的发起账户和接收账户之间的关系连接它们。然后，利用图算法和机器学习方法挖掘图中的洗钱模式和特征，例如识别出现频率高的交易模式、异常的交易路径或与已知洗钱案例相似的模式。接下来，进行异常检测和风险评估，根据挖掘结果标记可能的洗钱线索，并计算每个节点或连接的风险得分。最后，通过可视化和分析结果，帮助分析人员直观地理解和探索洗钱线索，并进行进一步的调查和验证。该方法能够有效提高对洗钱活动的识别和预防能力，为金融机构或执法部门提供有力的工具和支持。

本申请实施例所提供的方法，区别于传统的规则模型方法，从另外一个方面，即通过将行内、外部***的多维度数据进行知识层面上的模型构建，并基于该知识模型实现风险因素、洗钱特征的分析及挖掘，从根本上改变了现有洗钱风险分析的方法，从而逐渐提高预警洗钱风险的准确性、分析洗钱线索的全面性，进而实现从事后预警、事中监测，帮助金融机构提前对即将发生的洗钱行为进行阻断，对相关客户进行管控和报送，对已经发生的洗钱客户及交易进行报送，逐渐实现以风险为导向的洗钱风险管理目标。

本申请实施例所提供的方法，通过图计算技术构建资金交易网络图，挖掘洗钱模式，设计一种异常交易监测与风险预警方法，由此能够高效、准确得进行异常交易风险预警、预防洗钱活动。

本申请实施例所提供的方法，能够对洗钱行为进行事中监测、事后预警甄别，达到事前防范、事后预警，更准确地帮助金融机构发现一般可疑和重点可疑，并提高可疑甄别的准确性和效率。

应该理解的是，虽然图1和图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于图计算的洗钱线索智能分析***，该***由数据抽取模块、数据清洗模块、数据转换模块、风险特征模块、洗钱线索监测预警模块、洗钱线索分析模块、报告生成模块组成。

(1)数据抽取模块用于多维度获取客户数据及交易数据，其中：

客户数据包括：行内的客户身份基本信息、客户受益所有人、法定代表人及其他关联人信息、外部***的黑名单数据、股权变更信息、行政处罚信息、负面舆情、刑事查冻扣等；

交易数据包含：交易时间、交易发生地、交易币种、交易金额、交易渠道、账户信息、账户开户行等。

(2)数据清洗模块用于去除空值、异常值、重复值及不符合业务要求的数据，并将非结构化的客户数据及交易数据进行结构化处理，从而获取完整信息表述。

(3)数据转换模块用于将完成处理的数据转换为图数据，便于在图数据库中存储、查询、操作。数据转换的步骤：抽象实体、实体属性及实体关系→构建图scheme→上传数据到图数据库中→数据字段映射。

(4)风险特征模块用于利用图算法和机器学习方法挖掘、总结已知洗钱案例的交易模式、交易路径、客户关系网络特征，形成风险特征库。

(5)洗钱线索监测预警模块用于利用图算法和机器学习算法，进行获取的客户数据及交易数据进行事前、事中匹配监测，一旦发现与已知洗钱案例的交易模式相似，实时推出预警。

(6)洗钱线索分析模块用于利用图计算的社区检测、最短路径、中心性算法，标记可能的洗钱线索，并计算每个节点或连接的风险得分。

具体地，洗钱线索分析模块用于利用图计算引擎与社区检测、最短路径、中心性算法等图算法，标记可能的洗钱线索，并计算每个节点或连接的风险得分，生成异常交易子图。

(7)报告生成模块用于生成洗钱线索分析报告，具体包含：

洗钱行为识别：基于图计算模型展示识别出可疑的洗钱行为，包括关键节点、异常路径、聚类分析等。

洗钱结果展示：通过可视化技术展示分析结果，直观地展示洗钱行为的特征和规律。

洗钱风险评估：根据分析结果，评估洗钱行为的风险程度，提出相应的风险预警和应对措施建议。

另外，该***还包括洗钱线索分析可视化模块。

洗钱线索分析可视化模块用于进行洗钱线索的可视化展示，通过图关系网展示和特征标签展示进行洗钱线索的可视化展示；并且支持对欺诈团伙、可疑账户、异常交易等进行明细下钻，进一步扩充分析维度，如二度关系人中逾期比例、是否拥有冲突性关系网络等特征，便于提高洗钱线索分析质量。

展示模块用于渲染展示界面，展示界面包括：图关系网络、风险特征标签展示区；展示模块用于在图关系网络展示区域对可疑客户的图关系网进行展示，并在特征标签展示区域对可疑客户的可疑特征进行展示。

可疑客户的图关系网络支持下钻，下钻展示深度的交易及账户、客户关系网络；可疑客户的风险特征支持下钻明细；其中，下钻明细中包含可疑特征的明细数据。具体的下钻的明细数据不仅能以图网的形式进行显示，还可以以列表的形式显示。

其中各模块具体实现内容可以参见上文中对于一种基于图计算的洗钱风险分析方法的限定，在此不再赘述。

在一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于图计算的洗钱风险分析方法，其特征在于，包括：

S2，对所述客户相关信息和资金交易相关数据进行清洗；

S4，根据所述图数据，构建客户关系网络和资金交易网络；

S5，利用已知洗钱案例形成洗钱风险特征库；

2.根据权利要求1所述的基于图计算的洗钱风险分析方法，其特征在于，所述客户相关信息包括客户身份信息和客户行为信息，所述资金交易相关数据包括账户信息和交易信息。

3.根据权利要求2所述的基于图计算的洗钱风险分析方法，其特征在于，所述客户身份信息包括自然人客户主体的姓名、性别、出生日期、国籍、职业、住所地址、联系方式和身份证明信息，以及非自然人客户主体的名称、身份证明信息、注册地址、经营地址、经营范围、经营状态、法定代表人信息、受益所有人信息和企业高管信息；

4.根据权利要求1所述的基于图计算的洗钱风险分析方法，其特征在于，步骤S2包括：

删除所述客户相关信息和资金交易相关数据中的脏数据；

将相同的客户相关信息和资金交易相关数据进行去重处理；

将所述资金交易相关数据中的数据字段转化为标准格式；

5.根据权利要求1所述的基于图计算的洗钱风险分析方法，其特征在于，步骤S3包括：

构建实体节点和节点关系；

6.根据权利要求1所述的基于图计算的洗钱风险分析方法，其特征在于，步骤S5包括：

获取已知洗钱案例；

7.根据权利要求1所述的基于图计算的洗钱风险分析方法，其特征在于，步骤S6包括：

8.根据权利要求6所述的基于图计算的洗钱风险分析方法，其特征在于，步骤S7中所述计算所述客户关系网络和资金关系网络中每个节点和/或关系的风险得分，包括：

9.根据权利要求1所述的基于图计算的洗钱风险分析方法，其特征在于，步骤S7中所述计算账户的洗钱风险系数，根据所述洗钱风险系数输出预警提示信息，包括：

判断所述洗钱风险系数是否超过预设洗钱风险系数阈值；

10.根据权利要求1所述的基于图计算的洗钱风险分析方法，其特征在于，所述图算法为社区检测算法、最短路径算法或中心性算法。