CN109784636A

CN109784636A - 欺诈用户识别方法、装置、计算机设备及存储介质

Info

Publication number: CN109784636A
Application number: CN201811527398.9A
Authority: CN
Inventors: 唐文; 张密; 卢宁; 马建明
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-05-21

Abstract

本发明公开了欺诈用户识别方法、装置、计算机设备及存储介质。该方法包括：将所获取的与理赔数据对应的节点进行数据清洗，得到清洗后节点；通过谱聚类将所述清洗后节点并行划分为多个子图；将多个子图分别进行聚类，得到包括多个聚类簇的网络社团；根据在所述网络社团中初始设置的节点标签，由标签传播获取所述网络社团中高风险用户标签所对应的目标节点；若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识。该方法通过聚类算法切割网络，降低网络规模，优化网络结构，而且提高了风险识别的准确度，精准定位欺诈用户及社团。

Description

欺诈用户识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及欺诈用户识别技术领域，尤其涉及一种欺诈用户识别方法、装置、计算机设备及存储介质。

背景技术

目前，在保险行业的理赔过程中，社交分析开始应用到用户风险分析的业务场景中，数据多为人工录入，存在异常数据，并且业务逻辑较为复杂，单一算法的分析明显存在以下不足：

1)存在规模较大的网络，由于网络大匹配到规则的数量多，风险评分异常高；

2)缺乏风险用户能量传播模型，不能覆盖风险凝聚分析；

3)缺乏全局考量，人工定义特征没有包含网络结构信息。

发明内容

本发明实施例提供了一种欺诈用户识别方法、装置、计算机设备及存储介质，旨在解决现有技术中社交分析应用到用户风险分析的业务场景中使用单一分析算法，因存在大规模网络导致风险评估结果不准确，且因缺乏风险用户能量传播，不能覆盖风险凝聚分析的问题。

第一方面，本发明实施例提供了一种欺诈用户识别方法，其包括：

将所获取的与理赔数据对应的节点进行数据清洗，得到清洗后节点；

通过谱聚类将所述清洗后节点并行划分为多个子图；

将多个子图分别进行聚类，得到包括多个聚类簇的网络社团；

根据在所述网络社团中初始设置的节点标签，由标签传播获取所述网络社团中高风险用户标签所对应的目标节点；其中，在所述网络社团中初始设置的节点标签中至少包括一个高风险用户标签；以及

若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识。

第二方面，本发明实施例提供了一种欺诈用户识别装置，其包括：

节点清洗单元，用于将所获取的与理赔数据对应的节点进行数据清洗，得到清洗后节点；

子图划分单元，用于通过谱聚类将所述清洗后节点并行划分为多个子图；

聚类单元，用于将多个子图分别进行聚类，得到包括多个聚类簇的网络社团；

标签传播单元，用于根据在所述网络社团中初始设置的节点标签，由标签传播获取所述网络社团中高风险用户标签所对应的目标节点；其中，在所述网络社团中初始设置的节点标签中至少包括一个高风险用户标签；以及

欺诈社团识别单元，用于若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的欺诈用户识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的欺诈用户识别方法。

本发明实施例提供了一种欺诈用户识别方法、装置、计算机设备及存储介质。该方法通过对理赔数据的节点进行划分和聚类后，得到包括多个聚类簇的网络社团；根据在所述网络社团中初始设置的节点标签，由标签传播获取所述网络社团中高风险用户标签所对应的目标节点；若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识。该方法通过聚类算法切割网络，降低网络规模，优化网络结构，而且提高了风险识别的准确度，精准定位欺诈用户及社团。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的欺诈用户识别方法的流程示意图；

图2为本发明实施例提供的欺诈用户识别方法的子流程示意图；

图3为本发明实施例提供的欺诈用户识别方法的另一子流程示意图；

图4为本发明实施例提供的欺诈用户识别方法的另一子流程示意图；

图5为本发明实施例提供的欺诈用户识别方法的另一流程示意图；

图6为本发明实施例提供的欺诈用户识别装置的示意性框图；

图7为本发明实施例提供的欺诈用户识别装置的子单元示意性框图；

图8为本发明实施例提供的欺诈用户识别装置的另一子单元示意性框图；

图9为本发明实施例提供的欺诈用户识别装置的另一子单元示意性框图；

图10为本发明实施例提供的欺诈用户识别装置的另一示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的欺诈用户识别方法的流程示意图，该欺诈用户识别方法应用于管理服务器中，该方法通过安装于管理服务器中的应用软件进行执行。

如图1所示，该方法包括步骤S110～S150。

S110、将所获取的与理赔数据对应的节点进行数据清洗，得到清洗后节点。

在本实施例中，在管理服务器中对理赔数据进行欺诈用户识别。当管理服务器接收了海量的案件数据(例如车险理赔场景下的案件数据包括司机、报案人、受益人和伤者，以及修理厂、报案电话、检修地点、GPS信息等数据)，由于理赔数据录入异常、错录现象，导致高频点出现，而且理赔数据中存在超期限发生的案件数据，也就是理赔数据对应的报案时间与当前***时间的间隔超出了较长时间，这些数据都会影响到后续的数据分析和关系挖掘，故需要先对理赔数据对应的节点进行数据清理。

其中，由于案件数据中不可能每一数据都转化为一个节点，故可有选择性的选择其中一部分数据作为主数据并对应生成节点，而剩余的数据则作为上述生成节点中主数据的属性数据。例如报案人作为主数据，报案人的电话号码、身份证号作为其属性数据。

在一实施例中，如图2所示，步骤S110包括：

S111、判断理赔数据对应的节点中是否存在频次超过预设的频次阈值的高频节点，若赔数据对应的节点中存在频次超过所述频次阈值的高频节点，将所述高频节点进行删除，得到高频清理后的节点；

S112、判断高频清理后的节点中是否存在数据产生时间超出预设的时间段区间的节点，若高频清理后的节点中存在数据产生时间超出所述时间段区间的节点，将数据产生时间超出所述时间段区间的节点进行删除，得到清洗后节点。

在本实施例中，由于理赔数据录入异常、错录现象，导致高频点出现，针对这类问题，进行高频点的检测，即判断节点中是否存在频次超过预设次数的高频节点，若存在频次超过预设次数的高频节点，会剔除高频节点后再进行下一步数据处理。若理赔数据中存在超期限发生的案件数据，也就是理赔数据对应的报案时间与当前***时间的间隔超出了较长时间(更具体的理解为节点数据产生时间超出预设的时间段区间)，为了减小网络的复杂度，一般是将节点数据产生时间距今较久的节点进行删除，还可以保证数据的时效性。

S120、通过谱聚类将所述清洗后节点并行划分为多个子图。

在本实施例中，通过谱聚类算法对海量的节点进行区域的划分，使得不同子图(子图可以视为一块区域，该区域内包括包括多个节点)内的节点之间的联系权重较小(即未超过预设的联系权重阈值)，而同一子图内的节点之间的联系权重较大(即超过预设的联系权重阈值)。通过谱聚类算法能快速的将所述理赔数据对应的节点并行划分为多个子图。

在一实施例中，如图3所示，步骤S120包括：

S121、获取所输入的相似度矩阵和目标聚类数目；

S122、根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；

S123、根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

S124、获取所述拉普拉斯矩阵的多个特征值中排名位于预设排名阈值之前的特征值所对应的特征向量，以获取目标特征向量集合；

S125、将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

S126、通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团。

在本实施例中，谱聚类是一种基于图论的聚类方法，通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据聚类的目的。谱聚类可以理解为将高维空间的数据映射到低维，然后在低维空间用其它聚类算法(如k-means)进行聚类。

为了实现对高维空间的理赔数据映射到低维空间，需将所述理赔数据对应的节点先根据式(1)进行相似矩阵的构建：

其中，n为赔数据对应的节点个数，x_i和x_j分别表示任意一个节点，σ表示节点的标准差，s_ij则组成了相似矩阵。

由所输入的相似度矩阵来构建与所述理赔数据对应的节点相应的相似矩阵有∈-邻近法，K邻近法和全连接法。例如，全连接法的计算公式如式1。

之后根据式2来计算对角矩阵，式2具体如下：

其中，d_i表示相似矩阵中每一行的元素之和，由d_i组成对角矩阵w_ij则表示相似矩阵中第i行第j列的元素。

当由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵后，即可以拉普拉斯矩阵中对应的每一特征向量转置为列向量，从而组成目标向量矩阵。最后通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团，通过谱聚类实现了将由理赔数据组成的全量数据进行社团的快速发现，而且实现了实时织网。

S130、将多个子图分别进行聚类，得到包括多个聚类簇的网络社团。

在本实施例中，通过社团检测将与多个子图对应的初始理赔社交网络拓扑图进行聚类，得到网络社团。

即通过谱聚类将初始的节点划分为多个区域形成多个子图后，形成了多个规模较小的图，此时需要将每个子图进行织网，得到初始理赔社交网络拓扑图。之后通过社团检测算法，可对初始理赔社交网络拓扑图进行聚类，得到网络社团。

社团检测，就是要在一个图(包含顶点和边，例如步骤一中的初始理赔社交网络拓扑图)上发现社团结构，也就是要把图中的结点进行聚类，构成一个个的社团。关于社团(community)，目前还没有确切的定义，一般认为社团内部的点之间的连接相对稠密，而不同社团的点之间的连接相对稀疏。

例如，输入初始理赔社交网络拓扑图后，通过社团检测算法处理后会输出一种社团划分，也即切图后的网络。切图后的网络的模块度(Modularity)是评估一个社区网络划分好坏的度量方法，它的含义是社区内节点的连边数与随机情况下的边数之差，模块度的取值范围是[-1/2,1)。社团检测算法中，模块度算法主要评估节点的紧凑密集程度，可以更快的帮助进行定焦。

S140、根据在所述网络社团中初始设置的节点标签，由标签传播获取所述网络社团中高风险用户标签所对应的目标节点；其中，在所述网络社团中初始设置的节点标签中至少包括一个高风险用户标签。

在本实施例中，标签传播算法的基本思想是：将一个节点的邻居节点的标签中数量最多的标签作为该节点自身的标签。给每个节点添加标签(label)以代表它所属的社区，并通过标签的“传播”形成同一标签的“社区”结构。

给每个节点添加标签(label)以代表它所属的社区，并通过标签的“传播”形成同一标签的“社区”结构。一个节点的标签取决于它邻居节点的标签：假设节点z的邻居节点有z₁至z_k，那么哪个社区包含z的邻居节点最多z就属于那个社区(或者说z的邻居中包含哪个社区的标签最多，z就属于哪个社区)。优点是收敛周期短，无需任何先验参数(不需事先指定社区个数和大小)，算法执行过程中不需要计算任何社区指标。

在一实施例中，如图4所示，步骤S140包括：

S141、将所述网络社团中每一节点的节点标签传播至与该节点有边相连的接收节点；

S142、迭代执行根据所述接收节点接收到的各个节点标签，以所接收到的各个节点标签中频次最高的节点标签为所述接收节点赋予新的标签的步骤，直至满足预设的标签传播结束条件为止；

S143、获取所述网络社团中高风险用户标签所对应的目标节点。

在本实施例中，标签传播算法的过程入下：

1)初始时，给每个节点一个唯一的标签；

2)每个节点使用其邻居节点的标签中最多的标签来更新自身的标签；

3)反复执行步2)，直到每个节点的标签都不再发生变化为止。

一次迭代过程中一个节点标签的更新可以分为同步和异步两种。所谓同步更新，即节点z在第t次迭代的label依据于它的邻居节点在第t-1次迭代时所得的label；异步更新，即节点z在第t次迭代的label依据于第t次迭代已经更新过label的节点和第t次迭代未更新过label的节点在第t-1次迭代时的label。其中，迭代次数设定一个阈值，可以防止过度运算。

由于可对网络社团中每一节点均设置一初始标签，然后再根据标签传播算法，不断更新每一节点的标签，直至每个节点的标签都不再发生变化时，则获取标签为高风险用户标签对应的节点即可。此时高风险用户标签对应的节点所位于的社团，有可能是欺诈社团，需要进一步判断。

S150、若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识。

在本实施例中，由于高风险用户标签对应的目标节点所位于的网络社团中，可由有效的分析该目标节点与邻居节点的关系，以分析是否组成欺诈社团。此时可以先获取所述目标节点所在网络社团对应的目标特征向量，然后在每一网络社团中挖掘，是否有网络社团的特征向量与该目标特征向量相同，从而快速的筛选出欺诈社团，并对其进行欺诈社团的标识。

在一实施例中，如图5所示，步骤S150之前还包括：

S1501、通过带权重的采样对所述目标节点对应的社团进行采样，得到与目标节点对应的目标特征向量；

S1502、通过带权重的采样对所述网络社团中每一社团进行采样，得到与每一社团对应的特征向量。

采用带权重的采样方法(带权重的采样具体如weighted walk)时，使采样尽量往热门节点方向游走，例如有一图存在四个节点，分别为A、B、C、D这四个节点，A与B之间连接边的权重值为0.1，A与C之间连接边的权重值为0.7，B与C之间连接边的权重值为0.4，C与D之间连接边的权重值为0.8。假设游走2步，从节点A出发，随机取下一个邻居节点时，如果是random walk算法(即随机漫步算法)，会等概率的游走到B或C节点，但是会以7/8的概率取节点C，再以8/12的概率游走到节点D，最终很大概率上会采出来一条序列(A，C，D)，对于原始图，节点A和节点D是没有关联的，但是通过带权重的采样，能够有效的挖掘出节点A和节点D的关系。

该方法通过聚类算法切割网络，降低网络规模，优化网络结构，而且提高了风险识别的准确度，精准定位欺诈用户及社团。

本发明实施例还提供一种欺诈用户识别装置，该欺诈用户识别装置用于执行前述欺诈用户识别方法的任一实施例。具体地，请参阅图5，图5是本发明实施例提供的欺诈用户识别装置的示意性框图。该欺诈用户识别装置100可以配置于管理服务器中。

如图6所示，欺诈用户识别装置100包括节点清洗单元110、子图划分单元120、聚类单元130、标签传播单元140、欺诈社团识别单元150。

节点清洗单元110，用于将所获取的与理赔数据对应的节点进行数据清洗，得到清洗后节点。

在一实施例中，如图7所示，节点清洗单元110包括：

高频节点清洗单元111，用于判断理赔数据对应的节点中是否存在频次超过预设的频次阈值的高频节点，若赔数据对应的节点中存在频次超过所述频次阈值的高频节点，将所述高频节点进行删除，得到高频清理后的节点；

超时节点清理单元112，用于判断高频清理后的节点中是否存在数据产生时间超出预设的时间段区间的节点，若高频清理后的节点中存在数据产生时间超出所述时间段区间的节点，将数据产生时间超出所述时间段区间的节点进行删除，得到清洗后节点。

子图划分单元120，用于通过谱聚类将所述清洗后节点并行划分为多个子图。

在一实施例中，如图8所示，子图划分单元120包括：

初始录入单元121，用于获取所输入的相似度矩阵和目标聚类数目；

相似矩阵构建单元122，用于根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；

拉普拉斯矩阵构建单元123，用于根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

目标特征向量集合获取单元124，用于获取所述拉普拉斯矩阵的多个特征值中排名位于预设排名阈值之前的特征值所对应的特征向量，以获取目标特征向量集合；

目标向量矩阵获取单元125，用于将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

矩阵聚类单元126，用于通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团。

聚类单元130，用于将多个子图分别进行聚类，得到包括多个聚类簇的网络社团。

标签传播单元140，用于根据在所述网络社团中初始设置的节点标签，由标签传播获取所述网络社团中高风险用户标签所对应的目标节点；其中，在所述网络社团中初始设置的节点标签中至少包括一个高风险用户标签。

在一实施例中，如图9所示，所述标签传播单元140，包括：

标签传输单元141，用于将所述网络社团中每一节点的节点标签传播至与该节点有边相连的接收节点；

迭代执行单元142，用于迭代执行根据所述接收节点接收到的各个节点标签，以所接收到的各个节点标签中频次最高的节点标签为所述接收节点赋予新的标签的步骤，直至满足预设的标签传播结束条件为止；

目标节点获取单元143，用于获取所述网络社团中高风险用户标签所对应的目标节点。

在本实施例中，标签传播算法的过程入下：

1)初始时，给每个节点一个唯一的标签；

3)反复执行步2)，直到每个节点的标签都不再发生变化为止。

欺诈社团识别单元150，用于若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识。

在一实施例中，如图10所示，欺诈用户识别装置100还包括：

目标特征向量获取单元1501，用于通过带权重的采样对所述目标节点对应的社团进行采样，得到与目标节点对应的目标特征向量；

社团特征向量获取单元1502，用于通过带权重的采样对所述网络社团中每一社团进行采样，得到与每一社团对应的特征向量。

该装置通过聚类算法切割网络，降低网络规模，优化网络结构，而且提高了风险识别的准确度，精准定位欺诈用户及社团。

上述欺诈用户识别装置可以实现为计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。该计算机设备500管理是服务器，管理是服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图11，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行欺诈用户识别方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行欺诈用户识别方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：将所获取的与理赔数据对应的节点进行数据清洗，得到清洗后节点；通过谱聚类将所述清洗后节点并行划分为多个子图；将多个子图分别进行聚类，得到包括多个聚类簇的网络社团；根据在所述网络社团中初始设置的节点标签，由标签传播获取所述网络社团中高风险用户标签所对应的目标节点；其中，在所述网络社团中初始设置的节点标签中至少包括一个高风险用户标签；以及若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识。

在一实施例中，处理器502在执行所述将所获取的与理赔数据对应的节点进行数据清洗，得到清洗后节点的步骤时，执行如下操作：判断理赔数据对应的节点中是否存在频次超过预设的频次阈值的高频节点，若赔数据对应的节点中存在频次超过所述频次阈值的高频节点，将所述高频节点进行删除，得到高频清理后的节点；判断高频清理后的节点中是否存在数据产生时间超出预设的时间段区间的节点，若高频清理后的节点中存在数据产生时间超出所述时间段区间的节点，将数据产生时间超出所述时间段区间的节点进行删除，得到清洗后节点。

在一实施例中，处理器502在执行所述通过谱聚类将所述清洗后节点并行划分为多个子图的步骤时，执行如下操作：获取所输入的相似度矩阵和目标聚类数目；根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；获取所述拉普拉斯矩阵的多个特征值中排名位于预设排名阈值之前的特征值所对应的特征向量，以获取目标特征向量集合；将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团。

在一实施例中，处理器502在执行所述将多个子图分别进行聚类，得到包括多个聚类簇的网络社团的步骤时，执行如下操作：通过社团检测将与多个子图对应的初始理赔社交网络拓扑图进行聚类，得到网络社团。

在一实施例中，处理器502在执行所述由标签传播获取所述网络社团中高风险用户标签所对应的目标节点的步骤时，执行如下操作：将所述网络社团中每一节点的节点标签传播至与该节点有边相连的接收节点；迭代执行根据所述接收节点接收到的各个节点标签，以所接收到的各个节点标签中频次最高的节点标签为所述接收节点赋予新的标签的步骤，直至满足预设的标签传播结束条件为止；获取所述网络社团中高风险用户标签所对应的目标节点。

在一实施例中，处理器502在执行所述若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识的步骤之前，还执行如下操作：通过带权重的采样对所述目标节点对应的社团进行采样，得到与目标节点对应的目标特征向量；通过带权重的采样对所述网络社团中每一社团进行采样，得到与每一社团对应的特征向量。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：将所获取的与理赔数据对应的节点进行数据清洗，得到清洗后节点；通过谱聚类将所述清洗后节点并行划分为多个子图；将多个子图分别进行聚类，得到包括多个聚类簇的网络社团；根据在所述网络社团中初始设置的节点标签，由标签传播获取所述网络社团中高风险用户标签所对应的目标节点；其中，在所述网络社团中初始设置的节点标签中至少包括一个高风险用户标签；以及若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识。

在一实施例中，所述将所获取的与理赔数据对应的节点进行数据清洗，得到清洗后节点，包括：判断理赔数据对应的节点中是否存在频次超过预设的频次阈值的高频节点，若赔数据对应的节点中存在频次超过所述频次阈值的高频节点，将所述高频节点进行删除，得到高频清理后的节点；判断高频清理后的节点中是否存在数据产生时间超出预设的时间段区间的节点，若高频清理后的节点中存在数据产生时间超出所述时间段区间的节点，将数据产生时间超出所述时间段区间的节点进行删除，得到清洗后节点。

在一实施例中，所述通过谱聚类将所述清洗后节点并行划分为多个子图，包括：获取所输入的相似度矩阵和目标聚类数目；根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；获取所述拉普拉斯矩阵的多个特征值中排名位于预设排名阈值之前的特征值所对应的特征向量，以获取目标特征向量集合；将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团。

在一实施例中，所述将多个子图分别进行聚类，得到包括多个聚类簇的网络社团，包括：通过社团检测将与多个子图对应的初始理赔社交网络拓扑图进行聚类，得到网络社团。

在一实施例中，所述由标签传播获取所述网络社团中高风险用户标签所对应的目标节点，包括：将所述网络社团中每一节点的节点标签传播至与该节点有边相连的接收节点；迭代执行根据所述接收节点接收到的各个节点标签，以所接收到的各个节点标签中频次最高的节点标签为所述接收节点赋予新的标签的步骤，直至满足预设的标签传播结束条件为止；获取所述网络社团中高风险用户标签所对应的目标节点。

在一实施例中，所述若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识之前，还包括：通过带权重的采样对所述目标节点对应的社团进行采样，得到与目标节点对应的目标特征向量；通过带权重的采样对所述网络社团中每一社团进行采样，得到与每一社团对应的特征向量。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种欺诈用户识别方法，其特征在于，包括：

通过谱聚类将所述清洗后节点并行划分为多个子图；

2.根据权利要求1所述的欺诈用户识别方法，其特征在于，所述将所获取的与理赔数据对应的节点进行数据清洗，得到清洗后节点，包括：

判断理赔数据对应的节点中是否存在频次超过预设的频次阈值的高频节点，若赔数据对应的节点中存在频次超过所述频次阈值的高频节点，将所述高频节点进行删除，得到高频清理后的节点；

判断高频清理后的节点中是否存在数据产生时间超出预设的时间段区间的节点，若高频清理后的节点中存在数据产生时间超出所述时间段区间的节点，将数据产生时间超出所述时间段区间的节点进行删除，得到清洗后节点。

3.根据权利要求1所述的欺诈用户识别方法，其特征在于，所述通过谱聚类将所述清洗后节点并行划分为多个子图，包括：

获取所输入的相似度矩阵和目标聚类数目；

根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；

根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

获取所述拉普拉斯矩阵的多个特征值中排名位于预设排名阈值之前的特征值所对应的特征向量，以获取目标特征向量集合；

将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团。

4.根据权利要求1所述的欺诈用户识别方法，其特征在于，所述将多个子图分别进行聚类，得到包括多个聚类簇的网络社团，包括：

通过社团检测将与多个子图对应的初始理赔社交网络拓扑图进行聚类，得到网络社团。

5.根据权利要求1所述的欺诈用户识别方法，其特征在于，所述由标签传播获取所述网络社团中高风险用户标签所对应的目标节点，包括：

将所述网络社团中每一节点的节点标签传播至与该节点有边相连的接收节点；

迭代执行根据所述接收节点接收到的各个节点标签，以所接收到的各个节点标签中频次最高的节点标签为所述接收节点赋予新的标签的步骤，直至满足预设的标签传播结束条件为止；

获取所述网络社团中高风险用户标签所对应的目标节点。

6.根据权利要求1所述的欺诈用户识别方法，其特征在于，所述若所述网络社团的特征向量中存在与所述目标节点对应的目标特征向量相同的特征向量，获取对应的网络社团并进行欺诈社团的标识之前，还包括：

通过带权重的采样对所述目标节点对应的社团进行采样，得到与目标节点对应的目标特征向量；

通过带权重的采样对所述网络社团中每一社团进行采样，得到与每一社团对应的特征向量。

7.一种欺诈用户识别装置，其特征在于，包括：

8.根据权利要求7所述的欺诈用户识别装置，其特征在于，所述标签传播单元，包括：

标签传输单元，用于将所述网络社团中每一节点的节点标签传播至与该节点有边相连的接收节点；

迭代执行单元，用于迭代执行根据所述接收节点接收到的各个节点标签，以所接收到的各个节点标签中频次最高的节点标签为所述接收节点赋予新的标签的步骤，直至满足预设的标签传播结束条件为止；

目标节点获取单元，用于获取所述网络社团中高风险用户标签所对应的目标节点。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的欺诈用户识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的欺诈用户识别方法。