WO2020192184A1

WO2020192184A1 - 基于图模型检测团伙欺诈

Info

Publication number: WO2020192184A1
Application number: PCT/CN2019/124807
Authority: WO
Inventors: 黄剑飞; 陈振
Original assignee: 北京三快在线科技有限公司
Priority date: 2019-03-27
Filing date: 2019-12-12
Publication date: 2020-10-01
Also published as: CN110070364A

Abstract

一种基于图模型检测团伙欺诈的方法和装置、存储介质。所述基于图模型检测团伙欺诈的方法包括：获取多个用户的数据和历史嫌疑用户数据（S11）；根据获取的数据，生成用户关联图（S12），其中，所述用户关联图的节点为根据数据特征生成的用户关联子图，所述用户关联图的边权重包括节点的相似度；基于所述用户关联图，利用社区划分算法生成多个待判定团伙集合（S13）；对于每个待判定团伙集合，计算所述待判定团伙集合的嫌疑度（S14）；对于每个待判定团伙集合，根据所述嫌疑度的计算结果，输出所述待判定团伙的判定结果（S15）。

Description

基于图模型检测团伙欺诈

技术领域

本公开涉及网络技术领域，具体地，涉及一种基于图模型检测团伙欺诈的方法和装置、存储介质。

背景技术

金融领域对交易风险控制的要求较高，以保证资金交易的安全性。在实际应用中，可能会存在一些欺诈行为。比如，欺诈者诱骗很多的普通消费者向其转账，但是却不向这些消费者返还相应的回报，以此进行牟利。为了识别上述的欺诈行为，可以将高风险的欺诈者识别出来，以采取措施尽量避免消费者的资金损失。在一个例子中，可以利用交易模型来识别欺诈者，比如，将某个支付账户定性为欺诈者账户，将欺诈者账户进行的资金交易定性为风险交易。

发明内容

本公开提供一种基于图模型检测团伙欺诈的方法和装置、存储介质，以解决相关技术中难以识别团伙欺诈的技术问题。

为实现上述目的，本公开实施例的第一方面，提供一种基于图模型检测团伙欺诈的方法，所述方法包括：

获取多个用户的数据和历史嫌疑用户数据；根据获取的数据，生成用户关联图，其中，所述用户关联图的节点为根据数据特征生成的用户关联子图，所述用户关联图的边权重包括所述节点的相似度；基于所述用户关联图，利用社区划分算法生成多个待判定团伙集合；对于每个待判定团伙集合，计算所述待判定团伙集合的嫌疑度；对于每个待判定团伙集合，根据所述嫌疑度的计算结果，输出所述待判定团伙的判定结果。

可选地，生成所述用户关联图，包括：选取所述多个用户的所述数据和所述历史嫌疑用户数据中的特征组合和组数；基于所述特征组合和所述组数，利用特征一致性相等或模糊性相等方式生成用户关联子图；以所述用户关联子图为节点拼接生成用户无权重关联图；以所述用户无权重关联图中节点的相似度作为边权重，生成用户相似权重关联图作为所述用户关联图。

可选地，利用所述社区划分算法生成所述多个待判定团伙集合，包括：基于所述用户关联图，利用所述社区划分算法生成n个团伙集合，n为正整数；对于每个所述团伙集合，根据所述团伙集合的用户数量的大小进行调整，以得到多个新的团伙集合；将所述多个新的团伙集合确定为所述多个待判定团伙集合。

可选地，根据所述团伙集合的所述用户数量的大小进行调整，包括：对用户数量大于极大阈值的团伙集合，调用所述社区划分算法进行划分，以使所述新的团伙集合中的用户数量小于或等于所述极大阈值；若用户数量小于极小阈值的团伙集合的数量大于预设阈值，调用层次聚类算法对所述用户数量小于极小阈值的所述团伙集合进行凝聚。

可选地，所述社区划分算法包括图标签传播算法或GN算法；所述层次聚类算法包括凝聚算法或***算法。

可选地，计算所述待判定团伙集合的所述嫌疑度，包括：从所述数据特征中选取目标数据特征；根据所述目标数据特征在所述待判定团伙集合中的占比，计算所述待判定团伙集合的所述嫌疑度。

可选地，计算所述待判定团伙集合的所述嫌疑度，包括：抽取每个所述待判定团伙集合的团伙特征；将所述团伙特征输入训练好的回归模型中，以使所述回归模型输出所述待判定团伙集合的所述嫌疑度。

可选地，计算所述待判定团伙集合的所述嫌疑度得分，包括：从所述数据特征中选取目标数据特征；根据所述目标数据特征在所述待判定团伙集合中的占比，计算所述待判定团伙集合的第一嫌疑度得分；抽取每个所述待判定团伙集合的团伙特征；将所述团伙特征输入训练好的回归模型中，以使所述回归模型输出所述待判定团伙集合的第二嫌疑度得分；根据所述第一嫌疑度得分以及所述第二嫌疑度得分，计算所述待判定团伙集合的综合嫌疑度得分。

本公开实施例的第二方面，提供一种基于图模型检测团伙欺诈的装置，所述装置包括：

获取模块，用于获取多个用户的数据和历史嫌疑用户数据；第一生成模块，用于根据获取的数据，生成用户关联图，其中，所述用户关联图的节点为根据所述数据的特征生成的用户关联子图，所述用户关联图的边权重包括所述节点的相似度；第二生成模块，用于基于所述用户关联图，利用社区划分算法生成多个待判定团伙集合；计算模块，用于对于每个待判定团伙集合，计算所述待判定团伙集合的嫌疑度；输出模块，用于对于每个待判定团伙集合，根据所述嫌疑度的计算结果，输出所述待判定团伙的判定结果。

可选地，所述第一生成模块包括：第一选取子模块，用于选取所述多个用户的数据和所述历史嫌疑用户数据中的特征组合和组数；第一生成子模块，用于基于所述特征组合和所述组数，利用特征一致性相等或模糊性相等方式生成用户关联子图，并以所述用户关联子图为节点拼接生成用户无权重关联图；第二生成子模块，用于以所述用户无权重关联图中节点的相似度作为边权重，生成用户相似权重关联图作为所述用户关联图。

可选地，所述第二生成模块包括：第三生成子模块，用于基于所述用户关联图，利用所述社区划分算法生成n个团伙集合，n为正整数；调整子模块，用于对于每个所述团伙集合，根据所述团伙集合的用户数量的大小进行调整，以得到多个新的团伙集合；第三确认子模块，用于将所述多个新的团伙集合确定为所述多个待判定团伙集合。

可选地，所述调整子模块还包括：划分单元，用于对用户数量大于极大阈值的团伙集合，调用所述社区划分算法进行划分，以使所述新的团伙集合中的用户数量小于或等于所述极大阈值；凝聚模块，用于若用户数量小于极小阈值的团伙集合的数量大于预设阈值，调用层次聚类算法对所述用户数量小于所述极小阈值的所述团伙集合进行凝聚。

可选地，所述计算模块包括：第二选取子模块，用于从所述数据特征中选取目标数据特征；第一计算子模块，用于根据所述目标数据特征在所述待判定团伙集合中的占比，计算所述待判定团伙集合的嫌疑度。

可选地，所述计算模块包括：第一抽取子模块，用于抽取每个所述待判定团伙集合的团伙特征；第一输入子模块，用于将所述团伙特征输入训练好的回归模型中，以使所述回归模型输出所述待判定团伙集合的嫌疑度。

可选地，所述计算模块包括：第三选取子模块，用于从所述数据特征中选取目标数据特征；第二计算子模块，用于根据所述目标数据特征在所述待判定团伙集合中的占比，计算所述待判定团伙集合的第一嫌疑度得分；第二抽取子模块，用于抽取每个所述待判定团伙集合的团伙特征；第二输入子模块，用于将所述团伙特征输入训练好的回归模型中，以使所述回归模型输出所述待判定团伙集合的第二嫌疑度得分；第三计算子模块，用于根据所述第一嫌疑度得分以及所述第二嫌疑度得分，计算所述待判定团伙集合的综合嫌疑度得分。

本公开实施例的第三方面，提供一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，促使所述处理器实现上述第一方面中任一项所述方法的步骤。

本公开实施例的第四方面，提供一种基于图模型检测团伙欺诈的装置，包括：存储器，其上存储有计算机程序；以及处理器，用于执行所述存储器中的所述计算机程序，以实现上述第一方面中任一项所述方法的步骤。

采用上述技术方案，至少能够达到如下技术效果：本公开根据获取的用户数据，生成用户关联图，并利用社区划分算法生成待判定团伙集合，通过计算待判定团伙集合的嫌疑度，即可以分辨出该待判定团伙集合是否属于欺诈团伙，提高了识别团伙欺诈的准确性。另外，本公开还使用社区划分算法和层次聚类算法，解决了团伙划分结果中团伙规模过大、较小的团伙规模数量很多的问题。并且，本公开通过相似索引的手段来提升图模型数据处理能力，同时利用子图组装、相似边权重可配置地方式生成用户相似权重关联图，这种方法更加灵活可并行，可以进一步提升欺诈场景下的大规模数据处理能力。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。

图1是本公开一示例性实施例示出的一种基于图模型检测团伙欺诈的方法流程图。

图2是根据一示例性实施例示出的图1中步骤S12的具体流程图。

图3是根据一示例性实施例示出的图1中步骤S13的具体流程图。

图4是根据一示例性实施例示出的图1中步骤S14的具体流程图。

图5是根据另一示例性实施例示出的图1中步骤S14的具体流程图。

图6是根据再一示例性实施例示出的图1中步骤S14的具体流程图。

图7是本公开一示例性实施例示出的一种基于图模型检测团伙欺诈的装置框图。

图8是本公开一示例性实施例示出的一种基于图模型检测团伙欺诈的装置的第一生成模块框图。

图9是本公开一示例性实施例示出的一种基于图模型检测团伙欺诈的装置的第二生成模块框图。

图10是本公开一示例性实施例示出的一种基于图模型检测团伙欺诈的装置的调整子模块框图。

图11是本公开一示例性实施例示出的一种基于图模型检测团伙欺诈的装置的计算模块框图。

图12是本公开另一示例性实施例示出的一种基于图模型检测团伙欺诈的装置的计算模块框图。

图13是本公开再一示例性实施例示出的一种基于图模型检测团伙欺诈的装置的计算模块框图。

图14是本公开一示例性实施例示出的一种基于图模型检测团伙欺诈的硬件装置框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

为了应对无处不在的攻击，欺诈检测在当下显得至关重要。针对金融欺诈检测可以采用如下几种检测方法。

在一个例子中，可以使用基于黑白名单、信誉库查找的检测方法。该方法需要不定期维护添加新的黑白名单或信誉库内容，这种维护方法成本比较高，如第三方有偿数据购买，且方法响应和覆盖性有限。

在另一个例子中，可以使用基于规则引擎的检测方法。线上金融欺诈手段多变，当欺诈者改变欺诈手段后，基于规则引擎的检测方法往往就会失效，需要投入大量运营和财力资源去更新规则引擎。

在又一个例子中，可以使用基于有监督机器学习的检测方法。有监督机器学习是欺诈检测中应用最广泛的学习方法。机器学习模型通过会运用如决策树、随机森林、支持向量机SVM(Support Vector Machine)和朴素贝叶斯算法等，进行数百个变量(也即高维空间)的复杂计算，准确锁定欺诈行为。但有监督机器学习方法依赖于标注数据，标注数据在金融欺诈场景获取难度比较大、正负样本失衡，其中，正样本只有当欺诈发生后打标才有，在金融欺诈场景欺诈手段多变且样本较少会导致打标注较难。若缺少足够欺诈标注数据，有监督机器学习的能力有限。

在再一个例子中，可以使用基于无监督学习的检测方法。无监督学习是目前欺诈检测应用探索的一个分支，主要是基于聚类和图方法进行研究，当前无监督技术成熟度较低，难度比较大，没有现成的解决方案可以有效的将无监督机器学习用于欺诈检测。主要难度在于如何解决大规模数据处理、嫌疑判定量化等。

图1是本公开一示例性实施例示出的一种基于图模型检测团伙欺诈的方法流程图，以提高识别团伙欺诈的识别水平。如图1所示，该基于图模型检测团伙欺诈包括以下步骤。

S11，获取多个用户的数据和历史嫌疑用户数据。

S12，根据获取的数据，生成用户关联图，其中，所述用户关联图的节点为根据数据特征生成的用户关联子图，所述用户关联图的边权重包括节点的相似度。

S13，基于所述用户关联图，利用社区划分算法生成多个待判定团伙集合。

S14，对于每个待判定团伙集合，计算所述待判定团伙集合的嫌疑度。

S15，对于每个待判定团伙集合，根据所述嫌疑度的计算结果，输出所述待判定团伙的判定结果。

在步骤S11中，所述用户数据可以是用户申请的各种客户端账号的数据，比如申请美团账号时的用户数据、申请支付宝账号时的用户数据、申请微信账号时的用户数据等，所述账号可以关联用户申请的银行***，比如储蓄卡或者***。所述用户数据也可以是利用支付平台进行支付的用户对应的数据，比如利用美团进行支付的用户数据、利用支付宝进行支付的用户数据、利用微信进行支付的用户数据等等。更进一步的，所述用户数据还包括用户的基础数据。用户的基础数据包括申请人填写申请书资料、人行报告查询信息、申请人授权的移动端行为数据、电商数据、以及社交数据。所述历史嫌疑用户数据可以包括黑白名单信息，黑白名单可以是网络中的任何实体类型，比如账户、地址、电话号码等。黑名单包括行内积累的欺诈、严重逾期、或者交换黑名单，白名单包括vip客户或者人工标记无风险的电话、地址等。

在获取多个用户的数据和历史嫌疑用户数据后，执行步骤S12，根据获取的数据，生成用户关联图，其中，所述用户关联图的节点为根据数据特征生成的用户关联子图，所述用户关联图的边权重包括节点的相似度。

参考图2，根据获取的数据，生成用户关联图，可以包括以下步骤。

S121，选取所述多个用户的数据和所述历史嫌疑用户数据中的特征组合和组数。

S122，基于特征组合和组数，利用特征一致性相等或模糊性相等方式生成用户关联子图，并以所述用户关联子图为节点拼接生成用户无权重关联图。

S123，以所述用户无权重关联图中节点的相似度作为边权重，生成用户相似权重关联图作为所述用户关联图。

在步骤S121中，所述数据中的特征可以是设备ID、IP地址、IMSI(国际移动用户识别码)、IMEI(国际移动设备识别码)、地理信息、登录时间等特征。所述特征组合是从所述数据中的特征中选出至少一个特征作为一组，所述组数至少也是一组。

选取特征组合和组数后，利用特征一致性相等或模糊性相等方式，将不同的特征组合关联起来形成用户关联子图。比如，不同账号登录的设备ID相同，则可以利用特征一致性相等方式，将该两个账号关联起来；不同账号登录的IP地址部分相同，即同一个局域网下登录过不同账号，则可以利用特征模糊性相等方式将该两个账号关联起来。生成用户关联子图后，以所述用户关联子图为节点拼接生成用户无权重关联图。接着，以所述用户无权重关联图中各个节点的相似度作为边权重，生成用户相似权重关联图，相似度可以使用相似度衡量函数来计算。例如，可以用杰卡德距离(Jaccard similarity coefficient)来计算相似度。可以将两个节点之间的相似度大小作为边权重，基于边权重大小可选择剪枝优化生成用户相似权重关联图。其中，所述剪枝优化，其核心是设置一个边权重阈值，若两个节点之间的关联边的权重(相似度)小于边权重阈值，可以剪掉该关联边。

生成用户关联图后，执行步骤S13，基于用户关联图，利用社区划分算法生成多个待判定团伙集合。请参照图3，利用社区划分算法生成多个待判定团伙集合，包括以下步骤。

S131，基于所述用户关联图，利用社区划分算法生成n个团伙集合，n为正整数。其中，所述社区划分算法包括图标签传播算法或GN(Girvan-Newman)算法。

S132，对于每个所述团伙，根据其用户数量的大小进行调整，以得到多个新的团伙集合。

S133，将所述多个新的团伙集合确定为多个待判定团伙集合。

对于步骤S132，调整每个团伙集合的用户数量的大小，以使得每个所述团伙集合中用户数量小于或等于极大阈值，并且用户数量小于极小阈值的团伙集合的数量小于或等于预设阈值。其中，所述极大阈值大于所述极小阈值。

当某个所述团伙集合中用户数量(比如不同的账号数量)大于极大阈值时，则继续使用社区划分算法进行划分以使所述团伙集合中用户数量小于或等于所述极大阈值。比如，假设极大阈值为20，当一个团伙集合中不同的账号数量超过20个时，继续使用社区划分算法进行划分以使该团伙集合中用户数量小于或等于20个。若用户数量小于极小阈值的团伙集合的数量大于所述预设阈值，则调用层次聚类算法对用户数量小于极小阈值的团伙集合进行凝聚，这里层次聚类可选层次凝聚法或***法。比如，假设极小阈值为3，预设阈值为15，若不同的账号数量小于3个团伙集合数超过15个，则调用层次聚类算法对用户数量小于3的团伙集合进行凝聚，使得不同的账号数量小于3个团伙集合数不超过15个。

仍以极大阈值为20、极小阈值为3、预设阈值为15为例进行说明。经过步骤S131-132后，生成m个新的团伙集合，这m个新的团伙集合中，每个团伙集合的用户数量都小于或等于20。这m个新的团伙集合中，团伙集合的用户数量小于3的团伙集合不超过15个。将每个新的团伙集合作为一个待判定团伙集合，因此得到m个待判定团伙集合。

生成待判定团伙集合后，执行步骤S14，对于每个待判定团伙集合，计算所述待判定团伙集合的嫌疑度。嫌疑度的计算方式包括但不限于以下三种方式。

第一种计算方式，参考图4，计算所述待判定团伙集合的嫌疑度，包括以下步骤。

S141a，从所述数据特征中选取目标数据特征。

S142a，根据所述目标数据特征在所述待判定团伙集合中的占比，计算所述待判定团伙集合的嫌疑度。

目标数据特征是指核心要素特征。在一个实施例中，可以基于业务和场景，指定目标数据特征。目标数据特征可以是UUID(Universally Unique Identifier，通用唯一标识码)、IP地址、操作位置信息、操作时间节点信息、设备类型信息、***版本信息中的一项或多项。举例来说，对于判断虚假注册这种场景，核心要素可以是IP地址、设备类型和注册时间，那么对于一个待判定团伙集合来说，那么所述目标数据特征可以是IP地址、设备类型和注册时间中的一个或多个。

在另一个实施例中，简单起见，可以直接使用生成用户关联图中所有的特征字段为目标数据特征。

在再一个实施例中，可以计算某个数据特征在整体数据中的占比，以及该数据特征在待判定团伙集合中的占比。其中，整体数据是指所有用户的数据。若这两个占比之间的差异超过目标阈值，则将该数据特征作为目标数据特征。

举例来讲，以某客户端的账号数量100个为例，其中使用虚拟手机号注册账号的数量为8个，则使用虚拟手机号注册的账号在账号中的分布比例为8％。生成的某个待判定团伙集合中，账号数量是10个，其中有7个账号是使用虚拟手机号注册的，分布比例为70％，70％对比8％，差异性很大。则以虚拟手机号注册的账号为目标数据特征，所述目标数据特征在所述待判定团伙集合中的占比为0.7，可以将该占比作为所述待判定团伙集合的嫌疑度。

或者，以某客户端账号数量100个为例，其中历史嫌疑用户注册账号的数量为8个，则历史嫌疑用户注册的账号在账号中的分布比例为8％。生成的某个待判定团伙集合中，账号数量是10个，其中有8个账号是历史嫌疑用户注册的，分布比例为80％，80％对比8％，差异性很大。则以历史嫌疑用户注册的账号为目标数据特征，所述目标数据特征在所述待判定团伙集合中的占比为0.8，可以将该占比作为所述待判定团伙集合的嫌疑度。

第二种计算方式，参考图5，计算所述待判定团伙集合的嫌疑度，可以包括以下步骤。

S141b，抽取每个所述待判定团伙集合的团伙特征。其中，所述团伙特征至少包括历史嫌疑用户占比特征，还可以包括团伙规模、共享设备账号数量占比等特征。

S142b，将所述团伙特征输入训练好的回归模型中以使所述回归模型输出所述待判定团伙集合的嫌疑度。其中，所述回归模型可以是GBDT(Gradient Boosting Decision Tree；梯度提升决策树)模型。

第三种计算方式，参考图6，计算所述待判定团伙集合的嫌疑度，可以包括以下步骤。

S141c，从所述数据特征中选取目标数据特征。

S142c，根据所述目标数据特征在所述待判定团伙集合中的占比，计算所述待判定团伙集合的第一嫌疑度得分。

S143c，抽取每个所述待判定团伙集合的团伙特征。

S144c，将所述团伙特征输入训练好的回归模型中以使所述回归模型输出所述待判定团伙集合的第二嫌疑度得分。

S145c，根据所述第一嫌疑度得分以及所述第二嫌疑度得分，计算所述待判定团伙集合的综合嫌疑度得分，作为待判定团伙集合的嫌疑度。

接着根据计算结果，输出所述待判定团伙的判定结果。比如，当综合嫌疑度得分超过预设值时，则可以判定所述待判定团伙为欺诈团伙。

举例来讲，某个待判定团伙的第一嫌疑度得分为0.7，第二嫌疑度得分0.8，则所述待判定团伙集合的综合嫌疑度得分可以取两个得分的平均值0.75，超过预设值0.6，则该待判定团伙为欺诈团伙。

本公开根据获取的用户数据和历史嫌疑用户数据，生成用户关联图，并利用社区划分算法生成多个待判定团伙集合，对于每个待判定团伙集合，通过计算待判定团伙集合的嫌疑度，即可以分辨出该待判定团伙集合是否属于欺诈团伙，提供了识别团伙欺诈的准确性。另外，本公开还使用社区划分算法和层次聚类算法，解决了团伙划分结果中团伙规模过大、较小的团伙规模数量很多的问题。并且，本公开通过相似索引的手段来提升图模型数据处理能力，同时利用子图组装、相似边权重可配置地方式生成用户相似权重关联图作为用户关联图，这种方法更加灵活，可以进一步提升欺诈场景下的大规模数据处理能力。

值得说明的是，对于图1所示的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本公开所必须的。

图7是本公开一示例性实施例示出的一种基于图模型检测团伙欺诈的装置。如图7所示，所述基于图模型检测团伙欺诈的装置300包括以下模块。

获取模块310，用于获取多个用户的数据和历史嫌疑用户数据。

第一生成模块320，用于根据获取的数据，生成用户关联图，其中，所述用户关联图的节点为根据数据特征生成的用户关联子图，所述用户关联图的边权重包括节点的相似度。

第二生成模块330，用于基于所述用户关联图，利用社区划分算法生成多个待判定团伙集合。

计算模块340，用于对于每个待判定团伙集合，计算所述待判定团伙集合的嫌疑度；

输出模块350，用于对于每个待判定团伙集合，根据所述嫌疑度的计算结果，输出所述待判定团伙的判定结果。

可选地，如图8所示，所述第一生成模块320包括：第一选取子模块321，用于选取所述多个用户数据和所述历史嫌疑用户数据中的特征组合和组数；第一生成子模块322，用于基于所述特征组合和所述组数，利用特征一致性相等或模糊性相等方式生成用户关联子图，并以所述用户关联子图为节点拼接生成用户无权重关联图；第二生成子模块323，用于以所述用户无权重关联图中节点的相似度作为边权重生成用户相似权重关联图作为所述用户关联图。

可选地，如图9所示，所述第二生成模块330包括：第三生成子模块331，用于基于所述用户关联图，利用社区划分算法生成n个团伙集合，n为正整数；调整子模块332，用于对于每个所述团伙集合，根据所述团伙集合的用户数量的大小进行调整，以得到多个新的团伙集合；确认子模块333，用于将所述多个新的团伙集合确定为多个待判定团伙集合。

可选地，如图10所示，所述调整子模块332还包括：划分单元3321，用于对用户数量大于极大阈值的团伙集合，调用社区划分算法进行划分，以使所述新的团伙集合中用户数量小于或等于所述极大阈值；凝聚单元3322，用于若用户数量小于极小阈值的团伙集合的数量大于预设阈值，调用层次聚类算法对所述用户数量小于极小阈值的所述团伙集合进行凝聚。

可选地，如图11所示，所述计算模块340包括：第二选取子模块341a，用于从所述数据特征中选取目标数据特征；第一计算子模块342a，用于根据所述目标数据特征在所述待判定团伙集合中的占比，计算所述待判定团伙集合的嫌疑度。

可选地，如图12所示，所述计算模块340包括：第一抽取子模块341b，用于抽取每个所述待判定团伙集合的团伙特征；第一输入子模块342b，用于将所述团伙特征输入训练好的回归模型中以使所述回归模型输出所述待判定团伙集合的嫌疑度。

可选地，如图13所示，所述计算模块340包括：第三选取子模块341c，用于从所述数据特征中选取目标数据特征；第二计算子模块342c，用于根据所述目标数据特征在所述待判定团伙集合中的占比，计算所述待判定团伙集合的第一嫌疑度得分；第二抽取子模块343c，用于抽取每个所述待判定团伙集合的团伙特征；第二输入子模块344c，用于将所述团伙特征输入训练好的回归模型中以使所述回归模型输出所述待判定团伙集合的第二嫌疑度得分；第三计算子模块345c，用于根据所述第一嫌疑度得分以及所述第二嫌疑度得分，计算所述待判定团伙集合的综合嫌疑度得分。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，促使所述处理器实现上述任一项可选实施例的基于图模型检测团伙欺诈的方法步骤。

本公开还提供一种基于图模型检测团伙欺诈的装置，包括：存储器，其上存储有计算机程序；以及处理器，用于执行所述存储器中的所述计算机程序，以实现上述任一项可选实施例的基于图模型检测团伙欺诈的方法步骤。

图14是根据一示例性实施例示出的一种基于图模型检测团伙欺诈的装置400的框图。如图14所示，该装置400可以包括：处理器401，存储器402，多媒体组件403，输入/输出(Input/Output)接口404，以及通信组件405。

其中，处理器401用于控制该装置400的整体操作，以完成上述的基于图模型检测团伙欺诈的方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该装置400的操作，这些数据例如可以包括用于在该装置400上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402 或通过通信组件405发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该装置400与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件405可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，装置400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的基于图模型检测团伙欺诈的方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器402，上述程序指令可由装置400的处理器401执行以完成上述的基于图模型检测团伙欺诈的方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

一种基于图模型检测团伙欺诈的方法，其特征在于，所述方法包括：

获取多个用户的数据和历史嫌疑用户数据；

根据获取的数据，生成用户关联图，其中，所述用户关联图的节点为根据数据特征生成的用户关联子图，所述用户关联图的边权重包括所述节点的相似度；

基于所述用户关联图，利用社区划分算法生成多个待判定团伙集合；

对于每个待判定团伙集合，计算所述待判定团伙集合的嫌疑度；

对于每个待判定团伙集合，根据所述嫌疑度的计算结果，输出所述待判定团伙的判定结果。
根据权利要求1所述的方法，其特征在于，生成所述用户关联图，包括：

选取所述多个用户的所述数据和所述历史嫌疑用户数据中的特征组合和组数；

基于所述特征组合和所述组数，利用特征一致性相等或模糊性相等方式生成用户关联子图；

以所述用户关联子图为节点拼接生成用户无权重关联图；

以所述用户无权重关联图中节点的相似度作为边权重，生成用户相似权重关联图作为所述用户关联图。
根据权利要求1所述的方法，其特征在于，利用所述社区划分算法生成所述多个待判定团伙集合，包括：

基于所述用户关联图，利用所述社区划分算法生成n个团伙集合，n为正整数；

对于每个所述团伙集合，根据所述团伙集合的用户数量的大小进行调整，以得到多个新的团伙集合；

将所述多个新的团伙集合确定为所述多个待判定团伙集合。
根据权利要求3所述的方法，其特征在于，根据所述团伙集合的所述用户数量的大小进行调整，包括：

对用户数量大于极大阈值的团伙集合，调用所述社区划分算法进行划分，以使所述新的团伙集合中的用户数量小于或等于所述极大阈值；

若用户数量小于极小阈值的团伙集合的数量大于预设阈值，调用层次聚类算法对所述用户数量小于极小阈值的所述团伙集合进行凝聚。
根据权利要求4所述的方法，其特征在于，

所述社区划分算法包括图标签传播算法或GN算法；

所述层次聚类算法包括凝聚算法或***算法。
根据权利要求1所述的方法，其特征在于，计算所述待判定团伙集合的所述嫌疑度，包括：

从所述数据特征中选取目标数据特征；

根据所述目标数据特征在所述待判定团伙集合中的占比，计算所述待判定团伙集合的所述嫌疑度。
根据权利要求1所述的方法，其特征在于，计算所述待判定团伙集合的所述嫌疑度，包括：

抽取每个所述待判定团伙集合的团伙特征；

将所述团伙特征输入训练好的回归模型中，以使所述回归模型输出所述待判定团伙集合的所述嫌疑度。
一种基于图模型检测团伙欺诈的装置，其特征在于，所述装置包括：

获取模块，用于获取多个用户的数据和历史嫌疑用户数据；

第一生成模块，用于根据获取的数据，生成用户关联图，其中，所述用户关联图的节点为根据所述数据的特征生成的用户关联子图，所述用户关联图的边权重包括所述节点的相似度；

第二生成模块，用于基于所述用户关联图，利用社区划分算法生成多个待判定团伙集合；

计算模块，用于对于每个待判定团伙集合，计算所述待判定团伙集合的嫌疑度；

输出模块，用于对于每个待判定团伙集合，根据所述嫌疑度的计算结果，输出所述待判定团伙的判定结果。
一种非易失性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，促使所述处理器实现权利要求1至7中任一项所述方法的步骤。
一种基于图模型检测团伙欺诈的装置，其特征在于，包括：

存储器，其上存储有计算机程序；以及

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1至7中任一项所述方法的步骤。