CN110413707A

CN110413707A - 互联网中欺诈团伙关系的挖掘与排查方法及其***

Info

Publication number: CN110413707A
Application number: CN201910660468.6A
Authority: CN
Inventors: 张韶峰; 冯鑫; 张李军; 王翰墨
Original assignee: Bairong Yunchuang Technology Co Ltd
Current assignee: Bairong Yunchuang Technology Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-11-05

Abstract

互联网中欺诈团伙关系的挖掘与排查方法，获取互联网金融数据，采用知识图谱的构建原理构建金融关系图谱，在构建的金融关系图谱基础上，通过聚类算法挖掘出具有相似行为的群体，通过对群体的构成进行分析，实现对欺诈团伙的识别，完成对欺骗团伙关系的挖掘与排查。本发明对海量多维的大数据进行深层次的挖掘，从申请人无法更改、难以避免的操作行为信息中检测出潜在的欺诈团伙。同时，通过对检测出的欺诈团伙的组成进行分析，给出欺诈团伙潜在的风险等级等信息。这些信息可以直接作为风控规则，也可以作为入模变量使用，还可以辅助审核人员进行人工核查，协助线上进行实时防控等。

Description

互联网中欺诈团伙关系的挖掘与排查方法及其***

技术领域

本发明属于网络技术领域，涉及互联网金融领域和数据挖掘技术，为一种互联网中欺诈团伙关系的挖掘与排查方法。

背景技术

近年来，互联网金融得到了快速发展，在促进普惠金融发展、提升金融服务质量和效率、满足多元化投融资需求等方面发挥了积极作用，展现出了很大的市场空间和发展潜力。互联网金融在为金融业发展注入活力的同时，也对我们的金融管理带来了新的挑战，其快速发展过程中也暴露出了一些问题和风险隐患。

如今，互联网欺诈已经变得非常专业化和产业化。就个人欺诈而言，伪造个人信息、隐瞒还款意愿、寻求助贷机构帮忙申请等行为已经对互金行业产生了不小的影响；而近些年发展起来的团伙欺诈，其危害更远胜于个人欺诈。这种团伙组织他们有专业的设备、专业的团队，有专人负责写方案，专人研究各机构风控漏洞，专人负责助贷申请，专人负责销赃，整个过程中的各环节分工明确，已经形成完整的产业链，给互联网金融行业造成了巨大的挑战和损失。

目前绝大多数互联网金融公司仍然将传统的金融风控方法作为公司的核心风控能力，主要是使用专家规则、评分卡这些具有较好解释性的方法。这些方式限制了通过技术发展带来的风控效果的提升，比如较复杂的机器学习模型、深度学习方法等，在专家规则及评分卡方式下，对风控效果的改善十分有限。因此基于传统的方法，提高风控能力需要依赖于数据维度和特征变量的增加，以丰富专家规则和评分卡模型的特征，但这肯定会导致规则和模型复杂度的大大增加。为了帮助提升风控能力，目前已有部分公司使用自身积累的数据构建了相关的知识图谱，用于发现某些存在潜在风险的关联关系并做出相关预警。但是这些图谱往往包含人、设备信息、地址信息、申请信息等各类实体，而不管是风控规则还是评分卡都是根据人的特征进行判断的，所以通过这些图谱关联出来的信息会比较冗杂，难以发掘出直接且明显的人与人之间的关联风险，需要反馈给专家进行再次筛选和评估后才能作为风控规则或者特征。但是通过这种方式往往难以得到较理想的结果，因为要从包含不同实体的纷繁复杂的关联关系中提取出有效规则和特征是很困难且难以保证它们的有效性的。

发明内容

本发明要解决的问题是，在互联网金融领域中，传统的风控技术难以提升效果，无法对团伙欺诈进行有效识别和防范。且当前互联网金融中的关系图谱难以提供人与人之间直接的关联关系，也无法提供有效的风控规则和特征。本发明提出一种在互联网金融场景下实体只包含人的关系图谱，通过对团伙规模、团伙风险等级、团伙组成特点的描述来提供有效的风控规则和特征，大大提升传统风控能力。

本发明的技术方案为：互联网中欺诈团伙关系的挖掘与排查方法，获取互联网金融数据，采用知识图谱的构建原理构建金融关系图谱，其中金融关系图片构建时以仅以人为实体，以人与人之间的关系为实体关系，以人的特征为实体属性，在构建的金融关系图谱基础上，通过聚类算法挖掘出具有相似行为的群体，通过对群体的构成进行分析，实现对欺诈团伙的识别，完成对欺骗团伙关系的挖掘与排查。

作为优选方式，实体关系的构建包括通过联系地址构建关系、通过联系人或直系亲属信息构建关系、通过设备信息构建关系、通过WIFI MAC地址构建关系和通过地理位置信息构建关系。

作为优选方式，在联系地址构建关系的过程中，对地址进行标准化和聚合，首先将地址信息按照统一格式标准化处理，具体为按照行政区域逐级划分，对地址批量标准化处理后，基于LCS最长公共子串对地址进行聚合，将写法不同实际相同的地址进行聚合；同样，对公司名称也用同样方式进行聚合。

进一步的，实体属性包括个人资料、个人智能设备的设备信息、以及金融机构存储的逾期客户名单、黑名单和个人征信数据，个人智能设备的设备信息通过软件开发工具包SDK进行采集，个人智能设备通过设备指纹技术与人建立关联关系。

进一步的，在构建的金融关系图谱基础上，根据已有诈骗个体的信息，通过聚类算法挖掘排查有相似行为的群体并标识出来，所述聚类算法包括关系推理、无监督聚类、社团发现算法、重叠社区检测算法BigClam、LPA标签传播算法和图嵌入。

进一步的，所述关系推理基于用户及其设备行为，首先通过对用户行为及用户的设备操作行为进行分析，得到行为模式，结合专家经验分析，总结推理出其中的异常行为以及这些行为后面潜在的趋同性，用于在金融关系图谱中识别出具有雷同行为的群体。

进一步的，对于挖掘出的群体，进行群体的构成分析来判断是否是欺诈团伙，具体为通过设定评估指标来对聚类所得的群体进行排查，判断当前群体是否为欺诈团伙。

作为优选方式，将设定的评估指标作为描述信息构建团伙欺诈模型，采用RMF模型的方式对聚类所得群体的团伙欺诈风险进行分数输出，设定分数阈值来对群体进行欺诈判断。

本发明还提供一种互联网中欺诈团伙关系的挖掘与排查***，包括数据库和服务器，服务器中存储有计算机程序，所述程序被执行时实现上述互联网中欺诈团伙关系的挖掘与排查的方法，数据库用于为服务器中的计算机程序提供数据调用。

本发明对海量多维的大数据进行深层次的挖掘，从申请人无法更改、难以避免的操作行为信息中检测出潜在的欺诈团伙。同时，通过对检测出的欺诈团伙的组成进行分析，给出欺诈团伙潜在的风险等级等信息。这些信息可以直接作为风控规则，也可以作为入模变量使用，还可以辅助审核人员进行人工核查，协助线上进行实时防控等。

附图说明

图1为金融关系图谱示例。

图2为社团发现算法示例。

图3位重叠社区检测算法示例。

图4为本发明群体聚类示例。

图5位本发明团伙欺诈挖掘***架构的实施例示意图。

具体实施方式

下面对本发明方案进行具体说明。

1、数据获取

对于团伙欺诈关系的挖掘，首先需要从海量数据中构建出实体之间的基础关系，然后基于构建好的关系进一步发掘出其中潜在的团伙欺诈风险。为了在海量数据中建立实体之间的关系，需要进行大量的数据清洗和数据标准化工作。在这过程中，我们开发了不少算法以完成这些工作。其中主要的有：地址标准化、地址聚类、公司名称匹配。下面对这些算法进行简述。

地址标准化算法是对地址信息数据进行格式上的统一处理。不同来源的地址数据质量参差不齐，并且由于填写要求不同或者人为填写习惯不同的原因，地址信息的表示各不相同。为了方便后期使用，我们需要将地址信息按照统一的、规范的格式进行处理。该地址标准化算法根据当前地址中所含的信息，通过推理将其标准为统一的地址格式，包含省市区县镇乡街道等行政区域。例如，所填地址为“朝阳西大望路地铁站旁麦当劳”，标准化后为“北京市，朝阳区，西大望路，地铁站旁麦当劳”。

通过地址标准化算法对地址信息进行批量处理后，我们需要对地址进行聚合操作，即对填写相异但实际相同的地址使用一个统一的地址进行表示。该方法基于LCS最长公共子串的思想，适应地址聚合的需求，可以有效地聚合各种标准化后的地址，即使难度较大的地址聚合该算法也能很好的完成，例如：

1、地址聚合后可由“湖北省,武汉市,武昌区,工大路,武汉理工大学鉴湖校区”统一表示：

湖北省,武汉市,武昌区,理工大学鉴湖校区海文书店

湖北省,武汉市,武昌区,工大路,武汉理工大学鉴湖校区海文书店

湖北省,武汉市,武昌区,工大路,武汉理工大学鉴湖校区

2、地址聚合后可由“广东省,广州市,白云区,田心西槎路韵达快递”统一表示：

广东省,广州市,白云区,田心西槎路韵达快递

广东省,广州市,白云区,同德围西槎路韵达快递

广东省,广州市,白云区,同德围街道韵达

针对公司名称匹配方法，也是基于LCS最长公共子串的思想，它解决的问题是判断两个公司名称是否一致，即是否两个公司名称都指向同一公司。现实中由于人们填写的公司往往是不完整的，甚至很多都是缩写，因此计算机很难像人一样能通过经验和认知判断出它们是否一致。所以该算法使用模糊匹配算法及深度学习模型，可以有效识别出公司名称相同与否。例如，识别出“海淀工行”和“北京市海淀区中国工商银行”一致。

以上方法是整个团伙欺诈挖掘过程中重要的一部分，为我们构建实体之间的基础关系提供了非常重要的帮助。

2、关系的构建

实体之间关系构建的基础是数据，所谓下层基础决定上层建筑，数据的量级和质量决定着我们构建出的实体关系的数量和强弱，越多的数据、越丰富的维度、越精准的标签、越及时的数据都能更好地构建出丰富的实体关系，为后续的团伙聚类分析提供良好的基础。目前互联网金融具有海量、多维度的数据，并随着业务的拓展和用户量的增长，源源不断的数据也在扩充着底层数据库，基于这样一个条件下，在大数据上进行团伙欺诈关系的探索和挖掘。

建立实体关系的基础是这些实体之间要有共同的特征，通过对这些共同特征的筛选和组合可以建立出有效的实体间关系，所以首先需找到单个实体所拥有的特征，即实体属性。

通常，这些特征信息大部分来源于客户填写的个人资料以及经过客户授权后采集的设备信息，另外的还有金融机构内部的逾期客户名单、黑名单以及个人征信数据等。其中客户的个人信息一般是在注册账号、申请等阶段填写的，主要包括姓名、身份证号、联系方式、教育经历、工作经历、家庭住址、紧急联系人、电子邮箱、社交账号等。设备信息的采集是在用户授权下，SDK(软件开发工具包)采集到的用户当前使用设备的信息，这部分信息的维度是比较丰富的，它能够比较好地描述出当前设备操作者的行为习惯、操作状态、周遭环境等，结合现有技术的设备指纹技术，可以很好地对这个设备进行标记并追踪其在不同阶段的操作行为；采集的设备信息中主要字段包括但不限于：设备标识、设备型号、设备硬件信息、设备应用列表、是否root/越狱、网络连接信息、设备地理位置等。

有了以上信息后，就可以开始构建实体关系图谱了。实体关系图谱的构建首先需要对数据进行清洗和提取。然后根据需求确定实体(节点)、关系(边)、实体属性等信息，如图1所示，其中本发明构建的图谱中的实体为人；关系是连接节点之间的边，如通话关系、转账关系等；实体属性表示实体的特征，如人的个人资料、人所关联的设备信息、银行账户信息等。确认好上述实体、关系、实体属性后，就可以在关系图谱中构建不同的实体，并可以对关系定义不同的权重以表征关系的意义和重要性。通常地，通过专家经验和一些统计分析方法对权重进行定义。

下面，就一些具体的图谱关系的构建进行举例说明：

1)、通过工作单位地址构建关系

根据客户填写的个人信息提取到身份证号和工作单位地址的配对，批量地将工作单位地址信息进行地址标准化和地址聚类操作，然后将这些聚好类的地址所对应的身份证号进行相互关联以形成关系图谱中ID-ID的实体关系。其中关系权重的设定是根据构建关系的强弱来进行划分的，比如，根据工作单位地址聚合后构建的关系较强，设定为3。另外的，比如根据地理位置信息的相似程度来建立身份证号之间的联系是相对较弱的，就可以将其关系权重设定为1或者2。具体可参照下表(以下公司名称仅为举例使用，非真实情况)：

表1.1根据用户填写的信息提取

表1.2关联出的关系

实体1	实体2	关系权重
			id1	id2	3
id1	id7	3
			id2	id7	3
id3	id4	3

2)、通过紧急联系人或直系亲属信息构建关系

在客户填写申请资料的时候，通常会要求客户必须填写紧急联系人或者直系亲属信息。因为该信息中的人会间接地充当一个担保人的角色，所以相对来说是比较可靠有效的，至少可以保证申请人和紧急联系人之间有较强的关联。通过这个信息，可以建立出比较强的人与人之间的关系。另外根据我们的发现，通过这一关系的建立，可以更好地发现团伙内部个体之间相互担保的情况，以及黑产中介为多人担保的情况。具体展示如下表：

表2通过紧急联系人/直系亲属关联出的关系

实体1	实体2	关系权重
			id1	id8	4
id2	id8	4
			id3	id8	4
id4	id8	4
			id5	id8	4
id7	id10	4
			id9	id11	4

3)、通过设备信息构建关系

针对每个设备，通过设备指纹技术可以为每个设备都分配一个唯一的设备标识。在用户通过设备进行注册、登录、申请等操作时，可以将该用户和所用设备关联起来。所以，通过分析设备信息的不同纬度，可以把个体通过不同维度进行关联。一般正常设备下关联的用户数不会很多，但针对团伙欺诈来说，中介申请、群控设备申请往往会表现出多用户关联相同设备的情况。具体关联方式可见下表：

表3.1设备信息提取

设备ID	用户	状态
			A	id1	申请
B	id2	申请
			A	id3	注册
A	id4	提现
			A	id5	登录
A	id6	登录
			C	id7	提现

表3.2通过设备信息关联

实体1	实体2	关系权重
			id1	id3	4
id1	id4	4
			id1	id6	4
id3	id4	4
			id3	id6	4
id4	id6	4
			id5	id7	4

4)、通过WIFI MAC地址构建关系

任何设备的MAC地址都是全球唯一且很难被改变的。通过采集的设备信息，我们可以提取出操作设备所连接的WIFI设备对应的MAC地址，因此可以通过WIFI MAC地址对操作设备进行关联，进而关联出这些设备所对应的人的关系。具体关联方式可见下表：

表4.1 WIFI-MAC对应设备信息

WIFI-MAC地址	设备ID
		MAC1	A
MAC2	B
		MAC1	C
MAC1	D
		MAC1	E
MAC3	F
		MAC4	G

表4.2通过WIFI-MAC关联

实体1	实体2	关系权重
			A	C	2
A	D	2
			A	E	2
C	D	2
			C	E	2
D	E	2

后续通过用户和设备之间关联的关系，使用上述3)中的方法可以将人之间的关系通过设备进行关联。

5)、通过地理位置信息构建关系

设备信息采集中的地理位置信息是能够帮助我们构建设备之间关联关系的，进而关联出使用这些设备的人之间的关系。通过经纬度和地理区域划分，再结合设备在某地理范围内停留的时间段可以推测出设备之间的关联关系。比如，两个设备的地理位置非常接近，且规律性地、长时间地都停留在相同的地理区域内，因此我们可以将这两个设备进行关联。在团伙欺诈中，由于团伙人员的聚集、群控设备的操作，往往能够通过地理位置信息关联出大量设备。具体关联方式可见下表：

表5.1地理位置对应设备信息

设备	经度	纬度
			A	12.152	56.123
B	13.111	58.002
			C	10.998	58.668
D	11.589	57.102
			E	16.879	60.668
F	112.023	56.115
			G	156.118	55.028

表5.2通过地理位置关联

找到以上设备间关系后，使用3)中方式可以通过设备将人之间的关系关联起来。

以上通过举例展示了部分关联关系的构建，但在实际真实的金融场景下，图谱中边的关系可能为朋友、紧急联系人、同事、共用设备、转账、通讯等，所以构建人与人之间关系的方式是纷繁复杂的，构建出的图谱也是包含了非常丰富的关联关系。

3、群体聚类的实现

团伙关系挖掘的目标是找到团伙，而团伙的特征是一群有相似行为的群体。因此，我们需要从构建好的图谱关系和已有的个体信息中找到有相似行为的群体并标识出来。

在聚类的实现上，根据已有数据的特性，本发明尝试并使用了不同的方法，包括关系推理、机器学习中的无监督聚类、社团发现算法Fast Unfolding of Communities、重叠社区检测算法BigClam、LPA标签传播算法、图嵌入Graph Embedding等，不同的聚类方式可以适应不同的应用场合。下面我们介绍一下这些算法的实践。

1)、关系推理

本发明中所述的关系推理基于用户及其设备行为，首先通过对用户行为及用户的设备操作行为进行分析，得到行为模式，结合专家经验分析，总结推理出其中的异常行为以及这些行为后面潜在的趋同性，用于在金融关系图谱中识别出具有雷同行为的群体。通过对用户的操作习惯、申请行为以及设备操作记录等进行挖掘分析，再结合相关的专家经验，可以总结推理出其中的异常行为以及这些行为后面潜在的趋同性。比如，在设备行为层面，某个较短的时间窗口内有大量用户集中在某机构的APP上进行集体注册、登录、申请、下单等，他们的操作手法类似、操作时间极短，并且可能有地理位置集中、来源于相同WIFI设备、一机多号等现象。又比如，在用户行为层面，在某时间窗口内有大量用户对不同机构发起申请，他们往往会在较短的一个时间周期内(比如一周、半月、一月)对一批机构进行集中申请。这里通过分析用户的申请行为，比如申请的时间、申请的次数、申请的频次、申请的机构类型等，可以构建出用户的申请轨迹。再通过对这些申请轨迹的相似程度进行对比和归类，能够从中发掘出大量行为雷同的申请群体。

2)、机器学习

应用到群体聚类中的机器学习算法主要是无监督聚类算法。为了使用该算法，首先需要对设备、用户构建出相应的特征。比如，通过设备信息采集我们可以针对设备构建出如下特征(展示部分特征)：

表6.1设备对应特征

设备特征
	GPS地理位置
是否root/越狱
	陀螺仪角速度
充电状态
	活跃次数
最近活跃时间
	是否使用代理
所在基站编号
	是否存在篡改软件
当前使用应用类别

通过用户的申请行为我们可以针对用户构造下列特征：

表6.2用户对应特征

用户特征
	申请次数
申请时间窗口
	申请频次
最近申请时间
	注册时间
登录时间
	申请时间
是否使用异常设备
	申请机构数
是否在黑名单中

有了特征之后，我们就可以使用无监督聚类K-Means算法对设备和用户进行聚类分析了。由于K-Means算法需要提前指定聚类中心个数K，所以我们针对K值的选择进行了优化。一个是根据我们的数据量和经验对聚类类别个数K进行设定，二是根据SSE(误差平方和)随K值变化的曲线对K值进行选择，三是使用K-Means++优化算法对聚类中心的位置选择进行优化。通过该无监督聚类算法，我们可以从大量的设备和用户中找到特征相似的群体，并对这些群体展开后续的调查。

3)、社团发现算法Fast Unfolding of communities

社团发现算法是一种图算法，是基于已经构造好的图进行划分的一种算法。通常，社团或群体的特征是内部联系紧密、密度较大，社团之间联系稀疏。该算法使用模块度对社团内部的紧密程度进行衡量，然后通过优化模块度将每个节点都放入使得社团更紧密、模块度增大最多的社团中去，如图2展示了某次迭代之后的社团划分情况。

由于该算法是从图结构角度进行考虑的，即如何划分社团使得模块度更大。因此，如果在构造原始图的时候使用尽可能强的关系来构建，最终所得的社团关系的紧密程度和现实意义会相对更高。另外，由于该算法是启发式算法，每次运行的结果会有一些不同，社团周边一些游离的、本身关联关系较弱的点可能会在多次运行结果中属于不同的社团，但是对于紧密的主体社团的聚类结果是非常一致的。通过该社团发现算法，可以从原始大图中划分出关系紧密的社团，以供后续进行分析判断。

4)、重叠社区检测算法BigClam

该算法的主要特点是能够在划分社团的同时检测到同时属于多个社团的个体，即社团之间的重叠部分。通常这部分重叠群体会被视作联通两个社区的中间人，在金融反欺诈领域，针对这部分重叠群体，根据这部分群体的特征和表现判断出他们是否为黑产中介、助贷机构、欺诈团伙成员等，进而判断其所关联的多个社团的危险程度。图3为BigClam划分社团结果示例。

5)、LPA标签传播算法

标签传播算法的基础是之前构建的图关系，通过在已有的图关系中标记出已知的目标节点，然后在一次次的迭代过程中，被标记的目标节点会将自身标签根据图中所连路径传播给邻居节点，被标记的邻居节点会在下一次的迭代中将自身标签继续传播出去。在最终迭代结束后，所有的节点都会被标记上相应的标签，从中找到标签一致的节点，把它们视为一个社区或群体。整体上类似“近朱者赤，近墨者黑”的道理。

6)、图嵌入Graph Embedding

图嵌入是一种基于深度学习，为了解决超大网络难以进行复杂图推理的方案。因为随着数据的积累，我们构建的图可能会包含几十亿的节点和边，在这个超大的图上进行复杂的计算和推理是比较棘手的。所以，就希望能使用低维的向量去表示节点，以方便后续的处理，并且尽量保证在原始图中相似的节点在低维的表示上也要相似。因此，该算法借鉴NLP中word2vec的思想(通过语料中句子的序列来表示词与词之间的共现关系，进而学习到词的表示)，将图中节点类比作词语，将节点之间的关联关系类比作词与词之间的共现关系，通过随机游走的方式构建足够多的节点序列，类似句子中词的序列，然后通过深度学习模型学习这些节点序列并输出相应节点的向量表示。这些向量表示可提供给后续的分类、聚类任务。具体实践中，我们在已经构建好的图上对每个节点都进行随机游走，用节点序列表示出节点和节点之间的共现关系，然后将这些节点序列关系放到word2vec的skip-gram模型中进行训练得到节点的低维向量表示。通过这种方式，超大图中的节点可以被低维向量更高效地表示出来，并且节点与节点之间的共现关系也能够得以保持，之后再通过机器学习算法对其进行聚类得到群体。

4、欺诈团伙的发掘

在经过上述关系构建和群体聚类后，可以得到大量聚合好的群体，如图4所示，这些群体有的包含个体数量多，有的包含个体数量少，一般需要根据经验、需求以及划分出群体的情况对单个群体所含个体数进行限制。并且这些群体是否是团伙这一性质无法直接通过当前聚类结果得出，需要我们对群体的组成进行分析后来判定。

对群体的构成进行分析是判断欺诈团伙的重要依据，因此本发明提出结合专家经验和业务定义了相关指标来对群体进行描述和评估，对聚类得到的群体进行筛选排查。下面选择部分指标进行简介：

根据以上指标对群体的结构进行分析后，可以对群体进行一个很好地描述，然后根据这些描述信息，可以制定规则来判断当前群体是否为欺诈团伙，另一方面还利用这些对群体的描述信息来构建团伙欺诈模型。

通过制定规则来寻找欺诈团伙是一种行之有效的方式，通常会结合业务对不同的指标设定不同的阈值，一旦某个群体满足以上要求就会被划定为欺诈团伙。举个简单的例子，设定欺诈团伙的判断指标如下：在群体中黑名单占比大于等于10％，灰名单占比大于25％，失信人数占比大于15％，逾期人数占比大于20％。如果某群体的描述符合以上各项指标，那么该群体就会被判断为欺诈团伙。

另一方面，在此基础上进一步的，本发明还实现了通过模型输出团伙欺诈分来衡量某群体为欺诈团伙的可能性，由于实际场景中对欺诈团伙的判断有一定困难，所以很难收集到群体是否为欺诈团伙这一标签来进行建模，因此本发明使用RMF模型的方式对群体的团伙欺诈风险进行分数输出，然后划定分数阈值来对群体进行欺诈判断，实现欺诈团伙关系挖掘排查中的快速自动判断。首先，选定准备使用的指标变量。通常这一步需要依靠经验进行选择，比如上表中的黑名单占比、灰名单占比、失信人数占比等信息是我们需要选择的。接下来，需要分析群体在所选指标下的分布情况，并根据实际分布情况对所选的指标变量进行处理；最后，对不同的变量指标根据其重要性程度进行权重值的设定并输出分数。在这个模型中，分数越高代表群体为欺诈团伙的可能性越高，分数越低代表群体为欺诈团伙的可能性越低。

通过以上两种方式，一是可以从划分出的所有群体中快速有效地找到欺诈团伙，二是可以通过团伙欺诈风险值对群体为欺诈团伙的可能性进行较好的衡量。

5、本发明团伙欺诈挖掘与排查方法的应用实施例

本发明方案团伙欺诈的发现可以用于很多业务场景中的，这里我们主要从以下几个实施例来说明本发明的实施：

一、通过可视化界面，展示团伙关联关系和风险指标信息，协助专家进行人工审核。在可视化界面中，根据输入的查询节点，***会以图的形式展示出该节点所关联的当前团伙中的成员和他们之间的关联关系，并且会给出相应的风险指标信息，比如，当前团伙黑名单占比、逾期人数占比、失信人数占比等。这一系列信息的展示可以帮助反欺诈专家更好地判断申请者是否拥有团伙欺诈风险。

二、对申请人进行实时团伙欺诈风险检测。通常，团伙欺诈关系图会离线地、每天地进行更新，然后会将该图储存到数据库中供线上使用。针对一个线上实时申请而言，我们会根据该申请者的信息寻找他自身所带的关联关系，然后将他实时地***到我们的团伙欺诈关系图中，以生成对该申请者团伙欺诈风险的评测报告。并且实时***的这一条新关系会保留到当前的团伙欺诈关系图中，提供给下次查询业务使用。

三、对批量申请者进行频繁项集挖掘，并实时关联团伙欺诈关系图。对于批量申请行为，本发明可以通过对某一较短时间内的申请者进行频繁项集挖掘找到这批人中经常同时申请相同机构的群体，然后标识出这些群体中的申请者并对线上业务发出预警，以协助线上进行实时防范。同时，也会将这部分可疑群体实时***团伙欺诈关系图并进行关联分析，输出团伙欺诈风险。

四、使用种子用户进行自关联的团伙发现。该场景旨在发掘待审核用户与种子用户之间可能存在的团伙欺诈关系。首先，需要用户先上传一批自有种子用户(往往是逾期或有不良记录的)，用于在金融关系图谱中进行关联得到若干子图。然后，用户需要将待审核用户放入已得到的子图中进行关联发现，判断当前待审核用户是否和自有的种子用户之间构成了团伙欺诈风险。这种关联分析方式能够很好地防范针对某机构的团伙欺诈。一个银行客户提供了5,000个待审核用户和5000个欺诈种子用户，通过该关系图谱发现其中970多个用户疑似团伙欺诈用户。经该机构检验确认，关联出的团伙欺诈用户中90％申请用户在贷前反欺诈风控策略中会被拒绝，10％成功申请用户的逾期风险是平均风险的2.5倍。由此可见通过在该关系图谱中进行自关联可以有效识别出潜在的风险用户，降低逾期率。

五、关联团伙欺诈信息形成变量，供决策层进行规则判断、变量入模。通过将申请者放入团伙欺诈关系图中进行关联得到相关指标变量，然后将这些指标变量反馈到风控决策层以帮助决策层实时把握风险，保障实时决策的有效性。同时，这些指标变量也会进入模型，以帮助模型更全面地衡量申请者的风险程度。根据公司风控专家使用的反馈来看，团伙规模和等级作为变量入模后能够提升风控模型KS绝对值1％+，增强模型对好坏客户的区分能力。另外，团伙欺诈等级这一字段作为风控规则，普遍提升了对坏客户的拒绝率，有效降低了坏账率。其中，在某持牌消费金融公司的实际使用过程中发现，在整体是50％坏账率情况下，团伙欺诈等级达到7以上的部分坏账率达到95％，提升度达到90％左右，帮助该机构大大降低逾期率。

6、本发明的***架构

最后介绍本发明的硬件实现。本发明通过服务器和数据库的协同工作实现，通过硬件架构实现计算机程序的运行，进而实现前述挖掘于排查方法。为了进行欺诈团伙的挖掘，不仅需要海量、多维的大数据支撑，还需要可靠的***架构来保障从数据处理到算法应用，再到结果存储，最后提供服务这一流程的有效运转。所以，***的架构是非常重要的一部分。本发明提供***架构一个实施例如图5所示，简述如下：

最底层是我们的大规模分布式集群，包含服务器和高性能计算集群，为所有上层存储、计算、应用等业务提供可靠的性能和可拓展的存储空间。往上一层是我们的底层数据库，主要是分布式数据仓库Hive和数据库Mysql，它们为我们的海量数据提供可靠的存储空间，同时承接着从Flume、Kafka实时流入的数据，这些数据经过Storm和Spark Streaming的处理后被写入数据库。在工具层，因为数据量巨大，我们都使用了分布式工具和平台进行操作，比如，分布式机器学***台。在算法层，我们使用了关系推理、无监督聚类算法、社团检测算法、图嵌入算法等从海量关系中挖掘出潜在的欺诈团伙。在这层之上为对外数据层，该层面向业务，使用Hbase分布式存储***以及图数据库Neo4j来存储我们的团伙欺诈结果并向API层提供数据支持。

Claims

1.互联网中欺诈团伙关系的挖掘与排查方法，其特征是获取互联网金融数据，采用知识图谱的构建原理构建金融关系图谱，其中金融关系图片构建时以仅以人为实体，以人与人之间的关系为实体关系，以人的特征为实体属性，在构建的金融关系图谱基础上，通过聚类算法挖掘出具有相似行为的群体，通过对群体的构成进行分析，实现对欺诈团伙的识别，完成对欺骗团伙关系的挖掘与排查。

2.根据权利要求1所述的互联网中欺诈团伙关系的挖掘与排查方法，其特征是实体关系的构建包括通过联系地址构建关系、通过联系人或直系亲属信息构建关系、通过设备信息构建关系、通过WIFIMAC地址构建关系和通过地理位置信息构建关系。

3.根据权利要求2所述的互联网中欺诈团伙关系的挖掘与排查方法，其特征是在联系地址构建关系的过程中，对地址进行标准化和聚合，首先将地址信息按照统一格式标准化处理，具体为按照行政区域逐级划分，对地址批量标准化处理后，基于LCS最长公共子串对地址进行聚合，将写法不同实际相同的地址进行聚合；同样，对公司名称也用同样方式进行聚合。

4.根据权利要求1所述的互联网中欺诈团伙关系的挖掘与排查方法，其特征是实体属性包括个人资料、个人智能设备的设备信息、以及金融机构存储的逾期客户名单、黑名单和个人征信数据，个人智能设备的设备信息通过软件开发工具包SDK进行采集，个人智能设备通过设备指纹技术与人建立关联关系。

5.根据权利要求1所述的互联网中欺诈团伙关系的挖掘与排查方法，其特征是在构建的金融关系图谱基础上，根据已有诈骗个体的信息，通过聚类算法挖掘排查有相似行窃的群体并标识出来，所述聚类算法包括关系推理、无监督聚类、社团发现算法、重叠社区检测算法BigClam、LPA标签传播算法和图嵌入。

6.根据权利要求6所述的互联网中欺诈团伙关系的挖掘与排查方法，其特征是所述关系推理基于用户及其设备行为，首先通过对用户行为及用户的设备操作行为进行分析，得到行为模式，结合专家经验分析，总结推理出其中的异常行为以及这些行为后面潜在的趋同性，用于在金融关系图谱中识别出具有雷同行为的群体。

7.根据权利要求1所述的互联网中欺诈团伙的挖掘与排查方法，其特征是对于挖掘出的群体，进行群体的构成分析来判断是否是欺诈团伙，具体为通过设定评估指标来对聚类所得的群体进行排查，判断当前群体是否为欺诈团伙。

8.根据权利要求7所述的互联网中欺诈团伙关系的挖掘与排查方法，其特征是将设定的评估指标作为描述信息构建团伙欺诈模型，采用RMF模型的方式对聚类所得群体的团伙欺诈风险进行分数输出，设定分数阈值来对群体进行欺诈判断。

9.一种互联网中欺诈团伙关系的挖掘与排查***，其特征是包括数据库和服务器，服务器中存储有计算机程序，所述程序被执行时实现权利要求1-8任一项所述的互联网中欺诈团伙关系的挖掘与排查方法，数据库用于为服务器中的计算机程序提供数据调用。