CN110956547A

CN110956547A - 一种基于搜索引擎的实时识别欺诈团伙的方法及***

Info

Publication number: CN110956547A
Application number: CN201911192178.XA
Authority: CN
Inventors: 徐玉立; 张荣杰; 陈望东; 吴文烁; 赵正丽; 张连; 陈凯旋; 谢伟伟
Original assignee: Guangzhou And Baozi Information Technology Consulting Service Co Ltd
Current assignee: Guangzhou And Baozi Information Technology Consulting Service Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-03
Anticipated expiration: 2039-11-28
Also published as: CN110956547B

Abstract

本发明公开了一种基于搜索引擎的实时识别欺诈团伙的方法及***，该方法包括：获取交易事件中的历史交易数据和实时交易数据；根据历史交易数据和实时交易数据，利用Elasticsearch搜索引擎提取用户特征数据，构建核心数据索引库和地理坐标索引库；利用历史交易数据和实时交易数据构建用户生命周期的动态更新的关系图谱；构建反欺诈引擎；利用反欺诈引擎在核心数据索引库、地理坐标索引库和关系图谱实时在线识别实时交易数据存在的进行欺诈交易的用户。本发明能同时实现将搜索结果以信息融合的方式展现给业务人员，为业务人员提供更多有价值的信息，并且可以通过规则引擎实时关联分析出所有的可疑交易，准确识别出欺诈团伙。

Description

一种基于搜索引擎的实时识别欺诈团伙的方法及***

技术领域

本发明涉及数据搜索技术领域，特别是涉及一种基于搜索引擎的实时识别欺诈团伙的方法及***。

背景技术

在金融领域，尤其是在互联网金融领域，由于存在线上交易的特性，线上团伙欺诈的风险比较高。同时随着互联网技术的发展，欺诈行为逐渐专业化，出现了很多的“新型手段”的金融欺诈的行为，并且团伙作案的趋势越来越明显。在现有技术中，一般基于传统数据库架构，即先将交易数据存储于数据库中，然后建立索引对数据进行分析查询，这样的架构不能对可疑事件进行及时响应，不具有实时性。同时由于缺乏对团伙欺诈类风险识别的有效手段，很难将欺诈份子一网打尽。

因此，如何提供一种能够实时识别线上交易存在的欺诈风险成为本领域亟待解决的问题。

发明内容

本发明的目的是提供一种基于搜索引擎的实时识别欺诈团伙的方法及***，针对金融领域在线交易场景中面临的风险，对交易行为进行逐笔的事中监控，基于用户的历史交易行为数据，结合反欺诈风险数据，通过搜索引擎的强大搜索能力以及强大的地理空间分析能力，实时判断每一笔交易行为数据与风险数据的数据相似度和空间相邻性，在在线交易场景中对风险进行预警和控制。本发明可将获取的各种维度信息接入至搜索引擎，同时实现将搜索结果以信息融合的方式展现给业务人员，为业务人员提供更多有价值的信息，并且可以通过规则引擎实时关联分析出所有的可疑交易，准确识别出欺诈团伙。

为实现上述目的，本发明提供了一种基于搜索引擎的实时识别欺诈团伙的方法，所述方法包括：

获取交易事件中的历史交易数据和实时交易数据，所述历史交易数据和所述实时交易数据均包含埋点数据、业务数据和三方数据，所述埋点数据包括用户操作行为数据和用户所用设备信息；所述业务数据包括生成的商品订单的订单数据；所述三方数据包括用户征信信息；

根据所述历史交易数据和实时交易数据，利用Elasticsearch搜索引擎提取用户特征数据，构建核心数据索引库和地理坐标索引库；所述用户特征数据包括用户基本特征数据、用户操作行为数据和用户衍生特征数据；所述用户衍生特征数据根据所述所述历史交易数据和实时交易数据衍生得到；

利用所述历史交易数据和实时交易数据构建用户生命周期的动态更新的关系图谱，所述用户生命周期为从注册、交易请求、交易中、交易后至交易结束的完整生命时间；

构建反欺诈引擎：所述反欺诈引擎由反欺诈规则和反欺诈模型组成；所述反欺诈规则为依据历史交易数据生成的用于比对所述实时交易数据的一部分数据确定是否存在欺诈风险的信息规则；所述反欺诈模型为依据历史交易数据利用机器学习算法生成的用于识别所述实时交易数据的另一部分数据是否存在欺诈风险的智能分类模型；

利用所述反欺诈引擎在所述核心数据索引库、所述地理坐标索引库和所述关系图谱实时在线识别所述实时交易数据存在的进行欺诈交易的用户。

可选的，所述根据所述历史交易数据和实时交易数据，利用Elasticsearch搜索引擎提取用户特征数据，构建核心数据索引库和地理坐标索引库，具体包括：

提取所述历史交易数据和实时交易数据中用户基本特征，得到用户基本特征数据；所述用户基本特征包括用户的性别、年龄、婚姻状况、工作年限和最高学历的身份基本信息；

提取所述历史交易数据和实时交易数据中用户完成一笔交易所经历的行为特征，得到用户操作行为数据；所述行为特征包括用于从注册、登陆、申请、认证、审核、交易请求、交易生成以及交易后继续操作的操作过程中的时间信息、所用设备信息、请求信息、订单信息和地址信息；

根据所述历史交易数据和实时交易数据利用Elasticsearch搜索引擎进行变量衍生，得到衍生变量，即用户衍生特征数据；所述衍生变量包括用于基本信息衍生变量、黑名单类衍生变量和地理坐标衍生变量；

对所述用户特征数据进行实时流式处理，并进行倒排序，得到核心数据索引库；

抽取所述用户特征数据中的地理空间数据，转换成地理坐标导入Elasticsearch搜索引擎，建立以地理坐标为核心的地理坐标索引库。

可选的，所述利用所述历史交易数据和实时交易数据构建用户生命周期的动态更新的关系图谱，具体包括：

抽取所述历史交易数据和实时交易数据中的不同数据源的用户特征数据；

对所述用户特征数据中的用户ID、身份证号码、电话号码、联系人电话号码、IP地址和设备号进行拓扑关联，得到关系网络；

将所述用户特征数据按照所述关系网络存入图数据库，得到关系图谱；

从所述用户生命周期的起点出发，连接所述用户生命周期中各个操作过程的数据流节点，对所述关系网络进行动态更新。

可选的，所述构建反欺诈引擎：所述反欺诈引擎由反欺诈规则和反欺诈模型组成，具体包括：

将黑灰名单撞库规则、用户异常信息和行为检测规则、设备类及各类账户多头关联规则和用户信息一致性校验规则存入反欺诈规则；

利用K最近邻分类算法构建反欺诈模型：

选取一部分所述历史交易数据作为训练数据集；所述训练数据包括作为输入参数的用户特征数据和作为分类输出的用户风险偏好；所述用户风险偏好包括正常用户和欺诈用户；

计算所述实时交易数据中的新用户的用户特征数据与所述训练数据集中用户特征数据之间的距离；

按照递增顺序对所述距离进行排序，得到顺序距离集；

按照设定数量选取所述顺利距离集中距离最小值对应的所述实时交易数据中的新用户的用户特征数据作为样本数据集；

计算所述样本数据集中异常用户特征数据所占比例记为用户风险得分；

根据所述用户风险得分确定分类输出的用户风险偏好，得到训练好的反欺诈模型。

可选的，所述利用所述反欺诈引擎在所述核心数据索引库、所述地理坐标索引库和所述关系图谱实时在线识别所述实时交易数据存在的进行欺诈交易的用户，具体包括：

利用所述实时交易数据中的设备号作为搜索词，利用所述反欺诈引擎到所述核心数据索引库中检索查询出具有相同设备号的所有数据，再计算所述设备号对应的设备上在预设时间段内发生交易的总次数，当所述总次数大于交易次数阈值时确定所述设备号对应的用户为潜在欺诈用户；

将所述潜在欺诈用户的埋点数据中的地理空间数据，转换成地理坐标，再次利用所述反欺诈引擎到Elasticsearch搜索引擎的地理坐标索引库中进行检索，分析出与所述潜在欺诈用户的空间相似度在预设空间相似度阈值范围内的其他潜在欺诈用户；

再利用所述关系图谱分析多层级所述实时交易数据，并进行一度关联、二度关联、三度关联至N即关联发现潜在欺诈用户团伙，并通过共享实体找出强连通图；

基于所述强连通图识别所得到的全部所述潜在欺诈用户中存在欺诈可能概率大于风险阈值的用户为欺诈用户团伙。

可选的，所述方法还包括：

积累已被识别的所述实时交易数据，并根据识别结果对所述实时交易数据对应的用户赋予欺诈或正常的标签；

将被识别的所述实时交易数据中的用户特征数据和用户被赋予的标签作为更新样本；

利用所述更新样本修正、迭代和优化所述反欺诈模型。

本发明还提供了一种基于搜索引擎的实时识别欺诈团伙的***，所述***包括：

数据获取单元，用于获取交易事件中的历史交易数据和实时交易数据，所述历史交易数据和所述实时交易数据均包含埋点数据、业务数据和三方数据，所述埋点数据包括用户操作行为数据和用户所用设备信息；所述业务数据包括生成的商品订单的订单数据；所述三方数据包括用户征信信息；

索引库构建单元，用于根据所述历史交易数据和实时交易数据，利用Elasticsearch搜索引擎提取用户特征数据，构建核心数据索引库和地理坐标索引库；所述用户特征数据包括用户基本特征数据、用户操作行为数据和用户衍生特征数据；所述用户衍生特征数据根据所述所述历史交易数据和实时交易数据衍生得到；

关系图谱构建单元，用于利用所述历史交易数据和实时交易数据构建用户生命周期的动态更新的关系图谱，所述用户生命周期为从注册、交易请求、交易中、交易后至交易结束的完整生命时间；

反欺诈引擎构建单元，用于构建反欺诈引擎：所述反欺诈引擎由反欺诈规则和反欺诈模型组成；所述反欺诈规则为依据历史交易数据生成的用于比对所述实时交易数据的一部分数据确定是否存在欺诈风险的信息规则；所述反欺诈模型为依据历史交易数据利用机器学习算法生成的用于识别所述实时交易数据的另一部分数据是否存在欺诈风险的智能分类模型；

欺诈识别单元，用于利用所述反欺诈引擎在所述核心数据索引库、所述地理坐标索引库和所述关系图谱实时在线识别所述实时交易数据存在的进行欺诈交易的用户。

可选的，所述索引库构建单元具体包括：

基本特征提取模块，用于提取所述历史交易数据和实时交易数据中用户基本特征，得到用户基本特征数据；所述用户基本特征包括用户的性别、年龄、婚姻状况、工作年限和最高学历的身份基本信息；

行为特征提取模块，用于提取所述历史交易数据和实时交易数据中用户完成一笔交易所经历的行为特征，得到用户操作行为数据；所述行为特征包括用于从注册、登陆、申请、认证、审核、交易请求、交易生成以及交易后继续操作的操作过程中的时间信息、所用设备信息、请求信息、订单信息和地址信息；

衍生特征衍生模块，用于根据所述历史交易数据和实时交易数据利用Elasticsearch搜索引擎进行变量衍生，得到衍生变量，即用户衍生特征数据；所述衍生变量包括用于基本信息衍生变量、黑名单类衍生变量和地理坐标衍生变量；

核心数据索引库构建模块，用于对所述用户特征数据进行实时流式处理，并进行倒排序，得到核心数据索引库；

地理坐标索引库模块，用于抽取所述用户特征数据中的地理空间数据，转换成地理坐标导入Elasticsearch搜索引擎，建立以地理坐标为核心的地理坐标索引库。

可选的，所述关系图谱构建单元具体包括：

数据抽取模块，用于抽取所述历史交易数据和实时交易数据中的不同数据源的用户特征数据；

关联模块，用于对所述用户特征数据中的用户ID、身份证号码、电话号码、联系人电话号码、IP地址和设备号进行拓扑关联，得到关系网络；

关系图谱生产单元，用于将所述用户特征数据按照所述关系网络存入图数据库，得到关系图谱；

关系图谱更新单元，用于从所述用户生命周期的起点出发，连接所述用户生命周期中各个操作过程的数据流节点，对所述关系网络进行动态更新。

可选的，所述反欺诈引擎构建单元具体包括：

反欺诈规则确定模块，用于将黑灰名单撞库规则、用户异常信息和行为检测规则、设备类及各类账户多头关联规则和用户信息一致性校验规则存入反欺诈规则；

反欺诈模型构建模块，用于利用K最近邻分类算法构建反欺诈模型：

按照递增顺序对所述距离进行排序，得到顺序距离集；

根据本发明提供的具体实施例，本发明公开了一种基于搜索引擎的实时识别欺诈团伙的方法及***，具备以下技术效果：

1.本发明引入先进的分布式全文搜索引擎技术——Elasticsearch搜索引擎，利用其检索排序技术和地理空间分析能力，从各个维度检索出具有一定关联性的潜在欺诈信息，再配合由反欺诈规则和反欺诈模型组成的反欺诈引擎，实时为消费者的检测每一个异常行为，准确识别出欺诈团伙。

2.本发明引入先进的流式处理技术，解决了海量并发行为数据的毫秒级实时响应分析难题，向更开放的分布式处理架构演进，轻松应对互联网+时代的大数据处理场景。

3.搜索引擎带来的地理空间分析能力，可以有效的识别潜在组团欺诈。对地理空间数据的深度挖掘，通过机器学习构建的反欺诈模型的反欺诈引擎从关联图谱中自动发现群聚社区。进一步加强了对团伙欺诈类风险的手段。

4.在线实时决策，通过使用大数据流式处理技术，以“流”的形式处理交易产生的海量数据，并基于事件驱动。利用分布式架构及分布式集群计算引擎结合，可以快速、高效地对数据进行协处理、流式处理、交互式分析等。并且可以实时根据团伙欺诈规则库的规则，以及当前用户的特征数据，判断是否存在团伙欺诈风险，并找出潜在的欺诈团伙。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于搜索引擎的实时识别欺诈团伙的方法的流程图；

图2为本发明实施例提供的一种基于搜索引擎的实时识别欺诈团伙的***的***框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种提供一种基于搜索引擎的实时识别欺诈团伙的方法及***，针对金融领域在线交易场景中面临的风险，对交易行为进行逐笔的事中监控，基于用户的历史交易行为数据，结合反欺诈风险数据，通过搜索引擎的强大搜索能力以及强大的地理空间分析能力，实时判断每一笔交易行为数据与风险数据的数据相似度和空间相邻性，在在线交易场景中对风险进行预警和控制。本发明可将获取的各种维度信息接入至搜索引擎，同时实现将搜索结果以信息融合的方式展现给业务人员，为业务人员提供更多有价值的信息，并且可以通过规则引擎实时关联分析出所有的可疑交易，准确识别出欺诈团伙。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本实施例提供的基于搜索引擎的实时识别欺诈团伙的方法包括：

步骤101：获取交易事件中的历史交易数据和实时交易数据，所述历史交易数据和所述实时交易数据均包含埋点数据、业务数据和三方数据，所述埋点数据包括用户操作行为数据和用户所用设备信息；所述业务数据包括生成的商品订单的订单数据；所述三方数据包括用户征信信息。

在实际实施过程中，上述三种数据具体可以是：

1、埋点数据：主要采集用户在应用软件(APP)上产生的行为数据(如登陆操作、点击某按钮)以及行为附加数据(如登陆时的设备信息)。例如，用户在早上9点进行了登陆操作。

2.业务数据：用户在app上的操作过程中产生的各种业务数据(比如交易数据)。比如用户在app上购买了一件商品，产生的业务数据包含商品名称、商品价格、订单数量、订单总价等。业务数据一般产生于业务***，保存在业务数据库中。例如用户在进行购买操作时，直接与订单***(业务***)进行交互，产生的订单数据(业务数据)保存在订单***的数据库(业务数据库，一般都是关系数据库，比如mysql)的订单表(Order_table)中，表结构如下：订单id(主键)、商品名称、商品价格、订单总金额、订单创建时间、购买人、付款方式等。

3.三方数据：三方的数据来源，例如用户的征信数据等等。

对于上述三种数据的采集方式具体如下：

1.埋点数据采集方式：代码埋点，通过在APP上集成采集SDK，在原来的业务代码加上埋点代码。这样，在某个事件发生时就调用SDK里面相应的数据发送接口发送数据。例如，预统计app里面某个按钮的点击次数，则在APP的某个按钮被点击时，可以在这个按钮对应的OnClick函数里面调用SDK提供的数据发送接口来发送数据。SDK使用HTTP协议将数据发送到后端服务器中。

2.业务数据采集方式：业务数据是存储在关系型数据库中，所以业务数据的采集其实就是从关系型数据库中抽取数据。使用CDC(Change Data Capture)方案实时获取用户存在各个业务***中的业务数据。不同的数据源(数据库类型)的CDC具体实施方案不同。例如，对于MySQL，可以通过实时读取binary log来实现cdc。具体流程如下：例如预实时采集订单***中订单表(mysql)的数据，canal(实现了CDC的开源框架)模拟MySQL slave的交互协议，伪装自己为MySQL slave，向MySQLmaster发送dump协议。MySQL master收到dump请求，开始推送binary log给slave(即canal)。canal解析mysql的binary log，将数据进行还原，再将数据以消息的方式发送给后端采集服务器。

步骤102：根据所述历史交易数据和实时交易数据，利用Elasticsearch搜索引擎提取用户特征数据，构建核心数据索引库和地理坐标索引库；所述用户特征数据包括用户基本特征数据、用户操作行为数据和用户衍生特征数据；所述用户衍生特征数据根据所述所述历史交易数据和实时交易数据衍生得到。

该步骤102具体包括：

S21：提取所述历史交易数据和实时交易数据中用户基本特征，得到用户基本特征数据；所述用户基本特征包括用户的性别、年龄、婚姻状况、工作年限和最高学历的身份基本信息。

S22：提取所述历史交易数据和实时交易数据中用户完成一笔交易所经历的行为特征，得到用户操作行为数据；所述行为特征包括用于从注册、登陆、申请、认证、审核、交易请求、交易生成以及交易后继续操作的操作过程中的时间信息、所用设备信息、请求信息、订单信息和地址信息。

S23：根据所述历史交易数据和实时交易数据利用Elasticsearch搜索引擎进行变量衍生，得到衍生变量，即用户衍生特征数据；所述衍生变量包括用于基本信息衍生变量、黑名单类衍生变量和地理坐标衍生变量。

1、衍生变量描述：

实时特征衍生***基于Elasticsearch搜索引擎和实时数据采集的基础上进行变量衍生。将实时数据采集到的数据，存储到Elasticsearch搜索引擎中。

通过Elasticsearch强悍的计算能力和结合其他已有的数据库(例如黑名单库，白名单库)，对用户的数据进行变量衍生。

2、普通衍生变量：使用用户的埋点数据，在Elasticsearch搜索引擎中进行单聚合计算。例如用户的设备衍生变量，具体有：相同设备号在3小时/1天/7天/30天/90天内对应不同的身份证个数，总共有5个变量。衍生过程：使用用户的设备号码，查询出该设备号对应的所有数据，将数据按照3小时/1天/7天/30天/90天进行聚合分组，再对每一组里面的身份证进行基数聚合(去重之后统计总个数)，得到对应的5个变量。

3、黑名单类衍生变量：使用用户的基础信息或者是设备信息，在黑名单库中进行撞库。例如用户的ip黑名单变量，具体包括用户ip是否命中黑名单FRAUDBlackListIPTag和用户ip是否命中灰名单FRAUDGreyListIPTag两个衍生变量。衍生过程：使用用户的ip，到黑名单库中进行撞库，查询该ip对应的黑名单和灰名单数据，如果有黑名单数据，FRAUDBlackListIPTag等于1，如果有灰名单数据，FRAUDGreyListIPTag等于1，否则，FRAUDBlackListIPTag和FRAUDGreyListIPTag都等于0。

2.3GPS类衍生变量：根据用户的GPS数据，在Elasticsearch搜索引擎中进行GPS范围查询和基数聚合。例如用户GPS500米范围在3小时/1天/7天/30天/90天内对应不同的申请人的个数，变量名分别是FRAUDGPSNearby500MCntH3、FRAUDGPSNearby500MCntD1、FRAUDGPSNearby500MCntD7、FRAUDGPSNearby500MCntD30,、FRAUDGPSNearby500MCntD90。衍生过程：根据GPS查询在该GPS500米范围内所有申请的埋点数据，分别对时间范围在3小时/1天/7天/30天/90天之内的埋点数据的身份证进行基数聚合，得到5个衍生变量。

S24：对所述用户特征数据进行实时流式处理，并进行倒排序，得到核心数据索引库；

S25：抽取所述用户特征数据中的地理空间数据，转换成地理坐标导入Elasticsearch搜索引擎，建立以地理坐标为核心的地理坐标索引库。

其中，ElasticSearch搜索引擎(下面简称ES)是一个基于Lucene的搜索服务器，是当前流行的企业级搜索引擎。本发明利用ES构建索引库，可以快速分析用户与风险用户特征数据之间的数据相似度，例如用户填写的地址比较相似，用户在操作时的GPS定位与风险用户的GPS定位的空间相近度等。

Elasticsearch搜索引擎底层使用倒排索引的存储方式，从而能在海量数据中快速搜索出符合条件的文档数据，实现实时搜索。ES中的数据称为文档，每一条数据就是一个文档，一个文档中包含有多个字段。倒排索引是ES的一种存储结构，一个倒排索引由文档中所有不能重复词的列表构成，对于其中的每个词，都有一个包含它的文档列表、文档的数量、词条在每个文档中出现的次数、出现的位置、每个文档的长度、所有文档的平均长度，在进行查询的时候，通过对词条的搜索，能很快查询出与之相关的文档。比如，在用户埋点数据中，通过输入deviceId字段对应的设备信息，就可以将所有相同deviceId的文档搜索出来。

ES本身自带的聚合功能，允许本发明在海量数据上进行复杂的分析统计。ES的聚合功能有两种类型，分别是指标聚合(metrics)和桶聚合(bucket)。Bucket可以对查询出来的数据进行分组，比如，查询出所有deviceId是同一个的用户埋点数据，再根据时间激活时间activateDate，按照3小时/1天/7天/30天/90天将数据进行分组，就能得到相同deviceId的用户埋点数据在5个不同时间范围的用户埋点数据，每一个时间范围的数据就是一个桶的数据。Metrics聚合，为某个桶中的文档进行计算得到的统计信息。比如，在上述的桶例子中，选择3小时这个桶的数据，根据身份证字段idCard，对桶中的数据进行基数聚合计算，就能得到相同deviceId在3小时内对应不同身份证的数量这个衍生变量。

步骤103：利用所述历史交易数据和实时交易数据构建用户生命周期的动态更新的关系图谱，所述用户生命周期为从注册、交易请求、交易中、交易后至交易结束的完整生命时间。

本步骤103是通过搭建图数据库环境，基于本发明所依据的海量级数据库，抽取不同维度数据源构建图数据库进行关系图谱构建。在实际实施过程中，该步骤103具体可以包括：

S31：抽取所述历史交易数据和实时交易数据中的不同数据源的用户特征数据；

S32：对所述用户特征数据中的用户ID、身份证号码、电话号码、联系人电话号码、IP地址和设备号进行拓扑关联，得到关系网络；

本实施方式相对传统关系型数据库存储方式，面对海量数据具有快速搜索、支持集群模式等良好性能优势。

S33：将所述用户特征数据按照所述关系网络存入图数据库，得到关系图谱；

S34：从所述用户生命周期的起点出发，连接所述用户生命周期中各个操作过程的数据流节点，对所述关系网络进行动态更新。本实施方式能尽可能充分利用自有用户信息，能够有效识别团伙欺诈现象。

步骤104：构建反欺诈引擎：所述反欺诈引擎由反欺诈规则和反欺诈模型组成；所述反欺诈规则为依据历史交易数据生成的用于比对所述实时交易数据的一部分数据确定是否存在欺诈风险的信息规则；所述反欺诈模型为依据历史交易数据利用机器学习算法生成的用于识别所述实时交易数据的另一部分数据是否存在欺诈风险的智能分类模型；

该步骤104具体包括：

S41：将黑灰名单撞库规则、用户异常信息和行为检测规则、设备类及各类账户多头关联规则和用户信息一致性校验规则存入反欺诈规则；

S42：利用K最近邻分类算法构建反欺诈模型：

反欺诈模型主要使用KNN算法(K最近邻(kNN，k-NearestNeighbor)分类算法)。KNN是通过测量不同特征值之间的距离进行分类。KNN模型使用的维度(即入参特征)包括用户基础信息(例如年龄、性别、婚姻状况等)，设备行为轨迹(例如APP访问页面次数，页面停留时长等)，关系网络衍生特征(例如设备号关联用户数等)，客户消费偏好特征(例如母婴类产品消费频数等)等。具体分类方法如下：

S421：选取一部分所述历史交易数据作为训练数据集；所述训练数据包括作为输入参数的用户特征数据和作为分类输出的用户风险偏好；所述用户风险偏好包括正常用户和欺诈用户；其中，训练数据集T＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中x_i∈X为抽取的用户特征数据(即上述入参特征)，y_i∈{c₁,c₂,...,c_n}为用户的风险偏好(0，正常用户；1，欺诈用户)。

S422：计算所述实时交易数据中的新用户的用户特征数据与所述训练数据集中用户特征数据之间的距离。距离度量是描述特征空间中两个实例的距离，也是这两个实例的相似程度。在N维实数向量空间中，本实施例主要使用的距离度量方式是欧式距离，计算公式如下：

N为训练集特征数据的维度。

S423：按照递增顺序对所述距离进行排序，得到顺序距离集；

S424：按照设定数量K选取所述顺利距离集中距离最小值对应的所述实时交易数据中的新用户的用户特征数据作为样本数据集；

S425：计算所述样本数据集中异常用户特征数据所占比例记为用户风险得分；

S426：根据所述用户风险得分确定分类输出的用户风险偏好，得到训练好的反欺诈模型。

测试用户风险偏好即为前K(9<K<19)个点中出现频率最高的风险偏好。例如，K取值11，前K个样本中有3个欺诈用户，8个正常用户。则测试用户的风险偏好得分即：S＝D/K并计算出该反欺诈模型的输出得分，D为欺诈用户的个数，K选取的最近样本数。如果S>0.5，该用户即为高风险用户，反之，即为低风险用户。

步骤105：利用所述反欺诈引擎在所述核心数据索引库、所述地理坐标索引库和所述关系图谱实时在线识别所述实时交易数据存在的进行欺诈交易的用户。

团伙欺诈一般是利用***的漏洞，在短时间内集中操作交易。欺诈份子一般会集中在一起进行操作，共用设备、网络、场所等资源。所以团伙欺诈一般具有地理位置集中、资源共享、时间集中等特性，可以利用这些特性，检测出团伙欺诈交易。例如如果发现一个设备被多人短时间内使用多次，那么这个设备就非常可疑，凡是使用该设备进行的交易都判断为高风险交易。该步骤105具体包括：

S51：利用所述实时交易数据中的设备号作为搜索词，利用所述反欺诈引擎到所述核心数据索引库中检索查询出具有相同设备号的所有数据，再计算所述设备号对应的设备上在预设时间段内发生交易的总次数，当所述总次数大于交易次数阈值时确定所述设备号对应的用户为潜在欺诈用户；

S52：将所述潜在欺诈用户的埋点数据中的地理空间数据，转换成地理坐标，再次利用所述反欺诈引擎到Elasticsearch搜索引擎的地理坐标索引库中进行检索，分析出与所述潜在欺诈用户的空间相似度在预设空间相似度阈值范围内的其他潜在欺诈用户；

S53：再利用所述关系图谱分析多层级所述实时交易数据，并进行一度关联、二度关联、三度关联至N即关联发现潜在欺诈用户团伙，并通过共享实体找出强连通图；

一度关联：根据用户的基础信息，查询出所有关联的数据，例如，一个用户的手机号码，通过关联可以关联出多个设备，该用户的欺诈嫌疑较高。

二度关联：通过用户的基础信息，查询出关联信息，再使用查询出来的关联信息，继续往下查询。例如：一个用户的手机号码关联出一个设备号，使用该设备继续查询关联信息，如果查询出该设备号登录过多手机号码，则该用户也有欺诈嫌疑。依次类推，就能得出一张连通图，用于判定用户的欺诈风险。

S54：基于所述强连通图识别所得到的全部所述潜在欺诈用户中存在欺诈可能概率大于风险阈值的用户为欺诈用户团伙。

当判断出欺诈用户时对这些用户作直接拒绝，或者通过人工审核排查之后进行间接拒绝处理，从而达到对欺诈用户的有效拦截，在提高覆盖率的情况下，尽可能降低误杀比例。

另外，本发明除了

可选的，所述方法还包括：做好反欺诈规则线上触碰情况实时监控之外，同时不断积累离线用户样本(例如审核通过最终放款成功，且至少经过2个还款周期的用户)，通过客户贷后表现(即客户是否逾期)和案***况(例如客户被案调审核出为欺诈用户)对客户进行欺诈用户打标。客户欺诈标签和客户各类特征(维度)确定后，当样本量累计到一定程度，即可根据最新样本表现进行模型训练和规则检视，从而修正、迭代和优化现有反欺诈策略，如此反复，确保反欺诈策略实时性和有效性。具体步骤如下：

利用所述更新样本修正、迭代和优化所述反欺诈模型。

如图2所示，本实施例还提供了一种与基于搜索引擎的实时识别欺诈团伙的方法相对的***，所述***包括：

数据获取单元201，用于获取交易事件中的历史交易数据和实时交易数据，所述历史交易数据和所述实时交易数据均包含埋点数据、业务数据和三方数据，所述埋点数据包括用户操作行为数据和用户所用设备信息；所述业务数据包括生成的商品订单的订单数据；所述三方数据包括用户征信信息；

索引库构建单元202，用于根据所述历史交易数据和实时交易数据，利用Elasticsearch搜索引擎提取用户特征数据，构建核心数据索引库和地理坐标索引库；所述用户特征数据包括用户基本特征数据、用户操作行为数据和用户衍生特征数据；所述用户衍生特征数据根据所述所述历史交易数据和实时交易数据衍生得到；

关系图谱构建单元203，用于利用所述历史交易数据和实时交易数据构建用户生命周期的动态更新的关系图谱，所述用户生命周期为从注册、交易请求、交易中、交易后至交易结束的完整生命时间；

反欺诈引擎构建单元204，用于构建反欺诈引擎：所述反欺诈引擎由反欺诈规则和反欺诈模型组成；所述反欺诈规则为依据历史交易数据生成的用于比对所述实时交易数据的一部分数据确定是否存在欺诈风险的信息规则；所述反欺诈模型为依据历史交易数据利用机器学习算法生成的用于识别所述实时交易数据的另一部分数据是否存在欺诈风险的智能分类模型；

欺诈识别单元205，用于利用所述反欺诈引擎在所述核心数据索引库、所述地理坐标索引库和所述关系图谱实时在线识别所述实时交易数据存在的进行欺诈交易的用户。

其中，所述索引库构建单元202具体包括：

所述关系图谱构建单元203具体包括：

所述反欺诈引擎构建单元204具体包括：

按照递增顺序对所述距离进行排序，得到顺序距离集；

对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于搜索引擎的实时识别欺诈团伙的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于搜索引擎的实时识别欺诈团伙的方法，其特征在于，所述根据所述历史交易数据和实时交易数据，利用Elasticsearch搜索引擎提取用户特征数据，构建核心数据索引库和地理坐标索引库，具体包括：

3.根据权利要求1所述的基于搜索引擎的实时识别欺诈团伙的方法，其特征在于，所述利用所述历史交易数据和实时交易数据构建用户生命周期的动态更新的关系图谱，具体包括：

4.根据权利要求1所述的基于搜索引擎的实时识别欺诈团伙的方法，其特征在于，所述构建反欺诈引擎：所述反欺诈引擎由反欺诈规则和反欺诈模型组成，具体包括：

利用K最近邻分类算法构建反欺诈模型：

按照递增顺序对所述距离进行排序，得到顺序距离集；

5.根据权利要求1所述的基于搜索引擎的实时识别欺诈团伙的方法，其特征在于，所述利用所述反欺诈引擎在所述核心数据索引库、所述地理坐标索引库和所述关系图谱实时在线识别所述实时交易数据存在的进行欺诈交易的用户，具体包括：

6.根据根据权利要求1所述的基于搜索引擎的实时识别欺诈团伙的方法，其特征在于，所述方法还包括：

利用所述更新样本修正、迭代和优化所述反欺诈模型。

7.一种基于搜索引擎的实时识别欺诈团伙的***，其特征在于，所述***包括：

8.根据权利要求7所述的基于搜索引擎的实时识别欺诈团伙的***，其特征在于，所述索引库构建单元具体包括：

9.根据权利要求7所述的基于搜索引擎的实时识别欺诈团伙的***，其特征在于，所述关系图谱构建单元具体包括：

10.根据权利要求9所述的基于搜索引擎的实时识别欺诈团伙的***，其特征在于，所述反欺诈引擎构建单元具体包括：

按照递增顺序对所述距离进行排序，得到顺序距离集；