CN115423542A

CN115423542A - 一种老带新活动反欺诈识别方法及***

Info

Publication number: CN115423542A
Application number: CN202211381968.4A
Authority: CN
Inventors: 韩柳; 李远鑫; 郑宇晟; 黄文辉; 钟佳; 邹健娣
Original assignee: China Post Consumer Finance Co ltd
Current assignee: China Post Consumer Finance Co ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2022-12-02
Anticipated expiration: 2042-11-07
Also published as: CN115423542B

Abstract

本发明涉及一种老带新活动反欺诈识别方法及***，包括：S1：进行黑白灰样本的定义并对样本数量进行判定，当黑白样本比为第一预设值时，则按照白样本进行执行；白样本为：（1）确定贷款且无逾期、白名单；（2）复贷率为第二预设值；（3）审核通过；S2：将裂变拉新活动的行为数据进行清洗，为每用户建立四维张量，并进行重编码操作；S3：基于动态时间规整模型将用户产生的张量进行时间序列的相似度计算；S4：建立图数据，将用户ID作为节点，并建立用户之间和节点之间的边；S5：修改GraphSage模型的采样策略，并进行模型的训练，当召回率为第三预设值时则进行上线迭代，并推送至案调岗，同时为贷前案调岗提供话术设计。

Description

一种老带新活动反欺诈识别方法及***

技术领域

本发明涉及计算机技术领域，具体涉及一种老带新活动反欺诈识别方法及***。

背景技术

FinTech 在金融生态中不断扩张，金融机构正将大量业务快速迁移到互联网上，但在提供网上便利业务的同时，其亦面临着严峻的新兴交易欺诈与安全威胁的挑战；“MGM裂变拉新”是互联网金融客户运营的重要环节之一，其操作门槛简单，吸引了薅羊毛的普通客户，也吸引了黑产危害严重，会导致运营成本失控，数据失真，也影响了后期的运营策略。

而传统反欺诈技术有以下几个局限性：

（1）传统反欺诈手段屡屡因为欺诈行为发生在贷前，其可防范的手段都不能像贷中的反欺诈般，使用过于严苛的规则，否则影响普通客户体验和拉新效果；

（2）单个获利成本并不高，采用传统技术手段，需要处理的客户行为数据巨大，传统特征工程方式很难提取到人与行为的关系模式特征（技术层面）；

（3）裂变是以拉新为目的的业务特性，不允许增加太多的身份认证和设置过多的活动门槛（活动层面）。

发明内容

针对现有技术的不足，本发明提供了一种老带新活动反欺诈识别方法及***，解决了传统的欺诈方法大多只能分析单个样本的风险信息的痛点，图神经网络（GraphSage）能将样本之间的关联信息作为先验知识体现在模型的训练中，即可以将深层的社会关系、节点关系、操作习惯等组合形态挖掘出来，以图结构特征、点特征、边特征的方式呈现出来，且本发明基于图神经网络模型是半监督模型，适合于薅羊毛个体黑样本极少且灰样本（目前没有违约的用户很难确定是否有风险）太多的场景下，即只需要少量有标签的样本就可以训练出精度高的模型。

为了实现本发明的目的，本发明提供一种老带新活动反欺诈识别方法，包括如下步骤：

S1：进行黑白灰样本的定义并对样本数量进行判定，当黑白样本比为第一预设值时，则按照白样本规则进行执行；

白样本规则为：

（1）、确定贷款且无逾期、白名单；

（2）、复贷率为第二预设值；

（3）、审核通过；

S2：将裂变拉新活动的行为数据进行清洗，为每一个用户建立一个四维张量，并进行重编码操作；

S3：基于动态时间规整模型将用户产生的不等长行为张量进行时间序列的相似度计算；

S4：建立图数据，将用户ID作为节点，并分别建立用户之间和节点之间的边；

S5：修改GraphSage模型的采样策略，并进行模型的训练，当召回率为第三预设值时则进行上线迭代，并推送至案调岗，同时为贷前案调岗提供话术设计。

优选的，所述步骤S1中进行黑白灰样本的定义并进行判定的具体步骤包括：

当黑样本和总样本的比例为第四预设值时，则通过滑动时间窗口的转换率来对黑样本的数量进行补充，当灰样本数量需要进行增加或减少时，则通过线上模型灰度迭代返回的硬标签比例来控制灰样本的比例。

优选的，所述步骤S2中为每一个用户建立一个四维张量，并进行重编码操作的具体步骤包括：

为每一个用户建立一个四维张量，其中每个维度分别代表停留时间、event_title向量、次数向量和时间戳，并执行重编码操作。

优选的，所述步骤S3的具体步骤包括：

基于动态时间规整模型将用户产生的不等长行为张量进行时间序列的相似度计算，根据每个用户和其他用户之间的行为相似性计算出相似度数值，其计算方法为：从（0，0）开始匹配序列Q和C，每到一个点，就将之前所有的点计算的距离进行累加，到达终点（n，m）后，其累加距离即为总距离，即序列Q和C的相似度。

优选的，所述步骤S4中分别建立用户之间和节点之间的边的具体步骤为：

通过用户之间的受邀与否的关系建立边，通过相似度作为节点之间联系的边，且两个边均带权重，再进行归一化处理。

优选的，所述步骤S5中修改GraphSage模型的采样策略的具体步骤包括：

按照边的加权平均最大的TOPK作为采样计算的规则，对GraphSage模型的每一层的采样方法进行修改。

优选的，所述步骤S5中提供的话术设计具体包括：

所述话术设计包括询问贷款需求和对活动的评价。

优选的，本发明还提供了一种老带新活动反欺诈识别***，包括：

配置和判定模块：用于进行黑白灰样本的定义并对样本数量进行判定，当黑白样本比为第一预设值时，则按照白样本规则进行执行；

白样本规则为：

（1）、确定贷款且无逾期、白名单；

（2）、复贷率为第二预设值；

（3）、审核通过；

数据模块：用于对裂变拉新活动的行为数据进行清洗，为每一个用户建立一个四维张量，并进行重编码操作；

计算模块：基于动态时间规整模型将用户产生的不等长行为张量进行时间序列的相似度计算；

编辑和控制模块：用于建立图数据，将用户ID作为节点，并分别建立用户之间和节点之间的边；修改GraphSage模型的采样策略，并进行模型的训练，当召回率为第三预设值时则进行上线迭代，并推送至案调岗，同时为贷前案调岗提供话术设计。

优选的，所述配置和判定模块具体包括：

优选的，所述计算模块具体包括：

本发明的有益效果为：本发明提供的老带新活动反欺诈识别方法及***，解决了传统的欺诈方法大多只能分析单个样本的风险信息的痛点，图神经网络（GraphSage）能将样本之间的关联信息作为先验知识体现在模型的训练中，即可以将深层的社会关系、节点关系、操作习惯等组合形态挖掘出来，以图结构特征、点特征、边特征的方式呈现出来，同时适用于黑产或者薅羊毛个体黑样本极少且灰样本（目前没有违约的用户很难确定是否有风险）太多的场景下，即只需要少量有标签的样本就可以训练出精度高的模型。

附图说明

通过附图中所示的本发明优选实施例更具体说明，本发明上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分，且并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本的主旨。

图1为本发明实施例提供的老带新活动反欺诈识别方法及***的总体步骤示意图；

图2为本发明实施例提供的老带新活动反欺诈识别方法及***的流程设计示意图；

图3为本发明提供的裂变活动的业务流程图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步的详细描述，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

请参考图1-3，本发明实施例提供一种老带新活动反欺诈识别方法及***，包括如下步骤：

S1：进行黑白灰样本（黑样本：信誉度较差或低于预设分数（设信誉分总分100，则预设分数为60-70分）；白样本：信誉度较好或高于预设分数；灰样本：位于黑样本和白样本之间的客户）的定义并对样本数量进行判定，当黑白样本比为第一预设值时（黑白样本比不超过1：6时），则按照白样本规则进行执行；

白样本规则为（三条规则按照优先级从高到低执行，直至黑白样本比不超过1：6时则停止）：

（1）、确定贷款且无逾期、白名单；

（2）、复贷率为第二预设值（>=2）；

（3）、审核通过；

S3：基于动态时间规整模型将用户产生的不等长行为张量进行时间序列的相似度计算（采用该方法的原因是因为其适用于不同长度、不同节奏的时间序列，最终为每个用户和其他用户间的行为相似性计算出一个相似度数值，后续这个将作为构图时的边类型，同时是带权重的）；

S5：修改GraphSage模型的采样策略，并进行模型的训练，训练后的推理模型预计能达到召回率为第三预设值（70%）时则进行上线迭代（目标是通过上线后对疑似欺诈客群通过实际案调，来增强后续训练用的数据。这里的流程设计需要兼顾每家公司案调的吞吐，比如每天疑似案件不能超过上百件），并推送至案调岗，同时为贷前案调岗提供和传统信贷案调岗不同的话术设计。

本发明的有益效果为：解决了传统的欺诈方法大多只能分析单个样本的风险信息的痛点，图神经网络（GraphSage）能将样本之间的关联信息作为先验知识体现在模型的训练中，即可以将深层的社会关系、节点关系、操作习惯等组合形态挖掘出来，以图结构特征、点特征、边特征的方式呈现出来，同时适用于黑产或者薅羊毛个体黑样本极少且灰样本（目前没有违约的用户很难确定是否有风险）太多的场景下，即只需要少量有标签的样本就可以训练出精度高的模型。

请参考图1-2，在优选实施例中，所述步骤S1中进行黑白灰样本的定义并进行判定的具体步骤包括：

当黑样本和总样本的比例为第四预设值（小于0.2％）时，则通过滑动时间窗口的转换率来对黑样本的数量进行补充，当灰样本数量需要进行增加或减少时，则通过线上模型灰度迭代返回的硬标签比例来控制灰样本的比例，从而不会由于噪音数据过大，影响到模型收敛。

其中黑样本为信誉度较差的客户，同时黑样本还包括通过人工案调查发现的样本，在金融行业，往往黑样本的数量不会太多，因此当黑样本和总样本的比例小于0.2％时，则需要做黑样本数据分析拟合出在一定时间内其他有相关性的有效特征，即：这里针对裂变拉新活动，结合Vintage的曲线，可以用一定滑动时间窗口的转化率来补充黑样本的数量；灰样本即：无法确定是否有欺诈嫌疑的样本，当灰样本比例过少时，则通过增加信贷中的其他数据作为后台数据补充，可能会超过时间窗口，但此类样本只作为后台样本来解决灰样本数据过少，当灰样本比例过多时，则通过采样的方式进行抽取。

请参考图1-2，在优选实施例中，所述步骤S2中为每一个用户建立一个四维张量，并进行重编码操作的具体步骤包括：

为每一个用户建立一个四维张量，其中每个维度分别代表停留时间、event_title向量、次数向量和时间戳，并执行重编码操作（此处并未保留时间戳的季节、早中晚等特性，后续可针对每家公司的数据生态和客群特点，通过增加图上的节点标签及其权重，体现在图模型的finetune阶段，这里的方法步骤只保留最基础最泛化的方法）。

请参考图1-2，在进一步的优选实施例中，所述步骤S3的具体步骤包括：

基于动态时间规整模型将用户产生的不等长行为张量进行时间序列的相似度计算，根据每个用户和其他用户之间的行为相似性计算出相似度数值，其计算方法为：从（0，0）开始匹配序列Q和C，每到一个点，就将之前所有的点计算的距离进行累加，到达终点（n，m）后，其累加距离（cumulative distances）即为总距离，即序列Q和C的相似度。

累积距离γ(i，j)可以按下面的方式表示：

累积距离γ(i，j)为当前格点距离d（q_i，c_j），也就是点q_i和c_j的欧式距离（相似性）与可以到达该点的最小的邻近元素的累积距离之和，其计算公式如下：

请参考图1-2，在进一步的优选实施例中，所述步骤S4中分别建立用户之间和节点之间的边的具体步骤为：

请参考图1-2，在优选实施例中，所述步骤S5中修改GraphSage模型的采样策略（主要对采样规则进行修改）的具体步骤包括：

按照边的加权平均最大的TOPK作为采样计算的规则，对GraphSage模型的每一层的采样方法进行修改(这里并未增加注意力层，而是修改采用策略)。

请参考图1-2，在进一步的优选实施例中，所述步骤S5中提供的话术设计具体包括：

所述话术设计包括询问贷款需求和对活动的评价。

请参考图1-3，本发明提供的老带新活动反欺诈识别方法及***，先通过各***拉通行为和金融交易数据，然后进行活动时间窗口的划分，当黑样本和总训练样本（黑白灰样本）的比例高于0.2％时（低于0.2％时，则需要做黑样本数据分析拟合出在一定时间内其他有相关性的有效特征），则判定黑白样本比是否超过1：6（未超过1：6时，则按照白样本规则的优先级从高到低执行，直至达到比例），若超过了，在检查灰样本的数量比例是否合适（过少时，则通过增加信贷中的其他数据作为后台数据补充，可能会超过时间窗口，但此类样本只作为后台样本来解决灰样本数据过少，当过多时，则通过采样的方式进行抽取），当灰样本比例满足条件（可预设）时，则进行行为相似度（用户之间的时间序列的相似度）的计算，然后进行图数据的构建，并按照边的加权平均最大的TOPK作为采样计算的规则，对GraphSage模型的每一层的采样方法进行修改，在进行模型的训练，同时为贷前案调岗提供话术设计（与传统信贷案调岗不同的话术设计，具体包括但不限于：询问贷款需求以及对活动的评价等），并控制每家公司案件的吞吐数量，并通过模型预测出每个节点的疑似欺诈概率（召回率达到70％），并推送至案调岗，并对疑似诈骗的客户进行标记，从而再次进行模型训练。

请参考图1-3，在优选实施例中，本发明还提供了一种老带新活动反欺诈识别***，包括：

白样本规则为：

（1）、确定贷款且无逾期、白名单；

（2）、复贷率为第二预设值；

（3）、审核通过；

请参考图1-3，在优选实施例中，所述配置和判定模块具体包括：

请参考图1-3，在优选实施例中，所述计算模块具体包括：

本发明提供的老带新活动反欺诈识别方法及***，还具有以下特点：

1、基于金融信贷裂变活动的获利规则模式的规律，可识别异常点，规律有：裂变拉新活动发布周期短，频率较高，容易出现活动漏洞，如通过注销号码重新领取奖励，利用奖励规则在任务平台发布任务，这类似众包的方式可召集到大量单纯为获利的人群。

2、基于金融信贷裂变活动的客群行为模式的规律，可识别异常点，规律有：黑产聚集的人群行为模式有规律，操作熟练，如受训般有固定的操作模式，时间集中，平台停留时间可观察，获取奖励路径清晰，套取利益后大多无后续业务行为。

本发明的有益效果为：本发明提供了一种老带新活动反欺诈识别方法及***，解决了传统的欺诈方法大多只能分析单个样本的风险信息的痛点，图神经网络能将样本之间的关联信息作为先验知识体现在模型的训练中，即可以将深层的社会关系、节点关系、操作习惯等组合形态挖掘出来，以图结构特征、点特征、边特征的方式呈现出来，同时基于图神经网络模型GraphSage模型，适合于黑产或者薅羊毛个体黑样本极少且灰样本（目前没有违约的用户很难确定是否有风险）太多的场景下，即只需要少量有标签的样本就可以训练出精度高的模型。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种老带新活动反欺诈识别方法，其特征在于，包括如下步骤：

白样本规则为：

（1）、确定贷款且无逾期、白名单；

（2）、复贷率为第二预设值；

（3）、审核通过；

2.如权利要求1所述的老带新活动反欺诈识别方法，其特征在于，所述步骤S1中进行黑白灰样本的定义并进行判定的具体步骤包括：

3.如权利要求1所述的老带新活动反欺诈识别方法，其特征在于，所述步骤S2中为每一个用户建立一个四维张量，并进行重编码操作的具体步骤包括：

4.如权利要求1所述的老带新活动反欺诈识别方法，其特征在于，所述步骤S3的具体步骤包括：

基于动态时间规整模型将用户产生的不等长行为张量进行时间序列的相似度计算，根据每个用户和其他用户之间的行为相似性计算出相似度数值，其计算方法为：从（0,0）开始匹配序列Q和C，每到一个点，就将之前所有的点计算的距离进行累加，到达终点（n，m）后，其累加距离即为总距离，即序列Q和C的相似度。

5.如权利要求1所述的老带新活动反欺诈识别方法，其特征在于，所述步骤S4中分别建立用户之间和节点之间的边的具体步骤为：

6.如权利要求5所述的老带新活动反欺诈识别方法，其特征在于，所述步骤S5中修改GraphSage模型的采样策略的具体步骤包括：

7.如权利要求1所述的老带新活动反欺诈识别方法，其特征在于，所述步骤S5中提供的话术设计具体包括：

所述话术设计包括询问贷款需求和对活动的评价。

8.一种老带新活动反欺诈识别***，其特征在于，包括：

白样本规则为：

（1）、确定贷款且无逾期、白名单；

（2）、复贷率为第二预设值；

（3）、审核通过；

9.如权利要求8所述的老带新活动反欺诈识别***，其特征在于，所述配置和判定模块具体包括：

10.如权利要求8所述的老带新活动反欺诈识别***，其特征在于，所述计算模块具体包括：