CN109710890B

CN109710890B - 基于构建的行为画像模型实时识别虚假材料的方法和***

Info

Publication number: CN109710890B
Application number: CN201811566426.8A
Authority: CN
Inventors: 王萍; 贾坤; 陈少磊
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2023-06-09
Anticipated expiration: 2038-12-20
Also published as: CN109710890A

Abstract

本发明公开了一种基于构建的行为画像模型实时识别虚假材料的方法和***，该方法主要应用于互联网行业用户材料真伪的实时审核领域。该技术方法解决了现有技术采用单点判断，误命中率高、精准度较低、投入成本极大的问题。本发明包括识别模型的构建，通过识别模型对用户材料进行审核，并在移动端或PC端跟用户进行实时交互，实时监测用户提交材料的真伪。本发明用于在线实时识别用户提交材料的真伪。

Description

基于构建的行为画像模型实时识别虚假材料的方法和***

技术领域

一种基于构建的行为画像模型实时识别虚假材料的方法和***，用于精确的识别用户填写的材料的真伪，属于互联网反欺诈技术领域，并可拓展到任何线上需要核实用户填写资料真伪的领域。

背景技术

用户行为画像指基于用户点击流数据构建的一系列用户行为特征的标签。

虚假资料：互联网业务场景中，需要用户填写一些列的个人材料，包括：家庭地址、联系人手机号、联系人姓名、公司单位、单位地址等；泛指用户填写的资料是虚假的。

互联网中需要通过核实用户信息的行业调查发现黑产技术手段不断升级，为了让不合格的材料符合要求，各种包装虚假资料层出不穷，如何有效的识别用户资料真伪已成为互联网行业的防控重点。传统的方法主要依托于人工电核、交叉验证等。现有技术一般通过人工电核、交叉验证等方法识别资料的真伪。第一种方法，人工电核，即通过客服呼叫用户，对用户填写的资料进行核对复审，通过电话综合核实信息的真伪；此种方法主要的弊端有：1、资金成本及人力成本投入极高；2、审核时间长，从而增加整个提交时长；3、用户体验极差；4、不容易从电话交谈发现资料的真伪。第二种方法，交叉验证，即通过查询外部三方数据，跟用户填写的资料进行比对。此种方法的主要弊端有：1、查询外部数据，需要通过购买的方式获取外部数据，势必增加资金成本；2、外部数据存在查得率和时点误差的问题，导致误拒率增加；3、对于文本类信息，目前无法做到完全精准模糊匹配，如：用户填写的公司为“成都华为”，外部数据查询回来的用户公司信息为“华为技术有限公司成都研究所”，***会认为不一致，导致误识别。

综上，现有关于提交资料审核的方法存在的主要问题为：1、准确率极低；2、投入成本极高；3、无法在线实时判断资料的真伪。

发明内容

针对上述研究的问题，本发明的目的在于提供基于构建的行为画像模型实时识别虚假材料的方法和***，解决现有技术采用单点判断，误命中率高、精准度较低、投入成本极大的问题，本发明包括识别模型的构建，通过识别模型对用户材料进行审核，并在移动端或PC 端跟用户进行实时交互，实时监测用户提交材料的真伪。

为了达到上述目的，本发明采用如下技术方案：

一种构建识别虚假材料的行为画像模型的方法，其特征在于，如下步骤：

S1、在线实时获取用于训练的用户行为画像，作为特征集V1；

S2、将特征集V1实时通过随机森林进行特征重要性排序，剔除未被***的特征进行特征加工，构建剔除特征后的用户行为画像，作为特征集V2；

S3、对特征集V2进行二次建模，得到二次建模后的特征集V3；

S4、用特征集V3构建逻辑回归模型得到识别模型，得到最终的识别模型。

进一步，所述步骤S1的具体步骤为：

S1.1、通过在页面埋SDK的方式，获取用户相关的点击流数据，如；

S1.2、在特征工厂中将点击流数据加工生成用户行为画像标签，所有用户行为画像标签构成用户行为画像。

进一步，所述步骤S1.2中，采用***特征工厂将点击流数据实时加工生成用户行为画像标签。

进一步，所述步骤S3的具体步骤为：

S3.1、对特征集V2进行随机分层采样，生成M1、M2、..Mn，n个不同类型的划分，每个类型分为训练集和验证集；

S3.2、基于XGBOOST方法对不同类型进行二次建模，构建n个不同的模型；

S3.3、将构建的模型得到的结果作为新的特征并结合特征集V2构建新的特征集V3。

进一步，所述步骤S4的具体步骤为：

S4.1、通过岭回归方式选择特征集V3中最显著的特征作为解释变量；

S4.2、对解释变量进行最大对数似然估计；

S4.3、若特征集V3中还有显著的解释变量，重复步骤S4.1-步骤S4.3，否则将似然估计进行保留的所有特征作为识别模型。

一种基于构建的行为画像模型实时识别虚假材料的方法，其特征在于，具体步骤为：

步骤1、用户填写资料时，在线实时获取用户相关的点击流数据处理成待识别的用户行为画像标签；

步骤2、将待识别的用户行为画像标签输入到识别模型进行判断，并对识别的虚假材料进行拦截。

进一步，所述步骤2中的识别模型是通过页面埋SDK的方式植入的。

一种基于构建的行为画像模型实时识别虚假材料的***，其特征在于，包括：规则引擎***，规则引擎***包括；

***特征工厂模块：用于在用户填写资料时，在线实时获取用户相关的点击流数据处理成待识别的用户行为画像标签；

识别模块：将待识别的用户行为画像标签输入到识别模型进行判断，并对识别的虚假材料进行拦截。

进一步，所述识别模块中通过页面埋SDK的方式植入的识别模型。

本发明同现有技术相比，其有益效果表现在：

1、本发明中识别模型的AUC为0.9-0.98，Gini系数为0.8-0.96，从AUC和Gini可以看出虚假资料模型具有极强的区分能力。选择最优的模型，通过F1去寻找最优的cut-off点，当设置虚假资料指数>＝75为虚假时，本发明中的识别方法具有较高的精准度和极低的误命中率，其中误命中率为0.7％，，精度为92％，相较传统的识别方式，本发明识别能力极高，较传统交叉验证方法精度提高80％；

2、本发明的识别方法可以跟用户进行实时交互，实时提示用户填写正确的提交资料材料，提高了材料的可用性；

3、本发明的识别方法极大的降低了资金投入，节约了时间成本。传统的交叉验证方法，需要查询外部数据进行交叉比对，该技术方法在线实时判断，轻松的解决了外部数据查得率极低、查询费用高、扭转时间长的问题；通过***自动识别材料的真伪，

4、本发明的识别方法完全替代了人工核实的方法，通过SDK在线实时进行判断，不仅实现了智能化，真正的节省了人力成本；

5、本发明的识别方法能应对欺诈作案手段的不断更新，调整速率能实时跟上新的欺诈手段；

6.本发明采用二次建模，即在初始模型的基础上再次构建模型，目的是为了更好的达到数据的准确性和稳健性。

附图说明

无

具体实施方式

实施例

本文提出了一种基于用户行为画像的虚假资料识别方法，该方法基于庞大的用户行为特征标签体系，通过二次建模的方式后，基于逐步回归的逻辑回归生成提交资料评分卡(即识别模型)，输出提交资料指数，定量判断用户填写资料的真伪。不仅替代了人工资料审核的流程，且能实时识别用户填写虚假资料的可能性

在具体的应用场景中所带来的效果如下：

在互联网提交资料业务授信环节，实时对在线提交用户进行预测，并能跟用户进行实时交互，提醒用户填写正确的信息。

具体实施方式如下：

先构建识别模型，一种构建识别虚假材料的行为画像模型的方法，如下步骤：

S1、获取用于训练的用户行为画像，作为特征集V1；

具体步骤为：

S1.1、通过在页面埋SDK的方式，获取用户相关的点击流数据；用户行为画像依赖于庞大的用户行为数据，需要在移动端进行埋点，通过页面埋SDK的方式，获取用户相关的基础信息，如：IP、GPS、设备信息等；并记录用户所有的操作记录；

S1.2、将点击流数据加工生成用户行为画像标签，所有用户行为画像标签构成用户行为画像；用户行为画像的特征的实时计算，基于***特征工厂模块，如在信贷行业采用反欺诈规则引擎***中的反欺诈特征工厂模块，强大的数据处理能力和运算能力，实时(毫秒级)加工生成用户行为画像标签。

通过***特征工厂模块，实时加工生成一系列特定的用户行为画像标签，如：1、用户使用时空偏好，如：商圈地点偏好(旅游地区、商业区、办公区等)、使用时间偏好(工作日/节假日、早、中、晚等)；2、用户操作频率/周期偏好，如：月均登录次数、注册提交间隔时间等；3、点击流信息，如：用户打字速度、用户输入公司单位时长等；4、陀螺仪信息，如：用户使用手机的位置、常用点击位置；5、用户各维度关联信息(如：设备关联的手机号个数、手机号关联的身份证个数等)等。

将得到的用户行为画像标签输入到反欺诈规则引擎***中的识别模块中，从而进行步骤 S2-S4构建识别模型。

S2、将特征集V1通过随机森林进行特征重要性排序，剔除未被***的特征，构建剔除特征后的用户行为画像，作为特征集V2；

S3、对特征集V2进行二次建模，得到二次建模后的特征集V3；

具体步骤为：

S3.1、对特征集V2进行随机分层采样，生成M1、M2、..Mn，n个不同类型的划分，每个类型分为训练集和验证集；不同类型为不同虚假材料类型，如联系人虚假模型、工作单位名称虚假模型、工作单位地址虚假模型等3个模型；

S4、用特征集V3构建逻辑回归模型得到识别模型，即得到最终的识别模型。即构建虚假资料的评分卡和虚假资料指数指数(0-100)。具体步骤为：

S4.2、对解释变量进行最大对数似然估计；

在实施例中，可定义75分以上为虚假资料高风险。

在进行具体虚假材料识别前，先通过页面埋SDK的方式植入识别虚假材料的识别模型。

一种基于构建的行为画像模型实时识别虚假材料的方法，具体步骤为：

步骤1、用户填写资料时，在线实时获取用户相关的点击流数据，通过特征工厂模块实时处理成待识别的用户行为画像标签；

步骤2、将待识别的用户行为画像标签输入到识别模型进行判断，并对识别的虚假材料进行拦截。即将加工好的用户行为画像标签传入SDK，进行资料虚假模型识别；实时反馈识别结果，若SDK判断为资料虚假，则页面提示用户“请输入正确的信息”；反复交互(即输错后重新再次输入判断)，知道识别模型认定资料真实。为防止误判，可以在SDK中植入交互次数限制，如最多3次。交互完成继续往后面流程走。

综上所述，本发明通过识别模型对用户材料进行判断，并在移动端或PC端跟用户进行实时交互，实时监测用户提交材料的真伪。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种构建识别虚假材料的行为画像模型的方法，其特征在于，如下步骤：

S1、获取用于训练的用户行为画像，作为特征集V1；

S3、对特征集V2进行二次建模，得到二次建模后的特征集V3；

所述步骤S3的具体步骤为：

S3 .1、对特征集V2进行随机分层采样，生成M1、M2、..Mn，n个不同类型的划分，每个类型分为训练集和验证集；

S3 .2、基于XGBOOST方法对不同类型进行二次建模，构建n个不同的模型；

S3 .3、将构建的模型得到的结果作为新的特征并结合特征集V2构建新的特征集V3；

2.根据权利要求1所述的一种构建识别虚假材料的行为画像模型的方法，其特征在于：所述步骤S1的具体步骤为：

S1 .1、通过在页面埋SDK的方式，获取用户相关的点击流数据；

S1 .2、将点击流数据加工生成用户行为画像标签，所有用户行为画像标签构成用户行为画像。

3.根据权利要求2所述的一种构建识别虚假材料的行为画像模型的方法，其特征在于：所述步骤S1 .2中，采用***特征工厂将点击流数据实时加工生成用户行为画像标签。

4.根据权利要求3所述的一种构建识别虚假材料的行为画像模型的方法，其特征在于：所述步骤S4的具体步骤为：

S4 .1、通过岭回归方式选择特征集V3中最显著的特征作为解释变量；

S4 .2、对解释变量进行最大对数似然估计；

S4 .3、若特征集V3中还有显著的解释变量，重复步骤S4 .1-步骤S4 .3，否则将似然估计进行保留的所有特征作为识别模型。

5.一种基于构建的行为画像模型实时识别虚假材料的方法，用于实现权利要求1-4任一所述的一种构建识别虚假材料的行为画像模型的方法，其特征在于，具体步骤为：

6.根据权利要求5所述的一种基于构建的行为画像模型实时识别虚假材料的方法，其特征在于，所述步骤2中的识别模型是通过页面埋SDK的方式植入的。

7.一种基于构建的行为画像模型实时识别虚假材料的***，用于实现权利要求1-4任一所述的一种构建识别虚假材料的行为画像模型的方法或用于实现权利要求5-6任一所述的一种基于构建的行为画像模型实时识别虚假材料的方法，其特征在于，包括：规则引擎***，规则引擎***包括；

8.根据权利要求7所述的一种基于构建的行为画像模型实时识别虚假材料的***，其特征在于：所述识别模块中通过页面埋SDK的方式植入的识别模型。