CN114119037A

CN114119037A - 一种基于大数据的营销反作弊***

Info

Publication number: CN114119037A
Application number: CN202210079401.5A
Authority: CN
Inventors: 邓小明
Original assignee: Shenzhen Shang Mi Network Technology Co ltd
Current assignee: Shenzhen Shang Mi Network Technology Co ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-03-01
Anticipated expiration: 2042-01-24
Also published as: CN114119037B

Abstract

一种基于大数据的营销反作弊***，应用于营销反作弊，所述***包括云服务器和用户终端；当所述***工作时，通过以下步骤实现营销反作弊功能：当用户在用户终端进行营销活动相关操作时，向云服务器发出风险识别请求，云服务器接收请求后调用数据采集模块向用户终端发出数据采集指令；用户终端响应数据采集指令，云服务器在接收到数据后调用风险识别控制模块分别采用黑白名单数据库对比和风险模型判断的方法进行风险判断；云服务器得到风险判断指令；云服务器将风险判断指令作为所述风险识别请求的响应传输给用户终端，用户终端根据风险判断指令通过或拒绝用户操作。

Description

一种基于大数据的营销反作弊***

技术领域

本发明涉及计算机软件技术领域，具体涉及一种基于大数据的营销反作弊***。

背景技术

在电子商务及互联网服务日益普及的当下，各电子商务与互联网平台普遍采用发放优惠、推广奖励、新用户奖励等营销方式，提高自身的运营收益。但由于“羊毛党”这一灰黑产业的存在，给互联网平台造成大量的经济损失，同时也带来了个人信息泄漏等安全风险。营销反作弊是指，针对电子商城、互联网平台等各渠道上存在的营销活动刷单、渠道推广造假、虚假用户裂变等营销活动作弊手段，采取一定技术或规则，阻止上述作弊手段的行为。

当前营销反作弊普遍采用的方式有规则策略法、黑名单法及风险模型识别法。上述方法中，规则策略法往往对新产生的营销漏洞反应不够敏捷；黑名单法则容易误伤部分正常用户，导致平台口碑下降；风险模型识别法由于建模数据维度单一，准确性也大打折扣。

发明内容

鉴于所述问题，为更加准确的识别营销作弊行为，避免误伤带来的平台声誉下降问题，提出了一种基于大数据的营销反作弊***，包括：

一种基于大数据的营销反作弊***，应用于营销反作弊，所述***包括云服务器和用户终端；所述云服务器包括数据库、处理器和存储器；当所述***工作时，通过以下步骤实现营销反作弊功能：

步骤S1、当用户在用户终端进行营销活动相关操作时，向云服务器发出风险识别请求，云服务器接收请求后调用数据采集模块向用户终端发出数据采集指令、采集预设样本采集时间区间

内的所有用户终端内的第一操作数据；

步骤S2、用户终端响应数据采集指令，云服务器在接收到第一操作数据后调用风险识别控制模块分别采用黑白名单数据库对比和风险模型判断的方法进行风险判断，得到第一风险判断结果、第二风险判断结果；

步骤S3、云服务器检测到第一风险判断结果、第二风险结果生成后，再次调用风险识别控制模块，以第一风险判断结果、第二风险结果为输入数据进行风险判断，得到风险判断指令；

步骤S4、云服务器将风险判断指令作为所述风险识别请求的响应传输给用户终端，用户终端根据风险判断指令通过或拒绝用户操作；

其中，黑白名单数据库及风险模型通过以下方式构建：

步骤S5、云服务器在当前数据周期内，通过数据采集接口模块持续获取第一用户平台操作行为环境数据及第三方黑白名单数据，分别存储在基础数据库、黑白名单数据库中；

其中，

为当前***所处的运行周期；

为***预设的第一***数据积累时间，在

内所述***进行数据采集工作；

步骤S6、当第一***数据积累周期

结束时，所述风险识别控制模块立即开始对所述基础数据库中存储的第一用户平台操作行为环境数据执行风险预判断操作，得到第一数据分析样本；

步骤S7、云服务器调用风险模型训练分析模块以第一数据分析样本为数据集，利用机器学习算法训练风险模型，得到第一风险判断模型，并存储至风险模型数据库中；

步骤S8、云服务器调用风险识别控制模块查询所述基础数据库中时间戳在

内的数据得到第二基础数据，并将其输入第一风险判断模型中得到对应数据的第一分类结果；

其中，

为当前***所处的运行周期

前一个运行周期；

步骤S9、分别按照用户id、IP、设备指纹对第一分类结果进行聚合，得到第一校正数据，并按照第一校正数据对所述黑白名单数据库中的数据进行更新。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种基于大数据的营销反作弊***达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明结合传统黑名单法及风险模型法，但并非为二者的简单结合，而是通过算法使风险模型与黑名单数据互相迭代优化，提高了营销反作弊***的可靠性与准确性；同时依靠所述所述风险识别控制模块对风险模型与黑名单判断的结果进行评估分析，进一步降低了误判漏判风险，提升了***准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的一种基于大数据的营销反作弊***的结构框图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种基于大数据的营销反作弊***，详细说明如后。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

本发明实施例提供了一种基于大数据的营销反作弊***，包括：

一种基于大数据的营销反作弊***，应用于营销反作弊，所述***涉及云服务器和用户终端。如图1所示，云服务器包括数据库、处理器和存储有分析控制模块程序、数据采集接口模块的存储器；其中，数据库包括基础数据库、黑白名单数据库、风险模型数据库；所述分析控制模块包括风险模型训练分析模块、风险识别控制模块。

所述基础数据库用于存储用户操作数据，所述黑白名单数据库用于存储高风险的用户数据，所述风险模型数据库用于存储高风险用户特征模型数据。

所述风险模型训练分析模块是指用于对具有风险标识的用户操作数据采用机器学***台营销活动时产生的行为数据及历史数据与所述黑白名单数据库数据或所述风险模型数据库数据进行对比判断、并作出风控措施的程序模块；所述数据采集接口模块是指实现获取用户的平台操作行为环境数据、获取第三方黑白名单数据、获取用户操作数据及输出风控指令的程序模块。

当所述***工作时，通过以下步骤实现营销反作弊功能：

内的所有用户终端内的第一操作数据；

其中，黑白名单数据库及风险模型通过以下方式构建：

步骤S5、云服务器在当前数据周期

内，通过数据采集接口模块持续获取第一用户平台操作行为环境数据及第三方黑白名单数据，分别存储在基础数据库、黑白名单数据库中；

其中，为当前***所处的运行周期；

为***预设的第一***数据积累时间，在

内所述***进行数据采集工作；

步骤S6、当第一***数据积累周期

其中，

为当前***所处的运行周期

前一个运行周期；

作为一种实施例，所述步骤S2包括：

步骤S21、所述风险识别控制模块提取第一用户操作数据中的用户id、IP、设备指纹数据作为第一判断数据集，并将第一判断指标与所述黑白名单数据库进行对比，得到第一风险判断结果；

步骤S22、预设样本采集时间区间

，所述风险识别控制模块提取包括当前操作时间戳的前

内的用户操作数据集作为第二判断数据集，并将第二判断数据集输入第一风险模型，得到第二风险判断结果；

其中，所述第一风险判断结果为数据字典，形式为{"id结果":

, "ip结果":

, "设备指纹结果":

}，其中

、

分别代表用户id、ip、设备指纹数据是否命中所述黑白名单数据库中对应的黑白名单列表的结果；

、

可取值为“0”、“1”或“2”，其中“0”代表第一判断指标可在对应黑白名单列表中查询到结果、且结果中风险等级标识字段为“0”， “1”代表第一判断指标可在对应黑白名单列表中查询到结果、且结果中风险等级标识字段为“1”，“2”代表第一判断指标未在对应黑白名单列表中查询到结果。

所述第二风险判断结果为数据字典，包括利用第一风险模型对所述第二判断数据集的分类结果，形式为{"classification":

}，其中

可取值为“0”或“1”，“0”代表风险判断为“安全”，“1”代表风险判断为“异常”。

所述第一判断规则为：

（1）当

时，判断结果与

一致；

（2）当

，但与

不同时，判断结果与

一致；

（3）当

、

取值不一致时：

计算风险概率

，

若

，且

，则判断结果为1；若

，且

，则判断结果为0；若

，且

，则判断结果为1；若

，且

，则判断结果为1；其中

为预设的风险概率阈值，

为预设的风险概率系数。

作为一种实施例，

步骤S5中所述第一用户平台操作行为环境数据包括：用户id、登陆地址、登陆IP、登陆途径、设备指纹、营销类型信息、操作对象、操作时间、关联id；所述第三方灰名单数据包括风险id、风险IP、风险设备、风险地址。

所述基础数据库包括用户信息列表、用户行为列表、用户环境列表。所述用户信息列表包括用户id字段、用户性别标识、用户年龄字段、关联手机号字段、电子邮箱字段、关联社交平台账号字符串字段。所述用户行为列表包括操作id字段、用户id字段、操作类型id字段、操作对象id字段、操作时间字段、营销活动标识、营销商品价格、价格优惠等级；所述营销活动标识包括“0”、“1”、“2”，其中“0”表示非营销活动、“1”表示商品价格优惠活动、“2”表示其他营销活动。所述用户环境列表包括操作id字段、设备指纹字符串字段、IP字符串字段、地址字符串字段。

所述黑白名单数据库包括IP黑白名单列表，设备指纹黑白名单列表，用户id黑白名单列表。所述IP黑白名单列表包括IP字符串字段；所述IP黑白名单列表包括IP字符串字段；所述设备指纹黑白名单列表包括设备指纹字符串字段；所述用户id黑白名单列表包括用户id字段。所述黑白名单数据库中的列表均包括风险等级标识字段和数据来源标识字段；所述风险等级标识字段包括“0”、“1”，其中“0”表示白名单、“1”表示黑名单；所述数据来源标识字段包括“0”、“1”，“0”表示经***或人工确认的内部数据，“1”表示来自第三方黑白名单数据库的未经确认的外部数据。

所述风险模型数据库包括风险模型记录列表。所述风险模型记录列表包括模型算法类型字符串字段、生成时间字段、数据累积周期时间字段、模型表达式字符串字段、模型参数字典字符串字段。

作为一种实施例，所述步骤S6包括：

步骤S61、所述风险识别模块从所述基础数据库中分别以用户id、IP、设备指纹为关键字提取

内积累的第一用户平台操作行为环境数据，得到第一id数据样本、第一 IP数据样本、第一设备指纹数据样本；

步骤S62、以所述第一id数据样本的用户id、第一IP数据样本中的IP、第一设备指纹数据样本中的设备指纹，分别在所述用户id黑白名单列表、所述IP黑白名单列表、所述设备指纹黑白名单列表进行查询，并返回查询结果；

步骤S63、若上述查询操作有查询结果，则根据查询结果给对应的数据样本打上数据来源标签及风险等级标签；若上述查询操作无查询结果，则其数据来源标签字段设为“1”、其风险等级标签字段设为“0”；

步骤S64、将上述步骤操作得到的数据样本打包，得到第一数据分析样本；

可以理解的是，所述第一数据分析样本包括第一id分析样本、第一IP分析样本、第一设备指纹分析样本。

作为一种实施例，所述步骤S7包括：

步骤S71、所述风险模型训练分析模块对所述第一数据分析样本进行数据清洗，并根据所述数据来源标签字段拆分第一数据分析样本，其中所述数据来源标签字段为“0”的数据拆分后得到第一测试集样本，所述数据来源标签字段为“1”的数据拆分后得到第一训练集样本；

步骤S72、根据所述风险模型训练分析模块根据预设的第一统计特征规则分别对所述第一测试集样本及第一训练集样本进行特征提取，得到第一测试集样本特征数据、第一训练集样本特征数据；

步骤S73、利用第一训练集样本特征数据采用机器学习算法训练风险模型；

步骤S74、利用第一测试集样本特征数据对步骤S73中的风险模型进行评估，计算召回率和准确率；当召回率和准确率满足预设召回率阈值和准确率阈值，输出当前风险模型，得到第一风险模型；当召回率和准确率不满足预设召回率阈值和准确率阈值，返回步骤S73，重新调整参数或更换算法，直到满足预设阈值条件。

可以理解的是，所述步骤S71中所述数据清洗包括归一化、离散化、因子化、缺失值处理、去除共线性等，属于常规数据处理手段，在此不赘述。

步骤S72中所述第一统计特征规则规定了对步骤S71中第一测试集样本、第一训练集样本进行特征提取时所需要统计的数据特征，包括ID特征数据、IP特征数据、设备指纹特征数据；所述ID特征数据包括：登陆地址频率分布、登陆IP频率分布、设备指纹频率分布，不同营销活动标识下的各操作类型频率分布、各营销商品价格特征、各价格优惠等级分布、操作时间频率分布；所述IP特征数据包括：用户id频率分布、设备指纹频率分布、登陆地址频率分布、不同营销活动标识下的操作类型频率分布、各营销商品价格特征、各优惠等级分布、操作时间频率分布；所述设备指纹特征数据包括：用户id频率分布、登陆IP分布、登陆地址频率分布、不同营销活动标识下的操作类型频率分布、各营销商品价格特征、各优惠等级分布、操作时间频率分布。

可以理解的是，步骤S72中所述特征提取为常规的数据分析方法，依靠包括但不限于SQL、Python、C++语言均可实现所述统计操作，在此不赘述。

可以理解的是，所述步骤S73中所述机器学习算法包括：逻辑回归算法、决策树、遗传算法、支持向量机（SVN）、K-means算法、随机森林和朴素贝叶斯算法，采用不同算法时其程序设计有所差异，但均为成熟技术手段，本领域的技术人员根据上述实施例的描述，完全可顺利实现该算法，在此不赘述。

作为一种实施例，所述步骤S9包括:

步骤S91、分别按照用户id字段、IP字段、设备指纹字段对第一分类结果进行分组聚合，保留对应分组聚合字段及分类结果字段，得到第一id校正数据、第一IP校正数据、第一设备指纹校正数据；

所述分类结果字段包括“0”和“1”，其中“0”代表分类结果为“安全”，“1”代表分类结果为“异常”；

所述第一校正数据为第一id校正数据、第一IP校正数据、第一设备指纹校正数据的集合；

步骤S92、分别将第一id校正数据、第一IP校正数据、第一设备指纹校正数据与用户id黑白名单列表、IP黑白名单列表、设备指纹黑白名单列表进行对比校验；

步骤S93、若上述黑白名单列表中存在对应校正数据，且黑白名单列表中数据来源标识字段为“1”，则将所述数据来源标识字段设为“0”；若上述黑白名单列表中不存在对应校正数据，则将对应校正数据中分类结果字段为“1”的数据写入对应的黑白名单列表中，其数据来源标识字段设为“1”，风险等级标识字段设为“1”；若上述黑白名单列表中不存在对应校正数据，则将对应校正数据中分类结果字段为“0”的数据写入对应的黑白名单列表中，其数据来源标识字段设为“1”，风险等级标识字段设为“0”。

本发明实施例提供的云服务器包括数据库、处理器和存储器。其中存储器可以是磁盘、闪存或其他非易失性存储器。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机、可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后，需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。