CN114119037A - 一种基于大数据的营销反作弊*** - Google Patents

一种基于大数据的营销反作弊*** Download PDF

Info

Publication number
CN114119037A
CN114119037A CN202210079401.5A CN202210079401A CN114119037A CN 114119037 A CN114119037 A CN 114119037A CN 202210079401 A CN202210079401 A CN 202210079401A CN 114119037 A CN114119037 A CN 114119037A
Authority
CN
China
Prior art keywords
data
risk
black
user
white list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210079401.5A
Other languages
English (en)
Other versions
CN114119037B (zh
Inventor
邓小明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shang Mi Network Technology Co ltd
Original Assignee
Shenzhen Shang Mi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shang Mi Network Technology Co ltd filed Critical Shenzhen Shang Mi Network Technology Co ltd
Priority to CN202210079401.5A priority Critical patent/CN114119037B/zh
Publication of CN114119037A publication Critical patent/CN114119037A/zh
Application granted granted Critical
Publication of CN114119037B publication Critical patent/CN114119037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于大数据的营销反作弊***,应用于营销反作弊,所述***包括云服务器和用户终端;当所述***工作时,通过以下步骤实现营销反作弊功能:当用户在用户终端进行营销活动相关操作时,向云服务器发出风险识别请求,云服务器接收请求后调用数据采集模块向用户终端发出数据采集指令;用户终端响应数据采集指令,云服务器在接收到数据后调用风险识别控制模块分别采用黑白名单数据库对比和风险模型判断的方法进行风险判断;云服务器得到风险判断指令;云服务器将风险判断指令作为所述风险识别请求的响应传输给用户终端,用户终端根据风险判断指令通过或拒绝用户操作。

Description

一种基于大数据的营销反作弊***
技术领域
本发明涉及计算机软件技术领域,具体涉及一种基于大数据的营销反作弊***。
背景技术
在电子商务及互联网服务日益普及的当下,各电子商务与互联网平台普遍采用发放优惠、推广奖励、新用户奖励等营销方式,提高自身的运营收益。但由于“羊毛党”这一灰黑产业的存在,给互联网平台造成大量的经济损失,同时也带来了个人信息泄漏等安全风险。营销反作弊是指,针对电子商城、互联网平台等各渠道上存在的营销活动刷单、渠道推广造假、虚假用户裂变等营销活动作弊手段,采取一定技术或规则,阻止上述作弊手段的行为。
当前营销反作弊普遍采用的方式有规则策略法、黑名单法及风险模型识别法。上述方法中,规则策略法往往对新产生的营销漏洞反应不够敏捷;黑名单法则容易误伤部分正常用户,导致平台口碑下降;风险模型识别法由于建模数据维度单一,准确性也大打折扣。
发明内容
鉴于所述问题,为更加准确的识别营销作弊行为,避免误伤带来的平台声誉下降问题,提出了一种基于大数据的营销反作弊***,包括:
一种基于大数据的营销反作弊***,应用于营销反作弊,所述***包括云服务器和用户终端;所述云服务器包括数据库、处理器和存储器;当所述***工作时,通过以下步骤实现营销反作弊功能:
步骤S1、当用户在用户终端进行营销活动相关操作时,向云服务器发出风险识别 请求,云服务器接收请求后调用数据采集模块向用户终端发出数据采集指令、采集预设样 本采集时间区间
Figure 893052DEST_PATH_IMAGE001
内的所有用户终端内的第一操作数据;
步骤S2、用户终端响应数据采集指令,云服务器在接收到第一操作数据后调用风险识别控制模块分别采用黑白名单数据库对比和风险模型判断的方法进行风险判断,得到第一风险判断结果、第二风险判断结果;
步骤S3、云服务器检测到第一风险判断结果、第二风险结果生成后,再次调用风险识别控制模块,以第一风险判断结果、第二风险结果为输入数据进行风险判断,得到风险判断指令;
步骤S4、云服务器将风险判断指令作为所述风险识别请求的响应传输给用户终端,用户终端根据风险判断指令通过或拒绝用户操作;
其中,黑白名单数据库及风险模型通过以下方式构建:
步骤S5、云服务器在当前数据周期内,通过数据采集接口模块持续获取第一用户平台操作行为环境数据及第三方黑白名单数据,分别存储在基础数据库、黑白名单数据库中;
其中,
Figure 654335DEST_PATH_IMAGE002
为当前***所处的运行周期;
Figure 980274DEST_PATH_IMAGE003
为***预设的第一***数据积累时间, 在
Figure 143402DEST_PATH_IMAGE003
内所述***进行数据采集工作;
步骤S6、当第一***数据积累周期
Figure 60543DEST_PATH_IMAGE003
结束时,所述风险识别控制模块立即开始对 所述基础数据库中存储的第一用户平台操作行为环境数据执行风险预判断操作,得到第一 数据分析样本;
步骤S7、云服务器调用风险模型训练分析模块以第一数据分析样本为数据集,利用机器学习算法训练风险模型,得到第一风险判断模型,并存储至风险模型数据库中;
步骤S8、云服务器调用风险识别控制模块查询所述基础数据库中时间戳在
Figure 309121DEST_PATH_IMAGE004
内的数据得到第二基础数据,并将其输入第一风险判断模型中得到对应数据的 第一分类结果;
其中,
Figure 438751DEST_PATH_IMAGE005
为当前***所处的运行周期
Figure 190807DEST_PATH_IMAGE002
前一个运行周期;
步骤S9、分别按照用户id、IP、设备指纹对第一分类结果进行聚合,得到第一校正数据,并按照第一校正数据对所述黑白名单数据库中的数据进行更新。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种基于大数据的营销反作弊***达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明结合传统黑名单法及风险模型法,但并非为二者的简单结合,而是通过算法使风险模型与黑名单数据互相迭代优化,提高了营销反作弊***的可靠性与准确性;同时依靠所述所述风险识别控制模块对风险模型与黑名单判断的结果进行评估分析,进一步降低了误判漏判风险,提升了***准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种基于大数据的营销反作弊***的结构框图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的营销反作弊***,详细说明如后。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
本发明实施例提供了一种基于大数据的营销反作弊***,包括:
一种基于大数据的营销反作弊***,应用于营销反作弊,所述***涉及云服务器和用户终端。如图1所示,云服务器包括数据库、处理器和存储有分析控制模块程序、数据采集接口模块的存储器;其中,数据库包括基础数据库、黑白名单数据库、风险模型数据库;所述分析控制模块包括风险模型训练分析模块、风险识别控制模块。
所述基础数据库用于存储用户操作数据,所述黑白名单数据库用于存储高风险的用户数据,所述风险模型数据库用于存储高风险用户特征模型数据。
所述风险模型训练分析模块是指用于对具有风险标识的用户操作数据采用机器学***台营销活动时产生的行为数据及历史数据与所述黑白名单数据库数据或所述风险模型数据库数据进行对比判断、并作出风控措施的程序模块;所述数据采集接口模块是指实现获取用户的平台操作行为环境数据、获取第三方黑白名单数据、获取用户操作数据及输出风控指令的程序模块。
当所述***工作时,通过以下步骤实现营销反作弊功能:
步骤S1、当用户在用户终端进行营销活动相关操作时,向云服务器发出风险识别 请求,云服务器接收请求后调用数据采集模块向用户终端发出数据采集指令、采集预设样 本采集时间区间
Figure 747690DEST_PATH_IMAGE001
内的所有用户终端内的第一操作数据;
步骤S2、用户终端响应数据采集指令,云服务器在接收到第一操作数据后调用风险识别控制模块分别采用黑白名单数据库对比和风险模型判断的方法进行风险判断,得到第一风险判断结果、第二风险判断结果;
步骤S3、云服务器检测到第一风险判断结果、第二风险结果生成后,再次调用风险识别控制模块,以第一风险判断结果、第二风险结果为输入数据进行风险判断,得到风险判断指令;
步骤S4、云服务器将风险判断指令作为所述风险识别请求的响应传输给用户终端,用户终端根据风险判断指令通过或拒绝用户操作;
其中,黑白名单数据库及风险模型通过以下方式构建:
步骤S5、云服务器在当前数据周期
Figure 280303DEST_PATH_IMAGE006
内,通过数据采集接口模块持续获取第 一用户平台操作行为环境数据及第三方黑白名单数据,分别存储在基础数据库、黑白名单 数据库中;
其中,为当前***所处的运行周期;
Figure 948044DEST_PATH_IMAGE007
为***预设的第一***数据积累时间,在
Figure 554606DEST_PATH_IMAGE007
内所述***进行数据采集工作;
步骤S6、当第一***数据积累周期
Figure 282391DEST_PATH_IMAGE008
结束时,所述风险识别控制模块立即开始对 所述基础数据库中存储的第一用户平台操作行为环境数据执行风险预判断操作,得到第一 数据分析样本;
步骤S7、云服务器调用风险模型训练分析模块以第一数据分析样本为数据集,利用机器学习算法训练风险模型,得到第一风险判断模型,并存储至风险模型数据库中;
步骤S8、云服务器调用风险识别控制模块查询所述基础数据库中时间戳在
Figure 302299DEST_PATH_IMAGE004
内的数据得到第二基础数据,并将其输入第一风险判断模型中得到对应数据的 第一分类结果;
其中,
Figure 242573DEST_PATH_IMAGE005
为当前***所处的运行周期
Figure 234800DEST_PATH_IMAGE002
前一个运行周期;
步骤S9、分别按照用户id、IP、设备指纹对第一分类结果进行聚合,得到第一校正数据,并按照第一校正数据对所述黑白名单数据库中的数据进行更新。
作为一种实施例,所述步骤S2包括:
步骤S21、所述风险识别控制模块提取第一用户操作数据中的用户id、IP、设备指纹数据作为第一判断数据集,并将第一判断指标与所述黑白名单数据库进行对比,得到第一风险判断结果;
步骤S22、预设样本采集时间区间
Figure 930224DEST_PATH_IMAGE001
,所述风险识别控制模块提取包括当前操作时 间戳的前
Figure 375112DEST_PATH_IMAGE001
内的用户操作数据集作为第二判断数据集,并将第二判断数据集输入第一风险 模型,得到第二风险判断结果;
其中,所述第一风险判断结果为数据字典,形式为{"id结果":
Figure 119077DEST_PATH_IMAGE009
, "ip结果":
Figure 496968DEST_PATH_IMAGE010
, "设备指纹结果":
Figure 38327DEST_PATH_IMAGE011
},其中
Figure 236090DEST_PATH_IMAGE009
Figure 580484DEST_PATH_IMAGE010
Figure 281723DEST_PATH_IMAGE011
分别代表用户id、ip、设备指纹数据是否命中所述黑白 名单数据库中对应的黑白名单列表的结果;
Figure 256633DEST_PATH_IMAGE009
Figure 738430DEST_PATH_IMAGE010
Figure 824197DEST_PATH_IMAGE011
可取值为“0”、“1”或“2”,其中“0”代表 第一判断指标可在对应黑白名单列表中查询到结果、且结果中风险等级标识字段为“0”, “1”代表第一判断指标可在对应黑白名单列表中查询到结果、且结果中风险等级标识字段 为“1”,“2”代表第一判断指标未在对应黑白名单列表中查询到结果。
所述第二风险判断结果为数据字典,包括利用第一风险模型对所述第二判断数据 集的分类结果,形式为{"classification":
Figure 645523DEST_PATH_IMAGE012
},其中
Figure 853650DEST_PATH_IMAGE012
可取值为“0”或“1”,“0”代表风险判 断为“安全”,“1”代表风险判断为“异常”。
所述第一判断规则为:
(1)当
Figure 760426DEST_PATH_IMAGE013
时,判断结果与
Figure 649885DEST_PATH_IMAGE012
一致;
(2)当
Figure 325717DEST_PATH_IMAGE014
,但与
Figure 642429DEST_PATH_IMAGE012
不同时,判断结果与
Figure 833239DEST_PATH_IMAGE009
一致;
(3)当
Figure 260809DEST_PATH_IMAGE009
Figure 56727DEST_PATH_IMAGE010
Figure 809919DEST_PATH_IMAGE011
取值不一致时:
计算风险概率
Figure 488025DEST_PATH_IMAGE015
Figure 719286DEST_PATH_IMAGE016
,且
Figure 104131DEST_PATH_IMAGE017
,则判断结果为1;若
Figure 28225DEST_PATH_IMAGE018
,且
Figure 393960DEST_PATH_IMAGE019
,则判断结果为0; 若
Figure 428912DEST_PATH_IMAGE016
,且
Figure 730580DEST_PATH_IMAGE019
,则判断结果为1;若
Figure 825575DEST_PATH_IMAGE018
,且
Figure 415956DEST_PATH_IMAGE017
,则判断结果为1;其中
Figure 785758DEST_PATH_IMAGE020
为预设的风险概率阈值,
Figure 410774DEST_PATH_IMAGE021
为预设的风险概率系数。
作为一种实施例,
步骤S5中所述第一用户平台操作行为环境数据包括:用户id、登陆地址、登陆IP、登陆途径、设备指纹、营销类型信息、操作对象、操作时间、关联id;所述第三方灰名单数据包括风险id、风险IP、风险设备、风险地址。
所述基础数据库包括用户信息列表、用户行为列表、用户环境列表。所述用户信息列表包括用户id字段、用户性别标识、用户年龄字段、关联手机号字段、电子邮箱字段、关联社交平台账号字符串字段。所述用户行为列表包括操作id字段、用户id字段、操作类型id字段、操作对象id字段、操作时间字段、营销活动标识、营销商品价格、价格优惠等级;所述营销活动标识包括“0”、“1”、“2”,其中“0”表示非营销活动、“1”表示商品价格优惠活动、“2”表示其他营销活动。所述用户环境列表包括操作id字段、设备指纹字符串字段、IP字符串字段、地址字符串字段。
所述黑白名单数据库包括IP黑白名单列表,设备指纹黑白名单列表,用户id黑白名单列表。所述IP黑白名单列表包括IP字符串字段;所述IP黑白名单列表包括IP字符串字段;所述设备指纹黑白名单列表包括设备指纹字符串字段;所述用户id黑白名单列表包括用户id字段。所述黑白名单数据库中的列表均包括风险等级标识字段和数据来源标识字段;所述风险等级标识字段包括“0”、“1”,其中“0”表示白名单、“1”表示黑名单;所述数据来源标识字段包括“0”、“1”,“0”表示经***或人工确认的内部数据,“1”表示来自第三方黑白名单数据库的未经确认的外部数据。
所述风险模型数据库包括风险模型记录列表。所述风险模型记录列表包括模型算法类型字符串字段、生成时间字段、数据累积周期时间字段、模型表达式字符串字段、模型参数字典字符串字段。
作为一种实施例,所述步骤S6包括:
步骤S61、所述风险识别模块从所述基础数据库中分别以用户id、IP、设备指纹为 关键字提取
Figure 411091DEST_PATH_IMAGE006
内积累的第一用户平台操作行为环境数据,得到第一id数据样本、第一 IP数据样本、第一设备指纹数据样本;
步骤S62、以所述第一id数据样本的用户id、第一IP数据样本中的IP、第一设备指纹数据样本中的设备指纹,分别在所述用户id黑白名单列表、所述IP黑白名单列表、所述设备指纹黑白名单列表进行查询,并返回查询结果;
步骤S63、若上述查询操作有查询结果,则根据查询结果给对应的数据样本打上数据来源标签及风险等级标签;若上述查询操作无查询结果,则其数据来源标签字段设为“1”、其风险等级标签字段设为“0”;
步骤S64、将上述步骤操作得到的数据样本打包,得到第一数据分析样本;
可以理解的是,所述第一数据分析样本包括第一id分析样本、第一IP分析样本、第一设备指纹分析样本。
作为一种实施例,所述步骤S7包括:
步骤S71、所述风险模型训练分析模块对所述第一数据分析样本进行数据清洗,并根据所述数据来源标签字段拆分第一数据分析样本,其中所述数据来源标签字段为“0”的数据拆分后得到第一测试集样本,所述数据来源标签字段为“1”的数据拆分后得到第一训练集样本;
步骤S72、根据所述风险模型训练分析模块根据预设的第一统计特征规则分别对所述第一测试集样本及第一训练集样本进行特征提取,得到第一测试集样本特征数据、第一训练集样本特征数据;
步骤S73、利用第一训练集样本特征数据采用机器学习算法训练风险模型;
步骤S74、利用第一测试集样本特征数据对步骤S73中的风险模型进行评估,计算召回率和准确率;当召回率和准确率满足预设召回率阈值和准确率阈值,输出当前风险模型,得到第一风险模型;当召回率和准确率不满足预设召回率阈值和准确率阈值,返回步骤S73,重新调整参数或更换算法,直到满足预设阈值条件。
可以理解的是,所述步骤S71中所述数据清洗包括归一化、离散化、因子化、缺失值处理、去除共线性等,属于常规数据处理手段,在此不赘述。
步骤S72中所述第一统计特征规则规定了对步骤S71中第一测试集样本、第一训练集样本进行特征提取时所需要统计的数据特征,包括ID特征数据、IP特征数据、设备指纹特征数据;所述ID特征数据包括:登陆地址频率分布、登陆IP频率分布、设备指纹频率分布,不同营销活动标识下的各操作类型频率分布、各营销商品价格特征、各价格优惠等级分布、操作时间频率分布;所述IP特征数据包括:用户id频率分布、设备指纹频率分布、登陆地址频率分布、不同营销活动标识下的操作类型频率分布、各营销商品价格特征、各优惠等级分布、操作时间频率分布;所述设备指纹特征数据包括:用户id频率分布、登陆IP分布、登陆地址频率分布、不同营销活动标识下的操作类型频率分布、各营销商品价格特征、各优惠等级分布、操作时间频率分布。
可以理解的是,步骤S72中所述特征提取为常规的数据分析方法,依靠包括但不限于SQL、Python、C++语言均可实现所述统计操作,在此不赘述。
可以理解的是,所述步骤S73中所述机器学习算法包括:逻辑回归算法、决策树、遗传算法、支持向量机(SVN)、K-means算法、随机森林和朴素贝叶斯算法,采用不同算法时其程序设计有所差异,但均为成熟技术手段,本领域的技术人员根据上述实施例的描述,完全可顺利实现该算法,在此不赘述。
作为一种实施例,所述步骤S9包括:
步骤S91、分别按照用户id字段、IP字段、设备指纹字段对第一分类结果进行分组聚合,保留对应分组聚合字段及分类结果字段,得到第一id校正数据、第一IP校正数据、第一设备指纹校正数据;
所述分类结果字段包括“0”和“1”,其中“0”代表分类结果为“安全”,“1”代表分类结果为“异常”;
所述第一校正数据为第一id校正数据、第一IP校正数据、第一设备指纹校正数据的集合;
步骤S92、分别将第一id校正数据、第一IP校正数据、第一设备指纹校正数据与用户id黑白名单列表、IP黑白名单列表、设备指纹黑白名单列表进行对比校验;
步骤S93、若上述黑白名单列表中存在对应校正数据,且黑白名单列表中数据来源标识字段为“1”,则将所述数据来源标识字段设为“0”;若上述黑白名单列表中不存在对应校正数据,则将对应校正数据中分类结果字段为“1”的数据写入对应的黑白名单列表中,其数据来源标识字段设为“1”, 风险等级标识字段设为“1”; 若上述黑白名单列表中不存在对应校正数据,则将对应校正数据中分类结果字段为“0”的数据写入对应的黑白名单列表中,其数据来源标识字段设为“1”, 风险等级标识字段设为“0”。
本发明实施例提供的云服务器包括数据库、处理器和存储器。其中存储器可以是磁盘、闪存或其他非易失性存储器。
本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机、可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后,需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于大数据的营销反作弊***,应用于营销反作弊,所述***包括云服务器和用户终端;当所述***工作时,通过以下步骤实现营销反作弊功能:
步骤S1、当用户在用户终端进行营销活动相关操作时,向云服务器发出风险识别请求, 云服务器接收请求后调用数据采集模块向用户终端发出数据采集指令、采集预设样本采集 时间区间
Figure 992766DEST_PATH_IMAGE001
内的所有用户终端内的第一操作数据;
步骤S2、用户终端响应数据采集指令,云服务器在接收到第一操作数据后调用风险识别控制模块分别采用黑白名单数据库对比和风险模型判断的方法进行风险判断,得到第一风险判断结果、第二风险判断结果;
步骤S3、云服务器检测到第一风险判断结果、第二风险结果生成后,再次调用风险识别控制模块,以第一风险判断结果、第二风险结果为输入数据进行风险判断,得到风险判断指令;
步骤S4、云服务器将风险判断指令作为所述风险识别请求的响应传输给用户终端,用户终端根据风险判断指令通过或拒绝用户操作;
其中,黑白名单数据库及风险模型通过以下方式构建:
步骤S5、云服务器在当前数据周期
Figure 635100DEST_PATH_IMAGE002
内,通过数据采集接口模块持续获取第一用 户平台操作行为环境数据及第三方黑白名单数据,分别存储在基础数据库、黑白名单数据 库中;
其中,
Figure 911361DEST_PATH_IMAGE003
为当前***所处的运行周期;
Figure 82579DEST_PATH_IMAGE004
为***预设的第一***数据积累时间,在
Figure 647553DEST_PATH_IMAGE005
内所述***进行数据采集工作;
步骤S6、当第一***数据积累周期
Figure 562419DEST_PATH_IMAGE004
结束时,所述风险识别控制模块立即开始对所述 基础数据库中存储的第一用户平台操作行为环境数据执行风险预判断操作,得到第一数据 分析样本;
步骤S7、云服务器调用风险模型训练分析模块以第一数据分析样本为数据集,利用机器学习算法训练风险模型,得到第一风险判断模型,并存储至风险模型数据库中;
步骤S8、云服务器调用风险识别控制模块查询所述基础数据库中时间戳在
Figure 958765DEST_PATH_IMAGE006
内的数据得到第二基础数据,并将其输入第一风险判断模型中得到对应数据的第一分类结 果;
其中,
Figure 300885DEST_PATH_IMAGE007
为当前***所处的运行周期
Figure 353155DEST_PATH_IMAGE003
前一个运行周期;
步骤S9、分别按照用户id、IP、设备指纹对第一分类结果进行聚合,得到第一校正数据,并按照第一校正数据对所述黑白名单数据库中的数据进行更新。
2.根据权利要求1所述的基于大数据的营销反作弊***,其特征在于,
所述云服务器包括数据库、处理器和存储器;
所述数据库包括基础数据库、黑白名单数据库、风险模型数据库;基础数据库用于存储用户操作数据,黑白名单数据库用于存储异常或正常的用户数据,风险模型数据库用于存储异常用户特征模型数据。
3.根据权利要求1所述的基于大数据的营销反作弊***,其特征在于,
所述数据采集接口模块、风险识别控制模块均为存储在云服务器存储器中的程序模块,由云服务器调用。
4.根据权利要求1所述的基于大数据的营销反作弊***,其特征在于,
步骤S2中所述风险判断包括:
步骤S21、所述风险识别控制模块提取第一用户操作数据中的用户id、IP、设备指纹数据作为第一判断数据集,并将第一判断指标与所述黑白名单数据库进行对比,得到第一风险判断结果;
步骤S22、预设样本采集时间区间
Figure 71712DEST_PATH_IMAGE001
,所述风险识别控制模块提取包括当前操作时间戳 的前
Figure 322565DEST_PATH_IMAGE001
内的用户操作数据集作为第二判断数据集,并将第二判断数据集输入第一风险模 型,得到第二风险判断结果。
5.根据权利要求1所述的基于大数据的营销反作弊***,其特征在于,
步骤S3所述的风险判断为所述风险识别控制模块根据预设的第一判断规则判断得出风险判断指令;
其中,第一判断规则包括,通过计算第一风险判断结果的风险概率,结合第一风险判断结果和第二风险判断结果的一致性,输出第三风险判断结果。
6.根据权利要求1所述的基于大数据的营销反作弊***,其特征在于,
所述步骤S6包括:
步骤S61、所述风险识别模块从所述基础数据库中分别以用户id、IP、设备指纹为关键 字提取
Figure 835586DEST_PATH_IMAGE002
内积累的第一用户平台操作行为环境数据,得到第一id数据样本、第一IP数 据样本、第一设备指纹数据样本;
步骤S62、以所述第一id数据样本的用户id、第一IP数据样本中的IP、第一设备指纹数据样本中的设备指纹,分别在用户id黑白名单列表、IP黑白名单列表、设备指纹黑白名单列表进行查询,并返回查询结果;
步骤S63、若上述查询操作有查询结果,则根据查询结果给对应的数据样本打上数据来源标签及风险等级标签;若上述查询操作无查询结果,则其数据来源标签字段设为“1”、其风险等级标签字段设为“0”;
步骤S64、将上述步骤操作得到的数据样本打包,得到第一数据分析样本。
7.根据权利要求1所述的基于大数据的营销反作弊***,其特征在于,
所述步骤S7包括:
步骤S71、所述风险模型训练分析模块对所述第一数据分析样本进行数据清洗,并根据所述数据来源标签字段拆分第一数据分析样本,其中所述数据来源标签字段为“0”的数据拆分后得到第一测试集样本,所述数据来源标签字段为“1”的数据拆分后得到第一训练集样本;
步骤S72、根据所述风险模型训练分析模块根据预设的第一统计特征规则分别对所述第一测试集样本及第一训练集样本进行特征提取,得到第一测试集样本特征数据、第一训练集样本特征数据;
步骤S73、利用第一训练集样本特征数据采用机器学习算法训练风险模型;
步骤S74、利用第一测试集样本特征数据对步骤S73中的风险模型进行评估,计算召回率和准确率;当召回率和准确率满足预设召回率阈值和准确率阈值,输出当前风险模型,得到第一风险模型;当召回率和准确率不满足预设召回率阈值和准确率阈值,返回步骤S73,重新调整参数或更换算法,直到满足预设阈值条件。
8.根据权利要求1所述的基于大数据的营销反作弊***,其特征在于,
所述机器学习算法包括:逻辑回归算法、决策树、遗传算法、支持向量机(SVN)、K-means算法、随机森林和朴素贝叶斯算法。
9.根据权利要求7所述的基于大数据的营销反作弊***,其特征在于,
所述第一统计特征规则规定了对所述步骤S71中第一测试集样本、第一训练集样本进行特征提取时所需要统计的数据特征,包括ID特征数据、IP特征数据、设备指纹特征数据。
10.根据权利要求1所述的基于大数据的营销反作弊***,其特征在于,
所述步骤S9包括:
步骤S91、分别按照用户id字段、IP字段、设备指纹字段对第一分类结果进行分组聚合,保留对应分组聚合字段及分类结果字段,得到第一id校正数据、第一IP校正数据、第一设备指纹校正数据;
步骤S92、分别将第一id校正数据、第一IP校正数据、第一设备指纹校正数据与用户id黑白名单列表、IP黑白名单列表、设备指纹黑白名单列表进行对比校验;
步骤S93、若上述黑白名单列表中存在对应校正数据,且黑白名单列表中数据来源标识字段为“1”,则将所述数据来源标识字段设为“0”;若上述黑白名单列表中不存在对应校正数据,则将对应校正数据中分类结果字段为“1”的数据写入对应的黑白名单列表中,其数据来源标识字段设为“1”, 风险等级标识字段设为“1”; 若上述黑白名单列表中不存在对应校正数据,则将对应校正数据中分类结果字段为“0”的数据写入对应的黑白名单列表中,其数据来源标识字段设为“1”, 风险等级标识字段设为“0”。
CN202210079401.5A 2022-01-24 2022-01-24 一种基于大数据的营销反作弊*** Active CN114119037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210079401.5A CN114119037B (zh) 2022-01-24 2022-01-24 一种基于大数据的营销反作弊***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210079401.5A CN114119037B (zh) 2022-01-24 2022-01-24 一种基于大数据的营销反作弊***

Publications (2)

Publication Number Publication Date
CN114119037A true CN114119037A (zh) 2022-03-01
CN114119037B CN114119037B (zh) 2022-05-17

Family

ID=80361182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210079401.5A Active CN114119037B (zh) 2022-01-24 2022-01-24 一种基于大数据的营销反作弊***

Country Status (1)

Country Link
CN (1) CN114119037B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912510A (zh) * 2022-04-07 2022-08-16 央视市场研究股份有限公司 一种线上调研样本质量评估***

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294669A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 一种基于用户行为的反作弊方法和***
CN106603554A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种自适应实时视频数据的反作弊方法及装置
CN108596632A (zh) * 2017-03-07 2018-09-28 北京嘀嘀无限科技发展有限公司 一种基于订单属性和用户行为的反作弊识别方法及***
CN108920948A (zh) * 2018-05-25 2018-11-30 众安信息技术服务有限公司 一种反欺诈流式计算装置及方法
CN109120429A (zh) * 2017-06-26 2019-01-01 苏宁云商集团股份有限公司 一种风险识别方法及***
CN109872174A (zh) * 2017-12-05 2019-06-11 上海花事电子商务有限公司 一种广告反作弊***
WO2019114421A1 (zh) * 2017-12-15 2019-06-20 阿里巴巴集团控股有限公司 一种模型整合方法及装置
CN110147823A (zh) * 2019-04-16 2019-08-20 阿里巴巴集团控股有限公司 一种风控模型训练方法、装置及设备
CN110198310A (zh) * 2019-05-20 2019-09-03 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质
CN110378699A (zh) * 2019-07-25 2019-10-25 中国工商银行股份有限公司 一种交易反欺诈方法、装置及***
CN110827094A (zh) * 2019-11-15 2020-02-21 湖南快乐阳光互动娱乐传媒有限公司 广告投放的反作弊方法及***
CN111049809A (zh) * 2019-11-27 2020-04-21 深圳壹账通智能科技有限公司 风险用户识别方法、装置、计算机设备及存储介质
CN111401950A (zh) * 2020-03-12 2020-07-10 上海数川数据科技有限公司 基于小波特征聚类的广告流量反作弊方法及装置
CN111401914A (zh) * 2020-04-02 2020-07-10 支付宝(杭州)信息技术有限公司 风险评估模型的训练、风险评估方法及装置
CN112488754A (zh) * 2020-11-30 2021-03-12 上海酷量信息技术有限公司 一种广告点击的反作弊***和方法
CN112580952A (zh) * 2020-12-09 2021-03-30 腾讯科技(深圳)有限公司 用户行为风险预测方法、装置、电子设备及存储介质
CN112700287A (zh) * 2021-01-11 2021-04-23 郑州阿帕斯数云信息科技有限公司 一种应用程序的反作弊方法和装置
CN113922977A (zh) * 2021-08-16 2022-01-11 广州优盟电子商务有限公司 基于移动端的反作弊方法和***

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294669A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 一种基于用户行为的反作弊方法和***
CN106603554A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种自适应实时视频数据的反作弊方法及装置
CN108596632A (zh) * 2017-03-07 2018-09-28 北京嘀嘀无限科技发展有限公司 一种基于订单属性和用户行为的反作弊识别方法及***
CN109120429A (zh) * 2017-06-26 2019-01-01 苏宁云商集团股份有限公司 一种风险识别方法及***
CN109872174A (zh) * 2017-12-05 2019-06-11 上海花事电子商务有限公司 一种广告反作弊***
WO2019114421A1 (zh) * 2017-12-15 2019-06-20 阿里巴巴集团控股有限公司 一种模型整合方法及装置
CN108920948A (zh) * 2018-05-25 2018-11-30 众安信息技术服务有限公司 一种反欺诈流式计算装置及方法
CN110147823A (zh) * 2019-04-16 2019-08-20 阿里巴巴集团控股有限公司 一种风控模型训练方法、装置及设备
CN110198310A (zh) * 2019-05-20 2019-09-03 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质
CN110378699A (zh) * 2019-07-25 2019-10-25 中国工商银行股份有限公司 一种交易反欺诈方法、装置及***
CN110827094A (zh) * 2019-11-15 2020-02-21 湖南快乐阳光互动娱乐传媒有限公司 广告投放的反作弊方法及***
CN111049809A (zh) * 2019-11-27 2020-04-21 深圳壹账通智能科技有限公司 风险用户识别方法、装置、计算机设备及存储介质
CN111401950A (zh) * 2020-03-12 2020-07-10 上海数川数据科技有限公司 基于小波特征聚类的广告流量反作弊方法及装置
CN111401914A (zh) * 2020-04-02 2020-07-10 支付宝(杭州)信息技术有限公司 风险评估模型的训练、风险评估方法及装置
CN112488754A (zh) * 2020-11-30 2021-03-12 上海酷量信息技术有限公司 一种广告点击的反作弊***和方法
CN112580952A (zh) * 2020-12-09 2021-03-30 腾讯科技(深圳)有限公司 用户行为风险预测方法、装置、电子设备及存储介质
CN112700287A (zh) * 2021-01-11 2021-04-23 郑州阿帕斯数云信息科技有限公司 一种应用程序的反作弊方法和装置
CN113922977A (zh) * 2021-08-16 2022-01-11 广州优盟电子商务有限公司 基于移动端的反作弊方法和***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912510A (zh) * 2022-04-07 2022-08-16 央视市场研究股份有限公司 一种线上调研样本质量评估***
CN114912510B (zh) * 2022-04-07 2023-08-15 央视市场研究股份有限公司 一种线上调研样本质量评估***

Also Published As

Publication number Publication date
CN114119037B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
US20210224832A1 (en) Method and apparatus for predicting customer purchase intention, electronic device and medium
CN110163647B (zh) 一种数据处理方法及装置
WO2021047326A1 (zh) 信息推荐方法、装置、计算机设备和存储介质
CN110717509B (zh) 基于树***算法的数据样本分析方法及装置
CN112990386B (zh) 用户价值聚类方法、装置、计算机设备和存储介质
CN111652622A (zh) 一种风险网址的识别方法、装置及电子设备
CN111192153A (zh) 人群关系网络构建方法、装置、计算机设备和存储介质
CN111461827B (zh) 产品评价信息的推送方法和装置
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN114119037B (zh) 一种基于大数据的营销反作弊***
CN115409518A (zh) 用户交易风险预警方法及装置
CN115577172A (zh) 物品推荐方法、装置、设备及介质
CN115630221A (zh) 终端应用界面展示数据处理方法、装置及计算机设备
CN111695357A (zh) 文本标注方法及相关产品
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
CN105389714B (zh) 一种从行为数据识别用户特性的方法
CN112069269B (zh) 基于大数据和多维特征的数据溯源方法及大数据云服务器
CN117745349A (zh) 一种基于用户特征的个性化推券方法及***
CN115797020B (zh) 基于图数据库的数据处理的零售推荐方法、***和介质
CN112330442A (zh) 基于超长行为序列的建模方法及装置、终端、存储介质
CN114817518B (zh) 基于大数据档案识别的证照办理方法、***及介质
CN113780318B (zh) 用于生成提示信息的方法、装置、服务器和介质
CN114282119A (zh) 一种基于异构信息网络的科技信息资源检索方法及***
CN112329811B (zh) 异常账号识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant