CN113743619B - 基于关联网络行为的作弊用户识别方法和装置 - Google Patents

基于关联网络行为的作弊用户识别方法和装置 Download PDF

Info

Publication number
CN113743619B
CN113743619B CN202010461285.4A CN202010461285A CN113743619B CN 113743619 B CN113743619 B CN 113743619B CN 202010461285 A CN202010461285 A CN 202010461285A CN 113743619 B CN113743619 B CN 113743619B
Authority
CN
China
Prior art keywords
activity
cheating
information data
data
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010461285.4A
Other languages
English (en)
Other versions
CN113743619A (zh
Inventor
李刚民
金文蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong Liverpool University
Original Assignee
Xian Jiaotong Liverpool University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong Liverpool University filed Critical Xian Jiaotong Liverpool University
Priority to CN202010461285.4A priority Critical patent/CN113743619B/zh
Publication of CN113743619A publication Critical patent/CN113743619A/zh
Application granted granted Critical
Publication of CN113743619B publication Critical patent/CN113743619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种基于关联网络行为的作弊用户识别方法和装置,属于计算机技术领域,该方法包括:获取活动发起者的个人静态信息数据和个人动态信息数据,个人静态信息数据和个人动态信息数据无法靠作弊策略伪造;确定与活动发起者发生网络关联的活动帮助者;获取活动帮助者的行为节奏特征,行为节奏特征用于指示活动帮助者在当期活动中的行为特征;将个人静态信息数据、个人动态信息数据和行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果;可以解决现有的作弊用户识别不准确的问题;能够化解作弊用户利用技术手段有意伪造特征的作弊策略,能够实现对不同作弊方式的作弊用户的精细识别。

Description

基于关联网络行为的作弊用户识别方法和装置
技术领域
本申请涉及一种基于关联网络行为的作弊用户识别方法和装置,属于计算机技术领域。
背景技术
随着网络营销的发展,营销策略向纵深拓展到了面向每个客户及其社交网络中的潜在客户群。常见的营销活动包括帮砍价、转介绍、集赞、组战队等,其活动规通常设置为:老客户或已注册客户首先参与活动并传播活动特定链接到微信、QQ、微博等社交媒介接着由其社交网络中的亲戚、朋友及其他社交联系等点击链接并完成具体的帮助任务,社交网络中的交互行为积累达到一定数量,则客户将获得免单、折扣、赠礼等优惠,达成吸引新客户同时巩固老客户的直接效果,以及促进产品销量提高、平台用户增长等最终营销目标的实现。
但是此类以社交网络交换优惠的营销活动也遭遇了作弊者—“羊毛党”的多种形式的恶意参与。主流的方式包括:第一,通过脚本批量创建和操控社交帐号完成交互行为积累,并根据营销平台的反作弊监测发展出了更改IP地址、设备信息、登录信息等作弊策略;第二,通过真人团队提供众包作弊服务,帮助他人达到交互行为积累目标;第三,利用社交平台发布信息与陌生人组建临时的社交群,进行作弊互助。“羊毛党”的作弊行为抢占了商家为正常用户准备的活动福利,破坏了活动目的,并提供给商家虚假、低质量的潜在客户信息,造成了商家经济损失。
目前用于羊毛党监测的主流方法包括但不限于:提高客户参与活动的门槛,加强平台间的客户数据收集和信息共享,机器学习模型识别等。但有效反作弊仍然面临挑战:第一,作弊工具和作弊策略的革新使用户的IP地址、设备等特征可以被技术性造假,从而达成与正常用户相似的高度伪装,这些特征的失效使常规的监测方法识别“羊毛党”的精准率下降;第二,海量不可伪造的用户行为数据沉积,但缺少用于反映正常用户和作弊用户的区分性用户画像的***性的特征抽取框架;第三,对判断用户是正常用户还是作弊用户,相比海量用户数据,专家打出的标签占比低且需要耗费大量时间成本和经济成本,且专家可能会被造假后的数据欺骗从而做出错误归类;
因此,克服“羊毛党”特征造假以并高效识别“羊毛党”是相关技术人员需要解决的技术问题。
发明内容
本申请提供了一种基于关联网络行为的作弊用户识别方法和装置;可以解决现有的作弊用户识别不准确的问题。本申请提供如下技术方案:
第一方面,提供了一种基于关联网络行为的作弊用户识别方法,所述方法包括:
获取活动发起者的个人静态信息数据和个人动态信息数据,所述个人静态信息数据和所述个人动态信息数据无法靠作弊策略伪造,所述个人静态信息数据是指不随时间改变而发生改变的数据,所述个人动态信息数据是指随时间改变而发生改变的数据,所述活动发起者为参与依靠社交网络的多方交互实现活动目的的用户;
确定与所述活动发起者发生网络关联的活动帮助者;
获取所述活动帮助者的行为节奏特征,所述行为节奏特征用于指示所述活动帮助者在当期活动中的行为特征;
将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果;
其中,所述作弊用户识别模型是使用训练数据对机器学习分类算法进行训练得到的,所述训练数据包括多组样本数据和每组样本数据对应的标签分类;每组样本数据包括同一历史发起者对应的样本个人静态信息数据、样本个人动态信息数据和样本行为节奏特征。
可选地,所述将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果之前,还包括:
获取样本集;
对所述样本集进行划分得到所述训练数据和测试数据,所述测试数据与所述训练数据不同;
获取机器学习分类算法;
使用所述训练数据对所述机器学习分类算法进行训练,得到训练后的分类算法;
使用所述测试数据对所述训练后的分类算法进行测试;
根据测试结果对所述训练后的分类算法进行参数调节,得到所述作弊用户识别模型。
可选地,所述获取样本集,包括:
获取历史发起者的样本个人静态信息数据和样本个人动态信息数据;
确定与所述历史发起者发生网络关联的历史帮助者;
获取所述历史帮助者的样本行为节奏特征;
基于所述样本行为节奏特征确定所述历史发起者的标签分类;
获取所述未分类的历史发起者的专家打标结果,得到对应的标签分类。
可选地,所述基于所述样本行为节奏特征确定所述历史发起者的标签分类,包括:
对于每个历史发起者,获取所述历史发起者的历史帮助者与所述历史发起者发生交互的时间戳,并将所述时间戳从小到大组成时间戳序列;
计算所述时间戳序列的一阶差分序列,得到第一行为节奏序列;
计算所述时间戳序列的二阶差分序列,得到第二行为节奏序列;
在所述历史发起者对应的时间戳序列的个数小于预设序列阈值,确定所述历史发起者的标签分类为非作弊用户;
在所述历史发起者对应的时间戳序列的个数大于或等于预设序列阈值时,根据每个时间戳序列对应的所述第一行为节奏序列和/或所述第二行为节奏序列,确定对应的历史帮助者的行为时间特性;
在所述行为时间特性符合以脚本作弊的行为时间特性时,确定所述历史发起者的标签分类为以脚本作弊的作弊用户。
可选地,所述将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果之前,还包括:
基于所述行为节奏特征确定所述活动发起者的作弊用户识别结果。
可选地,所述作弊用户识别结果为以脚本作弊的作弊用户、以真人众包作弊的作弊用户或者非作弊用户;所述将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果之后,还包括:
将所述作弊用户识别结果为以脚本作弊的作弊用户对应的第一用户帐号和所述作弊用户识别结果为以真人众包作弊的作弊用户对应的第二用户账号存储至预设的帐号黑名单。
可选地,所述方法还包括:
对所述第一用户帐号进行冻结;
修改所述第二用户帐号对应的活动实现策略,以提高达成所述活动目的的难度。
可选地,所述修改所述第二用户帐号对应的活动实现策略,包括:
设置与所述第二用户帐号对应的活动发起者发生网络关联的活动帮助者的强制行为延迟。
可选地,所述个人静态信息数据包括帐号注册时间、是否绑定了手机号、是否为内部员工、是否关注活动信息、性别、年龄、学历、收入和/或婚姻状况;
所述个人动态信息数据包括相对于当前活动,所述活动发起者在过去期次中的行为记录综合统计、所述活动发起者在本期次中的行为记录、所述活动发起者的历史参与率、历史成功率、所述活动发起者本期次选择的福利属于虚拟福利或实体福利、所述活动发起者本期次选择的福利对应的市场价值、福利获取难度、福利获取状态、用户帐号等级、用户帐号是否曾作为其它发起者帐号的帮助者、用户帐号的交易次数和金额。
第二方面,提供了一种基于关联网络行为的作弊用户识别装置,所述装置包括:
数据获取模块,用于获取活动发起者的个人静态信息数据和个人动态信息数据,所述个人静态信息数据和所述个人动态信息数据无法靠作弊策略伪造,所述个人静态信息数据是指不随时间改变而发生改变的数据,所述个人动态信息数据是指随时间改变而发生改变的数据,所述活动发起者为参与依靠社交网络的多方交互实现活动目的的用户;
用户确定模块,用于确定与所述活动发起者发生网络关联的活动帮助者;
特征确定模块,用于获取所述活动帮助者的行为节奏特征,所述行为节奏特征用于指示所述活动帮助者在当期活动中的行为特征;
用户识别模块,用于将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果;
其中,所述作弊用户识别模型是使用训练数据对机器学习分类算法进行训练得到的,所述训练数据包括多组样本数据和每组样本数据对应的标签分类;每组样本数据包括同一历史发起者对应的样本个人静态信息数据、样本个人动态信息数据和样本行为节奏特征。
本申请的有益效果在于:通过获取活动发起者的个人静态信息数据和个人动态信息数据,个人静态信息数据和个人动态信息数据无法靠作弊策略伪造;确定与活动发起者发生网络关联的活动帮助者;获取活动帮助者的行为节奏特征,行为节奏特征用于指示活动帮助者在当期活动中的行为特征;将个人静态信息数据、个人动态信息数据和行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果;其中,作弊用户识别模型是使用训练数据对机器学习分类算法进行训练得到的,训练数据包括多组样本数据和每组样本数据对应的标签分类;每组样本数据包括同一历史发起者对应的样本个人静态信息数据、样本个人动态信息数据和样本行为节奏特征;可以解决现有的作弊用户识别不准确的问题;能够化解作弊用户利用技术手段有意伪造特征的作弊策略,能够实现对不同作弊方式的作弊用户的精细识别。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
图1是本申请一个实施例提供的基于关联网络行为的作弊用户识别方法的流程图;
图2是本申请一个实施例提供的基于关联网络行为的作弊用户识别装置的框图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
可选地,本申请以各个实施例的执行主体为电子设备为例进行说明,该电子设备可以是终端或者服务器,该终端可以是计算机等具有处理能力的设备,本实施例不对电子设备的设备类型作限定。
图1是本申请一个实施例提供的基于关联网络行为的作弊用户识别方法的流程图。该方法至少包括以下几个步骤:
步骤101,获取活动发起者的个人静态信息数据和个人动态信息数据,个人静态信息数据和个人动态信息数据无法靠作弊策略伪造,个人静态信息数据是指不随时间改变而发生改变的数据,个人动态信息数据是指随时间改变而发生改变的数据,活动发起者为参与依靠社交网络的多方交互实现活动目的的用户。
可选地,本申请中的活动包括但不限于:邀请好友注册、邀请好友点击链接、邀请好友点赞、邀请好友扫码、邀请好友转发。活动具有活动福利。活动福利可根据是否有实体形式归为两类,即虚拟福利和实体福利,虚拟福利是指通过不可直接接触的福利;虚拟福利包括但不限于:购物折扣、免单、抽奖机会。实体福利是指可以接触到的福利,实体福利包括但不限于:赠礼、奖金等。
可选地,依靠社交网络的多方交互包括但不限于:累计邀请好友注册超过特定个数、累计邀请好友点击链接/点赞/扫码/转发超过特定次数。
本申请中,每一个作为发起者的用户都会由被***分配一个用户码,一个用户码只与一个用户对应,该用户的个人静态信息特征、个人动态信息特征及关联网络信息都会以用户码作为索引保存到后台。
所述无法靠作弊策略伪造的个人静态信息数据是指用户最基本的真实信息记录,由于作弊策略出发利用技术手段可修改、伪造的信息不具有可信度,并影响了该信息整体的真实程度,因此,在本发明中,可靠作弊策略伪造的信息记录不被纳入判断用户是否为羊毛党的依据。
例如,职业的羊毛党通常集中操控多个账号访问所述营销活动平台,因此平台信息记录中高频出现的用户IP地址、高度一致的设备信息成为判断羊毛党入侵的常用可疑依据。作为应对,羊毛党利用IP转换器、转码平台等改变所操纵账号的IP地址,以及利用虚拟机等改变账号的设备信息,使账号表现出IP地址不同、设备信息不同的正常账户特点。在用户IP地址、设备信息可能已经被羊毛党伪造的前提下,本实施例将所有发起者用户的此两类信息都视为可疑,不纳入可信的个人静态信息数据。
本申请中,依据不同实施例的数据来源,对个人静态信息数据进行筛选,剔除可以靠作弊策略伪造的,保留无法靠作弊策略伪造的。可选地,个人静态信息数据包括帐号注册时间、是否绑定了手机号、是否为内部员工、是否关注活动信息、性别、年龄、学历、收入和/或婚姻状况。
个人动态信息数据包括相对于当前活动,活动发起者在过去期次中的行为记录综合统计、活动发起者在本期次中的行为记录、活动发起者的历史参与率、历史成功率、活动发起者本期次选择的福利属于虚拟福利或实体福利、活动发起者本期次选择的福利对应的市场价值、福利获取难度、福利获取状态、用户帐号等级、用户帐号是否曾作为其它发起者帐号的帮助者、用户帐号的交易次数和金额。
历史参与率的计算公式具体为:历史参与率=该用户过去总计参与营销活动的期次/所属营销活动过去总计举行的期次。
历史成功率的计算公式具体为:历史成功率=该用户过去总计参与营销活动并成功获得活动福利的期次/该用户过去总计参与营销活动的期次。
福利获取难度包括活动举办方预设的获得福利需要满足的条件和活动发起者对数量有限的福利的竞争情况。
获取状态包括但不限于:在本期活动中,活动发起者获取福利失败或成功。成功状态又可分为单纯依靠发起者的社交网络的帮助成功获得福利、发起者被允许向活动支付一定金额以填补社交网络的帮助不足从而获福利,当然,福利获取状态也可以为其它划分方式,本实施例在此不再一一列举。
步骤102,确定与活动发起者发生网络关联的活动帮助者。
活动帮助者可以是活动发起者基于社交网络中的联系人选择的,社交网络中的联系人包括但不限于:社交应用中的联系人、支付应用中的联系人、和/或通讯录中的联系人。
与活动发起者发生网络关联包括但不限于:接受活动发起者邀请在营销活动平台注册账号/参与营销活动、接受发起者邀请点击特定链接/点赞/扫码/转发。
每一个作为活动帮助者的用户在与活动发起者发生特定交互行为后,活动帮助者的行为信息中会包含该用户的用户码,因此,通过活动发起者的用户码可以找到的所有活动帮助者,即可被视为该活动发起者的关联网络或帮助者网络。
步骤103,获取活动帮助者的行为节奏特征,该行为节奏特征用于指示活动帮助者在当期活动中的行为特征。
获取活动帮助者的行为数据;根据该行为数据获取对应的行为节奏特征。
活动帮助者的行为数据包括但不限于:在活动当期,与活动发起者发生交互行为的时间戳、本期是否还与其它发起者发生交互行为、活动帮助者中是否包括发起者自己。
可选地,根据行为数据获取对应的行为节奏特征,包括:获取活动发起者的活动帮助者与活动发起者发生交互的时间戳,并将时间戳从小到大组成时间戳序列;计算时间戳序列的一阶差分序列,得到第一行为节奏序列;计算时间戳序列的二阶差分序列,得到第二行为节奏序列;根据所第一行为节奏序列和第二行为节奏序列生成行为节奏特征中与时间相关联的部分;计算和生成行为节奏特征中与时间无关的部分;整合每个活动发起者对应的行为节奏特征,该行为节奏特征包括时间相关联的部分和时间无关的部分。
例如,活动发起者A参与转发海报赢奖品活动,共邀请到5个朋友帮助转发特定海报,则A的关联网络中共有5位帮助者。5位帮助者转发海报的时间戳分别为2019/06/21 8:30:27,2019/06/21 8:31:46,2019/06/21 8:35:02,2019/06/218:33:21,2019/06/21 8:35:03,则A的关联网络的时间戳序列为[2019/06/21
8:30:27,2019/06/21 8:31:46,2019/06/21 8:33:21,2019/06/21 8:35:02,2019/06/218:35:03],对应的行为节奏序列一为[79,95,101,1],即计算每两个时间戳之间的时间间隔;对应的行为节奏序列二为[16,6,-100],即计算每两个时间间隔之间的差值。在本实施例中,时间间隔的单位为秒。
本实施例中,行为节奏特征中时间相关联的部分是指根据第一行为节奏序列和第二行为节奏序列衍生的统计特征,时间相关联的部分包括但不限于:行为节奏序列长度、累计时间间隔、最大时间间隔、最大时间间隔占累计时间间隔的比重、平均或加权平均时间间隔、时间间隔平均标准差或加权平均标准差、时间间隔差值的众数、时间间隔缩小/不变/增大部分的占比、时间间隔缩小段/增大段的均值和标准差、首个时间间隔差值在行为节奏序列二的绝对值中的分位数。
本实施例中,行为节奏特征中与时间无关的部分是指活动发起者的关联网络内所有活动帮助者交互行为的相似性,时间无关的部分包括但不限于:关联网络中的帮助者没有和其它发起者发生交互行为的百分比、发起者自身是否以帮助者身份与他人发生了交互。
本实施例中,整合无法靠作弊策略伪造的个人静态信息特征、个人动态信息特征及关联网络的行为节奏特征为全新的特征提取框架。根据特征提取框架提取的每个活动发起者的信息序列包括[个人静态信息特征,个人动态信息特征,关联网络的行为节奏特征]。基于特征框架形成的数据集作为尚未区分作弊用户和非作弊用户的发起者档案。遵循以上特征框架处理,发起者的关联网络的信息被归纳,仅保留对职业羊毛党有关键意义的特征信息,即以尽量低的耗时和充足的帮助者获取尽量高市场价值、易获利的活动福利。
可选地,电子设备基于活动发起者档案,通过预设序列阈值对部分易识别的发起者进行识别并输出属性标签。即基于行为节奏特征确定活动发起者的作弊用户识别结果。
具体地,在活动发起者对应的时间戳序列的个数小于预设序列阈值,确定活动发起者的标签分类为非作弊用户;在活动发起者对应的时间戳序列的个数大于或等于预设序列阈值时,根据每个时间戳序列对应的第一行为节奏序列和/或第二行为节奏序列,确定对应的活动帮助者的行为时间特性;在行为时间特性符合以脚本作弊的行为时间特性时,确定活动发起者的标签分类为以脚本作弊的作弊用户。
比如:设行为节奏序列长度的阈值为3。若发起者A的行为节奏序列长度个数为2<3,则视该发起者缺乏足够的帮助者,不具有羊毛党嫌疑,输出发起者A的属性标签为非作弊用户。
又比如:设置行为节奏序列长度的阈值为3,时间间隔差值的众数的预设区间为[-1,0,1],考虑到以脚本作弊的作弊用户批量操控活动帮助者行为,在追求高效以及未精细伪装时,活动帮助者之间与活动发起者发生交互遵循固定、紧凑的时间间隔,时间间隔差值的众数通常维持在变慢1秒/变快1秒/固定值三种状态,且行为节奏序列长度由于帮助者充足而长度较长,因而对符合这两个条件的发起者给出以脚本作弊的作弊用户的作弊用户识别结果。
步骤104,将个人静态信息数据、个人动态信息数据和行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果。
其中,作弊用户识别模型是使用训练数据对机器学习分类算法进行训练得到的,训练数据包括多组样本数据和每组样本数据对应的标签分类;每组样本数据包括同一历史发起者对应的样本个人静态信息数据、样本个人动态信息数据和样本行为节奏特征。
在输入作弊用户识别模型之前,需要对该作弊用户识别模型进行训练。训练过程包括:获取样本集;对样本集进行划分得到训练数据和测试数据,测试数据与训练数据不同;获取机器学习分类算法;使用训练数据对机器学习分类算法进行训练,得到训练后的分类算法;使用测试数据对训练后的分类算法进行测试;根据测试结果对训练后的分类算法进行参数调节,得到作弊用户识别模型。
可选地,获取样本集,包括:获取历史发起者的样本个人静态信息数据和样本个人动态信息数据;确定与历史发起者发生网络关联的历史帮助者;获取历史帮助者的样本行为节奏特征;基于样本行为节奏特征确定历史发起者的标签分类;获取未分类的历史发起者的专家打标结果,得到对应的标签分类。
其中,基于样本行为节奏特征确定历史发起者的标签分类,包括:对于每个历史发起者,获取历史发起者的历史帮助者与历史发起者发生交互的时间戳,并将时间戳从小到大组成时间戳序列;计算时间戳序列的一阶差分序列,得到第一行为节奏序列;计算时间戳序列的二阶差分序列,得到第二行为节奏序列;在历史发起者对应的时间戳序列的个数小于预设序列阈值,确定历史发起者的标签分类为非作弊用户;在历史发起者对应的时间戳序列的个数大于或等于预设序列阈值时,根据每个时间戳序列对应的第一行为节奏序列和/或第二行为节奏序列,确定对应的历史帮助者的行为时间特性;在行为时间特性符合以脚本作弊的行为时间特性时,确定历史发起者的标签分类为以脚本作弊的作弊用户。
其中,样本个人静态信息数据与个人静态信息数据的描述相同、样本个人动态信息数据与个人动静态信息数据的描述相同、样本行为节奏特征与行为节奏特征的描述相同,本实施例在此不再赘述。
可选地,对于未分类的历史发起者,可以基于发起者档案,对余下未分类的发起者结合概率抽样和随机抽样提取样本集。
在本实施例中,对样本集的抽取可以预先确定比率。对基数较大的未分类发起者(≥10000),应确定合理的抽取比率(≥10%)。对指定营销活动的数个连续期次以相同的抽取比率确定抽取数量。确定对每一期次发起者的抽取数量后,可以保留福利对应难度、福利获取状态等特征值的类别比例,进行分层抽样。
可选地,本申请中的标签分类包括以脚本作弊的作弊用户、以真人众包作弊的作弊用户和非作弊用户。
可选地,机器学习分类算法包括但不限于:逻辑回归、决策树、支持向量机、朴素贝叶斯、聚类、模型集成、神经网络。
可选地,为了降低脏数据对模型训练的负面影响,可以对样本集进行预处理。对样本集进行预处理包括但不限于填补缺失值、光滑噪声数据,平滑或删除离群点,以及对数据进行规范化,离散化,稀疏化处理。
在本实施例中,机器学习分类算法应用标签传播算法(LPA)预测发起者的属性标签。也就是使用标签传播算法对发起者在发起者档案中的特征进行建模,利用模型参数对发起者的属性标签进行预测。
可选地,作弊用户识别结果为以脚本作弊的作弊用户、以真人众包作弊的作弊用户或者非作弊用户;将个人静态信息数据、个人动态信息数据和行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果之后,还包括:
将作弊用户识别结果为以脚本作弊的作弊用户对应的第一用户帐号和作弊用户识别结果为以真人众包作弊的作弊用户对应的第二用户账号存储至预设的帐号黑名单。
在得到作弊用户识别结果之后,还包括对第一用户帐号进行冻结;修改第二用户帐号对应的活动实现策略,以提高达成活动目的的难度。
可选地,修改第二用户帐号对应的活动实现策略,包括:设置与第二用户帐号对应的活动发起者发生网络关联的活动帮助者的强制行为延迟。
可选地,根据需要电子设备可以对未来期次的用户按特征重构框架建立发起者档案,继续识别作弊用户。也可以定期更新、补充样本集及用户的属性标签类别,保持、提高对羊毛党的识别准确度。
综上所述,本实施例提供的基于关联网络行为的作弊用户识别方法,通过获取活动发起者的个人静态信息数据和个人动态信息数据,个人静态信息数据和个人动态信息数据无法靠作弊策略伪造;确定与活动发起者发生网络关联的活动帮助者;获取活动帮助者的行为节奏特征,行为节奏特征用于指示活动帮助者在当期活动中的行为特征;将个人静态信息数据、个人动态信息数据和行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果;其中,作弊用户识别模型是使用训练数据对机器学习分类算法进行训练得到的,训练数据包括多组样本数据和每组样本数据对应的标签分类;每组样本数据包括同一历史发起者对应的样本个人静态信息数据、样本个人动态信息数据和样本行为节奏特征;可以解决现有的作弊用户识别不准确的问题;能够化解作弊用户利用技术手段有意伪造特征的作弊策略,能够实现对不同作弊方式的作弊用户的精细识别。
另外,通过提供特征提取框架,能够从海量数据中提取并重构包含作弊关键信息的维度,有利于后续对作弊行为的检测。
图2是本申请一个实施例提供的基于关联网络行为的作弊用户识别装置的框图。该装置至少包括以下几个模块:数据获取模块210、用户确定模块220、特征确定模块230和用户识别模块240。
数据获取模块210,用于获取活动发起者的个人静态信息数据和个人动态信息数据,所述个人静态信息数据和所述个人动态信息数据无法靠作弊策略伪造,所述个人静态信息数据是指不随时间改变而发生改变的数据,所述个人动态信息数据是指随时间改变而发生改变的数据,所述活动发起者为参与依靠社交网络的多方交互实现活动目的的用户;
用户确定模块220,用于确定与所述活动发起者发生网络关联的活动帮助者;
特征确定模块230,用于获取所述活动帮助者的行为节奏特征,所述行为节奏特征用于指示所述活动帮助者在当期活动中的行为特征;
用户识别模块240,用于将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果;
其中,所述作弊用户识别模型是使用训练数据对机器学习分类算法进行训练得到的,所述训练数据包括多组样本数据和每组样本数据对应的标签分类;每组样本数据包括同一历史发起者对应的样本个人静态信息数据、样本个人动态信息数据和样本行为节奏特征。
相关细节参考上述方法实施例。
需要说明的是:上述实施例中提供的基于关联网络行为的作弊用户识别装置在进行基于关联网络行为的作弊用户识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将基于关联网络行为的作弊用户识别装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于关联网络行为的作弊用户识别装置与基于关联网络行为的作弊用户识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的基于关联网络行为的作弊用户识别方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的基于关联网络行为的作弊用户识别方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于关联网络行为的作弊用户识别方法,其特征在于,所述方法包括:
获取活动发起者的个人静态信息数据和个人动态信息数据,所述个人静态信息数据和所述个人动态信息数据无法靠作弊策略伪造,所述个人静态信息数据是指不随时间改变而发生改变的数据,所述个人动态信息数据是指随时间改变而发生改变的数据,所述活动发起者为参与依靠社交网络的多方交互实现活动目的的用户;
确定与所述活动发起者发生网络关联的活动帮助者;
获取所述活动帮助者的行为节奏特征,所述行为节奏特征用于指示所述活动帮助者在当期活动中的行为特征;
将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果;
其中,所述作弊用户识别模型是使用训练数据对机器学习分类算法进行训练得到的,所述训练数据包括多组样本数据和每组样本数据对应的标签分类;每组样本数据包括同一历史发起者对应的样本个人静态信息数据、样本个人动态信息数据和样本行为节奏特征。
2.根据权利要求1所述的方法,其特征在于,所述将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果之前,还包括:
获取样本集;
对所述样本集进行划分得到所述训练数据和测试数据,所述测试数据与所述训练数据不同;
获取机器学习分类算法;
使用所述训练数据对所述机器学习分类算法进行训练,得到训练后的分类算法;
使用所述测试数据对所述训练后的分类算法进行测试;
根据测试结果对所述训练后的分类算法进行参数调节,得到所述作弊用户识别模型。
3.根据权利要求2所述的方法,其特征在于,所述获取样本集,包括:
获取历史发起者的样本个人静态信息数据和样本个人动态信息数据;
确定与所述历史发起者发生网络关联的历史帮助者;
获取所述历史帮助者的样本行为节奏特征;
基于所述样本行为节奏特征确定所述历史发起者的标签分类;
获取未分类的所述历史发起者的专家打标结果,得到对应的标签分类。
4.根据权利要求3所述的方法,其特征在于,所述基于所述样本行为节奏特征确定所述历史发起者的标签分类,包括:
对于每个历史发起者,获取所述历史发起者的历史帮助者与所述历史发起者发生交互的时间戳,并将所述时间戳从小到大组成时间戳序列;
计算所述时间戳序列的一阶差分序列,得到第一行为节奏序列;
计算所述时间戳序列的二阶差分序列,得到第二行为节奏序列;
在所述历史发起者对应的时间戳序列的个数小于预设序列阈值,确定所述历史发起者的标签分类为非作弊用户;
在所述历史发起者对应的时间戳序列的个数大于或等于预设序列阈值时,根据每个时间戳序列对应的所述第一行为节奏序列和/或所述第二行为节奏序列,确定对应的历史帮助者的行为时间特性;
在所述行为时间特性符合以脚本作弊的行为时间特性时,确定所述历史发起者的标签分类为以脚本作弊的作弊用户。
5.根据权利要求1至4任一所述的方法,其特征在于,所述将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果之前,还包括:
基于所述行为节奏特征确定所述活动发起者的作弊用户识别结果。
6.根据权利要求1至4任一所述的方法,其特征在于,所述作弊用户识别结果为以脚本作弊的作弊用户、以真人众包作弊的作弊用户或者非作弊用户;所述将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果之后,还包括:
将所述作弊用户识别结果为以脚本作弊的作弊用户对应的第一用户账号和所述作弊用户识别结果为以真人众包作弊的作弊用户对应的第二用户账号存储至预设的账号黑名单。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对所述第一用户账号进行冻结;
修改所述第二用户账号对应的活动实现策略,以提高达成所述活动目的的难度。
8.根据权利要求7所述的方法,其特征在于,所述修改所述第二用户账号对应的活动实现策略,包括:
设置与所述第二用户账号对应的活动发起者发生网络关联的活动帮助者的强制行为延迟。
9.根据权利要求1至4任一所述的方法,其特征在于,
所述个人静态信息数据包括账号注册时间、是否绑定了手机号、是否为内部员工、是否关注活动信息、性别、年龄、学历、收入和/或婚姻状况;
所述个人动态信息数据包括相对于当前活动,所述活动发起者在过去期次中的行为记录综合统计、所述活动发起者在本期次中的行为记录、所述活动发起者的历史参与率、历史成功率、所述活动发起者本期次选择的福利属于虚拟福利或实体福利、所述活动发起者本期次选择的福利对应的市场价值、福利获取难度、福利获取状态、用户账号等级、用户账号是否曾作为其它发起者账号的帮助者、用户账号的交易次数和金额。
10.一种基于关联网络行为的作弊用户识别装置,其特征在于,所述装置包括:
数据获取模块,用于获取活动发起者的个人静态信息数据和个人动态信息数据,所述个人静态信息数据和所述个人动态信息数据无法靠作弊策略伪造,所述个人静态信息数据是指不随时间改变而发生改变的数据,所述个人动态信息数据是指随时间改变而发生改变的数据,所述活动发起者为参与依靠社交网络的多方交互实现活动目的的用户;
用户确定模块,用于确定与所述活动发起者发生网络关联的活动帮助者;
特征确定模块,用于获取所述活动帮助者的行为节奏特征,所述行为节奏特征用于指示所述活动帮助者在当期活动中的行为特征;
用户识别模块,用于将所述个人静态信息数据、所述个人动态信息数据和所述行为节奏特征输入预先训练的作弊用户识别模型,得到作弊用户识别结果;
其中,所述作弊用户识别模型是使用训练数据对机器学习分类算法进行训练得到的,所述训练数据包括多组样本数据和每组样本数据对应的标签分类;每组样本数据包括同一历史发起者对应的样本个人静态信息数据、样本个人动态信息数据和样本行为节奏特征。
CN202010461285.4A 2020-05-27 2020-05-27 基于关联网络行为的作弊用户识别方法和装置 Active CN113743619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010461285.4A CN113743619B (zh) 2020-05-27 2020-05-27 基于关联网络行为的作弊用户识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010461285.4A CN113743619B (zh) 2020-05-27 2020-05-27 基于关联网络行为的作弊用户识别方法和装置

Publications (2)

Publication Number Publication Date
CN113743619A CN113743619A (zh) 2021-12-03
CN113743619B true CN113743619B (zh) 2023-09-29

Family

ID=78723835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010461285.4A Active CN113743619B (zh) 2020-05-27 2020-05-27 基于关联网络行为的作弊用户识别方法和装置

Country Status (1)

Country Link
CN (1) CN113743619B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912510B (zh) * 2022-04-07 2023-08-15 央视市场研究股份有限公司 一种线上调研样本质量评估***
CN114926221A (zh) * 2022-05-31 2022-08-19 北京奇艺世纪科技有限公司 作弊用户识别方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101112056A (zh) * 2005-01-31 2008-01-23 英国电讯有限公司 网络中的数据控制
CN108306864A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 网络数据检测方法、装置、计算机设备和存储介质
CN110069686A (zh) * 2019-03-15 2019-07-30 平安科技(深圳)有限公司 用户行为分析方法、装置、计算机装置及存储介质
CN110147823A (zh) * 2019-04-16 2019-08-20 阿里巴巴集团控股有限公司 一种风控模型训练方法、装置及设备
CN110198310A (zh) * 2019-05-20 2019-09-03 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质
CN110665233A (zh) * 2019-08-29 2020-01-10 腾讯科技(深圳)有限公司 游戏行为识别方法、装置、设备及介质
CN110807643A (zh) * 2019-10-11 2020-02-18 支付宝(杭州)信息技术有限公司 一种用户信任评估方法、装置及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101112056A (zh) * 2005-01-31 2008-01-23 英国电讯有限公司 网络中的数据控制
CN108306864A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 网络数据检测方法、装置、计算机设备和存储介质
CN110069686A (zh) * 2019-03-15 2019-07-30 平安科技(深圳)有限公司 用户行为分析方法、装置、计算机装置及存储介质
CN110147823A (zh) * 2019-04-16 2019-08-20 阿里巴巴集团控股有限公司 一种风控模型训练方法、装置及设备
CN110198310A (zh) * 2019-05-20 2019-09-03 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质
CN110665233A (zh) * 2019-08-29 2020-01-10 腾讯科技(深圳)有限公司 游戏行为识别方法、装置、设备及介质
CN110807643A (zh) * 2019-10-11 2020-02-18 支付宝(杭州)信息技术有限公司 一种用户信任评估方法、装置及设备

Also Published As

Publication number Publication date
CN113743619A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
US11659050B2 (en) Discovering signature of electronic social networks
US20230316076A1 (en) Unsupervised Machine Learning System to Automate Functions On a Graph Structure
Milošević et al. Early churn prediction with personalized targeting in mobile social games
Ahn et al. A survey on churn analysis in various business domains
US11170395B2 (en) Digital banking platform and architecture
CN110598016B (zh) 一种多媒体信息推荐的方法、装置、设备和介质
CN112784994B (zh) 基于区块链的联邦学习数据参与方贡献值计算和激励方法
US20190378050A1 (en) Machine learning system to identify and optimize features based on historical data, known patterns, or emerging patterns
US20190378051A1 (en) Machine learning system coupled to a graph structure detecting outlier patterns using graph scanning
US20190378049A1 (en) Ensemble of machine learning engines coupled to a graph structure that spreads heat
US20190377819A1 (en) Machine learning system to detect, label, and spread heat in a graph structure
US8712952B2 (en) Method and system for selecting a target with respect to a behavior in a population of communicating entities
CN111435507A (zh) 广告反作弊方法、装置、电子设备及可读存储介质
CN112633962B (zh) 业务推荐方法、装置、计算机设备和存储介质
US20160055320A1 (en) Method and system for measuring effectiveness of user treatment
CN113743619B (zh) 基于关联网络行为的作弊用户识别方法和装置
CN109978033A (zh) 同操作人识别模型的构建与同操作人识别的方法和装置
US20220414087A1 (en) Method and system for generating digital identity information on blockchain
Bhattacharjee et al. QnQ: A reputation model to secure mobile crowdsourcing applications from incentive losses
Wagh et al. Customer churn prediction in telecom sector using machine learning techniques
Wu et al. Fraud-agents detection in online microfinance: a large-scale empirical study
Seth et al. A Deep Learning Framework for Ensuring Responsible Play in Skill-based Cash Gaming
CN111582722B (zh) 风险识别方法、装置、电子设备及可读存储介质
US20230351433A1 (en) Training an artificial intelligence engine for most appropriate products
CN113065892A (zh) 一种信息推送方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant