CN106294508A

CN106294508A - 一种刷量工具检测方法及装置

Info

Publication number: CN106294508A
Application number: CN201510317134.0A
Authority: CN
Inventors: 贺海军; 孔蓓蓓; 熊健; 熊焰; 杨剑鸣
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2015-06-10
Filing date: 2015-06-10
Publication date: 2017-01-04
Anticipated expiration: 2035-06-10
Also published as: CN106294508B

Abstract

本申请公开了一种刷量工具检测方法及装置，方法包括：获取与待测渠道对应的至少一个用户的行为数据，依据各个用户的行为数据生成各个用户的行为特征，利用各个用户的行为特征计算各个用户的行为特征值，以行为特征值为分类条件，对用户进行分类，得到若干个分类组，在确定所述分类组内用户数量满足预置判定策略时，确定所述待测渠道使用了刷量工具。由于各个分类组内的用户的行为特征值相似或相同，因而如果一个或多个分类组内包含的用户数量非常大，则意味着该分类组内大部分用户为虚假用户，也即可以确定待测渠道使用了刷量工具。本申请方法避免了现有基于硬件接入环境属性参数的分布来检测刷量工具的方法锁存在的局限性问题。

Description

一种刷量工具检测方法及装置

技术领域

本申请涉及网络技术领域，更具体地说，涉及一种刷量工具检测方法及装置。

背景技术

智能手机等智能终端的普及为各种类型的应用APP(Application，应用)提供了载体。应用提供商为了推广自家应用，通过多种平台向用户展示应用并提供下载功能，每一个平台均可以看作应用推广的一个渠道。而作为回馈，每当有新用户通过某个渠道注册了应用账号后，应用提供商需要向该渠道支付一定的推广费。

在现实情况中，某些渠道(平台)为了骗取应用提供商的推广费，会利用刷量工具生成虚假新用户，过程大致为：渠道利用刷量工具随机或者基于已有用户数据文件，生成终端设备号IMEI(International Mobile EquipmentIdentity，国际移动设备身份码)、IMSI(International Mobile SubscriberIdentification Number，国际移动用户识别码)、MAC(Media Access Control，媒体访问控制)地址、屏幕分辨率、机型、SIM***、手机号、运营商编号或名称、手机操作***(OS)版本等各种参数，然后以生成的这些参数作为新用户参数进行注册。而对于应用供应商端来说，一般仅通过辨别IMEI来判断该用户是否为新用户，也即只要当前注册用户的IMEI之前未注册过，则认为当前注册用户是一个新用户，进而向对应渠道支付推广费。

为了避免上述问题的出现，现有技术中一般通过检测当前渠道下新注册用户的IMSI、MAC地址、屏幕分辨率、机型、等硬件接入环境属性参数的分布是否正常，来判别当前渠道下是否使用了刷量工具。以屏幕分辨率为例，如果当前渠道下用户的屏幕分辨率分布与所有渠道下屏幕分辨率分布有很大的差异，则意味着当前渠道可能使用了刷量工具，举例如，渠道1下一天内新注册用户的屏幕分辨率有80％为屏幕分辨率1，其余的20％为屏幕分辨率2和屏幕分辨率3，而所有渠道下注册用户的整体屏幕分辨率分布情况为50％的屏幕分辨率2、30％的屏幕分辨率3和20％的屏幕分辨率1。显然，渠道1的屏幕分辨率分布与整体屏幕分辨率分布有很大的差异，代表渠道1可能使用了刷量工具。

但是，现有基于硬件接入环境属性参数的分布来检测刷量工具的方法具有一定的局限性，某些高品质的刷量工具在生成硬件接入环境属性参数时会基于各个属性真实情况下的分布来生成，即各参数的分布情况与正常渠道下各参数分布一致。对于使用此类刷量工具的渠道，现有技术将无法检测出来。

发明内容

有鉴于此，本申请提供了一种刷量工具检测方法及装置，用于解决现有基于硬件接入环境属性参数的分布来检测刷量工具的方法存在局限性的问题。

为了实现上述目的，现提出的方案如下：

一种刷量工具检测方法，包括：

获取与待测渠道对应的至少一个用户的行为数据；

依据各个用户的行为数据，生成各个用户的行为特征；

利用各个用户的行为特征，计算各个用户的行为特征值；

以行为特征值为分类条件，对各个用户进行分类，得到若干个分类组；

在确定所述分类组内用户数量满足预置判定策略时，确定所述待测渠道使用了刷量工具。

一种刷量工具检测装置，包括：

行为数据获取单元，用于获取与待测渠道对应的至少一个用户的行为数据；

行为特征生成单元，用于依据各个用户的行为数据，生成各个用户的行为特征；

行为特征值计算单元，用于利用各个用户的行为特征，计算各个用户的行为特征值；

分类处理单元，用于以行为特征值为分类条件，对各个用户进行分类，得到若干个分类组；

刷量工具确定单元，用于在确定所述分类组内用户数量满足预置判定策略时，确定所述待测渠道使用了刷量工具。

从上述的技术方案可以看出，本申请实施例提供的刷量工具检测方法，获取与待测渠道对应的至少一个用户的行为数据，行为数据表征了用户登录应用后所执行的各种操作，进而可以依据各个用户的行为数据生成各个用户的行为特征，然后利用各个用户的行为特征计算各个用户的行为特征值，以行为特征值为分类条件，对用户进行分类，得到若干个分类组，由于各个分类组内的用户的行为特征值相似或相同，因而如果一个或多个分类组内包含的用户数量非常大，则意味着该分类组内大部分用户为虚假用户，也即可以确定待测渠道使用了刷量工具。本申请利用刷量工具产生的多个虚假用户在行为上具备一定相似性的原理，通过计算各个用户的行为特征值，并据此对用户进行聚类，进而可以按照预定策略判定待测渠道是否使用刷量工具，避免了现有基于硬件接入环境属性参数的分布来检测刷量工具的方法锁存在的局限性问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种刷量工具检测方法流程图；

图2为本申请实施例公开的一种确定待测渠道使用刷量工具的方法流程图；

图3为本申请实施例公开的另一种确定待测渠道使用刷量工具的方法流程图；

图4为本申请实施例公开的一种刷量工具检测装置结构示意图；

图5为本申请实施例公开的一种刷量工具确定单元结构示意图；

图6为本申请实施例公开的另一种刷量工具确定单元结构示意图；

图7为本申请实施例公开的一种行为特征计算单元结构示意图；

图8为本申请实施例公开的一种分类处理单元结构示意图；

图9为本申请实施例公开的一种服务器硬件结构示意图。

具体实施方式

在介绍本申请方案之前，首先对文中使用到的名称或短语进行解释：

SimHash是一种降维技术，可以将高维向量映射到一维的指纹，它最早由Google提出，用于网页去重。SimHash算法的输入是一个向量，输出是一个f位的指纹。为了陈述方便，假设输入是一个用户行为的特征集合，每个特征有对应的权重，SimHash算法如下：

1.将一个f维(此处f取64)的向量V初始化为0，f位的二进制数S初始化为0；

2.对每一个特征：用传统的hash算法对该特征产生一个f位的指纹b，对i＝1到f，如果b的第i位为1，则V的第i个元素加上该特征的权重(此处权重为1)；否则，V的第i个元素减去该特征的权重(此处权重为1)；

3.如果V的第i个元素大于0，则S的第i位为1，否则为0；

4.输出指纹S。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1为本申请实施例公开的一种刷量工具检测方法流程图。

如图1所示，该方法包括：

步骤S100、获取与待测渠道对应的至少一个用户的行为数据；

与待测渠道对应的用户指的是通过待测渠道注册的用户。针对此类用户，获取其登录应用之后产生的行为数据。

具体地，应用服务器记录了每一个登录用户的行为数据，行为数据中携带有渠道标识，该渠道标识表明当前用户是通过哪个渠道注册的。

行为数据可以包含多种，具体类型需要根据应用的类型而定，例如对于应用宝这类的提供下载功能的应用来说，其行为数据可以包括流行软件场景下点击下载的动作数量、更新推送场景下行为记录数量、精品场景下曝光动作的数量等。

当然，对于绝大多数的应用，其一般均会涉及到下述几种行为数据：用户访问记录数量、用户访问持续时间、启动类型、登录类型、用户参与不同场景的数量和用户点击动作的数量等。

需要说明的是，我们可以不必获取与待测渠道对应的所有用户的行为数据，仅仅获取当天或一段时间内通过待测渠道注册的新用户的行为数据即可。

步骤S110、依据各个用户的行为数据，生成各个用户的行为特征；

具体地，在获取了用户的行为数据后，按照预置的方法生成各个用户的行为特征。行为特征即将行为数据量化后的体现。举例如，预先将用户访问记录数量划分为多个区间，获取的用户的访问记录数量具体落入哪个区间即为一种行为特征。

步骤S120、利用各个用户的行为特征，计算各个用户的行为特征值；

每一个用户的行为特征可能包含多个，因而可以采用一定的算法，基于用户的行为特征集合，计算用户的行为特征值。

比较优选地，可以采用SimHash算法。

步骤S130、以行为特征值为分类条件，对各个用户进行分类，得到若干个分类组；

具体地，各个分类组内用户的特征值具备一定的相似性，也即代表同一分类组内用户的行为相似。

步骤S140、在确定所述分类组内用户数量满足预置判定策略时，确定所述待测渠道使用了刷量工具。

具体地，预置判定策略可以有多种，详细参见下文相关部分介绍。由于刷量工具所产生的多个虚假用户在行为上具备一定相似性，体现在行为特征值上即相似或相同，因此通过分析各个分类组内用户数量，即可确定待测渠道是否使用了刷量工具。

本申请实施例提供的刷量工具检测方法，获取与待测渠道对应的至少一个用户的行为数据，行为数据表征了用户登录应用后所执行的各种操作，进而可以依据各个用户的行为数据生成各个用户的行为特征，然后利用各个用户的行为特征计算各个用户的行为特征值，以行为特征值为分类条件，对用户进行分类，得到若干个分类组，由于各个分类组内的用户的行为特征值相似或相同，因而如果一个或多个分类组内包含的用户数量非常大，则意味着该分类组内大部分用户为虚假用户，也即可以确定待测渠道使用了刷量工具。本申请利用刷量工具产生的多个虚假用户在行为上具备一定相似性的原理，通过计算各个用户的行为特征值，并据此对用户进行聚类，进而可以按照预定策略判定待测渠道是否使用刷量工具，避免了现有基于硬件接入环境属性参数的分布来检测刷量工具的方法锁存在的局限性问题。

可选的，在以行为特征值为分类条件，对各个用户进行分类时，可以将行为特征值相同的用户划分为一类。当然，还可以按照其它规则进行分类，例如当行为特征值为二进制组数形式时，可以将不同位值的个数小于预设个数的行为特征值对应的用户划分为一类，如两个行为特征值分别为1011和1111，且预设个数为2，则显然两个行为特征值只有左起第2位的值不同，因此可以将行为特征值1011和1111的两个用户划分为一类。

在本申请的另一个实施例中，公开了几种不同的判定策略，以确定待测渠道是否使用了刷量工具。

参见图2，图2为本申请实施例公开的一种确定待测渠道使用刷量工具的方法流程图。

如图2所示，该方法包括：

步骤S200、在所有分类组中筛选出用户数量超过第一阈值的分类组；

步骤S210、统计筛选出的分类组所包含的用户总数量；

对于筛选得到的各个分类组，将各个分类组内的用户数量相加，得到用户总数量。

步骤S220、判断所述用户总数量与所有分类组内用户总数量的比值是否超过第二阈值，若是，则执行步骤S230；

步骤S230、确定所述待测渠道使用了刷量工具。

本实施例中，从所有用户中筛选出相似行为较高的用户，判断此类用户占总用户人数的比重是否超过一定值，若是则认为当前待测渠道使用了刷量工具。

举例如，与待测渠道A对应的共有200个用户，经过对大量数据进行统计，确定第一阈值为20，第二阈值为50％。经过分类得到了6个分类组，分别为分类组1-6，各个分类组内的用户数量依次为100、80、10、5、3、2。显然，第1和第2个分类组内的人数超过了第一阈值，这两个分类组内人数总和为100+80＝180，判断180/200＝90％>50％，因此确定待测渠道A使用了刷量工具。

参见图3，图3为本申请实施例公开的另一种确定待测渠道使用刷量工具的方法流程图。

如图3所示，该方法包括：

步骤S300、按照包含用户数量由多至少的顺序对所述分类组进行排序；

步骤S310、统计序列中前n个分类组所包含的用户总数量；

这里n值为预置常数，可以是1、2等任意用户设定的常数，当然n需要小于分类组总个数。

步骤S320、判断所述用户总数量与所有分类组内用户总数量的比值是否超过第三阈值，若是，则执行步骤S330；

步骤S330、确定所述待测渠道使用了刷量工具。

本实施例提供了另外一种确定待测渠道使用刷量工具的方法，相比于上一实施例，本实施中选择包含用户数量较多的前n个分类组，判断该n个分类组总人数与所有分类组总人数的比重是否超过第三阈值，若是则确定待测渠道使用了刷量工具。

举例如，与待测渠道B对应的共有200个用户，经过对大量数据进行统计，确定n为3，第三阈值为60％。经过分类得到了6个分类组，6个分类组包含的用户数量如下表1所示：

表1

按照包含用户数量由大至小的顺序，对分类组进行排序：1-3-4-6-5-2。选取前3个分类组，即分类组1、分类组3和分类组4，求取三个分类组人数总和为120+50+15＝185。判断185/200＝92.5％>60％，因此确定待测渠道B使用了刷量工具。

接下来，本实施例中以应用宝软件为例，对整个方案进行介绍。

通过应用宝软件服务器可以获取与待测渠道对应的各用户的行为数据，行为数据包括下述表2所示的属性：

表2

依据各个用户的行为数据，生成各个用户的行为特征，行为特征的属性描述如下表3：

表3

利用SimHash算法，基于各个用户的行为特征集合，计算各个用户的行为特征值，并向行为特征值相同的用户聚为一类，得到若干个分类组。选取包含用户数量最多的分类组，将该分类组内用户数量除以所有分类组内用户总数量，判断结果是否大于预设值，如果是，则认为当前待测渠道使用了刷量工具。

下面对本申请实施例提供的刷量工具检测装置进行描述，下文描述的刷量工具检测装置与上文描述的刷量工具检测方法可相互对应参照。

参见图4，图4为本申请实施例公开的一种刷量工具检测装置结构示意图。

如图4所示，该装置包括：

行为数据获取单元41，用于获取与待测渠道对应的至少一个用户的行为数据；

行为特征生成单元42，用于依据各个用户的行为数据，生成各个用户的行为特征；

行为特征值计算单元43，用于利用各个用户的行为特征，计算各个用户的行为特征值；

分类处理单元44，用于以行为特征值为分类条件，对各个用户进行分类，得到若干个分类组；

刷量工具确定单元45，用于在确定所述分类组内用户数量满足预置判定策略时，确定所述待测渠道使用了刷量工具。

可选的，图5示例了上述刷量工具确定单元45的一种可选结构，如图5所示，刷量工具确定单元45可以包括：

分类组筛选单元451，用于在所有分类组中筛选出用户数量超过第一阈值的分类组；

第一用户数量统计单元452，用于统计筛选出的分类组所包含的用户总数量；

第一比值判断单元453，用于判断所述用户总数量与所有分类组内用户总数量的比值是否超过第二阈值，若是，则确定所述待测渠道使用了刷量工具。

可选的，图6示例了上述刷量工具确定单元45的另一种可选结构，如图6所示，刷量工具确定单元45可以包括：

分类组排序单元454，用于按照包含用户数量由多至少的顺序对所述分类组进行排序；

第二用户数量统计单元455，用于统计序列中前n个分类组所包含的用户总数量；

第二比值判断单元456，用于判断所述用户总数量与所有分类组内用户总数量的比值是否超过第三阈值，若是，则确定所述待测渠道使用了刷量工具。

可选的，图7示例了上述行为特征值计算单元43的一种可选结构，如图7所示，行为特征值计算单元43可以包括：

第一行为特征值计算子单元431，用于采用SimHash算法，基于各个用户的行为特征集合，计算各个用户的行为特征值。

可选的，图8示例了上述分类处理单元44的一种可选结构，如图8所示，分类处理单元44可以包括：

第一分类处理子单元441，用于将行为特征值相同的用户划分为一类。

当然，还可以按照其它规则进行分类，例如当行为特征值为二进制组数形式时，可以将不同位值的个数小于预设个数的行为特征值对应的用户划分为一类，如两个行为特征值分别为1011和1111，且预设个数为2，则显然两个行为特征值只有左起第2位的值不同，因此可以将行为特征值1011和1111的两个用户划分为一类。

本申请实施例提供的刷量工具检测装置，获取与待测渠道对应的至少一个用户的行为数据，行为数据表征了用户登录应用后所执行的各种操作，进而可以依据各个用户的行为数据生成各个用户的行为特征，然后利用各个用户的行为特征计算各个用户的行为特征值，以行为特征值为分类条件，对用户进行分类，得到若干个分类组，由于各个分类组内的用户的行为特征值相似或相同，因而如果一个或多个分类组内包含的用户数量非常大，则意味着该分类组内大部分用户为虚假用户，也即可以确定待测渠道使用了刷量工具。本申请利用刷量工具产生的多个虚假用户在行为上具备一定相似性的原理，通过计算各个用户的行为特征值，并据此对用户进行聚类，进而可以按照预定策略判定待测渠道是否使用刷量工具，避免了现有基于硬件接入环境属性参数的分布来检测刷量工具的方法锁存在的局限性问题。

本申请实施例还提供一种服务器，该服务器可以包括上述所述的刷量工具检测装置，对于刷量工具检测装置的描述可参照上文对应部分描述，此处不再赘述。

下面对本申请实施例提供的服务器的硬件结构进行描述，下文描述中涉及账号管理的部分可参照上文对应部分描述。图9为本申请实施例提供的服务器的硬件结构示意图，参照图9，该服务器可以包括：

处理器1，通信接口2，存储器3，通信总线4，和显示屏5；

其中处理器1、通信接口2、存储器3和显示屏5通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1，用于执行程序；

存储器3，用于存放程序；

程序可以包括程序代码，所述程序代码包括处理器的操作指令。

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，程序可具体用于：

获取与待测渠道对应的至少一个用户的行为数据；

依据各个用户的行为数据，生成各个用户的行为特征；

利用各个用户的行为特征，计算各个用户的行为特征值；

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种刷量工具检测方法，其特征在于，包括：

获取与待测渠道对应的至少一个用户的行为数据；

依据各个用户的行为数据，生成各个用户的行为特征；

利用各个用户的行为特征，计算各个用户的行为特征值；

2.根据权利要求1所述的方法，其特征在于，所述在确定所述分类组内用户数量满足预置判定策略时，确定所述待测渠道使用了刷量工具的过程包括：

在所有分类组中筛选出用户数量超过第一阈值的分类组；

统计筛选出的分类组所包含的用户总数量；

判断所述用户总数量与所有分类组内用户总数量的比值是否超过第二阈值，若是，则确定所述待测渠道使用了刷量工具。

3.根据权利要求1所述的方法，其特征在于，所述在确定所述分类组内用户数量满足预置判定策略时，确定所述待测渠道使用了刷量工具的过程包括：

按照包含用户数量由多至少的顺序对所述分类组进行排序；

统计序列中前n个分类组所包含的用户总数量；

判断所述用户总数量与所有分类组内用户总数量的比值是否超过第三阈值，若是，则确定所述待测渠道使用了刷量工具。

4.根据权利要求1所述的方法，其特征在于，各个用户的行为特征为多个，所述利用各个用户的行为特征，计算各个用户的行为特征值，包括：

采用SimHash算法，基于各个用户的行为特征集合，计算各个用户的行为特征值。

5.根据权利要求1所述的方法，其特征在于，所述以行为特征值为分类条件，对各个用户进行分类，包括：

将行为特征值相同的用户划分为一类。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述用户行为数据包括用户访问记录数量、用户访问持续时间、启动类型、登录类型、用户参与不同场景的数量和用户点击动作的数量中的任意一个或多个。

7.一种刷量工具检测装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述刷量工具确定单元包括：

分类组筛选单元，用于在所有分类组中筛选出用户数量超过第一阈值的分类组；

第一用户数量统计单元，用于统计筛选出的分类组所包含的用户总数量；

第一比值判断单元，用于判断所述用户总数量与所有分类组内用户总数量的比值是否超过第二阈值，若是，则确定所述待测渠道使用了刷量工具。

9.根据权利要求7所述的装置，其特征在于，所述刷量工具确定单元包括：

分类组排序单元，用于按照包含用户数量由多至少的顺序对所述分类组进行排序；

第二用户数量统计单元，用于统计序列中前n个分类组所包含的用户总数量；

第二比值判断单元，用于判断所述用户总数量与所有分类组内用户总数量的比值是否超过第三阈值，若是，则确定所述待测渠道使用了刷量工具。

10.根据权利要求7所述的装置，其特征在于，各个用户的行为特征为多个，所述行为特征值计算单元包括：

第一行为特征值计算子单元，用于采用SimHash算法，基于各个用户的行为特征集合，计算各个用户的行为特征值。