CN113592036A

CN113592036A - 流量作弊行为识别方法、装置及存储介质和电子设备

Info

Publication number: CN113592036A
Application number: CN202110981015.0A
Authority: CN
Inventors: 孔梦醒; 赵旭玲
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-11-02

Abstract

本发明实施例提出流量作弊行为识别方法、装置及存储介质和电子设备。方法包括：获取用户访问网页的用户点击数据；从所述用户点击数据中提取第一时间段内访问第一链接的用户点击数据；从所述第一时间段内访问第一链接的用户点击数据中提取每个用户的用户点击数据；从所述每个用户的用户点击数据中提取每个用户的点击行为特征；根据每个用户的点击行为特征，确定用户之间是否存在聚团行为，若存在，则将存在聚团行为的用户加入流量作弊团伙集中。本发明实施例实现了对团伙流量作弊行为的识别。

Description

流量作弊行为识别方法、装置及存储介质和电子设备

技术领域

本发明涉及互联网访问技术领域，尤其涉及流量作弊行为识别方法、装置及可读存储介质和电子设备。

背景技术

在当下信息***的互联网时代，流量在互联网世界具有至关重要的价值，虚刷流量成为互联网中的常见行为，目前出现了通过借助大量人工或机器模拟产生流量的团伙流量作弊行为。

目前的识别流量作弊行为的方法都是识别单个作弊设备。其具有如下缺点：

一、无法识别团伙流量作弊行为；

二、识别方法都是根据经验数据和规则进行识别，有一定的误差，且只能识别短时间内的流量作弊行为，对于以月、季度、年等为周期的周期性的流量作弊行为，当任意选取周期识别流量作弊行为时，现有的识别方法无法识别。

发明内容

本发明实施例提出流量作弊行为识别方法、装置及可读存储介质和电子设备，以识别出团伙流量作弊行为。

本发明实施例的技术方案是这样实现的：

一种流量作弊行为识别方法，该方法包括：

获取用户访问网页的用户点击数据；

从所述用户点击数据中提取第一时间段内访问第一链接的用户点击数据；

从所述第一时间段内访问第一链接的用户点击数据中提取每个用户的用户点击数据；

从所述每个用户的用户点击数据中提取每个用户的点击行为特征；

根据每个用户的点击行为特征，确定用户之间是否存在聚团行为，若存在，则将存在聚团行为的用户加入流量作弊团伙集中。

所述确定用户之间是否存在聚团行为包括：

根据每个用户的点击行为特征，计算两两用户之间的点击行为相似度，若任一点击行为相似度大于预设相似度阈值，则确定该点击行为相似度对应的两用户之间存在聚团行为。

所述用户点击数据包括：用户标识信息、用户点击的网页链接标识和用户点击时间；

所述从所述每个用户的用户点击数据中提取每个用户的点击行为特征包括：将第一时间段划分为至少一个子时间段；

对于每个子时间段，获取在该子时间段内访问第一链接的各用户的用户点击数据；

对于每个子时间段，将在该子间时段内访问第一链接的所有用户进行两两完全配对；

对于每个子时间段内访问第一链接的每一用户对，根据该用户对内的两用户在当前子时间段内的用户点击数据，统计该用户对内的两用户在当前子时间段内同时访问第一链接的天数，视为第一类天数，并统计该用户对内的两用户在当前子时间段内有且仅有一个用户访问第一链接的天数，设为第二类天数；

将第一类天数和第二类天数作为该用户对内的两用户在当前子时间段内的点击行为特征。

所述确定用户之间是否存在聚团行为，包括：

对于每个子时间段内访问第一链接的每一用户对，计算该用户对对应的第一类天数与第二类天数的和值，再将第一类天数除以所述和值，得到该用户对内的两用户之间的点击行为相似度初始值；将第一类天数除以当前子时间段的总天数，得到权重；将所述权重乘以所述点击行为相似度初始值，得到该用户对内的两用户之间的点击行为相似度，若该点击行为相似度大于预设相似度阈值，则确定该用户对内的两用户之间存在聚团行为；

所述将存在聚团行为的用户加入流量作弊团伙集中，包括：

将该用户对内的两用户加入当前子时间段内的流量作弊团伙集中。

所述将该用户对内的两用户加入当前子时间段内的流量作弊团伙集中之后，进一步包括：

当得到第一时间段内的所有子时间段的流量作弊团伙集时，选取在每一流量作弊团伙集中都出现过的用户；

将在每一流量作弊团伙集中都出现过的用户分别从每一流量作弊团伙集中删除，得到更新后的每个子时间段的流量作弊团伙集；

对于在每一流量作弊团伙集中都出现过的每一用户，计算该用户与每一流量作弊团伙集的点击行为相似度，在其中选择点击行为相似度最大的流量作弊团伙集，将该用户加入所选择的流量作弊团伙集中。

所述计算该用户与每一流量作弊团伙集的点击行为相似度，包括：

对于每一流量作弊团伙集，分别计算该用户与该流量作弊团伙集中的每一用户的点击行为相似度，并在其中选择最小的点击行为相似度作为该用户与该流量作弊团伙集的点击行为相似度。

所述将第一时间段划分为至少一个子时间段，包括：

根据预设的子时间段的初始长度，或者根据当前子时间段的长度和调整步长，将第一时间段划分为至少一个子时间段；

且，所述将该用户对内的两用户加入当前子时间段内的流量作弊团伙集中之后，进一步包括：

当得到当前所有子时间段的流量作弊团伙集之后，判断当前子时间段的长度是否达到预设的子时间段的最大长度；

若否，则返回所述根据当前子时间段的长度和调整步长，将第一时间段划分为至少一个子时间段的动作；

若是，则根据检测出的流量作弊团伙集中的成员越多，检测结果越优的原则，在每次检测出的所述至少一个流量作弊团伙集中，选择最优的所述至少一个流量作弊团伙集作为最终检测结果。

所述将第一时间段划分为至少一个子时间段，包括：

将第一时间段划分为多个子时间段，且相邻两子时间段重合预设第二时长。

所述从所述第一时间段内访问第一链接的用户点击数据中提取每个用户的用户点击数据之后、所述从所述每个用户的用户点击数据中提取每个用户的点击行为特征之前，进一步包括：

对于每一用户，根据该用户的用户点击数据，统计该用户在第一时间段内连续访问第一链接的最大时长，若该最大时长小于预设第一时长，则确定该用户不为流量作弊团伙成员，将该用户的用户点击数据从第一时间段内访问第一链接的各用户的用户点击数据中删除。

所述将存在聚团行为的用户加入流量作弊团伙集中之后，进一步包括：

对于存在聚团行为的每一用户，分别判断该用户是否满足如下条件，若满足，则将该用户从流量作弊团伙集中删除：

该用户在第一链接的网页上的停留时长大于预设时长阈值，或/和，该用户对第一链接的访问深度大于预设深度阈值，或/和，该用户在第一链接上的购买的物品类型数大于预设数目。

一种流量作弊行为识别装置，该装置包括：

点击行为特征提取模块，用于获取用户访问网页的用户点击数据；从所述用户点击数据中提取第一时间段内访问第一链接的用户点击数据；从所述第一时间段内访问第一链接的用户点击数据中提取每个用户的用户点击数据；从所述每个用户的用户点击数据中提取每个用户的点击行为特征；

识别模块，用于根据每个用户的点击行为特征，确定用户之间是否存在聚团行为，若存在，则将存在聚团行为的用户加入流量作弊团伙集中。

一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上任一项所述的流量作弊行为识别方法的步骤。

一种电子设备，包括如上所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。

本发明实施例中，通过从用户点击数据中提取第一时间段内访问第一链接的用户点击数据，然后从每个用户的用户点击数据中提取每个用户的点击行为特征，根据每个用户的点击行为特征，确定用户之间是否存在聚团行为，若存在，则将存在聚团行为的用户加入流量作弊团伙集中，从而实现了对团伙流量作弊行为的识别。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的流量作弊行为识别方法流程图；

图2为本发明的一个应用示例；

图3为本发明另一实施例提供的流量作弊行为识别方法流程图；

图4为本发明的滑动时间窗的一个应用示例；

图5为本发明实施例提供的流量作弊行为识别装置的结构示意图；

图6为本发明实施例提供的一种电子设备的示例性结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明实施例提出一种流量作弊行为识别方法，该方法中，获取用户访问网页的用户点击数据；从所述用户点击数据中提取第一时间段内访问第一链接的用户点击数据；从所述第一时间段内访问第一链接的用户点击数据中提取每个用户的用户点击数据；从所述每个用户的用户点击数据中提取每个用户的点击行为特征；根据每个用户的点击行为特征，确定用户之间是否存在聚团行为，若存在，则将存在聚团行为的用户加入流量作弊团伙集中。本发明实施例实现了对团伙流量作弊行为的识别。

图1为本发明一实施例提供的流量作弊行为识别方法流程图，其具体步骤如下：

步骤101：获取用户访问网页的用户点击数据。

在实际应用中，可从站长分组统计表、唤醒UUID(Universally UniqueIdentifier，通用唯一识别码)分配表、设备浏览信息表等中获取用户访问网页的用户点击数据。

用户点击数据至少包括：用户标识信息、用户点击的网页链接标识和用户点击时间，网页链接标识如：URL(Uniform Resource Locator，统一资源定位符)。

用户标识信息如：用户ID、用户设备ID、浏览器ID、登陆账号之一或任意组合。

用户点击数据还可包括：用户交易信息如：用户购买的物品类型、用户的GMV(Gross Merchandise Volume，交易总额)等之一或组合。

步骤102：从获取的用户点击数据中提取第一时间段内访问第一链接的用户点击数据。

第一时间段可以根据需要选取。

步骤103：从第一时间段内访问第一链接的用户点击数据中提取每个用户的用户点击数据。

步骤104：从每个用户的用户点击数据中提取每个用户的点击行为特征。

步骤105：根据每个用户的点击行为特征，确定用户之间是否存在聚团行为，若存在，则将存在聚团行为的用户加入流量作弊团伙集中。

上述实施例中，通过从用户点击数据中提取第一时间段内访问第一链接的用户点击数据，然后从每个用户的用户点击数据中提取每个用户的点击行为特征，根据每个用户的点击行为特征，确定用户之间是否存在聚团行为，若存在，则将存在聚团行为的用户加入流量作弊团伙集中，从而实现了对团伙流量作弊行为的识别

一可选实施例中，步骤105中，确定用户之间是否存在聚团行为包括：根据每个用户的点击行为特征，计算两两用户之间的点击行为相似度，若任一点击行为相似度大于预设相似度阈值，则确定该点击行为相似度对应的两用户之间存在聚团行为。

上述实施例中，通过计算两两用户之间的点击行为相似度，实现了对用户之间的聚团行为的判断。

一可选实施例中，步骤104中，从每个用户的用户点击数据中提取每个用户的点击行为特征包括：将第一时间段划分为至少一个子时间段；对于每个子时间段，获取在该子时间段内访问第一链接的各用户的用户点击数据；对于每个子时间段，将在该子间时段内访问第一链接的所有用户进行两两完全配对；对于每个子时间段内访问第一链接的每一用户对，根据该用户对内的两用户在当前子时间段内的用户点击数据，统计该用户对内的两用户在当前子时间段内同时访问第一链接的天数，视为第一类天数，并统计该用户对内的两用户在当前子时间段内有且仅有一个用户访问第一链接的天数，设为第二类天数；将第一类天数和第二类天数作为该用户对内的两用户在当前子时间段内的点击行为特征。

这里的“两两完全配对”指的是，对于在该子间时段内访问第一链接的每一用户，将该用户分别与其它每个用户进行配对。例如：在该子时间段内访问第一链接的用户共有4个，分别为：a、b、c、d，则配对结果为：ab、ac、ad、bc、bd、cd。当在一子时间段内访问第一链接的用户有m个时，配成的用户对共：1+2+3+...+(m-1)＝m*(m-1)/2个。

上述实施例中，对于每一用户对，统计该用户对内的两用户在当前子时间段内同时访问第一链接的天数，视为第一类天数，并统计该用户对内的两用户在当前子时间段内有且仅有一个用户访问第一链接的天数，设为第二类天数；将第一类天数和第二类天数作为该用户对内的两用户在当前子时间段内的点击行为特征，从而实现了对用户点击行为特征的提取。

考虑到：当两个用户同时未访问第一链接的天数较多时，若采用的点击行为相似度算法不合适，会导致在这种情况下计算得到的该两用户的点击行为相似度较高，从而与实际情况不符，针对该情况，本发明实施例给出如下点击行为相似度算法：一可选实施例中，步骤105中，确定用户之间是否存在聚团行为包括：对于每个子时间段内访问第一链接的每一用户对，计算该用户对对应的第一类天数与第二类天数的和值，再将第一类天数除以该和值，得到该用户对内的两用户之间的点击行为相似度初始值；将第一类天数除以当前子时间段的总天数，得到权重；将该权重乘以该点击行为相似度初始值，得到该用户对内的两用户之间的点击行为相似度，若该点击行为相似度大于预设相似度阈值，则确定该用户对内的两用户之间存在聚团行为；

且，步骤105中，将存在聚团行为的用户加入流量作弊团伙集中，包括：将该用户对内的两用户加入当前子时间段内的流量作弊团伙集中。

上述实施例中，通过将第一类天数除以当前子时间段的总天数所得到的商值作为权重，降低了用户对内的两个用户同时未访问第一链接的天数较多时而导致两用户的点击行为相似度高的情形的发生，从而最终降低了对团伙流量作弊行为的误判。

例如：在一子时间段内访问第一链接的用户共有4个，分别为：a、b、c、d，则用户对有：ab、ac、ad、bc、bd、cd，其中，用户对ab、bd的点击行为相似度大于预设相似度阈值，则将用户a、b和d加入该子时间段的流量作弊团伙集中。

一可选实施例中，将该用户对内的两用户加入当前子时间段内的流量作弊团伙集中之后，进一步包括：当得到第一时间段内的所有子时间段的流量作弊团伙集时，选取在每一流量作弊团伙集中都出现过的用户；将在每一流量作弊团伙集中都出现过的用户分别从每一流量作弊团伙集中删除，得到更新后的每个子时间段的流量作弊团伙集；对于在每一流量作弊团伙集中都出现过的每一用户，计算该用户与每一流量作弊团伙集的点击行为相似度，在其中选择点击行为相似度最大的流量作弊团伙集，将该用户加入所选择的流量作弊团伙集中。

上述实施例中，对于重复出现在所有流量作弊团伙集的用户，重新根据其与每个流量作弊团伙集的点击行为相似度，将其最终划分到一流量作弊团伙集中，从而进一步提高了流量作弊团伙的识别准确度，并方便了对流量作弊团伙的管理。

一可选实施例中，计算该用户与每一流量作弊团伙集的点击行为相似度，包括：对于每一流量作弊团伙集，分别计算该用户与该流量作弊团伙集中的每一用户的点击行为相似度，并在其中选择最小的点击行为相似度作为该用户与该流量作弊团伙集的点击行为相似度。

上述实施例给出了如何确定用户与流量作弊团伙集的点击行为相似度的具体方案。

图2为本发明的一个应用示例。在该示例中，将第一时间段划分成了4个子时间段，每个子时间段共4天，用户a～m在第一时间段的每一天访问第一链接的情况如图2所示，其中，值为1表示用户在当天访问了第一链接，值为0表示用户在当天未访问第一链接。

在每个子时间段内分别计算两两用户之间的点击行为相似度，并将点击行为相似度大于预设相似度阈值的用户加入对应子时间段的流量作弊团伙集中，则得到：

子时间段1的流量作弊团伙集：X1＝{a,b,f,h,k}；

子时间段2的流量作弊团伙集：X2＝{a,b,d,e,h}；

子时间段3的流量作弊团伙集：X3＝{a,b,i,l}；

子时间段4的流量作弊团伙集：X4＝{a,b,g,j,l}。

则：在每一流量作弊团伙集中都出现过的用户有：Φ＝X1∩X2∩X3∩X4＝{a,b}；

则更新X1＝X1-Φ＝{f,h,k}，X2＝X2-Φ＝{d,e,h}，X3＝X3-Φ＝{i,l}，X4＝X4-Φ＝{g,j,l}。

对于a，分别计算a与X1、X2、X3、X4的点击行为相似度，在其中选择最大的点击行为相似度对应的Xn(n＝1，2，3或4)作为a所在的流量作弊团伙集。其中，例如：当计算a与X1的点击行为相似度时，分别计算a与X1中的f、h、k的点击行为相似度，并在其中选择最小的点击行为相似度作为a与X1的点击行为相似度。

采用与a同样的方法，在X1、X2、X3、X4中选择一个作为b所在的流量作弊团伙集。

考虑到：子时间段的长度可能会影响团伙流量作弊行为的识别精度，针对该情况，本发明实施例给出如下优化方案：

一可选实施例中，将第一时间段划分为至少一个子时间段，包括：根据预设的子时间段的初始长度，或者根据当前子时间段的长度和调整步长，将第一时间段划分为至少一个子时间段；

且，将该用户对内的两用户加入当前子时间段内的流量作弊团伙集中之后，进一步包括：当得到当前所有子时间段的流量作弊团伙集之后，判断当前子时间段的长度是否达到预设的子时间段的最大长度；若否，则返回所述根据当前子时间段的长度和调整步长，将第一时间段划分为至少一个子时间段的动作；若是，则根据检测出的流量作弊团伙集中的成员越多，检测结果越优的原则，在每次检测出的所述至少一个流量作弊团伙集中，选择最优的所述至少一个流量作弊团伙集作为最终检测结果。

上述实施例，通过变换子时间段的长度，计算出多组流量作弊团伙集(其中，每划分一次子时间段就会计算出一组对应的流量作弊团伙集)，并根据检测出的流量作弊团伙集中的成员越多检测结果越优的原则，在检测出的多组流量作弊团伙集中选择一组最优的流量作弊团伙集作为最终检测结果，从而提高了团伙流量作弊行为的识别精度。

一可选实施例中，将第一时间段划分为至少一个子时间段，包括：将第一时间段划分为多个子时间段，且相邻两子时间段重合预设第二时长。

考虑到：正常用户不会在很长一段时间内连续访问同一链接，因此，为了减少团伙流量作弊行为的识别工作量，加快团伙流量作弊行为的识别速度，本发明实施例给出如下优化方案：

一可选实施例中，步骤103之后、步骤104之前，进一步包括：对于每一用户，根据该用户的用户点击数据，统计该用户在第一时间段内连续访问第一链接的最大时长，若该最大时长小于预设第一时长，则确定该用户不为流量作弊团伙成员，将该用户的用户点击数据从第一时间段内访问第一链接的各用户的用户点击数据中删除。

一可选实施例中，步骤105中，将存在聚团行为的用户加入流量作弊团伙集中之后，进一步包括：对于存在聚团行为的每一用户，分别判断该用户是否满足如下条件，若满足，则将该用户从流量作弊团伙集中删除：该用户在第一链接的网页上的停留时长大于预设时长阈值，或/和，该用户对第一链接的访问深度大于预设深度阈值，或/和，该用户在第一链接上的购买的物品类型数大于预设数目。

上述实施例，通过分析用户在第一链接的网页上的停留时长、或/和用户对第一链接的访问深度、或/和用户在第一链接上的购买的物品类型，进一步确认用户是否属于流量作弊团伙成员，避免了对流量作弊行为的误判，提高了流量作弊行为识别的准确率。

图3为本发明另一实施例提供的流量作弊行为识别方法流程图，其具体步骤如下：

步骤301：获取用户访问网页的用户点击数据。

在实际应用中，可从站长分组统计表、唤醒UUID分配表、设备浏览信息表等中获取用户访问网页的用户点击数据。

在实际应用中，若用户点击数据中的某一信息存在数据缺失，则可采用临***均值、贝叶斯形式化方法、或者决策树归纳等方法对缺失值进行填补；另外，也可对用户点击数据中的各信息进行噪声过滤，例如：根据用户点击时间进行过滤、或者过滤掉站长ID的空值数据等。

步骤302：选取第一时间段，从步骤301获取的用户点击数据中提取第一时间段内访问第一链接的用户点击数据，并设定滑动时间窗的初始窗长、初始滑动步长、窗长调整步长、滑动步长调整步长以及最大窗长和最大滑动步长。

在实际应用中，例如：在流量激活场景中，可将待激活的所有用户分配给多个流量激活执行者。每个流量激活执行者通过在某个或某些网页上投放用户感兴趣的链接，以吸引用户点击该链接，从而激活用户。针对该场景，第一链接可以是某一流量激活执行者投放的链接。

在实际应用中，考虑到：正常用户不会在很长时间内连续访问同一链接，因此，本步骤302中，提取在第一时间段内访问第一链接的用户点击数据之后，再在其中过滤掉连续访问第一链接的最大时长小于第一时长的用户点击数据。

例如：设第一时长为30天，则根据在第一时间段内访问第一链接的所有用户点击数据，针对每个用户，查询每个用户在第一时间段内连续访问第一链接的最大时长，对于某个用户，若其连续访问第一链接的最大时长不超过30天，则认为该用户肯定不是流量作弊团伙成员，则将该用户点击数据过滤掉，不参与后续流程。

步骤303：按照当前窗长和当前滑动步长，将滑动时间窗在第一时间段上顺序滑动。

在实际应用中，若第一时间段内的前q(q为正整数)天没有任何用户点击第一链接，则滑动时间窗可从第q+1天开始。例如：如图4所示，设第一时间段为2020年整年，且在2020年的前58天没有任何用户点击第一链接，则滑动时间窗从第59天开始，其中，图4中，每个时间窗的窗长为120天，滑动步长为10天。

步骤304：对于每个时间窗，在第一时间段内访问第一链接的所有用户点击数据中，选择在该时间窗内访问第一链接的所有用户点击数据。

步骤305：将在该时间窗内访问第一链接的各用户进行两两完全配对，对于每个用户对，根据该用户对内的两个用户在该时间窗内同时访问第一链接的天数以及有且仅有一个用户访问第一链接的天数，计算该两用户的点击行为相似度。

这里，将在该时间窗内访问第一链接的各用户进行两两完全配对指的是，对于任一用户a，将该用户a分别与其它每个用户进行配对，例如：在该时间窗内访问第一链接的用户共有4个，分别为：a、b、c、d，则配对结果为：ab、ac、ad、bc、bd、cd。当在一时间窗内访问第一链接的用户有m个时，配成的用户对共1+2+3+...+(m-1)＝m*(m-1)/2个。

点击行为相似度的计算公式如下：

其中，δ为点击行为相似度；n为每个时间窗的天数；k为当前时间窗内的第k天；

α_k的含义为：若在第k天时，当前用户对内的两用户同时访问了第一链接，则α_k＝1，否则，α_k＝0；

β_k的含义为：若在第k天时，当前用户对内有且仅有一个用户访问了(即，或者用户a或者用户b访问了)第一链接，则β_k＝1，否则，β_k＝0。

也就是，

指的是，在当前时间窗内当前用户对内的两用户同时访问第一链接的总天数；

指的是，在当前时间窗内当前用户对内的两用户之一访问第一链接的总天数。

例如：n＝120天，在某个时间窗的120天内，用户对内的用户a、b同时访问第一链接的天数共80天，同时未访问第一链接的天数共10天，只有一个用户访问(即，或者用户a访问或者用户b访问)第一链接的天数共30天，则用户a、b的点击行为相似度为：

需要说明的是，公式(1)中的

实质上是一个权重，该权重的作用是，为了降低用户对内的两个用户同时未访问第一链接的天数较多时而导致两用户的点击行为相似度高。

步骤306：根据该时间窗内各用户对的点击行为相似度，在其中选择点击行为相似度大于预设相似度阈值的各用户对，将选择出的各用户对内的所有用户加入该时间窗的流量作弊团伙集。

例如：在该时间窗内访问第一链接的用户共有4个，分别为：a、b、c、d，则用户对有：ab、ac、ad、bc、bd、cd，其中，用户对ab、bd的点击行为相似度大于预设相似度阈值，则将用户a、b和d加入该时间窗的流量作弊团伙集中。

步骤307：根据第一时间段内的各时间窗的流量作弊团伙集，在其中选择出在每个时间窗的流量作弊团伙集中都出现过的用户。

步骤308：将在每个时间窗的流量作弊团伙集中都出现过的用户分别从每个时间窗的流量作弊团伙集中删除，得到更新后的每个时间窗的流量作弊团伙集。

步骤309：对于在每个时间窗的流量作弊团伙集中都出现过的每个用户，分别计算该用户与每个时间窗的流量作弊团伙集的点击行为相似度，并在其中选择最大的点击行为相似度，将该用户加入该最大的点击行为相似度对应的流量作弊团伙集中。

其中，计算该用户与每个时间窗的流量作弊团伙集的点击行为相似度具体为：对于每一时间窗的流量作弊团伙集，分别计算该用户与该流量作弊团伙集中的每一用户的点击行为相似度，并在其中选择最小的点击行为相似度作为该用户与该流量作弊团伙集的点击行为相似度。

步骤310：判断当前每个时间窗的窗长和滑动步长是否分别达到最大窗长和最大滑动步长，若是，执行步骤312；否则，执行步骤311。

步骤311：根据预设的窗长调整步长或/和滑动步长调整步长，调整滑动时间窗的窗长或/和滑动步长，返回步骤303。

步骤312：根据在每个时间窗内检测出的流量作弊团伙成员越多，检测结果越优的原则，在检测出的多组流量作弊团伙集中选择出最优的一组流量作弊团伙集，将所选择的最优的一组流量作弊团伙集作为最终检测结果。

其中，针对每一组窗长+滑动步长会计算出一组流量作弊团伙集。

在实际应用中，可周期性执行本发明实施例，以根据最新的用户点击数据更新流量作弊团伙集，识别方式可以基于实时的流量点击行为进行，从而提高识别准确率，且，对于周期性进行的团伙流量作弊行为，能够任意选择周期进行识别，适用范围广。

图5为本发明实施例提供的流量作弊行为识别装置的结构示意图，该装置主要包括：

点击行为特征提取模块51，用于获取用户访问网页的用户点击数据；从用户点击数据中提取第一时间段内访问第一链接的用户点击数据；从第一时间段内访问第一链接的用户点击数据中提取每个用户的用户点击数据；从每个用户的用户点击数据中提取每个用户的点击行为特征。

识别模块52，用于根据点击行为特征提取模块51提取的每个用户的点击行为特征，确定用户之间是否存在聚团行为，若存在，则将存在聚团行为的用户加入流量作弊团伙集中。

一可选实施例中，识别模块52确定用户之间是否存在聚团行为包括：根据每个用户的点击行为特征，计算两两用户之间的点击行为相似度，若任一点击行为相似度大于预设相似度阈值，则确定该点击行为相似度对应的两用户之间存在聚团行为。

一可选实施例中，点击行为特征提取模块51获取的用户点击数据包括：用户标识信息、用户点击的网页链接标识和用户点击时间；

点击行为特征提取模块51从每个用户的用户点击数据中提取每个用户的点击行为特征包括：将第一时间段划分为至少一个子时间段；对于每个子时间段，获取在该子时间段内访问第一链接的各用户的用户点击数据；对于每个子时间段，将在该子间时段内访问第一链接的所有用户进行两两完全配对；对于每个子时间段内访问第一链接的每一用户对，根据该用户对内的两用户在当前子时间段内的用户点击数据，统计该用户对内的两用户在当前子时间段内同时访问第一链接的天数，视为第一类天数，并统计该用户对内的两用户在当前子时间段内有且仅有一个用户访问第一链接的天数，设为第二类天数；将第一类天数和第二类天数作为该用户对内的两用户在当前子时间段内的点击行为特征。

一可选实施例中，识别模块52确定用户之间是否存在聚团行为，包括：对于每个子时间段内访问第一链接的每一用户对，计算该用户对对应的第一类天数与第二类天数的和值，再将第一类天数除以所述和值，得到该用户对内的两用户之间的点击行为相似度初始值；将第一类天数除以当前子时间段的总天数，得到权重；将所述权重乘以所述点击行为相似度初始值，得到该用户对内的两用户之间的点击行为相似度，若该点击行为相似度大于预设相似度阈值，则确定该用户对内的两用户之间存在聚团行为；

识别模块52将存在聚团行为的用户加入流量作弊团伙集中，包括：将该用户对内的两用户加入当前子时间段内的流量作弊团伙集中。

一可选实施例中，识别模块52将该用户对内的两用户加入当前子时间段内的流量作弊团伙集中之后，进一步包括：当得到第一时间段内的所有子时间段的流量作弊团伙集时，选取在每一流量作弊团伙集中都出现过的用户；将在每一流量作弊团伙集中都出现过的用户分别从每一流量作弊团伙集中删除，得到更新后的每个子时间段的流量作弊团伙集；对于在每一流量作弊团伙集中都出现过的每一用户，计算该用户与每一流量作弊团伙集的点击行为相似度，在其中选择点击行为相似度最大的流量作弊团伙集，将该用户加入所选择的流量作弊团伙集中。

一可选实施例中，识别模块52计算该用户与每一流量作弊团伙集的点击行为相似度，包括：对于每一流量作弊团伙集，分别计算该用户与该流量作弊团伙集中的每一用户的点击行为相似度，并在其中选择最小的点击行为相似度作为该用户与该流量作弊团伙集的点击行为相似度。

一可选实施例中，点击行为特征提取模块51将第一时间段划分为至少一个子时间段，包括：根据预设的子时间段的初始长度，或者根据当前子时间段的长度和调整步长，将第一时间段划分为至少一个子时间段；

且，识别模块52将该用户对内的两用户加入当前子时间段内的流量作弊团伙集中之后，进一步包括：当得到当前所有子时间段的流量作弊团伙集之后，判断当前子时间段的长度是否达到预设的子时间段的最大长度；若否，则通知点击行为特征提取模块51返回所述根据当前子时间段的长度和调整步长，将第一时间段划分为至少一个子时间段的动作；若是，则根据检测出的流量作弊团伙集中的成员越多，检测结果越优的原则，在每次检测出的所述至少一个流量作弊团伙集中，选择最优的所述至少一个流量作弊团伙集作为最终检测结果。

一可选实施例中，点击行为特征提取模块51将第一时间段划分为至少一个子时间段，包括：将第一时间段划分为多个子时间段，且相邻两子时间段重合预设第二时长。

一可选实施例中，点击行为特征提取模块51从第一时间段内访问第一链接的用户点击数据中提取每个用户的用户点击数据之后、从每个用户的用户点击数据中提取每个用户的点击行为特征之前，进一步包括：对于每一用户，根据该用户的用户点击数据，统计该用户在第一时间段内连续访问第一链接的最大时长，若该最大时长小于预设第一时长，则确定该用户不为流量作弊团伙成员，将该用户的用户点击数据从第一时间段内访问第一链接的各用户的用户点击数据中删除。

一可选实施例中，识别模块52将存在聚团行为的用户加入流量作弊团伙集中之后，进一步包括：对于存在聚团行为的每一用户，分别判断该用户是否满足如下条件，若满足，则将该用户从流量作弊团伙集中删除：该用户在第一链接的网页上的停留时长大于预设时长阈值，或/和，该用户对第一链接的访问深度大于预设深度阈值，或/和，该用户在第一链接上的购买的物品类型数大于预设数目。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由处理器执行时可执行如上所述流量作弊行为识别方法中的步骤。实际应用中，所述的计算机可读介质可以是上述实施例各设备/装置/***所包含的，也可以是单独存在，而未装配入该设备/装置/***中。其中，在计算机可读存储介质中存储指令，其存储的指令在由处理器执行时可执行如上流量作弊行为识别方法中的步骤。

根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

如图6所示，本发明实施例还提供一种电子设备。如图6所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或一个以上处理核心的处理器61、一个或一个以上计算机可读存储介质的存储器62以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器62的程序时，可以实现上述流量作弊行为识别方法。

具体的，实际应用中，该电子设备还可以包括电源63、输入输出单元64等部件。本领域技术人员可以理解，图6中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器61是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器62内的软件程序和/或模块，以及调用存储在存储器62内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。

存储器62可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器61通过运行存储在存储器62的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器62可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器62可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器62还可以包括存储器控制器，以提供处理器61对存储器62的访问。

该电子设备还包括给各个部件供电的电源63，可以通过电源管理***与处理器61逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源63还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入输出单元64，该输入单元输出64可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该输入单元输出64还可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种流量作弊行为识别方法，其特征在于，该方法包括：

获取用户访问网页的用户点击数据；

2.根据权利要求1所述的方法，其特征在于，所述确定用户之间是否存在聚团行为包括：

3.根据权利要求1所述的方法，其特征在于，所述用户点击数据包括：用户标识信息、用户点击的网页链接标识和用户点击时间；

4.根据权利要求3所述的方法，其特征在于，所述确定用户之间是否存在聚团行为，包括：

所述将存在聚团行为的用户加入流量作弊团伙集中，包括：

5.根据权利要求4所述的方法，其特征在于，所述将该用户对内的两用户加入当前子时间段内的流量作弊团伙集中之后，进一步包括：

6.根据权利要求5所述的方法，其特征在于，所述计算该用户与每一流量作弊团伙集的点击行为相似度，包括：

7.根据权利要求4所述的方法，其特征在于，所述将第一时间段划分为至少一个子时间段，包括：

8.根据权利要求3所述的方法，其特征在于，所述将第一时间段划分为至少一个子时间段，包括：

9.根据权利要求1所述的方法，其特征在于，所述从所述第一时间段内访问第一链接的用户点击数据中提取每个用户的用户点击数据之后、所述从所述每个用户的用户点击数据中提取每个用户的点击行为特征之前，进一步包括：

10.根据权利要求1所述的方法，其特征在于，所述将存在聚团行为的用户加入流量作弊团伙集中之后，进一步包括：

11.一种流量作弊行为识别装置，其特征在于，该装置包括：

12.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至10中任一项所述的流量作弊行为识别方法的步骤。

13.一种电子设备，其特征在于，包括如权利要求12所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。