CN110519263A

CN110519263A - 防刷量方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110519263A
Application number: CN201910791649.2A
Authority: CN
Inventors: 肖伟华; 许龙; 尹畅文
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-11-29
Anticipated expiration: 2039-08-26
Also published as: CN110519263B

Abstract

本申请公开了防刷量方法、装置、设备及计算机可读存储介质，涉及大数据领域。具体实现方案为：通过将各个站点的访问日志分散存储在多个数据区域中，在进行防刷量处理时，从用于存储访问日志的多个数据区域中采样确定至少一个目标区域；基于访客IP地址对至少一个目标区域内的访问日志进行访问行为分析处理确定刷量IP地址，提高了刷量IP地址的识别效率；通过生成用于唯一标识一个访客的访客标识，将刷量IP地址对应的访客标识确定为刷量用户标识，在确定具有伪造访问请求的刷量行为的访客IP地址后，进一步确定具有伪造访问请求的刷量行为的刷量用户标识，从而可以准确识别出伪造访问请求的刷量行为，提高了刷量行为的识别的精准度。

Description

防刷量方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及大数据技术。

背景技术

数据统计平台在统计网站行为数据时，通常会记录访问来源，受访页面等信息。由于访问来源的记录依据为跳转访问，因此不法分子可以通过伪造访问请求，使用虚假访问来源进行跳转，伪造访问来源数据，这种伪造访问请求的刷量行为不仅使统计数据结果产生偏差，而且在统计结果中出现垃圾广告信息。

现有识别刷量行为的方法，通常通过根据终端或用户发起访问请求的频率、访问行为的刷量行为特征等识别伪造访问请求的刷量终端和刷量用户。但是，对于web站点，通常很难获取到发起终端的MAC地址、硬盘序列号等关键标识信息，无法准确针对发起终端进行分析；另外伪造访问请求可以进行伪装，同一终端可以伪造多个用户进行刷量行为，使人与机器行为更加难以区分，无法准确分析用户访问行为特征；因此，将终端或者用户作为分析对象，识别伪造访问请求的准确率低，且由于用户访问日志的数据量巨大，伪造访问请求识别周期长、效率低。

发明内容

本申请提供一种防刷量方法、装置、设备及计算机可读存储介质，用以解决现有技术中识别伪造访问请求的准确率低，伪造访问请求识别周期长、效率低的问题。

本申请的一个实施例提供一种防刷量方法，包括：

从用于存储访问日志的多个数据区域中采样确定至少一个目标区域；基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址；将所述刷量IP地址对应的访客标识确定为刷量用户标识，所述访客标识用于唯一标识一个访客。

可选的，所述将所述刷量IP地址对应的访客标识确定为刷量用户标识之后，还包括：对所述刷量IP地址和所述刷量用户标识进行屏蔽过滤处理，以实时地对具有刷量行为的访问进行屏蔽过滤，能够有效防止恶意数据刷量行为。

可选的，所述从用于存储访问日志的多个数据区域中采样确定至少一个目标区域之前，还包括：响应于访客的访问请求，根据所述访客的设备信息和cookie信息，生成所述访客的访客标识；记录所述访客的访问日志，所述访问日志至少包括所述访客的访客标识、访客IP地址、站点信息和访问行为数据，以针对不同的访客生成唯一的访客标识，并在访问日志中记录访问标识。

可选的，所述记录所述访客的访问日志之后，还包括：根据所述访问日志中的站点信息，采用预设散列规则，将所述访问日志存储到对应的数据区域，以实现将大量的访问日志散列存储到多个不同的数据区域。

可选的，所述基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址，包括：根据所述至少一个目标区域内的访问日志，计算每个访客IP地址访问的站点数量和平均单次访问时长；根据每个访客IP地址访问的站点数量和平均单次访问时长，计算每个访客IP地址的综合风险权重；若某一访客IP地址的综合风险权重大于预设权重阈值，则确定该访客IP地址是刷量IP地址，以实现综合访问的站点数量和平均单次访问时长等两个行为特征，来识别出具有刷量行为的刷量IP地址。

可选的，所述根据每个访客IP地址访问的站点数量和平均单次访问时长，计算每个访客IP地址的综合风险权重之前，还包括：根据访客IP地址的最大单次访问深度和最长单次访问时长，筛选出风险IP地址，所述风险IP地址是指最大单次访问深度小于第一阈值，或者最长单次访问时长小于第二阈值的访客IP地址；对所述风险IP地址执行计算访客IP地址的综合风险权重的步骤，以实现在计算访客IP地址的综合风险权重之前，预先筛选出可能存在刷量行为的风险IP地址，只对风险IP地址进行综合风险权重的计算，减少计算量，提高刷量IP地址识别的效率。

可选的，所述根据每个访客IP地址访问的站点数量和平均单次访问时长，计算每个访客IP地址的综合风险权重，包括：根据每个访客IP地址访问的站点数量和平均单次访问时长、站点数量对应的第一预设权重、以及平均单次访问时长对应的第二预设权重，采用如下方式计算每个访客IP地址的综合风险权重：综合风险权重＝第一预设权重×站点数量+第二预设权重/平均单次访问时长；其中所述第一预设权重大于所述第二预设权重，以实现准确计算每个访客IP地址的综合风险权重。

可选的，所述对所述刷量IP地址和所述刷量用户标识进行屏蔽过滤处理，包括：将包含所述刷量IP地址和/或所述刷量用户标识的访问日志过滤掉，以实现对具有刷量行为的刷量IP地址和所述刷量用户标识进行屏蔽过滤。

可选的，所述基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址，包括：从所述目标区域内定期地获取最近预设时长内的访问日志；基于访客IP地址对所述最近预设时长内的访问日志进行访问行为分析处理，确定刷量IP地址，以实时地进行刷量IP地址的识别及后续的防刷量处理。

本申请的另一个实施例提供一种防刷量装置，包括：

数据采样模块，用于从用于存储访问日志的多个数据区域中采样确定至少一个目标区域；实时筛选模块，用于基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址；所述实时筛选模块还用于：将所述刷量IP地址对应的访客标识确定为刷量用户标识，所述访客标识用于唯一标识一个访客。

本申请的另一个实施例提供一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的防刷量方法。

本申请的另一个实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述所述的防刷量方法。

本申请的另一个实施例提供一种防刷量方法，包括：

基于访客IP地址对至少一个数据区域内的访问日志进行访问行为分析处理，确定刷量IP地址；将所述刷量IP地址对应的访客标识确定为刷量用户标识，所述访客标识用于唯一标识一个访客。

上述申请中的一个实施例具有如下优点或有益效果：

通过预先将各个站点的访问日志分散存储在多个数据区域中，在进行防刷量处理时，从用于存储访问日志的多个数据区域中采样确定至少一个目标区域；基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址，提高了刷量IP地址的识别效率；通过预先生成用于唯一标识一个访客的访客标识，将所述刷量IP地址对应的访客标识确定为刷量用户标识，在确定具有伪造访问请求的刷量行为的访客IP地址后，还可以进一步确定具有伪造访问请求的刷量行为的刷量用户标识，从而可以准确识别出伪造访问请求的刷量行为，提高了刷量行为的识别的精准度。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的防刷量方法的流程图；

图2是根据本申请第二实施例的防刷量方法的流程图；

图3是根据本申请第三实施例的防刷量装置的结构示意图；

图4是根据本申请第四实施例的防刷量装置的结构示意图；

图5是用来实现本申请实施例的防刷量的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请所涉及的术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

本申请具体的应用场景为：数据统计平台根据各个站点的访问日志，统计各个站点的访问量、或者统计各个站点内对某一项目(例如广告页等)的访问量，并以访问量为依据向站点付费。但是某些不法分子会恶意伪造真实的访问请求进行刷量操作，导致数据统计平台统计的访问量数据不准确。本申请提供一种防刷量方法应用于上述场景，对访问日志进行分析和处理，识别出具有刷量行为的访客IP地址和访客标识，从而为对具有刷量行为的访客IP地址和访客标识的访问请求进行屏蔽过滤处理提供技术基础。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请第一实施例提供了一种防刷量方法。图1是根据本申请第一实施例的防刷量方法的流程图，如图1所示，该方法具体步骤如下：

步骤S101、从用于存储访问日志的多个数据区域中采样确定至少一个目标区域。

在实际应用中，一个网络平台就可能有很多个甚至上百万个站点，各个站点的访问日志的数据量非常大，数据统计平台如果对所有站点的访问日志进行分析识别刷量行为，将会耗费很长的时间和计算资源。

本实施例中，各个站点的访问日志分散存储在多个数据区域中。在进行防刷量处理时，可以从多个数据区域中，通过采样方法确定其中至少一个数据区域作为目标区域，通过对目标区域内的访问日志进行的数据分析确定存在刷量行为的访客IP地址，这样可以得到减少计算量，提高刷量IP地址的识别效率。

其中，用于存储访问日志的不同的数据区域可以是从逻辑上或者物理空间上进行的划分。例如，不同的数据区域可以是不同的数据库，或者是不同的存储设备。

示例性的，在确定目标区域时，可以采用随机采样算法，从多个数据区域确定至少一个目标区域。

通常，相对于不存在刷量问题的站点访问数据的数据量，存在刷量问题的站点访问数据的数据量会大很多，根据各个站点的数据量的大小，可以初步筛选出存在刷量问题的异常站点，在选取目标区域时，可以优先选择存储有异常站点访问数据的数据区域作为目标区域，有利于发现具有刷量行为的刷量IP地址。

示例性的，在确定目标区域时，还可以根据各个数据区域中存储的各站点的数据量，确定各个数据区域中是否存在某一站点的数据量大于预设数据量阈值；筛选出存在某一站点的数据量大于预设数据量阈值的数据区域作为备选区域，然后将备选区域全部作为目标区域，或者从备选区域中选取至少一个作为目标区域。

步骤S102、基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址。

其中，访问日志至少包括以下信息：访客标识、访客IP地址、站点信息和访问行为数据。访问行为数据可以包括：访问来源类型、访问来源URL，访客的设备信息、访问深度、访问时长和访问时间等信息。其中，访问来源类型可以包括：直接访问、搜索引擎和外部链接等。访客的设备信息可以包括以下信息中的一种或者多种：设备型号、设备品牌、操作***类型、操作***版本号、浏览器类型等。访问深度可以是用户在一次浏览过程中浏览的网站的页数。访问日志还可以包括其他的访问行为数据，本实施例此处不做具体限定。

另外，访问日志还可以包括访客的其他信息，例如地域信息等。

本实施例中，以对所述至少一个目标区域内的访问日志作为基础数据，以访客IP地址作为分析对象，分析不同访客IP地址的访问行为特征，来识别出具有刷量行为的刷量IP地址。

步骤S103、将所述刷量IP地址对应的访客标识确定为刷量用户标识，所述访客标识用于唯一标识一个访客。

本实施例中，在访客访问站点时，根据能够获取到的访客的设备信息和cookie信息等，生成能够唯一标识该访客的访客标识。该访客标识综合了访客使用的设备的相关信息，以及访客的cookie信息，该访客标识具有标识访客终端的作用，同时具有标识用户的功能。这样，在不需要获取设备的MAC地址、硬盘序列号等关键标识信息的前提下，通过该访客标识也可以区分不同的访客设备。

在该访客第一次请求访问网络平台的站点时，生成该访客标识；在后续请求访问该站点或者其他站点时，均将访客标识携带在访问请求中，在记录访问日志时可以在访问日志信息中记录访客标识。

其中，刷量IP地址对应的访客标识是指使用刷量IP地址访问过任意一个站点的访客的访客标识。

本实施例通过预先将各个站点的访问日志分散存储在多个数据区域中，在进行防刷量处理时，从用于存储访问日志的多个数据区域中采样确定至少一个目标区域；基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址，提高了刷量IP地址的识别效率；通过预先生成用于唯一标识一个访客的访客标识，将所述刷量IP地址对应的访客标识确定为刷量用户标识，在确定具有伪造访问请求的刷量行为的访客IP地址后，还可以进一步确定具有伪造访问请求的刷量行为的刷量用户标识，从而可以准确识别出伪造访问请求的刷量行为，提高了刷量行为的识别的精准度。

图2是根据本申请第二实施例的防刷量方法的流程图。在本申请第一实施例的基础上，本申请的第二实施例中，从用于存储访问日志的多个数据区域中采样确定至少一个目标区域之前，还包括：记录访问日志，根据所述访问日志中的站点信息，采用预设散列规则，将所述访问日志存储到对应的数据区域。在所述将所述刷量IP地址对应的访客标识确定为刷量用户标识之后，还可以对所述刷量IP地址和所述刷量用户标识进行屏蔽过滤处理。如图2所示，该方法具体步骤如下：

步骤S201、响应于访客的访问请求，根据所述访客的设备信息和cookie信息，生成所述访客的访客标识。

本实施例中，在进行防刷量处理之前，预先生成用于唯一标识一个访客的访客标识。具体的，在该访客第一次请求访问网络平台的站点时，生成该访客标识；在后续请求访问该站点或者其他站点时，均将访客标识携带在访问请求中，在记录访问日志时须在访问日志信息中记录访客标识。

其中，访客的设备信息可以包括以下信息中的一种或者多种：设备型号、设备品牌、操作***类型、操作***版本号、浏览器类型等。访客的设备信息和cookie信息组合用来唯一标识一个访客。该访客标识综合了访客使用的设备的相关信息，以及访客的cookie信息，该访客标识具有标识访客终端的作用，同时具有标识用户的功能。这样，在不需要获取设备的MAC地址、硬盘序列号等关键标识信息的前提下，通过该访客标识也可以区分不同的访客设备。

该步骤中，响应于访客的访问请求，确定访问请求中是否包含访客标识；如果访问请求中不包含访客标识，则说明本次访问是该访客的第一次访问，那么获取访客的设备信息和cookie信息，并根据访客的设备信息和cookie信息生成该访客的访客标识，并在后续记录访问日志时，在访问日志中添加访客标识；如果访问请求中包含访客标识，则说明本次访问不是该访客的第一次访问，在记录访问日志时，在访问日志中添加访客标识即可。

示例性的，根据所述访客的设备信息和cookie信息，生成所述访客的访客标识，可以采用如下方式实现：

将访客的设备信息和cookie信息按照预设排列顺序组成数据序列，对数据序列进行标准化处理，生成具有预设长度的字符串，作为访客标识。

其中，数据序列中设备信息和cookie信息的预设排列顺序，以及生成访客标识的预设长度，均可以由技术人员根据实际需要和经验进行设定，本实施例此处不做具体限定。

另外，对数据序列进行标准化处理得到预设长度的字符串，可以采用现有技术中任意一种能够实现类似功能的方法实现，本实施例此处不做具体限定。

步骤S202、记录所述访客的访问日志，所述访问日志至少包括所述访客的访客标识、访客IP地址、站点信息和访问行为数据。

在访客每次访问站点时，均需记录访客的访问日志。在记录访问日志时，须将访客标识记录在访问日志中。

其中，访问行为数据可以包括：访问来源类型、访问来源URL，访客的设备信息、访问深度、访问时长和访问时间等信息。其中，访问来源类型可以包括：直接访问、搜索引擎和外部链接等。访客的设备信息可以包括以下信息中的一种或者多种：设备型号、设备品牌、操作***类型、操作***版本号、浏览器类型等。访问深度可以是用户在一次浏览过程中浏览的网站的页数。访问日志还可以包括其他的访问行为数据，本实施例此处不做具体限定。

示例性的，作为一种可能的实现方式，上述步骤S201-S202收集日志的过程可以由专门的数据收集设备来实现，例如可以由大数据平台完成访问日志的收集。

步骤S203、根据所述访问日志中的站点信息，采用预设散列规则，将所述访问日志存储到对应的数据区域。

本实施例中，各个站点的访问日志分散存储在多个数据区域中。同一站点的访问日志存储在同一个数据区域中，一个数据区域中可以存储一个或者多个站点的访问日志。

可选的，在每次记录访问日志之后，可以实时地根据当前访问日志的站点信息和预设散列规则，将当前的访问日志散列到对应的数据区域。

可选的，如果上述步骤S201-S202收集日志的过程可以由专门的数据收集设备来实现，该步骤中，可以由数据统计平台统一从数据收集设备获取大量的访问日志，并统一根据各个访问日志中的站点信息，采用预设散列规则，将各个访问日志散列到多个不同的数据区域中。

其中，预设散列规则可以采用现有技术中任意一种散列算法实现，或者还可以由技术人员根据实际需要和经验进行设定，本实施例此处不做具体限定。

本实施例中，用于存储访问日志的不同的数据区域可以是从逻辑上或者物理空间上进行的划分。例如，不同的数据区域可以是不同的数据库，或者是不同的存储设备。

步骤S204、从用于存储访问日志的多个数据区域中采样确定至少一个目标区域。

步骤S205、基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址。

可选的，该步骤中，可以从所述目标区域内定期地获取最近预设时长内的访问日志；基于访客IP地址对所述最近预设时长内的访问日志进行访问行为分析处理，确定刷量IP地址，并执行后续步骤S206-S207，以实时地识别出具有刷量行为的刷量IP地址和刷量用户标识，并针对刷量IP地址和刷量用户标识进行屏蔽过滤处理。

其中，最近预设时长可以是距今最近的一个历史时长，例如过去的1小时、或者过去的几个小时，最近预设时长可以由技术人员根据实际需要进行设定，本实施例此处不做具体限定。

本实施例中，该步骤的一种可能的实施方式为：

根据所述至少一个目标区域内的访问日志，计算每个访客IP地址访问的站点数量和平均单次访问时长；根据每个访客IP地址访问的站点数量和平均单次访问时长，计算每个访客IP地址的综合风险权重；若某一访客IP地址的综合风险权重大于预设权重阈值，则确定该访客IP地址是刷量IP地址。

其中，预设权重阈值可以由技术人员根据实际需要和经验进行设定，本实施例此处不做具体限定。

进一步的，根据每个访客IP地址访问的站点数量和平均单次访问时长，计算每个访客IP地址的综合风险权重，具体可以采用如下方式实现：

根据每个访客IP地址访问的站点数量和平均单次访问时长、站点数量对应的第一预设权重、以及平均单次访问时长对应的第二预设权重，采用如下公式，计算每个访客IP地址的综合风险权重：

综合风险权重＝第一预设权重×站点数量+第二预设权重/平均单次访问时长。

其中，所述第一预设权重大于所述第二预设权重，第一预设权重和第二预设权重的值可以由技术人员根据实际需要和经验进行设定，本实施例此处不做具体限定。

进一步的，在根据每个访客IP地址访问的站点数量和平均单次访问时长，计算每个访客IP地址的综合风险权重之前，还可以先根据访客IP地址的最大单次访问深度和最长单次访问时长，筛选出风险IP地址，所述风险IP地址是指最大单次访问深度小于第一阈值，或者最长单次访问时长小于第二阈值的访客IP地址。然后，对所述风险IP地址执行计算访客IP地址的综合风险权重的步骤及后续步骤：根据每个风险IP地址访问的站点数量和平均单次访问时长，计算每个风险IP地址的综合风险权重；若某一风险IP地址的综合风险权重大于预设权重阈值，则确定该风险IP地址是刷量IP地址。这样，可以实现在计算访客IP地址的综合风险权重之前，预先筛选出可能存在刷量行为的风险IP地址，只对风险IP地址进行综合风险权重的计算，减少计算量，提高刷量IP地址识别的效率。

其中，第一阈值和第二阈值可以由技术人员根据实际需要和经验进行设定，本实施例此处不做具体限定。例如，第一阈值可以为2，第二阈值可以为5秒。

该步骤的另一实施方式中，在根据每个访客IP地址访问的站点数量和平均单次访问时长，计算每个访客IP地址的综合风险权重之前，还可以先根据访客IP地址访问的站点数量和最长单次访问时长，筛选出风险IP地址，所述风险IP地址是指访问的站点数量大于第三阈值，或者最长单次访问时长小于第四阈值的访客IP地址。然后，对所述风险IP地址执行计算访客IP地址的综合风险权重的步骤及后续步骤：根据每个风险IP地址访问的站点数量和平均单次访问时长，计算每个风险IP地址的综合风险权重；若某一风险IP地址的综合风险权重大于预设权重阈值，则确定该风险IP地址是刷量IP地址。这样，可以实现在计算访客IP地址的综合风险权重之前，预先筛选出可能存在刷量行为的风险IP地址，只对风险IP地址进行综合风险权重的计算，减少计算量，提高刷量IP地址识别的效率。其中，第三阈值和第四阈值可以由技术人员根据实际需要和经验进行设定，本实施例此处不做具体限定。例如，第三阈值可以为7，第四阈值可以为5秒。

进一步的，根据访客IP地址访问的站点数量和最长单次访问时长，筛选出风险IP地址之后，对于不是风险IP地址的访客IP地址，还可以进一步根据访客IP地址的最大单次访问深度来确定该访客IP地址是否是刷量IP地址。

具体的，根据所述至少一个目标区域内的访问日志，确定每个访客IP地址的最大单次访问深度；若某一访客IP地址的最大单次访问深度小于预设访问深度阈值，则确定该访客IP地址是刷量IP地址。

其中，预设访问深度阈值可以由技术人员根据实际需要和经验进行设定，本实施例此处不做具体限定。

步骤S206、将所述刷量IP地址对应的访客标识确定为刷量用户标识，所述访客标识用于唯一标识一个访客。

在确定刷量IP地址之后，能够进一步确定刷量IP地址对应的访客标识，并将刷量IP地址对应的访客标识作为具有刷量行为的刷量用户标识。

可选的，在该步骤之前，可以预先建立访客IP地址和访客标识之间的对应关系。访客IP地址对应的访客标识是指使用该访客IP地址访问过任何一个站点的访客的访客标识，每个访客IP地址可以对应一个或者多个访客标识。

步骤S207、对所述刷量IP地址和所述刷量用户标识进行屏蔽过滤处理。

本实施例中，在识别出刷量IP地址和刷量用户标识之后，还可以对刷量IP地址和刷量用户标识进行屏蔽过滤处理。

可选的，可以将包含所述刷量IP地址和/或所述刷量用户标识的访问日志过滤掉，以使进行访问量统计时，不再对刷量行为产生的访问日志进行统计，实现防刷量。

可选的，还可以在记录访问日志时，根据访问请求中的访客IP地址和访客标识，若确定当前访客IP地址为刷量IP地址，或者当前的访客标识为刷量用户标识，则不再记录本次访问日志，或者将本次访问日志标记为屏蔽状态，后续进行访问量统计时将不再对本次访问日志进行计数。

本实施例通过预先将各个站点的访问日志分散存储在多个数据区域中，在进行防刷量处理时，从用于存储访问日志的多个数据区域中采样确定至少一个目标区域；基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址，提高了刷量IP地址的识别效率；通过预先生成用于唯一标识一个访客的访客标识，将所述刷量IP地址对应的访客标识确定为刷量用户标识，在确定具有伪造访问请求的刷量行为的访客IP地址后，进一步确定具有伪造访问请求的刷量行为的刷量用户标识，从而可以准确识别出伪造访问请求的刷量行为，提高了刷量行为的识别的精准度；进一步的，可以实时地对刷量IP地址和所述刷量用户标识进行屏蔽过滤处理，能够有效防止恶意数据刷量行为。

本申请第三实施例提供了一种防刷量装置。图3是根据本申请第三实施例的防刷量装置的结构示意图。如图3所示，该防刷量装置30包括：数据采样模块301和实时筛选模块302。

具体地，数据采样模块301用于从用于存储访问日志的多个数据区域中采样确定至少一个目标区域。

实时筛选模块302用于基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址。

所述实时筛选模块302还用于：将所述刷量IP地址对应的访客标识确定为刷量用户标识，所述访客标识用于唯一标识一个访客。

本申请实施例提供的装置可以具体用于执行上述第一实施例所提供的方法实施例，具体功能此处不再赘述。

本申请第四实施例提供了一种防刷量装置。图4是根据本申请第四实施例提供的防刷量装置的结构示意图。在上述第三实施例的基础上，本实施例中，如图4所示，防刷量装置30还包括：屏蔽过滤模块303。

具体的，屏蔽过滤模块303用于：对所述刷量IP地址和所述刷量用户标识进行屏蔽过滤处理。

可选的，如图4所示，防刷量装置30还可以包括：日志收集模块304。

日志收集模块304用于：

响应于访客的访问请求，根据所述访客的设备信息和cookie信息，生成所述访客的访客标识；记录所述访客的访问日志，所述访问日志至少包括所述访客的访客标识、访客IP地址、站点信息和访问行为数据。

可选的，如图4所示，防刷量装置30还可以包括：数据存储模块305。

数据存储模块305用于：

根据所述访问日志中的站点信息，采用预设散列规则，将所述访问日志存储到对应的数据区域。

可选的，实时筛选模块还用于：

根据访客IP地址的最大单次访问深度和最长单次访问时长，筛选出风险IP地址，所述风险IP地址是指最大单次访问深度小于第一阈值，或者最长单次访问时长小于第二阈值的访客IP地址；对所述风险IP地址执行计算访客IP地址的综合风险权重的步骤。

可选的，实时筛选模块还用于：

根据每个访客IP地址访问的站点数量和平均单次访问时长、站点数量对应的第一预设权重、以及平均单次访问时长对应的第二预设权重，采用如下方式计算每个访客IP地址的综合风险权重：

综合风险权重＝第一预设权重×站点数量+第二预设权重/平均单次访问时长；其中所述第一预设权重大于所述第二预设权重。

可选的，屏蔽过滤模块303还用于：

将包含所述刷量IP地址和/或所述刷量用户标识的访问日志过滤掉。

可选的，实时筛选模块还用于：

从所述目标区域内定期地获取最近预设时长内的访问日志；基于访客IP地址对所述最近预设时长内的访问日志进行访问行为分析处理，确定刷量IP地址。

本实施例提供的装置可以具体用于执行上述第二实施例所提供的方法实施例，具体功能此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的防刷量的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器Y01、存储器Y02，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图5中以一个处理器Y01为例。

存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的防刷量的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的防刷量的方法。

存储器Y02作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的防刷量的方法对应的程序指令/模块(例如，附图4所示的数据采样模块301、实时筛选模块302、屏蔽过滤模块303、日志收集模块304和数据存储模块305)。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的防刷量的方法。

存储器Y02可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据防刷量的电子设备的使用所创建的数据等。此外，存储器Y02可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器Y02可选包括相对于处理器Y01远程设置的存储器，这些远程存储器可以通过网络连接至防刷量的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

防刷量的电子设备还可以包括：输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置Y03可接收输入的数字或字符信息，以及产生与防刷量的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过预先将各个站点的访问日志分散存储在多个数据区域中，在进行防刷量处理时，从用于存储访问日志的多个数据区域中采样确定至少一个目标区域；基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址，提高了刷量IP地址的识别效率；通过预先生成用于唯一标识一个访客的访客标识，将所述刷量IP地址对应的访客标识确定为刷量用户标识，在确定具有伪造访问请求的刷量行为的访客IP地址后，进一步确定具有伪造访问请求的刷量行为的刷量用户标识，从而可以准确识别出伪造访问请求的刷量行为，提高了刷量行为的识别的精准度；进一步的，可以实时地对刷量IP地址和所述刷量用户标识进行屏蔽过滤处理，能够有效防止恶意数据刷量行为。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种防刷量方法，其特征在于，包括：

从用于存储访问日志的多个数据区域中采样确定至少一个目标区域；

基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址；

将所述刷量IP地址对应的访客标识确定为刷量用户标识，所述访客标识用于唯一标识一个访客。

2.根据权利要求1所述的方法，其特征在于，所述将所述刷量IP地址对应的访客标识确定为刷量用户标识之后，还包括：

对所述刷量IP地址和所述刷量用户标识进行屏蔽过滤处理。

3.根据权利要求1所述的方法，其特征在于，所述从用于存储访问日志的多个数据区域中采样确定至少一个目标区域之前，还包括：

响应于访客的访问请求，根据所述访客的设备信息和cookie信息，生成所述访客的访客标识；

记录所述访客的访问日志，所述访问日志至少包括所述访客的访客标识、访客IP地址、站点信息和访问行为数据。

4.根据权利要求3所述的方法，其特征在于，所述记录所述访客的访问日志之后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址，包括：

根据所述至少一个目标区域内的访问日志，计算每个访客IP地址访问的站点数量和平均单次访问时长；

根据每个访客IP地址访问的站点数量和平均单次访问时长，计算每个访客IP地址的综合风险权重；

若某一访客IP地址的综合风险权重大于预设权重阈值，则确定该访客IP地址是刷量IP地址。

6.根据权利要求5所述的方法，其特征在于，所述根据每个访客IP地址访问的站点数量和平均单次访问时长，计算每个访客IP地址的综合风险权重，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述根据每个访客IP地址访问的站点数量和平均单次访问时长，计算每个访客IP地址的综合风险权重之前，还包括：

根据访客IP地址的最大单次访问深度和最长单次访问时长，筛选出风险IP地址，所述风险IP地址是指最大单次访问深度小于第一阈值，或者最长单次访问时长小于第二阈值的访客IP地址；

对所述风险IP地址执行计算访客IP地址的综合风险权重的步骤。

8.根据权利要求2所述的方法，其特征在于，所述对所述刷量IP地址和所述刷量用户标识进行屏蔽过滤处理，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址，包括：

从所述目标区域内定期地获取最近预设时长内的访问日志；

基于访客IP地址对所述最近预设时长内的访问日志进行访问行为分析处理，确定刷量IP地址。

10.一种防刷量装置，其特征在于，包括：

数据采样模块，用于从用于存储访问日志的多个数据区域中采样确定至少一个目标区域；

实时筛选模块，用于基于访客IP地址对所述至少一个目标区域内的访问日志进行访问行为分析处理，确定刷量IP地址；

所述实时筛选模块还用于：将所述刷量IP地址对应的访客标识确定为刷量用户标识，所述访客标识用于唯一标识一个访客。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：屏蔽过滤模块，所述屏蔽过滤模块用于：

对所述刷量IP地址和所述刷量用户标识进行屏蔽过滤处理。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：日志收集模块，所述日志收集模块用于：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：数据存储模块，所述数据存储模块用于：

14.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。

16.一种防刷量方法，其特征在于，包括：

基于访客IP地址对至少一个数据区域内的访问日志进行访问行为分析处理，确定刷量IP地址；