CN108133140A

CN108133140A - 一种动态防爬虫的方式

Info

Publication number: CN108133140A
Application number: CN201711298334.1A
Authority: CN
Inventors: 张琳艳
Original assignee: Chengdu Chateau Science And Technology Co Ltd
Current assignee: Chengdu Chateau Science And Technology Co Ltd
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2018-06-08

Abstract

本发明公开了一种动态防爬虫的方式，所述方式包括：运用机器学***。

Description

一种动态防爬虫的方式

技术领域

本发明涉及网络信息领域，尤其涉及一种动态防爬虫的方式。

背景技术

爬虫技术的更新换代为搜索引擎提供了很好的技术支持，但是很多不友好的爬虫并不遵循通用的reboots协议，未经过平台允许擅自索引平台数据，不仅有可能泄露用户隐私信息，也会造成平台的服务器压力增大。为了防范这种恶意爬虫，防爬虫技术应运而生。

一般的防爬虫技术使用的是规则限制，比如允许一个IP在一定的时间内访问页面数量，限制用户使用的浏览器，用户识别字符串等等。但是这些规则都是事先设定，限制一旦被识破，就失去了防范和限制的作用，那么爬虫就可以不受限制的继续抓取平台信息。

因此设计一种能够动态调整规则，自学习的防爬虫框架成为了一种必然需求。

为了解决上述问题，本发明提出一种动态防爬虫的方式。该动态防爬虫方法通过规则与特征比对相结合，采用概率判定的方法，辅以二次验证码判定，准确快速地识别爬虫访问，保护网络信息安全。同时本方法运用机器学***台的限制规则，提高恶意爬虫防范门槛，显著提升网络信息安全。

发明内容

为了解决上述问题，本发明提出一种动态防爬虫的方式。

具体的，一种动态防爬虫的方式，所述方法包括如下步骤：

S1：运用机器学习方法采集所有用户的访问信息，确定正常用户特征数值，形成正常用户模型；

S2：将每条访问与S1生成的正常用户模型进行对比，若对比结果为非正常的访问，转到S3；若对比结果为正常的访问，转到S6；

S3：将非正常访问请求通过归集算法，将其为爬虫用户请求的概率归集到一定的区间；未达到该区间上限则转到S6，将达到该区间上限的访问转到S4；

S4：判断该访问用户的二次鉴权次数是否达到上限，到达上限转到S7，未达上限转到S5；

S5：通过二次鉴权方式验证此访问是否为爬虫。验证未通过则转到S7，通过则转到S6；

S6：允许继续访问，并更新正常用户模型，并转到S8；

S7：暂停他的访问，并更新爬虫用户模型；

S8：结束。

所述正常用户模型包含用户数据的多个维度和每个维度的正常值区间，正常用户数据的多维度集合构成了正常用户模型，作为比较的数据基础。同理的，所述爬虫用户模型包含爬虫用户数据的多个维度和每个维度的取值区间，爬虫用户数据的多维度集合构成了爬虫用户模型，作为比较的数据基础。

S1中所述机器学***台的判定标准，避免规则被爬虫程序识别并规避。

S3所述的归集算法为， X1表示一个用户的维度数据，X2表示全部用户的该维度的平均数据，设定一个时间段T，则该时间段T内的数值偏差为,将该维度的数值偏差与爬虫维度数值特征值进行比对，得到一个比值，该比值接近区间上限作为开启二次验证的条件。但当在数据有多个不同维度的时候，实际操作中会使用加权平均的方法得到一个比值来开启二次验证，但在默认情况下，采用算数平均的方法得到一个比值来开启二次验证。不同维度之间的权重取决于网站的类型和网站的负荷，在负荷较大时，可以采用简化的运算方式来进行判别。

S4与S5中所述的二次鉴权，是基于网页的验证码形式进行的。优选地，该网页验证码能可以采用图像拖动或者定时刷新的方式提升验证的难度，以便于有效提升爬虫的识别率和被突破难度。

本发明的有益效果在于：该动态防爬虫方法通过规则与特征比对相结合，采用概率判定的方法，辅以二次验证码判定，准确快速地识别爬虫访问，保护网络信息安全。同时本方法运用机器学***台的限制规则，提高恶意爬虫防范门槛，显著提升网络信息安全。

附图说明

图1是本发明的逻辑关系图；

图2是实施例示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

正常用户模型建立算法，用于建立正常用户模型的维度与正常值区间；正常用户模型更新算法，用于对正常用户模型的正常值区间进行动态更新；爬虫用户模型建立算法，用于建立爬虫用户模型的维度与取值区间；本方法能够根据访问数据的变化而自动地动态调整平台的判定标准，避免规则被识别并绕过。

如图2所示，当访问进入时，根据用户模型的特征维度进行提取，例如：PV(pageview)，即页面浏览量，或点击量；通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标；

UV(unique visitor)，指访问某个站点或点击某条新闻的不同IP地址的人数；

鼠标轨迹, 分析用户整个网页浏览过程中的先后路径、鼠标悬停时间、鼠标点击区域、操作间隔、访客来路页面和去向页面，以及不同颜色显示不同区域的点击热度等；

然后将每条访问生成的正常用户模型进行对比，若对比结果为正常的访问，允许继续访问，并更新正常用户模型；否则将非正常访问请求通过归集算法，将其为爬虫的概率归集到一定的区间，此处取区间为1到100；本处归集算法具体为：

X1表示一个用户的维度数据，X2表示全部用户的该维度的平均数据，设定一个时间段T，则该时间段T内的数值偏差为,将该维度的数值偏差与爬虫维度数值特征值进行比对，得到一个比值，该比值接近区间上限作为开启二次验证的条件。但当在数据有多个不同维度的时候，实际操作中会使用加权平均的方法得到一个比值来开启二次验证，但在默认情况下，采用算数平均的方法得到一个比值来开启二次验证。不同维度之间的权重取决于网站的类型和网站的负荷，在负荷较大时，可以采用简化的运算方式来进行判别。此处采用的平均方式为：(比值1+比值2+…比值n)/n≥90。

对于区间值大于90的请求，通过二次鉴权方式验证此访问是否为爬虫，并同时记录二次验证次数。如果多次被要求二次验证，那么就会暂停他的访问。本处所述的二次鉴权，是基于网页的验证码形式进行的。优选地，该网页验证码能可以采用图像拖动或者定时刷新的方式提升验证的难度，以便于有效提升爬虫的识别率和突破难度。

同时***根据正常用户和爬虫用户的访问特征动态地进行正常用户模型和爬虫用户模型的更新，使判断规则进行变化，以增加限制规则的适用性。本处使用正常用户模型更新算法，用于对正常用户模型的正常值区间进行动态更新；爬虫用户模型更新算法，用于对爬虫用户对取值区间进行动态更新。

所述正常用户模型包含用户数据的多个维度和每个维度的正常值区间，正常用户数据的多维度集合构成了正常用户模型，作为比较的数据基础。同理的，所述爬虫用户模型包含用户数据的多个维度和每个维度的取值区间，爬虫用户数据的多维度集合构成了爬虫用户模型，作为比较的数据基础。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种动态防爬虫的方式，其特征在于，所述方式包括：

S5：通过二次鉴权方式验证此访问用户是否为爬虫，验证未通过则转到S7，通过则转到S6；

S6：允许继续访问，并更新正常用户模型，并转到S8；

S7：暂停他的访问，并更新爬虫用户模型；

S8：结束。

2.如权利要求1所述的一种动态防爬虫的方式，其特征在于，所述正常用户模型包含用户数据的多个维度和每个维度的正常值区间，正常用户数据的多维度集合构成了正常用户模型，作为比较的数据基础。

3.如权利要求1所述的一种动态防爬虫的方式，其特征在于，所述爬虫用户模型包含用户数据的多个维度和每个维度的取值区间，爬虫用户数据的多维度集合构成了爬虫用户模型，作为比较的数据基础。

4.如权利要求1所述的一种动态防爬虫的方式，其特征在于，S1中所述机器学习方法，包括：正常用户模型建立算法，用于建立正常用户模型，包括创建新的数据维度和对每个维度赋予正常值区间；正常用户模型更新算法，用于对正常用户模型的正常值区间进行动态更新；爬虫用户模型建立算法，用于建立爬虫用户模型，包括创建新的数据维度和对每个维度赋予取值区间；爬虫用户模型更新算法，用于对爬虫用户模型的取值区间进行动态更新。

5.如权利要求1所述的一种动态防爬虫的方式，其特征在于，S3所述的归集算法为， X1表示某用户的一个维度数据，X2表示全部用户的该维度的平均数据，设定一个时间段T，则该时间段T内的数值偏差为,将该维度的数值偏差与爬虫维度数值特征值进行比对，得到一个比值，该比值接近区间上限作为开启二次验证的条件；在数据有多个维度需要联合检测时，实际操作中会对多维度的归集结果使用加权平均的方法，得到一个比值来判断是否开启二次验证，但在默认情况下，采用算术平均的方法得到一个比值来判断是否开启二次验证。

6.如权利要求1所述的一种动态防爬虫的方式，其特征在于，S4与S5中所述的二次鉴权，是基于网页的验证码形式进行的。