CN111355728B

CN111355728B - 一种恶意爬虫防护方法

Info

Publication number: CN111355728B
Application number: CN202010126172.9A
Authority: CN
Inventors: 张辉
Original assignee: Unicloud Technology Co Ltd
Current assignee: Unicloud Technology Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2023-01-03
Anticipated expiration: 2040-02-27
Also published as: CN111355728A

Abstract

本发明提供了一种恶意爬虫防护方法，S1.防护***检测第一个http报文；S2.判断是否存在恶意爬虫行为，若存在进行拦截；S3.查看中是否存在cookieD1，存在则拦截；S4.判断访问的url是否存在暗链，存在则进行步骤S5，否则到步骤S6；S5.在响应包中对客户端进行set cookie，同时将http报文中的访问域名和源IP加入动态黑名单中，并拦截。本发明所述的恶意爬虫行为拦截准确率更高,防护效果更好，更不容易被绕过，安全性更高。

Description

一种恶意爬虫防护方法

技术领域

本发明属于防爬虫技术领域，尤其是涉及一种恶意爬虫防护方法。

背景技术

针对反爬虫的现有技术，主要有以下两种：

1、检验数据头中User-Agent：网站可以通过User-Agent来判断用户是使用什么浏览器访问。不同浏览器的User-Agent是不一样的。但是如果我们使用Python的Requests直接访问网站，网站收到的User-Agent是空。这个时候网站就知道我们不是使用浏览器访问的，于是它就可以拒绝我们的访问。

该技术方案的弊端：当前攻击者已经可以模仿真人行为，来模拟 user-agent，从而绕过上述反爬虫技术；

2、访问频率限制：如果你访问太快了，网站就会认为你不是一个人，于是它就可以拒绝你的访问。

该技术方案的弊端：访问频率的阈值很难界定，如果阈值设置不适合网站的客户现状的话，有可能会误拦截正常客户对于网站的访问。

发明内容

有鉴于此，本发明旨在提出一种恶意爬虫防护方法，以解决。

为达到上述目的，本发明的技术方案是这样实现的：

一种恶意爬虫防护方法，包括以下步骤：

S1.客户端与防护网站建立连接后，防护***检测第一个http报文；

S2.判断http报文是否存在恶意爬虫行为，若存在恶意爬虫行为进行拦截，否则进行下一步；

S3.查看http报文中是否存在cookieD1，如果存在，则认为存在恶意爬虫行为，进行拦截，否则进行下一步；

S4.判断http报文访问的url是否存在防护***预设的暗链，如果存在该暗链的访问行为，则进行步骤S5，否则跳转到步骤S6；

S5.判定该请求存在恶意爬虫行为，然后在响应包中对客户端进行set cookie，同时将这个http报文中的访问域名和源IP加入动态黑名单中，并拦截该http请求报文；

S6.判断请求http报文的URL中是否存在robots.txt，如果存在则进行步骤S7，否则跳转到步骤S10；

S7.判断请求报文中是否存在cookieD2，存在的话进行步骤S8，否则跳转到步骤S9；

S8.判断http请求报文的请求访问是否是GET或者HEAD，是的话跳转到步骤S10，否则判定存在修改操作网站robots.txt文件行为，认为存在恶意爬虫行为，直接拦截；

S9.在响应报文中对客户端进行set cookie；

S10.在响应报文的body中加入防护***指定的禁爬路径。

进一步的，所述步骤S2中的判断http报文是否存在恶意爬虫行为的判断方法为：查看http报文的访问域名以及报文源IP是否存在动态黑名单中，如果在IP和域名的和名单中，则认为是恶意爬虫行为。

进一步的，所述步骤S5中的set cookie为cookieD1，所述cookeD1为url存在防护***预设的暗链的标记。

进一步的，所述步骤s4中的暗链为恶意爬虫行为的测试网页 /aaa/aaa.html。

进一步的，所述步骤S5中的动态黑名单中的表项为ip，域名对每个表项都有超时时间，为10min。

进一步的，所述步骤S9中的set cookie为cookiD2，所述cookiD2为http 报文中的请求访问的是不是GET或者HEAD的标记。

进一步的，所述禁爬路径为暗链陷阱/aaa/aaa.html。

相对于现有技术，本发明所述的一种恶意爬虫防护方法具有以下优势：

(1)本发明所述的恶意爬虫行为拦截准确率更高，防护效果更好。

(2)本发明所述的恶意爬虫防护方法更不容易被绕过，安全性更高。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的一种恶意爬虫防护方法流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

一种恶意爬虫防护方法，包括以下步骤：

S9.在响应报文中对客户端进行set cookie；

S10 .在响应报文的body中加入防护***指定的禁爬路径。

所述步骤S2中的判断http报文是否存在恶意爬虫行为的判断方法为：查看http报文的访问域名以及报文源IP是否存在动态黑名单中，如果在IP 和域名的和名单中，则认为是恶意爬虫行为。

所述步骤S5中的set cookie为cookieD1，所述cookeD1为url存在防护***预设的暗链的标记。

所述步骤s4中的暗链为恶意爬虫行为的测试网页/aaa/aaa.html。

所述步骤S5中的动态黑名单中的表项为ip，域名对每个表项都有超时时间，为10min。

所述步骤S9中的set cookie为cookiD2，所述cookiD2为http报文中的请求访问的是不是GET或者HEAD的标记。

所述禁爬路径为暗链陷阱/aaa/aaa.html。

实现方法过程如下：

本发明主要通过暗链检测、robot.txt访问过滤的方法来实现恶意爬虫行为的防护目的，防护***会将第一个http请求报文对应的响应报文中body 中加入指定的禁爬路径(暗链陷阱)，比如/aaa/aaa.html。然后防护***会对后续的http请求报文进行监控，一旦有访问/aaa/aaa.html这个uri的行为，即判定该源ip存在恶意爬虫行为，因此作出拦截等响应措施。同时***也会对访问源站robots.txt文件的行为进行监控，如果客户端对于网站robots.txt 文件的访问报文为非GET、HEAD方法的http报文，即认为对方存在修改网站robots.txt文件等恶意行为，因此判定该源IP存在恶意爬虫行为，然后作出拦截等响应措施。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种恶意爬虫防护方法，其特征在于包括以下步骤：

S5.判定该http报文存在恶意爬虫行为，然后在响应包中对客户端进行set cookie，同时将这个http报文中的访问域名和源IP加入动态黑名单中，并拦截该http报文；

S9.在响应报文中对客户端进行set cookie；

S10.在响应报文的body中加入防护***指定的禁爬路径，即暗链陷阱/aaa/aaa.html；

2.根据权利要求1所述的一种恶意爬虫防护方法，其特征在于：所述步骤S2中的判断http报文是否存在恶意爬虫行为的判断方法为：查看http报文的访问域名以及报文源IP是否存在动态黑名单中，如果在IP和域名的和名单中，则认为是恶意爬虫行为。

3.根据权利要求1所述的一种恶意爬虫防护方法，其特征在于：所述步骤S5中的setcookie为cookieD1，所述cookieD1为url存在防护***预设的暗链的标记。

4.根据权利要求1所述的一种恶意爬虫防护方法，其特征在于：所述步骤S4中的暗链为恶意爬虫行为的测试网页/aaa/aaa.html。

5.根据权利要求1所述的一种恶意爬虫防护方法，其特征在于：所述步骤S9中的setcookie为cookieD2，所述cookieD2为http报文中的请求访问的是不是GET或者HEAD的标记。

6.根据权利要求4所述的一种恶意爬虫防护方法，其特征在于：所述步骤S10中的禁爬路径为暗链陷阱/aaa/aaa.html。