CN113221053A - 一种防抓取方法、装置、电子设备及存储介质 - Google Patents

一种防抓取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113221053A
CN113221053A CN202110595366.8A CN202110595366A CN113221053A CN 113221053 A CN113221053 A CN 113221053A CN 202110595366 A CN202110595366 A CN 202110595366A CN 113221053 A CN113221053 A CN 113221053A
Authority
CN
China
Prior art keywords
interception
page access
access request
list
source identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110595366.8A
Other languages
English (en)
Other versions
CN113221053B (zh
Inventor
果海涛
罗港
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Urban Network Neighbor Information Technology Co Ltd
Original Assignee
Beijing Urban Network Neighbor Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Urban Network Neighbor Information Technology Co Ltd filed Critical Beijing Urban Network Neighbor Information Technology Co Ltd
Priority to CN202110595366.8A priority Critical patent/CN113221053B/zh
Publication of CN113221053A publication Critical patent/CN113221053A/zh
Application granted granted Critical
Publication of CN113221053B publication Critical patent/CN113221053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种防爬取方法、装置、电子设备及存储介质。该方法包括:在流量层接收到页面访问请求后,响应于页面访问请求未命中流量层预设的第一拦截策略且未命中流量层存储的第一拦截列表,将页面访问请求发送至业务层;在业务层接收到页面访问请求后,响应于页面访问请求命中业务层预设的第二拦截策略,基于页面访问请求,更新第一拦截列表,以使与页面访问请求来源相同的页面访问请求能够命中第一拦截列表。如此,使得流量层的拦截率提高,减少了数据被盗用的情况,并且减少了进入业务层的页面访问请求,从而减少了对业务层的性能损耗,避免了因爬取数据消耗的流量太多导致提供业务服务的机器的负载过高而无法使用的情况,从而提高了稳定性。

Description

一种防抓取方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种防抓取方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,目前,已经可以通过互联网实现各种业务服务。业务服务所提供的网页上,会展示许多的数据供用户浏览,但是,可能会存在一些非正常的浏览行为,以此来爬取页面上的数据,导致数据盗用,且爬取数据消耗的流量太多可能会直接导致提供业务服务的机器的负载过高而无法使用。
发明内容
本发明实施例提供一种防抓取方法、装置、电子设备及存储介质,以解决相关技术中的问题。
本发明的目的是通过以下技术方案实现的:
第一方面,本发明实施例提供一种防爬取方法,应用于服务器,服务器包括流量层和业务层,该方法包括:
在流量层接收到页面访问请求后,响应于页面访问请求未命中流量层预设的第一拦截策略且未命中流量层存储的第一拦截列表,将页面访问请求发送至业务层;
在业务层接收到页面访问请求后,响应于页面访问请求命中业务层预设的第二拦截策略,基于页面访问请求,更新第一拦截列表,以使与页面访问请求来源相同的页面访问请求能够命中第一拦截列表。
在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第一拦截列表包括与来源标识的种类对应的子拦截列表,与来源标识的种类对应的子拦截列表包括需要拦截的来源标识;
基于页面访问请求,更新第一拦截列表,包括:
将页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新第一拦截列表。
在一种可能的实施方式中,该方法还包括:
响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截列表,确定页面访问请求命中第一拦截列表。
在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第二拦截策略包括与来源标识的种类对应的子拦截策略;
该方法还包括:
响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截策略,确定页面访问请求命中第二拦截策略。
在一种可能的实施方式中,与来源标识的种类对应的子拦截策略,包括以下至少一项策略:
拦截来源标识对应的访问目标列表页的频次大于或者等于第一阈值的页面访问请求;
拦截来源标识对应的变换筛选词的频次大于或者等于第二阈值的页面访问请求;
拦截来源标识对应的变换城市的频次大于或者等于第三阈值的页面访问请求;
拦截来源标识对应的访问过期数据的频次大于或者等于第四阈值的页面访问请求。
在一种可能的实施方式中,还包括:
响应于页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略。
在一种可能的实施方式中,基于页面访问请求,更新第一拦截列表,包括:
基于页面访问请求,更新业务层存储的第二拦截列表;
定期将第二拦截列表同步到第一拦截列表,以更新第一拦截列表。
在一种可能的实施方式中,第一拦截列表为目标业务的拦截列表,该方法还包括:
将第一拦截列表同步到目标业务之外的其它业务的拦截列表中。
第二方面,本发明实施例提供一种防爬取装置,应用于服务器,该服务器包括流量层和业务层,该装置包括:
第一拦截模块,用于在流量层接收到页面访问请求后,响应于页面访问请求未命中流量层预设的第一拦截策略且未命中流量层存储的第一拦截列表,将页面访问请求发送至业务层;
第二拦截模块,用于在业务层接收到页面访问请求后,响应于页面访问请求命中业务层预设的第二拦截策略,基于页面访问请求,更新第一拦截列表,以使与页面访问请求来源相同的页面访问请求能够命中第一拦截列表。
在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第一拦截列表包括与来源标识的种类对应的子拦截列表,与来源标识的种类对应的子拦截列表包括需要拦截的来源标识;
第二拦截模块,具体用于:
将页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新第一拦截列表。
在一种可能的实施方式中,第二拦截模块,还用于:
响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截列表,确定页面访问请求命中第一拦截列表。
在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第二拦截策略包括与来源标识的种类对应的子拦截策略;
第二拦截模块,还用于:
响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截策略,确定页面访问请求命中第二拦截策略。
在一种可能的实施方式中,与来源标识的种类对应的子拦截策略,包括以下至少一项策略:
拦截来源标识对应的访问目标列表页的频次大于或者等于第一阈值的页面访问请求;
拦截来源标识对应的变换筛选词的频次大于或者等于第二阈值的页面访问请求;
拦截来源标识对应的变换城市的频次大于或者等于第三阈值的页面访问请求;
拦截来源标识对应的访问过期数据的频次大于或者等于第四阈值的页面访问请求。
在一种可能的实施方式中,第二拦截模块,还用于:
响应于页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略。
在一种可能的实施方式中,第二拦截模块,具体用于:
基于页面访问请求,更新业务层存储的第二拦截列表;
定期将第二拦截列表同步到第一拦截列表,以更新第一拦截列表。
在一种可能的实施方式中,第一拦截列表为目标业务的拦截列表,该装置还包括:
发送模块,用于将第一拦截列表同步到目标业务之外的其它业务的拦截列表中。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现如以上第一方面中任一的防抓取方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一的防抓取方法的步骤。
上述技术方案中的优点或有益效果至少包括:
由于在流量层不仅预设有自身的第一拦截策略还存储有第一拦截列表,在业务层预设有自身的第二拦截策略,对在流量层既未命中第一拦截策略也未命中第二拦截列表的页面访问请求,如果在业务层命中第二拦截策略,可以基于该页面访问请求,更新流量层的第一拦截列表,以使后续与该页面访问请求来源相同的页面访问请求能够命中第一拦截列表,也就是说,流量层的第一拦截列表来自业务层的第二拦截策略,如此,在流量层,联合了流量层自身的第一拦截策略和业务层的第二拦截策略,使得流量层的拦截率大大提高,减少了数据被盗用的情况,并且减少了进入业务层的页面访问请求,从而减少了对业务层的性能损耗,避免了因爬取数据消耗的流量太多导致提供业务服务的机器的负载过高而无法使用的情况,从而提高了稳定性。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
图1是本发明实施例中的一种防爬取方法的流程图;
图2是本发明实施例中的一种防爬取方法的应用场景示意图;
图3是本发明实施例中的一种防爬取装置的结构示意图;
图4是本发明实施例中的一种防爬取装置的结构示意图;
图5是本发明实施例中的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着互联网技术的发展,目前,已经可以通过互联网实现各种业务服务。业务服务所提供的网页上,会展示许多的数据供用户浏览,但是,可能会存在一些非正常的浏览行为,以此来爬取页面上的数据,导致数据盗用,且爬取数据消耗的流量太多可能会直接导致提供业务服务的机器的负载过高而无法使用。
目前,比较常见的是通过爬虫等手段来爬取页面上的数据。爬虫是一种按照一定的规则,自动地抓取页面数据的程序或者脚本。
一般,提供业务服务的机器,例如,服务器,其架构至少可以包括流量层和业务层。其中,流量层可以基于Nginx实现,Nginx是一个高性能的HTTP和反向代理服务器。实施中,用户的页面访问请求会先到达流量层,流量层负责把具体请求分发给业务层。业务层则是具体处理用户看到的界面内容的业务逻辑层。
为防止爬取页面上的数据,相关技术中,在流量层做了针对于网际互连协议(IP,Internet Protocol)地址、用户代理(UA,User Agent)的限流策略,也即防爬取策略,在业务层也做了很多针对特定的业务场景的一些防爬取策略。这些防爬取策略是针对上述爬取的行为特征进行分析,根据这些特征以及业务特点产出的拦截策略。流量层的拦截策略虽然对机器性能损耗低,但是拦截很局限,拦截率较低。业务层的拦截策略拦截率虽高,但业务层的拦截策略越多,对业务***造成的性能损耗越大。如果碰到爬虫恶意攻击或者爬虫流量激增的情况,很有可能导致整个机器集群的负载过高,集群不可用。
为解决上述技术问题,本发明实施例提供了一种防爬取方法,将流量层的拦截策略与业务层的拦截策略同步联合使用,也即当页面访问请求命中业务层的拦截策略时,业务层实时把拦截结果同步给流量层,流量层后续就可以直接对与该页面访问请求来源相同的页面访问请求进行拦截,从而提高了流量层的拦截率,减少了业务层的性能损耗,避免了因爬取数据消耗的流量太多导致提供业务服务的机器的负载过高而无法使用的情况,从而提高了稳定性。下面对本发明实施例提供的防爬取方法进行详细介绍。
图1是本发明实施例中的一种防爬取方法的流程图。
如图1所示,本实施例提供的一种防爬取方法,应用于服务器,该服务器包括流量层和业务层,该方法至少包括如下步骤:
步骤101、在流量层接收到页面访问请求后,响应于页面访问请求未命中流量层预设的第一拦截策略且未命中流量层存储的第一拦截列表,将页面访问请求发送至业务层。
步骤102、在业务层接收到页面访问请求后,响应于页面访问请求命中业务层预设的第二拦截策略,基于页面访问请求,更新第一拦截列表,以使与页面访问请求来源相同的页面访问请求能够命中第一拦截列表。
实际应用中,服务器可以是提供业务服务的机器集群。页面访问请求的发送端,例如客户端,向服务器发送页面访问请求,该页面访问请求先到达服务器的流量层。流量层中预设有第一拦截策略。该第一拦截策略在流量层通过算法实时识别出需要拦截的有爬取页面数据的风险的页面访问请求。如果页面访问请求命中第一拦截策略,说明有爬取页面数据的风险,可以在流量层被拦截。另外,流量层还存储有第一拦截列表。该第一拦截列表能够表征有爬取页面数据的风险的页面访问请求的来源。如果页面访问请求命中第一拦截列表,说明有爬取页面数据的风险,也可以在流量层被拦截。如果页面访问请求既未命中流量层的第一拦截策略,也未命中流量层的第一拦截列表,流量层会将页面访问请求转发至业务层进行处理。
业务层中预设有第二拦截策略。该第二拦截策略是在业务层通过算法实时拦截有爬取页面数据的风险的页面访问请求。实际应用中,爬取页面数据时,在一定时间内,可能通过固定来源的发送端进行爬取。因此,如果一个页面访问请求有爬取页面数据的风险,那么,与该页面访问请求来源相同的页面访问请求,也可能有爬取页面数据的风险。此时,可以基于该页面访问请求,更新第一拦截列表,以使后续与该页面访问请求来源相同的页面访问请求能够命中第一拦截列表,也即在流量层被拦截。这里,页面访问请求的来源是指页面访问请求的发送端。
本实施例中,由于在流量层不仅预设有自身的第一拦截策略还存储有第一拦截列表,在业务层预设有自身的第二拦截策略,对在流量层既未命中第一拦截策略也未命中第二拦截列表的页面访问请求,如果在业务层命中第二拦截策略,可以基于该页面访问请求,更新流量层的第一拦截列表,以使后续与该页面访问请求来源相同的页面访问请求能够命中第一拦截列表,也就是说,流量层的第一拦截列表来自业务层的第二拦截策略,如此,在流量层,联合了流量层自身的第一拦截策略和业务层的第二拦截策略,使得流量层的拦截率大大提高,减少了数据被盗用的情况,并且减少了进入业务层的页面访问请求,从而减少了对业务层的性能损耗,避免了因爬取数据消耗的流量太多导致提供业务服务的机器的负载过高而无法使用的情况,从而提高了稳定性。
本实施例的方案可以适用于多种业务场景,例如,租房业务、买房业务,等等。
在示例性实施例中,上述第一拦截列表可以是目标业务的拦截列表。这里,目标业务是指当前页面访问请求所针对的业务。相应的,第二拦截策略为目标业务的拦截策略。针对目标业务来说,存在爬取页面数据风险的,对其它业务来说,也可能存在爬取页面数据的风险,因此,目标业务的拦截列表页可以应用到其它业务上。基于此,上述防爬取方法还可以包括将第一拦截列表同步到目标业务之外的其它业务的拦截列表中。如此,实现了业务之间的拦截策略的复用,业务对应的拦截策略更加丰富,进一步提高了业务数据的安全性。
在示例性实施例中,上述防爬取方法还可以包括:在流量层接收到页面访问请求后,确定页面访问请求是否命中第一拦截策略,响应于页面访问请求未命中流量层预设的第一拦截策略,确定页面访问请求是否命中流量层存储的第一拦截列表。
由于流量层的第一拦截策略是通过算法实时处理,先通过流量层的第一拦截策略,对页面访问请求进行处理,时效性更高,及时将最新的有爬取数据风险的页面访问请求进行拦截。
另外,也可以先确定页面访问请求是否命中第一拦截列表,然后,响应于页面访问请求未命中流量层的第一拦截列表,确定页面访问请求是否命中流量层的第一拦截策略。
可以理解的是,响应于页面访问请求命中第一拦截策略,可以对页面访问请求进行拦截处理。响应于页面访问请求命中第一拦截列表,可以对页面访问请求进行拦截处理。
在示例性实施例中,上述防爬取方法还可以包括:响应于页面访问请求命中业务层预设的第二拦截策略,对该页面访问请求,进行拦截处理。响应于页面访问请求未命中业务层预设的第二拦截策略,获取该页面访问请求所请求的页面并发送给上述发送端。
在示例性实施例中,上述页面访问请求中可以携带至少一种来源标识。第一拦截列表可以包括与来源标识的种类对应的子拦截列表。该与来源标识的种类对应的子拦截列表包括需要拦截的来源标识。上述步骤102中,基于页面访问请求,更新第一拦截列表,其具体实现方式可以包括:将页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新第一拦截列表。本实施例中,基于来源标识设置第一拦截列表,以进行拦截,不仅实现简单,而且拦截准确,维护更新也很方便。
在示例性实施例中,上述防爬取方法还可以包括:响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截列表,确定页面访问请求命中第一拦截列表。页面访问请求中的任意来源标识命中所属种类对应的子拦截列表,都可以认为该页面访问请求命中了第一拦截列表,可以进一步提高拦截率。
另外,也可以是响应于两个以上来源标识命中所属种类对应的子拦截列表,确定页面访问请求命中第一拦截列表。如此,可以使得拦截的准确率更高,避免影响正常用户的浏览。
在示例性实施例中,上述页面访问请求中携带至少一种来源标识,第二拦截策略可以包括与来源标识的种类对应的子拦截策略。那么,上述防爬取方法还可以包括:响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截策略,确定页面访问请求命中第二拦截策略。
本实施例中,页面访问请求中的任意来源标识命中所属种类对应的子拦截策略,都可以认为该页面访问请求命中了第二拦截策略,可以进一步提高拦截率。
另外,也可以是响应于两个以上来源标识命中所属种类对应的子拦截策略,确定页面访问请求命中第二拦截策略。这种方式则可以使得拦截的准确率更高,避免影响正常用户。
在示例性实施例中,与来源标识的种类对应的子拦截策略,可以包括以下至少一项策略:
策略一、拦截来源标识对应的访问目标列表页的频次大于或者等于第一阈值的页面访问请求。
这里,目标列表页是指特定业务的列表页。访问目标列表页的频次是指在单位时间内访问目标列表页的次数。以租房业务为例,爬取页面数据时,可能会不停的爬取个人房源列表页,例如,爬取个人房源列表页的排序列表页,以得到最新的个人房源数据。如果同一个来源标识在短时间内访问这些列表页的频次过高,则有可能是在爬取页面数据,可以进行拦截。
第一阈值的具体值可以根据实际情况进行设置,此处不做限定。
策略二、拦截来源标识对应的变换筛选词的频次大于或者等于第二阈值的页面访问请求。
筛选词也即输入的关键词。变换筛选词的频次是指在单位时间内变换筛选词的次数。仍以租房业务为例,爬取页面数据时,可能会不停的变换筛选词,访问个人房源列表页。如果同一个来源标识在短时间内变换筛选词的频次过高,则有可能是在爬取页面数据,可以进行拦截。
第二阈值的具体值可以根据实际情况进行设置,此处不做限定。
策略三、拦截来源标识对应的变换城市的频次大于或者等于第三阈值的页面访问请求。
变换城市的频次是指在单位时间内变换访问网络的城市的次数。仍以租房业务为例,爬取页面数据时,可能会不停的变换城市访问个人房源列表页。如果同一个来源标识在短时间内变换城市的频次过高,则有可能是在爬取页面数据,可以进行拦截。第三阈值的具体值可以根据实际情况进行设置,此处不做限定。
策略四、拦截来源标识对应的访问过期数据的频次大于或者等于第四阈值的页面访问请求。
在页面上展示的数据有一些是有时效性的,有些数据在展示一段时间后,可能就不再展示在页面上,即成为过期数据。访问过期数据的频次是指在单位时间内访问过期数据的次数。爬取页面数据时,可能会通过过期的链接频繁访问过期数据,来更新数据库。仍以租房业务为例,爬取页面数据时,可能会频繁访问过期房源,判断房源是否过期,以更新数据库。如果同一个来源标识在短时间内访问过期数据的频次过高,则有可能是在爬取页面数据,可以进行拦截。第四阈值的具体值可以根据实际情况进行设置,此处不做限定。
本实施例中,根据业务特点设置了多种拦截策略,丰富了业务层的拦截策略,使得业务层的拦截策略更加全面,从而进一步提高了业务层的拦截率,从而提高了核心业务的数据的安全性。
可以理解的是,以上仅是示例性的列举了其中几种与来源标识的种类对应的子拦截策略,还可以根据业务特点,设置其它的子拦截策略,此处不再一一列举。
在示例性实施例中,上述防爬取方法还可以包括:响应于页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略。本实施例中,页面访问请求命中任意一项策略,就可以认为来源标识命中所属种类对应的子拦截策略,可以进一步提高拦截率。
另外,也可以是响应于页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的两项以上策略,确定该来源标识命中所属种类对应的子拦截策略。如此,拦截的条件更加严格,可以提高拦截的准确率,避免影响正常浏览的用户。
在示例性实施例中,上述至少一种来源标识可以包括IP地址,和/或,UA,和/或,设备号。
一般来说,正常的页面访问请求中可以携带发送端的IP地址、UA、设备号,基于此可以确定出来自哪个发送端,因此,IP地址、UA、设备号可以作为来源标识。
爬取页面数据时,在一定时间内,可能通过固定的IP地址、UA、设备进行爬取。如果一个页面访问请求有爬取页面数据的风险,那么,与该页面访问请求来自同一个IP地址的页面访问请求,也可能有爬取页面数据的风险。如果一个页面访问请求有爬取页面数据的风险,那么,与该页面访问请求来自同一个UA的页面访问请求,也可能有爬取页面数据的风险。如果一个页面访问请求有爬取页面数据的风险,那么,与该页面访问请求来自同一个设备号的页面访问请求,也可能有爬取页面数据的风险。因此,本实施例中,通过IP地址,UA和设备号,可以对有爬取页面数据的页面访问请求进行准确拦截。
相应的,第二拦截策略可以包括IP地址对应的子拦截策略,还可以包括UA对应的子拦截策略,还可以包括设备号对应的子拦截策略。基于此,上述响应于页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略,具体实现方式可以包括:响应于页面访问请求中的IP地址命中第二拦截策略中的IP地址对应的子拦截策略所包括的任意一项策略,确定该IP地址命中所属种类对应的子拦截策略;响应于页面访问请求中的UA命中第二拦截策略中的UA对应的子拦截策略所包括的任意一项策略,确定该UA命中所属种类对应的子拦截策略;响应于页面访问请求中的设备号命中第二拦截策略中的设备号对应的子拦截策略所包括的任意一项策略,确定该设备号命中所属种类对应的子拦截策略。
相应的,第一拦截列表中可以包括IP地址对应的子拦截列表,该IP地址对应的子拦截列表中包括需要拦截的IP地址,还可以包括UA对应的子拦截列表,该UA对应的子拦截列表中包括需要拦截的UA,还可以包括设备号对应的子拦截列表,该设备号对应的子拦截列表中包括需要拦截的设备号。基于此,上述防爬取方法还可以包括:响应于页面访问请求携带的IP地址存在于IP地址对应的子拦截列表中,确定页面访问请求携带的IP地址命中所属种类对应的子拦截列表;响应于页面访问请求携带的UA存在于UA对应的子拦截列表中,确定页面访问请求携带的UA命中所属种类对应的子拦截列表;响应于页面访问请求携带的设备号存在于设备号对应的子拦截列表中,确定页面访问请求携带的设备号命中所属种类对应的子拦截列表。
如果页面访问请求命中第二拦截策略,基于页面访问请求,更新第一拦截列表,其中一种实现方式可以包括:可以直接基于该页面访问请求,更新第一拦截列表。基于页面访问请求,更新第一拦截列表,另一种实现方式可以包括:基于页面访问请求,更新业务层存储的第二拦截列表;定期将第二拦截列表同步到第一拦截列表,以更新第一拦截列表。
实际应用中,可以在业务层设置第二拦截列表,如果页面访问请求命中第二拦截策略,可以基于该页面访问请求,先更新业务层存储的第二拦截列表,再定期将第二拦截列表同步到第一拦截列表,如此,通过定期更新的方式,可以减少更新次数,从而减少对业务层的性能消耗。
实施中,可以在流量层预置用于更新第一拦截列表的脚本文件。业务层可以采用异步日志或者同步日志的方式,基于页面访问请求,更新业务层存储的第二拦截列表。然后,流量层通过执行上述脚本文件,定期获取第二拦截列表,利用该第二拦截列表替换当前的第一拦截列表,以得到最新的第一拦截列表。
其中,同步日志的方式是指在处理页面访问请求的过程中,同步记录日志。异步日志的方式即先处理页面访问请求,之后再记录日志,如此,对用户响应更加快速。
在示例性实施例中,第一拦截策略可以包括参数验证策略,该参数验证策略可以是验证页面访问请求是否包含预设的公共参数,如果不包含,则验证失败,说明该页面访问请求并不合法,这可能是为爬取页面数据构造的恶意请求,则可以进行拦截处理,如果包含,则验证成功,不进行拦截处理。
举例来说,一般页面访问请求中携带IP地址、UA这些公共参数,此时,则可以验证页面访问请求是否包含IP地址、UA,如果不包含,则验证失败,如果包含,则验证成功。
第一拦截策略还可以包括IP地址对应的子拦截策略。第一拦截策略中的IP地址对应的子拦截策略可以是拦截IP地址的页面访问频次超过第五阈值的页面访问请求。如果同一IP地址的页面访问频次过高,可能是在爬取页面数据,可以进行拦截。第五阈值的具体值可以根据实际情况进行设置,此处不做限定。
第一拦截策略中还可以包括UA对应的子拦截策略。第一拦截策略中的UA对应的子拦截策略可以是拦截UA的页面访问频次超过第六阈值的页面访问请求。如果同一UA的页面访问频次过高,可能是在爬取页面数据,可以进行拦截。第六阈值的具体值可以根据实际情况进行设置,此处不做限定。
在示例性实施例中,上述防爬取方法还可以包括:响应于页面访问请求命中第一拦截策略中的任意一项策略,确定页面访问请求命中第一拦截策略。如此,本实施例中,页面访问请求命中任意一项策略,就认为页面访问请求命中了第二拦截策略,就可以在流量层对该页面访问请求进行拦截,从而提高了拦截率。
当然,也可以是响应于页面访问请求命中第一拦截策略所包括的两项以上策略,确定页面访问请求命中第一拦截策略。如此,拦截条件更加严格,可以提高拦截的准确率,避免影响正常浏览的用户。
在示例性实施例中,上述防爬取方法还可以包括:在流量层接收到页面访问请求后,确定页面访问请求是否命中第一拦截策略中的参数验证策略。响应于页面访问请求未命中第一拦截策略中的参数验证策略,确定页面访问请求是否命中第一拦截策略中的IP地址对应的子拦截策略,响应于未命中第一拦截策略中的IP地址对应的子拦截策略,确定页面访问请求是否命中第一拦截策略中的UA对应的子拦截策略。或者,响应于页面访问请求未命中第一拦截策略中的参数验证策略,确定页面访问请求是否命中第一拦截策略中的UA对应的子拦截策略,响应于未命中第一拦截策略中的UA对应的子拦截策略,确定页面访问请求是否命中第一拦截策略中的IP地址对应的子拦截策略。
本实施例中,先通过流量层的第一拦截策略中的参数验证策略,对页面访问请求进行处理,直接过滤掉不合法的页面访问请求,不必参与后续的拦截策略的处理,提高了处理效率。
可以理解的是,响应于页面访问请求命中第一拦截策略中的参数验证策略,对页面访问请求进行拦截处理。响应于页面访问请求命中的第一拦截策略中的IP地址对应的子拦截策略,对页面访问请求进行拦截处理。响应于页面访问请求命中的第一拦截策略中的UA对应的子拦截策略,对页面访问请求进行拦截处理。
下面以租房业务的场景为例,对本发明实施例提供的一种防爬取方法进行更加详细地介绍。
在本实施例的租房业务的场景中,租房列表有很多竞争对手或者恶意爬虫来爬取租房列表页的数据,会产生以下问题:一是数据被盗用,二是爬虫流量太多会直接影响集群机器的负载以及***的稳定性。
本实施例设置了租房业务特有的一些拦截策略,并且将服务器的Nginx流量层的拦截策略与业务层的拦截策略同步联合使用,具体方案是当命中业务层的拦截策略时,业务层通过异步日志的方法,实时把命中拦截策略的IP地址、UA或者设备号同步给Nginx流量层,Nginx流量层接收到这些IP、UA或者设备号后直接在流量层进行拦截。
其中,针对Nginx流量层,由原来简单的频次拦截更改为在原来频次拦截的基础上增加了定期自动获取业务层的拦截结果,并进行拦截的策略。针对业务层,通过租房业务特有的拦截策略产出拦截结果后再同步给Nginx流量层。
其中,租房业务特有的拦截策略,是针对于租房业务这个特定场景分析爬虫特点,制定出的租房特有的拦截策略,即上述第二拦截策略,具体策略列举如下:
1、不停访问个人房源列表页的排序列表页:
对此,设置了对同一个设备号一分钟内访问超过60次、同一个IP地址一分钟内访问超过400次、同一个UA一分钟内访问超过400次的拦截策略。
2、不停变更筛选词访问个人房源列表页:
对此,设置了对同一个设备号一分钟内变换超过30个筛选词的、同一个IP地址一分钟内变换超过200个筛选词、同一个UA一分钟内变换超过200个筛选词的拦截策略。
3、不停变换城市访问个人房源列表页:
对此,设置了同一个设备号一分钟内变换超过10个城市、同一个IP地址一分钟内变换超过20个城市、同一个UA一分钟内变换超过20个城市的拦截策略。
4、由于爬虫会更新信息,所以会频繁访问过期房源:
对此,设置了同一设备号一分钟内访问过期房源超过50个、同一个IP地址一分钟内访问过期房源超过120个、同一个UA一分钟内访问过期房源超过120个的拦截策略。
在流量层,则可以采用针对通用性爬虫特点的策略,即上述第一拦截策略,列举如下:
1、频次策略:
具体的,设置了对同一个IP超过500次、同一个UA超过500次的拦截策略,即上述第一拦截策略中的IP地址对应的子拦截策略,以及第一拦截策略中的UA对应的子拦截策略。
2、参数验证策略
具体的,设置了公共参数验证失败的拦截策略。
基于此,本实施例提供的防爬取流程如下:
第一步、如图2所示,服务器201的流量层211在接收到来自客户端202的页面访问请求后,先确定页面访问请求是否命中第一拦截策略,如果没有命中第一拦截策略,则确定页面访问请求是否命中第一拦截列表,如果命中第一拦截列表,则进行拦截处理,如果没命中第一拦截列表,则将页面访问请求发送到业务层221。
第二步、业务层221在接收到页面访问请求后,先确定页面访问请求是否命中第二拦截策略,如果没有命中第二拦截策略,则获取该页面访问请求所请求的页面并发送给客户端,如果命中第二拦截策略,则通过异步日志的方式,基于该页面访问请求,更新业务层221的第二拦截列表。
第三步、流量层211通过执行预设的脚本文件,定期获取第二拦截列表,将流量层当前存储的第一拦截列表替换成获取的第二拦截列表,从而得到最新的第一拦截列表,以使后续与该页面访问请求来源相同的页面访问请求能够命中第一拦截列表,也即在流量层被拦截。
以上第一步至第三步的具体实现可以参考以上相关实施例,此处不再赘述。
本方案通过对租房业务的爬虫特点进行分析,得到针对租房业务的防爬取策略,为提升租房业务的***稳定性、保证用户体验做了强有力的后盾。通过本方案的流量层的拦截策略和业务层的拦截策略的实时联动,CPU负载下降了20%以上,减轻了机器负载压力,节省了资源、成本。本方案的拦截策略产出的IP、UA、设备号等可以复用到租房其它核心业务场景上,可以减少核心业务的数据的泄露。
图3是本发明实施例的一种防爬取装置的结构示意图。如图3所示,该防爬取装置300,应用于服务器,该服务器包括流量层和业务层,该装置包括:
第一拦截模块301,用于在流量层接收到页面访问请求后,响应于页面访问请求未命中流量层预设的第一拦截策略且未命中流量层存储的第一拦截列表,将页面访问请求发送至业务层;
第二拦截模块302,用于在业务层接收到页面访问请求后,响应于页面访问请求命中业务层预设的第二拦截策略,基于页面访问请求,更新第一拦截列表,以使与页面访问请求来源相同的页面访问请求能够命中第一拦截列表。
在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第一拦截列表包括与来源标识的种类对应的子拦截列表,与来源标识的种类对应的子拦截列表包括需要拦截的来源标识;
第二拦截模块302,具体用于:
将页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新第一拦截列表。
在一种可能的实施方式中,第二拦截模块302,还用于:
响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截列表,确定页面访问请求命中第一拦截列表。
在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第二拦截策略包括与来源标识的种类对应的子拦截策略;
第二拦截模块302,还用于:
响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截策略,确定页面访问请求命中第二拦截策略。
在一种可能的实施方式中,与来源标识的种类对应的子拦截策略,包括以下至少一项策略:
拦截来源标识对应的访问目标列表页的频次大于或者等于第一阈值的页面访问请求;
拦截来源标识对应的变换筛选词的频次大于或者等于第二阈值的页面访问请求;
拦截来源标识对应的变换城市的频次大于或者等于第三阈值的页面访问请求;
拦截来源标识对应的访问过期数据的频次大于或者等于第四阈值的页面访问请求。
在一种可能的实施方式中,第二拦截模块302,还用于:
响应于页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略。
在一种可能的实施方式中,第二拦截模块302,具体用于:
基于页面访问请求,更新业务层存储的第二拦截列表;
定期将第二拦截列表同步到第一拦截列表,以更新第一拦截列表。
在一种可能的实施方式中,第一拦截列表为目标业务的拦截列表,如图4所示,该装置还包括:
发送模块303,用于将第一拦截列表同步到目标业务之外的其它业务的拦截列表中。
本发明实施例提供的一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现如以上任一实施例中的防爬取方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
图5是本发明实施例提供的一种示例性的电子设备的结构示意图。如图5所示,该电子设备可以包括:处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的计算机程序,以执行以上任一实施例中的防爬取方法。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如以上任一实施例中的防爬取方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (18)

1.一种防爬取方法,其特征在于,应用于服务器,所述服务器包括流量层和业务层,所述方法包括:
在所述流量层接收到页面访问请求后,响应于所述页面访问请求未命中所述流量层预设的第一拦截策略且未命中所述流量层存储的第一拦截列表,将所述页面访问请求发送至所述业务层;
在所述业务层接收到所述页面访问请求后,响应于所述页面访问请求命中所述业务层预设的第二拦截策略,基于所述页面访问请求,更新所述第一拦截列表,以使与所述页面访问请求来源相同的页面访问请求能够命中所述第一拦截列表。
2.根据权利要求1所述的方法,其特征在于,所述页面访问请求中携带至少一种来源标识,所述第一拦截列表包括与来源标识的种类对应的子拦截列表,所述与来源标识的种类对应的子拦截列表包括需要拦截的来源标识;
所述基于所述页面访问请求,更新所述第一拦截列表,包括:
将所述页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新所述第一拦截列表。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于所述页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截列表,确定所述页面访问请求命中所述第一拦截列表。
4.根据权利要求1所述的方法,其特征在于,所述页面访问请求中携带至少一种来源标识,所述第二拦截策略包括与来源标识的种类对应的子拦截策略;
所述方法还包括:
响应于所述页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截策略,确定所述页面访问请求命中所述第二拦截策略。
5.根据权利要求4所述的方法,其特征在于,与来源标识的种类对应的子拦截策略,包括以下至少一项策略:
拦截来源标识对应的访问目标列表页的频次大于或者等于第一阈值的页面访问请求;
拦截来源标识对应的变换筛选词的频次大于或者等于第二阈值的页面访问请求;
拦截来源标识对应的变换城市的频次大于或者等于第三阈值的页面访问请求;
拦截来源标识对应的访问过期数据的频次大于或者等于第四阈值的页面访问请求。
6.根据权利要求5所述的方法,其特征在于,还包括:
响应于所述页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略。
7.根据权利要求1所述的方法,其特征在于,所述基于所述页面访问请求,更新所述第一拦截列表,包括:
基于所述页面访问请求,更新所述业务层存储的第二拦截列表;
定期将所述第二拦截列表同步到所述第一拦截列表,以更新所述第一拦截列表。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述第一拦截列表为目标业务的拦截列表,所述方法还包括:
将所述第一拦截列表同步到所述目标业务之外的其它业务的拦截列表中。
9.一种防爬取装置,其特征在于,应用于服务器,所述服务器包括流量层和业务层,所述装置包括:
第一拦截模块,用于在所述流量层接收到页面访问请求后,响应于所述页面访问请求未命中所述流量层预设的第一拦截策略且未命中所述流量层存储的第一拦截列表,将所述页面访问请求发送至所述业务层;
第二拦截模块,用于在所述业务层接收到所述页面访问请求后,响应于所述页面访问请求命中所述业务层预设的第二拦截策略,基于所述页面访问请求,更新所述第一拦截列表,以使与所述页面访问请求来源相同的页面访问请求能够命中所述第一拦截列表。
10.根据权利要求9所述的装置,其特征在于,所述页面访问请求中携带至少一种来源标识,所述第一拦截列表包括与来源标识的种类对应的子拦截列表,所述与来源标识的种类对应的子拦截列表包括需要拦截的来源标识;
所述第二拦截模块,具体用于:
将所述页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新所述第一拦截列表。
11.根据权利要求10所述的装置,其特征在于,所述第二拦截模块,还用于:
响应于所述页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截列表,确定所述页面访问请求命中所述第一拦截列表。
12.根据权利要求9所述的装置,其特征在于,所述页面访问请求中携带至少一种来源标识,所述第二拦截策略包括与来源标识的种类对应的子拦截策略;
所述第二拦截模块,还用于:
响应于所述页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截策略,确定所述页面访问请求命中所述第二拦截策略。
13.根据权利要求12所述的装置,其特征在于,与来源标识的种类对应的子拦截策略,包括以下至少一项策略:
拦截来源标识对应的访问目标列表页的频次大于或者等于第一阈值的页面访问请求;
拦截来源标识对应的变换筛选词的频次大于或者等于第二阈值的页面访问请求;
拦截来源标识对应的变换城市的频次大于或者等于第三阈值的页面访问请求;
拦截来源标识对应的访问过期数据的频次大于或者等于第四阈值的页面访问请求。
14.根据权利要求13所述的装置,其特征在于,所述第二拦截模块,还用于:
响应于所述页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略。
15.根据权利要求9所述的装置,其特征在于,所述第二拦截模块,具体用于:
基于所述页面访问请求,更新所述业务层存储的第二拦截列表;
定期将所述第二拦截列表同步到所述第一拦截列表,以更新所述第一拦截列表。
16.根据权利要求9至15任一项所述的方法,其特征在于,所述第一拦截列表为目标业务的拦截列表,所述装置还包括:
发送模块,用于将所述第一拦截列表同步到所述目标业务之外的其它业务的拦截列表中。
17.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的防抓取方法的步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的防抓取方法的步骤。
CN202110595366.8A 2021-05-28 2021-05-28 一种防爬取方法、装置、电子设备及存储介质 Active CN113221053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110595366.8A CN113221053B (zh) 2021-05-28 2021-05-28 一种防爬取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110595366.8A CN113221053B (zh) 2021-05-28 2021-05-28 一种防爬取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113221053A true CN113221053A (zh) 2021-08-06
CN113221053B CN113221053B (zh) 2024-04-12

Family

ID=77099410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110595366.8A Active CN113221053B (zh) 2021-05-28 2021-05-28 一种防爬取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113221053B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130246377A1 (en) * 2008-08-12 2013-09-19 Jitendra B. Gaitonde Configuration management for a capture/registration system
CN110958228A (zh) * 2019-11-19 2020-04-03 用友网络科技股份有限公司 爬虫访问拦截方法及设备、服务器和计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130246377A1 (en) * 2008-08-12 2013-09-19 Jitendra B. Gaitonde Configuration management for a capture/registration system
CN110958228A (zh) * 2019-11-19 2020-04-03 用友网络科技股份有限公司 爬虫访问拦截方法及设备、服务器和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢瑞莲;耿国华;周明全;杨波;: "高访问量信息平台响应性能优化研究与实现", 计算机应用研究, no. 07 *

Also Published As

Publication number Publication date
CN113221053B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN108989263B (zh) 短信验证码攻击防护方法、服务器和计算机可读存储介质
CN103607385B (zh) 基于浏览器进行安全检测的方法和装置
CN103701795B (zh) 拒绝服务攻击的攻击源的识别方法和装置
CN112261172B (zh) 服务寻址访问方法、装置、***、设备及介质
CN109088909B (zh) 一种基于商户类型的服务灰度发布方法及设备
JP2012507065A (ja) 分散環境における要求処理
JP5415390B2 (ja) フィルタリング方法、フィルタリングシステム及びフィルタリングプログラム
US9635017B2 (en) Computer network security management system and method
CN111585956B (zh) 一种网址防刷验证方法与装置
CN105306465A (zh) 网站安全访问实现方法及装置
CN111314301A (zh) 一种基于dns解析的网站访问控制方法及装置
CN106209907B (zh) 一种检测恶意攻击的方法及装置
CN103916379A (zh) 一种基于高频统计的cc攻击识别方法及***
CN109359484A (zh) 云平台的安全审计终端日志的处理方法、装置、设备和介质
CN105939320A (zh) 处理报文的方法及装置
CN106411819A (zh) 一种识别代理互联网协议地址的方法及装置
CN114466054A (zh) 数据处理方法、装置、设备,及计算机可读存储介质
CN112491869A (zh) 一种基于ip信誉度的应用层ddos攻击的检测防护方法及***
CN111786940A (zh) 一种数据处理方法及装置
CN113315737A (zh) 一种apt攻击检测方法、装置、电子设备及可读存储介质
KR101910496B1 (ko) 광역망 인터넷 프로토콜(wan ip) 검증을 통한 네트워크 기반 프록시 설정 탐지 시스템 및 그를 이용한 유해 사이트 접속 차단 방법
CN114301696B (zh) 恶意域名检测方法、装置、计算机设备及存储介质
CN113221053B (zh) 一种防爬取方法、装置、电子设备及存储介质
CN115603974A (zh) 一种网络安全防护方法、装置、设备及介质
CN114928452A (zh) 访问请求验证方法、装置、存储介质及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant