CN103631830A - 网络爬虫检测方法和装置 - Google Patents

网络爬虫检测方法和装置 Download PDF

Info

Publication number
CN103631830A
CN103631830A CN201210312492.9A CN201210312492A CN103631830A CN 103631830 A CN103631830 A CN 103631830A CN 201210312492 A CN201210312492 A CN 201210312492A CN 103631830 A CN103631830 A CN 103631830A
Authority
CN
China
Prior art keywords
url
characteristic information
webpage
behavior characteristic
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210312492.9A
Other languages
English (en)
Inventor
蒋武
李世光
曾祥禄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210312492.9A priority Critical patent/CN103631830A/zh
Publication of CN103631830A publication Critical patent/CN103631830A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供一种网络爬虫检测方法和装置,该方法包括:获取客户端访问网页中所包含的各统一资源定位符URL路径信息;根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息;根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫。本发明实施例通过确定客户端访问网页的行为特征信息,并判断该行为特征信息是否符合网络爬虫的行为特征信息,从而确定客户端的访问是否是网络爬虫,可以提高网络爬虫检测的准确率。

Description

网络爬虫检测方法和装置
技术领域
本发明涉及网络技术,尤其涉及一种网络爬虫检测方法和装置。
背景技术
网络爬虫是搜索引擎技术的基础组成部分。网络爬虫技术是从一个或若干初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页信息的过程中,根据网页的抓取策略,不断从当前页面上抽取新的URL放入队列,直到满足某种停止条件。然后将抓取到的网页信息存储在搜索引擎的服务器中,从而可以加快用户的搜索速度。
现有技术中检测网络爬虫是通过设置阈值的方法来实现的,即统计同一时刻客户端的IP地址访问服务器端的IP地址时的会话连接数,若访问时的会话连接数超过了设置的阈值,则认为该IP地址对应的客户端正在通过网络爬虫抓取网页。
在实现本发明实施例的过程中,发明人发现现有技术中,当客户端的IP地址正常访问服务器的IP地址时,访问时的会话连接数也可能会超过设置的阈值,此时现有技术会误认为是网络爬虫从而造成误检。
发明内容
本发明实施例提供一种网络爬虫检测方法和装置,可以解决通过设置阈值的方法会将正常访问网络误检为网络爬虫的问题,从而用以提高网络爬虫检测的准确率。
在一方面中,本发明实施例提供一种网络爬虫检测方法,包括:
获取客户端访问网页中所包含的各统一资源定位符URL路径信息;
根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息;
根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫。
在上述一方面的第一种可能的实现方式中,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息,包括:根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息;
所述根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫,包括:根据所述递归搜索行为特征信息,确定所述客户端的访问行为是网络爬虫。
在上述一方面的第一种可能的实现方式中的第二种可能实现的方式中,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息,包括:根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息或为进行逐级深度搜索的行为特征信息。
在上述一方面或上述一方面的第一种可能的实现方式或上述一方面的第二种可能的实现方式中的第三种可能的实现方式中,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息之前,还包括:采用网络爬虫技术抓取网页信息,建立所述URL多插树结构。
在上述一方面或上述一方面的第一种可能的实现方式或上述一方面的第二种可能的实现方式中的第四种可能的实现方式中,所述获取客户端访问网页中各URL路径信息之前,还包括:确定所述客户端与网页服务器之间的连接数超过预设阈值。
在另一方面中,本发明实施例还提供一种网络爬虫检测装置,包括:
获取模块,用于获取客户端访问网页中所包含的各统一资源定位符URL路径信息;
第一确定模块,用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息;
第二确定模块,用于根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫。
在上述另一方面的第一种可能的实现方式中,所述第一确定模块包括第一确定单元,所述第二确定模块包括第二确定单元;所述第一确定单元,用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息;所述第二确定单元,用于根据所述递归搜索行为特征信息,确定所述客户端的访问行为是网络爬虫。
在上述另一方面的第一种可能的实现方式中的第二种可能的实现方式中,所述第一确定单元,具体用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息或为进行逐级深度搜索的行为特征信息。
在上述另一方面或上述另一方面的第一种可能的实现方式或上述另一方面的第二种可能的实现方式中的第三种可能的实现方式中,还包括:
预处理模块,用于在确定所述客户端访问网页的行为特征信息之前采用网络爬虫技术抓取网页信息,建立所述URL多插树结构。
在上述另一方面或上述另一方面的第一种可能的实现方式或上述另一方面的第二种可能的实现方式中的第四种可能的实现方式中,还包括:
第三确定模块,用于在获取客户端访问网页中各URL路径信息之前,确定所述客户端与网页服务器之间的连接数超过预设阈值。
本发明实施例提供的网络爬虫检测方法和装置,通过确定客户端访问网页服务器中网页的各URL路径信息,并根据该网页服务器中网页的URL多插树结构和URL路径信息,确定客户端访问网页的行为特征信息,并判断该行为特征信息是否符合网络爬虫的行为特征信息,从而确定客户端的访问是否是网络爬虫,可以提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明网络爬虫检测方法实施例一的流程图;
图2为图1中URL多插树结构的示意图;
图3为本发明网络爬虫检测方法实施例二的流程图;
图4为本发明网络爬虫检测装置实施例一的结构示意图;
图5为本发明网络爬虫检测装置实施例二的结构示意图;
图6为包含本发明网络爬虫检测装置的***实施例的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明网络爬虫检测方法实施例一的流程图,如图1所示,本实施例的方法可以包括:
步骤101、获取客户端访问网页中所包含的各URL路径信息;
URL是用于完整描述因特网Internet上网页和其他资源的地址的一种标识方法,对应地,Internet上的每一个网页都具有一个唯一的URL。当客户端需要访问网页服务器中的网页时,就要先获取到该网页的URL。本实施例需要获取到访问该网页的URL路径信息。
步骤102、根据网页的URL多插树结构以及URL路径信息,确定客户端访问网页的行为特征信息;
一个网页服务器的网站在建立时,各网页的URL之间的关联关系也相应地被建立了,即形成了URL多插树结构。图2为图1中URL多插树结构的示意图,如图2所示,获取首页的URL可以访问首页信息,通过首页可以获取到该首页包含的所有下一级网页中的URL1、URL2和URL3等并且可以访问各URL对应的网页信息,还可以通过各下一级的网页获取到该各网页中所包含的再下一级的网页中的URL1-1、URL1-2等并且可以访问各URL对应的网页信息,以及类推。根据URL多插树结构,客户端可以访问网页服务器的所有网页。若客户端访问了网页服务器中的URL1-1对应的网页和URL2-1对应的网页,则客户端访问网页的行为特征信息是URL-URL1-URL1-1和URL—URL2—URL2-1。
需要说明的是,本实施例中的URL多插树结构并不限定为图2所示结构。
步骤103、根据行为特征信息,确定客户端的访问行为是否是网络爬虫。
将确定的客户端的行为特征信息与网络爬虫的行为特征信息进行比较;网络爬虫的行为特征信息是从任一网页的URL开始,获取该任一网页的网页信息,然后不断获取该任一网页中包含的URL并抓取该URL对应的网页信息,以此类推,直到发现没有未被获取的URL为止,即网络爬虫将网页服务器中网页的URL多插树结构中所有的URL都遍历了一次。若客户端的行为特征符合网络爬虫的行为特征,则确定该客户端的访问行为是网络爬虫;若客户端的行为特征不符合网络爬虫的行为特征,则确定该客户端的访问行为不是网络爬虫,而是正常访问行为。
本实施例,通过获取客户端访问网页服务器中网页的各URL路径信息,并根据该网页服务器中网页的URL多插树结构和URL路径信息,确定客户端访问网页的行为特征信息,并判断该行为特征信息是否符合网络爬虫的行为特征信息,从而确定客户端的访问是否是网络爬虫,可以提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。
图3为本发明网络爬虫检测方法实施例二的流程图,如图3所示,本实施例的网络爬虫检测方法在图1所示方法实施例一的基础上更加详细的介绍本发明的技术方案,本实施例的方法具体可以包括:
步骤301、采用网络爬虫技术抓取网页信息,建立URL多插树结构。
一个网页服务器中具有非常多的URL并且各URL之间的关系也是错综复杂的,为了清楚地获取并表示URL之间的关系,可以通过建立URL多插树结构,由于网络爬虫抓取网页的速度非常快而且每个网页只获取一次,可以准确抓取到每个网页,因此,可以采用网络爬虫软件通过网络爬虫技术快速抓取网页服务器中各网页信息,并将各网页中的URL建立成URL多插树结构,以便将所有网页的URL都关联起来。
具体地,采用网络爬虫技术抓取所需保护的网页信息,建立所需保护的网页的URL多插树结构。先配置所需保护网页服务器的IP地址,则该网页服务器中的所有网页信息均是所需保护的网页信息,再设置该网页服务器中的首页URL,然后与该网页服务器的IP地址建立连接,网络爬虫软件主动抓取到首页URL后再抓取该网页服务器的所有网页的URL,相应地,建立了所需保护的网页的URL多插树结构。
步骤302、确定客户端与网页服务器之间的连接数是否超过预设阈值,若超过,则执行步骤303,否则结束。
客户端访问网页服务器的网页时,每获取一个URL并访问该网页时对应地客户端与网页服务器之间就会产生一个会话连接数,若客户端是通过网络爬虫抓取网页时,需要将网页服务器的所有网页都抓取到,因此,一般来说,进行网络爬虫的客户端与网页服务器之间的会话连接数要大于正常访问下的客户端与网页服务器之间的会话连接数。因此,可以通过预设阈值的方法对客户端访问网页服务器的行为进行一个预判断,首先设置一个阈值,本领域普通技术人员可以理解,预设的阈值大小可以根据网页服务器的情况来进行设置,因此,本发明在此不做限制。统计客户端与网页服务器之间的会话连接个数,若确定该会话连接个数超过预设的阈值时,则说明客户端可能通过网络爬虫在访问网页服务器的网页,为了准确地确定客户端的访问行为,可以通过上述各实施例提供的网络爬虫检测方法对客户端的行为进行进一步确定;若确定该连接个数没有超过预设的阈值时,则说明客户端在正常访问网页服务器,结束检测行为。
通过预设阈值法对客户端与网页服务器之间的连接数进行一个预判断,确定客户端与网页服务器之间的连接数超过预设阈值后,再通过客户端的行为特征信息进一步确定客户端的访问行为是否是网络爬虫,从而可以进一步提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。
步骤303、获取客户端访问网页中所包含的各URL路径信息;
步骤304、根据网页的URL多插树结构以及URL路径信息,确定客户端的行为特征信息为递归搜索行为特征信息;
需要说明的是,本实施例中的步骤301只要在步骤304之前执行即可,例如,该步骤301也可以在步骤303之前执行,本实施例不作限定。
步骤305、根据递归搜索行为特征信息,确定客户端的访问行为是网络爬虫。
本实施例需要根据网页的URL多插树结构以及URL路径信息,确定客户端的行为特征信息,并判断客户端的行为特征信息是否为递归搜索行为特征信息。递归搜索的行为特征信息具体可以包括逐级广度搜索的行为特征信息和逐级深度搜索的行为特征信息,而网络爬虫也会通过逐级广度搜索和逐级深度搜索去抓取网页。因此,只要判断客户的行为特征信息是否为递归搜索行为特征信息,即可确定客户端访问网页的行为;若确定客户端的行为特征信息是递归搜索行为特征信息,则客户端是通过网络爬虫访问网页;若确定客户端的行为特征信息不是递归搜索行为特征信息,则客户端是正常访问网页。
本实施例,通过获取客户端访问网页服务器中网页的各URL路径信息,并根据该网页服务器中网页的URL多插树结构和URL路径信息,确定客户端访问网页的行为特征信息为递归搜索行为特征信息时,则可确定客户端的访问网页行为是网络爬虫,从而可以提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。
在具体实现时,上述图3所示实施例可以采用如下两种具体的实施例实现。
在本发明网络爬虫检测方法实施例三中,上述步骤304可以具体为:根据网页的URL多插树结构以及URL路径信息,确定客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息;步骤305可以具体为:根据逐级广度搜索的行为特征信息,确定客户端的访问行为是网络爬虫。
具体来说,逐级广度搜索的行为特征信息是指在访问网页的过程中,在获取完当前级的URL对应的网页后,才获取当前级网页中包含的下一级网页的URL,以此类推,直到将网页中所有的URL遍历一次并且没有发现未被获取的URL为止,结束访问网页行为。如图2所示,逐级广度搜索的行为特征信息可以是第一步获取首页URL并访问首页信息,第二步获取首页中下一级网页的URL1、URL2和URL3等并且访问各URL对应的各网页信息,第三步获取URL1-1和URL1-2等、URL2-1和URL2-1等以及URL3-1和URL3-2等并且访问各URL对应的各网页信息,第四步获取刚刚获取过的URL对应网页中下一级网页的URL并且访问各URL对应的各网页信息,以此类推,直到发现没有未被获取的URL时则停止访问网页的行为。若根据网页的URL多插树结构以及URL路径信息,判断客户端的行为特征信息为如上所述的行为特征信息,则确定客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息。根据确定逐级广度搜索的行为特征信息,而且由于该行为特征信息符合网络爬虫抓取网页的行为特征信息,所以此时可以确定该客户端的访问行为是网络爬虫。
本实施例,通过获取客户端访问网页服务器中网页的各URL路径信息,并根据该网页服务器中网页的URL多插树结构和URL路径信息,确定客户端访问网页的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息时,则确定客户端的访问行为是网络爬虫,从而可以提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。
在本发明网络爬虫检测方法实施例四中,上述步骤304可以具体为:根据网页的URL多插树结构以及URL路径信息,确定客户端的递归搜索行为特征信息为进行逐级深度搜索的行为特征信息;上述步骤305可以具体为:根据逐级深度搜索的行为特征信息,确定客户端的访问行为是网络爬虫。
具体来说,逐级深度搜索的行为特征信息是指在访问网页的过程中,在获取完当前级的URL对应的网页后,才获取当前网页包含的下一级中一个网页的URL,以此类推,直到这一条网页连接链路中没有发现未被获取的URL为止,再返回获取另一条网页连接链路中网页的URL,并且每个网页的URL只能获取一次,以此类推,直到将网页中所有的URL遍历一次并且没有发现未被获取的URL为止,结束访问网页行为。如图2所示,逐级深度搜索的行为特征信息可以是首先获取首页URL并访问首页信息;然后,第一步获取第一条网页连接链路中各网页的URL,即先获取URL1,再获取URL1-1,直到第一条网页连接链路中没有未被获取的URL为止;第二步获取第二条网页连接链路中未被获取的各网页的URL,即获取URL1-2,直到第二条网页连接链路中没有未被获取的URL为止;第三步获取第三条网页连接链路中未被获取的各网页的URL,即先获取URL2,再获取URL2-1,直到第三条网页连接链路中没有未被获取的URL为止;第四步获取第四条网页连接链路中未被获取的各网页的URL,即获取URL2-2,直到第四条网页连接链路中没有未被获取的URL为止;第五步获取第五条网页连接链路中未被获取的各网页的URL,即先获取顺序URL3,再获取URL3-1,直到第五条网页连接链路中没有未被获取的URL为止;第六步获取第六条网页连接链路中未被获取的各网页的URL,即获取顺序为URL3-2,直到第六条网页连接链路中没有未被获取的URL为止;以此类推,直到发现没有未被获取的URL时则停止访问网页的行为。若根据网页的URL多插树结构以及URL路径信息,判断客户端的行为特征信息为如上所述的行为特征信息,则确定客户端的递归搜索行为特征信息为进行逐级深度搜索的行为特征信息。根据确定客户端的递归搜索行为特征信息为进行逐级深度搜索的行为特征信息,而且由于该行为特征信息符合网络爬虫抓取网页的行为特征信息,所以此时可以确定该客户端的访问行为是网络爬虫。
本实施例,通过获取客户端访问网页服务器中网页的各URL路径信息,并根据该网页服务器中网页的URL多插树结构和URL路径信息,确定客户端访问网页的递归搜索行为特征信息为进行逐级深度搜索的行为特征信息时,则确定客户端的访问行为是网络爬虫,从而可以提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。
例如在NAT(Network Address Translation,网络地址转换)场景下,也就是,一个局域网中具有很多个用户,各个用户对应着一个私有地址,当各个用户通过路由器发送数据时,各个用户的私有地址会被转换成合法的IP地址,这有助于减缓可用IP地址空间的枯竭,该IP地址可以为少量的几个,甚至也可以是一个。如果该合法的IP地址为一个时,该局域网中的很多个用户在同时访问同一服务器时,采用现有技术的预设阈值方法,此时会将这个局域网中很多个用户的正常访问行为误认为是该IP地址对应的一个用户的行为是网络爬虫行为,从而引起错误的操作行为。采用上述本发明各实施例提供的网络爬虫检测方法,就有效避免了在NAT场景下将正常访问行为误检为网络爬虫行为。
图4为本发明网络爬虫检测装置实施例一的结构示意图,如图4所示,本实施例的装置可以包括:获取模块11、第一确定模块12和第二确定模块13。其中,获取模块11,用于获取客户端访问网页中所包含的各统一资源定位符URL路径信息;第一确定模块12,用于根据网页的URL多插树结构以及URL路径信息,确定客户端访问网页的行为特征信息;第二确定模块13,用于根据行为特征信息,确定客户端的访问行为是否是网络爬虫。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参考上述实施例的记载,此处不再赘述。
图5为本发明网络爬虫检测装置实施例二的结构示意图,如图5所示,本实施例的网络爬虫检测装置在图4所示装置结构的基础上,进一步地,第一确定模块12可以包括第一确定单元121,第二确定模块13可以包括第二确定单元131,第一确定单元121与第二确定单元131相连。其中,第一确定单元121,用于根据网页的URL多插树结构以及URL路径信息,确定客户端的行为特征信息为递归搜索行为特征信息;第二确定单元131,用于根据递归搜索行为特征信息,确定客户端的访问行为是网络爬虫。
进一步地,本实施例还可以包括预处理模块14,该预处理模块14用于在确定客户端访问网页的行为特征信息之前采用网络爬虫技术抓取网页信息,建立URL多插树结构。具体地,该预处理模块14可以用于采用网络爬虫技术抓取所需保护的网页信息,建立所需保护的网页的URL多插树结构。
进一步地,本实施例还可以包括第三确定模块15,该第三确定模块15用于在获取客户端访问网页中各URL路径信息之前,确定客户端与网页服务器之间的连接数超过预设阈值。
需要说明的是,本实施例中的预处理模块14可以与第三确定模块15相连,预处理模块14也可以与获取模块11相连,本实施例不作限定。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参考上述实施例的记载,此处不再赘述。
在具体实现时,上述图5所示实施例可以采用如下两种具体的实施例实现。
在本发明网络爬虫检测装置实施例三中,上述第一确定单元121可以具体用于根据网页的URL多插树结构以及URL路径信息,确定客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息;上述第二确定单元131可以具体用于根据逐级广度搜索的行为特征信息,确定客户端的访问行为是网络爬虫。
本实施例的装置,可以用于执行本发明网络爬虫检测方法实施例三所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参考上述实施例的记载,此处不再赘述。
在本发明网络爬虫检测装置实施例四中,上述第一确定单元121可以具体用于根据网页的URL多插树结构以及URL路径信息,确定客户端的递归搜索行为特征信息为进行逐级深度搜索的行为特征信息;上述第二确定单元131可以具体用于根据逐级深度搜索的行为特征信息,确定客户端的访问行为是网络爬虫。
本实施例的装置,可以用于执行本发明网络爬虫检测方法实施例四所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参考上述实施例的记载,此处不再赘述。
图6为包含本发明网络爬虫检测装置的***实施例的示意图,如图6所示,其中,服务器3、防火墙2、网络爬虫检测装置1、网关4及客户机5可以为独立设置的网络实体设备,各设备之间的实线表示各设备之间的通信连接。而且,本实施例中的网络爬虫检测装置1可以采用本发明网络爬虫检测装置实施例一至四任一实施例所示的装置。客户机5可以经过网关4、网络爬虫检测装置1、防火墙2访问服务器3,当网络爬虫检测装置1检测到客户机5访问服务器3的这次行为为网络爬虫时,网络爬虫检测装置1将客户机5对应的IP地址发给防火墙2,防火墙2将该IP地址设置在黑名单中,以阻止该IP地址对应的客户机5访问服务器3,以保护服务器3中的资源信息。
网络爬虫检测装置1可以是独立的设备,也可以设置在网关或者防火墙等设备中,根据具体需求而定。
需要说明的是,有关服务器3、防火墙2、网关4及客户机5的结构,以及各设备之间的通信,本领域普通技术人员可以理解为与现有技术中的一致,此处不做赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种网络爬虫检测方法,其特征在于,包括:
获取客户端访问网页中所包含的各统一资源定位符URL路径信息;
根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息;
根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫。
2.根据权利要求1所述的方法,其特征在于,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息,包括:
根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息;
所述根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫,包括:
根据所述递归搜索行为特征信息,确定所述客户端的访问行为是网络爬虫。
3.根据权利要求2所述的方法,其特征在于,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息,包括:
根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息或为进行逐级深度搜索的行为特征信息。
4.根据权利要求1~3中任一项所述的方法,其特征在于,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息之前,还包括:
采用网络爬虫技术抓取网页信息,建立所述URL多插树结构。
5.根据权利要求1~3中任一项所述的方法,其特征在于,所述获取客户端访问网页中各URL路径信息之前,还包括:
确定所述客户端与网页服务器之间的连接数超过预设阈值。
6.一种网络爬虫检测装置,其特征在于,包括:
获取模块,用于获取客户端访问网页中所包含的各统一资源定位符URL路径信息;
第一确定模块,用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息;
第二确定模块,用于根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块包括第一确定单元,所述第二确定模块包括第二确定单元;
所述第一确定单元,用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息;
所述第二确定单元,用于根据所述递归搜索行为特征信息,确定所述客户端的访问行为是网络爬虫。
8.根据权利要求7所述的装置,其特征在于,所述第一确定单元,具体用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息或为进行逐级深度搜索的行为特征信息。
9.根据权利要求5~8中任一项所述的装置,其特征在于,还包括:
预处理模块,用于在确定所述客户端访问网页的行为特征信息之前采用网络爬虫技术抓取网页信息,建立所述URL多插树结构。
10.根据权利要求5~8中任一项所述的装置,其特征在于,还包括:
第三确定模块,用于在获取客户端访问网页中各URL路径信息之前,确定所述客户端与网页服务器之间的连接数超过预设阈值。
CN201210312492.9A 2012-08-29 2012-08-29 网络爬虫检测方法和装置 Pending CN103631830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210312492.9A CN103631830A (zh) 2012-08-29 2012-08-29 网络爬虫检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210312492.9A CN103631830A (zh) 2012-08-29 2012-08-29 网络爬虫检测方法和装置

Publications (1)

Publication Number Publication Date
CN103631830A true CN103631830A (zh) 2014-03-12

Family

ID=50212892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210312492.9A Pending CN103631830A (zh) 2012-08-29 2012-08-29 网络爬虫检测方法和装置

Country Status (1)

Country Link
CN (1) CN103631830A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN106202467A (zh) * 2016-07-18 2016-12-07 浪潮集团有限公司 一种面向对等网络的可定义搜索重点的网络爬虫方法
CN106294368A (zh) * 2015-05-15 2017-01-04 阿里巴巴集团控股有限公司 网络爬虫识别方法和装置
CN106548067A (zh) * 2015-09-21 2017-03-29 百度在线网络技术(北京)有限公司 用于转发访问请求的方法和装置
CN108763274A (zh) * 2018-04-09 2018-11-06 北京三快在线科技有限公司 访问请求的识别方法、装置、电子设备及存储介质
CN109145185A (zh) * 2018-02-02 2019-01-04 北京数安鑫云信息技术有限公司 识别网络爬虫以及提取网络爬虫特征的方法及装置
CN109241733A (zh) * 2018-08-07 2019-01-18 北京神州绿盟信息安全科技股份有限公司 基于Web访问日志的爬虫行为识别方法及装置
CN109492146A (zh) * 2018-11-09 2019-03-19 杭州安恒信息技术股份有限公司 一种防web爬虫的方法和装置
CN109582844A (zh) * 2018-11-07 2019-04-05 北京三快在线科技有限公司 一种识别爬虫的方法、装置及***
CN109617915A (zh) * 2019-01-15 2019-04-12 成都知道创宇信息技术有限公司 一种基于页面访问拓扑的异常用户挖掘方法
CN110609937A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 一种爬虫识别方法及装置
CN112445954A (zh) * 2019-08-29 2021-03-05 杭州中软安人网络通信股份有限公司 自动提取网页的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6547829B1 (en) * 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
CN102495861A (zh) * 2011-11-24 2012-06-13 中国科学院计算技术研究所 一种网络爬虫识别***及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6547829B1 (en) * 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
CN102495861A (zh) * 2011-11-24 2012-06-13 中国科学院计算技术研究所 一种网络爬虫识别***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郭伟刚等: "一个基于事务分析的web robot检测算法", 《计算机应用》 *
郭伟刚等: "电子商务网站中web robot的检测技术", 《计算机工程》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294368B (zh) * 2015-05-15 2019-11-05 阿里巴巴集团控股有限公司 网络爬虫识别方法和装置
CN106294368A (zh) * 2015-05-15 2017-01-04 阿里巴巴集团控股有限公司 网络爬虫识别方法和装置
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN106548067A (zh) * 2015-09-21 2017-03-29 百度在线网络技术(北京)有限公司 用于转发访问请求的方法和装置
CN106548067B (zh) * 2015-09-21 2020-05-22 百度在线网络技术(北京)有限公司 用于转发访问请求的方法和装置
CN106202467A (zh) * 2016-07-18 2016-12-07 浪潮集团有限公司 一种面向对等网络的可定义搜索重点的网络爬虫方法
CN109145185A (zh) * 2018-02-02 2019-01-04 北京数安鑫云信息技术有限公司 识别网络爬虫以及提取网络爬虫特征的方法及装置
CN108763274A (zh) * 2018-04-09 2018-11-06 北京三快在线科技有限公司 访问请求的识别方法、装置、电子设备及存储介质
CN108763274B (zh) * 2018-04-09 2021-06-11 北京三快在线科技有限公司 访问请求的识别方法、装置、电子设备及存储介质
CN109241733A (zh) * 2018-08-07 2019-01-18 北京神州绿盟信息安全科技股份有限公司 基于Web访问日志的爬虫行为识别方法及装置
CN109582844A (zh) * 2018-11-07 2019-04-05 北京三快在线科技有限公司 一种识别爬虫的方法、装置及***
CN109492146A (zh) * 2018-11-09 2019-03-19 杭州安恒信息技术股份有限公司 一种防web爬虫的方法和装置
CN109617915A (zh) * 2019-01-15 2019-04-12 成都知道创宇信息技术有限公司 一种基于页面访问拓扑的异常用户挖掘方法
CN109617915B (zh) * 2019-01-15 2020-12-15 成都知道创宇信息技术有限公司 一种基于页面访问拓扑的异常用户挖掘方法
CN110609937A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 一种爬虫识别方法及装置
CN110609937B (zh) * 2019-08-15 2024-07-19 平安科技(深圳)有限公司 一种爬虫识别方法及装置
CN112445954A (zh) * 2019-08-29 2021-03-05 杭州中软安人网络通信股份有限公司 自动提取网页的方法及装置

Similar Documents

Publication Publication Date Title
CN103631830A (zh) 网络爬虫检测方法和装置
CN104144142B (zh) 一种Web漏洞挖掘方法及***
CN101924757B (zh) 追溯僵尸网络的方法和***
CN108768921B (zh) 一种基于特征检测的恶意网页发现方法及***
US20140047543A1 (en) Apparatus and method for detecting http botnet based on densities of web transactions
CN104391979A (zh) 网络恶意爬虫识别方法及装置
CN106656577B (zh) 一种app及浏览器的用户行为统计方法及智能路由器
CN103530336B (zh) 统一资源定位符url中无效参数的识别设备及方法
CN102158499B (zh) 基于http流量分析的挂马网站检测方法
CN107395553B (zh) 一种网络攻击的检测方法、装置及存储介质
CN102098229A (zh) 统一资源定位符优化审计的方法、装置和网络侧设备
CN104301304A (zh) 基于大型isp互联口的漏洞检测***及其方法
CN103401845A (zh) 一种网址安全性的检测方法、装置
CN104219221A (zh) 一种网络安全流量生成方法和***
CN101599857B (zh) 检测共享接入主机数目的方法、装置及网络检测***
CN107135199B (zh) 网页后门的检测方法和装置
CN103905421A (zh) 一种基于url异构性的可疑事件检测方法及***
CN103530337A (zh) 识别统一资源定位符url中无效参数的设备及方法
CN101588276A (zh) 一种检测僵尸网络的方法及其装置
CN106911635A (zh) 一种检测网站是否存在后门程序的方法及装置
KR101767594B1 (ko) 악성코드 점검을 위한 웹주소 자동 추출 시스템 및 방법
CN105024989A (zh) 一种基于异常端口的恶意url启发式检测方法及***
CN106911636B (zh) 一种检测网站是否存在后门程序的方法及装置
US20230379361A1 (en) System and method for generating cyber threat intelligence
KR101767589B1 (ko) 악성코드 점검을 위한 웹주소 자동 추출 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140312