CN110555147A

CN110555147A - 网站数据抓取方法、装置、设备及其介质

Info

Publication number: CN110555147A
Application number: CN201810295904.XA
Authority: CN
Inventors: 包喆元
Original assignee: Shanghai Matchi Sharp Network Technology Co Ltd
Current assignee: Shanghai Matchi Sharp Network Technology Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2019-12-10

Abstract

本发明涉及通信领域，公开了一种网站数据抓取方法、装置、设备及其介质。本发明中网站数据抓取方法包括：判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值；如果判断结果为超过预定时间阈值，则判断对目标网站数据的抓取是否满足抓取停止条件；如果判断结果为不满足抓取停止条件，则停止当前IP地址对目标网站数据的抓取，并从IP地址列表中获取当前未被使用的IP地址；采用获取到的当前未被使用的IP地址访问目标网站，以抓取目标网站数据；如果判断结果为满足抓取停止条件，则停止对目标网站的访问。本发明可有效避免IP地址被确定为爬虫IP地址而被禁止获取网页信息。

Description

网站数据抓取方法、装置、设备及其介质

技术领域

本发明涉及通信领域，特别涉及一种网站数据抓取方法、装置、设备及其介质。

背景技术

随着在线购物的快速发展，出现了越来越多的购物网站，为了对这些购物网站上的商品进行综合分析，比如比价等，需要采用网络爬虫从这些购物网站上获取信息。但是，一般的网站都具有反爬虫机制，限制这些信息的获取。

发明内容

本发明的目的在于提供一种网站数据抓取方法、装置、设备及其介质，可有效避免IP地址被确定为爬虫IP地址而被禁止获取网页信息。

为解决上述技术问题，本发明的实施方式公开了一种网站数据抓取方法，包括：

判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值；

如果判断结果为超过预定时间阈值，则判断对目标网站数据的抓取是否满足抓取停止条件；

如果判断结果为不满足抓取停止条件，则停止当前IP地址对目标网站数据的抓取，并从IP地址列表中获取当前未被使用的IP地址；采用获取到的当前未被使用的IP地址访问目标网站，以抓取目标网站数据；

如果判断结果为满足抓取停止条件，则停止对目标网站的访问。

在一示范例中，抓取目标网站数据包括：

对目标网站进行分析，并从DNS服务器获取网页的IP地址，生成抓取任务，并将抓取任务存储到任务队列；

从任务队列中获取抓取任务，抓取目标网站数据，其中，抓取任务包括IP地址、URL地址、抓取深度。

在一示范例中，抓取目标网站数据包括：

配置顶级域名的链接；

运用广度优先搜索算法提取目标网站所有的网页链接；

将所有提取到的网页链接采用哈希链表的方式保存进集合中；

运用数据匹配算法过滤重复的网页链接，提取网页页面内容；

采用模式匹配算法，输入关键词或关键字查找网页页面上的内容。

在一示范例中，目标网站为购物网站。

本发明的实施方式还公开了一种网站数据抓取装置，该装置包括：

第一判断单元，用于判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值；

第二判断单元，判断对目标网站数据的抓取是否满足抓取停止条件；

获取单元，用于停止当前IP地址对目标网站数据的抓取，并从IP地址列表中获取当前未被使用的IP地址；

转换单元，用于采用获取单元获取到的当前未被使用的IP地址访问目标网站；

抓取单元，用于抓取目标网站数据；

停止单元，用于停止对目标网站的访问。

在一示范例中，抓取网站通过以下方式抓取目标网站数据：

在另一示范例中，抓取网站通过以下方式抓取目标网站数据：

配置顶级域名的链接；

运用广度优先搜索算法提取目标网站所有的网页链接；

在另一示范例中，目标网站为购物网站。

本发明的实施方式还公开了一种设备，该设备包括存储有计算机可执行指令的存储器和处理器，处理器被配置为执行指令以实施网站数据抓取方法，其中，网站数据抓取方法包括：

本发明的实施方式还公开了一种使用计算机程序编码的非易失性计算机存储介质，计算机程序包括指令，当指令被一个以上的计算机执行时，指令使得一个以上的计算机执行操作，操作包括：

本发明实施方式与现有技术相比，主要区别及其效果在于：

通过在IP地址被判定为爬虫获取IP地址的时间内，及时转换IP地址，有效避免IP地址被确定为爬虫IP地址而被禁止获取网页信息。

进一步地，在网页分析中执行DNS查询，避免DNS查询在抓取过程中造成管道阻塞，提高爬虫效率。

进一步地，数据匹配获取的链接具有极强的不同环境的适应性，能够准确地捕捉到多种形式的链接，以适应不同的环境，数据处理方式耦合性极高。

附图说明

图1是根据本发明第一实施方式的网站数据抓取方法的流程示意图；

图2是根据本发明第二实施方式的网站数据抓取装置的结构示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明第一实施方式涉及一种网站数据抓取方法。图1是该网站数据抓取方法的流程示意图。

具体地，如图1所示，该网站数据抓取方法包括以下步骤：

步骤101，判断抓取目标网站数据所使用的当前IP(网络之间互连的协议，Internet Protocol)地址的使用时间是否超过预定时间阈值。在本发明中，预定时间阈值可以通过实际测试获得，例如，可以通过测试单个IP地址抓取目标网站数据时，多长时间会被认为是采用爬虫搜集信息的网站，来确定预定时间阈值。

如果判断结果为是，则进入步骤102；否则，结束本流程。

此后进入步骤102。

在步骤102中，判断对目标网站数据的抓取是否满足抓取停止条件。

可以理解，在本发明中，抓取停止条件包括但不限于：网页数据已经被全部抓取、网页数据抓取时间超过预先设定的时间阈值等。

如果判断结果为是，则进入步骤103；否则，进入步骤104。

在步骤103中，停止对目标网站的访问。此后结束本流程。

在步骤104中，停止当前IP地址对目标网站数据的抓取，并从IP地址列表中获取当前未被使用的IP地址。此后进入步骤105。

在步骤105中，采用获取到的当前未被使用的IP地址访问目标网站，以抓取目标网站数据。此后结束本流程。

可以理解，虽然上述流程在步骤105执行后结束，但是，在其他实施方式中，在步骤105执行完成后，返回步骤101，重复整个流程，直到满足抓取停止条件。

在一示范例中，上述步骤105中抓取目标网站数据包括：

对目标网站进行分析，并从DNS服务器获取网页的IP地址，生成抓取任务，并

将抓取任务存储到任务队列；

在网页分析中执行DNS查询，避免DNS查询在抓取过程中造成管道阻塞，提高爬虫效率。

在另一示范例中，上述步骤105中抓取目标网站数据包括：

配置顶级域名的链接；

运用广度优先搜索算法提取目标网站所有的网页链接；

数据匹配获取的链接具有极强的不同环境的适应性，能够准确地捕捉到多种形式的链接，以适应不同的环境，数据处理方式耦合性极高。

可以理解，在本发明中，优选地，目标网站为购物网站。

本发明通过在IP地址被判定为爬虫获取IP地址的时间内，及时转换IP地址，能够有效避免IP地址被确定为爬虫IP地址而被禁止获取网页信息。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable ArrayLogic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称“PROM”)、只读存储器(Read-Only Memory，简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。

本发明第二实施方式涉及一种网站数据抓取装置。图2是该网站数据抓取装置的结构示意图。

具体地，如图2所示，该网站数据抓取装置包括：

第一判断单元，用于判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值。

第二判断单元，判断对目标网站数据的抓取是否满足抓取停止条件。

获取单元，用于停止当前IP地址对目标网站数据的抓取，并从IP地址列表中获取当前未被使用的IP地址。

转换单元，用于采用获取单元获取到的当前未被使用的IP地址访问目标网站。

抓取单元，用于抓取目标网站数据。

停止单元，用于停止对目标网站的访问。

在一示范例中，抓取网站通过以下方式抓取目标网站数据：

配置顶级域名的链接；

运用广度优先搜索算法提取目标网站所有的网页链接；

可以理解，在本发明中，优选地，目标网站为购物网站。

通过在IP地址被判定为爬虫获取IP地址的时间内，及时转换IP地址，能够有效避免IP地址被确定为爬虫IP地址而被禁止获取网页信息。

第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明的第三实施方式公开了一种设备，该设备包括存储有计算机可执行指令的存储器和处理器，处理器被配置为执行指令以实施网站数据抓取方法，其中，网站数据抓取方法包括：

本发明的第四实施方式公开了一种使用计算机程序编码的非易失性计算机存储介质，其中，计算机程序包括指令，当指令被一个以上的计算机执行时，指令使得一个以上的计算机执行操作，操作包括：

需要说明的是，本发明各设备实施方式中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现，这些逻辑单元本身的物理实现方式并不是最重要的，这些逻辑单元所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，这并不表明上述设备实施方式并不存在其它的单元。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种网站数据抓取方法，其特征在于，包括：

如果所述判断结果为不满足抓取停止条件，则停止所述当前IP地址对所述目标网站数据的抓取，并从IP地址列表中获取当前未被使用的IP地址；采用获取到的所述当前未被使用的IP地址访问所述目标网站，以抓取所述目标网站数据；

如果判断结果为满足抓取停止条件，则停止对所述目标网站的访问。

2.根据权利要求1所述的网站数据抓取方法，其特征在于，抓取所述目标网站数据包括：

对所述目标网站进行分析，并从DNS服务器获取网页的IP地址，生成抓取任务，并将所述抓取任务存储到任务队列；

从所述任务队列中获取所述抓取任务，抓取所述目标网站数据，其中，所述抓取任务包括IP地址、URL地址、抓取深度。

3.根据权利要求1所述的网站数据抓取方法，其特征在于，抓取所述目标网站数据包括：

配置顶级域名的链接；

运用广度优先搜索算法提取所述目标网站所有的网页链接；

4.根据权利要求1至3中任一项所述的网站数据抓取方法，其特征在于，所述目标网站为购物网站。

5.一种网站数据抓取装置，其特征在于，包括：

获取单元，用于停止所述当前IP地址对所述目标网站数据的抓取，并从IP地址列表中获取当前未被使用的IP地址；

转换单元，用于采用所述获取单元获取到的所述当前未被使用的IP地址访问所述目标网站；

抓取单元，用于抓取所述目标网站数据；

停止单元，用于停止对所述目标网站的访问。

6.根据权利要求5所述的网站数据抓取装置，其特征在于，所述抓取网站通过以下方式抓取所述目标网站数据：

7.根据权利要求5所述的网站数据抓取装置，其特征在于，所述抓取网站通过以下方式抓取所述目标网站数据：

配置顶级域名的链接；

运用广度优先搜索算法提取所述目标网站所有的网页链接；

8.根据权利要求5至7中任一项所述的网站数据抓取装置，其特征在于，所述目标网站为购物网站。

9.一种设备，其特征在于，包括存储有计算机可执行指令的存储器和处理器，所述处理器被配置为执行所述指令以实施网站数据抓取方法，其中，所述网站数据抓取方法包括：

10.一种使用计算机程序编码的非易失性计算机存储介质，其特征在于，所述计算机程序包括指令，当所述指令被一个以上的计算机执行时，所述指令使得所述一个以上的计算机执行操作，所述操作包括：