CN103870329A

CN103870329A - 基于加权轮叫算法的分布式爬虫任务调度方法

Info

Publication number: CN103870329A
Application number: CN201410073829.4A
Authority: CN
Inventors: 蒋昌俊; 陈闳中; 闫春钢; 丁志军; 王鹏伟; 孙海春; 邓晓栋; 葛大劼
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2014-03-03
Filing date: 2014-03-03
Publication date: 2014-06-18
Anticipated expiration: 2034-03-03
Also published as: CN103870329B

Abstract

一种基于加权轮叫算法的分布式爬虫任务调度方法，包括1）根据规模不同，将网络爬虫分为单机多线程、同构集中式、异构集中式、小型分布式和大型分布式五类爬虫；2）主从式架构部署；3）当爬虫节点第一次连接到主控节点时，主控节点给予它初始权值；4）主控节点根据基于加权轮叫的调度算法，不断选择出一个爬虫节点，将一个待爬取的URL任务分配给它；5）每当爬虫节点爬取完一个URL任务时，将结果返回给主控节点，主控节点更新该爬虫节点的权值；等等。本发明提出的基于加权轮叫算法的分布式爬虫调度策略，是针对小型分布式爬虫而进行设计的，能够使各爬虫节点负载平衡，并使爬虫节点拥有灵活的可扩展性及容错性。

Description

基于加权轮叫算法的分布式爬虫任务调度方法

技术领域

本发明涉及网络搜索技术领域。

背景技术

一个搜索引擎可以分成爬虫、索引器、检索器和用户接口等几个部分。其中，爬虫负责对互联网中的信息不断进行查找和搜集，在搜索引擎中扮演着重要的角色。随着网络的急速发展，信息更是飞速增长，传统简单的单机网络爬虫及集中式网络爬虫的爬取能力已经不能跟上互联网上信息的增长速度。而在分布式的概念越来越多被提及的今天，分布式爬虫也自然而然成为了解决大数据量问题的方案。分布式爬虫由多个分散在广域网中部署的节点组成，能够并行的进行爬取工作，满足人们对爬虫能力的需要。由于各节点的爬取能力不同，一个良好的调度策略是必不可少的。针对不同规模的爬虫有着不同的调度算法，其中，比较主流的调度算法有：

(1)哈希调度

常见的哈希函数是一种映射关系，通过这种映射关系，将原本的字符串、数或其它信息转换为一个索引值。其实早期的爬虫***大多都是采用的这种方式，它将URL作为哈希的输入，根据哈希函数得到的值就作为调度的输出。这样的调度策略不仅非常容易计算，而且***开销也很小；与此同时，由于哈希函数数学上的随机性，正好保证了爬虫节点间任务分配的均匀性。

(2)集中式负载调度

以大规模改进后的北大天网爬虫为例，它是集中式控制的模式，它的总体框架是一个总控节点与若干个爬虫节点进行协同工作。其任务调度采用的调度模式是：总控节点负责分发URL，而爬虫节点负责爬取URL。每一个站点由一个爬虫程序负责，该站点上的所有URL都由该爬虫程序进行爬取。一个爬虫节点可以有多个爬虫程序，但每个爬虫程序必定在一个爬虫节点上运行。总控节点从种子URL出发进行分配，对每一个所在站点还没有启动爬虫程序的URL，会根据一定的负载平衡原则找到一个爬虫节点，将URL传输过去，并要求它开启一个新的爬虫程序。接下来所有该站点地URL都会分发到该爬虫节点，并由该爬虫程序进行爬取工作。

(3)根据网络位置进行调度

在大型的搜索引擎中，由于爬虫节点被部署在全球各地，因此网络位置的计算是相当重要的。在这样的爬虫中，其基本的调度策略的思想就是利用诸如GNP算法，通过测量较少事先确定的几组网站与爬虫节点之间的网络距离，估算其它大量的节点间的网络距离，最后利用预测得到网络距离再来计算爬虫节点爬取URL对应网页所需要时间，并将最少时间开销的爬虫节点设定为对应URL的调度对象。这样的调度方案有效地按照网络距离对爬虫任务进行了调度，而且也减少了大规模网络测量的时间开销。

发明内容

本发明提出的基于加权轮叫算法的分布式爬虫调度策略，是针对小型分布式爬虫而进行设计的，因思想与集中式负载调度策略相思，也同时适用于异构集中式爬虫，能够使各爬虫节点负载平衡，并使爬虫节点拥有灵活的可扩展性及容错性。

本发明方法技术方案表征为：

一种基于加权轮叫算法的分布式爬虫任务调度方法，其特征在于，依次按照如下步骤实施：

1）根据规模不同，本发明将网络爬虫分为单机多线程、同构集中式、异构集中式、小型分布式和大型分布式五类爬虫，本爬虫任务调度方法是针对小型分布式的爬虫任务调度方法。小型分布式爬虫是指各个节点虽然是分布式部署，但仍部署在一个小的物理区域之中，因此各节点在互联网上的网络时延相差并不大，不过各个节点间的传输并不一定在局域网环境中进行，因此传输可能是不可靠的，传输时延也必须进行考虑。

2）主从式架构部署，即一个主控节点和若干个分布式部署并且能和主控节点互通的爬虫节点，保证所有爬虫节点能够连至互联网。主控节点负责爬虫任务的调度工作，即一个待爬取的URL该分配给哪一个爬虫节点完成，以及去重工作，即将一个爬虫节点返回的一条URL得到的外链去重后当中新的待爬取的URL。爬虫节点则负责具体的爬虫工作，对每一条主控节点分配给它的URL去互联网上爬取它的整个HTML，并解析出这个页面中包含的外链，将这些信息返回给主控节点。

3）当爬虫节点第一次连接到主控节点时，主控节点给予它一个经验值作为初始权值。

4）主控节点根据本发明提出的基于加权轮叫的调度算法，不断选择出一个爬虫节点，将一个待爬取的URL任务分配给它。该调度算法的主体是传统的加权轮叫调度算法，即设置一个当前调度权值，每当它减为非正数时重新初始化为当前所有节点权值的最大值，然后对每个节点依次询问，看其权值是否不小于当前调度权值，若是则得到调度，当所有节点询问完毕后，当前调度权值自减一个步长，再开始对每个节点依次询问，如此不断往复。在传统的加权轮叫调度算法中，步长为所有权值的最小公约数，也就是说在有很多权值的情况下可以认为是1。而本发明提出的调度算法则根据本方法设定的权值计算方法和大量实验将其步长设定为4。

5）每当爬虫节点爬取完一个URL任务时，将结果返回给主控节点，主控节点根据本发明提出的根据最近任务完成时间和未完成的任务数的权值计算方法更新该爬虫节点的权值。

6）当一个爬虫节点的权值随着任务数的增加降为零时，主控节点将不再分配给其任务。直到它的权值重新恢复为正数时，才会重新得到分配。

7）这样主控节点不断将URL分配给爬虫节点，爬虫节点则不断将URL爬取得到其HTML和外链返回给主控节点，主控节点将外链去重后再重新分配出去。根据互联网的实际情况，这样整个***就会永无止境的运行下去，不断爬取得到新的网页，直至人工根据实际情况手动停止。

8）拥有错误恢复机制，主控节点可以检测到爬虫节点的异常情况，并将其权值置零。

9）拥有良好的扩展性，新的节点可以随时加入***，旧的节点也可以随时从***中移除。

根据规模不同，本发明将网络爬虫分为五类：

(1)单机多线程爬虫

单机多线程爬虫是最传统的爬虫形式，它的负载平衡体现在任务尽可能均匀的分配到各个线程上。各类的哈希算法都是适合调度算法。

(2)同构集中式爬虫

同构集中式爬虫和单机多线程爬虫类似，各个节点就相当于单机多线程中的各个线程，只不过规模稍大，能力稍强而已。因此，各类的哈希算法仍是适合该类爬虫的调度算法。

(3)异构集中式爬虫

异构集中式爬虫和前两类不同的在于，各个节点的性能等指标不同，因此各个节点的爬取能力并不相同。能力强的节点应该分配到更多的任务，而能力差的节点应该分配到更少的任务。集中式负载调度可以对此类爬虫有一个好的调度。

(4)小型分布式爬虫

小型分布式爬虫是指各个节点虽然是分布式部署，但仍部署在一个小的区域，各节点在互联网上的网络时延相差并不大，它与异构集中式爬虫比较相似，但是各个节点间的传输并不一定在局域网内进行，因此传输可以认为是不可靠的，传输时延也必须进行考虑。此类爬虫目前没有较好的针对性调度算法，集中式负载调度可以对此类爬虫进行一定程度的调度，但好的调度策略应该是在集中式负载调度的基础上做出一些改变，以更好的契合该类爬虫。

(5)大型分布式爬虫

大型分布式爬虫就是现今各类大型商用搜索引擎采用的爬虫形式，各个节点分布在世界各地，网络时延相差很大，因此根据网络位置进行调度的策略就是为该类爬虫量身打造。

本发明提出的基于加权轮叫算法的分布式爬虫调度策略，按上述分类即是针对小型分布式爬虫进行设计的。

本发明设计了一个基于各爬虫节点当前爬取效率的权值计算公式，其主要功能是保证了***的负载平衡。而基于加权轮叫算法的分布式爬虫任务调度算法则是基于这个权值计算公式具体负责URL的任务调度。另外本发明设计的错误恢复机制则是保证了***的稳定性。

附图说明

图1调度流程图。

图2基于加权轮叫算法流程图。

具体实施方式

本发明采用主从式的爬虫架构，在主控节点，存在一张节点表、三个URL队列以及调度模块和爬虫反馈模块。节点表记录着各个爬虫节点的信息，包括节点号、权值等。它必须动态更新以保持和实际的爬虫节点情况一致。它动态更新的时机可以是每一次爬虫节点进行了一次URL任务的反馈，也可以是每一定时间进行一次，可以根据具体情况设置。调度模块先从待爬取的URL队列中取出一条URL，再从节点表中取出各节点信息，并从中选择一个爬虫节点进行调度，将该URL分配给该爬虫节点，并将该URL存入已分配的URL队列中。而当一个爬虫节点完成一条URL的爬取工作后，爬虫反馈模块将该URL去已分配的URL队列中查询，若存在则从中删除，并存入已爬取的URL队列中，最后该URL爬取出的外链可以送入去重模块后输出至待爬取的URL队列，这里只考虑调度过程，而忽略该过程。调度流程图如图1所示.

一般来说，可以考虑的负载均衡因素有CPU性能、CPU使用率、内存使用率、传输时延等，但它们归更到底还是体现在时间上，因此我们采用时间这一指标作为负载均衡的衡量标准，即确定权值的因素。我们根据一个爬虫节点之前的运行情况去判断之后它可能的状况，以此确定权值。

具体来说，对于一个爬虫节点，假设它已完成的任务数是n个，一共花费的总时间是t毫秒（这里的时间包括从主控节点分配出任务至该节点直至该节点进行反馈为止，在主控节点而不是爬虫节点计算权值的原因是为了将传输时延考虑在内），那么这个爬虫节点平均完成一个任务需要花费的时间

为：

\overset{&OverBar;}{t} = \frac{t}{n} - - - (1)

假设已分配给该爬虫节点但仍未完成的任务数是m个，那么该爬虫节点完成剩余任务所需要的时间T就是

也就是：

T = \frac{t}{n} * m - - - (2)

T的值越大，也就意味着它完成剩余任务需要的时间越多，那么主控节点就应该给该节点分配更少的任务，也就是权值W应该越小，因此，对T取倒数，得到：

W = \frac{1}{T} - - - (3)

将(2)代入(3)中，得到：

W = \frac{n}{t * m} - - - (4)

其中，随着不断爬取，n值和t值都会不断变大，但当节点空闲时，值就会为零，因此为了让分母不为零，使用m+1替换m，这样代入到(4)中，得到：

W = \frac{n}{t * (m + 1)} - - - (5)

注意到，t值和n值一直记录着从第1个任务开始直至目前的情况，那么随着t值和n值的不断变大，

会趋向稳定。然而，这并不是我们所期望的，因为此时无论该节点的爬取过程中遇到任何问题，都无法从公式中体现出来，我们希望权值应该能够反映该节点的当前情况。因此，本***借鉴了滑动窗口的概念，对权值进行了修改。只考虑并计算最近的k个任务的完成情况，假设t_i为最近第i个任务完成的时间，那么权值W就应该为：

W = \frac{k}{\underset{i = 1}{k} t_{i} * (m + 1)} - - - (6)

其中，k值取多少合适，本发明在实现时根据爬取情况取为100，该值可以在实际使用过程中对不同的爬虫取合适的值。

本发明提出了一种基于加权轮叫算法的调度策略，选用加权轮叫算法作为调度策略的基础主要考虑一下方面：

(1)简单高效

除了每个爬虫节点对应一个权值外，算法只需储存两个简单变量（j和c），可以在O(x)时间内完成一次调度，这里的x指爬虫节点数。

(2)支持权值动态变化

所有算法中取的权值都可以从节点表中直接取得，这意味着每次取得的权值都是当前最新的值，因此无论反馈模块如何异步的改变节点表中爬虫节点的对应权值，算法都能按照***当前的节点状况完成调度工作。

(3)可以预估权值的变化趋势

算法中门槛权值的变化趋势与各爬虫节点对应的权值变化趋势相匹配。这意味着即使爬虫节点出现任何暂时性的问题没有及时反馈以更新权值，算法也能较准确的预测其权值的变化，合理的分配任务。

(4)低权值的爬虫节点不会饿死

算法中每一次门槛权值从当前所有节点最大权值减少到零（或小于零）的一轮分配过程中，不论权值高低，都会得到调度的机会，这使得在权值更新不及时时，低权值的爬虫节点也不会饿死。

假设节点表N={N₀,N₁,...,N_x1}，W(N_j)表示节点N_j的权值，变量j表示上一次被选中的节点，变量c表示当前调度的权值，max(N)表示N中所有节点中最大的权值，s表示每一次c减少的值，此值我们需要对原算法进行改动，以和本发明设计的权值所匹配，最终经过实验我们将s的值设为4。变量j和c的初值为0。基于加权轮叫算法的流程图如图2所示.

注意到，这里的W(N_j)是由公式(6)得来的，而它是一个在(0,1)区间的小数，还并不能适用于加权轮叫算法，因此必须将其改变。首先让它乘以一个系数a，接着对它进行取整操作，这样权值W就会在0到一个正整数的区间内进行变化。这样，权值W为：

W = [\frac{a * k}{\underset{i = 1}{k} t_{i} * (m + 1)}] - - - (7)

其中，根据爬虫的情况，可以将a设定为合适的值。这里我们将a设定为300,000，当m为零时，W在120左右浮动。

本发明的错误恢复机制可以分为两个部分，分别为针对节点的错误恢复机制和针对URL的错误恢复机制。

当一个节点突然宕机时，主控节点也应该能实时捕捉到这一情况，并对这个***出现的错误进行恢复。一般可以考虑的方案是心跳机制。不过我们在实现时采用了socket的方式，直接捕捉socket抛出的IO异常就能捕捉到节点断开连接的情况，接着我们查找出已分配的URL队列中所有分配给该爬虫节点的URL，并将它们重新进行分配。这样针对节点的错误恢复机制就完成了。

另外，我们监控已分配的URL队列，当一条URL长时间没有反馈的情况时，我们认为该URL出现了问题，比如在传输过程中被丢失了，应该对其重新分发。这就是针对URL的错误恢复机制。

本发明技术方案的创新点及其有益效果：

1、将爬虫按照规模进行了细化的分类，方便不同规模的爬虫选用不同的调度策略。

2、设计了基于各爬虫节点当前爬取效率的权值计算公式，能够较好的反映各爬虫节点的当前状况，使得基于本权值的调度策略能够负载均衡。

3、设计了基于加权轮叫算法的调度算法，主要是根据实验结果修改了步长，使得该调度算法配合本发明提出的各爬虫节点权值计算公式，能够让整个爬虫***实现很好的负载均衡。

4、错误恢复机制能够让爬虫***具有相当的容错性，使得整个***的稳定性良好。

Claims

1.一种基于加权轮叫算法的分布式爬虫任务调度方法，其特征在于，依次按照如下步骤实施：

1）根据规模不同，本发明将网络爬虫分为单机多线程、同构集中式、异构集中式、小型分布式和大型分布式五类爬虫，针对小型分布式的爬虫任务调度，小型分布式爬虫是指各个节点是分布式部署，部署在一个小的物理区域之中；

2）主从式架构部署，即一个主控节点和若干个分布式部署并且能和主控节点互通的爬虫节点，保证所有爬虫节点能够连至互联网；主控节点负责爬虫任务的调度工作，即一个待爬取的URL该分配给哪一个爬虫节点完成，以及去重工作，即将一个爬虫节点返回的一条URL得到的外链去重后当中新的待爬取的URL；爬虫节点则负责具体的爬虫工作，对每一条主控节点分配给它的URL去互联网上爬取它的整个HTML，并解析出这个页面中包含的外链，将这些信息返回给主控节点；

3）当爬虫节点第一次连接到主控节点时，主控节点给予它一个经验值作为初始权值；

4）主控节点根据基于加权轮叫的调度算法，不断选择出一个爬虫节点，将一个待爬取的URL任务分配给它；该调度算法，即设置一个当前调度权值，每当它减为非正数时重新初始化为当前所有节点权值的最大值，然后对每个节点依次询问，看其权值是否不小于当前调度权值，若是则得到调度，当所有节点询问完毕后，当前调度权值自减一个步长，再开始对每个节点依次询问，如此不断往复；而本发明提出的调度算法则根据本方法设定的权值计算方法和大量实验将其步长设定为4；

5）每当爬虫节点爬取完一个URL任务时，将结果返回给主控节点，主控节点根据本发明提出的根据最近任务完成时间和未完成的任务数的权值计算方法更新该爬虫节点的权值；

6）当一个爬虫节点的权值随着任务数的增加降为零时，主控节点将不再分配给其任务，直到它的权值重新恢复为正数时，才会重新得到分配；

7）这样主控节点不断将URL分配给爬虫节点，爬虫节点则不断将URL爬取得到其HTML和外链返回给主控节点，主控节点将外链去重后再重新分配出去；根据互联网的实际情况，这样整个***就会永无止境的运行下去，不断爬取得到新的网页，直至人工根据实际情况手动停止；