CN102609412A

CN102609412A - 基于rss的多线程图文信息同步爬取的控制方法及***

Info

Publication number: CN102609412A
Application number: CN2011100029932A
Authority: CN
Inventors: 吕钊; 李琴; 黄小霞; 俞云飞; 梁璐; 蔡颂梅; 陈鹏
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2011-01-07
Filing date: 2011-01-07
Publication date: 2012-07-25

Abstract

本发明提供一种基于RSS的多线程图文信息同步爬取控制方法，用于对网页中的图片、文字信息进行分类获取，其包括如下步骤：a.通过RSS文档分析程序分析待爬取的目标网页文件；b.获取所述目标网页的URL；c.对所述目标网页数据进行过滤分析，采用广度优先策略获取有用信息的URL；d.将所述有用信息的URL进行存储；e.下载所述步骤d中的每个所述有用信息的URL对应的网页内容；f.针对所述步骤e中的每个网页内容执行所述步骤a。本发明还提供一种基于RSS的多线程图文信息同步爬取控制***。本发明具有以下优点：（1）适宜的查全率，较高的查准率；（2）功能模块化，可移植性能高；（3）具有针对性；（4）具有实时性；（5）具有可维护性。

Description

基于RSS的多线程图文信息同步爬取的控制方法及***

技术领域

本发明涉及网页图文信息的实时抓取，主要为网络爬虫技术领域。具体地，本发明涉及基于RSS的多线程图文信息同步爬取控制***以及相应的控制方法。

背景技术

随着Internet的发展，信息充斥于整个网络环境中，为人们获取信息提供了便捷，但是，如何从浩如烟海的大量数据中获取需要的信息为我所用，是一个迫切需要解决的问题，网络爬虫技术即在此背景下应运而生。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足***的一定停止条件。

然而，传统爬虫在实际应用中具有一定的局限性，首先，对于不同领域、不同背景的用户往往需要不同的检索目的与需求，传统爬虫的返回结果具有普遍性而缺失针对性，包含大量用户不关心的网页；其次，随着万维网的发展，不同数据类型的信息大量涌现，如图片、数据库、音频、视频等，通过传统爬虫的固有方式无法完成此类信息含量密集且具有一定结构数据的抓取；最后，通过传统爬虫的简单抓取，缺乏一定的语义信息，难以支持语义信息的查询。

因此，本发明希望解决上述问题。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种的基于RSS的多线程图文信息同步爬取的控制方法以及相应的控制***。

根据本发明的一个方面，提供一种基于RSS的多线程图文信息同步爬取控制方法，其用于对网页中的图片、文字信息进行分类获取，其特征在于，包括如下步骤：

a. 通过RSS文档分析程序分析待爬取的目标网页文件；

b. 获取所述目标网页的URL；

c. 对所述目标网页数据进行过滤分析，采用广度优先策略获取有用信息的URL；

d. 将所述有用信息的URL进行存储；

e. 下载所述步骤d中的每个所述有用信息的URL对应的网页内容；

f. 针对所述步骤e中的每个网页内容执行所述步骤a。

根据本发明的另一个方面，还提供一种基于RSS的多线程图文信息同步爬取控制***，其用于对网页中的图片、文字信息进行分类获取，其特征在于，包括：

爬取子***，其用于基于RSS、以多线程方式对网页内图文信息进行同步爬取；

本地数据库，用于存储与爬取过程以及爬取结果有关的内容；

其特征还在于，所述爬取子***包括如下装置：

第一分析装置，其用于通过RSS文档分析程序分析待爬取的目标网页文件；

第一获取装置，其用于获取所述目标网页的URL；

第二分析装置，其用于对所述目标网页数据进行过滤分析，采用广度优先策略获取有用信息的URL；

第一存储装置，其用于将所述有用信息的URL进行存储；

下载装置，其用于下载所述步骤d中的每个所述有用信息的URL对应的网页内容；以及

第一控制装置，其用于控制所述第一分析装置针对所述下载装置所下载的每个网页内容进行分析。

根据本发明的又一个方面，上述基于RSS的多线程图文信息同步爬取控制方法还可以通过如下步骤实现：

第一步对抓取目标进行定义及描述

本发明基于抓取目标的数据模式进行描述，将网页信息抽象分类为文字格式、图片格式，分类进行抓取。文字信息主要描述为文字内容textContent、文字格式textFormat。图片信息主要描述为图片名picName、图片对象picObj、图片格式picFormat、图片大小picSize，对于不符合建立文件夹规则的图片进行图片名修改并存储对应信息。

第二步构建本地索引数据库IndexDB

在本地建立数据库IndexDB，用于存储搜索信息，避免信息的重复下载及提高索引速度。本步骤中定义数据格式、数据表，数据表包括下载URL表urlPage、文字信息索引表wordIndex、图片信息表picInfo、图片名修改存储表picSHA1。

第三步基于RSS特征对网页数据分析过滤

在抓取信息之前，通过RSS文档分析程序分析XML文件，通过分析<url>及</url>标签内部信息，获取下载网页的URL，针对相应的需求对网页数据进行过滤分析，采用广度优先策略，获取有用信息的URL，并存储于数据库表urlPage中，以便索引下载，提高搜索速度。

第四步利用超链接信息权重建立获取策略

将需要下载的网页分为已下载与待下载两部分，已下载的网页队列用CrawledPages存储，待下载的网页队列用WaitPages存储，定义从待下载网页队列至已下载网页队列的策略如下：给定一个网页Ｗ，定义指向该网页的链接数为Links(W)，实际实现中，Links（W）等于位于已下载网页队列CrawledPages中页面指向待下载网页队列WaitPages的网页信息的超链接数。对于位于WaitPages队列中的数据，比较Links(W)大小，优先选择Links(W)较大的网页添加至CrawledPages队列，以提高下载网页与主题的相关性，提高下载效率。

第五步多线程分类获取信息

采用多线程同步技术，首先启动主线程，用于获取URL信息，对分析获取到的URL信息加入数据库中，30秒后添加副线程从数据库中取出所需的URL，针对文字信息、图片信息的不同数据格式，将需要下载的URL进行分类，对于文字信息的URL，直接用于后期下载，转至第六步。对于图片信息的URL，有针对性地获取包含图片信息的内容，并将此内容抽取简化，将数据量控制在最小，并能够在小数据量中有效获取图片信息，提高存取效率，增强信息获取的有效性，转至第七步。

第六步文字信息URL解析获取

将一定时间段内需要解析的数据URL存于缓冲区Buffer中，以便提高存取速度。针对包含文字信息的URL，通过文字信息解析类TextCrawl进行解析，存储正在解析的URL，防止中途出现断点，以便及时恢复。解析信息获取后，将文字信息存储为对应的XML文件，并在数据库表wordIndex中记录信息。

第七步图片信息解析获取

对于包含图片信息的URL,通过PicCrawl解析类进行解析，抓取含有<class="image">、</class>的标签信息，解析获取图片实际地址，索引至实际地址抓取图片，并获取相应图片信息，包括图片名picName、图片对象picObj、图片格式picFormat、图片大小picSize，存储于图片信息表picInfo中。对应成功下载的图片，进行本地存储，建立对应的文件夹。若存在不符合命名规则的情况，则进入第八步，若不存在命名问题，则进入第九步。

第八步不规则命名SHA1处理

不符合建立文件规则的图片名称，将相应的名称经过SHA1处理。对于长度小于2^64位的消息，SHA1会产生一个160位的消息摘要，显示的是40位16进制编码。SHA1算法需要将输入的字符串的二进制码长度进行补充，直到长度满足对512取模后余数是448，之后添加表示长度的64位二进制码，总长度为512的倍数，然后把整个消息分成一个一个512位的数据块，分别处理每一个数据块，经过编码过程中的逻辑、算术运算从而得到消息摘要，输出40位16进制编码，从而解决本地文件无法建立的问题。对应的数据库picSHA1表中存储原始图片名与SHA1之后的图片名对应关系，从而保证命名对应。

第九步文字、图片信息整合统一

对于同一页面既有文字又有图片信息的情况，分别爬取相应的文字、图片信息后，将文字、图片信息进行实时整合统一，尤其针对图片名被SHA1修改的页面，通过解析网页源代码，修改对应<class="image">、</class>标签内的图片名信息为修改后的SHA1名，保证网页信息整合后不存在因信息修改而无法匹配的情况。

第十步一次循环下载已完毕，进入下一循环下载过程。

与背景技术相比，本发明至少具有以下优点：

（1）适宜的查全率，较高的查准率。

（2）功能模块化，可移植性能高，对于不同需求的用户可提供适宜信息的获取策略，最大程度的匹配用户需求。

（3）具有针对性，针对网络环境中存在的不同数据类型信息，包括文字信息与图片信息，进行分类下载，并在数据库中记录分类信息。

（4）具有实时性，对于网页信息更新，能够实时地获取所需内容，保证获取的信息为当前网络最新信息。

（5）具有可维护性，对相关信息进行数据库记录与检索，若遇断点则可随时停止并根据记录信息恢复***运行，重新开始获取，从而保证***的可维护性及数据的完整性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制方法的示意图；

图2示出根据本发明的第二实施例的，基于RSS的多线程图文信息同步爬取控制方法的示意图；

图3示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制***的结构示意图；

图4示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制方法的实现过程中，作为样例的“义勇军进行曲”在***RSS中的表现形式的示意图；

图5示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制方法的实现过程中解析网页源代码后所获得的网页正文的示意图；

图6示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制方法的实现过程中XML文件的示意图；以及

图7示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制方法的实现过程中网页源代码中图片信息的示意图。

具体实施方式

本发明的目的是：提出一种基于RSS技术的多线程网页信息同步抓取方法，构造聚焦爬虫，通过广度优先策略对网页中的图片、文字信息进行分类获取，以利用超链接信息权重贡献，改进网页爬行器的搜索策略，有效地过滤抽取，最大限度地提高匹配性及快捷性。尤其对于传统爬虫无法很好解决的图片信息数据，进行有针对性的分析处理，并且保证图文信息有效地同步实时获取，使信息抓取更为完善。

为实现上述目的，本发明采用的技术方案是：针对需要抓取的网络信息，分析文字、图片的不同特征，通过RSS文档分析程序对XML文件进行解析，获取所需信息所属的URL，定位于数据库中统一管理，通过广度优先策略，针对需要提取的URL，扩展抓取，利用超链接信息权重建立获取策略，并通过网页解析将图片文字信息分类下载，文字信息本地文件存储，图片信息加入数据库以备检索并在本地分类存储，对于在本地存储过程中遇到的文件名命名问题作出相应的可移植性处理，最后整合图文信息，做到图文同步实时。

具体地，图1示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制方法的示意图。具体地，首先执行步骤S101：通过RSS文档分析程序分析待爬取的目标网页文件。本领域技术人员理解，在确定一个目标网页文件后，可以通过多种方式分析该网页文件。具体地，在本实施例中通过RSS文档分析程序来实现分析待爬取的目标网页文件的过程。本领域技术人员可以参考RSS有关的文献实现这一过程，例如至少可以参考《RSS AND Atom IN ACTION（中文版）》（（美）约翰逊（Johnson,D）著，李秀忠译/2007年11月/电子工业出版社），在此不予赘述。

其次进入步骤S102：获取所述目标网页的URL。本领域技术人员理解，一个目标网页中通常包含了多个指向其他网页的URL（UniqueResourceLocation，统一资源定位符），通过这些URL可以进一步地访问与这些URL对应的网页。在分析所述目标网页之后，可以根据分析结果获取该目标网页内的URL。例如“http://www.***.com”或者“../ipserver/”，这些都是有效的URL，并将作为所述步骤S102的结果。

然后执行步骤S103：对所述目标网页数据进行过滤分析，采用广度优先策略获取有用信息的URL。在上述步骤S102的基础上，本步骤将有用的URL进一步分析。例如，上述步骤S102中所列举的“http://www.***.com”属于一个无用信息，其与目标网页的内容并无直接关联，而“../ipserver/”则属于有用信息。本领域技术人员理解，可以通过多种方式确定所述“有用信息”，例如将与目标网页的URL信息存在关联的URL作为有用信息的URL，例如同属于目标网页下属的网页可以作为有用信息的URL。进一步地，本领域技术人员理解，广度优先策略优选地对一个网页内的同属于一个层级的URL进行搜索，在搜索其中一个URL对应的网页时将获得在该网页内的更多URL（即子URL），而暂时不对这些子URL进行搜索，而是将这些子URL存储在一个队列中，并进一步地搜索上述同属于一个层级的下一个URL，并相应地对该下一个URL内所获得的子URL存储入队列。直到上述同属于一个层级的URL全部搜索完毕，则才从队列中对属于下一个层级的子URL进行搜索，并重复上述过程。这样的广度优先搜索策略与通常的深度优先搜索策略不同，本领域技术人员结合现有技术可以理解。在此不予赘述。

接下来进入步骤S104：将所述有用信息的URL进行存储。进一步地，在本步骤中，优选地，将上述步骤中搜索到的有用信息URL存储至数据库中，例如优选地存储至一个数据表中，例如我们将其命名为URLPage。优选地，本领域技术人员理解，所述用于存储该有用信息URL的数据表中可以存储多种信息，例如每个URL对应的内部序号、URL的优先级、URL地址、URL存储时间、URL搜索策略等等，从而根据这些信息可以确定针对一个有用信息URL的搜索策略等，在此不予赘述。

然后进入步骤S105：下载所述步骤S104中的每个所述有用信息的URL对应的网页内容。根据上述步骤S104确定了若干个有用信息的URL后，就可以使用根据下载该URL对应的网页内容，例如可以通过爬虫工具来下载该网页内容。本领域技术人员结合现有技术可以实现这样的过程，在此不予赘述。

最后执行步骤S106：针对所述步骤S105中的每个网页内容执行所述步骤S101。上述步骤S101~S105对一个目标网页的内容进行了分析处理，但该目标网页内的子URL对应的网页内容还没有进一步地处理。因此，优选地，在本实施例中，针对每个子URL对应的网页内容再次执行步骤S101~S105，直至所述流程被中止，或者所有网页内容都已经搜索完毕。

进一步地，本领域技术人员理解，在一个变化例中，所述步骤S105可以包括如下步骤：

e1. 从未下载集合中选择下载优先级最高的网页作为待下载网页，其中，所述未下载集合包括所述所有未下载的有用信息的URL对应的网页；

e2. 下载所述待下载网页；

e3. 将所述待下载网页排除于所述未下载集合之外，并针对所述未下载集合再次执行所述步骤e1，直至所述未下载集合为空集。

本领域技术人员理解，待下载网页可以被存储在一个队列中，根据本发明提供的控制方法，可以从该队列中不断地取出URL信息，并根据该信息下载该待下载网页。该队列可以采用先进先出的方式，也可以后进先出的方式，这并不影响本发明的实质内容，在此不予赘述。

进一步地，本领域技术人员理解，在一个变化例中，上述步骤e1包括步骤“比较所述未下载集合中所有网页的超链接指数，并将所述超链接指数最高的一个网页作为所述下载优先级最高的网页，其中，一个网页的所述超链接指数为已下载集合中的所有网页指向该网页的超链接数，其中，所述已下载集合包括所述有用信息的URL对应的网页中所有已下载的部分”。这样的过程确定了在一批待下载URL中，如何确定各URL的优先级。具体地，在本变化例中，根据超链接指数指标来确定下载优先级最高的网页，本领域技术人员结合现有技术可以理解本变化例，在此不予赘述。

而在另一个变化例中，所述步骤e1包括步骤“比较所述未下载集合中所有网页的超链接数量，并将所述超链接数量最大的一个网页作为所述下载优先级最高的网页，其中，所述超链接数量为一个网页中所包含的所有超链接的数量”。类似地，这样的变化例中仍然确定优先级最高的网页予以下载，相应地，采用超链接数量作为衡量优先级高低的指标，在此不予赘述。

进一步地，本领域技术人员理解，在一个变化例中，在上述步骤S105以及相应地变化例中，所述“下载网页内容”的步骤包括如下步骤：

i. 确定所述待下载网页的内容分类；ii. 若所述内容分类指示所述待下载网页为文字内容的网页，则直接下载所述待下载网页；若所述内容分类指示所述待下载网页为图片内容的网页，则有针对性地获取包含图片信息的内容，并将此内容抽取简化，将数据量控制在有效获取图片信息的最小范围。

在本变化例中，对所有待下载网页进行分类。由于包含文字内容的网页与包含图片内容的网页存在本质的不同，所以在上述步骤ii中对不同的网页采用不同的存储方式。具体地，针对文字内容的网页直接进行下载；而针对图片内容的网页，则需要相应地予以简化，具体如上述步骤ii所示，在此不予赘述。

更进一步地，本领域技术人员理解，优选地，所述步骤i、步骤ii通过一个副线程完成，所述步骤d通过一个主线程完成。而在另一个变化例中，所述步骤ii可以通过多个副线程完成，例如针对每个网页都采用一个副线程，从而可以有效地管理针对不同网页进行下载的过程。

进一步地，本领域技术人员理解，在一个变化例中，在图1所示步骤S106之后还包括如下步骤：g. 解析所述被下载的网页内容，将解析结果相适应地存储，其中，所述解析结果将作为搜索引擎的搜索依据。在此步骤中，对网页内容予以相应地存储，例如也存储在一个本领域技术人员结合现有技术以及上述实施例可以实现本变化例，在此不予赘述。

更进一步地，上述步骤g包括如下步骤：g1.确定所述网页内容的内容分类；g2. 若所述内容分类指示所述网页内容为文字内容的网页，则通过文字信息解析类TextCrawl进行解析，并将解析结果相适应地存储；若所述内容分类指示所述网页内容为图片内容的网页，则通过PicCrawl解析类进行解析，解析获取所述图片的实际地址，索引至所述实际地址抓取所述图片，并获取相应图片信息。本领域技术人员理解，针对文字内容的网页，通过文字信息解析类TextCrawl进行解析，并相应地将解析结果予以存储。而针对图片内容的网页，则通过PicCrawl解析类进行解析，获取该图片的实际地址后保存该图片。进一步地，本领域技术人员理解，所述解析类TextCrawl、PicCrawl可以借助现有技术予以实现，也可以由技术人员根据实施需求来具体实现，这并不影响本发明的实质内容，在此不予赘述。

再进一步地，本领域技术人员理解，在一个变化例中，所述步骤g2中针对所述内容分类指示所述网页内容为文字内容的网页的情况下还包括如下步骤：将所述网页内容中对应的文字信息存储为对应的XML文件。即上述变化例中，文字内容均被存储为XML文件，例如图6所示内容，在此不予赘述。

进一步地，本领域技术人员理解，在一个变化例中，所述步骤g2中针对所述内容分类指示所述网页内容为图片内容的网页的情况下还包括如下步骤：

- 判断所述图片是否被成功抓取；

- 若所述图片被成功抓取，则在本地建立文件夹，并相应地将所述图片存储于对应的文件夹内。

本领域技术人员理解，对于图片内容，相应地获取该图片对应的网络地址，进一步地下载该图片后将其存储在与该图片对应的文件夹内。本领域技术人员理解，在本变化例中，为了以后调取方便，将图片存储在一个与其文件名对应的文件夹内；而在另一个变化例中，也可以以其他方式进行存储，例如将所有图片均存储在一个统一的文件夹中，而通过对图片文件的具体命名来区分不同的图片。本领域技术人员结合现有技术可以实现所述变化例，在此不予赘述。

更进一步地，针对图片可能存在不规则命名的情况，还可以通过另一个变化例来实现对图片进行保存的过程，例如，上述抓取所述图片的步骤可以包括如下步骤：g21.判断所述图片的名称中是否不规则；g22. 若所述图片的名称中不规则，则将所述图片的名称更改为可以被所述操作***（例如基于Mediawiki的***）所认可的字符。更进一步地，所述步骤g22中的将所述图片的名称更改为可以被所述操作***所认可的字符的步骤包括如下步骤：将所述图片的名称以SHA1算法进行运算，并将运算后结果作为所述更改后的图片名称。具体地，本领域技术人员理解，如果图片名称不规则，无法直接进行保存的话，则可以通过一种特定的方式对图片名称进行整理、变形，从而使得变形后的名称可以作为规则名称予以保存。具体地，在本变化例中，对不规则图片名称依据SHA1算法进行处理，并将处理后的结果作为变形后的图片名称。具体地，本领域技术人员结合现有技术可以实现本变化例，例如至少可以参考关于SHA1的书籍实现，在此不予赘述。

进一步地，本领域技术人员理解，在一个变化例中，在所述抓取所述图片的步骤中，在所述步骤g22之前或所述步骤g22之后还包括如下步骤：g23. 将所述图片的原始图片名称与经SHA1运算之后的图片名称相适应地存储，以便可以获得两者唯一的对应关系。本领域技术人员理解，上述图片名称被变形后，则存在被存储在物理磁盘内的图片名称与引用该图片的网页内的信息不同，这可能会导致网页信息无法被正确地读取。所以，为了避免这样的错误，通过该步骤g23来处理图片名称被变形的问题。例如通过一个数据表来存储变形后的图片名称以及变形前的图片名称，从而可以实现上述目的。

进一步地，本领域技术人员理解，若一个网页内即存在文字内容，又存在图片内容，则其情况比较复杂。优选地，在一个变化例中，所述步骤g还包括如下步骤：g3. 若所述网页内容既包括文字内容也包括图片内容，则依据所述步骤g2分别爬取相应的文字、图片信息后，将所述文字、图片信息实时地进行合并存储。本领域技术人员可以参考上述实施例对此过程予以处理，例如优选地通过两个步骤分别处理文字内容以及图片内容，在此不予赘述。更进一步地，在本变化例中，所述将所述文字、图片信息实时地进行合并存储的步骤包括如下步骤：判断所述图片的名称是否被更改过；若所述图片的名称被更改过，则解析所述网页对应的源代码，修改所述源代码中与所述图片的原始图片名称为所述经修改后的图片名称。

参考上述各实施例以及变化例，本领域技术人员理解，上述图片信息包括如下信息中的任一种或任多种：图片名；图片对象；图片格式；以及图片大小。

参考上述各实施例以及变化例，本领域技术人员理解，上述文字信息包括如下信息中的任一种或任多种：文字内容；以及文字格式。

参考上述各实施例以及变化例，本领域技术人员理解，上述各种信息优选地被存储在本地数据库中，而该本地数据库包括多个数据表，例如优选地包括至少如下数据表中的任一个：下载URL表（URLPage）；文字信息索引表（wordIndex）；图片信息表（picInfo）；图片名称修改存储表（picSHA1）等，在此不予赘述。进一步地，本领域技术人员还理解，所述信息还可以被存储于文件中，例如可以参考各种算法来实现通过文本文件存储各种数据的过程，从而可以提高检索的效率，在此不予赘述。

图2示出根据本发明的第二实施例的，基于RSS的多线程图文信息同步爬取控制方法的示意图。具体地，在本实施例中，所述需要抓取的信息同时包含文字、图片信息，且图片文件名存在不规则现象。本领域技术人员理解，这是一个相对复杂的情况。针对需要抓取的网络信息，分析文字、图片的不同特征，通过RSS文档分析程序对XML文件进行解析，获取所需信息所属的URL，定位于数据库中统一管理，通过广度优先策略，针对需要提取的URL，扩展抓取，利用超链接信息权重建立获取策略，并通过网页解析将图片文字信息分类下载，文字信息本地文件存储，图片信息加入数据库以备检索并在本地分类存储，对于在本地存储过程中遇到的文件名命名问题作出相应的可移植性处理，最后整合图文信息，做到图文同步实时。

具体地，在本实施例中，通过下述过程实现本发明提供的抓取（爬取）过程：

第一步对抓取目标进行定义及描述

第二步构建本地索引数据库IndexDB

第三步基于RSS特征对网页数据分析过滤

第四步利用超链接信息权重建立获取策略

第五步多线程分类获取信息

采用多线程同步技术，首先启动主线程，用于获取URL信息，对分析获取到的URL信息加入数据库中，30秒后添加副线程从数据库中取出所需的URL，针对文字信息、图片信息的不同数据格式，将需要下载的URL进行分类，对于文字信息的URL，直接用于后期下载，转至第六步。

第六步文字信息URL解析获取

第七步图片信息解析获取

对于包含图片信息的URL,通过PicCrawl解析类进行解析，抓取含有<class="image">、</class>的标签信息，解析获取图片实际地址，索引至实际地址抓取图片，并获取相应图片信息，包括图片名picName、图片对象picObj、图片格式picFormat、图片大小picSize，存储于图片信息表picInfo中。测试实例存在不符合命名规则的情况，则进入第八步。

第八步不规则命名SHA1处理

第九步文字、图片信息整合统一

第十步一次循环下载已完毕。

进一步地，参考上述图2所示实施例，本领域技术人员理解，在一个变化例中，当需要抓取的信息仅包含文字信息，其抓取过程具体如下方式实现：

针对需要抓取的网络信息，分析文字、图片的不同特征，通过RSS文档分析程序对XML文件进行解析，获取所需信息所属的URL，定位于数据库中统一管理，通过广度优先策略，针对需要提取的URL，扩展抓取，利用超链接信息权重建立获取策略，并通过网页解析将图片文字信息分类下载，文字信息本地文件存储，图片信息加入数据库以备检索并在本地分类存储，对于在本地存储过程中遇到的文件名命名问题作出相应的可移植性处理，最后整合图文信息，做到图文同步实时。

所述的方法的实现过程如下：

第一步对抓取目标进行定义及描述

第二步构建本地索引数据库IndexDB

第三步基于RSS特征对网页数据分析过滤

第四步利用超链接信息权重建立获取策略

第五步多线程分类获取信息

第六步文字信息URL解析获取

第七步一次循环下载已完毕。

图3示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制***的结构示意图。具体地，本领域技术人员理解，在本实施例中，通过本发明提供的基于RSS的多线程图文信息同步爬取控制***来对网页中的图片、文字信息进行分类获取，该同步爬取控制***4包括：爬取子***41以及本地数据库42。具体地，所述爬取子***41用于基于RSS、以多线程方式对网页内图文信息进行同步爬取；所述本地数据库42用于存储与爬取过程以及爬取结果有关的内容。优选地，本领域技术人员理解，所述爬取子***41包括：第一分析装置411、第一获取装置412、第二分析装置413、第一存储装置414、下载装置415以及第一控制装置416。具体地，所述第一分析装置411用于通过RSS文档分析程序分析待爬取的目标网页文件；所述第一获取装置412用于获取所述目标网页的URL；所述第二分析装置413用于对所述目标网页数据进行过滤分析，采用广度优先策略获取有用信息的URL；所述第一存储装置414用于将所述有用信息的URL进行存储；所述下载装置415用于下载所述步骤d中的每个所述有用信息的URL对应的网页内容；所述第一控制装置416用于控制所述第一分析装置针对所述下载装置所下载的每个网页内容进行分析。具体地，所述控制***4可以通过互联网来获取存储于各服务器（例如服务器61~6N）内的目标网页，在此不予赘述。

进一步地，本领域技术人员理解，所述控制***4至少可以根据上述图1或图2所示实施例以及变化例所述的控制方法执行基于RSS的多线程的图文信息的同步爬取过程，在此不予赘述。

进一步地，结合上述实施例，图4~图7示出了基于RSS的多线程图文信息同步爬取控制方法的实现过程中，针对样例、***RSS中的“义勇军进行曲”进行爬取的过程的各示意图。其中，图4示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制方法的实现过程中，作为样例的“义勇军进行曲”在***RSS中的表现形式的示意图；图5示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制方法的实现过程中解析网页源代码后所获得的网页正文的示意图；图6示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制方法的实现过程中XML文件的示意图；图7示出根据本发明的第一实施例的，基于RSS的多线程图文信息同步爬取控制方法的实现过程中网页源代码中图片信息的示意图。

具体地，针对***中“义勇军进行曲”（http://zh.wikipedia.org/zh-cn/%E4%B9%89%E5%8B%87%E5%86%9B%E8%BF%9B%E8%A1%8C%E6%9B%B2）这个词条，来说明如何获得文字信息与图片信息。具体步骤简要阐述如下：

第一步基于RSS特征对网页数据分析过滤。在抓取信息之前，通过RSS文档分析程序分析XML文件，通过分析<url>及</url>标签内部信息，获取下载网页的URL，并把URL存储于数据库中。其中，“义勇军进行曲”在***RSS中的表现具体如图4所示，在此不予赘述。

第二步文字信息URL解析获取。获取URL后，通过URL解析网页源代码，获得网页正文文本内容。获得的文本信息，即“义勇军进行曲”的内容缩简为图5所示，在此不予赘述。

第三步文字信息存储。将文字信息存储为对应的XML文件。优选地，XML格式具体如图6所示，在此不予赘述。

第四步图片信息解析获取。对于包含图片信息的URL,分析网页源代码，抓取含有<class="image">、</class>的标签信息，解析获取图片实际地址（根据src），索引至实际地址抓取图片。具体地，网页源代码中图片信息的示意图如图7所示，在此不予赘述。

进一步地，抓取图片后以图片方式存储在计算机中。

第五步不规则命名SHA1处理。不符合建立文件规则的图片名称，将相应的名称经过SHA1处理。例如，优选地，如“Are_you_Alice？.png”，其经过SHA1处理后变化为：

ee55a8c6d3d133cf7c43b4a54575b239710e9eca.png。

进一步地，本领域技术人员理解，还可以通过其他处理方式处理不符合建立文件规则的图片名称，在此不予赘述。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1. 一种基于RSS的多线程图文信息同步爬取控制方法，其用于对网页中的图片、文字信息进行分类获取，其特征在于，包括如下步骤：

a. 通过RSS文档分析程序分析待爬取的目标网页文件；

b. 获取所述目标网页的URL；

d. 将所述有用信息的URL进行存储；

f. 针对所述步骤e中的每个网页内容执行所述步骤a。

2.根据权利要求1所述的控制方法，其特征在于，所述步骤e包括如下步骤：

e2. 下载所述待下载网页；

3.根据权利要求2所述的控制方法，其特征在于，所述步骤e1包括如下步骤中的任一个：

- 比较所述未下载集合中所有网页的超链接指数，并将所述超链接指数最高的一个网页作为所述下载优先级最高的网页，其中，一个网页的所述超链接指数为已下载集合中的所有网页指向该网页的超链接数，其中，所述已下载集合包括所述有用信息的URL对应的网页中所有已下载的部分；或者

- 比较所述未下载集合中所有网页的超链接数量，并将所述超链接数量最大的一个网页作为所述下载优先级最高的网页，其中，所述超链接数量为一个网页中所包含的所有超链接的数量。

4.根据权利要求1至3中任一项所述的控制方法，其特征在于，所述步骤e中下载网页内容的步骤包括如下步骤：

i. 确定所述待下载网页的内容分类；

ii. 若所述内容分类指示所述待下载网页为文字内容的网页，则直接下载所述待下载网页；若所述内容分类指示所述待下载网页为图片内容的网页，则有针对性地获取包含图片信息的内容，并将此内容抽取简化，将数据量控制在有效获取图片信息的最小范围。

5.根据权利要求4所述的控制方法，其特征在于，所述步骤i、步骤ii通过一个副线程完成，所述步骤d通过一个主线程完成。

6.根据权利要求1至5中任一项所述的控制方法，其特征在于，还包括如下步骤：

g. 解析所述被下载的网页内容，将解析结果相适应地存储，其中，所述解析结果将作为搜索引擎的搜索依据。

7.根据权利要求6所述的控制方法，其特征在于，所述步骤g包括如下步骤：

g1.确定所述网页内容的内容分类；

g2. 若所述内容分类指示所述网页内容为文字内容的网页，则通过文字信息解析类TextCrawl进行解析，并将解析结果相适应地存储；若所述内容分类指示所述网页内容为图片内容的网页，则通过PicCrawl解析类进行解析，解析获取所述图片的实际地址，索引至所述实际地址抓取所述图片，并获取相应图片信息。

8.根据权利要求7所述的控制方法，其特征在于，所述步骤g2中针对所述内容分类指示所述网页内容为文字内容的网页的情况下还包括如下步骤：

- 将所述网页内容中对应的文字信息存储为对应的XML文件。

9.根据权利要求７所述的控制方法，其中，所述步骤g2中针对所述内容分类指示所述网页内容为图片内容的网页的情况下还包括如下步骤：

- 判断所述图片是否被成功抓取；

10.根据权利要求７至９中任一项所述的控制方法，其特征在于，所述抓取所述图片的步骤包括如下步骤：

g21.判断所述图片的名称中是否不规则；

g22. 若所述图片的名称中不规则，则将所述图片的名称更改为可以被所述操作***所认可的字符。

11.根据权利要求10所述的控制方法，其特征在于，所述步骤g22中的将所述图片的名称更改为可以被所述操作***所认可的字符的步骤包括如下步骤：

- 将所述图片的名称以SHA1算法进行运算，并将运算后结果作为所述更改后的图片名称。

12.根据权利要求10或11所述的控制方法，其特征在于，所述抓取所述图片的步骤中，在所述步骤g22之前或所述步骤g22之后还包括如下步骤：

g23. 将所述图片的原始图片名称与经SHA1运算之后的图片名称相适应地存储，以便可以获得两者唯一的对应关系。

13.根据权利要求７至12中任一项所述的控制方法，其特征在于，所述步骤g还包括如下步骤：

g3. 若所述网页内容既包括文字内容也包括图片内容，则依据所述步骤g2分别爬取相应的文字、图片信息后，将所述文字、图片信息实时地进行合并存储。

14.根据权利要求13所述的控制方法，其特征在于，所述将所述文字、图片信息实时地进行合并存储的步骤包括如下步骤：

- 判断所述图片的名称是否被更改过；

- 若所述图片的名称被更改过，则解析所述网页对应的源代码，修改所述源代码中与所述图片的原始图片名称为所述经修改后的图片名称。

15.根据权利要求７至14中任一项所述的控制方法，其特征在于，所述图片信息包括如下信息中的任一种或任多种：

- 图片名；

- 图片对象；

- 图片格式；以及

- 图片大小。

16.根据权利要求７至15中任一项所述的控制方法，其特征在于，所述文字信息包括如下信息中的任一种或任多种：

- 文字内容；以及

- 文字格式。

17.根据权利要求1至16中任一项所述的控制方法，其特征在于，在所述步骤d中所述有用信息的URL被存储至一本地数据库中，其特征还在于，所述本地数据库包括至少如下数据表中的任一个：

- 下载URL表；

- 文字信息索引表；

- 图片信息表；

- 图片名称修改存储表。

18.一种基于RSS的多线程图文信息同步爬取控制***，其用于对网页中的图片、文字信息进行分类获取，其特征在于，包括：

其特征还在于，所述爬取子***包括如下装置：

第一获取装置，其用于获取所述目标网页的URL；

第一存储装置，其用于将所述有用信息的URL进行存储；

19.根据权利要求18所述的控制***，其特征在于，所述控制***根据权利要求1至17中任一项所述的控制方法执行基于RSS的多线程的图文信息的同步爬取过程。