CN101441629A

CN101441629A - 一种非结构化网页信息的自动采集方法

Info

Publication number: CN101441629A
Application number: CNA2007101706017A
Authority: CN
Inventors: 金骏; 戴斌华
Original assignee: XINNA ADVERTISEMENT MEDIA CO Ltd SHANGHAI
Current assignee: XINNA ADVERTISEMENT MEDIA CO Ltd SHANGHAI
Priority date: 2007-11-19
Filing date: 2007-11-19
Publication date: 2009-05-27

Abstract

本发明涉及一种非结构化网页信息的自动采集方法，包括以下步骤：1)蜘蛛采集计算机***从数据存储装置中读取网址链接表；2)检测网址链接表中是否有待采集的网址，若否，则采集结束；3)若步骤2的检测结果为是，则选择对应于待采集的网址的分解规则；4)创建至少一个线程，该至少一个线程通过所选的分解规则分解当前网址的页面；5)分解完成后，将需保存的网页信息及采集状态信息保存到数据存储装置，并返回步骤2。与现有技术相比，本发明将非结构化的信息从各种网站来源页面中抽取出来保存到结构化的数据库中的***，通过本发明的方法，可以在信息收集整合方面节约大量的人力与资金。

Description

一种非结构化网页信息的自动采集方法

技术领域

本发明涉及计算机网络技术领域，特别涉及一种非结构化网页信息的自动采集方法。

背景技术

在现在的生活中，采集***广泛应用于行业门户网站，竞争情报***，知识管理***，网站内容***，科研等领域。所谓采集***，就是将非结构化的信息从各种网站来源页面中抽取出来保存到结构化的数据库中的***。

发明内容

本发明所要解决的技术问题就是为了克服上述现有技术存在的缺陷而提供一种非结构化网页信息的自动采集方法。

本发明的目的可以通过以下技术方案来实现：一种非结构化网页信息的自动采集方法，其特征在于，包括以下步骤：

1)蜘蛛采集计算机***从数据存储装置中读取网址链接表；

2)检测网址链接表中是否有待采集的网址，若否，则采集结束；

3)若步骤2)的检测结果为是，则选择对应于待采集的网址的分解规则；

4)创建至少一个线程，该至少一个线程通过所选的分解规则分解当前网址的页面；

5)分解完成后，将需保存的网页信息及采集状态信息保存到数据存储装置，并返回步骤2)。

所述的非结构化网页信息包括名称、描述、图片。

所述的分解规则采用正则表达式。

所述的蜘蛛采集计算机***与待采集的网站***之间通过基于Http协议的全球资源***(Url)方式相互通讯。

与现有技术相比，本发明将非结构化的信息从各种网站来源页面中抽取出来保存到结构化的数据库中的***，通过本发明的方法，可以在信息收集整合方面节约大量的人力与资金。

附图说明

图1为本发明的流程图；

图2为本发明的原理图。

具体实施方式

下面结合附图对本实用新型作进一步说明。

如图1、2所示，一种非结构化网页信息的自动采集方法，包括以下步骤：

1)蜘蛛采集计算机***从数据存储装置中读取网址链接表；

所述的非结构化网页信息包括名称、描述、图片；所述的分解规则采用正则表达式；所述的蜘蛛采集计算机***与待采集的网站***之间通过基于Http协议的全球资源***(Url)方式相互通讯。

在网络服务器端建立一套蜘蛛采集计算机***，建立一套保存采集到的数据存储装置；通过网络针对各个网站采集数据，蜘蛛采集计算机***与需要采集的网站***之间通过基于超文本传输协议(HTTP)的全球资源***(URL)方式实现相互之间的通讯。

其中：

数据存储装置，用于存储数据，蜘蛛前台采集程序从这里获取即将采集的链接列表，并且相应的采集状态也会在更新在这里。

蜘蛛采集计算机***，用于处理各个链接，下载连接具体页面，判断采用哪组分解规则，并且真正分解。

本实施例中，蜘蛛采集***首先会读入事先保存在存储***中的采集链接列表(源列表)，列表中的信息为具体需要采集的链接以及当前状态，采集开始后，首先会根据设定的线程数量以及设定的最多保存图片数量来启动线程，接着具体线程就会根据当前采集的链接地址判断应该应用哪组分解规则。接着，蜘蛛采集***会根据所使用的分解规则下载并分解对应的页面源代码，本实施例使用正则表达式来分解各种有必要保存的属性，比如：名称、描述、图片列表等等。如此循环直到最后分解完所有链接。以上分解过程中，如果有图则保存这些图到相应的目录中(在蜘蛛采集***所在目录中)，并且采集下来的数据会保存到存储***中。

在上述方法中，运用到了多线程执行。这是因为考虑到采集的数据量多，占用时间长。各个线程通过委托来发出各个信号，表达更新，然后主界面根据参数更新界面中的各个元素值和统计信息。当一个线程分解完一个链接后，会调用主程序中的函数来获得下一个链接地址，有则分解，无则停止当前线程。以此一直到最后。

在上述方法中，运用了正则表达式来分解属性。这是因为运用正则表达式可以简化许多字符串问题。

存储装置中需要存储的需要采集的网址链接，这个可以是通过其他录入程序来进行，也可以是其他导入程序导入的。

本实施例可以启动相应的线程来同时处理这些链接，每个线程也会根据自身完成分解情况，继续处理后续链接，直到无后续链接为止。

Claims

1.一种非结构化网页信息的自动采集方法，其特征在于，包括以下步骤：

1)蜘蛛采集计算机***从数据存储装置中读取网址链接表；

2.根据权利要求1所述的一种非结构化网页信息的自动采集方法，其特征在于，所述的非结构化网页信息包括名称、描述、图片。

3.根据权利要求1所述的一种非结构化网页信息的自动采集方法，其特征在于，所述的分解规则采用正则表达式。

4.根据权利要求1所述的一种非结构化网页信息的自动采集方法，其特征在于，所述的蜘蛛采集计算机***与待采集的网站***之间通过基于Http协议的全球资源***(Url)方式相互通讯。