CN101441629A - 一种非结构化网页信息的自动采集方法 - Google Patents

一种非结构化网页信息的自动采集方法 Download PDF

Info

Publication number
CN101441629A
CN101441629A CNA2007101706017A CN200710170601A CN101441629A CN 101441629 A CN101441629 A CN 101441629A CN A2007101706017 A CNA2007101706017 A CN A2007101706017A CN 200710170601 A CN200710170601 A CN 200710170601A CN 101441629 A CN101441629 A CN 101441629A
Authority
CN
China
Prior art keywords
web page
page information
information
acquiring method
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101706017A
Other languages
English (en)
Inventor
金骏
戴斌华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XINNA ADVERTISEMENT MEDIA CO Ltd SHANGHAI
Original Assignee
XINNA ADVERTISEMENT MEDIA CO Ltd SHANGHAI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XINNA ADVERTISEMENT MEDIA CO Ltd SHANGHAI filed Critical XINNA ADVERTISEMENT MEDIA CO Ltd SHANGHAI
Priority to CNA2007101706017A priority Critical patent/CN101441629A/zh
Publication of CN101441629A publication Critical patent/CN101441629A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种非结构化网页信息的自动采集方法,包括以下步骤:1)蜘蛛采集计算机***从数据存储装置中读取网址链接表;2)检测网址链接表中是否有待采集的网址,若否,则采集结束;3)若步骤2的检测结果为是,则选择对应于待采集的网址的分解规则;4)创建至少一个线程,该至少一个线程通过所选的分解规则分解当前网址的页面;5)分解完成后,将需保存的网页信息及采集状态信息保存到数据存储装置,并返回步骤2。与现有技术相比,本发明将非结构化的信息从各种网站来源页面中抽取出来保存到结构化的数据库中的***,通过本发明的方法,可以在信息收集整合方面节约大量的人力与资金。

Description

一种非结构化网页信息的自动采集方法
技术领域
本发明涉及计算机网络技术领域,特别涉及一种非结构化网页信息的自动采集方法。
背景技术
在现在的生活中,采集***广泛应用于行业门户网站,竞争情报***,知识管理***,网站内容***,科研等领域。所谓采集***,就是将非结构化的信息从各种网站来源页面中抽取出来保存到结构化的数据库中的***。
发明内容
本发明所要解决的技术问题就是为了克服上述现有技术存在的缺陷而提供一种非结构化网页信息的自动采集方法。
本发明的目的可以通过以下技术方案来实现:一种非结构化网页信息的自动采集方法,其特征在于,包括以下步骤:
1)蜘蛛采集计算机***从数据存储装置中读取网址链接表;
2)检测网址链接表中是否有待采集的网址,若否,则采集结束;
3)若步骤2)的检测结果为是,则选择对应于待采集的网址的分解规则;
4)创建至少一个线程,该至少一个线程通过所选的分解规则分解当前网址的页面;
5)分解完成后,将需保存的网页信息及采集状态信息保存到数据存储装置,并返回步骤2)。
所述的非结构化网页信息包括名称、描述、图片。
所述的分解规则采用正则表达式。
所述的蜘蛛采集计算机***与待采集的网站***之间通过基于Http协议的全球资源***(Url)方式相互通讯。
与现有技术相比,本发明将非结构化的信息从各种网站来源页面中抽取出来保存到结构化的数据库中的***,通过本发明的方法,可以在信息收集整合方面节约大量的人力与资金。
附图说明
图1为本发明的流程图;
图2为本发明的原理图。
具体实施方式
下面结合附图对本实用新型作进一步说明。
如图1、2所示,一种非结构化网页信息的自动采集方法,包括以下步骤:
1)蜘蛛采集计算机***从数据存储装置中读取网址链接表;
2)检测网址链接表中是否有待采集的网址,若否,则采集结束;
3)若步骤2)的检测结果为是,则选择对应于待采集的网址的分解规则;
4)创建至少一个线程,该至少一个线程通过所选的分解规则分解当前网址的页面;
5)分解完成后,将需保存的网页信息及采集状态信息保存到数据存储装置,并返回步骤2)。
所述的非结构化网页信息包括名称、描述、图片;所述的分解规则采用正则表达式;所述的蜘蛛采集计算机***与待采集的网站***之间通过基于Http协议的全球资源***(Url)方式相互通讯。
在网络服务器端建立一套蜘蛛采集计算机***,建立一套保存采集到的数据存储装置;通过网络针对各个网站采集数据,蜘蛛采集计算机***与需要采集的网站***之间通过基于超文本传输协议(HTTP)的全球资源***(URL)方式实现相互之间的通讯。
其中:
数据存储装置,用于存储数据,蜘蛛前台采集程序从这里获取即将采集的链接列表,并且相应的采集状态也会在更新在这里。
蜘蛛采集计算机***,用于处理各个链接,下载连接具体页面,判断采用哪组分解规则,并且真正分解。
本实施例中,蜘蛛采集***首先会读入事先保存在存储***中的采集链接列表(源列表),列表中的信息为具体需要采集的链接以及当前状态,采集开始后,首先会根据设定的线程数量以及设定的最多保存图片数量来启动线程,接着具体线程就会根据当前采集的链接地址判断应该应用哪组分解规则。接着,蜘蛛采集***会根据所使用的分解规则下载并分解对应的页面源代码,本实施例使用正则表达式来分解各种有必要保存的属性,比如:名称、描述、图片列表等等。如此循环直到最后分解完所有链接。以上分解过程中,如果有图则保存这些图到相应的目录中(在蜘蛛采集***所在目录中),并且采集下来的数据会保存到存储***中。
在上述方法中,运用到了多线程执行。这是因为考虑到采集的数据量多,占用时间长。各个线程通过委托来发出各个信号,表达更新,然后主界面根据参数更新界面中的各个元素值和统计信息。当一个线程分解完一个链接后,会调用主程序中的函数来获得下一个链接地址,有则分解,无则停止当前线程。以此一直到最后。
在上述方法中,运用了正则表达式来分解属性。这是因为运用正则表达式可以简化许多字符串问题。
存储装置中需要存储的需要采集的网址链接,这个可以是通过其他录入程序来进行,也可以是其他导入程序导入的。
本实施例可以启动相应的线程来同时处理这些链接,每个线程也会根据自身完成分解情况,继续处理后续链接,直到无后续链接为止。

Claims (4)

1.一种非结构化网页信息的自动采集方法,其特征在于,包括以下步骤:
1)蜘蛛采集计算机***从数据存储装置中读取网址链接表;
2)检测网址链接表中是否有待采集的网址,若否,则采集结束;
3)若步骤2)的检测结果为是,则选择对应于待采集的网址的分解规则;
4)创建至少一个线程,该至少一个线程通过所选的分解规则分解当前网址的页面;
5)分解完成后,将需保存的网页信息及采集状态信息保存到数据存储装置,并返回步骤2)。
2.根据权利要求1所述的一种非结构化网页信息的自动采集方法,其特征在于,所述的非结构化网页信息包括名称、描述、图片。
3.根据权利要求1所述的一种非结构化网页信息的自动采集方法,其特征在于,所述的分解规则采用正则表达式。
4.根据权利要求1所述的一种非结构化网页信息的自动采集方法,其特征在于,所述的蜘蛛采集计算机***与待采集的网站***之间通过基于Http协议的全球资源***(Url)方式相互通讯。
CNA2007101706017A 2007-11-19 2007-11-19 一种非结构化网页信息的自动采集方法 Pending CN101441629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101706017A CN101441629A (zh) 2007-11-19 2007-11-19 一种非结构化网页信息的自动采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101706017A CN101441629A (zh) 2007-11-19 2007-11-19 一种非结构化网页信息的自动采集方法

Publications (1)

Publication Number Publication Date
CN101441629A true CN101441629A (zh) 2009-05-27

Family

ID=40726067

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101706017A Pending CN101441629A (zh) 2007-11-19 2007-11-19 一种非结构化网页信息的自动采集方法

Country Status (1)

Country Link
CN (1) CN101441629A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096705A (zh) * 2010-12-31 2011-06-15 南威软件股份有限公司 一种文章采集的方法
CN102118400A (zh) * 2009-12-31 2011-07-06 北京四维图新科技股份有限公司 数据采集方法和数据采集***
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102915373A (zh) * 2012-11-06 2013-02-06 无锡江南计算技术研究所 一种数据存储方法和装置
CN102955795A (zh) * 2011-08-24 2013-03-06 句容今太科技园有限公司 Web信息采集***
CN104462566A (zh) * 2014-12-26 2015-03-25 中科宇图天下科技有限公司 一种环保信息网格抓取方法
CN104462140A (zh) * 2013-09-24 2015-03-25 北大方正集团有限公司 网页数据采集方法及装置
CN104484485A (zh) * 2015-01-09 2015-04-01 携程计算机技术(上海)有限公司 票号信息提取导出方法、***以及出票***
CN104965904A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种多平台数据的抓取方法和装置
CN105468664A (zh) * 2015-05-12 2016-04-06 北京众标网络科技有限公司 一种信息采集方法及装置
CN105825399A (zh) * 2016-03-15 2016-08-03 焦点科技股份有限公司 一种互联网采集b2b电商信息方法
CN107918674A (zh) * 2017-12-12 2018-04-17 携程旅游网络技术(上海)有限公司 网页数据的采集方法及其***、存储介质、电子设备

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102118400A (zh) * 2009-12-31 2011-07-06 北京四维图新科技股份有限公司 数据采集方法和数据采集***
CN102118400B (zh) * 2009-12-31 2013-07-17 北京四维图新科技股份有限公司 数据采集方法和数据采集***
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102298588B (zh) * 2010-06-25 2014-04-30 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102096705A (zh) * 2010-12-31 2011-06-15 南威软件股份有限公司 一种文章采集的方法
CN102955795A (zh) * 2011-08-24 2013-03-06 句容今太科技园有限公司 Web信息采集***
CN102915373A (zh) * 2012-11-06 2013-02-06 无锡江南计算技术研究所 一种数据存储方法和装置
CN102915373B (zh) * 2012-11-06 2016-08-10 无锡江南计算技术研究所 一种数据存储方法和装置
CN104462140A (zh) * 2013-09-24 2015-03-25 北大方正集团有限公司 网页数据采集方法及装置
CN104462566A (zh) * 2014-12-26 2015-03-25 中科宇图天下科技有限公司 一种环保信息网格抓取方法
CN104462566B (zh) * 2014-12-26 2017-11-21 中科宇图天下科技有限公司 一种环保信息网格抓取方法
CN104484485A (zh) * 2015-01-09 2015-04-01 携程计算机技术(上海)有限公司 票号信息提取导出方法、***以及出票***
CN104484485B (zh) * 2015-01-09 2019-03-12 上海携程商务有限公司 票号信息提取导出方法、***以及出票***
CN105468664A (zh) * 2015-05-12 2016-04-06 北京众标网络科技有限公司 一种信息采集方法及装置
CN104965904A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种多平台数据的抓取方法和装置
CN104965904B (zh) * 2015-06-30 2019-06-04 北京奇虎科技有限公司 一种多平台数据的抓取方法和装置
CN105825399A (zh) * 2016-03-15 2016-08-03 焦点科技股份有限公司 一种互联网采集b2b电商信息方法
CN107918674A (zh) * 2017-12-12 2018-04-17 携程旅游网络技术(上海)有限公司 网页数据的采集方法及其***、存储介质、电子设备

Similar Documents

Publication Publication Date Title
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN107895009B (zh) 一种基于分布式的互联网数据采集方法及***
CN101651707B (zh) 一种网络用户行为日志自动获取方法
CN101370024B (zh) 信息的分布式采集方法及***
CN108875091B (zh) 一种统一管理的分布式网络爬虫***
CN102662966B (zh) 一种面向主题的获取动态页面内容的方法及***
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫***
CN104050281A (zh) 一种基于http协议的网页信息提取方法及装置
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
US8972374B2 (en) Content acquisition system and method of implementation
CN102760151B (zh) 开源软件获取与搜索***的实现方法
CN102521232B (zh) 一种互联网元数据的分布式采集处理***及方法
CN107957940B (zh) 一种测试日志处理方法、***及终端
CN103942210A (zh) 海量日志信息的处理方法、装置与***
CN104317948A (zh) 页面数据抓取方法和***
CN104572934B (zh) 一种基于dom的网页关键内容抽取方法
CN111859076B (zh) 数据爬取方法、装置、计算机设备及计算机可读存储介质
KR102024998B1 (ko) 유사 그룹 요소 추출
CN104038821A (zh) 统一收集Android电视各功能模块故障信息的方法
CN105335516A (zh) 一种通用采集***的构建方法
CN105808417A (zh) 自动化测试方法及代理服务器
CN103823907A (zh) 一种整合在线视频资源地址的方法、装置及引擎
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN104182548A (zh) 网页更新处理方法及装置
CN101763432A (zh) 一种轻量级网页动态视图快速构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090527