CN103838786A - 一种Web数据自动采集的方法 - Google Patents

一种Web数据自动采集的方法 Download PDF

Info

Publication number
CN103838786A
CN103838786A CN201210490953.1A CN201210490953A CN103838786A CN 103838786 A CN103838786 A CN 103838786A CN 201210490953 A CN201210490953 A CN 201210490953A CN 103838786 A CN103838786 A CN 103838786A
Authority
CN
China
Prior art keywords
web
robot
document
search
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210490953.1A
Other languages
English (en)
Inventor
苏晓华
李勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd filed Critical DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201210490953.1A priority Critical patent/CN103838786A/zh
Publication of CN103838786A publication Critical patent/CN103838786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种Web数据自动采集的方法,包括以下步骤:网络机器人技术和网页数据提取技术;所述网络机器人技术包括设计网络机器人工作流程、制定网络机器人设计原则、深度优先搜索策略和广度优先搜索策略、网络陷阱、均衡访问和超链接提取;所述网页数据提取技术包括网页纯文本的提取和对文本中的特殊字符进行分析并处理;本发明提供的一种Web数据自动采集方法,充分利用网络机器人技术和网页数据提取技术,形成Web自动采集方法,从海量信息中收集有价值的数据并进行分析研究,形成企业各种决策的依据,解决了数据采集人员及市场研究人员所面临的一个问题,同时扩展了Web的可用性,对数据采集,尤其是自动数据采集的发展做出了一定贡献。

Description

一种Web数据自动采集的方法
技术领域
本发明涉及一种数据采集技术,特别是一种Web数据自动采集的方法。
背景技术
随着网络资源的不断丰富和网络信息量的不断膨胀,人们对网络的依赖性越来越强,却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便;信息自古就有无限的价值,随着时代的不断发展,人类不知不觉已经来到了信息时代,各行各业都充斥了无数的信息,而信息的价值就在于数据的流通,如果数据能够及时的流通和传递起来,才能发挥信息真正的不可比拟的价值;在市场经济条件下,采集数据已经成为重要的工具和手段。
如何从海量信息中收集有价值的数据并进行分析研究,形成企业各种决策的依据,是数据采集人员及市场研究人员所面临的一个问题;要从大量的数据中迅速的找到并获得自己所需要的信息和服务,变得越来越困难,服务对象在查询信息时往往会迷失他们的目标或者是得到一些比较偏颇的结果;数据必须经过汇总、整合、分析才能产生价值,零散的信息只能是新闻性的,无法体现真正的商业价值;对于企业以及信息分析人员来说,一方面要在大量的信息中过滤出有效的价值点,同时又要降低获取相应信息的成本,使信息的实际使用价值大于收集、分析信息等过程所产生的成本,使信息为企业的决策带来增值价值。
互联网的普及,信息技术的发展,形成了大量的信息资源;从海量的信息中抽取出有用的资源,是当前迫切需要解决的问题,而Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性,Web自动采集有助于解决这一问题,自动采集省时省力,信息覆盖面广,但信息提取质量不高,从而将影响查准率;所以大多数的数据采集工作现在都采用自动采集方式;自动采集技术就是在这种背景下产生的。
发明内容
本发明针对以上问题的提出,而研制一种通过网络机器人技术和应用网页数据提取技术的Web数据自动采集的方法。
本发明的技术手段如下:
一种Web数据自动采集的方法,其特征在于包括以下步骤:
A、网络机器人技术:
A1、设计网络机器人工作流程:将机器人以一个或一组URL为浏览起点对相应的WWW文档进行访问,所述WWW文档为HTML文档;
A2、制定网络机器人设计原则;
A21、制定机器人不包括的项目标准:在服务器上创建一个机器人文本文件,该文本文件中说明网站不能访问的链接和网站拒绝访问的机器人;
A22、制定机器人META标签:即用户在页面中加入一个META标签,该META标签允许一个页面的所有者指定是否允许机器人程序来索引页面或者从页面中提取链接;
A3、深度优先搜索策略和广度优先搜索策略;
A31、深度优先搜索策略是从起始结点出发,对第一个文档进行分析后取回第一个链接所指向的页面,对该页面进行分析后再取回其第一个链接所指向的文档,反复执行直至搜索到不包含任何超级链接的文档为止,将其定义为一个完整的链,然后返回某一文档,继续选择该文档中的其余超级链接,搜索结束的标志是全部超级链接已搜索完毕;
A32、广度优先搜索策略是对第一个文档进行分析后,将该Web页面中所有超级链接搜索完毕,再继续下一层的搜索,直到最底层的搜索完成为止;
A4、网络陷阱;
A41、在访问新URL前与待搜索和已搜索URL对列列表中的URL进行比较,该比较为URL对象间的比较,将URL对列列表中不包含的URL添加到待搜索的URL列表,以避免掉进网络陷阱;
A42、提取Web文档的超链接时忽略所有设有参数的URL;
A43、限制机器人搜索深度;当到达阈值搜索深度后停止向下搜索,其中每进入到下一级子链接则表明到达了一个新的搜索深度;或者设定访问Web服务器的最大时间长度,当机器人访问该Web服务器的第一个网页时开始计时,经过最大时间长度后,在服务器上爬行的机器人程序即刻断开与该服务器的所有链接;
A5、均衡访问;设定访问一个Web服务器的线程最大数并采用等待方式限制机器人程序或进程对特定服务器和网段的访问频率;每当机器人程序或进程从一个Web站点取得一个文档后,该机器人程序或进程将等待一定的间隔再对该Web站点进行新的访问,根据站点处理能力和网络通讯能力确定等待时间的长短,下一次访问该Web站点的时间T1为当前时间T2加上访问该Web站点所需的时间,访问该Web站点所需的时间取值为网络传输时间T3乘以已设定系数;
A6、超链接提取;机器人程序在获取URL链接的同时持续对得到的链接所对应的Web源文档进行数据采集,并将Web源文档转换为字符流的形式;
B、网页数据提取技术;
B1、网页纯文本的提取;对获取的HTML源文件进行过滤处理并删掉其中的标签控制符提取文本信息,过滤网页数据后统一网页数据字符格式;
B2、对文本中的特殊字符进行分析并处理。
由于采用了上述技术方案,本发明提供的一种Web数据自动采集的方法,充分利用网络机器人技术和网页数据提取技术,形成Web自动采集方法,从海量信息中收集有价值的数据并进行分析研究,形成企业各种决策的依据,解决了数据采集人员及市场研究人员所面临的一个问题,同时扩展了Web的可用性,对数据采集,尤其是自动数据采集的发展做出了一定贡献。
附图说明
图1是本发明所述的网络机器人工作流程图;
图2是本发明所述的HTML网页纯文本提取的工作流程图。
具体实施方式
网络机器人是一种能够利用Web文档内的超链接递归地访问新文档的软件程序;自动采集机制是利用一个叫网络机器人即Robot的搜索的软件按照一定规则对网站和网页进行自动采集并加入到索引库中;
如图1、图2所示的一种Web数据自动采集的方法,包括以下步骤:
A、网络机器人技术:
A1、首先设计网络机器人基本工作流程,具体描述为Robot以一个或一组URL为浏览起点,对相应的WWW文档进行访问其基本工作流程,所述WWW文档通常为HTML文档;
A2、制定设计原则;
A21、Robots Exclusion标准,是在服务器上创建一个Robots.txt文件,说明本站哪些链接不可访问以及本站拒绝哪些Robot访问;
A22、Robots META标记,是用户可以在自己的页面中加入一个META标记;Robot META标记允许一个页面的所有者指定是否允许Robot程序来索引自己的页面或者从本页面中提取链接;
A3、深度优先搜索策略和广度优先搜索策略;
A31、深度优先搜索策略是从起始结点出发,对第一个文档进行分析后,取回第一个链接所指向的页面,然后分析此页面,再取回其第一个链接所指向的文档,反复执行下去,一直搜索到那些不包含任何超级链接的文档为止,这算一个完整的链,然后再返回某一文档,再继续选择该文档中的其它超级链接,它结束的标志是不再有其它超级链接可以搜索;
A32、广度优先搜索策略是对第一个文档进行分析后,先搜索完该Web页面中所有的超级链接,然后再继续下一层的搜索,直到最底层为止;
当前,网站内Web页面的组织结构直接决定着设计者采用的优先策略;由于机器人以URL列表存取的方式决定搜索策略,所以在实现上其关键问题在于我们将待搜索队列看作队列还是堆栈;如果看成队列,新的超链接从尾加入,从头取出则构成广度优先遍历;如果看成堆栈,新的超链接从头加入从头取出则构成深度优先遍历;
A4、网络陷阱;
A41、在访问新URL前应先与待搜索和已搜索URL对列列表中的URL进行比较,只有全新的URL才能加入到待搜索的URL列表,这样就可以避免掉进网络陷阱;在实现上应注意这种比较是URL对象间的比较而不是字符串间的比较,即要避免多个不同的URL字符串对应同一个主机的问题;
A42、在WEB文档的超链接提取时忽略所有带参数的URL;
A43、在实际Robot搜索时必须对搜索的深度进行限制;每进入下一级子链接就表示到达了一个新的深度,当到达规定的阈值深度后,就停止再往下搜索;或者可以设定访问Web服务器的最大时间长度,当Robot访问该Web服务器的第一个网页开始计时,经过最大时间长度后,在服务器上爬行的Robot程序即刻断开与该Web服务器的所有链接;
A5、均衡访问;应对Web服务器仅使用少数几个线程访问;在设计程序时,规定访问一个Web服务器的线程的最大数,这样就使得访问一个Web服务器的线程数受到限制;另外,必须限制Robot程序或进程对特定服务器和网段的访问频率,其基本方法是“等待”;每当Robot程序或进程从一个Web站点取得一个文档后,它必须等待一定的间隔再对该Web站点进行新的访问,等待的时间长短一般根据站点的处理能力和网络的通讯能力来确定;通常的设计是下一次访问该Web站点的时间T1为当前时间T2加上访问该Web站点所需的时间,访问该Web站点所需的时间主要是网络传输所花时间T3乘上一个已设定系数“好人系数good-guyfactor”,即:T1=T2+T3*good-guyfactor;
A6、超链接提取;其中集中对文本超链接的提取方法进行说明,在HTML文档中文本超链接的语法形式如下:
<A HREF=超链接URL地址部分>超链接文字说明部分</A>
超链接提取的目标是获取其中的超链接URL地址部分;简单的查找过程首先将HTML源文件的字符全部统一大写或小写,然后定位文档中“<A”标记后的“HREF”标记,找到以后对其后跟随的链接进行分析,仅保存如“.htm”、“.html”、“shtml”、“.jsp”、“.asp”和“.php”等网页格式且不带参数的链接;重复上述过程直到处理完文档中所有“<A”标记后的“HREF”标记为止;Robot程序在获取URL链接的同时要不断地对得到的链接所对应的WEB源文档进行数据采集,以便获取更多的WEB链接和数据;在实现上为了能够更正确的显示应将其转换为字符流的形式;
B、网页数据提取技术:其在很大程度上决定了信息采集的效率和质量;
B1、网页纯文本的提取;首先对获取的HTML源文件进行过滤处理以去掉其中的Tag控制符提取文本信息;在实现上可以在HTML源文件上对所有的“<”标识和“>”标识进行如下处理:首先定位“<”标识的位置,再定位其后相邻的“>”标识的位置,然后去掉两个位置间的字符串;或者先定位“>”标识的位置,再定位其后相邻的“<”标识的位置,然后累加两个位置间的字符串;脚本代码具有上面所描述的文本的特征,所以在提取文本时应注意排除它;一种排除的方式是,在对HTML进行解析时,如果遇到<script>开始标签,就可以马上找到</script>结束标签,然后在其后继续进行解析;另一种排除方法是姑且把它当作文本提取出来,然后再判断它是否是脚本代码,如果是脚本,就不予收集;对一个网页中的文本进行存储,各分离的文本之间应该加上分隔符;在实际处理文本时需根据标签的意义把标签分为两类:一类是起分隔作用的标签,另一类是不起分隔作用的标签;后一类标签包括:<A><B><I><EM><T2><BIG><SUB><SMALL><STRONG><STRIKE><BR>等;这类标签在语义上不起分隔作用,两个文本之间出现这样的标签应认为两个文本是连续的;在网页数据过滤后,统一网页数据字符的格式;
B2、处理特殊字符;有些特殊字符出现在文本中,而文本正是我们要处理的主要对象,因此在处理文本之前要先对这些特殊字符进行分析处理;比如在HTML文档中“&copy;版权所有&copy;”在浏览器中将显示为
Figure BDA00002477194300061
版权所有
Figure BDA00002477194300062
我们使用高级编程语言解析HTML时可能会造成乱码现象;所以我们必须自己解析特殊字符。
本发明提供的一种Web数据自动采集的方法,充分利用网络机器人技术和网页数据提取技术,形成Web自动采集方法,从海量信息中收集有价值的数据并进行分析研究,形成企业各种决策的依据,解决了数据采集人员及市场研究人员所面临的一个问题,同时扩展了Web的可用性,对数据采集,尤其是自动数据采集的发展做出了一定贡献。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种Web数据自动采集的方法,其特征在于包括以下步骤:
A、网络机器人技术:
A1、设计网络机器人工作流程:将机器人以一个或一组URL为浏览起点对相应的WWW文档进行访问,所述WWW文档为HTML文档;
A2、制定网络机器人设计原则;
A21、制定机器人不包括的项目标准:在服务器上创建一个机器人文本文件,该文本文件中说明网站不能访问的链接和网站拒绝访问的机器人;
A22、制定机器人META标签:即用户在页面中加入一个META标签,该META标签允许一个页面的所有者指定是否允许机器人程序来索引页面或者从页面中提取链接;
A3、深度优先搜索策略和广度优先搜索策略;
A31、深度优先搜索策略是从起始结点出发,对第一个文档进行分析后取回第一个链接所指向的页面,对该页面进行分析后再取回其第一个链接所指向的文档,反复执行直至搜索到不包含任何超级链接的文档为止,将其定义为一个完整的链,然后返回某一文档,继续选择该文档中的其余超级链接,搜索结束的标志是全部超级链接已搜索完毕;
A32、广度优先搜索策略是对第一个文档进行分析后,将该Web页面中所有超级链接搜索完毕,再继续下一层的搜索,直到最底层的搜索完成为止;
A4、网络陷阱;
A41、在访问新URL前与待搜索和已搜索URL对列列表中的URL进行比较,该比较为URL对象间的比较,将URL对列列表中不包含的URL添加到待搜索的URL列表,以避免掉进网络陷阱;
A42、提取Web文档的超链接时忽略所有设有参数的URL;
A43、限制机器人搜索深度;当到达阈值搜索深度后停止向下搜索,其中每进入到下一级子链接则表明到达了一个新的搜索深度;或者设定访问Web服务器的最大时间长度,当机器人访问该Web服务器的第一个网页时开始计时,经过最大时间长度后,在服务器上爬行的机器人程序即刻断开与该服务器的所有链接;
A5、均衡访问;设定访问一个Web服务器的线程最大数并采用等待方式限制机器人程序或进程对特定服务器和网段的访问频率;每当机器人程序或进程从一个Web站点取得一个文档后,该机器人程序或进程将等待一定的间隔再对该Web站点进行新的访问,根据站点处理能力和网络通讯能力确定等待时间的长短,下一次访问该Web站点的时间T1为当前时间T2加上访问该Web站点所需的时间,访问该Web站点所需的时间取值为网络传输时间T3乘以已设定系数;
A6、超链接提取;机器人程序在获取URL链接的同时持续对得到的链接所对应的Web源文档进行数据采集,并将Web源文档转换为字符流的形式;
B、网页数据提取技术;
B1、网页纯文本的提取;对获取的HTML源文件进行过滤处理并删掉其中的标签控制符提取文本信息,过滤网页数据后统一网页数据字符格式;
B2、对文本中的特殊字符进行分析并处理。
CN201210490953.1A 2012-11-27 2012-11-27 一种Web数据自动采集的方法 Pending CN103838786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210490953.1A CN103838786A (zh) 2012-11-27 2012-11-27 一种Web数据自动采集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210490953.1A CN103838786A (zh) 2012-11-27 2012-11-27 一种Web数据自动采集的方法

Publications (1)

Publication Number Publication Date
CN103838786A true CN103838786A (zh) 2014-06-04

Family

ID=50802295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210490953.1A Pending CN103838786A (zh) 2012-11-27 2012-11-27 一种Web数据自动采集的方法

Country Status (1)

Country Link
CN (1) CN103838786A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361061A (zh) * 2014-11-03 2015-02-18 烽火通信科技股份有限公司 一种web页面信息感知采集方法
CN105607895A (zh) * 2014-11-21 2016-05-25 阿里巴巴集团控股有限公司 一种基于应用程序编程接口的应用程序的运行方法和装置
CN106385345A (zh) * 2016-09-23 2017-02-08 北京锐安科技有限公司 一种对网络数据进行采集的方法和装置
CN113157730A (zh) * 2021-04-26 2021-07-23 中国人民解放军军事科学院国防科技创新研究院 一种军民融合政策信息***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404666A (zh) * 2008-10-06 2009-04-08 赵洪宇 一种基于Web页无限层采集方法
JP2012168844A (ja) * 2011-02-16 2012-09-06 Yahoo Japan Corp 検索サジェスト装置及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404666A (zh) * 2008-10-06 2009-04-08 赵洪宇 一种基于Web页无限层采集方法
JP2012168844A (ja) * 2011-02-16 2012-09-06 Yahoo Japan Corp 検索サジェスト装置及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘峰: ""通用中英文专业搜索引擎技术的研究及应用"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361061A (zh) * 2014-11-03 2015-02-18 烽火通信科技股份有限公司 一种web页面信息感知采集方法
CN104361061B (zh) * 2014-11-03 2018-02-16 南京烽火星空通信发展有限公司 一种web页面信息感知采集方法
CN105607895A (zh) * 2014-11-21 2016-05-25 阿里巴巴集团控股有限公司 一种基于应用程序编程接口的应用程序的运行方法和装置
CN105607895B (zh) * 2014-11-21 2021-03-02 阿里巴巴集团控股有限公司 一种基于应用程序编程接口的应用程序的运行方法和装置
CN106385345A (zh) * 2016-09-23 2017-02-08 北京锐安科技有限公司 一种对网络数据进行采集的方法和装置
CN113157730A (zh) * 2021-04-26 2021-07-23 中国人民解放军军事科学院国防科技创新研究院 一种军民融合政策信息***

Similar Documents

Publication Publication Date Title
Chakrabarti et al. Focused crawling: a new approach to topic-specific Web resource discovery
US7379932B2 (en) System and a method for focused re-crawling of Web sites
CN101231661B (zh) 对象级知识挖掘的方法和***
Yu et al. Summary of web crawler technology research
Patil Swati et al. Search engine optimization: A study
CN103927397B (zh) 一种基于区块树的Web页面链接块的识别方法
CN101630327A (zh) 一种主题网络爬虫***的设计方法
CN103226578A (zh) 面向医学领域的网站识别和网页细分类的方法
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别***及方法
CN101908071A (zh) 一种提高搜索引擎搜索效率的方法及其***
CN103049542A (zh) 一种面向领域的网络信息搜索方法
CN102929902A (zh) 一种基于中文检索的分词方法及装置
CN103744954A (zh) 一种词关联网模型的构建方法及其构建器
CN103838786A (zh) 一种Web数据自动采集的方法
Priyatam et al. Domain specific search in indian languages
Cheng et al. Efficient focused crawling strategy using combination of link structure and content similarity
CN108959576A (zh) 一种基于党校科研工作主题的网络爬虫***和方法
Nithya Link Analysis Algorithm for Web Structure Mining
Khan et al. Self-adaptive ontology-based focused crawling: a literature survey
Zheng et al. Architecture Descriptions Analysis Based on Text Mining and Crawling Technology
Brown et al. ILAS: Intrinsic landscape assessment system for landscape design and planning in the national capital region
Ma et al. Searching Tourism Information by Using Vertical Search Engine Based on Nutch and Solr
Hati et al. Improved focused crawling approach for retrieving relevant pages based on block partitioning
Smith Does metadata count? A Webometric investigation
Liu et al. User Browsing Graph: Structure, Evolution and Application.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140604