CN104346328A - 基于网页数据抓取的垂直智能爬虫数据收集方法 - Google Patents

基于网页数据抓取的垂直智能爬虫数据收集方法 Download PDF

Info

Publication number
CN104346328A
CN104346328A CN201310310298.1A CN201310310298A CN104346328A CN 104346328 A CN104346328 A CN 104346328A CN 201310310298 A CN201310310298 A CN 201310310298A CN 104346328 A CN104346328 A CN 104346328A
Authority
CN
China
Prior art keywords
data
reptile
capture
configuration
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310310298.1A
Other languages
English (en)
Inventor
王专
张海龙
马和平
郭凤林
王晓钟
庞绍进
王祚德
靳彩娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongcheng Network Technology Co Ltd
Original Assignee
Tongcheng Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongcheng Network Technology Co Ltd filed Critical Tongcheng Network Technology Co Ltd
Priority to CN201310310298.1A priority Critical patent/CN104346328A/zh
Publication of CN104346328A publication Critical patent/CN104346328A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于网页数据抓取的垂直智能爬虫数据收集方法,其特点是:首先,通过启停入口配置模块,将爬虫初始入口地址配置到启动模块中。之后,爬虫控制***按照设定的抓取规则和抓取流程,进行深度优先算法开始遍历抓取网页。最终,爬虫通过规则配置***的规则序列对,对页面数据进行解析提取,对提取出的二维结构数据进行存储。由此,能够满足爬虫通用性要求,在具体业务逻辑上增加解析规则配置,抓取网页深度,抓取线程,数据库配置或索引配置,就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架,同时,能够实现数据自动归档,分类入库,可采用分布式键值对数据库存储的方式。

Description

基于网页数据抓取的垂直智能爬虫数据收集方法
技术领域
本发明涉及一种数据收集方法,尤其涉及一种基于网页数据抓取的垂直智能爬虫数据收集方法。
背景技术
爬虫,又称为蜘蛛,它不是昆虫的名称,而是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接,并根据这些链接再度抓取提取更深的其它未知的链接,以此下去,将这样的程序抓取形为形容成类似爬虫似的动作,称之为爬虫,爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。
关于垂直爬虫,垂直搜索的核心技术实际上就是智能爬虫的技术,是如何将定向或者非定向的网页抓取下来并进行分析后得到格式化数据的技术。主要用来精确的提取规则的二维表数据,可以方便建立索引查询,数据分类,后期数据处理。
但是,以往传统垂直抓取程序,需要将解析,以及抓取逻辑强耦合到整个模块中,不便于后期的维护和功能扩展,维护成本高,且效率较氏,无框架伸缩性。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于网页数据抓取的垂直智能爬虫数据收集方法。
本发明的目的通过以下技术方案来实现:
基于网页数据抓取的垂直智能爬虫数据收集方法,其包括以下步骤:步骤①,通过启停入口配置模块,将爬虫初始入口地址配置到启动模块中;步骤②,爬虫控制***按照设定的抓取规则和抓取流程,进行深度优先算法开始遍历抓取网页;步骤③,爬虫通过规则配置***的规则序列对,对页面数据进行解析提取,对提取出的二维结构数据进行存储。
上述的基于网页数据抓取的垂直智能爬虫数据收集方法,其中:步骤①所述的配置模块、启动模块位于服务器中,爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入,或是,通过将爬虫入口网址放到数据库中进行指定。
进一步地,上述的基于网页数据抓取的垂直智能爬虫数据收集方法,其中:步骤②所述的抓取规则是对爬虫入口地址是将每一条合法的http网址一行一条的放入到入口列表文件中,或是一条网址在数据库中存放一行,抓取流程如下,根据配置文件中的提供爬虫入口网址列表进行抓取,按照配置的抓取深度进行遍历,首先取一条网址进行抓取,然后读取第一层解析规则,将第一层的解析规划解析后得到的数据传递到第二层,第二层进行深度抓取的时候,采用第一层解析提取到的网址进行再次抓取,并根据解析规则列表中的规则进行解析,并将解析得到的数据同第一层进行合并,传递到第三层,以此类推,直到配置的最大层数,一条深度抓取结束后,会依次向上返回获取的数据,并根据数据配置将抓取提取到的数据保存到指定的存储介质中,所述的存储介质是磁盘空间上的自定义的数据结构文件,或是,分布式键值对形式的数据库,或是,用lucene索引分词后进行索引文件存储,所述的爬虫初始入口地址至少配置一个。
更进一步地,上述的基于网页数据抓取的垂直智能爬虫数据收集方法,其中:步骤③所述的规则序列对是将解析页面提取有用数据的正则表达式按照层次,保存节点名,按照列表的形式通过配置***手工配置到***中,抓取程序按层依次调用每层中的抓取规则进行提取使用,当某一层的正则不适合其指定的层时,会发生解析错误并返回空数据,直到抓取完成设定的层次抓取,每一个抓取线程中的解析规则是依次解析提取,解析提取到的数据存放在服务器内存中,当完成一条完整的抓取层次后,再将数据存入到存储媒介中。
更进一步地,上述的基于网页数据抓取的垂直智能爬虫数据收集方法,其中:步骤③所述的储存方式为健值对存储方式,或是为分布式数据库存储方式,或是为文件索引式数据库存储方式。
再进一步地,上述的基于网页数据抓取的垂直智能爬虫数据收集方法,其中:所述分布式数据库存储方式,将抓取的数据进行编号,通过机器选择后,将数据推送到指定的存储器中,并将数据存放位置存放到爬虫节点服务器上。
本发明技术方案的优点主要体现在:能够满足爬虫通用性要求,适合各类垂直抓取需求,扩展方便,插件式开发。在具体业务逻辑上增加解析规则配置,抓取网页深度,抓取线程,数据库配置或索引配置,就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架,可以基于强大的前台WEB监控程序,控制抓取过程中的各种操作,以及实时显示抓取的进程,数据的完整情况,自动验证抓取过种中数据的准确性。同时,能够实现数据自动归档,分类入库,可采用分布式键值对数据库存储的方式。由此,可以很方便从存储容量水平方向上伸缩数据库,进行数据库扩容。抓取处理的数据不受抓取机器的存储空间限制,可以通过配置将数据自动通过内部快速交换网络迅速存储到存储服务器中。
附图说明
图1是基于网页数据抓取的垂直智能爬虫数据收集方法的实际实施示意图。
具体实施方式
如图1所示的基于网页数据抓取的垂直智能爬虫数据收集方法,其特征在于包括以下步骤:步骤①,通过启停入口配置模块,将爬虫初始入口地址配置到启动模块中。步骤②,爬虫控制***按照设定的抓取规则和抓取流程,进行深度优先算法开始遍历抓取网页。步骤③,爬虫通过规则配置***的规则序列对,对页面数据进行解析提取,对提取出的二维结构数据进行存储。
就本发明一较佳的实施方式来看,为了便于后续的配置使用,配置模块、启动模块位于服务器中,爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入,或是,通过将爬虫入口网址放到数据库中进行指定。
进一步来看,考虑到规则满足日后的应用需要,有利于爬虫的工作,抓取规则是对爬虫入口地址是将每一条合法的http网址一行一条的放入到入口列表文件中,或是一条网址在数据库中存放一行。抓取流程如下,根据配置文件中的提供爬虫入口网址列表进行抓取,按照配置的抓取深度进行遍历,首先取一条网址进行抓取,然后读取第一层解析规则。之后,将第一层的解析规划解析后得到的数据传递到第二层,第二层进行深度抓取的时候。在此期间,采用第一层解析提取到的网址进行再次抓取,并根据解析规则列表中的规则进行解析,并将解析得到的数据同第一层进行合并,传递到第三层。这样,以此类推,直到配置的最大层数,一条深度抓取结束后,会依次向上返回获取的数据,并根据数据配置将抓取提取到的数据保存到指定的存储介质中。
考虑到数据储存的便利,存储介质是磁盘空间上的自定义的数据结构文件,或是,分布式键值对形式的数据库。或是,用lucene索引分词后进行索引文件存储。为了便数据抓取,爬虫初始入口地址至少配置一个。换句话说,最大个数据没有特别限制,可以根据机器性能和抓取深度,适当调整入口地址数目。
再进一步来看,规则序列对是将解析页面提取有用数据的正则表达式按照层次,保存节点名,按照列表的形式通过配置***手工配置到***中,抓取程序按层依次调用每层中的抓取规则进行提取使用。当某一层的正则不适合其指定的层时,会发生解析错误并返回空数据,直到抓取完成设定的层次抓取,每一个抓取线程中的解析规则是依次解析提取,解析提取到的数据存放在服务器内存中,当完成一条完整的抓取层次后,再将数据存入到存储媒介中。
当然,为了适应不同应用对储存的需求,储存方式为健值对存储方式,或是为分布式数据库存储方式。当然,亦可以为文件索引式数据库存储方式。具体来说,分布式数据库存储方式,将抓取的数据进行编号,通过机器选择后,将数据推送到指定的存储器中,并将数据存放位置存放到爬虫节点服务器上。
结合本发明的实际使用情况来看,可以实现对在线旅游产品的收集,产品分析,产品比价,产品资源整理等,通过智能垂直爬虫框架可以方便的实现各个旅游产品的数据分析。具体来说至少能够实现以下四种数据***:1、垂直智能爬虫机票比价抓取调价***,抓取各OTA的机票产品,收集各个OTA的所有航线的机票资源,价格,分析价格变化,趋势,结合自身的价格数据,找出同航线同航班的价格的优势率,分析价格的变动,作出触发调价的行为。2、酒店比价***,抓取在线酒店OTA的所有酒店房型的预订价格,分析各个酒店的资源的房型总数对比,每个房型的所有房型政策,价格,进行价格比价,分析,并调价。3、新闻博客抓取***。4、火车时刻表,航班时刻表数据抓取更新***等。
通过上述的文字表述可以看出,采用本发明后,能够满足爬虫通用性要求,适合各类垂直抓取需求,扩展方便,插件式开发。在具体业务逻辑上增加解析规则配置,抓取网页深度,抓取线程,数据库配置或索引配置,就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架,可以基于强大的前台WEB监控程序,控制抓取过程中的各种操作,以及实时显示抓取的进程,数据的完整情况,自动验证抓取过种中数据的准确性。同时,能够实现数据自动归档,分类入库,可采用分布式键值对数据库存储的方式。由此,可以很方便从存储容量水平方向上伸缩数据库,进行数据库扩容。抓取处理的数据不受抓取机器的存储空间限制,可以通过配置将数据自动通过内部快速交换网络迅速存储到存储服务器中。

Claims (6)

1.基于网页数据抓取的垂直智能爬虫数据收集方法,其特征在于包括以下步骤:
步骤①,通过启停入口配置模块,将爬虫初始入口地址配置到启动模块中; 
步骤②,爬虫控制***按照设定的抓取规则和抓取流程,进行深度优先算法开始遍历抓取网页;
步骤③,爬虫通过规则配置***的规则序列对,对页面数据进行解析提取,对提取出的二维结构数据进行存储。
2.根据权利要求1所述的基于网页数据抓取的垂直智能爬虫数据收集方法,其特征在于:步骤①所述的配置模块、启动模块位于服务器中,爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入,或是,通过将爬虫入口网址放到数据库中进行指定。
3.根据权利要求1所述的基于网页数据抓取的垂直智能爬虫数据收集方法,其特征在于:步骤②所述的抓取规则是对爬虫入口地址是将每一条合法的http网址一行一条的放入到入口列表文件中,或是一条网址在数据库中存放一行,抓取流程如下,根据配置文件中的提供爬虫入口网址列表进行抓取,按照配置的抓取深度进行遍历,首先取一条网址进行抓取,然后读取第一层解析规则,将第一层的解析规划解析后得到的数据传递到第二层,第二层进行深度抓取的时候,采用第一层解析提取到的网址进行再次抓取,并根据解析规则列表中的规则进行解析,并将解析得到的数据同第一层进行合并,传递到第三层,以此类推,直到配置的最大层数,一条深度抓取结束后,会依次向上返回获取的数据,并根据数据配置将抓取提取到的数据保存到指定的存储介质中,所述的存储介质是磁盘空间上的自定义的数据结构文件,或是,分布式键值对形式的数据库,或是,用lucene索引分词后进行索引文件存储,所述的爬虫初始入口地址至少配置一个。
4.根据权利要求1所述的基于网页数据抓取的垂直智能爬虫数据收集方法,其特征在于:步骤③所述的规则序列对是将解析页面提取有用数据的正则表达式按照层次,保存节点名,按照列表的形式通过配置***手工配置到***中,抓取程序按层依次调用每层中的抓取规则进行提取使用,当某一层的正则不适合其指定的层时,会发生解析错误并返回空数据,直到抓取完成设定的层次抓取,每一个抓取线程中的解析规则是依次解析提取,解析提取到的数据存放在服务器内存中,当完成一条完整的抓取层次后,再将数据存入到存储媒介中。
5.根据权利要求1所述的基于网页数据抓取的垂直智能爬虫数据收集方法,其特征在于:步骤③所述的储存方式为健值对存储方式,或是为分布式数据库存储方式,或是为文件索引式数据库存储方式。
6.根据权利要求5所述的基于网页数据抓取的垂直智能爬虫数据收集方法,其特征在于:所述分布式数据库存储方式,将抓取的数据进行编号,通过机器选择后,将数据推送到指定的存储器中,并将数据存放位置存放到爬虫节点服务器上。
CN201310310298.1A 2013-07-23 2013-07-23 基于网页数据抓取的垂直智能爬虫数据收集方法 Pending CN104346328A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310310298.1A CN104346328A (zh) 2013-07-23 2013-07-23 基于网页数据抓取的垂直智能爬虫数据收集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310310298.1A CN104346328A (zh) 2013-07-23 2013-07-23 基于网页数据抓取的垂直智能爬虫数据收集方法

Publications (1)

Publication Number Publication Date
CN104346328A true CN104346328A (zh) 2015-02-11

Family

ID=52501961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310310298.1A Pending CN104346328A (zh) 2013-07-23 2013-07-23 基于网页数据抓取的垂直智能爬虫数据收集方法

Country Status (1)

Country Link
CN (1) CN104346328A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751386A (zh) * 2015-04-14 2015-07-01 携程计算机技术(上海)有限公司 酒店的分布式比价方法
CN105069135A (zh) * 2015-08-18 2015-11-18 携程计算机技术(上海)有限公司 Ota网站的数据爬取方法及***
CN106921703A (zh) * 2015-12-25 2017-07-04 阿里巴巴集团控股有限公司 跨境数据同步的方法、***,以及境内和境外数据中心
CN106933973A (zh) * 2017-02-14 2017-07-07 广州优亿信息科技有限公司 一种可视化网络爬虫方法
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取***数据收集方法
CN107391757A (zh) * 2017-08-23 2017-11-24 绵阳美菱软件技术有限公司 一种家电数据采集方法和装置
CN107506425A (zh) * 2017-08-18 2017-12-22 广东电网有限责任公司信息中心 一种网页文件采集归档方法
CN108153595A (zh) * 2018-01-18 2018-06-12 成都无糖信息技术有限公司 一种基于python的大数据分布式任务处理装置
CN108536699A (zh) * 2017-03-02 2018-09-14 百度在线网络技术(北京)有限公司 网页内容的抓取方法、装置、设备及存储介质
CN109522466A (zh) * 2018-10-20 2019-03-26 河南工程学院 一种分布式爬虫***
CN110209907A (zh) * 2018-02-13 2019-09-06 北京京东尚科信息技术有限公司 信息处理装置、方法以及计算机可读存储介质
CN112612944A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及***
CN113609074A (zh) * 2021-08-13 2021-11-05 北京华益精点生物技术有限公司 医学影像文件入库归档的方法及相关装置
CN113609142A (zh) * 2021-07-06 2021-11-05 深圳市飞耶软件有限公司 基于ota平台数据投放的运价自动更新方法和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630330A (zh) * 2009-08-14 2010-01-20 苏州锐创通信有限责任公司 一种网页分类方法
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫***及其实现方法
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析***及方法
US20120259833A1 (en) * 2011-04-11 2012-10-11 Vistaprint Technologies Limited Configurable web crawler
CN102930059A (zh) * 2012-11-26 2013-02-13 电子科技大学 一种聚焦爬虫的设计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630330A (zh) * 2009-08-14 2010-01-20 苏州锐创通信有限责任公司 一种网页分类方法
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫***及其实现方法
US20120259833A1 (en) * 2011-04-11 2012-10-11 Vistaprint Technologies Limited Configurable web crawler
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析***及方法
CN102930059A (zh) * 2012-11-26 2013-02-13 电子科技大学 一种聚焦爬虫的设计方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751386A (zh) * 2015-04-14 2015-07-01 携程计算机技术(上海)有限公司 酒店的分布式比价方法
CN105069135A (zh) * 2015-08-18 2015-11-18 携程计算机技术(上海)有限公司 Ota网站的数据爬取方法及***
CN105069135B (zh) * 2015-08-18 2019-05-17 携程计算机技术(上海)有限公司 Ota网站的数据爬取方法及***
CN106921703A (zh) * 2015-12-25 2017-07-04 阿里巴巴集团控股有限公司 跨境数据同步的方法、***,以及境内和境外数据中心
CN106933973A (zh) * 2017-02-14 2017-07-07 广州优亿信息科技有限公司 一种可视化网络爬虫方法
CN108536699A (zh) * 2017-03-02 2018-09-14 百度在线网络技术(北京)有限公司 网页内容的抓取方法、装置、设备及存储介质
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取***数据收集方法
CN107506425A (zh) * 2017-08-18 2017-12-22 广东电网有限责任公司信息中心 一种网页文件采集归档方法
CN107391757A (zh) * 2017-08-23 2017-11-24 绵阳美菱软件技术有限公司 一种家电数据采集方法和装置
CN108153595A (zh) * 2018-01-18 2018-06-12 成都无糖信息技术有限公司 一种基于python的大数据分布式任务处理装置
CN110209907A (zh) * 2018-02-13 2019-09-06 北京京东尚科信息技术有限公司 信息处理装置、方法以及计算机可读存储介质
CN109522466A (zh) * 2018-10-20 2019-03-26 河南工程学院 一种分布式爬虫***
CN112612944A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及***
CN112612944B (zh) * 2020-12-07 2024-05-31 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及***
CN113609142A (zh) * 2021-07-06 2021-11-05 深圳市飞耶软件有限公司 基于ota平台数据投放的运价自动更新方法和存储介质
CN113609142B (zh) * 2021-07-06 2024-02-20 深圳市飞耶软件有限公司 基于ota平台数据投放的运价自动更新方法和存储介质
CN113609074A (zh) * 2021-08-13 2021-11-05 北京华益精点生物技术有限公司 医学影像文件入库归档的方法及相关装置
CN113609074B (zh) * 2021-08-13 2022-03-15 北京华益精点生物技术有限公司 医学影像文件入库归档的方法及相关装置

Similar Documents

Publication Publication Date Title
CN104346328A (zh) 基于网页数据抓取的垂直智能爬虫数据收集方法
CN102724059B (zh) 基于MapReduce的网站运行状态监控与异常检测
CN105095211B (zh) 多媒体数据的获取方法和装置
CN101957866A (zh) 网络文本信息集成方法和装置
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN105808413A (zh) 基于业务流程可视化的sql性能监控方法
CN104090886A (zh) 构建用户实时画像的方法及装置
CN109583472A (zh) 一种web日志用户识别方法和***
CN106484709A (zh) 一种日志数据的审计方法和审计装置
CN104750826B (zh) 一种结构化数据资源元数据自动甄别与动态注册方法
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN103034725A (zh) 数据获取、分析以及预警***及其方法
CN104123448A (zh) 基于上下文的多数据流异常检测方法
CN104391843A (zh) 文件推荐***及方法
CN107480270A (zh) 一种基于用户反馈数据流的实时个性化推荐方法及***
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
Li Collaborative filtering recommendation algorithm based on cluster
Yu et al. The role of big data analysis in new product development
CN103870495A (zh) 用于从网站中提取信息的方法和装置
CN104834739A (zh) 互联网信息存储***
CN103595747A (zh) 用户信息推荐方法和***
CN103823847A (zh) 一种关键词的扩充方法及装置
CN103365960A (zh) 电力多级调度管理结构化数据的离线搜索方法
CN104156458A (zh) 一种信息的提取方法及装置
Qu et al. A time sequence location method of long video violence based on improved C3D network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150211