CN104346328A

CN104346328A - 基于网页数据抓取的垂直智能爬虫数据收集方法

Info

Publication number: CN104346328A
Application number: CN201310310298.1A
Authority: CN
Inventors: 王专; 张海龙; 马和平; 郭凤林; 王晓钟; 庞绍进; 王祚德; 靳彩娟
Original assignee: Tongcheng Network Technology Co Ltd
Current assignee: Tongcheng Network Technology Co Ltd
Priority date: 2013-07-23
Filing date: 2013-07-23
Publication date: 2015-02-11

Abstract

本发明涉及一种基于网页数据抓取的垂直智能爬虫数据收集方法，其特点是：首先，通过启停入口配置模块，将爬虫初始入口地址配置到启动模块中。之后，爬虫控制***按照设定的抓取规则和抓取流程，进行深度优先算法开始遍历抓取网页。最终，爬虫通过规则配置***的规则序列对，对页面数据进行解析提取，对提取出的二维结构数据进行存储。由此，能够满足爬虫通用性要求，在具体业务逻辑上增加解析规则配置，抓取网页深度，抓取线程，数据库配置或索引配置，就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架，同时，能够实现数据自动归档，分类入库，可采用分布式键值对数据库存储的方式。

Description

基于网页数据抓取的垂直智能爬虫数据收集方法

技术领域

本发明涉及一种数据收集方法，尤其涉及一种基于网页数据抓取的垂直智能爬虫数据收集方法。

背景技术

爬虫，又称为蜘蛛，它不是昆虫的名称，而是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接，并根据这些链接再度抓取提取更深的其它未知的链接，以此下去，将这样的程序抓取形为形容成类似爬虫似的动作，称之为爬虫，爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。

关于垂直爬虫，垂直搜索的核心技术实际上就是智能爬虫的技术，是如何将定向或者非定向的网页抓取下来并进行分析后得到格式化数据的技术。主要用来精确的提取规则的二维表数据，可以方便建立索引查询，数据分类，后期数据处理。

但是，以往传统垂直抓取程序，需要将解析，以及抓取逻辑强耦合到整个模块中，不便于后期的维护和功能扩展，维护成本高，且效率较氏，无框架伸缩性。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提供一种基于网页数据抓取的垂直智能爬虫数据收集方法。

本发明的目的通过以下技术方案来实现：

基于网页数据抓取的垂直智能爬虫数据收集方法，其包括以下步骤：步骤①，通过启停入口配置模块，将爬虫初始入口地址配置到启动模块中；步骤②，爬虫控制***按照设定的抓取规则和抓取流程，进行深度优先算法开始遍历抓取网页；步骤③，爬虫通过规则配置***的规则序列对，对页面数据进行解析提取，对提取出的二维结构数据进行存储。

上述的基于网页数据抓取的垂直智能爬虫数据收集方法，其中：步骤①所述的配置模块、启动模块位于服务器中，爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入，或是，通过将爬虫入口网址放到数据库中进行指定。

进一步地，上述的基于网页数据抓取的垂直智能爬虫数据收集方法，其中：步骤②所述的抓取规则是对爬虫入口地址是将每一条合法的http网址一行一条的放入到入口列表文件中，或是一条网址在数据库中存放一行，抓取流程如下，根据配置文件中的提供爬虫入口网址列表进行抓取，按照配置的抓取深度进行遍历，首先取一条网址进行抓取，然后读取第一层解析规则，将第一层的解析规划解析后得到的数据传递到第二层，第二层进行深度抓取的时候，采用第一层解析提取到的网址进行再次抓取，并根据解析规则列表中的规则进行解析，并将解析得到的数据同第一层进行合并，传递到第三层，以此类推，直到配置的最大层数，一条深度抓取结束后，会依次向上返回获取的数据，并根据数据配置将抓取提取到的数据保存到指定的存储介质中，所述的存储介质是磁盘空间上的自定义的数据结构文件，或是，分布式键值对形式的数据库，或是，用lucene索引分词后进行索引文件存储，所述的爬虫初始入口地址至少配置一个。

更进一步地，上述的基于网页数据抓取的垂直智能爬虫数据收集方法，其中：步骤③所述的规则序列对是将解析页面提取有用数据的正则表达式按照层次，保存节点名，按照列表的形式通过配置***手工配置到***中，抓取程序按层依次调用每层中的抓取规则进行提取使用，当某一层的正则不适合其指定的层时，会发生解析错误并返回空数据，直到抓取完成设定的层次抓取，每一个抓取线程中的解析规则是依次解析提取，解析提取到的数据存放在服务器内存中，当完成一条完整的抓取层次后，再将数据存入到存储媒介中。

更进一步地，上述的基于网页数据抓取的垂直智能爬虫数据收集方法，其中：步骤③所述的储存方式为健值对存储方式，或是为分布式数据库存储方式，或是为文件索引式数据库存储方式。

再进一步地，上述的基于网页数据抓取的垂直智能爬虫数据收集方法，其中：所述分布式数据库存储方式，将抓取的数据进行编号，通过机器选择后，将数据推送到指定的存储器中，并将数据存放位置存放到爬虫节点服务器上。

本发明技术方案的优点主要体现在：能够满足爬虫通用性要求，适合各类垂直抓取需求，扩展方便，插件式开发。在具体业务逻辑上增加解析规则配置，抓取网页深度，抓取线程，数据库配置或索引配置，就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架，可以基于强大的前台WEB监控程序，控制抓取过程中的各种操作，以及实时显示抓取的进程，数据的完整情况，自动验证抓取过种中数据的准确性。同时，能够实现数据自动归档，分类入库，可采用分布式键值对数据库存储的方式。由此，可以很方便从存储容量水平方向上伸缩数据库，进行数据库扩容。抓取处理的数据不受抓取机器的存储空间限制，可以通过配置将数据自动通过内部快速交换网络迅速存储到存储服务器中。

附图说明

图1是基于网页数据抓取的垂直智能爬虫数据收集方法的实际实施示意图。

具体实施方式

如图1所示的基于网页数据抓取的垂直智能爬虫数据收集方法，其特征在于包括以下步骤：步骤①，通过启停入口配置模块，将爬虫初始入口地址配置到启动模块中。步骤②，爬虫控制***按照设定的抓取规则和抓取流程，进行深度优先算法开始遍历抓取网页。步骤③，爬虫通过规则配置***的规则序列对，对页面数据进行解析提取，对提取出的二维结构数据进行存储。

就本发明一较佳的实施方式来看，为了便于后续的配置使用，配置模块、启动模块位于服务器中，爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入，或是，通过将爬虫入口网址放到数据库中进行指定。

进一步来看，考虑到规则满足日后的应用需要，有利于爬虫的工作，抓取规则是对爬虫入口地址是将每一条合法的http网址一行一条的放入到入口列表文件中，或是一条网址在数据库中存放一行。抓取流程如下，根据配置文件中的提供爬虫入口网址列表进行抓取，按照配置的抓取深度进行遍历，首先取一条网址进行抓取，然后读取第一层解析规则。之后，将第一层的解析规划解析后得到的数据传递到第二层，第二层进行深度抓取的时候。在此期间，采用第一层解析提取到的网址进行再次抓取，并根据解析规则列表中的规则进行解析，并将解析得到的数据同第一层进行合并，传递到第三层。这样，以此类推，直到配置的最大层数，一条深度抓取结束后，会依次向上返回获取的数据，并根据数据配置将抓取提取到的数据保存到指定的存储介质中。

考虑到数据储存的便利，存储介质是磁盘空间上的自定义的数据结构文件，或是，分布式键值对形式的数据库。或是，用lucene索引分词后进行索引文件存储。为了便数据抓取，爬虫初始入口地址至少配置一个。换句话说，最大个数据没有特别限制，可以根据机器性能和抓取深度，适当调整入口地址数目。

再进一步来看，规则序列对是将解析页面提取有用数据的正则表达式按照层次，保存节点名，按照列表的形式通过配置***手工配置到***中，抓取程序按层依次调用每层中的抓取规则进行提取使用。当某一层的正则不适合其指定的层时，会发生解析错误并返回空数据，直到抓取完成设定的层次抓取，每一个抓取线程中的解析规则是依次解析提取，解析提取到的数据存放在服务器内存中，当完成一条完整的抓取层次后，再将数据存入到存储媒介中。

当然，为了适应不同应用对储存的需求，储存方式为健值对存储方式，或是为分布式数据库存储方式。当然，亦可以为文件索引式数据库存储方式。具体来说，分布式数据库存储方式，将抓取的数据进行编号，通过机器选择后，将数据推送到指定的存储器中，并将数据存放位置存放到爬虫节点服务器上。

结合本发明的实际使用情况来看，可以实现对在线旅游产品的收集，产品分析，产品比价，产品资源整理等，通过智能垂直爬虫框架可以方便的实现各个旅游产品的数据分析。具体来说至少能够实现以下四种数据***：1、垂直智能爬虫机票比价抓取调价***，抓取各OTA的机票产品，收集各个OTA的所有航线的机票资源，价格，分析价格变化，趋势，结合自身的价格数据，找出同航线同航班的价格的优势率，分析价格的变动，作出触发调价的行为。2、酒店比价***，抓取在线酒店OTA的所有酒店房型的预订价格，分析各个酒店的资源的房型总数对比，每个房型的所有房型政策，价格，进行价格比价，分析，并调价。3、新闻博客抓取***。4、火车时刻表，航班时刻表数据抓取更新***等。

通过上述的文字表述可以看出，采用本发明后，能够满足爬虫通用性要求，适合各类垂直抓取需求，扩展方便，插件式开发。在具体业务逻辑上增加解析规则配置，抓取网页深度，抓取线程，数据库配置或索引配置，就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架，可以基于强大的前台WEB监控程序，控制抓取过程中的各种操作，以及实时显示抓取的进程，数据的完整情况，自动验证抓取过种中数据的准确性。同时，能够实现数据自动归档，分类入库，可采用分布式键值对数据库存储的方式。由此，可以很方便从存储容量水平方向上伸缩数据库，进行数据库扩容。抓取处理的数据不受抓取机器的存储空间限制，可以通过配置将数据自动通过内部快速交换网络迅速存储到存储服务器中。

Claims

1.基于网页数据抓取的垂直智能爬虫数据收集方法，其特征在于包括以下步骤：

步骤①，通过启停入口配置模块，将爬虫初始入口地址配置到启动模块中；

步骤②，爬虫控制***按照设定的抓取规则和抓取流程，进行深度优先算法开始遍历抓取网页；

步骤③，爬虫通过规则配置***的规则序列对，对页面数据进行解析提取，对提取出的二维结构数据进行存储。

2.根据权利要求1所述的基于网页数据抓取的垂直智能爬虫数据收集方法，其特征在于：步骤①所述的配置模块、启动模块位于服务器中，爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入，或是，通过将爬虫入口网址放到数据库中进行指定。

3.根据权利要求1所述的基于网页数据抓取的垂直智能爬虫数据收集方法，其特征在于：步骤②所述的抓取规则是对爬虫入口地址是将每一条合法的http网址一行一条的放入到入口列表文件中，或是一条网址在数据库中存放一行，抓取流程如下，根据配置文件中的提供爬虫入口网址列表进行抓取，按照配置的抓取深度进行遍历，首先取一条网址进行抓取，然后读取第一层解析规则，将第一层的解析规划解析后得到的数据传递到第二层，第二层进行深度抓取的时候，采用第一层解析提取到的网址进行再次抓取，并根据解析规则列表中的规则进行解析，并将解析得到的数据同第一层进行合并，传递到第三层，以此类推，直到配置的最大层数，一条深度抓取结束后，会依次向上返回获取的数据，并根据数据配置将抓取提取到的数据保存到指定的存储介质中，所述的存储介质是磁盘空间上的自定义的数据结构文件，或是，分布式键值对形式的数据库，或是，用lucene索引分词后进行索引文件存储，所述的爬虫初始入口地址至少配置一个。

4.根据权利要求1所述的基于网页数据抓取的垂直智能爬虫数据收集方法，其特征在于：步骤③所述的规则序列对是将解析页面提取有用数据的正则表达式按照层次，保存节点名，按照列表的形式通过配置***手工配置到***中，抓取程序按层依次调用每层中的抓取规则进行提取使用，当某一层的正则不适合其指定的层时，会发生解析错误并返回空数据，直到抓取完成设定的层次抓取，每一个抓取线程中的解析规则是依次解析提取，解析提取到的数据存放在服务器内存中，当完成一条完整的抓取层次后，再将数据存入到存储媒介中。

5.根据权利要求1所述的基于网页数据抓取的垂直智能爬虫数据收集方法，其特征在于：步骤③所述的储存方式为健值对存储方式，或是为分布式数据库存储方式，或是为文件索引式数据库存储方式。

6.根据权利要求5所述的基于网页数据抓取的垂直智能爬虫数据收集方法，其特征在于：所述分布式数据库存储方式，将抓取的数据进行编号，通过机器选择后，将数据推送到指定的存储器中，并将数据存放位置存放到爬虫节点服务器上。