CN107895009B

CN107895009B - 一种基于分布式的互联网数据采集方法及***

Info

Publication number: CN107895009B
Application number: CN201711105738.4A
Authority: CN
Inventors: 廖尚围; 刘遥; 周庚新
Original assignee: Beijing Guoxin Hongshu Technology Co ltd
Current assignee: Zhang Wei
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2021-09-03
Anticipated expiration: 2037-11-10
Also published as: CN107895009A

Abstract

本发明是一种基于分布式的互联网数据采集方法，接收用户创建数据采集任务的请求并创建数据采集任务，将用户创建的数据采集任务分配给多个爬虫线程，并启动所述多个爬虫线程；在所述每个爬虫线程接收到数据采集任务并且被启动后，从待抓取URL队列中获取URL，并从数据采集任务指定的网站下载网页，执行数据采集任务指定的数据处理插件，进行数据的提取；所述数据采集任务指定的数据处理插件是根据指定的网站类型选择的具有不同功能的数据处理插件；将提取出来的目标数据存入指定数据库用于后续处理，将提取出来的待爬取URL推送到待爬取队列。实现多类型、复杂网站的大量数据爬取。

Description

一种基于分布式的互联网数据采集方法及***

技术领域

本发明涉及基于互联网数据采集技术领域，特别涉及一种基于分布式的互联网数据采集方法及***。

背景技术

随着网络的迅速发展，互联网成为大量信息的载体，其中包含舆情信息、社会事件、政策反响、各种行业信息、就业信息等是大数据舆情分析***、宏观经济分析***的数据基础。如何有效地提取并利用这些信息成为一个巨大的挑战。网络爬虫是数据分析***中十分重要的组成部分，它负责从互联网中搜集网页，采集信息，这些网页信息用于建立索引从而为搜索分析提供支持，它决定着整个数据分析***的内容是否丰富，信息是否及时，因此其性能的优劣直接影响着数据分析的效果。

如图1所示，一般爬虫运行流程大概如下：

（1）调度器(Scheduler)从待下载链接(URL)队列中取出一个链接(URL)

（2）调度器启动采集模块Spiders模块

（3）采集模块把URL传给下载器（Downloader），下载器把资源下载下来

（4）提取目标数据，抽取出目标对象（Item）,则交给实体管道（item pipeline）进行进一步的处理；比如存入数据库、文件等

若是解析出的是链接（URL）,则把链接（URL）***到待爬取队列当中。

目前，互联网数据采集方法之一是基于流程配置采集方法，此方法采用模拟人工点击浏览器的过程进行数据采集规则定义，比如：先点击板块及分页获取采集的数据列表，再进入到具体信息页面，最后根据需要提取所需字段。

该方法使用浏览器内核，模拟浏览器下载网页，执行JS代码。虽然能够采集到所有能看到的数据，而没有在网页上显示出来的信息确无法采集，最大的问题在于要通过浏览器解析JS代码、渲染数据后才能采集到数据，速度比较慢（3~10秒），而且需要的带宽也非常多。在需要采集的数据量较多时往往无法满足需求。

互联网数据采集的另一个方法是一个管理配置采集规则页面，由用户输入采集规则（板块列表、数据提取信息、任务执行信息等），采集任务发布数本地或服务器，服务器根据采集规则配置进行数据采集，数据采集完成后用户可下载数据文件或由服务器将数据推送给用户。

上述通过配置采集规则的方法可以采集大部分简单的网站数据，对于较复杂的网站，如需要登录、POST请求、特殊Header信息、部分信息需要二次AJAX请求的数据等处理起来比较繁琐。无法解决需要频繁切换动态IP代理的情形。无法处理需要进行特殊处理才能识别的数据，如从图片解析数据，从音频解析数据等。

发明内容

鉴于上述方法的不足，本发明提出一种基于模板、插件、分布式的互联网数据采集方法，该方法根据每个网站的具体情况，灵活配置合适的采集模板及采集插件，从而可以使用统一的方法采集互联网中各式各样的网站数据。

本发明提供一种基于模板、插件、分布式的互联网数据采集方法及***，***中主要包括采集模板定制、采集插件定制、分布式数据采集。采集模板定制用于任务信息、规则信息；采集插件定制提供个性化网站的采集定制插件，如数据下载插件、代理IP选择插件、文件解析插件、图片数据解析插件、音频解析插件等；分布式数据采集协调一个采集集群中的爬虫资源，根据采集任务需要启动一定数量的爬虫进行数据爬取。

本发明是一种一种基于分布式的互联网数据采集方法，接收用户创建数据采集任务的请求并创建数据采集任务，将用户创建的数据采集任务分配给多个爬虫线程，并启动所述多个爬虫线程；

在所述每个爬虫线程接收到数据采集任务并且被启动后，从待抓取URL队列中获取URL，并从数据采集任务指定的网站下载网页，执行数据采集任务指定的数据处理插件，进行数据的提取；所述数据采集任务指定的数据处理插件是根据指定的网站类型选择的具有不同功能的数据处理插件；

将提取出来的目标数据存入指定数据库用于后续处理，将提取出来的待爬取URL推送到待爬取队列。

优选的，将提取出来的待爬取URL推送到待爬取队列前对URL进行排重确认，判断该URL是否已经被采集过数据，如果判断结果为是，则将该URL丢弃；如果判断结果为否，则将该URL推送至待爬取队列。

优选的，数据处理插件包括登录插件、数据解析插件、元数据插件、分页解析插件、URL解析插件；

所述登录插件用于需要登陆才能进行数据提取的网站；

所述数据解析插件用于根据每个数据字段指定的提取表达式进行数据提取；

所述元数据插件用于需要分别从列表页和详细页中进行数据提取的网站；

所述分页解析插件用于获取网页的分页信息的网站；

所述URL解析插件用于提取URL。

优选的，数据处理插件还包括图片识别插件、声音识别插件、二维码识别插件。

优选的，所述登录插件需要配置的信息包括用户列表、网站登陆页面中用于植入登陆用户名、密码对应的html元素的ID、验证码的html元素的ID，所述用户列表包含登陆用户名、密码。

本发明是一种基于分布式的互联网数据采集***，包括：

控制中心，接收用户创建数据采集任务的请求并创建数据采集任务，将用户创建的数据采集任务分配给多个爬虫线程，并启动所述多个爬虫线程；

采集中心，在所述每个爬虫线程接收到数据采集任务并且被启动后，从待抓取URL队列中获取URL，并从数据采集任务指定的网站下载网页，执行数据采集任务指定的数据处理插件，进行数据的提取，将提取到的数据进行数据解析；所述数据采集任务指定的数据处理插件是根据指定的网站类型选择的具有不同功能的数据处理插件；

数据中心，用于将提取出来的目标数据存入指定数据库用于后续处理；

URL推送中心，用于将提取出来的待爬取URL推送到待爬取队列。

优选的，还包括排重中心，用于将提取出来的待爬取URL推送到待爬取队列前对URL进行排重确认，判断该URL是否已经被采集过数据，如果判断结果为是，则将该URL丢弃；如果判断结果为否，则将该URL推送至待爬取队列。

所述登录插件用于需要登陆才能进行数据提取的网站；

所述分页解析插件用于需要获取网页的分页信息的网站；

所述URL解析插件用于提取URL。

本发明的有益技术效果在于：（1）基于分布式的互联网数据采集方法，实现复杂网站的大量数据爬取。（2）基于数据处理插件机制，针对不同类型网站的需要，选择使用插件列表中具有相应功能的插件，实现多类型、复杂网站的大量数据爬取。（3）本发明通过设置排重中心，将分布式爬虫产生的URL进行排重，避免重复爬取。（4）本发明提出了一种基于消息队列的方法，协调分布式爬虫产生的待爬取URL队列。

附图说明

图1：现有技术爬虫运行流程示意图；

图2：本发明实施例1基于分布式的互联网数据采集方法示意图；

图3：本发明实施例2基于分布式的互联网数据采集***示意图；

图4：实施例3中采集任务管理示意图；

图5：实施例3的采集任务配置页面；

图6：实施例3的URL规则配置页面；

图7：实施例3指定采集该网站的采集列表；

图8：实施例3指定提取URL链接的范围页面；

图9：实施例3指定元数据提起表达式页面；

图10：实施例3指定详细数据提取字段的表达式页面；

图11：实施例3指定采集该网站的采集服务器；

图12：实施例3源文件管理页面；

图13：实施例3控制中心控制采集中心的启动、停止、查看数据、查看种子、监控任务的运行状态；

图14：实施例3该任务采集到的具体数据；

图15：实施例3该任务要采集的板块信息。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

如图2所示，本发明是一种基于分布式的互联网数据采集方法，包括以下步骤：

S101：接收用户创建数据采集任务的请求并创建数据采集任务，将用户创建的数据采集任务分配给多个爬虫线程，并启动所述多个爬虫线程。

首先，接收用户创建数据采集任务的请求，进行数据采集任务的管理，包括新建、编辑、删除采集任务，指定采集任务的名称、URL排重规则、两次爬取URL时的间隔时间、工作线程数、重试次数等。采集任务以树形结构分类进行管理。

根据用户的指示定义采集任务，指定采集的板块列表、IP代理使用策略、网页数据下载模式（支持基于浏览器内核下载及基于HttpClient下载）、指定数据处理插件、URL提取范围、URL列表正在表达式、URL内容正则表达式、元数据信息、详细数据项提取XPATH/CSS/REGEX表达式等。

任务创建完毕后，将数据采集任务分配采集爬虫，启动采集爬虫开始数据采集。当数据采集任务结束后，停止数据采集。同时对采集爬虫的运行状态、采集服务器的CPU、网络、内存、磁盘的状态、采集数据情况进行监控；对采集规则是否能采集到数据、采集爬虫是否运行正常提供预警、告警。

S102：在所述每个爬虫线程接收到数据采集任务并且被启动后，从待抓取URL队列中获取URL，并从数据采集任务指定的网站下载网页，执行数据采集任务指定的数据处理插件，进行数据的提取；所述数据采集任务指定的数据处理插件是根据指定的网站类型选择的具有不同功能的数据处理插件。

采集任务创建完毕后，控制中心并将采集任务发布到采集中心，采集中心根据控制中心发出的采集任务进行数据的提取。采集爬虫进行数据采集是分布式互联网数据采集方法中进行数据下载、数据提取的重要部分。在进行分布式互联网数据采集时，同时由几十至几百个爬虫线程组成一个集群，一个采集任务由一个或多个爬虫线程进行协同处理。采集任务启动时，参与这个采集任务的爬虫线程将同时收到启动指令，爬虫主动从待抓取队列中获取待爬取的URL，开始从指定的网站下载网页，执行数据采集任务指定的所有数据处理插件，如登录插件、数据解析插件、元数据解析插件、分页解析插件、URL解析插件，特殊的插件还有图片识别插件、声音识别插件、二维码识别插件等。本发明设置有插件列表，包括有登录插件、数据解析插件、元数据解析插件、分页解析插件、URL解析插件，特殊的插件还有图片识别插件、声音识别插件、二维码识别插件等数据处理插件。在采集爬虫进行数据采集过程中针对不同类型的网站的需要，选择使用插件列表中具有相应功能的插件，实现多类型、复杂网站的大量数据爬取。

所述登录插件用于需要登陆才能进行数据提取的网站；针对部分网站需要登陆才能采集导数据，***提供统一配置登陆的插件，该插件需要配置的信息包括用户列表（包含登陆用户名、密码）、网站登陆页面中用于植入登陆用户名、密码对应的html元素的ID、验证码的html元素的ID。***随即从用户列表中选取一个登陆用户名、密码尝试登陆网站，如出现验证码，***将验证码图片发送到解码服务器并获取验证码，植入登陆页面进行模拟登陆，登陆成功后保存cookie信息，以便持续数据采集。采集***中每个线程使用一个用户信息进行登陆，因此支持同时多个账号登陆采集。登陆插件支持按持续时间切换账号，比如半小时换一个账号登陆，也支持按采集一定网页数量后切换账号。

所述数据解析插件用于根据每个数据字段指定的提取表达式进行数据提取；本插件的组要功能是数据提取，每个数据字段指定提取表达式，支持的表达式有:xpath表达式、css表达式、正则表达式，***根据此表达式从网页的html源码提取数据。

所述元数据插件用于需要分别从列表页和详细页中进行数据提取的网站；此插件主要是针对数据分阶段提取的情况，在列表页中提取部分信息（称之为元数据），将元数据跟数据详细页面的url连接一起保存到待爬取队列，之后在进行详细页面数据采集时就可以从元数据中取得这部分数据，而不是从详细页面中提取。典型的例子是采集电商数据时，在商品详情页面中很难获取商品的价格、销量等信息，但是在商品列表却很容易获取商品价格、销量，因此在采集到商品列表时就先采集到商品价格、销量（元数据），最后在采集商品的详细页面时即可从元数据获得商品价格、销量。

所述分页解析插件用于需要获取网页的分页信息的网站；在web2.0时代，网页中的分析信息，比如下一页、最后一页、第几页等分页信息在网页源码中并不能直接得到，而是通过AJAX方式从网站的服务器获取到，并使用javascript生成这些分页信息。***提供定制化接口供数据采集人员根据网站的分页javascript逻辑生成分页url连接。所述URL解析插件用于提取URL。

S103：将提取出来的目标数据存入指定数据库用于后续处理，将提取出来的待爬取URL推送到待爬取队列。

提取出来的数据经过排重、去噪、打标后存入指定数据库，用于后续处理。数据库采用Hadoop分布式集群存储基础数据、对于常用的数据存储到ES索引库以便快速检索。

提取出来的待爬取URL推送到待爬取队列，爬虫处理完数据后从待爬取队列中获取待爬取的URL继续采集。待爬取队列为分布式采集提供支持，每个采集爬虫都从待爬取队列中获取将要爬取的URL地址，爬虫解析出的URL列表统一发送到待爬取队列统一调度。采集爬虫的数据采集日志、采集爬虫的健康状态实时上报到控制中心。

S104：将提取出来的待爬取URL推送到待爬取队列前对URL进行排重确认，判断该URL是否已经被采集过数据，如果判断结果为是，则将该URL丢弃；如果判断结果为否，则将该URL推送至待爬取队列。

网站的URL链接存在于多个页面中，***使用URL地址+key（可根据业务需求定义）生成MD5的UUID进行排重，保证每个URL地址只采集一次数据。对URL进行排重确认有两种模式。模式一是通过MongoDB数据库排重，每个UUID进行写入数据库操作，写入失败则代表该记录已存在，否则该记录不存在。此模式的优点是支持爬虫数量无限制，缺点是要消耗磁盘的IO。模式二是使用BloomFilter排重，Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。BloomFilter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。

实施例2：

本发明是一种基于分布式的互联网数据采集***，包括：

采集中心，在所述每个爬虫线程接收到数据采集任务并且被启动后，从待抓取URL队列中获取URL，并从数据采集任务指定的网站下载网页，执行数据采集任务指定的数据处理插件，进行数据的提取，将提取到的数据进行数据解析；所述数据采集任务指定的数据处理插件是根据指定的网站类型选择的具有不同功能的数据处理插件。

数据中心，用于将提取出来的目标数据存入指定数据库用于后续处理；数据库采用Hadoop分布式集群存储基础数据、对于常用的数据存储到ES索引库以便快速检索。采集***进行采集数据，将数据发送到指定数据库（kafka消息队列），数据中心有专门的入库程序负责入库、存储、查询操作。

排重中心，用于将提取出来的待爬取URL推送到待爬取队列前对URL进行排重确认，判断该URL是否已经被采集过数据，如果判断结果为是，则将该URL丢弃；如果判断结果为否，则将该URL推送至待爬取队列。本发明的排重中心能够实现自我管理功能，每个采集任务对应一个排重队列，新建采集任务时排重队列自动创建，删除采集任务时，排重队列自动删除。

所述数据处理插件包括登录插件、数据解析插件、元数据插件、分页解析插件、URL解析插件，图片识别插件、声音识别插件、二维码识别插件。

所述登录插件用于需要登陆才能进行数据提取的网站，所述登录插件需要配置的信息包括用户列表、网站登陆页面中用于植入登陆用户名、密码对应的html元素的ID、验证码的html元素的ID，所述用户列表包含登陆用户名、密码。所述数据解析插件用于根据每个数据字段指定的提取表达式进行数据提取。所述元数据插件用于需要分别从列表页和详细页中进行数据提取的网站。所述分页解析插件用于需要获取网页的分页信息的网站；所述URL解析插件用于提取URL。

实施例3：

本实施例以采集“山东省政府网站”的招投标数据为例。当控制中心接收用户指示后，开始创建数据采集任务。由于计算机***上会运行成百上千的采集任务，为方便管理，采集任务以树形结构进行分类管理。如图4所示，左侧为采集任务树形分类，右侧是该分类下的采集任务列表，采集任务的具体配置信息可以从页面进行配置，也可以从xml配置文件直接导入。图4所示的任务名称列表中有“山东省政府采购网”，指定采集任务的名称，即本次采集任务所指定的网站为“山东政府采购网”。

图5为数据采集任务运行规则配置页面，在此页面对数据采集任务进行配置，主要配置任务ID、任务名称、线程数、请求超时时间、重试次数、代理池、数据类型等。其中数据类型是指采集的数据分类，包含：新闻、论坛、房产、电商、就业等。

图5是URL规则配置页面，根据图6所示，在任务中指定内容页的URL正则表达式、列表页的URL正则表达式以及URL的黑名单正则表达式，这些URL规则都可以使用实现指定接口的java类，由java类生成具体的正则表达式。

解析器列表列出指定的数据处理插件。在分布式的互联网数据采集***中，包括登录插件、数据解析插件、元数据插件、分页解析插件、URL解析插件、图片识别插件、声音识别插件、二维码识别插件等多个具有不同功能的数据处理插件，用于根据所要进行数据采集的网站的类型使用不同功能的插件。在进行数据提取时，采集中心根据控制中心发出的采集任务，执行指定的数据处理插件，进行数据的提取。

在本实施例中，根据山东政府采购网及所要采集数据的特征，指定本次采集任务所需要的数据处理插件包括：LoginParser：登陆插件；DataParser：数据解析插件；MetaParser：元数据解析插件；LinkParser：URL解析插件。当爬虫在进行数据提取时，执行上述指定的数据处理插件进行数据的提取。

控制中心在创建采集任务时，还将对URL种子、URL提取范围、元数据提取范围、详细数据提取、服务器、源文件等进行指定。如图7所示，指定采集该网站的采集列表。如图8所示，指定提取URL链接的范围。如图9所示，指定元数据提起表达式，本实施例中元数据提取了标题、发布时间、详细页url。如图10所示，指定详细数据提取字段的表达式，本实施例中指定了内容、文本分类、子分类、省、图片地址的提取表达式。如图11所示，指定采集该网站的采集服务器，可以是一个，也可以是多个。每个爬虫服务器包含多个爬虫线程，实现分布式的数据提取。如图12所示，源文件可以上传xml采集任务配置文件，***将从xml文件中解析配置信息，而不用在页面中配置，对于熟练的数据采集人员来说更方便快捷。

采集任务创建完毕后，控制中心将采集任务发布到采集中心，采集中心根据控制中心发出的采集任务进行数据的提取。如图13所示，控制中心控制采集中心的启动、停止、查看数据、查看种子、监控任务的运行状态。采集中心被启动后，***将通过socket方式通知选定的采集服务器参与该任务的数据采集。停止后，***将通过socket方式通知选定的采集服务器停止该任务的数据采集。如图14所示，控制中心可以查看该任务采集到的具体数据。如图15所示，查看该任务要采集的板块信息，即URL链接。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于分布式的互联网数据采集方法，其特征在于：

接收用户创建数据采集任务的请求并创建数据采集任务，将用户创建的数据采集任务分配给多个爬虫线程，并启动所述多个爬虫线程；

将提取出来的目标数据存入指定数据库用于后续处理，将提取出来的待爬取URL推送到待爬取队列；

将提取出来的待爬取URL推送到待爬取队列前对URL进行排重确认，判断该URL是否已经被采集过数据，如果判断结果为是，则将该URL丢弃；如果判断结果为否，则将该URL推送至待爬取队列；其中，

使用URL地址和key生成MD5的UUID来进行排重，以保证每个URL地址只采集一次数据，并且，对URL进行排重确认包括两种模式：

模式一为通过数据库排重，将每个UUID进行写入数据库操作，写入失败则代表该记录已存在，否则该记录不存在；

模式二为通过随机数据结构排重，该结构利用位数组表示集合，并判断元素是否属于该集合。

2.根据权利要求1所述的一种基于分布式的互联网数据采集方法，其特征在于：数据处理插件包括登录插件、数据解析插件、元数据插件、分页解析插件、URL解析插件；

所述登录插件用于需要登陆才能进行数据提取的网站；

所述分页解析插件用于获取网页的分页信息的网站；

所述URL解析插件用于提取URL。

3.根据权利要求1所述的一种基于分布式的互联网数据采集方法，其特征在于：数据处理插件还包括图片识别插件、声音识别插件、二维码识别插件。

4.根据权利要求2所述的一种基于分布式的互联网数据采集方法，其特征在于：所述登录插件需要配置的信息包括用户列表、网站登陆页面中用于植入登陆用户名、密码对应的html元素的ID、验证码的html元素的ID，所述用户列表包含登陆用户名、密码。

5.一种基于分布式的互联网数据采集***，其特征在于：包括：

采集中心，用于在所述每个爬虫线程接收到数据采集任务并且被启动后，从待抓取URL队列中获取URL，并从数据采集任务指定的网站下载网页，执行数据采集任务指定的数据处理插件，进行数据的提取，将提取到的数据进行数据解析；所述数据采集任务指定的数据处理插件是根据指定的网站类型选择的具有不同功能的数据处理插件；

URL推送中心，用于将提取出来的待爬取URL推送到待爬取队列；

排重中心，用于将提取出来的待爬取URL推送到待爬取队列前对URL进行排重确认，判断该URL是否已经被采集过数据，如果判断结果为是，则将该URL丢弃；如果判断结果为否，则将该URL推送至待爬取队列；其中，

6.根据权利要求5所述的一种基于分布式的互联网数据采集***，其特征在于：数据处理插件包括登录插件、数据解析插件、元数据插件、分页解析插件、URL解析插件；

所述登录插件用于需要登陆才能进行数据提取的网站；

所述分页解析插件用于需要获取网页的分页信息的网站；

所述URL解析插件用于提取URL。

7.根据权利要求5所述的一种基于分布式的互联网数据采集***，其特征在于：数据处理插件还包括图片识别插件、声音识别插件、二维码识别插件。

8.根据权利要求6所述的一种基于分布式的互联网数据采集***，其特征在于：所述登录插件需要配置的信息包括用户列表、网站登陆页面中用于植入登陆用户名、密码对应的html元素的ID、验证码的html元素的ID，所述用户列表包含登陆用户名、密码。