CN107451223A

CN107451223A - 一种高并发并行计算的大数据采集***及方法

Info

Publication number: CN107451223A
Application number: CN201710585060.8A
Authority: CN
Inventors: 晋彤; 李永康
Original assignee: Guangzhou Special Road Mdt Infotech Ltd
Current assignee: Guangzhou Special Road Mdt Infotech Ltd
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2017-12-08

Abstract

本发明公开了一种高并发并行计算的大数据采集***，包括业务数据管理平台、调度中心、采集器、流服务和数据节点；所述业务数据管理平台包括用于根据不同内容和网站特点配置待采集任务的站点配置模块和用于存储并将待采集任务分配给分发服务器的采集规则库；所述调度中心包括至少两个用于将待采集任务划分成子任务的所述分发服务器；所述采集器用于基于预设的采集策略执行爬取所述子任务操作以进行数据采集，并将采集数据发送至流服务；所述流服务用于对采集数据进行聚合，并根据业务的标识将数据发送至相应的数据节点进行检索和存储。本发明还公开了一种高并发并行计算的大数据采集系方法，提高了大数据采集***的采集能力和处理数据的实时性。

Description

一种高并发并行计算的大数据采集***及方法

技术领域

本发明涉及动态规划、并行计算及网格计算领域，尤其涉及一种高并发并行计算的大数据采集***及方法。

背景技术

现有大数据采集架构中主要利用网络蜘蛛技术如Heritrix、PySpider等对互联网数据进行实时抓取，但是发明人在研究大数据采集架构过程中发现，目前线上的对互联网数据进行实时抓取的大数据采集架构都是轻量级的，而且现有大数据采集架构将互联网数据发送到数据中心的实时性不高。

发明内容

针对上述问题，本发明的目的在于提供一种高并发并行计算的大数据采集***及方法，提高大数据采集架构的采集能力和处理数据的实时性。

为了解决上述技术问题，本发明提供了一种高并发并行计算的大数据采集***，包括：业务数据管理平台、调度中心、采集器、流服务和数据节点；所述业务数据管理平台包括站点配置模块和采集规则库；所述调度中心包括代理服务器和至少两个分发服务器；所述数据节点模块包括至少两个数据节点；

所述站点配置模块，用于根据不同内容和网站特点配置待采集任务；

所述采集规则库，用于存储并将待采集任务分配给相应的所述分发服务器；

所述分发服务器，用于将待采集任务进行划分成子任务，并由所述代理服务器将子任务映射到采集器；

所述采集器，用于基于预设的采集策略执行爬取所述子任务的操作，以进行数据采集，并将采集数据发送至所述流服务；

所述流服务，用于对采集数据进行聚合，并根据业务的标识将聚合的采集数据发送至相应的数据节点进行检索和存储。

优选地，所述分发服务器建立有完成端口，所述网络爬虫端创建有用于绑定所述完成端口并监听所述完成端口连接请求的socket。

优选地，所述采集器包括链接生成单元及网络爬虫单元；

其中，所述链接生成单元，用于下载Web页面并生成DOM模型，通过识别处理生成连接节点图并对所述节点图中的各节点进行深度遍历，以获取所需连接组成链接集；

所述网络爬虫单元，用于根据Web页面的样式生成视觉树，并对所述视觉树的重要分进行支定位，从而对与所述链接集对应的页面正文结点集合进行选举，并将选举成功的正文结点列表进行去杂质处理，对抽取文本重排段落，得到采集数据。

优选地，所述数据节点，还用于利用消息队列存储所述流服务发送的标记有业务标识的采集数据。

优选地，所述数据节点，还用于利用所述消息队列及接收到的数据，确定子任务间的数据交换，监测子任务划分的合理性。

本发明还提供了一种高并发并行计算的大数据采集方法，包括以下步骤：

所述站点配置模块根据不同内容和网站特点配置待采集任务；

所述采集规则库存储并将待采集任务分配给相应的所述分发服务器；

所述分发服务器将待采集任务进行划分成子任务，并由所述代理服务器将子任务映射到采集器；

所述采集器基于预设的采集策略执行爬取所述子任务的操作，以进行数据采集，并将采集数据发送至所述流服务；

所述流服务对采集数据进行聚合，并根据业务的标识将聚合的采集数据发送至相应的数据节点进行检索和存储。

优选地，所述采集器基于预设的采集策略执行爬取所述子任务的操作，以进行数据采集，并将采集数据发送至所述流服务具体为：

所述采集器下载Web页面并生成DOM模型，通过识别处理生成连接节点图并对所述节点图中的各节点进行深度遍历，以获取所需连接组成链接集；

所述采集器根据Web页面的样式生成视觉树，并对所述视觉树的重要分进行支定位，从而对与所述链接集对应的页面正文结点集合进行选举，并将选举成功的正文结点列表进行去杂质处理，对抽取文本重排段落，得到采集数据。

优选地，还包括：

所述数据节点利用消息队列存储所述流服务发送的标记有业务标识的采集数据。

优选地，还包括：

所述数据节点利用所述消息队列及接收到的数据，确定子任务间的数据交换，监测子任务划分的合理性。

本发明具有以下有益效果：

本发明通过利用建立完成端口和socket进行高并发异步调度，对多集群进行实时处理；通过设置多个分发服务器和多个网络爬虫单元实现多线程的实时计算和深度采集，提高了数据采集能力和数据处理能力；通过设置流服务中间件和消息列队体统，实现海量信息的聚合、存储和传输。因此，本发明提供的一种高并发并行计算的大数据采集***及方法，提高大数据采集架构的采集能力和处理数据的实时性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的高并发并行计算的大数据采集***的结构示意图。

图2是本发明实施例提供的高并发并行计算的大数据采集方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种高并发并行计算的大数据采集***，包括：业务数据管理平台、调度中心、采集器、流服务19和数据节点；所述业务数据管理平台包括站点配置模块10和采集规则库11；所述调度中心包括代理服务器15和至少两个分发服务器，如第一分发服务器12、第二分发服务器13和第三分发服务器14；所述数据节点模块包括至少两个数据节点，如第一数据节点20、第二数据节点21和第三数据节点22。所述站点配置模块10，用于根据不同内容和网站特点配置待采集任务；所述采集规则库11，用于存储并将待采集任务分配给相应的所述第一分发服务器12、所述第二分发服务器13和所述第三分发服务器14；所述第一分发服务器12、所述第二分发服务器13和所述第三分发服务器14，用于将待采集任务进行划分成子任务，并由所述代理服务器15将子任务映射到采集器；所述采集器，用于基于预设的采集策略执行爬取所述子任务的操作，以进行数据采集，并将采集数据发送至所述流服务19；所述流服务19，用于对采集数据进行聚合，并根据业务的标识将聚合的采集数据发送至相应的所述第一数据节点20、所述第二数据节点21和所述第三数据节点22进行检索和存储。

具体的，所述分发服务器实时接收所述规则采集器分配的每一个待采集任务并迅速将所述待采集任务划分成若干子任务，而所述采集器包括至少两个网络爬虫单元，用于根据所述子任务的局限性，快速将子任务爬取并重新组合成更大的任务群。其中，所述子任务的局限性指的是待采集任务将子任务划分的足够小以满足线程能够快速并发处理的要求。

具体的，所述采集器用于执行爬取所述子任务的操作，以进行数据采集，是基于这样一个预设的采集策略的：所述采集器还包括链接生成单元，其中，所述链接生成单元，用于下载Web页面并生成DOM(Document Object Model，文档对象模型，简称DOM)模型，通过识别处理生成连接节点图并对所述节点图中的各节点进行深度遍历，以获取所需连接组成链接集；所述网络爬虫单元，用于根据Web页面的样式生成视觉树，并对所述视觉树的重要分支进行定位，从而对与所述链接集对应的页面正文结点集合进行选举，并将选举成功的正文结点列表进行去杂质处理，对抽取文本重排段落，得到采集数据。其中，所述对视觉树的重要分支进行定位是指根据待采集任务的具体内容和特点有针对性地对相应的网页正文进行快速定位，并将所需正文内容进行抽取(即选举)。

具体的，所述流服务19还用于将所述数据节点连接起来，实现海量数据的采集、聚合和传输；所述数据节点包括消息列队***，优选Kafka(一种高吞吐量的分布式发布订阅消息***)消息列队***，所述消息队列***用于存储所述流服务19发送的标记有业务标识的采集数据，并且根据接收到的采集数据确定子任务间的数据交换以及监测子任务划分的合理性，从而能够提高待采集子任务划分的合理性并实现对重量级数据的存储功能。

需要说明的是，根据数据采集架构的实际采集能力需要设置若干个所述分发服务器、所述网络爬虫单元以及数据节点，从而能够实时执行重量级的数据采集任务。

由上述本发明的一个实施例可以看出，本发明通过根据数据采集架构的实际采集能力需要设置若干个所述分发服务器、所述网络爬虫单元以及数据节点，并预先设置执行爬取所述子任务操作的采集策略，利用流服务19作为中间件以及利用消息列队***作为采集数据的接受存储的数据节点，从而能够执行重量级的数据采集任务并提高数据采集的实时性。

优选的，所述第一分发服务器12、所述第二分发服务器13和所述第三分发服务器14均建立有完成端口，所述采集器包括第一网络爬虫单元16、第二网络爬虫单元17和第三网络爬虫单元18并且每一所述网络爬虫单元均创建有用于绑定所述完成端口并监听所述完成端口连接请求的socket(计算机术语，套接字)。

具体的，所述完成端口与所述socket之间优先通过所述代理服务器15相连接，能够提高所述socket对所述子任务浏览速率达到实时监听的目的。所述socket用于绑定所述完成端口并监听所述完成端口连接请求。所述socket对所述完成端口的监听工作如下，所述socket一直处于监听状态，若socket监听到所述连接请求，则建立一个新的线程，把所述socket的描述发送给所述完成端口确认连接；连接确认后，所述socket继续处于监听状态，继续接收其他完成端口的连接请求。由于所述分发服务器和所述网络爬虫单元的数量是根据数据采集架构的实际采集能力需要设置的，所以，为了满足对重量级的数据进行实时采集，所述socket和所述完成端口的数量也是与分发服务器和所述网络爬虫单元对应的，并且所述socket对所述完成端口的监听动作是异步并发的。因此，所述采集器能够在一个线程并发处理多个待采集子任务，从而提高对数据采集的实时性以及提高对数据采集的量级。

由上述本发明的另一个实施例可以看出，本发明通过在所述分发服务器建立所述完成端口，并在所述网络爬虫单元创建绑定所述完成端口的所述socket，能够在一个线程里并发处理多个待采集子任务，从而提高采集器对数据采集的实时性以及提高对数据采集的量级。

如图2所示，本发明还提供了一种高并发并行计算的大数据采集方法，包括以下步骤：

S101，所述站点配置模块根据不同内容和网站特点配置待采集任务。

S102，所述采集规则库存储并将待采集任务分配给相应的所述分发服务器；

S103，所述分发服务器将待采集任务进行划分成子任务，并由所述代理服务器将子任务映射到采集器；

S104，所述采集器基于预设的采集策略执行爬取所述子任务的操作，以进行数据采集，并将采集数据发送至所述流服务；

S105，所述流服务对采集数据进行聚合，并根据业务的标识将聚合的采集数据发送至相应的数据节点进行检索和存储。

具体的，所述站点配置模块10根据不同内容和网站特点配置需要进行数据采集的网站并确定该采集网站的配置信息，从而确定待采集任务。所述规则采集库存储所述站点配置模块10确定的待采集任务，并将所述待采集任务分配到所述对应的分发服务器。所述分发服务器实时接收所述规则采集器分配的每一个待采集任务并迅速将所述待采集任务划分成若干子任务，以便于而所述采集器根据所述子任务的局限性，快速将子任务爬取并重新组合成更大的任务群，从而将采集架构的数据采集能力提升到重量级。其中，所述采集器包括至少两个网络爬虫单元。

具体的，在所述分发服务端建立完成端口，并在所述网络爬虫端创建用于监听的socket，绑定到完成端口，开始在指定的所述完成端口上监听连接请求；

所述规则采集库将所述待采集任务分配到所述对应的分发服务器的具体步骤如下：

若socket监听到所述连接请求，则建立一个新的线程，把所述socket的描述发送给所述完成端口确认连接；

所述网络爬虫单元爬取待采集子任务；

所述socket继续处于监听状态，继续接收其他完成端口的连接请求，重复上一步骤。

需要说明的是，所述完成端口与所述socket之间优先通过所述代理服务器15相连接，能够提高所述socket对所述子任务浏览速率达到实时监听的目的。由于所述分发服务器和所述网络爬虫单元的数量是根据数据采集架构的实际采集能力需要设置的，所以，为了满足对重量级的数据进行实时采集，所述socket和所述完成端口的数量也是与分发服务器和所述网络爬虫单元对应的，并且所述socket对所述完成端口的监听动作是异步并发的。因此，所述采集器能够在一个线程并发处理多个待采集子任务，从而提高对数据采集的实时性以及提高对数据采集的量级。

具体的，所述预设的采集策略，具体包括如下步骤：

下载Web页面并生成DOM模型，通过识别处理生成连接节点图；

对所述节点图中的各节点进行深度遍历，以获取所需连接组成链接集；

根据Web页面样式生成视觉树，并对所述视觉树的重要分进行支定位，并对页面正文结点集合进行选举；

将选举成功的正文结点列表进行去杂质处理，并对抽取文本重排段落，得到采集数据。

需要说明的是，所述采集器还包括链接生成单元，所述链接生成单元执行下载Web页面的操作；其中，所述对视觉树的重要分支进行定位是指根据待采集任务的具体内容和特点有针对性地对相应的网页正文进行快速定位，并将所需正文内容进行抽取(即选举)。

具体的，所述流服务19还用于将所述数据节点连接起来，实现海量数据的采集、聚合和传输；所述数据节点包括消息列队***，用于存储所述流服务19发送的标记有业务标识的采集数据，并且根据接收到的采集数据确定子任务间的数据交换以及监测子任务划分的合理性，从而能够提高待采集子任务划分的合理性并实现对重量级数据的存储功能。

需要说明的是，所述消息列队***为Kafka消息列队***。

由上述本发明的另一个实施例可以看出，本发明通过在所述分发服务器建立所述完成端口，并在所述网络爬虫单元创建绑定所述完成端口的所述socket，能够在一个线程里并发处理多个待采集子任务，从而提高采集器对数据采集的实时性。通过根据数据采集架构的实际采集能力需要设置若干个所述分发服务器、所述网络爬虫单元以及数据节点，并预先设置执行爬取所述子任务操作的采集策略，利用流服务19作为中间件以及利用消息列队***作为采集数据的接受存储的数据节点，从而使得数据采集架构能够执行重量级的数据采集任务并提高数据采集的实时性。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种高并发并行计算的大数据采集***，其特征在于，包括：业务数据管理平台、调度中心、采集器、流服务和数据节点；所述业务数据管理平台包括站点配置模块和采集规则库；所述调度中心包括代理服务器和至少两个分发服务器；所述数据节点模块包括至少两个数据节点；

2.根据权利要求1所述的一种高并发并行计算的大数据采集***，其特征在于，所述分发服务器建立有完成端口，所述网络爬虫端创建有用于绑定所述完成端口并监听所述完成端口连接请求的socket。

3.根据权利要求1所述的一种高并发并行计算的大数据采集***，其特征在于，所述采集器包括链接生成单元及网络爬虫单元；

4.根据权利要求1所述的一种高并发并行计算的大数据采集***，其特征在于，所述数据节点，还用于利用消息队列存储所述流服务发送的标记有业务标识的采集数据。

5.根据权利要求4所述的一种高并发并行计算的大数据采集***，其特征在于，所述数据节点，还用于利用所述消息队列及接收到的数据，确定子任务间的数据交换，监测子任务划分的合理性。

6.一种高并发并行计算的大数据采集方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的一种高并发并行计算的大数据采集方法，其特征在于，所述分发服务器建立有完成端口，所述网络爬虫端创建有用于绑定所述完成端口并监听所述完成端口连接请求的socket。

8.根据权利要求6所述的一种高并发并行计算的大数据采集方法，其特征在于，所述采集器基于预设的采集策略执行爬取所述子任务的操作，以进行数据采集，并将采集数据发送至所述流服务具体为：

9.根据权利要求1所述的一种高并发并行计算的大数据采集方法，其特征在于，还包括：

10.根据权利要求9所述的一种高并发并行计算的大数据采集***，其特征在于，还包括：