CN107451223A - 一种高并发并行计算的大数据采集***及方法 - Google Patents

一种高并发并行计算的大数据采集***及方法 Download PDF

Info

Publication number
CN107451223A
CN107451223A CN201710585060.8A CN201710585060A CN107451223A CN 107451223 A CN107451223 A CN 107451223A CN 201710585060 A CN201710585060 A CN 201710585060A CN 107451223 A CN107451223 A CN 107451223A
Authority
CN
China
Prior art keywords
data
data acquisition
subtask
parallel computation
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710585060.8A
Other languages
English (en)
Inventor
晋彤
李永康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Special Road Mdt Infotech Ltd
Original Assignee
Guangzhou Special Road Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Special Road Mdt Infotech Ltd filed Critical Guangzhou Special Road Mdt Infotech Ltd
Priority to CN201710585060.8A priority Critical patent/CN107451223A/zh
Publication of CN107451223A publication Critical patent/CN107451223A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种高并发并行计算的大数据采集***,包括业务数据管理平台、调度中心、采集器、流服务和数据节点;所述业务数据管理平台包括用于根据不同内容和网站特点配置待采集任务的站点配置模块和用于存储并将待采集任务分配给分发服务器的采集规则库;所述调度中心包括至少两个用于将待采集任务划分成子任务的所述分发服务器;所述采集器用于基于预设的采集策略执行爬取所述子任务操作以进行数据采集,并将采集数据发送至流服务;所述流服务用于对采集数据进行聚合,并根据业务的标识将数据发送至相应的数据节点进行检索和存储。本发明还公开了一种高并发并行计算的大数据采集系方法,提高了大数据采集***的采集能力和处理数据的实时性。

Description

一种高并发并行计算的大数据采集***及方法
技术领域
本发明涉及动态规划、并行计算及网格计算领域,尤其涉及一种高并发并行计算的大数据采集***及方法。
背景技术
现有大数据采集架构中主要利用网络蜘蛛技术如Heritrix、PySpider等对互联网数据进行实时抓取,但是发明人在研究大数据采集架构过程中发现,目前线上的对互联网数据进行实时抓取的大数据采集架构都是轻量级的,而且现有大数据采集架构将互联网数据发送到数据中心的实时性不高。
发明内容
针对上述问题,本发明的目的在于提供一种高并发并行计算的大数据采集***及方法,提高大数据采集架构的采集能力和处理数据的实时性。
为了解决上述技术问题,本发明提供了一种高并发并行计算的大数据采集***,包括:业务数据管理平台、调度中心、采集器、流服务和数据节点;所述业务数据管理平台包括站点配置模块和采集规则库;所述调度中心包括代理服务器和至少两个分发服务器;所述数据节点模块包括至少两个数据节点;
所述站点配置模块,用于根据不同内容和网站特点配置待采集任务;
所述采集规则库,用于存储并将待采集任务分配给相应的所述分发服务器;
所述分发服务器,用于将待采集任务进行划分成子任务,并由所述代理服务器将子任务映射到采集器;
所述采集器,用于基于预设的采集策略执行爬取所述子任务的操作,以进行数据采集,并将采集数据发送至所述流服务;
所述流服务,用于对采集数据进行聚合,并根据业务的标识将聚合的采集数据发送至相应的数据节点进行检索和存储。
优选地,所述分发服务器建立有完成端口,所述网络爬虫端创建有用于绑定所述完成端口并监听所述完成端口连接请求的socket。
优选地,所述采集器包括链接生成单元及网络爬虫单元;
其中,所述链接生成单元,用于下载Web页面并生成DOM模型,通过识别处理生成连接节点图并对所述节点图中的各节点进行深度遍历,以获取所需连接组成链接集;
所述网络爬虫单元,用于根据Web页面的样式生成视觉树,并对所述视觉树的重要分进行支定位,从而对与所述链接集对应的页面正文结点集合进行选举,并将选举成功的正文结点列表进行去杂质处理,对抽取文本重排段落,得到采集数据。
优选地,所述数据节点,还用于利用消息队列存储所述流服务发送的标记有业务标识的采集数据。
优选地,所述数据节点,还用于利用所述消息队列及接收到的数据,确定子任务间的数据交换,监测子任务划分的合理性。
本发明还提供了一种高并发并行计算的大数据采集方法,包括以下步骤:
所述站点配置模块根据不同内容和网站特点配置待采集任务;
所述采集规则库存储并将待采集任务分配给相应的所述分发服务器;
所述分发服务器将待采集任务进行划分成子任务,并由所述代理服务器将子任务映射到采集器;
所述采集器基于预设的采集策略执行爬取所述子任务的操作,以进行数据采集,并将采集数据发送至所述流服务;
所述流服务对采集数据进行聚合,并根据业务的标识将聚合的采集数据发送至相应的数据节点进行检索和存储。
优选地,所述分发服务器建立有完成端口,所述网络爬虫端创建有用于绑定所述完成端口并监听所述完成端口连接请求的socket。
优选地,所述采集器基于预设的采集策略执行爬取所述子任务的操作,以进行数据采集,并将采集数据发送至所述流服务具体为:
所述采集器下载Web页面并生成DOM模型,通过识别处理生成连接节点图并对所述节点图中的各节点进行深度遍历,以获取所需连接组成链接集;
所述采集器根据Web页面的样式生成视觉树,并对所述视觉树的重要分进行支定位,从而对与所述链接集对应的页面正文结点集合进行选举,并将选举成功的正文结点列表进行去杂质处理,对抽取文本重排段落,得到采集数据。
优选地,还包括:
所述数据节点利用消息队列存储所述流服务发送的标记有业务标识的采集数据。
优选地,还包括:
所述数据节点利用所述消息队列及接收到的数据,确定子任务间的数据交换,监测子任务划分的合理性。
本发明具有以下有益效果:
本发明通过利用建立完成端口和socket进行高并发异步调度,对多集群进行实时处理;通过设置多个分发服务器和多个网络爬虫单元实现多线程的实时计算和深度采集,提高了数据采集能力和数据处理能力;通过设置流服务中间件和消息列队体统,实现海量信息的聚合、存储和传输。因此,本发明提供的一种高并发并行计算的大数据采集***及方法,提高大数据采集架构的采集能力和处理数据的实时性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的高并发并行计算的大数据采集***的结构示意图。
图2是本发明实施例提供的高并发并行计算的大数据采集方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种高并发并行计算的大数据采集***,包括:业务数据管理平台、调度中心、采集器、流服务19和数据节点;所述业务数据管理平台包括站点配置模块10和采集规则库11;所述调度中心包括代理服务器15和至少两个分发服务器,如第一分发服务器12、第二分发服务器13和第三分发服务器14;所述数据节点模块包括至少两个数据节点,如第一数据节点20、第二数据节点21和第三数据节点22。所述站点配置模块10,用于根据不同内容和网站特点配置待采集任务;所述采集规则库11,用于存储并将待采集任务分配给相应的所述第一分发服务器12、所述第二分发服务器13和所述第三分发服务器14;所述第一分发服务器12、所述第二分发服务器13和所述第三分发服务器14,用于将待采集任务进行划分成子任务,并由所述代理服务器15将子任务映射到采集器;所述采集器,用于基于预设的采集策略执行爬取所述子任务的操作,以进行数据采集,并将采集数据发送至所述流服务19;所述流服务19,用于对采集数据进行聚合,并根据业务的标识将聚合的采集数据发送至相应的所述第一数据节点20、所述第二数据节点21和所述第三数据节点22进行检索和存储。
具体的,所述分发服务器实时接收所述规则采集器分配的每一个待采集任务并迅速将所述待采集任务划分成若干子任务,而所述采集器包括至少两个网络爬虫单元,用于根据所述子任务的局限性,快速将子任务爬取并重新组合成更大的任务群。其中,所述子任务的局限性指的是待采集任务将子任务划分的足够小以满足线程能够快速并发处理的要求。
具体的,所述采集器用于执行爬取所述子任务的操作,以进行数据采集,是基于这样一个预设的采集策略的:所述采集器还包括链接生成单元,其中,所述链接生成单元,用于下载Web页面并生成DOM(Document Object Model,文档对象模型,简称DOM)模型,通过识别处理生成连接节点图并对所述节点图中的各节点进行深度遍历,以获取所需连接组成链接集;所述网络爬虫单元,用于根据Web页面的样式生成视觉树,并对所述视觉树的重要分支进行定位,从而对与所述链接集对应的页面正文结点集合进行选举,并将选举成功的正文结点列表进行去杂质处理,对抽取文本重排段落,得到采集数据。其中,所述对视觉树的重要分支进行定位是指根据待采集任务的具体内容和特点有针对性地对相应的网页正文进行快速定位,并将所需正文内容进行抽取(即选举)。
具体的,所述流服务19还用于将所述数据节点连接起来,实现海量数据的采集、聚合和传输;所述数据节点包括消息列队***,优选Kafka(一种高吞吐量的分布式发布订阅消息***)消息列队***,所述消息队列***用于存储所述流服务19发送的标记有业务标识的采集数据,并且根据接收到的采集数据确定子任务间的数据交换以及监测子任务划分的合理性,从而能够提高待采集子任务划分的合理性并实现对重量级数据的存储功能。
需要说明的是,根据数据采集架构的实际采集能力需要设置若干个所述分发服务器、所述网络爬虫单元以及数据节点,从而能够实时执行重量级的数据采集任务。
由上述本发明的一个实施例可以看出,本发明通过根据数据采集架构的实际采集能力需要设置若干个所述分发服务器、所述网络爬虫单元以及数据节点,并预先设置执行爬取所述子任务操作的采集策略,利用流服务19作为中间件以及利用消息列队***作为采集数据的接受存储的数据节点,从而能够执行重量级的数据采集任务并提高数据采集的实时性。
优选的,所述第一分发服务器12、所述第二分发服务器13和所述第三分发服务器14均建立有完成端口,所述采集器包括第一网络爬虫单元16、第二网络爬虫单元17和第三网络爬虫单元18并且每一所述网络爬虫单元均创建有用于绑定所述完成端口并监听所述完成端口连接请求的socket(计算机术语,套接字)。
具体的,所述完成端口与所述socket之间优先通过所述代理服务器15相连接,能够提高所述socket对所述子任务浏览速率达到实时监听的目的。所述socket用于绑定所述完成端口并监听所述完成端口连接请求。所述socket对所述完成端口的监听工作如下,所述socket一直处于监听状态,若socket监听到所述连接请求,则建立一个新的线程,把所述socket的描述发送给所述完成端口确认连接;连接确认后,所述socket继续处于监听状态,继续接收其他完成端口的连接请求。由于所述分发服务器和所述网络爬虫单元的数量是根据数据采集架构的实际采集能力需要设置的,所以,为了满足对重量级的数据进行实时采集,所述socket和所述完成端口的数量也是与分发服务器和所述网络爬虫单元对应的,并且所述socket对所述完成端口的监听动作是异步并发的。因此,所述采集器能够在一个线程并发处理多个待采集子任务,从而提高对数据采集的实时性以及提高对数据采集的量级。
由上述本发明的另一个实施例可以看出,本发明通过在所述分发服务器建立所述完成端口,并在所述网络爬虫单元创建绑定所述完成端口的所述socket,能够在一个线程里并发处理多个待采集子任务,从而提高采集器对数据采集的实时性以及提高对数据采集的量级。
如图2所示,本发明还提供了一种高并发并行计算的大数据采集方法,包括以下步骤:
S101,所述站点配置模块根据不同内容和网站特点配置待采集任务。
S102,所述采集规则库存储并将待采集任务分配给相应的所述分发服务器;
S103,所述分发服务器将待采集任务进行划分成子任务,并由所述代理服务器将子任务映射到采集器;
S104,所述采集器基于预设的采集策略执行爬取所述子任务的操作,以进行数据采集,并将采集数据发送至所述流服务;
S105,所述流服务对采集数据进行聚合,并根据业务的标识将聚合的采集数据发送至相应的数据节点进行检索和存储。
具体的,所述站点配置模块10根据不同内容和网站特点配置需要进行数据采集的网站并确定该采集网站的配置信息,从而确定待采集任务。所述规则采集库存储所述站点配置模块10确定的待采集任务,并将所述待采集任务分配到所述对应的分发服务器。所述分发服务器实时接收所述规则采集器分配的每一个待采集任务并迅速将所述待采集任务划分成若干子任务,以便于而所述采集器根据所述子任务的局限性,快速将子任务爬取并重新组合成更大的任务群,从而将采集架构的数据采集能力提升到重量级。其中,所述采集器包括至少两个网络爬虫单元。
具体的,在所述分发服务端建立完成端口,并在所述网络爬虫端创建用于监听的socket,绑定到完成端口,开始在指定的所述完成端口上监听连接请求;
所述规则采集库将所述待采集任务分配到所述对应的分发服务器的具体步骤如下:
若socket监听到所述连接请求,则建立一个新的线程,把所述socket的描述发送给所述完成端口确认连接;
所述网络爬虫单元爬取待采集子任务;
所述socket继续处于监听状态,继续接收其他完成端口的连接请求,重复上一步骤。
需要说明的是,所述完成端口与所述socket之间优先通过所述代理服务器15相连接,能够提高所述socket对所述子任务浏览速率达到实时监听的目的。由于所述分发服务器和所述网络爬虫单元的数量是根据数据采集架构的实际采集能力需要设置的,所以,为了满足对重量级的数据进行实时采集,所述socket和所述完成端口的数量也是与分发服务器和所述网络爬虫单元对应的,并且所述socket对所述完成端口的监听动作是异步并发的。因此,所述采集器能够在一个线程并发处理多个待采集子任务,从而提高对数据采集的实时性以及提高对数据采集的量级。
具体的,所述预设的采集策略,具体包括如下步骤:
下载Web页面并生成DOM模型,通过识别处理生成连接节点图;
对所述节点图中的各节点进行深度遍历,以获取所需连接组成链接集;
根据Web页面样式生成视觉树,并对所述视觉树的重要分进行支定位,并对页面正文结点集合进行选举;
将选举成功的正文结点列表进行去杂质处理,并对抽取文本重排段落,得到采集数据。
需要说明的是,所述采集器还包括链接生成单元,所述链接生成单元执行下载Web页面的操作;其中,所述对视觉树的重要分支进行定位是指根据待采集任务的具体内容和特点有针对性地对相应的网页正文进行快速定位,并将所需正文内容进行抽取(即选举)。
具体的,所述流服务19还用于将所述数据节点连接起来,实现海量数据的采集、聚合和传输;所述数据节点包括消息列队***,用于存储所述流服务19发送的标记有业务标识的采集数据,并且根据接收到的采集数据确定子任务间的数据交换以及监测子任务划分的合理性,从而能够提高待采集子任务划分的合理性并实现对重量级数据的存储功能。
需要说明的是,所述消息列队***为Kafka消息列队***。
由上述本发明的另一个实施例可以看出,本发明通过在所述分发服务器建立所述完成端口,并在所述网络爬虫单元创建绑定所述完成端口的所述socket,能够在一个线程里并发处理多个待采集子任务,从而提高采集器对数据采集的实时性。通过根据数据采集架构的实际采集能力需要设置若干个所述分发服务器、所述网络爬虫单元以及数据节点,并预先设置执行爬取所述子任务操作的采集策略,利用流服务19作为中间件以及利用消息列队***作为采集数据的接受存储的数据节点,从而使得数据采集架构能够执行重量级的数据采集任务并提高数据采集的实时性。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

Claims (10)

1.一种高并发并行计算的大数据采集***,其特征在于,包括:业务数据管理平台、调度中心、采集器、流服务和数据节点;所述业务数据管理平台包括站点配置模块和采集规则库;所述调度中心包括代理服务器和至少两个分发服务器;所述数据节点模块包括至少两个数据节点;
所述站点配置模块,用于根据不同内容和网站特点配置待采集任务;
所述采集规则库,用于存储并将待采集任务分配给相应的所述分发服务器;
所述分发服务器,用于将待采集任务进行划分成子任务,并由所述代理服务器将子任务映射到采集器;
所述采集器,用于基于预设的采集策略执行爬取所述子任务的操作,以进行数据采集,并将采集数据发送至所述流服务;
所述流服务,用于对采集数据进行聚合,并根据业务的标识将聚合的采集数据发送至相应的数据节点进行检索和存储。
2.根据权利要求1所述的一种高并发并行计算的大数据采集***,其特征在于,所述分发服务器建立有完成端口,所述网络爬虫端创建有用于绑定所述完成端口并监听所述完成端口连接请求的socket。
3.根据权利要求1所述的一种高并发并行计算的大数据采集***,其特征在于,所述采集器包括链接生成单元及网络爬虫单元;
其中,所述链接生成单元,用于下载Web页面并生成DOM模型,通过识别处理生成连接节点图并对所述节点图中的各节点进行深度遍历,以获取所需连接组成链接集;
所述网络爬虫单元,用于根据Web页面的样式生成视觉树,并对所述视觉树的重要分进行支定位,从而对与所述链接集对应的页面正文结点集合进行选举,并将选举成功的正文结点列表进行去杂质处理,对抽取文本重排段落,得到采集数据。
4.根据权利要求1所述的一种高并发并行计算的大数据采集***,其特征在于,所述数据节点,还用于利用消息队列存储所述流服务发送的标记有业务标识的采集数据。
5.根据权利要求4所述的一种高并发并行计算的大数据采集***,其特征在于,所述数据节点,还用于利用所述消息队列及接收到的数据,确定子任务间的数据交换,监测子任务划分的合理性。
6.一种高并发并行计算的大数据采集方法,其特征在于,包括以下步骤:
所述站点配置模块根据不同内容和网站特点配置待采集任务;
所述采集规则库存储并将待采集任务分配给相应的所述分发服务器;
所述分发服务器将待采集任务进行划分成子任务,并由所述代理服务器将子任务映射到采集器;
所述采集器基于预设的采集策略执行爬取所述子任务的操作,以进行数据采集,并将采集数据发送至所述流服务;
所述流服务对采集数据进行聚合,并根据业务的标识将聚合的采集数据发送至相应的数据节点进行检索和存储。
7.根据权利要求6所述的一种高并发并行计算的大数据采集方法,其特征在于,所述分发服务器建立有完成端口,所述网络爬虫端创建有用于绑定所述完成端口并监听所述完成端口连接请求的socket。
8.根据权利要求6所述的一种高并发并行计算的大数据采集方法,其特征在于,所述采集器基于预设的采集策略执行爬取所述子任务的操作,以进行数据采集,并将采集数据发送至所述流服务具体为:
所述采集器下载Web页面并生成DOM模型,通过识别处理生成连接节点图并对所述节点图中的各节点进行深度遍历,以获取所需连接组成链接集;
所述采集器根据Web页面的样式生成视觉树,并对所述视觉树的重要分进行支定位,从而对与所述链接集对应的页面正文结点集合进行选举,并将选举成功的正文结点列表进行去杂质处理,对抽取文本重排段落,得到采集数据。
9.根据权利要求1所述的一种高并发并行计算的大数据采集方法,其特征在于,还包括:
所述数据节点利用消息队列存储所述流服务发送的标记有业务标识的采集数据。
10.根据权利要求9所述的一种高并发并行计算的大数据采集***,其特征在于,还包括:
所述数据节点利用所述消息队列及接收到的数据,确定子任务间的数据交换,监测子任务划分的合理性。
CN201710585060.8A 2017-07-17 2017-07-17 一种高并发并行计算的大数据采集***及方法 Pending CN107451223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710585060.8A CN107451223A (zh) 2017-07-17 2017-07-17 一种高并发并行计算的大数据采集***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710585060.8A CN107451223A (zh) 2017-07-17 2017-07-17 一种高并发并行计算的大数据采集***及方法

Publications (1)

Publication Number Publication Date
CN107451223A true CN107451223A (zh) 2017-12-08

Family

ID=60487791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710585060.8A Pending CN107451223A (zh) 2017-07-17 2017-07-17 一种高并发并行计算的大数据采集***及方法

Country Status (1)

Country Link
CN (1) CN107451223A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038226A (zh) * 2017-12-25 2018-05-15 郑州云海信息技术有限公司 一种数据快速采集***及方法
CN108153741A (zh) * 2018-01-12 2018-06-12 中译语通科技股份有限公司 基于多语言高效数据采集方法、计算机程序
CN108182233A (zh) * 2017-12-27 2018-06-19 苏州麦迪斯顿医疗科技股份有限公司 一种分布式数据抽取方法、装置、计算机设备及存储介质
CN109697124A (zh) * 2018-12-12 2019-04-30 深圳店匠科技有限公司 高并发电商网站的网页数据采集方法、***和介质
CN110795480A (zh) * 2019-10-09 2020-02-14 北京趣拿软件科技有限公司 交通运营数据的处理方法及装置
CN110910177A (zh) * 2019-11-28 2020-03-24 中国银行股份有限公司 一种数据采集***
CN112328405A (zh) * 2020-11-26 2021-02-05 杭州安恒信息安全技术有限公司 一种分布式数据采集调度方法及相关装置
CN112732996A (zh) * 2021-01-11 2021-04-30 深圳市洪堡智慧餐饮科技有限公司 一种基于异步aiohttp多平台分布式数据爬取方法
WO2024045621A1 (zh) * 2022-08-31 2024-03-07 华为云计算技术有限公司 数据处理方法、装置及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375837A (zh) * 2010-08-19 2012-03-14 ***通信集团公司 数据采集***和方法
CN103605764A (zh) * 2013-11-26 2014-02-26 Tcl集团股份有限公司 一种网络爬虫***及网络爬虫多任务执行和调度方法
CN105426410A (zh) * 2015-11-02 2016-03-23 东软集团股份有限公司 数据采集***和用于数据采集***的分析方法
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN106487886A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 大数据信息发布***及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375837A (zh) * 2010-08-19 2012-03-14 ***通信集团公司 数据采集***和方法
CN103605764A (zh) * 2013-11-26 2014-02-26 Tcl集团股份有限公司 一种网络爬虫***及网络爬虫多任务执行和调度方法
CN105426410A (zh) * 2015-11-02 2016-03-23 东软集团股份有限公司 数据采集***和用于数据采集***的分析方法
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN106487886A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 大数据信息发布***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张昕: ""异构就业数据集成服务的设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038226A (zh) * 2017-12-25 2018-05-15 郑州云海信息技术有限公司 一种数据快速采集***及方法
CN108182233A (zh) * 2017-12-27 2018-06-19 苏州麦迪斯顿医疗科技股份有限公司 一种分布式数据抽取方法、装置、计算机设备及存储介质
CN108153741A (zh) * 2018-01-12 2018-06-12 中译语通科技股份有限公司 基于多语言高效数据采集方法、计算机程序
CN108153741B (zh) * 2018-01-12 2021-10-15 中译语通科技股份有限公司 基于多语言高效数据采集方法、计算机程序
CN109697124A (zh) * 2018-12-12 2019-04-30 深圳店匠科技有限公司 高并发电商网站的网页数据采集方法、***和介质
CN110795480A (zh) * 2019-10-09 2020-02-14 北京趣拿软件科技有限公司 交通运营数据的处理方法及装置
CN110795480B (zh) * 2019-10-09 2023-11-21 北京趣拿软件科技有限公司 交通运营数据的处理方法及装置
CN110910177A (zh) * 2019-11-28 2020-03-24 中国银行股份有限公司 一种数据采集***
CN112328405A (zh) * 2020-11-26 2021-02-05 杭州安恒信息安全技术有限公司 一种分布式数据采集调度方法及相关装置
CN112732996A (zh) * 2021-01-11 2021-04-30 深圳市洪堡智慧餐饮科技有限公司 一种基于异步aiohttp多平台分布式数据爬取方法
WO2024045621A1 (zh) * 2022-08-31 2024-03-07 华为云计算技术有限公司 数据处理方法、装置及***

Similar Documents

Publication Publication Date Title
CN107451223A (zh) 一种高并发并行计算的大数据采集***及方法
CN103210374B (zh) 基于实际负载和资源可用性的io资源动态创建和销毁
CN108205541A (zh) 分布式网络爬虫任务的调度方法及装置
CN108845878A (zh) 基于无服务器计算的大数据处理方法及装置
CN107071009A (zh) 一种负载均衡的分布式大数据爬虫***
CN107800756A (zh) 一种负载均衡方法及负载均衡器
CN100449497C (zh) 并行计算机和定位并行计算机中硬件故障的方法
CN109144731A (zh) 数据处理方法、装置、计算机设备及存储介质
CN109062658A (zh) 实现计算资源服务化的调度方法、装置、介质、设备及***
CN109471727A (zh) 一种任务处理方法、装置及***
CN103338252B (zh) 一种分布式数据库并发存储虚拟请求机制的实现方法
CN104239555B (zh) 基于mpp的并行数据挖掘***及其实现方法
CN103763130B (zh) 大规模集群的管理方法、装置和***
CN107025139A (zh) 一种基于云计算的高性能计算调度框架
CN108898219A (zh) 一种基于区块链的神经网络训练方法、装置及介质
CN104504006B (zh) 对新闻客户端的数据采集及解析的方法及***
CN108536532A (zh) 一种批量任务处理方法及***
CN103941662A (zh) 一种基于云计算的任务调度***和调度方法
CN109471705A (zh) 任务调度的方法、设备及***、计算机设备
CN103607424B (zh) 一种服务器连接方法及服务器***
CN109976917A (zh) 一种负载调度方法、装置、负载调度器、存储介质及***
CN108920948A (zh) 一种反欺诈流式计算装置及方法
CN110401657A (zh) 一种访问日志的处理方法及装置
CN103957280B (zh) 一种物联网中的传感网络连接分配和调度方法
CN109710412A (zh) 一种基于动态反馈的Nginx负载均衡方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171208

RJ01 Rejection of invention patent application after publication