CN104714875A - 一种分布式的自动化采集的方法 - Google Patents

一种分布式的自动化采集的方法 Download PDF

Info

Publication number
CN104714875A
CN104714875A CN201510106013.1A CN201510106013A CN104714875A CN 104714875 A CN104714875 A CN 104714875A CN 201510106013 A CN201510106013 A CN 201510106013A CN 104714875 A CN104714875 A CN 104714875A
Authority
CN
China
Prior art keywords
server
management server
collecting
collection
servers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510106013.1A
Other languages
English (en)
Inventor
孙海峰
王传超
徐宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510106013.1A priority Critical patent/CN104714875A/zh
Publication of CN104714875A publication Critical patent/CN104714875A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种分布式的自动化采集的方法,该方法的步骤如下:将单机采集程序部署到各个服务器上;将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址;将要采集的地址,放入管理服务器数据库中,进行任务分配;管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,都由管理服务器进行控制;将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务;通过监控服务器***,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。本发明可以避免整个***崩溃的危险;减少了人力维护,并通过监控服务器***,判断子节点的采集情况。

Description

一种分布式的自动化采集的方法
技术领域
  本发明涉及计算机数据处理技术领域,具体地说是一种分布式的自动化采集的方法。
背景技术
现实中,每时每刻都产生大量的数据,有些需要分析,有些需要存储,所有的这些需要处理的数据数量是庞大,具有相似性的,所以需要对这些大数据进行分析处理,提取需要的数据。
数据采集需要数据是有相似性的,以便可以根据他们的规律提取相应的数据,采集的数据还要有采集提取的价值或用途。数据采集要具备采集的方法或方案,可以有计划和步骤进行采集,要具备采集的条件,比如设备和技术。
面对几十台、上百台的服务器,如果采集人员每次都要进入服务器进行配置采集任务,操作采集程序,会面临很多问题:
1)维护量大,远程连接、重复性的配置,采集等。
2)浪费服务器资源,不能充分利用每台服务器资源,由于人工不能及时发现服务器采集是否完成,所以不能及时执行下一步程序。
3)错误率增加,由于人工需要大量的操作,配置信息的错误率也会增加。
4)数据量大,采集类型、采集配置各不相同。不同的网站的数据显示方式不同,需要不同的配置方法。
发明内容
  本发明的技术任务是提供一种分布式的自动化采集的方法。
本发明的技术任务是按以下方式实现的,该方法的步骤如下:
步骤1:将单机采集程序部署到各个服务器上;
步骤2:将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址;
步骤3: 将要采集的地址,放入管理服务器数据库中,进行任务分配;
步骤4:管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,什么时候采集,什么时候结束,都由管理服务器进行控制;
    步骤5:将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务;
    步骤6:通过监控服务器***,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。
所述的步骤3中,进行任务分配是通过管理服务器根据各个服务器的采集速度决定的。
所述的步骤6中将非正常采集的服务器信息通过邮件方式发送给管理员。
本发明的一种分布式的自动化采集的方法和现有技术相比,能够平衡每台服务器的采集压力,提高效率。可以避免由于单个节点失效而使整个***崩溃的危险。减少了人力维护,将配置好的采集内容由管理服务器分配任务,并通过监控服务器***,判断子节点的采集情况。
附图说明
    附图1为一种分布式的自动化采集的方法的流程框图。
具体实施方式
  实施例1:
该方法的步骤如下:
步骤1:将单机采集程序部署到各个服务器上;
步骤2:将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址;
步骤3:将要采集的地址,放入管理服务器数据库中,由管理服务器根据各个服务器采集速度,进行任务分配;
步骤4:管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,什么时候采集,什么时候结束,都由管理服务器进行控制;
    步骤5:将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务;
    步骤6:通过监控服务器***,判断服务器的采集情况,将非正常采集的服务器信息通过邮件方式发送给管理员,并将采集任务平均分配到其它空闲服务器。
实施例2:
每次的采集任务不一样,采集时间不一样,子节点地址的变化;通过以下步骤搭建平台:
1)将单机采集程序部署到子节点上,启动采集程序。
2)在管理服务器上配置好采集节点的地址,并测试通过。
3)调用监控服务器***的接口。
4)部署数据节点。
5)配置采集任务,测试通过。
将部署在多台服务器上的单机采集程序进行统一管理,通过发送/接收消息的方式,分配和接收采集任务。平衡每台服务器的采集压力,将负载由单个节点转移到多个,从而提高效率。可以避免由于单个节点失效而使整个***崩溃的危险。减少了人力维护,将配置好的采集内容由管理服务器分配任务,并通过监控服务器***,判断子节点的采集情况。采用观察者模式,通过后台的管理,服务器根据后台设置的方案进行数据采集任务,并反馈给后台服务器的状态,实现对服务器的管理。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (3)

1.一种分布式的自动化采集的方法,其特征在于,该方法的步骤如下:
步骤1:将单机采集程序部署到各个服务器上;
步骤2:将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址;
步骤3: 将要采集的地址,放入管理服务器数据库中,进行任务分配;
步骤4:管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,什么时候采集,什么时候结束,都由管理服务器进行控制;
步骤5:将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务;
步骤6:通过监控服务器***,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。
2.述的步骤3中,进行任务分配是通过管理服务器根据各个服务器的采集速度决定的。
3.根据权利要求1所述的一种分布式的自动化采集的方法,其特征在于,所述的步骤6中将非正常采集的服务器信息通过邮件方式发送给管理员。
CN201510106013.1A 2015-03-11 2015-03-11 一种分布式的自动化采集的方法 Pending CN104714875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510106013.1A CN104714875A (zh) 2015-03-11 2015-03-11 一种分布式的自动化采集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510106013.1A CN104714875A (zh) 2015-03-11 2015-03-11 一种分布式的自动化采集的方法

Publications (1)

Publication Number Publication Date
CN104714875A true CN104714875A (zh) 2015-06-17

Family

ID=53414234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510106013.1A Pending CN104714875A (zh) 2015-03-11 2015-03-11 一种分布式的自动化采集的方法

Country Status (1)

Country Link
CN (1) CN104714875A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107222564A (zh) * 2017-07-04 2017-09-29 贵州数据宝网络科技有限公司 数据采集方法及装置
CN109522183A (zh) * 2018-10-23 2019-03-26 东软集团股份有限公司 工作状态监控方法及***,采集器,服务器及存储介质
CN110968755A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 一种爬取数据的方法及装置
CN111130900A (zh) * 2019-12-30 2020-05-08 智慧神州(北京)科技有限公司 基于协调服务的分布式互联的数据采集方法与装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156946A (ja) * 2005-12-07 2007-06-21 Nec Engineering Ltd 分散型プログラムのトレース装置
CN101370024A (zh) * 2007-08-15 2009-02-18 北京灵图软件技术有限公司 信息的分布式采集方法及***
CN101867226A (zh) * 2010-06-07 2010-10-20 国电南瑞科技股份有限公司 调度自动化***广域分布式数据采集方法
CN102508709A (zh) * 2011-11-30 2012-06-20 国电南瑞科技股份有限公司 购供售一体化电能量采集与监控***中基于分布式缓存的采集任务调度方法
CN103246592A (zh) * 2013-05-13 2013-08-14 北京搜狐新媒体信息技术有限公司 一种监控采集***及方法
CN103856565A (zh) * 2014-03-18 2014-06-11 浪潮集团有限公司 一种电子商务税源管理云采集监控方法
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集***
CN104158878A (zh) * 2014-08-18 2014-11-19 浪潮(北京)电子信息产业有限公司 一种自适应调度的分布式监控数据采集方法和***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156946A (ja) * 2005-12-07 2007-06-21 Nec Engineering Ltd 分散型プログラムのトレース装置
CN101370024A (zh) * 2007-08-15 2009-02-18 北京灵图软件技术有限公司 信息的分布式采集方法及***
CN101867226A (zh) * 2010-06-07 2010-10-20 国电南瑞科技股份有限公司 调度自动化***广域分布式数据采集方法
CN102508709A (zh) * 2011-11-30 2012-06-20 国电南瑞科技股份有限公司 购供售一体化电能量采集与监控***中基于分布式缓存的采集任务调度方法
CN103246592A (zh) * 2013-05-13 2013-08-14 北京搜狐新媒体信息技术有限公司 一种监控采集***及方法
CN103856565A (zh) * 2014-03-18 2014-06-11 浪潮集团有限公司 一种电子商务税源管理云采集监控方法
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集***
CN104158878A (zh) * 2014-08-18 2014-11-19 浪潮(北京)电子信息产业有限公司 一种自适应调度的分布式监控数据采集方法和***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107222564A (zh) * 2017-07-04 2017-09-29 贵州数据宝网络科技有限公司 数据采集方法及装置
CN110968755A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 一种爬取数据的方法及装置
CN109522183A (zh) * 2018-10-23 2019-03-26 东软集团股份有限公司 工作状态监控方法及***,采集器,服务器及存储介质
CN109522183B (zh) * 2018-10-23 2022-04-12 东软集团股份有限公司 工作状态监控方法及***,采集器,服务器及存储介质
CN111130900A (zh) * 2019-12-30 2020-05-08 智慧神州(北京)科技有限公司 基于协调服务的分布式互联的数据采集方法与装置

Similar Documents

Publication Publication Date Title
CN104915259A (zh) 一种应用于分布式采集***的任务调度方法
CN108769121A (zh) 智能工业装备物联网数据采集***及采集数据的上传方法
CN110311990B (zh) 一种可配置物联网数据采集***及配置方法
CN102955977A (zh) 一种基于云技术的能效服务方法及其能效服务平台
CN103699063B (zh) 一种制造执行***mes中离线数据的采集装置和方法
CN104714875A (zh) 一种分布式的自动化采集的方法
CN106302017B (zh) 高并发小流量网络测速***及方法
CN104298194B (zh) 电梯远程监控***中采集及传输数据的数据量压缩方法
CN104699736A (zh) 一种分布式的基于可移动设备的大规模数据采集***及方法
CN107959620B (zh) 综采设备识别方法、装置、***、网关及存储介质
CN107992392A (zh) 一种用于云渲染***的自动监控修复***和方法
CN103795575A (zh) 一种面向多数据中心的***监控方法
CN102222112A (zh) 资源管理装置和资源管理方法
CN105163277A (zh) 一种基于位置信息的大数据任务的管理***及方法
CN105553685A (zh) 一种监控网络设备是否在线的***和方法
CN109672731A (zh) 一种分布式节点信息监测方法、***及应用
CN105790978A (zh) 一种网管通讯报文的处理方法、装置、服务器及主控板
CN104283958B (zh) 一种***任务调度方法
CN105187490B (zh) 一种物联网数据的中转处理方法
CN102480369A (zh) 一种网络管理***及性能采集的方法
CN105743676B (zh) 一种多数据源综合采集装置及方法
CN105490879A (zh) 一种大规模集成级网络的自动化分布式性能测试***
CN110837242A (zh) 一种基于物联网的热水供应设备运行状态监控***
CN202385116U (zh) 一种分布式运维数据采集装置
CN106707859A (zh) 基于树莓派的灌浆现场信息处理***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150617

WD01 Invention patent application deemed withdrawn after publication