CN105718351B - 一种面向Hadoop集群的分布式监控管理*** - Google Patents

一种面向Hadoop集群的分布式监控管理*** Download PDF

Info

Publication number
CN105718351B
CN105718351B CN201610010050.7A CN201610010050A CN105718351B CN 105718351 B CN105718351 B CN 105718351B CN 201610010050 A CN201610010050 A CN 201610010050A CN 105718351 B CN105718351 B CN 105718351B
Authority
CN
China
Prior art keywords
module
data
monitoring
distributed
hadoop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610010050.7A
Other languages
English (en)
Other versions
CN105718351A (zh
Inventor
许丹霞
刘寅
汪伟
郑宇�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaodu Information Technology Co Ltd
Original Assignee
Beijing Huishang Rongtong Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huishang Rongtong Information Technology Co Ltd filed Critical Beijing Huishang Rongtong Information Technology Co Ltd
Priority to CN201610010050.7A priority Critical patent/CN105718351B/zh
Publication of CN105718351A publication Critical patent/CN105718351A/zh
Application granted granted Critical
Publication of CN105718351B publication Critical patent/CN105718351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种面向Hadoop集群的分布式监控管理***。一种更适用于我们实际需求的监控管理***。主要包括性能监控模块,故障报警模块,综合分析查询模块,综合展示模块,数据存储模块,配置管理模块,***管理模块。通过此***能够了解服务器资源分配,跟踪Hadoop运行状况,告警异常状况,简化Hadoop平台配置操作,在此基础上发现***资源瓶颈,并优化性能。此***也可用于其他需求环境中对于分布式集群的监控管理。

Description

一种面向Hadoop集群的分布式监控管理***
技术领域
本发明涉及一种面向Hadoop集群的分布式监控管理***,该***更适用于实际需求。通过此***能够了解服务器资源分配,跟踪Hadoop运行状况,告警异常状况,简化Hadoop平台配置操作,在此基础上发现***资源瓶颈,并优化性能。此***也可用于其他需求环境中对于分布式集群的监控管理。
背景技术
与普通的计算机网络环境或数据中心不同,基于Hadoop构建的云计算环境,具有节点数量大、组件及应用复杂的特点,Hadoop旨在运行于低成本的计算机上,视故障为常态,且Hadoop涵盖的功能非常广泛并使用复杂的分布式并行计算架构,这也给Hadoop集群的运营与维护带来了极大的挑战。
目前针对于Hadoop监控和管理的工具有很多,例如Zookeeper、Ganglia、Nagios、Ambari、Chukwa等。每种管理工具在其所专注的领域内,都是比较成功和好用的。Zookeeper用于配置文件的管理、Ganglia和Nagios分别负责分布式集群的监控和告警、Ambari为集群部署和监控管理提供了统一的解决方案、Chukwa解决了收集和分析集群日志的问题。Zookeeper专注于Hadoop平台配置文件的管理工作。Ganglia作为一个出色的集群监控工具,分布式监控效果突出,为我们提供了计算机集群内的采集、收集、存储和展示全套的功能。但它不能对日志分析,只是单纯监控集群的工作状态。Ganglia自带的监控页面可以按不同粒度展示历史数据随时间的变化趋势,而且可以自定义参数。但是展示的参数多而全,想要从中筛选出自己需要的信息,需要对Ganglia有很好的了解,且需要有一定的管理和运营集群的经验。这对于一般的Hadoop使用者是一个挑战。Nagios是一款出色的监控和告警工具。可以通过设计插件随意监控自己关心的内容,并设定阈值,当监控值超过阈值时,Nagios会通过邮件或者短信的方式告警。但是出色的告警功能并不能满足我们监控资源的需求。只能作为集群管理的重要环节。此外,Ganglia和Nagios有一些功能重叠,如果要使用这两种工具,需要规划两者的监控指标,避免不必要的资源浪费。Chukwa现阶段仍不稳定,安装过程复杂,调试困难。其中最接近我们需求的是Ambari,但在实际使用过程中,我们发现Ambari还存在非常多的问题。Ambari无法作为单独的监控和管理工具,不能监控自行安装的集群,必须在安装集群时就使用Ambari,并严格遵守安装时的各种角色分配。对于不同的操作***,安装经常会遇到不能解决的问题,也就是说,Ambari并不能很好的运行于各个Linux操作***上。
发明内容
综上所述,在了解了当前主流的集群管理和监控***后,本发明开发了一种面向Hadoop集群的分布式监控管理***,一种更适用于我们实际需求的监控管理***。通过此***能够了解服务器资源分配,跟踪Hadoop运行状况,告警异常状况,简化Hadoop平台配置操作,在此基础上发现***资源瓶颈,并优化性能。
本发明的目的是解决对于Hadoop平台的性能监控、故障报警、配置管理,其中包括:
1、监控报警功能主要包括采集和存储所有监控的基础数据以及故障告警。
2、本***所能监控的数据不仅仅是***资源和Hadoop的Metrics信息,也可以是Hadoop组件日志和其他组件日志。这是因为Hadoop的Metrics信息无法给出我们所关心的作业运行百分比等信息,所以Hadoop组件日志也是非常重要的基础监控数据来源。日志中通常包含了组件运行开始后,每项操作所调用的代码包、操作执行结果等信息。分析Hadoop组件日志信息,对流量分析***的监控与优化有非常大的帮助。此外对于自行开发运行于集群并与Hadoop组件相关联的组件,为了得到其当前运行情况,以及整体健康状况,应该根据自身需求定义可以反映组件状况的指标,并提供日志输出这些指标。监控***可以监控这些组件的日志,并根据需求报警。
3、通过配置管理模块实现Hadoop平台的统一配置服务,当监控管理***进行报警时,相关人员可以修改Hadoop平台的配置,重新组织和协调资源,并提供web界面简化配置操作。
4、采用综合展示模块实现前端数据的可视化。可以综合展示所有监控指标和报警指标。全方位的了解平台的运行状况。简化并综合繁琐复杂的展示页面,只展现重要的一般管理者和维护者感兴趣的参数和指标。另外本***也支持用户直接访问web页面,查看用户所关心的其他指标。
为实现本发明之目的,采用以下技术方案予以实现:
一种面向Hadoop集群的分布式监控管理***。一种更适用于我们实际需求的监控管理***。主要包括性能监控模块,故障报警模块,综合分析查询模块,综合展示模块,配置管理模块,***管理模块。其中:
性能监控模块,随时了解Hadoop平台的最新状态,发现资源瓶颈,提高平台运行效率,可以监控的数据包括:服务器资源、Hadoop Metrics、Hadoop组件日志以及其他组件日志。
故障报警模块,当计算资源的性能达到瓶颈时,向相关人员发出短信或者邮件告警。及时发现平台故障,以维持平台的正常运行,其基本功能包含监控平台状态、发现故障节点、故障进程以及故障服务,记录故障及处理信息,对于不同等级的故障,通知不同级别的管理人员处理。
综合分析查询模块,用于提供计算查询服务,采集到的***数据并不能直接呈现给用户,因为数据通常为瞬时值,而我们关心的指标数据需要经过计算后得到。综合分析查询模块读取数据库中的监控和报警数据,进行计算,计算后的指标存入数据库,并提供各个指标的查询接口。
综合展示模块,综合展示各个监控报警指标,可选择ECharts实现前端数据的可视化。
配置管理模块,目的在于简化平台配置操作,组织和协调计算资源,完成对Hadoop平台的配置工作。可基于zookeeper实现分布式统一配置服务,时效性和数据安全性都能得到保证,并提供web界面简化用户配置操作。
***管理模块,提供web界面维护用户管理及权限管理功能。增加***安全性能,对Hadoop平台的配置管理功能仅对***管理者开放,普通用户只具备对平台的监控功能。
所述的分布式监控管理***,优选的:
监控管理***的监控报警功能包括:采集和存储所有监控的基础数据;进行故障告警。将Hadoop集群中各个需要被监控的组件作为被监控节点,选择一个独立于集群的机器,或者集群内相对空闲的一台机器作为监控节点。本***主要通过在被监控节点和监控节点上设置监控报警模块来实现监控报警功能。
所述的分布式监控管理***,优选的:
性能监控模块,可基于Ganglia实现,监控的数据包括:服务器资源、HadoopMetrics、Hadoop组件日志以及其他组件日志。采集的监控数据存放于RRD(Round-RobinDatabase)中,供web展示使用。
所述的分布式监控管理***,优选的:
故障报警模块,可基于Nagios实现,进行故障判断的基础数据来源于两类:一类是性能监控模块采集存放于RRD中的基础数据;另一类是告警信息收集模块上报的基础数据。在各个被监控节点和监控节点上分别具有告警信息收集模块,在监控节点上安装告警信息核心部件,被监控节点具有告警信息收集模块,将收集到的告警信息传输给监控节点的告警信息核心部件,并根据告警信息的级别和种类,选择相关的管理人员发出短信或邮件报警。监控节点的告警信息收集模块会扫描RRD中的数据,根据告警信息的级别和种类,选择相关的管理人员发出短信或邮件报警,并将告警信息传输给监控节点的告警信息核心部件。告警信息核心部件将告警信息存储于DB中,供web展示使用。
所述的分布式监控管理***,优选的:
综合分析查询模块,提供分析查询服务,所采集的原始数据通常并不适宜直接展示给用户,使用者通常关心的是使用原始数据计算后得到的值。所以展现给用户的数据有一部分是经原数据计算后得到的。模块读取RRD和Mysql数据库中的监控和报警数据,进行相关计算,将计算后的监控和报警指标存入Mysql数据库,并提供各个指标的查询接口。
所述的分布式监控管理***,优选的:
综合展示模块,综合展示各个监控报警指标,本发明选择ECharts实现前端数据的可视化。去掉Ganglia繁琐复杂的展示参数和指标,只展现一般管理者和维护者感兴趣的监控指标,此外综合展示模块还展示Nagios搜集的各个报警信息。当然本***也支持用户直接访问Ganglia自带的gweb页面,查看用户所关心的其他监控指标。
所述的分布式监控管理***,优选的:
配置管理模块,基于zookeeper实现分布式统一配置服务,时效性和数据安全性都能得到保证,目的在于简化平台配置操作,当监控管理***进行报警时,相关人员可以修改Hadoop平台的配置,重新组织和协调资源,并提供web界面简化配置操作。
所述的分布式监控管理***,优选的:
***管理模块,提供web界面维护用户管理及权限管理功能。增加***安全性能,对Hadoop平台的配置管理功能仅对***管理者开放,普通用户只具备对平台的监控功能。
一种用于分布式集群***的分布式监控管理***,包括:性能监控模块,故障报警模块,综合分析查询模块,综合展示模块,数据存储模块,配置管理模块,***管理模块,其中:
性能监控模块用于监控分布式集群***被监控节点的监控数据,并将该监控数据存储到数据存储模块;
故障报警模块用于根据数据存储模块中存储的监控数据进行故障报警,或者接收监控节点和被监控节点传送的报警数据,将该接收的报警数据存储到数据存储模块并根据该信息进行故障报警;
综合分析查询模块用于读取数据库中的监控数据或报警数据,进行计算分析,将计算后的分析结果存入数据存储模块;
数据存储模块,用于存储监控数据或报警数据;
综合展示模块用于展示综合分析查询模块的分析结果;
***管理模块用于进行用户管理及权限管理;
配置管理模块用于对分布式集群***进行统一配置。
所述的分布式监控管理***,优选的:
性能监控模块包括收集模块和汇聚模块;
收集模块用于读取被监控节点的监控数据,并将收集到的监控数据传输给汇聚模块;
汇聚模块收集监控数据并汇总存储到数据存储模块。
所述的分布式监控管理***,优选的:
故障报警模块,扫描数据存储模块中的数据,确定告警信息的级别和种类,发出短信或邮件报警;或者接收监控节点或被监控节点传送的报警数据,将该接收的报警数据存储到数据存储模块,并根据报警数据的级别和种类,发出短信或邮件报警。
所述的分布式监控管理***,优选的:综合展示模块进行如下之一或其组合的展示:
(1)今日告警项目统计:以柱状图的形式直观表现出当前集群故障状态,有多少故障服务器、故障服务和故障组件;
(2)集群服务器状态:将集群服务器分为三种状态:正常、故障与高负荷;
(3)未解决告警列表:所有未解决的告警;
(4)可改变粒度的资源使用时序图:包括CPU利用率,内存利用率。
所述的分布式监控管理***,优选的:数据存储模块包括RRD或Mysql,监控数据存储在RRD中,报警数据存储在Mysql中。
一种用于分布式集群***的分布式监控管理方法,包括以下步骤:
步骤1.监控分布式集群***中被监控节点,将监控数据存储到数据存储模块;
步骤2.根据存储的监控数据进行故障报警,或者接收监控节点和被监控节点传送的报警数据,将该接收的报警数据进行存储到数据存储模块并根据该信息进行故障报警;
步骤3.读取数据存储模块中的监控数据或报警数据,进行计算分析,保存计算后的分析结果;
步骤4.展示综合分析查询模块的分析结果;
步骤5.进行用户管理及权限管理;
步骤6.对分布式集群***进行统一配置。
所述的分布式监控管理方法,优选的:
步骤1中的监控包括:读取被监控节点的监控数据,将收集到的监控数据汇总存储。
所述的分布式监控管理方法,优选的:
步骤2中的故障报警具体为扫描数据存储模块中的数据,确定告警信息的级别和种类,发出短信或邮件报警;或者接收监控节点和被监控节点传送的报警数据,将该接收的报警数据存储到数据存储模块,并根据报警数据的级别和种类,发出短信或邮件报警。
所述的分布式监控管理方法,优选的:步骤4中的综合展示包括如下之一或其组合的展示:
(1)今日告警项目统计:以柱状图的形式直观表现出当前集群故障状态,有多少故障服务器、故障服务和故障组件;
(2)集群服务器状态:将集群服务器分为三种状态:正常、故障与高负荷;
(3)未解决告警列表:所有未解决的告警;
(4)可改变粒度的资源使用时序图:包括CPU利用率,内存利用率。
所述的分布式监控管理方法,优选的:数据存储模块包括RRD或Mysql,监控数据存储在RRD中,报警数据存储在Mysql中。
附图说明
图1为本发明提供的面向Hadoop集群的分布式监控管理***示意图。
具体实施方式
如图1所示,分布式监控管理***包括:
1.性能监控模块,用于监控分布式集群***的性能:监控的数据包括服务器资源、Hadoop Metrics、Hadoop组件日志以及其他组件日志。性能监控模块包括收集模块和汇聚模块。其中收集模块用于读取被监控节点的监控数据,包括服务器资源(服务器的基本信息包括CPU、内存、硬盘、网络IO、进程等)、Hadoop Metrics(包括HDFS信息、MapReduce信息、JVM信息以及其他Hadoop组件信息(Hbase等))、Hadoop组件日志以及其他组件日志。收集模块将收集到的监控数据传输给汇聚模块,由汇聚模块统一收集监控信息并汇总存储到数据存储模块,优选的,数据存储模块包括环形数据库RRD((Round-Robin Database)),由RRD存储该数据。
2.故障报警模块,用于进行故障报警,包括告警信息收集模块和告警信息核心部件。故障报警模块可以进行两种故障报警。第一是告警信息收集模块扫描RRD中存储的数据,按照用户需求确定告警信息的级别和种类,选择相关的管理人员发出短信或邮件报警;第二是告警信息核心部件接收监控节点和被监控节点的告警信息收集模块发来的告警信息,并将告警信息存储于数据库中,例如该数据库可以是Msql数据库,供web展示使用,并根据告警信息的级别和种类,选择相关的管理人员发出短信或邮件报警。
监控告警的项目,同样为组件信息、Hadoop集群状态信息和服务器信息。各类告警项的告警内容如下表所示:
3.综合分析查询模块,用于提供计算查询服务,由于所采集的原始数据通常并不适宜直接展示给用户,使用者通常关心的是使用原始数据计算后得到的值。所以展现给用户的数据有一部分是经原数据计算后得到的。模块读取RRD和Mysql数据库中的监控和报警数据,进行相关计算,将计算后的监控和报警指标存入Mysql数据库,并提供各类指标的查询接口。
下面给出CPU使用率和内存使用率这两个重要指标的计算方法,硬盘、负载和网络IO的值可以直接取到,通过简单的除法计算就可以得到百分比值。同样的,告警项目统计数据通过简单的累加计算可以获得,集群服务器状态百分比数据可以通过简单的除法计算可以获得,在次不再做赘述。其他监控和告警数据可以从数据库中直接得到。
(1)CPU使用率
从监控基础数据(也即从被监控节点收集的监控数据)中提取出CPU相关数据:CPUuser time(用户态的CPU时间,记为user[i])、CPU nice time(nice值为负的进程所占用的CPU时间,记为nice[i])、CPU system time(核心时间,记为system[i])、CPU idle time(除硬盘IO等待时间以外其它等待时间,记为idie[i])、CPU iowait time(硬盘IO等待时间,记为iow[i])、CPU irq time(硬中断时间,记为irq[i])、CPU softirq time(软中断时间,记为sirq[i])。采样两个较短的时间间隔ti(如1秒),分别记作t1、t2,取CPU快照。
把第一次的所有CPU使用情况求和,得到S1:
S1=user[1]+nice[1]+system[1]+idle[1]+iow[1]+irq[1]+sirq[1]
把第二次的所有cpu使用情况求和,得到S2:
S2=user[2]+nice[2]+system[2]+idle[2]+iow[2]+irq[2]+sirq[2]
计算CPU使用率CPU_usage:
CPU_usage=1-100*(idle[2]-idle[1])/(S2-S1)
(2)内存使用率
从监控基础数据中提取出内存相关数据:mem_total(物理内存总量)、mem_free(空闲物理内存大小)、mem_buffers(文件缓冲区的物理内存大小)、mem_cached(高速缓存区的物理内存大小)。
计算内存使用率mem_usage:
mem_usage=100%*(mem_total-mem_free-mem_buffers-mem_cached)/mem_total
4.数据存储模块,包括RRD和Mysql,用于存储数据。RRD(Round Robin Database,环形数据库)用于存储监控数据,该环形数据库使用固定大小的空间来存储数据,数据库内的数据存储于后缀为.rrd的文件内,以便综合查询模块使用。Mysql数据库用于存储告警数据,以便综合分析查询模块使用。此外Mysql数据库还存储了用户管理部分的相关信息,如用户明细表,权限表,角色表等。
5.***管理模块,用于提供用户管理及权限管理功能,对分布式集群进行配置。为增加***安全性能,对分布式集群Hadoop平台的配置管理功能仅对***管理者开放,普通用户只具备对平台的监控功能。
6.综合展示模块:用于调用综合分析查询模块,得到各种指标数据,实现分析结果可视化。可以展示的指标如下:
(1)今日告警项目统计:以柱状图的形式直观表现出当前集群故障状态,有多少故障服务器、故障服务和故障组件。点击所有告警可以进入告警列表页面。今日告警项目优选从当天0点到当前的时间段进行故障告警,可以保证提供最新的故障告警信息。
(2)集群服务器状态:将集群服务器分为三种状态,正常、故障与高负荷。查看每种状态的机器占全部集群机器的比例,如果一台服务器有故障、负荷也高,将其归为故障一类。
(3)未解决告警列表:所有未解决的告警。点击服务器名可详细查看这台服务器的资源使用情况。
(4)Hadoop集群状态:可直观看到Hadoop集群是否繁忙。柱状图可直观看到当前运行的Map和Reduce作业数和等待运行的Map和Reduce数。
(5)HDFS容量:可直观看到HDFS使用容量,包括HDFS使用容量、非DFS使用容量和未使用容量。
(6)正在运行的MapReduce作业:列出了基本信息、输入数据量、Map和Reduce作业完成百分比。
(7)可改变粒度的资源使用时序图,包括CPU利用率,内存利用率。可点击图形左上角的粒度按钮或者拉动图形下方的粒度条来改变查看粒度和监控区间。列表中列出了服务器基本机器信息和当前资源使用。
通过本发明,能够提供一种更适用于实际需求的监控管理***。通过此***能够及时了解服务器资源分配,跟踪分布式集群运行状况,告警异常状况,简化分布式集群配置操作,在此基础上发现***资源瓶颈,并优化性能。

Claims (10)

1.一种用于Hadoop集群***的分布式监控管理***,其特征在于包括:性能监控模块,故障报警模块,综合分析查询模块,综合展示模块,数据存储模块,配置管理模块,***管理模块,其中:
性能监控模块用于监控分布式集群***中各个被监控节点的性能,并将采集到的监控数据存储到数据存储模块,所述监控数据包括服务器资源、Hadoop Metrics、Hadoop组件日志以及其他组件日志;
故障报警模块用于根据数据存储模块中存储的监控数据进行故障报警,或者接收分布式集群***中的、或者独立于分布式集群***的监控节点和被监控节点传送的报警数据,将接收到的报警数据存储到数据存储模块并根据该数据进行故障报警,所述故障报警包括监控平台状态、发现故障节点、故障进程以及故障服务,记录故障及处理信息,对于不同等级的故障,通知不同级别的管理人员处理;所述报警数据包括组件信息、Hadoop集群状态信息和服务器信息;
综合分析查询模块用于读取数据存储模块中的监控数据或报警数据,进行计算分析,将计算后的分析结果存入数据存储模块;
数据存储模块用于存储监控数据或报警数据;
综合展示模块用于展示综合分析查询模块的分析结果:调用综合分析查询模块,得到各种指标数据,实现分析结果可视化;
***管理模块用于进行用户管理及权限管理:对分布式集群Hadoop平台的配置管理功能仅对***管理者开放,普通用户只具备对平台的监控功能;
配置管理模块用于对分布式集群***进行统一配置:基于zookeeper实现分布式统一配置服务。
2.根据权利要求1所述的分布式监控管理***,其特征在于:
性能监控模块包括收集模块和汇聚模块;
收集模块用于读取被监控节点的监控数据,并将收集到的监控数据传输给汇聚模块;
汇聚模块收集监控数据并汇总存储到数据存储模块。
3.根据权利要求1所述的分布式监控管理***,其特征在于:
故障报警模块,用于扫描数据存储模块中的数据,确定告警信息的级别和种类,发出短信或邮件报警;或者接收监控节点和被监控节点上的报警信息收集模块传送的报警数据,将该接收的报警数据存储到数据存储模块,并根据报警数据的级别和种类,发出短信或邮件报警。
4.根据权利要求1所述的分布式监控管理***,其特征在于:综合展示模块进行如下之一或其组合的展示:
(1)今日告警项目统计:以柱状图的形式表现出当前集群故障状态,有多少故障服务器、故障服务和故障组件;
(2)集群服务器状态:将集群服务器分为三种状态:正常、故障与高负荷;
(3)未解决告警列表:所有未解决的告警;
(4)可改变粒度的资源使用时序图:包括CPU利用率,内存利用率。
5.根据权利要求1所述的分布式监控管理***,其特征在于:数据存储模块包括RRD和MysqL,监控数据存储在RRD中,报警数据存储在MysqL中。
6.一种用于Hadoop集群***的分布式监控管理方法,所述方法由权利要求1-5之一所述的分布式监控管理***实现,其特征在于包括以下步骤:
步骤1.监控分布式集群***中的被监控节点,将监控数据存储到数据存储模块,所述监控数据包括服务器资源、Hadoop Metrics、Hadoop组件日志以及其他组件日志;
步骤2.根据存储的监控数据进行故障报警,或者接收分布式集群***中的、或者独立于分布式集群***的监控节点和被监控节点上的报警信息收集模块传送的报警数据,将该接收的报警数据存储到数据存储模块并根据该报警数据进行故障报警,所述故障报警包括监控平台状态、发现故障节点、故障进程以及故障服务,记录故障及处理信息,对于不同等级的故障,通知不同级别的管理人员处理;所述报警数据包括组件信息、Hadoop集群状态信息和服务器信息;
步骤3.读取数据存储模块中的监控数据或报警数据,进行计算分析,保存计算后的分析结果;
步骤4.展示综合分析查询模块的分析结果:调用综合分析查询模块,得到各种指标数据,实现分析结果可视化;
步骤5.进行用户管理及权限管理:对分布式集群Hadoop平台的配置管理功能仅对***管理者开放,普通用户只具备对平台的监控功能;
步骤6.对分布式集群***进行统一配置:基于zookeeper实现分布式统一配置服务。
7.根据权利要求6所述的分布式监控管理方法,其特征在于:
步骤1中的监控包括:读取被监控节点的监控数据,将收集到的监控数据汇总存储。
8.根据权利要求6所述的分布式监控管理方法,其特征在于:步骤2中的故障报警具体为扫描数据存储模块中的数据,确定告警信息的级别和种类,发出短信或邮件报警;或者接收监控节点和被监控节点上的报警信息收集模块所传送的报警数据,将该接收的报警数据存储到数据存储模块,并根据报警数据的级别和种类,发出短信或邮件报警。
9.根据权利要求6所述的分布式监控管理方法,其特征在于:步骤4中的综合展示包括如下之一或其组合的展示:
(1)今日告警项目统计:以柱状图的形式表现出当前集群故障状态,有多少故障服务器、故障服务和故障组件;
(2)集群服务器状态:将集群服务器分为三种状态:正常、故障与高负荷;
(3)未解决告警列表:所有未解决的告警;
(4)可改变粒度的资源使用时序图:包括CPU利用率,内存利用率。
10.根据权利要求6所述的分布式监控管理方法,其特征在于:数据存储模块包括RRD和MysqL,监控数据存储在RRD中,报警数据存储在MysqL中。
CN201610010050.7A 2016-01-08 2016-01-08 一种面向Hadoop集群的分布式监控管理*** Active CN105718351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610010050.7A CN105718351B (zh) 2016-01-08 2016-01-08 一种面向Hadoop集群的分布式监控管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610010050.7A CN105718351B (zh) 2016-01-08 2016-01-08 一种面向Hadoop集群的分布式监控管理***

Publications (2)

Publication Number Publication Date
CN105718351A CN105718351A (zh) 2016-06-29
CN105718351B true CN105718351B (zh) 2018-02-09

Family

ID=56147721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610010050.7A Active CN105718351B (zh) 2016-01-08 2016-01-08 一种面向Hadoop集群的分布式监控管理***

Country Status (1)

Country Link
CN (1) CN105718351B (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106375113B (zh) * 2016-08-25 2020-01-17 新华三技术有限公司 一种分布式设备故障记录的方法、装置和***
CN106407075B (zh) * 2016-09-19 2019-09-13 广州视源电子科技股份有限公司 一种用于大数据平台的管理方法及***
CN106487597A (zh) * 2016-10-26 2017-03-08 努比亚技术有限公司 一种基于Zookeeper的服务监控***和方法
CN106453377B (zh) * 2016-10-28 2021-03-02 中金云金融(北京)大数据科技股份有限公司 基于区块链的分布式网络智能监控***及方法
CN106776288B (zh) * 2016-11-25 2019-11-19 北京航空航天大学 一种基于Hadoop的分布式***的健康度量方法
CN106533792A (zh) * 2016-12-12 2017-03-22 北京锐安科技有限公司 一种监控和配置资源的方法及装置
CN108255661A (zh) * 2016-12-29 2018-07-06 北京京东尚科信息技术有限公司 一种实现Hadoop集群监控的方法及***
CN107135119B (zh) * 2017-04-18 2020-05-05 国网福建省电力有限公司 一种业务响应跟踪及接口状态监控开发***
CN107168847A (zh) * 2017-04-21 2017-09-15 国家电网公司 一种支撑分布式架构的全链路应用监控方法与装置
CN107483568A (zh) * 2017-08-04 2017-12-15 中兴软创科技股份有限公司 一种基于云平台可弹性调度的网络和业务监控***
CN107729096A (zh) * 2017-09-20 2018-02-23 中国银行股份有限公司 信息分流方法及***
CN109697070B (zh) * 2017-10-23 2022-02-18 中移(苏州)软件技术有限公司 一种基于Ambari的集群管理方法、装置和介质
CN107908526A (zh) * 2017-10-26 2018-04-13 北京人大金仓信息技术股份有限公司 基于Web的集中式大规模集群监控预警***
CN108111600A (zh) * 2017-12-20 2018-06-01 山东浪潮云服务信息科技有限公司 一种数据管理方法和智能运维平台
CN108134697B (zh) * 2017-12-21 2021-01-19 四川管理职业学院 一种Hadoop架构云平台风险评估与预警方法
CN108390907B (zh) * 2018-01-09 2021-06-22 浙江航天恒嘉数据科技有限公司 一种基于Hadoop集群的管理监控***及方法
CN108418710B (zh) * 2018-02-09 2021-03-26 北京奇艺世纪科技有限公司 一种分布式监控***、方法及装置
CN108459944A (zh) * 2018-03-29 2018-08-28 中科创能实业有限公司 ***运行监控方法、装置及服务器
CN108449438B (zh) * 2018-05-22 2023-08-22 郑州云海信息技术有限公司 一种集群式cdc数据监控装置、***及方法
CN108959048A (zh) * 2018-06-22 2018-12-07 北京优特捷信息技术有限公司 模块化环境的性能分析方法、装置及可存储介质
CN109165137A (zh) * 2018-07-27 2019-01-08 曙光信息产业(北京)有限公司 数据分析及告警方法和***
CN108763038B (zh) * 2018-08-08 2022-04-12 平安科技(深圳)有限公司 告警数据的管理方法、装置、计算机设备及存储介质
CN109298945A (zh) * 2018-10-17 2019-02-01 北京京航计算通讯研究所 面向大数据平台的Ceph分布式存储监控与调优管理方法
CN109347703B (zh) * 2018-11-21 2022-05-03 中国船舶重工集团公司第七一六研究所 一种cps节点故障检测装置与方法
CN109726077A (zh) * 2018-12-21 2019-05-07 中冶建筑研究总院有限公司 一种企业项目轻量化安全管理控制数据平台
CN109726211B (zh) * 2018-12-27 2020-02-04 无锡华云数据技术服务有限公司 一种分布式时序数据库
CN109885544A (zh) * 2019-01-14 2019-06-14 中国海洋大学 一种面向海洋大数据集群的日志存储方法及***
CN109951313B (zh) * 2019-01-18 2022-04-19 长江大学 一种Hadoop云平台的监控装置及方法
CN109886327B (zh) * 2019-02-12 2021-11-19 北京奇艺世纪科技有限公司 一种分布式***中Java数据的处理***及方法
CN111694705A (zh) * 2019-03-15 2020-09-22 北京沃东天骏信息技术有限公司 监控方法、装置、设备及计算机可读存储介质
WO2021102617A1 (zh) * 2019-11-25 2021-06-03 深圳晶泰科技有限公司 面向多公有云计算平台的集群监控***及其监控方法
CN112104493A (zh) * 2020-09-07 2020-12-18 成都精灵云科技有限公司 集群环境中低延迟的主机资源监控的采集与分析***
CN112328445B (zh) * 2020-10-27 2023-11-14 许继集团有限公司 一种基于consul的多节点管理***
CN112526974A (zh) * 2020-12-04 2021-03-19 中国航空工业集团公司成都飞机设计研究所 采用插件式管理架构的通用试验数据采集***
CN112486776A (zh) * 2020-12-07 2021-03-12 中国船舶重工集团公司第七一六研究所 一种集群成员节点可用性监测设备及方法
CN112636979B (zh) * 2020-12-24 2022-08-12 北京浪潮数据技术有限公司 一种集群告警方法及相关装置
CN112667430A (zh) * 2021-01-14 2021-04-16 电子科技大学中山学院 一种大数据集群管理方法和装置
CN113626280B (zh) * 2021-06-30 2024-02-09 广东浪潮智慧计算技术有限公司 集群状态控制方法、装置、电子设备及可读存储介质
CN113419925A (zh) * 2021-08-25 2021-09-21 天津南大通用数据技术股份有限公司 一种对多个分布式mpp集群进行监控报警的监控方法及***
CN113868099A (zh) * 2021-10-20 2021-12-31 苏州中科先进技术研究院有限公司 一种数据监控***
CN114458968A (zh) * 2021-12-29 2022-05-10 浙江中控技术股份有限公司 一种油气长输管线的报警综合管理***
CN114629812A (zh) * 2022-03-28 2022-06-14 中国电子科技集团公司第三十八研究所 一种基于自主可控平台的集群可视化***及方法
CN114584593A (zh) * 2022-03-28 2022-06-03 中国电子科技集团公司第三十八研究所 一种基于集群状态感知的数据采集***及方法
CN115296868A (zh) * 2022-07-22 2022-11-04 联通沃音乐文化有限公司 基于云计算的音乐运营后台管理***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236949A (zh) * 2013-04-27 2013-08-07 北京搜狐新媒体信息技术有限公司 一种服务器集群的监控方法、装置与***
CN104268695A (zh) * 2014-09-26 2015-01-07 武汉大学 一种多中心流域水环境分布式集群管理***及方法
CN105024877A (zh) * 2015-06-01 2015-11-04 北京理工大学 一种基于网络行为分析的Hadoop恶意节点检测***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236949A (zh) * 2013-04-27 2013-08-07 北京搜狐新媒体信息技术有限公司 一种服务器集群的监控方法、装置与***
CN104268695A (zh) * 2014-09-26 2015-01-07 武汉大学 一种多中心流域水环境分布式集群管理***及方法
CN105024877A (zh) * 2015-06-01 2015-11-04 北京理工大学 一种基于网络行为分析的Hadoop恶意节点检测***

Also Published As

Publication number Publication date
CN105718351A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN105718351B (zh) 一种面向Hadoop集群的分布式监控管理***
CN108874640B (zh) 一种集群性能的评估方法和装置
CN109783322A (zh) 一种企业信息***运行状态的监控分析***及其方法
CN106487574A (zh) 自动化运行维护监测***
CN107943668A (zh) 计算机服务器集群日志监控方法及监控平台
CN104881352A (zh) 基于移动端的***资源监控装置
CN108197261A (zh) 一种智慧交通操作***
US20030135382A1 (en) Self-monitoring service system for providing historical and current operating status
US20100070981A1 (en) System and Method for Performing Complex Event Processing
CN107070692A (zh) 一种基于大数据分析的云平台监控服务***及方法
CN106685703A (zh) 一种数据采集和可视化监控智能***
CN103716173B (zh) 一种存储监控***及监控告警发布的方法
EP1889161A2 (en) Automated reporting of computer system metrics
CN108092813A (zh) 数据中心综合管理***服务器硬件管理框架及实现方法
CN112162907A (zh) 基于监控指标数据的健康度评估方法
CN112688819A (zh) 一种用于网络运维综合管理***
CN109885453A (zh) 基于流数据处理的大数据平台监控***
CN105302697B (zh) 一种密集数据模型数据库的运行状态监控方法及***
CN101997709A (zh) 一种根告警数据分析的方法及其***
CN101989931A (zh) 一种运维告警处理方法和装置
CN109240863A (zh) 一种cpu故障定位方法、装置、设备及存储介质
CN109165137A (zh) 数据分析及告警方法和***
CN108337100A (zh) 一种云平台监测的方法和装置
KR20220166760A (ko) 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
CN109032904A (zh) 被监控、管理服务器及数据获取、分析方法和管理***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190724

Address after: Room 206, 2nd floor, No. 18 Keyuan Road, Daxing Economic Development Zone, 102600, Beijing

Patentee after: Beijing Xiaodunbird Information Technology Co.,Ltd.

Address before: 100028 Beijing city Daxing District Keyuan Road Economic Development Zone No. 18 Chinese creative building No. 4

Patentee before: BEIJING HUISHANG RONGTONG INFORMATION TECHNOLOGY Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Distributed Monitoring and Management System for Hadoop Cluster

Effective date of registration: 20221028

Granted publication date: 20180209

Pledgee: Shaanxi Pharmaceutical Holding Group Paeon Pharmaceutical Co.,Ltd.

Pledgor: Beijing Xiaodunbird Information Technology Co.,Ltd.

Registration number: Y2022110000284