CN106603329A - 一种服务器集群的监控方法和*** - Google Patents

一种服务器集群的监控方法和*** Download PDF

Info

Publication number
CN106603329A
CN106603329A CN201611102092.XA CN201611102092A CN106603329A CN 106603329 A CN106603329 A CN 106603329A CN 201611102092 A CN201611102092 A CN 201611102092A CN 106603329 A CN106603329 A CN 106603329A
Authority
CN
China
Prior art keywords
server
node
monitoring
information
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611102092.XA
Other languages
English (en)
Inventor
李阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd, Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201611102092.XA priority Critical patent/CN106603329A/zh
Publication of CN106603329A publication Critical patent/CN106603329A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出了一种服务器集群的监控方法和***,该监控***包括:服务器集群包括多个服务器节点,多个监控模块,与多个服务器节点一一对应,并且采集多个服务器节点的信息并发送至监控节点,以及根据控制命令控制对应的服务器节点;监控节点,用于根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令,以及将控制命令发送至对应的监控模块。本发明通过多个监控模块将采集的多个服务器节点的信息发送至监控节点上,其中,多个监控模块与多个服务器节点一一对应,监控节点根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令并发送至对应的监控模块,通过采用上述集中式体系结构,实现了服务器集群的监控。

Description

一种服务器集群的监控方法和***
技术领域
本发明涉及服务器集群领域,具体来说,涉及一种服务器集群的监控方法和***。
背景技术
随着信息技术的不断发展,如何存储海量数据成为业界面临的一项重大挑战。其中,单个服务器节点已经很难满足海量数据存储的需求,Linux集群以造价低廉、易于扩充等优势得到了愈来愈广泛的应用,随着分布式集群***的应用,服务器集群的规模也越来越大,为了保证服务器集群整体的良好运行,服务器集群中服务器的负载数据采集和运行状态监控就显得极为重要,其中,集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一***的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。
对比现有的集群监控***,可发现现有的集群***存在以下几个问题:
1、单点故障:现有的集群监控***一般是由分布在目标节点的监控代理和单一的监控服务器组成,如果监控服务器一旦失效,整个监控***将会瘫痪,无法做到服务的高可用;
2、集群规模的限制:现有集群监控***都受集群规模的限制,往往不能支持大规模的需要,从而大大限制了集群监控软件的应用范围;
3、易用性差:现有的集群监控***只提供底层命令行级别的交互接口,用户体验差,很难直观的监控整个集群的运行状态;
4、缺乏历史查询和分析:现有的集群监控***,大多数都只是***某项指标(如CPU、内存等)的参数显示,而且多数都是即时数据的显示,而且也没有提供分析功能,这将影响对***的状态分析能力。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种服务器集群的监控方法和***,能够采用集中式体系结构,从而实现了服务器集群的监控。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种服务器集群的监控***。
该监控***包括:服务器集群包括多个服务器节点,
多个监控模块,与多个服务器节点一一对应,并且采集多个服务器节点的信息并发送至监控节点,以及根据控制命令控制对应的服务器节点;
监控节点,用于根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令,以及将控制命令发送至对应的监控模块。
根据本发明的一个实施例,进一步包括:备份节点,用于对监控节点进行备份。
根据本发明的一个实施例,备份方式为主-备方式。
根据本发明的一个实施例,监控节点进一步用于根据每个服务器节点的信息,确定每个服务器节点的状态,并产生对应的控制命令。
根据本发明的一个实施例,通过Web界面显示监控***。
根据本发明的另一方面,提供了一种服务器集群的监控方法。
该监控方法包括:服务器集群包括多个服务器节点,多个监控模块将采集的多个服务器节点的信息发送至监控节点上,其中,多个监控模块与多个服务器节点一一对应;监控节点根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令并发送至对应的监控模块;多个监控模块根据控制命令,控制对应的服务器节点。
根据本发明的一个实施例,进一步包括:备份节点,用于对监控节点进行备份。
根据本发明的一个实施例,备份方式为主-备方式。
根据本发明的一个实施例,监控节点进一步用于根据每个服务器节点的信息,确定每个服务器节点的状态,并产生对应的控制命令。
本发明的有益技术效果在于:
本发明通过多个监控模块将采集的多个服务器节点的信息发送至监控节点上,其中,多个监控模块与多个服务器节点一一对应,监控节点根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令并发送至对应的监控模块,通过采用上述集中式体系结构,实现了服务器集群的监控。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的服务器集群的监控***的示意图;
图2是根据本发明实施例的服务器集群的监控方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种服务器集群的监控***。
如图1所示,根据本发明实施例的监控***包括:服务器集群包括多个服务器节点,多个监控模块,与多个服务器节点一一对应,并且采集多个服务器节点的信息并发送至监控节点,以及根据控制命令控制对应的服务器节点;监控节点,用于根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令,以及将控制命令发送至对应的监控模块。
在该实施例中,服务器集群包括服务器节点1、服务器节点2、服务器节点3、服务器节点4,其中,监控模块1与服务器节点1对应,其用于监控服务器节点1上的信息,当然可以理解,服务器节点1的信息可根据实际需求进行设定,例如,服务器节点的信息包括:CPU温度、内存使用情况、风扇的转速等信息,此外,监控模块1将采集的服务器节点1的信息发送至监控节点1,监控节点1分析来自的服务器节点1的信息,并根据故障假设和***的逻辑来判断服务器节点1的行为,把相应的控制命令发送到服务器节点1的监控模块1上,对应地,监控模块2、监控模块3、监控模块4按照上述方式进行监控,此外,当然可以理解,可根据实际需求对服务器节点和监控模块的数量进行设定,本发明对此不做限定。
另外,当服务器集群中新增服务器节点时,该监控节点1能够及时发现新增的服务器节点并对其进行监控,而当服务器集群中删除服务器节点或服务器节点出现故障时,该监控节点1也能够做出相应的调整,例如,根据本发明的一个实施例,当服务器节点1出现故障时,该监控节点1发出报警信息,以告知***管理员服务器节点1出现故障。
通过本发明的上述方案,通过多个监控模块将采集的多个服务器节点的信息发送至监控节点上,其中,多个监控模块与多个服务器节点一一对应,监控节点根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令并发送至对应的监控模块,通过采用上述集中式体系结构,实现了服务器集群的监控。
根据本发明的一个实施例,进一步包括:备份节点,用于对监控节点进行备份。
在该实施例中,两个监控节点间引入高可用(HA)机制,采用主-备方式(Active-Standby结构模式),以实现配置文件同步,并能解决管理服务的单点故障问题,同时,也兼容了单个监控节点提供服务的场景,此外,监控节点负责接收和处理外部操作请求和来自监控模块的数据汇报请求,以完成外部操作控制和内部数据监控。
根据本发明的一个实施例,备份方式为主-备方式。
在该实施例中,设置监控节点2为监控节点1的备份节点,从而当监控节点1发生错误的时候,就由监控节点2自动接管,各个服务器节点上的监控模块自动将数据发送到监控节点2,这种采用冗余监控服务器的方式显然可以提高监控***的健壮性,做到服务的高可用。
此外,监控模块采用统一架构,它与业务进程分离,并支持多业务服务并存,同时,监控模块能处理离线任务(如磁盘维护、网络探测等)和在线任务,与数据业务完全隔离,避免了NAL为区分不同网络而做出修正,同时,部署在业务进程之上的管理服务(Mon_daemon),它负责回调各监控模块的回调函数来完成控制操作,同时它还负责采集节点信息,并通过监控模块上报给监控节点,业务进程通过与本地管理服务进行交互,一方面完成控制操作,另一方面将节点信息通过监控模块上报给监控节点。
根据本发明的一个实施例,监控节点进一步用于根据每个服务器节点的信息,确定每个服务器节点的状态,并产生对应的控制命令。
在该实施例中,监控节点1根据服务器节点1的信息,确定服务器节点1的状态,并产生对应的控制命令,当然可以理解,上述操作可根据实际需求进行设置,例如,根据本发明的一个实施例,监控节点1根据服务器节点1的负载信息,确定服务器节点1的负载状态,并产生对应的关于服务器节点1的负载的控制命令,本发明对此不做限定。
根据本发明的一个实施例,通过Web界面显示监控***。
在该实施例中,该监控***Web层采用Java技术做后台Web服务器,通过JavaScript脚本语言、HTML(HyperText Markup Language超级文本标记语言)等技术做UI界面的展现,按照不同模块功能进行分类,给用户提供良好的使用体验,同时对监控的数据进行存储,可将***自部署以来的所有数据记录下来,供分析、查询使用。
根据本发明的实施例,还提供了一种服务器集群的监控方法。
如图2所示,根据本发明实施例的监控方法包括:服务器集群包括多个服务器节点,
步骤201,多个监控模块将采集的多个服务器节点的信息发送至监控节点上,其中,多个监控模块与多个服务器节点一一对应;
步骤203,监控节点根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令并发送至对应的监控模块;
步骤205,多个监控模块根据控制命令,控制对应的服务器节点。
根据本发明的一个实施例,进一步包括:备份节点,用于对监控节点进行备份。
根据本发明的一个实施例,备份方式为主-备方式。
根据本发明的一个实施例,监控节点进一步用于根据每个服务器节点的信息,确定每个服务器节点的状态,并产生对应的控制命令。
综上所述,借助于本发明的上述技术方案,通过多个监控模块将采集的多个服务器节点的信息发送至监控节点上,其中,多个监控模块与多个服务器节点一一对应,监控节点根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令并发送至对应的监控模块,通过采用上述集中式体系结构,这种结构的好处在于:
1、部署方便:监控***主要由位于目标节点上的监控代理和监控服务器的信息处理这两个部分组成,功能划分清晰,***硬件部署,软件实现都较容易,而且容易适应集群规模的变化;
2、处理延迟小:当监控服务器的处理器能力足够时,监控***对目标节点出现故障的响应快,便于及时发现解决问题;
3、服务高可用:本***采用增加冗余监控服务器的方式,即当主监控服务器发生错误的时候,就由备用监控服务器自动接管,各个节点上的监控代理自动将数据发送到备用的监控服务器,这种采用冗余监控服务器的方式显然可以提高监控***的健壮性,做到服务的高可用;
4、扩展性好:监控***能够动态适应集群规模的变化,当集群中新加入节点时监控***能够及时发现并对其进行监控,当从集群中移去节点时监控***也能够做出相应调整。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种服务器集群的监控***,所述服务器集群包括多个服务器节点,其特征在于,包括:
多个监控模块,与所述多个服务器节点一一对应,并且采集多个服务器节点的信息并发送至监控节点,以及根据控制命令控制对应的服务器节点;
监控节点,用于根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令,以及将所述控制命令发送至对应的监控模块。
2.根据权利要求1所述的监控***,其特征在于,进一步包括:
备份节点,用于对所述监控节点进行备份。
3.根据权利要求2所述的监控***,其特征在于,所述备份方式为主-备方式。
4.根据权利要求1所述的监控***,其特征在于,所述监控节点进一步用于根据每个服务器节点的信息,确定每个服务器节点的状态,并产生对应的控制命令。
5.根据权利要求1-4任一项所述的监控***,其特征在于,通过Web界面监控所述控制***。
6.一种服务器集群的监控方法,所述服务器集群包括多个服务器节点,其特征在于,包括:
多个监控模块将采集的多个服务器节点的信息发送至监控节点上,其中,所述多个监控模块与所述多个服务器节点一一对应;
所述监控节点根据每个服务器节点的信息,产生与每个服务器节点对应的控制命令并发送至对应的监控模块;
所述多个监控模块根据控制命令,控制对应的服务器节点。
7.根据权利要求1所述的监控方法,其特征在于,进一步包括:
备份节点,用于对所述监控节点进行备份。
8.根据权利要求7所述的监控方法,其特征在于,所述备份方式为主-备方式。
9.根据权利要求6所述的监控方法,其特征在于,所述监控节点进一步用于根据每个服务器节点的信息,确定每个服务器节点的状态,并产生对应的控制命令。
CN201611102092.XA 2016-12-02 2016-12-02 一种服务器集群的监控方法和*** Pending CN106603329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611102092.XA CN106603329A (zh) 2016-12-02 2016-12-02 一种服务器集群的监控方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611102092.XA CN106603329A (zh) 2016-12-02 2016-12-02 一种服务器集群的监控方法和***

Publications (1)

Publication Number Publication Date
CN106603329A true CN106603329A (zh) 2017-04-26

Family

ID=58595745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611102092.XA Pending CN106603329A (zh) 2016-12-02 2016-12-02 一种服务器集群的监控方法和***

Country Status (1)

Country Link
CN (1) CN106603329A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107070753A (zh) * 2017-06-15 2017-08-18 郑州云海信息技术有限公司 一种分布式集群***的数据监控方法、装置及***
CN107104858A (zh) * 2017-06-09 2017-08-29 携程旅游信息技术(上海)有限公司 Web负载均衡***的监控***
CN108173959A (zh) * 2018-01-09 2018-06-15 郑州云海信息技术有限公司 一种集群存储***
CN109361560A (zh) * 2018-01-24 2019-02-19 广州Tcl智能家居科技有限公司 一种集群节点通讯处理方法、***、存储介质及服务器
CN109901951A (zh) * 2019-03-05 2019-06-18 山东浪潮云信息技术有限公司 一种ceph集群数据的存储***及方法
CN111221700A (zh) * 2019-10-31 2020-06-02 北京浪潮数据技术有限公司 一种集群节点状态监控方法、装置、设备及可读存储介质
CN112448990A (zh) * 2019-09-05 2021-03-05 北京京东尚科信息技术有限公司 一种保障服务可用性的方法、装置和***
CN113852672A (zh) * 2021-09-07 2021-12-28 天翼数字生活科技有限公司 用于管理和监控分布式数据采集任务的方法和***
CN114328130A (zh) * 2022-03-03 2022-04-12 深圳市明源云科技有限公司 服务器监控方法、***、设备及计算机可读存储介质
CN115065715A (zh) * 2022-05-11 2022-09-16 厦门立林科技有限公司 服务监控和自动重启方法、介质、设备及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030126240A1 (en) * 2001-12-14 2003-07-03 Frank Vosseler Method, system and computer program product for monitoring objects in an it network
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和***
CN105071989A (zh) * 2015-07-30 2015-11-18 世纪龙信息网络有限责任公司 视频内容分发质量监控***及其监控方法
CN105975546A (zh) * 2016-05-03 2016-09-28 叶江鹏 一种新型计算机监管***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030126240A1 (en) * 2001-12-14 2003-07-03 Frank Vosseler Method, system and computer program product for monitoring objects in an it network
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和***
CN105071989A (zh) * 2015-07-30 2015-11-18 世纪龙信息网络有限责任公司 视频内容分发质量监控***及其监控方法
CN105975546A (zh) * 2016-05-03 2016-09-28 叶江鹏 一种新型计算机监管***

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107104858A (zh) * 2017-06-09 2017-08-29 携程旅游信息技术(上海)有限公司 Web负载均衡***的监控***
CN107070753A (zh) * 2017-06-15 2017-08-18 郑州云海信息技术有限公司 一种分布式集群***的数据监控方法、装置及***
CN108173959B (zh) * 2018-01-09 2020-09-04 郑州云海信息技术有限公司 一种集群存储***
CN108173959A (zh) * 2018-01-09 2018-06-15 郑州云海信息技术有限公司 一种集群存储***
CN109361560A (zh) * 2018-01-24 2019-02-19 广州Tcl智能家居科技有限公司 一种集群节点通讯处理方法、***、存储介质及服务器
CN109901951A (zh) * 2019-03-05 2019-06-18 山东浪潮云信息技术有限公司 一种ceph集群数据的存储***及方法
CN112448990A (zh) * 2019-09-05 2021-03-05 北京京东尚科信息技术有限公司 一种保障服务可用性的方法、装置和***
CN112448990B (zh) * 2019-09-05 2023-12-05 北京京东尚科信息技术有限公司 一种保障服务可用性的方法、装置、***和存储介质
CN111221700A (zh) * 2019-10-31 2020-06-02 北京浪潮数据技术有限公司 一种集群节点状态监控方法、装置、设备及可读存储介质
CN113852672A (zh) * 2021-09-07 2021-12-28 天翼数字生活科技有限公司 用于管理和监控分布式数据采集任务的方法和***
CN113852672B (zh) * 2021-09-07 2024-02-20 天翼数字生活科技有限公司 用于管理和监控分布式数据采集任务的方法、***和介质
CN114328130A (zh) * 2022-03-03 2022-04-12 深圳市明源云科技有限公司 服务器监控方法、***、设备及计算机可读存储介质
CN114328130B (zh) * 2022-03-03 2022-08-12 深圳市明源云科技有限公司 服务器监控方法、***、设备及计算机可读存储介质
CN115065715A (zh) * 2022-05-11 2022-09-16 厦门立林科技有限公司 服务监控和自动重启方法、介质、设备及***

Similar Documents

Publication Publication Date Title
CN106603329A (zh) 一种服务器集群的监控方法和***
CN103873279B (zh) 一种服务器管理方法,及装置
CN103907097B (zh) 多层级高速缓存中的方法、存储子***、以及控制装置
CN104935482B (zh) 分布式监控***及方法
CN105933137B (zh) 一种资源管理方法、装置及***
CN107544839B (zh) 虚拟机迁移***、方法及装置
CN101986274B (zh) 一种私有云环境下资源调配***及资源调配方法
CN103024060A (zh) 一种开放式云计算大规模集群监控***及方法
CN105592139B (zh) 一种分布式文件***管理平台的ha实现方法及装置
CN102231681A (zh) 一种高可用集群计算机***及其故障处理方法
CN104486445A (zh) 一种基于云平台的分布式可扩展资源监控***及方法
CN103475722A (zh) 一种业务协同平台实现***
CN112800017B (zh) 分布式日志采集方法、装置、介质及电子设备
CN111200526B (zh) 网络设备的监控***及方法
US20160142262A1 (en) Monitoring a computing network
CN106162219A (zh) 视频云存储方法及***、预览云存储的视频的方法及***
CN103973815A (zh) 一种跨数据中心存储环境统一监控方法
EP3961985B1 (en) Intent-based distributed alarm service
KR101211207B1 (ko) 캐시 클라우드 구조를 이용한 캐시 시스템 및 캐싱 서비스 제공 방법
US6161136A (en) High performance user interface and method of structuring same
CN107682411A (zh) 一种大规模sdn控制器集群及网络***
CN112994937A (zh) 智融标识网络中虚拟cdn的部署与迁移***
CN103338240B (zh) 监控自动漂移的云服务器自动监控***及方法
CN103414739B (zh) 采用自动漂移的云服务器自动监控***及方法
CN110740047A (zh) 一种网络切片管理编排***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170426

RJ01 Rejection of invention patent application after publication