CN105812159A - 一种云平台监控报警方法 - Google Patents

一种云平台监控报警方法 Download PDF

Info

Publication number
CN105812159A
CN105812159A CN201410841470.0A CN201410841470A CN105812159A CN 105812159 A CN105812159 A CN 105812159A CN 201410841470 A CN201410841470 A CN 201410841470A CN 105812159 A CN105812159 A CN 105812159A
Authority
CN
China
Prior art keywords
node
monitoring alarm
master node
task
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410841470.0A
Other languages
English (en)
Other versions
CN105812159B (zh
Inventor
刘冬
喻之斌
贝振东
须成忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201410841470.0A priority Critical patent/CN105812159B/zh
Publication of CN105812159A publication Critical patent/CN105812159A/zh
Application granted granted Critical
Publication of CN105812159B publication Critical patent/CN105812159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种云平台监控报警方法,包括:对于每个节点:广播本节点的运行状态,接收其它节点广播的运行状态,周期性更新本地维护的所有节点监控报警服务运行状态列表;根据所述监控报警服务运行状态列表,确定master节点;被确定为的master节点履行master节点的职责;通过消息队列协议维护监控报警任务消息队列。本发明实现方案简单可靠,具有良好的可扩展性、高可用性及容错性。

Description

一种云平台监控报警方法
技术领域
本发明涉及一种云平台监控报警方法。
背景技术
虚拟技术的发展成熟以及网格技术与其结合,孕育出云计算平台。云计算平台把庞大的基础设施、数据存储、各种平台、软件组成相互共享、协作的资源池,并在此基础上抽象出层次化服务,以付费使用的方式为用户提供诸如基础架构(laaS)、平台(Paas)、软件(Saas)等服务。
监控是云计算平台的重要组成部分,它是云计算平台中很多诸如网络分析、***管理、作业调度、负载均衡、事件预测、故障检测以及恢复操作的前提,可以帮助云计算平台动态量化资源使用、检测服务缺陷、发现用户使用模式、辅助资源调度模块决策,对提高云计算平台的服务质量发挥重要作用。云计算平台不仅包括底层的存储、网络、计算资源,还包括在此基础上的虚拟资源,以及这些资源抽象化整合后的云平台。云平台上面充斥着各种大量的分布式环境下异构的、动态的、复杂的资源,如何对它们进行高效的动态监控及管理是提供高质量服务的保障。
目前业界著名的云计算平台都有自己的监控解决方案,来实现对云计算平台的监控报警。但是这些方案往往都采用单点模式,即一个节点来负责整个云计算平台的监控,随着云平台的不断扩展,监控的压力也会越来越大,而且可扩展性和容错性也较差,难以保证云平台的监控报警任务高效执行。因此,云平台的监控报警***不仅要高效的实现监控任务,还应该具有良好的可扩展性,高可用性以及容错性。
发明内容
有鉴于此,有必要提供一种云平台监控报警方法。
本发明还提供一种云平台监控报警方法,其特征在于,该方法包括如下步骤:a.对于每个节点:广播本节点的运行状态,接收其它节点广播的运行状态,周期性更新本地维护的所有节点监控报警服务运行状态列表;b.根据所述监控报警服务运行状态列表,确定master节点;c.被确定为的master节点履行master节点的职责;d.通过消息队列协议维护监控报警任务消息队列。
其中,该方法还包括步骤e:当master节点宕掉后重新确定master节点并分配任务。
所述监控报警服务运行状态列表包括:所有节点的运行状态信息和时间信息。
所述的步骤b具体包括:根据所述监控报警服务运行状态列表中的运行状态信息和时间信息,判断本节点是否是当前运行状态正常的节点中最早启动的节点;如果本节点是当前运行状态正常的节点中最早启动的节点,则发送广播信息,通知所有节点由本节点充当master节点。
所述的步骤c具体包括:当有若干新的监控报警任务被创建之后,master节点平均分配所述新的监控报警任务给所有节点;当有新的从节点添加时或者当有节点被删除时,master节点重新分配所有的监控报警任务给各个节点。
所述当有若干新的监控报警任务被创建之后,master节点平均分配所述新的监控报警任务给所有节点具体包括:当有若干新的监控报警任务被创建之后,提交到监控报警消息队列中,master节点从消息队列获取新的任务信息;master节点应用合理的算法分配监控报警任务给各个节点,发送相关任务ID到各个从节点,实现负载均衡。
所述当有新的从节点添加时,master节点重新分配所有的监控报警任务给各个节点具体包括:master节点根据所有节点运行状态列表中的各个节点的运行状态和报告时间来判断是否有新添加的节点;如果有新添加的节点,则master节点访问维护监控报警任务的消息队列,获取新的监控报警任务;master节点应用合理的算法分配任务给新添加的节点,实现负载均衡。
所述当有节点被删除时,master节点重新分配所有的监控报警任务给各个节点具体包括:master节点根据所有节点运行状态列表中的各个节点的运行状态和报告时间来判断是否有节点被删除;如果有节点被删除,则master节点访问维护监控报警任务的消息队列,获取该节点所负责的监控报警任务;master节点应用合理的算法分配任务给所有运行正常的节点,实现负载均衡。
所述的步骤d具体包括:所有节点均可访问所述监控报警任务消息队列,从中获取监控报警任务;将新创建的监控报警任务***到所述监控报警任务消息队列的尾部;从所述监控报警任务消息队列中删除已执行的监控报警任务。
所述的步骤e具体包括:如果其他各个节点无法收到当前master节点的状态更新信息的时间段超过规定值,则判断当前master节点运行状态出现问题;所有节点检测本地维护的监控报警服务运行状态列表,选择当前最早启动的节点作为新的master节点;新的master节点读取监控报警任务消息队列,获取当前所有监控报警任务,将所述监控报警任务重新合理分配给所有节点执行。
本发明一种云平台监控报警方法,采用分布式架构,实现方案简单可靠,能够高效完成庞大的云平台监控报警任务,并且具有良好的可扩展性和高可用性以及良好的容错性。
附图说明
图1为本发明云平台监控报警方法的运行环境示意图;
图2为本发明云平台监控报警方法的流程图;
图3为本发明步骤S3中当有若干新的监控报警任务被创建时较佳实施例的作业流程图;
图4为本发明步骤S3中当有新的从节点添加时较佳实施例的作业流程图;
图5为本发明步骤S3中当有节点被删除时较佳实施例的作业流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
参阅图1所示,是本发明云平台监控报警方法的运行环境示意图。
所述云平台监控报警方法的运行环境采用主从式架构,包括:master节点及若干个从节点。每个节点上都运行监控报警服务进程,共同完成云平台的监控报警任务。master节点与从节点之间及从节点之间通过远程过程调用协议(RemoteProcedureCallProtocol,RPC)和消息队列协议(AdvancedMessageQueuingProtocol,AMQP)实现信息通信。
参阅图2所示,是本发明云平台监控报警方法较佳实施例的作业流程图。
步骤S1,每个节点的监控报警服务均通过远程过程调用协议,周期性广播本节点的运行状态,告知其它节点本节点的运行是否正常。同时,每个节点都接收其它节点广播的运行状态,周期性更新本地维护的所有节点监控报警服务运行状态列表。具体而言:
每个节点的监控报警服务均通过远程过程调用协议,周期性广播本节点的运行状态到所有节点,所述广播的运行状态包括即时的时间信息,以告知其它节点本节点此刻的运行是否正常。
每个节点的监控报警服务均通过远程过程调用协议,接收其它节点广播的运行状态,周期性更新本地所维护的所有节点监控报警服务运行状态列表。所述列表记录了所有节点即时的运行状态信息和时间信息。
步骤S2,每个节点的监控报警服务周期性检测所维护的各个节点运行状态列表,判断本节点是否是当前最早启动的节点,如果是,则发送广播信息,通知所有节点由本节点充当master节点。具体而言:
每个节点的监控报警服务周期性检测本地所维护的节点运行状态列表,根据列表中的运行状态信息和时间信息,判断本节点是否是当前运行状态正常的节点中最早启动的节点;
如果本节点是当前运行状态正常的节点中最早启动的节点,则发送广播信息,通知所有节点由本节点充当master节点。
步骤S3,当一个节点被确定为master节点后,要履行master节点的职责。master节点的主要任务就是合理分配监控报警任务给各个从节点。当有若干新的监控报警任务被创建之后,master节点平均分配所述新的监控报警任务给所有节点。当有新的从节点添加时或者当有节点被删除时,master节点重新分配所有的监控报警任务给各个节点,达到任务的负载平衡。
步骤S4,通过消息队列协议维护一个监控报警任务消息队列,所述消息队列中包含所有当前的监控报警任务。具体而言:
监控报警任务消息队列维护当前所有正在执行的监控报警任务。所有节点均可访问这个消息队列,从中获取监控报警任务;
当有新的监控报警任务被创建,将会***到消息队列的尾部;
当监控报警任务被执行,将会从消息队列中删除。
步骤S5,当master节点宕掉之后,由于无法广播本地监控报警任务的运行状态,当其他节点检测本地维护的所有节点运行状态列表时,会选择当前最早启动的节点作为master节点,并从监控报警消息队列获取所有任务,重新分配给所有节点。具体而言:
当由于某些原因造成当前master节点宕掉时,由于无法广播本地监控报警任务的运行状态,因此其他各个节点无法收到当前master节点的状态更新信息。当这个时间段超过规定值之后,即可判断当前master节点运行状态出现问题;
所有节点检测本地维护的监控报警服务运行状态列表,选择当前最早启动的节点作为新的master节点;
新的master节点读取监控报警任务消息队列,获取当前所有监控报警任务,将所述监控报警任务重新合理分配给所有节点执行。
参阅图3所示,是本发明云平台监控报警方法步骤S3中当有若干新的监控报警任务被创建之后,master节点分配所述新的监控报警任务给从节点的较佳实施例的作业流程图。
步骤S311,master节点周期性的监听监控报警任务的消息队列。
步骤S312,当有若干新的监控报警任务被创建之后,提交到监控报警消息队列中,master节点从消息队列获取新的任务信息。
步骤S313,master节点应用合理的算法分配监控报警任务给各个节点,发送相关任务ID到各个从节点,实现负载均衡。
参阅图4所示,是本发明云平台监控报警方法步骤S3中当有新的从节点添加时master节点的处理方法较佳实施例的作业流程图。
在步骤S321中,master节点周期性地维护更新本地所有节点运行状态的列表。
在步骤S322中,master节点根据所有节点运行状态列表中的各个节点的运行状态和报告时间来判断是否有新添加的节点。
在步骤S323中,如果有新添加的节点,则master节点访问维护监控报警任务的消息队列,获取新的监控报警任务。
在步骤S324中,master节点应用合理的算法分配任务给新添加的节点,实现负载均衡。
参阅图5所示,是本发明云平台监控报警方法步骤S3中当有节点被删除时master节点的处理方法较佳实施例的作业流程图。
在步骤S331中,master节点周期性地维护更新本地所有节点运行状态的列表。
在步骤S332中,master节点根据所有节点运行状态列表中的各个节点的运行状态和报告时间来判断是否有节点被删除。
在步骤S333中,如果有节点被删除,则master节点访问维护监控报警任务的消息队列,获取该节点所负责的监控报警任务。
在步骤S334中,master节点应用合理的算法分配任务给所有运行正常的节点,实现负载均衡。
虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术人员应能理解,上述较佳实施方式仅用来说明本发明,并非用来限定本发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修饰、等效替换、改进等,均应包含在本发明的权利保护范围之内。

Claims (10)

1.一种云平台监控报警方法,其特征在于,该方法包括如下步骤:
a.对于每个节点:广播本节点的运行状态,接收其它节点广播的运行状态,周期性更新本地维护的所有节点监控报警服务运行状态列表;
b.根据所述监控报警服务运行状态列表,确定master节点;
c.被确定为的master节点履行master节点的职责;
d.通过消息队列协议维护监控报警任务消息队列。
2.如权利要求1所述的方法,其特征在于,该方法还包括步骤e:
当master节点宕掉后重新确定master节点并分配任务。
3.如权利要求1所述的方法,其特征在于,所述监控报警服务运行状态列表包括:所有节点的运行状态信息和时间信息。
4.如权利要求3所述的方法,其特征在于,所述的步骤b具体包括:
根据所述监控报警服务运行状态列表中的运行状态信息和时间信息,判断本节点是否是当前运行状态正常的节点中最早启动的节点;
如果本节点是当前运行状态正常的节点中最早启动的节点,则发送广播信息,通知所有节点由本节点充当master节点。
5.如权利要求1所述的方法,其特征在于,所述的步骤c具体包括:
当有若干新的监控报警任务被创建之后,master节点平均分配所述新的监控报警任务给所有节点;
当有新的从节点添加时或者当有节点被删除时,master节点重新分配所有的监控报警任务给各个节点。
6.如权利要求5所述的方法,其特征在于,所述当有若干新的监控报警任务被创建之后,master节点平均分配所述新的监控报警任务给所有节点具体包括:
当有若干新的监控报警任务被创建之后,提交到监控报警消息队列中,master节点从消息队列获取新的任务信息;
master节点应用合理的算法分配监控报警任务给各个节点,发送相关任务ID到各个从节点,实现负载均衡。
7.如权利要求5所述的方法,其特征在于,所述当有新的从节点添加时,master节点重新分配所有的监控报警任务给各个节点具体包括:
master节点根据所有节点运行状态列表中的各个节点的运行状态和报告时间来判断是否有新添加的节点;
如果有新添加的节点,则master节点访问维护监控报警任务的消息队列,获取新的监控报警任务;
master节点应用合理的算法分配任务给新添加的节点,实现负载均衡。
8.如权利要求5所述的方法,其特征在于,所述当有节点被删除时,master节点重新分配所有的监控报警任务给各个节点具体包括:
master节点根据所有节点运行状态列表中的各个节点的运行状态和报告时间来判断是否有节点被删除;
如果有节点被删除,则master节点访问维护监控报警任务的消息队列,获取该节点所负责的监控报警任务;
master节点应用合理的算法分配任务给所有运行正常的节点,实现负载均衡。
9.如权利要求1所述的方法,其特征在于,所述的步骤d具体包括:
所有节点均可访问所述监控报警任务消息队列,从中获取监控报警任务;
将新创建的监控报警任务***到所述监控报警任务消息队列的尾部;
从所述监控报警任务消息队列中删除已执行的监控报警任务。
10.如权利要求2所述的方法,其特征在于,所述的步骤e具体包括:
如果其他各个节点无法收到当前master节点的状态更新信息的时间段超过规定值,则判断当前master节点运行状态出现问题;
所有节点检测本地维护的监控报警服务运行状态列表,选择当前最早启动的节点作为新的master节点;
新的master节点读取监控报警任务消息队列,获取当前所有监控报警任务,将所述监控报警任务重新合理分配给所有节点执行。
CN201410841470.0A 2014-12-30 2014-12-30 一种云平台监控报警方法 Active CN105812159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410841470.0A CN105812159B (zh) 2014-12-30 2014-12-30 一种云平台监控报警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410841470.0A CN105812159B (zh) 2014-12-30 2014-12-30 一种云平台监控报警方法

Publications (2)

Publication Number Publication Date
CN105812159A true CN105812159A (zh) 2016-07-27
CN105812159B CN105812159B (zh) 2019-06-04

Family

ID=56980157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410841470.0A Active CN105812159B (zh) 2014-12-30 2014-12-30 一种云平台监控报警方法

Country Status (1)

Country Link
CN (1) CN105812159B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107395458A (zh) * 2017-07-31 2017-11-24 东软集团股份有限公司 ***监控方法及装置
CN107608285A (zh) * 2017-09-01 2018-01-19 北京南凯自动化***工程有限公司 一种综合监控***
CN109144737A (zh) * 2018-10-09 2019-01-04 郑州云海信息技术有限公司 一种分布式集群***中控制器管理方法、装置及存储介质
CN112685199A (zh) * 2020-12-30 2021-04-20 平安普惠企业管理有限公司 一种消息队列修复方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512729A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 网络设备自适应负载均衡的方法
CN101924650A (zh) * 2010-08-04 2010-12-22 浙江省电力公司 故障信息***的服务和服务器智能自治的实现方法
CN102882909A (zh) * 2011-07-15 2013-01-16 易云捷讯科技(北京)有限公司 云计算服务监控***及方法
US20140032766A1 (en) * 2002-05-10 2014-01-30 Silicon Graphics International Corp. Real-time storage area network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032766A1 (en) * 2002-05-10 2014-01-30 Silicon Graphics International Corp. Real-time storage area network
CN1512729A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 网络设备自适应负载均衡的方法
CN101924650A (zh) * 2010-08-04 2010-12-22 浙江省电力公司 故障信息***的服务和服务器智能自治的实现方法
CN102882909A (zh) * 2011-07-15 2013-01-16 易云捷讯科技(北京)有限公司 云计算服务监控***及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107395458A (zh) * 2017-07-31 2017-11-24 东软集团股份有限公司 ***监控方法及装置
CN107395458B (zh) * 2017-07-31 2020-05-22 东软集团股份有限公司 ***监控方法及装置
CN107608285A (zh) * 2017-09-01 2018-01-19 北京南凯自动化***工程有限公司 一种综合监控***
CN107608285B (zh) * 2017-09-01 2019-10-08 北京南凯自动化***工程有限公司 一种综合监控***
CN109144737A (zh) * 2018-10-09 2019-01-04 郑州云海信息技术有限公司 一种分布式集群***中控制器管理方法、装置及存储介质
CN112685199A (zh) * 2020-12-30 2021-04-20 平安普惠企业管理有限公司 一种消息队列修复方法、装置、计算机设备及存储介质
CN112685199B (zh) * 2020-12-30 2023-10-20 董小君 一种消息队列修复方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN105812159B (zh) 2019-06-04

Similar Documents

Publication Publication Date Title
CN104461752B (zh) 一种两级故障容错的多媒体分布式任务处理方法
CN104184819A (zh) 多层级负载均衡云资源监控方法
EP3125117A1 (en) Update management system and update management method
TWI701916B (zh) 用於在分布式系統中使管理能力自恢復的方法和裝置
CN105471960A (zh) 一种私有云与公有云的信息交互***及方法
CN105703940A (zh) 一种面向多级调度分布式并行计算的监控***及监控方法
CN105812159A (zh) 一种云平台监控报警方法
CN105630589A (zh) 分布式流程调度***及流程调度、执行方法
CN113778615B (zh) 一种快速稳定的网络靶场虚拟机构建***
CN112231108A (zh) 任务处理方法、装置、计算机可读存储介质及服务器
CN108881379B (zh) 一种服务器集群间数据同步的方法和装置
CN108121599A (zh) 一种资源管理方法、装置及***
WO2013016977A1 (zh) 一种统一调度云计算远端资源的方法及***
CN116257380A (zh) 跨数据中心的Kubernetes联邦管理控制平面的高可用方法和***
CN111988347B (zh) 跳板机***的数据处理方法和跳板机***
JP6007988B2 (ja) 予備系装置、運用系装置、冗長構成システム、及び負荷分散方法
US10684875B2 (en) Synchronization of a virtual machine across mobile devices
CN104320433A (zh) 数据处理方法和分布式数据处理***
CN104484228A (zh) 基于Intelli-DSC的分布式并行任务处理***
CN113326100A (zh) 一种集群管理方法、装置、设备及计算机存储介质
CN111614702B (zh) 一种边缘计算方法以及边缘计算***
CN104486447A (zh) 基于Big-Cluster的大平台集群***
CN106453118B (zh) 一种流量控制方法及流量控制***
CN115794306A (zh) 基于抢占实例的资源分配方法及装置、电子设备及介质
CN113890850B (zh) 路由容灾***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant