CN101631048A - 一种监视被管理对象的方法、装置及*** - Google Patents

一种监视被管理对象的方法、装置及*** Download PDF

Info

Publication number
CN101631048A
CN101631048A CN200810116651A CN200810116651A CN101631048A CN 101631048 A CN101631048 A CN 101631048A CN 200810116651 A CN200810116651 A CN 200810116651A CN 200810116651 A CN200810116651 A CN 200810116651A CN 101631048 A CN101631048 A CN 101631048A
Authority
CN
China
Prior art keywords
state
monitoring
message
sends
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810116651A
Other languages
English (en)
Inventor
赵纲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Henan Co Ltd
Original Assignee
China Mobile Group Henan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Henan Co Ltd filed Critical China Mobile Group Henan Co Ltd
Priority to CN200810116651A priority Critical patent/CN101631048A/zh
Publication of CN101631048A publication Critical patent/CN101631048A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Alarm Systems (AREA)

Abstract

本发明公开了一种监视被管理对象的方法,用于提高发现被管理对象异常运行状态的及时性。所述方法为:监视侧监测被管理的对象的心跳信号;监视侧若在预设的时间段内未收到对象发送的心跳消息,或者收到对象发送的告警消息,则将该对象的状态由正常状态改为异常状态。本发明还公开了用于实现所述方法的装置和***。

Description

一种监视被管理对象的方法、装置及***
技术领域
本发明涉及计算机及通信领域,特别是涉及监视被管理对象的方法、装置及***。
背景技术
在设备的使用过程中需要时时知道设备的运行状态,便于及时发现异常情况,所以需要对设备进行监视。
现有技术之一是采用轮询模式。监视侧周期性的依次询问每个设备的当前状态,各设备向监视侧返回表示工作正常或工作异常的消息。但这种方式实时性不高,当设备发生故障而此时监视侧未进行询问时,则不能获知该设备的异常情况。并且,当设备量较大时,监视侧的负担较重,并且轮询一次的时间较长,导致一个设备被轮询两次的相隔时间会更长。
现有技术之二是设备主动向监视侧报告自身的异常情况,即设备只有在发生异常时才上报异常消息。在这种实现方式下,若设备发生了比较严重的故障而无法发送消息,则监视侧无法获知该设备出现故障。
现有技术之三是心跳检测模式。设备定期向监视侧发送心跳消息,监视侧若定期收到了该心跳消息,则表示该设备运行正常,若未在一定时期内未收到心跳消息,则表示该设备运行异常。该实现方式同样有实时性差的缺点,如果设备刚发送心跳消息便发生异常,监视侧需要在一定时期后才能发现设备发生异常,该一定时期至少为一个心跳周期。
发明内容
本发明实施例提供一种监视被管理对象的方法、装置及***,用于提高发现被管理对象异常运行状态的及时性。
一种监视被管理对象的方法,包括以下步骤:
监视侧监测被管理的对象的心跳信号;
监视侧若在预设的时间段内未收到对象发送的心跳消息,或者收到对象发送的告警消息,则将该对象的状态由正常状态改为异常状态。
一种用于监视被管理对象的监视装置,包括:
状态记录模块,用于记录对象的状态;
监视控制模块,用于监测被管理的对象的心跳信号;若在预设的时间段内未收到对象发送的心跳消息,或者收到对象发送的告警消息,则通知状态记录模块将该对象的状态由正常状态改为异常状态。
一种监视***,包括:
对象,用于发送心跳消息,并在发现自身出现异常时发送告警消息;
监视装置,用于监测对象的心跳信号;以及,若在预设的时间段内未收到对象发送的心跳消息,或者收到对象发送的告警消息,则将该对象的状态由正常状态改为异常状态。
本发明实施例通过心跳消息和告警消息相结合的方式来及时获知对象发生异常,避免了单一使用心跳消息或采用轮询方式发现异常不及时的问题,也避免了单一使用告警消息时无法发现异常的问题,从而提高了发现被管理对象异常运行状态的及时性。
附图说明
图1为本发明实施例中***的结构图;
图2为本发明实施例中监视装置的主要结构图;
图3为本发明实施例中监视装置的详细结构图;
图4为本发明实施例中监视过程的主要方法流程图;
图5为本发明实施例中监视过程的详细方法流程图;
图6为本发明实施例中包含注册和注销状态的监视过程的详细方法流程图;
图7为本发明实施例中状态转换关系示意图;
图8为本发明实施例中注册过程的方法流程图;
图9为本发明实施例中注销过程的方法流程图。
具体实施方式
本发明实施例通过对象主动向监视装置发送心跳消息和告警消息相结合的方式,来解决心跳方式或轮询方式的实时性差的问题,以及解决对象出现严重故障而无法发送告警消息使得监视装置无法获知对象故障的问题。
本发明实施例中将需要被管理(或监视)的硬件或软件统称为对象,各对象可以彼此不同,对象与监视装置之间的交互方式只要是两侧均能识别即可,如***日志协议(SYSLOG)、简单网络管理协议(SNMP)或电子邮件等,不同的对象也可采用不同的与监视装置的交互方式。
参见图1,本实施例提供一种监视***,其包括对象101和监视装置102。
对象101用于发送心跳消息,并在发现自身出现异常时发送告警消息。
监视装置102用于监测被管理的对象的心跳信号,并进行计时;以及,在预设的时间段内收到对象101发送的心跳消息,则确定该对象101运行正常,并确定该对象101的状态为正常状态;若在预设的时间段内未收到对象101发送的心跳消息,或者收到对象101发送的告警消息,则确定该对象101出现异常,并将该对象101的状态由正常状态改为异常状态,以及确定该对象101需要故障处理。
可以对监视装置102做进一步细化,参见图2所示,监视装置102包括监视控制模块201、状态记录模块202和计时模块205。
计时模块205用于在监视对象101过程中进行计时。
状态记录模块202用于记录对象101的状态。
监视控制模块201在预设的时间段内收到对象101发送的心跳消息,则确定该对象101运行正常,并通知状态记录模块202确定该对象101的状态为正常状态;若在预设的时间段内未收到对象101发送的心跳消息,或者收到对象101发送的告警消息,则确定该对象101出现异常,并通知状态记录模块202将该对象101的状态由正常状态改为异常状态,以及确定该对象101需要故障处理。
为了方便对对象101的管理,实现对象101的自动注册和注销,监视装置102还包括注册/注销模块203,参见图3所示。
注册/注销模块203用于根据监视控制模块201转发的注册消息或注销消息,对对象101进行注册或注销处理。此时,监视控制模块201还用于将注册消息、注销消息、注册/注销模块的注册结果和注销结果发送给状态记录模块202,以指示状态记录模块202更新对象的状态记录。
为了便于实时了解各对象101的状态,保证及时排除对象101的故障,监视装置102还包括监视接口204。
监视接口204用于根据监视控制模块201的指示向监视装置外报告对象101的状态。
通过对监视***和监视装置102的介绍,可以基本了解对对象101的监视过程,下面通过方法流程对该监视过程进行详细介绍。
参见图4,本实施例中监视被管理对象101的主要方法流程如下:
步骤401:监视装置102监测被管理的对象101的心跳信号。
步骤402:监视装置102在预设的时间段内收到对象101发送的心跳消息,则确定该对象101运行正常,并确定该对象101的状态为正常状态。
步骤403:监视装置102若在预设的时间段内未收到对象101发送的心跳消息,或者收到对象101发送的告警消息,则确定该对象101出现异常,并将该对象101的状态由正常状态改为异常状态。
参见图5,本实施例中监视被管理对象101的详细方法流程如下:
步骤501:监视装置102已将对象101纳入监视范围,并开始计时。该纳入操作可以是人工配置的,也可以是对象101的自动注册。
步骤502:监视装置102收到对象101发送的心跳消息,继续步骤506,并重新开始计时。
步骤503:监视装置102收到对象101发送的告警消息,继续步骤507。
步骤504:监视装置102收到对象101发送的取消告警消息,继续步骤506,并重新开始计时。
步骤505:监视装置102确定计时已达到预设的时间段,并且未收到对象101发送的任何消息,继续步骤507。所述时间段为心跳周期与最大容忍丢失次数的乘积。心跳周期和最大容忍丢失次数可以由监视装置102确定,或者心跳周期由对象101在注册消息中上报给监视装置102。
步骤506:监视装置102确定该对象101运行正常,并确定该对象101的状态为正常状态。
步骤507:监视装置102确定该对象101出现异常,并将该对象101的状态设置为异常状态,以及确定该对象101需要故障处理。
对象101退出后不再受监视装置102监视。
考虑到对象101的注册和注销过程,本实施例在正常状态和异常状态的基础上增加待监视状态和脱离监视状态,用待监视状态表示收到对象101的注册消息但对象101未注册成功这段时期的对象101的状态,用脱离监视状态表述收到对象101的注销消息后对象101的状态。
参见图6,包含待监视状态和脱离监视状态的监视过程的详细实现方法流程如下:
步骤601:监视装置102收到对象101的注册消息,并将对象101的状态设为待监视状态Q0。
步骤602:监视装置102进行注册过程操作,并确定对象101注册成功,将对象101的状态设为正常状态Q1。
步骤603:监视装置102开始计时。
步骤604:监视装置102确定计时已达到预设的时间段,并且未收到对象101发送的任何消息,则确定对象101出现异常,将其状态设为异常状态Q2。
步骤605:监视装置102在预设的时间段内收到对象101发送的取消告警消息(CANCLE消息)、心跳消息或注册消息,则仍确定对象101工作正常,保持其状态为正常状态,并重新开始计时。
步骤606:监视装置102在预设的时间段内收到对象101发送的告警消息(ALRAM消息),则确定对象101工作异常,将其状态设为异常状态,并确定对象101需要故障处理。
步骤607:监视装置102在预设的时间段内收到对象101发送的注销消息,则确定对象101不需要继续受监视,将其状态设为脱离监视状态Q3,可进一步删除关于对象101的记录。
步骤608:监视装置102收到处于异常状态的对象101发送的告警消息或注册消息,则仍确定该对象101运行异常,并维持其状态为异常状态。
步骤609:监视装置102收到处于异常状态的对象101发送的心跳消息或取消告警消息,则确定对象101已恢复正常,将其状态设为正常状态。
步骤610:监视装置102收到处于异常状态的对象101发送的注销消息,则确定对象101不需要继续受监视,将其状态设为脱离监视状态,可进一步删除关于对象101的记录。
步骤611:监视装置102收到处于脱离监视状态的对象101发送的告警消息、取消告警消息、心跳消息或注销消息,则维持其状态为脱离监视状态。若对象101的记录已删除,则可省略此步骤。
步骤612:监视装置102收到处于脱离监视状态的对象101发送的注册消息,则对对象101进行注册操作,并将其状态设为待监视状态。
为了更加清晰的了解各状态之间的转换关系,可参见本实施例提供的图7。
通过以上描述知道了监视装置102对对象101的监视全过程。由于本实施例为注册和注销过程设置了对应的状态,所以有必要对注册和注销过程进行介绍。
参见图8,本实施例中对象101向监视装置102注册的过程如下:
步骤801:对象101向监视装置102发送注册消息。注册消息中携带有对象101的标识、地址和心跳周期等。
步骤802:监视装置102接收注册消息,并将对象101的状态设为待监视状态。
步骤803:监视装置102判断对象101是否符合注册条件,若符合,则继续步骤804,否则继续步骤806。
监视装置102的判断过程包括:判断本地是否有对象101的记录,若没有,则符合注册条件,若有,则继续判断对象101的状态是否为待监视状态,若是,则符合注册条件,否则不符合注册条件。当然,判断过程不限于此。
步骤804:监视装置102将对象101的状态设为正常状态,若本地没有关于对象101的记录,则需要为其建立一条记录。监视装置102还可以通过监视接口204对外发布对象101注册成功的消息,以便外部了解对象101的状态。
步骤805:监视装置102向对象101返回注册成功响应消息。
步骤806:监视装置102拒绝对象101的注册,并向其返回注册失败响应消息。监视装置102还可以通过监视接口204对外发布对象101注册失败的消息。
其中,步骤804和步骤805可同时执行。
参见图9,本实施例中对象101向监视装置102注销的过程如下:
步骤901:对象101向监视装置102发送注消消息。
步骤902:监视装置102收到注销消息后,判断对象101是否符合注销条件,若符合,则继续步骤903,否则继续步骤905。
监视装置102判断的过程包括:判断本地是否有该对象101的记录,若有,则进一步判断该对象101是否处于脱离监视状态,若处于脱离监视状态,则确定本次注销失败,否则确定本次注销成功,若没有该对象101的记录,则确定本次注销失败。
步骤903:监视装置102将对象101的状态设为脱离监视状态。
步骤904:监视装置102向对象101返回注销成功响应消息。
步骤905:监视装置102拒绝对象101的注销,并向其返回注销失败响应消息。
用于实现本发明实施例的软件可以存储于软盘、硬盘、光盘和闪存等存储介质。
本发明实施例通过心跳消息和告警消息相结合的方式来及时获知对象发生异常,避免了单一使用心跳消息或采用轮询方式发现异常不及时的问题,也避免了单一使用告警消息时无法发现异常的问题。本发明实施例还通过正常状态、异常状态、待监视状态和脱离监视状态这四个状态来准确把握对象所处的时期和状态,有助于对对象的准确监视。
本发明实施例特别适用于网管***中对对象的监视。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1、一种监视被管理对象的方法,其特征在于,包括以下步骤:
监视侧监测被管理的对象的心跳信号;
监视侧若在预设的时间段内未收到对象发送的心跳消息,或者收到对象发送的告警消息,则将该对象的状态由正常状态改为异常状态。
2、如权利要求1所述的方法,其特征在于,还包括步骤:监视侧收到对象的注册消息及在确定注册成功之前,将该对象的状态标记为待监视状态;监视侧在确定注册成功时,将该对象的状态标记为正常状态。
3、如权利要求1所述的方法,其特征在于,监视侧收到处于正常状态下的对象发送的取消告警消息或注册消息时,保持该对象的状态为正常状态。
4、如权利要求2或3所述的方法,其特征在于,监视侧收到处于正常状态或异常状态下的对象发送的注销消息时,将该对象的状态改为脱离监视状态。
5、如权利要求4所述的方法,其特征在于,监视侧收到处于脱离监视状态下的对象发送的告警消息、取消告警消息、心跳消息或注销消息时,将该对象的状态维持在脱离监视状态。
6、如权利要求4所述的方法,其特征在于,监视侧收到处于脱离监视状态下的对象发送的注册消息时,对该对象进行注册操作。
7、如权利要求1所述的方法,其特征在于,监视侧收到处于异常状态下的对象发送的告警消息或注册消息时,将该对象的状态维持在异常状态。
8、如权利要求1所述的方法,其特征在于,监视侧收到处于异常状态下的对象发送的取消告警消息或心跳消息时,将该对象的状态由异常状态改为正常状态。
9、如权利要求1所述的方法,其特征在于,所述预设的时间段为心跳周期与最大容忍丢失次数的乘积。
10、如权利要求9所述的方法,其特征在于,在监视侧对对象进行监视前,对象向监视侧发送注册消息时携带有所述心跳周期。
11、一种用于监视被管理对象的监视装置,其特征在于,包括:
状态记录模块,用于记录对象的状态;
监视控制模块,用于监测被管理的对象的心跳信号;若在预设的时间段内未收到对象发送的心跳消息,或者收到对象发送的告警消息,则通知状态记录模块将该对象的状态由正常状态改为异常状态。
12、如权利要求11所述的监视装置,其特征在于,还包括:
注册/注销模块,用于根据监视控制模块转发的注册消息或注销消息,对对象进行注册或注销;
监视控制模块还用于将注册消息、注销消息、注册/注销模块的注册结果和注销结果发送给状态记录模块,以指示状态记录模块更新对象的状态记录。
13、如权利要求11所述的监视装置,其特征在于,还包括:
监视接口,用于根据监视控制模块的指示向监视装置外报告对象的状态。
14、一种监视***,其特征在于,包括:
对象,用于发送心跳消息,并在发现自身出现异常时发送告警消息;
监视装置,用于监测对象的心跳信号;以及,若在预设的时间段内未收到对象发送的心跳消息,或者收到对象发送的告警消息,则将该对象的状态由正常状态改为异常状态。
CN200810116651A 2008-07-14 2008-07-14 一种监视被管理对象的方法、装置及*** Pending CN101631048A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810116651A CN101631048A (zh) 2008-07-14 2008-07-14 一种监视被管理对象的方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810116651A CN101631048A (zh) 2008-07-14 2008-07-14 一种监视被管理对象的方法、装置及***

Publications (1)

Publication Number Publication Date
CN101631048A true CN101631048A (zh) 2010-01-20

Family

ID=41576005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810116651A Pending CN101631048A (zh) 2008-07-14 2008-07-14 一种监视被管理对象的方法、装置及***

Country Status (1)

Country Link
CN (1) CN101631048A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122532A (zh) * 2011-03-24 2011-07-13 浪潮(北京)电子信息产业有限公司 偶然性存储卡失效事件的测试方法和***
CN102195824A (zh) * 2010-03-05 2011-09-21 ***通信集团公司 数据业务***退服告警的方法、装置及***
CN103249146A (zh) * 2013-05-10 2013-08-14 北京小米科技有限责任公司 信息通知的方法及装置
CN103684929A (zh) * 2013-12-27 2014-03-26 乐视网信息技术(北京)股份有限公司 服务器状态的监控***及方法
CN103701667A (zh) * 2013-12-27 2014-04-02 乐视网信息技术(北京)股份有限公司 服务器的心跳的监控方法、装置及***
CN104184750A (zh) * 2014-09-15 2014-12-03 中国联合网络通信集团有限公司 一种保护终端用户数据的方法和***
CN104883279A (zh) * 2015-04-13 2015-09-02 中国联合网络通信集团有限公司 心跳报文处理方法、设备和***
CN105024880A (zh) * 2015-07-17 2015-11-04 哈尔滨工程大学 一种面向关键任务计算机集群的弹性监控方法
CN105450446A (zh) * 2015-11-17 2016-03-30 绵阳市维博电子有限责任公司 一种双机热备份***及仲裁切换方法
CN107786362A (zh) * 2016-08-27 2018-03-09 湖南华宽通科技股份有限公司 一种通过移动互联网管理eoc无线网络的方法
CN110493070A (zh) * 2018-05-15 2019-11-22 深圳市尚云互联技术有限公司 断网通知方法及其应用***

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102195824B (zh) * 2010-03-05 2015-05-27 ***通信集团公司 数据业务***退服告警的方法、装置及***
CN102195824A (zh) * 2010-03-05 2011-09-21 ***通信集团公司 数据业务***退服告警的方法、装置及***
CN102122532A (zh) * 2011-03-24 2011-07-13 浪潮(北京)电子信息产业有限公司 偶然性存储卡失效事件的测试方法和***
CN103249146A (zh) * 2013-05-10 2013-08-14 北京小米科技有限责任公司 信息通知的方法及装置
CN103684929A (zh) * 2013-12-27 2014-03-26 乐视网信息技术(北京)股份有限公司 服务器状态的监控***及方法
CN103701667A (zh) * 2013-12-27 2014-04-02 乐视网信息技术(北京)股份有限公司 服务器的心跳的监控方法、装置及***
CN103684929B (zh) * 2013-12-27 2017-01-25 乐视云计算有限公司 服务器状态的监控***及方法
CN104184750A (zh) * 2014-09-15 2014-12-03 中国联合网络通信集团有限公司 一种保护终端用户数据的方法和***
CN104184750B (zh) * 2014-09-15 2018-03-16 中国联合网络通信集团有限公司 一种保护终端用户数据的方法和***
CN104883279A (zh) * 2015-04-13 2015-09-02 中国联合网络通信集团有限公司 心跳报文处理方法、设备和***
CN104883279B (zh) * 2015-04-13 2018-05-18 中国联合网络通信集团有限公司 心跳报文处理方法、设备和***
CN105024880A (zh) * 2015-07-17 2015-11-04 哈尔滨工程大学 一种面向关键任务计算机集群的弹性监控方法
CN105450446A (zh) * 2015-11-17 2016-03-30 绵阳市维博电子有限责任公司 一种双机热备份***及仲裁切换方法
CN107786362A (zh) * 2016-08-27 2018-03-09 湖南华宽通科技股份有限公司 一种通过移动互联网管理eoc无线网络的方法
CN110493070A (zh) * 2018-05-15 2019-11-22 深圳市尚云互联技术有限公司 断网通知方法及其应用***

Similar Documents

Publication Publication Date Title
CN101631048A (zh) 一种监视被管理对象的方法、装置及***
CN102111310B (zh) Cdn设备状态监控方法
CN107147540A (zh) 高可用性***中的故障处理方法和故障处理集群
CN104065526B (zh) 一种服务器故障报警的方法和装置
CN103354503A (zh) 一种可自动检测及替换故障节点的云存储***及其方法
CN101854270A (zh) 多***运行状态监控方法及***
EP3724761B1 (en) Failure handling in a cloud environment
JP2006079603A (ja) 高可用性クラスタ化のためのスマートカード
CN103490919A (zh) 故障管理***和故障管理方法
CN103810076B (zh) 数据复制的监控方法及装置
CN103067209B (zh) 一种心跳模块自检测方法
CN108282355B (zh) 云桌面***中设备巡检装置
CN106249727A (zh) 一种锂电池极片生产线的管理***
CN113726556B (zh) 边缘物联代理节点运维方法、***、存储介质及计算设备
CN102098179A (zh) 一种计算机状态监测告警方法及***
JP7416793B2 (ja) ノードの機能不全を決定及び報告するためのシステム及び方法
CN106330531A (zh) 节点故障记录和处理的方法以及装置
CN105897933A (zh) 业务请求的处理方法及装置
CN106453504A (zh) 一种基于nginx服务器集群的监控***及方法
US10721135B1 (en) Edge computing system for monitoring and maintaining data center operations
KR100943213B1 (ko) 홈네트워크에서의 오류 모델과 규칙 기반의 오류 관리 장치및 그 방법
CN101854263B (zh) 网络拓扑的分析处理方法、***和管理服务器
CN110224872B (zh) 一种通信方法、装置及存储介质
WO2024082471A1 (zh) 节点间链路状态监测方法和装置
CN103761157A (zh) 一种基于多任务巡检策略实现***容错机制的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20100120