CN101136799B - 一种实现通讯设备故障集中告警处理的方法 - Google Patents

一种实现通讯设备故障集中告警处理的方法 Download PDF

Info

Publication number
CN101136799B
CN101136799B CN200710077242A CN200710077242A CN101136799B CN 101136799 B CN101136799 B CN 101136799B CN 200710077242 A CN200710077242 A CN 200710077242A CN 200710077242 A CN200710077242 A CN 200710077242A CN 101136799 B CN101136799 B CN 101136799B
Authority
CN
China
Prior art keywords
fault
value
alarm
back function
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200710077242A
Other languages
English (en)
Other versions
CN101136799A (zh
Inventor
郭军洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdian Power Grid Maintenance Group Co., Ltd.
State Grid Beijing Electric Power Co
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN200710077242A priority Critical patent/CN101136799B/zh
Publication of CN101136799A publication Critical patent/CN101136799A/zh
Application granted granted Critical
Publication of CN101136799B publication Critical patent/CN101136799B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种实现通讯设备故障集中告警处理的方法,包括如下步骤:对设备管理***中的故障上报策略进行预设置;当故障源检测到故障发生或者恢复时,将检测结果通过一回调函数上报告警代理,且所述回调函数根据故障上报策略更新所述故障发生或者恢复所对应的故障值;所述告警代理每隔固定时间遍历所有故障源所对应的故障信息,并根据各个故障上报策略,判断为集中告警并上报所述设备管理***。采用本发明方法,可以极大的简化了各个故障源的逻辑处理,防止告警风暴和告警振荡的产生,还可以减轻CPU负荷和内存资源的占用,实现集中统一告警处理。

Description

一种实现通讯设备故障集中告警处理的方法
技术领域
本发明涉及通讯设备管理***,尤其涉及一种实现通讯设备故障集中告警处理的方法。
背景技术
通讯设备管理***通常划分为前台代理和后台维护两部分。对于设备故障管理,前台代理负责接收设备中各故障源上报的故障告警消息,进行告警解析处理,然后上报到后台维护中心,实现后台维护中心对设备运行情况的实时监控。
通讯设备一般是由多块单板组成,可以将这些单板划分为主控板和***单板。主控板收集各个***单板的状态并负责与后台维护中心通讯。为了减少软件复杂度,一般将故障管理放到各个单板上:各单板上放一个告警代理,负责对本单板上的告警做简单处理并上报给主控板;主控板上的前台代理负责告警收集并对整个设备统一管理。
无论是主控板还是***单板,故障源可能分布在各个软件子***和模块。而单个告警的检测和处理方法可能也不同:有的要求故障次数超过门限才告警、有的要求故障持续一段时间才告警、有的要求故障发生超过一定频率才告警等等。
通讯设备中,故障源上报告警给告警代理通常都是通过发消息的方式,这种方式需要占用大量的CPU和内存资源;所以一般要求故障源自己负责对故障进行检测、过滤和判断、自己维护告警上报和恢复。这种设计方法对于告警代理来说是降低了复杂度,但由于故障源很多,这种重复性的功能分散在整个设备的各个角落,增加了软件的冗余度和复杂度,不便于管理,也不利于今后告警策略的改变。
发明内容
本发明的目的在于提供一种实现通讯设备故障集中告警处理的方法,该方法可以实现对设备中的所有故障源进行分析、归类,并确定归属于哪个单板上的告警代理来管理。
为了解决上述目的,本发明的技术方案包括如下步骤:
A、对设备管理***中的故障上报策略进行预设置;
B、当故障源检测到故障发生或者恢复时,将检测结果通过一回调函数上报告警代理,且所述回调函数根据所述故障上报策略更新所述故障发生或者恢复所对应的故障值;
C、所述告警代理每隔固定时间遍历所有故障源所对应的故障信息,并根据各个所述故障上报策略,判断为集中告警并上报所述设备管理***。
其中,所述方法中,所述故障上报策略包括故障计数门限、故障持续时间及故障发生频率。
其中,当所述故障上报策略以故障计数门限进行告警上报时,所述步骤B包括如下处理:如果所述回调函数中包含的故障信息是故障发生,且当前故障值小于回调函数内故障计数门限所对应的门限值时,则更新当前故障值;当所述故障恢复后,则对故障值清零。
其中,所述步骤C中包括:
C1、当所述告警代理遍历查询时,如果当前故障值大于等于回调函数内故障计数门限所对应的门限值,且前一次故障值小于该门限值时,则所述告警代理向所述设备管理***上报告警故障发生;如果当前故障值为零,且前一次故障值不为零,则所述告警代理向所述设备管理***上报告警故障恢复;
C2、所述告警代理更新前一次故障值及回调函数中故障现在状态所对应的数值。
其中,当所述故障上报策略以故障持续时间进行告警上报时,所述步骤B包括如下处理:如果所述回调函数中包含的故障信息是故障发生,且当前故障值为零时,则更新当前故障值为当前时间所对应的数值;当所述故障恢复后,则对故障值清零。
其中,所述步骤C中包括:
C1、所述告警代理遍历查询时将获取一当前***时间,如果该当前***时间所对应的数值与当前故障值之差大于等于回调函数内故障持续时间所对应的门限值,且前一次故障值为零时,则所述告警代理向所述设备管理***上报告警故障发生,并更新前一次故障值;如果当前故障值为零,且前一次故障值不为零,则所述告警代理向所述设备管理***上报告警故障恢复,并更新前一次故障值;
C2、所述告警代理更新回调函数中故障现在状态所对应的数值。
其中,当所述故障上报策略以故障发生频率进行告警上报时,所述步骤B包括如下处理:如果所述回调函数中包含的故障信息是故障发生,则更新当前故障值;当所述故障恢复后,则对故障值清零。
其中,所述步骤C中包括:
C1、所述告警代理遍历查询时,如果当前故障值与前一次故障值之差大于等于回调函数内故障发生频率所对应的门限值,且故障现在状态没有上报,则所述告警代理向所述设备管理***上报告警故障发生;如果当前故障值与前一次故障值之差小于回调函数内故障发生频率所对应的门限值,且所述故障现在状态已上报,则所述告警代理向所述设备管理***上报告警故障恢复;
C2、所述告警代理更新前一次故障值及回调函数中故障现在状态所对应的数值。
与现有技术相比,采用本发明方法,具有一下优点:
1、通过集中对故障源进行查询,极大的简化了各个故障源的逻辑处理;
2、由于告警代理是在固定时间集中处理,可以防止告警风暴和告警振荡的产生;
3、如果将来某个故障源的告警策略发生改变,也可以统一在一个地方处理,比如,修改该故障对应的记录中的故障上报策略,减少对整个***的波及;
4、由于故障源上报故障不是通过发消息的方式,这样可以减轻CPU负荷和内存资源的占用;在各个单板上的故障源数量有限的情况下,可以忽略轮询带来的负荷增加。
附图说明
图1为本发明方法的实现流程图。
具体实施方式
下面结合附图,对本发明的较佳实施例作进一步详细说明。
请参阅附图1,本发明提供了一种实现通讯设备故障集中告警处理的方法,其实现流程包括如下步骤:
110、设备管理***上电的时候,对每一个故障源属性中的故障上报策略进行预设置,并通过安装在设备管理***上的一回调函数通知所述设备管理***所有故障源上报准备程序就绪;
120、当故障源检测到故障产生或者恢复时,将检测结果通过回调函数上报告警代理后,且该回调函数根据故障源的故障上报策略更新所述故障发生或者恢复所对应的故障值,即及时更新该故障源计数信息或者发生时间所对应的故障值;
130、所述告警代理每隔固定时间遍历所有故障源所对应的故障信息,并根据所述故障上报策略,判断是否上报给所述设备管理***主控板上的前台代理。
其中,步骤110中,所述故障源属性还包括故障级别、告警门限及告警应对方法;所述故障上报策略包括故障计数门限、故障持续时间及故障发生频率。
基于故障源定义通用的属性和方法,在本实施例中,以32位CPU上的C语言为例,对回调函数进行说明:
  typedef struct tagFaultItem
  {
     DWORD dwFaultCode ;/*故障码*/
     DWORD dwBitFlag   ;/*故障上报策略*/
     DWORD dwFaultValue;/*故障发生次数或时间,回调中更新,
告警代理只读*/
  DWORD dwLastValue;/*前一次检查时故障发生次数或时
间,告警代理读写*/
  PFUNC pfunHandle;/*故障发生或者上报时的应对方
法,可以为NULL*/
  WORD  wValVe;/*故障上报门限,根据dwBitFlag有不
同含义*/
  BYTE byLevel;/*故障级别,***规划,与应用相关*/
  BYTE byStatus;/*0-无故障;1-故障发生但未上报;2-故障
已上报*/
}TFaultItem,*PTFaultItem。
各个成员的含义:
dwFaultCode:代表该故障的故障码;
dwBitFlag:故障上报策略,如表示故障计数、故障持续时间、故障频率等;
dwFaultValue:故障发生次数或者时间,简称故障值,回调函数中依据dwBitFlag更新,告警代理只读所述故障值(结构体成员采用自然边界对齐,为节省***开销,可不考虑不同任务间的变量互斥问题);
dwLastValue:前一次故障值,每次告警代理轮询并做处理后,依据dwBitFlag更新为dwFaultValue;
pfunHandle:故障上报时的应对方法,***策略,与应用相关;
wValve:故障上报的门限值,比如计数门限、时间门限、频率门限等;
byLevel:故障级别,***规划,与应用相关;
byStatus:故障现在的状态,告警代理中使用和更新。
其中,对于本发明所述集中告警处理方法,依据故障上报策略(dwBitFlag)的区分,可以采用多种上报策略实现设备集中告警管理;其实现种类如下:
第一种,当所述故障上报策略依据故障计数门限进行告警上报
所述步骤120包括如下处理:
如果所述回调函数中包含的故障信息是故障发生,且当前故障值小于回调函数内故障计数门限所对应的门限值(dwFaultValue<wValve),则当前故障值(dwFaultValue)相应地加1;当故障恢复后,将该故障恢复所对应的故障值(dwFaultValue)清零。
相应地,所述步骤130中包括:
首先,所述告警代理查询所有故障源所对应的故障信息时,如果当前故障值大于等于回调函数内故障计数门限所对应的门限值(dwFaultValue>=wValve),且前一次故障值小于该门限值(dwLastValue<wValve),则上报告警故障发生;如果当前故障值(dwFaultValue)为零,且前一次故障值(dwLastValue)不为零时,则所述告警代理向所述设备管理***上报告警故障恢复;
最后,所述告警代理更新前一次故障值(dwLastValue)和回调函数中故障现在状态(byStatus)所对应的数值。
第二种,当所述故障上报策略依据故障持续时间进行告警上报
所述步骤120包括如下处理:
如果所述回调函数中包含的故障信息是故障发生,且当前故障值(dwFaultValue)为零时,则更新当前故障值(dwFaultValue)为当前时间所对应的数值;当故障恢复后,则将该故障恢复所对应的故障值(dwFaultValue)清零。
相应地,所述步骤130中包括:
所述告警代理查询所有故障源所对应的故障信息时,首先,获取当前***时间(dwCurTime),回调函数中,如果当前***时间所对应的数值与当前故障值之差大于等于回调函数内故障持续时间所对应的门限值((dwCurTime-dwFaultValue)>=wValve),且前一次故障值(dwLastValue)为零时,则上报告警故障发生,同时更新前一次故障值(dwLastValue);如果当前故障值(dwFaultValue)为零,且前一次故障值(dwLastValue)不为零时,则上报告警故障恢复,同时更新dwLastValue;
最后,所述告警代理更新故障现在状态(byStatus)所对应的数值。
第三种,当所述故障上报策略依据故障发生频率进行告警上报所述步骤120包括如下处理:
如果所述回调函数中包含的故障信息是故障发生,则当前故障值(dwFaultValue)相应地加1;当故障恢复后,则将该故障恢复所对应的故障值(dwFaultValue)清零。
相应地,所述步骤130中包括:
首先,所述告警代理查询查询所有故障源所对应的故障信息时,如果当前故障值与前一次故障值之差大于等于回调函数内故障发生频率所对应的门限值((dwFaultValue-dwLastValue)>=wValve),且故障现在状态(byStatus)没有上报,即其所对应的数值不等于2,则上报告警故障发生;如果当前故障值与前一次故障值之差小于回调函数内故障发生频率所对应的门限值((dwFaultValue-dwLastValue)<wValve),且故障现在状态(byStatus)以上报,即其所对应的数值等于2,则所述告警代理向所述设备管理***上报告警故障恢复;
最后,所述告警代理更新前一次故障值(dwLastValue)和故障现在状态(byStatus)所对应的数值。
综上所述,本发明的通讯设备中对故障集中处理的告警管理方法,应用于设备中各个单板上的告警代理;各个故障源只负责发现故障的产生和恢复,通过回调函数的方式告诉告警代理,不需要考虑告警风暴、告警策略等;告警回调函数中通过改写全局变量的方式只记录告警次数或者时间,不需要发消息给告警代理;告警代理每隔固定时间,例如是1秒钟查询各个故障源的故障信息,并根据事先设定的故障上报策略集中处理设备告警。
采用上述这种告警管理方法,具有以下优点:
1、通过集中对故障源进行查询,极大的简化了各个故障源的逻辑处理;
2、由于告警代理是在固定时间集中处理,可以防止告警风暴和告警振荡的产生;
3、如果将来某个故障源的告警策略发生改变,也可以统一在一个地方处理,比如,修改该故障对应的记录中的故障上报策略,减少对整个***的波及;
4、由于故障源上报故障不是通过发消息的方式,这样可以减轻CPU负荷和内存资源的占用;在各个单板上的故障源数量有限的情况下,可以忽略轮询带来的负荷增加。
总之,本发明并不限于上述实施方式,任何熟悉此技术者,在不脱离本发明的精神和范围内,都应该落在本发明的保护范围之内。

Claims (4)

1.一种实现通讯设备故障集中告警处理的方法,其特征在于,包括如下步骤:
A、对设备管理***中的故障上报策略进行预设置,所述故障上报策略为故障计数门限、故障持续时间或者故障发生频率;
B、当故障源检测到故障发生或者恢复时,将检测结果通过一回调函数上报告警代理,且所述回调函数根据所述故障上报策略更新所述故障发生或者恢复所对应的故障值;
C、所述告警代理每隔固定时间遍历所有故障源所对应的故障信息,并分别根据各个所述故障上报策略,判断为集中告警并上报所述设备管理***主控板上的前台代理。
2.根据权利要求1所述的方法,其特征在于,当所述故障上报策略以故障计数门限进行告警上报时,所述步骤B包括如下处理:如果所述回调函数中包含的故障信息是故障发生,且当前故障值小于回调函数内故障计数门限所对应的门限值时,则更新当前故障值;当所述故障恢复后,则对故障值清零;
所述步骤C中包括:
C1、当所述告警代理遍历查询时,如果当前故障值大于等于回调函数内故障计数门限所对应的门限值,且前一次故障值小于所述门限值时,则所述告警代理向所述设备管理***上报告警故障发生;如果当前故障值为零,且前一次故障值不为零,则所述告警代理向所述设备管理***上报告警故障恢复;
C2、所述告警代理更新前一次故障值为当前故障值,并更新回调函数中故障现在状态所对应的数值。
3.根据权利要求1所述的方法,其特征在于,当所述故障上报策略以故障持续时间进行告警上报时,所述步骤B包括如下处理:如果所述回调函数中包含的故障信息是故障发生,且当前故障值为零时,则更新当前故障值为当前时间所对应的数值;当所述故障恢复后,则对故障值清零;
所述步骤C中包括:
C1、所述告警代理遍历查询时将获取一当前***时间,如果该当前***时间所对应的数值与当前故障值之差大于等于回调函数内故障持续时间所对应的门限值,且前一次故障值为零时,则所述告警代理向所述设备管理***上报告警故障发生,并更新前一次故障值;如果当前故障值为零,且前一次故障值不为零,则所述告警代理向所述设备管理***上报告警故障恢复,并更新前一次故障值;
C2、所述告警代理更新回调函数中故障现在状态所对应的数值。
4.根据权利要求1所述的方法,其特征在于,当所述故障上报策略以故障发生频率进行告警上报时,所述步骤B包括如下处理:如果所述回调函数中包含的故障信息是故障发生,则更新当前故障值;当所述故障恢复后,则对故障值清零;
所述步骤C中包括:
C1、所述告警代理遍历查询时,如果当前故障值与前一次故障值之差大于等于回调函数内故障发生频率所对应的门限值,且故障现在状态没有上报,则所述告警代理向所述设备管理***上报告警故障发生;如果当前故障值与前一次故障值之差小于回调函数内故障发生频率所对应的门限值,且所述故障现在状态已上报,则所述告警代理向所述设备管理***上报告警故障恢复;
C2、所述告警代理更新前一次故障值为当前故障值,并更新回调函数中故障现在状态所对应的数值。
CN200710077242A 2007-09-20 2007-09-20 一种实现通讯设备故障集中告警处理的方法 Expired - Fee Related CN101136799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710077242A CN101136799B (zh) 2007-09-20 2007-09-20 一种实现通讯设备故障集中告警处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710077242A CN101136799B (zh) 2007-09-20 2007-09-20 一种实现通讯设备故障集中告警处理的方法

Publications (2)

Publication Number Publication Date
CN101136799A CN101136799A (zh) 2008-03-05
CN101136799B true CN101136799B (zh) 2010-05-26

Family

ID=39160654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710077242A Expired - Fee Related CN101136799B (zh) 2007-09-20 2007-09-20 一种实现通讯设备故障集中告警处理的方法

Country Status (1)

Country Link
CN (1) CN101136799B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355808B (zh) * 2008-08-20 2013-01-16 中兴通讯股份有限公司 一种上报策略安装失败的方法
CN101877656B (zh) * 2010-06-11 2012-08-22 武汉虹信通信技术有限责任公司 一种网管监控***及其实现并行处理故障告警的方法
CN102143002A (zh) * 2011-04-07 2011-08-03 中兴通讯股份有限公司 一种单板备份方法及***
CN102857365A (zh) * 2012-06-07 2013-01-02 中兴通讯股份有限公司 网管***中故障预防及智能修复方法和装置
CN104301128A (zh) * 2013-07-15 2015-01-21 株式会社日立制作所 故障处理方法和故障处理装置
CN103684862B (zh) * 2013-12-06 2017-09-22 大唐移动通信设备有限公司 告警消息的处理方法、装置、***以及设备
CN104468224B (zh) * 2014-12-18 2018-02-23 浪潮电子信息产业股份有限公司 一种双重过滤的数据中心监控***故障告警方法
CN107197029B (zh) * 2017-06-19 2021-02-19 深圳市盛路物联通讯技术有限公司 一种基于边缘转发节点的终端设备离线检测方法及***
CN108249243B (zh) * 2018-02-02 2019-05-07 河南中盛物联网有限公司 一种电梯物联网故障识别方法
CN108768755A (zh) * 2018-07-11 2018-11-06 珠海格力电器股份有限公司 设备异常信息推送方法和装置
CN108965425A (zh) * 2018-07-11 2018-12-07 珠海格力电器股份有限公司 设备异常信息推送方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492627A (zh) * 2002-10-24 2004-04-28 华为技术有限公司 用于网管集中故障***中的故障告警方法
CN1655517A (zh) * 2004-02-11 2005-08-17 三星电子株式会社 用于处理网络管理***中的故障信息的方法和***
CN1852158A (zh) * 2005-11-29 2006-10-25 华为技术有限公司 一种电信网络告警的实现方法及其***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492627A (zh) * 2002-10-24 2004-04-28 华为技术有限公司 用于网管集中故障***中的故障告警方法
CN1655517A (zh) * 2004-02-11 2005-08-17 三星电子株式会社 用于处理网络管理***中的故障信息的方法和***
CN1852158A (zh) * 2005-11-29 2006-10-25 华为技术有限公司 一种电信网络告警的实现方法及其***

Also Published As

Publication number Publication date
CN101136799A (zh) 2008-03-05

Similar Documents

Publication Publication Date Title
CN101136799B (zh) 一种实现通讯设备故障集中告警处理的方法
CN111049705B (zh) 一种监控分布式存储***的方法及装置
US7607043B2 (en) Analysis of mutually exclusive conflicts among redundant devices
CN101039498B (zh) 带有分布式告警处理的基站***及其告警处理方法
CN111176879A (zh) 设备的故障修复方法及装置
EP3148116B1 (en) Information system fault scenario information collection method and system
WO2021136247A1 (zh) 一种告警处理方法、装置以及存储介质
CN103116531A (zh) 存储***故障预测方法和装置
CN113704052B (zh) 一种微服务架构的运维***、方法、设备及介质
CN103763143A (zh) 基于存储服务器的设备异常报警的方法及***
CN111476381A (zh) 基于国产化信息技术创新应用***运维服务的方法和***
CN110912755A (zh) 一种云环境下网卡故障监控与自动恢复的***及方法
US9632857B2 (en) Intelligent dump suppression
CN103701657A (zh) 用于不间断运行的数据处理***的异常监控及处理装置和方法
CN103152219B (zh) 一种计算机网络***的事件监控***及事件监控方法
CN103995759B (zh) 基于核内外协同的高可用计算机***故障处理方法及装置
TWI591489B (zh) Intelligent monitoring and warning device and method for distributed software defined storage system
CN112817827A (zh) 运维方法、装置、服务器、设备、***及介质
CN115220937A (zh) 存储管理的方法、电子设备和程序产品
CN108021463B (zh) 一种基于有限状态机的gpu故障管理方法
CN111694894A (zh) 对数据同步进行监控的方法、服务器、设备和存储介质
CN115080362A (zh) 一种pcie设备降速上报方法、***、设备以及存储介质
CN106603396B (zh) 一种基于总线型数据交换的物联网接入网关
CN101938380B (zh) 一种告警处理方法及装置
CN110991673A (zh) 用于复杂***的故障隔离和定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160105

Address after: 100031 Beijing Qianmen West Street, Xicheng District, No. 41

Patentee after: State Grid Beijing Electric Power Company

Patentee after: Beijing Jingdian Power Grid Maintenance Group Co., Ltd.

Address before: 518057 Nanshan District Guangdong high tech Industrial Park, South Road, science and technology, ZTE building, Ministry of Justice

Patentee before: ZTE Corporation

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526

Termination date: 20160920