CN101179623B - 一种通信***中设备故障处理及告警的方法 - Google Patents

一种通信***中设备故障处理及告警的方法 Download PDF

Info

Publication number
CN101179623B
CN101179623B CN200610138268A CN200610138268A CN101179623B CN 101179623 B CN101179623 B CN 101179623B CN 200610138268 A CN200610138268 A CN 200610138268A CN 200610138268 A CN200610138268 A CN 200610138268A CN 101179623 B CN101179623 B CN 101179623B
Authority
CN
China
Prior art keywords
fault
equipment
alarm
information
malfunction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200610138268A
Other languages
English (en)
Other versions
CN101179623A (zh
Inventor
蒋亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN200610138268A priority Critical patent/CN101179623B/zh
Publication of CN101179623A publication Critical patent/CN101179623A/zh
Application granted granted Critical
Publication of CN101179623B publication Critical patent/CN101179623B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本发明公开了一种通信***中设备故障处理及告警的方法,面向设备运营商和提供商用户提供相应的告警及故障信息,首先为设备故障点设置设备故障,设置与规避设备故障相关的告警、设置所述设备故障与所述告警之间的映射关系,运行过程中,保存当前的设备故障信息、已恢复的故障信息及故障统计信息,并根据用户需要将当前的设备故障信息、已恢复的故障信息及故障统计信息上报到故障服务器,发生设备故障时,设备根据所述映射关系,将当前的设备故障对应的告警实时上报到告警服务器。本发明将设备故障管理进行了分离处理,使设备维护人员无须面对无用的告警,减少了告警的流量及***负担,同时能够为定位设备问题提供更加准确的信息。

Description

一种通信***中设备故障处理及告警的方法
技术领域
本发明涉及通讯领域中设备故障的处理技术,特别涉及通信***中设备故障处理及告警的方法。
背景技术
在通信***中,设备的故障管理通常是通过告警完成的。设备的告警一般提供如下几个方面的功能:
(1)当***在正常运行过程中发现部分功能不正常时,告警提供了警示信息,这些信息为自动规避设备故障提供了依据;
(2)当***在正常运行过程中发现部分功能不正常时,告警提供了警示信息,这些信息为设备维护人员手动规避设备故障提供了依据;
(3)当***在正常运行过程中发现部分功能不正常时,告警提供了定位设备故障的依据。
其中,自动规避设备故障,是指***在没有人工干预的情况下,设备自动完成故障的规避工作,包括自动复位、自动闭塞等无需人工干预的故障规避操作;手动规避设备故障,是指***在人工干预的情况下,设备完成故障的规避工作,包括更换单板、人工闭塞等需人工干预的故障规避操作。
然而,随着通讯业的快速发展,电信设备的复杂程度越来越高,承担设备故障规避及设备故障定位的告警信息越来越多、越来越复杂。由于告警对于规避设备故障和定位设备故障这两方面功能的用户是不同的,设备故障规避的用户主要是运营商的维护人员,而设备故障定位的用户是供应商的开发人员。告警针对的用户不同,导致用户对告警需求不一致。这样的后果是:
1)告警信息是设备维护信息和故障定位信息的结合,既有规避设备故障的信息,也有定位设备故障的信息,两者杂合在一起,使得设备供应商比较难于定义告警;
2)设备维护人员在维护设备时,需要面对一些无用的告警,比如关于定位设备故障的信息,这对运营商是极不方便的;
3)供应商利用告警不一定能够很好地定位设备问题,因为所述告警信息不只是用于定位故障的信息。
因此,需要一种能够有效处理设备故障及告警的方法,既能使得运营商维护人员能够根据告警有效维护通信***运行,又能方便供应商的技术人员准确的定位故障。
发明内容
本发明所要解决的技术问题是提供一种通信***中设备故障处理及告警的方法,在通信设备发生故障时,能够将规避设备故障的告警信息送达运营商的设备维护人员,而将定位故障信息提供给供应商的技术人员。
本发明提供一种通信***中设备故障处理及告警的方法,包括如下步骤:
为设备的每一故障点设置对应的设备故障,所述设备故障包含规避设备故障或定位设备故障所需的原始信息;
设置与规避设备故障相关的告警;
根据用户需求设置所述设备故障与所述告警之间的映射关系;
设备运行过程中,保存当前的设备故障信息、已恢复的故障信息及故障统计信息,并根据用户需要将当前的设备故障信息、已恢复的故障信息及故障统计信息上报到故障服务器;
设备运行过程中,发生设备故障时,设备根据所述映射关系,将当前的设备故障对应的告警实时上报到告警服务器。
所述方法进一步包括:
设备运行过程中,发生设备故障时,设备根据所述映射关系查找到的告警已经实时上报到告警服务器且告警仍未恢复,则不上报告警到告警服务器。
所述规避设备故障包括自动规避设备故障或人工规避设备故障。
所述原始信息,包括故障原因、故障位置、故障发生时间的信息。
所述设备故障与所述告警之间的映射关系是多个设备故障对应一个告警的关系、或者是一个故障对应一个告警的关系,该映射关系保存于所述设备上。
设备保存的所述故障统计信息,包括当前的设备故障数目、已恢复的设备故障数目、故障状态,其中所述故障状态包括“故障”和“故障恢复”两个状态。所述当前的设备故障数目在故障状态为故障时加1,在故障状态为故障恢复时减1;所述已恢复的设备故障数目在故障状态为故障恢复时加1,在故障状态为故障时减1。
所述根据用户需要将当前的设备故障信息、已恢复的故障信息及故障统计信息上报到故障服务器的步骤中,设备是根据用户的需要定时进行上报或在用户要求上报时直接进行上报。
所述设置与规避设备故障相关的告警步骤中,所设置的告警进一步包括在告警被恢复后上报至告警服务器的告警恢复。
本发明根据设备故障所面对的用户的不同,将设备故障管理进行了分离处理。告警主要面向设备故障的自动规避和人工规避,供设备维护人员使用,通过告警通道上报到告警服务器;故障面向设备定位,供设备开发人员使用,故障通过故障通道上报到故障服务器。本发明能够使设备维护人员在维护设备时无须面对无用的告警,减少了告警的流量及***负担,同时能够为定位设备问题提供更加准确的信息。
本发明具有如下几个优点:
(1)***中将不存在只用于定位的告警,这使得维护人员无需面对于维护无用的告警;
(2)可以有效地减少告警数目,进而减少告警信息流量。而故障信息上报由于实时性要求不高,通过设置较长的上报间隔及打包上报等手段,能够将故障信息的流量控制在很低的范围内,从总体上可以节约***的带宽,同时减少告警服务器的处理压力。
(3)由于保存了设备完整的当前故障及设备运行历史上已发生过但已经恢复的故障信息,设备供应商在获取相关故障信息后,能够更加快速、准确地定位设备的故障,有助于更快地解决问题。
附图说明
图1是本发明实施例中设备进行故障及告警上报的流程示意图;
具体实施方式
为了解决现有的故障及告警处理过程中,所面临的不同用户对故障及告警信息需求不一致的问题,本发明提出了一种通信***中设备故障处理及告警的方法,包括如下的几个步骤:
A、设置设备故障,设置设备故障遵循如下原则:
对设备每一个故障点都设置一种设备故障与之对应;
设备故障,或者是设备故障自动规避和设备故障人工规避所需要的原始信息,或者是定位设备故障所需要的原始信息。
B、设置设备告警/告警恢复,设备告警/告警恢复的设置遵循如下原则:
存在故障/故障恢复才能设置告警/告警恢复。告警/告警恢复都是基于故障/故障恢复设置的,但是,有故障/故障恢复不一定有对应的告警/告警恢复设置,同时,一个告警/告警恢复可能对应着多个故障/故障恢复;
存在设备故障自动规避的信息需求和设备故障人工规避的信息需求,所设置的告警/告警恢复用于设备故障自动规避和人工规避,不为这两种情况之外的目的而单独设置告警/告警恢复。
告警和告警恢复成对出现,告警所对应的故障恢复即为该告警所对应故障的故障恢复。
C、根据用户需求设置设备故障/故障恢复和设备告警/告警恢复之间的映射关系,通过此映射关系确定故障/故障恢复是否具有对应的告警/告警恢复,以及该设备故障/故障恢复对应着的是哪一个告警/告警恢复。
D、设备运行过程中,设备保存当前的设备故障信息、历史故障信息及故障相关的统计信息,并且根据用户的需要,在必要时,将当前设备故障信息及历史故障相关信息等故障相关信息上报到故障服务器,其中,历史故障是在设备运行期间曾经存在过、但已经恢复的故障信息;
E、设备运行过程中,设备根据相应的映射关系,将发生的设备故障对应的告警实时上报到告警服务器。
依照上述方法,如图1所示,本发明所述方法在执行时,在预先完成对故障及告警的设置、映射关系的设置之后,设备运行中,检测到故障发生后,保存故障,并根据需要利用映射关系生成告警,将告警实时上报到告警服务器,在需要时,根据需要将故障信息上报到故障服务器。
为使本发明的目的、技术方案及优点更加清楚,下面以WCDMA***中节点B(Node B)射频单板的部分故障和告警的定义及相应处理为例对本发明进行详细说明。
步骤1:设置故障信息
WCDMA***的Node B射频单板设置如下的设备故障信息:
1)发射中频芯片初始化失败 设置唯一的故障码0x0001;
2)发射射频锁相环失锁     设置唯一的故障码0x0002;
3)发射数字中频时钟失锁   设置唯一的故障码0x0003;
4)接收中频芯片初始化失败 设置唯一的故障码0x0004;
5)接收射频锁相环失锁     设置唯一的故障码0x0005。
针对节点B射频单板的各个故障点设置了设备故障,每一设备故障对应着一个唯一的故障码。相应的数据结构为:
typedef struct tagFaultInfo
{
    unsigned char byFlag;/*故障:1,故障恢复:0*/
        unsigned short wFaultCode;/*故障码,表明故障分类信息*/
        unsigned int dwSubFaultCode;/*故障子码,表明故障子类信息
*/
        unsigned char abyFaultPara[8];/*故障参数,表明详细信息*/
    }TFaultInfo,*PTFaultInfo;
步骤2:设置告警信息
1)单板硬件告警分配唯一的告警码0x0001
为节点B射频单板设置了一个告警-“单板硬件告警”,并为该告警分配了一个唯一的告警码“0x0001”。
相应的数据结构为:
typedef struct tagAlmInfo
{
    unsigned char byFlag;/*告警:1,告警恢复:0*/
    unsigned short wAlmCode;/*告警码,表明告警分类信息*/
    unsigned int dwSubAlmCode;/*告警子码,表明告警子类信息
*/
    unsigned char abyAlmPara[8];/*告警参数,表明详细信息*/
}TAlmInfo,*PTAlmInfo;
步骤3:设置告警和故障映射关系
1)发射中频芯片初始化失败  对应告警为  单板硬件告警
2)发射射频锁相环失锁  对应告警为  单板硬件告警
3)发射数字中频时钟失锁  对应告警为  单板硬件告警
4)接收中频芯片初始化失败  对应告警为  单板硬件告警
5)接收射频锁相环失锁  对应告警为  单板硬件告警
针对步骤1和步骤2中所设置的设备故障及告警,在两者之间建立映射关系,本实施例中所有的故障信息都对应同一个告警。
相应的数据结构为:
typedef struct TagBFAT
{   unsigned short wAlmCode;/*告警码*/
    unsigned int dwSubAlmCode;/*告警子码*/
}TBFAT,*PTBFAT;
static TBFAT gtBFAT[]={
/*故障码  告警码  告警子码*/
/*0x0000*/{0x0000,0},/*无*/
/*0x0001*/{0x0001,0},/*发射中频芯片初始化失败*/
/*0x0002*/{0x0001,0},/*发射射频锁相环失锁*/
/*0x0003*/{0x0001,0},/*发射数字中频时钟失锁*/
/*0x0004*/{0x0001,0},/*接收中频芯片初始化失败*/
/*0x0005*/{0x0001,0}/*接收射频锁相环失锁*/
}
在此数据结构中,数组下标为故障码,利用故障码为下标识别当前的告警码。
上面所述的步骤1、2、3完成了相关故障、告警及映射关系的设置。
下面为保存故障信息、保存告警的相关故障统计信息的数据结构:
typedef struct TagFaultItem    {/*用于保存故障信息*/
    TFaultInfo tFaultInfo;/*基本故障信息*/
    unsigned int dwHisFaultCount;/*历史故障计数*/
    struct TagFaultItem *ptNext;
}TFaultItem,*PTFaultItem;
typedef struct tagAlmItem{     /*用于保存告警信息*/
    unsigned short       wAlmCode;          /*告警码*/
    unsigned int dwSubAlmCode;/*告警子码*/
    unsigned char abyAlmPara[ALM_PARA_LEN]; /*告警参数*/
    unsigned char byAlmFlag;/*告警标志,告警/告警恢复*/
    unsigned char byCurFaultNum;/*当前告警的故障个数,利用此计数确定是上报告警还是上报告警恢复还是不上报告警,初始值为0*/
    PTFaultItem ptFaultItem;                /*故障信息*/
    struct tagAlmItem*ptNext;
}TAlmItem,*PTAlmItem;
步骤4:单板收到故障或者故障恢复,故障码为0x0001、0x0002、0x0003、0x0004、0x0005其中之一或它们的组合。
步骤5:根据步骤3设置的映射关系,将步骤4中收到的故障转换为告警0x0001。
步骤6:单板保存对应的故障信息,并完成相应的故障信息统计byCurFaultNum故障加1,故障恢复则减1。
步骤7:检查告警码0x0001下面当前故障统计信息byCurFaultNum的值,如果收到故障且byCurFaultNum值为1,上报告警;如果收到故障恢复且byCurFaultNum值为0,上报告警恢复;
步骤8:故障上报定时器到时,获取保存的故障信息,并上报到故障服务器;故障上报可以是定时上报,也可以是根据用户的要求在用户需要时根据用户指令或以其它触发方式进行上报。
为了更加清楚的说明故障到告警的转换及告警上报,假设最初无单板故障告警,以如下顺序上报故障/故障恢复演示处理过程:
上报故障    0x0001
上报故障    0x0002
上报故障    0x0003
上报故障恢复  0x0001
上报故障恢复  0x0002
上报故障恢复  0x0003
收到故障0x0001时,单板保存故障,单板置故障标志为故障,byCurFaultNum加1,byCurFaultNum值为1,单板上报告警到告警服务器;
收到故障0x0002时,单板保存故障,单板置故障标志为故障,byCurFaultNum加1,byCurFaultNum值为2,单板不上报告警;
收到故障0x0003时,单板保存故障,单板置故障标志为故障,byCurFaultNum加1,byCurFaultNum值为3,单板不上报告警;
由于故障0x0001、0x0002、0x0003所对应的告警相同,都为单板硬件告警0x0001,故在故障0x0001时,上报告警,而在收到0x0002、0x0003时,则无需上报告警,仅保存故障信息。
收到故障恢复0x0001时,单板保存故障信息,置故障标志为故障恢复,该故障的历史故障计数器dwHisFaultCount加1,byCurFaultNum减1,byCurFaultNum值为2,单板不上报告警或者告警恢复;
收到故障恢复0x0002时,单板保存故障信息,置故障标志为故障恢复,该故障的历史故障计数器dwHisFaultCount加1,byCurFaultNum减1,byCurFaultNum值为1,不上报告警或者告警恢复;
收到故障恢复0x0003时,单板保存故障信息,置故障标志为故障恢复,该故障的历史故障计数器dwHisFaultCount加1,byCurFaultNum减1,byCurFaultNum值为0,上报告警恢复。
从这个例子可以看出,设备上报了6条故障信息,但是只上报了2条告警信息到告警服务器,很明显地减少了告警信息的数量,减轻了告警服务器的压力。同时对于维护人员来说,他只看到一条告警信息及一条告警恢复信息,无需面对用于故障定位的故障信息0x0001、0x0002、0x0003及对应的故障恢复信息,这对维护人员来说是相当友好的。同时,对于设备供应商而言,由于保存了对应的故障及故障恢复信息,当供应商取得这些信息后,很容易地就能够定位设备的问题。
应当注意的是,本发明针对实例的描述比较具体,针对具体实例的描述不能因此而理解为对本发明请求保护范围的限制,其保护权利限制应以后附权利要求为准。

Claims (9)

1.一种通信***中设备故障处理及告警的方法,其特征在于,包括如下步骤:
为设备的每一故障点设置对应的设备故障,所述设备故障包含规避设备故障或定位设备故障所需的原始信息;
设置与规避设备故障相关的告警;
根据用户需求设置所述设备故障与所述告警之间的映射关系;
设备运行过程中,保存当前的设备故障信息、已恢复的故障信息及故障统计信息,并根据用户需要将当前的设备故障信息、已恢复的故障信息及故障统计信息上报到故障服务器;
设备运行过程中,发生设备故障时,设备根据所述映射关系,将当前的设备故障对应的告警实时上报到告警服务器。
2.如权利要求1所述的方法,其特征在于,所述方法进一步包括:
设备运行过程中,发生设备故障时,设备根据所述映射关系查找到的告警已经实时上报到告警服务器且告警仍未恢复,则不上报告警到告警服务器。
3.如权利要求1所述的方法,其特征在于,所述规避设备故障包括自动规避设备故障或人工规避设备故障。
4.如权利要求1所述的方法,其特征在于,所述原始信息,包括故障原因、故障位置、故障发生时间的信息。
5.如权利要求1所述的方法,其特征在于,所述设备故障与所述告警之间的映射关系是多个设备故障对应一个告警的关系、或者是一个故障对应一个告警的关系,该映射关系保存于所述设备上。
6.如权利要求1所述的方法,其特征在于,设备保存的所述故障统计信息,包括当前的设备故障数目、已恢复的设备故障数目、故障状态,其中所述故障状态包括“故障”和“故障恢复”两个状态。
7.如权利要求1所述的方法,其特征在于,所述根据用户需要将当前的设备故障信息、已恢复的故障信息及故障统计信息上报到故障服务器的步骤中,设备是根据用户的需要定时进行上报或在用户要求上报时直接进行上报。
8.如权利要求6所述的方法,其特征在于,所述当前的设备故障数目在故障状态为故障时加1,在故障状态为故障恢复时减1;所述已恢复的设备故障数目在故障状态为故障恢复时加1,在故障状态为故障时减1。
9.如权利要求1所述的方法,其特征在于,所述设置与规避设备故障相关的告警步骤中,所设置的告警进一步包括在告警被恢复后上报至告警服务器的告警恢复。
CN200610138268A 2006-11-08 2006-11-08 一种通信***中设备故障处理及告警的方法 Expired - Fee Related CN101179623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610138268A CN101179623B (zh) 2006-11-08 2006-11-08 一种通信***中设备故障处理及告警的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610138268A CN101179623B (zh) 2006-11-08 2006-11-08 一种通信***中设备故障处理及告警的方法

Publications (2)

Publication Number Publication Date
CN101179623A CN101179623A (zh) 2008-05-14
CN101179623B true CN101179623B (zh) 2010-05-12

Family

ID=39405703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610138268A Expired - Fee Related CN101179623B (zh) 2006-11-08 2006-11-08 一种通信***中设备故障处理及告警的方法

Country Status (1)

Country Link
CN (1) CN101179623B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012071697A1 (zh) * 2010-11-29 2012-06-07 中兴通讯股份有限公司 一种告警定位方法及装置
CN102209341B (zh) * 2011-06-17 2018-03-27 中兴通讯股份有限公司 一种基站故障检测方法及装置
CN103001804B (zh) * 2012-12-10 2015-12-02 上海斐讯数据通信技术有限公司 设备无关的告警处理方法、装置及相应的网管***
CN103825758B (zh) * 2014-01-09 2015-03-25 国家电网公司 一种用于电力通信网运维监控***的故障处理方法
CN105428272B (zh) * 2014-07-31 2019-03-12 北京北方华创微电子装备有限公司 半导体设备报警处理的方法及装置
CN107018013B (zh) * 2017-03-10 2020-06-23 京信通信***(中国)有限公司 一种告警上报方法和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635802A (zh) * 2003-12-26 2005-07-06 华为技术有限公司 告警***及其方法
CN1852158A (zh) * 2005-11-29 2006-10-25 华为技术有限公司 一种电信网络告警的实现方法及其***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635802A (zh) * 2003-12-26 2005-07-06 华为技术有限公司 告警***及其方法
CN1852158A (zh) * 2005-11-29 2006-10-25 华为技术有限公司 一种电信网络告警的实现方法及其***

Also Published As

Publication number Publication date
CN101179623A (zh) 2008-05-14

Similar Documents

Publication Publication Date Title
CN101179623B (zh) 一种通信***中设备故障处理及告警的方法
JP3183623B2 (ja) ワイアレス通信ネットワークの基地局の無線モジュールのテスト方法とその装置
US5946372A (en) Apparatus and method for testing digital communications circuits
CN100440160C (zh) 监控设备、监控方法和监控***
CN103019866A (zh) 基于消息队列的分布式方法和***
CN101631040B (zh) 一种统一管理多业务***的实时监控报警***和方法
CN106411659A (zh) 一种业务数据监测方法及装置
CN103490919A (zh) 故障管理***和故障管理方法
US6636486B1 (en) System, method and apparatus for monitoring and analyzing traffic data from manual reporting switches
US11770199B2 (en) Traffic data self-recovery processing method, readable storage medium, server and apparatus
CN109327337A (zh) 故障信息上报方法、装置、终端设备及计算机存储介质
CN101777951B (zh) 一种数据监测的方法和***
CN106921508A (zh) 虚拟化网元故障自愈方法及装置
CN103763127A (zh) 一种设备状态告警监控方法及***
US7933211B2 (en) Method and system for providing prioritized failure announcements
CN103095488A (zh) 一种自助终端外设硬件状态监控***及方法
CN111210029A (zh) 辅助分析业务的装置、方法及相关设备
CN107979495B (zh) 一种网管***中告警风暴的梯度处理方法
CN109639508A (zh) 一种智能数据中心语音声光报警监控***
EP1820359B1 (en) Service alarm correlation
CN101820317A (zh) 实现保护组保护倒换的方法及***
WO2011044783A1 (zh) 一种业务***的维护***及方法
CN117173839A (zh) 金融机具监控智能预警方法、***
KR101639713B1 (ko) 정전 관리 시스템
CN115913333B (zh) 一种北斗卫星网络

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100512

Termination date: 20151108

EXPY Termination of patent right or utility model