CN104734871A - 一种实现故障定位的方法及装置 - Google Patents

一种实现故障定位的方法及装置 Download PDF

Info

Publication number
CN104734871A
CN104734871A CN201310711392.8A CN201310711392A CN104734871A CN 104734871 A CN104734871 A CN 104734871A CN 201310711392 A CN201310711392 A CN 201310711392A CN 104734871 A CN104734871 A CN 104734871A
Authority
CN
China
Prior art keywords
fault
conduction
current
monitoring
chains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201310711392.8A
Other languages
English (en)
Inventor
郭宪杰
申山宏
刘淑霞
尚尔刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201310711392.8A priority Critical patent/CN104734871A/zh
Priority to CN201480057055.4A priority patent/CN105659528B/zh
Priority to PCT/CN2014/087332 priority patent/WO2015090098A1/zh
Publication of CN104734871A publication Critical patent/CN104734871A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Locating Faults (AREA)

Abstract

本发明公开了一种实现故障定位的方法及装置,包括:获取当前故障信息;根据获得的当前故障信息,建立所有监控对象针对所有故障类型在不同时间点的预定时间窗内的传导链集合;对传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链;以及,根据故障对象传导链,定位出故障对象和故障类型。该故障定位的方法实现了可以快速、准确的进行根源故障的定位和高效派单,提升日常网络维护和故障派单过程中的效率。

Description

一种实现故障定位的方法及装置
技术领域
本发明涉及网络管理技术,尤指一种实现故障定位的方法及装置。
背景技术
现有的网络管理***用于管理各个监控对象。通常需要通过网络配置功能配置监控对象的各个参数,包括监控对象的名称标识、连接关系等。比如监控对象为一个交换机和四台计算机,交换机连接这四台计算机。有了这个配置数据后,就认识了管理***的各个对象,通常是根据标识名称来识别监控对象的,如Switcher100,Computer100,Computer101,Computer102,Computer103等。
通常对监控对象的监控结果达到故障阈值后会上报给维护人员,比如CPU利用率达到96%以上需要报警,这个时候监控对象就会向监控者(网络管理***)发送一条消息,消息包括:对象类型、对象标识、监控的指标、当前指标值、告警名称等信息。比如Computer,ID=100,CPU,98%,计算机CPU利用率过高。从网络管理***来看,这些告警数据都是来自各个被监控对象上报的,消息类型是可以自定义的。
告警数据由监控对象上报后,根据接口定义,会获取消息类型、消息对象和对象标识,如上面提到的收到一条“Computer,ID=100,CPU,98%,计算机CPU利用率过高”,就会知道是Computer100出现了异常情况。
在复杂的真实的网络中,一个故障会导致更多的监控对象发生故障,典型的如掉电后,所有的监控对象可能都无法正常工作了;传输线路中断导致一片区域的通信受阻。可能就是在一两分钟内会上报上百条告警信息,在这些上报的告警数据中,如果快速定位根源的告警数据,对其优先进行修复,其它告警数据可能就会自动恢复了。如何快速定位根源性的告警数据就是现有技术的分析重点,通常是根据网络监控对象之间的连接关系(如Switcher100连接了Computer100等4台)、业务之间的因果关系(掉电和低压等有前后或者因果关系),归纳这些连接关系、因果关系形成告警知识库或者经验规则,利用既有的告警知识库或者告警经验规则对告警数据进行故障定位与分析。
利用既有的告警知识库或者告警经验规则对告警数据进行故障定位与分析,是现有网络维护的主要方法。但是现有的方法应用在全网络的监控中会带来海量的告警数据,并且跨网络设备跨管理***之间的告警关联分析难度非常大。特别是周期性的网络建设和持续性地日常维护使得网络始终处于动态变更的过程当中,而面对动态的网络配置变更会给先验的告警经验规则带来很大的不准确性,无法快速、准确的进行根源故障的定位,无法提升日常网络维护和挂账派单过程中的效率。
发明内容
为了解决上述技术问题,本发明提供了一种实现故障定位的方法及装置,能够快速、准确的进行根源故障的定位,提升日常网络维护和故障派单过程中的效率。
为了达到上述发明目的,本发明公开了一种实现故障定位的方法,包括:
获取当前故障信息,当前故障信息至少包括监控对象、故障类型和时间信息;
根据获得的当前故障信息,建立所有监控对象针对不同故障类型在不同时间点的预定时间窗内的传导链集合;
对建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链;
根据获得的故障对象传导链,定位出当前的故障对象和故障类型。
优选地,上述方法还可以具有如下特点:所述获取当前故障信息之前还包括:根据获得的历史故障信息,建立故障元数据库。
优选地,上述方法还可以具有如下特点:所述建立传导链集合之前,该方法还包括:判断所述当前故障信息是否存在于所述历史故障信息中;
优选地,上述方法还可以具有如下特点:所述建立所有监控对象针对不同故障类型在不同时间点的预定时间窗内的传导链集合包括:
获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链;
根据所述历史故障信息建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合。
优选地,上述方法还可以具有如下特点:所述对传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链,包括:
分别获得所述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生该故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
优选地,上述方法还可以具有如下特点:当判断出所述当前故障信息不存在于所述历史故障信息中时,该方法还包括:
所述对传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链,包括:
分别获得当前传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生该故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
优选地,上述方法还可以具有如下特点:所述获得所有监控对象针对不同故障类型的故障对象传导链后,该方法还包括:
根据所述故障对象传导链,获得针对不同监控对象的故障传导链,根据不同监控对象的故障传导链定位出故障对象和故障类型;或者,
根据所述故障对象传导链,获得针对不同故障类型的对象传导链,根据不同故障类型的对象传导链定位出故障对象和故障类型。
本发明还公开了一种实现故障定位的装置,包括:
接收模块,用于获得当前故障信息,当前故障信息至少包括监控对象、故障类型和时间信息;
第一建立模块,用于根据获得的当前故障信息,建立所有监控对象针对不同故障类型在不同时间点的预定时间窗内的传导链集合,并输出给第二建立模块;
第二建立模块,用于对第一建立模块建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对所有故障类型的故障对象传导链并输出给定位模块;
定位模块,用于根据来自第二建立模块的故障对象传导链,定位出故障对象和故障类型。
优选地,上述装置还可以具有如下特点:所述装置还包括:故障元数据建立模块,用于根据获得的故障信息,建立故障元数据库,将故障元数据库信息传给第一处理模块。
优选地,上述装置还可以具有如下特点:所述第一建立模块,还用于判断所述当前故障信息是否存在于所述历史故障信息中;
当判断出所述当前故障信息存在于所述历史故障信息中时,获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链;根据所述故障信息建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合,向所述第二建立模块发送第一通知。
优选地,上述装置还可以具有如下特点:所述第二建立模块具体用于:
接收到来自第一建立模块的第一通知,获得所述传导链集合中每个监控对象发生故障的次数,计算每个监控对象发生故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
优选地,上述装置还可以具有如下特点:所述第一建立模块,还用于在判断出获得当前故障信息之前不存在历史故障信息时,向第二建立模块发送第二通知;
所述第二建立模块,还用于接收来自第一建立模块的第二通知,获得当前传导链集合中每个监控对象发生故障的次数,计算每个监控对象发生故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
优选地,上述装置还可以具有如下特点:所述定位模块还用于:
根据所述故障对象传导链,获得针对不同监控对象的故障传导链,根据得到的不同监控对象的故障传导链定位出故障对象和故障类型;
或者,根据所述故障对象传导链,获得针对不同故障类型的对象传导链,根据不同故障类型的对象传导链定位出故障对象和故障类型。
本申请技术方案包括:获得当前故障信息,当前故障信息包括监控对象、故障类型和时间信息;根据获得当前故障信息,建立所有监控对象针对不同故障类型在不同时间点的预定时间窗内的传导链集合;对建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对所有故障类型的故障对象传导链;以及根据获得的故障对象传导链,定位出故障对象和故障类型。本申请的技术方案不必逐一寻找监控对象之间的连接关系以及故障类型之间的因果关系,这样就避免了花费较高的时间代价,满足了实时性的要求。不强调逻辑上的因果关系而进行强相关性的判断,包容了可能存在的由变更导致的不确定性,按照监控维护的能力水平,根据相关性的高低判断其处理的优先级,以更灵活的手段进行故障定位。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实现故障定位的方法的流程图;
图2为本发明实现故障定位的方法的实施例的流程图;
图3为本发明实现故障定位的装置的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明进行详细说明。
图1是本发明实现故障定位的方法的流程图,包括以下步骤:
步骤101,获取当前故障信息。
其中,当前故障信息包括监控对象、故障类型和时间信息。
优选地,在获得当前故障信息之前,还可以包括:
根据历史故障信息,建立故障元数据库。
具体包括:首先根据全网的现有故障信息状态,识别出最小粒度的监控对象和故障类别,然后根据最小粒度的监控对象和故障类型建立基本的故障元数据库。
举例说明,监控对象是网络管理中主要的关注焦点,监控对象发生轻微故障时可以进行修复,严重故障时只能替换。通常每个监控对象都是由若干个不同部件组成的,从维护角度来看,所谓最小粒度的监控对象,就是可以替换的最小单元部件。比如交换机,如果一个小型集成度高的交换机,出现故障后无法针对每个端口进行更换,则每个端口出现严重故障后都需要更换该交换机,则该监控对象的最小粒度就为交换机本身。如果是一个大型交换机,每个端口都可以更换部件,则最小粒度定义为交换机下的每个端口,该端口出现故障时可以更换端口部件。那么最小粒度的监控对象是交换机下的端口编号。
上述故障元数据库由于监控对象的网络扩张、故障类型的的丰富而不断扩大,由于故障元数据库数量有限,可以只增加不删除,保证在监控历史故障中持续可用。
步骤102,根据故障元数据库,建立所有监控对象针对不同故障类型在不同时间点的预定时间窗内的传导链集合。
具体包括:
首先,获得当前监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链。
其次,在获得当前故障信息之前如果已存在历史故障信息时,根据历史故障信息建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合;在获得当前故障信息之前如果不存在历史故障信息时,则转入步骤103。
优选地,上述传导链定义为:某一对象故障发生后所能影响的一系列的对象故障序列。
步骤103,对建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链。
具体包括:
在获得当前故障信息之前如果已存在历史故障信息时,获得上述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生该故障的次数在所有监控对象发生故障的总次数中的比值,将上述比值大于预定阈值的监控对象列表作为故障对象传导链。或者
在获得当前故障信息之前如果不存在历史故障信息时,获得当前传导链集合中每个监控对象发生故障的次数,计算每个监控对象发生故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将上述比值大于预定阈值的监控对象列表作为故障对象传导链。
优选地,上述方法还包括:
根据故障对象传导链,获得针对不同监控对象的故障传导链,根据故障传导链定位出故障对象和故障类型。或者,
根据故障对象传导链,获得针对不同故障类型的对象传导链,根据对象传导链定位出故障对象和故障类型。
其中,初始上报的当前故障信息,包括:监控对象、故障类型、时间等基本信息,上述当前故障信息作为基本的相关性判断依据,该数据从被监控对象的网元对象上来;如果初始历史数据为空,则相关性都暂定为100%强相关,因计数次数仅为1,可信度和优先级降低,当历史数据不断累积时,相关性的可计算性越来越高。
首先,上述预定阈值可在实际应用中调整。
其次,上述故障对象传导链定义为:监控对象的故障类型所影响的强相关的对象故障集合。
再者,上述故障传导链定义为:强相关性的故障的有限故障集合,即针对该故障发生时都很容易引发该链条上的其它故障类型(可能是不同的对象)。
最后,上述对象传导链定义为:强相关性的对象的有限对象集合,即针对该对象发生任何故障都很容易影响该链条上的其它对象(可能是不同故障)。
步骤104,根据获得的故障对象传导链,定位出故障对象和故障类型。
上述方法在使用网络管理***在监控全网各监控对象和故障类型时,摒弃现有的的基于统计的分析方法,而是面向实时动态的故障信息,找出在网络中监控对象和故障类型的时空分布的强相关关系,并且参考历史故障信息中的对象链的相关性(包括但不限制于监控对象、线路连接、故障时间、故障类型等),进行故障对象之间的强相关性判断。
本发明中不强调逻辑上的因果关系而进行强相关性的判断,包容可能存在的由变更导致的不确定性,按照监控维护的能力水平,根据相关性的高低判断其处理的优先级,以更灵活的手段实现了故障定位。
图2为本发明实现故障定位的方法的详细流程图,包括以下步骤:
步骤201,获得当前故障信息,包括:监控对象、故障类型和时间等基本信息。
步骤202,根据历史数据信息,建立故障元数据库,建立的故障元数据库包括:最小粒度的监控对象和故障类别;
具体为:
在无先验知识的前提下,根据全网的现有故障信息状态,识别出最小粒度的监控对象On和故障类型Fm,根据最小粒度的监控对象On和故障类型Fm建立基本的故障元数据库。
上述故障元数据库由于监控对象的网络扩容、故障类型的丰富而不断扩充。
初始上报的当前故障信息,包括:监控对象、故障类型、时间等基本信息,上述当前故障信息作为基本的相关性判断依据,该数据从被监控对象的网元对象上来;如果初始历史数据为空,则相关性都暂定为100%强相关,因计数次数仅为1,可信度和优先级降低,当历史数据不断累积时,相关性的可计算性越来越高。
新增加的故障类型,或者变更的故障类型,在上述故障元数据库中未查询到的,当作初始的故障信息按强相关性计算;新增加的监控对象,或者变更标识的监控对象,在上述故障元数据库中未查询到的,当作初始的故障信息按强相关性计算。
对变更标识的监控对象,最终其相关性关系仍会和原监控对象的算法结果相同。
步骤203,获得当前时间点T0时间窗内的传导链Lij0集合。
具体包括:获得当前监控对象针对当前故障在当前时间点的预定时间窗T0内的传导链Lij0集合。
其中,传导链Lij0集合表示在时间序列上,当某一故障发生后的传到时间内,所有出现的监控对象及其故障类型,形成的传导链集合。
步骤204,判断是否有历史数据,若有历史数据,则转入步骤205;若没有历史数据,则转入步骤206。
步骤205,根据历史数据,建立Tk时间点的传导链Lijk集合。
具体包括:
首先,根据历史故障信息建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合。
最后,分析每个监控对象Oi的故障类型Fj,建立在Tk时间点的传导链集合。
其中,传导链Lijk定义为:传导链Lijk表示在对象Oi的故障类型Fj发生的时间点Tk以后的T0时间内出现的对象故障时间序列集合。
举例说明,例如发电机Oi的输出电压低故障Fj发生在某天晚上20:03分时,其以后的T0时间内出现的所有故障对象的时间序列集合都可以认为是该故障对象在该时间点的故障传导链上的节点,其中T0为经验常数,通常为3分钟或者5分钟。
步骤206,分析各传导链之间的强相关性,获得所有监控对象针对所有故障类型的故障对象传导链Lij
上述各传导链之间的相关性判断方法具体为:
在获得当前故障信息之前已存在历史故障信息时,获得所述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生该故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。或者
在获得当前故障信息之前不存在历史故障信息时,获得当前传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生该故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
其中,预定阈值可在实际应用中进行调整。
举例说明,首先假设,监控对象Oi的故障类型Fj已经发生,建立其T0传导时间内所有的故障对象集合为Lijk=F(Oi,Fj,Tk),分析历史数据,前面该控对象Oi的故障类型Fj已经发生过K-1次,累计共K条故障传导链。
接着,在这第K条故障传导链集合中,共计Mk个故障对象,分析所有这些监控对象在历史的K-1次传导链集合中出现的次数∑Ckm=Count(Lijk,Om)(k=1,2,…k-1),得到Mk个监控对象发生的次数,为了归一化可以计算其发生的频次,即出现次数占总数量的百分比。
最后,如果出现频次为100%的故障对象,则相关度最高,为因果强相关关系,但是由于实际的生产环境中故障对象链会因网络变更而发生变化,经验数据可以取频次为90%以上,或者按照频次由高到低的顺序来确定故障对象的优先级顺序。故障对象传导链Lij定义为:对象Oi的故障类型Fj所影响的强相关的对象故障集合;
举例说明,在某一复杂通信网络中,包括有无线基站网络、骨干网传输网络、IT监控网络、动力与环境监控网络等网络子***。简化其组网模型,假设其组网方式中有三个监控节点:电源P1、传输T1和基站S1。其三个对象具有因果关系:电源中断后传输无源,基站也中断不能提供服务,电源正常时传输异常中断基站也不能提供服务,即:P1-->(T1-->S1)。
当传输T1中断故障发生后,可以计算出其T0时间段内有很多的故障上报,其中基站S1中断会在其时间序列出现之后发生,当然同一时间点附近也会有其它的故障产生;与历史数据的传导链进行相关性分析,就会发现(T1-->S1)的出现频度会非常高,理想情况下应该达到100%伴随出现,而其它随机出现的故障,则出现频度的相关度会比较低。
同样,当电源P1掉电故障发生后,可以计算出其传导链上的T1和S1也会出现在时间序列之后,且相关度非常高;(P1-->T1)和(P1-->S1)就是电源P1的传导链,P1-->(T1-->S1)就是一个更大的传导链。
但是,当由于网络扩建或者维护变更时,传输T1不再连接基站S1而是S2,这时(T1-->S1)的关系不再出现,(T1-->S2)则是新的传导关系。这种传导关系开始时由于历史数据不存在,则认为是只出现一次的强关联关系(初始情况下所有只出现一次的都认为是强关联关系100%,但是优先级要降低),(P1-->T1)和(P1-->S2)是电源P1的传导链,当出现第二次以上时,优先级就可以提升了。
步骤207,根据上述故障对象传导链Lij,找到故障对象传导链上的根源故障,定位出监控对象和故障类型。
上述方法可以生成基于监控对象和故障类型的强关联的生成树;在故障发生后,所有的告警监控都可以在时间轴上,按照对象传导链Lij进行强关联的自动呈现;这种呈现可以帮助用户更好地分析和定位故障,更方便地在派单时对一类现场问题进行统一派单,结合历史数据,方便排查,提高效率。
步骤208,在步骤,206的基础上,上述方法还可以包括:
根据上述故障对象传导链Lij,获得针对不同故障类型的对象传导链Li,根据上述对象传导链Li定位出故障对象和故障类型;其中
上述对象传导链Li定义为:强相关性的对象Oi的有限对象集合,即针对该对象发生任何故障都很容易影响该链条上的其它对象,其中可能是不同的故障;
对象传导链Li的具体判断方法:
一个对象Oi会检测多个故障类型,每个故障类型Fj都可以计算获得一个传导链Lij(j=1…m),传导链包括有被影响的监控对象和它检测的故障。在多个传导链中的对象故障集合中,计算各个集合中所有出现的对象故障的频次来判断多个传导链之间的相关性,与上述判断方法相同;
举例说明,在某机框内的多个单板上,针对机框的严重通讯故障检测,都会影响到单板自身的通信能力。这种与故障类型关联不大,对象之间具有父子关系的,就能够通过对象传导链的方式进行发现和挖掘,故障恢复时就可以优先排查传导链根源的父故障节点。
具有强相关性的对象可以扩展归纳为一个大的对象包,对象包中的故障可以指派为一个故障上站团队,而对象包中的强相关性的故障可以优先排查传导链根源的故障节点。或者
步骤209,根据上述故障对象传导链Lij,获得针对不同监控对象的故障传导链Lj,根据故障传导链Lj定位出故障对象和故障类型。其中
上述故障传导链Lj定义为:为强相关性的故障Fj的有限故障集合,即针对该故障发生时都很容易引发该链条上的其它故障类型,可能是不同的监控对象。
故障传导链Lj的具体判断方法:一个故障Fj会在多个对象上被检测发生,针对每个故障类型Fj同样可以不同对象Oi其发生时的一个传导链Lij(i=1…n),传导链包括有被影响的对象和它检测的故障。在多个传导链中的对象故障集合中,计算各个集合中所有出现的对象故障的频次来判断多个传导链之间的相关性,与上述判断方法相同。
举例说明,在通讯协议栈的上下层通信过程中,低层通信往往会影响上层通信。如果对不同层次的协议栈进行监控时,底层协议栈的故障会影响上层协议栈的功能;这种与对象本身关联不大,对象之间具有逻辑的强关联关系的,就能够通过故障传导链的方式进行发现和挖掘,故障恢复时就可以优先排查传导链根源的故障节点。
图3为本发明一个实施例的一种故障的定位装置的结构示意图,包括:接收模块(30),故障元数据库建立模块(31),第一建立模块(32),第二建立模块(33)和定位模块(34)。
接收模块,用于获得当前故障信息,当前故障信息至少包括监控对象、故障类型和时间信息;
其中,第一建立模块,用于根据获得的当前故障信息,建立所有监控对象针对不同故障类型在不同时间点的预定时间窗内的传导链集合,并输出给第二建立模块。
第一建立模块,还用于判断所述当前故障信息是否存在于所述历史故障信息中;当判断出所述当前故障信息存在于所述历史故障信息中时,获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链;根据所述故障信息建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合,向所述第二建立模块发送第一通知。
优选地,第一建立模块,还用于在判断出获得当前故障信息之前不存在历史故障信息时,向第二建立模块发送第二通知;
第二建立模块,用于对第一建立模块建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对所有故障类型的故障对象传导链并输出给定位模块。
进一步地,第二建立模块具体用于:接收到来自第一建立模块的第一通知,获得所述传导链集合中每个监控对象发生故障的次数,计算每个监控对象发生故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
优选地,第二建立模块,还用于接收来自第一建立模块的第二通知,获得当前传导链集合中每个监控对象发生故障的次数,计算每个监控对象发生故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
定位模块,用于根据来自第二建立模块的故障对象传导链,定位出故障对象和故障类型。
进一步地,定位模块还用于:
根据故障对象传导链,获得针对不同监控对象的故障传导链,根据得到的不同监控对象的故障传导链定位出故障对象和故障类型;或者,所述故障对象传导链,获得针对不同故障类型的对象传导链,根据不同故障类型的对象传导链定位出故障对象和故障类型。
最后,上述装置还包括:故障元数据建立模块,用于根据获得的故障信息,建立故障元数据库,将故障元数据库信息传给第一处理模块。
以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范围,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种实现故障定位的方法,其特征在于,包括:获取当前故障信息,当前故障信息至少包括监控对象、故障类型和时间信息;
根据获得的当前故障信息,建立所有监控对象针对不同故障类型在不同时间点的预定时间窗内的传导链集合;
对建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链;
根据获得的故障对象传导链,定位出当前的故障对象和故障类型。
2.根据权利要求1所述的方法,其特征在于,所述获取当前故障信息之前还包括:根据获得的历史故障信息,建立故障元数据库。
3.根据权利要求2所述的方法,其特征在于,所述建立传导链集合之前,该方法还包括:判断所述当前故障信息是否存在于所述历史故障信息中;
当判断出所述当前故障信息存在于所述历史故障信息中时,所述建立所有监控对象针对不同故障类型在不同时间点的预定时间窗内的传导链集合包括:
获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链;
根据所述历史故障信息建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合。
4.根据权利要求3所述的方法,其特征在于,所述对传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链,包括:
分别获得所述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生该故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
5.根据权利要求1或2所述的方法,其特征在于,当判断出所述当前故障信息不存在于所述历史故障信息中时,该方法还包括:
所述对传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链,包括:
分别获得当前传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生该故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
6.根据权利要求1或2所述的方法,其特征在于,所述获得所有监控对象针对不同故障类型的故障对象传导链后,该方法还包括:
根据所述故障对象传导链,获得针对不同监控对象的故障传导链,根据不同监控对象的故障传导链定位出故障对象和故障类型;或者,
根据所述故障对象传导链,获得针对不同故障类型的对象传导链,根据不同故障类型的对象传导链定位出故障对象和故障类型。
7.一种实现故障定位的装置,其特征在于,包括:
接收模块,用于获得当前故障信息,当前故障信息至少包括监控对象、故障类型和时间信息;
第一建立模块,用于根据获得的当前故障信息,建立所有监控对象针对不同故障类型在不同时间点的预定时间窗内的传导链集合,并输出给第二建立模块;
第二建立模块,用于对第一建立模块建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对所有故障类型的故障对象传导链并输出给定位模块;
定位模块,用于根据来自第二建立模块的故障对象传导链,定位出故障对象和故障类型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:故障元数据建立模块,用于根据获得的故障信息,建立故障元数据库,将故障元数据库信息传给第一处理模块。
9.根据权利要求8所述的装置,其特征在于,所述第一建立模块,还用于判断所述当前故障信息是否存在于所述历史故障信息中;
当判断出所述当前故障信息存在于所述历史故障信息中时,获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链;根据所述故障信息建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合,向所述第二建立模块发送第一通知。
10.根据权利要求9所述的装置,其特征在于,所述第二建立模块具体用于:
接收到来自第一建立模块的第一通知,获得所述传导链集合中每个监控对象发生故障的次数,计算每个监控对象发生故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
11.根据权利要求7或8所述的装置,其特征在于,所述第一建立模块,还用于在判断出获得当前故障信息之前不存在历史故障信息时,向第二建立模块发送第二通知;
所述第二建立模块,还用于接收来自第一建立模块的第二通知,获得当前传导链集合中每个监控对象发生故障的次数,计算每个监控对象发生故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
12.根据权利要求7或8所述的装置,其特征在于,所述定位模块还用于:
根据所述故障对象传导链,获得针对不同监控对象的故障传导链,根据得到的不同监控对象的故障传导链定位出故障对象和故障类型;
或者,根据所述故障对象传导链,获得针对不同故障类型的对象传导链,根据不同故障类型的对象传导链定位出故障对象和故障类型。
CN201310711392.8A 2013-12-20 2013-12-20 一种实现故障定位的方法及装置 Withdrawn CN104734871A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310711392.8A CN104734871A (zh) 2013-12-20 2013-12-20 一种实现故障定位的方法及装置
CN201480057055.4A CN105659528B (zh) 2013-12-20 2014-09-24 一种实现故障定位的方法及装置
PCT/CN2014/087332 WO2015090098A1 (zh) 2013-12-20 2014-09-24 一种实现故障定位的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310711392.8A CN104734871A (zh) 2013-12-20 2013-12-20 一种实现故障定位的方法及装置

Publications (1)

Publication Number Publication Date
CN104734871A true CN104734871A (zh) 2015-06-24

Family

ID=53402074

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201310711392.8A Withdrawn CN104734871A (zh) 2013-12-20 2013-12-20 一种实现故障定位的方法及装置
CN201480057055.4A Active CN105659528B (zh) 2013-12-20 2014-09-24 一种实现故障定位的方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201480057055.4A Active CN105659528B (zh) 2013-12-20 2014-09-24 一种实现故障定位的方法及装置

Country Status (2)

Country Link
CN (2) CN104734871A (zh)
WO (1) WO2015090098A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294076A (zh) * 2016-08-24 2017-01-04 浪潮(北京)电子信息产业有限公司 一种服务器关联故障预测方法及其***
WO2018010176A1 (zh) * 2016-07-15 2018-01-18 华为技术有限公司 获取故障信息的方法及设备
CN107690676A (zh) * 2017-07-04 2018-02-13 深圳怡化电脑股份有限公司 金融自助设备维修派单生成方法、手持终端及电子设备
CN108229613A (zh) * 2017-12-30 2018-06-29 武汉凌科通光电科技有限公司 光电子器件故障定位方法及***
CN108351814A (zh) * 2015-10-27 2018-07-31 甲骨文国际公司 用于对支持包进行优先化的***和方法
CN108880838A (zh) * 2017-05-10 2018-11-23 阿里巴巴集团控股有限公司 业务故障的监控方法及装置、计算机设备及可读介质
CN109936470A (zh) * 2017-12-18 2019-06-25 中国电子科技集团公司第十五研究所 一种异常检测方法
CN110611604A (zh) * 2019-09-19 2019-12-24 国家电网有限公司 局域网设备评估处理方法及装置
CN110635960A (zh) * 2019-11-11 2019-12-31 国家电网有限公司 通信设备的升级方法和装置
CN111143101A (zh) * 2019-12-12 2020-05-12 东软集团股份有限公司 用于确定故障根源的方法、装置、存储介质及电子设备
CN111739188A (zh) * 2019-10-11 2020-10-02 北京京东尚科信息技术有限公司 一种agv故障增长率确定方法和装置
CN113839804A (zh) * 2020-06-24 2021-12-24 华为技术有限公司 一种网络故障的确定方法及网络设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108306747B (zh) * 2017-01-11 2021-07-23 阿里巴巴集团控股有限公司 一种云安全检测方法、装置和电子设备
CN111327443B (zh) * 2018-12-17 2022-11-22 ***通信集团北京有限公司 一种故障根源指标确定方法及装置
CN115988551B (zh) * 2022-12-19 2023-09-08 南京濠暻通讯科技有限公司 一种基于zynq的o-ran无线单元故障管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252477A (zh) * 2008-03-27 2008-08-27 杭州华三通信技术有限公司 一种网络故障根源的确定方法及分析装置
CN101442762A (zh) * 2008-12-29 2009-05-27 ***通信集团北京有限公司 网络性能分析以及网络故障定位方法和装置
CN101854277A (zh) * 2010-06-12 2010-10-06 河北全通通信有限公司 一种移动通信经营分析***的监控方法
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100375435C (zh) * 2004-06-22 2008-03-12 中兴通讯股份有限公司 光同步传送网告警相关性分析方法
US8156377B2 (en) * 2010-07-02 2012-04-10 Oracle International Corporation Method and apparatus for determining ranked causal paths for faults in a complex multi-host system with probabilistic inference in a time series
CN103001811B (zh) * 2012-12-31 2016-01-06 北京启明星辰信息技术股份有限公司 故障定位方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252477A (zh) * 2008-03-27 2008-08-27 杭州华三通信技术有限公司 一种网络故障根源的确定方法及分析装置
CN101442762A (zh) * 2008-12-29 2009-05-27 ***通信集团北京有限公司 网络性能分析以及网络故障定位方法和装置
CN101854277A (zh) * 2010-06-12 2010-10-06 河北全通通信有限公司 一种移动通信经营分析***的监控方法
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108351814B (zh) * 2015-10-27 2021-08-17 甲骨文国际公司 用于对支持包进行优先化的***和方法
CN108351814A (zh) * 2015-10-27 2018-07-31 甲骨文国际公司 用于对支持包进行优先化的***和方法
WO2018010176A1 (zh) * 2016-07-15 2018-01-18 华为技术有限公司 获取故障信息的方法及设备
CN106294076A (zh) * 2016-08-24 2017-01-04 浪潮(北京)电子信息产业有限公司 一种服务器关联故障预测方法及其***
CN106294076B (zh) * 2016-08-24 2019-03-15 浪潮(北京)电子信息产业有限公司 一种服务器关联故障预测方法及其***
CN108880838A (zh) * 2017-05-10 2018-11-23 阿里巴巴集团控股有限公司 业务故障的监控方法及装置、计算机设备及可读介质
CN108880838B (zh) * 2017-05-10 2021-11-09 阿里巴巴集团控股有限公司 业务故障的监控方法及装置、计算机设备及可读介质
CN107690676A (zh) * 2017-07-04 2018-02-13 深圳怡化电脑股份有限公司 金融自助设备维修派单生成方法、手持终端及电子设备
CN109936470A (zh) * 2017-12-18 2019-06-25 中国电子科技集团公司第十五研究所 一种异常检测方法
CN108229613A (zh) * 2017-12-30 2018-06-29 武汉凌科通光电科技有限公司 光电子器件故障定位方法及***
CN110611604A (zh) * 2019-09-19 2019-12-24 国家电网有限公司 局域网设备评估处理方法及装置
CN111739188A (zh) * 2019-10-11 2020-10-02 北京京东尚科信息技术有限公司 一种agv故障增长率确定方法和装置
CN110635960A (zh) * 2019-11-11 2019-12-31 国家电网有限公司 通信设备的升级方法和装置
CN111143101A (zh) * 2019-12-12 2020-05-12 东软集团股份有限公司 用于确定故障根源的方法、装置、存储介质及电子设备
CN111143101B (zh) * 2019-12-12 2023-07-07 东软集团股份有限公司 用于确定故障根源的方法、装置、存储介质及电子设备
CN113839804A (zh) * 2020-06-24 2021-12-24 华为技术有限公司 一种网络故障的确定方法及网络设备

Also Published As

Publication number Publication date
CN105659528A (zh) 2016-06-08
WO2015090098A1 (zh) 2015-06-25
CN105659528B (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN105659528B (zh) 一种实现故障定位的方法及装置
CN110493042B (zh) 故障诊断方法、装置及服务器
CN113328872B (zh) 故障修复方法、装置和存储介质
US9571334B2 (en) Systems and methods for correlating alarms in a network
CN101212367B (zh) 一种告警信息的处理方法及装置
US11348023B2 (en) Identifying locations and causes of network faults
US7500142B1 (en) Preliminary classification of events to facilitate cause-based analysis
CN106941423A (zh) 故障原因定位方法及装置
CN106685676B (zh) 一种节点切换方法及装置
CN108234170A (zh) 一种服务器集群的监控方法和装置
CN113297042B (zh) 一种告警消息的处理方法、装置及设备
CN105049253A (zh) 一种获取移动网络故障定位和故障预警的方法
CN106506226B (zh) 一种故障检测的启动方法及装置
WO2014169869A1 (zh) 一种告警处理的方法及告警***
WO2006021151A1 (fr) Procede permettant de traiter les alertes dans un systeme de gestion centralisee de reseau et systeme de gestion centralisee de reseau correspondant
CN115766402B (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN114866396B (zh) 基于文本相似度的实现资源不准下网络故障定位的方法
CN109262653A (zh) 故障机器人自动恢复方法及装置
CN103914354A (zh) 数据库故障修复的方法和***
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN115174350B (zh) 一种运维告警方法、装置、设备及介质
KR20190104759A (ko) 지능형 장비 이상 증상 사전 탐지 시스템 및 방법
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质
WO2022259307A1 (ja) 警報解析装置、警報解析方法、ベイジアンネットワークモデルおよび警報解析プログラム
KR100312015B1 (ko) 비동기식 광전송장치로 구성된 통신망에서의 고장위치 판정방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20150624