CN112448836B - 故障根因确定方法、装置、服务器和计算机可读介质 - Google Patents

故障根因确定方法、装置、服务器和计算机可读介质 Download PDF

Info

Publication number
CN112448836B
CN112448836B CN201910832361.5A CN201910832361A CN112448836B CN 112448836 B CN112448836 B CN 112448836B CN 201910832361 A CN201910832361 A CN 201910832361A CN 112448836 B CN112448836 B CN 112448836B
Authority
CN
China
Prior art keywords
fault
node
root
determining
propagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910832361.5A
Other languages
English (en)
Other versions
CN112448836A (zh
Inventor
韩俊华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201910832361.5A priority Critical patent/CN112448836B/zh
Priority to US17/637,888 priority patent/US11750439B2/en
Priority to PCT/CN2020/113111 priority patent/WO2021043184A1/zh
Priority to EP20860951.1A priority patent/EP4012978A4/en
Publication of CN112448836A publication Critical patent/CN112448836A/zh
Application granted granted Critical
Publication of CN112448836B publication Critical patent/CN112448836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供一种故障根因确定方法及装置,当业务发生故障时,确定故障特征信息,根据故障特征信息和故障传播图确定故障根因节点,本公开利用故障传播图找到故障根因,可以缩短确定故障根因的周期,提高故障根因定位的效率和准确性;本公开还提供一种服务器和计算机可读介质。

Description

故障根因确定方法、装置、服务器和计算机可读介质
技术领域
本公开涉及计算机网络技术领域,具体涉及一种故障根因确定方法、装置、服务器和计算机可读介质。
背景技术
随着承载网络的规模越来越大,网络的结构越来越复杂,当发生故障时,需要投入较大的人力进行故障根因定位,运维成本很高,而且故障根因确定过程较长,效率较低。因此,如何找到一种有效和快速的故障根因确定方法显得非常必要。
现有的故障根因确定方法主要分为如下几类:
1)由人工借助工具确定故障根因。这是传统的故障根因确定方法,以人工分析为主,工具收集数据为辅,一般先收集相关数据,再进行人工分析,逐步排查定位,最终给出结论。该类方法的缺点是主要依赖于专家的知识和经验,很难复制,人力成本高,且故障根因定位过程较长,效率低。
2)基于规则确定故障根因。该类方法主要通过总结运维专家的知识经验,梳理出相应的诊断流程和诊断规则,形成策略库和规则库。根据承载业务和业务故障的不同,制定出相应的故障诊断策略和规则确定故障根因。该类方法的优点是可以很好的将运维专家的知识经验积累下来,体现到具体的故障诊断策略和规则中,实现故障的自动排查定位。缺点是主要依赖于人总结规则,需要逐步排查定位,定位周期较长,且***自身不具备自学习能力。
3)基于神经网络确定故障根因。该类方法将确定故障根因问题转换为适合神经网络解决的分类问题,是基于数据驱动的故障根因确定方法。具体是先通过对故障数据进行标注,形成训练数据集,然后,再训练神经网络模型,从而具备确定故障根因的能力。该类方法依赖于大量、高质量、有标注的数据,缺点是对数据要求相对较高。
发明内容
本公开针对现有技术中存在的上述不足,提供一种故障根因确定方法、装置、服务器和计算机可读介质。
第一方面,本公开实施例提供一种故障根因确定方法,所述方法包括:
当业务发生故障时,确定故障特征信息;
根据所述故障特征信息和预设的故障传播图确定故障根因节点,所述故障传播图用于表示不同传播节点之间有向的关联关系以及故障节点、故障传播节点和故障根因节点之间有向的关联关系,所述故障传播图中的节点用于表示所述故障特征信息。
进一步的,在根据所述故障特征信息和预设的故障传播图确定故障根因节点之后,所述方法还包括:
根据所述故障根因节点、所述故障特征信息和预设的贝叶斯模型,确定所述故障根因节点的故障根因概率。
优选的,所述确定故障特征信息,包括:确定故障业务和故障类型,以及确定所述故障业务的路径,并根据所述路径获取与所述故障相关的事件;
所述根据所述故障特征信息和预设的故障传播图确定故障根因节点,包括:
从预设的各故障传播图中选择故障节点与所述故障类型相匹配的故障传播图,并根据选择出的故障传播图确定故障根因节点;
所述根据所述故障根因节点、所述故障特征信息和预设的贝叶斯模型,确定所述故障根因节点的故障根因概率,包括:
从预设的各贝叶斯模型中选择与所述选择出的故障传播图相对应的贝叶斯模型,并根据所述故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述故障根因节点的故障根因概率。
优选的,所述根据选择出的故障传播图确定故障根因节点,包括:
根据选择出的故障传播图中的关联关系,确定与选择出的故障传播图中的故障节点相关联的节点;
确定所述节点的节点类型,并至少根据所述节点类型确定疑似故障根因节点,所述疑似故障根因节点为选择出的故障传播图中的故障根因节点,且所述疑似故障根因节点的数量小于选择出的故障传播图中故障根因节点的数量;
所述根据所述故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述故障根因节点的故障根因概率,包括:
根据所述疑似故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述疑似故障根因节点的故障根因概率。
优选的,所述至少根据所述节点类型确定疑似故障根因节点,包括:
若所述节点的节点类型为故障传播节点且所述故障传播节点的可确认性属性为可确认属性,则判断是否满足所述故障传播节点的规则属性,若满足规则属性,则根据选择出的故障传播图确定所述故障传播节点的下一个节点,确定所述下一个节点的节点类型,并根据所述下一个节点的节点类型确定疑似故障根因节点;若不满足规则属性,则不再确定所述故障传播节点的下一个节点;
若所述节点的节点类型为故障传播节点且所述故障传播节点的可确认性属性为不可确认属性,则根据选择出的故障传播图确定所述故障传播节点的下一个节点,确定所述下一个节点的节点类型,并根据所述下一个节点的节点类型确定疑似故障根因节点。
优选的,生成所述故障传播图的步骤包括:
从预设的运维知识经验数据库中获取故障信息,所述故障信息包括:故障类型、故障根因类型、与所述故障类型相关联事件以及故障类型、故障根因类型和与所述故障类型相关联事件之间的关联关系;
根据所述故障信息,针对每个故障类型分别生成故障传播图,所述故障传播图为故障传播知识图谱。
优选的,建立所述贝叶斯模型的步骤包括:
删除所述故障传播图中可确认性属性为不可确认属性的节点以及与所述已删除的节点相关的关联关系,并根据所述已删除的关联关系,在与所述已删除的节点相关联的节点之间建立关联关系,以得到预处理后的故障传播图;
分别将所述预处理后的故障传播图中的各节点和关联关系转化为贝叶斯模型中的节点和关联关系,以建立所述贝叶斯模型。
另一方面,本公开实施例还提供一种故障根因确定装置,包括第一确定模块和第二确定模块;
所述第一确定模块用于,当业务发生故障时,确定故障特征信息;
所述第二确定模块用于,根据所述故障特征信息和预设的故障传播图确定故障根因节点,所述故障传播图用于表示不同传播节点之间有向的关联关系以及故障节点、故障传播节点和故障根因节点之间有向的关联关系,所述故障传播图中的节点用于表示所述故障特征信息。
进一步的,所述故障根因确定装置还包括第三确定模块,所述第三确定模块用于,根据所述故障根因节点、所述故障特征信息和预设的贝叶斯模型,确定所述故障根因节点的故障根因概率。
优选的,所述第一确定模块用于,确定故障业务和故障类型,以及确定所述故障业务的路径,并根据所述路径获取与所述故障相关的事件;
所述第二确定模块用于,从预设的各故障传播图中选择故障节点与所述故障类型相匹配的故障传播图,并根据选择出的故障传播图确定故障根因节点;
所述第三确定模块用于,从预设的各贝叶斯模型中选择与所述选择出的故障传播图相对应的贝叶斯模型,并根据所述故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述故障根因节点的故障根因概率。
优选的,所述第二确定模块用于,根据选择出的故障传播图中的关联关系,确定与选择出的故障传播图中的故障节点相关联的节点;确定所述节点的节点类型,并至少根据所述节点类型确定疑似故障根因节点,所述疑似故障根因节点为选择出的故障传播图中的故障根因节点,且所述疑似故障根因节点的数量小于选择出的故障传播图中故障根因节点的数量;
所述第三确定模块用于,根据所述疑似故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述疑似故障根因节点的故障根因概率。
优选的,所述第二确定模块用于,当所述节点的节点类型为故障传播节点且所述故障传播节点的可确认性属性为可确认属性时,判断是否满足所述故障传播节点的规则属性,若满足规则属性,则根据选择出的故障传播图确定所述故障传播节点的下一个节点,确定所述下一个节点的节点类型,并根据所述下一个节点的节点类型确定疑似故障根因节点,若不满足规则属性,则不再确定所述故障传播节点的下一个节点;当所述节点的节点类型为故障传播节点且所述故障传播节点的可确认性属性为不可确认属性时,根据选择出的故障传播图确定所述故障传播节点的下一个节点,确定所述下一个节点的节点类型,并根据所述下一个节点的节点类型确定疑似故障根因节点。
进一步的,所述故障根因确定装置还包括故障传播图生成模块,所述故障传播图生成模块用于,从预设的运维知识经验数据库中获取故障信息,所述故障信息包括:故障类型、故障根因类型、与所述故障类型相关联事件以及故障类型、故障根因类型和与所述故障类型相关联事件之间的关联关系;根据所述故障信息,针对每个故障类型分别生成故障传播图,所述故障传播图为故障传播知识图谱。
进一步的,所述故障根因确定装置还包括贝叶斯模型建立模块,所述贝叶斯模型建立模块用于,删除所述故障传播图中可确认性属性为不可确认属性的节点以及与所述已删除的节点相关的关联关系,并根据所述已删除的关联关系,在与所述已删除的节点相关联的节点之间建立关联关系,以得到预处理后的故障传播图;分别将所述预处理后的故障传播图中的各节点和关联关系转化为贝叶斯模型中的节点和关联关系,以建立所述贝叶斯模型。
又一方面,本公开实施例还提供一种服务器,该服务器包括:一个或多个处理器以及存储装置;其中,存储装置上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如前述各实施例所提供的故障根因确定方法。
本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被执行时实现如前述各实施例所提供的故障根因确定方法。
本公开的实施例,当业务发生故障时,确定故障特征信息,根据故障特征信息和故障传播图确定故障根因节点,本公开实施例利用故障传播图找到故障根因,可以缩短确定故障根因的周期,提高故障根因定位的效率和准确性;本公开实施例的方案无需人工参与,降低劳动力成本,且对数据要求不高,易于实现。
附图说明
图1为本公开实施例提供的故障根因确定方法的流程图之一;
图2为本公开实施例提供的故障根因确定方法的流程图之二;
图3为本公开实施例提供的确定故障根因节点的流程图;
图4为本公开实施例提供的确定疑似故障根因节点的流程图;
图5为本公开实施例提供的生成所述故障传播图的流程图;
图6为本公开实施例提供的建立所述贝叶斯模型的流程图;
图7为本公开实施例提供的对故障传播图进行预处理的流程图;
图8a和图8b为本公开实施例提供的删除故障传播图中节点及关联关系的示意图;
图9为本公开实施例提供的故障传播图示例;
图10为本共开一实施例提供的故障根因确定装置的结构示意图;
图11为本公开另一实施例提供的故障根因确定装置的结构示意图。
具体实施方式
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
本公开的一个实施例提供一种故障根因确定方法,以下结合图1,对本公开实施例的故障根因确定方法进行详细说明。如图1所示,所述方法包括以下步骤:
步骤11,当业务发生故障时,确定故障特征信息。
故障特征信息可以包括:故障业务、故障类型和与故障相关的事件。故障业务可以包括L2VPN业务、L3VPN业务等,故障类型可以包括业务丢包、业务中断等,故障类型可以通过现有的业务故障识别方案实现,也可以人工输入。与故障相关的事件是根据故障业务的路径获取的,可以先根据故障业务的配置信息和故障业务上报的状态信息,还原出故障业务的路径,然后有针对性的采集该故障业务路径上的与故障相关的事件。与故障相关的事件可以包括:告警、通知、性能异常、配置异常、日志异常等。在获取到与故障相关的事件后,将与故障相关的事件信息标准化,以便后续计算故障根因概率时使用。
步骤12,根据故障特征信息和预设的故障传播图确定故障根因节点。
故障传播图属于知识图谱,知识图谱是一种基于图的数据结构,由节点(Point)和边(Edge)组成,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”,包括实体、概念、属性、时间、关系等信息。故障传播图通过定义不同类型的节点和边,表达故障传播的关系,具体的,故障传播图用于表示不同传播节点之间有向的关联关系以及故障节点、故障传播节点和故障根因节点之间有向的关联关系,故障传播图中的节点用于表示故障特征信息。故障传播图中的节点包括:用于表示故障类型的故障节点、用于表示故障根因类型的故障根因节点、用于表示与故障类型相关联事件的故障传播节点。
故障节点(Fault)对应具体的业务故障,是整个故障传播图的中心起点。故障根因节点(RootCause)对应具体的故障根因类型,是故障定位的最终结果节点。故障传播节点(Propagation)对应故障产生前后的各种事件节点,是故障传播的中间节点。故障产生时,会由故障根因节点开始,经过传播节点,导致故障节点。故障根因定位时,可以从故障节点开始,经过故障传播节点,找到故障根因节点。
在本公开实施例中,关联关系为因果关系(Cause),关联关系具有方向,在故障传播图中通过箭头表示,关联关系的属性包括名称(name),表示“引起”或“导致”,如A节点和B节点之间的关联关系是指A节点导致B节点。
需要说明的是,故障传播图是根据故障类型划分的,即一个故障类型对应一个故障传播图。在初始化阶段,针对每种故障类型分别生成与之相对应的故障传播图,故障传播图是根据运维知识经验进行知识抽取后获得,其具体生成过程后续结合图5再详细说明。故障传播图的存储可以采用多种方式,包括但不限于如下方式:图数据库、关系数据库和包含图数据结构的文件等,本公开实施例优选用图数据库Orient DB存储故障传播图。
根据故障特征信息和预设的故障传播图确定故障根因节点的具体实现方式,后续结合附图3再详细说明。
通过步骤11-12可以看出,在本公开的实施例中,当业务发生故障时,确定故障特征信息,根据故障特征信息和故障传播图确定故障根因节点,本公开实施例利用故障传播图找到故障根因,可以缩短确定故障根因的周期,提高故障根因定位的效率和准确性;本公开实施例的方案无需人工参与,降低劳动力成本,且对数据要求不高,易于实现。
在本公开另一实施例中,如图2所示,在根据所述故障特征信息和预设的故障传播图确定故障根因节点(即步骤12)之后,所述方法还包括以下步骤:
步骤13,根据故障根因节点、故障特征信息和预设的贝叶斯模型,确定故障根因节点的故障根因概率。
贝叶斯模型是一种概率模型,它是基于概率推理的图形化模型,其具体建立过程后续结合图6再详细说明。一个贝叶斯模型是一个有向无环图(Directed Acyclic Graph,DAG),由代表变量节点及连接这些节点的有向边构成。节点代表随机变量,节点间的有向边代表了节点间的互相关系(由父节点指向其子节点),用条件概率进行表达关系强度,没有父节点的用先验概率进行信息表达。
在初始化阶段,针对每个故障传播图建立一个贝叶斯模型,并存储该贝叶斯模型及其模型参数,也就是说,每种故障类型对应一个贝叶斯模型。需要说明的是,贝叶斯模型建立之后,需要采用训练数据,对贝叶斯模型进行训练。训练数据可以来自于积累的历史统计数据,历史统计数据记录了历史出现的各次故障信息,包括故障类型、故障根因类型、与故障相关的事件(包括告警、通知、性能异常、配置异常、日志异常等)。为了形成训练数据,可以对历史故障统计数据进行标准化处理,具体的,每一次故障对应一行记录,每一个维度故障特征信息对应一列,1表示存在,0表示不存在。得到标准化的训练数据后,对贝叶斯模型进行训练。
贝叶斯模型的存储可以采用多种方式,包括但不限于如下方式:如采用Python提供的pickle模块将对象序列化并保存到磁盘中,保存为PMML格式的文件等。
在本步骤中,选择相应的贝叶斯模型,将故障根因节点、故障类型、与故障相关的事件等信息输入选择出的贝叶斯模型,经过贝叶斯模型概率推理,输出所述故障根因节点的故障根因概率。
当业务发生故障时,确定故障特征信息,根据故障特征信息和故障传播图确定故障根因节点,并根据故障根因节点、故障特征信息和贝叶斯模型,确定故障根因节点的故障根因概率;利用贝叶斯模型将故障根因定位转化为机器学习问题,可以很好的基于统计数据进行学习和概率推理,在确定故障根因过程中充分利用机器学习算法的优势,先利用故障传播图找到故障根因,再利用贝叶斯模型推理,可以直接给出故障根因的概率,进一步缩短确定故障根因的周期,提高故障根因定位的效率和准确性。
在本公开另一实施例中,在根据故障根因节点、故障特征信息和预设的贝叶斯模型,确定故障根因节点的故障根因概率(即步骤13)之后,所述故障根因确定方法还可以包括以下步骤:根据故障根因概率的大小,对相应的故障根因节点排序,并显示所述排序和排序中各故障根因节点的故障根因概率。在本步骤中,可以按照故障根因概率由大到小对相应的故障根因节点排序,并显示所述排序以及排序中各故障根因节点的故障根因概率。显示方式可以采用多种方式,包括但不限于如下方式:如列表方式,文本方式等。
在本公开一个实施例中,所述根据故障特征信息和预设的故障传播图确定故障根因节点的步骤(即步骤12),包括:从预设的各故障传播图中选择故障节点与故障类型相匹配的故障传播图,并根据选择出的故障传播图确定故障根因节点。
相应的,所述根据故障根因节点、故障特征信息和预设的贝叶斯模型,确定故障根因节点的故障根因概率的步骤(即步骤13),包括:从预设的各贝叶斯模型中选择与选择出的故障传播图相对应的贝叶斯模型,并根据故障根因节点、故障类型、与故障相关的事件和选择出的贝叶斯模型,确定故障根因节点的故障根因概率。
以下结合图3,对根据选择出的故障传播图确定故障根因节点的流程进行详细说明。如图3所示,所述根据选择出的故障传播图确定故障根因节点的步骤,具体包括以下步骤:
步骤31,根据选择出的故障传播图中的关联关系,确定与选择出的故障传播图中的故障节点相关联的节点。
本步骤中用到的关联关系为与故障节点相关的关联关系,包括故障节点与故障根因节点之间的关联关系,以及故障节点与故障传播节点之间的关联关系。
步骤32,确定节点的节点类型。
在故障传播图中,节点类型可以包括故障节点、故障根因节点和故障传播节点,由于故障传播图中只有一个故障节点,因此,在本步骤中,与故障节点相关联的节点的节点类型为故障根因节点或故障传播节点。
步骤33,至少根据节点类型确定疑似故障根因节点。
疑似故障根因节点为选择出的故障传播图中的故障根因节点,且疑似故障根因节点的数量小于选择出的故障传播图中故障根因节点的数量。也就是说,疑似故障根因节点是整个故障传播图中所有故障根因节点中的一部分。
在本步骤中,若节点(即与故障节点相关联的节点)的节点类型为故障根因节点,则将该故障根因节点作为疑似故障根因节点,也就是说,如果是故障根因节点,则终止在故障传播图中对节点的搜索。若节点(即与故障节点相关联的节点)的节点类型为故障传播节点,则根据故障传播节点的节点属性确定疑似故障根因节点,也就是说,如果是故障传播节点,则继续在故障传播图中搜索相关联的节点。
根据故障传播节点的节点属性确定疑似故障根因节点的具体实现方式,后续结合图4再详细说明。
需要说明的是,若根据步骤31-33确定出疑似故障根因节点,相应的,所述根据故障根因节点、故障特征信息和预设的贝叶斯模型,确定故障根因节点的故障根因概率的步骤(即步骤13),包括:根据疑似故障根因节点、故障类型、与故障相关的事件和选择出的贝叶斯模型,确定疑似故障根因节点的故障根因概率,也就是说,在步骤13中,输入贝叶斯模型的是疑似根因节点。
通过步骤31-33可以有针对性的找到故障传播图中可能导致本次故障的故障根因节点,并以此作为贝叶斯模型的输入变量,而不是将故障传播图中所有的故障根因节点均作为贝叶斯模型的输入变量,这样可以降低贝叶斯模型的计算复杂度,缩短贝叶斯模型推理的时间,从而进一步提高故障根因定位效率。
以下结合图4,对根据故障传播节点的节点属性确定疑似故障根因节点的流程进行详细说明。需要说明的是,图4所示的确定疑似故障根因节点的流程是针对故障传播节点而言的。如图4所示,所述根据故障传播节点的节点属性确定疑似故障根因节点,具体包括以下步骤:
步骤41,判断故障传播节点的可确认性属性是否为可确认属性,若是,则执行步骤42,否则,执行步骤43。
节点的属性包括:1、名称(Name),表示节点的名称;2、可确认性(isVerify),表示节点是否能够通过具体的规则进行判断,如0表示不可确认,1表示可确认,对于可确认属性的节点,需要给出确认的规则;3、规则(Rule),如果节点是可确认属性,需要判断该节点是否满足相应的规则。
若判断出故障传播节点为可确认属性,则进一步判断是否满足其规则,若不满足,则终止搜索节点,若满足,则搜索下一个节点,并根据该下一个节点的节点类型确定疑似故障根因节点,从而找到全部疑似根因节点。
步骤42,判断是否满足故障传播节点的规则属性,若满足,则执行步骤43,否则,结束本流程,即不再确定故障传播节点的下一个节点。
步骤43,根据选择出的故障传播图确定故障传播节点的下一个节点,确定该下一个节点的节点类型,并根据该下一个节点的节点类型确定疑似故障根因节点。
通过步骤41-43可以看出,基于故障传播图搜索算法,可以找到所有可能的故障根因节点。如果是故障传播节点,则先判断故障传播节点的节点属性,如果是可确认属性,则基于具体的规则,判断该节点是否满足该规则。若不满足该规则,则终止在故障传播图中对节点的搜索,若满足该规则,则继续在故障传播图中找下一个节点,直到遍历所有满足规则的故障传播节点,从而找到所有疑似故障根因节点。
下面结合L3VPN业务丢包故障场景,采用Orient DB图数据库将L3VPN业务丢包的故障传播图进行存储。故障节点对应L3VPN业务丢包,故障传播节点包括转发队列丢包、带宽利用率越限告警、CPU利用率越限告警、关键芯片错误告警、关键芯片温度越限告警等节点。故障根因节点包括风扇故障、风道被堵、机房温度异常、风扇转速设置不合理、外部流量激增、MAC配置冲突等。
以“转发队列丢包”和“带宽利用率越限告警”这两个故障传播节点为例,“转发队列丢包”节点的可确认性属性为“不可确认”,不可确认属性的节点只用于支撑搜索过程。“带宽利用率越限告警”节点属性为“可确认”,该节点的规则为:查询是否存在带宽利用率越限告警,如存在,说明满足规则,可进一步搜索故障根因节点。以下为对应的规则脚本:
update Propagation set isVerify=false where name="转发队列丢包";
update Propagation set isVerify=true where name="带宽利用率越限告警";
update Propagation set rule="alarm_systemtype==4613and(alarm_code==1633or alarm_code==1634)"where name="带宽利用率越限告警";
如果满足上述规则,说明该节点需要继续沿着该节点的关联关系(即cause因果方向)找对应的节点,直至找到故障根因节点为止。
以下结合图5,对生成所述故障传播图的流程进行详细说明。如图5所示,所述生成所述故障传播图的步骤包括:
步骤51,从预设的运维知识经验数据库中获取故障信息。
在本步骤中,先从运维知识经验数据库中进行知识抽取,以获得故障信息,故障信息包括:故障类型、故障根因类型、与故障类型相关联事件(包括告警、通知、性能异常、配置异常、日志异常等)以及故障类型、故障根因类型和与故障类型相关联事件之间的关联关系。
步骤52,根据故障信息,针对每个故障类型分别生成故障传播图。
具体的,故障类型对应故障节点,故障根因类型对应故障根因节点,与故障类型相关联事件对应故障传播节点,结合故障类型、故障根因类型和与故障类型相关联事件之间的关联关系,生成有向的故障传播图。
通过步骤51-52,采用知识图谱技术,构建故障传播知识图谱,用于表示和存储故障传播图,具体通过定义不同类型的节点、节点间的关联关系及其属性,将故障传播的关系表达出来。通过采用故障传播图和知识图谱技术,可以将运维专家的知识经验很好的进行表示和存储,在故障根因定位过程中充分利用了运维专家的知识经验,提高故障根因定位的准确性。
图9是一个故障类型为“业务丢包”的故障传播图的示例图,该故障传播图包括12个故障根因节点,该故障传播图是以告警事件为例说明的,当然,本领域技术人员可知,也可以为其他类型的事件。
在本公开的一个实施例中,贝叶斯模型是根据故障传播图生成的。以下结合图6,对建立贝叶斯模型的流程进行详细说明。如图6所示,所述建立贝叶斯模型的步骤包括:
步骤61,根据故障传播图中各节点的节点属性对故障传播图进行预处理。
由于贝叶斯的网络的每个节点代表一个随机变量,如果故障传播图中的节点无法用一个随机变量表示,我们需要将此类节点信息去除。优选的,可以根据节点的可确认性属性调整故障传播图的结构。
步骤62,分别将预处理后的故障传播图中的各节点和关联关系转化为贝叶斯模型中的节点和关联关系,以建立贝叶斯模型。
在本公开一个实施例中,如图7所示,所述根据故障传播图中各节点的节点属性对故障传播图进行预处理的步骤(即步骤61),包括:
步骤611,删除故障传播图中可确认性属性为不可确认属性的节点,以及与已删除的节点相关的关联关系。
步骤612,根据已删除的关联关系,在与已删除的节点相关联的节点之间建立关联关系。
若故障传播图中一个节点的可确认性属性为“不可确认”,则删除该节点,当然,删除该节点后,与该节点相关的关联关系(即边)同样需要调整。调整关联关系的原则是,删除与已删除的节点相关的关联关系,并根据被删除的关联关系,在分别与被删除的节点相关联的节点之间建立关联关系,从而得到预处理后的故障传播图。
为了清楚说明本公开实施例的方案,以下结合图8a和图8b,对故障传播图的预处理方法进行详细说明。
如图8a所示,故障传播图中的一个故障传播节点(节点2)的可确认性属性为“不可确认”的属性,则在对故障传播图进行预处理过程中,从故障传播图中删除该节点2以及与节点2相关的关联关系a、b、c,并根据关联关系a、b,在与节点2相关联的节点1和节点3之间建立关联关系d,以及根据关联关系a、c,在与节点2相关联的节点1和节点4之间建立关联关系e。
如图8b所示,故障传播图中的一个故障传播节点(节点3)的可确认性属性为“不可确认”的属性,则在对故障传播图进行预处理过程中,从故障传播图中删除该节点3以及与节点3相关的关联关系f、g、h,并根据关联关系f、h,在与节点3相关联的节点1和节点4之间建立关联关系i,以及根据关联关系g、h,在与节点3相关联的节点2和节点4之间建立关联关系j。
基于相同的技术构思,本公开实施例还提供一种故障根因确定装置,如图10所示,该故障根因确定装置包括:第一确定模块101和第二确定模块102,第一确定模块101用于,当业务发生故障时,确定故障特征信息。
第二确定模块102用于,根据所述故障特征信息和预设的故障传播图确定故障根因节点,所述故障传播图用于表示不同传播节点之间有向的关联关系以及故障节点、故障传播节点和故障根因节点之间有向的关联关系,所述故障传播图中的节点用于表示所述故障特征信息。
在本公开另一实施例中,如图11所示,所述故障根因确定装置还包括第三确定模块103,第三确定模块103用于,根据所述故障根因节点、所述故障特征信息和预设的贝叶斯模型,确定所述故障根因节点的故障根因概率。
在本公开另一实施例中,所述故障根因确定装置还包括排序显示模块(图中未绘示),排序显示模块用于,根据所述故障根因概率的大小,对相应的故障根因节点排序,并显示所述排序和所述排序中各故障根因节点的故障根因概率。
优选的,第一确定模块101用于,确定故障业务和故障类型,以及确定所述故障业务的路径,并根据所述路径获取与所述故障相关的事件。
第二确定模块102用于,从预设的各故障传播图中选择故障节点与所述故障类型相匹配的故障传播图,并根据选择出的故障传播图确定故障根因节点。
第三确定模块103用于,从预设的各贝叶斯模型中选择与所述选择出的故障传播图相对应的贝叶斯模型,并根据所述故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述故障根因节点的故障根因概率。
优选的,第二确定模块102用于,根据选择出的故障传播图中的关联关系,确定与选择出的故障传播图中的故障节点相关联的节点;确定所述节点的节点类型,并至少根据所述节点类型确定疑似故障根因节点,所述疑似故障根因节点为选择出的故障传播图中的故障根因节点,且所述疑似故障根因节点的数量小于选择出的故障传播图中故障根因节点的数量。
第三确定模块103用于,根据所述疑似故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述疑似故障根因节点的故障根因概率。
优选的,节点类型至少包括故障根因节点和故障传播节点,第二确定模块102用于,当所述节点的节点类型为故障根因节点时,将所述故障根因节点作为疑似故障根因节点;当所述节点的节点类型为故障传播节点时,根据所述故障传播节点的节点属性确定疑似故障根因节点。
优选的,第二确定模块102用于,当所述节点的节点类型为故障传播节点且所述故障传播节点的可确认性属性为可确认属性时,判断是否满足所述故障传播节点的规则属性,若满足规则属性,则根据选择出的故障传播图确定所述故障传播节点的下一个节点,确定所述下一个节点的节点类型,并根据所述下一个节点的节点类型确定疑似故障根因节点,若不满足规则属性,则不再确定所述故障传播节点的下一个节点;当所述节点的节点类型为故障传播节点且所述故障传播节点的可确认性属性为不可确认属性时,根据选择出的故障传播图确定所述故障传播节点的下一个节点,确定所述下一个节点的节点类型,并根据所述下一个节点的节点类型确定疑似故障根因节点。
进一步的,所述故障根因确定装置还包括故障传播图生成模块,故障传播图生成模块用于,从预设的运维知识经验数据库中获取故障信息,所述故障信息包括:故障类型、故障根因类型、与所述故障类型相关联事件以及故障类型、故障根因类型和与所述故障类型相关联事件之间的关联关系;根据所述故障信息,针对每个故障类型分别生成故障传播图,所述故障传播图为故障传播知识图谱。
进一步的,所述故障根因确定装置还包括贝叶斯模型建立模块,所述贝叶斯模型建立模块用于,根据所述故障传播图建立所述贝叶斯模型。
优选的,所述贝叶斯模型建立模块用于,根据所述故障传播图中各节点的节点属性对所述故障传播图进行预处理;分别将预处理后的故障传播图中各节点和关联关系转化为贝叶斯模型中的节点和关联关系,以建立所述贝叶斯模型。
优选的,所述贝叶斯模型建立模块用于,删除所述故障传播图中可确认性属性为不可确认属性的节点,以及与所述已删除的节点相关的关联关系;根据所述已删除的关联关系,在与所述已删除的节点相关联的节点之间建立关联关系。
本公开实施例还提供了一种服务器,该服务器包括:一个或多个处理器以及存储装置;其中,存储装置上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如前述各实施例所提供的故障根因确定方法。
本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被执行时实现如前述各实施例所提供的故障根因确定方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本发明的范围的情况下,可进行各种形式和细节上的改变。

Claims (16)

1.一种故障根因确定方法,所述方法包括:
当业务发生故障时,确定故障特征信息;
根据所述故障特征信息和预设的故障传播图确定故障根因节点,所述故障传播图用于表示不同传播节点之间有向的关联关系以及故障节点、故障传播节点和故障根因节点之间有向的关联关系,所述故障传播图中的节点用于表示所述故障特征信息;
其中,所述确定故障特征信息,包括:
确定故障业务和故障类型,以及确定所述故障业务的路径,并根据所述路径获取与所述故障相关的事件。
2.如权利要求1所述的方法,其中,在根据所述故障特征信息和预设的故障传播图确定故障根因节点之后,所述方法还包括:
根据所述故障根因节点、所述故障特征信息和预设的贝叶斯模型,确定所述故障根因节点的故障根因概率。
3.如权利要求2所述的方法,其中,所述根据所述故障特征信息和预设的故障传播图确定故障根因节点,包括:
从预设的各故障传播图中选择故障节点与所述故障类型相匹配的故障传播图,并根据选择出的故障传播图确定故障根因节点;
所述根据所述故障根因节点、所述故障特征信息和预设的贝叶斯模型,确定所述故障根因节点的故障根因概率,包括:
从预设的各贝叶斯模型中选择与所述选择出的故障传播图相对应的贝叶斯模型,并根据所述故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述故障根因节点的故障根因概率。
4.如权利要求3所述的方法,其中,所述根据选择出的故障传播图确定故障根因节点,包括:
根据选择出的故障传播图中的关联关系,确定与选择出的故障传播图中的故障节点相关联的节点;
确定所述节点的节点类型,并至少根据所述节点类型确定疑似故障根因节点,所述疑似故障根因节点为选择出的故障传播图中的故障根因节点,且所述疑似故障根因节点的数量小于选择出的故障传播图中故障根因节点的数量;
所述根据所述故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述故障根因节点的故障根因概率,包括:
根据所述疑似故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述疑似故障根因节点的故障根因概率。
5.如权利要求4所述的方法,其中,所述至少根据所述节点类型确定疑似故障根因节点,包括:
若所述节点的节点类型为故障传播节点且所述故障传播节点的可确认性属性为可确认属性,则判断是否满足所述故障传播节点的规则属性,若满足规则属性,则根据选择出的故障传播图确定所述故障传播节点的下一个节点,确定所述下一个节点的节点类型,并根据所述下一个节点的节点类型确定疑似故障根因节点;若不满足规则属性,则不再确定所述故障传播节点的下一个节点;
若所述节点的节点类型为故障传播节点且所述故障传播节点的可确认性属性为不可确认属性,则根据选择出的故障传播图确定所述故障传播节点的下一个节点,确定所述下一个节点的节点类型,并根据所述下一个节点的节点类型确定疑似故障根因节点。
6.如权利要求1-5任一项所述的方法,其中,生成所述故障传播图的步骤包括:
从预设的运维知识经验数据库中获取故障信息,所述故障信息包括:故障类型、故障根因类型、与所述故障类型相关联事件以及故障类型、故障根因类型和与所述故障类型相关联事件之间的关联关系;
根据所述故障信息,针对每个故障类型分别生成故障传播图,所述故障传播图为故障传播知识图谱。
7.如权利要求2-5任一项所述的方法,其中,建立所述贝叶斯模型的步骤包括:
删除所述故障传播图中可确认性属性为不可确认属性的节点以及与所述已删除的节点相关的关联关系,并根据所述已删除的关联关系,在与所述已删除的节点相关联的节点之间建立关联关系,以得到预处理后的故障传播图;
分别将所述预处理后的故障传播图中的各节点和关联关系转化为贝叶斯模型中的节点和关联关系,以建立所述贝叶斯模型。
8.一种故障根因确定装置,包括第一确定模块和第二确定模块;
所述第一确定模块用于,当业务发生故障时,确定故障特征信息;
所述第二确定模块用于,根据所述故障特征信息和预设的故障传播图确定故障根因节点,所述故障传播图用于表示不同传播节点之间有向的关联关系以及故障节点、故障传播节点和故障根因节点之间有向的关联关系,所述故障传播图中的节点用于表示所述故障特征信息;
其中,所述第一确定模块用于,确定故障业务和故障类型,以及确定所述故障业务的路径,并根据所述路径获取与所述故障相关的事件。
9.如权利要求8所述的故障根因确定装置,其中,还包括第三确定模块,所述第三确定模块用于,根据所述故障根因节点、所述故障特征信息和预设的贝叶斯模型,确定所述故障根因节点的故障根因概率。
10.如权利要求9所述的故障根因确定装置,其中,所述第二确定模块用于,从预设的各故障传播图中选择故障节点与所述故障类型相匹配的故障传播图,并根据选择出的故障传播图确定故障根因节点;
所述第三确定模块用于,从预设的各贝叶斯模型中选择与所述选择出的故障传播图相对应的贝叶斯模型,并根据所述故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述故障根因节点的故障根因概率。
11.如权利要求10所述的故障根因确定装置,其中,所述第二确定模块用于,根据选择出的故障传播图中的关联关系,确定与选择出的故障传播图中的故障节点相关联的节点;确定所述节点的节点类型,并至少根据所述节点类型确定疑似故障根因节点,所述疑似故障根因节点为选择出的故障传播图中的故障根因节点,且所述疑似故障根因节点的数量小于选择出的故障传播图中故障根因节点的数量;
所述第三确定模块用于,根据所述疑似故障根因节点、所述故障类型、所述与所述故障相关的事件和选择出的贝叶斯模型,确定所述疑似故障根因节点的故障根因概率。
12.如权利要求11所述的故障根因确定装置,其中,所述第二确定模块用于,当所述节点的节点类型为故障传播节点且所述故障传播节点的可确认性属性为可确认属性时,判断是否满足所述故障传播节点的规则属性,若满足规则属性,则根据选择出的故障传播图确定所述故障传播节点的下一个节点,确定所述下一个节点的节点类型,并根据所述下一个节点的节点类型确定疑似故障根因节点,若不满足规则属性,则不再确定所述故障传播节点的下一个节点;当所述节点的节点类型为故障传播节点且所述故障传播节点的可确认性属性为不可确认属性时,根据选择出的故障传播图确定所述故障传播节点的下一个节点,确定所述下一个节点的节点类型,并根据所述下一个节点的节点类型确定疑似故障根因节点。
13.如权利要求8-12任一项所述的故障根因确定装置,其中,还包括故障传播图生成模块,所述故障传播图生成模块用于,从预设的运维知识经验数据库中获取故障信息,所述故障信息包括:故障类型、故障根因类型、与所述故障类型相关联事件以及故障类型、故障根因类型和与所述故障类型相关联事件之间的关联关系;根据所述故障信息,针对每个故障类型分别生成故障传播图,所述故障传播图为故障传播知识图谱。
14.如权利要求9-12任一项所述的故障根因确定装置,其中,还包括贝叶斯模型建立模块,所述贝叶斯模型建立模块用于,删除所述故障传播图中可确认性属性为不可确认属性的节点以及与所述已删除的节点相关的关联关系,并根据所述已删除的关联关系,在与所述已删除的节点相关联的节点之间建立关联关系,以得到预处理后的故障传播图;分别将所述预处理后的故障传播图中的各节点和关联关系转化为贝叶斯模型中的节点和关联关系,以建立所述贝叶斯模型。
15.一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7任一项所述的故障根因确定方法。
16.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如权利要求1-7任一项所述的故障根因确定方法。
CN201910832361.5A 2019-09-04 2019-09-04 故障根因确定方法、装置、服务器和计算机可读介质 Active CN112448836B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910832361.5A CN112448836B (zh) 2019-09-04 2019-09-04 故障根因确定方法、装置、服务器和计算机可读介质
US17/637,888 US11750439B2 (en) 2019-09-04 2020-09-03 Method and device for determining root cause of fault, server and computer-readable medium
PCT/CN2020/113111 WO2021043184A1 (zh) 2019-09-04 2020-09-03 故障根因确定方法和装置、服务器和计算机可读介质
EP20860951.1A EP4012978A4 (en) 2019-09-04 2020-09-03 METHOD AND APPARATUS FOR DETERMINING THE ROOT CAUSE OF A FAILURE, SERVER AND COMPUTER READABLE MEDIA

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910832361.5A CN112448836B (zh) 2019-09-04 2019-09-04 故障根因确定方法、装置、服务器和计算机可读介质

Publications (2)

Publication Number Publication Date
CN112448836A CN112448836A (zh) 2021-03-05
CN112448836B true CN112448836B (zh) 2023-09-15

Family

ID=74734916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910832361.5A Active CN112448836B (zh) 2019-09-04 2019-09-04 故障根因确定方法、装置、服务器和计算机可读介质

Country Status (4)

Country Link
US (1) US11750439B2 (zh)
EP (1) EP4012978A4 (zh)
CN (1) CN112448836B (zh)
WO (1) WO2021043184A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11269711B2 (en) 2020-07-14 2022-03-08 Juniper Networks, Inc. Failure impact analysis of network events
US11888679B2 (en) * 2020-09-25 2024-01-30 Juniper Networks, Inc. Hypothesis driven diagnosis of network systems
CN113259168B (zh) * 2021-05-28 2021-11-23 新华三人工智能科技有限公司 一种故障根因分析方法及装置
CN113377567A (zh) * 2021-06-28 2021-09-10 东南大学 一种基于知识图谱技术的分布式***故障根因溯源方法
CN113434326B (zh) * 2021-07-12 2024-05-31 国泰君安证券股份有限公司 基于分布式集群拓扑实现网络***故障定位的方法及装置、处理器及其计算机可读存储介质
CN115809160A (zh) * 2021-09-14 2023-03-17 中兴通讯股份有限公司 数据处理方法、电子设备、存储介质及程序产品
CN114218403B (zh) * 2021-12-20 2024-04-09 平安付科技服务有限公司 基于知识图谱的故障根因定位方法、装置、设备及介质
CN114978877B (zh) * 2022-05-13 2024-04-05 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN114867052B (zh) * 2022-06-10 2023-11-07 中国电信股份有限公司 无线网络故障诊断方法、装置、电子设备和介质
US20240097971A1 (en) * 2022-09-19 2024-03-21 Vmware, Inc. Providing explanation of network incident root causes
CN118282870A (zh) * 2022-12-30 2024-07-02 中兴通讯股份有限公司 网络故障分析方法及***
CN117061332B (zh) * 2023-10-11 2023-12-29 中国人民解放军国防科技大学 一种基于概率有向图深度学习的故障诊断方法与***
CN117493497B (zh) * 2023-12-28 2024-06-07 西安交通工程学院 一种应用于列车设备的维护方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101917297A (zh) * 2010-08-30 2010-12-15 烽火通信科技股份有限公司 基于贝叶斯网络的核心网故障诊断方法及***
CN102255764A (zh) * 2011-09-02 2011-11-23 广东省电力调度中心 传输网故障诊断方法及装置
CN110032463A (zh) * 2019-03-01 2019-07-19 阿里巴巴集团控股有限公司 一种基于贝叶斯网络的***故障定位方法和***

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385750B1 (en) * 1999-09-01 2002-05-07 Synopsys, Inc. Method and system for controlling test data volume in deterministic test pattern generation
US8051330B2 (en) * 2006-06-30 2011-11-01 Telecom Italia S.P.A. Fault location in telecommunications networks using bayesian networks
US8411577B2 (en) * 2010-03-19 2013-04-02 At&T Intellectual Property I, L.P. Methods, apparatus and articles of manufacture to perform root cause analysis for network events
US8291263B2 (en) 2010-07-02 2012-10-16 Oracle International Corporation Methods and apparatus for cross-host diagnosis of complex multi-host systems in a time series with probabilistic inference
WO2013095247A1 (en) * 2011-12-21 2013-06-27 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for fault analysis in a multi-layer network
US10373065B2 (en) * 2013-03-08 2019-08-06 Oracle International Corporation Generating database cluster health alerts using machine learning
US10284453B2 (en) * 2015-09-08 2019-05-07 Uber Technologies, Inc. System event analyzer and outlier visualization
CN105486976A (zh) * 2015-11-19 2016-04-13 云南电力调度控制中心 一种故障定位的探测选择方法
CN105391579B (zh) 2015-11-25 2018-08-24 国家电网公司 基于关键告警集和监督分类的电力通信网故障定位方法
CN107124289B (zh) * 2016-02-24 2021-06-01 华为技术有限公司 网络日志时间对齐方法、装置及主机
CN105786763B (zh) * 2016-03-28 2018-05-15 北京交通大学 一种设备集成***网络的故障传播路径的生成方法
CN105956665B (zh) * 2016-04-29 2017-06-06 北京清睿智能科技有限公司 一种基于动态不确定因果图的启发式检测***异常原因的方法
US10505756B2 (en) * 2017-02-10 2019-12-10 Johnson Controls Technology Company Building management system with space graphs
EP3279737A1 (en) * 2016-08-05 2018-02-07 ASML Netherlands B.V. Diagnostic system for an industrial process
US10503581B2 (en) * 2016-08-25 2019-12-10 Intel Corporation Profiling and diagnostics for internet of things
CN109791401B (zh) * 2016-09-16 2022-07-22 西门子股份公司 生成用于嵌入式分析和诊断/预测推理的故障模型
US10484255B2 (en) * 2017-06-19 2019-11-19 Cisco Technology, Inc. Trustworthiness index computation in a network assurance system based on data source health monitoring
US10536294B2 (en) * 2017-07-17 2020-01-14 Midea America Corp. Computer-based platform for quality management of home devices
US10908602B2 (en) * 2017-08-02 2021-02-02 Strong Force Iot Portfolio 2016, Llc Systems and methods for network-sensitive data collection
US11156666B2 (en) * 2017-08-09 2021-10-26 Verdigris Technologies, Inc. System and methods for fault detection
US20190066010A1 (en) * 2017-08-24 2019-02-28 United States Of America As Represented By The Secretary Of The Army Predictive model for optimizing facility usage
WO2019060912A1 (en) * 2017-09-25 2019-03-28 Appli Inc. SYSTEMS AND METHODS FOR ANALYZING AUTONOMOUS DATA
US10691575B2 (en) * 2017-10-19 2020-06-23 Dynatrace Llc Method and system for self-optimizing path-based object allocation tracking
EP3477906B1 (en) * 2017-10-26 2021-03-31 Accenture Global Solutions Limited Systems and methods for identifying and mitigating outlier network activity
US10616043B2 (en) * 2017-11-27 2020-04-07 Google Llc Real-time probabilistic root cause correlation of network failures
US10417083B2 (en) * 2017-11-30 2019-09-17 General Electric Company Label rectification and classification/prediction for multivariate time series data
US10742486B2 (en) * 2018-01-08 2020-08-11 Cisco Technology, Inc. Analyzing common traits in a network assurance system
US10496468B2 (en) * 2018-01-21 2019-12-03 EMC IP Holding Company LLC Root cause analysis for protection storage devices using causal graphs
US10776194B2 (en) * 2018-01-31 2020-09-15 Splunk Inc. Self-monitor for computing devices of a distributed computing system
US10693711B1 (en) * 2018-03-15 2020-06-23 EMC IP Holding Company LLC Real-time event correlation in information networks
WO2019203704A1 (en) * 2018-04-20 2019-10-24 Telefonaktiebolaget Lm Ericsson (Publ) Automated observational passive intermodulation (pim) interference detection in cellular networks
US10769347B1 (en) * 2018-04-27 2020-09-08 Synopsys, Inc. Predicting no-defect-found physical failure analysis results using Bayesian inference and generalized linear models
US10778566B2 (en) * 2018-05-24 2020-09-15 Cisco Technology, Inc. Pattern discovery from high dimensional telemetry data using machine learning in a network assurance service
WO2020000405A1 (en) * 2018-06-29 2020-01-02 Microsoft Technology Licensing, Llc. Multi-phase cloud service node error prediction
US11973777B2 (en) * 2018-07-09 2024-04-30 Siemens Aktiengesellschaft Knowledge graph for real time industrial control system security event monitoring and management
US11086709B1 (en) * 2018-07-23 2021-08-10 Apstra, Inc. Intent driven root cause analysis
US11194906B2 (en) * 2018-07-31 2021-12-07 Nec Corporation Automated threat alert triage via data provenance
US10936657B2 (en) * 2018-08-31 2021-03-02 Netiq Corporation Affinity determination using graphs
US11941054B2 (en) * 2018-10-12 2024-03-26 International Business Machines Corporation Iterative constraint solving in abstract graph matching for cyber incident reasoning
US20200125653A1 (en) * 2018-10-22 2020-04-23 General Electric Company Robust fault detection and diagnosison dynamic sensor network
US10833951B2 (en) * 2018-11-06 2020-11-10 Telefonaktiebolaget Lm Ericsson (Publ) System and method for providing intelligent diagnostic support for cloud-based infrastructure
US11797902B2 (en) * 2018-11-16 2023-10-24 Accenture Global Solutions Limited Processing data utilizing a corpus
US11424977B2 (en) * 2018-12-10 2022-08-23 Wipro Limited Method and system for performing effective orchestration of cognitive functions in distributed heterogeneous communication network
US11144045B2 (en) * 2018-12-18 2021-10-12 General Electric Company Apparatus and method for repair of edge devices
US20200210310A1 (en) * 2018-12-27 2020-07-02 Hewlett Packard Enterprise Development Lp Analytics-based architecture compliance testing for distributed web applications
US10904114B2 (en) * 2019-01-31 2021-01-26 Cisco Technology, Inc. KPI trajectory-driven outlier detection in a network assurance service
US11348023B2 (en) * 2019-02-21 2022-05-31 Cisco Technology, Inc. Identifying locations and causes of network faults
US10965558B2 (en) * 2019-03-30 2021-03-30 Wipro Limited Method and system for effective data collection, aggregation, and analysis in distributed heterogeneous communication network
US11108642B2 (en) * 2019-04-22 2021-08-31 Vmware, Inc. Method and apparatus for non-intrusive agentless platform-agnostic application topology discovery
US11693924B2 (en) * 2019-06-06 2023-07-04 Hitachi, Ltd. System and method for maintenance recommendation in industrial networks
US11212162B2 (en) * 2019-07-18 2021-12-28 International Business Machines Corporation Bayesian-based event grouping
CN112242919B (zh) * 2019-07-19 2022-07-29 烽火通信科技股份有限公司 一种故障文件处理方法及***
WO2021032292A1 (en) * 2019-08-20 2021-02-25 Telefonaktiebolaget Lm Ericsson (Publ) Fault classification
US10873533B1 (en) * 2019-09-04 2020-12-22 Cisco Technology, Inc. Traffic class-specific congestion signatures for improving traffic shaping and other network operations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101917297A (zh) * 2010-08-30 2010-12-15 烽火通信科技股份有限公司 基于贝叶斯网络的核心网故障诊断方法及***
CN102255764A (zh) * 2011-09-02 2011-11-23 广东省电力调度中心 传输网故障诊断方法及装置
CN110032463A (zh) * 2019-03-01 2019-07-19 阿里巴巴集团控股有限公司 一种基于贝叶斯网络的***故障定位方法和***

Also Published As

Publication number Publication date
US11750439B2 (en) 2023-09-05
EP4012978A4 (en) 2023-08-09
US20220286348A1 (en) 2022-09-08
WO2021043184A1 (zh) 2021-03-11
EP4012978A1 (en) 2022-06-15
CN112448836A (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
CN112448836B (zh) 故障根因确定方法、装置、服务器和计算机可读介质
US20230419807A1 (en) Building risk analysis system with natural language processing for threat ingestion
US11360959B2 (en) Building risk analysis system with dynamic and base line risk
CN109787817B (zh) 网络故障诊断方法、装置和计算机可读存储介质
US7936260B2 (en) Identifying redundant alarms by determining coefficients of correlation between alarm categories
CN113032238B (zh) 基于应用知识图谱的实时根因分析方法
CN113391943B (zh) 一种基于因果推断的微服务故障根因定位方法及装置
US11153144B2 (en) System and method of automated fault correction in a network environment
CN112217674A (zh) 基于因果网络挖掘和图注意力网络的告警根因识别方法
CN112579789A (zh) 一种设备故障诊断的方法和装置及设备
Zhang et al. Federated variational learning for anomaly detection in multivariate time series
CN117221087A (zh) 告警根因定位方法、装置及介质
CN116545740B (zh) 一种基于大数据的威胁行为分析方法及服务器
CN112436956A (zh) 一种网络设备故障预测的方法、装置、设备及可读介质
WO2023093431A1 (zh) 一种模型训练方法、装置、设备、存储介质和程序产品
CN109409411A (zh) 基于运维管理的问题定位方法、装置及存储介质
KR102389317B1 (ko) 순환 신경망(rnn)을 이용한 스마트팜 센서의 고장여부 판단방법
CN113568991A (zh) 一种基于动态风险的告警处理方法及***
US20150347213A1 (en) Apparatus and method for system monitoring
CN109857859A (zh) 新闻信息的处理方法、装置、设备以及存储介质
US20230410062A1 (en) Method to manage cable tv leakage when leaks are no longer detectable
CN114938333B (zh) 配电站房端侧节点接入方法、装置、芯片、设备及介质
CN116016118A (zh) 一种基于图神经网络的云网跨域告警聚类方法和装置
CN110889613A (zh) 基于scada大数据的电网***解列风险分析方法
CN118260666A (zh) 一种用于天气预报不确定性诊断的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant