CN113254254B - ***故障的根因定位方法、装置、存储介质及电子装置 - Google Patents

***故障的根因定位方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN113254254B
CN113254254B CN202110792399.1A CN202110792399A CN113254254B CN 113254254 B CN113254254 B CN 113254254B CN 202110792399 A CN202110792399 A CN 202110792399A CN 113254254 B CN113254254 B CN 113254254B
Authority
CN
China
Prior art keywords
fault
root cause
node
alarm
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110792399.1A
Other languages
English (en)
Other versions
CN113254254A (zh
Inventor
弄庆鹏
李忠良
屠要峰
周祥生
高洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing ZTE New Software Co Ltd
Original Assignee
Nanjing ZTE New Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing ZTE New Software Co Ltd filed Critical Nanjing ZTE New Software Co Ltd
Priority to CN202110792399.1A priority Critical patent/CN113254254B/zh
Publication of CN113254254A publication Critical patent/CN113254254A/zh
Application granted granted Critical
Publication of CN113254254B publication Critical patent/CN113254254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例提供了一种***故障的根因定位方法、装置、存储介质及电子装置,该方法包括:构建故障根因节点定位样本和故障根因告警定位样本;利用该故障根因节点定位样本和该故障根因告警定位样本对构建的网络***故障根因定位模型进行训练,得到训练好的网络***故障根因定位模型;根据该训练好的网络***故障根因定位模型对当前故障的根因定位进行预测,可以解决相关技术中运维人员从大量的告警信息中筛选定位导致故障的告警非常耗时耗力,致使网络***服务中断后无法快速进行恢复,***越复杂***的运维压力越大的问题,大幅缩短***故障定位和***恢复的时间,提高***的运维效率且降低运维资源的消耗,同时降低了模型的维护难度。

Description

***故障的根因定位方法、装置、存储介质及电子装置
技术领域
本申请实施例涉及通信领域,具体而言,涉及一种***故障的根因定位方法、装置、存储介质及电子装置。
背景技术
在复杂的网络***中,通常存在站点间、***间、服务器间、应用组件间的服务交互调用,***动辄成千上万个模块节点,***运行过程中通常会产生大量的日志。当***中服务节点发生故障时,故障会沿着***节点间的调用链路进行传播,从而产生大量的告警日志信息,俗称告警风暴。这使得根因告警信息被淹没在海量的告警信息中,运维人员从大量的告警信息中筛选定位导致故障的告警非常耗时耗力,致使网络***服务中断后无法快速进行恢复,***越复杂***的运维压力越大。
针对相关技术中运维人员从大量的告警信息中筛选定位导致故障的告警非常耗时耗力,致使网络***服务中断后无法快速进行恢复,***越复杂***的运维压力越大的问题,尚未提出解决方案。
发明内容
本申请实施例提供了一种***故障的根因定位方法、装置、存储介质及电子装置,以至少解决相关技术中运维人员从大量的告警信息中筛选定位导致故障的告警非常耗时耗力,致使网络***服务中断后无法快速进行恢复,***越复杂***的运维压力越大的问题。
根据本申请的一个实施例,提供了一种***故障的根因定位方法,包括:
构建故障根因节点定位样本和故障根因告警定位样本;
利用所述故障根因节点定位样本和所述故障根因告警定位样本对构建的网络***故障根因定位模型进行训练,得到训练好的网络***故障根因定位模型;
根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测。
在一示例性实施例中,根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测包括:
对当前故障的网络***故障数据进行故障根因节点图样本构建;
将构建的所述故障根因节点图样本输入到所述训练好的网络***故障根因定位模型中,得到所述训练好的网络***故障根因定位模型输出的所述当前故障的故障根因节点预测结果;
根据所述故障根因节点预测结果确定所述当前故障的故障根因告警预测结果。
在一示例性实施例中,根据所述故障根因节点预测结果确定所述当前故障的故障根因告警预测结果包括:
若所述故障根因节点预测结果为根因节点只包含一个告警日志,确定当前告警日志为所述故障根因告警预测结果;
若所述故障根因节点预测结果为根因节点包含多个告警日志,将所述根因节点中的多个告警日志拆分成单告警日志,分别对每一个单告警日志进行故障根因告警图样本构造,并将构造的所述故障根因告警图样本输入到所述***故障根因定位模型中,得到所述***故障根因定位模型输出的所述故障根因告警预测结果。
在一示例性实施例中,根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测之后,所述方法还包括:
将所述故障根因节点预测结果与所述故障根因告警预测结果发送给网络***,其中,所述网络***用于通过***故障交互界面显示所述故障根因节点预测结果与所述故障根因告警预测结果。
在一示例性实施例中,构建所述故障根因节点定位样本和所述故障根因告警定位样本包括:
对采集的告警日志和关键绩效指标(Key Performance Indicator,简称为KPI)进行向量化,得到告警日志状态向量矩阵和KPI状态向量矩阵;
对所述告警日志状态向量矩阵和所述KPI状态向量矩阵进行融合,得到***故障状态混合表征向量矩阵,并将所述***故障状态混合表征向量矩阵作为网络***节点的故障状态表征;
根据所述故障状态表征与采集的拓扑数据构建故障图样本;
根据所述故障图样本构建故障根因节点定位样本和故障根因告警定位样本。
在一示例性实施例中,根据所述故障图样本构建故障根因节点定位样本和故障根因告警定位样本包括:
对所述故障图样本进行噪声节点清洗、样本图收敛,得到清洗收敛后的图样本;
基于所述清洗收敛后的图样本,构建故障根因节点定位样本和故障根因告警定位样本;
将所述故障根因节点定位样本和所述故障根因告警定位样本存放到样本池。
在一示例性实施例中,基于所述清洗收敛后的图样本,构建故障根因节点定位样本和故障根因告警定位样本包括:
将N阶所述清洗收敛后的图样本中每一个节点的多个告警日志向量进行融合处理;将所述每一个节点的***故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并打上根因节点标签,形成所述故障根因节点定位样本;
若根因节点包含多个告警日志,将所述根因节点中的多个告警日志拆分成单告警日志;将每一个节点的***故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并对根因告警打上根因告警标签,形成所述故障根因告警定位样本。
在一示例性实施例中,对所述故障图样本进行噪声节点清洗、样本图收敛,得到清洗收敛后的图样本包括:
根据所述***故障状态混合表征向量对所述故障图样本中的节点有无告警日志进行属性标注;
对所述故障图样本中无告警日志的节点进行清洗;
对清洗后的故障图样本进行样本收敛,得到所述清洗收敛后的图样本。
在一示例性实施例中,在对采集的告警日志和KPI进行向量化,得到告警日志状态向量矩阵和KPI状态向量矩阵之前,所述方法还包括:
接收网络***采集拓扑数据、告警日志以及KPI数据之后,进行根因节点和根因告警标注得到的训练样本。
根据本申请的另一个实施例,还提供了一种***故障的根因定位装置,包括:
构建模块,用于构建故障根因节点定位样本和故障根因告警定位样本;
训练模块,用于利用所述故障根因节点定位样本和所述故障根因告警定位样本对构建的网络***故障根因定位模型进行训练,得到训练好的网络***故障根因定位模型;
预测模块,用于根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测。
在一示例性实施例中,所述预测模块包括:
第一构建子模块,用于对当前故障的网络***故障数据进行故障根因节点图样本构建;
输入子模块,用于将构建的所述故障根因节点图样本输入到所述训练好的网络***故障根因定位模型中,得到所述训练好的网络***故障根因定位模型输出的所述当前故障的故障根因节点预测结果;
确定子模块,用于根据所述故障根因节点预测结果确定所述当前故障的故障根因告警预测结果。
在一示例性实施例中,所述确定子模块包括:
确定单元,用于若所述故障根因节点预测结果为根因节点只包含一个告警日志,确定当前告警日志为所述故障根因告警预测结果;
输入单元,用于若所述故障根因节点预测结果为根因节点包含多个告警日志,将所述根因节点中的多个告警日志拆分成单告警日志,分别对每一个单告警日志进行故障根因告警图样本构造,并将构造的所述故障根因告警图样本输入到所述***故障根因定位模型中,得到所述***故障根因定位模型输出的所述故障根因告警预测结果。
在一示例性实施例中,所述装置还包括:
发送模块,用于将所述故障根因节点预测结果与所述故障根因告警预测结果发送给网络***,其中,所述网络***用于通过***故障交互界面显示所述故障根因节点预测结果与所述故障根因告警预测结果。
在一示例性实施例中,所述构建模块包括:
对采集的告警日志和KPI进行向量化,得到告警日志状态向量矩阵和KPI状态向量矩阵;
融合子模块,用于对所述告警日志状态向量矩阵和所述KPI状态向量矩阵进行融合,得到***故障状态混合表征向量矩阵,并将所述***故障状态混合表征向量矩阵作为网络***节点的故障状态表征;
第二构建子模块,用于根据所述故障状态表征与采集的拓扑数据构建故障图样本;
第三构建子模块,用于根据所述故障图样本构建故障根因节点定位样本和故障根因告警定位样本。
在一示例性实施例中,所述第三构建子模块包括:
清洗收敛单元,用于对所述故障图样本进行噪声节点清洗、样本图收敛,得到清洗收敛后的图样本;
构建单元,用于基于所述清洗收敛后的图样本,构建故障根因节点定位样本和故障根因告警定位样本;
存放单元,用于将所述故障根因节点定位样本和所述故障根因告警定位样本存放到样本池。
在一示例性实施例中,所述构建单元,还用于
将N阶所述清洗收敛后的图样本中每一个节点的多个告警日志向量进行融合处理;将所述每一个节点的***故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并打上根因节点标签,形成所述故障根因节点定位样本;
若根因节点包含多个告警日志,将所述根因节点中的多个告警日志拆分成单告警日志;将每一个节点的***故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并对根因告警打上根因告警标签,形成所述故障根因告警定位样本。
在一示例性实施例中,所述清洗收敛单元,还用于
根据所述***故障状态混合表征向量对所述故障图样本中的节点有无告警日志进行属性标注;
对所述故障图样本中无告警日志的节点进行清洗;
对清洗后的故障图样本进行样本收敛,得到所述清洗收敛后的图样本。
在一示例性实施例中,所述装置还包括:
接收模块,用于接收网络***采集拓扑数据、告警日志以及KPI数据之后,进行根因节点和根因告警标注得到的训练样本。
根据本申请的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
本申请实施例,构建故障根因节点定位样本和故障根因告警定位样本;利用所述故障根因节点定位样本和所述故障根因告警定位样本对构建的网络***故障根因定位模型进行训练,得到训练好的网络***故障根因定位模型;根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测,可以解决相关技术中运维人员从大量的告警信息中筛选定位导致故障的告警非常耗时耗力,致使网络***服务中断后无法快速进行恢复,***越复杂***的运维压力越大的问题,使用同一个网络***故障根因定位模型实现IT***运行过程中故障状态下多级别根因的自动化快速精准定位,大幅缩短IT***故障定位和***恢复的时间,提高IT***的运维效率降低运维资源的消耗,同时大幅提升用户体验,同时降低了模型的维护难度。
附图说明
图1是本申请实施例的***故障的根因定位方法的移动终端的硬件结构框图;
图2是根据本申请实施例的***故障的根因定位方法的流程图;
图3是根据本实施例的IT网络***故障根因定位***的示意图;
图4是根据本实施例的***故障数据采集模块信息采集的示意图;
图5是根据本实施例的***故障状态量化的示意图;
图6是根据本实施例的***故障图样本节点清洗收敛模块流程的示意图;
图7是根据本实施例的故障根因节点定位样本构建的示意图;
图8是根据本实施例的故障根因告警定位样本构建的示意图;
图9是根据本实施例的***故障根因定位模型模块的流程图;
图10是根据本实施例的IT网络***故障根音定位的***框图一;
图11是根据本实施例的IT网络***故障根音定位的***框图二;
图12是根据本实施例的***故障的根因定位装置的框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本申请实施例的***故障的根因定位方法的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的***故障的根因定位方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及业务链地址池切片处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端或网络架构的***故障的根因定位方法,应用于终端,所述终端通过双连接(Dual Connection,简称为DC)接入源区域的当前主节点MN小区与当前辅节点SN小区,图2是根据本申请实施例的***故障的根因定位方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,构建故障根因节点定位样本和故障根因告警定位样本;
步骤S204,利用所述故障根因节点定位样本和所述故障根因告警定位样本对构建的网络***故障根因定位模型进行训练,得到训练好的网络***故障根因定位模型;
步骤S206,根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测。
通过上述步骤S202至S206,可以解决相关技术中运维人员从大量的告警信息中筛选定位导致故障的告警非常耗时耗力,致使网络***服务中断后无法快速进行恢复,***越复杂***的运维压力越大的问题,使用同一个网络***故障根因定位模型实现IT***运行过程中故障状态下多级别根因的自动化快速精准定位,大幅缩短IT***故障定位和***恢复的时间,提高IT***的运维效率降低运维资源的消耗,同时大幅提升用户体验,同时降低了模型的维护难度。
本实施例中,上述步骤S206具体可以包括:
S2061,对当前故障的网络***故障数据进行故障根因节点图样本构建;
S2062,将构建的所述故障根因节点图样本输入到所述训练好的网络***故障根因定位模型中,得到所述训练好的网络***故障根因定位模型输出的所述当前故障的故障根因节点预测结果;
S2063,根据所述故障根因节点预测结果确定所述当前故障的故障根因告警预测结果。
进一步的,上述步骤S2063具体可以包括:
若所述故障根因节点预测结果为根因节点只包含一个告警日志,确定当前告警日志为所述故障根因告警预测结果;
若所述故障根因节点预测结果为根因节点包含多个告警日志,将所述根因节点中的多个告警日志拆分成单告警日志,分别对每一个单告警日志进行故障根因告警图样本构造,并将构造的所述故障根因告警图样本输入到所述***故障根因定位模型中,得到所述***故障根因定位模型输出的所述故障根因告警预测结果。
在一可选的实施例中,根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测之后,将所述故障根因节点预测结果与所述故障根因告警预测结果发送给网络***,其中,所述网络***用于通过***故障交互界面显示所述故障根因节点预测结果与所述故障根因告警预测结果。
本实施例中,上述步骤S202具体可以包括:
S2021,对采集的告警日志和KPI进行向量化,得到告警日志状态向量矩阵和KPI状态向量矩阵;
S2022,对所述告警日志状态向量矩阵和所述KPI状态向量矩阵进行融合,得到***故障状态混合表征向量矩阵,并将所述***故障状态混合表征向量矩阵作为网络***节点的故障状态表征;
S2023,根据所述故障状态表征与采集的拓扑数据构建故障图样本;
S2024,根据所述故障图样本构建故障根因节点定位样本和故障根因告警定位样本。
进一步的,上述S2024具体可以包括:
S1,对所述故障图样本进行噪声节点清洗、样本图收敛,得到清洗收敛后的图样本,进一步的,上述S1具体可以包括:根据所述***故障状态混合表征向量对所述故障图样本中的节点有无告警日志进行属性标注;对所述故障图样本中无告警日志的节点进行清洗;对清洗后的故障图样本进行样本收敛,得到所述清洗收敛后的图样本;
S2,基于所述清洗收敛后的图样本,构建故障根因节点定位样本和故障根因告警定位样本,进一步的,将N阶所述清洗收敛后的图样本中每一个节点的多个告警日志向量进行融合处理;将所述每一个节点的***故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并打上根因节点标签,形成所述故障根因节点定位样本;若根因节点包含多个告警日志,将所述根因节点中的多个告警日志拆分成单告警日志;将每一个节点的***故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并对根因告警打上根因告警标签,形成所述故障根因告警定位样本;
S3,将所述故障根因节点定位样本和所述故障根因告警定位样本存放到样本池。
在另一可选的实施例中,在对采集的告警日志和KPI进行向量化,得到告警日志状态向量矩阵和KPI状态向量矩阵之前,接收网络***采集拓扑数据、告警日志以及KPI数据之后,进行根因节点和根因告警标注得到的训练样本,即网路***采集拓扑数据、告警日志以及KPI数据,之后对拓扑数据、告警日志以及KPI数据进行根因节点和根因告警标注,得到训练样本,并上报训练样本。
本实施例中,构建网络***故障状态混合表征以及故障告警图样本,包括:
获取网络故障样本采集信息,包括但不限于***故障日志和KPI信息、***拓扑信息、故障根因节点和根因告警标签信息。
首先,构建网络***节点的故障状态表征:获取***故障日志信息(包括但不限于错误日志信息、告警日志信息)。对存在于当前样本非根因节点中并且存在于根因告警集合中的告警进行相应清洗。对网络***每一个节点中的故障日志进行向量化,得到网络***节点故障日志信息状态向量矩阵。获取***KPI信息时间片段内的记录值,KPI信息可以为但不限于中央处理器(Central Processing Unit,简称为CPU)利用率、内存利用率、输入输出率以及网络流量等指标信息,然后对网络***节点的各个KPI进行统计特征向量,得到网络***节点KPI状态向量矩阵。对***故障日志状态向量矩阵和KPI状态向量矩阵进行融合,获取***故障状态混合表征向量矩阵,然后对故障状态混合表征向量矩阵同维度进行池化操作获取故障状态混合表征向量,作为网络***节点故障状态表征。
其次,构造网络***的拓扑图:拓扑节点构建:节点为网络***故障根因定位最小的细粒度,可以为但不限于服务器、应用服务、或者组件等。拓扑边构建:边为网络***中的有方向属性的关系,可以表示为但不限于节点间的服务调用、数据流向等关系。将拓扑节点和边抽象成指定的数据结构,例如字典等数据结构。根据***拓扑数据构建网络***基本拓扑图0。
最后,构建网络***的故障拓扑样本:根据***网络***基本拓扑图0和故障状态混合表征向量矩阵构建***故障图样本,获取***故障原始图样本1。对***故障原始图样本1中无故障信息节点进行清洗,获取***故障原始图样本2。获取***故障原始图样本2中每一个故障根因节点的N阶子图,该子图作为***相应故障的故障图样本—N阶故障图样本。
基于上述构建的故障告警图样本,网络***多故障告警(一个节点中存在多个告警)的根因节点&根因告警定位,包括:
网络***故障根因定位模型训练,具体的,构建故障根因节点定位图样本,将N阶图样本中每一个节点的告警日志向量进行融合处理,并打上根因节点标签,形成故障根因节点定位样本。构建故障根因告警定位图样本,如果根因节点中只包含一个告警,那么不需要构建当前样本的故障根因告警图样本,否则对根因节点中的多个告警进行拆分成单告警,每一个告警对应故障根因告警定位图样本,并对根因告警打上根因告警标签,形成故障根因告警定位样本存。将故障根因节点定位样本和故障根因告警定位样本统一存放到同一个样本池中。基于图神经网络创建网络***故障根因定位模型,以根因节点定位图样本和根因告警定位图样本作为模型输入,节点是否为根因节点标签作为输出来训练图神经网络模型。
网络***故障根因定位模型预测,具体的,当***发生故障时,对***拓扑数据和指定时间片段内的故障告警日志及KPI信息进行采集并进行向量化,得到***故障原始图样本1,然后对***故障原始图样本1进行节点清洗收敛。对***故障原始图样本1中每一个节点的多告警向量进行融合生成故障根因节点定位样本输入到故障根因定位模型得到故障根因预测节点。对故障根因节点定位完毕后,如果所预测根因节点存在多告警,则进行告警拆分,分别构建故障根因告警定位图样本输入到故障根因定位模型中得到故障根因预测告警,根因概率最大的告警为故障根因告警。
图3是根据本实施例的IT网络***故障根因定位***的示意图,如图3所示,所述***包括:
***故障数据采集模块,用于网络***的拓扑数据和告警日志&KPI数据采集,和对训练样本根因节点和根因告警标注。
***故障状态量化模块,用于对故障告警日志文本向量化以及KPI向量化。
***故障图样本节点清洗收敛模块,用于对故障图样本构建、噪声节点清洗、样本图收敛。
***故障根因定位样本构建模块,用于故障根因节点定位样本和故障根因告警定位样本构建。
***故障根因定位模块,用于对基于图神经网络的网络***故障根因定位模型进行构建、优化和故障根因定位预测。
网络***故障发生后自动或者人为触发***故障数据采集模块对网络***的拓扑数据和告警日志与KPI数据进行采集和对训练样本根因节点和根因告警标注,并上传到网络***故障根因定位***中。通过***故障状态向量化模块对上传的网络***故障告警日志和KPI进行向量化,并对***故障日志状态向量矩阵和KPI状态向量矩阵进行融合,获取***故障状态混合表征向量矩阵,作为网络***节点的故障状态表征。利用故障状态表征和网络拓扑数据,通过***故障图样本节点清洗收敛模块对故障图样本构建、噪声节点清洗、样本图收敛。基于清洗收敛后的图样本,通过***故障根因定位样本构建模块对故障根因节点定位样本和故障根因告警进定位样本构建,将样本存放到样本池中。***故障根因定位模型模块对网络***故障根因定位模型进行构建,利用样本池中的样本对其进行训练,或者对当前故障的根因定位进行预测和结果反馈。
结合IT***中模块或者节点间的拓扑信息,利用IT***在运行过程中的日志Error或者Warming或者KPI等告警信息对网络***故障状态进行多模态表征,结合图神经网络和***故障标签样本,搭建具备知识融合和推理的去规则化的IT***故障根因定位端到端模型,使用同一个模型实现IT***运行过程中故障状态下多级别根因(包括根因节点和根因告警两个级别)的自动化快速精准定位,大幅缩短IT***故障定位和***恢复的时间,提高IT***的运维效率降低运维资源的消耗,同时大幅提升用户体验,同时模型的端到端训练和预测降低了模型的维护难度。
图4是根据本实施例的***故障数据采集模块信息采集的示意图,如图4所示,***故障数据采集模块经***故障自动或者人为手动触发后对网络***的拓扑数据和告警日志&KPI数据采集,并对样本进行根因节点和根因告警标注,其中,告警日志采集信息包括但不限于:告警日志文本、告警时间、告警所属的节点、以及如果是训练样本需要带上告警是否为根因告警的标签信息;KPI数据信息包括但不限于:节点的CPU、内存利用率、节点数据包吞吐率信息、以及KPI所属节点信息;拓扑数据则包括节点的ID和调用关系信息;根因节点和根因告警标注为1,非根因节点和非根因告警标注为0。
故障向量化模块负责对上传的网络***故障告警日志和KPI进行向量化,并对***故障日志状态向量矩阵和KPI状态向量矩阵进行融合,获取***故障状态混合表征向量矩阵,作为网络***节点的故障状态表征,图5是根据本实施例的***故障状态量化的示意图,如图5所示,首先是***故障状态向量化模块对告警日志进行分词对每一条告警日志进行向量化以及对节点的KPI信息进行向量化,然后进行日志向量和KPI向量融合(融合操作可以为向量的拼接也可以通过机器学习模型进行融合),获取节点故障状态混合表征向量。
***故障图样本节点清洗收敛模块用于对故障图样本构建、噪声节点清洗、样本图收敛,当网络***故障发生时,如果没有产生告警日志的节点为正常节点,不会是根因节点所以需求清除,缓解网络***中故障节点和正常节点数量级差问题,提高模型的根因定位准确度,图6是根据本实施例的***故障图样本节点清洗收敛模块流程的示意图,如图6所示,首先***故障图样本节点清洗收敛,模块根据网络拓扑数据对***拓扑图进行构建,然后根据节点故障状态混合表征信息对节点有无告警日志属性进行标注,其中绿色节点为无告警日志节点,黄色节点为有告警日志节点,红色节点为故障根因节点,对绿色无告警日志节点进行清洗,清洗后如右图所示。
***故障根因定位样本构建模块用于故障根因节点定位样本和故障根因告警定位样本构建。
图7是根据本实施例的故障根因节点定位样本构建的示意图,如图7所示,首先是故障根因节点定位图样本构建,将N阶图样本中每一个节点的告警日志向量进行融合处理(如果节点存在多个告警则进行融合,否则不需要操作),然后将每一个节点故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并打上根因节点标签,形成故障根因节点定位样本。
图8是根据本实施例的故障根因告警定位样本构建的示意图,如图8所示,其次是故障根因告警定位图样本构建,如果根因节点中只包含一个告警,那么不需要构建当前样本的故障根因告警图样本,否则对根因节点中的多个告警进行拆分成单告警,每一个告警对应故障根因告警定位图样本,然后将每一个节点故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并对根因告警打上根因告警标签,形成故障根因告警定位样本。
最后,将故障根因节点定位样本和故障根因告警定位样本统一存放到同一个样本池中。
***故障根因定位模型模块用于对基于图神经网络的网络***故障根因定位模型进行构建、优化训练和故障根因定位预测。图9是根据本实施例的***故障根因定位模型模块的流程图,如图9所示,其训练流程为:首先创建***故障根因定位模型,然后加载样本池中的样本对***故障根因定位模型进行训练,最后将学习模型导出保存。其预测流程为:加载已训练的网络***故障根因定位模型,首先对网络***故障数据进行故障根因节点图样本构建然后输入到网络***故障根因定位模型中进行故障根因节点预测,然后如果所预测的根因节点只有一个告警日志则当前告警日志为故障根因告警,否则对根因节点中的多个告警日志进行拆分分别进行故障根因告警图样本构造输入到***故障根因定位模型中进行故障根因告警预测,最后进行根因节点和根因告警预测结果反馈。
下面结合附图对本实施例进行详细说明。
图10是根据本实施例的IT网络***故障根音定位的***框图一,如图10所示,***框架包括IT网络***1001和网络***故障根因定位服务器1004,其中,IT网络***1001包括:***故障数据采集模块1002和***故障交界面1003;网络***故障根因定位服务器1004负责运行网络***故障根因定位装置1005。
***故障数据采集模块1002负责IT网络***1001的故障告警日志、网络拓扑数据的采集和上传。
***故障交互界面1003负责***故障定位触发和对故障定位结果进行解析展示。
网络***故障根因定位装置1005负责对上传的***故障信息进行解析清洗、样本构建、模型训练和故障根因定位预测,并将故障定位结果进行反馈。
***故障数据采集,包括:***故障交互界面1003触发***故障数据采集模块1002对指定时间片段(例如故障发生前后10分钟)内的告警日志和***拓扑数据进行采集,完成根因节点和根因告警标注。采集的告警日志信息包括但不限于,ERROR、WARNING、FATAL等级别告警日志,将每一个节点的告警日志导出到同一个文本文件中,文件用节点ID_log命名;***拓扑数据则包括节点ID以及***节点间的服务调用关系,使用字典数据结构存储,例如节点1调用了节点2和节点3的服务,在拓扑中则体现为存在边由节点1指向节点2和节点3,那么在字典则表示为{节点1:[节点2, 节点3]},字典的键节点为调用节点,字典的值节点为被调用节点;故障标注信息包括根因节点和根因告警信息,并存放到制定命名的文本文件中;然后将***所有节点的告警日志文件、***拓扑数据文件、故障标注文件打包上传到网络***故障根因定位装置1005。
***故障图样本节点清洗收敛,包括:网络***故障根因定位装置1005对上传的***故障信息数据包进行解析,分别提取每一个节点的告警日志、***拓扑数据、故障标注信息。针对节点告警日志,首先,对每一个节点的告警日志进行无用字段清洗对节点告警日志进行收敛,然后对收敛后的告警日志进行分词和词向量化,并生成词向量模型;并且提取存在告警日志节点ID。利用生成的词向量模型对节点每条告警日进行词向量化获取告警日志嵌入矩阵,然后对告警日志嵌入矩阵同维度进行求和操作获取每条日志表征向量,即网络***节点故障状态表征。针对故障标注数据,提取故障根因节点ID和根因告警。针对***拓扑数据,利用图工具和***拓扑数据创建***基本拓扑图0。将生成的节点故障状态表征赋值给生成的***基本拓扑图0的每一个节点,生成故障原始图样本。根据获取的故障根因节点ID和根因告警标签信息对生成的原始图样本的根因节点和根因告警进行标注,标志哪个节点为根因节点和根因告警中哪个告警为根因告警;并且根据告警节点ID对原始图样本1相应的节点进行告警标注,标志哪些节点为告警节点,生成故障原始图样本1。对故障原始图样本1中的无告警节点和孤立节点进行清洗,生成故障原始图样本2。对故障原始图样本2中故障根因节点的3阶子图进行获取,进一步进行图收敛,获得的子图作为相应故障的故障图样本—3阶故障图样本。
***故障根因定位训练图样本构建,包括:故障根因节点定位训练图样本构建:依次对3阶故障图样本中每一个节点的所有告警日志向量进行求和操作,然后赋值给每一个节点的特征值,并打上根因节点标签,生成故障根因节点定位图样本。
故障根因告警定位训练样本构建,包括:如果根因节点中只包含一条告警则不需要另外构建当前故障的根因告警定位图样本,如果根因节点存在多条告警则拆分成单告警,每一条告警对应当前故障的一个根因告警定位图样本,并根据每一条告警是否为根因告警给所在节点打上相应的是否为根因节点的标签,生成故障根因告警定位图样本。将故障根因节点定位图样本和故障根因告警定位图样本存放到同一个样本池中。
***故障根因定位模型训练,包括:基于图神经网络创建网络***故障根因定位模型,加载样本池中的图样本完成训练学习,并导出保存最终的模型。***故障根因定位模型上线提供***故障根因定位服务。
***故障根因定位模型预测,包括:对上传的***故障采集数据进行告警日志解析、向量化、节点清洗、样本图收敛,生成其3阶故障图样本。对生成的3阶故障图样本中每一个节点的所有告警日志向量进行求和操作,然后赋值给每一个节点的特征值,作为故障根因节点定位图样本(预测样本不带标签)。加载保存的***故障根因定位模型,将生成的故障根因节点定位图样本作为模型输入进行故障根因节点定位预测,输出故障根因节点定位结果。
如果所预测的根因节点只有一个告警日志,那么该告警日志为故障根因告警。如果所预测的根因节点存在多个告警则拆分成单告警,每一条告警对应当前故障的一个根因告警定位图样本,生成故障根因告警定位图样本(预测样本不带标签)。然后将拆分样本输入到加载的***故障根因定位模型进行故障根因告警预测,多个告警中概率最大的为故障根因告警。将故障根因节点定位结果和故障根因告警定位结果进行反馈。
图11是根据本实施例的IT网络***故障根音定位的***框图二,如图11所示,***框架包括IT网络***1001和网络***故障根因定位服务器1004,其中,IT网络***1001包括:***故障数据采集模块1002和***故障交界面1003;网络***故障根因定位服务器1004负责运行网络***故障根因定位装置1005。
***故障数据采集模块1002负责IT网络***1001的故障告警日志、KPI指标、网络拓扑数据的采集和上传。
***故障交互界面1003负责***故障定位触发和对故障定位结果进行解析展示。
网络***故障根因定位装置1005负责对上传的***故障信息进行解析清洗、样本构建、模型训练和故障根因定位预测,并将故障定位结果进行反馈。
***故障数据采集,包括:***故障交互界面1003触发***故障数据采集模块1002对指定时间片段(例如故障发生前后20分钟)内的告警日志、***节点KPI、***拓扑数据进行采集,完成根因节点和根因告警标注。采集的告警日志信息包括但不限于,ERROR、WARNING、FATAL等级别告警日志,将每一个节点的告警日志导出到同一个文本文件中,文件用节点ID_log命名;采集***KPI输出,包括但不限于CPU、内存利用率、节点数据包吞吐率信息,将每一个节点的所有KPI导出到同一个文本文件中,文件用节点ID_kpi命名;***拓扑数据则包括节点ID以及***节点间的数据流向关系,使用字典数据结构存储,例如节点1存在数据流向节点2和节点3,在拓扑中则体现为存在边由节点1指向节点2和节点3,那么在字典则表示为{节点1:[节点2,节点3]},字典的键节点为数据源节点,字典的值节点为数据目标节点;故障标注信息包括根因节点和根因告警信息,并存放到制定命名的文本文件中;然后将***所有节点的告警日志文件、***节点KPI数据文件、***拓扑数据文件、故障标注文件打包上传到网络***故障根因定位装置1005。
***故障图样本节点清洗收敛,包括:网络***故障根因定位装置1005对上传的***故障信息数据包进行解析,分别提取每一个节点的告警日志、KPI、***拓扑数据、故障标注信息。针对节点告警日志,首先,对每一个节点的告警日志进行无用字段清洗对节点告警日志进行收敛,然后对收敛后的告警日志进行分词和词向量化,并生成词向量模型;并且提取存在告警日志节点ID。针对节点KPI,对每一个节点的KPI进行向量化,获取节点KPI向量。利用生成的词向量模型对节点每条告警日进行词向量化获取告警日志嵌入矩阵,然后对告警日志嵌入矩阵同维度进行求和操作获取每条日志表征向量,即网络***节点故障状态表征。针对故障标注数据,提取故障根因节点ID和根因告警。针对***拓扑数据,利用图工具和***拓扑数据创建***基本拓扑图0。将生成的节点故障状态表征和生成的节点KPI向量进行拼接操作后,赋值给生成的***基本拓扑图0的每一个节点,生成故障原始图样本。根据获取的故障根因节点ID和根因告警标签信息对生成的原始图样本的根因节点和根因告警进行标注,标志哪个节点为根因节点和根因告警中哪个告警为根因告警;并且根据告警节点ID对原始图样本1相应的节点进行告警标注,标志哪些节点为告警节点,生成故障原始图样本1。对故障原始图样本1中的无告警节点和孤立节点进行清洗,生成故障原始图样本2。对故障原始图样本2中故障根因节点的4阶子图进行获取,进一步进行图收敛,获得的子图作为相应故障的故障图样本—4阶故障图样本。
***故障根因定位训练图样本构建,包括:
S1,故障根因节点定位训练图样本构建:依次对4阶故障图样本中每一个节点的所有告警日志向量进行求和操作,然后赋值给每一个节点的特征值,并打上根因节点标签,生成故障根因节点定位图样本。
S2,故障根因告警定位训练样本构建:如果根因节点中只包含一条告警则不需要另外构建当前故障的根因告警定位图样本,如果根因节点存在多条告警则拆分成单告警,每一条告警对应当前故障的一个根因告警定位图样本,并根据每一条告警是否为根因告警给所在节点打上相应的是否为根因节点的标签,生成故障根因告警定位图样本。将故障根因节点定位图样本和故障根因告警定位图样本存放到同一个样本池中。
***故障根因定位模型训练,包括:基于图神经网络创建网络***故障根因定位模型,加载样本池中的图样本完成训练学习,并导出保存最终的模型。***故障根因定位模型上线提供***故障根因定位服务。
***故障根因定位模型预测,包括:对上传的***故障采集数据进行告警日志解析、向量化、节点清洗、样本图收敛,生成其4阶故障图样本。对生成的4阶故障图样本中每一个节点的所有告警日志向量进行求和操作,然后赋值给每一个节点的特征值,作为故障根因节点定位图样本(预测样本不带标签)。加载保存的***故障根因定位模型,将生成的故障根因节点定位图样本作为模型输入进行故障根因节点定位预测,输出故障根因节点定位结果。
如果所预测的根因节点只有一个告警日志,那么该告警日志为故障根因告警。如果所预测的根因节点存在多个告警则拆分成单告警,每一条告警对应当前故障的一个根因告警定位图样本,生成故障根因告警定位图样本(预测样本不带标签)。然后将拆分样本输入到加载的***故障根因定位模型进行故障根因告警预测,多个告警中概率最大的为故障根因告警。将故障根因节点定位结果和故障根因告警定位结果进行反馈。
根据本申请的另一个实施例,还提供了一种***故障的根因定位装置,图12是根据本实施例的***故障的根因定位装置的框图,如图12所示,包括:
构建模块122,用于构建故障根因节点定位样本和故障根因告警定位样本;
训练模块124,用于利用所述故障根因节点定位样本和所述故障根因告警定位样本对构建的网络***故障根因定位模型进行训练,得到训练好的网络***故障根因定位模型;
预测模块126,用于根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测。
在一示例性实施例中,所述预测模块126包括:
第一构建子模块,用于对当前故障的网络***故障数据进行故障根因节点图样本构建;
输入子模块,用于将构建的所述故障根因节点图样本输入到所述训练好的网络***故障根因定位模型中,得到所述训练好的网络***故障根因定位模型输出的所述当前故障的故障根因节点预测结果;
确定子模块,用于根据所述故障根因节点预测结果确定所述当前故障的故障根因告警预测结果。
在一示例性实施例中,所述确定子模块包括:
确定单元,用于若所述故障根因节点预测结果为根因节点只包含一个告警日志,确定当前告警日志为所述故障根因告警预测结果;
输入单元,用于若所述故障根因节点预测结果为根因节点包含多个告警日志,将所述根因节点中的多个告警日志拆分成单告警日志,分别对每一个单告警日志进行故障根因告警图样本构造,并将构造的所述故障根因告警图样本输入到所述***故障根因定位模型中,得到所述***故障根因定位模型输出的所述故障根因告警预测结果。
在一示例性实施例中,所述装置还包括:
发送模块,用于将所述故障根因节点预测结果与所述故障根因告警预测结果发送给网络***,其中,所述网络***用于通过***故障交互界面显示所述故障根因节点预测结果与所述故障根因告警预测结果。
在一示例性实施例中,所述构建模块122包括:
对采集的告警日志和KPI进行向量化,得到告警日志状态向量矩阵和KPI状态向量矩阵;
融合子模块,用于对所述告警日志状态向量矩阵和所述KPI状态向量矩阵进行融合,得到***故障状态混合表征向量矩阵,并将所述***故障状态混合表征向量矩阵作为网络***节点的故障状态表征;
第二构建子模块,用于根据所述故障状态表征与采集的拓扑数据构建故障图样本;
第三构建子模块,用于根据所述故障图样本构建故障根因节点定位样本和故障根因告警定位样本。
在一示例性实施例中,所述第三构建子模块包括:
清洗收敛单元,用于对所述故障图样本进行噪声节点清洗、样本图收敛,得到清洗收敛后的图样本;
构建单元,用于基于所述清洗收敛后的图样本,构建故障根因节点定位样本和故障根因告警定位样本;
存放单元,用于将所述故障根因节点定位样本和所述故障根因告警定位样本存放到样本池。
在一示例性实施例中,所述构建单元,还用于
将N阶所述清洗收敛后的图样本中每一个节点的多个告警日志向量进行融合处理;将所述每一个节点的***故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并打上根因节点标签,形成所述故障根因节点定位样本;
若根因节点包含多个告警日志,将所述根因节点中的多个告警日志拆分成单告警日志;将每一个节点的***故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并对根因告警打上根因告警标签,形成所述故障根因告警定位样本。
在一示例性实施例中,所述清洗收敛单元,还用于
根据所述***故障状态混合表征向量对所述故障图样本中的节点有无告警日志进行属性标注;
对所述故障图样本中无告警日志的节点进行清洗;
对清洗后的故障图样本进行样本收敛,得到所述清洗收敛后的图样本。
在一示例性实施例中,所述装置还包括:
接收模块,用于接收网络***采集拓扑数据、告警日志以及KPI数据之后,进行根因节点和根因告警标注得到的训练样本。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种***故障的根因定位方法,其特征在于,包括:
构建故障根因节点定位样本和故障根因告警定位样本;
利用所述故障根因节点定位样本和所述故障根因告警定位样本对构建的网络***故障根因定位模型进行训练,得到训练好的网络***故障根因定位模型;
根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测,包括:
对当前故障的网络***故障数据进行故障根因节点图样本构建;
将构建的所述故障根因节点图样本输入到所述训练好的网络***故障根因定位模型中,得到所述训练好的网络***故障根因定位模型输出的所述当前故障的故障根因节点预测结果;
根据所述故障根因节点预测结果确定所述当前故障的故障根因告警预测结果。
2.根据权利要求1所述的方法,其特征在于,根据所述故障根因节点预测结果确定所述当前故障的故障根因告警预测结果包括:
若所述故障根因节点预测结果为根因节点只包含一个告警日志,确定当前告警日志为所述故障根因告警预测结果;
若所述故障根因节点预测结果为根因节点包含多个告警日志,将所述根因节点中的多个告警日志拆分成单告警日志,分别对每一个单告警日志进行故障根因告警图样本构造,并将构造的所述故障根因告警图样本输入到所述***故障根因定位模型中,得到所述***故障根因定位模型输出的所述故障根因告警预测结果。
3.根据权利要求1或2所述的方法,其特征在于,根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测之后,所述方法还包括:
将所述故障根因节点预测结果与所述故障根因告警预测结果发送给网络***,其中,所述网络***用于通过***故障交互界面显示所述故障根因节点预测结果与所述故障根因告警预测结果。
4.根据权利要求1所述的方法,其特征在于,构建所述故障根因节点定位样本和所述故障根因告警定位样本包括:
对采集的告警日志和关键绩效指标KPI进行向量化,得到告警日志状态向量矩阵和KPI状态向量矩阵;
对所述告警日志状态向量矩阵和所述KPI状态向量矩阵进行融合,得到***故障状态混合表征向量矩阵,并将所述***故障状态混合表征向量矩阵作为网络***节点的故障状态表征;
根据所述故障状态表征与采集的拓扑数据构建故障图样本;
根据所述故障图样本构建故障根因节点定位样本和故障根因告警定位样本。
5.根据权利要求4所述的方法,其特征在于,根据所述故障图样本构建故障根因节点定位样本和故障根因告警定位样本包括:
对所述故障图样本进行噪声节点清洗、样本图收敛,得到清洗收敛后的图样本;
基于所述清洗收敛后的图样本,构建故障根因节点定位样本和故障根因告警定位样本;
将所述故障根因节点定位样本和所述故障根因告警定位样本存放到样本池。
6.根据权利要求5所述的方法,其特征在于,基于所述清洗收敛后的图样本,构建故障根因节点定位样本和故障根因告警定位样本包括:
将N阶所述清洗收敛后的图样本中每一个节点的多个告警日志向量进行融合处理;将所述每一个节点的***故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并打上根因节点标签,形成所述故障根因节点定位样本;
若根因节点包含多个告警日志,将所述根因节点中的多个告警日志拆分成单告警日志;将每一个节点的***故障状态混合表征向量赋值给N阶故障图样本中相应的节点特征值,并对根因告警打上根因告警标签,形成所述故障根因告警定位样本。
7.根据权利要求5所述的方法,其特征在于,对所述故障图样本进行噪声节点清洗、样本图收敛,得到清洗收敛后的图样本包括:
根据所述***故障状态混合表征向量对所述故障图样本中的节点有无告警日志进行属性标注;
对所述故障图样本中无告警日志的节点进行清洗;
对清洗后的故障图样本进行样本收敛,得到所述清洗收敛后的图样本。
8.根据权利要求4至7中任一项所述的方法,其特征在于,在对采集的告警日志和KPI进行向量化,得到告警日志状态向量矩阵和KPI状态向量矩阵之前,所述方法还包括:
接收网络***采集拓扑数据、告警日志以及KPI数据之后,进行根因节点和根因告警标注得到的训练样本。
9.一种***故障的根因定位装置,其特征在于,包括:
构建模块,用于构建故障根因节点定位样本和故障根因告警定位样本;
训练模块,用于利用所述故障根因节点定位样本和所述故障根因告警定位样本对构建的网络***故障根因定位模型进行训练,得到训练好的网络***故障根因定位模型;
预测模块,用于根据所述训练好的网络***故障根因定位模型对当前故障的根因定位进行预测;
其中,所述预测模块包括:
第一构建子模块,用于对当前故障的网络***故障数据进行故障根因节点图样本构建;
输入子模块,用于将构建的所述故障根因节点图样本输入到所述训练好的网络***故障根因定位模型中,得到所述训练好的网络***故障根因定位模型输出的所述当前故障的故障根因节点预测结果;
确定子模块,用于根据所述故障根因节点预测结果确定所述当前故障的故障根因告警预测结果。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8任一项中所述的方法。
CN202110792399.1A 2021-07-14 2021-07-14 ***故障的根因定位方法、装置、存储介质及电子装置 Active CN113254254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110792399.1A CN113254254B (zh) 2021-07-14 2021-07-14 ***故障的根因定位方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110792399.1A CN113254254B (zh) 2021-07-14 2021-07-14 ***故障的根因定位方法、装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN113254254A CN113254254A (zh) 2021-08-13
CN113254254B true CN113254254B (zh) 2021-11-30

Family

ID=77191164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110792399.1A Active CN113254254B (zh) 2021-07-14 2021-07-14 ***故障的根因定位方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN113254254B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869609A (zh) * 2021-10-29 2021-12-31 北京宝兰德软件股份有限公司 一种根因分析频繁子图置信度预测方法及***
CN114629785B (zh) * 2022-03-10 2023-08-11 国网浙江省电力有限公司双创中心 一种告警位置的检测与预测方法、装置、设备及介质
CN114490303B (zh) * 2022-04-07 2022-07-12 阿里巴巴达摩院(杭州)科技有限公司 故障根因确定方法、装置和云设备
CN114661515B (zh) * 2022-05-23 2022-09-20 武汉四通信息服务有限公司 告警信息收敛方法、装置、电子设备及存储介质
CN117411773A (zh) * 2022-07-08 2024-01-16 中兴通讯股份有限公司 故障根因告警定位方法、故障告警模式构建方法和设备
CN118200113A (zh) * 2022-12-12 2024-06-14 中兴通讯股份有限公司 一种网元故障处理方法、装置、存储介质及电子装置
CN116032726A (zh) * 2022-12-27 2023-04-28 中国联合网络通信集团有限公司 故障根因定位模型训练方法、装置、设备及可读存储介质
CN116880438B (zh) * 2023-04-03 2024-04-26 材谷金带(佛山)金属复合材料有限公司 退火设备控制***的故障检测方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117035452A (zh) * 2019-05-09 2023-11-10 创新先进技术有限公司 一种业务场景的根因定位方法、***及电子设备
CN112003718B (zh) * 2020-09-25 2021-07-27 南京邮电大学 一种基于深度学习的网络告警定位方法
CN111897673B (zh) * 2020-07-31 2022-10-21 平安科技(深圳)有限公司 运维故障根因识别方法、装置、计算机设备和存储介质
CN112346936A (zh) * 2020-11-27 2021-02-09 中国工商银行股份有限公司 应用故障根因定位方法及***

Also Published As

Publication number Publication date
CN113254254A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113254254B (zh) ***故障的根因定位方法、装置、存储介质及电子装置
KR102483025B1 (ko) 운영 유지 시스템 및 방법
CN109635292B (zh) 基于机器学习算法的工单质检方法和装置
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
CN112000502B (zh) 海量错误日志的处理方法、装置、电子装置及存储介质
CN113542039A (zh) 一种通过ai算法定位5g网络虚拟化跨层问题的方法
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN107809766B (zh) 一种用于网络优化的机器学习样本的生成方法及装置
CN115858796A (zh) 一种故障知识图谱构建方法及装置
CN115225536A (zh) 一种基于无监督学习的虚拟机异常检测方法及***
CN111859047A (zh) 一种故障解决方法及装置
CN113313280A (zh) 云平台的巡检方法、电子设备及非易失性存储介质
CN114528175A (zh) 一种微服务应用***根因定位方法、装置、介质及设备
CN116361147A (zh) 测试用例根因定位方法及其装置、设备、介质、产品
CN110378739B (zh) 一种数据流量匹配方法及装置
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN113240139B (zh) 告警因果评估方法、故障根因定位方法及电子设备
CN110457903A (zh) 一种病毒分析方法、装置、设备及介质
WO2020169211A1 (en) Managing telecommunication network event data
CN115865611A (zh) 一种网络设备的故障处理方法、装置及电子设备
CN117827784A (zh) 噪音日志的过滤方法、***
CN112035286A (zh) 故障原因的确定方法及装置、存储介质、电子装置
CN112784025A (zh) 一种目标事件的确定方法和装置
CN115767601A (zh) 一种基于多维数据的5gc网元自动化纳管方法及装置
CN115905417A (zh) 一种***异常检测处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant