CN115550139B - 故障根因定位方法、装置、***、电子设备及存储介质 - Google Patents

故障根因定位方法、装置、***、电子设备及存储介质 Download PDF

Info

Publication number
CN115550139B
CN115550139B CN202211139697.1A CN202211139697A CN115550139B CN 115550139 B CN115550139 B CN 115550139B CN 202211139697 A CN202211139697 A CN 202211139697A CN 115550139 B CN115550139 B CN 115550139B
Authority
CN
China
Prior art keywords
fault
root cause
alarm
data
work order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211139697.1A
Other languages
English (en)
Other versions
CN115550139A (zh
Inventor
蒋晓峰
严学纯
李青
陈晓娜
曾强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211139697.1A priority Critical patent/CN115550139B/zh
Publication of CN115550139A publication Critical patent/CN115550139A/zh
Application granted granted Critical
Publication of CN115550139B publication Critical patent/CN115550139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种故障根因定位方法、装置、***、电子设备及计算机可读存储介质,涉及人工智能技术领域。该方法包括:获取故障工单数据,其中,故障工单数据包括与故障工单相关的告警数据,提取故障工单数据中的故障告警AI特征,将故障告警AI特征输入至根因定位模型,输出根因定位结果,根据根因定位结果,调用告警知识库,获取处理方案数据,在故障工单中增加根因定位结果及处理方案数据发送至工作人员进行处理。本公开实施例可提高网元故障根因定位的效率,高效处理网元故障工单。

Description

故障根因定位方法、装置、***、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及一种故障根因定位方法、装置、***、电子设备及计算机可读存储介质。
背景技术
网元告警故障派单是经过一系列规则,将故障派发到电子工单***,经过运维人员相互协调处理,最终解决故障。
现有根因定位技术主要着重对网路虚拟化跨层问题以时间、位置、层级、专业维度进行聚类,再使用规则树定位根因,聚类方式对数据的离散程度要求较高,可能会导致最终的准确率不理想;且聚类的结果是根因定位到时间、位置、层级、专业层面,再使用规则树进行根因定位,前期需要专业人员进行大量的规则梳理,工作量巨大,建设周期长。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供一种故障根因定位方法、装置、***、电子设备及计算机可读存储介质,至少在一定程度上克服相关技术中网元故障根因定位效率低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种故障根因定位方法,包括:
获取故障工单数据,其中,所述故障工单数据包括与故障工单相关的告警数据;
提取所述故障工单数据中的故障告警AI特征;
将所述故障告警AI特征输入至根因定位模型,生成根因定位结果;
根据所述根因定位结果,获取处理方案数据;
在所述故障工单中增加所述根因定位结果及所述处理方案数据。
在本公开的一个实施例中,还包括:
通过有放回的均匀采样产生不同的训练数据集;
基于所述训练数据集得到多个分类器;
通过多分类算法与集成学习算法的结合算法对多个所述分类器进行处理,生成所述根因定位模型。
在本公开的一个实施例中,所述提取所述故障工单数据中的故障告警AI特征包括:
根据所述故障工单数据初步确定故障根因;
根据所述故障根因,提取所述故障工单数据中的所述故障告警AI特征。
在本公开的一个实施例中,所述故障工单数据为网元故障工单数据;
所述故障告警AI特征包括割接操作类特征、网元告警特征或组网告警特征。
在本公开的一个实施例中,还包括:
建立告警数据库,所述告警数据库包括所述根因定位结果集与所述处理方案数据的映射关系数据。
在本公开的一个实施例中,还包括:
所述根因定位模型在一定时间轮询检测是否有故障工单。
在本公开的一个实施例中,还包括:
将所述故障告警AI特征固化到集群;
对所述故障根因及所述故障告警AI特征进行清洗、标准化及平衡处理。
在本公开的一个实施例中,所述清洗处理方法包括:
筛除告警特征数量为0、工单有误、故障告警AI特征的值无对应根因定位结果或根因定位结果表征故障根因是未知原因的数据。
在本公开的一个实施例中,还包括:
通过k折叉验证方法优化所述根因定位模型。
在本公开的一个实施例中,所述分类器应用的算法包括:k近邻算法、支持向量机算法或朴素贝叶斯算法;
所述集成学习算法为袋装算法。
在本公开的一个实施例中,所述告警数据包括:资源信息、割接信息或日志信息。
根据本公开的另一个方面,还提供一种故障根因定位装置,包括:
故障工单获取模块,获取故障工单数据,其中,所述故障工单数据包括与故障工单相关的告警数据;
定位特征确定模块,提取所述故障工单数据中的故障告警AI特征;
根因定位生成模块,将所述故障告警AI特征输入至根因定位模型,生成根因定位结果;
处理方案获取模块,根据所述根因定位结果,获取处理方案数据;
故障工单处理模块,在所述故障工单中增加所述根因定位结果及所述处理方案数据。
根据本公开的另一个方面,还提供一种故障根因定位***,包括:
综合告警模块,查找故障工单数据;
根因定位模型,轮询检测是否有故障工单,获取所述故障工单数据,计算对应的故障告警AI特征,通过所述根因定位模型输出根因定位结果;
告警知识库,通过所述根因定位结果,获取处理方案数据。
根据本公开的另一个方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述故障根因定位方法。
根据本公开的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的故障根因定位方法。
本公开的实施例所提供的故障根因定位方法、装置、***、电子设备及计算机可读存储介质,获取故障工单数据,其中,故障工单数据包括与故障工单相关的告警数据,提取故障工单数据中的故障告警AI特征,将故障告警AI特征输入至根因定位模型,输出根因定位结果,根据根因定位结果,调用告警知识库,获取处理方案数据,在故障工单中增加根因定位结果及处理方案数据发送至工作人员进行处理,可提高网元故障根因定位的效率,高效处理网元故障工单。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开实施例中一种故障根因定位方法流程图;
图2示出本公开实施例中一种故障根因模型生成方法流程图;
图3示出本公开实施例中一种故障根因模型训练示意图;
图4示出本公开实施例中又一种故障根因定位方法流程图;
图5示出本公开实施例中一种故障根因定位装置示意图;
图6示出本公开实施例中一种故障根因定位***示意图;
图7示出本公开实施例中再一种故障根因定位方法流程图;和
图8示出本公开实施例中一种电子设备的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
为了便于理解,下面首先对本公开涉及到的几个名词进行解释如下:
BGP(Border Gateway Protocol,边界网关协议)是互联网上一个核心的去中心化自治路由协议,它通过维护IP路由表或前缀表来实现自治***之间的可达性,属于矢量路由协议。
SMF(Session Management Function,会话管理功能)提供服务连续性,服务的不间断用户体验,包括IP地址和/或锚点变化的情况。
UPF(User Plane Function,用户面管理功能)分组路由转发,策略实施,流量报告,Qos处理。
NF(Network Function,网络功能)
CE(Customer Edge,用户边缘)服务提供商所连接的用户端路由器。
KNN(k-nearest neighbor,K最近邻)假设给定一个训练数据集,其中的实例类别已定,分类时,对新的实例,根据其k个最近邻的训练实例类别,通过多数表决等方式进行预测。
NBM(Naive Bayesian Model,朴素贝叶斯)利用贝叶斯公式根据某对象的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该对象所属的类。
SVM(support vector machines,支持向量机)是一种二分类算法,所谓二分类即把具有多个特性的数据分为两类。
下面结合附图及实施例对本示例实施方式进行详细说明。
首先,本公开实施例中提供了一种故障根因定位方法,该方法可以由任意具备计算处理能力的电子设备执行。
图1示出本公开实施例中一种故障根因定位方法流程图,如图1所示,本公开实施例中提供的故障根因定位方法包括如下步骤:
S102,获取故障工单数据,其中,故障工单数据包括与故障工单相关的告警数据。
需要说明的是,故障工单是有故障告警的工单。
在一个实施例中,告警数据包括但不限于:告警所涉及到的资源信息、告警发生前后一定时间范围内的割接信息、或日志信息等。
在一个实施例中,故障工单数据包括但不限于:每条故障工单的数据及一定时间范围内与故障工单相关联的告警数据。
在一个实施例中,可根据用户设置固定时间,获取固定时间内的与故障工单相关的告警数据。
在一个实施例中,故障工单包括但不限于:网元故障工单,以5G网元故障工单为例,可为节点故障、分层转发环路等网元故障工单。
在一个实施例中,根因定位模型在一定时间轮询检测是否有故障工单。
S104,提取故障工单数据中的故障告警AI特征。
需要说明的是,根因定位基于故障工单确定的故障根因,故障告警AI特征是基于人工智能技术,与故障根因相关的特征。
在一个实施例中,故障告警AI特征包括但不限于:割接操作类特征、网元告警特征、组网告警特征,以网元告警特征为例,可为告警数量、目的端相同源端不同的,源端网元数量、源端相同目的端不同的,目的端网元数量、本端网元特征告警数量、对端网元特征告警数量信息。
在一个实施例中,根据故障工单数据初步确定故障根因,根据故障根因,提取故障工单数据中的故障告警AI特征。例如,以“分层转发环路”故障告警为例,梳理出如下故障根因:割接操作,基站配置问题,网元配置问题,号段配置问题,网元服务异常,根据相关信息,确定故障根因为割接操作,割接操作类特征可为是否零点发生、是否割接时段、相关网元是否有操作、相关网元是否有割接单、相关网元是否入网等。
S106,将故障告警AI特征输入至根因定位模型,生成根因定位结果。
在一个实施例中,将故障告警AI特征固化到ElasticSearch集群。
在一个实施例中,对故障根因及故障告警AI特征进行清洗、标准化及平衡处理。
在一个实施例中,清洗处理方法包括:
筛除告警特征数量为0、故障工单有误、故障告警AI特征的值无对应根因定位结果或根因定位结果表征故障根因是未知原因等样本数据,删除重复信息、纠正存在的错误。
在一个实施例中,对故障告警AI特征进行标准化处理,使故障告警AI特征实现正态分布,即均值为0,方差为1。
在一个实施例中,使用RandomOverSampler方法通过采样方式进行样本平衡,以使得各种问题样本在数量上保持相对一致,各故障根因分布变得均匀。
需要说明的是,RandomOverSampler是从样本少的类别中随机抽样,再将抽样得来的样本添加到数据集中。
在一个实施例中,根据有监督多分类算法及袋装算法生成及训练根因定位模型。
S108,根据根因定位结果,获取处理方案数据。
在一个实施例中,建立告警数据库,告警数据库包括根因定位结果集与处理方案数据的映射关系数据。
S110,在故障工单中增加根因定位结果及处理方案数据。
需要说明的是,根因定位结果是根据根因定位模型确定的故障工单的根因定位结果,处理方案数据是处理故障工单的方案数据。
上述实施例中,依据告警发生的报告时间,收集前后一定时间范围内的关联告警,从故障工单数据中提取特征,用作机器学***。
图2示出本公开实施例中一种故障根因模型生成方法流程图,如图2所示,本公开实施例中提供的故障根因模型生成方法包括如下步骤:
S202,通过有放回的均匀采样产生不同的训练数据集;
S204,基于训练数据集得到多个分类器;
S206,通过多分类算法与集成学习算法的结合算法对多个分类器进行处理,生成根因定位模型;
S208,通过k折叉验证方法优化根因定位模型。
在一个实施例中,选择成熟的有监督多分类算法;例如KNN近邻、支持向量机、朴素贝叶斯等多分类算法。在对分类器处理中结合集成算法,将若干个弱分类器通过一定的策略组合之后产生一个强分类器,提高模型的泛化准确率;通过k折交叉验证法对模型准确率进行评估优化。
在一个实施例中,集成学习算法为袋装Bagging算法,Bagging的核心思想为并行地训练一系列各自独立的同类根因定位模型,然后再将各个根因定位模型的输出结果按照某种策略进行组合,并输出最终结果。例如分类中可采用投票策略。
在一个实施例中,故障根因模型训练及评估:使用有监督多分类算法,进行不同故障的模型训练、测试,通过特征调整、样本平衡、归一化处理等方式对样本数据进行处理,结合不同算法,通过k折交叉验证的方式筛选出最优模型,其中,模型的优劣主要通过其准确率,精确率和误差率等指标来评判。
在一个实施例中,图3示出本公开实施例中一种故障根因模型训练示意图,如图3所示,获取训练样本数据300,通过有放回的均匀采样产生不同的训练数据集,基于训练数据集得到多个分类器,通过集成学习算法对多个分类器进行处理,生成根因定位模型307,根因定位模型307输出预测的根因定位结果308。例如,训练数据集可为样本集S1301、样本集S2302、样本集Sn303,基于样本集S1301得到分类器C1304、基于样本集S2302得到分类器C2305、基于样本集Sn303得到分类器Cn306。
上述实施例中,采用的多分类算法结合集成算法同时使用,直接对故障告警进行根因定位,既降低了实现难度,同时也增强了模型的泛化能力,提高根因定位准确率,具有很好的应用价值。
图4示出本公开实施例中又一种故障根因定位方法流程图,如图4所示,本公开实施例中提供的故障根因定位方法包括如下步骤:
S402,梳理历史故障工单数据。
在一个实施例中,历史故障工单数据包括每条故障工单的数据及一定时间范围内与故障工单相关联的告警数据。
在一个实施例中,故障工单包括但不限于网元故障工单,对应的故障工单数据包括网元故障工单名车。
在一个实施例中,可获取10分钟以内与故障工单相关联的告警数据,时间范围可根据用户需要进行设置。
在一个实施例中,告警数据包括但不限于:告警所涉及到的资源信息、告警发生前后一定时间范围内的割接信息、或日志信息等。
S404,根据历史故障工单数据初步确定对应的故障根因。
在一个实施例中,根据历史故障工单数据中包括的故障名称,确定对应的故障根因,表1为网元故障告警对应的故障根因表。
表1为网元故障告警对应的故障根因表
S406,根据故障根因,提取故障告警AI特征。
在一个实施例中,根据故障根因名称、获取对应的故障告警AI特征分类及根因定位名称,表2为smf不可达故障告警对应的故障告警AI特征表。
表2为smf不可达故障告警对应的故障告警AI特征表
S408,对故障告警AI特征进行清洗、标准化、平衡处理。
在一个实施例中,将故障告警AI特征值固化到ElasticSearch集群,对梳理好的故障根因和故障告警AI特征等信息进行重新审查和校验,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
需要说明的是,ElasticSearch为所有类型的数据提供近乎实时的搜索和分析;ElasticSearch集群,一个ElasticSearch集群由一个或多个节点组成,每个集群都有一个共同的集群名称作为标识。
在一个实施例中,数据清洗规则包括但不限于:
过滤掉告警特征数量为0的样本;
过滤掉工单信息有误的样本;
过滤掉故障告警AI特征的值无法突出体现相应根因信息的样本;
减少故障根因是未知原因的样本等。
在一个实施例中,对故障告警AI特征进行标准化处理,由于样本特征分布比较离散,数据之间没有可比性,经过标准化处理后,可使样本数据实现正态分布,即均值为0,方差为1。表3为为原始故障告警AI特征样本,表4为标准化后故障告警AI特征样本。
表3为原始故障告警AI特征样本
0 1 2 3 4 5 6 7 8 9
0 18 2 0 2 2 0 0 0 2 1
1 22 12 1 0 79 1 1 8 0 7
2 18 12 1 0 490 1 1 0 0 6
3 26 2 0 2 4 0 0 0 2 1
4 22 12 1 0 79 1 1 8 0 7
5 18 10 1 0 10 1 1 0 0 1
6 18 12 1 0 490 1 1 0 0 6
7 26 2 1 0 2 1 1 0 0 1
8 18 12 1 0 490 1 1 0 0 6
表4为标准化后故障告警AI特征样本
0 1 2 3 4 5 6 7 8 9
0 -0.69459 -1.41233 -1.73205 2.17968 -0.79013 -1.58114 -2.64575 -0.77191 2.17968 -1.27153
1 0.53051 0.56000 0.57735 -0.50300 -0.22049 0.63246 0.37796 0.43724 -0.50300 0.91941
2 -0.69459 0.56000 0.57735 -0.50300 2.82007 0.63246 0.37796 -0.77191 -0.50300 0.55425
3 1.75562 -1.41233 -1.73205 2.17968 -0.77533 -1.58114 -2.64575 -0.77191 2.17968 -1.27153
4 0.53051 0.56000 0.57735 -0.50300 -0.22049 0.63246 0.37796 0.43724 -0.50300 0.91941
5 -0.69459 0.16554 0.57735 -0.50300 -0.73094 0.63246 0.37796 -0.77191 -0.50300 -1.27153
6 -0.69459 0.56000 0.57735 -0.50300 2.82007 0.63246 0.37796 -0.77191 -0.50300 0.55425
7 1.75562 -1.41233 0.57735 -0.50300 -0.79013 0.63246 0.37796 -0.77191 -0.50300 -1.27153
8 -0.69459 0.56000 0.57735 -0.50300 2.82007 0.63246 0.37796 -0.77191 -0.50300 0.55425
在一个实施例中,对故障告警AI特征样本进行平衡处理。
需要说明的是,对于一个类的样本容量很大,其他类的样本容量很小,输入一个样本的时候,K个临近值中大多数都是大样本容量的那个类,这时可能会导致分类错误。因此使用RandomOverSampler方法通过采样方式进行样本平衡,以使得各种问题样本在数量上保持相对一致。
以“分层转发环路”故障告警为例,样本平衡前标签分布存在很大的不平衡问题,基站配置问题样本远远多于割接操作、网元服务异常问题,经过样本平衡后,各故障根因分布变得均匀。
表5为分层转发环路故障告警对应的故障告警AI特征表
在一个实施例中,表5为分层转发环路故障告警对应的故障告警AI特征表,以“分层转发环路”故障告警为例,梳理出如下故障根因:割接操作,基站配置问题,网元配置问题,号段配置问题,网元服务异常。根据相关信息,提取出割接操作类特征和网元告警特征,对以下故障告警AI特征分别进行计算,经过标准化,样本平衡后作为算法的输入数据。
S410,通过有放回的均匀采样产生不同的训练数据集;基于训练数据集得到多个分类器;通过集成学习算法对多个分类器进行处理,生成根因定位模型。
在一个实施例中,网元故障根因定位场景为多分类问题,因此需要选择多分类算法,且故障对应样本数据相对较少分布不均衡,故最初的算法选择了三种多分类算法,分别是K最近邻KNN、朴素贝叶斯NBM、支持向量机SVM,它们不仅可以进行多分类的学习,而且在针对少样本的训练当中表现的也很出色;该算法结合多分类器对于单独基本模型能够提高整体性能,基于Bagging算法的多分类器结合也得到了广泛的应用,通过Bagging树来构造优于单个分类器的融合器和提高最近邻分类器或支持向量机分类器的识别精度。
在一个实施例中,基于bagging和KNN的投票式算法,首先使用Bootstrap即有放回的均匀采样产生不同的训练数据集,然后再分别基于这些训练数据集得到多个基础分类器,最后通过对基础分类器的分类结果进行组合得到一个相对更优的预测模型,通常会比单一分类器效果显著,对于网元故障根因分析来说,通过实验训练模型,得出模型评分结果,集成算法(Bagging)+分类器(KNN/SVM)结合使用对精确率、准确率和召回率平均都有提升,且KNN算法相对简单易用的特点,倾向于选用此种算法作为上线模型。
需要说明的是,Bootstrap是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。
S412,通过k折叉验证方法优化根因定位模型。
在一个实施例中,通过对比三种算法在相同样本下的预测准确率、精确率、召回率、F1值,其中以准确率为主,以及K折交叉验证的曲线图观察,得出用K近邻算法训练的模型效果最好。
S414,将训练好的根因定位模型投入到在线环境中进行试运行;
S416,获取实时故障工单数据,实时根因分析确定故障根因,根据故障根因,提取故障告警AI特征;
S418,将故障告警AI特征输入至根因定位模型,生成根因定位结果;
S420,将实时故障工单数据或在线测试数据实时转为历史样本数据,用于训练,进一步优化根因定位模型,提高模型评分。
在一个实施例中,优化根因定位模型包括修改优化特征、算法、参数等。
S422,根据根因定位结果,获取处理方案数据;
S424,在故障工单中增加根因定位结果及处理方案数据。
在一个实施例中,将最终的根因定位模型部署在现网上,为网元告警***需要派单时,经过根因定位模型计算,定位根因,根据根因从告警知识库中自动匹配解决方案,随工单一起派发给运维人员,帮助运维人员快速定位到故障根因,提高运维效率,降低运维人员的工作量。
在一个实施例中,建立告警知识库:运维专家梳理出根因定位结果与解决方式的知识库,对预测的根因定位与解决方案之间建立映射关系。
上述实施例中,基于机器学习成熟的算法,缩短网元设备根因定位的时间成本,提高网络的稳定性,降低对运维人员运维经验的要求,降低企业用人成本,缓解用人需求,易于推广。
基于同一发明构思,本公开实施例中还提供了一种故障根因定位装置,如下面的实施例所述。由于该装置实施例解决问题的原理与上述方法实施例相似,因此该装置实施例的实施可以参见上述方法实施例的实施,重复之处不再赘述。
图5示出本公开实施例中一种故障根因定位装置示意图,如图5所示,该故障根因定位装置5包括:故障工单获取模块501、定位特征确定模块502、根因定位生成模块503、处理方案获取模块504及故障工单处理模块505。
故障工单获取模块501,获取故障工单数据,其中,故障工单数据包括与故障工单相关的告警数据;
定位特征确定模块502,提取故障工单数据中的故障告警AI特征;
根因定位生成模块503,将故障告警AI特征输入至根因定位模型,生成根因定位结果;
处理方案获取模块504,根据根因定位结果,获取处理方案数据;
故障工单处理模块505,在故障工单中增加根因定位结果及处理方案数据。
上述实施例中,依据告警发生的报告时间,收集前后一定时间范围内的关联告警,从故障工单数据中提取特征,用作机器学***。
基于同一发明构思,本公开实施例中还提供了一种故障根因定位***,如下面的实施例所述。由于该***实施例解决问题的原理与上述方法实施例相似,因此该***实施例的实施可以参见上述方法实施例的实施,重复之处不再赘述。
图6示出本公开实施例中一种故障根因定位***示意图,如图6所示,该故障根因定位***6包括:综合告警模块601、根因定位模型602及告警知识库603。
综合告警模块601,查找故障工单数据;
根因定位模型602,轮询检测是否有故障工单,获取故障工单数据,计算对应的故障告警AI特征,通过根因定位模型602输出根因定位结果;
告警知识库603,通过根因定位结果,获取处理方案数据。
上述实施例中,基于机器学习成熟的算法,缩短根因定位的时间成本,提高网络的稳定性,降低对运维人员运维经验的要求,降低企业用人成本,缓解用人需求,易于推广。
图7示出本公开实施例中再一种故障根因定位方法流程图,如图7所示,本公开实施例中提供的故障根因定位方法包括如下步骤:
S702,当网元设备发生故障时,生成故障信息;
S704,网元设备将故障信息上报至综合告警***;
S706,根因定位模型每十分钟进行一次轮询,检测是否有故障信息;
S708,当有新的故障信息时,根因定位模型向综合告警***发送获取故障工单数据的请求,其中,故障工单数据包括与故障工单相关的告警数据;
S710,综合告警***向根因定位模型返回故障工单数据;
S712,根因定位模型根据故障工单数据、有监督多分类算法、集成算法进行故障根因定位分析,输出根因定位结果;
S714,通过根因定位结果,向告警知识库查询处理方案数据;
S716,告警知识库向综合告警***发送根因定位结果及处理方案数据;
S718,综合告警***在故障工单中增加根因定位结果及处理方案数据。
重复步骤S706。
S714,通过根因定位结果查询处理方案数据
S716,发送根因定位结果及处理方案数据
上述实施例中,依据告警发生的报告时间,收集前后一定时间范围内的关联告警,从故障工单数据中提取特征,用作机器学***。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为***、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同***组件(包括存储单元820和处理单元810)的总线830。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
例如,所述处理单元810可以执行上述方法实施例的如下步骤:获取故障工单数据,其中,故障工单数据包括与故障工单相关的告警数据,提取故障工单数据中的故障告警AI特征,将故障告警AI特征输入至根因定位模型,生成根因定位结果,根据根因定位结果,获取处理方案数据,在故障工单中增加根因定位结果及处理方案数据。
例如,所述处理单元810可以执行上述方法实施例的如下步骤:通过有放回的均匀采样产生不同的训练数据集;基于训练数据集得到多个分类器;通过集成学习算法对多个分类器进行处理,生成根因定位模型;通过k折叉验证方法优化根因定位模型。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备840(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质可以是可读信号介质或者可读存储介质。其上存储有能够实现本公开上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
例如,本公开实施例中的程序产品被处理器执行时实现如下步骤的方法:梳理历史故障工单数据,根据历史故障工单数据初步确定对应的故障根因,根据故障根因,提取故障告警AI特征,对故障告警AI特征进行清洗、标准化、平衡处理,通过有放回的均匀采样产生不同的训练数据集;基于训练数据集得到多个分类器;通过集成学习算法对多个分类器进行处理,生成根因定位模型,通过k折叉验证方法优化根因定位模型,将训练好的根因定位模型投入到在线环境中进行试运行,获取实时故障工单数据,实时根因分析确定故障根因,根据故障根因,提取故障告警AI特征;
将故障告警AI特征输入至根因定位模型,生成根因定位结果,将实时故障工单数据或在线测试数据实时转为历史样本数据,用于训练,进一步优化根因定位模型,提高模型评分,根据根因定位结果,获取处理方案数据;在故障工单中增加根因定位结果及处理方案数据。
本公开中的计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本公开中,计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可选地,计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
在具体实施时,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (14)

1.一种故障根因定位方法,其特征在于,包括:
获取故障工单数据,其中,所述故障工单数据包括与故障工单相关的告警数据;
根据所述故障工单数据初步确定故障根因;
根据所述故障根因的名称,获取对应的故障告警AI特征分类及根因定位名称;
将故障告警AI特征值固化到集群,对所述故障根因和故障告警AI特征进行重新审查和校验;
将所述故障告警AI特征输入至根因定位模型,生成根因定位结果;
根据所述根因定位结果,获取处理方案数据;
在所述故障工单中增加所述根因定位结果及所述处理方案数据。
2.根据权利要求1所述的故障根因定位方法,其特征在于,还包括:
通过有放回的均匀采样产生不同的训练数据集;
基于所述训练数据集得到多个分类器;
通过多分类算法与集成学习算法的结合算法对多个所述分类器进行处理,生成所述根因定位模型。
3.根据权利要求1所述的故障根因定位方法,其特征在于,还包括:
建立告警数据库,所述告警数据库包括根因定位结果集与所述处理方案数据的映射关系数据。
4.根据权利要求1所述的故障根因定位方法,其特征在于,所述故障工单数据为网元故障工单数据;
所述故障告警AI特征包括割接操作类特征、网元告警特征或组网告警特征。
5.根据权利要求1所述的故障根因定位方法,其特征在于,还包括:
所述根因定位模型在一定时间轮询检测是否有故障工单。
6.根据权利要求4所述的故障根因定位方法,其特征在于,所述将故障告警AI特征值固化到集群,对所述故障根因和故障告警AI特征进行重新审查和校验包括:
将所述故障告警AI特征固化到所述集群;
对所述故障根因及所述故障告警AI特征进行清洗、标准化及平衡处理。
7.根据权利要求6所述的故障根因定位方法,其特征在于,所述清洗处理方法包括:
筛除告警特征数量为0、工单有误、故障告警AI特征的值无对应根因定位结果或根因定位结果表征故障根因是未知原因的数据。
8.根据权利要求1所述的故障根因定位方法,其特征在于,还包括:
通过k折叉验证方法优化所述根因定位模型。
9.根据权利要求2所述的故障根因定位方法,其特征在于,
所述分类器应用的算法包括:k近邻算法、支持向量机算法或朴素贝叶斯算法;
所述集成学习算法为袋装算法。
10.根据权利要求1所述的故障根因定位方法,其特征在于,所述告警数据包括:资源信息、割接信息或日志信息。
11.一种故障根因定位装置,其特征在于,包括:
故障工单获取模块,获取故障工单数据,其中,所述故障工单数据包括与故障工单相关的告警数据;
定位特征确定模块,根据所述故障工单数据初步确定故障根因;根据所述故障根因的名称,获取对应的故障告警AI特征分类及根因定位名称;将故障告警AI特征值固化到集群,对所述故障根因和故障告警AI特征进行重新审查和校验;
根因定位生成模块,将所述故障告警AI特征输入至根因定位模型,生成根因定位结果;
处理方案获取模块,根据所述根因定位结果,获取处理方案数据;
故障工单处理模块,在所述故障工单中增加所述根因定位结果及所述处理方案数据。
12.一种故障根因定位***,其特征在于,包括:
综合告警模块,查找故障工单数据;
根因定位模型,轮询检测是否有故障工单,获取所述故障工单数据,根据所述故障工单数据初步确定故障根因,根据所述故障根因的名称,获取对应的故障告警AI特征分类及根因定位名称,将故障告警AI特征值固化到集群,对所述故障根因和故障告警AI特征进行重新审查和校验,将所述故障告警AI特征输入至根因定位模型,通过所述根因定位模型输出根因定位结果;
告警知识库,通过所述根因定位结果,获取处理方案数据。
13. 一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求 1~10中任意一项所述故障根因定位方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~10中任意一项所述的故障根因定位方法。
CN202211139697.1A 2022-09-19 2022-09-19 故障根因定位方法、装置、***、电子设备及存储介质 Active CN115550139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211139697.1A CN115550139B (zh) 2022-09-19 2022-09-19 故障根因定位方法、装置、***、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211139697.1A CN115550139B (zh) 2022-09-19 2022-09-19 故障根因定位方法、装置、***、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115550139A CN115550139A (zh) 2022-12-30
CN115550139B true CN115550139B (zh) 2024-02-02

Family

ID=84727147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211139697.1A Active CN115550139B (zh) 2022-09-19 2022-09-19 故障根因定位方法、装置、***、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115550139B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610667B (zh) * 2024-01-17 2024-04-26 湖南傲思软件股份有限公司 基于开源大模型的故障处置专家***、方法和计算机设备
CN117596126B (zh) * 2024-01-19 2024-03-26 合肥先进计算中心运营管理有限公司 一种针对高性能集群中高速网络异常的监控方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001804A (zh) * 2012-12-10 2013-03-27 上海斐讯数据通信技术有限公司 设备无关的告警处理方法、装置及相应的网管***
CN109684052A (zh) * 2018-12-26 2019-04-26 华为技术有限公司 事务分析方法、装置、设备及存储介质
CN111800290A (zh) * 2020-05-25 2020-10-20 华为技术有限公司 一种确定根因的方法,***以及设备
WO2021109578A1 (zh) * 2019-12-02 2021-06-10 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备
CN114430363A (zh) * 2020-10-29 2022-05-03 ***通信有限公司研究院 故障原因定位方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11520649B2 (en) * 2018-11-15 2022-12-06 International Business Machines Corporation Storage mounting event failure prediction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001804A (zh) * 2012-12-10 2013-03-27 上海斐讯数据通信技术有限公司 设备无关的告警处理方法、装置及相应的网管***
CN109684052A (zh) * 2018-12-26 2019-04-26 华为技术有限公司 事务分析方法、装置、设备及存储介质
WO2021109578A1 (zh) * 2019-12-02 2021-06-10 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备
CN111800290A (zh) * 2020-05-25 2020-10-20 华为技术有限公司 一种确定根因的方法,***以及设备
CN114430363A (zh) * 2020-10-29 2022-05-03 ***通信有限公司研究院 故障原因定位方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
探索基于AI技术的互联网智能运维新模式;符苗;孙敬东;;电信工程技术与标准化(第04期);全文 *

Also Published As

Publication number Publication date
CN115550139A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN115550139B (zh) 故障根因定位方法、装置、***、电子设备及存储介质
CN112073208B (zh) 一种告警分析方法、装置、芯片***、存储介质
CN110351118B (zh) 根因告警决策网络构建方法、装置和存储介质
CN113381890B (zh) 告警信息关联方法、装置、电子设备和可读存储介质
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN113497726B (zh) 告警监控方法、***、计算机可读存储介质及电子设备
CN114389940A (zh) 故障恢复预案确定方法、装置及***、计算机存储介质
CN113542039A (zh) 一种通过ai算法定位5g网络虚拟化跨层问题的方法
US20230132116A1 (en) Prediction of impact to data center based on individual device issue
CN116361059B (zh) 一种银行业务异常根因诊断方法及诊断***
CN111756560A (zh) 一种数据处理方法、装置及存储介质
CN114969366A (zh) 一种网络故障的分析方法、装置及设备
US20210359899A1 (en) Managing Event Data in a Network
CN116800586A (zh) 一种电信网络数据通信故障诊断方法
CN113962273B (zh) 一种基于多指标的时间序列异常检测方法、***及存储介质
CN114401516A (zh) 一种基于虚拟网络流量分析的5g切片网络异常检测方法
CN111628888B (zh) 一种故障诊断方法、装置、设备及计算机存储介质
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN110582091B (zh) 定位无线质量问题的方法和装置
CN114205214B (zh) 一种电力通信网络故障识别方法、装置、设备及存储介质
CN113572639B (zh) 一种载波网络故障的诊断方法、***、设备和介质
CN114138750B (zh) 一种基于ai咨询数据库集群搭建方法和***
CN114548769B (zh) 一种智能电网it资产大数据监测***及方法
JP7173273B2 (ja) 障害分析装置、障害分析方法および障害分析プログラム
CN116522213A (zh) 业务状态级别分类及分类模型训练方法、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant