CN115344449A - 一种告警分析方法、装置、设备及存储介质 - Google Patents

一种告警分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115344449A
CN115344449A CN202110531594.9A CN202110531594A CN115344449A CN 115344449 A CN115344449 A CN 115344449A CN 202110531594 A CN202110531594 A CN 202110531594A CN 115344449 A CN115344449 A CN 115344449A
Authority
CN
China
Prior art keywords
alarm
real
source
time
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110531594.9A
Other languages
English (en)
Inventor
骆似骏
吴逊
刘存
柳淑婷
潘宇
刘乡瑜
刘倩
王振志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110531594.9A priority Critical patent/CN115344449A/zh
Publication of CN115344449A publication Critical patent/CN115344449A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种告警分析方法、装置、设备及存储介质,涉及运维告警技术领域,方法包括获取实时告警检测数据;对所述实时告警检测数据进行特征提取,获得实时告警特征;根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警;根据所述源头告警和所述联动告警,获得告警分析结果。本发明解决了现有技术存在告警信息不直观的问题,实现了实现告警收敛和压缩,快速定位根因告警的效果。

Description

一种告警分析方法、装置、设备及存储介质
技术领域
本发明涉及运维告警技术领域,尤其涉及一种告警分析方法、装置、设备及存储介质。
背景技术
随着运营商业务***的不断演进,新业务的不断上线,业务***规模日趋庞大,复杂性不断增加,运维难度也不断增大。随着大数据、人工智能等新技术不断投入运维告警,已经可以实现先于用户发现故障问题,及时介入处理,但目前运营商业务***采用的运维告警方法,还存在一些问题,当告警风暴问题严重时,由于告警信息不直观,导致故障定位困难,增加了运维人员排查工作量,且费时费力。
发明内容
本发明的主要目的在于:提供一种告警分析方法、装置、设备及存储介质,旨在解决现有运营商业务***采用的运维告警方法存在告警信息不直观的技术问题。
为实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供了一种告警分析方法,所述方法包括以下步骤:
获取实时告警检测数据;
对所述实时告警检测数据进行特征提取,获得实时告警特征;
根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,其中,所述告警关系规则库根据历史告警检测数据的告警关联关系获得;
根据所述源头告警和所述联动告警,获得告警分析结果。
可选地,上述告警分析方法中,所述根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警的步骤之前,所述方法还包括:
获取历史告警检测数据;
对所述历史告警检测数据进行特征提取,获得历史告警特征;
根据密度聚类算法,将所述历史告警特征聚类为多个簇集合;
在每个所述簇集合中,根据关联规则算法,获得告警关联规则,以构建告警数据对;
根据所述多个簇集合的告警数据对,构建告警血缘关系图谱,以获得告警关系规则库。
可选地,上述告警分析方法中,所述在每个所述簇集合中,根据关联规则算法,获得告警关联规则,以构建告警数据对的步骤,具体包括:
在每个所述簇集合中,利用关联规则算法对所述簇集合进行扫描,获得频繁项集;
根据所述频繁项集,获得告警关联规则;
根据所述告警关联规则,构建包括主次关系的告警数据对。
可选地,上述告警分析方法中,所述根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警的步骤之后,所述方法还包括:
基于所述源头告警与所述联动告警的血缘关系,判断所述联动告警相对于所述源头告警的告警延时是否大于预设阈值;
若有联动告警的告警延时大于预设阈值,则对所述联动告警进行收敛。
可选地,上述告警分析方法中,所述根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警的步骤之后,所述方法还包括:
基于所述源头告警与所述联动告警的血缘关系,对所述源头告警和所述联动告警进行标注,并发送至所述告警关系规则库,以更新所述告警关系规则库。
可选地,上述告警分析方法中,所述根据所述源头告警和所述联动告警,获得告警分析结果的步骤之后,所述方法还包括:
将所述告警分析结果发送至上位机,以进行告警提示。
可选地,上述告警分析方法中,所述对所述实时告警检测数据进行特征提取,获得实时告警特征的步骤,具体包括:
对所述实时告警检测数据进行过滤处理,以消除噪声干扰;
提取过滤后的实时告警检测数据中的告警主体信息,以构建告警主体依赖图谱;
基于所述告警主体依赖图谱,对所述过滤后的实时告警检测数据进行特征提取,获得实时告警特征。
第二方面,本发明提供了一种告警分析装置,所述装置包括:
数据获取模块,用于获取实时告警检测数据;
特征提取模块,用于对所述实时告警检测数据进行特征提取,获得实时告警特征;
告警分析模块,用于根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,其中,所述告警关系规则库根据历史告警检测数据的告警关联关系获得;
分析结果模块,用于根据所述源头告警和所述联动告警,获得告警分析结果。
第三方面,本发明提供了一种告警分析设备,所述设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上述的告警分析方法。
第四方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序可被一个或多个处理器执行,以实现如上述的告警分析方法。
本发明提供的上述一个或多个技术方案,可以具有如下优点或至少实现了如下技术效果:
本发明提出的一种告警分析方法、装置、设备及存储介质,通过对实时告警检测数据进行特征提取,获得实时告警特征,根据告警关系规则库,对实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,实现告警根因定位,再根据源头告警和联动告警,获得告警分析结果,直观地展示给运维人员,及时采取故障措施,防止发生更大的;该方法可快速定位根因告警,实现告警收敛和压缩,缓解告警风暴,提高派单准确率和处理效率。并且,根据历史告警检测数据的告警关联关系获得告警关系规则库,可自动发现潜在的告警关联关系,并不断更新该告警关系规则库,进一步提升告警分析的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的这些附图获得其他的附图。
图1为本发明告警分析方法第一实施例的流程示意图;
图2为本发明涉及的告警分析设备的硬件结构示意图;
图3为本发明告警分析方法第二实施例的流程示意图;
图4为本发明告警分析装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,在本发明中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。另外,在本发明中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。另外,各个实施例的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
对现有技术的分析发现,随着运营商业务***的不断演进,新业务的不断上线,业务***规模日趋庞大,复杂性不断增加,运维难度也不断增大。如何先于用户发现问题,提前介入处理,从而避免异常蔓延,提升用户感知,成为运营商业务***运维的困扰。随着大数据、人工智能等新技术不断投入运维告警,已经可以实现先于用户发现故障问题,并带来了不错的效果,不仅能及时反馈运维问题,给出相应判断建议,还可以解放工作量,提高运维效率。但目前运营商业务***在运维告警时采用的传统手段还存在以下问题:
1.告警风暴问题严重:告警数量日益增大,告警风暴频发,虽然做了同一对象的重复告警的压缩,但无法对同源告警进行收敛,关键告警信息被淹没在大量冗余告警信息中,难以及时发现并处理;
2.故障定位效率难以保障:***结构日趋复杂,出现故障需依靠人工经验及预设规则排查,费时费力,有时还需多部门协同,故障定位和处理效率难以保障;
3.告警风暴问题严重时,由于告警信息不直观,导致故障定位更加困难,增加了运维人员的排查工作量。
鉴于现有运营商业务***采用的运维告警方法存在告警信息不直观的技术问题,本发明提供了一种告警分析方法,总体思路如下:
获取实时告警检测数据;对所述实时告警检测数据进行特征提取,获得实时告警特征;根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,其中,所述告警关系规则库根据历史告警检测数据的告警关联关系获得;根据所述源头告警和所述联动告警,获得告警分析结果。
通过上述技术方案,对实时告警检测数据进行特征提取,获得实时告警特征,根据告警关系规则库,对实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,实现告警根因定位,再根据源头告警和联动告警,获得告警分析结果,直观地展示给运维人员,及时采取故障措施,防止发生更大的;该方法可快速定位根因告警,实现告警收敛和压缩,缓解告警风暴,提高派单准确率和处理效率。并且,根据历史告警检测数据的告警关联关系获得告警关系规则库,可自动发现潜在的告警关联关系,并不断更新该告警关系规则库,进一步提升告警分析的准确性。
实施例一
参照图1的流程示意图,提出本发明告警分析方法的第一实施例,该告警分析方法应用于告警分析设备。
所述告警分析设备是指能够实现网络连接的终端设备或网络连接设备,所述计算机设备可以是手机、电脑、平板电脑、嵌入式工控机等终端设备,也可以是服务器等网络设备。
如图2所示,为告警分析设备的硬件结构示意图。所述设备可以包括:处理器1001,例如CPU(Central Processing Unit,中央处理器),通信总线1002,用户接口1003,网络接口1004,存储器1005。
本领域技术人员可以理解,图2中示出的硬件结构并不构成对本发明告警分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
具体的,通信总线1002用于实现这些组件之间的连接通信;
用户接口1003用于连接客户端,与客户端进行数据通信,用户接口1003可以包括输出单元,如显示屏、输入单元,如键盘,可选的,用户接口1003还可以包括其他输入/输出接口,比如标准的有线接口、无线接口;
网络接口1004用于连接后台服务器,与后台服务器进行数据通信,网络接口1004可以包括输入/输出接口,比如标准的有线接口、无线接口,如Wi-Fi接口;
存储器1005用于存储各种类型的数据,这些数据例如可以包括该设备中任何应用程序或方法的指令,以及应用程序相关的数据,存储器1005可以是高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器,可选的,存储器1005还可以是独立于所述处理器1001的存储装置;
具体的,继续参照图2,存储器1005中可以包括操作***、网络通信模块、用户接口模块以及计算机程序,其中,网络通信模块主要用于连接服务器,与服务器进行数据通信;
处理器1001用于调用存储器1005中存储的计算机程序,并执行以下操作:
获取实时告警检测数据;
对所述实时告警检测数据进行特征提取,获得实时告警特征;
根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,其中,所述告警关系规则库根据历史告警检测数据的告警关联关系获得;
根据所述源头告警和所述联动告警,获得告警分析结果。
基于上述的告警分析设备,下面结合图1所示的流程示意图,对本实施例的告警分析方法进行详细描述。
所述方法可以包括以下步骤:
步骤S10:获取实时告警检测数据;
具体的,运营商业务***在运行过程中,当其中某个网元设备存在故障无法发出信号时,与其关联的其他网元设备由于无法接收对应的信号,也会影响预设告警规则,进行连带告警,由于***中可能不止一个故障原因,也可能不止一个设备出现故障,因此就造成了告警风暴。而在这告警风暴中,运维人员很难直接从中知晓故障根因,因此需要对这些告警进行分析。可以通过独立的告警分析设备进行,也可以在业务***中设置虚拟装置进行告警分析,具体可以根据实际情况设定。
当业务***出现故障时,将实时告警检测数据发送到告警分析设备,告警分析设备获取实时告警检测数据。该实时告警检测数据包括告警信号、告警发生时间、产生告警的告警主体信息,即告警发生设备的属性信息。由于业务***可以是实体网元设备构成,也可以是实体网元设备的虚拟节点构成,因此,该告警发生设备可以是实体设备,也可以是虚拟节点。
步骤S30:对所述实时告警检测数据进行特征提取,获得实时告警特征;
具体的,可以根据实时告警检测数据中的告警主体信息解析既有拓扑,再构建告警主体依赖图谱,然后基于该依赖图谱对实时告警检测数据进行特征提取,获得实时告警特征,实时告警特征具体可以是时序特征,以从告警时间维度对实时告警检测数据进行分析。
步骤S50:根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,其中,所述告警关系规则库根据历史告警检测数据的告警关联关系获得;
具体的,结合告警关系规则库,对实时告警特征进行血缘关系检测,以进行实时告警根因定位,追溯到最源头表,获取源头告警以及与所述源头告警相关的联动告警。还可以基于源头告警与联动告警的血缘关系,根据最源头表延迟情况,判断联动告警的告警时间是否存在延后,对相关告警进行收敛,实现告警收敛和压缩,减少检测结果复杂度,以更直观展示给运维人员。
步骤S70:根据所述源头告警和所述联动告警,获得告警分析结果。
具体的,获得源头告警与联动告警之后,将结果进行整合,获得收敛后的告警分析结果,并推送给运维人员,比如,提供给***、监控平台等方式发送给运维人员,以提醒运维人员本次告警风暴中源头告警的具体信息,以便运维人员针对该源头告警采取措施。
本实施例提供的告警分析方法,通过对实时告警检测数据进行特征提取,获得实时告警特征,根据告警关系规则库,对实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,实现告警根因定位,再根据源头告警和联动告警,获得告警分析结果,直观地展示给运维人员,及时采取故障措施,防止发生更大的;该方法可快速定位根因告警,实现告警收敛和压缩,缓解告警风暴,提高派单准确率和处理效率。并且,根据历史告警检测数据的告警关联关系获得告警关系规则库,可自动发现潜在的告警关联关系,并不断更新该告警关系规则库,进一步提升告警分析的准确性。
实施例二
基于同一发明构思,参照图3,提出本发明告警分析方法的第二实施例,该告警分析方法应用于告警分析设备。
下面结合图3所示的流程示意图,对本实施例的告警分析方法进行详细描述。
所述方法可以包括以下步骤:
步骤S10:获取实时告警检测数据,
在具体实施过程中,当业务***出现故障时,将实时告警检测数据发送到告警分析设备,告警分析设备获取实时告警检测数据。该实时告警检测数据包括告警信号、告警发生时间、产生告警的告警主体信息,即告警发生设备的属性信息。由于业务***可以是实体网元设备构成,也可以是实体网元设备的虚拟节点构成,因此,该告警发生设备可以是实体设备,也可以是虚拟节点。
步骤S30:对所述实时告警检测数据进行特征提取,获得实时告警特征。
进一步地,所述步骤S30,可以包括:
步骤S31:对所述实时告警检测数据进行过滤处理,以消除噪声干扰。
在具体实施过程中,可以对获取到的实时告警检测数据进行过滤处理,过滤掉无用数据或重复数据,以消除噪声干扰,比如,可以先对实时告警检测数据中的无价值告警或告警干扰项进行去除,也可以对故障未解决时,反复发送的同一类型的告警数据进行去除,还可以对过滤后的数据进行归一化处理,按照告警标题或类型进行,将不再预设告警标题或类型中的其他告警数据单独提取,防止其干扰本次的告警分析。
步骤S32:提取过滤后的实时告警检测数据中的告警主体信息,以构建告警主体依赖图谱。
在具体实施过程中,根据过滤后的实时告警检测数据中各个告警对应的告警主体信息,解析其既有拓扑,以构建业务***中各个告警主体之间的依赖图谱,可视化管理本次告警风暴中涉及的网元设备,可以防止将不同设备产生的同一种告警归为一个簇集合,避免影响最终结果的准确度。
步骤S33:基于所述告警主体依赖图谱,对所述过滤后的实时告警检测数据进行特征提取,获得实时告警特征。
在具体实施过程中,基于告警主体之间的依赖图谱对实时告警检测数据进行特征提取,获得实时告警特征,实时告警特征具体可以是基于告警主体依赖图谱的时序特征,以从告警时间维度对实时告警检测数据进行分析。
结合网元设备的依赖关系,可以针对有具体依赖关系的网元设备间产生的告警对应的告警数据进行特征提取,方便针对可能同时发生两种故障分别进行告警根因分析。
在上述步骤之后,可以按顺序执行如下步骤S40,以根据获得的告警关系规则库对所述实时告警特征进行血缘关系检测;也可以步骤S40为独立执行的步骤分支,从而实现告警关系规则库的建立。
步骤S40:根据历史告警检测数据的告警关联关系获得告警关系规则库。
进一步地,所述步骤S40,可以包括:
步骤S41:获取历史告警检测数据。
在具体实施过程中,运营商建设的大数据平台中,已经存储了大量的告警数据,以这些历史告警检测数据作为训练数据集,进行告警关系规则库的训练。实际中,在每次告警分析结束后,还可以将当时的实时告警数据合并到历史告警数据中,继续对告警关系规则库进行迭代训练,以更新告警关系规则库,提高准确度。
步骤S42:对所述历史告警检测数据进行特征提取,获得历史告警特征。
在具体实施过程中,对历史告警检测数据进行过滤处理,以消除噪声干扰,再提取过滤后的历史告警检测数据中的告警主体信息,以构建成圣历史告警检测数据对应的告警主体之间的依赖图谱,从而基于该依赖图谱,对过滤后的历史告警检测数据进行特征提取,获得历史告警特征,比如,基于告警主体依赖图谱的时序特征。
步骤S43:根据密度聚类算法,将所述历史告警特征聚类为多个簇集合。
在具体实施过程中,从告警时间维度对历史告警检测数据进行密度聚类,从密度聚类算法的聚类效果、调参难度、运行速度等维度综合比较后,本实施例采用DBSCAN算法(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的空间聚类算法),通过该算法获得各个告警的密度可达关系,从而导出最大密度相连的样本集合,作为簇集合。
DBSCAN算法是一种基于密度的空间聚类算法,该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。
具体实施时,以历史告警特征为输入,将一个告警视为一个点,基于历史告警特征的时序特征进行聚类,先确定两个参数,扫描半径(epsilon),是在一个点周围邻近区域的半径,以及最小包含点数(minPts),是邻近区域内至少包含点的个数,具体根据实际情况设定。然后将其中的所有点分为三类,核点(Core Point):满足NBHD(p,epsilon)≥minPts,则为核样本点;边缘点(Border Point):NBHD(p,epsilon)<minPts,但是该点可由一些核点获得(density-reachable或者directly-reachable);离群点(Outlier):既不是核点也不是边缘点,则是不属于这一类的点。再基于上述分类,搜索历史告警特征的核心对象集,对核心对象集进行密度聚类,从而输出聚类簇集合划分,即可以获得多个簇集合。
步骤S44:在每个所述簇集合中,根据关联规则算法,获得告警关联规则,以构建告警数据对。
更进一步地,所述步骤S44,可以包括:
步骤S44.1:在每个所述簇集合中,利用关联规则算法对所述簇集合进行扫描,获得频繁项集;
步骤S44.2:根据所述频繁项集,获得告警关联规则;
步骤S44.3:根据所述告警关联规则,构建包括主次关系的告警数据对。
步骤S45:根据所述多个簇集合的告警数据对,构建告警血缘关系图谱,以获得告警关系规则库。
在具体实施过程中,在每个所述簇集合中,利用关联规则算法寻找告警之间的关联关系,构建二元告警数据对之间的主次关系,并按照告警主体所属分类进一步聚合和泛化。具体可以采用关联分析算法(Apriori算法),首先指定最小支持度和最小置信度,Apriori算法利用逐层搜索的迭代方法找出簇集合中告警项集的关系,以形成规则,其过程由连接与剪枝组成。项集的概念即为告警的集合。具体实现过程为,挖掘满足支持度不小于最小支持度的频繁项集,根据频繁项集产生置信度大于最小置信度的用户感兴趣的关联规则,即告警关联规则,便得到有强规则的项集,即告警的关联性。获得告警关联规则后,针对告警关联性构建包括主次关系的告警数据对,针对簇集合中多个项集,可以得到每个簇集合中的多个告警数据对,从而基于潜在告警因果关系挖掘,固化标准告警血缘关系,构建告警血缘关系图谱,以获得告警关系规则库,实现以图谱方式对告警血缘关系进行可视化展示。
针对批量获取的历史告警数据,采用大数据与机器学习技术对告警数据进行分析建模,实现告警规则动态挖掘,发现告警数据潜在关联关系,生成告警关系规则库,后续直接使用该告警关系规则库进行血缘关系检测,提高了检测效率。
步骤S50:根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,其中,所述告警关系规则库根据历史告警检测数据的告警关联关系获得。
在具体实施过程中,结合步骤S40获得的告警关系规则库,对实时告警特征进行血缘关系检测,以进行实时告警根因定位,追溯到最源头表,获取源头告警以及与所述源头告警相关的联动告警。
利用数据血缘关系的理念,体现告警之间的血缘关系。数据的血缘关系,体现了数据的来龙去脉,能帮助我们追踪数据的来源,追踪数据处理过程。在数据的血缘关系可视化图形上,数据来源节点可以直观地体现数据最源头。数据经过了哪些转换也能从可视化图形上看出来,对异常数据产生原因的分析帮助很大。本实施例将提取告警之间的血缘关系,追溯源头,得到源头告警,以及依次与之关联的一个或多个联动告警,比如,告警A为源头告警,则与告警A关联的告警B为联动告警,与告警B关联的告警C也为联动告警,与告警A关联的告警D也为联动告警,因此,这就存在可能一个源头告警有多个联动告警的情况,对于这种情况,继续采用步骤S60进行联动告警收敛即可。
步骤S60:根据联动告警相对于源头告警的告警延时,对所述联动告警进行收敛。
进一步地,所述步骤S60,可以包括:
步骤S61:基于所述源头告警与所述联动告警的血缘关系,判断所述联动告警相对于所述源头告警的告警延时是否大于预设阈值。
步骤S62:若有联动告警的告警延时大于预设阈值,则对所述联动告警进行收敛。
在具体实施过程中,基于源头告警与联动告警的血缘关系,根据最源头表延迟情况,判断联动告警的告警时间是否存在延后,并判断联动告警相对于源头告警的告警延时是否大于预设阈值,对于延后太多的告警,明显不会是本次告警分析的故障原因,因此没有必要展示给运维人员。则对这些告警延时大于预设阈值的联动告警进行收敛,实现告警收敛和压缩,减少检测结果复杂度,以更直观展示给运维人员。
步骤S70:根据所述源头告警和所述联动告警,获得告警分析结果。
在具体实施过程中,源头告警和一个或多个联动告警还是图结构连接关系,并不是最终的告警分析结果,因此,将图结构的源头告警和联动告警转换为直观地分析结果,比如,输出的结果为,依次显示告警A引起告警B,告警A引起告警C,告警B引起告警C,按照源头告警和联动告警的血缘关系依次排列,还可以设置告警分析结果的显示数量,获得收敛后的告警分析结果,以更直观地显示给运维人员。
步骤S80:将所述告警分析结果发送至上位机,以进行告警提示。
在具体实施过程中,在实际中,由于告警分析设备可以是独立的设备,也可以是运营商业务***中的一个虚拟装置或模块,因此,获得告警分析结果后,可能无法提示运维人员,实现告警的目的,因此,还可以将获得的告警分析结果发送至上位机,推送给运维人员,比如,通过***、监控平台等方式发送给运维人员,以提醒运维人员本次告警风暴中源头告警和联动告警的具体信息,以便运维人员针对该源头告警采取措施。同时提供联动告警的目的是,当运维人员在源头告警对应的设备无法查到故障原因所在时,可以从联动告警对应的设备中查找原因,相比只有一个源头告警的分析结果来说,更有实际应用性,提高了派单准确率和处理效率。
步骤S90:根据所述源头告警及所述联动告警,更新所述告警关系规则库。
步骤S91:基于所述源头告警与所述联动告警的血缘关系,对所述源头告警和所述联动告警进行标注,并发送至所述告警关系规则库,以更新所述告警关系规则库。
在具体实施过程中,将告警分析结果标注并反馈至步骤S40中,以继续对告警关系规则库进行模型迭代训练,提高了告警关系规则库的构建效率和准确率。
本实施例提供的告警分析方法,告警关系规则库以图谱方式对告警血缘关系进行可视化展示,直观了解血缘关系;通过告警血缘关系匹配告警实际处理结果,自动优化告警数据血缘关系,使告警分析结果更加准确;利用告警关系规则库进行告警血缘关系的检测,实现告警收敛和压缩,基于血缘分析快速定位告警根因,提高了运维人员的故障处理效率。
实施例三
基于同一发明构思,参照图4,提出本发明告警分析装置的第一实施例,该告警分析装置可以为虚拟装置,应用于告警分析设备。
下面结合图4所示的功能模块示意图,对本实施例提供的告警分析装置进行详细描述,所述装置可以包括:
数据获取模块,用于获取实时告警检测数据;
特征提取模块,用于对所述实时告警检测数据进行特征提取,获得实时告警特征;
告警分析模块,用于根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,其中,所述告警关系规则库根据历史告警检测数据的告警关联关系获得;
分析结果模块,用于根据所述源头告警和所述联动告警,获得告警分析结果。
更进一步地,所述特征提取模块,可以包括:
预处理子模块,用于对所述实时告警检测数据进行过滤处理,以消除噪声干扰;
图构建子模块,用于提取过滤后的实时告警检测数据中的告警主体信息,以构建告警主体依赖图谱;
特征提取子模块,用于基于所述告警主体依赖图谱,对所述过滤后的实时告警检测数据进行特征提取,获得实时告警特征。
进一步地,所述装置还可以包括:
告警关系规则库建立模块,用于根据历史告警检测数据的告警关联关系获得告警关系规则库。
更进一步地,所述告警关系规则库建立模块,可以包括:
训练数据获取子模块,用于获取历史告警检测数据。
告警特征获取子模块,用于对所述历史告警检测数据进行特征提取,获得历史告警特征。
聚类子模块,用于根据密度聚类算法,将所述历史告警特征聚类为多个簇集合。
告警数据对子模块,用于在每个所述簇集合中,根据关联规则算法,获得告警关联规则,以构建告警数据对。
血缘关系图谱获取子模块,用于根据所述多个簇集合的告警数据对,构建告警血缘关系图谱,以获得告警关系规则库。
更进一步地,所述告警数据对子模块,可以包括:
频繁项集获取单元,用于在每个所述簇集合中,利用关联规则算法对所述簇集合进行扫描,获得频繁项集;
告警关联规则获取单元,用于根据所述频繁项集,获得告警关联规则;
告警数据对获取单元,用于根据所述告警关联规则,构建包括主次关系的告警数据对。
进一步地,所述装置还可以包括:
联动告警收敛模块,根据联动告警相对于源头告警的告警延时,对所述联动告警进行收敛。
更进一步地,所述联动告警收敛模块,可以包括:
告警延时判断子模块,用于基于所述源头告警与所述联动告警的血缘关系,判断所述联动告警相对于所述源头告警的告警延时是否大于预设阈值;
联动告警收敛子模块,用于若有联动告警的告警延时大于预设阈值,则对所述联动告警进行收敛。
进一步地,所述装置还可以包括:
告警关系规则库更新模块,用于基于所述源头告警与所述联动告警的血缘关系,对所述源头告警和所述联动告警进行标注,并发送至所述告警关系规则库,以更新所述告警关系规则库。
进一步地,所述装置还可以包括:
告警提示模块,用于将所述告警分析结果发送至上位机,以进行告警提示。
需要说明,本实施例提供的告警分析装置中各个模块可实现的功能和对应达到的技术效果可以参照本发明告警分析方法各个实施例中具体实施方式的描述,为了说明书的简洁,此处不再赘述。
实施例四
基于同一发明构思,参照图2,为本发明各实施例涉及的告警分析设备的硬件结构示意图。本实施例提供了一种告警分析设备,所述设备可以包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现本发明告警分析方法各个实施例的全部或部分步骤。
具体的,所述告警分析设备是指能够实现网络连接的终端设备或网络连接设备,可以是手机、电脑、平板电脑、便携计算机等终端设备,也可以是服务器、云平台等网络设备。
可以理解,所述设备还可以包括通信总线,用户接口和网络接口。
其中,通信总线用于实现这些组件之间的连接通信。
用户接口用于连接客户端,与客户端进行数据通信,用户接口可以包括输出单元,如显示屏、输入单元,如键盘,可选的,用户接口还可以包括其他输入/输出接口,比如标准的有线接口、无线接口。
网络接口用于连接后台服务器,与后台服务器进行数据通信,网络接口可以包括输入/输出接口,比如标准的有线接口、无线接口,如Wi-Fi接口。
存储器用于存储各种类型的数据,这些数据例如可以包括该设备中任何应用程序或方法的指令,以及应用程序相关的数据。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘,可选的,存储器还可以是独立于所述处理器的存储装置。
处理器用于调用存储器中存储的计算机程序,并执行如上述的告警分析方法的各个实施例的全部或部分步骤,处理器可以是专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field ProgrammableGate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件,用于执行如上述告警分析方法各个实施例的全部或部分步骤。
实施例五
基于同一发明构思,本实施例提供了一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,所述存储介质上存储有计算机程序,所述计算机程序可被一个或多个处理器执行,所述计算机程序被处理器执行时可以实现本发明告警分析方法各个实施例的全部或部分步骤。
需要说明,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的可选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均包括在本发明的专利保护范围内。

Claims (10)

1.一种告警分析方法,其特征在于,所述方法包括以下步骤:
获取实时告警检测数据;
对所述实时告警检测数据进行特征提取,获得实时告警特征;
根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,其中,所述告警关系规则库根据历史告警检测数据的告警关联关系获得;
根据所述源头告警和所述联动告警,获得告警分析结果。
2.如权利要求1所述的告警分析方法,其特征在于,所述根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警的步骤之前,所述方法还包括:
获取历史告警检测数据;
对所述历史告警检测数据进行特征提取,获得历史告警特征;
根据密度聚类算法,将所述历史告警特征聚类为多个簇集合;
在每个所述簇集合中,根据关联规则算法,获得告警关联规则,以构建告警数据对;
根据所述多个簇集合的告警数据对,构建告警血缘关系图谱,以获得告警关系规则库。
3.如权利要求2所述的告警分析方法,其特征在于,所述在每个所述簇集合中,根据关联规则算法,获得告警关联规则,以构建告警数据对的步骤,具体包括:
在每个所述簇集合中,利用关联规则算法对所述簇集合进行扫描,获得频繁项集;
根据所述频繁项集,获得告警关联规则;
根据所述告警关联规则,构建包括主次关系的告警数据对。
4.如权利要求1所述的告警分析方法,其特征在于,所述根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警的步骤之后,所述方法还包括:
基于所述源头告警与所述联动告警的血缘关系,判断所述联动告警相对于所述源头告警的告警延时是否大于预设阈值;
若有联动告警的告警延时大于预设阈值,则对所述联动告警进行收敛。
5.如权利要求1所述的告警分析方法,其特征在于,所述根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警的步骤之后,所述方法还包括:
基于所述源头告警与所述联动告警的血缘关系,对所述源头告警和所述联动告警进行标注,并发送至所述告警关系规则库,以更新所述告警关系规则库。
6.如权利要求1所述的告警分析方法,其特征在于,所述根据所述源头告警和所述联动告警,获得告警分析结果的步骤之后,所述方法还包括:
将所述告警分析结果发送至上位机,以进行告警提示。
7.如权利要求1所述的告警分析方法,其特征在于,所述对所述实时告警检测数据进行特征提取,获得实时告警特征的步骤,具体包括:
对所述实时告警检测数据进行过滤处理,以消除噪声干扰;
提取过滤后的实时告警检测数据中的告警主体信息,以构建告警主体依赖图谱;
基于所述告警主体依赖图谱,对所述过滤后的实时告警检测数据进行特征提取,获得实时告警特征。
8.一种告警分析装置,其特征在于,所述装置包括:
数据获取模块,用于获取实时告警检测数据;
特征提取模块,用于对所述实时告警检测数据进行特征提取,获得实时告警特征;
告警分析模块,用于根据告警关系规则库,对所述实时告警特征进行血缘关系检测,获得源头告警及与所述源头告警相关的联动告警,其中,所述告警关系规则库根据历史告警检测数据的告警关联关系获得;
分析结果模块,用于根据所述源头告警和所述联动告警,获得告警分析结果。
9.一种告警分析设备,其特征在于,所述设备包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的告警分析方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序可被一个或多个处理器执行,以实现如权利要求1至7中任一项所述的告警分析方法。
CN202110531594.9A 2021-05-14 2021-05-14 一种告警分析方法、装置、设备及存储介质 Pending CN115344449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110531594.9A CN115344449A (zh) 2021-05-14 2021-05-14 一种告警分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110531594.9A CN115344449A (zh) 2021-05-14 2021-05-14 一种告警分析方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115344449A true CN115344449A (zh) 2022-11-15

Family

ID=83947059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110531594.9A Pending CN115344449A (zh) 2021-05-14 2021-05-14 一种告警分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115344449A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550156A (zh) * 2022-11-29 2022-12-30 北京天维信通科技有限公司 一种基于多租户分销的告警方法、***、终端及存储介质
CN116361059A (zh) * 2023-05-19 2023-06-30 湖南三湘银行股份有限公司 一种银行业务异常根因诊断方法及诊断***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550156A (zh) * 2022-11-29 2022-12-30 北京天维信通科技有限公司 一种基于多租户分销的告警方法、***、终端及存储介质
CN116361059A (zh) * 2023-05-19 2023-06-30 湖南三湘银行股份有限公司 一种银行业务异常根因诊断方法及诊断***
CN116361059B (zh) * 2023-05-19 2023-08-08 湖南三湘银行股份有限公司 一种银行业务异常根因诊断方法及诊断***

Similar Documents

Publication Publication Date Title
US11522769B1 (en) Service monitoring interface with an aggregate key performance indicator of a service and aspect key performance indicators of aspects of the service
US11853361B1 (en) Performance monitoring using correlation search with triggering conditions
US11531679B1 (en) Incident review interface for a service monitoring system
US10503745B2 (en) Creating an entity definition from a search result set
US9753961B2 (en) Identifying events using informational fields
US9838280B2 (en) Creating an entity definition from a file
CN106156350A (zh) 一种可视化大数据分析方法及***
CN115344449A (zh) 一种告警分析方法、装置、设备及存储介质
EP2975538A1 (en) Computer-implemented method and apparatus for determining relevance of a node in a network
US20160104090A1 (en) State determination using per-entity thresholds
CN113409555A (zh) 一种基于物联网的实时报警联动方法及***
CN117171244A (zh) 基于数据中台构建的企业数据管理***及其数据分析方法
US11831521B1 (en) Entity lifecycle management in service monitoring system
US12021698B1 (en) Entity retirement in service monitoring system
US20240028822A1 (en) Contextual answer generation in spreadsheets
CN116975367A (zh) 一种数据关系的处理方法、装置、电子设备及存储介质
CN116795893A (zh) 一种数据检索方法、装置、电子设备以及介质
CN118055050A (zh) 意图的处理方法、装置、存储介质及电子装置
CN117539672A (zh) 一种故障处理方法、装置、电子设备及存储介质
CN116600326A (zh) 网络拓扑图生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination