CN116055291A - 节点的异常提示信息的确定方法、装置 - Google Patents

节点的异常提示信息的确定方法、装置 Download PDF

Info

Publication number
CN116055291A
CN116055291A CN202211733292.0A CN202211733292A CN116055291A CN 116055291 A CN116055291 A CN 116055291A CN 202211733292 A CN202211733292 A CN 202211733292A CN 116055291 A CN116055291 A CN 116055291A
Authority
CN
China
Prior art keywords
abnormal
monitoring data
nodes
abnormality
prompt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211733292.0A
Other languages
English (en)
Inventor
钱仁卫
顾斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinsaiyun Computing Technology Co ltd
Original Assignee
Shanghai Xinsaiyun Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinsaiyun Computing Technology Co ltd filed Critical Shanghai Xinsaiyun Computing Technology Co ltd
Priority to CN202211733292.0A priority Critical patent/CN116055291A/zh
Publication of CN116055291A publication Critical patent/CN116055291A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种节点的异常提示信息的确定方法、装置,该方法包括:获取N个节点的监控数据;在N个节点的监控数据中包括异常监控数据的情况下,确定对异常监控数据触发异常提示的异常触发规则;在预设时间段内触发异常提示的次数大于预设值,和/或,异常监控数据对应的异常节点是M个节点中的父节点的情况下,将异常触发规则的状态设置为抑制状态;基于抑制状态确定对异常监控数据触发的目标异常提示信息。采用本发明方法,解决了相关技术中存在的节点异常的排障效率较低的问题,达到了提高节点异常的排障效率以及精准确定异常提示的影响范围的效果。

Description

节点的异常提示信息的确定方法、装置
技术领域
本发明实施例涉及计算机领域,具体而言,涉及一种节点的异常提示信息的确定方法、装置。
背景技术
随着云技术的快速发展,各类公有云和私有云层出不穷,且为了提高云产品的可用性、稳定性以及用户体验,监控***是不可或缺的,它不仅可以帮助数据中心监控硬件、基础设施软件平台的异常情况,还可以通过设置的通讯媒介(例如,短信、邮件、语音电话、社交通讯软件等)发送预警消息或告警消息。
相关技术中,监控***中对各个节点所设置的各个监控预警规则是相互独立的,各个监控预警规则之间并无关联,因此,在监控预警规则被触发的情况下是无法判定该监控预警规则的影响范围,且可能会重复发送监控预警规则被触发的预警消息或告警消息。
针对相关技术中存在的节点异常的排障效率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种节点的异常提示信息的确定方法、装置,以至少解决相关技术中存在的节点异常的排障效率较低的问题。
根据本发明的一个实施例,提供了一种节点的异常提示信息的确定方法,包括:获取N个节点的监控数据,其中,N个上述节点之间存在关联关系,上述N是大于1的自然数;在N个上述节点的监控数据中包括异常监控数据的情况下,确定对上述异常监控数据触发异常提示的异常触发规则;在预设时间段内触发上述异常提示的次数大于预设值,和/或,上述异常监控数据对应的异常节点是M个上述节点中的父节点的情况下,将上述异常触发规则的状态设置为抑制状态,其中,上述抑制状态用于抑制上述异常提示的发送次数,其中,1≤M≤N;基于上述抑制状态确定对上述异常监控数据触发的目标异常提示信息,其中,上述目标异常提示信息中包括上述异常节点的信息和上述异常节点与M个上述节点之间的关联信息。
在一个示例性实施例中,上述在N个上述节点的监控数据中包括异常监控数据的情况下,确定对上述异常监控数据触发异常提示的异常触发规则之前,上述方法还包括:基于N个上述节点的端口信息和预设监控数据配置上述异常触发规则,其中,上述预设监控数据中包括用于表示N个上述节点运行正常的数据。
在一个示例性实施例中,上述在预设时间段内触发上述异常提示的次数大于预设值,和/或,上述异常监控数据对应的异常节点是M个上述节点中的父节点的情况下,将上述异常触发规则的状态设置为抑制状态,包括:基于上述异常触发规则生成目标字符串,其中,上述目标字符串对应不同的逻辑值;利用上述目标字符串对应的逻辑值设置上述异常触发规则的抑制状态。
在一个示例性实施例中,上述基于上述抑制状态确定对上述异常监控数据触发的目标异常提示信息,包括:基于上述抑制状态停止触发上述异常提示;在上述异常监控数据包括多个,且多个上述异常监控数据的异常原因相同的情况下,将对多个上述异常监控数据触发的多个异常提示合并为一个异常提示,得到上述目标异常提示信息。
在一个示例性实施例中,上述在基于上述抑制状态确定对上述异常监控数据触发的目标异常提示信息之后,上述方法还包括:在上述异常节点包括多个,且多个上述异常节点对应的修复对象相同的情况下,将上述目标异常提示信息发送至上述修复对象;在上述异常节点包括多个,且多个上述异常节点对应的修复对象不相同的情况下,将上述目标异常提示信息发送至每个上述异常节点对应的修复对象中;其中,上述修复对象用于修复上述异常节点的异常。
在一个示例性实施例中,上述在基于上述抑制状态确定对上述异常监控数据触发的目标异常提示信息之后,上述方法还包括:将上述目标异常提示信息、上述抑制状态的抑制时长以及上述异常提示的触发次数进行存储。
在一个示例性实施例中,上述获取N个节点的监控数据,包括:获取通过目标监控设备对N个上述节点进行监控所得到的监控数据。
根据本发明的另一个实施例,提供了一种节点的异常提示信息的确定装置,包括:获取模块,用于获取N个节点的监控数据,其中,N个上述节点之间存在关联关系,上述N是大于1的自然数;第一确定模块,用于在N个上述节点的监控数据中包括异常监控数据的情况下,确定对上述异常监控数据触发异常提示的异常触发规则;设置模块,用于在预设时间段内触发上述异常提示的次数大于预设值,和/或,上述异常监控数据对应的异常节点是M个上述节点中的父节点的情况下,将上述异常触发规则的状态设置为抑制状态,其中,上述抑制状态用于抑制上述异常提示的发送次数,其中,1≤M≤N;第二确定模块,用于基于上述抑制状态确定对上述异常监控数据触发的目标异常提示信息,其中,上述目标异常提示信息中包括上述异常节点的信息和上述异常节点与M个上述节点之间的关联信息。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,其中,上述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为运行上述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取存在关联关系的N个节点的监控数据,在N个节点的监控数据中包括异常监控数据的情况下,确定对异常监控数据触发异常提示的异常触发规则,进而在预设时间段内触发异常提示的次数大于预设值,和/或,异常监控数据对应的异常节点是M个所述节点中的父节点的情况下,将异常触发规则的状态设置为用于抑制异常提示的发送次数的抑制状态,继而基于抑制状态确定对所述异常监控数据触发的目标异常提示信息。采用本发明方法,可以在预设时间段内触发异常提示的次数大于预设值,和/或,异常监控数据对应的异常节点是M个所述节点中的父节点的情况下,将异常触发规则的状态设置为用于抑制异常提示的发送次数的抑制状态,以实现减少重复发送相同异常提示的次数的目的,进一步地减少了异常响应的时延,解决了相关技术中存在的节点异常的排障效率较低的问题,达到了提高节点异常的排障效率以及精准确定异常提示的影响范围的效果。
附图说明
图1是本发明实施例的一种节点的异常提示信息的确定方法的移动终端的硬件结构框图;
图2是根据本发明实施例的节点的异常提示信息的确定方法的流程图;
图3是本发明具体实施例的一种节点的异常提示信息的确定***的处理流程图;
图4是本发明具体实施例的一种CMDB关系模型的示意图;
图5是根据本发明具体实施例的一种整体处理流程图;
图6是根据本发明实施例的一种节点的异常提示信息的确定装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种节点的异常提示信息的确定方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的节点的异常提示信息的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种节点的异常提示信息的确定方法,图2是根据本发明实施例的节点的异常提示信息的确定方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取N个节点的监控数据,其中,N个所述节点之间存在关联关系,所述N是大于1的自然数;
步骤S204,在N个节点的监控数据中包括异常监控数据的情况下,确定对异常监控数据触发异常提示的异常触发规则;
步骤S206,在预设时间段内触发异常提示的次数大于预设值,和/或,异常监控数据对应的异常节点是M个节点中的父节点的情况下,将异常触发规则的状态设置为抑制状态,其中,抑制状态用于抑制异常提示的发送次数,其中,1≤M≤N;
步骤S206,基于抑制状态确定对异常监控数据触发的目标异常提示信息,其中,目标异常提示信息中包括异常节点的信息和异常节点与M个节点之间的关联信息。
其中,执行上述操作的可以是具备数据分析能力的模块,例如,预警数据关联分析模块,或者是具备数据分析能力的设备或***,或者是设备或***中设置的控制器或处理器,还或者是单独存在的控制器或处理器,或者还可以其他的具备类似处理能力的处理设备或处理单元等。
在上述实施例中,预设时间段是可以预先设定的,可以设定为4分钟、5分钟、6分钟等,例如,当预设时间段为5分钟时,在5分钟内触发异常提示的次数大于预设值,和/或,异常监控数据对应的异常节点是M个节点中的父节点的情况下,将异常触发规则的状态设置为抑制状态,需要说明的是,上述预设时间段的举例说明仅是一种示例性实施例,预设时间段并不仅限于上述举例。
在上述实施例中,预设值是可以预先设定的,可以设定为5次、10次、15次等,例如,当预设值为10时,在预设时间段内触发异常提示的次数大于10,和/或,异常监控数据对应的异常节点是M个节点中的父节点的情况下,将异常触发规则的状态设置为抑制状态,需要说明的是,上述预设值的举例说明仅是一种示例性实施例,预设值并不仅限于上述举例。
在上述实施例中,获取存在关联关系的N个节点的监控数据,在N个节点的监控数据中包括异常监控数据的情况下,确定对异常监控数据触发异常提示的异常触发规则,进而在预设时间段内触发异常提示的次数大于预设值,和/或,异常监控数据对应的异常节点是M个所述节点中的父节点的情况下,将异常触发规则的状态设置为用于抑制异常提示的发送次数的抑制状态,继而基于抑制状态确定对所述异常监控数据触发的目标异常提示信息。采用本发明方法,可以在预设时间段内触发异常提示的次数大于预设值,和/或,异常监控数据对应的异常节点是M个所述节点中的父节点的情况下,将异常触发规则的状态设置为用于抑制异常提示的发送次数的抑制状态,以实现减少重复发送相同异常提示的次数的目的,进一步地减少了异常响应的时延,解决了相关技术中存在的节点异常的排障效率较低的问题,达到了提高节点异常的排障效率以及精准确定异常提示的影响范围的效果。
在一个示例性实施例中,在N个节点的监控数据中包括异常监控数据的情况下,确定对异常监控数据触发异常提示的异常触发规则之前,方法还包括:基于N个节点的端口信息和预设监控数据配置异常触发规则,其中,预设监控数据中包括用于表示N个节点运行正常的数据。在本实施例中,当N个节点包括但不限于交换机节点时,可以基于端口信息和预设监控数据对交换机节点的端口配置异常触发规则,当N个节点包括但不限于计算机节点时,可以基于端口信息和预设监控数据对计算机节点的CPU(Central Processing Unit,中央处理器)、内存、硬盘等配置异常触发规则,等等,需要说明的是,上述N个节点及上述异常触发规则的配置方式的举例说明仅是一种示例性实施例,N个节点及异常触发规则的配置方式并不仅限于上述举例。
在一个示例性实施例中,在预设时间段内触发异常提示的次数大于预设值,和/或,异常监控数据对应的异常节点是M个节点中的父节点的情况下,将异常触发规则的状态设置为抑制状态,包括:基于异常触发规则生成目标字符串,其中,目标字符串对应不同的逻辑值;利用目标字符串对应的逻辑值设置异常触发规则的抑制状态。在本实施例中,目标字符串对应的逻辑值可以为ture,也可以为false,例如,当目标字符串对应的逻辑值为false时,说明异常触发规则的抑制状态为关闭状态,当目标字符串对应的逻辑值为ture时,说明异常触发规则的抑制状态为开启状态,需要说明的是,上述目标字符串对应的逻辑值的举例说明仅是一种示例性实施例,目标字符串对应的逻辑值并不仅限于上述举例。
在一个示例性实施例中,基于抑制状态确定对异常监控数据触发的目标异常提示信息,包括:基于抑制状态停止触发异常提示;在异常监控数据包括多个,且多个异常监控数据的异常原因相同的情况下,将对多个异常监控数据触发的多个异常提示合并为一个异常提示,得到目标异常提示信息。在本实施例中,多个异常监控数据中包括的每个异常监控数据均会触发一次异常提示,从而导致异常响应的时延增加,因此,在确定多个异常监控数据中存在有异常原因相同的异常监控数据的情况下,将异常原因相同的异常监控数据所分别触发的异常提示合并为一个异常提示,得到目标异常提示信息,进而避免了重复发送相同异常提示的情况,进一步地优化异常提示的发送效果,有效减少异常相应的时延。
在一个示例性实施例中,在基于抑制状态确定对异常监控数据触发的目标异常提示信息之后,方法还包括:在异常节点包括多个,且多个异常节点对应的修复对象相同的情况下,将目标异常提示信息发送至修复对象;在异常节点包括多个,且多个异常节点对应的修复对象不相同的情况下,将目标异常提示信息发送至每个异常节点对应的修复对象中;其中,修复对象用于修复异常节点的异常。在本实施例中,在多个异常节点所分别对应的修复对象为同一个修复对象的情况下,将目标异常提示信息发送给该修复对象,以通知该修复对象基于目标异常提示信息对该对个异常节点的异常进行修复,进一步地的提高了的异常修复处理的效率,在多个异常节点所分别对应的修复对象为不同的修复对象的情况下,将目标目标异常提示信息发送至每个异常节点对应的修复对象中,以通知该修复对象基于对应的目标异常提示信息对相应的异常节点的异常进行修复,从而达到精准修复异常节点的效果。
在一个示例性实施例中,在基于抑制状态确定对异常监控数据触发的目标异常提示信息之后,方法还包括:将目标异常提示信息、抑制状态的抑制时长以及异常提示的触发次数进行存储。在本实施例中,将目标异常提示信息、抑制状态的抑制时长以及异常提示的触发次数进行存储,方便后续需要进行异常数据分析时,可以直接从已存储的数据中调用相关数据进行分析。
在一个示例性实施例中,获取N个节点的监控数据,包括:获取通过目标监控设备对N个节点进行监控所得到的监控数据。在本实施例中,目标监控设备可以有多个,进而可以利用多个目标监控设备对N个节点进行监控,以获取N个节点的监控数据,达到提高监控数据的获取效率的效果。另外,在该多个目标监控设备中存在有发生了故障的目标监控设备时,可以调用该多个目标监控设备中包括的有效的且空闲的目标监控设备来执行该发生了故障的目标监控设备的监控任务等,需要说明的是,目标监控设备的举例说明仅是一种示例性实施例,目标监控设备并不仅限于上述举例。
显然,上述所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。
下面结合具体实施例对本发明进行具体说明:
本申请提供了一种节点的异常提示信息的确定***,该***中包括以下4个核心模块:
1、CMDB(Configuration Management Database,配置管理数据库)模块;
2、规则引擎模块;
3、预警数据(或者是告警数据)关联分析模块;
4、预警通知模块。
本申请通过CMDB模块构建关联关系,规则引擎模块、预警数据(或者是告警数据)关联分析模块利用CMDB模块所构建的关联关系进行依赖分析。
图3是本发明具体实施例的一种节点的异常提示信息的确定***的处理流程图,如图3所示,该流程包括如下步骤:
S302,构建CMDB:创建监控项之间的关联关系;
S304,规则引擎:配置告警规则、告警规则检查;
通过规则引擎对监控项(对应于上述N个节点的监控数据)进行告警项的规则检查,例如,cpu_1min_load>10,即cpu1分钟内的负载大于10即可触发预警规则。
S306,告警数据(或者是预警数据)关联分析:分析监控项的上下游依赖、确定影响范围、实现告警抑制、收敛、降噪;
S308,告警通知:发送、记录监控告警数据(对应于上述目标异常提示信息)。
下面对节点的异常提示信息的确定***的处理过程中所涉及到的各个流程进行具体说明:
1、创建监控项之间的关联关系:
CMDB是本申请的重要前置条件,它用于管理配置信息(包括但不限于告警规则的配置信息)。在数据中心的场景下,CMDB可以用于管理硬件资产、软件配置数据:
1)网络设备资产:交换机、路由器、防火墙、IPS、IDS等;
2)服务器资产:硬件服务器、虚拟主机、存储设备等;
3)软件配置数据:服务配置文件、配置数据之间的关系等。
告警数据(或者是预警数据)关联分析模块可以通过查询CMDB获取关系数据。为了构造一个CMDB,首先要做数据库建模,图4是本发明具体实施例的一种CMDB关系模型的示意图,如图4所示,图4中的模型与模型之间的关系是通过箭头来表达的,实际上,在真实的CMDB中,模型与模型之间的关系是通过父子关系来表达的,图4中是以物理服务器、虚拟机为中心的CMDB模型,以下说明为该模型的核心关系:
1)物理服务器的上游,即parentID是网络设备;
2)物理服务器同时也属于一个企业主体;
3)物理服务器可以放置在某一个特定的机柜中;
4)物理服务器隶属于某一个项目组;
5)集群:openstack集群、k8s集群、对象存储集群等由物理服务器组成;
6)虚拟机也可以隶属于某一个项目组;
7)RocketMQ集群、kafka集群等由虚拟机组成。
在定义资产时,可通过parentID字段来找对应的依赖项,例如,如表1所示:
表1:
id name parentID
1 交换机1 NULL
2 服务器1 1
3 服务器2 1
其中,服务器1、服务器2的parentID是交换机1,当交换机1出现异常时,可以查到交换机1有2个服务器的被依赖项。
下面对模型关系进行详细说明:
1)模型关系,主要是以物理服务器模型和虚拟机模型为中心展开的;
2)物理服务器属于某个服务器厂商、属于某个硬件供应商;
3)物理服务器放置在数据中心的某个可用区下的某个机柜的某个U位;
4)物理服务器的网卡连接在上游交换机的某个网络端口;
5)交换机与交换机之间的关系:交换机与交换机之间的上下连关系;
6)集群模型,例如,openstack集群、k8s集群、对象存储集群等由物理服务器或虚拟机组成。
下面对模型关系进行举例说明:
1)交换机模型与物理服务器模型之间的关系如下所示:
Figure BDA0004032289480000121
Figure BDA0004032289480000131
2)物理服务器模型与集群模型之间的关系
Figure BDA0004032289480000132
关系型数据库mysql、图数据库neo4j都可以基于是上述的模型来建摸表达关系,在实现上面描述的关系之后,需要通过IT(Information Technology,信息技术)标准工单流程来录入交换机、物理服务器的资产数据,例如,在服务器上架之前,需要通过工单流程录入数据中心、可用区、机柜信息、连接的交换机端口、联系人信息等字段信息,通过这种方式,构建一个能够表达数据中心资产、配置数据之间关系的CMDB。
2、配置告警规则、告警规则检查:
规则引擎主要用于配置监控告警规则以及告警规则检查,下面为告警规则的设置:
Figure BDA0004032289480000141
其中,switch_port_shutdown为规则名称,{“port”:"G0/1"}是由括号组成的标签,以key-values(键值对)形式存在,1是规则检查的值。
在本申请中可以使用prometheus来监控数据中心的交换机、物理服务器,在设置好上述的规则之后,通过prometheus提供的http接口拉取监控数据,实现告警规则检查,当达到告警规则设置的阀值之后,产生一条告警消息:
Figure BDA0004032289480000142
3、分析监控项的上下游依赖、确定影响范围、实现告警抑制、收敛、降噪:
不使用本申请的告警数据(或者是预警数据)关联分析时,如果一台交换机(例如,48个网络端口的交换机等)出现故障,且大量端口异常关闭的情况下,该交换机上连接的物理服务器也会异常,此时会产生大量告警信息(包含1条交换机异常和48条物理服务器网络异常的告警信息),换言之,当收到大量的这类告警消息时,因为监控项之间的数据并无关联,运维人员花费大量时间也难以找到导致异常的原因,从而导致异常排障的效率较低。
使用本申请的告警数据关联分析时,告警数据关联分析模块通过查找CMDB来获取关联数据。
本发明具体实施例还提供了一种整体处理流程,图5是根据本发明具体实施例的一种整理处理流程图,如图5所示,该流程包括如下步骤:
S502,开始;
S504,外部监控数据源;
S506,规则引擎;
S508,从配置数据库(包括但不限于规则配置信息、抑制状态数据等)中加载配置信息;
S510,进行第一判断,以判断是否存在下游依赖项;
S512,在CMDB种查找依赖项;
S514,在上述第一判断结果为是的情况下,确定影响范围,并设置当前告警规则的抑制状态;
1)在较短的时间窗口内,例如,5分钟内多次触发告警规则,此时可设置抑制状态;
告警规则以计数方式:
“2022-12-02 10:00:00”:1,当前这个时间触发1次,计为1
“2022-12-02 10:04:58”:1,当前这个时间触发1次,计为1
查询最近5分钟内的触发次数,超过1次,即设置抑制状态:
Figure BDA0004032289480000151
Figure BDA0004032289480000161
根据以上规则生成唯一的md5字符串:EnZPCW8CZp4Db5ch0UJe6BP,设置“EnZPCW8CZp4Db5ch0UJe6BP”:true//true:表示开启抑制状态,false:表示关闭。
2)有下游依赖项的告警规则,可以设置抑制状态;
抑制状态是由预警数据关联分析模块,经过分析之后设置的,抑制状态用于记录当前告警规则的发送次数、抑制时间,进而避免短时间内重复发送告警,实现了降噪功能。
此外,若检查到当前告警规则已处于抑制状态,则记录预警信息(或者是告警信息),不发送消息。
3)通过CMDB的关联关系数据可以确定影响范围,实现告警的收敛功能(告警的收敛是利用抑制状态,当1个告警在短时间内被触发多次时,多条告警只会发送1条告警,从而优化告警数据),避免发送无效的告警S516,预警处理,发送消息;
S518,结束;
S520,在上述第一判断结果为否的情况下,进行第二判断,以判断是否存在抑制状态。在该第二判断结果为否的情况下,执行步骤S516;
S522,在上述第二判断结果为是的情况下,记录信息,抑制发送信息,并执行步骤S518。
告警数据关联分析的效果如下:
Figure BDA0004032289480000171
Figure BDA0004032289480000181
4、发送、记录监控告警数据:
经过告警数据关联分析之后,查找CMDB中交换机资产的联系人信息、受影响的物理服务器的联系人信息,执行以下操作:
1)将交换机的异常告警数据,发送给负责交换机的运维人员;
2)同时发送1条消息(当前规则被依赖的下游监控项的预警数据(或者是告警数据))通知物理服务器的运维人员(交换机的异常问题导致了物理服务器异常);
3)记录告警数据到数据库,可用于后续的告警数据分析。
由前述实施例可知,本申请通过监控预警的上下游数据关联、监控预警的影响范围、监控预警数据发送的收敛、降噪等来提高故障响应速度、减少故障响应时间、减少监控预警数据的重复发送及误报,即基于监控预警规则影响的硬件设备、软件平台、应用程序之间的依赖关联,实现监控预警的降噪、收敛以及精准确定监控预警的影响范围的目的,达到了提高异常排障的效率的效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
在本实施例中还提供了一种节点的异常提示信息的确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本发明实施例的一种节点的异常提示信息的确定装置的结构框图,如图6所示,该装置包括:
获取模块62,用于获取N个节点的监控数据,其中,N个节点之间存在关联关系,N是大于1的自然数;
第一确定模块64,用于在N个节点的监控数据中包括异常监控数据的情况下,确定对异常监控数据触发异常提示的异常触发规则;
设置模块66,用于在预设时间段内触发异常提示的次数大于预设值,和/或,异常监控数据对应的异常节点是M个节点中的父节点的情况下,将异常触发规则的状态设置为抑制状态,其中,抑制状态用于抑制异常提示的发送次数,其中,1≤M≤N;
第二确定模块68,用于基于抑制状态确定对异常监控数据触发的目标异常提示信息,其中,目标异常提示信息中包括异常节点的信息和异常节点与M个节点之间的关联信息。
在一个示例性实施例中,上述装置还包括:
配置模块,用于在N个节点的监控数据中包括异常监控数据的情况下,确定对异常监控数据触发异常提示的异常触发规则之前,基于N个节点的端口信息和预设监控数据配置异常触发规则,其中,预设监控数据中包括用于表示N个节点运行正常的数据。
在一个示例性实施例中,上述设置模块66包括:
生成子模块,用于基于异常触发规则生成目标字符串,其中,目标字符串对应不同的逻辑值;
设置子模块,用于利用目标字符串对应的逻辑值设置异常触发规则的抑制状态。
在一个示例性实施例中,上述第二确定模块68包括:
停止子模块,用于基于抑制状态停止触发异常提示;
合并子模块,用于在异常监控数据包括多个,且多个异常监控数据的异常原因相同的情况下,将对多个异常监控数据触发的多个异常提示合并为一个异常提示,得到目标异常提示信息。
在一个示例性实施例中,上述装置还包括:
第一发送模块,用于在基于抑制状态确定对异常监控数据触发的目标异常提示信息之后,在异常节点包括多个,且多个异常节点对应的修复对象相同的情况下,将目标异常提示信息发送至修复对象;
第二发送模块,用于在异常节点包括多个,且多个异常节点对应的修复对象不相同的情况下,将目标异常提示信息发送至每个异常节点对应的修复对象中;其中,修复对象用于修复异常节点的异常。
在一个示例性实施例中,上述装置还包括:
存储模块,在基于抑制状态确定对异常监控数据触发的目标异常提示信息之后,将目标异常提示信息、抑制状态的抑制时长以及异常提示的触发次数进行存储。
在一个示例性实施例中,上述获取模块62包括:
获取子模块,用于获取通过目标监控设备对N个节点进行监控所得到的监控数据。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种节点的异常提示信息的确定方法,其特征在于,包括:
获取N个节点的监控数据,其中,N个所述节点之间存在关联关系,所述N是大于1的自然数;
在N个所述节点的监控数据中包括异常监控数据的情况下,确定对所述异常监控数据触发异常提示的异常触发规则;
在预设时间段内触发所述异常提示的次数大于预设值,和/或,所述异常监控数据对应的异常节点是M个所述节点中的父节点的情况下,将所述异常触发规则的状态设置为抑制状态,其中,所述抑制状态用于抑制所述异常提示的发送次数,其中,1≤M≤N;
基于所述抑制状态确定对所述异常监控数据触发的目标异常提示信息,其中,所述目标异常提示信息中包括所述异常节点的信息和所述异常节点与M个所述节点之间的关联信息。
2.根据权利要求1所述的方法,其特征在于,所述在N个所述节点的监控数据中包括异常监控数据的情况下,确定对所述异常监控数据触发异常提示的异常触发规则之前,所述方法还包括:
基于N个所述节点的端口信息和预设监控数据配置所述异常触发规则,其中,所述预设监控数据中包括用于表示N个所述节点运行正常的数据。
3.根据权利要求1所述的方法,其特征在于,所述在预设时间段内触发所述异常提示的次数大于预设值,和/或,所述异常监控数据对应的异常节点是M个所述节点中的父节点的情况下,将所述异常触发规则的状态设置为抑制状态,包括:
基于所述异常触发规则生成目标字符串,其中,所述目标字符串对应不同的逻辑值;
利用所述目标字符串对应的逻辑值设置所述异常触发规则的抑制状态。
4.根据权利要求1所述的方法,其特征在于,所述基于所述抑制状态确定对所述异常监控数据触发的目标异常提示信息,包括:
基于所述抑制状态停止触发所述异常提示;
在所述异常监控数据包括多个,且多个所述异常监控数据的异常原因相同的情况下,将对多个所述异常监控数据触发的多个异常提示合并为一个异常提示,得到所述目标异常提示信息。
5.根据权利要求4所述的方法,其特征在于,所述在基于所述抑制状态确定对所述异常监控数据触发的目标异常提示信息之后,所述方法还包括:
在所述异常节点包括多个,且多个所述异常节点对应的修复对象相同的情况下,将所述目标异常提示信息发送至所述修复对象;
在所述异常节点包括多个,且多个所述异常节点对应的修复对象不相同的情况下,将所述目标异常提示信息发送至每个所述异常节点对应的修复对象中;
其中,所述修复对象用于修复所述异常节点的异常。
6.根据权利要求5所述的方法,其特征在于,所述在基于所述抑制状态确定对所述异常监控数据触发的目标异常提示信息之后,所述方法还包括:
将所述目标异常提示信息、所述抑制状态的抑制时长以及所述异常提示的触发次数进行存储。
7.根据权利要求1所述的方法,其特征在于,所述获取N个节点的监控数据,包括:
获取通过目标监控设备对N个所述节点进行监控所得到的监控数据。
8.一种节点的异常提示信息的确定装置,其特征在于,包括:
获取模块,用于获取N个节点的监控数据,其中,N个所述节点之间存在关联关系,所述N是大于1的自然数;
第一确定模块,用于在N个所述节点的监控数据中包括异常监控数据的情况下,确定对所述异常监控数据触发异常提示的异常触发规则;
设置模块,用于在预设时间段内触发所述异常提示的次数大于预设值,和/或,所述异常监控数据对应的异常节点是M个所述节点中的父节点的情况下,将所述异常触发规则的状态设置为抑制状态,其中,所述抑制状态用于抑制所述异常提示的发送次数,其中,1≤M≤N;
第二确定模块,用于基于所述抑制状态确定对所述异常监控数据触发的目标异常提示信息,其中,所述目标异常提示信息中包括所述异常节点的信息和所述异常节点与M个所述节点之间的关联信息。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。
10.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。
CN202211733292.0A 2022-12-30 2022-12-30 节点的异常提示信息的确定方法、装置 Pending CN116055291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211733292.0A CN116055291A (zh) 2022-12-30 2022-12-30 节点的异常提示信息的确定方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211733292.0A CN116055291A (zh) 2022-12-30 2022-12-30 节点的异常提示信息的确定方法、装置

Publications (1)

Publication Number Publication Date
CN116055291A true CN116055291A (zh) 2023-05-02

Family

ID=86112719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211733292.0A Pending CN116055291A (zh) 2022-12-30 2022-12-30 节点的异常提示信息的确定方法、装置

Country Status (1)

Country Link
CN (1) CN116055291A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116488724A (zh) * 2023-06-25 2023-07-25 成都实时技术股份有限公司 一种光纤通信测试方法、介质及应用其的***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116488724A (zh) * 2023-06-25 2023-07-25 成都实时技术股份有限公司 一种光纤通信测试方法、介质及应用其的***
CN116488724B (zh) * 2023-06-25 2023-09-15 成都实时技术股份有限公司 一种光纤通信测试方法、介质及应用其的***

Similar Documents

Publication Publication Date Title
CN106997314B (zh) 用于分布式***的异常处理方法、装置及***
CN111897671A (zh) 故障恢复方法、计算机设备及存储介质
CN112988501A (zh) 一种告警信息生成方法、装置、电子设备及存储介质
CN105227347A (zh) 一种通用的运维监控方法及运维监控***
CN116055291A (zh) 节点的异常提示信息的确定方法、装置
CN111147306B (zh) 一种物联网设备的故障分析方法、装置以及物联网平台
CN114357495A (zh) 基于区块链的预言机链下聚合方法、装置、设备和介质
CN113656252B (zh) 故障定位方法、装置、电子设备以及存储介质
CN113742174B (zh) 云手机应用监控方法、装置、电子设备和存储介质
JP5949785B2 (ja) 情報処理方法、装置及びプログラム
CN111130867A (zh) 一种基于物联网的智能家居设备告警方法及装置
CN114172785A (zh) 告警信息处理方法、装置、设备和存储介质
CN111062503B (zh) 一种电网监控告警处理方法、***、终端及存储介质
CN116781757B (zh) 数据监控方法、装置、平台、电子设备和存储介质
CN115202958A (zh) 一种电力异常监控方法、装置、电子设备及存储介质
US20180139160A1 (en) Method, system and server for removing alerts
CN110598797B (zh) 故障的检测方法及装置、存储介质和电子装置
CN110224872B (zh) 一种通信方法、装置及存储介质
CN114448774B (zh) 告警处理方法、装置和存储介质
CN116416764A (zh) 报警阈值的生成方法和装置、电子设备和存储介质
US11734086B2 (en) Operation-based event suppression
CN110543470A (zh) 消息预警的方法及装置、存储介质和电子装置
CN111111211A (zh) 游戏数据的上报方法、装置、***、设备及存储介质
CN111614501A (zh) 一种监控方法及***
CN111382035A (zh) 一种运维***的告警触发规则的全局匹配装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination