CN116112342A - 告警信息处理方法、装置、电子设备以及存储介质 - Google Patents

告警信息处理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN116112342A
CN116112342A CN202310017420.XA CN202310017420A CN116112342A CN 116112342 A CN116112342 A CN 116112342A CN 202310017420 A CN202310017420 A CN 202310017420A CN 116112342 A CN116112342 A CN 116112342A
Authority
CN
China
Prior art keywords
alarm
information
alarm information
initial
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310017420.XA
Other languages
English (en)
Inventor
李靖炫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Weride Technology Co Ltd
Original Assignee
Guangzhou Weride Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Weride Technology Co Ltd filed Critical Guangzhou Weride Technology Co Ltd
Priority to CN202310017420.XA priority Critical patent/CN116112342A/zh
Publication of CN116112342A publication Critical patent/CN116112342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种告警信息处理方法、装置、电子设备以及存储介质。该方法包括:接收各服务节点的初始告警信息,并分别确定各所述初始告警信息对应的告警级别;对于任一初始告警信息,在当前初始告警信息的告警级别未满足预设高级告警条件时,确定所述初始告警信息的告警持续信息是否满足预设告警持续阈值条件;若是,则对所述当前初始告警信息进行告警升级处理,生成所述当前初始告警信息对应的高级告警信息。本发明公开的技术方案,通过判断告警的具体情况,并对低级别的告警进行升级,以解决现有技术中低级别告警长时间被忽略,导致告警没有恢复而的问题,从而提高告警处理效率,以实现提高云平台的***性能。

Description

告警信息处理方法、装置、电子设备以及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种告警信息处理方法、装置、电子设备以及存储介质。
背景技术
在云计算,大数据等技术日趋成熟的情况下,用户的服务产品越来越多,用户对自有资源的资源使用情况、业务的运行状况和健康度,并及时收到异常告警做出反应的需求越来越迫切。监控作为一款可以对资源进行立体化监控的平台,监控告警处理的失效就显得尤为重要。
Prometheus是一种开源的监控***,是Google BorgMon(一种监控***)的开源版本。伴随着容器及Kubernetes(简称K8s,用于管理云平台中多个主机上的容器化的应用)技术的兴起,Prometheus越来越受到大家的关注。
但是目前采用Prometheus进行监控的过程中发现:低级别告警长时间被忽略,导致告警没有恢复而的问题,从而导致被监控的云平台的***性能受到影响。
发明内容
本发明提供了一种告警信息处理方法、装置、电子设备以及存储介质,通过判断告警的具体情况,并对低级别的告警进行升级,以解决现有技术中低级别告警长时间被忽略,导致告警没有恢复而的问题,从而提高告警处理效率,以实现提高云平台的***性能。
第一方面,本发明实施例提供了一种告警信息处理方法,该方法包括:
接收各服务节点的初始告警信息,并分别确定各所述初始告警信息对应的告警级别;
对于任一初始告警信息,在当前初始告警信息的告警级别未满足预设高级告警条件时,确定所述初始告警信息的告警持续信息是否满足预设告警持续阈值条件;
若是,则对所述当前初始告警信息进行告警升级处理,生成所述当前初始告警信息对应的高级告警信息。
可选的,所述方法还包括:
在当前初始告警信息的告警级别信息未满足预设高级告警条件,且所述当前初始告警信息的信息发送频率大于预设频率阈值时,对所述当前初始告警信息进行告警抑制处理。
可选的,所述方法还包括:
在当前初始告警信息的告警级别满足预设高级告警条件时,基于所述初始告警信息生成所述当前初始告警信息对应的高级告警信息。
可选的,所述方法还包括:
对于任一服务节点,采集当前服务节点的节点指标数据,并基于所述节点指标数据以及预设的告警触发规则生成所述当前服务节点的初始告警信息。
可选的,所述分别确定各所述初始告警信息对应的告警级别,包括:
对于任一初始告警信息,确定当前初始告警信息的告警级别字段,并基于所述告警级别字段确定所述当前初始告警信息的告警级别。
可选的,所述方法还包括:
基于当前初始告警信息的告警节点信息以及所述高级告警信息生成所述初始告警信息对应的服务节点的高级告警提示信息。
可选的,所述方法还包括:
获取对于任一服务节点的节点状态数据的数据查询指令,将所述数据查询指令输入至预设的查询接口,以实现进行数据查询;
接收所述查询接口输出的当前服务节点的节点状态数据的查询结果。
第二方面,本发明实施例还提供了一种告警信息处理装置,该装置包括:
告警级别确定模块,用于接收各服务节点的初始告警信息,并分别确定各所述初始告警信息对应的告警级别;
告警条件判断模块,用于对于任一初始告警信息,在当前初始告警信息的告警级别未满足预设高级告警条件时,确定所述初始告警信息的告警持续信息是否满足预设告警持续阈值条件;
高级告警信息生成模块,用于若是,则对所述当前初始告警信息进行告警升级处理,生成所述当前初始告警信息对应的高级告警信息。
第三方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的告警信息处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的告警信息处理方法。
本发明实施例的技术方案,具体包括:接收各服务节点的初始告警信息,并分别确定各初始告警信息对应的告警级别;对于任一初始告警信息,在当前初始告警信息的告警级别未满足预设高级告警条件时,确定初始告警信息的告警持续信息是否满足预设告警持续阈值条件;若是,则对当前初始告警信息进行告警升级处理,生成当前初始告警信息对应的高级告警信息。上述技术方案中预先设置的Alert manager组件在接收到prometheus发送的告警信息之后,根据告警信息的具体情况对告警信息进行对应处理,例如对长时间未处理的低级别告警信息进行升级处理,从而解决低级别告警长时间被忽略,导致告警没有恢复而的问题,从而提高告警处理效率,以实现提高云平台的***性能。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种告警信息处理方法的流程图;
图2是根据本发明实施例二提供的一种告警信息处理装置的结构示意图;
图3是是实现本发明实施例的告警信息处理方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
实施例一
图1为本发明实施例一提供了一种告警信息处理方法的流程图,本实施例可适用于对云平台进行监控的情况。
目前,对于集群中各云平台各种监控方式中Prometheus(普罗米修斯)越来越受到大家的关注。其中,Prometheus由Go语言编写而成,采用拉取(PULL)方式获取监控信息,并提供了多维度的数据模型和灵活的查询接口。Prometheus不仅可以通过静态文件配置监控对象,还支持自动发现机制,能够动态获取监控对象。并且Prometheus通过HTTP(超文本传输)协议周期性抓取被监控组件的状态,任意组件只要提供对应的HTTP接口就实现接入监控。具体的,普罗米修斯prometheus通过直接拉取各云平台中预设接口的监控指标数据,并将监控指标数据存入Prometheus预先设定的时序数据库中。
其中,时序数据库为prometheus一个组件,其时序数据库全称为时间序列数据库,主要用于指处理带时间标签(按照时间的顺序变化,即时间序列化)的数据。具体的,可以将监控指标数据以时间标签的形式存储在于时序数据库中,进一步的,基于预设的告警规则对监控指标数据进行分析,得到告警信息,并将告警信息发送至Alert manager组件中,以使该组件将告警信息发送至云平台对应的运维人员管理端,以使运维人员对云平台进行维护,从而提高云平台的***性能。但是在现有实施方式中,Alert manager组件不支持个性化告警规则策略,并且不支持告警根据时长进行升级处理,容易引起冗余告警信息和告警消息风暴等问题。针对于上述技术问题,本发明实施例的技术方案提供了一种告警信息处理方法,该方法具体包括:Alert manager组件在接收到prometheus发送的告警信息之后,根据告警信息的具体情况对告警信息进行对应处理,例如对长时间未处理的低级别告警信息进行升级处理,从而解决低级别告警长时间被忽略,导致告警没有恢复而的问题,从而提高告警处理效率,以实现提高云平台的***性能。
该方法可以由告警信息处理装置来执行,该告警信息处理装置可以采用硬件和/或软件的形式实现,该告警信息处理装置可配置于云端服务器中。如图1所示,该方法包括:
S110、接收各服务节点的初始告警信息,并分别确定各初始告警信息对应的告警级别。
在本发明实施例中,服务节点可以理解为集群中被prometheus监控的云平台,本实施例中云平台可以为私有云也可以公有云,对此不作限定。初始告警信息为prometheus发送至Alert manager的各服务节点的告警记录。
可选的,本实施例中在对服务节点进行监控之前,需要预先基于各服务节点的节点数据配置对应的prometheus元信息以及告警触发规则。
具体的,对于prometheus元信息的配置可以包括:首先在prometheus中录入被监控中的集群信息,例如当集群为k8s(kubernetes,可移植容器的编排管理工具)集群时,配置对应的kubeconfig,并且配置对应的prometheus,以及对应的类型;可选的,如果是通过operator方式部署,则需要关联对应的k8s集群;如果是手工部署,则需要在对应的prometheus节点上,部署自研sidecar。
具体的对于告警触发规则的配置可以包括:根据prometheus语法配置对应的查询expr。可选的,可以通过统一查询接口进行测试、验证。进一步的,配置告警规则相关的labels,具体包括配置关键的告警等级、告警持续时长、所属分类等,并且把各云平台涉及的告警触发规则与各云平台对应的prometheus进行关联,并且将配置完成的告警触发规则自动下发到对应的prometheus中,以实现后续进行告警分析。
在上述实施方式的基础上,可选的,本实施例的技术方案还包括:对于任一服务节点,采集当前服务节点的节点指标数据,并基于节点指标数据以及预设的告警触发规则生成当前服务节点的初始告警信息。
其中,节点指标数据可以理解为服务节点在运行过程中生成的各指标数据。本实施例中,节点指标数据包括但不限于服务节点的主机、进程以及虚拟机等层面的监控指标。
具体的,集群中各服务节点均关联有对应的prometheus。在服务节点运行的过程中,prometheus定时拉取服务节点的节点指标数据,即监控指标数据,并基于预先配置的告警触发规则对该节点指标数据进行告警分析。具体的,当节点指标数据中任一指标超出改进触发规则中规定的触发阈值,则生成该指标对应的告警记录,进一步的将该告警记录作为当前服务节点的初始告警信息发送至Alert manager组件。
进一步的,Alert manager在接收到prometheus发送的告警记录时,将其作为初始告警信息,并对该初始告警信息进行解析处理,并基于解析结果确定初始告警信息的告警级别,以基于告警级别对初始告警信息进行对应提示,以提高对告警信息的处理效率。
可选的,本实施例的技术方案中确定初始告警信息的告警级别的方法可以包括:对于任一初始告警信息,确定当前初始告警信息的告警级别字段,并基于告警级别字段确定当前初始告警信息的告警级别。
具体的,在获取到初始告警信息时,对初始告警信息进行字段解析,得到初始告警信息中的各告警字段,并确定各告警字段中的告警级别字段,进而基于该告警级别字段中的具体字段内容确定初始告警信息对应的告警级别。当然,还可以基于其他方式确定初始告警信息中的告警级别,例如基于神经网络模型进行确定,本实施例对此不作限定。
S120、对于任一初始告警信息,在当前初始告警信息的告警级别未满足预设高级告警条件时,确定初始告警信息的告警持续信息是否满足预设告警持续阈值条件。
在本实施例中,告警级别包括但不限于低级告警和高级告警。具体的,对于任一服务节点的初始告警信息,在确定初始告警信息的告警级别字段的基础上,获取告警级别对应的字段内容,并将该字段内容与预设的高级告警条件进行比对,若字段内容大于高级告警条件,则说明该初始告警信息的告警级别为高级告警,即满足预设高级告警条件;反之则为低级告警,未满足预设高级告警条件。
示例性的,低级告警对应的字段内容可以为数值1,高级告警对应字段内容可以为数值2;预设的高级告警条件可以为大于等于2的数值。具体的,若当前初始告警信息的告警字段的字段内容为1,则基于预设的高级告警条件可以确定当前初始告警信息的告警级别未满足预设高级告警条件。
可选的,本实施例中的技术方案在确定当前初始告警信息的告警级别未满足预设高级告警条件时,说明该初始告警信息的告警级别为高级告警,可以基于初始告警信息生成当前初始告警信息对应的高级告警信息,并基于高级告警信息对服务节点对应的运维人员进行告警提示。
具体的,高级告警信息可以理解为更加紧急的告警提示信息。例如,需要电话通知对应服务节点对应的运维人员;再例如在服务节点的显示界面的明显位置例如中心位置等进行弹窗提示等。
可选的,在确定当前初始告警信息的告警级别未满足预设高级告警条件时,说明该初始告警信息的告警级别为低级告警,可以基于初始告警信息生成当前初始告警信息对应的低级告警信息,并基于低级告警信息对服务节点对应的运维人员进行告警提示。
具体的,低级告警信息可以理解为相对宽松的告警提示信息。例如,可以短信通知对应服务节点对应的运维人员;再例如在服务节点的显示界面的边缘位置进行弹窗提示等。
在本实施例中,若告警信息对应的服务节点未被维护,则该服务节点基于预设的告警触发规则,会频繁生成告警信息,但由于一些告警信息为低级告警信息,且对服务节点的运行影响较小,若当还有其他更高级以及影响更大的告警信息出现时,运维人员可能并不能及时对该影响较小的初始告警信息进信息处理,因此频繁的发送告警信息会导致出现告警风暴等云梯,影响运维人员对服务节点的维护。可选的,为了解决上述技术问题,本实施例的技术方案在当前初始告警信息的告警级别信息未满足预设高级告警条件,且当前初始告警信息的信息发送频率大于预设频率阈值时,对当前初始告警信息进行告警抑制处理,以减小该告警信息的发送,从而避免上述问题。
本实施例中,告警抑制处理可以理解为对告警信息进行删除以及不提示等处理,以使告警信息并不会频繁的发送至运维人员的管理端。
可选的,为了避免低级告警信息长时间无人解决为问题,本实施例的技术方案在上述实施方式的基础上,还包括获取初始告警信息的告警持续信息,并确定告警持续信息是否满足预设告警持续阈值条件,进而基于判断结果确定是否对初始告警信息进行信息处理。
其中,告警持续信息可以理解为基于告警触发规则所生成的告警信息在提示时的提示时长。具体的,在获取初始告警信息的各告警字段的基础上,确定初始告警信息中告警持续信息对应的告警持续字段,并确定该告警持续字段对应的字段内容,进而基于该字段内容确定初始告警信息中的告警持续信息。
具体的,将该字段内容中的告警持续信息与预设的告警持续阈值条件进行比对,若告警持续信息中的告警时长大于告警持续阈值条件中的阈值时长,则说明该初始告警信息的告警持续信息满足告警持续阈值条件;反之则未满足预设高级告警条件。
S130、若是,则对当前初始告警信息进行告警升级处理,生成当前初始告警信息对应的高级告警信息。
在本实施例中,告警升级处理可以理解为修改初始告警信息的告警级别对应的字段内容,以使初始告警信息由低级告警变为高级告警。
具体的,若确定初始告警信息的告警持续时长满足预设告警持续阈值条件,则说明当前告警信息对应的服务节点长时间未被维护,所以需要对该初始告警信息进行告警升级处理,即,将初始告警信息的告警级别由低级告警升级为高级告警,以实现生成该初始告警信息对应的高级告警信息。
在上述实施方式的基础上,本实施例的基础上,在得到上述的高级告警信息的基础上,还包括:基于当前初始告警信息的告警节点信息以及高级告警信息生成初始告警信息对应的服务节点的高级告警提示信息。
其中,报警节点信息包括但不限于服务节点的节点标识以及服务节点对应的运维人员的管理端等信息。
具体的,生成高级告警提示信息之后,基于预设的Alert Center组件将高级告警提示信息分发至服务节点对应的运维人员,以使运维人员对服务节点进行维护,以提高***性能。
可选的,在上述实施方式的基础上,在各节点生成初始告警信息、低级告警信息以及高级告警信息时,本实施例的技术方案均对将各告警信息与服务节点进行对应存储,以实现后续对告警记录进行回溯,从而实现为后续***的稳定性、质量分析时提供数据基础。
在上述实施方式的基础上,本实施例的技术方案还包括:获取对于任一服务节点的节点状态数据的数据查询指令,将数据查询指令输入至预设的查询接口,以实现进行数据查询;接收查询接口输出的当前服务节点的节点状态数据的查询结果。
在本实施例中,由于服务节点可能为私有云或者公有云的云平台。现有应用中,在多集群多云的复杂环境下,在对各平台的数据仅查询时,需要预先确定各平台分别对应的Prometheus,进而基于Prometheus进行数据查询,并没有各平台的统一查询入口,所以本实施例的技术方案预先在各Prometheus中设置了query gateway,以实现统一数据平面,支持多平台的统一查询。
本实施例中,query gateway由golang实现高性能统一gateway代理,以实现对用户查询请求http reverse分发。具体的,将数据查询指令输入至query gateway,进而querygateway将数据查询指令发送至指令对应的prometheus controller,进而该prometheuscontroller处理prometheus的相关label进行过滤,并且将路由分发的数据查询指令发送至后端prometheus,进一步的接收后端反馈的查询结果,并将查询接进行聚合后反馈至查询接口,以实现得到当前服务节点的节点状态数据的查询结果。
本发明实施例的技术方案,具体包括:接收各服务节点的初始告警信息,并分别确定各初始告警信息对应的告警级别;对于任一初始告警信息,在当前初始告警信息的告警级别未满足预设高级告警条件时,确定初始告警信息的告警持续信息是否满足预设告警持续阈值条件;若是,则对当前初始告警信息进行告警升级处理,生成当前初始告警信息对应的高级告警信息。上述技术方案中预先设置的Alert manager组件在接收到prometheus发送的告警信息之后,根据告警信息的具体情况对告警信息进行对应处理,例如对长时间未处理的低级别告警信息进行升级处理,从而解决低级别告警长时间被忽略,导致告警没有恢复而的问题,从而提高告警处理效率,以实现提高云平台的***性能。
实施例二
图2为本发明实施例三提供的一种告警信息处理装置的结构示意图。如图2所示,该装置包括:告警级别确定模块210、告警条件判断模块220和高级告警信息生成模块230;其中,
告警级别确定模块210,用于接收各服务节点的初始告警信息,并分别确定各所述初始告警信息对应的告警级别;
告警条件判断模块220,用于对于任一初始告警信息,在当前初始告警信息的告警级别未满足预设高级告警条件时,确定所述初始告警信息的告警持续信息是否满足预设告警持续阈值条件;
高级告警信息生成模块230,用于若是,则对所述当前初始告警信息进行告警升级处理,生成所述当前初始告警信息对应的高级告警信息。
本发明实施例的技术方案,具体包括:接收各服务节点的初始告警信息,并分别确定各初始告警信息对应的告警级别;对于任一初始告警信息,在当前初始告警信息的告警级别未满足预设高级告警条件时,确定初始告警信息的告警持续信息是否满足预设告警持续阈值条件;若是,则对当前初始告警信息进行告警升级处理,生成当前初始告警信息对应的高级告警信息。上述技术方案中预先设置的Alert manager组件在接收到prometheus发送的告警信息之后,根据告警信息的具体情况对告警信息进行对应处理,例如对长时间未处理的低级别告警信息进行升级处理,从而解决低级别告警长时间被忽略,导致告警没有恢复而的问题,从而提高告警处理效率,以实现提高云平台的***性能。
在上述实施方式的基础上,可选的,该装置还包括:
告警抑制处理模块,用于在当前初始告警信息的告警级别信息未满足预设高级告警条件,且所述当前初始告警信息的信息发送频率大于预设频率阈值时,对所述当前初始告警信息进行告警抑制处理。
在上述实施方式的基础上,可选的,该装置还包括:
高级告警信息生成模块,用于在当前初始告警信息的告警级别满足预设高级告警条件时,基于所述初始告警信息生成所述当前初始告警信息对应的高级告警信息。
在上述实施方式的基础上,可选的,该装置还包括:
初始告警信息生成模块,用于对于任一服务节点,采集当前服务节点的节点指标数据,并基于所述节点指标数据以及预设的告警触发规则生成所述当前服务节点的初始告警信息。
在上述实施方式的基础上,可选的,告警级别确定模块210,包括:
告警级别确定单元,用于对于任一初始告警信息,确定当前初始告警信息的告警级别字段,并基于所述告警级别字段确定所述当前初始告警信息的告警级别。
在上述实施方式的基础上,可选的,该装置还包括:
高级告警提示信息生成模块,用于基于当前初始告警信息的告警节点信息以及所述高级告警信息生成所述初始告警信息对应的服务节点的高级告警提示信息。
在上述实施方式的基础上,可选的,该装置还包括:
数据查询指令获取模块,用于获取对于任一服务节点的节点状态数据的数据查询指令,将所述数据查询指令输入至预设的查询接口,以实现进行数据查询;
查询结果接收模块,用于接收所述查询接口输出的当前服务节点的节点状态数据的查询结果。
本发明实施例所提供的告警信息处理装置可执行本发明任意实施例所提供的告警信息处理方法,具备执行方法相应的功能模块和有益效果。
实施例三
图3示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图3所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如告警信息处理方法。
在一些实施例中,告警信息处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的告警信息处理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行告警信息处理方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的***和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种告警信息处理方法,其特征在于,包括:
接收各服务节点的初始告警信息,并分别确定各所述初始告警信息对应的告警级别;
对于任一初始告警信息,在当前初始告警信息的告警级别未满足预设高级告警条件时,确定所述初始告警信息的告警持续信息是否满足预设告警持续阈值条件;
若是,则对所述当前初始告警信息进行告警升级处理,生成所述当前初始告警信息对应的高级告警信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在当前初始告警信息的告警级别信息未满足预设高级告警条件,且所述当前初始告警信息的信息发送频率大于预设频率阈值时,对所述当前初始告警信息进行告警抑制处理。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在当前初始告警信息的告警级别满足预设高级告警条件时,基于所述初始告警信息生成所述当前初始告警信息对应的高级告警信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对于任一服务节点,采集当前服务节点的节点指标数据,并基于所述节点指标数据以及预设的告警触发规则生成所述当前服务节点的初始告警信息。
5.根据权利要求1所述的方法,其特征在于,所述分别确定各所述初始告警信息对应的告警级别,包括:
对于任一初始告警信息,确定当前初始告警信息的告警级别字段,并基于所述告警级别字段确定所述当前初始告警信息的告警级别。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于当前初始告警信息的告警节点信息以及所述高级告警信息生成所述初始告警信息对应的服务节点的高级告警提示信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取对于任一服务节点的节点状态数据的数据查询指令,将所述数据查询指令输入至预设的查询接口,以实现进行数据查询;
接收所述查询接口输出的当前服务节点的节点状态数据的查询结果。
8.一种告警信息处理装置,其特征在于,包括:
告警级别确定模块,用于接收各服务节点的初始告警信息,并分别确定各所述初始告警信息对应的告警级别;
告警条件判断模块,用于对于任一初始告警信息,在当前初始告警信息的告警级别未满足预设高级告警条件时,确定所述初始告警信息的告警持续信息是否满足预设告警持续阈值条件;
高级告警信息生成模块,用于若是,则对所述当前初始告警信息进行告警升级处理,生成所述当前初始告警信息对应的高级告警信息。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的告警信息处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的告警信息处理方法。
CN202310017420.XA 2023-01-06 2023-01-06 告警信息处理方法、装置、电子设备以及存储介质 Pending CN116112342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310017420.XA CN116112342A (zh) 2023-01-06 2023-01-06 告警信息处理方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310017420.XA CN116112342A (zh) 2023-01-06 2023-01-06 告警信息处理方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116112342A true CN116112342A (zh) 2023-05-12

Family

ID=86257541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310017420.XA Pending CN116112342A (zh) 2023-01-06 2023-01-06 告警信息处理方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116112342A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612612A (zh) * 2023-05-19 2023-08-18 湖北清江水电开发有限责任公司 流域梯级电厂集控中心报警方法、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612612A (zh) * 2023-05-19 2023-08-18 湖北清江水电开发有限责任公司 流域梯级电厂集控中心报警方法、计算机设备及存储介质
CN116612612B (zh) * 2023-05-19 2024-06-11 湖北清江水电开发有限责任公司 流域梯级电厂集控中心报警方法、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109257200B (zh) 大数据平台监控的方法和装置
CN111124819B (zh) 全链路监控的方法和装置
CN112911013B (zh) 云应用的处理方法、装置、计算机设备和存储介质
CN113220420B (zh) 服务监控方法、装置、设备、存储介质及计算机程序产品
US10963458B2 (en) Federated chatbots
CN113377626B (zh) 基于服务树的可视化统一报警方法、装置、设备和介质
CN113590437B (zh) 一种告警信息处理方法、装置、设备和介质
CN115396289B (zh) 一种故障告警确定方法、装置、电子设备及存储介质
CN116112342A (zh) 告警信息处理方法、装置、电子设备以及存储介质
CN114885014A (zh) 一种外场设备状态的监测方法、装置、设备及介质
CN112948223A (zh) 一种监测运行情况的方法和装置
CN113656239A (zh) 针对中间件的监控方法、装置及计算机程序产品
CN116992982A (zh) 模型部署方法、装置、***、电子设备和存储介质
CN115514618A (zh) 告警事件的处理方法、装置、电子设备和介质
CN116302790A (zh) 运行资源管理方法、云网关、电子设备及存储介质
CN115130112A (zh) 一种快速启停方法、装置、设备及存储介质
CN115509714A (zh) 一种任务处理方法、装置、电子设备及存储介质
CN115550141A (zh) 事件处理方法、装置、电子设备及可读存储介质
CN114756301A (zh) 日志处理方法、装置和***
CN114706893A (zh) 故障检测方法、装置、设备及存储介质
CN114168371A (zh) 一种故障智能自动报警***
CN113282455A (zh) 一种监控处理方法和装置
CN116909757B (zh) 集群管理的控制***、方法、电子设备和存储介质
CN117215862A (zh) 硬盘故障的预警方法、装置、***及其相关设备
CN115643091A (zh) ***日志监控方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination