CN111611137B - 告警监控方法、装置、计算机设备及存储介质 - Google Patents
告警监控方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111611137B CN111611137B CN202010615954.9A CN202010615954A CN111611137B CN 111611137 B CN111611137 B CN 111611137B CN 202010615954 A CN202010615954 A CN 202010615954A CN 111611137 B CN111611137 B CN 111611137B
- Authority
- CN
- China
- Prior art keywords
- monitoring
- alarm
- alarm information
- preset
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 291
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012806 monitoring device Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 14
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 10
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000412611 Consul Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Alarm Systems (AREA)
Abstract
本发明涉及基架运维领域,应用于智慧城市中,揭露了一种告警监控方法、装置、计算机设备及存储介质。所述方法包括:获取与监控请求关联的监控节点;在监控节点下,调用出告警参数和监控模板,按照监控模板在前端页面中全局展示基础监控项的运行参数,并根据运行参数和告警参数生成基础监控项的告警信息之后,在前端页面中以监控模板展示告警信息;根据预设维度查询到与告警信息对应的历史告警信息,并在结合告警信息和历史告警信息之后,得到当前告警信息;将包含当前告警信息的告警通知,按照预设通知渠道发送至与基础监控平台存在告警订阅关系的用户终端,并将当前告警信息传输至目标领域***。通过本发明能提高告警信息的监控效率。
Description
技术领域
本发明涉及基架运维领域中的监控领域,尤其涉及一种告警监控方法、装置、计算机设备及存储介质。
背景技术
目前,基础监控平台基本都采用了多Prometheus(开源监控***)实例加Thanos集群的解决方案来实现对基础监控项目的监控,其中,该基础监控项目为关于服务器、网络设备、存储设备、CPU和内存等硬件设备或***级别层面在运行状态方面上的监控项目,但该方案存在以下问题:该方案需监控数据量巨大的历史告警数据,因此会导致历史告警数据出现查询效率慢及归档不完整的问题;数据接收方只能通过人工查询的方式监控告警数据,对告警数据的监控来说,存在监控效率低的问题,进而不能及时对告警数据作出响应。
因此本领域人员亟需寻找一种新的技术方案来解决上述所提到的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种告警监控方法、装置、计算机设备及存储介质,用于提高历史告警数据的查询效率,使得历史告警数据归档完整,并提高告警信息的监控效率。
一种告警监控方法,包括:
接收到基础监控平台发出的基础监控项的监控请求时,根据CMDB的上下线流程获取与所述监控请求关联的监控节点;
在所述监控节点下,调用出与所述监控请求关联且已预先进行告警配置的告警参数和监控模板,触发所述基础监控项的监测指令,按照所述监控模板在前端页面中全局展示所述基础监控项的运行参数,并根据所述运行参数和所述告警参数生成所述基础监控项的告警信息之后,在所述前端页面中以所述监控模板展示所述告警信息;一个所述告警信息关联一个预设维度;
令触发分布式文件***根据所述预设维度查询到与所述告警信息对应的历史告警信息,并在结合所述告警信息和所述历史告警信息之后,得到当前告警信息;
令所述基础监控平台将包含所述当前告警信息的告警通知,按照预设通知渠道发送至与所述基础监控平台存在告警订阅关系的用户终端,并令所述基础监控平台通过分布式发布订阅消息***,将所述当前告警信息传输至目标领域***中以起到对所述目标领域***的告警作用。
一种告警监控装置,包括:
第一获取模块,用于接收到基础监控平台发出的基础监控项的监控请求时,根据CMDB的上下线流程获取与所述监控请求关联的监控节点;
展示模块,用于在所述监控节点下,调用出与所述监控请求关联且已预先进行告警配置的告警参数和监控模板,触发所述基础监控项的监测指令,按照所述监控模板在前端页面中全局展示所述基础监控项的运行参数,并根据所述运行参数和所述告警参数生成所述基础监控项的告警信息之后,在所述前端页面中以所述监控模板展示所述告警信息;一个所述告警信息关联一个预设维度;
结合模块,用于令触发分布式文件***根据所述预设维度查询到与所述告警信息对应的历史告警信息,并在结合所述告警信息和所述历史告警信息之后,得到当前告警信息;
传输模块,用于令所述基础监控平台将包含所述当前告警信息的告警通知,按照预设通知渠道发送至与所述基础监控平台存在告警订阅关系的用户终端,并令所述基础监控平台通过分布式发布订阅消息***,将所述当前告警信息传输至目标领域***中以起到对所述目标领域***的告警作用。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述告警监控方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述告警监控方法。
上述告警监控方法、装置、计算机设备及存储介质,调用出与监控请求关联且已预先进行告警配置的告警参数,因此可自动根据告警请求完成告警配置,进而以及时监控到告警信息;告警信息与预设维度存在关联关系,因此可按照各预设维度对告警信息进行数据收敛,进而减少了告警信息的数据复杂度;根据运行参数和告警参数生成基础监控项的告警信息之后,在前端页面中以监控模板展示告警信息,因此可用于代替人工通过查询的方式监控告警信息的方法,因此本发明相比人工方法可提高告警信息的监控效率,进而可及时对告警信息作出响应(将当前告警信息传输至目标领域***中,以让目标领域***作出响应);按照预设通知渠道发送至与基础监控平台存在告警订阅关系的用户终端,因此可解决目前无法和内部告警渠道融合的问题;令触发分布式文件***根据预设维度查询到与告警信息对应的历史告警信息,因此可减少历史告警数据的查询时长,进而提高历史告警数据的查询效率,历史告警信息在通过数据降维聚合处理后可存储至触发分布式文件***中的预设数据库,因此可使得归档完整;本发明可借用触发分布式文件***和分布式发布订阅消息***来对告警信息进行管理;令基础监控平台通过分布式发布订阅消息***,将当前告警信息传输至目标领域***中,也即实现将告警处理流程和监控流程中进行解耦,以便于目标领域***及时对当前告警信息作出响应处理(也即过滤掉当前告警信息),提高当前告警信息的处理效率和准确率。本发明还应用于智慧城市领域中,从而推动智慧城市的建设。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中告警监控方法的一应用环境示意图;
图2是本发明一实施例中告警监控方法的一流程图;
图3是本发明一实施例中告警监控装置的结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的告警监控方法,涉及基架运维领域中的监控领域;还可应用于智慧城市领域中,从而推动智慧城市的建设。本方法可应用在如图1的应用环境中,其中,客户端通过网络与服务器进行通信。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种告警监控方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10,接收到基础监控平台发出的基础监控项的监控请求时,根据CMDB的上下线流程获取与所述监控请求关联的监控节点;
可理解地,本实施例的执行主体为基础监控平台服务器,基础监控平台服务器可控制基础监控平台执行监控请求,其中,监控请求可为整个基础监控项的监控要求,若监控请求为指定基础监控项的监控要求,则无需对整个基础监控项执行监控要求,可选地,基础监控平台可由多个监控模块构成,各个监控模块都展示在基础监控平台所在的前端页面中,其中,监控模块包括但不限于告警信息展示模块、告警配置模块、运行参数模块、监控模板配置模块、权限管理模块、告警订阅模块和历史告警信息模块,本实施例还存在一个基础监控服务模块,该基础监控服务模块用于对整个基础监控服务的运行状态进行监控(比如告警配置模块运行服务不正常等);基础监控项是用于监控各个硬件设备和操作***级别层面在运行状态方面上是否出现运行不正常的监控项目,其中,硬件设备包括但不限于服务器、网络设备和存储设备等,操作***级别层面包括但不限于CPU、内存、网络连接和一些自定义的监控指标等;CMDB(Configuration Management Database,配置管理数据库)是存储和管理设备上的各种配置信息的数据库,CMDB的上下线流程是指将与各种配置信息对应的监控节点进行上下线,其中,一种配置信息可对应至少一个监控节点,需要说明的是,监控节点的上下线的最终目的是通过基础监控平台实现对整个基础监控项或部分基础监控项执行监控要求。在本实施例中,通过在CMDB的上下线流程设置的监控节点以实现按照流程形式执行基础监控项的全局监控要求,一方面本实施例将基础监控项的全局监控与CMDB的运维生命周期结合,另一方面本实施例无需人工干预,自动通过监控节点实现基础监控项的全局监控要求,进而提高监控效率。
S20,在所述监控节点下,调用出与所述监控请求关联且已预先进行告警配置的告警参数和监控模板,触发所述基础监控项的监测指令,按照所述监控模板在前端页面中全局展示所述基础监控项的运行参数,并根据所述运行参数和所述告警参数生成所述基础监控项的告警信息之后,在所述前端页面中以所述监控模板展示所述告警信息;一个所述告警信息关联一个预设维度;
可理解地,告警参数是指在监控基础监控项的过程中,各个硬件设备设备或操作***级别层面为运行正常(硬件设备设备或操作***级别层面的运行状态)所对应的参数,因此本实施例一旦在运行过程中,确定出运行参数与告警参数存在区别,则可确定出其中一个以上的基础监控项存在异常(运行不正常),其中,在告警配置的过程中,通过各种主机服务器的原生监控指标及种指标数值之间的组合及计算后得到告警参数;监控模板是指在基础监控平台所在的前端页面中所需展示的监控内容(不同监控内容可分别体现在上述步骤S10提到的监控模块中),其中监控内容包括按照预设展示维度而展示在前端页面中的告警信息(告警信息所需展示的内容可单独体现在告警信息展示模块中)和展示在前端页面中与告警信息关联的配置模板(为告警配置模块提供了配置模板,因此用户可直接在告警配置模块中配置出告警参数,该配置模板可分别体现在告警配置模块和监控模板配置模块中)等;运行参数是指与各种基础监控项关联的硬件设备和操作***级别层面关于运行状态(包括运行正常和运行不正常)的运行参数;告警信息是在对运行参数和告警参数进行对比后,而生成一个与运行参数为异常(运行状态为运行不正常)所对应的信息(可选地,在根据所述运行参数和所述告警参数生成所述基础监控项的告警信息之后,管控平台服务器可通过告警配置模块的功能,先收集告警信息,再通过APPID、DSU维度或者各目标领域***聚合告警信息,并判断是否将聚合后的告警信息展示在前端页面中),其中,告警信息可以卡片的形式展示在前端页面中,一个卡片可对应至少一个告警信息,其中,预设维度包括APPID及DSU维度,APPID维度即应用维度,可理解为一个完整的业务流程(通过硬件设备或/和***级别层面所执行的具体流程,比如通过某平台或软件查询和验证用户信息的流程)中的一个功能(比如上述查询和验证功能),DSU维度即业务流程维度,可理解为一个完整的业务流程,通过APPID维度可以得知该告警信息影响了哪些特定功能,通过DSU维度可得知该告警信息影响了哪些业务流程,优选地,预设维度用于查询出告警信息或历史告警信息(前端页面中的告警信息展示模块提供输入预设维度的检索栏和选择告警信息发生时间的键位,从而可检索到在发生时间内且包含异常信息的卡片,其中在检索栏中可输入与预设维度关联的识别符或标记符,比如APPID-123等);需要说明的是,本实施例可由基础监控平台服务器控制告警配置模块(与告警参数关联)、运行参数模块、监控模板配置模块和告警信息展示模块来执行。本实施例提供了人性化的前端页面(在前端页面展示运行参数和告警信息,是为了便于用户查看和被实时获取到),可降低人为手动进行告警配置的难度和工作,且本实施例可实现对各预设维度的告警信息的数据收敛功能,进而减少了告警信息的数据复杂度。
S30,令触发分布式文件***根据所述预设维度查询到与所述告警信息对应的历史告警信息,并在结合所述告警信息和所述历史告警信息之后,得到当前告警信息;
可理解地,分布式文件***是一种为优秀的性能(支持多种工作负载的高性能,以便于快速查询到所需的数据)、可靠性和可扩展性而设计的统一的***,本实施例将各种历史告警历史进行数据降维聚合处理后而放入至该分布式文件***中的预设数据库,数据降维聚合处理具体是将一定预设时间范围内的历史告警信息降准聚合成一定预设时长的历史告警信息;历史告警信息与告警信息是属于同一种类型的信息,比如,同种硬件设备发生相同的问题,只不过是时间上存在区别,且历史告警信息同告警信息一样,历史告警信息与预设维度也存在关联信息,其中,相同类型的历史告警信息和告警信息所对应的预设维度存在一种匹配关系(便于查询到与告警信息对应的历史告警信息),该匹配关系比如为,历史告警信息的预设维度为APPID-123’,而警信息的预设维度为APPID-123;当前告警信息为历史告警信息和告警信息的结合信息,其中在结合区域中应通过分界线或明显标记符区分两个告警信息之间的关系;需要说明的是,本实施例可由基础监控平台服务器控制历史告警信息模块来执行。本实施例中需通过触发分布式文件***按照预设维度查询历史异常信息,可减少历史告警数据的查询时长,进而提高历史告警数据的查询效率。
S40,令所述基础监控平台将包含所述当前告警信息的告警通知,按照预设通知渠道发送至与所述基础监控平台存在告警订阅关系的用户终端,并令所述基础监控平台通过分布式发布订阅消息***,将所述当前告警信息传输至目标领域***中以起到对所述目标领域***的告警作用。
可理解地,报警通知中可以突出显示标记出当前告警信息中关键内容,用户可在用户终端所在的页面中选择关于告警订阅的标签和关键字;预设通知渠道可包括但不限于邮件提示、app信息提示和电话提示等;分布式发布订阅消息***是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务;需要说明的是,本实施例可由基础监控平台服务器控制告警订阅模块来执行。本实施例可将当前告警信息发送至用户终端,以利于用户根据用户终端及时查看当前告警信息,也可通过分布式发布订阅消息***传输至目标领域***中,也即实现将告警处理流程和监控流程中进行解耦,以便于目标领域***及时对当前告警信息作出响应处理(也即过滤掉当前告警信息),提高当前告警信息的处理效率和准确率,贴合实际的告警监控处理应用场景。
进一步地,所述根据CMDB的上下线流程获取与所述监控请求关联的监控节点之后,还包括:
在接收到与所述监控请求关联的CMDB的新增机器节点的上线命令后,从预设框架中获取注册在所述预设工具中的所述CMDB的新增机器节点,通过所述CMDB的上下线流程,将所述CMDB的新增机器节点作为与所述监控请求关联的所述监控节点,以完成所述CMDB的新增机器节点的上线。
可理解地,预设工具为consul(是一个用来实现分布式***的服务发现与配置的开源工具);本实施例主要是通过CMDB的上下线流程实现CMDB的新增机器节点的上线,进而不断地为本次监控请求增加新的监控节点。
进一步地,所述根据CMDB的上下线流程获取与所述监控请求关联的监控节点之后,还包括:
在查询到与所述CMDB的上下线流程关联的CMDB信息时,根据部署在与所述监控请求关联的各个所述监控节点上的预设代理软件自动采集监控插件,并将所述监控插件下发至与所述监控插件对应的监控节点中。
可理解地,本实施例中的CMDB信息为与基础监控项关联的信息。本实施例主要是为监控节点下发与该监控节点关联的监控插件,从而实现监控插件在基础监控项的监控过程中的功能。
进一步地,所述令触发分布式文件***根据所述预设维度查询到与所述告警信息对应的历史告警信息之前,还包括:
对各个时间范围内的所述历史告警信息进行数据降维聚合处理,并将数据降维聚合处理之后的所述历史告警信息存储至所述触发分布式文件***中的预设数据库中。
可理解地,本实施例为历史告警信息进行数据降维聚合处理,比如,将7天至14天的历史告警信息数据降维聚合至5分钟的历史告警信息,将14天至30天的历史告警信息数据降维聚合至1小时的历史告警信息。本实施例主要是对历史告警信息进行数据降维聚合处理,以提高历史告警信息的查询效率。
进一步地,所述结合所述告警信息和所述历史告警信息之后,还包括;
获取所述告警信息和所述历史告警信息的发生时间,通过预设时间组件统计所述发生时间位于预设时间范围内的所述告警信息和所述历史告警信息,并获取所述预设时间范围内发生所述告警信息和所述历史告警信息的告警次数;
在确定所述告警次数超过预设告警次数阈值时,在预设时间阈值内通知预设检测方排查出所述基础监控项多次出现告警信息的原因。
可理解地,本实施例主要是针对多次出现的告警信息,以确定出多次出现告警信息的原因,避免在特定时间内重复出现相同的问题,进而影响到基础监控项的监控效率。
进一步地,所述令所述基础监控平台将包含所述当前告警信息的告警通知,按照预设通知渠道发送至与所述基础监控平台存在告警订阅关系的用户终端之后,还包括:
在确定所述预设通知渠道出现异常时,通过预设渠道流转表确定出一个新的通知渠道,并按照所述新的通知渠道,将包含所当前告警信息的告警通知重新流转至存在告警订阅关系的所述用户终端。
可理解地,本实施例是在预设通知渠道出现异常时,重新为用户终端调用出一个新的通知渠道,以及时通知到与用户终端对应的用户。
进一步地,所述令所述基础监控平台通过分布式发布订阅消息***,将所述当前告警信息传输至目标领域***中之后,还包括:
接收所述目标领域***返回的针对所述告警信息的处理结果,将所述处理结果存储至所述分布式发布订阅消息***中,通过预设后端服务将所述处理结果中的处理数据进行数据落地;所述数据落地的过程为根据落地之后的所述处理数据的数据特性,将所述处理数据放入至与所述数据特性对应的Redis或mysql中。
可理解地,Redis是一个开源的使用ANSIC语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库;数据特性包括但不限于string,list,set、zset(sortedset)、varchar及int等数据类型;本实施例主要是通过目标领域***来对告警信息实现处理,以及时对告警信息进行处理,及时排除掉告警信息,并可按照数据特性将处理数据区分存储在Redis或mysql中,以提高处理数据的查询速度
综上所述,上述提供了一种告警监控方法,调用出与监控请求关联且已预先进行告警配置的告警参数,因此可自动根据告警请求完成告警配置,进而以及时监控到告警信息;告警信息与预设维度存在关联关系,因此可按照各预设维度对告警信息进行数据收敛,进而减少了告警信息的数据复杂度;根据运行参数和告警参数生成基础监控项的告警信息之后,在前端页面中以监控模板展示告警信息,因此可用于代替人工通过查询的方式监控告警信息的方法,因此本方法相比人工方法可提高告警信息的监控效率,进而可及时对告警信息作出响应(将当前告警信息传输至目标领域***中,以让目标领域***作出响应);按照预设通知渠道发送至与基础监控平台存在告警订阅关系的用户终端,因此可解决目前无法和内部告警渠道融合的问题;令触发分布式文件***根据预设维度查询到与告警信息对应的历史告警信息,因此可减少历史告警数据的查询时长,进而提高历史告警数据的查询效率,历史告警信息在通过数据降维聚合处理后可存储至触发分布式文件***中的预设数据库,因此可使得归档完整;本方法可借用触发分布式文件***和分布式发布订阅消息***来对告警信息进行管理;令基础监控平台通过分布式发布订阅消息***,将当前告警信息传输至目标领域***中,也即实现将告警处理流程和监控流程中进行解耦,以便于目标领域***及时对当前告警信息作出响应处理(也即过滤掉当前告警信息),提高当前告警信息的处理效率和准确率。本方法还可应用于智慧城市领域中,从而推动智慧城市的建设。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种告警监控装置,该告警监控装置与上述实施例中告警监控方法一一对应。如图3所示,该告警监控装置包括第一获取模块11、展示模块12、结合模块13和传输模块14。各功能模块详细说明如下:
第一获取模块11,用于接收到基础监控平台发出的基础监控项的监控请求时,根据CMDB的上下线流程获取与所述监控请求关联的监控节点;
展示模块12,用于在所述监控节点下,调用出与所述监控请求关联且已预先进行告警配置的告警参数和监控模板,触发所述基础监控项的监测指令,按照所述监控模板在前端页面中全局展示所述基础监控项的运行参数,并根据所述运行参数和所述告警参数生成所述基础监控项的告警信息之后,在所述前端页面中以所述监控模板展示所述告警信息;一个所述告警信息关联一个预设维度;
结合模块13,用于令触发分布式文件***根据所述预设维度查询到与所述告警信息对应的历史告警信息,并在结合所述告警信息和所述历史告警信息之后,得到当前告警信息;
传输模块14,用于令所述基础监控平台将包含所述当前告警信息的告警通知,按照预设通知渠道发送至与所述基础监控平台存在告警订阅关系的用户终端,并令所述基础监控平台通过分布式发布订阅消息***,将所述当前告警信息传输至目标领域***中以起到对所述目标领域***的告警作用。
进一步地,所述告警监控装置还包括:
上线模块,用于在接收到与所述监控请求关联的CMDB的新增机器节点的上线命令后,从预设框架中获取注册在所述预设工具中的所述CMDB的新增机器节点,通过所述CMDB的上下线流程,将所述CMDB的新增机器节点作为与所述监控请求关联的所述监控节点,以完成所述CMDB的新增机器节点的上线。
进一步地,所述告警监控装置还包括:
下发模块,用于在查询到与所述CMDB的上下线流程关联的CMDB信息时,根据部署在与所述监控请求关联的各个所述监控节点上的预设代理软件自动采集监控插件,并将所述监控插件下发至与所述监控插件对应的监控节点中。
进一步地,所述告警监控装置还包括:
存储模块,用于对各个时间范围内的所述历史告警信息进行数据降维聚合处理,并将数据降维聚合处理之后的所述历史告警信息存储至所述触发分布式文件***中的预设数据库中。
进一步地,所述告警监控装置还包括:
第二获取模块,用于获取所述告警信息和所述历史告警信息的发生时间,通过预设时间组件统计所述发生时间位于预设时间范围内的所述告警信息和所述历史告警信息,并获取所述预设时间范围内发生所述告警信息和所述历史告警信息的告警次数;
排查模块,用于在确定所述告警次数超过预设告警次数阈值时,在预设时间阈值内通知预设检测方排查出所述基础监控项多次出现告警信息的原因。
进一步地,所述告警监控装置还包括:
流转模块,用于在确定所述预设通知渠道出现异常时,通过预设渠道流转表确定出一个新的通知渠道,并按照所述新的通知渠道,将包含所当前告警信息的告警通知重新流转至存在告警订阅关系的所述用户终端。
进一步地,所述告警监控装置还包括:
数据落地模块,用于接收所述目标领域***返回的针对所述告警信息的处理结果,将所述处理结果存储至所述分布式发布订阅消息***中,通过预设后端服务将所述处理结果中的处理数据进行数据落地;所述数据落地的过程为根据落地之后的所述处理数据的数据特性,将所述处理数据放入至与所述数据特性对应的Redis或mysql中。
关于告警监控装置的具体限定可以参见上文中对于告警监控方法的限定,在此不再赘述。上述告警监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储告警监控方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种告警监控方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中告警监控方法的步骤,例如图2所示的步骤S10至步骤S40。或者,处理器执行计算机程序时实现上述实施例中告警监控装置的各模块/单元的功能,例如图3所示模块11至模块14的功能。为避免重复,这里不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中告警监控方法的步骤,例如图2所示的步骤S10至步骤S40。或者,计算机程序被处理器执行时实现上述实施例中告警监控装置的各模块/单元的功能,例如图3所示模块11至模块14的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种告警监控方法,其特征在于,包括:
接收到基础监控平台发出的基础监控项的监控请求时,根据CMDB的上下线流程获取与所述监控请求关联的监控节点;
在所述监控节点下,调用出与所述监控请求关联且已预先进行告警配置的告警参数和监控模板,触发所述基础监控项的监测指令,按照所述监控模板在前端页面中全局展示所述基础监控项的运行参数,并根据所述运行参数和所述告警参数生成所述基础监控项的告警信息之后,在所述前端页面中以所述监控模板展示所述告警信息;一个所述告警信息关联一个预设维度;
令触发分布式文件***根据所述预设维度查询到与所述告警信息对应的历史告警信息,并在结合所述告警信息和所述历史告警信息之后,得到当前告警信息;
令所述基础监控平台将包含所述当前告警信息的告警通知,按照预设通知渠道发送至与所述基础监控平台存在告警订阅关系的用户终端,并令所述基础监控平台通过分布式发布订阅消息***,将所述当前告警信息传输至目标领域***中以起到对所述目标领域***的告警作用;
所述根据CMDB的上下线流程获取与所述监控请求关联的监控节点之后,还包括:
在接收到与所述监控请求关联的CMDB的新增机器节点的上线命令后,从预设框架中获取注册在所述预设工具中的所述CMDB的新增机器节点,通过所述CMDB的上下线流程,将所述CMDB的新增机器节点作为与所述监控请求关联的所述监控节点,以完成所述CMDB的新增机器节点的上线;
所述根据CMDB的上下线流程获取与所述监控请求关联的监控节点之后,还包括:
在查询到与所述CMDB的上下线流程关联的CMDB信息时,根据部署在与所述监控请求关联的各个所述监控节点上的预设代理软件自动采集监控插件,并将所述监控插件下发至与所述监控插件对应的监控节点中;
所述结合所述告警信息和所述历史告警信息之后,还包括:
获取所述告警信息和所述历史告警信息的发生时间,通过预设时间组件统计所述发生时间位于预设时间范围内的所述告警信息和所述历史告警信息,并获取所述预设时间范围内发生所述告警信息和所述历史告警信息的告警次数;
在确定所述告警次数超过预设告警次数阈值时,在预设时间阈值内通知预设检测方排查出所述基础监控项多次出现告警信息的原因。
2.根据权利要求1所述的告警监控方法,其特征在于,所述令触发分布式文件***根据所述预设维度查询到与所述告警信息对应的历史告警信息之前,还包括:
对各个时间范围内的所述历史告警信息进行数据降维聚合处理,并将数据降维聚合处理之后的所述历史告警信息存储至所述触发分布式文件***中的预设数据库中。
3.根据权利要求1所述的告警监控方法,其特征在于,所述令所述基础监控平台将包含所述当前告警信息的告警通知,按照预设通知渠道发送至与所述基础监控平台存在告警订阅关系的用户终端之后,还包括:
在确定所述预设通知渠道出现异常时,通过预设渠道流转表确定出一个新的通知渠道,并按照所述新的通知渠道,将包含所当前告警信息的告警通知重新流转至存在告警订阅关系的所述用户终端。
4.根据权利要求1所述的告警监控方法,其特征在于,所述令所述基础监控平台通过分布式发布订阅消息***,将所述当前告警信息传输至目标领域***中之后,还包括:
接收所述目标领域***返回的针对所述告警信息的处理结果,将所述处理结果存储至所述分布式发布订阅消息***中,通过预设后端服务将所述处理结果中的处理数据进行数据落地;所述数据落地的过程为根据落地之后的所述处理数据的数据特性,将所述处理数据放入至与所述数据特性对应的Redis或mysql中。
5.一种告警监控装置,其特征在于,包括:
第一获取模块,用于接收到基础监控平台发出的基础监控项的监控请求时,根据CMDB的上下线流程获取与所述监控请求关联的监控节点;
展示模块,用于在所述监控节点下,调用出与所述监控请求关联且已预先进行告警配置的告警参数和监控模板,触发所述基础监控项的监测指令,按照所述监控模板在前端页面中全局展示所述基础监控项的运行参数,并根据所述运行参数和所述告警参数生成所述基础监控项的告警信息之后,在所述前端页面中以所述监控模板展示所述告警信息;一个所述告警信息关联一个预设维度;
结合模块,用于令触发分布式文件***根据所述预设维度查询到与所述告警信息对应的历史告警信息,并在结合所述告警信息和所述历史告警信息之后,得到当前告警信息;
传输模块,用于令所述基础监控平台将包含所述当前告警信息的告警通知,按照预设通知渠道发送至与所述基础监控平台存在告警订阅关系的用户终端,并令所述基础监控平台通过分布式发布订阅消息***,将所述当前告警信息传输至目标领域***中以起到对所述目标领域***的告警作用;
所述告警监控装置还包括:
上线模块,用于在接收到与所述监控请求关联的CMDB的新增机器节点的上线命令后,从预设框架中获取注册在所述预设工具中的所述CMDB的新增机器节点,通过所述CMDB的上下线流程,将所述CMDB的新增机器节点作为与所述监控请求关联的所述监控节点,以完成所述CMDB的新增机器节点的上线;
所述告警监控装置还包括:
下发模块,用于在查询到与所述CMDB的上下线流程关联的CMDB信息时,根据部署在与所述监控请求关联的各个所述监控节点上的预设代理软件自动采集监控插件,并将所述监控插件下发至与所述监控插件对应的监控节点中;
所述告警监控装置还包括:
第二获取模块,用于获取所述告警信息和所述历史告警信息的发生时间,通过预设时间组件统计所述发生时间位于预设时间范围内的所述告警信息和所述历史告警信息,并获取所述预设时间范围内发生所述告警信息和所述历史告警信息的告警次数;
排查模块,用于在确定所述告警次数超过预设告警次数阈值时,在预设时间阈值内通知预设检测方排查出所述基础监控项多次出现告警信息的原因。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述告警监控方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述告警监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615954.9A CN111611137B (zh) | 2020-06-30 | 2020-06-30 | 告警监控方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615954.9A CN111611137B (zh) | 2020-06-30 | 2020-06-30 | 告警监控方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611137A CN111611137A (zh) | 2020-09-01 |
CN111611137B true CN111611137B (zh) | 2024-05-10 |
Family
ID=72200492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010615954.9A Active CN111611137B (zh) | 2020-06-30 | 2020-06-30 | 告警监控方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611137B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112486573B (zh) * | 2020-11-30 | 2024-04-30 | 深圳市中博科创信息技术有限公司 | 监控***的数据处理方法、数据处理设备及存储介质 |
CN112948213A (zh) * | 2021-03-02 | 2021-06-11 | 中国建设银行股份有限公司 | 一种开源产品监控方法及其相关设备 |
CN113297030B (zh) * | 2021-04-29 | 2023-06-27 | 上海淇玥信息技术有限公司 | 一种数据延时产出监控方法、装置及电子设备 |
CN113489609B (zh) * | 2021-06-30 | 2022-12-02 | 上海森浦信息服务有限公司 | 受限网络下***的监控方法、装置及电子设备 |
CN113740636B (zh) * | 2021-07-26 | 2024-04-19 | 南方电网数字平台科技(广东)有限公司 | 一种便于扩展的配电网应用状态监测***和方法 |
CN113608839A (zh) * | 2021-08-10 | 2021-11-05 | 曙光信息产业(北京)有限公司 | 集群告警方法、装置、计算机设备及存储介质 |
CN113377626B (zh) * | 2021-08-11 | 2021-11-23 | 上海领健信息技术有限公司 | 基于服务树的可视化统一报警方法、装置、设备和介质 |
CN113688015A (zh) * | 2021-08-25 | 2021-11-23 | 深圳华远云联数据科技有限公司 | 告警通知方法、装置、服务器及存储介质 |
CN113849383B (zh) * | 2021-09-27 | 2024-07-05 | 广州华多网络科技有限公司 | 告警通知控制方法及其装置、设备、介质、产品 |
CN113900755B (zh) * | 2021-10-11 | 2024-04-16 | 重庆紫光华山智安科技有限公司 | 告警页面处理方法、装置、计算机设备及可读存储介质 |
CN114063839A (zh) * | 2021-11-04 | 2022-02-18 | 上海云轴信息科技有限公司 | 一种大规模运维监控数据交互的方法及设备 |
CN115689444B (zh) * | 2022-10-25 | 2023-06-13 | 国网物资有限公司 | 基于历史案例的物流自动监控方法、装置、设备和介质 |
CN117743080A (zh) * | 2023-11-17 | 2024-03-22 | 科学城(广州)信息科技集团有限公司 | 一种多源设备的智能告警管理方法、装置、设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103029722A (zh) * | 2012-12-17 | 2013-04-10 | 广州佳都信息技术研发有限公司 | 一种平衡负荷的轨道交通报警数据传送方法 |
CN106371986A (zh) * | 2016-09-08 | 2017-02-01 | 上海新炬网络技术有限公司 | 一种日志处理运维监控*** |
CN106506215A (zh) * | 2016-11-11 | 2017-03-15 | 郑州云海信息技术有限公司 | 一种基于cmdb的自动化运维*** |
CN107124298A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 告警聚合方法及*** |
CN107168847A (zh) * | 2017-04-21 | 2017-09-15 | 国家电网公司 | 一种支撑分布式架构的全链路应用监控方法与装置 |
CN107886242A (zh) * | 2017-11-10 | 2018-04-06 | 平安科技(深圳)有限公司 | 数据监控方法、装置、计算机设备及存储介质 |
CN108847994A (zh) * | 2018-07-25 | 2018-11-20 | 山东中创软件商用中间件股份有限公司 | 基于数据分析的告警定位方法、装置、设备以及存储介质 |
CN109086182A (zh) * | 2018-06-27 | 2018-12-25 | 平安科技(深圳)有限公司 | 数据库自动告警的方法及终端设备 |
CN109783322A (zh) * | 2018-11-22 | 2019-05-21 | 远光软件股份有限公司 | 一种企业信息***运行状态的监控分析***及其方法 |
CN110048888A (zh) * | 2019-04-16 | 2019-07-23 | 深圳市致宸信息科技有限公司 | 一种基于zabbix监控告警的方法、服务器、设备及存储介质 |
CN110493065A (zh) * | 2019-09-03 | 2019-11-22 | 浪潮云信息技术有限公司 | 一种云中心运维的告警关联度分析方法及*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9467344B2 (en) * | 2010-03-26 | 2016-10-11 | Bmc Software, Inc. | Mechanism to display graphical IT infrastructure using configurable smart navigation |
CN105580007A (zh) * | 2013-06-17 | 2016-05-11 | 惠普发展公司,有限责任合伙企业 | 监控计算网络 |
KR101965839B1 (ko) * | 2017-08-18 | 2019-04-05 | 주식회사 티맥스 소프트 | 구성정보 관리 데이터베이스 기반의 it 시스템 장애 분석 기법 |
-
2020
- 2020-06-30 CN CN202010615954.9A patent/CN111611137B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103029722A (zh) * | 2012-12-17 | 2013-04-10 | 广州佳都信息技术研发有限公司 | 一种平衡负荷的轨道交通报警数据传送方法 |
CN106371986A (zh) * | 2016-09-08 | 2017-02-01 | 上海新炬网络技术有限公司 | 一种日志处理运维监控*** |
CN106506215A (zh) * | 2016-11-11 | 2017-03-15 | 郑州云海信息技术有限公司 | 一种基于cmdb的自动化运维*** |
CN107124298A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 告警聚合方法及*** |
CN107168847A (zh) * | 2017-04-21 | 2017-09-15 | 国家电网公司 | 一种支撑分布式架构的全链路应用监控方法与装置 |
CN107886242A (zh) * | 2017-11-10 | 2018-04-06 | 平安科技(深圳)有限公司 | 数据监控方法、装置、计算机设备及存储介质 |
CN109086182A (zh) * | 2018-06-27 | 2018-12-25 | 平安科技(深圳)有限公司 | 数据库自动告警的方法及终端设备 |
CN108847994A (zh) * | 2018-07-25 | 2018-11-20 | 山东中创软件商用中间件股份有限公司 | 基于数据分析的告警定位方法、装置、设备以及存储介质 |
CN109783322A (zh) * | 2018-11-22 | 2019-05-21 | 远光软件股份有限公司 | 一种企业信息***运行状态的监控分析***及其方法 |
CN110048888A (zh) * | 2019-04-16 | 2019-07-23 | 深圳市致宸信息科技有限公司 | 一种基于zabbix监控告警的方法、服务器、设备及存储介质 |
CN110493065A (zh) * | 2019-09-03 | 2019-11-22 | 浪潮云信息技术有限公司 | 一种云中心运维的告警关联度分析方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111611137A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611137B (zh) | 告警监控方法、装置、计算机设备及存储介质 | |
CN109522287B (zh) | 分布式文件存储集群的监控方法、***、设备及介质 | |
CN109032824B (zh) | 数据库校验方法、装置、计算机设备和存储介质 | |
CN109408746B (zh) | 画像信息查询方法、装置、计算机设备和存储介质 | |
CN112910945B (zh) | 请求链路跟踪方法和业务请求处理方法 | |
CN109446068B (zh) | 接口测试方法、装置、计算机设备和存储介质 | |
US10248674B2 (en) | Method and apparatus for data quality management and control | |
US9529652B2 (en) | Triaging computing systems | |
CN111814197B (zh) | 一种数据共享方法、装置及服务器、存储介质 | |
CN110063042B (zh) | 一种数据库故障的响应方法及其终端 | |
CN113608964A (zh) | 一种集群自动化监控方法、装置、电子设备及存储介质 | |
CN110363381B (zh) | 一种信息处理方法和装置 | |
CN111258798A (zh) | 监控数据的故障定位方法、装置、计算机设备及存储介质 | |
CN115017526A (zh) | 数据库访问方法、装置、电子设备及存储介质 | |
WO2016095716A1 (zh) | 一种故障信息处理方法与相关装置 | |
CN107451202B (zh) | 一种数据访问方法及设备 | |
CN117560277A (zh) | 日志处理方法和***、日志管理平台及电子设备 | |
CN113781068B (zh) | 线上问题解决方法、装置、电子设备和存储介质 | |
CN114844771A (zh) | 微服务***的监测方法、装置、存储介质、程序产品 | |
CN111654553B (zh) | 基于中间件的管控操作方法、装置、计算机设备及介质 | |
CN113918204A (zh) | 一种元数据脚本管理方法、装置、电子设备和存储介质 | |
US20160162559A1 (en) | System and method for providing instant query | |
CN113468218A (zh) | 一种对数据库慢sql进行监测和管理的方法和装置 | |
CN112653567B (zh) | 监控方法、装置、计算机设备及存储介质 | |
CN113407504B (zh) | 一种数据处理方法、用户空间文件***以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |