CN112732531A - 一种监控数据的处理方法及装置 - Google Patents

一种监控数据的处理方法及装置 Download PDF

Info

Publication number
CN112732531A
CN112732531A CN202110049853.4A CN202110049853A CN112732531A CN 112732531 A CN112732531 A CN 112732531A CN 202110049853 A CN202110049853 A CN 202110049853A CN 112732531 A CN112732531 A CN 112732531A
Authority
CN
China
Prior art keywords
data
monitoring data
alarm
processing
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110049853.4A
Other languages
English (en)
Inventor
王艳雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
21VIANET GROUP Inc
Original Assignee
21VIANET GROUP Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 21VIANET GROUP Inc filed Critical 21VIANET GROUP Inc
Priority to CN202110049853.4A priority Critical patent/CN112732531A/zh
Publication of CN112732531A publication Critical patent/CN112732531A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开涉及计算机及通信技术领域,尤其涉及一种监控数据的处理方法及装置,解决不同监控***内的监控数据难以整合,且现有的监控***采用一个引擎,进行监控数据的采集、处理和告警,影响监控数据的处理效率的问题,方法为:采用采集引擎抓取监控数据,然后采用处理引擎异步将与告警触发规则匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,再异步采用告警引擎确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。这样,分别采用采集引擎、处理引擎,以及告警引擎,实现监控数据的采集和处理,使得对于监控数据的采集过程、处理过程和告警过程不再具有强关联,极大的提高了监控数据的处理速度和处理效率。

Description

一种监控数据的处理方法及装置
技术领域
本公开涉及计算机及通信技术领域,尤其涉及一种监控数据的处理方法及装置。
背景技术
为满足公司日益复杂的业务处理需要,一个公司内可能存在诸如服务器机房、容器化服务器机房,云服务器等多个监控环境,这也就需要在不同的监控环境中分别部署相应的监控***,以实现对存在于不同监控环境内的各个被监控设备进行监控,常用的监控***包括有普罗米修斯Prometheus***、Zabbix***、Nagios***等等。
但是,对于目前存在的各个监控***来说,只存在一个引擎实现来监控数据的采集、处理和告警的功能,且现有的监控***中的引擎无法与外部的其他***进行对接,也就是说,监控***中的引擎只支持向外部提供数据,而不支持从外部获取数据,这也就极大的影响了现有引擎的处理速度和处理质量,再者,不同监控***之间的监控数据无法交互,当相关人员意图获取不同监控环境下的不同被监控设备的运行状态时,需要分别在不同的监控***上进行操作,极大了降低了对于数据的获取效率,降低了相关人员的工作效率。
发明内容
本公开实施例提供一种监控数据的处理方法及装置,用以解决现有技术中存在的不同监控***内的监控数据难以整合,且现有的监控***采用一个引擎,进行监控数据的采集、处理和告警,影响监控数据的处理效率的问题。
本公开实施例提供的具体技术方案如下:
第一方面,提出一种监控数据的处理方法,包括:
采用采集引擎抓取各个数据管理节点收集的监控数据,并将关联有采集时间戳的各个监控数据异步存储至第一消息队列,其中,所述各个数据管理节点部署在不同监控环境中,用于收集各自的监控环境内包括的被监控设备的运行信息,所述监控数据中包括被监控设备的标识信息;
异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,并将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,其中,待处理数据关联有处理时间戳;
异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。
可选的,所述采用采集引擎抓取各个数据管理节点收集的监控数据,包括以下任意一种方式或组合:
采用采集引擎通过API接口,抓取各个数据管理节点收集各自监控环境中的监控数据,其中,监控数据中包括有被采集时间;
采用采集引擎访问各个数据管理节点的数据库,抓取各个数据库中存储的对应的监控环境中的监控数据,其中,监控数据中包括有被采集时间。
可选的,所述将关联有采集时间戳的各个监控数据异步存储至第一消息队列,包括:
将关联有采集时间戳的各个监控数据异步存储至第一消息队列和第一存储区域;
所述将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,包括:
筛选出匹配成功的各个监控数据,并确定所述各个监控数据各自匹配的告警触发规则;
针对筛选出的每一个监控数据,基于该监控数据关联的采集时间戳和包括的被监控设备标识信息,确定在所述第一存储区域中存在与该监控数据相同的目标监控数据时,确定该监控数据校验成功,以及基于该监控数据的及其匹配的告警触发规则生成一条待处理数据,存储至第二消息队列。
可选的,所述异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,包括:
异步采用处理引擎,按照监控数据所关联的采集时间戳的时间先后顺序,读取所述第一消息队列中未添加有处理标记的监控数据,并将读取的监控数据与保存的告警触发规则进行匹配处理,其中,每读取一个监控数据,将所述第一消息队列中被读取的监控数据添加处理标记。
可选的,所述异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,包括:
异步采用告警引擎,按照待处理数据所关联的处理时间戳的时间先后顺序,获取所述第二消息队列中的未添加有获取标记的待处理数据,其中,每获取一个待处理数据,将所述第二消息队列中被获取的待处理数据添加获取标记。
可选的,所述执行相应的告警策略,包括:
确定每一个待处理数据对应的被监控设备,并访问外部***以获取每一个被监控设备关联的归属信息和处理人员集合,其中,所述归属信息用于辅助处理人员定位被监控设备;
按照与所述被监控设备对应的告警策略,以设定的时间长度为间隔,向所述处理人员集合中的各组处理人员的关联设备,分别发送至少包含有所述归属信息和待处理数据的告警信息,直至接收到所述处理人员集合中任一处理人员基于接收的告警信息反馈的暂停告警信息。
可选的,所述针对每一个待处理数据对应的被监控设备执行对应的告警策略之后,进一步包括:
保存各个待处理数据所对应的告警触发规则以及告警策略的执行记录,并基于保存的监控数据和待处理数据的执行记录,按照设置的显示格式,生成监控报表。
可选的,所述采集引擎、所述处理引擎,以及所述告警引擎分别部署在不同的容器中。
第二方面,提出一种监控数据的处理装置,包括:
抓取单元,用于采用采集引擎抓取各个数据管理节点收集的监控数据,并将关联有采集时间戳的各个监控数据异步存储至第一消息队列,其中,所述各个数据管理节点部署在不同监控环境中,用于收集各自的监控环境内包括的被监控设备的运行信息,所述监控数据中包括被监控设备的标识信息;
匹配单元,用于异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,并将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,其中,待处理数据关联有处理时间戳;
执行单元,用于异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。
可选的,所述采用采集引擎抓取各个数据管理节点收集的监控数据时,所述抓取单元采用以下任意一种方式或组合的方式执行监控数据的抓取:
采用采集引擎通过API接口,抓取各个数据管理节点收集各自监控环境中的监控数据,其中,监控数据中包括有被采集时间;
采用采集引擎访问各个数据管理节点的数据库,抓取各个数据库中存储的对应的监控环境中的监控数据,其中,监控数据中包括有被采集时间。
可选的,所述将关联有采集时间戳的各个监控数据异步存储至第一消息队列时,所述抓取单元用于:
将关联有采集时间戳的各个监控数据异步存储至第一消息队列和第一存储区域;
所述将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列时,所述匹配单元用于:
筛选出匹配成功的各个监控数据,并确定所述各个监控数据各自匹配的告警触发规则;
针对筛选出的每一个监控数据,基于该监控数据关联的采集时间戳和包括的被监控设备标识信息,确定在所述第一存储区域中存在与该监控数据相同的目标监控数据时,确定该监控数据校验成功,以及基于该监控数据的及其匹配的告警触发规则生成一条待处理数据,存储至第二消息队列。
可选的,所述异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理时,所述匹配单元用于:
异步采用处理引擎,按照监控数据所关联的采集时间戳的时间先后顺序,读取所述第一消息队列中未添加有处理标记的监控数据,并将读取的监控数据与保存的告警触发规则进行匹配处理,其中,每读取一个监控数据,将所述第一消息队列中被读取的监控数据添加处理标记。
可选的,所述异步采用告警引擎获取所述第二消息队列中的每一条待处理数据时,所述执行单元用于:
异步采用告警引擎,按照待处理数据所关联的处理时间戳的时间先后顺序,获取所述第二消息队列中的未添加有获取标记的待处理数据,其中,每获取一个待处理数据,将所述第二消息队列中被获取的待处理数据添加获取标记。
可选的,所述执行相应的告警策略时,所述执行单元用于:
确定每一个待处理数据对应的被监控设备,并访问外部***以获取每一个被监控设备关联的归属信息和处理人员集合,其中,所述归属信息用于辅助处理人员定位被监控设备;
按照与所述被监控设备对应的告警策略,以设定的时间长度为间隔,向所述处理人员集合中的各组处理人员的关联设备,分别发送至少包含有所述归属信息和待处理数据的告警信息,直至接收到所述处理人员集合中任一处理人员基于接收的告警信息反馈的暂停告警信息。
可选的,所述针对每一个待处理数据对应的被监控设备执行对应的告警策略之后,所述执行单元进一步用于:
保存各个待处理数据所对应的告警触发规则以及告警策略的执行记录,并基于保存的监控数据和待处理数据的执行记录,按照设置的显示格式,生成监控报表。
可选的,所述采集引擎、所述处理引擎,以及所述告警引擎分别部署在不同的容器中。
第三方面,提出一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行存储器中存储的可执行指令,以实现上述第一方面中任一项所述的监控数据的处理方法。
第四方面,提出一种计算机可读存储介质,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行上述第一方面中任一项所述的监控数据的处理方法。
本公开有益效果如下:
本公开实施例中,采用采集引擎抓取各个数据管理节点收集的监控数据,并将关联有采集时间戳的各个监控数据异步存储至第一消息队列,其中,所述各个数据管理节点部署在不同监控环境中,用于收集各自的监控环境内包括的被监控设备的运行信息,所述监控数据中包括被监控设备的标识信息,然后,异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,并将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,其中,待处理数据关联有处理时间戳,再异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。这样,通过抓取各个数据管理节点收集的不同监控环境中的监控数据,能够实现对不同监控环境下的监控数据的整合处理,而且,分别采用采集引擎、处理引擎,以及告警引擎,实现监控数据的采集和处理,使得对于监控数据的采集过程、处理过程和告警过程不再具有强关联,能够在获取监控数据的同时,异步进行数据处理和告警,极大的提高了监控数据的处理速度和处理效率,其次,通过将监控数据和待处理数据存储至消息队列中,也能够一定程度上提高数据的获取效率,再者,统一采用保存的告警触发规则和告警策略,对存储在消息队列中的数据进行处理,避免了现有技术下对于告警触发规则和告警策略的重复配置,提升了数据的读取速度,使得能够有效获得不同监控环境下各个被监控设备的运行情况。
附图说明
图1为本公开实施例中监控数据处理的交互架构示意图;
图2为本公开实施例中监控数据的处理流程示意图;
图3为本公开实施例中处理人员集合示意图;
图4为本公开实施例中生成的监控报表示意图;
图5为本公开实施例中处理设备的***分层架构图;
图6为本公开实施例中监控数据的处理装置的逻辑结构示意图;
图7为本公开实施例中监控数据的处理装置的实体结构示意图。
具体实施方式
为了使本公开的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本公开,并不用于限定本公开。
本领域技术人员知道,本公开的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
为了解决现有技术中存在的不同监控***内的监控数据难以整合,且现有的监控***采用一个引擎,进行监控数据的采集、处理和告警,影响监控数据的处理效率的问题,本公开针对性地提出一种监控数据的处理方法,采用采集引擎抓取各个数据管理节点收集的监控数据,并将关联有采集时间戳的各个监控数据异步存储至第一消息队列,其中,所述各个数据管理节点部署在不同监控环境中,用于收集各自的监控环境内包括的被监控设备的运行信息,所述监控数据中包括被监控设备的标识信息,然后异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,并将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,其中,待处理数据关联有处理时间戳,再异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。
本公开实施例中,参考图1所示,其为本公开实施中监控数据处理的交互架构示意图。交互架构中至少包括有数据管理节点和处理设备,其中,
数据管理节点,部署在监控环境中,收集监控环境内部的各个被监控设备的运行数据,具体的,一个数据管理节点部署在一个监控环境中,用于收集在对应的监控环境中所管理的各个采集节点上报的被监控设备的监控数据,其中,采集节点部署在被监控设备上,一个被监控设备上部署一个采集节点,监控数据中包括采集的被监控设备的运行数据,以及运行数据的采集时间。
需要说明的是,本公开实施中,数据管理节点具体可以是现有的监控***工具的服务端server,如,Prometheus监控工具的服务端、Zabbix监控工具的服务端、Nagios监控工具的服务端,以及OpenFalon监控工具的服务端等等。现有的监控工具通常包括采集端和服务端两部分,服务端用于收集各自所在的监控环境内的各个采集端采集的监控数据,本公开中,直接借助于应用在不同监控环境内部的监控工具,获取监控工具的服务端收集的监控数据。
处理设备,功能的实现由功能彼此独立的采集引擎、处理引擎,以及告警引擎实现,其中,采集引擎用于实时性地或周期性地抓取各数据管理节点收集的监控数据,并将收集的监控数据异步存储至第一消息队列中;处理引擎采用与采集引擎异步处理的方式,获取第一消息队列中的监控数据,并将监控数据与保存的告警触发规则进行匹配,并将满足告警触发规则的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列;告警引擎异步获取第二消息队列中的每一条待处理数据,确定待处理数据对应的告警策略,并执行相应的告警策略。
需要说明的是,本公开实施例中,根据实际的配置需要,采集引擎、处理引擎,以及告警引擎,可以分别部署在不同容器中,以实现借助于容器的自身特征进行自动的缩容和扩容,在一些实施例中,告警引擎还可以借助于API接口,与外部的***进行对接,获取外部的***中的数据。
下面结合附图,对本公开实施例优选的实施方式进行进一步详细说明:
参考图2所示,其为本公开实施例中监控数据的处理流程示意图,下面结合附图2,对本公开实施中,处理设备对监控数据的处理过程进行说明。
步骤201:采用采集引擎抓取各个数据管理节点收集的监控数据,并将关联有采集时间戳的各个监控数据异步存储至第一消息队列。
处理设备采用采集引擎抓取各个数据管理节点收集的监控数据,具体的,可以采用包括但不限于以下任意一种方式或组合的方式,抓取监控数据。
方式一、采用采集引擎通过API接口,抓取各个数据管理节点收集各自监控环境中的监控数据,其中,监控数据中包括有被采集时间。
处理设备采用采集引擎通过能够获取数据管理节点收集的监控数据的应用程序接口(Application Programming Interface,API),抓取各个数据管理节点收集的监控数据。其中,所述各个数据管理节点部署在不同监控环境中,用于收集各自的监控环境内包括的被监控设备的运行信息,所述监控数据中包括被监控设备的标识信息,API接口是各个数据管理节点各自对外提供的访问接口,使得所述处理设备采用采集引擎能够通过访问API接口抓取各个数据管理节点收集的监控数据。
例如,假设在某公司X内部,存在有服务器机房,以及容器化服务器,且服务器机房的监控环境中采用Zabbix监控工具实施监控,容器化服务器的监控环境中采用Prometheus监控工具实施监控,以Prometheus的监控为例,Prometheus的各个采集端部署在容器化服务器中的各个被监控服务器上,并向Prometheus的服务端上报各自采集的监控数据,且Prometheus监控工具对外提供有API接口,使得处理设备采用采集引擎能够获取Prometheus收集的监控数据,所述监控数据中包括有被采集时间。
方式二、采用采集引擎访问各个数据管理节点的数据库,抓取各个数据库中存储的对应的监控环境中的监控数据,其中,监控数据中包括有被采集时间。
处理设备采用采集引擎访问各个数据管理节点的数据库,抓取各个数据库中存储的各自监控环境中的监控数据,也就是说,处理设备可以直接访问各个数据管理节点的数据库,获取数据库中存储的监控数据。
这样,通过访问API接口或者访问数据库的方式,能够获取监控数据,相当于获取了不同监控环境中的监控数据,实现了将不同监控环境下采集的监控数据的整合。
需要说明的是,本公开实施例中,采集引擎可以部署在容器中,使得能够根据实际的处理需求,借助于容器的特性,调整容器中采集引擎的数量,本公开中根据实际的处理需要,可以采用多个采集引擎,并行抓取各个数据管理节点收集的监控数据。
本公开一些实施例中,可以周期性采用采集引擎抓取监控数据,具体的,假设以设定的时间长度为周期,抓取各个数据处理节点收集的监控数据时,则每次抓取的监控数据的关联的采集时间在上一次抓取周期和此次抓取周期之间,例如,假设设定的时间长度为15min,也就是每15min进行一次监控数据的抓取,则当前抓取的监控数据是在过去的15min内产生的。本公开的另一些实施例中,可以实时的采用采集引擎抓取各个数据管理节点收集的监控数据,以实现实时处理。
进一步的,所述处理设备将关联有采集时间戳的各个监控数据异步存储至第一消息队列,也就是说,所述处理设备对于监控数据的抓取操作和存储操作是异步进行的,使得监控数据的抓取和存储不具有强关联性,对于监控数据的不同操作之间互不干扰。
需要说明的是,本公开实施例中,可以将关联有采集时间戳的各个监控数据异步存储至第一消息队列和第一存储区域,也就是说,在异步将监控数据写入第一消息队列中的同时,可以将监控数据同步写入第一存储区域,相当于将监控数据保存至能够持久化存储的位置,如,磁盘中,以便于后续回溯被监控设备的监控数据。
这样,通过将抓取的监控数据异步存储至消息队列,解除了监控数据的抓取与存储之间的强关联性,一定程度上提高了数据的获取效率,而且,将监控数据存储至消息队列中,也能够一定程度上提高数据的读取速度,为监控数据的快速处理提供支持。
步骤202:异步采用处理引擎将第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,并将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,其中,待处理数据关联有处理时间戳。
处理设备异步采用处理引擎将第一消息队列中的每一条监控数据,与保存的各个告警规则进行匹配处理,具体的,所述处理设备异步采用处理引擎,按照监控数据所关联的采集时间戳的时间先后顺序,读取所述第一消息队列中未添加有处理标记的监控数据,并将读取的监控数据与保存的告警触发规则进行匹配处理,其中,每读取一个监控数据,将所述第一消息队列中被读取的监控数据添加处理标记。
也就是说,所述处理设备将监控数据存储至第一消息队列时,异步读取所述第一消息队列中的监控数据,换言之,将监控数据存储至第一消息队列的操作,与读取所述第一消息队列中存储的监控数据的操作是异步进行的,彼此之间不具有关联性,所述处理设备可以在不断向第一消息队列中存储数据的同时,读取所述第一消息队列中的数据进行处理。在读取监控数据时,所述处理设备按照所述第一消息队列中各个监控数据所关联的采集时间戳的时间先后顺序,读取所述第一消息队列中未添加有处理标记的监控数据,即,采集时间戳对应的采集时间在前的监控数据先被读取,且为保证所述第一消息队列中的监控数据不被重复读取,每读取一个监控数据,将所述第一消息队列中被读取的监控数据添加处理标记,并将读取的每一条监控数据与保存的各个告警触发规则进行匹配处理。
本公开实施例中,处理引擎可以部署在容器中,使得能够根据实际的处理需求,借助于容器的特性,调整容器中处理引擎的数量,本公开中,根据实际的处理需要,可以采用多个处理引擎并行将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,其中,部署有处理引擎的容器与部署有采集引擎的容器不同。
本公开实施例中,涉及到的告警触发规则包括但不限于:内存占用率超过各设定阈值、CPU使用率达到各设定门限值等等,本公开中采用的告警触发规则可以沿用现有的监控***中存在的告警触发规则,本公开在此不做具体限定。
进一步的,所述处理设备采用处理引擎将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,其中,待处理数据关联有处理时间戳。
具体的,所述处理设备采用处理引擎对每一条监控数据进行匹配处理,并在确定该监控数据与保存的告警触发规则匹配时,将该监控数据及其匹配的告警触发规则作为待处理数据,并将关联有处理时间戳的待处理数据存储至第二消息队列中,其中,所述处理设备可能保存有多条告警触发规则,对于获取的一条监控数据来说,当确定该监控数据与任意一项告警触发规则匹配成功时,则视为该监控数据与保存的各个告警触发规则匹配成功。
需要说明的是,本公开实施例中,在确定匹配的告警触发规则时,可以将同一类型下最接近的告警触发规则,作为匹配的告警触发规则,例如,假设告警触发规则中包括有CPU使用率达到50%、CPU使用率达到60%、CPU使用率达到70%等情况,若当前的监控数据中CPU使用率为85%,那么可知,当前监控数据满足了CPU使用率这一告警类型下的三条告警触发规则,在确定匹配的告警触发规则时,则认为CPU使用率达到70%为匹配的告警触发规则。
本公开的一些实施例中,基于保存有待处理数据的第二消息队列,所述处理设备可以根据实际的处理需要,分析执行的被监控设备在一定时间之内触发告警的情况,有助于对于被监控设备进行故障分析和故障排除。
这样,采用区别于采集引擎的处理引擎,能够实现将监控数据与保存的各个告警触发规则进行匹配处理,使得监控数据的采集过程与处理过程能够异步进行,彼此之间无先后的强关联关系,避免了现有技术下由于监控数据的采集和处理功能由同一引擎所造成的处理效率低的问题。
需要说明的是,本公开的一些实施例中,在监控数据存储在第一消息队列和第一存储区域的情况下,所述处理设备确定监控数据与告警触发规则匹配成功之后,以及所述处理设备在将监控数据及其匹配成功的告警触发规则作为待处理数据存储至第二消息队列之前,所述处理设备可以筛选出匹配成功的各个监控数据,并确定所述各个监控数据各自匹配的告警触发规则,再针对筛选出的每一个监控数据,基于该监控数据关联的采集时间戳和包括的被监控设备标识信息,确定在所述第一存储区域中存在与该监控数据相同的目标监控数据时,确定该监控数据校验成功,以及基于该监控数据的及其匹配的告警触发规则生成一条待处理数据,存储至第二消息队列。
这样,一定程度上能够保证监控数据的可靠性,避免存储在第二消息队列中的待处理数据存在错误,保证对于监控数据的有效处理。
步骤203:异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。
处理设备在采用处理引擎,将与保存的各个告警触发规则进行匹配处理后,并将匹配成功的监控数据及其匹配告警触发规则存储至第二消息队列的同时,异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,确定每一条待处理数据中的告警触发规则对应的告警策略。
具体的,所述处理设备异步采用告警引擎,按照待处理数据所关联的处理时间戳的时间先后顺序,获取所述第二消息队列中的未添加有获取标记的待处理数据,其中,每获取一个待处理数据,将所述第二消息队列中被获取的待处理数据添加获取标记。
也就是说,所述处理设备在不断向第二消息队列中存储待处理数据的同时,异步采用告警引擎读取第二消息队列中的待处理数据,其中,在读取待处理数据的过程中,按照待处理数据关联的处理时间戳的时间先后顺序,读取所述第二消息队列中未添加有获取标记的待处理数据,即,处理时间戳对应的处理时间在前的待处理数据先被获取,且为保证所述第二消息队列中的待处理数据不被重复获取,每获取一个待处理数据,将所述第二消息队列中被获取的待处理数据添加获取标记。
进一步的,所述处理设备采用告警引擎确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。
本公开实施例中,所述处理设备可以预先建立告警触发规则与告警策略之间的对应关系,所述告警策略表征针对告警触发规则设置的告警方式,使得在确定告警触发规则后,能够确定与其匹配的告警策略,本公开的一些实施例中,可以针对各个告警触发规则配置规则标识信息(Identity,ID),以及针对各个告警策略发配置对应的策略ID,并将保存在待处理信息中的告警触发规则以规则ID的形式体现,使得所述处理设备后续能够根据规则ID确定与之对应的策略ID,以及根据获得的策略ID确定对应的告警策略。
需要说明的是,本公开实施例中,告警引擎可以部署在容器中,使得能够根据实际的处理需求,借助于容器的特性,调整容器中告警引擎的数量,本公开中,根据实际的处理需要,可以采用多个告警引擎并行获取第二消息队列中的待处理数据,并确定对应的告警策略,以及执行相应的告警策略。
所述处理设备在采用告警引擎,针对每一条待处理数据,执行相应的告警策略时,本公开的一些实施例中,可以针对每一个待处理数据对应的被监控设备,生成相应的告警信息,并向保存的相关人员呈现告警信息。本公开的另一些实施例中,所述处理设备采用告警引擎确定每一个待处理数据对应的被监控设备,并访问外部***以获取每一个被监控设备关联的归属信息和处理人员集合,其中,所述归属信息用于辅助处理人员定位被监控设备,再按照与所述被监控设备对应的告警策略,以设定的时间长度为间隔,向所述处理人员集合中的各组处理人员的关联设备,分别发送至少包含有所述归属信息和待处理数据的告警信息,直至接收到所述处理人员集合中任一处理人员基于接收的告警信息反馈的暂停告警信息。
也就是说,本公开中,所述处理设备可以通过告警引擎与外部***建立数据交互,获取外部***提供的被监控设备的归属信息和被监控设备关联的处理人员集合,使得接收所述归属信息的处理人员能够准确定位被监控设备的位置,所述处理人员集合中包括有各组处理人员,其中,不同组的处理人员之间存在交集,可以进行交互的外部***包括能够提供被监控设备的位置信息的***,以及能够提供被监控设备关联的处理人员集合的用户***。
参考图3所示,其为本公开实施例中的处理人员集合示意图,数据人员集合中包括有不同组的处理人员,其中不同组包括的处理人员不同,包括处理人员的人数最小的组在发送告警信息时最先被通知,随着检测出需要告警的时间的增加,在确定未接收到任何处理人员的回复时,按照设置的各组处理人员,逐渐加大处理人员的通知范围,如,最先通知的是第一处理人员集合中的各个处理人员,若一定时间内未收到相关处理人员的回复,则进一步的,通知第二处理人员集合中的各个处理人员,以及若一定时间内依旧未收到相关人员的回复,则通知第三处理人员集合中的各个处理人员,其中,第二处理人员集合中包括有第一处理人员集合,第三处理人员集合中包括有第二处理人员集合。对应的,在接收到被通知的处理人员指示的通知暂停信息后,停止向处理人员发送告警信息,其中,所述告警信息中至少包含有所述归属信息和待处理数据。
进一步的,本公开实施例中,所述处理设备保存各个待处理数据所对应的告警触发规则以及告警策略的执行记录,并基于保存的监控数据和待处理数据的执行记录,按照设置的显示格式,生成监控报表。
具体的,所述处理设备针对各个待处理数据,保存对应的告警触发规则以及告警策略的执行记录,并基于保存的监控数据和所述各个待处理数据的执行记录,按照设定的显示格式,进行统计和分析,生成监控报表。
例如,参考图4所示,其为本公开实施例中生成的监控报表示意图,处理设备可以分析获得的监控数据和告警策略的执行记录,确定满足告警触发规则的各个被监控设备,进行统计后可以根据被监控设备所满足的告警触发规则的数目,将满足一定数目的告警触发规则的被监控设备设置为严重告警,同时,可以一定时间内的告警情况所针对的告警触发规则,诸如,CPU情况、网络情况、内存情况、存储情况,以及硬盘情况等等,而且,所述处理设备针对告警触发规则所针对的指标,进行分析,如,示意性的呈现主机告警排名前5的被监控设备,或者,可选择的呈现CPU使用率排名前5的被监控设备。
基于同一发明构思,参考图5所示,其为本公开实施例中处理设备的***分层架构图,处理设备可以分层级部署,分别为采集引擎所在的数据获取层、处理引擎所在的数据处理层,以及示警引擎所在的告警通知层,其中,各层均支持容器化、分布式部署运行,利用容器的快速扩容和缩容特性,保证海量数据的高并发快速处理,而且不同采集引擎、处理引擎和告警引擎之间的操作异步,也就是说,各个引擎之间的操作互联解耦,保证了监控数据处理的高效性以及告警的及时性。
在图5所示意的***中,采集引擎获取各个数据管理节点收集的监控数据,异步地将关联有采集时间戳的各个监控数据写入第一存储区域和第一消息队列中,进而处理设备异步地采用处理引擎,获取保存的告警规则和第一消息队列中的监控数据,进而将匹配成功的告警触发规则以及对应的监控数据作为待处理数据存储至第二消息队列中,以及异步采用示警引擎,获取第二消息队列中的待处理数据,并确定与每一个待处理数据中的告警触发规则匹配的告警策略,于此同时,可以通过外部的***,获取诸如被监控设备的位置信息,以及关联的处理人员信息,进而针对性的执行告警策略,并保存告警记录和执行记录,进一步的,可以以后台任务的方式,根据保存的报警记录和执行记录,生成符合需要的监控报表。
基于同一发明构思,参阅图6所示,其为本公开实施例中监控数据的处理装置的逻辑结构示意图,包括,抓取单元601,匹配单元602,以及执行单元603,其中,
抓取单元601,用于采用采集引擎抓取各个数据管理节点收集的监控数据,并将关联有采集时间戳的各个监控数据异步存储至第一消息队列,其中,所述各个数据管理节点部署在不同监控环境中,用于收集各自的监控环境内包括的被监控设备的运行信息,所述监控数据中包括被监控设备的标识信息;
匹配单元602,用于异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,并将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,其中,待处理数据关联有处理时间戳;
执行单元603,用于异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。
可选的,所述采用采集引擎抓取各个数据管理节点收集的监控数据时,所述抓取单元601采用以下任意一种方式或组合的方式执行监控数据的抓取:
采用采集引擎通过API接口,抓取各个数据管理节点收集各自监控环境中的监控数据,其中,监控数据中包括有被采集时间;
采用采集引擎访问各个数据管理节点的数据库,抓取各个数据库中存储的对应的监控环境中的监控数据,其中,监控数据中包括有被采集时间。
可选的,所述将关联有采集时间戳的各个监控数据异步存储至第一消息队列时,所述抓取单元601用于:
将关联有采集时间戳的各个监控数据异步存储至第一消息队列和第一存储区域;
所述将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列时,所述匹配单元602用于:
筛选出匹配成功的各个监控数据,并确定所述各个监控数据各自匹配的告警触发规则;
针对筛选出的每一个监控数据,基于该监控数据关联的采集时间戳和包括的被监控设备标识信息,确定在所述第一存储区域中存在与该监控数据相同的目标监控数据时,确定该监控数据校验成功,以及基于该监控数据的及其匹配的告警触发规则生成一条待处理数据,存储至第二消息队列。
可选的,所述异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理时,所述匹配单元602用于:
异步采用处理引擎,按照监控数据所关联的采集时间戳的时间先后顺序,读取所述第一消息队列中未添加有处理标记的监控数据,并将读取的监控数据与保存的告警触发规则进行匹配处理,其中,每读取一个监控数据,将所述第一消息队列中被读取的监控数据添加处理标记。
可选的,所述异步采用告警引擎获取所述第二消息队列中的每一条待处理数据时,所述执行单元603用于:
异步采用告警引擎,按照待处理数据所关联的处理时间戳的时间先后顺序,获取所述第二消息队列中的未添加有获取标记的待处理数据,其中,每获取一个待处理数据,将所述第二消息队列中被获取的待处理数据添加获取标记。
可选的,所述执行相应的告警策略时,所述执行单元603用于:
确定每一个待处理数据对应的被监控设备,并访问外部***以获取每一个被监控设备关联的归属信息和处理人员集合,其中,所述归属信息用于辅助处理人员定位被监控设备;
按照与所述被监控设备对应的告警策略,以设定的时间长度为间隔,向所述处理人员集合中的各组处理人员的关联设备,分别发送至少包含有所述归属信息和待处理数据的告警信息,直至接收到所述处理人员集合中任一处理人员基于接收的告警信息反馈的暂停告警信息。
可选的,所述针对每一个待处理数据对应的被监控设备执行对应的告警策略之后,所述执行单元603进一步用于:
保存各个待处理数据所对应的告警触发规则以及告警策略的执行记录,并基于保存的监控数据和待处理数据的执行记录,按照设置的显示格式,生成监控报表。
可选的,所述采集引擎、所述处理引擎,以及所述告警引擎分别部署在不同的容器中。
基于同一发明构思,参阅图7所示,其为本公开实施例中监控数据的处理装置的实体结构示意图,包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述方法。
装置700还可以包括一个电源组件726被配置为执行装置700的电源管理,一个有线或无线网络接口750被配置为将装置700连接到网络,和一个输入输出(I/O)接口758。装置700可以操作基于存储在存储器732的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似***。
基于同一发明构思,本公开实施例中基于监控数据的处理的实施例中提供一种存储介质,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行上述任一种方法。
综上所述,本公开实施例中,采用采集引擎抓取各个数据管理节点收集的监控数据,并将关联有采集时间戳的各个监控数据异步存储至第一消息队列,其中,所述各个数据管理节点部署在不同监控环境中,用于收集各自的监控环境内包括的被监控设备的运行信息,所述监控数据中包括被监控设备的标识信息,然后,异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,并将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,其中,待处理数据关联有处理时间戳,再异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。这样,通过抓取各个数据管理节点收集的不同监控环境中的监控数据,能够实现不同监控环境下的监控数据的整合处理,而且,分别采用采集引擎、处理引擎,以及告警引擎,实现监控数据的采集和处理,使得对于监控数据的采集过程、处理过程和告警过程不再具有强关联,能够在获取监控数据的同时,异步进行数据处理和告警,极大的提高了监控数据的处理速度和处理效率,其次,通过将监控数据和待处理数据存储至消息队列中,也能够一定程度上提高数据的获取效率,再者,统一采用保存的告警触发规则和告警策略,对存储在消息队列中的数据进行处理,避免了现有技术下对于告警触发规则和告警策略的重复配置,提升了数据的读取速度,使得能够有效获得不同监控环境下各个被监控设备的运行情况。
本领域内的技术人员应明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。
显然,本领域的技术人员可以对本公开实施例进行各种改动和变型而不脱离本公开实施例的精神和范围。这样,倘若本公开实施例的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。

Claims (18)

1.一种监控数据的处理方法,其特征在于,包括:
采用采集引擎抓取各个数据管理节点收集的监控数据,并将关联有采集时间戳的各个监控数据异步存储至第一消息队列,其中,所述各个数据管理节点部署在不同监控环境中,用于收集各自的监控环境内包括的被监控设备的运行信息,所述监控数据中包括被监控设备的标识信息;
异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,并将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,其中,待处理数据关联有处理时间戳;
异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。
2.如权利要求1所述的方法,其特征在于,所述采用采集引擎抓取各个数据管理节点收集的监控数据,包括以下任意一种方式或组合:
采用采集引擎通过API接口,抓取各个数据管理节点收集各自监控环境中的监控数据,其中,监控数据中包括有被采集时间;
采用采集引擎访问各个数据管理节点的数据库,抓取各个数据库中存储的对应的监控环境中的监控数据,其中,监控数据中包括有被采集时间。
3.如权利要求1所述的方法,其特征在于,所述将关联有采集时间戳的各个监控数据异步存储至第一消息队列,包括:
将关联有采集时间戳的各个监控数据异步存储至第一消息队列和第一存储区域;
所述将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,包括:
筛选出匹配成功的各个监控数据,并确定所述各个监控数据各自匹配的告警触发规则;
针对筛选出的每一个监控数据,基于该监控数据关联的采集时间戳和包括的被监控设备标识信息,确定在所述第一存储区域中存在与该监控数据相同的目标监控数据时,确定该监控数据校验成功,以及基于该监控数据的及其匹配的告警触发规则生成一条待处理数据,存储至第二消息队列。
4.如权利要求1所述的方法,其特征在于,所述异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,包括:
异步采用处理引擎,按照监控数据所关联的采集时间戳的时间先后顺序,读取所述第一消息队列中未添加有处理标记的监控数据,并将读取的监控数据与保存的告警触发规则进行匹配处理,其中,每读取一个监控数据,将所述第一消息队列中被读取的监控数据添加处理标记。
5.如权利要求1-4任一项所述的方法,其特征在于,所述异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,包括:
异步采用告警引擎,按照待处理数据所关联的处理时间戳的时间先后顺序,获取所述第二消息队列中的未添加有获取标记的待处理数据,其中,每获取一个待处理数据,将所述第二消息队列中被获取的待处理数据添加获取标记。
6.如权利要求1-4任一项所述的方法,其特征在于,所述执行相应的告警策略,包括:
确定每一个待处理数据对应的被监控设备,并访问外部***以获取每一个被监控设备关联的归属信息和处理人员集合,其中,所述归属信息用于辅助处理人员定位被监控设备;
按照与所述被监控设备对应的告警策略,以设定的时间长度为间隔,向所述处理人员集合中的各组处理人员的关联设备,分别发送至少包含有所述归属信息和待处理数据的告警信息,直至接收到所述处理人员集合中任一处理人员基于接收的告警信息反馈的暂停告警信息。
7.如权利要求6所述的方法,其特征在于,所述针对每一个待处理数据对应的被监控设备执行对应的告警策略之后,进一步包括:
保存各个待处理数据所对应的告警触发规则以及告警策略的执行记录,并基于保存的监控数据和待处理数据的执行记录,按照设置的显示格式,生成监控报表。
8.如权利要求1-4任一项所述的方法,其特征在于,所述采集引擎、所述处理引擎,以及所述告警引擎分别部署在不同的容器中。
9.一种监控数据的处理装置,其特征在于,包括:
抓取单元,用于采用采集引擎抓取各个数据管理节点收集的监控数据,并将关联有采集时间戳的各个监控数据异步存储至第一消息队列,其中,所述各个数据管理节点部署在不同监控环境中,用于收集各自的监控环境内包括的被监控设备的运行信息,所述监控数据中包括被监控设备的标识信息;
匹配单元,用于异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理,并将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列,其中,待处理数据关联有处理时间戳;
执行单元,用于异步采用告警引擎获取所述第二消息队列中的每一条待处理数据,确定每一条待处理数据中的告警触发规则对应的告警策略,并执行相应的告警策略。
10.如权利要求9所述的装置,其特征在于,所述采用采集引擎抓取各个数据管理节点收集的监控数据时,所述抓取单元采用以下任意一种方式或组合的方式执行监控数据的抓取:
采用采集引擎通过API接口,抓取各个数据管理节点收集各自监控环境中的监控数据,其中,监控数据中包括有被采集时间;
采用采集引擎访问各个数据管理节点的数据库,抓取各个数据库中存储的对应的监控环境中的监控数据,其中,监控数据中包括有被采集时间。
11.如权利要求9所述的装置,其特征在于,所述将关联有采集时间戳的各个监控数据异步存储至第一消息队列时,所述抓取单元用于:
将关联有采集时间戳的各个监控数据异步存储至第一消息队列和第一存储区域;
所述将匹配成功的监控数据及其匹配的告警触发规则作为待处理数据,存储至第二消息队列时,所述匹配单元用于:
筛选出匹配成功的各个监控数据,并确定所述各个监控数据各自匹配的告警触发规则;
针对筛选出的每一个监控数据,基于该监控数据关联的采集时间戳和包括的被监控设备标识信息,确定在所述第一存储区域中存在与该监控数据相同的目标监控数据时,确定该监控数据校验成功,以及基于该监控数据的及其匹配的告警触发规则生成一条待处理数据,存储至第二消息队列。
12.如权利要求9所述的装置,其特征在于,所述异步采用处理引擎将所述第一消息队列中的每一条监控数据,与保存的各个告警触发规则进行匹配处理时,所述匹配单元用于:
异步采用处理引擎,按照监控数据所关联的采集时间戳的时间先后顺序,读取所述第一消息队列中未添加有处理标记的监控数据,并将读取的监控数据与保存的告警触发规则进行匹配处理,其中,每读取一个监控数据,将所述第一消息队列中被读取的监控数据添加处理标记。
13.如权利要求9-12任一项所述的装置,其特征在于,所述异步采用告警引擎获取所述第二消息队列中的每一条待处理数据时,所述执行单元用于:
异步采用告警引擎,按照待处理数据所关联的处理时间戳的时间先后顺序,获取所述第二消息队列中的未添加有获取标记的待处理数据,其中,每获取一个待处理数据,将所述第二消息队列中被获取的待处理数据添加获取标记。
14.如权利要求9-12任一项所述的装置,其特征在于,所述执行相应的告警策略时,所述执行单元用于:
确定每一个待处理数据对应的被监控设备,并访问外部***以获取每一个被监控设备关联的归属信息和处理人员集合,其中,所述归属信息用于辅助处理人员定位被监控设备;
按照与所述被监控设备对应的告警策略,以设定的时间长度为间隔,向所述处理人员集合中的各组处理人员的关联设备,分别发送至少包含有所述归属信息和待处理数据的告警信息,直至接收到所述处理人员集合中任一处理人员基于接收的告警信息反馈的暂停告警信息。
15.如权利要求14所述的装置,其特征在于,所述针对每一个待处理数据对应的被监控设备执行对应的告警策略之后,所述执行单元进一步用于:
保存各个待处理数据所对应的告警触发规则以及告警策略的执行记录,并基于保存的监控数据和待处理数据的执行记录,按照设置的显示格式,生成监控报表。
16.如权利要求9-12任一项所述的装置,其特征在于,所述采集引擎、所述处理引擎,以及所述告警引擎分别部署在不同的容器中。
17.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行存储器中存储的可执行指令,以实现如权利要求1至8中任一项所述的监控数据的处理方法。
18.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行如权利要求1至8中任一项所述的监控数据的处理方法。
CN202110049853.4A 2021-01-14 2021-01-14 一种监控数据的处理方法及装置 Pending CN112732531A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110049853.4A CN112732531A (zh) 2021-01-14 2021-01-14 一种监控数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110049853.4A CN112732531A (zh) 2021-01-14 2021-01-14 一种监控数据的处理方法及装置

Publications (1)

Publication Number Publication Date
CN112732531A true CN112732531A (zh) 2021-04-30

Family

ID=75593126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110049853.4A Pending CN112732531A (zh) 2021-01-14 2021-01-14 一种监控数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN112732531A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113783890A (zh) * 2021-09-24 2021-12-10 国网山西省电力公司电力科学研究院 基于边缘计算的智慧物联体系物联终端安全监测***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7448048B1 (en) * 2003-05-27 2008-11-04 International Business Machines Corporation Method for performing real-time analytics using a business rules engine on real-time heterogeneous materialized data views
CN102625349A (zh) * 2012-03-09 2012-08-01 浪潮通信信息***有限公司 一种告警风暴下的数据处理方法
CN107729214A (zh) * 2017-10-13 2018-02-23 福建富士通信息软件有限公司 一种可视化的分布式***实时监控运维方法及装置
CN110362455A (zh) * 2019-07-15 2019-10-22 北京奇艺世纪科技有限公司 一种数据处理方法和数据处理装置
CN111786833A (zh) * 2020-07-01 2020-10-16 浪潮云信息技术股份公司 一种基于云服务平台的告警匹配处理的实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7448048B1 (en) * 2003-05-27 2008-11-04 International Business Machines Corporation Method for performing real-time analytics using a business rules engine on real-time heterogeneous materialized data views
CN102625349A (zh) * 2012-03-09 2012-08-01 浪潮通信信息***有限公司 一种告警风暴下的数据处理方法
CN107729214A (zh) * 2017-10-13 2018-02-23 福建富士通信息软件有限公司 一种可视化的分布式***实时监控运维方法及装置
CN110362455A (zh) * 2019-07-15 2019-10-22 北京奇艺世纪科技有限公司 一种数据处理方法和数据处理装置
CN111786833A (zh) * 2020-07-01 2020-10-16 浪潮云信息技术股份公司 一种基于云服务平台的告警匹配处理的实现方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113783890A (zh) * 2021-09-24 2021-12-10 国网山西省电力公司电力科学研究院 基于边缘计算的智慧物联体系物联终端安全监测***

Similar Documents

Publication Publication Date Title
US7467067B2 (en) Self-learning integrity management system and related methods
KR20210019564A (ko) 운영 유지 시스템 및 방법
CN106101130B (zh) 一种网络恶意数据检测方法、装置及***
US20130246001A1 (en) Device monitoring system and method
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
CN114189430A (zh) 立体化日志全链路监控***、方法、介质及设备
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN109164780A (zh) 一种基于边缘计算的工业现场设备控制方法、装置及***
CN106940677A (zh) 一种应用日志数据告警方法及装置
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN113949652B (zh) 基于人工智能的用户异常行为检测方法、装置及相关设备
CN106021613A (zh) 一种基于Hadoop的桥梁健康监测***
CN108809734A (zh) 网络告警根源分析方法、***、存储介质及计算机设备
CN111563022A (zh) 一种集中式存储器监控方法和装置
CN108055152B (zh) 基于分布式服务日志的通信网络信息***异常检测方法
CN113342608B (zh) 流式计算引擎任务的监控方法及装置
CN112732531A (zh) 一种监控数据的处理方法及装置
CN110363381A (zh) 一种信息处理方法和装置
CN114598719A (zh) 智慧城市物联事件管理方法、装置及可读介质
CN105897498A (zh) 一种监控业务的方法及设备
CN113760689A (zh) 接口故障的报警方法、装置、设备及存储介质
CN107515864B (zh) 监控工作流的方法及设备
CN115225470B (zh) 一种业务异常监测方法、装置、电子设备及存储介质
CN106649034A (zh) 一种可视化智能运维方法及平台
CN109614330A (zh) 存储***业务测试方法、装置、***、存储控制器及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination