CN113821412A - 一种设备运维管理方法及装置 - Google Patents

一种设备运维管理方法及装置 Download PDF

Info

Publication number
CN113821412A
CN113821412A CN202111128350.2A CN202111128350A CN113821412A CN 113821412 A CN113821412 A CN 113821412A CN 202111128350 A CN202111128350 A CN 202111128350A CN 113821412 A CN113821412 A CN 113821412A
Authority
CN
China
Prior art keywords
alarm
alarm information
target
information
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111128350.2A
Other languages
English (en)
Inventor
杨赭
王璐璐
朱斌
李晓宇
徐育全
陈其刚
黄明罡
蔡元飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111128350.2A priority Critical patent/CN113821412A/zh
Publication of CN113821412A publication Critical patent/CN113821412A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Alarm Systems (AREA)

Abstract

本发明提供一种设备运维管理方法及装置,包括在接收到主告警服务器发送的初始告警信息时,基于初始告警信息进行拆分处理,得到目标告警字段;将目标告警字段写入预设告警信息表,生成目标告警信息。确定标准化处理后的目标告警信息所处的告警级别;在确定目标告警信息所处的告警级别时,执行与告警级别相应的操作。在本方案中,不再需要人工进行状态巡检,当任何地方任何设备的任何部件发生故障时,对故障发送地的告警中心发送的初始告警信息进行处理,得到目标告警字段,并将需要的目标告警字段写入预设告警信息表,生成目标告警信息;从而根据目标告警信息所处的告警级别执行相应的操作。不仅能够减少运维成本,且能够快速进行告警分析。

Description

一种设备运维管理方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种设备运维管理方法及装置。
背景技术
大多数大型银行的核心***均使用了万国商业机器公司IBM的硬件设备,主要包括IBM大型主机(Mainframe)、存储、交换机、磁带库等。随着大型银行的数据大集中和设备的使用效率,需要在数据中心集中对这些硬件设备作集中运维管理。由于灾备环境两地三中心的建设,硬件设备不仅在数量上数倍的增长,设备之间的连接关系更是变得错综复杂,因此,对设备的运维管理提出了更高的要求。
目前,硬件设备运维管理的方式是在三个中心分别安排硬件设备运维人员每日进机房进行例行巡检,发现设备状态异常后,再进行拓扑关系查找,分析对银行业务的影响。由于需要大量的人工,且设备之间的连接关系较为复杂,因此,通过上述方式不仅会增加运维成本,且无法快速进行告警分析。
发明内容
有鉴于此,本发明实施例提供一种设备运维管理方法及装置,以解决现有技术中存在的不仅会增加人工成本,无法快速进行告警分析的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面示出了一种设备运维管理方法,所述方法包括:
在接收到主告警服务器发送的初始告警信息时,基于所述初始告警信息进行拆分处理,得到目标告警字段;
将所述目标告警字段写入预设告警信息表,生成目标告警信息;
确定标准化处理后的目标告警信息所处的告警级别;
在确定所述目标告警信息所处的告警级别时,执行与所述告警级别相应的操作。
可选的,所述基于所述初始告警信息进行拆分处理,得到目标告警字段,包括:
对所述初始告警信息进行拆分处理,得到初始告警字段;
对所述初始告警字段进行信息补充,得到目标告警字段。
可选的,所述确定标准化处理后的目标告警信息所处的告警级别,包括:
将所述目标告警信息进行标准化处理,得到标准化处理后的目标告警信息;
对所述目标告警信息进行识别,确定所述目标告警信息所对应的数值与第一阈值、第二阈值、第三阈值和第四阈值的大小,其中,第一阈值小于第二阈值,第二阈值小于第三阈值,第三阈值小于第四阈值;
在确定所述目标告警信息所对应的数值小于第一阈值时,确定所述目标告警信息的告警级别为零级;
在确定所述目标告警信息所对应的数值大于第一阈值时,确定所述目标告警信息的告警级别为二级;
在确定所述目标告警信息所对应的数值大于第二阈值时,确定所述目标告警信息的告警级别为三级;
在确定所述目标告警信息所对应的数值大于第三阈值时,确定所述目标告警信息的告警级别为四级;
在确定所述目标告警信息所对应的数值大于第四阈值时,确定所述目标告警信息的告警级别为五级。
可选的,还包括:
在确定所述目标告警信息不能识别时,确定所述目标信息的告警级别为一级。
可选的,在确定所述目标告警信息所处的告警级别时,执行与所述告警级别相应的操作,包括:
在确定所述目标告警信息的告警级别大于或等于二级时,基于所述告警级别执行对应的告警操作,以提示运维人员;
在确定所述目标告警信息的告警级别小于二级时,不执行告警操作。
可选的,还包括:
在确定主告警服务器存在异常时,接收从告警服务器发送的初始告警信息,并执行基于所述初始告警信息进行拆分处理,得到目标告警字段这一步骤。
本发明实施例第二方面示出了一种设备运维管理装置,所述装置包括:
处理单元,用于在接收到主告警服务器发送的初始告警信息时,基于所述初始告警信息进行拆分处理,得到目标告警字段;
生成单元,用于将所述目标告警字段写入预设告警信息表,生成目标告警信息;
确定单元,用于确定标准化处理后的目标告警信息所处的告警级别;
执行单元,用于在确定所述目标告警信息所处的告警级别时,执行与所述告警级别相应的操作。
可选的,所述基于所述初始告警信息进行拆分处理,得到目标告警字段的处理单元,具体用于:对所述初始告警信息进行拆分处理,得到初始告警字段;对所述初始告警字段进行信息补充,得到目标告警字段。
可选的,所述确定单元,具体用于:将所述目标告警信息进行标准化处理,得到标准化处理后的目标告警信息;对所述目标告警信息进行识别,确定所述目标告警信息所对应的数值与第一阈值、第二阈值、第三阈值和第四阈值的大小,其中,第一阈值小于第二阈值,第二阈值小于第三阈值,第三阈值小于第四阈值;在确定所述目标告警信息所对应的数值小于第一阈值时,确定所述目标告警信息的告警级别为零级;在确定所述目标告警信息所对应的数值大于第一阈值时,确定所述目标告警信息的告警级别为二级;在确定所述目标告警信息所对应的数值大于第二阈值时,确定所述目标告警信息的告警级别为三级;在确定所述目标告警信息所对应的数值大于第三阈值时,确定所述目标告警信息的告警级别为四级;在确定所述目标告警信息所对应的数值大于第四阈值时,确定所述目标告警信息的告警级别为五级。
可选的,所述处理单元,还用于:在确定主告警服务器存在异常时,接收从告警服务器发送的初始告警信息。
基于上述本发明实施例提供的一种设备运维管理方法及装置,所述方法包括:在接收到主告警服务器发送的初始告警信息时,基于所述初始告警信息进行拆分处理,得到目标告警字段;将所述目标告警字段写入预设告警信息表,生成目标告警信息。确定标准化处理后的目标告警信息所处的告警级别;在确定所述目标告警信息所处的告警级别时,执行与所述告警级别相应的操作。在本发明实施例中,不再需要人工进行状态巡检,当任何地方任何设备任何部件发生故障时,接收出现故障的地方的主告警服务器发送的初始告警信息,并对初始告警信息进行处理,得到目标告警字段,并将需要的目标告警字段写入预设告警信息表,生成目标告警信息;从而根据目标告警信息所处的告警级别执行相应的操作。不仅能够减少运维成本,且能够快速进行告警分析。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的告警中心和告警服务的应用架构图;
图2为本发明实施例提供的两地三中心的告警中心和告警服务的部署示意图;
图3为本发明实施例提供的数据中心具体部署告警中心的结构示意图;
图4为本发明实施例提供的一种设备运维管理方法的流程示意图;
图5为本发明实施例提供的告警信息写入预设告警信息表的数据流示意图;
图6为本发明实施例提供的另一种设备运维管理方法的流程示意图;
图7为本发明实施例提供的确定目标告警字段的数据流示意图;
图8为本发明实施例示出的一种设备运维管理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了方便理解,以下对本发明实施例中出现的术语进行解释说明:
OMNIbus:告警事件处理工具。
TPC:磁盘性能监控工具。
SNMP:SNMP探针,接收SNMP trap。
Impact:信息丰富模块。
Syslog:Syslog探针,接收syslog事件。
JDBC:将事件从OMNIbus转移至DB2数据库永久保留。
BI:将事件从主的OMNIbus同步到备的OMNIbus上。
两地三中心:指两个城市三个数据中心。
事件整合平台:负责以邮件或者短信的方式转发信息的平台***。
大型主机硬件设备:IBM大型主机相关硬件设备。
参见图1,为本发明实施例示出的告警中心10和告警服务20的应用架构图。
其中,告警中心10可设置在两地三中心,该告警中心10包括主告警服务器101和从告警服务器102。
其中,告警服务20是一个同一的告警中心,用于接收各地告警中心发送的初始告警信息。
告警服务20包括用于硬件监控***、告警查询、拓朴查看、告警信息维护的统一的入口,是为运维人员和一般用户服务的窗口。
具体的,该窗口采用B/S架构,以Web方式访问,能够以灵活的组织数据的展现方式,定义用户、角色、组织机构,并为每个不同角色提供不同的功能模块,为每个用户分配不同的展现内容。
可选的,各地的运维人员可通过点击对应的数据中心,页面跳转到对应数据数据中心的拓扑界面和对应数据中的性能数据界面,即告警服务20。
可选的,由于登录告警服务20,即页面跳转需要同步修改主机硬件监控***登录认证,因此需要统一权限的适配,比如分配登录账号。
需要说明的是,告警服务20能够实现建行两地三中心的告警统一、拓扑入口的统一、指标数据查看入口的统一及权限统一。告警统一由Omnibus实现,比如:在数据中心A1配置告警服务20和自身的告警中心10,数据中心B、北京洋桥数据中心、数据中心A2设置自身的告警中心10,如图2所示。
告警服务20在接收到各地数据中心10的主告警服务器101发送的初始告警信息时,基于所述初始告警信息进行拆分处理,得到目标告警字段;将所述目标告警字段写入预设告警信息表,生成目标告警信息。确定标准化处理后的目标告警信息所处的告警级别;在确定所述目标告警信息所处的告警级别时,执行与所述告警级别相应的操作。
可选的,在数据中心中部署主告警服务器101和从告警服务器102,主告警服务器101上部署主服务Primary Omnibus,从告警服务器102上部署Backup Omnibus组件,通过双向BI的网关gateway进行告警同步,如图3所示。
其中,数据中心中包括被运维管理的设备,具体为光纤交换机、存储磁盘、大机和带库。
可选的,为了最大程度地减少计算机故障的影响,做到当某台机器出现问题时,告警监控仍能正常运行,需要在数据中心的标准多层体系结构中使用多台计算机。体系结构中的组件位于三层(或三层)中,具体为收集层,聚合层和显示层。
其中,每一层都显示了主告警服务器ObjectServer和从告警服务器ObjectServer网关所在的物理计算机;连接到主告警服务器ObjectServer的网关的末端称为读取器,用于从主告警服务器中读取数据;连接到目标的网关的末端称为写入器,用于将数据写入目标。聚合层中的双向网关在两端都有读取器和写入器。
收集层包括探针连接到的主告警服务器和从告警服务器。该配置显示一对收集层ObjectServer,但是如果需要,可以添加更多对,也就是说,告警服务器的数量可根据实际情况进行设置,对此本发明实施例不加以限制。
需要说明的是,每个收集层的告警服务器ObjectServer都有自己的专用单向ObjectServer网关,该网关将ObjectServer连接到聚合层。每个集合网关读取器都连接并固定到其专用集合ObjectServer,而每个网关的写入器都连接到虚拟聚合ObjectServer对。因此,尽管编写器可以在主聚合层和备份聚合层ObjectServer之间进行故障转移和故障回复,但是读取器仅保持与其专用集合ObjectServer的连接。
聚合层包括一对对象服务器,即主告警服务器和从告警服务器,这些对象服务器通过双向对象服务器网关连接以使它们保持同步。双向ObjectServer网关Gateway在备份主机上运行。
所有传入的收集网关编写器和所有传出的显示网关读取器都连接到虚拟聚合(名为AGG_V),以便在主聚合ObjectServer计算机不可用时,写入器和读取器可以进行故障转移和故障回复。
显示层包括两个独立的显示ObjectServer,桌面事件列表用户和Web GUI用户都连接到它们。该配置包括两个显示层ObjectServer,但是如果需要,可以添加其他显示ObjectServer,也就是说,告警服务器的数量可根据实际情况进行设置,对此本发明实施例不加以限制。
在本发明实施例中,不再需要人工进行状态巡检,当任何地方任何设备任何部件发生故障时,接收出现故障的地方的主告警服务器发送的初始告警信息,并对初始告警信息进行处理,得到目标告警字段,并将需要的目标告警字段写入预设告警信息表,生成目标告警信息;从而根据目标告警信息所处的告警级别执行相应的操作。不仅能够减少运维成本,且能够快速进行告警分析。
参见图4,为本发明实施例示出的一种设备的运维管理方法的流程示意图,该方法包括:
步骤S401:在接收到主告警服务器发送的初始告警信息时,基于所述初始告警信息进行处理,确定目标告警字段。
可选的,任意一中心的主告警服务器的Trap探针接到设备的初始告警信息时,将初始告警信息存入告警服务的omnibus库中。也就是说,各地告警中心的各类告警通过SnmpTrap协议将来自大机、存储、带库、TPC阀值的告警通过SNMP Trap探针发送给告警服务的告警管理模块OMNIbus进行处理。具体的,设备中的TPC中定制告警条件产生的告警信息,发送给OMNIbus的EIF Probe,设备中的大机、带库、存储和光交事件消息通过设备配置Trap发送给OMNIbus的Trap Probe,进而发送给告警服务的告警管理模块OMNIbus。
S401的具体内容:告警服务采用OMNIBUS中的采集探针,如EIF、SNMP Trap等搜集各地告警中心各类设备故障的初始告警信息。告警管理模块采用SnmpTrap Probe接收告警所对应的初始告警信息,并在接收的同时完成告警信息拆分的工作,并通过组件化编程规则,定义各个字段含义,得到目标告警字段。
可选的,存储、光交性能的告警消息由各地告警中心的监控***(TPC)生成异常告警,并通过EIF Probe发送给告警服务的omnibus库。
需要说明的是,初始告警信息包括设备IP、告警类型、告警来源、日期、时间、告警名称、告警级别、告警描述等信息。
步骤S402:将所述目标告警字段写入预设告警信息表,生成目标告警信息。
S402的具体内容:先确定与所述预设告警信息表中的基础字段名对应的目标告警字段,并将目标告警字段分别填写至与预设告警信息表中,即填写至对应基础字段名的位置。
需要说明的是,填写的过程是通过各个探针的.rules文件中定义的。
若目标告警信息包括多个相同含义的内容,则将多个相同含义的内容统一到与之对应的字段名中。
预设告警信息表由Omnibus在安装过程中创建。
预设告警信息表包括以下基础字段名,比表1所示。
表1:
Figure BDA0003279610330000081
Figure BDA0003279610330000091
Figure BDA0003279610330000101
需要说明的是,建表的过程由Omnibus在安装过程中创建,运维人员后期可以通过数据库操作修改其中的字段。
例如:目标告警信息包括IP地址信息,确定其与所述预设告警信息表中的Node字段名对应,因此把IP地址信息填充到Node字段名对应的位置;或者,目标告警信息还包括告警内容,确定其与所述预设告警信息表中的Summary字段名对应,因此把告警内容填充到Summary字段名对应的位置。
相应的,基于上述步骤S401至步骤S402示出的内容,本发明实施例还对应示出的对应的数据流示意图,如图5所示。
步骤S403:确定标准化处理后的目标告警信息所处的告警级别。
S403的具体内容:将所述目标告警信息进行标准化处理,得到标准化处理后的目标告警信息;对所述目标告警信息进行识别,确定所述目标告警信息所对应的数值与第一阈值、第二阈值、第三阈值和第四阈值的大小;在确定所述目标告警信息所对应的数值小于第一阈值时,确定所述目标告警信息的告警级别为零级;在确定所述目标告警信息所对应的数值大于第一阈值时,确定所述目标告警信息的告警级别为二级;在确定所述目标告警信息所对应的数值大于第二阈值时,确定所述目标告警信息的告警级别为三级;在确定所述目标告警信息所对应的数值大于第三阈值时,确定所述目标告警信息的告警级别为四级;在确定所述目标告警信息所对应的数值大于第四阈值时,确定所述目标告警信息的告警级别为五级。
可选的,在确定所述目标告警信息不能识别时,确定所述目标信息的告警级别为一级。
需要说明的是,第一阈值小于第二阈值,第二阈值小于第三阈值,第三阈值小于第四阈值。
步骤S404:在确定所述目标告警信息所处的告警级别时,执行与所述告警级别相应的操作。
在具体实现步骤S404的过程中,在确定所述目标告警信息的告警级别大于或等于二级时,基于所述告警级别执行对应的告警操作,以提示运维人员;在确定所述目标告警信息的告警级别小于二级时,不执行告警操作。
可以理解的是,针对不同级别的告警对应设备的不同状态,且对应不同的告警通知方式,比如告警处理的紧急程度,及是否需要人为干预等均有不同的处理方式。如下表2所示。
表2:
Figure BDA0003279610330000111
可选的,还需要显示告警级别对应的颜色,以便运维人员查看。
具体的,在确定所述目标告警信息的告警级别为零级时,显示与所述告警级别相应的颜色为绿色;在确定所述目标告警信息的告警级别为一级时,显示与所述告警级别相应的颜色为紫色;在确定所述目标告警信息的告警级别为二级时,显示与所述告警级别相应的颜色为蓝色;在确定所述目标告警信息的告警级别为三级时,显示与所述告警级别相应的颜色为黄色;在确定所述目标告警信息的告警级别为四级时,显示与所述告警级别相应的颜色为橙色;在确定所述目标告警信息的告警级别为五级时,显示与所述告警级别相应的颜色为红色。
基于此可以看出,上述通过不同的颜色确定告警级别,对此可根据实际情况进行颜色修改后限制,本发明实施例不加以限制。
在本发明实施例中,不再需要人工进行状态巡检,当任何地方任何设备任何部件发生故障时,接收出现故障的地方的主告警服务器发送的初始告警信息,并对初始告警信息进行处理,得到目标告警字段,并将需要的目标告警字段写入预设告警信息表,生成目标告警信息;从而根据目标告警信息所处的告警级别执行相应的操作。不仅能够减少运维成本,且能够快速进行告警分析。
基于上述本发明实施例示出的设备运维管理方法,结合图4,参见图6,还包括:
步骤S601:在确定主告警服务器存在异常时,接收从告警服务器发送的初始告警信息,并执行步骤S401。
在本发明实施例中,在属性文件中分别将主告警服务成主模式Master,将备告警服务设置成从模式slave,在具体实现步骤S601的过程中,正常情况下设置为主模式Trap探针接到设备的告警信息存入omnibus库中,在确定主告警服务器存在异常时,从模式探针也接收告警信息,此时从模式探针会将告警存入文件缓存。
需要说明的是,主告警服务器存在异常是指主告警服务器的探针失去心跳信息。
在本发明实施例中,不再需要人工进行状态巡检,当任何地方任何设备任何部件发生故障时,在确定主告警服务器存在异常时,接收从告警服务器发送的初始告警信息,并对初始告警信息进行处理,得到目标告警字段,并将需要的目标告警字段写入预设告警信息表,生成目标告警信息;从而根据目标告警信息所处的告警级别执行相应的操作。不仅能够减少运维成本,且能够快速进行告警分析。
可选的,基于上述本发明实施例示出的设备运维管理方法,在执行步骤S401在对所述初始告警信息进行拆分处理之前,还包括:
步骤S11:对所述初始告警信息进行初始化处理,得到处理后的初始告警信息。
S11的具体内容:对采集到的告警信息进行信息过滤和信息压缩,得到处理后的初始告警信息。
需要说明的是,上述示出的信息过滤和信息压缩等处理是对所述初始告警信息进行初始化处理的步骤。
在本发明实施例中,对采集到的告警信息进行信息过滤的过程具体为:对满足预设条件的初始告警信息进行屏蔽和过滤,以过滤掉从底层提取的初始告警信息中监控人员认为不重要的信息,从而减少轻微告警的干扰,以提高监控与处理的效率。
需要说明的是,预设条件是指运维人员在相应采集器的规则文件中根据告警对象、告警级别、告警内容或三者的组合设定相应的条件。
比如:通过关联性处理,对于交换机接入设备端口up/down事件进行过滤处理;通过设定告警内容,对不需要关注的事件直接在缺省策略中进行过滤等;通过设定告警对象,对某些监控对象不需要关注的事件在特定的监控策略中过滤。
可选的,在Omnibus核心数据库中事件过滤策略的原则是可以实现多种条件的组合,这样可令过滤设置灵活多变,对于不想关心的信息资源管理事件,可以按需要设置不同的过滤条件予以屏蔽。
在本发明实施例中,对采集到的告警信息进行信息压缩的具体过程为:当相同的告警不断重复发生时,监控工具会不断的将同样的告警反复发送给主动式内存数据库Omnibus。基于Omnibus的De-duplication自动化压缩功能对这些告警进行判断,相同的告警压缩为1条,只更新重复发生次数、最后发生时间和告警描述。具体的,当Omnibus通过探针Probe收到一条告警后,通过在各个探针probe的.rules文件中定义,首先确定告警的唯一标识Identifier的字段。当Identifier的字段相同时,***将认为此告警为相同告警,可以进行压缩。
需要说明的是,Identifier的字段是由几个字段组合而成,不同类型的告警Identifier的组合方式不同。
例如:大机告警的Identifier的字段包括$ClassName、$adapter_host、$msg_id和$msg;性能告警的Identifier的字段包括@Node、$KeyType、@Summary、@AlertGroup和@AlertKey;带库告警的Identifier的字段包括$ClassName、@Node、$KeyType、@Summary、@AlertGroup和@AlertKey;存储、光交告警的Identifier的字段包括@Node、$KeyType、@Summary、@AlertGroup和@AlertKey。
进一步需要说明的是,Identifier字段的组合是在告警接收时在各个Probe的Rules文件中定义的,属于告警标准化的一部分。
可以理解的是,主动式内存数据库Omnibus对于重复事件压缩的处理比***一个的新的告警信息的处理速度还快,是因为探针在收集故障的同时,会利用标识字段来唯一标识故障,所以当故障送到Omnibus的核心数据库时,重复事件的压缩可以迅速完成。
主动式内存数据库Omnibus针对不同的数据中心的不同网络/***管理软件,不同事件源的探针,其探针规则文件将根据具体的网络事件类型灵活设定标识字段。信息压缩的规则预先在探针中定制,当故障送到核心数据库时,重复事件的压缩可以迅速完成。Omnibus提供的所有探针规则文件(rulesfile)都包括压缩规则的定义。
进一步,需要说明的是,可通过修改rulesfile即可实现压缩规则的定制修改。
例如:当Omnibus通过Probe收到一条告警后,通过在各个probe的.rules文件中定义,首先确定告警的唯一标识:Identifier字段。当Identifier字段相同时,***将认为此告警为相同告警,可以进行压缩。Identifier字段是由几个字段组合而成,不同类型的告警Identifier的组合方式不同。
可选的,在进行信息压缩的过程中,在自动化Automation中定义触发Trigger(补充Duplicate),当2条告警的Identifier相同时,将新告警丢弃掉,旧告警则更新以下字段:
@Tally=@Tally+1//重复次数+1;
@LastOccurence=@EventTime//最后发生时间等于最新告警发生时间;
@Summary=@Summary//告警描述更新为新告警描述。
在本发明实施例中,不再需要人工进行状态巡检,当任何地方任何设备任何部件发生故障时,接收出现故障的地方的主告警服务器发送的初始告警信息,先进行初始化处理,再对初始化处理后的初始告警信息进行处理,得到目标告警字段,并将需要的目标告警字段写入预设告警信息表,生成目标告警信息;从而根据目标告警信息所处的告警级别执行相应的操作。不仅能够减少运维成本,且能够快速进行告警分析。
基于上述本发明实施例示出的设备运维管理方法,在具体实现步骤S401基于所述初始告警信息进行处理,确定目标告警字段的过程中,包括:
步骤S21:对所述初始告警信息进行拆分处理,得到初始告警字段。
在具体实现步骤S21的过程中,告警管理模块采用SnmpTrap Probe接收告警所对应的初始告警信息,并在接收的同时完成告警信息拆分的工作,得到初始告警字段。
步骤S22:对所述初始告警字段进行信息补充,得到目标告警字段。
在本发明实施例中,告警信息写入预设告警信息表,即Alerts.status表之前,也就是说,当告警原始信息中不包含一些内容,而这些内容又对告警的处理非常有意义时,还要对初始告警字段进行信息补充,步骤S22的具体内容:在组件化编程规则中可以直接引用外表中的信息进行关键字索引,确定需要值赋给初始告警字段中的字段,进而确定目标告警字段,如图7所示,以便写入预设告警信息表中。
需要说明的是,在规则.rules文件中定义外表存放的路径和文件名,以便引用。
外表是指Omnibus产品默认的信息补充的方法,将一些丰富信息存储在一个.lookup的文本文件中,各个信息之间以TAB键分隔,称之为“外表”。
外表包括有关事件节点的中文名称,设备类型,位置,联系人,维保商,设备型号,关键资源信息,相关业务等等,这些信息可以帮助管理人员在收到故障报警时,能够迅速了解故障相关的资源、人员、业务等信息,快速作出反应。
进一步需要说明的是,有关事件节点可以灵活的进行扩展,增加管理需要的上百个字段,并通过与建行相关信息的关联。
可选的,除了管理结构可以进行定制外,还可以在显示上进行定制,增加的扩展字段都可以定义到事件的显示内容中,并且灵活根据不同的事件分类,定义不同的显示格式,如交换机有关线路的事件可以显示节点、端口、下联设备、联系人、线路号等,而有关性能的事件可能显示节点、性能参数、当前性能值、设备位置、联系人等。以便于运维管理人员对故障信息的监控和查看。
在本发明实施例中,不再需要人工进行状态巡检,当任何地方任何设备任何部件发生故障时,接收出现故障的地方的主告警服务器发送的初始告警信息,对初始告警信息进行拆分处理,得到初始告警字段;再对初始告警字段进行信息补充,得到目标告警字段;并将需要的目标告警字段写入预设告警信息表,生成目标告警信息;从而根据目标告警信息所处的告警级别执行相应的操作。不仅能够减少运维成本,且能够快速进行告警分析。
基于上述本发明实施例示出的设备运维管理方法,相应的,本发明实施例还对应公开了一种设备运维管理装置,如图8所示,为本发明实施例示出一种设备运行管理装置的结构示意图,该装置包括:
处理单元801,用于在接收到主告警服务器发送的初始告警信息时,基于所述初始告警信息进行拆分处理,得到目标告警字段。
可选的,处理单元801,还用于:在确定主告警服务器存在异常时,接收从告警服务器发送的初始告警信息。
生成单元802,用于将所述目标告警字段写入预设告警信息表,生成目标告警信息。
确定单元803,用于确定标准化处理后的目标告警信息所处的告警级别。
执行单元804,用于在确定所述目标告警信息所处的告警级别时,执行与所述告警级别相应的操作。
可选的,执行单元804具体用于:在确定所述目标告警信息的告警级别大于或等于二级时,基于所述告警级别执行对应的告警操作,以提示运维人员;在确定所述目标告警信息的告警级别小于二级时,不执行告警操作。
需要说明的是,上述本发明实施例公开的设备运维管理装置中的各个单元具体的原理和执行过程,与上述本发明实施的设备运维管理方法相同,可参见上述本发明实施例公开的设备运维管理方法中相应的部分,这里不再进行赘述。
在本发明实施例中,不再需要人工进行状态巡检,当任何地方任何设备任何部件发生故障时,接收出现故障的地方的主告警服务器发送的初始告警信息,并对初始告警信息进行处理,得到目标告警字段,并将需要的目标告警字段写入预设告警信息表,生成目标告警信息;从而根据目标告警信息所处的告警级别执行相应的操作。不仅能够减少运维成本,且能够快速进行告警分析。
基于上述本发明实施例示出的设备运维管理装置,所述基于所述初始告警信息进行拆分处理,得到目标告警字段的处理单元801,具体用于:对所述初始告警信息进行拆分处理,得到初始告警字段;对所述初始告警字段进行信息补充,得到目标告警字段。
确定单元802,具体用于:将所述目标告警信息进行标准化处理,得到标准化处理后的目标告警信息;对所述目标告警信息进行识别,确定所述目标告警信息所对应的数值与第一阈值、第二阈值、第三阈值和第四阈值的大小,其中,第一阈值小于第二阈值,第二阈值小于第三阈值,第三阈值小于第四阈值;在确定所述目标告警信息所对应的数值小于第一阈值时,确定所述目标告警信息的告警级别为零级;在确定所述目标告警信息所对应的数值大于第一阈值时,确定所述目标告警信息的告警级别为二级;在确定所述目标告警信息所对应的数值大于第二阈值时,确定所述目标告警信息的告警级别为三级;在确定所述目标告警信息所对应的数值大于第三阈值时,确定所述目标告警信息的告警级别为四级;在确定所述目标告警信息所对应的数值大于第四阈值时,确定所述目标告警信息的告警级别为五级。
可选的,确定单元802,还用于在确定所述目标告警信息不能识别时,确定所述目标信息的告警级别为一级。
在本发明实施例中,不再需要人工进行状态巡检,当任何地方任何设备任何部件发生故障时,接收出现故障的地方的主告警服务器发送的初始告警信息,并对初始告警信息进行处理,得到目标告警字段,并将需要的目标告警字段写入预设告警信息表,生成目标告警信息;从而根据目标告警信息所处的告警级别执行相应的操作。不仅能够减少运维成本,且能够快速进行告警分析。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种设备运维管理方法,其特征在于,所述方法包括:
在接收到主告警服务器发送的初始告警信息时,基于所述初始告警信息进行拆分处理,得到目标告警字段;
将所述目标告警字段写入预设告警信息表,生成目标告警信息;
确定标准化处理后的目标告警信息所处的告警级别;
在确定所述目标告警信息所处的告警级别时,执行与所述告警级别相应的操作。
2.根据权利要求1所述的方法,其特征在于,所述基于所述初始告警信息进行拆分处理,得到目标告警字段,包括:
对所述初始告警信息进行拆分处理,得到初始告警字段;
对所述初始告警字段进行信息补充,得到目标告警字段。
3.根据权利要求1所述的方法,其特征在于,所述确定标准化处理后的目标告警信息所处的告警级别,包括:
将所述目标告警信息进行标准化处理,得到标准化处理后的目标告警信息;
对所述目标告警信息进行识别,确定所述目标告警信息所对应的数值与第一阈值、第二阈值、第三阈值和第四阈值的大小,其中,第一阈值小于第二阈值,第二阈值小于第三阈值,第三阈值小于第四阈值;
在确定所述目标告警信息所对应的数值小于第一阈值时,确定所述目标告警信息的告警级别为零级;
在确定所述目标告警信息所对应的数值大于第一阈值时,确定所述目标告警信息的告警级别为二级;
在确定所述目标告警信息所对应的数值大于第二阈值时,确定所述目标告警信息的告警级别为三级;
在确定所述目标告警信息所对应的数值大于第三阈值时,确定所述目标告警信息的告警级别为四级;
在确定所述目标告警信息所对应的数值大于第四阈值时,确定所述目标告警信息的告警级别为五级。
4.根据权利要求3所述的方法,其特征在于,还包括:
在确定所述目标告警信息不能识别时,确定所述目标信息的告警级别为一级。
5.根据权利要求3和4所述的方法,其特征在于,在确定所述目标告警信息所处的告警级别时,执行与所述告警级别相应的操作,包括:
在确定所述目标告警信息的告警级别大于或等于二级时,基于所述告警级别执行对应的告警操作,以提示运维人员;
在确定所述目标告警信息的告警级别小于二级时,不执行告警操作。
6.根据权利要求1所述的方法,其特征在于,还包括:
在确定主告警服务器存在异常时,接收从告警服务器发送的初始告警信息,并执行基于所述初始告警信息进行拆分处理,得到目标告警字段这一步骤。
7.一种设备运维管理装置,其特征在于,所述装置包括:
处理单元,用于在接收到主告警服务器发送的初始告警信息时,基于所述初始告警信息进行拆分处理,得到目标告警字段;
生成单元,用于将所述目标告警字段写入预设告警信息表,生成目标告警信息;
确定单元,用于确定标准化处理后的目标告警信息所处的告警级别;
执行单元,用于在确定所述目标告警信息所处的告警级别时,执行与所述告警级别相应的操作。
8.根据权利要求7所述装置,其特征在于,所述基于所述初始告警信息进行拆分处理,得到目标告警字段的处理单元,具体用于:对所述初始告警信息进行拆分处理,得到初始告警字段;对所述初始告警字段进行信息补充,得到目标告警字段。
9.根据权利要求7所述的装置,其特征在于,所述确定单元,具体用于:将所述目标告警信息进行标准化处理,得到标准化处理后的目标告警信息;对所述目标告警信息进行识别,确定所述目标告警信息所对应的数值与第一阈值、第二阈值、第三阈值和第四阈值的大小,其中,第一阈值小于第二阈值,第二阈值小于第三阈值,第三阈值小于第四阈值;在确定所述目标告警信息所对应的数值小于第一阈值时,确定所述目标告警信息的告警级别为零级;在确定所述目标告警信息所对应的数值大于第一阈值时,确定所述目标告警信息的告警级别为二级;在确定所述目标告警信息所对应的数值大于第二阈值时,确定所述目标告警信息的告警级别为三级;在确定所述目标告警信息所对应的数值大于第三阈值时,确定所述目标告警信息的告警级别为四级;在确定所述目标告警信息所对应的数值大于第四阈值时,确定所述目标告警信息的告警级别为五级。
10.根据权利要求7所述的装置,其特征在于,所述处理单元,还用于:在确定主告警服务器存在异常时,接收从告警服务器发送的初始告警信息。
CN202111128350.2A 2021-09-26 2021-09-26 一种设备运维管理方法及装置 Pending CN113821412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111128350.2A CN113821412A (zh) 2021-09-26 2021-09-26 一种设备运维管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111128350.2A CN113821412A (zh) 2021-09-26 2021-09-26 一种设备运维管理方法及装置

Publications (1)

Publication Number Publication Date
CN113821412A true CN113821412A (zh) 2021-12-21

Family

ID=78921323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111128350.2A Pending CN113821412A (zh) 2021-09-26 2021-09-26 一种设备运维管理方法及装置

Country Status (1)

Country Link
CN (1) CN113821412A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840219A (zh) * 2022-07-06 2022-08-02 湖南傲思软件股份有限公司 分布式事件处理***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104243236A (zh) * 2014-09-17 2014-12-24 深圳供电局有限公司 一种监控***运维告警数据分析的方法、***及服务器
CN104753712A (zh) * 2013-12-31 2015-07-01 ***通信集团公司 一种告警上报方法、告警上报节点及告警上报***
CN108829558A (zh) * 2018-05-22 2018-11-16 郑州云海信息技术有限公司 一种数据中心告警智能运维管理方法及***
CN109194532A (zh) * 2018-11-07 2019-01-11 广东电网有限责任公司 一种电网告警信息的推送方法及装置
CN109639465A (zh) * 2018-11-27 2019-04-16 平安科技(深圳)有限公司 基于云平台的告警信息存储方法和装置
WO2020215894A1 (zh) * 2019-04-25 2020-10-29 深圳前海微众银行股份有限公司 一种告警方法、装置及***
CN112598205A (zh) * 2019-09-17 2021-04-02 北京国双科技有限公司 告警信息的处理方法、装置、存储介质和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104753712A (zh) * 2013-12-31 2015-07-01 ***通信集团公司 一种告警上报方法、告警上报节点及告警上报***
CN104243236A (zh) * 2014-09-17 2014-12-24 深圳供电局有限公司 一种监控***运维告警数据分析的方法、***及服务器
CN108829558A (zh) * 2018-05-22 2018-11-16 郑州云海信息技术有限公司 一种数据中心告警智能运维管理方法及***
CN109194532A (zh) * 2018-11-07 2019-01-11 广东电网有限责任公司 一种电网告警信息的推送方法及装置
CN109639465A (zh) * 2018-11-27 2019-04-16 平安科技(深圳)有限公司 基于云平台的告警信息存储方法和装置
WO2020215894A1 (zh) * 2019-04-25 2020-10-29 深圳前海微众银行股份有限公司 一种告警方法、装置及***
CN112598205A (zh) * 2019-09-17 2021-04-02 北京国双科技有限公司 告警信息的处理方法、装置、存储介质和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840219A (zh) * 2022-07-06 2022-08-02 湖南傲思软件股份有限公司 分布式事件处理***
CN114840219B (zh) * 2022-07-06 2023-05-05 湖南傲思软件股份有限公司 分布式事件处理***

Similar Documents

Publication Publication Date Title
US11194828B2 (en) Method and system for implementing a log parser in a log analytics system
CN110036600B (zh) 网络健康数据汇聚服务
US8166352B2 (en) Alarm correlation system
CN108234170B (zh) 一种服务器集群的监控方法和装置
CN110036599B (zh) 网络健康信息的编程接口
CN109902072A (zh) 一种日志处理***
CN110278097B (zh) 一种基于Android***的服务器运维***及方法
CN107958337A (zh) 一种信息资源可视化移动管理***
CN110855473A (zh) 一种监控方法、装置、服务器及存储介质
US20080208897A1 (en) Global Inventory Warehouse
US20140040916A1 (en) Automatic event correlation in computing environments
WO2016161381A1 (en) Method and system for implementing a log parser in a log analytics system
CN103490941A (zh) 一种云计算环境中实时监控在线配置方法
CN107846460B (zh) 一种军事信息***信息流的复现***及方法
KR20130019366A (ko) 분산 환경에서 효율적으로 트랜젝션-분리 메트릭들을 수집하는 방법
CN107888409B (zh) 一种具有自愈能力的通信网络配置数据自动同步方法
CN111782345B (zh) 容器云平台日志收集及分析告警方法
WO2006117833A1 (ja) 監視シミュレーション装置,方法およびそのプログラム
CN108390782A (zh) 一种集中式应用***性能问题综合分析方法
CN112463892A (zh) 一种基于风险态势的预警方法及***
CN114244676A (zh) 一种智能it综合网关***
CN113505048A (zh) 基于应用***画像的统一监控平台及实现方法
CN113542074A (zh) 一种可视化管理kubernetes集群的东西向网络流量的方法及***
CN113821412A (zh) 一种设备运维管理方法及装置
JP2006025434A (ja) 大容量障害相関システム及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination