CN112596975A - 对网络设备进行监控处理的方法、***、设备和存储介质 - Google Patents
对网络设备进行监控处理的方法、***、设备和存储介质 Download PDFInfo
- Publication number
- CN112596975A CN112596975A CN202011472750.0A CN202011472750A CN112596975A CN 112596975 A CN112596975 A CN 112596975A CN 202011472750 A CN202011472750 A CN 202011472750A CN 112596975 A CN112596975 A CN 112596975A
- Authority
- CN
- China
- Prior art keywords
- alarm
- network equipment
- acquiring
- data
- performance index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000003672 processing method Methods 0.000 claims abstract description 29
- 230000006835 compression Effects 0.000 claims description 43
- 238000007906 compression Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 38
- 238000013480 data collection Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 9
- 238000013515 script Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003442 weekly effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/18—Status alarms
- G08B21/182—Level alarms, e.g. alarms responsive to variables exceeding a threshold
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Mathematical Physics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开提供了一种对网络设备进行监控处理的方法、***、设备和存储介质。所述监控处理方法包括:获取基于采集公式确定的数据采集任务;根据所述数据采集任务采集网络设备的性能指标数据;将所述性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警,以及进行告警时的告警类型。本公开提供的监控处理方法基于采集公式确定的采集任务对网络设备的性能指标数据进行采集,并根据设定阈值或动态基线确定是否告警,能够灵活采集网络设备的监控数据并实现告警。
Description
技术领域
本发明涉及计算机应用技术领域,更为具体而言,涉及一种对网络设备进行监控处理的方法、***、设备和存储介质。
背景技术
随着5G、软件定义接入网以及核心网技术的发展,大型企业的网络设备越来越多,种类越来越繁杂,对于网络基础环境的监控愈加重要。因此,如何针对差异性较大的网络设备进行监控变得尤为重要,然而,目前没有能够针对差异性较大的网络设备实现数据灵活采集并监控告警的方法。
发明内容
为解决上述现有技术存在的问题或部分问题,本发明实施方式提供了一种对网络设备进行监控处理的方法、***、设备和存储介质,基于采集公式确定的采集任务对网络设备的性能指标数据进行采集,并根据设定阈值或动态基线确定是否告警,能够实现监控数据的灵活采集和及时告警。
根据本发明的第一方面,本发明实施方式提供了一种对网络设备进行监控处理的方法,包括:获取基于采集公式确定的数据采集任务;根据所述数据采集任务采集所述网络设备的性能指标数据;将所述性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警,以及进行告警时的告警类型。
本发明上述实施方式基于采集公式确定的采集任务对网络设备的性能指标数据进行采集,并根据设定阈值或动态基线确定是否告警,能够灵活采集网络设备的监控数据并实现告警。
在本发明的一些实施方式中,所述监控处理方法还包括:使用LUA语言定义所述采集公式;获取所述性能指标数据对应的性能曲线,并展示所述性能曲线。
本发明上述实施方式通过使用LUA轻量级脚本,以基于该脚本确定的采集任务对网络设备的数据进行采集可以实现性能指标数据的灵活采集。并且,通过将采集到的性能指标数据生成性能曲线并展示,可以为用户提供更加直观的网络设备性能变化。
在本发明的一些实施方式中,所述数据采集任务包括:采集周期、采集对象、告警压缩标识。
在本发明的一些实施方式中,根据所述数据采集任务采集所述网络设备的性能指标数据包括:通过适配SNMP协议,获取所述网络设备的内存、CPU、温度、接口流量信息;通过适配ICMP协议,获取所述网络设备的网络通不通、主机是否可达、路由是否可用的信息;通过适配RPING协议,获取所述网络设备的延时、丢包率。
本发明上述实施方式通过适配多种协议,达到多维度监测网络环境的需求。
在本发明的一些实施方式中,将所述性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警包括:当所述网络设备的内存、CPU的使用率、温度或接口流量的值超出其对应的设定阈值或动态基线确定的范围,则判定进行告警;当所述网络设备的网络不通、主机不可达或路由不可用时,则判定进行告警;当所述网络设备的延时或丢包率超出其对应的设定阈值或动态基线确定的范围,则判定进行告警。
在本发明的一些实施方式中,根据历史性能指标数据计算所述动态基线。
在本发明的一些实施方式中,所述监控处理方法还包括:当判定需要进行告警时,确定所述告警对应的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为有效;当判定不需要进行告警时,确定不进行告警的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为无效。
在本发明的一些实施方式中,所述监控处理方法还包括:当所述告警压缩标识连续两次以上为有效时,仅根据所述告警压缩标识的第一次有效标识进行告警,并对所述告警进行处理;当所述告警压缩标识为无效时,不进行告警,并重新开始对所述告警压缩标识的有效标识进行计数。
本发明上述实施方式通过对采集任务设置告警压缩标识,可以从告警的根源上有效防止告警风暴的产生,减少告警冗余,提升了告警有效性。
在本发明的一些实施方式中,根据所述数据采集任务采集所述网络设备的性能指标数据还包括:通过适配SNMP TRAP入口,获取所述网络设备的故障信息;通过适配SYSLOG协议,获取所述网络设备的日志信息。
在本发明的一些实施方式中,所述监控处理方法还包括:根据所述故障信息和日志信息确定网络设备出现的问题,并对所述问题进行处理。
本发明上述实施方式通过获取网络设备的故障信息和日志信息对网络设备出现的问题进行处理,能够防止故障蔓延,保障网络设备的有效性。
根据本发明的第二方面,本发明实施方式提供了一种对网络设备进行监控处理的***,其包括:任务调度模块,用于获取采集公式,并将所述采集公式发送至消息总线;采集代理模块,用于从所述消息总线中获取所述采集公式,基于所述采集公式确定数据采集任务,并根据所述数据采集任务采集所述网络设备的性能指标数据;预处理模块,用于将所述性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警,以及进行告警时的告警类型。
本发明上述实施方式基于采集公式确定的采集任务对网络设备的性能指标数据进行采集,并根据设定阈值或动态基线确定是否告警,能够灵活采集网络设备的监控数据并实现告警。
在本发明的一些实施方式中,所述监控处理***还包括展示模块,用于执行下述操作:使用LUA语言定义所述采集公式;获取所述性能指标数据对应的性能曲线,并展示所述性能曲线。
本发明上述实施方式通过使用LUA轻量级脚本,以基于该脚本确定的采集任务对网络设备的数据进行采集可以实现性能指标数据的灵活采集。并且,通过将采集到的性能指标数据生成性能曲线并展示,可以为用户提供更加直观的网络设备性能变化。
在本发明的一些实施方式中,所述数据采集任务包括:采集周期、采集对象、告警压缩标识。
在本发明的一些实施方式中,根据所述数据采集任务采集所述网络设备的性能指标数据包括:通过适配SNMP协议,获取所述网络设备的内存、CPU、温度、接口流量信息;通过适配ICMP协议,获取所述网络设备的网络通不通、主机是否可达、路由是否可用的信息;通过适配RPING协议,获取所述网络设备的延时、丢包率。
本发明上述实施方式通过适配多种协议,达到多维度监测网络环境的需求。
在本发明的一些实施方式中,将所述性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警包括:当所述网络设备的内存、CPU的使用率、温度或接口流量的值超出其对应的设定阈值或动态基线确定的范围,则判定进行告警;当所述网络设备的网络不通、主机不可达或路由不可用时,则判定进行告警;当所述网络设备的延时或丢包率超出其对应的设定阈值或动态基线确定的范围,则判定进行告警。
在本发明的一些实施方式中,根据历史性能指标数据计算所述动态基线。
在本发明的一些实施方式中,所述预处理模块还用于执行下述操作:当判定需要进行告警时,确定所述告警对应的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为有效;当判定不需要进行告警时,确定不进行告警的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为无效。
在本发明的一些实施方式中,所述预处理模块还用于执行下述操作:当所述告警压缩标识连续两次以上为有效时,仅根据所述告警压缩标识的第一次有效标识进行告警,并对所述告警进行处理;当所述告警压缩标识为无效时,不进行告警,并重新开始对所述告警压缩标识的有效标识进行计数。
本发明上述实施方式通过对采集任务设置告警压缩标识,可以从告警的根源上有效防止告警风暴的产生,减少告警冗余,提升了告警有效性。
在本发明的一些实施方式中,根据所述数据采集任务采集所述网络设备的性能指标数据还包括:通过适配SNMP TRAP入口,获取所述网络设备的故障信息;通过适配SYSLOG协议,获取所述网络设备的日志信息。
在本发明的一些实施方式中,所述监控处理***还包括:事件处理模块,用于根据所述故障信息和日志信息确定网络设备出现的问题,并对所述问题进行处理。
本发明上述实施方式通过获取网络设备的故障信息和日志信息对网络设备出现的问题进行处理,能够防止故障蔓延,保障网络设备的有效性。
根据本发明的第三方面,本发明实施方式提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得计算机执行如下操作:所述操作包括如上任意一种实施方式所述监控处理方法所包含的步骤。
根据本发明的第四方面,本发明实施方式提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如上任意一种实施方式所述的监控处理方法。
由上述可知,本发明实施方式提供的对网络设备进行监控处理的方法、***、存储介质和设备,基于采集公式确定的采集任务对网络设备的性能指标数据进行采集,并根据设定阈值或动态基线确定是否告警,能够灵活采集网络设备的监控数据并实现告警。
附图说明
图1是根据本发明一种实施方式的对网络设备进行监控处理的方法的流程示意图;
图2是根据本发明另一种实施方式的对网络设备进行监控处理的方法的流程示意图;
图3是根据本发明一种实施方式的对网络设备进行监控处理的***的架构图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
下面对本文中使用的术语进行简要说明。
SNMP:Simple Network Management Protocol,简单网络管理协议。
ICMP:Internet Control Message Protocol,Internett控制报文协议。
Ping:因特网包探索器,用于测试网络连接量的程序。
RPING:Remote PING,扩展Ping,用于企业网内测试网络设备间的时延和丢包率。
LUA:一种轻量小巧、源码开放的脚本语言。
SNMP TRAP:SNMP陷阱,一种入口,到达该入口会使SNMP被管设备在任何时候主动报告错误情况,而不是等待SNMP管理器的再次轮询。
SYSLOG:syslog协议属于一种主从式协议,syslog发送端发送消息至syslog接收端。
图1是根据本发明一种实施方式的对网络设备进行监控处理的方法的流程示意图。
如图1所示,在本发明的一种实施方式中,所述方法可包括:步骤S11、步骤S12和步骤S13,下面对上述步骤进行具体的描述。
在步骤S11中,获取基于采集公式确定的数据采集任务。在可选的实施方式中,数据采集任务可以包括但不限于:采集周期、采集对象、告警压缩标识。
可选的,使用LUA语言定义采集公式,以基于LUA脚本确定的采集任务对网络设备的数据进行采集可以实现性能指标数据的灵活采集,达到适配不同厂商设备的目的。
在步骤S12中,根据所述数据采集任务采集所述网络设备的性能指标数据。在可选的实施方式中,根据数据采集任务采集网络设备的性能指标数据可以包括但不限于下述几种:(1)通过适配SNMP协议,获取网络设备的内存、CPU、温度、接口流量信息;(2)通过适配ICMP协议,获取网络设备的网络通不通、主机是否可达、路由是否可用的信息;(3)通过适配RPING协议,获取网络设备的延时、丢包率;(4)通过适配SNMP TRAP入口,获取网络设备的故障信息;(5)通过适配SYSLOG协议,获取网络设备的日志信息。
在步骤S13中,将所述性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警,以及进行告警时的告警类型。在一种可选的实施方式中,将性能指标数据与设定阈值或动态基线进行比较,基于比较的结果判定是否进行告警可以包括但不限于以下几种:(1)当网络设备的内存、CPU的使用率、温度或接口流量的值超出其对应的设定阈值或动态基线确定的范围,则判定进行告警;(2)当网络设备的网络不通、主机不可达或路由不可用时,则判定进行告警;(3)当网络设备的延时或丢包率超出其对应的设定阈值或动态基线确定的范围,则判定进行告警。
在其他可选的实施方式中,根据历史性能指标数据计算动态基线;由技术人员根据业务对网络设备的要求确定设定阈值。可选的,不同的告警类型至少可以包括主要告警和次要告警两类。
本发明根据上述监控处理方法提供一种根据历史性能指标数据计算动态基线的示例,进而将性能指标数据与设定阈值或动态基线进行比较,基于比较的结果判定是否进行告警:
首先,基线是同一个采集点的指标性能在同一个时刻的历史性能值的曲线。基线周期统计例如可以按天/按周计算。示例性的,基线计算最小默认个数为2天,最大个数默认为21个,一般为7天。
当按天计算基线时,计算每天的每个性能值在各个时间点对应的总体标准差,查找该时间点的前预定天数(如,前2到21天)的相同时间点的采集性能值为计算样本集合,计算其总体标准差,以得到该时间点的基线值。例如,根据前2到9天内的性能值计算时间点为8:30的基线值的方法如下:
设定值:最大天数=9;最小天数=2;计算方式=按天计算;上偏离=1.5;下偏离=1.0;计算模式=Over模型(上基线计算模式);累计时间=5分钟。其中,上偏离和下偏离为人为设定的经验数据。
获取当前日期的前第2到9天8:30的性能值为(2,4,4,4,5,5,7,9)。
计算获取的性能值的均值:(2+4+4+4+5+5+7+9)/8=5;
计算获取的各个性能值的总体标准差作为该时间点的基线点的性能值:
(2-5)2=9;(4-5)2=1;(4-5)2=1;(4-5)2=1;
(5-5)2=0;(5-5)2=0;(7-5)2=4;(9-5)2=16;
即计算得到8:30的基线点的性能值为2。
根据上述方法可以计算得到任意时刻的基线点的性能值,进而获取动态基线。
进一步地,本发明根据上述监控处理方法提供一种基于获取到的基线点确定是否进行告警的实例:
基于基线点的性能值确定基线点阈值:
上基线点阈值=平均值+基线点*上偏离=5+2*1.5=8;
下基线点阈值=平均值-基线点*下偏离=5-2*1.0=3;
若当前相同时间点的性能值高于上基线点阈值,则进行上偏离度告警(ERROR,提示错误);若当前相同时间点的性能值低于下基线点阈值,则进行下偏离度告警(WARN,指示告警)。可选的,当累计上偏离或下偏离的时间高于设定的累计时间(例如5分钟)时,进行上偏离/下偏离告警。
此外,相类似地,当按周计算基线时,计算每周的每个性能值在各个时间点对应的总体标准差,查找该时间点的前预定周数(如,前2到21周)的相同时间点的采集性能值为计算样本集合,计算其总体标准差,以得到按周计算的基线。
在一种可选的实施方式中,可以对基线设置观察窗口,并对观察窗口的窗口内和窗口外分别设定阈值。可选的,观察窗口可以参照按日计算的基线模型,也可以参照按周计算的基线模型,且按日计算的基线模型可以跨日,按周计算的基线模型可以跨周。
采用本发明实施方式的上述方法,通过使用LUA轻量级脚本,对网络设备多维度的性能指标数据进行灵活采集、灵活解析,并根据设定阈值或动态基线实现告警,能够对结构复杂多样的网络设备进行监控和告警,进而对告警问题进行处理,以保障企业***安全稳定。
在一种可选的实施方式中,针对获取的性能指标数据生成对应的性能曲线,并展示所述性能曲线,从而为用户提供更加直观的网络设备性能变化。
在另一种可选的实施方式中,当判定需要进行告警时,确定告警对应的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为有效;当判定不需要进行告警时,确定不进行告警的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为无效。此外,当告警压缩标识连续两次以上为有效时,仅根据所述告警压缩标识的第一次有效标识进行告警,并对所述告警进行处理;当告警压缩标识为无效时,不进行告警,并重新开始对所述告警压缩标识的有效标识进行计数。
通过对采集任务设置告警压缩标识,可以从告警的根源上有效防止告警风暴的产生,减少告警冗余,提升了告警有效性。
在其他可选的实施方式中,根据故障信息和日志信息确定网络设备出现的问题,并对所述问题进行处理,从而防止故障蔓延,保障网络设备的有效性。可选的,针对各项性能指标数据的告警类型还可以包括阈值类告警、TRAP类告警、SYSLOG类告警。其中,阈值类告警是基于设定阈值或动态基线针对网络设备的内存、CPU、温度、接口流量信息、延时、丢包率,以及网络设备的网络通不通、主机是否可达、路由是否可用等信息确定的告警;TRAP类告警包括网络设备的故障信息;SYSLOG类告警包括网络设备的日志信息。对应的,针对上述几类告警确定的问题进行脚本处理,以实现对网络设备的多维度监控和处理。
图2是根据本发明另一种实施方式的对网络设备进行监控处理的方法的流程示意图。
如图2所示,所述监控处理方法包括:
首先,NMS展示节点将采集的性能指标数据展示在web前台页面,用户登录后可查看具体设备的性能曲线。同时,在NMS展示节点的展示端还可用LUA语言定义新的采集公式用于性能指标数据的采集。具体而言,NMS展示节点将编写完成的采集公式通过任务调度节点下发至消息总线。可选的,SNMP协议采集的设备的内存、CPU、温度、接口流量等信息均可在NMS展示节点的展示端查看。
其次,采集代理节点监听到消息总线中对应的队列有新增采集公式后,按照新增采集LUA的规则进行采集,从而做到采集任务的实时热生效。其中,采集代理节点作为基础节点,通过适配SNMP、ICMP、RPING、SNMP、SYSLOG协议、TRAP入口达到全方面监控设备的效果。具体而言,SNMP适配是NMS展示节点设置的一定采集频率调用LUA编写的采集公式去获取设备的各项性能指标数据;ICMP适配则以PING探测设备为主,通过一定频率PING探测网络设备,实现探活目的;RPING是SNMP set与PING的结合,使用SNMP set对网络设备进行设置让其进行PING探测,可对下一段线路进行探测。其中,上述三种性能指标数据将会传输至预处理节点进行阈值判断。另外,SNMP TRAP使用162端口接收设备发送的故障信息;SYSLOG则使用162端口接收设备发送的日志信息。这两类信息属于故障信息,将会传输至事件处理节点进行事件处理。
再次,预处理节点接收到性能指标数据后通过阈值过滤进行告警判断,分为主要告警和次要告警两类。同时,在预处理节点设置告警压缩机制,以防止告警风暴的产生。在一种可选的实施方式中,告警压缩机制可以通过对每条采集任务进行标识来实现,具体如下:触发告警后告警压缩标识至为1,以后产生告警后判断告警压缩标识,如为1则不发送该告警至事件处理节点进行处理。当设备的告警处理完成后,会进行回复,此时恢复告警,将告警压缩标识至回0。由此,可以从告警的根源上有效减少告警风暴的产生,减少告警冗余,提升告警有效性。
在另一种可选的实施方式中,阈值过滤具体可以是将性能指标数据与设定阈值或动态基线进行比较,基于比较的结果判定是否进行告警。更为具体而言,其可以包括但不限于以下几种判断和告警方式:(1)当网络设备的内存、CPU的使用率、温度或接口流量的值超出其对应的设定阈值或动态基线确定的范围,则判定进行告警;(2)当网络设备的网络不通、主机不可达或路由不可用时,则判定进行告警;(3)当网络设备的延时或丢包率超出其对应的设定阈值或动态基线确定的范围,则判定进行告警。
最后,事件处理节点通过NMS展示节点和任务调度节点发送的LUA规则对阈值类告警、TRAP类告警、SYSLOG类告警进行脚本处理。其中,阈值类告警可以包括网络设备的内存、CPU、温度、接口流量信息、延时、丢包率,以及网络设备的网络通不通、主机是否可达、路由是否可用等信息;TRAP类告警包括网络设备的故障信息;SYSLOG类告警包括网络设备的日志信息。
在其他可选的实施方式中,引入正则表和映射表确定具体的告警处理方法,具体而言,通过将告警处理的正则表、映射表的逻辑进行封装,使得用户无需重复写脚本的if-elase结构,只需引入对应正则表即可进行告警判断。该方法与现有技术中使用SHELL脚本(一种命令语言)的方案相比,事件处理过程更容易理解。
可选的,上述实施方式中的各个节点之间均使用负载均衡以及集群机制,保证单一节点问题不会影响网络设备的监控环境的稳定运行。并且,采集代理节点、预处理节点中包含主从机制,可以存在一个主节点进行任务分配,主从节点同时进行采集任务和阈值判断的任务。
采用本发明实施方式的上述方法,通过适配多种协议采集网络设备的性能指标数据,可以达到多维度监控网络环境的需求,通过使用LUA轻量级脚本,达到灵活采集、灵活解析的目的。同时,针对不同类型的告警确定的问题进行处理,能够保障企业***安全稳定。
图3是根据本发明一种实施方式的对网络设备进行监控处理的***的架构图。
如图3所示,所述监控处理***包括:
展示模块310,用于执行下述操作:使用LUA语言定义所述采集公式;获取所述性能指标数据对应的性能曲线,并展示所述性能曲线。其中,使用LUA语言定义采集公式,进而基于LUA脚本确定的采集任务对网络设备的数据进行采集可以实现性能指标数据的灵活采集;展示根据性能指标数据生成的性能曲线,可以为用户提供更加直观的网络设备性能变化。
任务调度模块320,用于获取采集公式,并将所述采集公式发送至消息总线。
采集代理模块330,用于从所述消息总线中获取所述采集公式,基于所述采集公式确定数据采集任务,并根据所述数据采集任务采集所述网络设备的性能指标数据。在一种可选的实施方式中,数据采集任务可以包括但不限于:采集周期、采集对象、告警压缩标识。
在其他可选的实施方式中,根据数据采集任务采集网络设备的性能指标数据可以包括但不限于下述几种:(1)通过适配SNMP协议,获取网络设备的内存、CPU、温度、接口流量信息;(2)通过适配ICMP协议,获取网络设备的网络通不通、主机是否可达、路由是否可用的信息;(3)通过适配RPING协议,获取网络设备的延时、丢包率;(4)通过适配SNMP TRAP入口,获取网络设备的故障信息;(5)通过适配SYSLOG协议,获取网络设备的日志信息。
预处理模块340,用于执行下述操作:将采集到的性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警,以及进行告警时的告警类型;当判定需要进行告警时,确定所述告警对应的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为有效;当判定不需要进行告警时,确定不进行告警的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为无效;当所述告警压缩标识连续两次以上为有效时,仅根据所述告警压缩标识的第一次有效标识进行告警,并对所述告警进行处理;当所述告警压缩标识为无效时,不进行告警,并重新开始对所述告警压缩标识的有效标识进行计数。
通过对采集任务设置告警压缩标识,可以从告警的根源上有效防止告警风暴的产生,减少告警冗余,提升了告警有效性。
在一种可选的实施方式中,将性能指标数据与设定阈值或动态基线进行比较,基于比较的结果判定是否进行告警可以包括但不限于以下几种:(1)当网络设备的内存、CPU的使用率、温度或接口流量的值超出其对应的设定阈值或动态基线确定的范围,则判定进行告警;(2)当网络设备的网络不通、主机不可达或路由不可用时,则判定进行告警;(3)当网络设备的延时或丢包率超出其对应的设定阈值或动态基线确定的范围,则判定进行告警。
在另一种可选的实施方式中,根据历史性能指标数据计算动态基线;由技术人员根据业务对网络设备的要求确定设定阈值。可选的,不同的告警类型可以包括主要告警和次要告警两类。
在其他可选的实施方式中,针对各项性能指标数据的告警类型还可以包括阈值类告警、TRAP类告警、SYSLOG类告警。其中,阈值类告警是基于设定阈值或动态基线针对网络设备的内存、CPU、温度、接口流量信息、延时、丢包率,以及网络设备的网络通不通、主机是否可达、路由是否可用等信息确定的告警;TRAP类告警包括网络设备的故障信息;SYSLOG类告警包括网络设备的日志信息。
事件处理模块350,用于执行下述操作:根据采集到的故障信息和日志信息确定网络设备出现的问题,并对所述问题进行处理;当采集到的各项性能指标数据与设定阈值或动态基线比较后,确定进行告警时,针对告警确定的设备问题进行处理。
在一种可选的实施方式中,引入正则表和映射表确定具体的告警处理方法,具体而言,通过将告警处理的正则表、映射表的逻辑进行封装,使得用户无需重复写脚本的if-elase结构,只需引入对应正则表即可进行告警判断。该方法与现有技术中使用SHELL脚本(一种命令语言)的方案相比,事件处理过程更容易理解。
采用本发明实施方式的监控处理***,通过适配多种协议采集网络设备的性能指标数据,可以达到多维度监控网络环境的需求。同时,针对不同类型的告警确定的问题进行处理,能够保障企业***安全稳定。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。
对应的,本发明实施方式还提供一种计算机可读存储介质,其上存储有计算机可读指令或程序,所述计算机可读指令或程序被处理器执行时,使得计算机执行如下操作:所述操作包括如上任意一种实施方式所述监控处理方法所包含的步骤,在此不再赘述。其中,所述存储介质可以包括:例如,光盘、硬盘、软盘、闪存、磁带等。
另外,本发明实施方式还提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令或程序,其中,所述一条或多条计算机指令或程序被所述处理器执行时能够实现如上任意一种实施方式所述的监控处理方法。所述计算机设备可以是,例如,服务器、台式计算机、笔记本计算机等。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。因此本发明的保护范围应以权利要求为准。
Claims (22)
1.一种对网络设备进行监控处理的方法,其特征在于,所述监控处理方法包括:
获取基于采集公式确定的数据采集任务;
根据所述数据采集任务采集所述网络设备的性能指标数据;
将所述性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警,以及进行告警时的告警类型。
2.如权利要求1所述的监控处理方法,其特征在于,所述监控处理方法还包括:
使用LUA语言定义所述采集公式;
获取所述性能指标数据对应的性能曲线,并展示所述性能曲线。
3.如权利要求2所述的监控处理方法,其特征在于,所述数据采集任务包括:采集周期、采集对象、告警压缩标识。
4.如权利要求3所述的监控处理方法,其特征在于,根据所述数据采集任务采集所述网络设备的性能指标数据包括:
通过适配SNMP协议,获取所述网络设备的内存、CPU、温度、接口流量信息;
通过适配ICMP协议,获取所述网络设备的网络通不通、主机是否可达、路由是否可用的信息;
通过适配RPING协议,获取所述网络设备的延时、丢包率。
5.如权利要求4所述的监控处理方法,其特征在于,将所述性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警包括:
当所述网络设备的内存、CPU的使用率、温度或接口流量的值超出其对应的设定阈值或动态基线确定的范围,则判定进行告警;
当所述网络设备的网络不通、主机不可达或路由不可用时,则判定进行告警;
当所述网络设备的延时或丢包率超出其对应的设定阈值或动态基线确定的范围,则判定进行告警。
6.如权利要求5所述的监控处理方法,其特征在于,根据历史性能指标数据计算所述动态基线。
7.如权利要求6所述的监控处理方法,其特征在于,所述监控处理方法还包括:
当判定需要进行告警时,确定所述告警对应的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为有效;
当判定不需要进行告警时,确定不进行告警的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为无效。
8.如权利要求7所述的监控处理方法,其特征在于,所述监控处理方法还包括:
当所述告警压缩标识连续两次以上为有效时,仅根据所述告警压缩标识的第一次有效标识进行告警,并对所述告警进行处理;
当所述告警压缩标识为无效时,不进行告警,并重新开始对所述告警压缩标识的有效标识进行计数。
9.如权利要求8所述的监控处理方法,其特征在于,根据所述数据采集任务采集所述网络设备的性能指标数据还包括:
通过适配SNMP TRAP入口,获取所述网络设备的故障信息;
通过适配SYSLOG协议,获取所述网络设备的日志信息。
10.如权利要求9所述的监控处理方法,其特征在于,所述监控处理方法还包括:
根据所述故障信息和日志信息确定网络设备出现的问题,并对所述问题进行处理。
11.一种对网络设备进行监控处理的***,其特征在于,所述监控处理***包括:
任务调度模块,用于获取采集公式,并将所述采集公式发送至消息总线;
采集代理模块,用于从所述消息总线中获取所述采集公式,基于所述采集公式确定数据采集任务,并根据所述数据采集任务采集所述网络设备的性能指标数据;
预处理模块,用于将所述性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警,以及进行告警时的告警类型。
12.如权利要求11所述的监控处理***,其特征在于,所述监控处理***还包括展示模块,用于执行下述操作:
使用LUA语言定义所述采集公式;
获取所述性能指标数据对应的性能曲线,并展示所述性能曲线。
13.如权利要求12所述的监控处理***,其特征在于,所述数据采集任务包括:采集周期、采集对象、告警压缩标识。
14.如权利要求13所述的监控处理***,其特征在于,根据所述数据采集任务采集所述网络设备的性能指标数据包括:
通过适配SNMP协议,获取所述网络设备的内存、CPU、温度、接口流量信息;
通过适配ICMP协议,获取所述网络设备的网络通不通、主机是否可达、路由是否可用的信息;
通过适配RPING协议,获取所述网络设备的延时、丢包率。
15.如权利要求14所述的监控处理***,其特征在于,将所述性能指标数据与设定阈值或动态基线进行比较,基于所述比较的结果判定是否进行告警包括:
当所述网络设备的内存、CPU的使用率、温度或接口流量的值超出其对应的设定阈值或动态基线确定的范围,则判定进行告警;
当所述网络设备的网络不通、主机不可达或路由不可用时,则判定进行告警;当所述网络设备的延时或丢包率超出其对应的设定阈值或动态基线确定的范围,则判定进行告警。
16.如权利要求15所述的监控处理***,其特征在于,根据历史性能指标数据计算所述动态基线。
17.如权利要求16所述的监控处理***,其特征在于,所述预处理模块还用于执行下述操作:
当判定需要进行告警时,确定所述告警对应的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为有效;
当判定不需要进行告警时,确定不进行告警的性能指标数据,并将获取该性能指标数据的数据采集任务的告警压缩标识记为无效。
18.如权利要求17所述的监控处理***,其特征在于,所述预处理模块还用于执行下述操作:
当所述告警压缩标识连续两次以上为有效时,仅根据所述告警压缩标识的第一次有效标识进行告警,并对所述告警进行处理;
当所述告警压缩标识为无效时,不进行告警,并重新开始对所述告警压缩标识的有效标识进行计数。
19.如权利要求18所述的监控处理***,其特征在于,根据所述数据采集任务采集所述网络设备的性能指标数据还包括:
通过适配SNMP TRAP入口,获取所述网络设备的故障信息;
通过适配SYSLOG协议,获取所述网络设备的日志信息。
20.如权利要求19所述的监控处理***,其特征在于,所述监控处理***还包括:
事件处理模块,用于根据所述故障信息和日志信息确定网络设备出现的问题,并对所述问题进行处理。
21.一种计算机存储介质,所述计算机存储介质储存计算机软件指令,其特征在于,所述计算机软件指令由处理器执行以实现如权利要求1-10中任一项所述的监控处理方法。
22.一种计算机设备,其包括存储器和处理器;
其特征在于,所述存储器用于存储一条或多条计算机指令,所述处理器执行所述一条或多条计算机指令以实现如权利要求1-10中任一项所述的监控处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011472750.0A CN112596975A (zh) | 2020-12-15 | 2020-12-15 | 对网络设备进行监控处理的方法、***、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011472750.0A CN112596975A (zh) | 2020-12-15 | 2020-12-15 | 对网络设备进行监控处理的方法、***、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112596975A true CN112596975A (zh) | 2021-04-02 |
Family
ID=75195756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011472750.0A Pending CN112596975A (zh) | 2020-12-15 | 2020-12-15 | 对网络设备进行监控处理的方法、***、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112596975A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113485220A (zh) * | 2021-08-23 | 2021-10-08 | 深圳市托奇科技有限公司 | 一种简化运维人员现场网络诊断的云端协同方法及*** |
CN114363192A (zh) * | 2021-12-27 | 2022-04-15 | 中国电信股份有限公司 | 网络运行的性能指标分析方法及***、电子设备 |
CN114422403A (zh) * | 2021-12-23 | 2022-04-29 | 中国人民解放军63921部队 | 一种基于数据基线的时延越限告警方法 |
CN115529218A (zh) * | 2022-09-16 | 2022-12-27 | 中国建设银行股份有限公司 | 一种网络监控方法、装置、存储介质及设备 |
WO2023273520A1 (zh) * | 2021-06-30 | 2023-01-05 | 中国民航信息网络股份有限公司 | 一种监控指标的预警方法及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134511A (ja) * | 1999-11-08 | 2001-05-18 | Nec Corp | ネットワーク管理システム及びその管理方法並びにその制御プログラムを記録した記録媒体 |
CN102034148A (zh) * | 2010-12-08 | 2011-04-27 | 山东浪潮齐鲁软件产业股份有限公司 | 一种监控***的事件预警及防风暴策略的实现方法 |
CN102625349A (zh) * | 2012-03-09 | 2012-08-01 | 浪潮通信信息***有限公司 | 一种告警风暴下的数据处理方法 |
CN104572401A (zh) * | 2015-02-09 | 2015-04-29 | 浪潮软件股份有限公司 | 一种告警方法及告警*** |
CN104954184A (zh) * | 2015-06-15 | 2015-09-30 | 四川长虹电器股份有限公司 | 云端后台服务器集群的监控、告警方法及*** |
CN108055144A (zh) * | 2017-10-23 | 2018-05-18 | 北京迈特力德信息技术有限公司 | 一种网络设备的监控方法及*** |
CN109802843A (zh) * | 2017-11-16 | 2019-05-24 | 四川勇超网络科技有限公司 | 一种基于snmp的网络设备监控*** |
CN111064635A (zh) * | 2019-12-10 | 2020-04-24 | 中盈优创资讯科技有限公司 | 一种异常流量的监视方法及*** |
CN111200526A (zh) * | 2019-12-31 | 2020-05-26 | 中国建设银行股份有限公司 | 网络设备的监控***及方法 |
-
2020
- 2020-12-15 CN CN202011472750.0A patent/CN112596975A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134511A (ja) * | 1999-11-08 | 2001-05-18 | Nec Corp | ネットワーク管理システム及びその管理方法並びにその制御プログラムを記録した記録媒体 |
CN102034148A (zh) * | 2010-12-08 | 2011-04-27 | 山东浪潮齐鲁软件产业股份有限公司 | 一种监控***的事件预警及防风暴策略的实现方法 |
CN102625349A (zh) * | 2012-03-09 | 2012-08-01 | 浪潮通信信息***有限公司 | 一种告警风暴下的数据处理方法 |
CN104572401A (zh) * | 2015-02-09 | 2015-04-29 | 浪潮软件股份有限公司 | 一种告警方法及告警*** |
CN104954184A (zh) * | 2015-06-15 | 2015-09-30 | 四川长虹电器股份有限公司 | 云端后台服务器集群的监控、告警方法及*** |
CN108055144A (zh) * | 2017-10-23 | 2018-05-18 | 北京迈特力德信息技术有限公司 | 一种网络设备的监控方法及*** |
CN109802843A (zh) * | 2017-11-16 | 2019-05-24 | 四川勇超网络科技有限公司 | 一种基于snmp的网络设备监控*** |
CN111064635A (zh) * | 2019-12-10 | 2020-04-24 | 中盈优创资讯科技有限公司 | 一种异常流量的监视方法及*** |
CN111200526A (zh) * | 2019-12-31 | 2020-05-26 | 中国建设银行股份有限公司 | 网络设备的监控***及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023273520A1 (zh) * | 2021-06-30 | 2023-01-05 | 中国民航信息网络股份有限公司 | 一种监控指标的预警方法及相关设备 |
CN113485220A (zh) * | 2021-08-23 | 2021-10-08 | 深圳市托奇科技有限公司 | 一种简化运维人员现场网络诊断的云端协同方法及*** |
CN114422403A (zh) * | 2021-12-23 | 2022-04-29 | 中国人民解放军63921部队 | 一种基于数据基线的时延越限告警方法 |
CN114363192A (zh) * | 2021-12-27 | 2022-04-15 | 中国电信股份有限公司 | 网络运行的性能指标分析方法及***、电子设备 |
CN115529218A (zh) * | 2022-09-16 | 2022-12-27 | 中国建设银行股份有限公司 | 一种网络监控方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112596975A (zh) | 对网络设备进行监控处理的方法、***、设备和存储介质 | |
JP7100155B2 (ja) | アラームログ圧縮方法、装置、およびシステム、並びに記憶媒体 | |
CN111885012B (zh) | 基于多种网络设备信息采集的网络态势感知方法及*** | |
US8051028B2 (en) | Method and apparatus for generating configuration rules for computing entities within a computing environment using association rule mining | |
WO2018103453A1 (zh) | 检测网络的方法和装置 | |
CN107992398A (zh) | 一种业务***的监控方法和监控*** | |
CN111176879A (zh) | 设备的故障修复方法及装置 | |
CN110175451A (zh) | 一种基于电力云的安全监控方法和*** | |
CN110908883A (zh) | 用户画像数据监控方法、***、设备及存储介质 | |
CN107562601A (zh) | 一种告警方法及装置 | |
CN114422325A (zh) | 内容分发网络异常定位方法、装置、设备及存储介质 | |
CN111488258A (zh) | 一种用于软硬件运行状态分析与预警的*** | |
CN112699007A (zh) | 监控机器性能的方法、***、网络设备及存储介质 | |
CN109240863A (zh) | 一种cpu故障定位方法、装置、设备及存储介质 | |
EP3202091B1 (en) | Operation of data network | |
CN112910733A (zh) | 一种基于大数据的全链路监控***及方法 | |
CN115549953B (zh) | 一种网络安全告警方法及*** | |
CN111258870A (zh) | 分布式存储***的性能分析方法、装置、设备及存储介质 | |
CN111274089B (zh) | 一种基于旁路技术的服务器异常行为感知*** | |
CN105892387A (zh) | 基于跨平台多点数据采集mpca模型的机房隐患自动上报装置及方法 | |
JP2018169643A (ja) | セキュリティ運用システム、セキュリティ運用管理装置およびセキュリティ運用方法 | |
CN109766243B (zh) | 一种基于幂函数的多核主机性能监控方法 | |
Arefin et al. | Cloudinsight: Shedding light on the cloud | |
CN117640748B (zh) | 跨平台设备信息采集*** | |
CN116662127A (zh) | 一种设备告警信息分类并预警的方法、***、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |