CN113946497A - 一种适用于多云平台资源统一智能监控告警的方法 - Google Patents

一种适用于多云平台资源统一智能监控告警的方法 Download PDF

Info

Publication number
CN113946497A
CN113946497A CN202111028927.2A CN202111028927A CN113946497A CN 113946497 A CN113946497 A CN 113946497A CN 202111028927 A CN202111028927 A CN 202111028927A CN 113946497 A CN113946497 A CN 113946497A
Authority
CN
China
Prior art keywords
alarm
monitoring
alarming
management
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111028927.2A
Other languages
English (en)
Inventor
李济伟
王怀宇
来风刚
李伟良
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202111028927.2A priority Critical patent/CN113946497A/zh
Publication of CN113946497A publication Critical patent/CN113946497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种适用于多云平台资源统一智能监控告警的方法,包括以下步骤:步骤S1:通过采用一体化智能监控告警平台进行智能监控告警,智能监控告警平台采用Portal服务、CCS服务、DCS服务根据IT环境的实际情况部署在相同或不同的主机上,同时可以根据管理对象规模,采用单个或多个DCS进行管理容量规划,实现集中或分布式两种不同需要的部署方式,对企业内、外网、总部及分支等不同结构的IT资源实现灵活管理;本发明,通过采用一体化智能监控告警平台,对云平台的使用情况进行统一综合的管控和分析,使得监控告警更加简单;同时,通过扩大数据的采集源,从而使得云监控指标信息更加完善,进而提高告警的准确性。

Description

一种适用于多云平台资源统一智能监控告警的方法
技术领域
本发明涉及云平台技术领域,尤其涉及一种适用于多云平台资源统一智能监控告警的方法。
背景技术
云监控指的是一种针对网络、***、应用等内容提供可用性、用户体验和安全性方面的监控服务。它的目的是保障云计算用户的业务稳定安全运行;在云计算平台中,资源的监控和管理是确保平台可靠性非常重要的一环。不仅是为了能够在资源监控的基础上方便提出有效的管理方案,从而提升资源利用率,同时还能够确保在故障发生时能最及时的探测到并采取一种最为有效的方法解决它。
传统的云数据中心,在对数据进行采集时,采集的数据范围较窄;而且,告警方式单一,影响监控告警的准确性;因此,设计一种适用于多云平台资源统一智能监控告警的方法。
发明内容
本发明解决的问题在于提供一种适用于多云平台资源统一智能监控告警的方法,通过采用一体化智能监控告警平台,对云平台的使用情况进行统一综合的管控和分析,使得监控告警更加简单;同时,通过扩大数据的采集源,从而使得云监控指标信息更加完善,进而提高告警的准确性。
为了实现上述目的,本发明采用了如下技术方案:
一种适用于多云平台资源统一智能监控告警的方法,包括以下步骤:
步骤S1:通过采用一体化智能监控告警平台进行智能监控告警,智能监控告警平台采用Portal服务、CCS服务、DCS服务根据IT环境的实际情况部署在相同或不同的主机上,同时可以根据管理对象规模,采用单个或多个DCS进行管理容量规划,实现集中或分布式两种不同需要的部署方式,对企业内、外网、总部及分支等不同结构的IT资源实现灵活管理;
步骤S2:一体化智能监控告警平台包括数据采集层、数据处理层和数据展现层;
步骤S3:数据采集层通过多种网络协议,包括SNMP/SNMP Trap、Telnet、SSH、WMI、JDBC、Syslog、开放API等,从被管设备里获取需要的云监控指标信息,将采集的数据放到缓存进行解析和运算,然后存入数据库,供上层平台进行分析和展示;
步骤S4:数据处理层包括:资源监控、服务流程管理、配置管理、资产管理、运维大数据分析等多个子***;通过由一个或多个DCS构成,用于接收各DCS采集到的数据,并对各种采集数据通过分析和挖掘处理,为前端的展现提供性能数据依据;超过指标阈值产生故障告警给数据展现层;
步骤S5:数据展现层包括:运用Web技术,提供分角色、可视化的数据展现和管理;通过对业务管理、资源管理、拓扑管理、巡检管理、告警管理等功能对IT资源环境进行全面的管理,提供大量的统计和分析数据以及展示页面,满足日常工作的需要;对网络提供告警监控,与云平台、动力环境***提供多种数据集成方式,并可利用大数据平台构件运维指数评估分析模型,按照历史数据变化规律,挖掘业务、指标、故障等关联信息,帮助找到问题根源改进点,在平台中进行一体化的监控信息、告警信息的呈现,并进行业务关联分析、告警关联分析;
步骤S6:选用Nagios开源监视***进行告警;
告警牵涉到的条件包括:告警醒目、告警门限和告警周期;
当告警触发时,需要进行写入日志操作,告警项目无法进行开启时,向用户发出告警失败提示。
作为本发明进一步的方案:所述步骤S2中,平台采用模块化设计,模块之间松耦合,新模块可以直接接入平台,模块之间通过接口、消息队列进行通信。
作为本发明进一步的方案:所述步骤S3中,云监控指标信息包含的范围包括对服务器本身的监控和web站点的性能;
对服务器本身的监控包括:CPU使用率、CPU负载、内存使用率、磁盘空间使用率、磁盘I/O、网络流量、***进程数、进程CPU/内存/状态监控、服务监控、日志监控;
对web站点的性能包括:站点URL/HTTP可用性和响应时间、UDP/TCP端口可用性和响应时间、POP3/SMTP/FTP端口可用性和响应时间。
作为本发明进一步的方案:所述步骤S5中,用户可以配置Syslog、SNMP Trap的接收、过滤、告警等策略,查看接收到的Syslog、SNMP Trap的信息,手动同步设备信息指标,使得监控数据及时准确。
作为本发明进一步的方案:所述步骤S5中,通过拓扑管理可直观清洗地显示全网所有骨干网络设备、子网和互联关系;层次化的网络显示符合网络逻辑结构,并且关联设备的Syslog告警信息,设备告警信息便于进行故障隔离和快速定位;拓扑管理中提供了直观的2D机房拓扑管理、自动化的地图拓扑管理、IP-MAC-PORT、真实面板管理等功能,集成了Telnet、SSH、TraceRT、Ping远程运维工具,方便远程控制IT资源。
作为本发明进一步的方案:所述步骤S6中,告警包括:
1)通过网页控制台获得告警;
2)通过Email接收告警;
3)通过手机短信接收告警。
本发明的有益效果是:本发明,通过采用一体化智能监控告警平台,对云平台的使用情况进行统一综合的管控和分析,使得监控告警更加简单;同时,通过扩大数据的采集源,从而使得云监控指标信息更加完善,进而提高告警的准确性。
附图说明
图1为本发明智能监控告警平台的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面给出具体实施例。
参见图1,一种适用于多云平台资源统一智能监控告警的方法,包括以下步骤:
步骤S1:通过采用一体化智能监控告警平台进行智能监控告警,智能监控告警平台采用Portal服务、CCS服务、DCS服务根据IT环境的实际情况部署在相同或不同的主机上,同时可以根据管理对象规模,采用单个或多个DCS进行管理容量规划,实现集中或分布式两种不同需要的部署方式,对企业内、外网、总部及分支等不同结构的IT资源实现灵活管理;
步骤S2:一体化智能监控告警平台包括数据采集层、数据处理层和数据展现层;
其中,平台采用模块化设计,模块之间松耦合,新模块可以直接接入平台,模块之间通过接口、消息队列进行通信;
步骤S3:数据采集层通过多种网络协议,包括SNMP/SNMP Trap、Telnet、SSH、WMI、JDBC、Syslog、开放API等,从被管设备里获取需要的云监控指标信息,将采集的数据放到缓存进行解析和运算,然后存入数据库,供上层平台进行分析和展示;
其中,云监控指标信息包含的范围包括对服务器本身的监控和web站点的性能;
对服务器本身的监控包括:CPU使用率、CPU负载、内存使用率、磁盘空间使用率、磁盘I/O、网络流量、***进程数、进程CPU/内存/状态监控、服务监控、日志监控;
对web站点的性能包括:站点URL/HTTP可用性和响应时间、UDP/TCP端口可用性和响应时间、POP3/SMTP/FTP端口可用性和响应时间;
通过丰富详细的数据采集,从而提高告警的准确性;
步骤S4:数据处理层包括:资源监控、服务流程管理、配置管理、资产管理、运维大数据分析等多个子***;通过由一个或多个DCS构成,用于接收各DCS采集到的数据,并对各种采集数据通过分析和挖掘处理,为前端的展现提供性能数据依据;超过指标阈值产生故障告警给数据展现层;
步骤S5:数据展现层包括:运用Web技术,提供分角色、可视化的数据展现和管理;通过对业务管理、资源管理、拓扑管理、巡检管理、告警管理等功能对IT资源环境进行全面的管理,提供大量的统计和分析数据以及展示页面,满足日常工作的需要;对网络提供告警监控,与云平台、动力环境***提供多种数据集成方式,并可利用大数据平台构件运维指数评估分析模型,按照历史数据变化规律,挖掘业务、指标、故障等关联信息,帮助找到问题根源改进点,在平台中进行一体化的监控信息、告警信息的呈现,并进行业务关联分析、告警关联分析;
其中,用户可以配置Syslog、SNMP Trap的接收、过滤、告警等策略,查看接收到的Syslog、SNMP Trap的信息,手动同步设备信息指标,使得监控数据及时准确;
其中,通过拓扑管理可直观清洗地显示全网所有骨干网络设备、子网和互联关系;层次化的网络显示符合网络逻辑结构,并且关联设备的Syslog告警信息,设备告警信息便于进行故障隔离和快速定位;拓扑管理中提供了直观的2D机房拓扑管理、自动化的地图拓扑管理、IP-MAC-PORT、真实面板管理等功能,集成了Telnet、SSH、TraceRT、Ping远程运维工具,方便远程控制IT资源;
步骤S6:选用Nagios开源监视***进行告警;
其中,告警包括:
1)通过网页控制台获得告警;
2)通过Email接收告警;
3)通过手机短信接收告警;
告警牵涉到的条件包括:告警醒目、告警门限和告警周期;
当告警触发时,需要进行写入日志操作,告警项目无法进行开启时,向用户发出告警失败提示。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种适用于多云平台资源统一智能监控告警的方法,其特征在于,包括以下步骤:
步骤S1:通过采用一体化智能监控告警平台进行智能监控告警,智能监控告警平台采用Portal服务、CCS服务、DCS服务根据IT环境的实际情况部署在相同或不同的主机上,同时可以根据管理对象规模,采用单个或多个DCS进行管理容量规划,实现集中或分布式两种不同需要的部署方式,对企业内、外网、总部及分支等不同结构的IT资源实现灵活管理;
步骤S2:一体化智能监控告警平台包括数据采集层、数据处理层和数据展现层;
步骤S3:数据采集层通过多种网络协议,包括SNMP/SNMP Trap、Telnet、SSH、WMI、JDBC、Syslog、开放API等,从被管设备里获取需要的云监控指标信息,将采集的数据放到缓存进行解析和运算,然后存入数据库,供上层平台进行分析和展示;
步骤S4:数据处理层包括:资源监控、服务流程管理、配置管理、资产管理、运维大数据分析等多个子***;通过由一个或多个DCS构成,用于接收各DCS采集到的数据,并对各种采集数据通过分析和挖掘处理,为前端的展现提供性能数据依据;超过指标阈值产生故障告警给数据展现层;
步骤S5:数据展现层包括:运用Web技术,提供分角色、可视化的数据展现和管理;通过对业务管理、资源管理、拓扑管理、巡检管理、告警管理等功能对IT资源环境进行全面的管理,提供大量的统计和分析数据以及展示页面,满足日常工作的需要;对网络提供告警监控,与云平台、动力环境***提供多种数据集成方式,并可利用大数据平台构件运维指数评估分析模型,按照历史数据变化规律,挖掘业务、指标、故障等关联信息,帮助找到问题根源改进点,在平台中进行一体化的监控信息、告警信息的呈现,并进行业务关联分析、告警关联分析;
步骤S6:选用Nagios开源监视***进行告警;
告警牵涉到的条件包括:告警醒目、告警门限和告警周期;
当告警触发时,需要进行写入日志操作,告警项目无法进行开启时,向用户发出告警失败提示。
2.根据权利要求1所述的适用于多云平台资源统一智能监控告警的方法,其特征在于,所述步骤S2中,平台采用模块化设计,模块之间松耦合,新模块可以直接接入平台,模块之间通过接口、消息队列进行通信。
3.根据权利要求1所述的适用于多云平台资源统一智能监控告警的方法,其特征在于,所述步骤S3中,云监控指标信息包含的范围包括对服务器本身的监控和web站点的性能;
对服务器本身的监控包括:CPU使用率、CPU负载、内存使用率、磁盘空间使用率、磁盘I/O、网络流量、***进程数、进程CPU/内存/状态监控、服务监控、日志监控;
对web站点的性能包括:站点URL/HTTP可用性和响应时间、UDP/TCP端口可用性和响应时间、POP3/SMTP/FTP端口可用性和响应时间。
4.根据权利要求1所述的适用于多云平台资源统一智能监控告警的方法,其特征在于,所述步骤S5中,用户可以配置Syslog、SNMP Trap的接收、过滤、告警等策略,查看接收到的Syslog、SNMP Trap的信息,手动同步设备信息指标,使得监控数据及时准确。
5.根据权利要求1所述的适用于多云平台资源统一智能监控告警的方法,其特征在于,所述步骤S5中,通过拓扑管理可直观清洗地显示全网所有骨干网络设备、子网和互联关系;层次化的网络显示符合网络逻辑结构,并且关联设备的Syslog告警信息,设备告警信息便于进行故障隔离和快速定位;拓扑管理中提供了直观的2D机房拓扑管理、自动化的地图拓扑管理、IP-MAC-PORT、真实面板管理等功能,集成了Telnet、SSH、TraceRT、Ping远程运维工具,方便远程控制IT资源。
6.根据权利要求1所述的适用于多云平台资源统一智能监控告警的方法,其特征在于,所述步骤S6中,告警包括:
1)通过网页控制台获得告警;
2)通过Email接收告警;
3)通过手机短信接收告警。
CN202111028927.2A 2021-09-03 2021-09-03 一种适用于多云平台资源统一智能监控告警的方法 Pending CN113946497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111028927.2A CN113946497A (zh) 2021-09-03 2021-09-03 一种适用于多云平台资源统一智能监控告警的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111028927.2A CN113946497A (zh) 2021-09-03 2021-09-03 一种适用于多云平台资源统一智能监控告警的方法

Publications (1)

Publication Number Publication Date
CN113946497A true CN113946497A (zh) 2022-01-18

Family

ID=79327820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111028927.2A Pending CN113946497A (zh) 2021-09-03 2021-09-03 一种适用于多云平台资源统一智能监控告警的方法

Country Status (1)

Country Link
CN (1) CN113946497A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114710505A (zh) * 2022-04-02 2022-07-05 杭州云象网络技术有限公司 基于区块链实现数字人民币生态***方法及***
CN114978856A (zh) * 2022-05-11 2022-08-30 北京辛诺创新科技有限公司 一种多云计算管理平台及方法
CN115865622A (zh) * 2022-11-25 2023-03-28 南方电网数字平台科技(广东)有限公司 一种多云监控告警方法及装置
CN116166505A (zh) * 2023-02-22 2023-05-26 优维科技(深圳)有限公司 金融行业双态it架构的监控平台、方法、存储介质及设备
WO2023142054A1 (zh) * 2022-01-27 2023-08-03 中远海运科技股份有限公司 一种面向容器微服务的性能监控告警方法及告警***
CN117033158A (zh) * 2023-10-09 2023-11-10 深圳市金众工程检验检测有限公司 一种基于云平台的综合性能监测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023142054A1 (zh) * 2022-01-27 2023-08-03 中远海运科技股份有限公司 一种面向容器微服务的性能监控告警方法及告警***
CN114710505A (zh) * 2022-04-02 2022-07-05 杭州云象网络技术有限公司 基于区块链实现数字人民币生态***方法及***
CN114978856A (zh) * 2022-05-11 2022-08-30 北京辛诺创新科技有限公司 一种多云计算管理平台及方法
CN115865622A (zh) * 2022-11-25 2023-03-28 南方电网数字平台科技(广东)有限公司 一种多云监控告警方法及装置
CN116166505A (zh) * 2023-02-22 2023-05-26 优维科技(深圳)有限公司 金融行业双态it架构的监控平台、方法、存储介质及设备
CN116166505B (zh) * 2023-02-22 2023-09-26 优维科技(深圳)有限公司 金融行业双态it架构的监控平台、方法、存储介质及设备
CN117033158A (zh) * 2023-10-09 2023-11-10 深圳市金众工程检验检测有限公司 一种基于云平台的综合性能监测方法

Similar Documents

Publication Publication Date Title
CN113946497A (zh) 一种适用于多云平台资源统一智能监控告警的方法
US11616703B2 (en) Scalable visualization of health data for network devices
CN104506393B (zh) 一种基于云平台的***监控方法
CN102447570B (zh) 一种基于健康度分析的监控装置及方法
CN104407964B (zh) 一种基于数据中心的集中监控***及方法
WO2019233047A1 (zh) 基于电网调度的运维方法
CN105282772A (zh) 无线网数通设备监控***及设备监控方法
CN103295155B (zh) 证券核心业务***监控方法
CN103716173B (zh) 一种存储监控***及监控告警发布的方法
CN105183609A (zh) 一种应用于软件***的实时监控***及方法
CN102523140A (zh) 一种用于电力客户服务***运维的实时监测装置
CN104637265A (zh) 调度自动化多级一体化智能值班报警***
CN111488258A (zh) 一种用于软硬件运行状态分析与预警的***
CN111083230A (zh) 一种计算机网络运行管理***
US20230198860A1 (en) Systems and methods for the temporal monitoring and visualization of network health of direct interconnect networks
WO2015192664A1 (zh) 设备监控方法及装置
Safrianti et al. Real-time network device monitoring system with simple network management protocol (SNMP) model
CN103973484A (zh) 一种基于网络拓扑结构的运维管理***
US11558242B2 (en) Generation of synthetic alerts and unified dashboard for viewing multiple layers of data center simultaneously
CN114885014A (zh) 一种外场设备状态的监测方法、装置、设备及介质
CN111817865A (zh) 一种监控网管设备的方法及监控***
US11425011B2 (en) System and method for real time monitoring a plurality of network devices
CN117650964A (zh) 一种智能化网络运维管理***
CN203911977U (zh) 一种跨网络信息设备监控***
CN109614292A (zh) 基于shell的主机运行数据自动采集监控***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination