CN109032890A

CN109032890A - 一种混合云数据中心大屏监控方法

Info

Publication number: CN109032890A
Application number: CN201810809585.XA
Authority: CN
Inventors: 马桂成; 季统凯
Original assignee: G Cloud Technology Co Ltd
Current assignee: G Cloud Technology Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2018-12-18

Abstract

本发明涉及混合云监控技术领域，特别是一种混合云数据中心大屏监控方法。本发明的方法是收集监控数据，然后生成负载拓扑图、进行告警统计和告警通知、负载排行前五统计、统计并获取周期性的整个数据中心所有主机的各项平均实时数据、清除过期的时序数据库数据。本发明解决了无法在一个大屏查看全局实时监控情况、大量数据存储和查询问题、无法提供负载拓扑图、无法及时预防***奔溃等问题；可应用于混合云监控技术领域。

Description

一种混合云数据中心大屏监控方法

技术领域

本发明涉及混合云监控技术领域，特别是一种混合云数据中心大屏监控方法。

背景技术

现在一些大型企业或政府单位，为了自身需要，在生产环境部署一到多套私有云平台，每个私有云平台都需要监控***，由于云平台的技术复杂，通常私有云平台的监控***都是非常简陋功能。这样会存在以下隐患：

一是用户无法在一个大屏上查看整个数据中心即整个云平台全局的实时监控情况。

二是随着时间的推移，原来通过传统数据库存放数据占用大量的存储空间，并且当数据量到达千万级以上查询请求就会变得非常缓慢。

三是无法提供负载拓扑图，从而不能及时预防***崩溃。

发明内容

本发明解决的技术问题在于提供一种混合云数据中心大屏监控方法；解决无法在一个大屏查看全局实时监控情况、大量数据存储和查询问题、无法提供负载拓扑图、无法及时预防***奔溃等问题。

本发明解决上述技术问题的技术方案是：

所述的方法是收集监控数据，然后生成负载拓扑图、进行告警统计和告警通知、负载排行前五统计、统计并获取周期性的整个数据中心所有主机的各项平均实时数据、清除过期的时序数据库数据。

由混合云平台监控服务统一收集监控数据；

所述的混合云平台监控服务，是指能够独立运行的监控服务，在每个数据中心都有一个监控服务；所述的监控服务能够提供API接口，不需要依赖混合云平台。

所述的负载拓扑图是一种描述主机负载状态和连接状态的拓扑图；

所述的连接状态，是监控服务检查与各个宿主机的连接状态；当监控服务控制中心发送心跳给各个监控代理的时候，监控代理能够及时返回则认为主机是正常状态并停止检查其连接状态；否则主机处于心跳包不正常状态；当主机处于心跳包不正常状态，检查监控代理TCP监听端口的连接状态，若能正常建立TCP连接则认为主机是心跳不正常且监控端口正常的状态并停止检查其连接状态，否则主机处于监听端口异常状态；当主机处于监听端口异常状态，则Ping主机的IP地址，若能Ping通则认为主机是监控代理异常的状态，否则认为主机是网络异常连接状态；

所述的主机是指宿主机或虚拟机；

所述的描述主机负载状态，是指根据主机最近一次收集的监控数据，判断主机的CPU使用率或内存使用率是否大于等于阈值上限，若是则设定主机状态为高负载；判断主机的CPU使用率或内存使用率是否大于等于阈值下限并且小于阈值上限，若是则设定主机状态为较高负载；判断主机的CPU使用率和内存使用率是否都小于阈值下限，若是则设定主机为负载正常状态；

所述的阈值上限默认是80％，阈值下限默认是60％；用户可以修改其默认值，一旦修改，则立刻生效。

所述的告警统计是指统计最近7日产生告警；统计最近7日内各个告警等级的数量统计、问题宿主机统计、正常宿主机统计、问题虚拟机统计、正常虚拟机统计；

所述的告警等级，是指严重告警、重要告警、一般告警三个等级；

所述的问题宿主机，是指最近7日内有生成过告警的宿主机；

所述的问题虚拟机，是指最近7日内有生成过告警的虚拟机；

告警通知是指判断各个告警策略下各个规则能否满足告警条件，若其中一个规则满足则告警通知联系人。

所述的负载排行前五统计是统计主机负载前五排行；

是指最近一次收集的CPU利用率或内存利用率排在前五名，包含四种排行：宿主机CPU利用率前五排行、宿主机内存利用率前五排行、虚拟机CPU利用率前五排行、虚拟机内存利用率前五排行；

所述的排行，是指采用分组Top函数方法，是一种以单个主机为组对象，可以在所有租户中返回最大值的5个组对象，从而选出了前五排行的主机。

所述的主机的各项平均实时数据，是指最近60分钟，每分钟的所有宿主机总平均CPU利用率或内存利用率，包含：所有宿主机总平均CPU利用率、所有宿主机总平均内存利用率、所有虚拟机总平均CPU利用率、所有虚拟机总平均内存利用率；

所述的宿主机总平均CPU利用率，是指所有宿主机CPU利用率总和再除以宿主机个数；

所述的宿主机总平均内存利用率，是指所有宿主机内存利用率总和再除以宿主机个数；

所述的虚拟机总平均CPU利用率，是指所有虚拟机CPU利用率总和再除以虚拟机个数；

所述的虚拟机总平均内存利用率，是指所有虚拟机内存利用率总和再除以虚拟机个数。

所述的时序数据库，是指处理带时间标签的数据，所有数据记录统一以时间排序存放。

所述的清理是指采用数据保留策略；

所述的数据保留策略，是数据存放的策略，可以设置数据持续保留时间、副本个数以及是否为生效策略；可以同时有多个数据保留策略，有且只有一个策略生效；策略生效的时候，根据持续保留时间，自动清理过期的数据。

本发明通过以负载拓扑图、全局实时数据、告警统计、负载前五排行的大屏监控方式，能够解决了无法在一个大屏查看全局实时监控情况、大量数据存储和查询问题、无法提供负载拓扑图、无法及时预防***奔溃等问题。本发明基于Centos操作***，不需要依赖其他云平台***，可以独立运行，可以为各个平台提供接口服务，区别于一般的方法。本发明提供方法是基于时序数据库，能够有效降低存储空间，区别于一般的方法。本发明提供方法采用数据保留策略来自动清理数据，清理十分及时和高效，区别于一般基于传统数据库清理慢并且大量占用连接请求的方法；本发明提供方法是采用负载拓扑图，不但可以实时显示连接状态还能实时显示主机负载状态，区别于一般的方法。

附图说明

下面结合附图对本发明进一步说明：

图1为本发明流程图。

具体实施方式

本发明的实施方式有多种，这里以云平台为例说明其中一种实现方法，流程图如图1所示，具体实施过程如下：

1、收集监控数据。通过监控代理收集虚拟机的监控数据、通过监控中心收集各个宿主机的连接状态、监控数据。

2、生成负载拓扑图，其流程如下：

1)获取所有物理主机；

2)所有宿主机围绕监控中心呈现星星分布，并根据各个宿主机的连接状态显示连接线条颜色，并在焦点在线上的时候显示连接状态值；

3)各个宿主机的颜色根据负载状态，并在焦点在线上的时候显示负载状态值；

4)当用户双击宿主机的时候，进入虚拟机层；

5)虚拟机围绕宿主机呈现星星分布，并根据各个宿主机的连接状态显示连接线条颜色，并在焦点在线上的时候显示连接状态值。

负载拓扑图是一种描述主机负载状态和连接状态的拓扑图；

连接状态是监控服务检查与各个宿主机的连接状态；当监控服务控制中心发送心跳给各个监控代理的时候，监控代理能够及时返回则认为主机是正常状态并停止检查其连接状态；否则主机处于心跳包不正常状态；当主机处于心跳包不正常状态，检查监控代理TCP监听端口的连接状态，若能正常建立TCP连接则认为主机是心跳不正常且监控端口正常的状态并停止检查其连接状态，否则主机处于监听端口异常状态；当主机处于监听端口异常状态，则Ping主机的IP地址，若能Ping通则认为主机是监控代理异常的状态，否则认为主机是网络异常连接状态；

描述主机负载状态，是指根据主机最近一次收集的监控数据，判断主机的CPU使用率或内存使用率是否大于等于阈值上限，若是则设定主机状态为高负载；判断主机的CPU使用率或内存使用率是否大于等于阈值下限并且小于阈值上限，若是则设定主机状态为较高负载；判断主机的CPU使用率和内存使用率是否都小于阈值下限，若是则设定主机为负载正常状态；

3、告警统计和告警通知，其流程如下：

1)获取所有已经生效的告警策略列表；

2)获取告警策略列表下每个策略的告警规则列表；

3)获取每个规则对应的统计方法；

4)进行统计，判断是否满足告警条件；

5)若满足告警条件则触发告警；

6)查询告警对应的联系方式和联系人，根据联系方式通知联系人。

告警统计是指统计最近7日产生告警；统计最近7日内各个告警等级的数量统计、问题宿主机统计、正常宿主机统计、问题虚拟机统计、正常虚拟机统计；

告警等级，是指严重告警、重要告警、一般告警三个等级；

问题宿主机，是指最近7日内有生成过告警的宿主机；

问题虚拟机，是指最近7日内有生成过告警的虚拟机；

4、负载排行前五统计，其流程如下：

1)以每个宿主机或虚拟机为组；

2)获取每个组最近60秒的CPU或内存监控数据；

3)对所有组排序，获取最大值的5个组；

4)显示5个组及监控项，监控项包括四种：宿主机CPU利用率、宿主机内存利用率、虚拟机CPU利用率、虚拟机内存利用率。

5、全局实时数据，其流程如下：

1)统计最近60分钟，每分钟的宿主机总平均CPU利用率、宿主机总平均内存利用率、虚拟机总平均CPU利用率、虚拟机总平均内存利用率。

6、清理历史数据，其流程如下：

1)查询最新的数据保留策略，获取正在应用的数据保留策略；

2)根据数据保留策略的持续保留时间，自动清理过期的数据。

整个流程结束。

Claims

1.一种混合云数据中心大屏监控方法，其特征在于：所述的方法是收集监控数据，然后生成负载拓扑图、进行告警统计和告警通知、负载排行前五统计、统计并获取周期性的整个数据中心所有主机的各项平均实时数据、清除过期的时序数据库数据。

2.根据权利要求1所述的方法，其特征在于：由混合云平台监控服务统一收集监控数据；

3.根据权利要求1所述的方法，其特征在于：所述的负载拓扑图是一种描述主机负载状态和连接状态的拓扑图；

所述的主机是指宿主机或虚拟机；

4.根据权利要求1所述的方法，其特征在于：所述的负载拓扑图是一种描述主机负载状态和连接状态的拓扑图；

所述的主机是指宿主机或虚拟机；

5.根据权利要求1至4任一项所述的方法，其特征在于：所述的告警统计是指统计最近7日产生告警；统计最近7日内各个告警等级的数量统计、问题宿主机统计、正常宿主机统计、问题虚拟机统计、正常虚拟机统计；

所述的问题宿主机，是指最近7日内有生成过告警的宿主机；

所述的问题虚拟机，是指最近7日内有生成过告警的虚拟机；

6.根据权利要求1至4任一项所述的方法，其特征在于：所述的负载排行前五统计是统计主机负载前五排行；

7.根据权利要求5所述的方法，其特征在于：所述的负载排行前五统计是统计主机负载前五排行；

8.根据权利要求1至4任一项所述的方法，其特征在于：

9.根据权利要求7所述的方法，其特征在于：

10.根据权利要求9所述的方法，其特征在于：

所述的清理是指采用数据保留策略；