CN106506282A - 一种提高云平台监控性能及规模的监控方法 - Google Patents

一种提高云平台监控性能及规模的监控方法 Download PDF

Info

Publication number
CN106506282A
CN106506282A CN201611083976.5A CN201611083976A CN106506282A CN 106506282 A CN106506282 A CN 106506282A CN 201611083976 A CN201611083976 A CN 201611083976A CN 106506282 A CN106506282 A CN 106506282A
Authority
CN
China
Prior art keywords
monitoring
virtual machine
calculate node
refers
dislocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201611083976.5A
Other languages
English (en)
Inventor
刘勇彬
杨松
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Cloud Technology Co Ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201611083976.5A priority Critical patent/CN106506282A/zh
Publication of CN106506282A publication Critical patent/CN106506282A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及云计算管理技术领域,特别是指一种提高云平台监控性能及规模的监控方法。本发明的方法是在一个监控频率周期内,将单批次的监控数据采集任务分多个批次进行;实现错位监控。本发明方法运维简单灵活,无需采用分布式部署结构,充分利用现有的监控周期将大规模监控采集实现错位采集。

Description

一种提高云平台监控性能及规模的监控方法
技术领域
本发明涉及云计算管理技术领域,特别是指一种提高云平台监控性能及规模的监控方法。
背景技术
随着云计算的发展,单个云平台的规模在逐渐的扩大,为了便于管理和运维,通常都会开发针对虚拟机的各项资源进行监控,比如CPU利用率、内存利用率、IO利用率等各项资源使用监控项。云平台会将每次的监控数据记录到数据库或者文件服务器以方便运维人员查阅,这些历史监控数据通常都能够让运维人员及时发现虚拟机的异常情况。但是随着虚拟机数量的增加,历史监控数据呈现爆发时的增长,特别是监控频率设置的比较高的时候,比如当云平台规模达到1万台,监控频率5s一次,每台虚拟机监控指标5项时,一分钟将产生60万条数据,一天就采集86400万条数据,而数据库及服务器能够承受的并发采集数量是有限的。
目前一般采用分布式部署或者提高硬件配置的方式来解决并发采集的问题,这种方式往往会消耗大量的成本和运维复杂度。
发明内容
本发明解决的技术问题在于提供一种提高云平台监控性能及规模的监控方法,解决现在监控方法的不足,为云计算环境下虚拟机各项监控指标提供一种在保证监控数据不受影响,又不增加成本的情况下提高云平台监控性能及规模的解决方案。
本发明解决上述技术问题的技术方案是,
所述方法的方法是在一个监控频率周期内,将单批次的监控数据采集任务分多个批次进行;实现错位监控。
所述的方法具体包括如下步骤:
步骤1:设置错位监控值,错位监控值的两倍小于监控频率;
步骤2:根据错位监控值与监控频率,计算在同个监控频率内所要分批采集的次数n;
步骤3:将每台计算节点的虚拟机按照批次分组,分组策略为计算节点虚拟机数量除以批次后,按照预先设定进行分组并顺序编号;
步骤4:选取每个计算节点编号一样的虚拟机组合,形成错位监控对象集合,编号不变;
步骤5:根据计算的监控批次n,在同一个监测周期内,完成每个监控集合的虚拟机监控数据采集。
所述的方法还可包括步骤6:当创建新的虚拟机时,将新创建的虚拟机根据已经编好的编号和批次倒序加入监控集合;
所述的倒序加入监控集合,是指当计算节点N1新创建了一台虚拟机,这台虚拟机应该在这个计算节点最后一个分组。
所述的监控频率,是指每次定时触发数据采集的时间周期;
所述的分批采集次数n,等于监控频率除以错位监控值,结果向下取整;
所述的向下取整,是指忽略小数。
所述的监控频率,是指每次定时触发数据采集的时间周期;
所述的分批采集次数n,等于监控频率除以错位监控值,结果向下取整;
所述的向下取整,是指忽略小数。
所述的计算节点,是指虚拟化节点,为用户提供虚拟机;
所述的按照预先设定进行分组并顺序编号,是指虚拟机数量小于批次向上取整,虚拟机大于批次的,将余数放在最后一组,当批次为10,计算节点N1有20台,计算节点N2有6台,则将计算节点N1每两台虚拟机一组并顺序编号,计算节点N2每一台虚拟机一组并顺序编号。
所述的错位监控对象集合,是指每次要采集数据的虚拟机集合,主要保存虚拟机实例ID;
所述的虚拟机实例ID,是指虚拟机的唯一标识。
发明方案的有益效果如下:
1、本发明的方法节约用户成本,在不用增加硬件配置或者数量的情况下,提高云平台监控性能及规模;
2、本发明方法运维简单灵活,无需采用分布式部署结构,充分利用现有的监控周期将大规模监控采集实现错位采集,提供一种在保证监控数据不受影响,又不增加成本的情况下提高云平台监控性能及规模的方法。
附图说明
下面结合附图对本发明进一步说明:
图1为本发明的流程图;
图2为本发明的技术原理图。
具体实施方式
如图1所示,本发明具体实施过程如下:
步骤1:设置错位监控值,错误监控值的两倍应该小于监控频率。
步骤2:根据错位监控值与监控频率,计算在同个监控频率内所要分批采集的次数n。
步骤3:将每台计算节点的虚拟机按照批次分组,分组策略为计算节点虚拟机数量除以批次,虚拟机数量小于批次向上取整,虚拟机大于批次的,将余数放在最后一组,比如批次为10,计算节点N1有20台,计算节点N2有6台,则将计算节点N1每两台虚拟机一组并顺序编号,计算节点N2每一台虚拟机一组并顺序编号。
步骤4:选取每个计算节点编号一样的虚拟机组合,形成错位监控对象集合,编号不变。
步骤5:根据计算的监控批次n,在同一个监测周期内,完成每个监控集合的虚拟机监控数据采集。
步骤6:当创建新的虚拟机时,将新创建的虚拟机根据已经编好的编号和批次倒序加入监控集合,比如计算节点N1新创建了一台虚拟机,这台虚拟机应该在这个计算节点最后一个分组。
图2为本发明的技术原理图,监控管理端,是指云平台专门用来做监控管理的,主要负责监控数据相关管理工作。
监控代理,是指安装在每台计算节点的监控客户端,负责监控数据的采集工作,并负责向监控管理端上报监控数据。
控制节点安装监控管理端,每个一分钟监控管理模块都会调用每一个计算节点的监控代理接口采集每台虚拟机各项指标性能数据,假设若没有错位监控,监控频率为1分钟,即每个一分钟监控管理模块都会调用监控代理接口采集每台虚拟机各项指标性能数据,如果这个时候有1万台虚拟机,每台虚拟机5个指标,那每次采集的数据将达到5万,即监控管理端数据库每分钟***并发数将达到5万条,若将错位监控值设置成12秒,则会在1分钟的监控周期内将原有的5万条查询分5次,每次1万条***记录;若错位监控值设置6秒,则会在1分钟的监控周期内将原有的5万条查询分10次,那么监控管理端数据库每分钟***并发将将为5千条记录。
然后将每台计算节点的虚拟机按照批次分组,分组策略为计算节点虚拟机数量除以批次,虚拟机数量小于批次向上取整,虚拟机大于批次的,将余数放在最后一组,比如批次为10,计算节点N1有20台,计算节点N2有6台,则将计算节点N1每两台虚拟机一组并顺序编号,计算节点N2每一台虚拟机一组并顺序编号。
接着根据错位监控值与监控频率,计算在同个监控频率内所要分批采集的次数n,分批采集次数n,等于监控频率除以错位监控值,结果向下取整,忽略小数。
之后选取每个计算节点编号一样的虚拟机组合,形成错位监控对象集合,编号不变,错位监控集合,是指每次要采集数据的虚拟机集合,主要保存虚拟机实例ID,虚拟机实例ID,是指虚拟机的唯一标识,最后根据计算的监控批次n,在同一个监测周期内,完成每个监控集合的虚拟机监控数据采集。

Claims (8)

1.一种提高云平台监控性能及规模的监控方法,其特征在于,所述方法的方法是在一个监控频率周期内,将单批次的监控数据采集任务分多个批次进行;实现错位监控。
2.根据权利要求1所述的一种提高云平台监控性能及规模的监控方法,其特征在于,所述的方法具体包括如下步骤:
步骤1:设置错位监控值,错位监控值的两倍小于监控频率;
步骤2:根据错位监控值与监控频率,计算在同个监控频率内所要分批采集的次数n;
步骤3:将每台计算节点的虚拟机按照批次分组,分组策略为计算节点虚拟机数量除以批次后,按照预先设定进行分组并顺序编号;
步骤4:选取每个计算节点编号一样的虚拟机组合,形成错位监控对象集合,编号不变;
步骤5:根据计算的监控批次n,在同一个监测周期内,完成每个监控集合的虚拟机监控数据采集。
3.根据权利要求2所述的一种提高云平台监控性能及规模的监控方法,其特征在于,所述的方法还可包括步骤6:当创建新的虚拟机时,将新创建的虚拟机根据已经编好的编号和批次倒序加入监控集合;
所述的倒序加入监控集合,是指当计算节点N1新创建了一台虚拟机,这台虚拟机应该在这个计算节点最后一个分组。
4.根据权利要求2所述的一种提高云平台监控性能及规模的监控方法,其特征在于,所述的监控频率,是指每次定时触发数据采集的时间周期;
所述的分批采集次数n,等于监控频率除以错位监控值,结果向下取整;
所述的向下取整,是指忽略小数。
5.根据权利要求3所述的一种提高云平台监控性能及规模的监控方法,其特征在于,所述的监控频率,是指每次定时触发数据采集的时间周期;
所述的分批采集次数n,等于监控频率除以错位监控值,结果向下取整;
所述的向下取整,是指忽略小数。
6.根据权利要求2-5任一项所述的一种提高云平台监控性能及规模的监控方法,其特征在于,所述的计算节点,是指虚拟化节点,为用户提供虚拟机;
所述的按照预先设定进行分组并顺序编号,是指虚拟机数量小于批次向上取整,虚拟机大于批次的,将余数放在最后一组,当批次为10,计算节点N1有20台,计算节点N2有6台,则将计算节点N1每两台虚拟机一组并顺序编号,计算节点N2每一台虚拟机一组并顺序编号。
7.根据权利要求2-5任一项所述的一种提高云平台监控性能及规模的监控方法,其特征在于,所述的错位监控对象集合,是指每次要采集数据的虚拟机集合,主要保存虚拟机实例ID;
所述的虚拟机实例ID,是指虚拟机的唯一标识。
8.根据权利要求6所述的一种提高云平台监控性能及规模的监控方法,其特征在于,所述的错位监控对象集合,是指每次要采集数据的虚拟机集合,主要保存虚拟机实例ID;
所述的虚拟机实例ID,是指虚拟机的唯一标识。
CN201611083976.5A 2016-11-30 2016-11-30 一种提高云平台监控性能及规模的监控方法 Withdrawn CN106506282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611083976.5A CN106506282A (zh) 2016-11-30 2016-11-30 一种提高云平台监控性能及规模的监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611083976.5A CN106506282A (zh) 2016-11-30 2016-11-30 一种提高云平台监控性能及规模的监控方法

Publications (1)

Publication Number Publication Date
CN106506282A true CN106506282A (zh) 2017-03-15

Family

ID=58327804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611083976.5A Withdrawn CN106506282A (zh) 2016-11-30 2016-11-30 一种提高云平台监控性能及规模的监控方法

Country Status (1)

Country Link
CN (1) CN106506282A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107483292A (zh) * 2017-09-11 2017-12-15 电子科技大学 用于云平台的动态监控方法
CN109101321A (zh) * 2018-08-14 2018-12-28 郑州云海信息技术有限公司 一种基于云平台的消息监控方法及装置
CN111506480A (zh) * 2020-04-23 2020-08-07 上海达梦数据库有限公司 集群中组件的状态检测方法、装置和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103037019A (zh) * 2013-01-07 2013-04-10 北京华胜天成科技股份有限公司 一种基于云计算的分布式数据采集***及方法
CN103384206A (zh) * 2012-05-02 2013-11-06 中国科学院计算机网络信息中心 一种面向海量数据的并行处理方法及***
CN103780696A (zh) * 2014-01-23 2014-05-07 北京荣之联科技股份有限公司 基于分布式推送的云监控方法、装置及***
CN105119769A (zh) * 2015-07-01 2015-12-02 北京梅泰诺通信技术股份有限公司 一种对周期性数据上报进行时间散列的***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103384206A (zh) * 2012-05-02 2013-11-06 中国科学院计算机网络信息中心 一种面向海量数据的并行处理方法及***
CN103037019A (zh) * 2013-01-07 2013-04-10 北京华胜天成科技股份有限公司 一种基于云计算的分布式数据采集***及方法
CN103780696A (zh) * 2014-01-23 2014-05-07 北京荣之联科技股份有限公司 基于分布式推送的云监控方法、装置及***
CN105119769A (zh) * 2015-07-01 2015-12-02 北京梅泰诺通信技术股份有限公司 一种对周期性数据上报进行时间散列的***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107483292A (zh) * 2017-09-11 2017-12-15 电子科技大学 用于云平台的动态监控方法
CN107483292B (zh) * 2017-09-11 2020-10-16 电子科技大学 用于云平台的动态监控方法
CN109101321A (zh) * 2018-08-14 2018-12-28 郑州云海信息技术有限公司 一种基于云平台的消息监控方法及装置
CN111506480A (zh) * 2020-04-23 2020-08-07 上海达梦数据库有限公司 集群中组件的状态检测方法、装置和***
CN111506480B (zh) * 2020-04-23 2024-03-08 上海达梦数据库有限公司 集群中组件的状态检测方法、装置和***

Similar Documents

Publication Publication Date Title
CN104065741A (zh) 数据采集***和数据采集方法
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及***
CN103885881B (zh) 一种基于VxWorks***多任务机制的高实时并发测试方法
CN109492753A (zh) 一种去中心化的随机梯度下降的方法
CN108810115B (zh) 一种适用于分布式数据库的负载均衡方法、装置及服务器
CN104239144A (zh) 一种多级分布式任务处理***
CN106506282A (zh) 一种提高云平台监控性能及规模的监控方法
CN105527948B (zh) 一种基于工业过程的大规模分布式数据采集***及方法
CN109784663B (zh) 一种工作流调度方法与装置
CN103679388A (zh) 生产调度方法及生产调度***
CN104407688A (zh) 基于树回归的虚拟化云平台能耗测量方法及***
CN104035786A (zh) 一种软件定时器的优化方法及***
CN103605578A (zh) 基于虚拟机迁移的负载均衡调度方法
CN106293947B (zh) 虚拟化云环境下gpu-cpu混合资源分配***和方法
CN104536808B (zh) 一种云端应用程序的参数配置方法及***
CN103095598A (zh) 一种大规模集群环境下的监控数据聚合方法
CN105488134A (zh) 大数据处理方法及大数据处理装置
da Silva et al. A science-gateway workload archive to study pilot jobs, user activity, bag of tasks, task sub-steps, and workflow executions
CN110414569A (zh) 聚类实现方法及装置
CN104572296B (zh) 一种预测云平台存储资源增长量的方法
CN107193649A (zh) 一种基于numa***的任务调度方法及装置
CN110032444A (zh) 一种分布式***及分布式任务处理方法
CN105242873B (zh) 云计算***的性能数据的采集与存储方法及装置
CN109960579A (zh) 一种调整业务容器的方法及装置
Ma et al. Cost-aware multi-domain virtual data center embedding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170315

WW01 Invention patent application withdrawn after publication