CN103414784B

CN103414784B - 支持应急模式的云计算资源调度方法

Info

Publication number: CN103414784B
Application number: CN201310375296.0A
Authority: CN
Inventors: 郑国轴; 李灼灵; 陶金火; 陈华钧; 杨建华; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2016-05-11
Anticipated expiration: 2033-08-26
Also published as: CN103414784A

Abstract

本发明涉及云计算资源调度方法，公开了一种支持应急模式的云计算资源调度方法，包括常规模式以及应急模式，监控***循环地执行常规模式，当监控***收到应急任务消息，则进入应急模式。本发明的优点在于，步骤少，计算简单，可以过滤瞬时峰值，并在两种模式之间实现了平滑过渡，消除了由于频繁迁移导致的“颤抖”现象，减少了资源内耗的现象，提高了资源利用率，具有较好的应用价值。

Description

支持应急模式的云计算资源调度方法

技术领域

本发明涉及云计算资源调度方法，特别涉及一种支持应急模式的云计算资源调度方法。

背景技术

随着互联网规模的不断扩大，互联网上处理的业务也随之快速增长。如何处理海量的数据和服务，以有效地为互联网用户提供方便快捷的网络服务，是互联网当下面临的最主要问题。在这样的大环境下，基于分布式计算特别是网格技术的发展，产生了一种新型服务计算模型：云计算。通过将计算能力、存储空间、信息服务等海量资源汇聚整合起来，在云计算平台上形成了一个便利的、按需获取的、可配置的资源共享池，并以最少的管理开销及最少的与供应商交互，迅速配置、提供或释放资源。

资源调度是云计算的研究热点之一。资源池是由大量服务器等基础设施构成的数据中心，而运行大规模的数据中心会消耗大量的能量，研究表明目前的数据中心的利用率一般只有5%到20%，大量的服务器常处于空闲状态。空闲状态的服务器功耗也超过满负载情况下的50%。因此如何通过合理的资源调度提高数据中心的能效是一个非常重要的研究方向。

如何提高资源利用率，降低云计算数据中心能耗是当前资源调度研究的主要目标。降低云计算能耗的方法有两类：（1）通过动态调整服务器CPU的电压或频率来节省电能；（2）通过资源的合理调度，提高部分服务器的利用率，关闭不必要的服务器来实现。第一类方法可以有效降低单一服务器的功耗，但无法实现集群优化，而且需要硬件支持动态调压调频技术（DVFS）。因此此类方法通常只作为辅助手段，应用于部分的服务器。第二类方法是当前的主流方法并出现了较为成熟的资源调度方法以满足不同的应用环境。

现有的资源调度方法虽然已较为成熟，但在应对有应急需求的业务***方面遭遇了新挑战。现有的资源调度方法在面对频繁变动的资源调度，特别是资源的重复加载和卸载时，往往会形成一种称为“颤抖”的现象，***的资源消耗也随之产生周期性的忽高忽低的现象，不仅***运行效率大为下降，由于瞬时资源使用极高，导致云计算的瞬时反应速度下降，反应在网络上，就是服务器不时的产生无法响应的现象。现有的资源调度方法无法很好的消除上述“颤抖”现象，因此，有必要研发一种可以消除上述现象的新型资源调度方法。

发明内容

本发明针对现有技术无法消除资源调度过程中产生的“颤抖”现象的缺点，提供了一种支持应急模式的云计算资源调度方法。

为实现上述目的，本发明可采取下述技术方案：

支持应急模式的云计算资源调度方法，包括常规模式以及应急模式，监控***循环地执行常规模式，当监控***收到应急任务消息，则进入应急模式；

其中，常规模式包括以下具体步骤：

1）监控***获取物理机和虚拟机的CPU利用率，开始调度周期的计时，当调度周期届满，进入下一步；

2）计算物理机以及虚拟机在调度周期内的平均CPU利用率AvgOfCPU，，其中，q为数组，监控***在调度周期内为每个物理机以及虚拟机维护一个数组q，用以保存最新的m个性能数据，为数组q的所有值得总和，MaxValue、MinValue分别为数组q中的最大值以及最小值；

3）将物理机的AvgOfCPU分别与最高迁出限定值H、最低迁出限定值L相比较，将大于H的物理机加入待迁出物理机队列OQ，将小于L的物理机机加入待迁入物理机队列IQ；

4）分别计算OQ和IQ内所有物理机的计算能力CP，，分别计算IQ内所有物理机的剩余计算能力，并依据剩余计算能力的大小由高到低对IQ进行排序，，分别计算OQ内所有物理机上运行的虚拟机的占用计算能力，并依据占用计算能力的大小对OQ内所有物理机上运行的虚拟机由高到低排列并生成队列VQ，，其中，a为虚拟能力系数，表示物理机计算能力转换为虚拟机计算能力的转换率，取值范围为0<a<1；

5）取VQ内占用计算能力最高的虚拟机记为V，虚拟机V占用的物理机为OP，取IQ内剩余计算能力最大的物理机IP，依据以下公式进行判断，，如果成立，则将V迁移至OP，计算并更新OP以及IP的剩余计算能力，，，依据计算得到的OP以及IP的剩余计算能力，对IQ进行重新排序；如果不成立，将不能进行迁移的信息返回监控***；将V从VQ内移出；

6）重复执行步骤5）直至VQ为空；

应急模式包括以下具体步骤：

7）取得应急模式所需要的物理机列表PL以及虚拟机列表VL，将PL所列物理机以及VL所列虚拟机所在的物理机均列入待迁出物理机队列OQ，将上述PL所列物理机以及VL所列虚拟机所在的物理机之外的其他物理机均列入待迁入物理机队列IQ；

8）如上述步骤2）所列步骤，计算AvgOfCPU、CP、IQ内所有物理机的剩余计算能力以及OQ内所有物理机的剩余计算能力，对IQ进行排序，在对OQ进行排序的基础上得到VQ，计算在OQ的物理机上运行、且未列入VL的虚拟机的占用计算能力，计算OQ内物理机的所需计算能力，；

9）取VQ内占用计算能力最高的虚拟机记为V，虚拟机V占用的物理机为OP，取IQ内剩余计算能力最大的物理机IP，满足以下任一条件，即将V迁出：

条件1：OP的所需计算能力为0；

条件2：OP的所需计算能力不为0，且；如果，则将V迁移至IP，计算并更新IP的剩余计算能力，依据剩余计算能力对IQ进行重新排序；如果，则关闭V，并将关闭V的信息发送至监控***；

10）重复执行步骤9）直至VQ为空；重置调度周期的计时。

作为优选，执行应急模式期间，PL所列物理机以及VL所列虚拟机所占用的物理机不再参与常规模式的调度，OQ所列物理机则同时继续执行常规模式。

本发明由于采用了以上技术方案，具有显著的技术效果：

本发明中，全部调度方法分为常规模式和应急模式，应急模式的设置从资源调度层面保证了应急任务的优先级，提高了应急任务处理的实时性。通过过滤瞬时峰值，以及提供了在常规模式和应急模式之间的平滑过渡手段，可以有效防止由于频繁迁移导致的云计算环境内产生“颤抖”现象，可以有效防止资源占用的波动，可以提高整体的资源利用率。

附图说明

图1是常规模式的流程示意图。

图2是应急模式的流程示意图。

具体实施方式

下面结合实施例对本发明作进一步的详细描述。

实施例1

本发明所述资源调度方法应用在网格节点机上，网格节点机部署于各个网格节点之间，为网格提供存储、传输、计算等基础服务，本发明所述物理机是指为网络节点提供存储、传输、计算等基础服务的服务器。

第一步，通过节点机的监控***，获取本节点机内部物理机和虚拟机的CPU利用率，并开始调度周期的计时。

当资源调度周期到达，进入常规模式，接着执行第二步。如图1所示，描述了第二步到第六步的流程。

如果其间有应急任务消息到达，进入应急模式，直接执行第七步。如图2所示，描述了第七步到第九步的流程。

第二步，为防止因为瞬时峰值引起节点机应用服务频繁迁移，导致节点机内部的“颤抖”。采用截尾均值法去掉瞬时峰值，计算所有物理机和虚拟机在此周期内的平均CPU利用率（AvgOfCPU）。计算方式如下：为每个物理机和虚拟机维护一个数组q，该数组q的更新频率由监控***决定，为5s-1m之间即可，本实施例取15s，保存最新的m个性能数据（CPU利用率），按下面公式计算AvgOfCPU：

AvgOfCPU=(SUM(q)-MaxValue-MinValue)/(m–2)

SUM（q）是q中所有值的总和，MaxValue和MinValue分别是q里面的最大值和最小值。

第三步，将各个物理机的AvgOfCPU分别跟迁出的最高限定值（H）和迁入的最低限定值（L）比较，分别将大于H的加入待迁出的物理机队列（OQ）和小于L的加入待迁入的物理机队列（IQ）。

第四步，计算OQ和IQ中所有物理机和虚拟机的计算能力（CP），公式如下：

CP=CPU频率*CPU个数

计算IQ中所有物理机中剩余计算能力，并按剩余计算能力从高到低进行排序，计算公式如下：

物理机剩余计算能力=(1-AvgOfCPU)*CP

计算OQ中物理机所拥有虚拟机的占用计算能力，按占用计算能力值从高到低进行排序，生成VQ队列，计算公式如下：

虚拟机占用计算能力=AvgOfCPU*CP/a

a是虚拟能力系数，衡量物理机计算能力转换成虚拟机计算能力的转换率，其范围是（0,1），通常是个经验值。

第五步，采用贪婪算法计算需要迁移的虚拟机，以及迁移的目的物理机，方法如下：

首先，从VQ中取得占用计算能力最高的虚拟机（V），从IQ中取得剩余计算能力最大的物理机（IP），设该虚拟机所在物理机为OP，判断下式是否成立：

OP剩余计算能力+V占用计算能力<IP剩余计算能力-V占用计算能力

如果成立，则将V迁移到OP，并计算：

OP剩余计算能力=OP剩余计算能力+V占用计算能力

IP剩余计算能力=IP剩余计算能力-V占用计算能力

对IQ按照剩余计算能力重新排序。

如果不成立，则不能迁移并将相关信息发送到节点机的监控***。

最后，将V从VQ队列中移出，判断VQ是否为空，如为空，则进行下一步操作，否则重复进行上面操作。

第六步，至此一个常规调度周期完毕，跳回第一步重新开始下一个周期。

第七步，进入应急模式（应急模式的进入时间？），根据应急任务消息得到应急任务所需要的物理机列表（PL）和虚拟机列表（VL），并将这些物理机和虚拟机所在的物理机加入待迁出的物理机队列（OQ），其他物理机加入待迁入的物理机队列（IQ）。

第八步，采用截尾均值法去掉瞬时峰值，计算所有物理机和虚拟机在此周期内的平均CPU利用率（AvgOfCPU）。具体方法如第二步所述。

计算OQ中所有物理机和虚拟机的计算能力（CP），公式如下：

CP=CPU频率*CPU个数

计算IQ、OQ中所有物理机中剩余计算能力，并按剩余计算能力从高到低进行排序，计算公式如下：

物理机剩余计算能力=(1-AvgOfCPU)*CP

计算OQ中物理机所拥有不在VL中的虚拟机的占用计算能力，按占用计算能力值从高到低进行排序，生成VQ队列，计算公式如下：

虚拟机占用计算能力=AvgOfCPU*CP/a

计算OQ中物理机所拥有在VL中的虚拟机需要的计算能力，计算公式如下：

物理机所需计算能力=SUM（该物理机所拥有在VL中的虚拟机的(1-AvgOfCPU)*CP）/a

第九步，计算需要迁移的虚拟机，以及迁移的目的物理机，方法如下：

1）从VQ中取得占用计算能力最高的虚拟机（V），从IQ中取得剩余计算能力最大的物理机（IP），设该虚拟机所在物理机为OP。若满足下面一个条件则将V迁出：

条件1：OP所需计算能力为0；

条件2：OP所需计算能力不为0，且OP所需计算能力>OP剩余计算能力；

2）若满足上面任一条件，将V迁出，方法如下：

若V占用计算能力<IP剩余计算能力，则将V迁移到OP，并计算：

IP剩余计算能力=IP剩余计算能力-V占用计算能力

对IQ按照剩余计算能力重新排序。

若V占用计算能力>IP剩余计算能力，则将V关闭，并将相关信息发送到数据中心的监控***。

3）将V从VQ队列中移出，判断VQ是否为空，如为空，则进行下一步操作，否则重复上面两步操作。

第十步，经过上一步的资源迁移，已经满足了应急任务的资源需求。在应急任务执行期间，OQ的物理机和虚拟机不再进行迁移，其他物理机和虚拟机重置计时器，并按常规调度方法进行调度。

总之，以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所作的均等变化与修饰，皆应属本发明专利的涵盖范围。

Claims

1.一种支持应急模式的云计算资源调度方法，其特征在于，包括常规模式以及应急模式，监控***循环地执行常规模式，当监控***收到应急任务消息，则进入应急模式；

其中，常规模式包括以下具体步骤：

1)监控***获取物理机和虚拟机的CPU利用率，开始调度周期的计时，当调度周期届满，进入下一步；

2)计算物理机以及虚拟机在调度周期内的平均CPU利用率AvgOfCPU，

A v g O f C P U = \frac{S U M (q) - M a x V a l u e - M i n V a l u e}{m - 2},

其中，q为数组，监控***在调度周期内为每个物理机以及虚拟机维护一个数组q，用以保存最新的m个性能数据，SUM(q)为数组q的所有值的总和，MaxValue、MinValue分别为数组q中的最大值以及最小值；

3)将物理机的AvgOfCPU分别与最高迁出限定值H、最低迁出限定值L相比较，将大于H的物理机加入待迁出物理机队列OQ，将小于L的物理机机加入待迁入物理机队列IQ；

4)分别计算OQ和IQ内所有物理机的计算能力CP，CP＝CPU频率*CPU个数，分别计算IQ内所有物理机的剩余计算能力，并依据剩余计算能力的大小由高到低对IQ进行排序，剩余计算能力＝(1-AvgOfCPU)*CP，分别计算OQ内所有物理机上运行的虚拟机的占用计算能力，并依据占用计算能力的大小对OQ内所有物理机上运行的虚拟机由高到低排列并生成队列VQ，其中，a为虚拟能力系数，表示物理机计算能力转换为虚拟机计算能力的转换率，取值范围为0<a<1；

5)取VQ内占用计算能力最高的虚拟机记为V，虚拟机V占用的物理机为OP，取IQ内剩余计算能力最大的物理机IP，依据以下公式进行判断，OP的剩余计算能力+V的占用计算能力＜IP的剩余计算能力-V的占用计算能力，如果成立，则将V迁移至OP，计算并更新OP以及IP的剩余计算能力，OP的剩余计算能力＝OP的剩余计算能力+V的占用计算能力，

IP的剩余计算能力＝IP的剩余计算能力-V的占用计算能力，依据计算得到的OP以及IP的剩余计算能力，对IQ进行重新排序；如果不成立，将不能进行迁移的信息返回监控***；将V从VQ内移出；

6)重复执行步骤5)直至VQ为空；

应急模式包括以下具体步骤：

7)取得应急模式所需要的物理机列表PL以及虚拟机列表VL，将PL所列物理机以及VL所列虚拟机所在的物理机均列入待迁出物理机队列OQ，将上述PL所列物理机以及VL所列虚拟机所在的物理机之外的其他物理机均列入待迁入物理机队列IQ；

8)如上述步骤2)所列步骤，计算AvgOfCPU、CP、IQ内所有物理机的剩余计算能力以及OQ内所有物理机的剩余计算能力，对IQ进行排序，在对OQ进行排序的基础上得到VQ，计算在OQ的物理机上运行、且未列入VL的虚拟机的占用计算能力，计算OQ内物理机的所需计算能力，

9)取VQ内占用计算能力最高的虚拟机记为V，虚拟机V占用的物理机为OP，取IQ内剩余计算能力最大的物理机IP，满足以下任一条件，即将V迁出：

条件1：OP的所需计算能力为0；

条件2：OP的所需计算能力不为0，且

OP的所需计算能力＞OP内所有物理机的剩余计算能力；如果V的占用计算能力＜IP内所有物理机的剩余计算能力，则将V迁移至IP，计算并更新IP的剩余计算能力，依据剩余计算能力对IQ进行重新排序；如果V的占用计算能力＞IP内所有物理机的剩余计算能力，则关闭V，并将关闭V的信息发送至监控***；

10)重复执行步骤9)直至VQ为空；重置调度周期的计时。

2.根据权利要求1所述的支持应急模式的云计算资源调度方法，其特征在于，执行应急模式期间，PL所列物理机以及VL所列虚拟机所占用的物理机不再参与常规模式的调度，OQ所列物理机则同时继续执行常规模式。