CN117421131B

CN117421131B - 一种监控服务器功耗负载的智能调度方法及***

Info

Publication number: CN117421131B
Application number: CN202311739181.5A
Authority: CN
Inventors: 王卓
Original assignee: Wuhan Zeta Cloud Technology Co ltd
Current assignee: Wuhan Zeta Cloud Technology Co ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-26
Anticipated expiration: 2043-12-18
Also published as: CN117421131A

Abstract

本发明涉及一种监控服务器功耗负载的智能调度方法及***，其方法包括获取被监控集群中所有服务器的使用参数信息并构建使用参数样本集；构建多层训练算法模型并进行训练，得到超负荷信息；根据超负荷信息对超负荷服务器的任务节点进行初次提前调度处理；在经过初次提前调度处理后超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时，按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理。本发明实现了对服务器功耗负载的动态实时监控和自动调度，结合调度模型和算法实现了云平台的绝对安全，避免因为功耗过高等导致的宕机风险，无需人工操作，并且调度不影响用户作业，同时提高了服务器的利用率。

Description

一种监控服务器功耗负载的智能调度方法及***

技术领域

本发明涉及计算机功耗负载调度技术领域，尤其涉及一种监控服务器功耗负载的智能调度方法及***。

背景技术

数据中心中供电网络异常复杂，每台机柜都有其标准的供电功率，随着各类硬件的不断迭代，包括但不限于CPU、GPU、硬盘、风扇等，尤其是随着算力需求的不断提升，GPU的应用也越来越广泛，随着服务器中GPU数量的增多，功耗也随之增加，而数据中心的功率以及机柜的功率无法满足有可能会导致服务器功耗过载而宕机进而造成用户业务停摆以及数据丢失的风险。目前数据中心只能通过监控机柜以及机柜中PDU改造，通过更换只能PDU来监控数据中心和机柜的电压、电流以及功耗负载，但是当负载过高或者超过负载时，只能发出告警，无法避免服务器因为负载过高而导致服务器宕机的问题。这种方式主要的缺点有：第一、只能做到监控和告警，无法调度资源和降低负载；第二、数据中心监控软件和改造机柜耗资巨大，成本过高，且造成过渡浪费。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种监控服务器功耗负载的智能调度方法及***。

本发明解决上述技术问题的技术方案如下：一种监控服务器功耗负载的智能调度方法，获取被监控集群中所有服务器的使用参数信息，并与对应预设使用参数阈值进行比较，构建包含比较结果的使用参数样本集；

构建多层训练算法模型，并将所述使用参数样本集输入至所述多层训练算法模型进行训练，得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息；

根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理；

在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时，按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理，并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步：所述将所述使用参数样本集输入至所述多层训练算法模型进行训练，得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息具体包括如下步骤：

将所述使用参数样本集中的使用参数信息和对应的比较结果作为所述多层训练算法模型的第一层输入，根据预设激活函数z(x)的收敛值确定服务器的使用参数峰值，计算公式为：

其中，x ₀、x ₁、x ₂、x ₃分别对应时间段的CPU使用率峰值、内存使用率峰值、磁盘使用率峰值和服务进程等待数峰值，w ₀、w ₁、w ₂、w ₃分别为对应时间段的实时功耗；

将所述初步功耗值作为所述多层训练算法模型的第二层输入，根据所述预设激活函数z(x)进行计算，并根据所述预设激活函数的收敛值确定服务器的功耗峰值，计算公式为：

h _θ= z(θ ₀×a ₀+θ ₁×a ₁+θ ₂×a ₂+θ ₃×a ₃)

其中，a ₀、a ₁、a ₂、a ₃分别为服务器在时间段θ ₀、θ ₁、θ ₂、θ ₃对应的初步功耗峰值；

将所述功耗峰值与根据所述预设功耗阈值进行比较，并在所述功耗峰值大于所述预设功耗阈值时，根据所述功耗峰值以及超过对应预设功耗阈值的未来时间段生成所述超负荷信息。

上述进一步方案的有益效果是：通过构建预设激活函数z(x)，并根据预设激活函数z(x)的收敛值来确定对应使用参数的峰值，这样根据对应使用参数的峰值来精确计算出服务器的功耗峰值，再结合预设功耗阈值来得到精确的超负荷信息，作为后续调度的依据。

进一步：所述根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体方法包括如下步骤：

根据所述超负荷信息获取超负荷服务器以及对应超过预设功耗阈值的未来时间段；

将所述超负荷服务器的所有任务节点的实时功耗进行排列；

在下一监测周期对应的所述未来时间段到来之前，将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点。

上述进一步方案的有益效果是：通过超负荷信息中超负荷服务器以及对应超过预设功耗阈值的未来时间段可以在下一监测周期对应的所述未来时间段到来之前将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点，从而降低超负荷服务器的功耗，有利于超负荷服务器尽快恢复至正常功耗状态，避免宕机。

进一步：所述按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理具体包括如下步骤：

将所述超负荷服务器中重要等级为一般的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点，并监测所述超负荷服务器的实时功耗；

若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内，则停止热迁移，否则，将所述超负荷服务器中重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点，并继续监测所述超负荷服务器的实时功耗；

若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内，则停止热迁移，否则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定，直至所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围；

所述预设重要等级至少包括非常重要、重要和一般重要。

上述进一步方案的有益效果是：通过针对不同重要等级的任务节点进行不同优先级的处理，优先调度重要等级为一般重要的任务节点，可以在尽量不影响超负荷服务器的整体运行的情况下降低超负荷服务器的功耗，并且当重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点后，如果超负荷服务器的实时功耗降低还没有降低至预设功耗阈值范围内，那么就通过对超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定，有利于将超负荷服务器的功耗快速降低至预设功耗阈值范围，保证超负荷服务器不宕机的前提下减少对任务节点的影响。

进一步：所述在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定具体包括如下步骤:

若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第一预设比例阈值时，则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从低至高逐个进行释放，直至所述超负荷服务器中重要等级为非常重要的所有所述任务节点的GPU频率被释放, 并继续监测所述超负荷服务器的实时功耗;

若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第二预设比例阈值时，则将所述轻负荷服务器中热迁移来的且重要等级为重要的所述任务节点的恢复热迁移至原超负荷服务器,并继续监测所述超负荷服务器的实时功耗;

若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第三预设比例阈值时，将所述轻负荷服务器中热迁移来的且重要等级为一般重要的所述任务节点的恢复热迁移至原超负荷服务器,并继续监测所述超负荷服务器的实时功耗；

其中，所述第一预设比例阈值大于所述第二预设比例阈值，所述第二预设比例阈值大于第三预设比例阈值。

上述进一步方案的有益效果是：在超负荷服务器的功耗降低至预设功耗阈值范围内后，可以优先恢复重要等级为非常重要的所述任务节点，将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从低至高逐个进行释放，以减小对任务节点的影响，然后依次对重要等级为重要和一般重要的任务节点恢复热迁移至原超负荷服务器，在保证服务器安全运行的前提下尽可能减小对任务节点的影响。

本发明还提供了一种监控服务器功耗负载的智能调度***, 包括构建模块、训练模块、初次调度模块和热迁移锁定模块；

所述构建模块，用于获取被监控集群中所有服务器的使用参数信息，并与对应预设使用参数阈值进行比较，构建包含比较结果的使用参数样本集；

所述训练模块，用于构建多层训练算法模型，并将所述使用参数样本集输入至所述多层训练算法模型进行训练，得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息；

所述初次调度模块，用于根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理；

所述热迁移锁定模块，用于在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时，按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理，并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步：所述训练模块将所述使用参数样本集输入至所述多层训练算法模型进行训练，得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息的具体实现为：

h _θ= z(θ ₀×a ₀+θ ₁×a ₁+θ ₂×a ₂+θ ₃×a ₃)

进一步：所述初次调度模块根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体实现为：

将所述超负荷服务器的所有任务节点的实时功耗进行排列；

在下一监测周期对应的所述未来时间段到来之前，将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点；

进一步：所述热迁移锁定模块按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理的具体实现为：

所述预设重要等级至少包括非常重要、重要和一般重要。

本发明还提供了一种计算机可读存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现所述的监控服务器功耗负载的智能调度方法。

本发明还提供了一种监控服务器功耗负载的智能调度设备，其特征在于：包括通信接口、存储器、通信总线和处理器，其中，所述处理器、通信接口和存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现所述的监控服务器功耗负载的智能调度方法的步骤。

本发明的有益效果是：本发明的监控服务器功耗负载的智能调度方法及***，通过构建的使用参数样本集对多层训练算法模型进行训练，得到未来时间段的超负荷信息，然后根据超负荷信息进行初次提前调度处理，并在初次提前调度处理无法降低服务器功耗时，按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理，实现了对服务器功耗负载的动态实时监控和自动调度，结合调度模型和算法实现了云平台的绝对安全，避免因为功耗过高等导致的宕机风险，无需人工操作，并且调度不影响用户作业，同时提高了服务器的利用率。

附图说明

图1为本发明一实施例的监控服务器功耗负载的智能调度方法的流程示意图；

图2为本发明一实施例的监控服务器功耗负载的智能调度***的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种监控服务器功耗负载的智能调度方法，包括如下步骤：

S1：获取被监控集群中所有服务器的使用参数信息，并与对应预设使用参数阈值进行比较，构建包含比较结果的使用参数样本集；

S2：构建多层训练算法模型，并将所述使用参数样本集输入至所述多层训练算法模型进行训练，得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息；

S3：根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理；

S4：在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时，按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理，并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定。

实际中，通过与硬件之间的通信将每一个C14公头插座和C13防脱插座的电流、电压信息传输到平台，进而计算出功率和功耗并在平台中进行展示，方便运维人员进行查看和监控，通过平台可以设置对应的阈值，比如当设置服务器功耗达到某一个数值时，会发出告警，及时通知运维人员进行处理。通知的方式可以是邮件或者短信或者邮件+短信的方式。C14公头插座是一种电源插座，常用于计算机和其他电子设备上。它具有三个针脚，用于连接电源线，提供电力供应给设备，它是一种标准化的插座，可以与相应的插头（C13母头）相匹配使用。C14公头插座广泛应用于服务器、网络设备、电脑主机和其他需要稳定电源供应的设备上；C13防脱插座，是一种电源输入装置，用于连接市电或者机房中原有的PDU设备，且不会占用PDU原有位置，只需要占用机柜1U的空间位置。

在本发明的一个或多个实施例中，所述S1中，获取被监控集群中所有服务器的使用参数信息，并与对应预设使用参数阈值进行比较，如果若服务器的使用参数信息超过对应预设阈值，则还生成用于提醒运维人员检查基及处理的告警信息。

需要指出的是，本发明的实施例中，除了要实时监控服务器等使用设备以外，还需要实时监控为使用设备供电的供电设备，若监控到供电设备无法达到预期的功率，比如供电电压或者电流无法稳定达到正常值，给出告警并发出通知，提醒运维人员检查设备及时更换。

在本发明的一个或多个实施例中，所述将所述使用参数样本集输入至所述多层训练算法模型进行训练，得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息具体包括如下步骤：

S21：将所述使用参数样本集中的使用参数信息和对应的比较结果作为所述多层训练算法模型的第一层输入，根据预设激活函数z(x)的收敛值确定服务器的使用参数峰值，计算公式为：

S22：将所述初步功耗值作为所述多层训练算法模型的第二层输入，根据所述预设激活函数z(x)进行计算，并根据所述预设激活函数的收敛值确定服务器的功耗峰值，计算公式为：

h _θ= z(θ ₀×a ₀+θ ₁×a ₁+θ ₂×a ₂+θ ₃×a ₃)

S23：将所述功耗峰值与根据所述预设功耗阈值进行比较，并在所述功耗峰值大于所述预设功耗阈值时，根据所述功耗峰值以及超过对应预设功耗阈值的未来时间段生成所述超负荷信息。

通过构建预设激活函数z(x)，并根据预设激活函数z(x)的收敛值来确定对应使用参数的峰值，这样根据对应使用参数的峰值来精确计算出服务器的功耗峰值，再结合预设功耗阈值来得到精确的超负荷信息，作为后续调度的依据。通过该模型的训练，可以得出集群中所有服务器在未来时间节点上因为某一因素或多个因素导致服务器的功耗超过预设功耗阈值，以便于作为后续提前调度的依据，比如，通过训练可得出服务器一在每天的上午9点会因为CPU使用率过高而导致功耗超过预设功耗阈值，服务器二在每天的上午9点CPU使用率较低，则会提前将服务器一中的任务节点提前调度到服务器二，等服务器一的功耗峰值恢复正常以后在调度回来服务器一。

这里，所述多层训练算法模型的学习是基于训练调度算法模型，本算法模型分为多层训练，上一层训练的结果作为下一层训练的输入，通过逐层的特征训练以后，将现有的样本映射到下一个特征训练，以此来更好的判断最终特征结果，进而实现提前调度的功能。该模型的训练具有以下特点：无需人为干预，自主训练；每一层训练的结果作为下一层的输入，结果更加精准。

在本发明的一个或多个实施例中，所述根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体方法包括如下步骤：

S31：根据所述超负荷信息获取超负荷服务器以及对应超过预设功耗阈值的未来时间段；

S32：将所述超负荷服务器的所有任务节点的实时功耗进行排列；

S33：在下一监测周期对应的所述未来时间段到来之前，将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点。

通过超负荷信息中超负荷服务器以及对应超过预设功耗阈值的未来时间段可以在下一监测周期对应的所述未来时间段到来之前将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点，从而降低超负荷服务器的功耗，有利于超负荷服务器尽快恢复至正常功耗状态，避免宕机。

实际中，针对超负荷服务器进行初次提前调度处理后，如果因为某一因素或多个因素导致服务器的功耗没有明显下降，甚至出现服务器的继续上升，那么此时，需要进行第二调度处理。与第一次预测性的提前调度处理不同的是，第二次调度处理是针对第一次提前调度处理后服务器的功耗没有明显下降，甚至继续上升，这种是针对已经出现的功耗超限的情况，进行即时性二次调度处理，即在已经发出告警且经过多层训练算法模型学习并初次提前调度以后，运维人员没来得及处理并且服务器功耗持续增加，当服务器功耗继续增加（比如超过阈值的5%），此时，会对服务器中的任务节点进行第二调度处理或锁定处理。另外，实际中，监测周期一般以一天为单位。

在本发明的一个或多个实施例中，所述按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理具体包括如下步骤：

S41：将所述超负荷服务器中重要等级为一般的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点，并监测所述超负荷服务器的实时功耗；

需要说明的是，本发明的实施例中，轻负荷服务器指的是整体功耗低于对应预设功耗阈值5%的服务器。如果实际中，集群中所有服务器的整体功耗均高于对应预设功耗阈值5%，那么就选择整体功耗与对应预设功耗阈值比例最小的服务器作为目标轻负荷服务器，来接收超负荷服务器的任务节点的调度迁移。

S42：若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内，则停止热迁移，否则，将所述超负荷服务器中重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点，并继续监测所述超负荷服务器的实时功耗；

S43：若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内，则停止热迁移，否则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定，直至所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围；

所述预设重要等级至少包括非常重要、重要和一般重要。

通过针对不同重要等级的任务节点进行不同优先级的处理，优先调度重要等级为一般重要的任务节点，可以在尽量不影响超负荷服务器的整体运行的情况下降低超负荷服务器的功耗，并且当重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点后，如果超负荷服务器的实时功耗降低还没有降低至预设功耗阈值范围内，那么就通过对超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定，有利于将超负荷服务器的功耗快速降低至预设功耗阈值范围，保证超负荷服务器不宕机的前提下减少对任务节点的影响。

这里，对任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定，指的是将任务节点的GPU频率锁定在基准频率，通过降低GPU频率来降低功耗，直到达到正常的功耗阈值范围，锁定的顺序按照对应的实时功耗从高至低逐个进行锁定，以便于快速降低功耗。

在本发明的一个或多个实施例中，所述在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定具体包括如下步骤:

S44：若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第一预设比例阈值时，则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从低至高逐个进行释放，直至所述超负荷服务器中重要等级为非常重要的所有所述任务节点的GPU频率被释放, 并继续监测所述超负荷服务器的实时功耗;

比如，当超负荷服务器的实时功耗与预设功耗的比值降低至对应的第一预设比例阈值时，说明此时超负荷服务器的功耗处于“轻负荷”状态，那么就可以将之前锁定的重要等级为非常重要的所述任务节点的GPU频率进行释放，让其恢复至正常的工作频率。

S45：若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第二预设比例阈值时，则将所述轻负荷服务器中热迁移来的且重要等级为重要的所述任务节点的恢复热迁移至原超负荷服务器,并继续监测所述超负荷服务器的实时功耗;

同理，当超负荷服务器的实时功耗与预设功耗的比值降低至对应的第二预设比例阈值时，说明此时超负荷服务器的功耗更加处于“轻负荷”状态，此时，超负荷服务器可以处理更多的任务节点，因此，可以将原来从超负荷服务器热迁移走的任务节点热迁移回来，从而保证服务器的正常运行。

S46：若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第三预设比例阈值时，将所述轻负荷服务器中热迁移来的且重要等级为一般重要的所述任务节点的恢复热迁移至原超负荷服务器,并继续监测所述超负荷服务器的实时功耗；

其中，所述第一预设比例阈值大于所述第二预设比例阈值，所述第二预设比例阈值大于第三预设比例阈值，本发明的实施例中，所述第一预设比例阈值、第二预设比例阈值和第三预设比例阈值可以分别取15%、10%和5%。

在超负荷服务器的功耗降低至预设功耗阈值范围内后，可以优先恢复重要等级为非常重要的所述任务节点，将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从低至高逐个进行释放，以减小对任务节点的影响，然后依次对重要等级为重要和一般重要的任务节点恢复热迁移至原超负荷服务器，在保证服务器安全运行的前提下尽可能减小对任务节点的影响。

如图2所示，本发明还提供了一种监控服务器功耗负载的智能调度***, 包括构建模块、训练模块、初次调度模块和热迁移锁定模块；

在本发明的一个或多个实施例中，所述训练模块将所述使用参数样本集输入至所述多层训练算法模型进行训练，得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息的具体实现为：

h _θ= z(θ ₀×a ₀+θ ₁×a ₁+θ ₂×a ₂+θ ₃×a ₃)

通过构建预设激活函数z(x)，并根据预设激活函数z(x)的收敛值来确定对应使用参数的峰值，这样根据对应使用参数的峰值来精确计算出服务器的功耗峰值，再结合预设功耗阈值来得到精确的超负荷信息，作为后续调度的依据。

在本发明的一个或多个实施例中，所述初次调度模块根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体实现为：

将所述超负荷服务器的所有任务节点的实时功耗进行排列；

在本发明的一个或多个实施例中，所述热迁移锁定模块按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理的具体实现为：

所述预设重要等级至少包括非常重要、重要和一般重要。

所述存储器，用于存放计算机程序；

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种监控服务器功耗负载的智能调度方法, 其特征在于，包括如下步骤：

获取被监控集群中所有服务器的使用参数信息，并与对应预设使用参数阈值进行比较，构建包含比较结果的使用参数样本集；

在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时，按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理，并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定；

所述将所述使用参数样本集输入至所述多层训练算法模型进行训练，得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息具体包括如下步骤：

将所述使用参数样本集中的使用参数信息和对应的比较结果作为所述多层训练算法模型的第一层输入，根据预设激活函数z(x)的收敛值确定服务器的初步功耗值，计算公式为：

；

其中，分别对应时间段的CPU使用率峰值、内存使用率峰值、磁盘使用率峰值和服务进程等待数峰值，/>分别为对应时间段的实时功耗；将所述初步功耗值作为所述多层训练算法模型的第二层输入，根据所述预设激活函数z(x)进行计算，并根据所述预设激活函数的收敛值确定服务器的功耗峰值，计算公式为：；

其中，a ₀、a ₁、a ₂、a ₃分别为服务器在时间段θ ₀、θ ₁、θ ₂、θ ₃对应的初步功耗峰值；将所述功耗峰值与根据所述预设功耗阈值进行比较，并在所述功耗峰值大于所述预设功耗阈值时，根据所述功耗峰值以及超过对应预设功耗阈值的未来时间段生成所述超负荷信息；

所述按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理具体包括如下步骤：

将所述超负荷服务器中重要等级为一般的所述任务节点热迁移至未超过对应预设功耗阈值的轻负荷服务器中当前功耗最低的任务节点，并监测所述超负荷服务器的实时功耗；

所述预设重要等级至少包括非常重要、重要和一般重要。

2.根据权利要求1所述的监控服务器功耗负载的智能调度方法, 其特征在于，所述根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体方法包括如下步骤：

将所述超负荷服务器的所有任务节点的实时功耗进行排列；

3.根据权利要求1所述的监控服务器功耗负载的智能调度方法, 其特征在于，所述在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定具体包括如下步骤:

4.一种监控服务器功耗负载的智能调度***, 其特征在于，包括构建模块、训练模块、初次调度模块和热迁移锁定模块；

所述热迁移锁定模块，用于在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时，按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理，并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定；

所述将所述使用参数样本集输入至所述多层训练算法模型进行训练，得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息的具体实现为：

；

将所述功耗峰值与根据所述预设功耗阈值进行比较，并在所述功耗峰值大于所述预设功耗阈值时，根据所述功耗峰值以及超过对应预设功耗阈值的未来时间段生成所述超负荷信息；

所述预设重要等级至少包括非常重要、重要和一般重要。

5.根据权利要求4所述的监控服务器功耗负载的智能调度***, 其特征在于，所述初次调度模块根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体实现为：

将所述超负荷服务器的所有任务节点的实时功耗进行排列；

所述热迁移锁定模块按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理的具体实现为：

所述预设重要等级至少包括非常重要、重要和一般重要。

6.一种计算机可读存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1至3任一项所述的监控服务器功耗负载的智能调度方法。

7.一种监控服务器功耗负载的智能调度设备，其特征在于：包括通信接口、存储器、通信总线和处理器，其中，所述处理器、通信接口和存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1至3任一项所述的监控服务器功耗负载的智能调度方法的步骤。