CN115453860A

CN115453860A - 环境参数控制设备集群控制方法、装置、设备及存储介质

Info

Publication number: CN115453860A
Application number: CN202110632624.5A
Authority: CN
Inventors: ***; 冯晓波; 李星; 颜泽波; 周薛继; 王静
Original assignee: Vitamin Technology Xi'an Co ltd
Current assignee: Vitamin Technology Xi'an Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-12-09
Also published as: WO2022257267A1

Abstract

本发明实施例提供了一种环境参数控制设备集群控制方法、装置、设备及存储介质，所述方法包括：每到达控制周期，采集环境参数样本和能效样本，并对应更新至环境参数样本集和能效样本集中；利用能效样本集训练带上下文(上下文相关)的UCB模型进行模型训练，利用环境参数样本集训练回归模型；在推荐阶段时，确定多个候选环境参数设定点和候选开机数，基于当前控制周期到达时采集的状态参数和候选开机数，利用UCB模型预测对应的能效评分预测值，基于状态参数、候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于能效评分预测值和环境参数预测值决策开机数和环境参数设定点并运行。

Description

环境参数控制设备集群控制方法、装置、设备及存储介质

技术领域

本发明涉及自动化技术领域，尤指一种环境参数控制设备集群控制方法、装置、设备及存储介质。

背景技术

伴随着大数据的迅猛发展，数据处理量不断增长，数据中心也迅速增多。数据中心通常由多个机柜、多台服务器、不间断电源(Uninterruptible Power Supply，UPS)、多台空调、温湿度传感器等等组成。数据中心的环境时刻受到服务器产生的热量、环境变化等多种因素影响，而空调正是用来调节数据中心的温度等，从而保证数据中心的温度恒定。空调作为大功率电器在使用过程中消耗了大量电能，且在不同的工作功率下电能转化成冷量的效率不同，因此如何对多台空调进行控制，降低数据中心的电源使用效率(Power UsageEffectiveness，PUE)成为大势所趋。

传统数据中心空调的群控方式比较简单，大多都是根据人工经验设计规则对空调进行群控，效果不够理想。

近年来陆续有科研单位和科研人员研究机器学习的空调群控方法，研究方向基本围绕着强化学习模型、神经网络模型和回归模型。其中单一的回归模型准确率稍有不足，在线学习能力相对较弱。强化学习模型和神经网络模型的学习能力较为优秀，但调参困难且收敛速度较慢。因此，在实际使用过程中，使用这些模型进行空调群控，设备安全性和能耗控制的效果不好。

发明内容

本发明实施例提供一种环境参数控制设备集群控制方法、装置、设备及存储介质，用以解决现有技术中存在使用现有模型单独进行空调群控，设备安全性和能耗控制的效果不好问题。

本发明实施例提供了一种环境参数控制设备集群控制方法，应用于数据中心的节能调节和环境参数调节，包括：

每到达控制周期，采集环境参数样本和能效样本，并对应更新至环境参数样本集和能效样本集中；

触发模型训练时，将所述能效样本集中的样本特征输入带上下文的UCB模型，以输出所述能效样本集中的样本标签为目标进行模型训练，将所述环境参数样本集中样本特征输入回归模型，以输出所述环境参数样本集中样本标签为目标进行模型训练；

确定当前处于推荐阶段时，每到达控制周期，确定多个候选环境参数设定点和多个候选开机数，基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分预测值，基于所述状态参数和候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于所述能效评分预测值和环境参数预测值决策开机数和环境参数设定点并运行；

其中，所述能效样本中样本特征包括上一控制周期到达时获取的数据中心的状态参数、开机数，样本标签为到达当前控制周期时计算的能效评分，所述环境参数样本中样本特征包括上一控制周期到达时获取的数据中心的状态参数、环境参数设定点，样本标签包括当前控制周期到达时采集的环境参数测量值。

可选地，所述能效评分为根据所述数据中心的能效指标确定的评分；

所述能效指标包括所述数据中心的总功率或所述环境参数控制设备集群的总功率或所述数据中心的电源使用效率PUE；其中：

若当前控制周期到达时采集的环境参数测量值与上一个控制周期的环境参数设定点小于等于预设环境参数偏差，所述能效评分根据所述数据中心的能效指标利用第一公式计算得到；

若当前控制周期到达时采集的环境参数测量值与上一个控制周期的环境参数设定点大于预设环境参数偏差，所述能效评分根据所述数据中心的能效指标利用第二公式计算得到；

其中，当所述能效指标相同时，利用所述第一公式计算得到的所述能效评分大于所述第二公式计算得到的所述能效评分。

可选地，所述环境参数样本中样本特征还包括：上一控制周期的开机数；

基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分预测值，基于所述状态参数和候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于所述能效评分预测值和环境参数预测值决策开机数和环境参数设定点，包括：

将所述候选开机数、所述当前控制周期到达时采集的状态参数输入所述UCB模型中，分别预测对应的能效评分预测值；

根据所述能效评分预测值决策所述开机数；

将所述开机数、所述当前控制周期到达时采集的状态参数和所述候选环境参数设定点输入所述回归模型中，预测对应的环境参数预测值；

根据所述环境参数预测值决策所述环境参数设定点。

可选地，所述能效样本中样本特征还包括：上一控制周期的环境参数设定点；

将当前控制周期到达时采集的状态参数和候选环境参数设定点输入所述回归模型中，预测对应的环境参数预测值；

根据所述环境参数预测值决策所述环境参数设定点；

将所述候选开机数、所述环境参数设定点、当前控制周期到达时采集的状态参数输入所述UCB模型中，分别预测对应的能效评分预测值；

根据所述能效评分预测值决策所述开机数。

可选地，基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分预测值，基于所述状态参数和候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于所述能效评分预测值和环境参数预测值决策开机数和环境参数设定点，包括：

根据所述能效评分预测值决策所述开机数；

将所述当前控制周期到达时采集的状态参数和所述候选环境参数设定点输入所述回归模型中，分别预测对应的环境参数预测值；

根据所述环境参数预测值决策所述环境参数设定点。

可选地，若所述能效评分越大，所述环境参数控制设备集群的能耗效率越高，则根据所述能效评分预测值决策所述开机数，包括：

将最大的所述能效评分预测值对应的候选开机数决策为所述开机数；

根据所述环境参数预测值决策所述环境参数设定点，包括：

将最接近目标环境参数的所述环境参数预测值对应的候选环境参数设定点决策为所述环境参数设定点。

可选地，当到达控制周期时，触发模型训练；

将所述能效指标样本集中的样本特征输入带上下文的上置信UCB模型，以输出能效样本集中的样本标签为目标进行模型训练，包括：

将所述能效样本集中当前控制周期的能效样本中的样本特征输入UCB模型，以输出所述当前控制周期的能效样本中的样本标签为目标进行模型训练；或

将所述能效样本集中所有能效样本的样本特征依次输入上置信UCB模型，以输出对应的样本标签为目标进行模型训练；

将所述环境参数样本集中样本特征输入回归模型，以输出所述环境参数样本集中标签为目标进行模型训练，包括：

将所述环境参数样本集中所有环境参数样本的样本特征依次输入回归模型，以输出对应的样本标签为目标进行模型训练。

可选地，所述的方法还包括：

确定不满足模型决策条件时，每达到一个控制周期，获取数据中心环境的当前控制周期到达时采集的环境参数测量值；

根据环境参数测量值与目标环境参数的差值调整开机数和环境参数设定点并运行；

确定满足模型决策条件时，确定进入推荐阶段。

可选地，确定不满足模型决策条件时，每达到一个控制周期，获取数据中心环境的环境参数测量值，根据环境参数测量值与目标环境参数的差值调整开机数和环境参数设定点，包括：

确定不满足模型决策条件时，每到达一个控制周期时，计算差值ΔE＝EnvirMeasure-EnvirTarget；

若所述差值ΔE小于第一阈值，确定当前控制周期的环境参数设定点为上一个控制周期的环境参数设定点增大预设环境参数调整值，当前控制周期的开机数为上一个控制周期的开机数减少开机数调整值；

若所述差值ΔE大于第二阈值，确定当前控制周期的环境参数设定点为上一个控制周期的环境参数设定点减小预设环境参数调整值，当前控制周期的开机数为上一个控制周期的开机数增大预设开机数调整值；

若所述差值ΔE大于等于第一阈值且小于等于第二阈值，确定当前控制周期的环境参数设定点为上一个控制周期的环境参数设定点随机增大或减小预设环境参数调整值，当前控制周期的开机数为上一个控制周期的开机数随机增大或减小预设开机数调整值；

其中，EnvirMeasure为当前控制周期到达时采集的环境参数测量值，EnvirTarget为所述目标环境参数。

可选地，确定多个候选环境参数设定点和多个候选开机数，包括：

确定以上一个控制周期的环境参数设定点为中心的多个备选环境参数设定点；

确定所述多个备选环境参数设定点中符合环境参数设定点范围的备选环境参数设定点，及所述上一个控制周期的环境参数设定点为候选环境参数设定点；

确定以上一个控制周期的开机数为中心的多个备选开机数；

确定所述多个备选开机数中符合开机数范围的备选开机数，及所述上一个控制周期的开机数为候选开机数。

可选地，所述的方法还包括：

每到达数据采样时间，采集所述数据中心的状态参数，并触发对数据中心的环境参数进行检测，在超出安全环境参数范围时，按照设定的调整幅度调整开机数和环境参数设定点；

其中，一个所述控制周期的长度等于相邻两个所述状态参数采样时刻的间隔的整数倍。

可选地，每到达数据采样时间，采集所述数据中心的状态参数，并触发对数据中心的环境参数进行检测，在超出安全环境参数范围时，按照设定的调整幅度调整开机数和环境参数设定点，包括：

每到达状态参数采样时间，并触发检测数据中心的环境参数EnvirMeasure；

计算ΔE＝EnvirMeasure-EnvirTarget；

若ΔE＜-DeadLine，将当前控制周期的环境参数设定点增大预设环境参数调整值，当前控制周期的开机数减小预设开机数调整值；

若ΔE＞DeadLine，将当前控制周期的环境参数设定点减小预设环境参数调整值，当前控制周期的开机数增大预设开机数调整值；

其中，EnvirMeasure为当前控制周期到达时采集的环境参数测量值，EnvirTarget为所述目标环境参数，DeadLine为预设环境参数差值且为正数。

可选地，所述UCB模型为线性上置信LinUCB模型或高斯UCB模型。

可选地，所述回归模型为如下任一种：

xgboost模型、随机森林RF模型、支持向量机SVM模型、神经网络模型。

可选地，所述状态参数包括如下至少一种：负载功率、平均送风环境参数、平均回风环境参数、热通道侧平均环境参数、冷通道侧平均环境参数。

可选地，所述环境参数为温度或者湿度。

基于同一发明构思，本发明实施例还提供了一种环境参数控制设备集群控制装置，应用于数据中心的节能调节和环境参数调节，包括：

样本采集模块，用于每到达控制周期，采集环境参数样本和能效样本，并对应更新至环境参数样本集和能效样本集中；

模型训练模块，用于触发模型训练时，将所述能效样本集中的样本特征输入带上下文的上置信UCB模型，以输出所述能效样本集中的样本标签为目标进行模型训练，将所述环境参数样本集中样本特征输入回归模型，以输出所述环境参数样本集中样本标签为目标进行模型训练；

推荐模块，用于确定当前处于推荐阶段时，每到达控制周期，确定多个候选环境参数设定点和多个候选开机数，基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分预测值，基于所述状态参数和候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于所述能效评分预测值和环境参数预测值决策开机数和环境参数设定点并运行；

根据所述能效评分预测值决策所述开机数；

根据所述环境参数预测值决策所述环境参数设定点。

将所述候选环境参数设定点和所述当前控制周期到达时采集的状态参数输入所述回归模型中，预测对应的环境参数预测值；

根据所述环境参数预测值决策所述环境参数设定点；

将所述候选开机数、所述当前控制周期到达时采集的状态参数和所述环境参数设定点输入所述UCB模型中，分别预测对应的能效评分预测值；

根据所述能效评分预测值决策所述开机数。

将所述候选开机数和所述当前控制周期到达时采集的状态参数输入所述UCB模型中，分别预测对应的能效评分预测值；

根据所述能效评分预测值决策所述开机数；

将所述候选环境参数设定点和所述当前控制周期到达时采集的状态参数输入所述回归模型中，分别预测对应的环境参数预测值；

根据所述环境参数预测值决策所述环境参数设定点。

可选地，所述的装置还包括：

初始控制模块，用于确定不满足模型决策条件时，每达到一个控制周期，获取数据中心环境的当前控制周期到达时采集的环境参数测量值；

确定满足模型决策条件时，确定进入推荐阶段。

可选地，所述的装置还包括：

安全维护模块，用于每到达数据采样时间，采集所述数据中心的状态参数，并触发对数据中心的环境参数进行检测，在超出安全环境参数范围时，按照设定的调整幅度调整开机数和环境参数设定点；

其中，一个所述控制周期的长度为相邻数据采样时间间隔的整数倍。

每到达数据采样时间，采集所述数据中心的状态参数，并触发检测数据中心的环境参数EnvirMeasure；

计算ΔE＝EnvirMeasure-EnvirTarget；

基于同一发明构思，本发明实施例还提供了一种电子设备，包括：处理器和用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现所述的环境参数控制设备集群控制方法。

基于同一发明构思，本发明实施例还提供了一种存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被用于实现所述的环境参数控制设备集群控制方法。

本发明有益效果如下：

本发明实施例提供的环境参数控制设备集群控制方法、装置、设备及存储介质，通过将带上下文的UCB模型算法与回归模型算法相结合进行数据中心配置推荐，采用组合模型将空调配置决策的动作空间解耦，使得动作空间缩小近十倍，加快了学习收敛速度，主模型采用UCB算法同样具有较快的收敛速度和在线学习能力，同时具有较高的准确性。以一定的控制周期对空调的开机数和环境参数设定点进行调节，从而改良数据中心的环境参数并降低PUE，且安全可靠。

附图说明

图1为本发明实施例提供的环境参数控制设备集群控制方法的流程图之一；

图2为本发明实施例中训练UCB模型和回归模型的效果示意图；

图3为本发明实施例提供的环境参数控制设备集群控制方法的流程图之二；

图4-1为本发明实施例中使用UCB模型和回归模型进行推荐的输入输出示意图之一；

图4-2为本发明实施例中使用UCB模型和回归模型进行推荐的输入输出示意图之二；

图4-3为本发明实施例中使用UCB模型和回归模型进行推荐的输入输出示意图之三；

图5为本发明实施例中环境参数控制设备集群控制方法的效果示意图；

图6为本发明实施例提供的环境参数控制设备集群控制方法的流程图之三；

图7为本发明实施例提供的环境参数控制设备集群控制方法的流程图之四；

图8-1为图4-1示意的UCB模型具体输入输出示意图；

图8-2为图4-1示意的回归模型具体输入输出示意图；

图9为本发明实施例提供的环境参数控制设备集群控制方法的流程图之五；

图10为本发明实施例提供的环境参数控制设备集群控制装置的结构示意图；

图11为本发明实施例提供的电子的结构示意图；

图12为应用了图11示意的电子设备的数据中心控制***的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面将结合附图和实施例对本发明做进一步说明。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明更全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。本发明中所描述的表达位置与方向的词，均是以附图为例进行的说明，但根据需要也可以做出改变，所做改变均包含在本发明保护范围内。本发明的附图仅用于示意相对位置关系不代表真实比例。

需要说明的是，在以下描述中阐述了具体细节以便于充分理解本发明。但是本发明能够以多种不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广。因此本发明不受下面公开的具体实施方式的限制。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

在本发明实施例中，所述环境参数为温度或者湿度。下文将以所述环境参数为温度为例进行说明，所述环境参数为湿度的实施方式与温度的实施方式基本相同，故可以参考温度的实施例，下文不再赘述。

在介绍本发明实施例之前，首先对下文将要出现的名词进行解释。

温度设定点：温度控制设备集群在运行过程中所设置的温度。例如温度控制设备为空调，那么空调的温度设定点即为空调的出风温度。

温度测量值：通过温度传感器采集的温度控制设备集群所要控制的数据中心的环境温度。

目标温度：期望的通过所述温度控制设备集群控制所述数据中心所最终达到的环境温度。

下面结合附图，对本发明实施例提供的环境参数控制设备集群控制方法、装置、设备及存储介质进行具体说明。

第一方面：

本发明实施例提供了一种环境参数控制设备集群控制方法，应用于数据中心的节能调节和温度调节，如图1所示，包括：

开始环境参数控制设备集群控制时，各自进行决策控制与模型训练两个部分的步骤；首先执行决策控制部分的步骤S110与模型训练部分的步骤S210；

S110、判断是否到达控制周期；

若所述步骤S110的结果为是，执行步骤S120；

如图2所示，S120、每到达控制周期，采集温度样本和能效样本，并对应更新至温度样本集和能效样本集中；

其中，所述能效样本中样本特征包括上一控制周期到达时获取的数据中心的状态参数、开机数，样本标签为到达当前控制周期时计算的能效评分，所述温度样本中样本特征包括上一控制周期到达时获取的数据中心的状态参数、温度设定点，样本标签包括当前控制周期到达时采集的温度测量值；

S130、判断是否满足模型决策条件；

若所述步骤S130的结果为是，确定当前处于推荐阶段，执行所述步骤S150；

S150、每到达控制周期，确定多个候选温度设定点和多个候选开机数，基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分预测值，基于所述状态参数、候选温度设定点，利用回归模型预测对应环境温度预测值，基于所述能效评分预测值和环境温度预测值决策开机数和温度设定点并运行。

S210、判断是否满足模型训练条件；

若所述步骤S210的结果为是，执行步骤S220；若所述步骤S210的结果为否，继续等待直至所述步骤S210的结果为是；

S220、将所述能效样本集中的样本特征输入带上下文的上置信(UpperConfidence Bound，UCB)模型，以输出所述能效样本集中的样本标签为目标进行模型训练，将所述温度样本集中样本特征输入回归模型，以输出所述温度样本集中样本标签为目标进行模型训练。

在具体实施过程中，所述UCB模型是带上下文的UCB模型。可选地，所述UCB模型为线性上置信(Linear Upper Confidence Bound，LinUCB)模型或高斯上置信(GaussianProcess Upper Confidence Bound，GPUCB)模型。

在具体实施过程中，可选地，所述回归模型为如下任一种：

xgboost模型、随机森林(Random Fores，RF)模型、支持向量机(Support VectorMachine，SVM)模型、神经网络模型。

所述回归模型也可以为其它未提及的模型，可以根据实际需要选择，在此不作限定。

在具体实施过程中，所述步骤S210中的模型训练条件可以为每个所述控制周期中触发一次模型训练，也可以为间隔多个控制周期触发一次模型训练，还可以为满足一定条件时(例如，连续多个所述控制周期到达时，使用所述步骤S150决策得到的温度设定点与开机数控制所述环境参数控制设备集群，在下一个所述控制周期到达时所获取的数据中心的状态参数不符合预设状态参数范围)触发一次模型训练，在此不作限定。

作为一种可选的实施方式，当到达控制周期时，触发模型训练。即每个所述控制周期都进行一次模型训练。其中每个所述控制周期中触发一次模型训练的实施方式可以参见图3示意的流程图，其中图3中示意的步骤与图1基本一致，可以参见上文所述的内容，故不再赘述。

在具体实施过程中，可选地，所述步骤S120中，对应更新至温度样本集和能效样本集中，包括：

若所述温度样本集和所述能效样本集的样本数量等于样本集容量时，删除所述温度样本集和所述能效样本集中最早的控制周期对应的温度样本和能效样本，将当前控制周期对应的所述温度样本和所述能效样本对应更新至所述温度样本集和所述能效样本集中。

例如，所述控制周期的时间为1小时，所述温度样本集和所述能效样本集的样本集容量设置为30天的样本数量，那么所述样本集容量为24×30＝720个样本。当所述环境参数控制设备集群运行至第721个小时的时候，将删除所述两个样本集中第1个控制周期对应的温度样本和能效样本，并将第721个控制周期对应的所述温度样本和能效样本对应更新至所述两个样本集中。之后的控制周期，在第722个控制周期时删除第2个控制周期对应的温度样本和能效样本，将第722个控制周期对应的温度样本和能效样本对应更新至所述两样本集，依次类推。

本申请通过带上下文的UCB模型算法与回归模型算法相结合进行数据中心温度和能耗配置推荐，具有较高的准确性和收敛速度。

在实施过程中，需要分别使用所述能耗样本集和所述温度样本集对应训练所述UCB模型和所述回归模型。

对于所述回归模型的训练过程，可选地，将所述温度样本集中样本特征输入回归模型，以输出所述温度样本集中标签为目标进行模型训练，包括：

将所述温度样本集中所有温度样本的样本特征依次输入回归模型，以输出对应的样本标签为目标进行模型训练。

而对于所述UCB模型的训练过程，将所述能效指标样本集中的样本特征输入带上下文的上置信UCB模型，以输出能效样本集中的样本标签为目标进行模型训练，可以采用如下任一种实施方式：

方式A：将所述能效样本集中所有能效样本的样本特征依次输入所述UCB模型，以输出对应的样本标签为目标进行模型训练。

方式B：当到达控制周期时，触发模型训练。将所述能效样本集中当前控制周期的能效样本中的样本特征输入所述UCB模型，以输出所述当前控制周期的能效样本中的样本标签为目标进行模型训练。

这样，使用方式B进行对所述UCB模型进行训练，每到达控制周期时仅使用更新的能效样本进行训练，可以减少训练数据的数量，加快训练速度。

可选地，如图1和图3所示，所述的方法还包括：

若所述步骤S130的结果为否，确定当前处于初始化控制阶段，执行所述步骤S141；

S141、每达到一个控制周期，获取数据中心环境的当前控制周期到达时采集的温度测量值；

S142、根据温度测量值与目标温度的差值调整开机数和温度设定点并运行。

在具体实施过程中，由于受到部分数据中心不具备定制化数据中心的特点，数据中心所在位置环境不一(例如不同地区的气温变化规律不同，使得数据中心的温度与能效的变化规律也相应有所不同)等因素影响，因此预先设置统一的训练样本对所述UCB模型和所述回归模型进行训练，使用这种方式训练得到的模型进行环境参数控制设备集群的推荐控制，其安全性和节能效果可能都存在问题。那么，在事先没有数据供模型训练的情况下，通过上述实施方式中首先按照温度测量值与目标温度的差值调整开机数和温度设定点，并在每个所述控制周期到达时采集所述温度样本和所述能效样本，从而为所述UCB模型和所述回归模型积累训练样本，便于后续使用训练后的模型进行推荐控制。

可选地，所述步骤S142中，根据温度测量值与目标温度的差值调整开机数和温度设定点，包括：

确定不满足模型决策条件时，每到达一个控制周期时，计算差值ΔT＝TempMeasure-TempTarget；

若所述差值ΔT小于第一阈值，确定当前控制周期的温度设定点为上一个控制周期的温度设定点增大预设温度调整值，当前控制周期的开机数为上一个控制周期的开机数减少开机数调整值；

若所述差值ΔT大于第二阈值，确定当前控制周期的温度设定点为上一个控制周期的温度设定点减小预设温度调整值，当前控制周期的开机数为上一个控制周期的开机数增大预设开机数调整值；

若所述差值ΔT大于等于第一阈值且小于等于第二阈值，确定当前控制周期的温度设定点为上一个控制周期的温度设定点随机增大或减小预设温度调整值，当前控制周期的开机数为上一个控制周期的开机数随机增大或减小预设开机数调整值；

其中，TempMeasure为当前控制周期到达时采集的温度测量值，TempTarget为所述目标温度。

例如，所述预设温度调整值为1℃，所述预设开机数调整值为1，所述第一阈值为-2℃，所述第二阈值为2℃。那么，当所述差值ΔT＜-2℃时，所述环境参数控制设备集群将所述温度设定点增大1℃，将所述开机数减少1台；当所述差值ΔT＞2℃时，所述环境参数控制设备集群将所述温度设定点减小1℃，将所述开机数增加1台；当所述差值-2℃≤ΔT≤2℃时，所述环境参数控制设备集群将所述温度设定点随机增大或减小1℃，将所述开机数随机增加或减少1台。

这样，将所述温度测量值大幅低于所述目标温度时提高所述温度设定点并减少开机数，能够控制所述数据中心的环境温度升高；将所述温度测量值大幅高于所述目标温度时降低所述温度设定点并增加开机数，能够控制所述数据中心的环境温度降低，从而使数据中心的环境温度尽快调整至所述目标温度。而在所述温度测量值与所述目标温度相近时随机控制所述温度设定点和所述开机数的变化，能够丰富对所述UCB模型和所述回归模型训练的训练样本，提高训练后得到的模型推荐的可靠性。

所述能效指标包括所述数据中心的总功率或所述环境参数控制设备集群的总功率或所述数据中心的PUE；其中：

若|TempMeasure-Temp|≤DeadLine，所述能效评分根据所述数据中心的能效指标利用第一公式计算得到；

若|TempMeasure-Temp|>DeadLine，所述能效评分根据所述数据中心的能效指标利用第二公式计算得到；

其中，当所述能效指标相同时，利用所述第一公式计算得到的所述能效评分大于所述第二公式计算得到的所述能效评分；

TempMeasure为当前控制周期到达时采集的温度测量值，Temp为上一个控制周期的温度设定点，DeadLine为预设温度差值且为正数。

在具体实施过程中，以所述能效指标为PUE为例。可选地，所述第一公式为：

所述第二公式为：

其中score为所述能效评分，A＞B。例如，A＝1，B＝0.8。

由于所述数据中心的总功率、所述环境参数控制设备集群的总功率与所述数据中心的PUE具有相似的变化规律，也可以将上述的第一和第二公式中的PUE替换为所述数据中心的总功率和所述环境参数控制设备集群的总功率，并根据需要调整A和B的取值，此处不再赘述。

当然，所述第一公式与所述第二公式不局限于上述的反比例关系，也可以为其它类型的公式，此处不作限定。

这样，通过不同的公式计算温度测量值与上一个控制周期的温度设定点的能效评分，能够对两者数值相差较大的情况给予更低的能效评分，从而能够使所述UCB模型在进行推荐决策时考虑到温度的影响。

可选地，在所述步骤S150中，确定多个候选温度设定点和多个候选开机数，包括：

确定以上一个控制周期的温度设定点为中心的多个备选温度设定点；

确定所述多个备选温度设定点中符合温度设定点范围的备选温度设定点，及所述上一个控制周期的温度设定点为候选温度设定点；

确定以上一个控制周期的开机数为中心的多个备选开机数；

在具体实施过程中，所述温度设定点范围为预先设置的一个范围，例如10℃-30℃。当上一个控制周期的温度设定点为30℃时，所述备选温度设定点将存在大于30℃和小于30℃的数值，但大于30℃的备选温度设定点不符合所述温度设定点范围，将被舍弃。最终确定所述候选温度设定点为小于30℃的备选温度设定点和30℃。对于所述开机数范围而言，可以直接确定为0至所述环境参数控制设备集群的设备数，也可以进一步地设置为其子集合(例如所述环境参数控制设备集群的设备数的一半至全部)。若直接使用0至所述环境参数控制设备集群的设备数的范围，当所述备选开机数小于0或大于所述环境参数控制设备集群的设备数时，此备选开机数将被舍弃。

在具体实施过程中，可以根据需要确定所述备选温度设定点的数量n₁，及数值相邻的两个所述备选温度设定点的数值差Δ₁，及所述备选开机数的数量n₂，及数值相邻的两个所述备选开机数的数值差Δ₂(n₁、n₂均为正偶数)。例如，确定所述备选温度设定点的数量n₁＝4，备选温度设定点的数值差Δ₁＝2℃，当上一个控制周期的温度设定点为20℃时，确定所述备选温度设定点为16℃、18℃、22℃、24℃。备选开机数的设置方式同理，故不再赘述。

这样，能够在每个控制周期进行推荐决策调整时，从所述候选温度设定点与所述候选开机数中最终确定的温度设定点与开机数在上一个控制周期的温度设定点与开机数附近，避免这两个设置参数剧烈变化导致温度控制设备运行异常。

作为一种优选的实施方式，确定以上一个控制周期的温度设定点为中心的多个备选温度设定点，包括：

确定以上一个控制周期的温度设定点为中心的2个备选温度设定点，并且所述备选温度设定点与上一个控制周期的温度设定点相差最小温度设定点变化值。

例如，所述最小温度设定点变化值为1℃，当上一个控制周期的温度设定点为20℃时，确定所述备选温度设定点为19℃、21℃。

确定以上一个控制周期的开机数为中心的多个备选开机数，包括：

确定以上一个控制周期的开机数为中心的2个备选开机数，并且所述备选开机数与上一个控制周期的开机数相差1。

这样，通过每次开机数和温度设定点最多变多一个变化单位，使得数据中心温度变化更加平衡。

在推荐阶段，在完成对所述UCB模型和所述回归模型的训练后，分别使用所述UCB模型和所述回归模型预测能效评分和环境温度时，可以分别使用所述UCB模型和所述回归模型进行能效评分预测和环境温度预测，也可以将两者结合使用，利用其中一个模型的预测结果推荐决策得到的参数输入至另一个模型中以影响另一个参数的预测结果和推荐决策。

可选地，基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分，基于所述状态参数和候选温度设定点，利用回归模型预测对应环境温度预测值，基于所述能效评分和环境温度预测值决策开机数和温度设定点，包括如下任一种实施方式：

方式1：

在方式1中，所述温度样本中样本特征还包括：上一控制周期的开机数。

如图4-1所示，将所述候选开机数和所述当前控制周期到达时采集的状态参数输入所述UCB模型中，分别预测对应的能效评分预测值；

根据所述能效评分预测值决策所述开机数；

将所述开机数、所述当前控制周期到达时采集的状态参数和所述候选温度设定点输入所述回归模型中，预测对应的环境温度预测值；

根据所述环境温度预测值决策所述温度设定点。

方式2：

在方式2中，所述能效样本中样本特征还包括：上一控制周期的温度设定点。

如图4-2所示，将所述候选温度设定点和所述当前控制周期到达时采集的状态参数输入所述回归模型中，预测对应的环境温度预测值；

根据所述环境温度预测值决策所述温度设定点；

将所述候选开机数、所述当前控制周期到达时采集的状态参数和所述温度设定点输入所述UCB模型中，分别预测对应的能效评分预测值；

根据所述能效评分预测值决策所述开机数。

方式3：

如图4-3所示，将所述候选开机数和所述当前控制周期到达时采集的状态参数输入所述UCB模型中，分别预测对应的能效评分预测值；

根据所述能效评分预测值决策所述开机数；

将所述候选温度设定点和所述当前控制周期到达时采集的状态参数输入所述回归模型中，分别预测对应的环境温度预测值；

根据所述环境温度预测值决策所述温度设定点。

在具体实施过程中，决策所述环境温度预测值中最接近所述目标温度对应的温度设定点为当前控制周期的所述温度设定点。如果根据所述能效指标计算的能效评分，能效指标越高则能效评分越高，则决策所述能效评分预测值中的最大值对应的所述候选开机数为当前控制周期的开机数。

这样，方式1和方式2使用两个模型进行耦合决策开机数和温度设定点，减小了推荐空间，极大地提高了模型的收敛速度。方式3使用两个模型分别决策开机数和温度设定点，方案较为简单。

在每到达一个控制周期时，采用上述实施方式对所述环境参数控制设备集群进行开机数和温度设定点的调整外，为了保证设备运行的安全性，如图5所示，还可以设置周期性的状态参数采样时刻进行检测和调整。

可选地，如图6和图7所示，除了与图1、图3所示的方法相同的步骤外，所述的方法还包括：

S160、判断是否到达数据采样时间，采集一次所述数据中心的状态参数；

若所述步骤S160结果为是，执行所述步骤S170；若所述步骤S160结果为否，返回所述步骤S110；

S170、对数据中心的环境温度进行检测，判断是否超出安全温度范围；

若所述步骤S170的结果为是，执行步骤S180；若所述步骤S170结果为否，返回所述步骤S110；

S180、按照设定的调整幅度调整开机数和温度设定点；返回所述步骤S110；

在具体实施过程中，所述数据采样时间的时长可以根据实际需要进行设置。例如，所述控制周期为1小时，所述数据采样时间为5分钟。

这样，能够避免所述数据中心出现安全隐患。

可选地，所述步骤S170、对数据中心的环境温度进行检测，判断是否超出安全温度范围，包括：

检测数据中心的环境温度TempMeasure；

计算ΔT＝TempMeasure-TempTarget；

判断是否ΔT＜-DeadLine，或ΔT＞DeadLine。

所述步骤S180、按照设定的调整幅度调整开机数和温度设定点，包括：

若ΔT＜-DeadLine，将当前控制周期的温度设定点增大预设温度调整值，当前控制周期的开机数减小预设开机数调整值；

若ΔT＞DeadLine，将当前控制周期的温度设定点减小预设温度调整值，当前控制周期的开机数增大预设开机数调整值；

其中，TempMeasure为当前控制周期到达时采集的温度测量值，TempTarget为所述目标温度，DeadLine为预设温度差值且为正数。

例如，所述DeadLine为预设温度差值为3℃，所述预设温度调整值为1℃，所述预设开机数调整值为1。

可选地，所述状态参数包括如下至少一种：负载功率、平均送风温度、平均回风温度、热通道侧平均温度、冷通道侧平均温度。

如果在模型决策时使用方式1的技术方案，那么所述UCB模型和所述回归模型的输入与输出的参数将如图8-1和图8-2所示。

在下面给出一个具体的示例，对本发明提供的环境参数控制设备集群控制方法进行说明。

在本示例中，所述温度控制设备为空调，所述控制周期为1小时，相邻数据采样时间间隔5分钟。所述UCB模型为LinUCB模型或GPUCB模型，所述回归模型为xgboost模型。所述目标温度TempTarget＝22℃，所述预设温度差值DeadLine＝3℃，所述空调集群的设备数范围为空调集群设备数的一半至全部，所述温度设定点范围为[15℃，20℃]，所述温度样本集和所述能效样本集的样本集容量为720。从第241个控制周期开始进入推荐阶段，所述第一阈值为-2℃，所述第二阈值为2℃。

如图9所示，所述控制设备集群控制方法包括：

S300、CallTime＝0。

S310、判断是否到达控制周期。

若所述步骤S310的结果为是，执行所述步骤S320；若所述步骤S310的结果为否，执行所述步骤S380。

S320、每到达控制周期，采集温度样本和能效样本。

其中，所述能效样本中样本特征包括上一控制周期到达时获取的数据中心的状态参数、开机数n，样本标签为到达当前控制周期时计算的能效评分score，所述温度样本中样本特征包括上一控制周期到达时获取的数据中心的状态参数、温度设定点AcTempSet、开机数n，样本标签包括当前控制周期到达时采集的温度测量值TempMeasure。

能效评分score的计算方法为：

若|TempMeasure-Temp|≤DeadLine，

若|TempMeasure-Temp|>DeadLine，

S321、判断温度样本集和能效样本集中样本数量是否等于样本集容量。

若所述步骤S321结果为是，执行所述步骤S322；若所述步骤S320结果为否，执行所述步骤S323。

S322、删除温度样本集和能耗样本集中最早的控制周期对应的温度样本和能效样本。

S323、将采集的温度样本和能效样本对应更新至温度样本集和能效样本集中。

S330、将所述能效样本集中的样本特征输入UCB模型，以输出所述能效样本集中的样本标签为目标进行模型训练，将所述温度样本集中样本特征输入xgboost模型，以输出所述温度样本集中样本标签为目标进行模型训练。

S340、判断是否CallTime>InitTimeTh；其中InitTimeTh＝240。

若所述步骤S340的结果为是，执行所述步骤S360；若所述步骤S340的结果为否，执行所述步骤S350。

S350、获取数据中心环境的当前控制周期到达时采集的温度测量值TempMeasure，并计算差值ΔT＝TempMeasure-TempTarget。

若ΔT＜-2℃，执行所述步骤S351；若ΔT＞2℃，执行所述步骤S352；若-2℃≤ΔT≤2℃，执行所述步骤S353。

S351、n＝n-1，AcTempSet＝AcTempSet+1℃。执行所述步骤S370。

S352、n＝n+1，AcTempSet＝AcTempSet-1℃。执行所述步骤S370。

S353、n随机增大或减小1，AcTempSet随机增大或减小1℃。执行所述步骤S370。

S360、根据上一个控制周期的温度设定点AcTempSet分别增加1℃和减小1℃，得到两个备选温度设定点，去除其中不在[15℃，20℃]中的备选温度设定点后，与上一个控制周期的温度设定点AcTempSet共同组成候选温度设定点；根据上一个控制周期的开机数n分别增加1和减小1，得到两个备选开机数，去除其中不在空调集群设备数的一半至全部中的备选开机数后，与上一个控制周期的开机数n共同组成候选开机数。

S361、将所述候选开机数、所述当前控制周期到达时采集的状态参数输入UCB模型中，分别预测对应的能效评分预测值。

S362、决策所述能效评分预测值中最大值对应的候选开机数为当前控制周期的开机数n。

S363、将当前控制周期的开机数、所述当前控制周期到达时采集的状态参数和所述候选温度设定点输入xgboost模型中，预测对应的环境温度预测值；

S364、决策所述环境温度预测值中最接近所述目标温度TempTarget对应的温度设定点为当前控制周期的温度设定点AcTempSet。

S370、CallTime＝CallTime+1。

S380、判断是否到达数据采样时间，采集一次所述数据中心的状态参数。

若所述步骤S380的结果为是，执行所述步骤S381；若所述步骤S380的结果为否，执行所述步骤S310。

S381、对数据中心的环境温度TempMeasure进行检测；计算差值ΔT＝TempMeasure-TempTarget；判断是否ΔT＜-DeadLine，或ΔT＞DeadLine。

若ΔT＜-DeadLine，执行步骤S382；若ΔT＞DeadLine，执行步骤S383；若-DeadLine≤ΔT≤DeadLine，返回所述步骤S310。

S382、AcTempSet＝AcTempSet+1℃，n＝n-1。返回所述步骤S310。

S383、AcTempSet＝AcTempSet-1℃，n＝n+1。返回所述步骤S310。

在上述示例实施过程中，需要对LinUCB模型中的参数Alpha或GPUCB模型中的参数Delta进行预先设置。Alpha/Delta是LinUCB模型/GPUCB模型中调节预测策略的参数，用于调节模型是倾向于利用还是探索。具体来说，UCB模型从历史样本学习潜在的规律，对于待做推荐决策的工况它能预测出期望值。显然，对于不变的环境来说，模型每次选择期望值最大者是最合适的，收益最大。但是当环境变化时，新的环境状态可能不包含在历史样本中，所以模型没有对之进行学习，模型所做预测很可能是有误差的。所以，当环境变化时，进行适当的探索尝试有利于模型找到新环境下的最大期望。这样，倾向于利用是指模型倾向于选择期望值最大者，倾向于探索则是倾向于选择期望值非最大者。模型越倾向于利用则越稳定，但环境变化时的适应能力就越差一些。反之，模型越倾向于探索则对环境变化的适应能力越强，但过于频繁的探索会导致稳定性较差。

同时，也需要对xgboost模型中的参数max_depth和learning_rate进行预先设置。其中，max_depth表示xgboost模型中树的最大深度，该值越大对样本的拟合能力越强，但太大容易拟合到噪声导致过拟合。所以该值既不能太大也不能太少。在建模时，需要将数据集进行划分，根据测试结果进行选择。优选地，max_depth＝5。learning_rate表示xgboost模型中的学习率，也称之为学习步长。该值越小意味着需要更多的弱学习器的迭代，泛化性越好。但该值若过小可能会降低拟合效果。在建模时，同样需要将数据集进行划分，根据测试结果进行选择。

第二方面：

基于同一发明构思，本发明实施例还提供了一种环境参数控制设备集群控制装置，应用于数据中心的节能调节和环境参数调节，如图10所示，包括：

样本采集模块M101，用于每到达控制周期，采集环境参数样本和能效样本，并对应更新至环境参数样本集和能效样本集中；

模型训练模块M102，用于触发模型训练时，将所述能效样本集中的样本特征输入带上下文的上置信UCB模型，以输出所述能效样本集中的样本标签为目标进行模型训练，将所述环境参数样本集中样本特征输入回归模型，以输出所述环境参数样本集中样本标签为目标进行模型训练；

推荐模块M104，用于确定当前处于推荐阶段时，每到达控制周期，确定多个候选环境参数设定点和多个候选开机数，基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分预测值，基于所述状态参数、候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于所述能效评分预测值和环境参数预测值决策开机数和环境参数设定点并运行；

可选地，所述环境参数样本中样本特征还包括：上一控制周期的开机数；基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分，基于所述状态参数和候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于所述能效评分和环境参数预测值决策开机数和环境参数设定点，包括：

根据所述能效评分预测值决策所述开机数；

根据所述环境参数预测值决策所述环境参数设定点。

基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分，基于所述状态参数和候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于所述能效评分和环境参数预测值决策开机数和环境参数设定点，包括：

根据所述环境参数预测值决策所述环境参数设定点；

将所述候选开机数、当前控制周期到达时采集的状态参数和所述环境参数设定点输入所述UCB模型中，分别预测对应的能效评分预测值；

根据所述能效评分预测值决策所述开机数。

可选地，基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分，基于所述状态参数和候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于所述能效评分和环境参数预测值决策开机数和环境参数设定点，包括：

根据所述能效评分预测值决策所述开机数；

根据所述环境参数预测值决策所述环境参数设定点。

根据所述环境参数预测值决策所述环境参数设定点，包括：

可选地，当到达控制周期时，触发模型训练；

可选地，所述的装置还包括：

初始控制模块M103，用于确定不满足模型决策条件时，每达到一个控制周期，获取数据中心环境的当前控制周期到达时采集的环境参数测量值；

确定满足模型决策条件时，确定进入推荐阶段。

确定以上一个控制周期的开机数为中心的多个备选开机数；

可选地，所述的装置还包括：

安全维护模块M105，用于每到达数据采样时间，采集所述数据中心的状态参数，并触发对数据中心的环境参数进行检测，在超出安全环境参数范围时，按照设定的调整幅度调整开机数和环境参数设定点；

计算ΔE＝EnvirMeasure-EnvirTarget；

可选地，所述UCB模型为线性上置信LinUCB模型或高斯UCB模型。

可选地，所述回归模型为如下任一种：

可选地，所述环境参数为温度或者湿度。

在具体实施过程中，所述环境参数控制设备集群控制装置与所述环境参数控制设备集群控制方法的具体工作原理相似，故可以参考所述环境参数控制设备集群控制方法的具体实施方式对应实施，此处不再赘述。

第三方面：

基于同一发明构思，本发明实施例还提供了一种电子设备100，如图11所示，包括：处理器110和用于存储所述处理器110可执行指令的存储器120；其中，所述处理器110被配置为执行所述指令，以实现所述环境参数控制设备集群控制方法。

在具体实施过程中，所述设备100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器110和存储器120，一个或一个以上存储应用程序131或数据132的存储介质130。其中，存储器120和存储介质130可以是短暂存储或持久存储。存储在存储介质130的应用程序131可以包括一个或一个以上所述单元(图11中未示出)，每个模块可以包括对环境参数控制设备集群控制装置中的一系列指令操作。更进一步地，处理器110可以设置为与存储介质130通信，在所述设备100上执行存储介质130中的一系列指令操作。所述设备100还可以包括一个或一个以上电源(图11中未示出)；一个或一个以上网络接口140，所述网络接口140包括有线网络接口141或无线网络接口142；一个或一个以上输入输出接口143；和/或，一个或一个以上操作***133，例如Windows、Mac OS、Linux、IOS、Android、Unix、FreeBSD等。

图12示意了应用了本发明实施例提供的电子设备100所组成的数据中心控制***。如图12所示，所述数据中心控制***包括所述电子设备100、数据中心设备200和监控***设备300。其中所述数据中心设备200包括温度控制设备集群和/或湿度控制设备集群、安装有数据中心的服务器设备的机柜、温度传感器和/或湿度传感器等。所述监控***设备300为至少一个，用于控制所述数据中心设备的运行状态。所述电子设备100接收由所述监控***设备300处理并转发的数据中心采集的状态参数，并根据所述状态参数决策环境参数设定点及开机数，所述监控***设备300根据所述电子设备100的决策结果控制对应的数据中心设备200。

第四方面：

基于同一发明构思，本发明实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被用于实现所述环境参数控制设备集群控制方法。

本发明实施例提供的温湿度控制设备集群控制方法、装置、设备及存储介质，将带上下文的UCB模型算法与回归模型算法相结合进行数据中心配置推荐，具有较高的准确性和收敛速度。以一定的控制周期对空调的开机数和温度设定点进行调节，从而改良数据中心的温度并降低PUE，且安全可靠。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种环境参数控制设备集群控制方法，应用于数据中心的节能调节和环境参数调节，其特征在于，包括：

触发模型训练时，将所述能效样本集中的样本特征输入带上下文的上置信UCB模型，以输出所述能效样本集中的样本标签为目标进行模型训练，将所述环境参数样本集中样本特征输入回归模型，以输出所述环境参数样本集中样本标签为目标进行模型训练；

2.如权利要求1所述的方法，其特征在于，所述能效评分为根据所述数据中心的能效指标确定的评分；

3.如权利要求1所述的方法，其特征在于，所述环境参数样本中样本特征还包括：上一控制周期的开机数；

根据所述能效评分预测值决策所述开机数；

根据所述环境参数预测值决策所述环境参数设定点。

4.如权利要求1所述的方法，其特征在于，所述能效样本中样本特征还包括：上一控制周期的环境参数设定点；

根据所述环境参数预测值决策所述环境参数设定点；

根据所述能效评分预测值决策所述开机数。

5.如权利要求1所述的方法，其特征在于，基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分预测值，基于所述状态参数和候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于所述能效评分预测值和环境参数预测值决策开机数和环境参数设定点，包括：

根据所述能效评分预测值决策所述开机数；

根据所述环境参数预测值决策所述环境参数设定点。

6.如权利要求3-5任一项所述的方法，其特征在于，若所述能效评分越大，所述环境参数控制设备集群的能耗效率越高，则根据所述能效评分预测值决策所述开机数，包括：

根据所述环境参数预测值决策所述环境参数设定点，包括：

7.如权利要求1所述的方法，其特征在于，当到达控制周期时，触发模型训练；

将所述能效指标样本集中的样本特征输入带上下文的UCB模型，以输出能效样本集中的样本标签为目标进行模型训练，包括：

将所述能效样本集中所有能效样本的样本特征依次输入UCB模型，以输出对应的样本标签为目标进行模型训练；

8.如权利要求1所述的方法，其特征在于，还包括：

确定满足模型决策条件时，确定进入推荐阶段。

9.如权利要求8所述的方法，其特征在于，确定不满足模型决策条件时，每达到一个控制周期，获取数据中心环境的环境参数测量值，根据环境参数测量值与目标环境参数的差值调整开机数和环境参数设定点，包括：

10.如权利要求1所述的方法，其特征在于，确定多个候选环境参数设定点和多个候选开机数，包括：

确定以上一个控制周期的开机数为中心的多个备选开机数；

11.如权利要求1所述的方法，其特征在于，还包括：

12.如权利要求11所述的方法，其特征在于，每到达数据采样时间，采集所述数据中心的状态参数，并触发对数据中心的环境参数进行检测，在超出安全环境参数范围时，按照设定的调整幅度调整开机数和环境参数设定点，包括：

计算ΔE＝EnvirMeasure-EnvirTarget；

13.如权利要求1所述的方法，其特征在于，所述UCB模型为线性上置信LinUCB模型或高斯上置信GPUCB模型。

14.如权利要求1所述的方法，其特征在于，所述回归模型为如下任一种：

15.如权利要求1所述的方法，其特征在于，所述状态参数包括如下至少一种：

负载功率、平均送风环境参数、平均回风环境参数、热通道侧平均环境参数、冷通道侧平均环境参数。

16.如权利要求1所述的方法，其特征在于，所述环境参数为温度或者湿度。

17.一种环境参数控制设备集群控制装置，应用于数据中心的节能调节和环境参数调节，其特征在于，包括：

模型训练模块，用于触发模型训练时，将所述能效样本集中的样本特征输入带上下文的UCB模型，以输出所述能效样本集中的样本标签为目标进行模型训练，将所述环境参数样本集中样本特征输入回归模型，以输出所述环境参数样本集中样本标签为目标进行模型训练；

18.如权利要求17所述的装置，其特征在于，所述环境参数样本中样本特征还包括：上一控制周期的开机数；

根据所述能效评分预测值决策所述开机数；

根据所述环境参数预测值决策所述环境参数设定点。

19.如权利要求17所述的装置，其特征在于，所述能效样本中样本特征还包括：上一控制周期的环境参数设定点；

根据所述环境参数预测值决策所述环境参数设定点；

根据所述能效评分预测值决策所述开机数。

20.如权利要求17所述的装置，其特征在于，基于当前控制周期到达时采集的状态参数和候选开机数，利用所述UCB模型预测对应的能效评分预测值，基于所述状态参数和候选环境参数设定点，利用回归模型预测对应环境参数预测值，基于所述能效评分预测值和环境参数预测值决策开机数和环境参数设定点，包括：

根据所述能效评分预测值决策所述开机数；

根据所述环境参数预测值决策所述环境参数设定点。

21.如权利要求17所述的装置，其特征在于，还包括：

确定满足模型决策条件时，确定进入推荐阶段。

22.如权利要求21所述的装置，其特征在于，确定不满足模型决策条件时，每达到一个控制周期，获取数据中心环境的环境参数测量值，根据环境参数测量值与目标环境参数的差值调整开机数和环境参数设定点，包括：

23.如权利要求17所述的装置，其特征在于，还包括：

24.如权利要求23所述的装置，其特征在于，每到达数据采样时间，采集所述数据中心的状态参数，并触发对数据中心的环境参数进行检测，在超出安全环境参数范围时，按照设定的调整幅度调整开机数和环境参数设定点，包括：

计算ΔE＝EnvirMeasure-EnvirTarget；

25.一种电子设备，其特征在于，包括：处理器和用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-16任一项所述的环境参数控制设备集群控制方法。

26.一种存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被用于实现如权利要求1-16任一项所述的环境参数控制设备集群控制方法。