CN113361132B - 一种基于深度q学习对决网络的风冷数据中心节能方法 - Google Patents

一种基于深度q学习对决网络的风冷数据中心节能方法 Download PDF

Info

Publication number
CN113361132B
CN113361132B CN202110718622.8A CN202110718622A CN113361132B CN 113361132 B CN113361132 B CN 113361132B CN 202110718622 A CN202110718622 A CN 202110718622A CN 113361132 B CN113361132 B CN 113361132B
Authority
CN
China
Prior art keywords
network
temperature
data center
learning
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110718622.8A
Other languages
English (en)
Other versions
CN113361132A (zh
Inventor
林文星
马驰
吴名朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Whale Cloud Technology Co Ltd
Original Assignee
Whale Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Whale Cloud Technology Co Ltd filed Critical Whale Cloud Technology Co Ltd
Priority to CN202110718622.8A priority Critical patent/CN113361132B/zh
Publication of CN113361132A publication Critical patent/CN113361132A/zh
Application granted granted Critical
Publication of CN113361132B publication Critical patent/CN113361132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/30Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
    • F24F11/46Improving electric energy efficiency or saving
    • F24F11/47Responding to energy costs
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/06Power analysis or power optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • Combustion & Propulsion (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明公开了一种基于深度Q学习对决网络的风冷数据中心节能方法,该方法包括以下步骤:S1、获取采样数据中心与监控数据中心的环境状态;S2、周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度。有益效果:采用强化学习的方式进行控制器的自学习,通过设定奖励和反馈,探索和学习的机制让控制器能够自适应环境变化,在学习优化风冷机组的空调设置值的同时,又保障数据中心环境处于安全运行区间,从而在未来的学习中对于估计效果差的经验数据能够加强训练;应用对决网络对环境状态增加了新的评估项,增加了控制器对于环境变化的敏感性。

Description

一种基于深度Q学习对决网络的风冷数据中心节能方法
技术领域
本发明涉及空调控制节能领域,具体来说,涉及一种基于深度Q学习对决网络的风冷数据中心节能方法。
背景技术
节能就是尽可能地减少能源消耗量,生产出与原来同样数量、同样质量的产品;或者是以原来同样数量的能源消耗量,生产出比原来数量更多或数量相等质量更好的产品,节能就是应用技术上现实可靠、经济上可行合理、环境和社会都可以接受的方法,有效地利用能源,提高用能设备或工艺的能量利用效率。
现有基于能耗预测的节能控制方案需要收集历史传感器数据、空调耗电量、空调设置数据构建初始训练数据集,并以传感器数据和空调设置为输入,空调耗电量和环境温度为输出构建预测控制模型。下发控制时预测模型基于当前环境采集的传感器数据对不同的空调设置进行耗电量预测,温度预测从而选择不超温度限制下的最小耗电下的空调设置,实现空调节能,但是现有技术中能耗预测方法对训练数据的要求较高,而实际场景中往往收集丰富的数据集存在比较大的瓶颈,一是全年的气温状态又是复杂多变的,阶段性的历史数据对未来的适应性较差;二是对于空调制冷设备的设定值往往不会太多干预,历史数据往往是有限的空调设置组合;三是一旦数据中心出现设备更换,能耗预测控制方案将难以适应新的物理环境,从而导致预测方法的失效。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于深度Q学习对决网络的风冷数据中心节能方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种基于深度Q学习对决网络的风冷数据中心节能方法,该方法包括以下步骤:
S1、获取采样数据中心与监控数据中心的环境状态;
S2、周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度。
进一步的,所述获取采样数据中心与监控数据中心的环境状态还包括以下步骤:
S11、收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减;
S12、实时监控传感器温度状态并判断数据中心是否处于高温预警。
进一步的,所述收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减还包括以下步骤:
S111、若设备增减则重置深度Q学习对决网络,则根据新的物理环境进行控制流程的训练。
进一步的,所述实时监控传感器温度状态并判断数据中心是否处于高温预警还包括以下步骤:
S121、当数据中心处于高温预警时,将发送预警降温指令进行降温;
S122、降温降至预设最低温度后停止降温,转由深度Q学习对决网络进行温度控制。
进一步的,所述高温预警时定义如下:高温预警状态定义为连续三分钟传感器温度平均值大于预设的预警温度值。
进一步的,所述周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度还包括以下步骤:
S21、以20分钟为周期获取各个传感器的温度tmpi和室外环境温度tmpo,定义采样数据中心状态S=(tmp1,…,tmpn,tmpo);
S22、空调设置值的温度作为动作a;
S23、空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入;
S24:将相邻的两个时刻数据中心温度状态st,st+1与t时刻下发空调设置的动作at和对应的功率计算得出的奖励rt生成四元组(st,at,rt,st+1),作为一条样本数据存入经验回放池中;
S25:深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置。
进一步的,所述空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入计算公式如下:
Figure BDA0003136045190000031
其中,pe为额定功率,pavg为过去一个工作周期的平均工作功率,r无预警状态时奖励值为额度功率与平均工作功率的差,发生预警状态后奖励值会带上奖励的折扣项λ,默认为0.8。
进一步的,所述深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置还包括以下步骤:
S251、深度Q学习对决网络计算经验回放池中各个样本的误差;
S252、根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本;
S253、ε贪心策略进行动作选择空调设置值的温度;
其中,ε贪心策略进行动作选择空调设置值的温度计算公式如下:
Figure BDA0003136045190000032
Q(st,a;w)是最优动作价值函数由深度Q学习对决网络进行拟合,A为动作空间为全部空调温度设定组合,同时a∈A。
进一步的,所述深度Q学习对决网络计算经验回放池中各个样本的误差还包括以下步骤:
S2511:计算动作网络,
Figure BDA0003136045190000033
S2512:计算目标网络,
Figure BDA0003136045190000042
S2513:计算动作网络在t时刻的回报估计,
Figure BDA0003136045190000043
S2514:计算动作网络根据当前温度状态做出的最优动作,
aselect=argmaxaQact(st+1,a;wact);
S2515:计算动作网络在t+1时刻的回报估计,
Figure BDA0003136045190000044
S2516:计算t时刻的回报时序差分目标,
Figure BDA0003136045190000045
S2517:计算t时刻样本误差,
Figure BDA0003136045190000046
其中,动作网络Qact与目标网络Qtarget构成深度Q学习对决网络,且动作网络与目标网络有相同的网络结构,由最优状态函数V*(st)和最优优势函数D*(st)构成,
Figure BDA0003136045190000047
Figure BDA0003136045190000048
为动作网络中最优状态函数和最优优势函数的学习参数,
Figure BDA0003136045190000049
Figure BDA00031360451900000410
为动作网络中最优状态函数和最优优势函数的学习参数,aselect为动作网络根据当前温度状态做出的最优动作,σt为t时刻样本误差,γ为回报折扣,
Figure BDA00031360451900000411
为动作网络在t时刻的回报估计,
Figure BDA00031360451900000412
为动作网络在t+1时刻的回报估计,
Figure BDA00031360451900000413
为t时刻的回报时序差分目标,回报指的是对在运行周期内未来获得奖励之和。
进一步的,所述根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本还包括以下步骤:
S2521、计算样本抽样概率,并按此概率抽取M个样本;
S2522、计算每个样本的学习率ηi
S2523:对于抽取出的M个样本根据样本误差更新M次网络参数:
Figure BDA00031360451900000414
wtarget←wact
其中,wact为动作网络的全部参数,wtarget为目标网络的全部参数,ηj为第j个样本的学习率,δj为第j个样本的误差,st为t时刻的温度状态,at为t时刻的动作设置;
样本抽样概率计算公式如下:
Figure BDA0003136045190000051
式中α为优先级参数,N为经验回放池的样本总数,pi为优先级参数,选用第i个样本的误差表示;
计算每个样本的学习率ηi计算公式如下:
Figure BDA0003136045190000052
式中η为学习率,N为经验回放池的样本总数,β为重要性采样超参数。
本发明的有益效果为:采用强化学习的方式进行控制器的自学习,通过设定奖励和反馈,探索和学习的机制让控制器能够自适应环境变化,在学习优化风冷机组的空调设置值的同时,又保障数据中心环境处于安全运行区间。在控制器的训练决策中应用优先经验回放使得控制器能够合理评估过往经验的重要性,从而在未来的学习中对于估计效果差的经验数据能够加强训练;应用对决网络对环境状态增加了新的评估项,增加了控制器对于环境变化的敏感性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于深度Q学习对决网络的风冷数据中心节能方法的流程图;
图2是根据本发明实施例的一种基于深度Q学习对决网络的风冷数据中心节能方法的原理图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于深度Q学习对决网络的风冷数据中心节能方法。
现结合附图和具体实施方式对本发明进一步说明,如图1-2所示,根据本发明实施例的基于深度Q学习对决网络的风冷数据中心节能方法,该方法包括以下步骤:
S1、采样与监控流程:获取采样数据中心与监控数据中心的环境状态;
S2、深度Q学习对决网络控制流程:周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度。
在一个实施例中,所述获取采样数据中心与监控数据中心的环境状态还包括以下步骤:
S11、收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减;
S12、实时监控传感器温度状态并判断数据中心是否处于高温预警。
在一个实施例中,所述收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减还包括以下步骤:
S111、若设备增减则重置深度Q学习对决网络,则根据新的物理环境进行控制流程的训练。
在一个实施例中,所述实时监控传感器温度状态并判断数据中心是否处于高温预警还包括以下步骤:
S121、当数据中心处于高温预警时,将发送预警降温指令进行降温;
S122、降温降至预设最低温度后停止降温,转由深度Q学习对决网络进行温度控制。
在一个实施例中,所述高温预警时定义如下:高温预警状态定义为连续三分钟传感器温度平均值大于预设的预警温度值。
在一个实施例中,所述周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度还包括以下步骤:
S21、以20分钟为周期获取各个传感器的温度tmpi和室外环境温度tmpo,定义采样数据中心状态S=(tmp1,…,tmpn,tmpo);
S22、空调设置值的温度作为动作a;
S23、空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入;
S24:将相邻的两个时刻数据中心温度状态st,st+1与t时刻下发空调设置的动作at和对应的功率计算得出的奖励rt生成四元组(st,at,rt,st+1),作为一条样本数据存入经验回放池中;
S25:深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置。
在一个实施例中,所述空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入计算公式如下:
Figure BDA0003136045190000071
其中,pe为额定功率,pavg为过去一个工作周期的平均工作功率,r无预警状态时奖励值为额度功率与平均工作功率的差,发生预警状态后奖励值会带上奖励的折扣项λ,默认为0.8。
在一个实施例中,所述深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置还包括以下步骤:
S251、深度Q学习对决网络计算经验回放池中各个样本的误差;
S252、根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本,并以最小化时间差分误差为目标进行梯度下降实现深度Q学习对决网络更新;
S253、ε贪心策略进行动作选择空调设置值的温度;
其中,ε贪心策略进行动作选择空调设置值的温度计算公式如下:
Figure BDA0003136045190000081
Q(st,a;w)是最优动作价值函数由深度Q学习对决网络进行拟合,A为动作空间为全部空调温度设定组合,同时a∈A。
在一个实施例中,所述深度Q学习对决网络计算经验回放池中各个样本的误差还包括以下步骤:
S2511:计算动作网络,
Figure BDA0003136045190000082
S2512:计算目标网络,
Figure BDA0003136045190000083
S2513:计算动作网络在t时刻的回报估计,
Figure BDA0003136045190000084
S2514:计算动作网络根据当前温度状态做出的最优动作,aselect=argmaxaQact(st+1,a;wact);
S2515:计算动作网络在t+1时刻的回报估计,
Figure BDA0003136045190000085
S2516:计算t时刻的回报时序差分目标,
Figure BDA0003136045190000086
S2517:计算t时刻样本误差,
Figure BDA0003136045190000087
其中,动作网络Qact与目标网络Qtarget构成深度Q学习对决网络,且动作网络与目标网络有相同的网络结构,由最优状态函数V*(st)和最优优势函数D*(st)构成,
Figure BDA0003136045190000088
Figure BDA0003136045190000089
为动作网络中最优状态函数和最优优势函数的学习参数,
Figure BDA00031360451900000810
Figure BDA00031360451900000811
为动作网络中最优状态函数和最优优势函数的学习参数,aselect为动作网络根据当前温度状态做出的最优动作,σt为t时刻样本误差,γ为回报折扣,
Figure BDA0003136045190000091
为动作网络在t时刻的回报估计,
Figure BDA0003136045190000092
为动作网络在t+1时刻的回报估计,
Figure BDA0003136045190000093
为t时刻的回报时序差分目标,回报指的是对在运行周期内未来获得奖励之和。
在一个实施例中,所述根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本还包括以下步骤:
S2521、计算样本抽样概率,并按此概率抽取M个样本;
S2522、计算每个样本的学习率ηi
S2523:对于抽取出的M个样本根据样本误差更新M次网络参数:
Figure BDA0003136045190000094
wtarget←wact
其中,wact为动作网络的全部参数,wtarget为目标网络的全部参数,ηj为第j个样本的学习率,δj为第j个样本的误差,st为t时刻的温度状态,at为t时刻的动作设置;
样本抽样概率计算公式如下:
Figure BDA0003136045190000095
式中α为优先级参数,N为经验回放池的样本总数,pi为优先级参数,选用第i个样本的误差表示;
计算每个样本的学习率ηi计算公式如下:
Figure BDA0003136045190000096
式中η为学习率,N为经验回放池的样本总数,β为重要性采样超参数;
此外,目标网络参数与动作网络往往不同步更新,常见的形式为动作网络在经历若干次更新后,目标网络在同步动作网络的参数。
为了方便理解本发明的上述技术方案,以下就本发明在实际过程中的工作原理或者操作方式进行详细说明。
综上所述,借助于本发明的上述技术方案,采用强化学习的方式进行控制器的自学习,通过设定奖励和反馈,探索和学习的机制让控制器能够自适应环境变化,在学习优化风冷机组的空调设置值的同时,又保障数据中心环境处于安全运行区间。在控制器的训练决策中应用优先经验回放使得控制器能够合理评估过往经验的重要性,从而在未来的学习中对于估计效果差的经验数据能够加强训练;应用对决网络对环境状态增加了新的评估项,增加了控制器对于环境变化的敏感性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,该方法包括以下步骤:
S1、获取采样数据中心与监控数据中心的环境状态;
S2、周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度;
所述周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度还包括以下步骤:
S21、以20分钟为周期获取各个传感器的温度tmpi和室外环境温度tmpo,定义采样数据中心状态S=(tmp1,…,tmpn,tmpo);
S22、空调设置值的温度作为动作a;
S23、空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入;
S24:将相邻的两个时刻数据中心温度状态st,st+1与t时刻下发空调设置的动作at和对应的功率计算得出的奖励rt生成四元组(st,at,rt,st+1),作为一条样本数据存入经验回放池中;
S25:深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置;
所述空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入计算公式如下:
Figure FDA0003467992240000011
其中,pe为额定功率,pavg为过去一个工作周期的平均工作功率,r无预警状态时奖励值为额度功率与平均工作功率的差,发生预警状态后奖励值会带上奖励的折扣项λ,默认为0.8。
2.根据权利要求1所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述获取采样数据中心与监控数据中心的环境状态还包括以下步骤:
S11、收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减;
S12、实时监控传感器温度状态并判断数据中心是否处于高温预警。
3.根据权利要求2所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减还包括以下步骤:
S111、若设备增减则重置深度Q学习对决网络,则根据新的物理环境进行控制流程的训练。
4.根据权利要求2所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述实时监控传感器温度状态并判断数据中心是否处于高温预警还包括以下步骤:
S121、当数据中心处于高温预警时,将发送预警降温指令进行降温;
S122、降温降至预设最低温度后停止降温,转由深度Q学习对决网络进行温度控制。
5.根据权利要求4所述的一种基于深度Q学***均值大于预设的预警温度值。
6.根据权利要求1所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置还包括以下步骤:
S251、深度Q学习对决网络计算经验回放池中各个样本的误差;
S252、根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本;
S253、ε贪心策略进行动作选择空调设置值的温度;
其中,ε贪心策略进行动作选择空调设置值的温度计算公式如下:
Figure FDA0003467992240000021
Q(st,a;w)是最优动作价值函数由深度Q学习对决网络进行拟合,A为动作空间为全部空调温度设定组合,同时a∈A。
7.根据权利要求6所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述深度Q学习对决网络计算经验回放池中各个样本的误差还包括以下步骤:
S2511:计算动作网络,
Figure FDA0003467992240000031
S2512:计算目标网络,
Figure FDA0003467992240000032
S2513:计算动作网络在t时刻的回报估计,
Figure FDA0003467992240000033
S2514:计算动作网络根据当前温度状态做出的最优动作,aselect=argmaxaQact(st+1,a;wact);
S2515:计算动作网络在t+1时刻的回报估计,
Figure FDA0003467992240000034
S2516:计算t时刻的回报时序差分目标,
Figure FDA0003467992240000035
S2517:计算t时刻样本误差,
Figure FDA0003467992240000036
其中,动作网络Qact与目标网络Qtarget构成深度Q学习对决网络,且动作网络与目标网络有相同的网络结构,由最优状态函数V*(st)和最优优势函数D*(st)构成,
Figure FDA0003467992240000037
Figure FDA0003467992240000038
为动作网络中最优状态函数和最优优势函数的学习参数,
Figure FDA0003467992240000039
Figure FDA00034679922400000310
为动作网络中最优状态函数和最优优势函数的学习参数,aselect为动作网络根据当前温度状态做出的最优动作,σt为t时刻样本误差,γ为回报折扣,
Figure FDA00034679922400000311
为动作网络在t时刻的回报估计,
Figure FDA00034679922400000312
为动作网络在t+1时刻的回报估计,
Figure FDA00034679922400000313
为t时刻的回报时序差分目标,回报指的是对在运行周期内未来获得奖励之和。
8.根据权利要求1所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本还包括以下步骤:
S2521、计算样本抽样概率,并按此概率抽取M个样本;
S2522、计算每个样本的学习率ηi
S2523:对于抽取出的M个样本根据样本误差更新M次网络参数:
Figure FDA0003467992240000041
wtarget←wact
其中,wact为动作网络的全部参数,wtarget为目标网络的全部参数,ηj为第j个样本的学习率,δj为第j个样本的误差,st为t时刻的温度状态,at为t时刻的动作设置;
样本抽样概率计算公式如下:
Figure FDA0003467992240000042
式中α为优先级参数,N为经验回放池的样本总数,pi为优先级参数,选用第i个样本的误差表示;
计算每个样本的学习率ηi计算公式如下:
Figure FDA0003467992240000043
式中η为学习率,N为经验回放池的样本总数,β为重要性采样超参数。
CN202110718622.8A 2021-06-28 2021-06-28 一种基于深度q学习对决网络的风冷数据中心节能方法 Active CN113361132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110718622.8A CN113361132B (zh) 2021-06-28 2021-06-28 一种基于深度q学习对决网络的风冷数据中心节能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110718622.8A CN113361132B (zh) 2021-06-28 2021-06-28 一种基于深度q学习对决网络的风冷数据中心节能方法

Publications (2)

Publication Number Publication Date
CN113361132A CN113361132A (zh) 2021-09-07
CN113361132B true CN113361132B (zh) 2022-03-15

Family

ID=77536839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110718622.8A Active CN113361132B (zh) 2021-06-28 2021-06-28 一种基于深度q学习对决网络的风冷数据中心节能方法

Country Status (1)

Country Link
CN (1) CN113361132B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113852969B (zh) * 2021-09-14 2023-05-26 超讯通信股份有限公司 终端调度方法及装置
CN114017904B (zh) * 2021-11-04 2023-01-20 广东电网有限责任公司 一种建筑物hvac***的运行控制方法及装置
CN114330852B (zh) * 2021-12-21 2022-09-23 清华大学 一体化数据中心柜末端空调***节能优化方法及装置
CN115118477B (zh) * 2022-06-22 2024-05-24 四川数字经济产业发展研究院 一种基于深度强化学习的智能电网状态恢复方法及***
CN115003140B (zh) * 2022-08-04 2022-11-08 浩鲸云计算科技股份有限公司 一种数据中心机房水冷机组末端空调协同控制节能方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017044842A1 (en) * 2015-09-11 2017-03-16 Google Inc. Training reinforcement learning neural networks
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN112186811A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的agc机组动态优化方法
CN112362066A (zh) * 2020-11-20 2021-02-12 西北工业大学 一种基于改进的深度强化学习的路径规划方法
CN112734014A (zh) * 2021-01-12 2021-04-30 山东大学 基于置信上界思想的经验回放采样强化学习方法及***
CN112989699A (zh) * 2021-03-12 2021-06-18 重庆交通大学 基于深度强化学习的新能源汽车性能评价方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111756634B (zh) * 2020-07-15 2022-10-14 中国舰船研究设计中心 一种基于强化学习的舰载网络性能自优化方法
CN112668235B (zh) * 2020-12-07 2022-12-09 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017044842A1 (en) * 2015-09-11 2017-03-16 Google Inc. Training reinforcement learning neural networks
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN112186811A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的agc机组动态优化方法
CN112362066A (zh) * 2020-11-20 2021-02-12 西北工业大学 一种基于改进的深度强化学习的路径规划方法
CN112734014A (zh) * 2021-01-12 2021-04-30 山东大学 基于置信上界思想的经验回放采样强化学习方法及***
CN112989699A (zh) * 2021-03-12 2021-06-18 重庆交通大学 基于深度强化学习的新能源汽车性能评价方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于 Double-DQN 的中央空调***节能优化运行;闫军威 等;《华南理工大学学报(自然科学版)》;20190131;第47卷(第1期);第135-144页 *
深度强化学习综述;刘全 等;《计算机学报》;20180131;第41卷(第1期);第1-26页 *
闫军威 等.基于 Double-DQN 的中央空调***节能优化运行.《华南理工大学学报(自然科学版)》.2019,第47卷(第1期), *

Also Published As

Publication number Publication date
CN113361132A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113361132B (zh) 一种基于深度q学习对决网络的风冷数据中心节能方法
WO2022110558A1 (zh) 一种智能电能表故障预警方法及装置
CN107220514B (zh) 基于大数据的空调负荷预测方法及***
US20210356156A1 (en) A method for detecting operating power of air conditioner compressor, and air conditioner
CN111830350B (zh) 能耗计量方法、装置及电器
CN110781595B (zh) 能源使用效率pue的预测方法、装置、终端及介质
CN112070353A (zh) 一种精确检测数据中心能效的方法及***
CN106405280B (zh) 一种智能变电站在线监测参数趋势预警方法
CN104748305A (zh) 空调的开关状态的识别方法及***及估算方法及***
CN111507520A (zh) 一种换热机组负荷的动态预测方法及***
CN110852498A (zh) 一种基于gru神经网络预测数据中心能耗效率值pue的方法
CN117459073B (zh) 一种热泵***运行数据的智能管理方法
CN116225102A (zh) 一种移动式的储能通信温升自动监控***及装置
CN117080624B (zh) 一种电池加热控制方法及***
CN117613421A (zh) 一种基于神经网络的储能电池组管理***的均衡方法及介质
CN116951780A (zh) 一种智能中央热水器管理方法和***
CN107633271B (zh) 电力***稳态可用度非精确概率计算方法
CN110568257A (zh) 一种空调能耗持续监测方法及装置
CN115003140A (zh) 一种数据中心机房水冷机组末端空调协同控制节能方法
CN115437876A (zh) 一种数据中心的管理方法、装置、电子设备和存储介质
CN115372727A (zh) 一种家庭用电设备识别方法及智能电表
CN117346418B (zh) 冷水机组的控制方法、装置、存储介质及电子设备
CN110322063A (zh) 一种耗电功率仿真预测方法及存储介质
Çimen et al. Generalization Capacity Analysis of Non-Intrusive Load Monitoring using Deep Learning
CN118211943B (zh) 一种注塑产品生产管理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant