CN113112077A

CN113112077A - 基于多步预测深度强化学习算法的hvac控制***

Info

Publication number: CN113112077A
Application number: CN202110403130.XA
Authority: CN
Inventors: 任密蜂; 刘祥飞; 杨之乐; 张建华
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-07-13
Anticipated expiration: 2041-04-14
Also published as: CN113112077B

Abstract

本发明涉及温度、湿度、空气清净度以及空气循环(Heating,Ventilation,Air‑conditioningand Cooling,HVAC)的控制***的智能控制方法，具体是一种基于广义互熵(generalizedcorrentropy,GC)损失函数的长短期记忆神经网络(Long Short‑term Memory,LSTM)和深度强化学习(Deep Reinforcement Learning,DRL)算法的HVAC控制***。该方法包括的步骤如下：采集室外环境温度、室内环境温度和电网的电价信息，对采集到的数据进行预处理，使用室外环境温度历史数据预测未来多步的室外环境温度，基于未来室外温度值、室内环境温度和电网电价信息利用DRL的深度确定性策略(Deep Deterministic Policy Gradient,DDPG)算法控制HVAC***的功率输出。本发明能实时智能控制HVAC***以减少用户成本并且保证用户的满意度，具有较高的实际工程应用价值。

Description

基于多步预测深度强化学习算法的HVAC控制***

技术领域

本发明涉及一种智能优化控制HVAC***的方法，具体是一种基于GC-LSTM神经网络和DRL算法对HVAC***进行智能控制的研究方法。

背景技术

家庭用户作为电网的终端用户，用户的用电习惯和分布式可再生能源的加入将直接导致电网波峰和波谷的出现；给电网带来了严重的冲击并造成严重性威胁。随着近几年智能电网的发展与“需求响应”策略的实施，使居民用户由被动变为积极主动的加入电网；在智能电网环境下，电网的电价信息和发电量信息将和用户的需求信息进行双向交流。在家庭用户中，空调***的耗电量约占整个用户用电量的35％，因此在满足用户一定舒适度的前提下，根据电网电价和环境的温度信息智能控制HVAC***的输出功率，对于减少电量的使用、减少用户成本和降低温室效应具有重要意义。

目前，HVAC***主要采用传统的控制方式闭环控制和模型预测控制算法，闭环控制***内部有一个温度传感器，当检测到室内温度达到设定值时，就会使HVAC***停止工作，基于闭环控制方式的HVAC***操作简单，易于实现，但是在智能电网和需求相应策略的环境下，难易根据动态电价去进行功率变换，以达到节能减排的标准；模型预测控制算法是通过建立室内温度变化的准确模型进而对HVAC***进行控制，然而，室内环境温度变化的复杂性将影响到建模的准确性。随着智能算法的发展，研究者也提出使用粒子群优化算法和遗传算法优化对HVAC***进行优化控制，该类算法在实时电价的机制下优化控制HVAC***的功率输出，以减小用户的成本，该算法具有调参难的特点，并且没有考虑HVAC***的功率输出对室内温度改变具有延时性问题，没有真正的保证用户的舒适度。因此首先需要对未来室外环境温度值进行预测。

发明内容

本发明针对室外环境温度和智能电网电价的非线性、随机性和HVAC***输出的功率对室内环境温度变化的延时性，提出一种基于多步预测深度强化学习算法的HVAC控制***进行控制的方法。

本发明采用如下技术方案实现，基于多步预测深度强化学习算法的HVAC控制***，其模型结构如图1所示，包括室外环境温度的多步预测和室内温度的实时控制两个阶段，其中室外环境温度的预测阶段包括以下步骤：

步骤一：根据室外环境的实际数据点，选取连续的i个时刻的室外环境温度X＝[T₁,…,T_i]作为多步温度预测模型的输入，以h＝[h_i+1,…,h_i+n]作为模型的真实输出，n为多步预测的步数；

步骤二：对采集到的数据进行预处理，对异常的数据进行修正，并将时间序列的数据转换为监督序列的数据；

步骤三：将输入量输入到基于广义互熵损失函数的长短期记忆神经网络中，利用长短期记忆神经网络的遗忘门、输入门和输出门对输入量进行遗忘、记忆和学习；基于广义互熵损失函数的长短期记忆神经网络的非线性回归模型描述如下：

1)将输入量X＝[T₁,…,T_i]输入到长短期记忆神经网络的第一个block中，遗忘门通过sigmoid(σ)函数决定当前时刻的输入信息X和上一时刻的输出信息h_t-1有多少能被当前block保留，即遗忘门的输出为f_t＝σ(w_f[h_t-1,X_t]+b_f)，其中w_f和b_f为神经网络的权重和偏置值；

2)输入门决定需要更新的信息，首先通过σ函数决定更新后的信息i_t＝σ(w_i[h_t-1,X_t]+b_f)，其次通过tanh函数产生新的候选值

最后当前block的候选值c_t将由遗忘门的输出、输入门的输出、新的候选值和上个block的候选值共同决定，即：

3)输出门得到模型的输出，首先通过σ函数得到一个初始的输出o_t＝σ(w_o[h_t-1,X_t]+b_o)，其次将2)中得到候选值信息c_t通过激活函数tanh缩放到-1和1之间，最终得到模型的输出h_t＝o_t*tanh(c_t)；

4)基于GC损失函数计算真实值Y_t与预测值h_t之间的误差，如下面的式子：

N是样本的数量，Γ是伽马函数，α＞0是形状参数，β＞0是带宽参数，进行多次迭代训练，通过最小批次梯度下降法更新神经网络的权重w和偏置值b，使真实值与预测值之间的误差最小；

步骤四：最终基于广义互熵损失函数的长短期记忆神经网络，得到前i个时刻的室外环境温度到未来n个时刻的室外环境温度的非线性映射模型；

室内温度的实时控制包括以下步骤：

步骤一：采集到连续i个时刻的室外环境温度X＝[T₁,…,T_i]，基于基于广义互熵损失函数的长短期记忆神经网络，获得未来连续n个时刻的室外环境温度h＝[h_i+1,…,h_i+n]；获取当前时刻的电网电价ρ_t和室内温度T_i ⁱⁿ等相关信息，将h、ρ_t和T_i ⁱⁿ作为环境信息，即：S_t＝{h，ρ_t，T_i ⁱⁿ}；

步骤二：将当前的状态信息S_t输入给深度强化学习DDPG算法的Actor当前神经网路，基于当前的策略和高斯噪声

去选择一个动作

a_t∈[P_min,P_max]，高斯噪声

是为了增加动作的探索率，会随着迭代循环次数的增加而减小，θ^μ是Actor当前神经网路参数，P_min和P_max分别为HVAC***的最小和最大输出功率；

步骤三：执行动作a_t控制空调的输出功率，HVAC***的功率的输出会改变室内的环境温度，如：

然后获得及时的奖励r_t，并且达到下一个状态S_t+1；

步骤四：将(S_t,a_t,r_t,S_t+1)储存到一个经验池buff-C中；

步骤五：如果经验池buff-C数据量大于C_M，则从经验池buff-N中随机采取M个样本(S_i,a_i,r_i,S_i+1)，i＝1,2,…,M，进行下面步骤；否则直接进行步骤十一；

步骤七：基于DDPG算法的Critic当前神经网络Q对采取的动作a_t进行评价，计算出评价值，其中θ^Q为Critic当前神经网络的参数；

步骤八：使用均方根误差计算样本的目标期望值和评价值之间的误差值

并使用最小批次梯度下降法更新Critic当前神经网络的参数θ^Q；

步骤九：使用样本策略梯度更新Actor当前神经网络参数θ^μ，如下式子：

步骤十：将Ctric和Actor当前神经网络的参数分别软复制给Ctric和Actor的目标神经网络参数，即：

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'

步骤十一：将下一时刻的状态当作当前时刻的状态即：S_t←S_t+1，迭代循环步骤一到步骤十一，最终得到一个收敛的Actor当前神经网络，输出神经网络的参数θ^μ，得到最终的HVAC控制***模型，然后进行步骤十二；

步骤十二：将当前的状态信息S_t输入给深度强化学习DDPG算法的Actor当前神经网路，基于最优策略选择一个a_t，执行动作a_t，控制HVAC***的功率输出。

附图说明

图1为建立HVAC智能控制***示意图。

图2为调试阶段室外环境温度训练集和测试集损失函数曲线图，1代表室外环境温度训练集的损失函数曲线，2代表室外环境温度测试集的损失函数曲线。

图3为调试阶段室外环境温度测试集的真实值与预测值曲线图，3代表室外环境温度测试集的预测值，4代表室外环境温度测试集的真实值。

具体实施方式

本发明以采集到的真实环境温度数据为实验对象，对基于多步预测深度强化学习算法的HVAC控制***进行训练和测试

基于多步预测深度强化学习算法的HVAC控制***，包括室外环境温度的多步预测和室内温度的实时控制两个阶段，其中室外环境温度的预测阶段包括以下步骤：

步骤一：根据室外环境的实际数据点，选取连续i＝6个时刻的室外环境温度X＝[T₁,…,T_i]作为模型的输入，h＝[h_i+1,…,h_i+n]作为模型的真实输出，采样间隔的时间为每30分钟一次。

步骤二：对采集到的数据进行预处理，对异常的数据进行修正，并将时间序列的数据转换为监督序列的数据，将数据划分为2500组训练集和1000组测试集。

步骤三：设置长短期记忆神经网络的cell数量为100，训练次数为500，学习率为0.001，最小批次梯度下降法的批次为32；

步骤四：将训练集的输入量输入到基于广义互熵损失函数的长短期记忆神经网络，利用长短期记忆神经网络的遗忘门、输入门和输出门对输入量进行遗忘、记忆和学习；基于广义互熵损失函数的长短期记忆神经网络的非线性回归过程描述如下：

步骤五：最终基于广义互熵损失函数的长短期记忆神经网络，得到前i＝6个时刻的室外环境温度到未来n＝3个时刻的室外环境温度的非线性映射模型，使用测试集测试模型的精确度；

步骤六：使用测试集测试模型的精确度，采用真实值与预测值之间的均方根误差、误差的概率密度分布和R²作为模型的评价指标，其定义分别为：

式中y_i，h_i为每一步的对应的真实值和预测值，

为每一步真实样本的均值，m为测试集样本的个数，k(·)为高斯核函数，

误差的概率密度函数将以滑动窗口的方法实现。

室内温度的实时控制包括以下步骤：

步骤一：采集到连续i＝6个时刻的室外环境温度X＝[T₁,…,T_i]，基于GC-LSTM神经网络模型，获得未来连续n＝3个时刻的室外环境温度h＝[h_i+1,…,h_i+n]；获取当前时刻的电网电价ρ_t和室内温度T_i ⁱⁿ等相关信息，划分数据为训练集2500和测试集1000。将h、ρ_t和T_i ⁱⁿ作为环境信息，即：S_t＝{h，ρ_t，T_i ⁱⁿ}；

步骤二：设置深度强化学习的DDPG算法为四个神经网络，Actor的当前神经网络和Actor的目标神经网络具有相同结构的三层的神经网络，其中隐藏层激活函数为tanh，Critic的当前神经网络和Critic的目标神经网络具有相同的神经网络结构，其中隐藏层激活函数为relu；

步骤三：将训练集中的当前的状态信息S_t输入给Actor的当前神经网路，基于当前的策略和高斯噪声

去选择一个动作

a_t∈[P_min,P_max]，P_min和P_max分别为HVAC***的最小和最大输出功率；

步骤四：执行动作a_t控制空调的输出功率，然后获得及时的奖励r_t，达到下一个状态S_t+1，奖励r_t的设定将与用户的舒适度有关，如下式子：

T_min和T_max分别为舒适温度的最小值和最大值，λ₁和λ₂为平衡奖励的权重系数；

步骤五：将(S_t,a_t,r_t,S_t+1)储存到一个经验池buff-C中；

步骤六：则从经验池buff-N中随机采取M个样本(S_i,a_i,r_i,S_i+1)，i＝1,2,…,M；

步骤七：基于下一时刻的状态和Actor的目标网络获得的动作计算目标的期望y_i＝r_i+γQ'(S_i+1,μ'(S_i+1|θ^μ')|θ^Q')；

步骤八：通过DDPG算法的Critic当前神经网络Q对采取的动作a_t进行评价，计算出评价值Q(S_t,a_i|θ^Q)；

步骤九：使用均方根误差计算样本的目标期望值和评价值之间的误差值

并使用最小批次梯度下降法更新Critic当前神经网络的参数；

步骤十：使用样本策略梯度更新Actor当前神经网络参数θ^μ；

步骤十一：将Ctric和Actor当前神经网络的参数分别软复制给Ctric和Actor的目标神经网络参数；

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'

步骤十二：通过训练集的训练得到一个收敛的Actor当前神经网络，输出神经网络的参数θ^μ，使用每一次迭代训练获得的奖励值和每一步的误差值L作为网络收敛的评判指标；

步骤十三：将测试集的当前状态信息S_t输入给DDPG算法的Actor当前神经网路，基于最优策略选择一个a_t，执行动作a_t，控制HVAC***的功率输出，用HVAC***的耗电成本和用户的舒适度作为该***的性能指标。

本发明的优点：利用长短期记忆神经网络预测未来室外环境的温度，提高用户舒适度，使用广义互熵损失函数作为长短期记忆神经网络的损失函数，来提高预测的准确度；然后基于DDPG算法，根据电网的电价变化、室内温度的变化和未来室外温度的变化，智能调节HVAC***的功率输出，在保证用户舒适的度情况下节省用户的耗电成本，因此该方法在工程实际中具有较大的应用价值，对节能减排具有重要意义。

以上所述仅为本发明的具体实施例，但本发明所保护范围的结构特征并不限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围内。

Claims

1.基于多步预测深度强化学习算法的HVAC控制***，其特征在于：包括室外环境温度的多步预测和室内温度的实时控制两个阶段，其中室外环境温度的预测阶段包括以下步骤：

1)将输入量X＝[T₁,…,T_t]输入到长短期记忆神经网络的第一个block中，遗忘门通过sigmoid(σ)函数决定当前时刻的输入信息X和上一时刻的输出信息h_t-1有多少能被当前block保留，即遗忘门的输出为f_t＝σ(w_f[h_t-1,X_t]+b_f)，其中w_f和b_f为神经网络的权重和偏置值；

4)基于广义互熵损失函数计算真实值Y_t与预测值h_t之间的误差，如下面的式子：

室内温度的实时控制包括以下步骤：

步骤一：采集到连续i个时刻的室外环境温度X＝[T₁,…,T_i]，基于广义互熵损失函数的长短期记忆神经网络，获得未来连续n个时刻的室外环境温度h＝[h_i+1,…,h_i+n]；获取当前时刻的电网电价ρ_t和室内温度T_t ⁱⁿ等相关信息，将h、ρ_t和T_t ⁱⁿ作为环境信息，即：S_t＝{h,ρ_t,T_t ⁱⁿ}；

去选择一个动作

a_t∈[P_min,P_max]，高斯噪声

然后获得及时的奖励r_t，并且达到下一个状态S_t+1；

步骤四：将(S_t,a_t,r_t,S_t+1)储存到一个经验池buff-C中；

步骤七：基于DDPG算法的Critic当前神经网络Q对采取的动作a_t进行评价，计算出评价值Q(S_t,a_t|θ^Q)，其中θ^Q为Critic当前神经网络的参数；

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'