CN109063903A

CN109063903A - 一种基于深度强化学习的建筑能耗预测方法及***

Info

Publication number: CN109063903A
Application number: CN201810796307.5A
Authority: CN
Inventors: 汪明; 张仁昊; 张燕鲁; 董慧芳; 王雁
Original assignee: Shandong Jianzhu University
Current assignee: Beijing Hysine Yunda Technology Co ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2018-12-21
Anticipated expiration: 2038-07-19
Also published as: CN109063903B

Abstract

本发明公开了一种基于深度强化学***、建筑所在地天气状况数据。将采集到的数据样本分组，根据所得到的训练样本输入到深度强化学习网络模型中进行训练并保存使状态动作值函数最优的网络模型。最后将预测样本输入到深度强化学习网络模型，进行建筑能耗预测。本发明采用深度学习中的卷积神经网络与强化学习中的Q学习相结合的方法实现了建筑的能耗预测，相对于传统的预测方法，用卷积神经网络结合Q学习算法的深度强化学习网络可以减少数据量，降低数据的存储要求，提高数据的使用效率，加快数据处理的效率。

Description

一种基于深度强化学习的建筑能耗预测方法及***

技术领域

本发明涉及建筑能耗预测技术领域，尤其涉及一种基于深度强化学习的建筑能耗预测方法及***。

背景技术

随着人类对能源需求的不断增长，能源问题日益突出。在建筑这一行业，减少建筑的综合耗能，提高建筑能源的使用效率已经成为了当今社会发展的研究热点。对建筑***能耗进行宏观的评估与分析，进而建立可预测建筑能耗的模型被视为实现建筑节能的重要手段。

强化学习是一种从环境映射到动作的学习，目的是使agent在与环境的交互过程中获得最大的累计奖赏，但是在大状态空间下用迭代贝尔曼方程求解状态动作值函数是不可取的。在强化学习算法中可以用深度学习神经网络去近似表示值函数或策略。

深度学习神经网络具有高效率性，用训练好的深度学习神经网络去预测数据具有很高的准确度与速度；深度学习具有可塑性，深度学习模型可以根据具体情况持续改进，这使得它具有很强的灵活性和成长性；深度学习具有普适性，它可以根据问题调整参数修改模型，理论上能够适用于不同种类的问题。特别是深度学习中的卷积神经网络(CNN)有着很优秀的处理大量数据的能力，它具有很强的容错能力与并行处理数据的能力。卷积神经网络(CNN)可以提取出大量数据样本的本质特征，而且它可以利用卷积层与池化层减少数据量，降低数据的存储要求。

目前未见将深度学习神经网络应用于建筑能耗预测方面的相关文献。

综上所述，本发明利用强化学习中的Q学习算法与深度学习中的卷积神经网络相结合的方式提出了一种基于深度强化学习的建筑能耗预测方法。

发明内容

为解决现有技术存在的不足，本发明提供一种基于深度强化学习的建筑能耗预测方法及***，将强化学习中的Q学习算法与深度学习中的卷积神经网络相结合，通过分析建筑能耗的影响因素，将建筑能耗的影响因素与建筑能耗历史数据同时作为输入数据，提高了建筑能耗预测的准确度。利用卷积神经网络结合Q学习算法实现的深度强化学习减少了数据量，降低了数据的存储要求，提高了数据的使用效率，加快了数据处理的效率。

为了实现上述目的，本发明采用如下技术方案：

在一个或者多个实施例公开的一种基于深度强化学习的建筑能耗预测方法，包括：

采集建筑能耗历史数据，同时采集建筑面积、建筑常住人口数量、建筑常住人口消费水平、建筑所在地天气状况数据；

采集得到的数据划分为训练样本集和预测样本集，对样本集数据进行预处理；

将训练样本集数据输入到深度强化学习模型中进行训练，直到得到最优的状态动作值函数后停止，并保存训练后的深度强化学习模型；

深度强化学习模型采用训练样本的输入向量为x_i，每一个输入向量中包含n个元素，输入向量经过卷积神经网络与全连接神经网络运算后，输出状态动作值，通过状态动作值获取迭代后的损失函数，进而获得权值更新的梯度，使用梯度下降法更新权值；

将预测样本输入到训练后的深度强化学习网络模型，进行建筑能耗预测。

进一步地，将进行过预处理的待预测日的前一天的能耗数据、建筑面积、建筑常住人口数量、建筑常住人口消费水平、建筑所在地天气状况数据按类别分组作为输入向量x_i，将进行过预处理的待预测日的能耗数据添加数值标签后作为a_i；利用最优状态动作值函数计算出输入样本x_i的期望最大回报值，从而得到最优策略。

进一步地，所述最优状态动作值函数具体为：

其中，R_i为输入样本x_i的未来回报，I是输入样本总量，γ为折扣系数，用来权衡未来奖赏对累计奖赏的影响；π是输入样本x_i与数据标签a_i的映射函数；ω_i为权值，x为输入样本；a为添加数值标签后的待预测日的能耗数据；ω为权值；i'为R_i中的一个参数，代表R_i中的连加运算对i至I起作用；R_i为输入样本x_i的未来回报。

进一步地，将训练样本集数据输入到深度强化学习模型中进行训练，具体为：

输入数据进入卷积计算层进行卷积计算；

池化层采用Max pooling方法对数据与参数进行压缩；

输入数据经过卷积神经网络与全连接神经网络后输出状态动作值；

利用输出的状态动作值计算输入数据的目标输出；

利用当前输出的状态动作值与目标输出得到均方误差函数；

用均方误差函数对权值求导，得到权值更新的梯度；

用梯度下降法更新权值。

进一步地，利用输出的状态动作值计算输入数据的目标输出，具体为：

其中，x_i为输入样本数据，R_i为输入数据x_i的未来回报，γ为折扣系数，ω^-随着网络训练的过程不断更新，E为数学期望；Q_i'为输出的状态动作值；x为输入样本；a为添加数值标签后的待预测日的能耗数据；x_i'与a_i'为区别于x_i与a_i的值。

进一步地，利用当前输出的状态动作值与目标输出得到均方误差函数，具体为：

其中，为数学期望。

进一步地，用均方误差函数对权值求导，得到权值更新的梯度，具体为：

其中，代表对ω_i求导。

进一步地，用梯度下降法更新权值，具体为：

其中，ω_i为权值；ω_i+1为更新后的权值；代表均方误差函数对权值求导；η为学习速率；gⁱ是根据权值更新的梯度选择的函数。

在一个或者多个实施例公开的一种基于深度强化学习的建筑能耗预测***，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

在一个或者多个实施例公开的一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

与现有技术相比，本发明的有益效果是：

本方案基于深度强化学***、建筑所在地天气状况数据作为输入数据；用卷积神经网络结合Q学习算法并集成经验回放技术的深度强化学习网络可以减少数据量，降低数据的存储要求，提高数据的使用效率，加快数据处理的效率，在同等条件下可以处理更多的输入数据。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为基于深度强化学习的建筑能耗预测方法流程图。

图2为深度强化学习网络模型结构图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

为了解决背景技术中指出的问题，本申请公开了一种基于深度强化学习的建筑能耗预测方法，如图1所示，包括以下步骤：

(1)分析建筑能耗的影响因素，用建筑物联网云生态***平台采集建筑能耗历史数据，同时采集建筑面积、建筑常住人口数量、建筑常住人口消费水平、建筑所在地天气状况数据。然后将数据划分为训练样本集和预测样本集，并将样本进行预处理。

(2)根据步骤(1)中所得到的训练样本输入到深度强化学习网络模型中，训练直到可以得到最优的状态动作值函数后停止，并保存训练后的模型。

(3)将预测样本输入到利用步骤(2)所得到的深度强化学习网络模型，进行建筑能耗预测。

(4)相关工作人员可以通过建筑物联网云生态***平台查询步骤(3)所预测的建筑能耗数据，并根据预测数据调整建筑负荷，降低建筑能耗。

在对深度强化学***、建筑所在地天气状况数据作为输入向量，为待预测日能耗数据添加数值标签，训练深度强化学习网络。

深度强化学习网络的目标是在某一个输入向量为x_i的条件下，通过更新权值ω_i使状态动作值函数最终收敛，即利用最优状态动作值函数计算出输入样本x_i的期望最大回报值，从而得到最优策略π^*＝argmaxQ^*(x_i,a_i；ω_i)。最优状态动作值函数如下：

其中R_i为输入样本x_i的未来回报，π是输入样本x_i与数据标签a_i的映射函数。

其中I是输入样本总量，γ为折扣系数，用来权衡未来奖赏对累计奖赏的影响。

如图2所示，深度强化学习网络采用训练样本的输入向量为x_i，每一个输入向量中包含n个元素，输入向量经过卷积神经网络与全连接神经网络运算后，输出状态动作值Q^π(x,a；ω)，通过状态动作值Q^π(x,a；ω)获取迭代后的损失函数L_i(ω_i)，进而获得权值ω更新的梯度，然后使用梯度下降法更新权值。具体过程如下：

首先要获得训练样本。在获得训练样本时要对数据进行预处理，主要是进行归一化处理与白化处理，对特征轴上的数据幅度归一化，减少由数据取值范围差异带来的干扰。然后将进行过预处理的待预测日的前一天的能耗数据、建筑面积、建筑常住人口数量、建筑常住人口消费水平、建筑所在地天气状况数据按类别分为I组作为输入向量x_i，将进行过预处理的待预测日的能耗数据添加数值标签后作为a_i。将数据输入深度强化学习网络进行训练，训练的目标就是更新权值ω使状态动作值函数最终收敛。

获得训练样本后进行深度强化学习网络训练。如图2所示，卷积神经网络分为数据输入层、卷积计算层、激励层、池化层、全连接层，其中卷积神经网络的特点是卷积计算层、激励层与池化层交替出现。从计算的角度来看，一般的神经网络把输入层与隐含层进行全连接设计，这样在训练时会带来大量的计算，耗费大量的时间。卷积神经网络的每个隐含单元仅仅只能连接输入单元的一部分，从而使计算量大幅降低。基于深度强化学习的建筑能耗预测方法的详细训练步骤如下：

1)数据进入卷积计算层后进行卷积计算。卷积计算层的两个特征是局部关联与窗口滑动。局部关联将一般神经网络中的神经元看作是filter，filter与局部数据进行矩阵内积计算即是窗口滑动。在进行卷积计算时，卷积计算层中每个filter连接数据窗的权重是固定的，每个filter只关注一个特性。卷积计算层的公式为：

其中x_ij为数据输入层的局部数据，ω_(n-i)(n-j)为filter中的数据，b^L为偏置量。

2)为了使计算得到简化，本发明采用的激励函数为Relu。因为Relu会使一部分filter的输出为0，这样会使网络稀疏，减少参数的相互依存关系，防止发生过拟合。

3)池化层用于对数据与参数进行压缩。为了保证在特征尺度不变的情况下进行降维，本发明的池化层采用Max pooling方法。Max pooling对每个深度切片独立，规模为2*2，取值为4点的最大值。至此，输入向量x_i经过卷积神经网络与全连接神经网络后输出状态动作值Q^π(x_i,a_i；ω_i)。

4)利用输出的状态动作值Q^π(x_i,a_i；ω_i)计算输入样本x_i的目标输出y_i，公式如下：

其中R_i为输入样本x_i的未来回报，γ为折扣系数，ω^-随着网络训练的过程不断更新。

5)利用当前输出的状态动作值Q^π(x_i,a_i；ω_i)与目标输出y_i得到均方误差函数L_i(ω_i)，公式如下：

E为中括号中式子的数学期望，下标里的参数代表中括号里的式子存在这些参数。

6)用均方误差函数L_i(ω_i)对ω_i求导，得到权值更新的梯度。公式如下：

7)用梯度下降法更新权值ω_i，梯度下降法的公式如下：

其中gⁱ与有关。

以上步骤即可完成深度强化学***台查询预测的建筑能耗数据，并根据预测数据调整建筑负荷，降低建筑能耗。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于深度强化学习的建筑能耗预测方法，其特征在于，包括：

2.如权利要求1所述的一种基于深度强化学***、建筑所在地天气状况数据按类别分组作为输入向量x_i，将进行过预处理的待预测日的能耗数据添加数值标签后作为a_i；利用最优状态动作值函数计算出输入样本x_i的期望最大回报值，从而得到最优策略。

3.如权利要求2所述的一种基于深度强化学习的建筑能耗预测方法，其特征在于，所述最优状态动作值函数具体为：

Q^*(x_i,a_i；|ω_i)＝max_πE[R_i|x_i＝x,a_i＝a,ω_i＝ω,π]

其中，R_i为输入样本x_i的未来回报，I是输入样本总量，γ为折扣系数，用来权衡未来奖赏对累计奖赏的影响；π是输入样本x_i与数据标签a_i的映射函数；ω_i为权值，R_i为输入样本x_i的未来回报，I是输入样本总量，γ为折扣系数，用来权衡未来奖赏对累计奖赏的影响；π是输入样本x_i与数据标签a_i的映射函数；ω_i为权值，x为输入样本；a为添加数值标签后的待预测日的能耗数据；ω为权值；i'为R_i中的一个参数，代表R_i中的连加运算对i至I起作用；R_i为输入样本x_i的未来回报。

4.如权利要求1所述的一种基于深度强化学习的建筑能耗预测方法，其特征在于，将训练样本集数据输入到深度强化学习模型中进行训练，具体为：

输入数据进入卷积计算层进行卷积计算；

池化层采用Max pooling方法对数据与参数进行压缩；

利用输出的状态动作值计算输入数据的目标输出；

利用当前输出的状态动作值与目标输出得到均方误差函数；

用均方误差函数对权值求导，得到权值更新的梯度；

用梯度下降法更新权值。

5.如权利要求4所述的一种基于深度强化学习的建筑能耗预测方法，其特征在于，利用输出的状态动作值计算输入数据的目标输出，具体为：

6.如权利要求4所述的一种基于深度强化学习的建筑能耗预测方法，其特征在于，利用当前输出的状态动作值与目标输出得到均方误差函数，具体为：

其中，为数学期望。

7.如权利要求4所述的一种基于深度强化学习的建筑能耗预测方法，其特征在于，用均方误差函数对权值求导，得到权值更新的梯度，具体为：

其中，代表对ω_i求导。

8.如权利要求4所述的一种基于深度强化学习的建筑能耗预测方法，其特征在于，用梯度下降法更新权值，具体为：

9.一种基于深度强化学习的建筑能耗预测***，其特征在于，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行以下步骤：