CN113112077A - 基于多步预测深度强化学习算法的hvac控制*** - Google Patents
基于多步预测深度强化学习算法的hvac控制*** Download PDFInfo
- Publication number
- CN113112077A CN113112077A CN202110403130.XA CN202110403130A CN113112077A CN 113112077 A CN113112077 A CN 113112077A CN 202110403130 A CN202110403130 A CN 202110403130A CN 113112077 A CN113112077 A CN 113112077A
- Authority
- CN
- China
- Prior art keywords
- neural network
- output
- value
- current
- environment temperature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 70
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000005611 electricity Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000004378 air conditioning Methods 0.000 abstract description 2
- 230000003749 cleanliness Effects 0.000 abstract 1
- 239000003507 refrigerant Substances 0.000 abstract 1
- 230000006403 short-term memory Effects 0.000 abstract 1
- 238000009423 ventilation Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 14
- 238000011161 development Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Power Engineering (AREA)
- Air Conditioning Control Device (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及温度、湿度、空气清净度以及空气循环(Heating,Ventilation,Air‑conditioningand Cooling,HVAC)的控制***的智能控制方法,具体是一种基于广义互熵(generalizedcorrentropy,GC)损失函数的长短期记忆神经网络(Long Short‑term Memory,LSTM)和深度强化学习(Deep Reinforcement Learning,DRL)算法的HVAC控制***。该方法包括的步骤如下:采集室外环境温度、室内环境温度和电网的电价信息,对采集到的数据进行预处理,使用室外环境温度历史数据预测未来多步的室外环境温度,基于未来室外温度值、室内环境温度和电网电价信息利用DRL的深度确定性策略(Deep Deterministic Policy Gradient,DDPG)算法控制HVAC***的功率输出。本发明能实时智能控制HVAC***以减少用户成本并且保证用户的满意度,具有较高的实际工程应用价值。
Description
技术领域
本发明涉及一种智能优化控制HVAC***的方法,具体是一种基于GC-LSTM神经网络和DRL算法对HVAC***进行智能控制的研究方法。
背景技术
家庭用户作为电网的终端用户,用户的用电习惯和分布式可再生能源的加入将直接导致电网波峰和波谷的出现;给电网带来了严重的冲击并造成严重性威胁。随着近几年智能电网的发展与“需求响应”策略的实施,使居民用户由被动变为积极主动的加入电网;在智能电网环境下,电网的电价信息和发电量信息将和用户的需求信息进行双向交流。在家庭用户中,空调***的耗电量约占整个用户用电量的35%,因此在满足用户一定舒适度的前提下,根据电网电价和环境的温度信息智能控制HVAC***的输出功率,对于减少电量的使用、减少用户成本和降低温室效应具有重要意义。
目前,HVAC***主要采用传统的控制方式闭环控制和模型预测控制算法,闭环控制***内部有一个温度传感器,当检测到室内温度达到设定值时,就会使HVAC***停止工作,基于闭环控制方式的HVAC***操作简单,易于实现,但是在智能电网和需求相应策略的环境下,难易根据动态电价去进行功率变换,以达到节能减排的标准;模型预测控制算法是通过建立室内温度变化的准确模型进而对HVAC***进行控制,然而,室内环境温度变化的复杂性将影响到建模的准确性。随着智能算法的发展,研究者也提出使用粒子群优化算法和遗传算法优化对HVAC***进行优化控制,该类算法在实时电价的机制下优化控制HVAC***的功率输出,以减小用户的成本,该算法具有调参难的特点,并且没有考虑HVAC***的功率输出对室内温度改变具有延时性问题,没有真正的保证用户的舒适度。因此首先需要对未来室外环境温度值进行预测。
发明内容
本发明针对室外环境温度和智能电网电价的非线性、随机性和HVAC***输出的功率对室内环境温度变化的延时性,提出一种基于多步预测深度强化学习算法的HVAC控制***进行控制的方法。
本发明采用如下技术方案实现,基于多步预测深度强化学习算法的HVAC控制***,其模型结构如图1所示,包括室外环境温度的多步预测和室内温度的实时控制两个阶段,其中室外环境温度的预测阶段包括以下步骤:
步骤一:根据室外环境的实际数据点,选取连续的i个时刻的室外环境温度X=[T1,…,Ti]作为多步温度预测模型的输入,以h=[hi+1,…,hi+n]作为模型的真实输出,n为多步预测的步数;
步骤二:对采集到的数据进行预处理,对异常的数据进行修正,并将时间序列的数据转换为监督序列的数据;
步骤三:将输入量输入到基于广义互熵损失函数的长短期记忆神经网络中,利用长短期记忆神经网络的遗忘门、输入门和输出门对输入量进行遗忘、记忆和学习;基于广义互熵损失函数的长短期记忆神经网络的非线性回归模型描述如下:
1)将输入量X=[T1,…,Ti]输入到长短期记忆神经网络的第一个block中,遗忘门通过sigmoid(σ)函数决定当前时刻的输入信息X和上一时刻的输出信息ht-1有多少能被当前block保留,即遗忘门的输出为ft=σ(wf[ht-1,Xt]+bf),其中wf和bf为神经网络的权重和偏置值;
2)输入门决定需要更新的信息,首先通过σ函数决定更新后的信息it=σ(wi[ht-1,Xt]+bf),其次通过tanh函数产生新的候选值最后当前block的候选值ct将由遗忘门的输出、输入门的输出、新的候选值和上个block的候选值共同决定,即:
3)输出门得到模型的输出,首先通过σ函数得到一个初始的输出ot=σ(wo[ht-1,Xt]+bo),其次将2)中得到候选值信息ct通过激活函数tanh缩放到-1和1之间,最终得到模型的输出ht=ot*tanh(ct);
4)基于GC损失函数计算真实值Yt与预测值ht之间的误差,如下面的式子:
N是样本的数量,Γ是伽马函数,α>0是形状参数,β>0是带宽参数,进行多次迭代训练,通过最小批次梯度下降法更新神经网络的权重w和偏置值b,使真实值与预测值之间的误差最小;
步骤四:最终基于广义互熵损失函数的长短期记忆神经网络,得到前i个时刻的室外环境温度到未来n个时刻的室外环境温度的非线性映射模型;
室内温度的实时控制包括以下步骤:
步骤一:采集到连续i个时刻的室外环境温度X=[T1,…,Ti],基于基于广义互熵损失函数的长短期记忆神经网络,获得未来连续n个时刻的室外环境温度h=[hi+1,…,hi+n];获取当前时刻的电网电价ρt和室内温度Ti in等相关信息,将h、ρt和Ti in作为环境信息,即:St={h,ρt,Ti in};
步骤二:将当前的状态信息St输入给深度强化学习DDPG算法的Actor当前神经网路,基于当前的策略和高斯噪声去选择一个动作at∈[Pmin,Pmax],高斯噪声是为了增加动作的探索率,会随着迭代循环次数的增加而减小,θμ是Actor当前神经网路参数,Pmin和Pmax分别为HVAC***的最小和最大输出功率;
步骤四:将(St,at,rt,St+1)储存到一个经验池buff-C中;
步骤五:如果经验池buff-C数据量大于CM,则从经验池buff-N中随机采取M个样本(Si,ai,ri,Si+1),i=1,2,…,M,进行下面步骤;否则直接进行步骤十一;
步骤六:计算目标的期望值yi=ri+γQ'(Si+1,μ'(Si+1|θμ')|θQ'),其中μ'(Si+1|θμ')是从Actor的目标神经网络中获得最优的动作,Q'(Si+1,μ'(Si+1|θμ')|θQ')是Ctric的目标网络Q'基于下一时刻的状态信息和最优动作信息输出的未来的目标值,γ是折扣因子,θμ'和θQ'分别为Actor的目标神经网络的参数和Ctric的目标网络的参数;
步骤七:基于DDPG算法的Critic当前神经网络Q对采取的动作at进行评价,计算出评价值,其中θQ为Critic当前神经网络的参数;
步骤九:使用样本策略梯度更新Actor当前神经网络参数θμ,如下式子:
步骤十:将Ctric和Actor当前神经网络的参数分别软复制给Ctric和Actor的目标神经网络参数,即:
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
步骤十一:将下一时刻的状态当作当前时刻的状态即:St←St+1,迭代循环步骤一到步骤十一,最终得到一个收敛的Actor当前神经网络,输出神经网络的参数θμ,得到最终的HVAC控制***模型,然后进行步骤十二;
步骤十二:将当前的状态信息St输入给深度强化学习DDPG算法的Actor当前神经网路,基于最优策略选择一个at,执行动作at,控制HVAC***的功率输出。
附图说明
图1为建立HVAC智能控制***示意图。
图2为调试阶段室外环境温度训练集和测试集损失函数曲线图,1代表室外环境温度训练集的损失函数曲线,2代表室外环境温度测试集的损失函数曲线。
图3为调试阶段室外环境温度测试集的真实值与预测值曲线图,3代表室外环境温度测试集的预测值,4代表室外环境温度测试集的真实值。
具体实施方式
本发明以采集到的真实环境温度数据为实验对象,对基于多步预测深度强化学习算法的HVAC控制***进行训练和测试
基于多步预测深度强化学习算法的HVAC控制***,包括室外环境温度的多步预测和室内温度的实时控制两个阶段,其中室外环境温度的预测阶段包括以下步骤:
步骤一:根据室外环境的实际数据点,选取连续i=6个时刻的室外环境温度X=[T1,…,Ti]作为模型的输入,h=[hi+1,…,hi+n]作为模型的真实输出,采样间隔的时间为每30分钟一次。
步骤二:对采集到的数据进行预处理,对异常的数据进行修正,并将时间序列的数据转换为监督序列的数据,将数据划分为2500组训练集和1000组测试集。
步骤三:设置长短期记忆神经网络的cell数量为100,训练次数为500,学习率为0.001,最小批次梯度下降法的批次为32;
步骤四:将训练集的输入量输入到基于广义互熵损失函数的长短期记忆神经网络,利用长短期记忆神经网络的遗忘门、输入门和输出门对输入量进行遗忘、记忆和学习;基于广义互熵损失函数的长短期记忆神经网络的非线性回归过程描述如下:
1)将输入量X=[T1,…,Ti]输入到长短期记忆神经网络的第一个block中,遗忘门通过sigmoid(σ)函数决定当前时刻的输入信息X和上一时刻的输出信息ht-1有多少能被当前block保留,即遗忘门的输出为ft=σ(wf[ht-1,Xt]+bf),其中wf和bf为神经网络的权重和偏置值;
2)输入门决定需要更新的信息,首先通过σ函数决定更新后的信息it=σ(wi[ht-1,Xt]+bf),其次通过tanh函数产生新的候选值最后当前block的候选值ct将由遗忘门的输出、输入门的输出、新的候选值和上个block的候选值共同决定,即:
3)输出门得到模型的输出,首先通过σ函数得到一个初始的输出ot=σ(wo[ht-1,Xt]+bo),其次将2)中得到候选值信息ct通过激活函数tanh缩放到-1和1之间,最终得到模型的输出ht=ot*tanh(ct);
4)基于GC损失函数计算真实值Yt与预测值ht之间的误差,如下面的式子:
N是样本的数量,Γ是伽马函数,α>0是形状参数,β>0是带宽参数,进行多次迭代训练,通过最小批次梯度下降法更新神经网络的权重w和偏置值b,使真实值与预测值之间的误差最小;
步骤五:最终基于广义互熵损失函数的长短期记忆神经网络,得到前i=6个时刻的室外环境温度到未来n=3个时刻的室外环境温度的非线性映射模型,使用测试集测试模型的精确度;
步骤六:使用测试集测试模型的精确度,采用真实值与预测值之间的均方根误差、误差的概率密度分布和R2作为模型的评价指标,其定义分别为:
室内温度的实时控制包括以下步骤:
步骤一:采集到连续i=6个时刻的室外环境温度X=[T1,…,Ti],基于GC-LSTM神经网络模型,获得未来连续n=3个时刻的室外环境温度h=[hi+1,…,hi+n];获取当前时刻的电网电价ρt和室内温度Ti in等相关信息,划分数据为训练集2500和测试集1000。将h、ρt和Ti in作为环境信息,即:St={h,ρt,Ti in};
步骤二:设置深度强化学习的DDPG算法为四个神经网络,Actor的当前神经网络和Actor的目标神经网络具有相同结构的三层的神经网络,其中隐藏层激活函数为tanh,Critic的当前神经网络和Critic的目标神经网络具有相同的神经网络结构,其中隐藏层激活函数为relu;
步骤四:执行动作at控制空调的输出功率,然后获得及时的奖励rt,达到下一个状态St+1,奖励rt的设定将与用户的舒适度有关,如下式子:
Tmin和Tmax分别为舒适温度的最小值和最大值,λ1和λ2为平衡奖励的权重系数;
步骤五:将(St,at,rt,St+1)储存到一个经验池buff-C中;
步骤六:则从经验池buff-N中随机采取M个样本(Si,ai,ri,Si+1),i=1,2,…,M;
步骤七:基于下一时刻的状态和Actor的目标网络获得的动作计算目标的期望yi=ri+γQ'(Si+1,μ'(Si+1|θμ')|θQ');
步骤八:通过DDPG算法的Critic当前神经网络Q对采取的动作at进行评价,计算出评价值Q(St,ai|θQ);
步骤十:使用样本策略梯度更新Actor当前神经网络参数θμ;
步骤十一:将Ctric和Actor当前神经网络的参数分别软复制给Ctric和Actor的目标神经网络参数;
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
步骤十二:通过训练集的训练得到一个收敛的Actor当前神经网络,输出神经网络的参数θμ,使用每一次迭代训练获得的奖励值和每一步的误差值L作为网络收敛的评判指标;
步骤十三:将测试集的当前状态信息St输入给DDPG算法的Actor当前神经网路,基于最优策略选择一个at,执行动作at,控制HVAC***的功率输出,用HVAC***的耗电成本和用户的舒适度作为该***的性能指标。
本发明的优点:利用长短期记忆神经网络预测未来室外环境的温度,提高用户舒适度,使用广义互熵损失函数作为长短期记忆神经网络的损失函数,来提高预测的准确度;然后基于DDPG算法,根据电网的电价变化、室内温度的变化和未来室外温度的变化,智能调节HVAC***的功率输出,在保证用户舒适的度情况下节省用户的耗电成本,因此该方法在工程实际中具有较大的应用价值,对节能减排具有重要意义。
以上所述仅为本发明的具体实施例,但本发明所保护范围的结构特征并不限于此,任何本领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的专利范围内。
Claims (1)
1.基于多步预测深度强化学习算法的HVAC控制***,其特征在于:包括室外环境温度的多步预测和室内温度的实时控制两个阶段,其中室外环境温度的预测阶段包括以下步骤:
步骤一:根据室外环境的实际数据点,选取连续的i个时刻的室外环境温度X=[T1,…,Ti]作为多步温度预测模型的输入,以h=[hi+1,…,hi+n]作为模型的真实输出,n为多步预测的步数;
步骤二:对采集到的数据进行预处理,对异常的数据进行修正,并将时间序列的数据转换为监督序列的数据;
步骤三:将输入量输入到基于广义互熵损失函数的长短期记忆神经网络中,利用长短期记忆神经网络的遗忘门、输入门和输出门对输入量进行遗忘、记忆和学习;基于广义互熵损失函数的长短期记忆神经网络的非线性回归模型描述如下:
1)将输入量X=[T1,…,Tt]输入到长短期记忆神经网络的第一个block中,遗忘门通过sigmoid(σ)函数决定当前时刻的输入信息X和上一时刻的输出信息ht-1有多少能被当前block保留,即遗忘门的输出为ft=σ(wf[ht-1,Xt]+bf),其中wf和bf为神经网络的权重和偏置值;
2)输入门决定需要更新的信息,首先通过σ函数决定更新后的信息it=σ(wi[ht-1,Xt]+bf),其次通过tanh函数产生新的候选值最后当前block的候选值ct将由遗忘门的输出、输入门的输出、新的候选值和上个block的候选值共同决定,即:
3)输出门得到模型的输出,首先通过σ函数得到一个初始的输出ot=σ(wo[ht-1,Xt]+bo),其次将2)中得到候选值信息ct通过激活函数tanh缩放到-1和1之间,最终得到模型的输出ht=ot*tanh(ct);
4)基于广义互熵损失函数计算真实值Yt与预测值ht之间的误差,如下面的式子:
N是样本的数量,Γ是伽马函数,α>0是形状参数,β>0是带宽参数,进行多次迭代训练,通过最小批次梯度下降法更新神经网络的权重w和偏置值b,使真实值与预测值之间的误差最小;
步骤四:最终基于广义互熵损失函数的长短期记忆神经网络,得到前i个时刻的室外环境温度到未来n个时刻的室外环境温度的非线性映射模型;
室内温度的实时控制包括以下步骤:
步骤一:采集到连续i个时刻的室外环境温度X=[T1,…,Ti],基于广义互熵损失函数的长短期记忆神经网络,获得未来连续n个时刻的室外环境温度h=[hi+1,…,hi+n];获取当前时刻的电网电价ρt和室内温度Tt in等相关信息,将h、ρt和Tt in作为环境信息,即:St={h,ρt,Tt in};
步骤二:将当前的状态信息St输入给深度强化学习DDPG算法的Actor当前神经网路,基于当前的策略和高斯噪声去选择一个动作at∈[Pmin,Pmax],高斯噪声是为了增加动作的探索率,会随着迭代循环次数的增加而减小,θμ是Actor当前神经网路参数,Pmin和Pmax分别为HVAC***的最小和最大输出功率;
步骤四:将(St,at,rt,St+1)储存到一个经验池buff-C中;
步骤五:如果经验池buff-C数据量大于CM,则从经验池buff-N中随机采取M个样本(Si,ai,ri,Si+1),i=1,2,…,M,进行下面步骤;否则直接进行步骤十一;
步骤六:计算目标的期望值yi=ri+γQ'(Si+1,μ'(Si+1|θμ')|θQ'),其中μ'(Si+1|θμ')是从Actor的目标神经网络中获得最优的动作,Q'(Si+1,μ'(Si+1|θμ')|θQ')是Ctric的目标网络Q'基于下一时刻的状态信息和最优动作信息输出的未来的目标值,γ是折扣因子,θμ'和θQ'分别为Actor的目标神经网络的参数和Ctric的目标网络的参数;
步骤七:基于DDPG算法的Critic当前神经网络Q对采取的动作at进行评价,计算出评价值Q(St,at|θQ),其中θQ为Critic当前神经网络的参数;
步骤九:使用样本策略梯度更新Actor当前神经网络参数θμ,如下式子:
步骤十:将Ctric和Actor当前神经网络的参数分别软复制给Ctric和Actor的目标神经网络参数,即:
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
步骤十一:将下一时刻的状态当作当前时刻的状态即:St←St+1,迭代循环步骤一到步骤十一,最终得到一个收敛的Actor当前神经网络,输出神经网络的参数θμ,得到最终的HVAC控制***模型,然后进行步骤十二;
步骤十二:将当前的状态信息St输入给深度强化学习DDPG算法的Actor当前神经网路,基于最优策略选择一个at,执行动作at,控制HVAC***的功率输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110403130.XA CN113112077B (zh) | 2021-04-14 | 2021-04-14 | 基于多步预测深度强化学习算法的hvac控制*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110403130.XA CN113112077B (zh) | 2021-04-14 | 2021-04-14 | 基于多步预测深度强化学习算法的hvac控制*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113112077A true CN113112077A (zh) | 2021-07-13 |
CN113112077B CN113112077B (zh) | 2022-06-10 |
Family
ID=76716975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110403130.XA Active CN113112077B (zh) | 2021-04-14 | 2021-04-14 | 基于多步预测深度强化学习算法的hvac控制*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113112077B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113485498A (zh) * | 2021-07-19 | 2021-10-08 | 北京工业大学 | 一种基于深度学习的室内环境舒适度调节方法及*** |
CN113659246A (zh) * | 2021-10-20 | 2021-11-16 | 中国气象科学研究院 | 适应于极地超低温环境的电池***及其控温方法 |
CN113741449A (zh) * | 2021-08-30 | 2021-12-03 | 南京信息工程大学 | 一种面向海空协同观测任务的多智能体控制方法 |
CN113940218A (zh) * | 2021-09-30 | 2022-01-18 | 上海易航海芯农业科技有限公司 | 一种温室大棚的智能供热方法及*** |
CN114488811A (zh) * | 2022-01-25 | 2022-05-13 | 同济大学 | 一种基于二阶沃尔泰拉模型预测的温室环境节能控制方法 |
CN115412923A (zh) * | 2022-10-28 | 2022-11-29 | 河北省科学院应用数学研究所 | 多源传感器数据可信融合方法、***、设备及存储介质 |
TWI795283B (zh) * | 2022-05-04 | 2023-03-01 | 台灣松下電器股份有限公司 | 空調系統的控制方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102353119A (zh) * | 2011-08-09 | 2012-02-15 | 北京建筑工程学院 | 一种vav变风量空调***控制方法 |
CN105805822A (zh) * | 2016-03-24 | 2016-07-27 | 常州英集动力科技有限公司 | 基于神经网络预测的供热节能控制方法与*** |
CN105870483A (zh) * | 2016-03-31 | 2016-08-17 | 华中科技大学 | 固体氧化物燃料电池***功率跟踪过程热电协同控制方法 |
JP2016205739A (ja) * | 2015-04-24 | 2016-12-08 | 京セラ株式会社 | 電力制御方法、電力制御装置、および電力制御システム |
US20190102668A1 (en) * | 2017-10-04 | 2019-04-04 | Hengshuai Yao | Method of prediction of a state of an object in the environment using an action model of a neural network |
CN110458443A (zh) * | 2019-08-07 | 2019-11-15 | 南京邮电大学 | 一种基于深度强化学习的智慧家庭能量管理方法及*** |
US20190354071A1 (en) * | 2018-05-18 | 2019-11-21 | Johnson Controls Technology Company | Hvac control system with model driven deep learning |
CN111080002A (zh) * | 2019-12-10 | 2020-04-28 | 华南理工大学 | 基于深度学习的建筑用电负荷多步预测方法及*** |
CN111365828A (zh) * | 2020-03-06 | 2020-07-03 | 上海外高桥万国数据科技发展有限公司 | 结合机器学习实现数据中心节能温控的模型预测控制方法 |
US20210049460A1 (en) * | 2019-08-15 | 2021-02-18 | Noodle Analytics, Inc. | Deep probabilistic decision machines |
CN112460741A (zh) * | 2020-11-23 | 2021-03-09 | 香港中文大学(深圳) | 一种楼宇暖通空调***控制方法 |
CN112561728A (zh) * | 2020-10-28 | 2021-03-26 | 西安交通大学 | 基于注意力机制lstm的综合能耗费用优化方法、介质及设备 |
-
2021
- 2021-04-14 CN CN202110403130.XA patent/CN113112077B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102353119A (zh) * | 2011-08-09 | 2012-02-15 | 北京建筑工程学院 | 一种vav变风量空调***控制方法 |
JP2016205739A (ja) * | 2015-04-24 | 2016-12-08 | 京セラ株式会社 | 電力制御方法、電力制御装置、および電力制御システム |
CN105805822A (zh) * | 2016-03-24 | 2016-07-27 | 常州英集动力科技有限公司 | 基于神经网络预测的供热节能控制方法与*** |
CN105870483A (zh) * | 2016-03-31 | 2016-08-17 | 华中科技大学 | 固体氧化物燃料电池***功率跟踪过程热电协同控制方法 |
US20190102668A1 (en) * | 2017-10-04 | 2019-04-04 | Hengshuai Yao | Method of prediction of a state of an object in the environment using an action model of a neural network |
US20190354071A1 (en) * | 2018-05-18 | 2019-11-21 | Johnson Controls Technology Company | Hvac control system with model driven deep learning |
CN110458443A (zh) * | 2019-08-07 | 2019-11-15 | 南京邮电大学 | 一种基于深度强化学习的智慧家庭能量管理方法及*** |
US20210049460A1 (en) * | 2019-08-15 | 2021-02-18 | Noodle Analytics, Inc. | Deep probabilistic decision machines |
CN111080002A (zh) * | 2019-12-10 | 2020-04-28 | 华南理工大学 | 基于深度学习的建筑用电负荷多步预测方法及*** |
CN111365828A (zh) * | 2020-03-06 | 2020-07-03 | 上海外高桥万国数据科技发展有限公司 | 结合机器学习实现数据中心节能温控的模型预测控制方法 |
CN112561728A (zh) * | 2020-10-28 | 2021-03-26 | 西安交通大学 | 基于注意力机制lstm的综合能耗费用优化方法、介质及设备 |
CN112460741A (zh) * | 2020-11-23 | 2021-03-09 | 香港中文大学(深圳) | 一种楼宇暖通空调***控制方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113485498A (zh) * | 2021-07-19 | 2021-10-08 | 北京工业大学 | 一种基于深度学习的室内环境舒适度调节方法及*** |
CN113741449A (zh) * | 2021-08-30 | 2021-12-03 | 南京信息工程大学 | 一种面向海空协同观测任务的多智能体控制方法 |
CN113741449B (zh) * | 2021-08-30 | 2023-07-14 | 南京信息工程大学 | 一种面向海空协同观测任务的多智能体控制方法 |
CN113940218A (zh) * | 2021-09-30 | 2022-01-18 | 上海易航海芯农业科技有限公司 | 一种温室大棚的智能供热方法及*** |
CN113659246A (zh) * | 2021-10-20 | 2021-11-16 | 中国气象科学研究院 | 适应于极地超低温环境的电池***及其控温方法 |
CN113659246B (zh) * | 2021-10-20 | 2022-01-25 | 中国气象科学研究院 | 适应于极地超低温环境的电池***及其控温方法 |
CN114488811A (zh) * | 2022-01-25 | 2022-05-13 | 同济大学 | 一种基于二阶沃尔泰拉模型预测的温室环境节能控制方法 |
CN114488811B (zh) * | 2022-01-25 | 2023-08-29 | 同济大学 | 一种基于二阶沃尔泰拉模型预测的温室环境节能控制方法 |
TWI795283B (zh) * | 2022-05-04 | 2023-03-01 | 台灣松下電器股份有限公司 | 空調系統的控制方法 |
CN115412923A (zh) * | 2022-10-28 | 2022-11-29 | 河北省科学院应用数学研究所 | 多源传感器数据可信融合方法、***、设备及存储介质 |
CN115412923B (zh) * | 2022-10-28 | 2023-02-03 | 河北省科学院应用数学研究所 | 多源传感器数据可信融合方法、***、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113112077B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113112077B (zh) | 基于多步预测深度强化学习算法的hvac控制*** | |
CN112614009B (zh) | 一种基于深度期望q-学习的电网能量管理方法及*** | |
CN110705743B (zh) | 一种基于长短期记忆神经网络的新能源消纳电量预测方法 | |
CN110084367B (zh) | 一种基于lstm深度学习模型的土壤墒情预测方法 | |
CN109659933B (zh) | 一种基于深度学习模型的含分布式电源配电网电能质量预测方法 | |
CN114370698B (zh) | 基于强化学习的室内热环境学习效率提升的优化控制方法 | |
CN113572157B (zh) | 一种基于近端策略优化的用户实时自治能量管理优化方法 | |
CN107704875A (zh) | 基于改进ihcmac神经网络的建筑负荷预测方法和装置 | |
CN116187601B (zh) | 一种基于负荷预测的综合能源***运行优化方法 | |
CN112070262B (zh) | 一种基于支持向量机的空调负荷预测方法 | |
CN112926795A (zh) | 一种基于sbo优化cnn的高层住宅建筑群热负荷预测方法及*** | |
CN114239991A (zh) | 一种基于数据驱动的楼宇供热负荷预测方法、装置与设备 | |
CN111898856B (zh) | 基于极限学习机的物理-数据融合楼宇的分析方法 | |
CN114119273A (zh) | 一种园区综合能源***非侵入式负荷分解方法及*** | |
Dong et al. | Short-term building cooling load prediction model based on DwdAdam-ILSTM algorithm: A case study of a commercial building | |
Godahewa et al. | Simulation and optimisation of air conditioning systems using machine learning | |
CN116880169A (zh) | 一种基于深度强化学习的峰值功率需求预测控制方法 | |
Zhang et al. | Data-driven model predictive and reinforcement learning based control for building energy management: A survey | |
CN115169839A (zh) | 一种基于数据-物理-知识联合驱动的供暖负荷调度方法 | |
CN113962454A (zh) | 基于双重特征选择+粒子群优化的lstm能耗预测方法 | |
CN114200839A (zh) | 一种耦合环境行为动态监测的办公建筑能耗智能控制模型 | |
Yu et al. | Research on Intelligent Air Conditioning Optimization Control Algorithms Based on Neural Networks and Heuristic Algorithms | |
CN117973644B (zh) | 一种考虑参考电站优化的分布式光伏功率虚拟采集方法 | |
CN115840986B (zh) | 一种基于随机模型预测控制的能量管理方法 | |
Saranya et al. | AI buildings: design of artificially intelligent buildings in the energy sector with an autonomous federated learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |