CN114909706A

CN114909706A - 一种基于强化学***衡调控方法

Info

Publication number: CN114909706A
Application number: CN202210432777.XA
Authority: CN
Inventors: 刘定杰; 穆佩红; 金鹤峰; 谢金芳; 朱浩强
Original assignee: Changzhou Engipower Technology Co ltd
Current assignee: Changzhou Engipower Technology Co ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-08-16
Anticipated expiration: 2042-04-24
Also published as: CN114909706B

Abstract

本发明公开了一种基于强化学***衡调控方法，包括：采用机理建模和数据辨识方法建立供热二级网单元楼数字孪生模型；供热二级网单元楼设备安装，至少包括：在工况不利的单元楼供水管上安装变频泵、在其他单元楼口安装电动调节阀、在每栋单元楼供水主管上安装热量表、在单元楼安装差压变送器和在单元楼住户安装室温采集器；通过深度强化学习算法对单元楼进行动态预测获得下一时间段单元楼热负荷的预测值；当下一时间段单元楼热负荷的预测值与当前实际的热负荷不一致时，则基于供回水压差实测值和设定值，采用强化学习算法和PID算法调节变频泵频率；将采集的供水流量需求变化反馈至二级网单元楼数字孪生模型，搜寻变化后单元楼新的压差控制点所需的压差设定值；以及根据二级网单元楼数字孪生模型对压差调控进行仿真验证。

Description

一种基于强化学***衡调控方法

技术领域

本发明属于智慧供热技术领域，具体涉及一种基于强化学***衡调控方法。

背景技术

城镇集中供热作为一项重要的民生工程一直受到各级政府和社会的关注，是国家在基础建设领域中重点支持的行业，提高供热质量，降低供热成本、减少污染排放一直是供热行业的研究的重要课题。长期以来，由于一次热网的水力平衡涉及整个热网的安全运行，大多数供热企业非常重视，投入大量资金和精力进行研究和整改。取得了显著的成果，管网的热损失率和失水率明显下降。而现有的二次网的管理手段大都还停留在人工调控阶段，调控精细度和灵活度远远无法满足要求。

热计量供热***中用户自主调节会引起***流量的变化，产生水力失调，因此分析用户自主调节变流量供热***中的水力工况特性并研究其控制方法，对于热计量变流量供热***的运行调节具有重要的指导意义。

供热调控中，量调节可以分为控制热用户入口流量，控制热源处换热站二次管网处的流量以及控制最不利环路的供回水压差。在***流量随时可能发生改变的计量供热***中压差控制是常用的变流量控制方式。压差控制是集中供热控制的主要方法，在每一个供热***中都存在最不利环路，通过计算确定在最不利环路的供回水压差，以供热***中某一处的压差或者压力作为控制的参数，在***水力工况发生改变时通过改变水泵变频改变流量使控制点压力或压差保持不变的控制方式。然而，目前的压差控制方式自主调节效果和节能效果较差，如何进行合理控制，使得全网的运行状态最优、供热质量最好，是供热行业需要解决的首要问题。

基于上述技术问题，需要设计一种新的基于强化学***衡调控方法。

发明内容

本发明所要解决的技术问题是，克服现有技术的不足，提供一种基于强化学***衡调控方法。

为了解决上述技术问题，本发明的技术方案是：

本发明提供了一种基于强化学***衡调控方法，它包括：

步骤S1、采用机理建模和数据辨识方法建立供热二级网单元楼数字孪生模型；

步骤S2、供热二级网单元楼设备安装，至少包括：在工况不利的单元楼供水管上安装变频泵、在其他单元楼口安装电动调节阀、在每栋单元楼供水主管上安装热量表、在单元楼安装差压变送器和在单元楼住户安装室温采集器；

步骤S3、通过深度强化学习算法对单元楼进行动态预测获得下一时间段单元楼热负荷的预测值；

步骤S4、当下一时间段单元楼热负荷的预测值与当前实际的热负荷不一致时，则基于供回水压差实测值和设定值，采用强化学习算法和PID算法调节变频泵频率；

步骤S5、将采集的供水流量需求变化反馈至二级网单元楼数字孪生模型，搜寻变化后单元楼新的压差控制点所需的压差设定值；以及根据二级网单元楼数字孪生模型对压差调控进行仿真验证。

进一步，所述步骤S1中，采用机理建模和数据辨识方法建立供热二级网单元楼数字孪生模型，具体包括：

建立包括二级网单元楼物理实体、虚拟实体、孪生数据服务和各组成部分之间的连接要素的数字孪生模型；

所述物理实体是数字孪生模型的基础，是整个数字孪生模型驱动的数据源；所述虚拟实体与物理实体一一映射、实时交互，通过从多维度、多尺度对物理空间的要素进行刻画，对物理实体的实际过程进行仿真模拟，并对要素数据进行分析数据、评价、预测及控制；所述孪生数据服务集成物理空间信息与虚拟空间信息，保证数据传输的实时性，同时提供包括智能算法、模型、规则标准、专家经验的知识库数据，通过融合物理信息、多时空关联信息、知识库数据形成孪生数据库；所述各组成部分之间的连接是实现各组成部分的互联互通，物理实体与孪生数据服务之间通过传感器、协议传输规范实现数据的实时采集与反馈；物理实体与虚拟实体之间通过协议进行数据传输，物理信息实时传输至虚拟空间内更新校正模型，虚拟实体则通过执行器对物理实体进行实时控制；虚拟实体与孪生数据服务之间的信息传递是通过数据库接口实现；

对数字孪生模型进行辨识，将二级网单元楼的多工况实时运行数据接入已建立的数字孪生模型中，采用反向辨识方法对数字孪生模型的仿真结果进行自适应辨识修正，获得辨识修正后的二级网单元楼数字孪生模型。

进一步，所述步骤S3中，通过深度强化学习算法对单元楼进行动态预测获得下一时间段单元楼热负荷的预测值，具体包括：

获取单元楼的历史供热数据并进行预处理后获得负荷预测模型的样本集，单元楼的历史供热数据至少包括室内温度、天气数据、单元楼供回水温度、单元楼供水流量、单元楼瞬时供热量；

将单元楼热负荷预测问题建模为马尔可夫决策过程模型，并定义其中的状态、动作和奖赏函数；

采用深度强化学习算法建立单元楼热负荷预测模型，将历史供热数据输入单元楼热负荷预测模型，并对单元楼热负荷预测模型进行训练；

通过单元楼热负荷预测模型输出单元楼热负荷需求值。

进一步，将单元楼热负荷预测问题建模为马尔可夫决策过程模型，并定义其中的状态、动作和奖赏函数，具体包括：

单元楼热负荷数据具有时序性，以逐时负荷为单位，构建k个前i个时刻的单元楼热负荷数据训练样本集表示为：X＝{(q₁,q₂,…,q_i),(q₂,q₃,…,q_i+1),…,(q_k,q_k+1,…,q_k+i)}；

定义单元楼热负荷初始状态为s₀＝[q₁,q₂,…,q_k]，采取的动作用a表示，为预测的下一时刻单元楼热负荷，下一时刻迁移至状态s₁＝[q₁,q₂,…,q_k+1]；构建的动态空间集A＝{a₁,a₂,…,a_k}；

构建奖赏集R＝{r₁,r₂,…,r_k}，r_k＝-|a_k-q_k+i|；奖赏值为每个状态采取的动作值与下一时刻负荷的真实值差的绝对值的负数，样本集包含k个奖赏值，与训练样本集中的每个训练样本一一对应；

通过最大化累积奖励Q(s,a)获得最佳动作，在连续迭代下，Q学习过程通过动作完成后的奖励不断更新，同时学习一个好的策略，使目标奖励值最大化。

进一步，采用深度强化学习算法建立单元楼热负荷预测模型，将历史供热数据输入预测模型，并对模型进行训练，具体包括：

在DQN算法中加入经验回放机制，初始化回放记忆单元；

将一个深度神经网络作为Q值网络，并使用梯度下降算法更新深度神经网络参数；

将单元楼供热数据通过当前值网络，获得任意状态s下的Q(s,a)，通过当前值网络计算出值函数后，使用∈-greedy策略来选择动作a，每一次状态转移即做出动作记为一个时间步t，将每个时间步获得的数据加入回放记忆单元；

在训练过程中，通过当前值网络表示当前的值函数，使用目标值网络来产生目标Q值，Q(s,a|θ_i)表示当前网络的输出动作值函数，用来评估当前状态动作；

表示目标值网络的输出，采用

计算目标值网络的近似动作值函数；

采用当前Q值和目标Q值之间的均方误差作为误差函数，更新当前值网络的参数；误差函数表示为：L(θ_i)＝E_s,a,r,s′[(Y_i-Q(s,a|θ_i))²]；

从回放记忆单元中随机选取一个(s,a,r,s′)，将(s,a)、s′、r分别传输至当前值网络、目标值网络和误差函数，对L(θ_i)关于θ_i使用梯度法进行更新，获得预测值，DQN算法更新值函数的方式如下：

其中，γ为折扣因子；在迭代过程中，仅有当前动作值函数的参数θ是实时更新的，每次经过N轮迭代，就讲当前值网络的参数复制给目标值网络。

进一步，所述步骤S3还包括：采用GAN算法基于当前历史样本数据模拟生成虚拟样本，所述真实历史样本数据存储于真实样本池中，用于训练GAN算法模型；所述GAN算法生成的虚拟样本存储于虚拟样本池中；将历史样本数据和虚拟样本数据一起作为深度强化学习算法DQN模型的输入信息，进行训练学习，以试错的机制与环境进行交互，通过最大化积累奖赏的方式，实现单元楼负荷预测。

进一步，所述步骤S4中，基于供回水压差实测值和设定值，采用强化学习算法和PID算法调节变频泵频率，具体包括：

设计基于Actor-Critic结构和RBF网络的自适应PID控制算法；

基于供回水压差实测值和设定值，采用自适应PID控制算法，自适应调整PID参数，作用于被控对象变频泵，调节其频率，改变供回水压差值；

其中，基于Actor-Critic结构和RBF网络的自适应PID控制算法的控制原理设计为：将供回水压差实测值和设定值定义为误差e(t)，误差e(t)经过状态转换器转换成RBF网络学习需要的状态向量x(t)＝[e(t) Δe(t) Δ²e(t)]^T；所述状态向量x(t)作为RBF网络的输入，经过隐含层与输出层的计算，由Actor输出初步PID参数值K′(t)＝[k′_Ik′_Pk′_D]、由Critic输出值函数V(t)；随机动作修正器根据值函数V(t)对K′(t)进行修正，获得最终的PID参数K(t)＝[k_I k_P k_D]。

进一步，所述PID控制器的输出Δu(t)＝k_pΔe(t)+k_Ie(t)+k_DΔ²e(t)；

所述RBF网络包括输入层、隐含层和输出层，所述输入层包括三个输入节点，分别输入e(t)、Δe(t)和Δ²e(t)；所述隐含层包括h个节点，激活函数选用高斯型核函数，计算节点的输出；所述输出层由Actor和Critic组成，共享RBF网络的输入层和隐含层的资源，包括四个输出节点，前三个输出为Actor输出的K′(t)的三个分量，第四个节点输出为Critic的值函数V(t)，分别表示为：

其中，j＝1,2,3,4,5为隐含层节点编号；m＝1,2,3为输出层节点编号；w_jm为银行曾第j个节点与输出层Actor第m个节点之间的权值。

进一步，所述Actor用于学习策略，参数修正的方法是在K′(t)上叠加一个高斯干扰K_η；所述Critic用于评估值函数，采用TD算法进行学习，通过值函数和回报函数r(t)定义TD误差：δ_TD＝r(t)+γV(t+1)-V(t)，根据误差更新Actor和Critic权值、RBF网络参数。

本发明的有益效果是：

本发明通过深度强化学***衡稳定运行。

其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于强化学***衡调控方法流程图；

图2为本发明DQN模型结构示意图；

图3为本发明DQN模型训练过程图；

图4为本发明基于Actor-Critic结构和RBF网络的自适应PID控制器结构框图；

图5为本发明基于RBF的Actor-Critic学习结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明所涉及的一种基于强化学***衡调控方法流程图。

如图1所示，本实施例提供了一种基于强化学***衡调控方法，它包括：

在实际的应用中，大部分楼栋选用单元楼口电动调节阀，工况不利的单元楼选用楼宇分布式泵，对于电动调节阀的开度控制采用原有的调控策略，包括采用深度学习算法、强化学习算法、机器学习算法进行开度的预测控制；对于楼宇分布式泵的频率控制采用基于强化学习算法和压差控制；此外，通常是在最不利压差单元处安装差压变送器。

在本实施例中，所述步骤S1中，采用机理建模和数据辨识方法建立供热二级网单元楼数字孪生模型，具体包括：

需要说明的是，在供热***中，由于用户自主调节的不确定性，管网***水力工况变化较大，稳定***水力工况，以保证自主调节用户减少流量的同时，其他调节用户仍能稳定在既定的流量状况，保持自己的室内温度，因此用户自主调节过程本质上是管网或用户***阻抗的变化过程。

图论水力工况分析基本原理：任何流体网络都是由很多节点和管道连接起来的几何图形，由于水流有一定方向，所以是一种有向图。供热管网水力模型是依据流量平衡方程和压力平衡方程而建立。

为保证***具有足够的循环动力，能够保证管网中的所有用户在设计工况下均可得到所需的水流量，通常要选取一条环路阻力相对其他环路最大的环路，以该环路上的用户在设计工况下所需的资用压头为依据确定循环水泵的额定扬程。这条具有最大阻力的环路通常被称为最不利环路。在大多数情况下，最不利环路为距离循环水泵最远的用户所在环路。目前在***的运行调节阶段，最不利水力环路通常被作为参考对象引入控制策略的设计环节中，例如，水泵调节的参考压差选取最不利环路上用户压差，压差设定值的选定通常参考设计工况下该用户的资用压差，或参考以保证最不利水力环路上用户流量供给要求的压差设定值水平。

最不利热力环路是有一定的辨识方法的，辨识方法如下：***中的最不利热力环路只有一条，且该支路即为管网中的最不利水力环路；***中的最不利热力环路依然只有一条，但该支路与最不利水力环路不同，而***中间的某个支路；***中存在多条最不利热力环路。此时应该比较在该时段内，这几条环路中哪条环路的最不利程度大，选择这几条环路中最不利程度最大的环路作为水泵压差控制的参考环路，能满足所有用户的要求。

在本实施例中，所述步骤S3中，通过深度强化学习算法对单元楼进行动态预测获得下一时间段单元楼热负荷的预测值，具体包括：

通过单元楼热负荷预测模型输出单元楼热负荷需求值。

在本实施例中，将单元楼热负荷预测问题建模为马尔可夫决策过程模型，并定义其中的状态、动作和奖赏函数，具体包括：

图2是本发明所涉及的DQN模型结构示意图。

图3是本发明所涉及的DQN模型训练过程图。

如图2-3所示，在本实施例中，采用深度强化学习算法建立单元楼热负荷预测模型，将历史供热数据输入预测模型，并对模型进行训练，具体包括：

在DQN算法中加入经验回放机制，初始化回放记忆单元；

表示目标值网络的输出，采用

计算目标值网络的近似动作值函数；

在本实施例中，所述步骤S3还包括：采用GAN算法基于当前历史样本数据模拟生成虚拟样本，所述真实历史样本数据存储于真实样本池中，用于训练GAN算法模型；所述GAN算法生成的虚拟样本存储于虚拟样本池中；将历史样本数据和虚拟样本数据一起作为深度强化学习算法DQN模型的输入信息，进行训练学习，以试错的机制与环境进行交互，通过最大化积累奖赏的方式，实现单元楼负荷预测。

在实际的应用中，GAN模型结构中，生成器模型G与判别器模型D利用可微分函数表示，它们各自的输入分别为随机噪声z和真是数据x。G(z)表示由生成器模型G生成的尽量服从真实数据分布的样本；判别器模型D的目标是对数据来源进行判别，如果判别输入来自于真是数据，则标注为1，如果输入来自生成器模型G，则标注为0。在不断优化的过程中，生成器模型G的目标是使所生成的伪数据G(z)在判别器模型D上的标注D(G(z))与真实数据x在判别器模型D上的标注D(x)一致。在学习过程中，两者间的相互对抗并且迭代优化的过程将不断提高生成器模型G的性能，同时当判别器模型D的判别能力提升到无法正确判断数据来源时，可以认为生成器模型已经学习到真实数据的分布。

需要说明的是，提出一种基于生成对抗网络的强化学习算法。该算法在训练初期通过随机策略收集经验样本加入真实样本池，并利用真实样本池中的样本训练生成对抗网络，然后利用生成对抗网络生成新的样本以加入虚拟样本池，最后再结合真实样本池以及虚拟样本池批量选择训练样本。所提出的算法有效地解决了强化学习在训练初期样本不足的问题，并且加快学习、收敛速度。针对将Q学习算法应用于非线性负荷预测性能较低的问题，提出一种基于生成对抗网络的深度Q学习负荷预测算法。该算法引入深度神经网络，构建深度Q网络作为非线性函数逼近器去近似表示动作值函数，用值函数近似的方法解决Q学习算法在大状态空间中算法性能较差，甚至无法收敛的问题。

图4是本发明所涉及的基于Actor-Critic结构和RBF网络的自适应PID控制器结构框图。

图5是本发明所涉及的基于RBF的Actor-Critic学习结构示意图。

如图4-5所示，在本实施例中，所述步骤S4中，基于供回水压差实测值和设定值，采用强化学习算法和PID算法调节变频泵频率，具体包括：

设计基于Actor-Critic结构和RBF网络的自适应PID控制算法；

基于供回水压差实测值和设定值，采用自适应PID控制算法，自适应调整PID参数，作用于被控对象变频泵，调节其频率，改变供回水压差值。

其中，基于Actor-Critic结构和RBF网络的自适应PID控制算法的控制原理设计为：将供回水压差实测值和设定值定义为误差e(t)，误差e(t)经过状态转换器转换成RBF网络学习需要的状态向量x(t)＝[e(t) Δe(t) Δ²e(t)]^T；所述状态向量x(t)作为RBF网络的输入，经过隐含层与输出层的计算，由Actor输出初步PID参数值K′(t)＝[k′_I k′_P k′_D]、由Critic输出值函数V(t)；随机动作修正器根据值函数V(t)对K′(t)进行修正，获得最终的PID参数K(t)＝[k_I k_P k_D]。

在本实施例中，所述PID控制器的输出Δu(t)＝k_pΔe(t)+k_Ie(t)+k_DΔ²e(t)；

在本实施例中，所述Actor用于学习策略，参数修正的方法是在K′(t)上叠加一个高斯干扰K_η；所述Critic用于评估值函数，采用TD算法进行学习，通过值函数和回报函数r(t)定义TD误差：δ_TD＝r(t)+γV(t+1)-V(t)，根据误差更新Actor和Critic权值、RBF网络参数。

需要说明的是，RBF网络具有映射能力强且学习规则简单的特点，将其与Actor-Critic结构结合，用于Actor-Critic值函数和策略函数的逼近。设计了基于Actor-Critic结构和RBF网络的自适应PID控制算法新的控制算法，能够快速调整PID参数，实现对于输入信号的跟踪，且与传统PID和其他算法控制效果相比，新的控制器响应更快，超调量更小。

在本申请所提供的几个实施例中，应该理解到，所揭露的***和方法，也可以通过其它的方式实现。以上所描述的***实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于强化学***衡调控方法，其特征在于，它包括：

2.根据权利要求1所述的二级网平衡调控方法，其特征在于，所述步骤S1中，采用机理建模和数据辨识方法建立供热二级网单元楼数字孪生模型，具体包括：

所述物理实体为整个数字孪生模型的数据源；

所述虚拟实体对物理实体的实际过程进行仿真模拟，并对要素数据进行分析数据、评价、预测及控制；

所述孪生数据服务集成物理空间信息与虚拟空间信息，同时提供包括智能算法、模型、规则标准、专家经验的知识库数据，通过融合物理信息、多时空关联信息、知识库数据形成孪生数据库；

所述各组成部分之间的连接用于实现各组成部分的互联互通，所述物理实体与孪生数据服务之间通过传感器、协议传输规范实现数据的实时采集与反馈；

所述物理实体与虚拟实体之间通过协议进行数据传输，物理信息实时传输至虚拟空间内更新校正模型，所述虚拟实体通过执行器对物理实体进行实时控制；

所述虚拟实体与孪生数据服务之间通过数据库接口进行信息传递；

3.根据权利要求1所述的二级网平衡调控方法，其特征在于，所述步骤S3中，通过深度强化学习算法对单元楼进行动态预测获得下一时间段单元楼热负荷的预测值，具体包括：

获取单元楼的历史供热数据并进行预处理后获得负荷预测模型的样本集，所述单元楼的历史供热数据至少包括室内温度、天气数据、单元楼供回水温度、单元楼供水流量和单元楼瞬时供热量；

通过单元楼热负荷预测模型输出单元楼热负荷需求值。

4.根据权利要求3所述的二级网平衡调控方法，其特征在于，将所述单元楼热负荷预测问题建模为马尔可夫决策过程模型，并定义其中的状态、动作和奖赏函数，具体包括：

单元楼热负荷数据具有时序性，以逐时负荷为单位，构建k个前i个时刻的单元楼热负荷数据训练样本集，表示为：

X＝{(q₁,q₂,…,q_i),(q₂,q₃,…,q_i+1),…,(q_k,q_k+1,…,q_k+i)}；

5.根据权利要求3所述的二级网平衡调控方法，其特征在于，采用深度强化学习算法建立所述单元楼热负荷预测模型，将历史供热数据输入单元楼热负荷预测模型，并对单元楼热负荷预测模型进行训练，具体包括：

在DQN算法中加入经验回放机制，初始化回放记忆单元；

在训练过程中，通过当前值网络表示当前的值函数，使用目标值网络来产生目标Q值；Q(s,a|θ_i)表示当前网络的输出动作值函数，用来评估当前状态动作；

表示目标值网络的输出，采用

计算目标值网络的近似动作值函数；

6.根据权利要求3所述的二级网平衡调控方法，其特征在于，所述步骤S3还包括：

采用GAN算法基于当前历史样本数据模拟生成虚拟样本，所述真实历史样本数据存储于真实样本池中，用于训练GAN算法模型；

所述GAN算法生成的虚拟样本存储于虚拟样本池中；

将历史样本数据和虚拟样本数据一起作为深度强化学习算法DQN模型的输入信息，进行训练学习，以试错的机制与环境进行交互，通过最大化积累奖赏的方式，实现单元楼负荷预测。

7.根据权利要求1所述的二级网平衡调控方法，其特征在于，所述步骤S4中，基于供回水压差实测值和设定值，采用强化学习算法和PID算法调节变频泵频率，具体包括：

设计基于Actor-Critic结构和RBF网络的自适应PID控制算法；

8.根据权利要求7所述的二级网平衡调控方法，其特征在于，所述PID控制器的输出Δu(t)＝k_pΔe(t)+k_Ie(t)+k_DΔ²e(t)；

9.根据权利要求8所述的二级网平衡调控方法，其特征在于，所述Actor用于学习策略，参数修正的方法是在K′(t)上叠加一个高斯干扰K_η；所述Critic用于评估值函数，采用TD算法进行学习，通过值函数和回报函数r(t)定义TD误差：δ_TD＝r(t)+γV(t+1)-V(t)，根据误差更新Actor和Critic权值、RBF网络参数。