CN114781274B

CN114781274B - 仿真与决策交替学习的综合能源控制优化方法与

Info

Publication number: CN114781274B
Application number: CN202210538853.5A
Authority: CN
Inventors: 凃浩; 郑龙; 杜丛晋; 张雅婷
Original assignee: Jiangsu Titan Intelligent Technology Co ltd
Current assignee: Jiangsu Titan Intelligent Technology Co ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-07-14
Anticipated expiration: 2042-05-17
Also published as: CN114781274A

Abstract

本发明公开了一种仿真与决策交替学习的综合能源***控制优化方法与***，首先通过机理或数据驱动的方法，快速构建仿真环境，满足决策学习需求，学习得到可用于线上部署的决策智能体，通过真实运行数据，使用数据驱动的方法，学习得到待更新的仿真环境，从而得到更符合真实运行状态的仿真环境，评估前后仿真环境的差异，在此基础上继续数据采集，反复交替执行上述过程，从而使得仿真环境和决策智能不断得到优化，并互相促进，充分发挥强化学习的决策优势，同时适应不断变化的环境，由此解决现有的综合能源***控制优化方法所基于的仿真环境固化，不能反应当前真实***的状态，导致基于仿真的优化控制效果不佳的技术问题。

Description

仿真与决策交替学习的综合能源***控制优化方法与***

技术领域

本发明属于节能技术领域，更具体地，涉及一种仿真与决策交替学习的综合能源***控制优化方法与***。

背景技术

综合能源***指在规划、建设和运行等过程中，通过对能源的产生、传输与分配、转换、存储、消费等环节进行有机协调与优化后，形成的能源产供销一体化***。

实现和增强综合能源管理能力，核心在于基于数据的智能分析和决策能力。在耗能设备进行信息收集、节能分析的同时，还能够通过整合和统筹各类数据，给出有效的调度建议，这直接依赖于***智能程度。因此，如何赋予并强化综合能源管理***智能决策能力是关键。

成熟的控制技术基于规则的控制进行能源管理，如PID等控制方法。然而由于综合能源管理***面对的是大范围多用户场景，各个用能单位情况不一，很难寻找普适的控制规则，无法做到面面俱到和实时调整，导致该类方法仅仅在某些场景下有效，甚至存在不少漏洞。目前也有尝试采用模型预测控制，由于用户耗能***的运行特性复杂多变，在学术领域，部分研究使用一种优化控制方法叫做“模型预测控制”(Model Predictive Control，MPC)。这种方法基于数学优化来解决各个能耗***的控制决策问题。然而这样的复杂***很难用“低阶”的模型来表现，更不可能针对每一个用户都进行单独定制。基于强化学习的决策人工智能也更加适合为综合能源管理***提供赋能，该方式无须进行复杂的数学建模，但需要大量真实控制和反馈数据作为支撑，而直接在真实环境中进行控制并收集数据时间长、风险大。

综合能源***仿真是综合能源领域常用方法，强化学习也可方便的机遇基于仿真进行。然而，综合能源涉及复杂设备的仿真，仿真结果往往与真实情况存在一定差异，而且，随时间设备状态和工况会持续变化。这不可避免的影响强化学习得到的决策效果。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种仿真与决策交替学习的综合能源***控制优化方法与***，首先通过机理或数据驱动的方法，快速构建仿真环境，满足决策学习需求，学习得到可用于线上部署的决策智能体，随后，周期性通过真实运行数据，使用数据驱动的方法，学习得到待更新的仿真环境，从而得到更符合真实运行状态的仿真环境，评估前后仿真环境的差异，在此基础上继续数据采集，反复交替执行上述过程，从而使得仿真环境和决策智能不断得到优化，并互相促进，充分发挥强化学习的决策优势，同时适应不断变化的环境，由此解决现有的综合能源***控制优化方法所基于的仿真环境固化，不能反应当前真实***的状态，导致基于仿真的优化控制效果不佳的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种仿真与决策交替学习的综合能源***控制优化方法，其包括以下步骤：

在对仿真环境进行初始化后，周期性地交替进行仿真学习和决策学习；其中：

所述仿真学习，根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境；当待更新的仿真环境与当前的仿真环境差异超过预设的工况参数差异阈值时，将待更新的仿真环境更新为当前的仿真环境；否则继续收集所述综合能源***运营数据，用于下一次仿真学习；其中，所述综合能源***的工况参数包括所述综合能源***中的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的工况参数；

所述决策学习，当仿真学习更新仿真环境后，在当前的仿真环境下，根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体，获得待更新的决策智能体；比较当前的决策智能体和待更新的决策智能体对当前仿真环境作出的优化控制策略的优化效果，当待更新的决策智能体相对于当前仿真环境作出的优化控制策略的优化效果提升幅度超过预设的提升阈值时，将待更新的决策智能体更新为当前的决策智能体；否则当仿真学习再次更新仿真环境后，进行下一次决策学习。

优选地，所述仿真与决策交替学习的综合能源***控制优化方法，其所述仿真环境初始化，具体为：

获取待进行优化控制的综合能源***的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的状态信息和拓扑连接关系，并根据上述信息建立仿真模型网络模拟所述综合能源***；所述状态信息包括工况参数和控制方式，以及外部环境参数。

优选地，所述仿真与决策交替学习的综合能源***控制优化方法，其所述供能单元的工况参数包括：不同设备工作状况下输出能源量；供能成本，即产生单位能源所需的价格；外部环境参数；所述供能单元的控制方式包括：提高或降低输出能源量；

所述能源传输网络的工况参数包括：不同设备工作状况下的输入能源量、输出传输量；所述能源存储单元的控制方式包括：提高或降低输出传输量；

所述能源存储单元的工况参数包括：输入能源量、输出能源量、以及存储容量；所述能源存储单元的控制方式包括：提高或降低输入能源量、提高或降低输出能源量；

所述能源交换单元的工况参数包括：输入能源量、输出能源量；所述能源交换单位的控制方式包括：提高或降低输出能源量；

所述终端供用单元的工况参数包括：输入能源量；所述终端供用单元的控制方式包括：提高或降低输入能源量、切换供能单元。

优选地，所述仿真与决策交替学习的综合能源***控制优化方法，其所述根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,具体为：

在当前的仿真环境下，进行所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式仿真，获得训练数据训练决策智能体

优选地，所述仿真与决策交替学习的综合能源***控制优化方法，其采用强化学习模型作为决策智能体；

其中强化学习模型的状态空间为：所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的状态信息的集合；强化学习模型的动作空间为所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式集合；强化学习模型的奖励和/或损失函数，根据控制优化目标确定，所述优化目标为能效比最大、或单位供能成本最小。

优选地，所述仿真与决策交替学习的综合能源***控制优化方法，其对于能源消耗型综合能源***，控制优化目标为能效比最大；对于能源供给型综合能源***，控制优化目标为供能成本最小。

优选地，所述仿真与决策交替学习的综合能源***控制优化方法，其所述损失函数，包括策略网络损失、价值网络损失、和/或熵损失。

优选地，所述仿真与决策交替学习的综合能源***控制优化方法，其根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境具体为：

收集所述综合能源***的运行数据，采用网络结构对所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元进行工况参数拟合，获得真实工况参数；对于所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元，评价仿真环境当前采用的工况参数与真实工况参数之间的差异，当差异超过预设的工况参数差异阈值时，采用真实工况参数作为仿真环境所采用的工况参数。

优选地，所述仿真与决策交替学习的综合能源***控制优化方法，其所述仿真环境当前采用的工况参数与真实工况参数之间的差异，采用RMSE、MAPE等指标表征。

按照本发明的另一个方面，提供了一种仿真与决策交替学习的综合能源***控制优化***，其包括：仿真环境、决策智能体、仿真学习模块、以及决策学习模块；

仿真环境，用于提供所述决策学习模块的仿真数据；所述决策智能体用于决策综合能源***控制优化策略；

所述仿真学习模块，用于根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境；当待更新的仿真环境与当前的仿真环境差异超过预设的工况参数差异阈值时，将待更新的仿真环境更新为当前的仿真环境；否则继续收集所述综合能源***运营数据，用于下一次仿真学习；其中，所述综合能源***的工况参数包括所述综合能源***中的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的工况参数；

所述决策学习模块，用于在当前的仿真环境下，根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体，并将决策智能体提交给所述更新控制模块；

所述更新控制模块，用于当仿真学习更新仿真环境后，在当前的仿真环境下，根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体，获得待更新的决策智能体；比较当前的决策智能体和待更新的决策智能体对当前仿真环境作出的优化控制策略的优化效果，当待更新的决策智能体相对于当前仿真环境作出的优化控制策略的优化效果提升幅度超过预设的提升阈值时，将待更新的决策智能体更新为当前的决策智能体；否则当仿真学习再次更新仿真环境后，进行下一次决策学习。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

本方案设计了一种仿真与决策交替学习的综合能源***控制优化方法，反复交替仿真学习和决策学习过程，从而使得仿真环境和决策智能不断得到优化，并互相促进，充分发挥强化学习的决策优势，同时适应不断变化的环境。本发明通过深度学习交替学习仿真和决策，交替优化仿真环境和决策智能体，得到更接近真实的仿真环境，进而得到更优化的决策智能体。持续交替进行，使得仿真环境和决策智能都不断得到优化，充分发挥强化学习的决策优势，同时适应不断变化的环境。

附图说明

图1是本发明提供的仿真与决策交替学习的综合能源***控制优化方法流程示意图；

图2是本发明实施例1提供的能源消耗型综合能源***结构示意图；

图3是本发明实施例2提供的能源供给型综合能源***结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

一般使用强化学习算法解决综合能源中的决策问题时，依靠设计特定算法来获得决策结果，然而不考虑强化学习所需的仿真环境是否能有效模拟真实的应用环境，因此不能解决落地中准确的仿真环境构建困难、与真实环境差异大。最终现有的强化学习方法在解决综合能源决策问题时，决策智能体效果不佳，难以上线真实部署；此外，真实部署过程中设备工况等会随运行时间发生变化，如果不对仿真环境进行更新，就无法体现工况随时间的变化情况，智能学习算法对于如何适应环境改变也为给出有效方法。

我们分析综合能源***，它主要由供能网络和设备(如供电、供气、供冷/热等网络)、能源交换设备(如CCHP机组、发电机组、锅炉、空调、热泵、光伏等)、能源存储设备(储电、储气、储热、储冷等)、终端供用单元(如微网控制)和用户(负荷)共同构成。

基于以上分析，对于需要进行优化控制的综合能源***，本发明提供的仿真与决策交替学习的综合能源***控制优化方法，包括以下步骤：

仿真环境初始化，具体为：获取待进行优化控制的综合能源***的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的状态信息和拓扑连接关系，并根据上述信息建立仿真模型网络模拟所述综合能源***；所述状态信息包括工况参数和控制方式，以及外部环境参数，如温湿度、光照等。

所述供能单元的工况参数包括：输出能源量，不同设备工作状况下输出能源量，如电量、制冷量等；供能成本，即产生单位能源所需的价格，如电价等；所述供能单元的控制方式包括：提高或降低输出能源量；

所述能源传输网络的工况参数包括：不同设备工作状况下的输入能源量、输出传输量，如输入电量、输出流量等；所述能源存储单元的控制方式包括：提高或降低输出传输量；

所述能源交换单元的工况参数包括：输入能源量、输出能源量；所述恒源交换单位的控制方式包括：提高或降低输出能源量；

所述根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体，具体为：在当前的仿真环境下，进行所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式仿真，获得训练数据训练决策智能体，优选采用强化学习模型作为决策智能体；

其中强化学习模型的状态空间为：所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的状态信息的集合；强化学习模型的动作空间为所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式集合；强化学习模型的奖励和/或损失函数，根据控制优化目标确定，所述优化目标为能效比最大、或单位供能成本最小；

具体而言，对于能源消耗型综合能源***，控制优化目标优选为能效比最大，从而在满足终端供用单元的需求前提下，最大限度地节约能源消耗；对于能源供给型综合能源***，控制优化目标优选为供能成本最小，从而降低供能成本。

所述损失函数，包括策略网络损失、价值网络损失、和/或熵损失。

所述根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境，具体为：收集所述综合能源***的运行数据，采用神经网络结构对所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元进行工况参数拟合，获得真实工况参数；对于所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元，评价仿真环境当前采用的工况参数与真实工况参数之间的差异，当差异超过预设的工况参数差异阈值时，采用真实工况参数作为仿真环境所采用的工况参数；所述仿真环境当前采用的工况参数与真实工况参数之间的差异，采用RMSE、MAPE等指标表征。

本发明提供的仿真与决策交替学习的综合能源***控制优化***，包括：仿真环境、决策智能体、仿真学习模块、以及决策学习模块；

以下为实施例：

实施例1能源消耗型综合能源***控制优化

本实施例将集中于综合能源领域的建筑空调节能方案，通过建筑领域常用的EnergePlus内置设备参数完成初步仿真，通过A3C强化学习算法在仿真环境训练得到初步决策智能体，上线积累真实数据后，通过神经网络学习完成仿真环境中设备建模，更新Energyplus中的设备设置参数，从而得到新的仿真环境，并在新的仿真环境中训练决策智能体。经过多次交替训练，仿真与真实的误差逐步降低，决策优化更加准确。

仿真环境初始化：该能源消耗型综合能源***，包括：

能源传输网络：冷冻水泵、冷却水泵

能源交换单元：冷水机组、冷却塔

终端供用单元：风机盘管

完成仿真环境配置：

(1)构建建筑和空调***。通过DesignBuilder软件新建建筑，并新建HVAC***，添加Zone Group到当前Layout中。

(2)在空调***中添加末端设备(风机盘管)、冷冻水循环(包括冷冻水泵、冷机)、冷却水循环(包括冷却水泵、冷却塔)，并按照真实***设备数量和连接方式将上述设备连接起来。

(3)选择设备类型参数及设置setpoint：选择与真实设备参数尽量接近的设备型号和控制方法。

(4)导出idf配置文件。通过上述步骤，完成基本仿真环境设定，导出EnergyPlus的idf配置文件。上述过程亦可通过直接编写EnergyPlus配置文件进行。

支持通过API调用仿真模拟。使用官方提供的python API，指定导出的idf配置文件，即可通过python代码加载该配置文件，调用Energyplus完成该配置指定的仿真环境模拟，从而支持强化学习训练和测试。

本方法对于仿真环境的构建工具无特定要求，但要求可配置设备工况曲线等关键参数，使得根据真实设备运行数据学习得到的数据能够更新仿真环境。

决策学习：在当前的仿真环境下，进行所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式仿真，获得训练数据训练决策智能体，优选采用强化学习模型作为决策智能体；

强化学习算法和核心要素包括状态、动作和奖励的设计及损失函数等。下面分别介绍在本实施例中的相关内容设计。

(1)状态，包括工况参数和控制方式，以及外部环境参数，其中，外部环境参数主要包括室外干、湿球温度等；

冷水机组数据工况数据和控制方式包括负荷率、功率、主机出水温度，主机电流百分比、冷冻水流量和供回水温度；冷却水流量和供回水温度等；

冷冻水泵数据包括负荷率、功率、频率、冷冻水流量等；

冷却水泵数据包括符合率、功率、频率、冷却水流量等；

冷却塔数据包括负荷率、功率、频率、冷却水流量、供回水温度等；

采样点共84个，选取t+n时刻，构成矩阵，n＝4，采样频率每15分钟一次。

(2)动作，包括设备启停；冷水机组出水温度；水泵、冷却塔频率等。

(3)奖励，以能效比最大化作为优化目标：空调***能效比EER的计算公式:EER＝Qch/Ptotal，其中，Qch表示冷水机组制备的冷量，单位kW；Ptotal表示空调***各设备的运行功率总和，单位kW，其计算公式为:Ptotal＝Pchiller+Ppumpch+Ppumpc+Ptower，其中，Pchiller表示冷水机组的运行功率，Ppumpch、Ppumpc分别为冷冻水泵运行功率和冷却水泵运行功率，Ptower表示冷却塔风机运行功率，单位均为kW。

(4)沿用标准A3C损失函数设定，损失函数Total_loss包括策略网络损失函数Policy_loss和价值网络损失函数Value_loss以及熵损失函数Entropy_loss的加权平均，这里α和β取值分布为0.5

Total_loss＝Policy_loss+α*Value_loss+β*Entropy_loss

通过前面准备好的仿真模拟环境，A3C算法进行训练，这里设置训练代数为100000，通常奖励函数可逐步提高到一个稳定值附近小幅波动，此时可认为训练完成。

仿真学习：收集所述综合能源***的运行数据，采用网络结构对所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元进行工况参数拟合，获得真实工况参数；对于所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元，评价仿真环境采用的工况参数与真实工况参数之间的差异，当差异超过预设的工况参数差异阈值时，采用真实工况参数作为仿真环境所采用的工况参数；所述仿真环境采用的工况参数与真实工况参数之间的差异，采用RMSE、MAPE等指标表征。

部署上线运行

(1)接口对接，本实施例通过BAS提供的API接口完成对接，可完成数据采集和设备控制。

(2)上线运行，将训练好的智能体通过接口实现状态采集和控制下发，完成上线。

(3)约束条件：智能体训练过程中，***各控制变量均存在探索过程并最终达到稳定值。在***实际运行时，为保证***温度运行，各控制参数存在阈值约束，其限定范围如下：冷冻水供水温度：7.2℃≤Tchws≤16℃；冷却塔风机电压：5V≤ft≤8.9V；冷冻水泵流量：70m³/h≤fpumpch≤192m³/h；冷却水泵流量：90m³/h≤fpumpc≤250m³/h；冷冻水阀开度：23％≤d≤74％。

(4)数据采集，考虑采样频率为15分钟，为保证有足够训练数据，采集最近1个月所有采样点数据。

通过上线的运行数据，可以使用神经网络学习仿真***中各组件，使其更符合真实环境，从而为决策智能的强化学习训练提供更为准确的仿真环境，优化决策控制效果。

(1)Input/Output：选取最近1个月历史运行数据，本文对实测样本数据进行了归一化和反归一化处理。本文在进行处理时，采用线性函数转换方法，将数据转换成0至1范围内的数值。

(2)网络结构：选用三层前馈神经网络(一个输入层、一个隐含层和一个输出层)建立***模型,三层前馈神经网络已能以高精度有效逼近任何一个非线性过程。输入层节点数设为11，隐含层节点数设为9，输出层节点数设为2，激活函数隐含层为relu，输出层为sigmoid，损失函数为RMSE，采用优化器为adam，训练代数设为10000，损失函数可逐步下降，稳定在较小的差异值。

(3)导入EnergePlus。将不同负载下的功耗曲线取样转为表格，输入EnergyPlus各设备设定曲线中，从而调整仿真环境参数设置。

评估调整后的仿真环境输出与真实环境采集值间的差距。同样，采用均方根误差作为评估标准，当预测值与真实值完全吻合时等于0，误差越大，该值越大。其中，分别计算了冷机、冷却塔、水泵在3个不同时间段、在不同负荷时的功耗，以及不同外部温度和风扇频率下的水温这几个关键值在仿真环境和真实采集数据的差距。如果RMSE与真实值之间差距除以真实功耗超过阈值(0.5)，则认为仿真环境需要更新，并重新训练。说明：常用差异评估指标包括RMSE、MAPE等均可用于评估差异。

当获得待更新的仿真环境后，采用当前的决策智能体分别在当前仿真环境下和待更新的仿真环境下进行综合能源***控制优化策略的决策，获得待更新的仿真环境优化和当前的仿真环境的优化控制策略，并评价：相对于当前的仿真环境优化控制策略的优化结果而言，所述待更新的仿真环境优化控制策略的优化效果的提升幅度，当提升幅度超过预设的优化效果提升阈值时，将待更新的仿真环境优化控制策略进行上线控制，将待更新的仿真环境作为当前的仿真环境，否则将待当前的仿真环境优化控制策略进行上线控制，抛弃所述待更新的仿真环境。这里阈值取1％。

本实施例上线采集数据，反复交替进行仿真学习和决策学习，持续改进效果，适应环境变化。

实施例2能源供给型综合能源***控制优化

本实施例重点描述如何进行一个光伏储能微电网***的仿真学习和决策学习，构建包括光伏和储能在内的综合能源***源端***。有部分历史数据的情况下，初步仿真环境构建也可直接采用数据驱动方式完成。本实施例即直接基于历史数据完成仿真环境学习。其它步骤与实施例一类似，不再重复。

仿真环境初始化：该能源供给型综合能源***，包括：

供能单元：光伏设备数据格式为X_t＝[x1，x2...x8，x9，]，其中xi分别为t时刻的发电功率x1、湿度x2、气压x3、环境温度x4、光伏电池板温度x5、总辐射强度x6、散射辐射强度x7、直接辐射强度x8，以及风速x9，输出为光伏输出功率；某地光伏电站从当年9月次年2月共计6个月的历史发电数据集。数据集中每15min记录一次，每日96个记录点，共计17000余条数据。

能源存储单元：电池储能设备，用于锂电池SOH预测所需数据的输入为电压、温度在整个充放电循环内的预测值以及充放电电流，输出为预测循环中的锂电池SOH值。而用于锂电池SOC预测所需的数据除了电压、电流、温度之外，还将SOH预测值作为输入。值得注意的是SOH相较于SOC变化速度较慢，因此可认为在预测SOC时，作为输入数据的SOH在单次充放电循环中是不变的。

仿真学习：基于历史数据，完成仿真环境参数的学习。优选采用神经网络模型作为决策智能体；

神经网络模型确定参数，本文最终将隐藏层设置为150层，每层的隐藏节点设置为128个，训练次数设置为2500次，学习率设置为0.01，将dropout设置为0.5来抑制过拟合，优化方法采用Adam。

完成仿真环境学习后，在当前的仿真环境下，进行所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式仿真，获得训练数据训练决策智能体，优选采用强化学习模型作为决策智能体；强化学习算法和核心要素包括状态、动作和奖励的设计及损失函数等。下面分别介绍在本实施例中的相关内容设计。

状态：时间信息S_t包含与时间相关的微电网状态信息，基于这些信息，可以反映微电网动态信息。

表示每15分钟，与96点电价一致，/>

表示一周中的哪一天，学习负荷模式和光伏生产概况等信息。大多数负荷和光伏***往往分别遵循相似的日常消费和生产模式。上述信息包括天气、室外温、湿度、光照强度、有功功率、无功功率、SOC、电价等。

动作：在每个时间步骤中，决策智能体可以采取的可能行动是，根据微电网的状态，让电池闲置，为电池充电或放电。在这方面，这项工作考虑了一个由三个选项组成的行动空间，即a∈[0,1,2]，其中：

a＝0：电池闲置，即通过使用光伏***产生的能源和/或从电网购买来满足所有电力需求。

a＝1：使用光伏产生的所有电力为电池充电，同时从当地公用事业电网购买消费者所需的所有能源。

a＝2：通过放电电池来满足部分或全部能源需求；如果电池产生的光伏和放电能量不足，请从电网购买电力。

奖励函数：这项工作的目标是最大限度地提高光伏***产生的电力的自消耗，从而最大限度地减少从电网购买或出售到电网的电力量。成本函数给出的成本c，ρ当***处于状态并采取行动a时，定义为：

ρ(s,a)＝λ_impP_imp+λ_injP_inj

地点λ_imp和λ_inj代表在15分钟内购买或出售一千瓦电力的价格，以及P_imp和P_inj分别表示从电网进口或注入电网的功率(以千瓦为单位)。P_imp和P_inj是控制行为的结果。P_inj定义为逆变器输出功率减去负载，P_inj＝逆变器输出功率-load。

部署上线运行，通过上线的运行数据，可以使用神经网络学习仿真***中各组件，使其更符合真实环境，从而为决策智能的强化学习训练提供更为准确的仿真环境，优化决策控制效果。评估优化效果，上线采集数据，反复进行，持续改进仿真及决策效果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种仿真与决策交替学习的综合能源***控制优化方法，其特征在于，包括以下步骤：

2.如权利要求1所述的仿真与决策交替学习的综合能源***控制优化方法，其特征在于，所述仿真环境初始化，具体为：

3.如权利要求2所述的仿真与决策交替学习的综合能源***控制优化方法，其特征在于，所述供能单元的工况参数包括：不同设备工作状况下输出能源量；供能成本，即产生单位能源所需的价格；外部环境参数；所述供能单元的控制方式包括：提高或降低输出能源量；

4.如权利要求1所述的仿真与决策交替学习的综合能源***控制优化方法，其特征在于，所述根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体具体为：

在当前的仿真环境下，进行所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式仿真，获得训练数据训练决策智能体。

5.如权利要求4所述的仿真与决策交替学习的综合能源***控制优化方法，其特征在于，采用强化学习模型作为决策智能体；

6.如权利要求5所述的仿真与决策交替学习的综合能源***控制优化方法，其特征在于，对于能源消耗型综合能源***，控制优化目标为能效比最大；对于能源供给型综合能源***，控制优化目标为供能成本最小。

7.如权利要求5所述的仿真与决策交替学习的综合能源***控制优化方法，其特征在于，所述损失函数，包括策略网络损失、价值网络损失、和/或熵损失。

8.如权利要求1所述的仿真与决策交替学习的综合能源***控制优化方法，其特征在于，所述根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境具体为：

9.如权利要求8所述的仿真与决策交替学习的综合能源***控制优化方法，其特征在于，所述仿真环境当前采用的工况参数与真实工况参数之间的差异，采用RMSE、MAPE等指标表征。

10.一种仿真与决策交替学习的综合能源***控制优化***，其特征在于，包括：仿真环境、决策智能体、仿真学习模块、以及决策学习模块；