CN114781274B - 仿真与决策交替学习的综合能源***控制优化方法与*** - Google Patents
仿真与决策交替学习的综合能源***控制优化方法与*** Download PDFInfo
- Publication number
- CN114781274B CN114781274B CN202210538853.5A CN202210538853A CN114781274B CN 114781274 B CN114781274 B CN 114781274B CN 202210538853 A CN202210538853 A CN 202210538853A CN 114781274 B CN114781274 B CN 114781274B
- Authority
- CN
- China
- Prior art keywords
- energy
- decision
- simulation
- learning
- simulation environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 248
- 238000005457 optimization Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000002787 reinforcement Effects 0.000 claims abstract description 30
- 230000000694 effects Effects 0.000 claims abstract description 24
- 238000004146 energy storage Methods 0.000 claims description 42
- 230000005540 biological transmission Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 20
- 230000003247 decreasing effect Effects 0.000 claims description 18
- 230000006872 improvement Effects 0.000 claims description 18
- 238000011217 control strategy Methods 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 11
- 238000005265 energy consumption Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 claims description 5
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 9
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 52
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 23
- 239000000498 cooling water Substances 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000001816 cooling Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 230000005611 electricity Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000004378 air conditioning Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007599 discharging Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 229910052744 lithium Inorganic materials 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000005338 heat storage Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/06—Power analysis or power optimisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种仿真与决策交替学习的综合能源***控制优化方法与***,首先通过机理或数据驱动的方法,快速构建仿真环境,满足决策学习需求,学习得到可用于线上部署的决策智能体,通过真实运行数据,使用数据驱动的方法,学习得到待更新的仿真环境,从而得到更符合真实运行状态的仿真环境,评估前后仿真环境的差异,在此基础上继续数据采集,反复交替执行上述过程,从而使得仿真环境和决策智能不断得到优化,并互相促进,充分发挥强化学习的决策优势,同时适应不断变化的环境,由此解决现有的综合能源***控制优化方法所基于的仿真环境固化,不能反应当前真实***的状态,导致基于仿真的优化控制效果不佳的技术问题。
Description
技术领域
本发明属于节能技术领域,更具体地,涉及一种仿真与决策交替学习的综合能源***控制优化方法与***。
背景技术
综合能源***指在规划、建设和运行等过程中,通过对能源的产生、传输与分配、转换、存储、消费等环节进行有机协调与优化后,形成的能源产供销一体化***。
实现和增强综合能源管理能力,核心在于基于数据的智能分析和决策能力。在耗能设备进行信息收集、节能分析的同时,还能够通过整合和统筹各类数据,给出有效的调度建议,这直接依赖于***智能程度。因此,如何赋予并强化综合能源管理***智能决策能力是关键。
成熟的控制技术基于规则的控制进行能源管理,如PID等控制方法。然而由于综合能源管理***面对的是大范围多用户场景,各个用能单位情况不一,很难寻找普适的控制规则,无法做到面面俱到和实时调整,导致该类方法仅仅在某些场景下有效,甚至存在不少漏洞。目前也有尝试采用模型预测控制,由于用户耗能***的运行特性复杂多变,在学术领域,部分研究使用一种优化控制方法叫做“模型预测控制”(Model Predictive Control,MPC)。这种方法基于数学优化来解决各个能耗***的控制决策问题。然而这样的复杂***很难用“低阶”的模型来表现,更不可能针对每一个用户都进行单独定制。基于强化学习的决策人工智能也更加适合为综合能源管理***提供赋能,该方式无须进行复杂的数学建模,但需要大量真实控制和反馈数据作为支撑,而直接在真实环境中进行控制并收集数据时间长、风险大。
综合能源***仿真是综合能源领域常用方法,强化学习也可方便的机遇基于仿真进行。然而,综合能源涉及复杂设备的仿真,仿真结果往往与真实情况存在一定差异,而且,随时间设备状态和工况会持续变化。这不可避免的影响强化学习得到的决策效果。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种仿真与决策交替学习的综合能源***控制优化方法与***,首先通过机理或数据驱动的方法,快速构建仿真环境,满足决策学习需求,学习得到可用于线上部署的决策智能体,随后,周期性通过真实运行数据,使用数据驱动的方法,学习得到待更新的仿真环境,从而得到更符合真实运行状态的仿真环境,评估前后仿真环境的差异,在此基础上继续数据采集,反复交替执行上述过程,从而使得仿真环境和决策智能不断得到优化,并互相促进,充分发挥强化学习的决策优势,同时适应不断变化的环境,由此解决现有的综合能源***控制优化方法所基于的仿真环境固化,不能反应当前真实***的状态,导致基于仿真的优化控制效果不佳的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种仿真与决策交替学习的综合能源***控制优化方法,其包括以下步骤:
在对仿真环境进行初始化后,周期性地交替进行仿真学习和决策学习;其中:
所述仿真学习,根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境;当待更新的仿真环境与当前的仿真环境差异超过预设的工况参数差异阈值时,将待更新的仿真环境更新为当前的仿真环境;否则继续收集所述综合能源***运营数据,用于下一次仿真学习;其中,所述综合能源***的工况参数包括所述综合能源***中的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的工况参数;
所述决策学习,当仿真学习更新仿真环境后,在当前的仿真环境下,根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,获得待更新的决策智能体;比较当前的决策智能体和待更新的决策智能体对当前仿真环境作出的优化控制策略的优化效果,当待更新的决策智能体相对于当前仿真环境作出的优化控制策略的优化效果提升幅度超过预设的提升阈值时,将待更新的决策智能体更新为当前的决策智能体;否则当仿真学习再次更新仿真环境后,进行下一次决策学习。
优选地,所述仿真与决策交替学习的综合能源***控制优化方法,其所述仿真环境初始化,具体为:
获取待进行优化控制的综合能源***的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的状态信息和拓扑连接关系,并根据上述信息建立仿真模型网络模拟所述综合能源***;所述状态信息包括工况参数和控制方式,以及外部环境参数。
优选地,所述仿真与决策交替学习的综合能源***控制优化方法,其所述供能单元的工况参数包括:不同设备工作状况下输出能源量;供能成本,即产生单位能源所需的价格;外部环境参数;所述供能单元的控制方式包括:提高或降低输出能源量;
所述能源传输网络的工况参数包括:不同设备工作状况下的输入能源量、输出传输量;所述能源存储单元的控制方式包括:提高或降低输出传输量;
所述能源存储单元的工况参数包括:输入能源量、输出能源量、以及存储容量;所述能源存储单元的控制方式包括:提高或降低输入能源量、提高或降低输出能源量;
所述能源交换单元的工况参数包括:输入能源量、输出能源量;所述能源交换单位的控制方式包括:提高或降低输出能源量;
所述终端供用单元的工况参数包括:输入能源量;所述终端供用单元的控制方式包括:提高或降低输入能源量、切换供能单元。
优选地,所述仿真与决策交替学习的综合能源***控制优化方法,其所述根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,具体为:
在当前的仿真环境下,进行所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式仿真,获得训练数据训练决策智能体
优选地,所述仿真与决策交替学习的综合能源***控制优化方法,其采用强化学习模型作为决策智能体;
其中强化学习模型的状态空间为:所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的状态信息的集合;强化学习模型的动作空间为所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式集合;强化学习模型的奖励和/或损失函数,根据控制优化目标确定,所述优化目标为能效比最大、或单位供能成本最小。
优选地,所述仿真与决策交替学习的综合能源***控制优化方法,其对于能源消耗型综合能源***,控制优化目标为能效比最大;对于能源供给型综合能源***,控制优化目标为供能成本最小。
优选地,所述仿真与决策交替学习的综合能源***控制优化方法,其所述损失函数,包括策略网络损失、价值网络损失、和/或熵损失。
优选地,所述仿真与决策交替学习的综合能源***控制优化方法,其根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境具体为:
收集所述综合能源***的运行数据,采用网络结构对所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元进行工况参数拟合,获得真实工况参数;对于所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元,评价仿真环境当前采用的工况参数与真实工况参数之间的差异,当差异超过预设的工况参数差异阈值时,采用真实工况参数作为仿真环境所采用的工况参数。
优选地,所述仿真与决策交替学习的综合能源***控制优化方法,其所述仿真环境当前采用的工况参数与真实工况参数之间的差异,采用RMSE、MAPE等指标表征。
按照本发明的另一个方面,提供了一种仿真与决策交替学习的综合能源***控制优化***,其包括:仿真环境、决策智能体、仿真学习模块、以及决策学习模块;
仿真环境,用于提供所述决策学习模块的仿真数据;所述决策智能体用于决策综合能源***控制优化策略;
所述仿真学习模块,用于根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境;当待更新的仿真环境与当前的仿真环境差异超过预设的工况参数差异阈值时,将待更新的仿真环境更新为当前的仿真环境;否则继续收集所述综合能源***运营数据,用于下一次仿真学习;其中,所述综合能源***的工况参数包括所述综合能源***中的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的工况参数;
所述决策学习模块,用于在当前的仿真环境下,根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,并将决策智能体提交给所述更新控制模块;
所述更新控制模块,用于当仿真学习更新仿真环境后,在当前的仿真环境下,根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,获得待更新的决策智能体;比较当前的决策智能体和待更新的决策智能体对当前仿真环境作出的优化控制策略的优化效果,当待更新的决策智能体相对于当前仿真环境作出的优化控制策略的优化效果提升幅度超过预设的提升阈值时,将待更新的决策智能体更新为当前的决策智能体;否则当仿真学习再次更新仿真环境后,进行下一次决策学习。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
本方案设计了一种仿真与决策交替学习的综合能源***控制优化方法,反复交替仿真学习和决策学习过程,从而使得仿真环境和决策智能不断得到优化,并互相促进,充分发挥强化学习的决策优势,同时适应不断变化的环境。本发明通过深度学习交替学习仿真和决策,交替优化仿真环境和决策智能体,得到更接近真实的仿真环境,进而得到更优化的决策智能体。持续交替进行,使得仿真环境和决策智能都不断得到优化,充分发挥强化学习的决策优势,同时适应不断变化的环境。
附图说明
图1是本发明提供的仿真与决策交替学习的综合能源***控制优化方法流程示意图;
图2是本发明实施例1提供的能源消耗型综合能源***结构示意图;
图3是本发明实施例2提供的能源供给型综合能源***结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
一般使用强化学习算法解决综合能源中的决策问题时,依靠设计特定算法来获得决策结果,然而不考虑强化学习所需的仿真环境是否能有效模拟真实的应用环境,因此不能解决落地中准确的仿真环境构建困难、与真实环境差异大。最终现有的强化学习方法在解决综合能源决策问题时,决策智能体效果不佳,难以上线真实部署;此外,真实部署过程中设备工况等会随运行时间发生变化,如果不对仿真环境进行更新,就无法体现工况随时间的变化情况,智能学习算法对于如何适应环境改变也为给出有效方法。
我们分析综合能源***,它主要由供能网络和设备(如供电、供气、供冷/热等网络)、能源交换设备(如CCHP机组、发电机组、锅炉、空调、热泵、光伏等)、能源存储设备(储电、储气、储热、储冷等)、终端供用单元(如微网控制)和用户(负荷)共同构成。
基于以上分析,对于需要进行优化控制的综合能源***,本发明提供的仿真与决策交替学习的综合能源***控制优化方法,包括以下步骤:
在对仿真环境进行初始化后,周期性地交替进行仿真学习和决策学习;其中:
所述仿真学习,根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境;当待更新的仿真环境与当前的仿真环境差异超过预设的工况参数差异阈值时,将待更新的仿真环境更新为当前的仿真环境;否则继续收集所述综合能源***运营数据,用于下一次仿真学习;其中,所述综合能源***的工况参数包括所述综合能源***中的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的工况参数;
所述决策学习,当仿真学习更新仿真环境后,在当前的仿真环境下,根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,获得待更新的决策智能体;比较当前的决策智能体和待更新的决策智能体对当前仿真环境作出的优化控制策略的优化效果,当待更新的决策智能体相对于当前仿真环境作出的优化控制策略的优化效果提升幅度超过预设的提升阈值时,将待更新的决策智能体更新为当前的决策智能体;否则当仿真学习再次更新仿真环境后,进行下一次决策学习。
仿真环境初始化,具体为:获取待进行优化控制的综合能源***的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的状态信息和拓扑连接关系,并根据上述信息建立仿真模型网络模拟所述综合能源***;所述状态信息包括工况参数和控制方式,以及外部环境参数,如温湿度、光照等。
所述供能单元的工况参数包括:输出能源量,不同设备工作状况下输出能源量,如电量、制冷量等;供能成本,即产生单位能源所需的价格,如电价等;所述供能单元的控制方式包括:提高或降低输出能源量;
所述能源传输网络的工况参数包括:不同设备工作状况下的输入能源量、输出传输量,如输入电量、输出流量等;所述能源存储单元的控制方式包括:提高或降低输出传输量;
所述能源存储单元的工况参数包括:输入能源量、输出能源量、以及存储容量;所述能源存储单元的控制方式包括:提高或降低输入能源量、提高或降低输出能源量;
所述能源交换单元的工况参数包括:输入能源量、输出能源量;所述恒源交换单位的控制方式包括:提高或降低输出能源量;
所述终端供用单元的工况参数包括:输入能源量;所述终端供用单元的控制方式包括:提高或降低输入能源量、切换供能单元。
所述根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,具体为:在当前的仿真环境下,进行所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式仿真,获得训练数据训练决策智能体,优选采用强化学习模型作为决策智能体;
其中强化学习模型的状态空间为:所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的状态信息的集合;强化学习模型的动作空间为所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式集合;强化学习模型的奖励和/或损失函数,根据控制优化目标确定,所述优化目标为能效比最大、或单位供能成本最小;
具体而言,对于能源消耗型综合能源***,控制优化目标优选为能效比最大,从而在满足终端供用单元的需求前提下,最大限度地节约能源消耗;对于能源供给型综合能源***,控制优化目标优选为供能成本最小,从而降低供能成本。
所述损失函数,包括策略网络损失、价值网络损失、和/或熵损失。
所述根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境,具体为:收集所述综合能源***的运行数据,采用神经网络结构对所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元进行工况参数拟合,获得真实工况参数;对于所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元,评价仿真环境当前采用的工况参数与真实工况参数之间的差异,当差异超过预设的工况参数差异阈值时,采用真实工况参数作为仿真环境所采用的工况参数;所述仿真环境当前采用的工况参数与真实工况参数之间的差异,采用RMSE、MAPE等指标表征。
本发明提供的仿真与决策交替学习的综合能源***控制优化***,包括:仿真环境、决策智能体、仿真学习模块、以及决策学习模块;
仿真环境,用于提供所述决策学习模块的仿真数据;所述决策智能体用于决策综合能源***控制优化策略;
所述仿真学习模块,用于根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境;当待更新的仿真环境与当前的仿真环境差异超过预设的工况参数差异阈值时,将待更新的仿真环境更新为当前的仿真环境;否则继续收集所述综合能源***运营数据,用于下一次仿真学习;其中,所述综合能源***的工况参数包括所述综合能源***中的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的工况参数;
所述决策学习模块,用于在当前的仿真环境下,根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,并将决策智能体提交给所述更新控制模块;
所述更新控制模块,用于当仿真学习更新仿真环境后,在当前的仿真环境下,根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,获得待更新的决策智能体;比较当前的决策智能体和待更新的决策智能体对当前仿真环境作出的优化控制策略的优化效果,当待更新的决策智能体相对于当前仿真环境作出的优化控制策略的优化效果提升幅度超过预设的提升阈值时,将待更新的决策智能体更新为当前的决策智能体;否则当仿真学习再次更新仿真环境后,进行下一次决策学习。
以下为实施例:
实施例1能源消耗型综合能源***控制优化
本实施例将集中于综合能源领域的建筑空调节能方案,通过建筑领域常用的EnergePlus内置设备参数完成初步仿真,通过A3C强化学习算法在仿真环境训练得到初步决策智能体,上线积累真实数据后,通过神经网络学习完成仿真环境中设备建模,更新Energyplus中的设备设置参数,从而得到新的仿真环境,并在新的仿真环境中训练决策智能体。经过多次交替训练,仿真与真实的误差逐步降低,决策优化更加准确。
仿真环境初始化:该能源消耗型综合能源***,包括:
能源传输网络:冷冻水泵、冷却水泵
能源交换单元:冷水机组、冷却塔
终端供用单元:风机盘管
完成仿真环境配置:
(1)构建建筑和空调***。通过DesignBuilder软件新建建筑,并新建HVAC***,添加Zone Group到当前Layout中。
(2)在空调***中添加末端设备(风机盘管)、冷冻水循环(包括冷冻水泵、冷机)、冷却水循环(包括冷却水泵、冷却塔),并按照真实***设备数量和连接方式将上述设备连接起来。
(3)选择设备类型参数及设置setpoint:选择与真实设备参数尽量接近的设备型号和控制方法。
(4)导出idf配置文件。通过上述步骤,完成基本仿真环境设定,导出EnergyPlus的idf配置文件。上述过程亦可通过直接编写EnergyPlus配置文件进行。
支持通过API调用仿真模拟。使用官方提供的python API,指定导出的idf配置文件,即可通过python代码加载该配置文件,调用Energyplus完成该配置指定的仿真环境模拟,从而支持强化学习训练和测试。
本方法对于仿真环境的构建工具无特定要求,但要求可配置设备工况曲线等关键参数,使得根据真实设备运行数据学习得到的数据能够更新仿真环境。
决策学习:在当前的仿真环境下,进行所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式仿真,获得训练数据训练决策智能体,优选采用强化学习模型作为决策智能体;
强化学习算法和核心要素包括状态、动作和奖励的设计及损失函数等。下面分别介绍在本实施例中的相关内容设计。
(1)状态,包括工况参数和控制方式,以及外部环境参数,其中,外部环境参数主要包括室外干、湿球温度等;
冷水机组数据工况数据和控制方式包括负荷率、功率、主机出水温度,主机电流百分比、冷冻水流量和供回水温度;冷却水流量和供回水温度等;
冷冻水泵数据包括负荷率、功率、频率、冷冻水流量等;
冷却水泵数据包括符合率、功率、频率、冷却水流量等;
冷却塔数据包括负荷率、功率、频率、冷却水流量、供回水温度等;
采样点共84个,选取t+n时刻,构成矩阵,n=4,采样频率每15分钟一次。
(2)动作,包括设备启停;冷水机组出水温度;水泵、冷却塔频率等。
(3)奖励,以能效比最大化作为优化目标:空调***能效比EER的计算公式:EER=Qch/Ptotal,其中,Qch表示冷水机组制备的冷量,单位kW;Ptotal表示空调***各设备的运行功率总和,单位kW,其计算公式为:Ptotal=Pchiller+Ppumpch+Ppumpc+Ptower,其中,Pchiller表示冷水机组的运行功率,Ppumpch、Ppumpc分别为冷冻水泵运行功率和冷却水泵运行功率,Ptower表示冷却塔风机运行功率,单位均为kW。
(4)沿用标准A3C损失函数设定,损失函数Totalloss包括策略网络损失函数Policyloss和价值网络损失函数Valueloss以及熵损失函数Entropyloss的加权平均,这里α和β取值分布为0.5
Totalloss=Policyloss+α*Valueloss+β*Entropyloss
通过前面准备好的仿真模拟环境,A3C算法进行训练,这里设置训练代数为100000,通常奖励函数可逐步提高到一个稳定值附近小幅波动,此时可认为训练完成。
仿真学习:收集所述综合能源***的运行数据,采用网络结构对所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元进行工况参数拟合,获得真实工况参数;对于所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元,评价仿真环境采用的工况参数与真实工况参数之间的差异,当差异超过预设的工况参数差异阈值时,采用真实工况参数作为仿真环境所采用的工况参数;所述仿真环境采用的工况参数与真实工况参数之间的差异,采用RMSE、MAPE等指标表征。
部署上线运行
(1)接口对接,本实施例通过BAS提供的API接口完成对接,可完成数据采集和设备控制。
(2)上线运行,将训练好的智能体通过接口实现状态采集和控制下发,完成上线。
(3)约束条件:智能体训练过程中,***各控制变量均存在探索过程并最终达到稳定值。在***实际运行时,为保证***温度运行,各控制参数存在阈值约束,其限定范围如下:冷冻水供水温度:7.2℃≤Tchws≤16℃;冷却塔风机电压:5V≤ft≤8.9V;冷冻水泵流量:70m3/h≤fpumpch≤192m3/h;冷却水泵流量:90m3/h≤fpumpc≤250m3/h;冷冻水阀开度:23%≤d≤74%。
(4)数据采集,考虑采样频率为15分钟,为保证有足够训练数据,采集最近1个月所有采样点数据。
通过上线的运行数据,可以使用神经网络学习仿真***中各组件,使其更符合真实环境,从而为决策智能的强化学习训练提供更为准确的仿真环境,优化决策控制效果。
(1)Input/Output:选取最近1个月历史运行数据,本文对实测样本数据进行了归一化和反归一化处理。本文在进行处理时,采用线性函数转换方法,将数据转换成0至1范围内的数值。
(2)网络结构:选用三层前馈神经网络(一个输入层、一个隐含层和一个输出层)建立***模型,三层前馈神经网络已能以高精度有效逼近任何一个非线性过程。输入层节点数设为11,隐含层节点数设为9,输出层节点数设为2,激活函数隐含层为relu,输出层为sigmoid,损失函数为RMSE,采用优化器为adam,训练代数设为10000,损失函数可逐步下降,稳定在较小的差异值。
(3)导入EnergePlus。将不同负载下的功耗曲线取样转为表格,输入EnergyPlus各设备设定曲线中,从而调整仿真环境参数设置。
评估调整后的仿真环境输出与真实环境采集值间的差距。同样,采用均方根误差作为评估标准,当预测值与真实值完全吻合时等于0,误差越大,该值越大。其中,分别计算了冷机、冷却塔、水泵在3个不同时间段、在不同负荷时的功耗,以及不同外部温度和风扇频率下的水温这几个关键值在仿真环境和真实采集数据的差距。如果RMSE与真实值之间差距除以真实功耗超过阈值(0.5),则认为仿真环境需要更新,并重新训练。说明:常用差异评估指标包括RMSE、MAPE等均可用于评估差异。
当获得待更新的仿真环境后,采用当前的决策智能体分别在当前仿真环境下和待更新的仿真环境下进行综合能源***控制优化策略的决策,获得待更新的仿真环境优化和当前的仿真环境的优化控制策略,并评价:相对于当前的仿真环境优化控制策略的优化结果而言,所述待更新的仿真环境优化控制策略的优化效果的提升幅度,当提升幅度超过预设的优化效果提升阈值时,将待更新的仿真环境优化控制策略进行上线控制,将待更新的仿真环境作为当前的仿真环境,否则将待当前的仿真环境优化控制策略进行上线控制,抛弃所述待更新的仿真环境。这里阈值取1%。
本实施例上线采集数据,反复交替进行仿真学习和决策学习,持续改进效果,适应环境变化。
实施例2能源供给型综合能源***控制优化
本实施例重点描述如何进行一个光伏储能微电网***的仿真学习和决策学习,构建包括光伏和储能在内的综合能源***源端***。有部分历史数据的情况下,初步仿真环境构建也可直接采用数据驱动方式完成。本实施例即直接基于历史数据完成仿真环境学习。其它步骤与实施例一类似,不再重复。
仿真环境初始化:该能源供给型综合能源***,包括:
供能单元:光伏设备数据格式为Xt=[x1,x2...x8,x9,],其中xi分别为t时刻的发电功率x1、湿度x2、气压x3、环境温度x4、光伏电池板温度x5、总辐射强度x6、散射辐射强度x7、直接辐射强度x8,以及风速x9,输出为光伏输出功率;某地光伏电站从当年9月次年2月共计6个月的历史发电数据集。数据集中每15min记录一次,每日96个记录点,共计17000余条数据。
能源存储单元:电池储能设备,用于锂电池SOH预测所需数据的输入为电压、温度在整个充放电循环内的预测值以及充放电电流,输出为预测循环中的锂电池SOH值。而用于锂电池SOC预测所需的数据除了电压、电流、温度之外,还将SOH预测值作为输入。值得注意的是SOH相较于SOC变化速度较慢,因此可认为在预测SOC时,作为输入数据的SOH在单次充放电循环中是不变的。
仿真学习:基于历史数据,完成仿真环境参数的学习。优选采用神经网络模型作为决策智能体;
神经网络模型确定参数,本文最终将隐藏层设置为150层,每层的隐藏节点设置为128个,训练次数设置为2500次,学习率设置为0.01,将dropout设置为0.5来抑制过拟合,优化方法采用Adam。
完成仿真环境学习后,在当前的仿真环境下,进行所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式仿真,获得训练数据训练决策智能体,优选采用强化学习模型作为决策智能体;强化学习算法和核心要素包括状态、动作和奖励的设计及损失函数等。下面分别介绍在本实施例中的相关内容设计。
状态:时间信息St包含与时间相关的微电网状态信息,基于这些信息,可以反映微电网动态信息。
表示每15分钟,与96点电价一致,/>表示一周中的哪一天,学习负荷模式和光伏生产概况等信息。大多数负荷和光伏***往往分别遵循相似的日常消费和生产模式。上述信息包括天气、室外温、湿度、光照强度、有功功率、无功功率、SOC、电价等。
动作:在每个时间步骤中,决策智能体可以采取的可能行动是,根据微电网的状态,让电池闲置,为电池充电或放电。在这方面,这项工作考虑了一个由三个选项组成的行动空间,即a∈[0,1,2],其中:
a=0:电池闲置,即通过使用光伏***产生的能源和/或从电网购买来满足所有电力需求。
a=1:使用光伏产生的所有电力为电池充电,同时从当地公用事业电网购买消费者所需的所有能源。
a=2:通过放电电池来满足部分或全部能源需求;如果电池产生的光伏和放电能量不足,请从电网购买电力。
奖励函数:这项工作的目标是最大限度地提高光伏***产生的电力的自消耗,从而最大限度地减少从电网购买或出售到电网的电力量。成本函数给出的成本c,ρ当***处于状态并采取行动a时,定义为:
ρ(s,a)=λimpPimp+λinjPinj
地点λimp和λinj代表在15分钟内购买或出售一千瓦电力的价格,以及Pimp和Pinj分别表示从电网进口或注入电网的功率(以千瓦为单位)。Pimp和Pinj是控制行为的结果。Pinj定义为逆变器输出功率减去负载,Pinj=逆变器输出功率-load。
部署上线运行,通过上线的运行数据,可以使用神经网络学习仿真***中各组件,使其更符合真实环境,从而为决策智能的强化学习训练提供更为准确的仿真环境,优化决策控制效果。评估优化效果,上线采集数据,反复进行,持续改进仿真及决策效果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种仿真与决策交替学习的综合能源***控制优化方法,其特征在于,包括以下步骤:
在对仿真环境进行初始化后,周期性地交替进行仿真学习和决策学习;其中:
所述仿真学习,根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境;当待更新的仿真环境与当前的仿真环境差异超过预设的工况参数差异阈值时,将待更新的仿真环境更新为当前的仿真环境;否则继续收集所述综合能源***运营数据,用于下一次仿真学习;其中,所述综合能源***的工况参数包括所述综合能源***中的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的工况参数;
所述决策学习,当仿真学习更新仿真环境后,在当前的仿真环境下,根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,获得待更新的决策智能体;比较当前的决策智能体和待更新的决策智能体对当前仿真环境作出的优化控制策略的优化效果,当待更新的决策智能体相对于当前仿真环境作出的优化控制策略的优化效果提升幅度超过预设的提升阈值时,将待更新的决策智能体更新为当前的决策智能体;否则当仿真学习再次更新仿真环境后,进行下一次决策学习。
2.如权利要求1所述的仿真与决策交替学习的综合能源***控制优化方法,其特征在于,所述仿真环境初始化,具体为:
获取待进行优化控制的综合能源***的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的状态信息和拓扑连接关系,并根据上述信息建立仿真模型网络模拟所述综合能源***;所述状态信息包括工况参数和控制方式,以及外部环境参数。
3.如权利要求2所述的仿真与决策交替学习的综合能源***控制优化方法,其特征在于,所述供能单元的工况参数包括:不同设备工作状况下输出能源量;供能成本,即产生单位能源所需的价格;外部环境参数;所述供能单元的控制方式包括:提高或降低输出能源量;
所述能源传输网络的工况参数包括:不同设备工作状况下的输入能源量、输出传输量;所述能源存储单元的控制方式包括:提高或降低输出传输量;
所述能源存储单元的工况参数包括:输入能源量、输出能源量、以及存储容量;所述能源存储单元的控制方式包括:提高或降低输入能源量、提高或降低输出能源量;
所述能源交换单元的工况参数包括:输入能源量、输出能源量;所述能源交换单位的控制方式包括:提高或降低输出能源量;
所述终端供用单元的工况参数包括:输入能源量;所述终端供用单元的控制方式包括:提高或降低输入能源量、切换供能单元。
4.如权利要求1所述的仿真与决策交替学习的综合能源***控制优化方法,其特征在于,所述根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体具体为:
在当前的仿真环境下,进行所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式仿真,获得训练数据训练决策智能体。
5.如权利要求4所述的仿真与决策交替学习的综合能源***控制优化方法,其特征在于,采用强化学习模型作为决策智能体;
其中强化学习模型的状态空间为:所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的状态信息的集合;强化学习模型的动作空间为所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的控制方式集合;强化学习模型的奖励和/或损失函数,根据控制优化目标确定,所述优化目标为能效比最大、或单位供能成本最小。
6.如权利要求5所述的仿真与决策交替学习的综合能源***控制优化方法,其特征在于,对于能源消耗型综合能源***,控制优化目标为能效比最大;对于能源供给型综合能源***,控制优化目标为供能成本最小。
7.如权利要求5所述的仿真与决策交替学习的综合能源***控制优化方法,其特征在于,所述损失函数,包括策略网络损失、价值网络损失、和/或熵损失。
8.如权利要求1所述的仿真与决策交替学习的综合能源***控制优化方法,其特征在于,所述根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境具体为:
收集所述综合能源***的运行数据,采用网络结构对所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元进行工况参数拟合,获得真实工况参数;对于所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元,评价仿真环境当前采用的工况参数与真实工况参数之间的差异,当差异超过预设的工况参数差异阈值时,采用真实工况参数作为仿真环境所采用的工况参数。
9.如权利要求8所述的仿真与决策交替学习的综合能源***控制优化方法,其特征在于,所述仿真环境当前采用的工况参数与真实工况参数之间的差异,采用RMSE、MAPE等指标表征。
10.一种仿真与决策交替学习的综合能源***控制优化***,其特征在于,包括:仿真环境、决策智能体、仿真学习模块、以及决策学习模块;
仿真环境,用于提供所述决策学习模块的仿真数据;所述决策智能体用于决策综合能源***控制优化策略;
所述仿真学习模块,用于根据收集的所述综合能源***运营数据对所述综合能源***的工况参数进行拟合获得待更新的仿真环境;当待更新的仿真环境与当前的仿真环境差异超过预设的工况参数差异阈值时,将待更新的仿真环境更新为当前的仿真环境;否则继续收集所述综合能源***运营数据,用于下一次仿真学习;其中,所述综合能源***的工况参数包括所述综合能源***中的所有供能单元、能源传输网络、能源交换单元、能源存储单元、和/或终端供用单元的工况参数;
所述决策学习模块,用于在当前的仿真环境下,根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,并将决策智能体提交给所述更新控制模块;
所述更新控制模块,用于当仿真学习更新仿真环境后,在当前的仿真环境下,根据仿真数据训练用于决策综合能源***控制优化策略的决策智能体,获得待更新的决策智能体;比较当前的决策智能体和待更新的决策智能体对当前仿真环境作出的优化控制策略的优化效果,当待更新的决策智能体相对于当前仿真环境作出的优化控制策略的优化效果提升幅度超过预设的提升阈值时,将待更新的决策智能体更新为当前的决策智能体;否则当仿真学习再次更新仿真环境后,进行下一次决策学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210538853.5A CN114781274B (zh) | 2022-05-17 | 2022-05-17 | 仿真与决策交替学习的综合能源***控制优化方法与*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210538853.5A CN114781274B (zh) | 2022-05-17 | 2022-05-17 | 仿真与决策交替学习的综合能源***控制优化方法与*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114781274A CN114781274A (zh) | 2022-07-22 |
CN114781274B true CN114781274B (zh) | 2023-07-14 |
Family
ID=82437042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210538853.5A Active CN114781274B (zh) | 2022-05-17 | 2022-05-17 | 仿真与决策交替学习的综合能源***控制优化方法与*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114781274B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117833353A (zh) * | 2023-11-30 | 2024-04-05 | 国家电网有限公司华东分部 | 电网有功控制智能体的仿真训练方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783916A (zh) * | 2019-01-02 | 2019-05-21 | 大连理工大学 | 一种基于仿真技术的空气压缩机群组优化调度决策方法 |
CN111860777A (zh) * | 2020-07-06 | 2020-10-30 | 中国人民解放军军事科学院战争研究院 | 面向超实时仿真环境的分布式强化学习训练方法及装置 |
CN112186799A (zh) * | 2020-09-22 | 2021-01-05 | 中国电力科学研究院有限公司 | 基于深度强化学习的分布式能源***自治控制方法及*** |
CN112906888A (zh) * | 2021-03-02 | 2021-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种任务执行方法及装置、电子设备和存储介质 |
CN113543176A (zh) * | 2021-07-08 | 2021-10-22 | 中国科学院深圳先进技术研究院 | 基于智能反射面辅助的移动边缘计算***的卸载决策方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169658A1 (en) * | 2001-03-08 | 2002-11-14 | Adler Richard M. | System and method for modeling and analyzing strategic business decisions |
CN111564849B (zh) * | 2020-05-15 | 2021-11-02 | 清华大学 | 基于两阶段深度强化学习的电网无功电压控制方法 |
CN115986839A (zh) * | 2022-12-26 | 2023-04-18 | 华中科技大学 | 一种风-水-火综合能源***的智能调度方法及*** |
-
2022
- 2022-05-17 CN CN202210538853.5A patent/CN114781274B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783916A (zh) * | 2019-01-02 | 2019-05-21 | 大连理工大学 | 一种基于仿真技术的空气压缩机群组优化调度决策方法 |
CN111860777A (zh) * | 2020-07-06 | 2020-10-30 | 中国人民解放军军事科学院战争研究院 | 面向超实时仿真环境的分布式强化学习训练方法及装置 |
CN112186799A (zh) * | 2020-09-22 | 2021-01-05 | 中国电力科学研究院有限公司 | 基于深度强化学习的分布式能源***自治控制方法及*** |
CN112906888A (zh) * | 2021-03-02 | 2021-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种任务执行方法及装置、电子设备和存储介质 |
CN113543176A (zh) * | 2021-07-08 | 2021-10-22 | 中国科学院深圳先进技术研究院 | 基于智能反射面辅助的移动边缘计算***的卸载决策方法 |
Non-Patent Citations (4)
Title |
---|
Behavioral and electrocortical effects of transcranial alternating current stimulation during advice-guided decision-making;Miles Wischnewski;Neuroimage: Reports;第1卷(第4期);1-11 * |
基于多智能体强化学习的多园区综合能源***协同优化运行研究;杨照 等;;电工电能新技术;第40卷(第8期);1-10 * |
基于深度强化学习的多能互补发电*** 负荷频率控制策略;梁煜东 等;;电工技术学报;第37卷(第7期);1768-1779 * |
多智能体合作环境下的分布式强化学习;傅波;陈鑫;何勇;吴敏;;华中科技大学学报(自然科学版)(第S1期);374-377 * |
Also Published As
Publication number | Publication date |
---|---|
CN114781274A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xin-gang et al. | Economic-environmental dispatch of microgrid based on improved quantum particle swarm optimization | |
Motevasel et al. | Multi-objective energy management of CHP (combined heat and power)-based micro-grid | |
CN114383299B (zh) | 基于大数据与动态仿真的中央空调***运行策略优化方法 | |
CN112633571A (zh) | 源网荷互动环境下基于lstm的超短期负荷预测方法 | |
CN112598195A (zh) | 楼宇型综合能源***运行优化方法、装置及终端设备 | |
CN114611772B (zh) | 一种基于多智能体强化学习的多微网***协同优化方法 | |
CN109767029A (zh) | 局域能源互联网中冷热电三联供***容量配置方法及*** | |
CN113794199B (zh) | 一种考虑电力市场波动的风电储能***最大收益优化方法 | |
CN115796393A (zh) | 基于多能互动的能源网管理优化方法、***及存储介质 | |
CN112131712B (zh) | 客户侧多能源***多目标优化方法和*** | |
CN112686571A (zh) | 基于动态自适应建模的综合智慧能源优化调度方法及*** | |
CN114781274B (zh) | 仿真与决策交替学习的综合能源***控制优化方法与*** | |
Habib et al. | Combined heat and power units sizing and energy cost optimization of a residential building by using an artificial bee colony algorithm | |
CN115146868A (zh) | 电热气耦合的农村微能源***协同规划方法及终端设备 | |
CN116432824A (zh) | 基于多目标粒子群的综合能源***优化方法及*** | |
Yu et al. | Research on energy management of a virtual power plant based on the improved cooperative particle swarm optimization algorithm | |
Fu et al. | Predictive control of power demand peak regulation based on deep reinforcement learning | |
CN113708418A (zh) | 微电网优化调度方法 | |
CN114169916A (zh) | 一种适应新型电力***的市场成员报价策略制定方法 | |
CN117833316A (zh) | 一种用户侧储能动态优化运行的方法 | |
CN116502921A (zh) | 一种园区综合能源***优化管理***及其协调调度方法 | |
CN116861636A (zh) | 一种资源与状态任务网络下的用能灵活性评估方法及*** | |
CN115619431A (zh) | 微电网的调度方法、装置、终端及存储介质 | |
CN111489031B (zh) | 基于源荷演化博弈的综合能源***中长期负荷预测***及方法 | |
CN112734451B (zh) | 一种基于非合作博弈的农业大棚多能源***和优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |