CN112614009B - 一种基于深度期望q-学习的电网能量管理方法及*** - Google Patents
一种基于深度期望q-学习的电网能量管理方法及*** Download PDFInfo
- Publication number
- CN112614009B CN112614009B CN202011418334.2A CN202011418334A CN112614009B CN 112614009 B CN112614009 B CN 112614009B CN 202011418334 A CN202011418334 A CN 202011418334A CN 112614009 B CN112614009 B CN 112614009B
- Authority
- CN
- China
- Prior art keywords
- learning
- power grid
- energy management
- neural network
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 57
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 99
- 238000000034 method Methods 0.000 claims abstract description 77
- 230000008569 process Effects 0.000 claims abstract description 60
- 238000013531 bayesian neural network Methods 0.000 claims abstract description 47
- 230000006870 function Effects 0.000 claims abstract description 40
- 230000007704 transition Effects 0.000 claims abstract description 23
- 230000002787 reinforcement Effects 0.000 claims abstract description 22
- 238000010248 power generation Methods 0.000 claims abstract description 21
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 238000004146 energy storage Methods 0.000 claims description 56
- 238000013528 artificial neural network Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 34
- 230000009471 action Effects 0.000 claims description 24
- 230000005611 electricity Effects 0.000 claims description 22
- 230000002688 persistence Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000005309 stochastic process Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 34
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007599 discharging Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000035699 permeability Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- MYVIATVLJGTBFV-UHFFFAOYSA-M thiamine(1+) chloride Chemical compound [Cl-].CC1=C(CCO)SC=[N+]1CC1=CN=C(C)N=C1N MYVIATVLJGTBFV-UHFFFAOYSA-M 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/004—Generation forecast, e.g. methods or systems for forecasting future energy generation
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/381—Dispersed generators
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/22—The renewable source being solar energy
- H02J2300/24—The renewable source being solar energy of photovoltaic origin
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/50—Photovoltaic [PV] energy
- Y02E10/56—Power conversion systems, e.g. maximum power point trackers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Power Engineering (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Algebra (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开基于双‑深度期望Q‑学习网络算法的电网能量管理方法及***,首先基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;将光伏出力的概率分布输入基于双‑深度期望Q‑学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略;***依据光伏发电出力策略运行各光伏出力设备运用;本发明将微电网经济调度问题模拟为马尔可夫决策过程,将目标函数和约束条件映射成强化学习的奖惩函数,利用其学习和与环境交互的能力获得最优决策,借助贝叶斯神经网络对学习环境中光伏发电出力的不确定性建模在马尔科夫决策过程中适当考虑状态随机转移,显著提高算法的收敛速度。
Description
技术领域
本发明涉及电网能量管理***技术领域,具体涉及一种基于深度期望Q-学习的电网能量管理方法及***。
背景技术
随着可再生能源发电技术的发展,光伏等分布式电源在电力***中的渗透率不断提高,为电力***安全和经济运行带来了问题甚至挑战。受气候等周围环境因素的影响,光伏等分布式电源出力的不确定性和时变性,对调度计划的制定带来了困难。如何对光伏出力的不确定性进行适当建模和高效求解是一个值得研究的重要问题。
在不确定性建模方面,目前常用方法主要有随机模型、模糊模型、区间数模型和机会约束模型。随机模型的拟合效果受限于所选分布函数的种类;区间数模型通过引入区间数来描述不确定性集合,规避极端条件下的风险,但所求策略较为保守,牺牲了***运行的经济性;机会约束模型通过将不确定性的调度模型转化成确定性优化问题,力图在最小化风险与最大化经济效益之间取得平衡。
考虑到不确定性优化模型求解相当复杂,一般将非线性优化模型线性化后再求解,目前常用方法包括混合整数规划,动态规划,随机线性规划,改进微分进化算法,飞蛾扑火算法等。经典优化算法难以求得该类非线性优化模型的全局最优解,而启发式优化算法一般耗时很长。在此背景下,针对光伏发电高渗透率的微电网,需要对光伏发电出力进行更为精准的建模并寻求高效的求解算法。
深度强化学习作为人工智能技术的一个迅速发展的分支,其通过与环境交互、反馈学习不断改进策略,可以自动适应不确定性因素的变化。与传统算法相比,深度强化学习算法不需要依赖明确的目标函数,代之以奖励函数对决策行为进行评价,能够根据不同的运行要求和优化目标给出相应的控制方案和优化策略,实现实时决策。
发明内容
为实现光伏出力的不确定性的适当建模和高效求解,本发明基于深度期望Q强化学习算法,提出一种电网能量管理方法及***,实现微电网实时能量和经济调度。
本发明通过下述技术方案实现:
本方案提供一种基于双-深度期望Q-学习网络算法的电网能量管理方法,包括以下步骤:
S1.基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;
S2.将光伏出力的概率分布输入基于双-深度期望Q-学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略;
S3.依据光伏发电出力策略运行各光伏出力设备。
进一步优化方案为,基于双-深度期望Q-学习网络算法的电网能量管理模型建立过程为:
T1.仅考虑储能***作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;
T2.将T1中电网能量管理模型建模为马尔可夫决策过程;
T3.基于光伏出力的概率分布,考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;
T4.设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型。
进一步优化方案为,S1中基于贝叶斯神经网络对预测点光伏出力不确定性建模具体过程为:
S11.读取预测点决定性因素、持续性影响因素、突发性影响因素的信息并进行数据预处理;
S12.将预处理后的预测点决定性因素数据、持续性影响因素数据输入贝叶斯神经网络的深度全连接层,将预处理后的突发性影响因素数据输入贝叶斯神经网络的概率层进行建模;
S13.经过多次模型训练后得到预测点的光伏出力概率分布。
进一步优化方案为,T1中以日运行成本最低的目标函数为:日运行成本为调度周期内购电成本和储能***运行成本之和,表示为:
式中:T为调度时段数;xt为t时段需要与主电网交换的电量,xt>0表示从主电网购电,反之向主电网卖电;cb,t/cg,t表示t时段从主电网买/和向主电网卖电的价格;τt为t时段储能***的运行成本,|·|+为取正函数。
进一步优化方案为,T1中微网运行约束包括:功率平衡约束条件、储能***运行约束条件和调度周期内电池状态约束。
进一步优化方案为,T2中马尔可夫决策过程具体建模过程包括:
考虑***变量的多样性和必要性构建状态空间;
考虑储能***的充放电和向电网买卖电量的动作以保证***内部的功率平衡来构建动作空间;
将目标函数映射为奖励决策函数;
折扣率在计算时取固定值0.9;
状态转移概率表现为下一状态的光伏出力的概率。
进一步优化方案为,步骤T3具体方法为:
在强化学习Q-学习算法的基础上引入经验回放机制,保存每次与环境交互得到的奖励与状态更新情况,当神经网络参数收敛后,获得近似的Q值;利用估计Q网络和目标Q网络解耦动作的选择与目标Q值计算;
在双深度Q学习网络的基础上提出双-深度期望Q-学习网络算法,将贝叶斯神经网络和深度强化学习结合起来,通过将状态转移的随机过程用贝叶斯神经网络表示,利用随机状态中Q期望值来更新Q网络。
进一步优化方案为,利用随机状态中Q期望值来更新Q网络具体过程为:
首先,在估计Q网络中选择储能***调度策略;
然后,在目标Q网络中更新Q值;
简化模型,将概率密度函数离散化。
进一步优化方案为,T4中设定合理参数保证神经网络学习过程收敛时,需要考虑经验回放池、探索率和学习率。
本发明还提供一种基于双-深度期望Q-学习网络算法的电网能量管理***,包括:
概率分布获取装置基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;
第一建模装置仅考虑储能***作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;
第二建模装置电网能量管理模型建模为马尔可夫决策过程;
求解装置考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;
模型训练装置设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型;
电网能量管理***基于双-深度期望Q-学习网络算法的电网能量管理模型得到的光伏发电出力策略控制各光伏出力设备。
本发明原理:
一、基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;
贝叶斯神经网络可根据较小的数据量得到较为稳定的预测模型,不会出现过拟合问题;同时,其概率层的神经元的权重与偏置服从一定的概率分布,具备描述不确定性变量的能力。基于贝叶斯神经网络的光伏出力预测,需要对多种影响因素进行分析,影响光伏出力的因素有多种类型,本步骤对其分类建模:
(1)决定性因素
光照辐射强度是影响光伏出力的决定性因素。光伏出力可用下式求取。
PPV=φAη
式中:φ为光照辐射强度;A为光伏阵列总面积;η为光电转换效率;A和η为光伏面板固定参数。
(2)持续性影响因素
持续性影响因素指可在较长时间内对光伏出力产生影响的温度、相对湿度、风速等。这些因素对光伏出力的影响所覆盖时段常大于调度区间,因此从历史数据挖掘其对光伏出力的影响。因这类数据较为复杂,特征维度较高,与光伏出力之间关系不是线性的,直接输入会加大神经网络训练难度,需经过回归分析模块和特征提取模块对数据进行预处理。首先,计算它们与光伏出力的皮尔森系数,确定温度、风速、相对湿度与光伏出力的相互依赖的定量关系。之后,由于预测的时间间隔决定了持续性影响因素与光伏出力的相关系数,因此通过对历史数据的学习,得到不同时段的温度、相对湿度、风速与光伏发电出力的相关系数。最后,通过深度全连接神经层将这些多维特征映射到低维中,在降低模型复杂度、提升训练效率的同时也保证特征的完整性。
(3)突发性影响因素
突发性影响因素可以在较短时间内对光伏出力产生影响,如雾霾、运动云层等。该类因素对光伏出力影响所覆盖时段一般小于调度时段。突发性影响因素对光伏出力的影响只会体现在相邻时段之间,即预测点的光伏出力与预测点之前时刻光伏的出力值存在一定关系,且预测点的光伏出力与预测点上一时段的光伏出力相关性最高。因此将预测点的前一时刻的出力数据输入到贝叶斯神经网络中,从而避免多时段输入造成的数据冗余。
将经过回归分析处理后的温度、风速和相对湿度数据输入到深度全连接层实现特征提取和数据降维,将最大光伏出力预测结果与提取的特征同时输入到深度全连接层,与预测点前一时段的光伏出力共同作为贝叶斯神经网络的概率层输入。
二、仅考虑储能***作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;
如图3所示,微电网中的可控设备一般包括储能***、可控负荷、参与调度的电动汽车等。本发明侧重研究基于深度强化学习的微网随机调度的建模与求解,因而仅考虑储能***作为可控资源。对于包含其他可控设备的场景,只需在本发明模型的基础上改变马尔可夫决策过程中动作的维数即可:
(1)目标函数
以日运行成本最低为目标函数,求取微电网的能量管理策略。日运行成本为调度周期内购电成本和储能***运行成本之和,可如下定义:
式中:T为调度时段数;xt为t时段需要与主电网交换的电量,xt>0表示从主电网购电,反之向主电网卖电;cb,t/cg,t表示t时段从主电网买/和向主电网卖电的价格;τt为t时段储能***的运行成本。|·|+为取正函数。
(2)约束条件
1)功率平衡约束
xt-Pt L+Pt PV-Pt ESS=0
式中:Pt PV为t时刻光伏的发电出力,为随机变量;Pt ESS为t时刻储能电池的功率,当Pt ESS>0表示储能***充电,反之为放电;Pt L为t时刻的负荷功率。
2)储能***运行约束
βmin<βt<βmax
βt+1=βt+ηcPt chΔt-Pt dis/ηdΔt
式中:βt代表储能***在t时刻的荷电状态,βmin和βmax分别代表储能***荷电状态允许的最小值与最大值;Pt ch和Pt dis分别表示储能***的充放电功率;ηc和ηd分别表示储能***的充放电效率;和/>分别表示储能***充放电功率的最大值。
受储能***使用寿命衰减和容量衰减的影响,在优化调度过程需要考虑储能***的度电成本。度电成本是对储能***全生命周期内的成本和发电量进行平准化后计算得到的储能成本。定义储能***运行时的度电成本为λ,则t时段储能***的运行成本可表示为:
τt=λ|Pt ESS|
3)调度周期内电池状态约束
β0=βT
式中:βT是储能***在调度周期末的荷电状态,β0为调度周期开始的荷电状态。
本模型面向小型微电网,如附图2所示,所有用电设备由同一条配网馈线供电,地理位置较近,因而不需考虑电力潮流约束。
本模型由于光伏出力为不确定性变量,目标函数应为期望值,综上相应的随机优化模型可以表述为:
三、将电网能量管理模型建模为马尔可夫决策过程;
采用深度强化学习算法求解经济调度模型时,首先需要将电网能量管理模型建模为马尔可夫决策过程:
(1)状态空间
状态即可观测变量。在构建状态空间时,同时考虑***变量的多样性和必要性,t时刻的状态包括微电网中储能***的荷电状态,实时负荷功率,实时的光伏发电功率和下一时刻光伏出力的预测值。具有不确定性的光伏下一时段出力功率由贝叶斯神经网络输出的概率分布表示,t时刻状态可表示为:{βt,Pt PV,Pt L}
(2)动作空间
动作即可调整变量。在本发明模型中,通过储能***的充放电和向电网买卖电量的动作来保证***内部的功率平衡。其中主网对微电网起支撑作用以保证微电网内部能量平衡,因此无需在动作中表示,则t时刻动作可表示为:
式中前n个元素和后n个元素分别表示储能***放电和充电。
(3)奖励
在深度强化学习中,将优化目标映射为奖励决策函数。根据电网能量管理模型建模的目标函数,t时刻奖励设定如下:
式中:表示从/向电网购/售电的奖励,/>为储能***的运行奖励。
可表示为:/>
储能***的奖励包括运行成本为τt和违背运行约束的惩罚υt,对于荷电状态约束设置违规惩罚项υt,定义如下:υt(s∈ψ,Pt ESS)=-δ*|Pt ESS|
式中:δ表示惩罚的单位成本,可用一个较大的数表示。ψ为***运行时的违规状态的集合,主要包括储能***荷电状态越限。在时段t,违规状态可表示为:
Δβ>βmax-βt
Δβ>βt-βmin
其中Δβ=ηc|Pt ESS|+Δt+|-Pt ESS|+/ηdΔt。
对于调度周期内电池状态约束,如果在周期末电池状态与初始状态不相等时,设置一个较大的惩罚数Γ。t时段电池运行奖励可表示为:
一个调度周期内的奖励可表示为:
(4)状态转移概率和折扣率
马尔科夫决策过程中,折扣率是对未来奖励的关注度,在计算时取固定值0.9。在状态s并选择动作a后,下一状态的储能***荷电状态可由储能***运行约束获得,实时负荷功率可直接读取,状态转移概率可表现为下一状态的光伏出力的概率。
四、考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;
无模型的强化学习算法根据智能体与环境交互获得单一固定的状态转移过程,忽略了学习环境中状态转移的随机问题。当强化学习的状态变量中包含不确定因素时,忽略状态的随机转移会影响深度强化学习算法的收敛速度,因此本发明提出了双-深度期望Q-学习网络算法。双-深度期望Q-学习网络算法将贝叶斯神经网络和深度强化学习结合起来,通过将状态转移的随机过程用贝叶斯神经网络表示,利用随机状态中Q期望值来更新Q网络。算法的流程如附图4所示;
(1)强化学习中Q-学习算法
学习主体基于状态s,用ε-贪婪法,选择动作a,得到奖励r(s,a),进入状态s'后更新状态s下的价值函数Q(s,a),可表述如下:
式中:ε为探索概率,γ为衰减因子。
(2)双深度Q学习网络(double deep Q network,DDQN)算法
通过引入经验回放机制,保存每次与环境交互得到的奖励与状态更新情况,当神经网络参数收敛后,获得近似的Q值,由于Q值往往被高估,因此利用估计Q网络和目标Q网络解耦动作的选择与目标Q值计算,避免过估计现象。
具体算法可表述如下:
Q(s,a;θt)=r(s,a)+γ*Q(s',a;θt)
式中:θe为估计Q网络的参数,θt是目标Q网络的参数。每训练一定步数,将估计Q网络的参数传递给目标Q网络,即:θt←θe
(3)双-深度期望Q-学习网络(double deep expected Q network,DDEQN)算法
在DDQN的基础上提出DDEQN算法,将贝叶斯神经网络和深度强化学习结合起来,通过将状态转移的随机过程用贝叶斯神经网络表示,利用随机状态中Q期望值来更新Q网络。
首先,在估计Q网络中选择储能***调度策略:
然后,在目标Q网络中更新Q值,计算公式为:
Q(s,a;θt)=r(s,a)+γ*E(Q(s',a;θt))
式中E(Q(s',a;θt))为下一状态s'选择动作a的目标Q值的期望。在t时段,贝叶斯神经网络预测下一时段的光伏出力,其概率密度函数为ρ(s'),则E(Q(s',a;θt))可表示为:
简化模型,将概率密度函数离散化。对贝叶斯神经网络的预测结果进行抽样,根据得到的最大、小值划分2m个区间。用区间左侧值表示该区间的预测值。经多次抽样后,估计到每个区间的概率,将期望Q表示为:
这样,动作和价值函数可改写为:
五、设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型。
神经网络训练过程中经验回放池,探索率和学习率都会影响神经网络的收敛性能,因此必须合理设定参数以保证神经网络学习过程收敛。
(1)经验回放池:经验回放主要避免经验数据的相关性,从以往的状态转移集合中随机采样进行训练。在训练过程中,本发明模型的动作集合较多,应该设置较大的经验回放池,以满足小批量训练时,随机抽样动作集合的多样性与全面性。
(2)探索率:ε-贪婪法中固定的ε会导致神经网络训练后期不收敛。本发明设定ε随着训练次数逐渐减小,来探索环境,以达到较好收敛效果。
(3)学习率:学习率过大会导致过拟合现象,反之会使收敛速度较慢甚至停滞。因此必须通过多次尝试设定合适学习率。目标Q网络的参数由估计Q网络复制获得,因而也应设定合适的复制频率来避免过估计问题。
最后基于双-深度期望Q-学习网络算法的电网能量管理模型中得到的光伏发电出力策略控制各光伏出力设备的运行。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明提出一种基于双-深度期望Q-学习网络算法的电网能量管理方法及***,将微电网经济调度问题模拟为马尔可夫决策过程,将目标函数和约束条件映射成强化学习的奖惩函数,利用其学习和与环境交互的能力,实现实时最优决策;借助贝叶斯神经网络对学习环境中光伏发电出力的不确定性建模,在马尔科夫决策过程中适当考虑状态随机转移,显著提高了算法的收敛速度。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。
图1是本发明方法流程图;
图2是基于贝叶斯神经网络的光伏出力预测流程示意图;
图3是微电网***组成示意图;
图4是算法的神经网络训练流程图;
图5是园区光伏出力曲线图;
图6是园区负荷曲线图;
图7是典型日园区光伏出力与负荷情况曲线图;
图8是不同天气光伏出力的预测结果与实际值对比图;
图9为模式一与模式二收敛行为对比;
图10为三种模式下的储能***的荷电状态图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,一种基于双-深度期望Q-学习网络算法的电网能量管理方法,包括以下步骤:
S1.基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;
S2.将光伏出力的概率分布输入基于双-深度期望Q-学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略;
S3.依据光伏发电出力策略运行各光伏出力设备。
进一步优化方案为,基于双-深度期望Q-学习网络算法的电网能量管理模型建立过程为:
T1.仅考虑储能***作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;
T2.将T1中电网能量管理模型建模为马尔可夫决策过程;
T3.基于光伏出力的概率分布,考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;
T4.设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型。
进一步优化方案为,S1中基于贝叶斯神经网络对预测点光伏出力不确定性建模具体过程为:
S11.读取预测点决定性因素、持续性影响因素、突发性影响因素的信息并进行数据预处理;
S12.将预处理后的预测点决定性因素数据、持续性影响因素数据输入贝叶斯神经网络的深度全连接层,将预处理后的突发性影响因素数据输入贝叶斯神经网络的概率层进行建模;
S13.经过多次模型训练后得到预测点的光伏出力概率分布。
进一步优化方案为,T1中以日运行成本最低的目标函数为:日运行成本为调度周期内购电成本和储能***运行成本之和,表示为:
式中:T为调度时段数;xt为t时段需要与主电网交换的电量,xt>0表示从主电网购电,反之向主电网卖电;cb,t/cg,t表示t时段从主电网买/和向主电网卖电的价格;τt为t时段储能***的运行成本,|·|+为取正函数。
进一步优化方案为,T1中微网运行约束包括:功率平衡约束条件、储能***运行约束条件和调度周期内电池状态约束。
进一步优化方案为,T2中马尔可夫决策过程具体建模过程包括:
考虑***变量的多样性和必要性构建状态空间;
考虑储能***的充放电和向电网买卖电量的动作以保证***内部的功率平衡来构建动作空间;
将目标函数映射为奖励决策函数;
折扣率在计算时取固定值0.9;
状态转移概率表现为下一状态的光伏出力的概率。
进一步优化方案为,步骤T3具体方法为:
在强化学习Q-学习算法的基础上引入经验回放机制,保存每次与环境交互得到的奖励与状态更新情况,当神经网络参数收敛后,获得近似的Q值;利用估计Q网络和目标Q网络解耦动作的选择与目标Q值计算;
在双深度Q学习网络的基础上提出双-深度期望Q-学习网络算法,将贝叶斯神经网络和深度强化学习结合起来,通过将状态转移的随机过程用贝叶斯神经网络表示,利用随机状态中Q期望值来更新Q网络。
进一步优化方案为,利用随机状态中Q期望值来更新Q网络具体过程为:
首先,在估计Q网络中选择储能***调度策略;
然后,在目标Q网络中更新Q值;
简化模型,将概率密度函数离散化。
进一步优化方案为,T4中设定合理参数保证神经网络学习过程收敛时,需要考虑经验回放池、探索率和学习率。
实施例2
本实施例提供一种基于双-深度期望Q-学习网络算法的电网能量管理***,包括:
概率分布获取装置基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;
第一建模装置仅考虑储能***作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;
第二建模装置电网能量管理模型建模为马尔可夫决策过程;
求解装置考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;
模型训练装置设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型;
电网能量管理***基于双-深度期望Q-学习网络算法的电网能量管理模型得到的光伏发电出力策略控制各光伏出力设备。
实施例3
以某小型产业园某年5月到12月的光伏出力和园区总负荷为基础数据为例,来解释本发明的实际应用。
假设该工业园区光伏出力和负荷功率如附图5和附图6、7所示,其他参数列于表1。
表1储能***参数
经过多次尝试,设定DDEQN算法中经验回放机制的样本存储量为4800,每次小批量采样规模为600;初始探索率为0.1,最终探索率为0.001,探索步数为24000;学习率取0.001;每训练10次更新一次目标Q网络参数。
使用Python语言并调用PyTorch包编写贝叶斯神经网络光伏发电出力预测程序,基于TensorFlow框架编写DDEQN算法程序,优化算法选用可以自适应改变学习率的Adam算法,具有更快的收敛速度和更好的收敛效果。计算机硬件条件为Core i7-8550U,RAM 8GB。贝叶斯神经网络训练步数为10000次,训练时长为22h,DDEQN算法神经网络训练步数为70000次,训练用时49h。
(1)贝叶斯神经网络训练结果
在贝叶斯神经网络中,用于特征提取的全连接层神经元为30,下一全连接层神经元为50,概率层神经元为55。选择7月10日(晴天)和9月6日(雨天)两天来验证预测结果。
由图8可得,贝叶斯神经网络有很高的预测精度。在晴天时,贝叶斯神经网络预测均值与实际值基本相等,且95%的置信度区间较小,预测精度较高;在雨天时,由于周围环境因素的复杂多变,贝叶斯神经网络的预测值在6:00点时误差较大,但在其余时刻仍然有较高精度。虽然预测精度与晴天相比有所下降,但预测值的变化完全符合实际出力的变化趋势,且预测误差在可接受范围内。
(2)DDEQN算法的有效性验证
设计以下三种模式来对比分析:
模式一:采用DDQN算法,考虑光伏出力的不确定性,随机抽取贝叶斯神经网络的预测结果作为输入来训练深度神经网络;
模式二:采用DDEQN算法,即本发明提出算法;
模式三:基于场景法的考虑光伏出力不确定性的随机优化算法。
调度周期为一天,分为24个时段。一个调度周期内的光伏出力与负荷需求见附录D。在训练神经网络的过程中,采取两步训练法,首先对单个时段进行动作寻优训练,再对一个调度周期整体训练,这样可有效的提高算法收敛速度。
在每一次训练后对神经网络进行测试,将一个调度周期中最优动作所对应的Q值进行累加,并归一化处理,用以表征神经网络的收敛程度。定义Θ为收敛率,则第i步训练后神经网络的收敛率可表示为:
式中Q*为神经网络收敛后的累积Q值。
为考察所提方法的收敛性能,还需预先确定Q*。经多次试验,模式一与模式二经过70000步的训练后均能收敛,故令Q*为训练70000步时的调度周期内最优动作所对应的Q值的累加。
模式一与模式二的训练结果如图9所示:
在收敛率Θ达到0.995时,认为该神经网络收敛。由图2可得,模式二在训练35000步时收敛,而模式一则在训练67000步左右时收敛。可见本发明所提DDEQN具有更好的收敛性能。
(3)与随机优化算法的对比
为模拟光伏发电出力的不确定性,采用贝叶斯神经网络抽样10000个场景,作为随机优化模型中光伏出力的场景集合。为形成对比,随机优化算法与深度强化学习算法中储能***的充放电功率一致。由表2可知,相对于随机优化算法,深度强化学习算法能更好地适应光伏出力的不确定性,优化结果更有经济性。此外,与传统DDQN算法相比,本发明提出的DDEQN算法取得了更低的运行成本,这主要是因为DDEQN算法有更好的收敛性能所致。
表2不同模式的经济性对比结果
为进一步分析比较深度强化学习算法与随机优化算法的经济性,对三种模式在一个调度周期内储能***的充放电策略与荷电状态进行比较。对比结果如图10所示。
在图10中,0到3代表储能***放电的四个档位,4代表储能***不动作,5到8代表储能***充电的四个档位。由图10可知,DDQN算法与DDEQN算法的储能***动作非常接近,这是因为本发明所提的DDEQN算法是在DDQN算法的基础上对状态转移进行建模以加快算法收敛速度,两者必然会收敛到同一点。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于深度期望Q-学习的电网能量管理方法,其特征在于,包括以下步骤:
S1.基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;
基于贝叶斯神经网络对预测点光伏出力不确定性建模具体过程为:
S11.读取预测点决定性因素、持续性影响因素、突发性影响因素的信息并进行数据预处理;
S12.将预处理后的预测点决定性因素数据、持续性影响因素数据输入贝叶斯神经网络的深度全连接层,将预处理后的突发性影响因素数据输入贝叶斯神经网络的概率层进行建模;
S13.经过多次模型训练后得到预测点的光伏出力概率分布;
S2.将光伏出力的概率分布输入基于双-深度期望Q-学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略;
S3.***依据光伏发电出力策略运行各光伏出力设备;
基于双-深度期望Q-学习网络算法的电网能量管理模型建立过程为:
T1.仅考虑储能***作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;T1中以日运行成本最低的目标函数为:日运行成本为调度周期内购电成本和储能***运行成本之和,表示为:
式中:T为调度时段数;xt为t时段需要与主电网交换的电量,xt>0表示从主电网购电,反之向主电网卖电;cb,t表示t时段从主电网买电的价格;cg,t表示t时段向主电网卖电的价格;τt为t时段储能***的运行成本,|·|+为取正函数;
所述微网运行约束包括:功率平衡约束条件、储能***运行约束条件和调度周期内电池状态约束
T2.将T1中电网能量管理模型建模为马尔可夫决策过程;
马尔可夫决策过程具体建模过程包括:
考虑***变量的多样性和必要性构建状态空间;
考虑储能***的充放电和向电网买卖电量的动作以保证***内部的功率平衡来构建动作空间;
将目标函数映射为奖励决策函数;
折扣率在计算时取固定值0.9;
状态转移概率表现为下一状态的光伏出力的概率;
T3.基于光伏出力的概率分布,考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;
T4.设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型。
2.根据权利要求1所述的一种基于深度期望Q-学习的电网能量管理方法,其特征在于,步骤T3具体方法为:
在强化学习Q-学习算法的基础上引入经验回放机制,保存每次与环境交互得到的奖励与状态更新情况,当神经网络参数收敛后,获得近似的Q值;利用估计Q网络和目标Q网络解耦动作的选择与目标Q值计算;
在双深度Q学习网络的基础上提出双-深度期望Q-学习网络算法,将贝叶斯神经网络和深度强化学习结合起来,通过将状态转移的随机过程用贝叶斯神经网络表示,利用随机状态中Q期望值来更新Q网络。
3.根据权利要求2所述的一种基于深度期望Q-学习的电网能量管理方法,其特征在于,利用随机状态中Q期望值来更新Q网络具体过程为:
首先,在估计Q网络中选择储能***调度策略;
然后,在目标Q网络中更新Q值;
简化模型,将概率密度函数离散化。
4.根据权利要求1所述的一种基于深度期望Q-学习的电网能量管理方法,其特征在于,T4中设定合理参数保证神经网络学习过程收敛时,需要考虑经验回放池、探索率和学习率。
5.一种基于深度期望Q-学习的电网能量管理***,其特征在于,用于实现权利要求1-4任意一项所述的基于深度期望Q-学习的电网能量管理方法,包括:
概率分布获取装置基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;
第一建模装置仅考虑储能***作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;
第二建模装置电网能量管理模型建模为马尔可夫决策过程;
求解装置考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;
模型训练装置设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型;
电网能量管理***基于双-深度期望Q-学习网络算法的电网能量管理模型得到的光伏发电出力策略控制各光伏出力设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011418334.2A CN112614009B (zh) | 2020-12-07 | 2020-12-07 | 一种基于深度期望q-学习的电网能量管理方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011418334.2A CN112614009B (zh) | 2020-12-07 | 2020-12-07 | 一种基于深度期望q-学习的电网能量管理方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112614009A CN112614009A (zh) | 2021-04-06 |
CN112614009B true CN112614009B (zh) | 2023-08-25 |
Family
ID=75229451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011418334.2A Active CN112614009B (zh) | 2020-12-07 | 2020-12-07 | 一种基于深度期望q-学习的电网能量管理方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112614009B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110052B (zh) * | 2021-04-15 | 2022-07-26 | 浙大宁波理工学院 | 一种基于神经网络和强化学习的混合能量管理方法 |
CN113139682B (zh) * | 2021-04-15 | 2023-10-10 | 北京工业大学 | 一种基于深度强化学习的微电网能量管理方法 |
CN113098007B (zh) * | 2021-04-25 | 2022-04-08 | 山东大学 | 基于分层强化学习的微电网分布式在线调度方法及*** |
CN113141017B (zh) * | 2021-04-29 | 2022-08-09 | 福州大学 | 基于ddpg算法和soc恢复的储能***参与电网一次调频的控制方法 |
CN113572157B (zh) * | 2021-07-27 | 2023-08-29 | 东南大学 | 一种基于近端策略优化的用户实时自治能量管理优化方法 |
CN113885330B (zh) * | 2021-10-26 | 2022-06-17 | 哈尔滨工业大学 | 一种基于深度强化学习的信息物理***安全控制方法 |
CN113962268A (zh) * | 2021-10-27 | 2022-01-21 | 合肥工业大学 | 一种基于网络架构搜索的人体运动意图识别方法 |
CN114280491B (zh) * | 2021-12-23 | 2024-01-05 | 中山大学 | 一种基于主动学习的退役电池剩余容量估计方法 |
CN114172840B (zh) * | 2022-01-17 | 2022-09-30 | 河海大学 | 一种基于图论和深度强化学习的多微网***能量路由方法 |
CN114938372B (zh) * | 2022-05-20 | 2023-04-18 | 天津大学 | 一种基于联邦学习的微网群请求动态迁移调度方法及装置 |
CN115334165B (zh) * | 2022-07-11 | 2023-10-17 | 西安交通大学 | 一种基于深度强化学***台调度方法及*** |
CN115731072B (zh) * | 2022-11-22 | 2024-01-30 | 东南大学 | 一种基于安全深度强化学习的微网时空感知能量管理方法 |
CN116388279B (zh) * | 2023-05-23 | 2024-01-23 | 安徽中超光电科技有限公司 | 太阳能光伏发电***中的电网并网控制方法及其控制*** |
CN117132089B (zh) * | 2023-10-27 | 2024-03-08 | 邯郸欣和电力建设有限公司 | 用电策略优化调度方法及装置 |
CN117216720B (zh) * | 2023-11-07 | 2024-02-23 | 天津市普迅电力信息技术有限公司 | 一种分布式光伏有功的多***数据融合方法 |
CN117613983B (zh) * | 2024-01-23 | 2024-04-16 | 国网冀北电力有限公司 | 基于融合规则强化学习的储能充放电控制决策方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107067190A (zh) * | 2017-05-18 | 2017-08-18 | 厦门大学 | 基于深度强化学习的微电网电能交易方法 |
CN108932671A (zh) * | 2018-06-06 | 2018-12-04 | 上海电力学院 | 一种采用深度q神经网络调参的lstm风电负荷预测方法 |
CN109063841A (zh) * | 2018-08-27 | 2018-12-21 | 北京航空航天大学 | 一种基于贝叶斯网络和深度学习算法的故障机理智能分析方法 |
CN109581282A (zh) * | 2018-11-06 | 2019-04-05 | 宁波大学 | 基于贝叶斯半监督深度学习的室内定位方法 |
CN110930016A (zh) * | 2019-11-19 | 2020-03-27 | 三峡大学 | 一种基于深度q学习的梯级水库随机优化调度方法 |
CN111461321A (zh) * | 2020-03-12 | 2020-07-28 | 南京理工大学 | 基于Double DQN的改进深度强化学习方法及*** |
-
2020
- 2020-12-07 CN CN202011418334.2A patent/CN112614009B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107067190A (zh) * | 2017-05-18 | 2017-08-18 | 厦门大学 | 基于深度强化学习的微电网电能交易方法 |
CN108932671A (zh) * | 2018-06-06 | 2018-12-04 | 上海电力学院 | 一种采用深度q神经网络调参的lstm风电负荷预测方法 |
CN109063841A (zh) * | 2018-08-27 | 2018-12-21 | 北京航空航天大学 | 一种基于贝叶斯网络和深度学习算法的故障机理智能分析方法 |
CN109581282A (zh) * | 2018-11-06 | 2019-04-05 | 宁波大学 | 基于贝叶斯半监督深度学习的室内定位方法 |
CN110930016A (zh) * | 2019-11-19 | 2020-03-27 | 三峡大学 | 一种基于深度q学习的梯级水库随机优化调度方法 |
CN111461321A (zh) * | 2020-03-12 | 2020-07-28 | 南京理工大学 | 基于Double DQN的改进深度强化学习方法及*** |
Non-Patent Citations (1)
Title |
---|
基于深度强化学习的微电网储能调度策略研究;王亚东等;《可再生能源》;20190831;第37卷(第8期);1220-1227页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112614009A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112614009B (zh) | 一种基于深度期望q-学习的电网能量管理方法及*** | |
Atef et al. | Assessment of stacked unidirectional and bidirectional long short-term memory networks for electricity load forecasting | |
Tan et al. | Multi-objective energy management of multiple microgrids under random electric vehicle charging | |
CN113572157B (zh) | 一种基于近端策略优化的用户实时自治能量管理优化方法 | |
Cai et al. | Wind speed forecasting based on extreme gradient boosting | |
CN116187601B (zh) | 一种基于负荷预测的综合能源***运行优化方法 | |
CN112491094B (zh) | 一种混合驱动的微电网能量管理方法、***及装置 | |
CN112217195B (zh) | 一种基于gru多步预测技术的云储能充放电策略形成方法 | |
CN113326994A (zh) | 一种考虑源荷储互动的虚拟电厂能量协同优化方法 | |
CN111313449B (zh) | 一种基于机器学习的集群电动汽车功率优化管理方法 | |
CN113887141A (zh) | 一种基于联邦学习的微电网群运行策略进化方法 | |
CN114156951B (zh) | 一种源网荷储***的控制优化方法和装置 | |
CN115374692A (zh) | 一种用于区域综合能源***的双层优化调度决策方法 | |
CN117498400B (zh) | 一种分布式光伏与储能数据的处理方法及*** | |
CN114723230A (zh) | 面向新能源发电和储能的微电网双层调度方法及*** | |
Fu et al. | Predictive control of power demand peak regulation based on deep reinforcement learning | |
CN117543581A (zh) | 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用 | |
Yu et al. | An integrated AMPSO-CLSTM model for photovoltaic power generation prediction | |
CN117172486A (zh) | 一种基于强化学习的虚拟电厂光储资源聚合调控方法 | |
CN116488223A (zh) | 家庭光-蓄-柔双层多时间尺度控制方法、装置及介质 | |
CN116880169A (zh) | 一种基于深度强化学习的峰值功率需求预测控制方法 | |
CN115115145B (zh) | 分布式光伏智能住宅的需求响应调度方法及*** | |
CN115511218A (zh) | 基于多任务学习与深度学习的间歇型电器负荷预测方法 | |
CN115169839A (zh) | 一种基于数据-物理-知识联合驱动的供暖负荷调度方法 | |
Liu et al. | Deep reinforcement learning for real-time economic energy management of microgrid system considering uncertainties |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |