CN109347149A - 基于深度q值网络强化学习的微电网储能调度方法及装置 - Google Patents

基于深度q值网络强化学习的微电网储能调度方法及装置 Download PDF

Info

Publication number
CN109347149A
CN109347149A CN201811099843.6A CN201811099843A CN109347149A CN 109347149 A CN109347149 A CN 109347149A CN 201811099843 A CN201811099843 A CN 201811099843A CN 109347149 A CN109347149 A CN 109347149A
Authority
CN
China
Prior art keywords
value
micro
capacitance sensor
depth
battery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811099843.6A
Other languages
English (en)
Other versions
CN109347149B (zh
Inventor
张江南
崔承刚
吴坡
贺勇
赵延平
刘海宝
唐耀华
李冰
郝涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Henan Electric Power Co Ltd
Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Shanghai University of Electric Power
Original Assignee
State Grid Corp of China SGCC
State Grid Henan Electric Power Co Ltd
Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Shanghai University of Electric Power
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Henan Electric Power Co Ltd, Electric Power Research Institute of State Grid Henan Electric Power Co Ltd, Shanghai University of Electric Power filed Critical State Grid Corp of China SGCC
Priority to CN201811099843.6A priority Critical patent/CN109347149B/zh
Publication of CN109347149A publication Critical patent/CN109347149A/zh
Application granted granted Critical
Publication of CN109347149B publication Critical patent/CN109347149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了基于深度Q值网络强化学习的微电网储能调度方法及装置,建立微电网模型;根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。本发明实施例利用深度Q值网络对微电网能量进行调度管理,智能体通过与环境交互,决策出最优储能调度策略,在不断变化的环境中控制电池的运行模式,基于微电网动态决定储能管理的特征,使微电网在和主电网交互中获得最大的运行收益;通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值,分解这两部分会让学习目标更加稳定、更精确,让深度Q值网络对环境状态的估计能力更强。

Description

基于深度Q值网络强化学习的微电网储能调度方法及装置
技术领域
本发明涉及微电网储能调度的技术领域,尤其涉及基于深度Q值网络强化学习的微电网储能调度方法及装置。
背景技术
当前,机器学习的方法逐渐应用于各行各业中,利用深度Q值网络(Deep Q-Network,DQN)将卷积神经网络与传统的深度学习中Q值学习算法相结合也是一个新兴的研究方向。如果使用经验回放技术,通过存储智能体的经验,在每次训练时随机抽取一部分样本供给网络学习,就可以打破数据之间的关联性,使得神经网络的训练收敛且稳定。
将深度Q值网络应用于微电网储能调度的管理时,目标状态-动作Q值函数存在过估计的问题,并且学习目标不够稳定、精确,深度Q值网络对环境状态的估计能力不够强。
发明内容
为了克服现有技术的不足,本发明的目的在于提供基于深度Q值网络强化学习的微电网储能调度方法及装置,旨在解决将深度Q值网络应用于微电网储能调度的管理时,目标状态-动作Q值函数存在过估计,学习目标不够稳定、精确,深度Q值网络对环境状态的估计能力不够强的问题。
本发明的目的采用以下技术方案实现:
一种基于深度Q值网络强化学习的微电网储能调度方法,包括:
建立步骤,建立微电网模型;
训练步骤,根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算步骤,根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。
在上述实施例的基础上,优选的,所述微电网模型设置有顺序连接的电池组储能***、光伏发电***、电力负荷和控制装置,且电力负荷和控制装置通过公共连接点接入配电网。
在上述实施例的基础上,优选的,深度Q值网络的训练模型以元组(st,at,rt+1,st+1)为样本进行训练,其中st为当前状态,at为当前状态下执行的动作,rt+1(at)为在执行动作后获得的即时奖励,st+1为下一个状态,t为时刻;
所述训练步骤,具体为:
在深度Q值网络中引入卷积神经网络;
设置深度Q值网络来计算目标Q值;
使用竞争Q值网络模型将目标状态-动作Q值函数Q(st,at)拆分成V(st)和A(at),即Q(st,at)=V(st)+A(at);其中,V(st)为静态的环境状态本身的评估价值,A(at)为动作带来的额外价值A(at)。
在上述实施例的基础上,优选的,所述训练步骤中,所设置的深度Q值网络有两个,一个用于制造学习目标,一个用于进行实际训练。
在上述实施例的基础上,优选的,以(s1,s2,…,st,st+1,…)为状态空间S,则S=SB×Spv,load×ST,其中,SB为可控的电池部分,Spv,load为不可控的光伏和负荷部分,ST为日期和时间序列;
sB={SoC},其中,Emin≤E≤Emax;Emax为完全充电状态的电池容量,Emin为最低充电状态的电池容量;
spv,load={PV,load},其中,PV为光伏发电量,load为负荷消费量。
在上述实施例的基础上,优选的,每个时间步长上,强化学习智能体所采取的离散化动作空间A为(电池充电动作,电池放电动作,电池保持闲置);
将动作空间划分成3个数值,即a∈[0,1,2],其中a=0表示电池充电动作,a=2表示电池保持闲置,a=1表示电池放电动作。
在上述实施例的基础上,优选的,深度Q值网络的训练模型的奖励函数rt(at)为:
其中,rt *(at)为电池充放电获得的奖励,αbuy为购电价格,αsell为卖电价格,Pt grid=lt-Pt pv+Pt B,lt为t时刻的负荷消耗量,Pt pv为t时刻光伏发电输出量,Pt B为t时刻电池的充放电量;并且,
其中,kd为电池放电系数,kc为电池充电系数,为电池放电功率,为电池充电功率,Δt为充放电时间,n为惩罚因子,ad为电池放电动作,ac为电池充电动作,SoCmin、SoCmax分别为SoC的最小值和最大值;
定义状态-动作Q值函数Qh(s,a)为:
其中,h表示某一充放电策略;Eh为所有充放电策略的期望;T为全部调度时间段;γt为折扣因子,根据未来奖励在学习中的重要性而设定;s为某一状态;a为某一动作;
状态-动作Q值函数选择的最优策略h*(a|s)为基于最大Q值的策略,即:
其中,Q*(s,a)为状态-动作Q值函数的最优值;
所述奖励函数需要满足约束条件和最大运行收入的要求。
在上述实施例的基础上,优选的,所述约束条件包括:
电池容量约束,满足:其中,为电池容量,为电池容量最大值,为电池容量最小值;
电池充放电速率约束;
电池充放电状态约束,即acad=0。
在上述实施例的基础上,优选的,还包括:
评估步骤,利用电池利用率V和年度运营收益I对微电网储能调度的电池运行策略的性能进行评估,其中:
其中,表示微电网当前小时内向主电网卖电的电量,表示微电网当前小时内从主电网买电的电量。
一种基于深度Q值网络强化学习的微电网储能调度装置,包括:
建立模块,用于建立微电网模型;
训练模块,用于根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算模块,用于根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。
相比现有技术,本发明的有益效果在于:
本发明公开了基于深度Q值网络强化学习的微电网储能调度方法及装置,利用深度Q值网络对微电网能量进行调度管理,智能体通过与环境交互,决策出最优储能调度策略,在不断变化的环境中控制电池的运行模式,基于微电网动态决定储能管理的特征,使微电网在和主电网交互中获得最大的运行收益。本发明使用确定性模拟器描述部分环境去生成尽可能多的数据,再利用Q-Learning强化学习算法实现微电网最优储能调度策略,将卷积神经网络与传统的深度学习中Q值学习算法相结合,通过深度强化学习算法设计了一种智能体,再通过对微电网储能调度进行管理,使微电网在和主电网的交互中获得最大的运行收益;通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值,分解这两部分会让学习目标更加稳定、更精确,让深度Q值网络对环境状态的估计能力更强。优选的,本发明还可以通过使用双重DQN网络对目标DQN方法进行改进,双重DQN网络将动作的选择和动作的评估分别用不同的值函数来实现,从而解决了目标DQN网络值函数的过估计问题。优选的,本发明还可以对算法性能进行评估,主要依据是高负荷需求时,增加电池的利用率(或者说减少从外电网购买电能)的性能指标,以及光伏发电量较高时,增加光伏面板发电的利用率的性能指标。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1示出了本发明实施例提供的一种基于深度Q值网络强化学习的微电网储能调度方法的流程示意图;
图2示出了本发明实施例提供的一种基于深度Q值网络的微电网结构图;
图3示出了本发明实施例提供的一种基于深度Q值网络的智能体的控制策略轨迹(S1);
图4示出了本发明实施例提供的一种基于深度Q值网络的智能体的控制策略轨迹(S2);
图5示出了本发明实施例提供的一种基于深度Q值网络的智能体的控制策略轨迹(S3);
图6示出了本发明实施例提供的一种基于深度Q值网络强化学习的微电网储能调度装置的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
具体实施例一
如图1所示,本发明实施例提供了一种基于深度Q值网络强化学习的微电网储能调度方法,包括:
建立步骤S101,建立微电网模型;
训练步骤S102,根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算步骤S103,根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。
如图2所示,优选的,所述微电网模型可以设置有顺序连接的电池组储能***、光伏发电***、电力负荷和控制装置,且电力负荷和控制装置通过公共连接点接入配电网。微电网的电价信息可以通过相连的主电网电价来确定,微电网住宅用户通过自身光伏发电或者向主电网购买电能来满足负荷需求,富余的能量通过电池储存起来,或者卖给主电网。微电网既可以与主电网并网运行,也可以离网运行。相对于配电网,微电网表现为可控单元,可同时满足用户对电能质量和供电安全方面的需求。
深度Q值网络是将深度卷积神经网络与传统强化学习中Q值学习算法相结合所提出。在有限马尔科夫决策过程中,Q值网络被证明最终可以找到最优的策略。Q值网络的目标是求解Q值函数,即根据当前环境状态,估算动作的期望价值。优选的,深度Q值网络的训练模型可以以(状态、行为、奖励、下一个状态)构成的元组(st,at,rt+1,st+1)为样本进行训练,其中st为当前状态,at为当前状态下执行的动作,rt+1(at)为在执行动作后获得的即时奖励,st+1为下一个状态,t为时刻;Q值网络的学习目标是rt+1+γ·maxaQ(st+1,a),这个目标状态-动作Q值函数是当前动作获得的奖励加上下一步获得的最大期望价值。下一步获得的最大期望价值通过乘以折扣因子γ来评估未来奖励对当前状态的影响。折扣因子γ根据未来奖励在学习中的重要性而设定,一般γ∈[0,1]。因此Q值网络的迭代过程表示为:
所述训练步骤,可以具体为:
在深度Q值网络中引入卷积神经网络;卷积神经网络利用可提取空间结构信息的卷积层抽取特征,卷积层可以提取微电网中的重要数据特征并传给后面的层做分类;另外,因为深度学***移、旋转不变性的特点,在前向计算中,数据信息从输入层经过几层卷积层和下采样层的变换后提取特征,被传送到全连接层,最终输出层得到网络的输出,向后传播阶段,卷积神经网络采用误差反向传播算法,将输出误差反向传递到每一层,同时利用梯度下降法对每层的参数求导优化,卷积神经网络结构非常适合处理大型数据,故本发明实施例采用了卷积神经网络;
设置深度Q值网络来计算目标Q值;本发明实施例独立设置了DQN网络来计算目标Q值;本发明实施例使用了两个DQN网络,一个用于制造学***稳;由于Q值网络每次的学习目标都是变化的,如果更新很频繁、幅度很大,训练过程会非常不稳定,因此让目标DQN进行缓慢的学习,从而Q值网络输出的目标值的波动比较小,减少对训练过程的影响;本发明实施例通过使用双重DQN网络对目标DQN方法进行改进,双重DQN网络将动作的选择和动作的评估分别用不同的值函数来实现,从而解决了目标DQN网络值函数的过估计问题,至此本发明实施例将学习目标改写为:
Target=rt+1+γ·Qtarget(st+1,argmaxa(Qmain(st+1,a)));
使用竞争Q值网络模型将目标状态-动作Q值函数Q(st,at)拆分成V(st)和A(at),即Q(st,at)=V(st)+A(at);其中,V(st)为静态的环境状态本身的评估价值,A(at)为动作带来的额外价值A(at);竞争Q值网络模型的目标就是让网络可以分别计算环境本身的评估价值和动作带来的额外价值,分解这两部分会让学习目标更加稳定、更精确,让DQN对环境状态的估计能力更强。
从电网运行信息和环境信息入手,本发明实施例分析了微电网储能调度策略需对微电网不同运行方式都有良好的适用性。选取有效的特征,能够提升算法效率,对于算法性能有重要影响。从微电网结构和储能方式角度考虑,微电网运行特征可选择为与微电网运行直接相关的物理量,比如光伏发电量,负荷消耗量,电池荷电水平,未来时间的光伏和负荷预测量等物理量,从而提升算法效率,提高算法性能。
优选的,以(s1,s2,…,st,st+1,…)为状态空间S,则S=SB×Spv,load×ST,其中,SB为可控的电池部分,Spv,load为不可控的光伏和负荷部分,ST为日期和时间序列;
可控电池部分SB反映了电池的荷电状态水平,受控制策略动作的影响,即:sB={SoC},其中,Emin≤E≤Emax;Emax为完全充电状态的电池容量,Emin为最低充电状态的电池容量;
不可控部分SPV,load包含光伏发电和负荷消耗两部分,受天气和用户的影响,不受控制策略动作的影响,可以通过对外部因素的确定性预测得到,即:spv,load={PV,load},其中,PV为光伏发电量,load为负荷消费量。
优选的,每个时间步长上,强化学习智能体所采取的离散化动作空间A可以为(电池充电动作,电池放电动作,电池保持闲置);将动作空间划分成3个数值,即a∈[0,1,2],其中a=0表示电池充电动作,a=2表示电池保持闲置,a=1表示电池放电动作。在实际的仿真结果中,本发明实施例将电池充放电的数值以实际的充放电量表示,使仿真结果更加直观。
奖励函数可立即得到动作和环境的优劣评估值,是一种即时奖励函数。在奖励评估过程中,本发明实施例同时考虑了动作产生的奖励和环境本身的奖励,提出一种竞争方法将奖励函数分为两部分,一部分为环境本身的评估价值,另一部分为动作带来的额外价值。基于环境状态集中动作空间的分布,电池在任何时间t时只会采取一个动作,充电和放电不会同时发生。在电池soc约束以及目标函数最优条件下,奖励函数可从以下两个方面设定。优选的,深度Q值网络的训练模型的奖励函数rt(at)可以为:
其中,rt *(at)为电池充放电获得的奖励,αbuy为购电价格,αsell为卖电价格,Pt grid=lt-Pt pv+Pt B,lt为t时刻的负荷消耗量,Pt pv为t时刻光伏发电输出量,Pt B为t时刻电池的充放电量;并且,
其中,kd为电池放电系数,kc为电池充电系数,为电池放电功率,为电池充电功率,Δt为充放电时间,n为惩罚因子,ad为电池放电动作,ac为电池充电动作,SoCmin、SoCmax分别为SoC的最小值和最大值;
即时奖励模型针对的是一个时间点信息做出的评价,无法说明整体策略的好坏,因此需要定义状态-动作值函数表征策略对于状态的长期效果,定义状态-动作Q值函数Qh(s,a)为:
其中,h表示某一充放电策略;Eh为所有充放电策略的期望;T为全部调度时间段;γt为折扣因子,根据未来奖励在学习中的重要性而设定;s为某一状态;a为某一动作;
状态-动作Q值函数是强化学习智能体的学习目标,选择的最优策略h*(a|s)为基于最大Q值的策略,即:
其中,Q*(s,a)为状态-动作Q值函数的最优值;
所述奖励函数需要满足约束条件和最大运行收入的要求。
优选的,所述约束条件可以包括:
电池容量约束,满足:其中,为电池容量,为电池容量最大值,为电池容量最小值;电池容量存在一定物理限制,电池一般用荷电状态SoC反映电量比例,SoC状态应保持在某一范围内并结合具体的能量优化控制要求进行调整,同时兼顾电池的寿命状态因素进行优化运行控制,延长使用寿命;
电池充放电速率约束;基于对电池使用寿命和经济性方面考虑,电池的充放电效率不能太大,也不能太小,可以采用固定的充放电速率1.2kW;
电池充放电状态约束,电池的充放电不能同时进行,ac,ad分别表示充放电动作,用0和1表示,即acad=0。
优选的,本发明实施例还可以包括:
评估步骤,利用电池利用率V和年度运营收益I对微电网储能调度的电池运行策略的性能进行评估,其中:
其中,表示微电网当前小时内向主电网卖电的电量,表示微电网当前小时内从主电网买电的电量。这样做的好处是,对算法性能进行评估,主要依据是高负荷需求时,增加电池的利用率(或者说减少从外电网购买电能)的性能指标,以及光伏发电量较高时,增加光伏面板发电的利用率的性能指标。
本发明实施例利用深度Q值网络对微电网能量进行调度管理,智能体通过与环境交互,决策出最优储能调度策略,在不断变化的环境中控制电池的运行模式,基于微电网动态决定储能管理的特征,使微电网在和主电网交互中获得最大的运行收益。本发明实施例使用确定性模拟器描述部分环境去生成尽可能多的数据,再利用Q-Learning强化学习算法实现微电网最优储能调度策略,将卷积神经网络与传统的深度学习中Q值学习算法相结合,通过深度强化学习算法设计了一种智能体,再通过对微电网储能调度进行管理,使微电网在和主电网的交互中获得最大的运行收益;通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值,分解这两部分会让学习目标更加稳定、更精确,让深度Q值网络对环境状态的估计能力更强。
本发明实施例的一个应用场景可以是:
微电网是住宅用户微电网,电池储能容量大小为15kWh,电池效率η=90%,电池的荷电状态水平限值分别为SoCmax=90%,SoCmin=10%,电池的充放电速率设为1.2kW/h。对于负荷和光伏发电简况,采用LINEAR工程中的数据,采集数据的时间周期为1小时。根据实际输入数据序列维度和数据量,本发明实施例采用两层卷积神经网络进行光伏发电和负荷消费数据的特征提取,每个卷积层神经单元包含了2层神经网络。卷积神神经网络层的输出和其他的输入(比如电池荷电水平Soc,光伏和负荷预测量等)作为两层全连接层的输入,第一层全连接层包含50个神经单元,第二层全连接层包含20个神经单元,最后输出层采用激活函数relu函数输出离散化动作对应的Q值。另外,强化学习算法中学习率初始值设为0.0005,折扣因子初始值设为0.9,贪婪策略概率ε初始值设为1。智能体通过增加折扣因子,减小学习率,获得更好的学习表现。
从微电网实际运行方面考虑,目前国内对于用电电价采取分时电价的模式。以上海市为例,峰时段(6-22时)商业用电电价为1.2元,谷时段(22时-次日6时)商业用电电价为0.35元。另外,微电网的上网电价采用补贴后的固定电价0.85元。
本发明实施例提出的算法主要目标有两个:高负荷需求时,增加电池的利用率(或者说减少从外电网购买电能)。光伏发电量较高时,增加光伏面板发电的利用率。
因此用以下2个参数来评估本发明实施例提出算法的性能表现:
(1)电池利用率V:
(2)年度运营收益:
其中,Pgrid=load-Ppv+PB,Pgrid>0,说明需要从主电网买电,Pgrid<0说明微电网向主网卖电。
在每个场景下,本发明实施例实验使用不同的种子发生器运行5次取平均值,每个场景下迭代200次,每次迭代经过365*24步实验,时间序列的周期为1。
分时电价下,场景一中智能体的观测量只有光伏发电量和负荷消耗量以及电池荷电水平,其他动态变量不考虑。以场景一为基准,场景二中智能体的观测量添加了未来24小时和48小时的光伏预测量和负荷预测量,电池利用率提高了13%,微电网年收益和总奖励都有所增加;和场景二相比,场景三中智能体的观测量多加了日期和小时的时间周期序列,电池利用率进一步增大,微电网收益和总奖励进一步增大,同时惩罚变小;该组实验对比表明,向智能体的输入添加有用的信息能够改善策略。随着智能体观测的信息量增多,策略变得更好,智能体能够控制电池更合理有效的采取充/放电的动作,从而实现最大的运营收入。
基于深度Q值网络的微电网储能调度方法的仿真模型的具体步骤:
S1:由于前一天数据对后一天的影响较大,本发明实施例选择hc=24h,hp=24h,hc为负荷调度时间段,hp为光伏发电量时间段,作为神经网络输入时间序列的长度(ct代表t时刻的负荷消耗量,代表t时刻的光伏发电量),智能体的观测量有3个,如图3所示:
st为t时刻的状态;电池电量代表电池荷电水平;动作值代表控制策略的充/放电动作;主网电量代表微电网与主电网网交易的电能,主网电量大于0代表从主电网买电,主网电量小于0代表向主电网卖电;负荷量代表负荷的消耗量;光伏发电量代表光伏发电输出量。
S2:在S1的基础上,S2外部变量中添加未来24小时和48小时的光伏预测量和负荷消耗量。智能体的观测量有5个,如图4所示:
p24为未来24小时的光伏预测量,p48为未来48小时的光伏预测量;c24为未来24小时的负荷消耗量,c48为未来48小时的负荷消耗量。
S3:在S2的基础上,S3添加了日期和小时的时间序列周期信息。智能体的观测量有6个,如图5所示:
在上述的具体实施例一中,提供了基于深度Q值网络强化学习的微电网储能调度方法,与之相对应的,本申请还提供基于深度Q值网络强化学习的微电网储能调度装置。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
具体实施例二
如图6所示,本发明实施例提供了一种基于深度Q值网络强化学习的微电网储能调度装置,包括:
建立模块201,用于建立微电网模型;
训练模块202,用于根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算模块203,用于根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。
本发明实施例利用深度Q值网络对微电网能量进行调度管理,智能体通过与环境交互,决策出最优储能调度策略,在不断变化的环境中控制电池的运行模式,基于微电网动态决定储能管理的特征,使微电网在和主电网交互中获得最大的运行收益。本发明实施例使用确定性模拟器描述部分环境去生成尽可能多的数据,再利用Q-Learning强化学习算法实现微电网最优储能调度策略,将卷积神经网络与传统的深度学习中Q值学习算法相结合,通过深度强化学习算法设计了一种智能体,再通过对微电网储能调度进行管理,使微电网在和主电网的交互中获得最大的运行收益;通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值,分解这两部分会让学习目标更加稳定、更精确,让深度Q值网络对环境状态的估计能力更强。
本发明从使用目的上,效能上,进步及新颖性等观点进行阐述,其具有的实用进步性,己符合专利法所强调的功能增进及使用要件,本发明以上的说明及附图,仅为本发明的较佳实施例而己,并非以此局限本发明,因此,凡一切与本发明构造,装置,待征等近似、雷同的,即凡依本发明专利申请范围所作的等同替换或修饰等,皆应属本发明的专利申请保护的范围之内。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。尽管本发明已进行了一定程度的描述,明显地,在不脱离本发明的精神和范围的条件下,可进行各个条件的适当变化。可以理解,本发明不限于所述实施方案,而归于权利要求的范围,其包括所述每个因素的等同替换。对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,包括:
建立步骤,建立微电网模型;
训练步骤,根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算步骤,根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。
2.根据权利要求1所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,所述微电网模型设置有顺序连接的电池组储能***、光伏发电***、电力负荷和控制装置,且电力负荷和控制装置通过公共连接点接入配电网。
3.根据权利要求2所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,深度Q值网络的训练模型以元组(st,at,rt+1,st+1)为样本进行训练,其中st为当前状态,at为当前状态下执行的动作,rt+1(at)为在执行动作后获得的即时奖励,st+1为下一个状态,t为时刻;
所述训练步骤,具体为:
在深度Q值网络中引入卷积神经网络;
设置深度Q值网络来计算目标Q值;
使用竞争Q值网络模型将目标状态-动作Q值函数Q(st,at)拆分成V(st)和A(at),即Q(st,at)=V(st)+A(at);其中,V(st)为静态的环境状态本身的评估价值,A(at)为动作带来的额外价值A(at)。
4.根据权利要求3所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,所述训练步骤中,所设置的深度Q值网络有两个,一个用于制造学习目标,一个用于进行实际训练。
5.根据权利要求4所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,以(s1,s2,…,st,st+1,…)为状态空间S,则S=SB×Spv,load×ST,其中,SB为可控的电池部分,spv,load为不可控的光伏和负荷部分,ST为日期和时间序列;
sB={SoC},其中,Emin≤E≤Emax;Emax为完全充电状态的电池容量,Emin为最低充电状态的电池容量;
spv,load={PV,load},其中,PV为光伏发电量,load为负荷消费量。
6.根据权利要求5所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,每个时间步长上,强化学习智能体所采取的离散化动作空间A为(电池充电动作,电池放电动作,电池保持闲置);
将动作空间划分成3个数值,即a∈[0,1,2],其中a=0表示电池充电动作,a=2表示电池保持闲置,a=1表示电池放电动作。
7.根据权利要求6所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,深度Q值网络的训练模型的奖励函数rt(at)为:
其中,rt *(at)为电池充放电获得的奖励,αbuy为购电价格,αsell为卖电价格,Pt grid=lt-Pt pv+Pt B,lt为t时刻的负荷消耗量,Pt pv为t时刻光伏发电输出量,Pt B为t时刻电池的充放电量;并且,
其中,kd为电池放电系数,kc为电池充电系数,为电池放电功率,为电池充电功率,Δt为充放电时间,n为惩罚因子,ad为电池放电动作,ac为电池充电动作,SoCmin、SoCmax分别为SoC的最小值和最大值;
定义状态-动作Q值函数Qh(s,a)为:
其中,h表示某一充放电策略;Eh为所有充放电策略的期望;T为全部调度时间段;γt为折扣因子,根据未来奖励在学习中的重要性而设定;s为某一状态;a为某一动作;
状态-动作Q值函数选择的最优策略h*(a|s)为基于最大Q值的策略,即:
其中,Q*(s,a)为状态-动作Q值函数的最优值;
所述奖励函数需要满足约束条件和最大运行收入的要求。
8.根据权利要求7所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,所述约束条件包括:
电池容量约束,满足:其中,为电池容量,为电池容量最大值,为电池容量最小值;
电池充放电速率约束;
电池充放电状态约束,即acad=0。
9.根据权利要求8所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,还包括:
评估步骤,利用电池利用率V和年度运营收益I对微电网储能调度的电池运行策略的性能进行评估,其中:
其中,表示微电网当前小时内向主电网卖电的电量,表示微电网当前小时内从主电网买电的电量。
10.一种基于深度Q值网络强化学习的微电网储能调度装置,其特征在于,包括:
建立模块,用于建立微电网模型;
训练模块,用于根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算模块,用于根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。
CN201811099843.6A 2018-09-20 2018-09-20 基于深度q值网络强化学习的微电网储能调度方法及装置 Active CN109347149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811099843.6A CN109347149B (zh) 2018-09-20 2018-09-20 基于深度q值网络强化学习的微电网储能调度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811099843.6A CN109347149B (zh) 2018-09-20 2018-09-20 基于深度q值网络强化学习的微电网储能调度方法及装置

Publications (2)

Publication Number Publication Date
CN109347149A true CN109347149A (zh) 2019-02-15
CN109347149B CN109347149B (zh) 2022-04-22

Family

ID=65306273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811099843.6A Active CN109347149B (zh) 2018-09-20 2018-09-20 基于深度q值网络强化学习的微电网储能调度方法及装置

Country Status (1)

Country Link
CN (1) CN109347149B (zh)

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110061524A (zh) * 2019-05-06 2019-07-26 中国科学院电工研究所 一种基于深度神经网络的分布式电源虚拟电厂有功调度等值聚合方法及***
CN110070185A (zh) * 2019-04-09 2019-07-30 中国海洋大学 一种从演示和人类评估反馈进行交互强化学习的方法
CN110245742A (zh) * 2019-05-08 2019-09-17 上海电力学院 一种基于Keras平台的自适应深度学习模型优化方法
CN110266061A (zh) * 2019-07-24 2019-09-20 国网江苏省电力有限公司 一种基于多代理***的港口岸电参与电网调控方法和***
CN110414725A (zh) * 2019-07-11 2019-11-05 山东大学 预测决策一体化的风电场储能***调度方法及装置
CN110533244A (zh) * 2019-08-28 2019-12-03 重庆大学 一种梯级水坝优化调度方法、***与计算机可读存储介质
CN110929948A (zh) * 2019-11-29 2020-03-27 上海电力大学 基于深度强化学习的完全分布式智能电网经济调度方法
CN111144728A (zh) * 2019-12-18 2020-05-12 东南大学 基于深度强化学习的热电联产***经济调度方法
CN111200285A (zh) * 2020-02-12 2020-05-26 燕山大学 一种基于强化学习和多智能体理论的微电网混合协调控制方法
CN111275572A (zh) * 2020-01-15 2020-06-12 杭州电子科技大学 一种基于粒子群和深度强化学习的机组调度***及方法
CN111369108A (zh) * 2020-02-20 2020-07-03 华中科技大学鄂州工业技术研究院 一种电网实时定价方法和装置
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111539492A (zh) * 2020-07-08 2020-08-14 武汉格蓝若智能技术有限公司 一种基于强化学习的异常用电判决***及方法
CN111598721A (zh) * 2020-05-08 2020-08-28 天津大学 一种基于强化学习和lstm网络的负荷实时调度方法
CN111817349A (zh) * 2020-07-31 2020-10-23 三峡大学 基于深度q学习的多微网被动并离网切换控制方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN112003269A (zh) * 2020-07-30 2020-11-27 四川大学 并网型共享储能***的智能化在线控制方法
CN112072735A (zh) * 2020-08-28 2020-12-11 广东电网有限责任公司广州供电局 一种基于卷积神经网络的液态金属电池组的均衡管理***
CN112084680A (zh) * 2020-09-02 2020-12-15 沈阳工程学院 一种基于dqn算法的能源互联网优化策略方法
CN112101564A (zh) * 2020-08-17 2020-12-18 清华大学 基于注意力机制的多智能体值函数分解方法及装置
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
CN112186799A (zh) * 2020-09-22 2021-01-05 中国电力科学研究院有限公司 基于深度强化学习的分布式能源***自治控制方法及***
CN112365077A (zh) * 2020-11-20 2021-02-12 贵州电网有限责任公司 一种电网缺陷物资智能仓储调度***的构建方法
CN112488452A (zh) * 2020-11-06 2021-03-12 中国电子科技集团公司第十八研究所 一种基于深度强化学习的能源***管理多时间尺度最优决策方法
CN112529727A (zh) * 2020-11-06 2021-03-19 台州宏远电力设计院有限公司 基于深度强化学习的微电网储能调度方法及装置及设备
CN112990582A (zh) * 2021-03-17 2021-06-18 南方电网科学研究院有限责任公司 一种智能电网调度方法及***
CN113078641A (zh) * 2021-04-29 2021-07-06 国网山东省电力公司经济技术研究院 一种基于评估器和强化学习的配电网无功优化方法及装置
CN113131584A (zh) * 2021-04-26 2021-07-16 国家电网有限公司信息通信分公司 一种数据中心电池充放电优化控制方法及装置
CN113139682A (zh) * 2021-04-15 2021-07-20 北京工业大学 一种基于深度强化学习的微电网能量管理方法
CN113270937A (zh) * 2021-03-30 2021-08-17 鹏城实验室 一种备用电池调度方法、计算机可读存储介质及***
CN113435042A (zh) * 2021-06-28 2021-09-24 天津大学 一种建筑空调***需求响应的强化学习建模方法
CN113706197A (zh) * 2021-08-26 2021-11-26 西安交通大学 基于强化和模仿学习的多微网电能交易的定价策略及***
CN113809780A (zh) * 2021-09-23 2021-12-17 沈阳工程学院 一种基于改进q学习惩罚选择的微电网优化调度方法
CN113872322A (zh) * 2021-09-06 2021-12-31 广西电网有限责任公司电力科学研究院 一种基于深度学习的微电网云边协同控制方法
CN114362218A (zh) * 2021-12-30 2022-04-15 中国电子科技南湖研究院 基于深度q学习的微电网内多类型储能的调度方法及装置
TWI763087B (zh) * 2020-10-21 2022-05-01 國立清華大學 基於強化學習的點對點能源共享方法及裝置
CN114498750A (zh) * 2022-02-14 2022-05-13 华北电力大学 一种基于Q-Learning算法的分布式多智能体微电网能量管理方法
CN115001002A (zh) * 2022-08-01 2022-09-02 广东电网有限责任公司肇庆供电局 一种求解储能参与削峰填谷的优化调度方法和***
CN115333143A (zh) * 2022-07-08 2022-11-11 国网黑龙江省电力有限公司大庆供电公司 基于双神经网络的深度学习多智能体微电网协同控制方法
CN115579943A (zh) * 2022-10-12 2023-01-06 广州瑞鑫智能制造有限公司 基于交流供电和光伏供电互补的空压站供电***及方法
CN116388279A (zh) * 2023-05-23 2023-07-04 安徽中超光电科技有限公司 太阳能光伏发电***中的电网并网控制方法及其控制***
CN114285075B (zh) * 2021-12-22 2023-09-15 浙江工业大学 一种基于分布式深度强化学习的微电网能量在线优化方法
CN116934050A (zh) * 2023-08-10 2023-10-24 深圳市思特克电子技术开发有限公司 一种基于强化学习的电力智能调度***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032245A1 (en) * 2015-07-01 2017-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Providing Reinforcement Learning in a Deep Learning System
CN106487011A (zh) * 2016-11-28 2017-03-08 东南大学 一种基于q学习的户用微电网能量优化方法
CN106651214A (zh) * 2017-01-04 2017-05-10 厦门大学 基于强化学习的微电网电能分配方法
CN107067190A (zh) * 2017-05-18 2017-08-18 厦门大学 基于深度强化学习的微电网电能交易方法
CN108321795A (zh) * 2018-01-19 2018-07-24 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032245A1 (en) * 2015-07-01 2017-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Providing Reinforcement Learning in a Deep Learning System
CN106487011A (zh) * 2016-11-28 2017-03-08 东南大学 一种基于q学习的户用微电网能量优化方法
CN106651214A (zh) * 2017-01-04 2017-05-10 厦门大学 基于强化学习的微电网电能分配方法
CN107067190A (zh) * 2017-05-18 2017-08-18 厦门大学 基于深度强化学习的微电网电能交易方法
CN108321795A (zh) * 2018-01-19 2018-07-24 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李健等: "基于多智能体强化学习算法的微电网优化研究", 《制造业自动化》 *

Cited By (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070185A (zh) * 2019-04-09 2019-07-30 中国海洋大学 一种从演示和人类评估反馈进行交互强化学习的方法
CN110061524A (zh) * 2019-05-06 2019-07-26 中国科学院电工研究所 一种基于深度神经网络的分布式电源虚拟电厂有功调度等值聚合方法及***
CN110061524B (zh) * 2019-05-06 2020-10-09 中国科学院电工研究所 一种基于深度神经网络的分布式电源虚拟电厂有功调度等值聚合方法及***
CN110245742A (zh) * 2019-05-08 2019-09-17 上海电力学院 一种基于Keras平台的自适应深度学习模型优化方法
CN110414725A (zh) * 2019-07-11 2019-11-05 山东大学 预测决策一体化的风电场储能***调度方法及装置
CN110266061A (zh) * 2019-07-24 2019-09-20 国网江苏省电力有限公司 一种基于多代理***的港口岸电参与电网调控方法和***
CN110533244A (zh) * 2019-08-28 2019-12-03 重庆大学 一种梯级水坝优化调度方法、***与计算机可读存储介质
CN110929948A (zh) * 2019-11-29 2020-03-27 上海电力大学 基于深度强化学习的完全分布式智能电网经济调度方法
CN110929948B (zh) * 2019-11-29 2022-12-16 上海电力大学 基于深度强化学习的完全分布式智能电网经济调度方法
CN111144728B (zh) * 2019-12-18 2023-08-04 东南大学 基于深度强化学习的热电联产***经济调度方法
CN111144728A (zh) * 2019-12-18 2020-05-12 东南大学 基于深度强化学习的热电联产***经济调度方法
CN111275572A (zh) * 2020-01-15 2020-06-12 杭州电子科技大学 一种基于粒子群和深度强化学习的机组调度***及方法
CN111200285A (zh) * 2020-02-12 2020-05-26 燕山大学 一种基于强化学习和多智能体理论的微电网混合协调控制方法
CN111200285B (zh) * 2020-02-12 2023-12-19 燕山大学 一种基于强化学习和多智能体理论的微电网混合协调控制方法
CN111369108A (zh) * 2020-02-20 2020-07-03 华中科技大学鄂州工业技术研究院 一种电网实时定价方法和装置
CN111598721A (zh) * 2020-05-08 2020-08-28 天津大学 一种基于强化学习和lstm网络的负荷实时调度方法
CN111515961B (zh) * 2020-06-02 2022-06-21 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111539492B (zh) * 2020-07-08 2020-11-20 武汉格蓝若智能技术有限公司 一种基于强化学习的异常用电判决***及方法
CN111539492A (zh) * 2020-07-08 2020-08-14 武汉格蓝若智能技术有限公司 一种基于强化学习的异常用电判决***及方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112003269A (zh) * 2020-07-30 2020-11-27 四川大学 并网型共享储能***的智能化在线控制方法
CN112003269B (zh) * 2020-07-30 2022-06-28 四川大学 并网型共享储能***的智能化在线控制方法
CN111817349A (zh) * 2020-07-31 2020-10-23 三峡大学 基于深度q学习的多微网被动并离网切换控制方法
CN111817349B (zh) * 2020-07-31 2023-08-25 三峡大学 基于深度q学习的多微网被动并离网切换控制方法
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
CN112101564A (zh) * 2020-08-17 2020-12-18 清华大学 基于注意力机制的多智能体值函数分解方法及装置
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN111934335B (zh) * 2020-08-18 2022-11-18 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN112072735A (zh) * 2020-08-28 2020-12-11 广东电网有限责任公司广州供电局 一种基于卷积神经网络的液态金属电池组的均衡管理***
CN112084680A (zh) * 2020-09-02 2020-12-15 沈阳工程学院 一种基于dqn算法的能源互联网优化策略方法
CN112084680B (zh) * 2020-09-02 2023-12-26 沈阳工程学院 一种基于dqn算法的能源互联网优化策略方法
CN112186799A (zh) * 2020-09-22 2021-01-05 中国电力科学研究院有限公司 基于深度强化学习的分布式能源***自治控制方法及***
CN112186799B (zh) * 2020-09-22 2022-07-26 中国电力科学研究院有限公司 基于深度强化学习的分布式能源***自治控制方法及***
TWI763087B (zh) * 2020-10-21 2022-05-01 國立清華大學 基於強化學習的點對點能源共享方法及裝置
CN112529727A (zh) * 2020-11-06 2021-03-19 台州宏远电力设计院有限公司 基于深度强化学习的微电网储能调度方法及装置及设备
CN112488452A (zh) * 2020-11-06 2021-03-12 中国电子科技集团公司第十八研究所 一种基于深度强化学习的能源***管理多时间尺度最优决策方法
CN112365077A (zh) * 2020-11-20 2021-02-12 贵州电网有限责任公司 一种电网缺陷物资智能仓储调度***的构建方法
CN112365077B (zh) * 2020-11-20 2022-06-21 贵州电网有限责任公司 一种电网缺陷物资智能仓储调度***的构建方法
CN112990582A (zh) * 2021-03-17 2021-06-18 南方电网科学研究院有限责任公司 一种智能电网调度方法及***
CN113270937A (zh) * 2021-03-30 2021-08-17 鹏城实验室 一种备用电池调度方法、计算机可读存储介质及***
CN113139682B (zh) * 2021-04-15 2023-10-10 北京工业大学 一种基于深度强化学习的微电网能量管理方法
CN113139682A (zh) * 2021-04-15 2021-07-20 北京工业大学 一种基于深度强化学习的微电网能量管理方法
CN113131584A (zh) * 2021-04-26 2021-07-16 国家电网有限公司信息通信分公司 一种数据中心电池充放电优化控制方法及装置
CN113078641A (zh) * 2021-04-29 2021-07-06 国网山东省电力公司经济技术研究院 一种基于评估器和强化学习的配电网无功优化方法及装置
CN113435042A (zh) * 2021-06-28 2021-09-24 天津大学 一种建筑空调***需求响应的强化学习建模方法
CN113435042B (zh) * 2021-06-28 2022-05-17 天津大学 一种建筑空调***需求响应的强化学习建模方法
CN113706197A (zh) * 2021-08-26 2021-11-26 西安交通大学 基于强化和模仿学习的多微网电能交易的定价策略及***
CN113872322A (zh) * 2021-09-06 2021-12-31 广西电网有限责任公司电力科学研究院 一种基于深度学习的微电网云边协同控制方法
CN113809780A (zh) * 2021-09-23 2021-12-17 沈阳工程学院 一种基于改进q学习惩罚选择的微电网优化调度方法
CN113809780B (zh) * 2021-09-23 2023-06-30 沈阳工程学院 一种基于改进q学习惩罚选择的微电网优化调度方法
CN114285075B (zh) * 2021-12-22 2023-09-15 浙江工业大学 一种基于分布式深度强化学习的微电网能量在线优化方法
CN114362218A (zh) * 2021-12-30 2022-04-15 中国电子科技南湖研究院 基于深度q学习的微电网内多类型储能的调度方法及装置
CN114362218B (zh) * 2021-12-30 2024-03-19 中国电子科技南湖研究院 基于深度q学习的微电网内多类型储能的调度方法及装置
CN114498750A (zh) * 2022-02-14 2022-05-13 华北电力大学 一种基于Q-Learning算法的分布式多智能体微电网能量管理方法
CN115333143A (zh) * 2022-07-08 2022-11-11 国网黑龙江省电力有限公司大庆供电公司 基于双神经网络的深度学习多智能体微电网协同控制方法
CN115333143B (zh) * 2022-07-08 2024-05-07 国网黑龙江省电力有限公司大庆供电公司 基于双神经网络的深度学习多智能体微电网协同控制方法
CN115001002B (zh) * 2022-08-01 2022-12-30 广东电网有限责任公司肇庆供电局 一种求解储能参与削峰填谷的优化调度方法和***
CN115001002A (zh) * 2022-08-01 2022-09-02 广东电网有限责任公司肇庆供电局 一种求解储能参与削峰填谷的优化调度方法和***
CN115579943A (zh) * 2022-10-12 2023-01-06 广州瑞鑫智能制造有限公司 基于交流供电和光伏供电互补的空压站供电***及方法
CN116388279A (zh) * 2023-05-23 2023-07-04 安徽中超光电科技有限公司 太阳能光伏发电***中的电网并网控制方法及其控制***
CN116388279B (zh) * 2023-05-23 2024-01-23 安徽中超光电科技有限公司 太阳能光伏发电***中的电网并网控制方法及其控制***
CN116934050A (zh) * 2023-08-10 2023-10-24 深圳市思特克电子技术开发有限公司 一种基于强化学习的电力智能调度***

Also Published As

Publication number Publication date
CN109347149B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN109347149A (zh) 基于深度q值网络强化学习的微电网储能调度方法及装置
Wan et al. Model-free real-time EV charging scheduling based on deep reinforcement learning
Wan et al. Residential energy management with deep reinforcement learning
CN110276698A (zh) 基于多智能体双层协同强化学习的分布式可再生能源交易决策方法
Jasmin et al. Reinforcement learning approaches to economic dispatch problem
CN108347062A (zh) 基于势博弈的微电网能量管理分布式多目标协同优化算法
Gao et al. A multiagent competitive bidding strategy in a pool-based electricity market with price-maker participants of WPPs and EV aggregators
Zhang et al. Efficient design of energy microgrid management system: a promoted Remora optimization algorithm-based approach
Rettieva Equilibria in dynamic multicriteria games
CN113326994A (zh) 一种考虑源荷储互动的虚拟电厂能量协同优化方法
Sueyoshi An agent-based approach equipped with game theory: strategic collaboration among learning agents during a dynamic market change in the California electricity crisis
CN116345578B (zh) 基于深度确定性策略梯度的微电网运行优化调度方法
Chuang et al. Deep reinforcement learning based pricing strategy of aggregators considering renewable energy
Liu et al. Research on bidding strategy of thermal power companies in electricity market based on multi-agent deep deterministic policy gradient
Zhang et al. Deep reinforcement learning based Bi-layer optimal scheduling for microgrids considering flexible load control
Lincoln et al. Comparing policy gradient and value function based reinforcement learning methods in simulated electrical power trade
CN114285075B (zh) 一种基于分布式深度强化学习的微电网能量在线优化方法
CN116207739A (zh) 配电网优化调度方法、装置、计算机设备和存储介质
Anwar et al. Proximal policy optimization based reinforcement learning for joint bidding in energy and frequency regulation markets
Wang et al. Multi-agent simulation for strategic bidding in electricity markets using reinforcement learning
CN110048461A (zh) 一种多虚拟电厂分散自律优化方法
CN116451880B (zh) 一种基于混合学习的分布式能源优化调度方法及装置
Mishra et al. Solving bi-objective economic-emission load dispatch of diesel-wind-solar microgrid using African vulture optimization algorithm
CN117595392A (zh) 计及光伏消纳与光储充配置的配电网联合优化方法及***
CN117117878A (zh) 基于人工神经网络和多智能体强化学习的电网需求侧响应潜力评估及负荷调控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant