CN111200285A

CN111200285A - 一种基于强化学习和多智能体理论的微电网混合协调控制方法

Info

Publication number: CN111200285A
Application number: CN202010089205.7A
Authority: CN
Inventors: 窦春霞; 张立国
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-05-26
Anticipated expiration: 2040-02-12
Also published as: CN111200285B

Abstract

本发明公开了一种基于强化学习和多智能体理论的微电网混合协调控制方法，包括如下步骤：设计基于电压分层方式的过渡电压层控制策略，设计双储能分角色控制策略，当储能单元工作于稳压模式时，两储能分离工作；当需要储能辅助持续吸收功率或补充功率时，两储能工作方式转换为协同充/放电；构建基于Q‑Learning的动作空间与状态空间：设计基于多智能体的强化学习控制框架：包括设计状态—动作对的基本更新规则以及选择相应的价值函数；设计基本动作选择机制与回报值策略：包括设计***在初始状态下所采取的选择策略以及在各个状态下的回报值；设计强化学习算法流程：基于以上策略设计合适算法流程以实现控制策略。

Description

一种基于强化学习和多智能体理论的微电网混合协调控制方法

技术领域

本发明涉及智能电网控制领域，尤其涉及一种基于强化学习和多智能体理论的微电网混合协调控制方法。

背景技术

随着经济的快速发展，我国能源消耗逐年递增，其中化石能源等非可再生能源的消耗总量增长迅速。我国的电力供应仍主要来源于火力发电，但随着化石能源等非可再生能源的过渡开采以及传统发电过程中对环境带来的负面影响日益严重，我国乃至全世界对风、光、水等可再生能源发电的研究逐步提上了日程。对绿色清洁能源的开发利用不仅能为环境保护作出一定的贡献，更加重要的是能够为经济发展提供新的能源供给形式。因此，对清洁能源的开发利用成为我国能源发展的重点任务以来，来我国的风力发电和光伏发电以较为迅猛的速度发展起来。

近年来，与传统的大型集中式发配电模式相比，基于分布式发电技术的微电网得益于其建设周期短、投资少、安装地点灵活、供电可靠、易于维护、能源利用率高及环境污染小等突出的优势得到了国内外的广泛关注与应用。微电网是将分布式电源、负荷、储能装置及控制装置等结合，形成一个单一可控的单元，同时向用户供给电能和热能。微电网中融合了先进的信息技术、控制技术和电力技术，可在提供稳定的电力供应，满足多样化负载需求的同时，还能保证实现能源效益、经济效益和环境效益的最大化。与此同时，微电网还可以在必要的时刻向常规电网中提供电力支撑。微电网将是未来电网建设过程中不可或缺的重要组成部分。在我国，大力推广分布式发电技术，是走可持续发展道路的具体体现，是对我国调整能源结构、解决边远地区用电问题、保护环境的有力支撑。

随着分布式发电技术的快速发展，其亟待解决的问题逐渐显现出来。接入大电网后的微电网很容易满足负荷需求，但是当微电网处于孤岛运行时，为了保证***在多个接入情况下的安全稳定运行，需要一种有效的控制机制。首先分布式发电的能源供应主要依靠风、光等可再生能源，但其固有的间歇性、不可控性等依赖自然因素的特性将会对电网的能源供应造成一定的不稳定性。因此为保证负载的稳定运行，必须对分布式能源进行合理有效的控制，使其能够根据实时自然条件与负荷需求运行在不同的模式下。而且，若***频繁地在不同的运行模式间切换也势必会增加控制难度，降低其运行稳定性，如何在保证***稳定运行的情况下减少其模式转换次数同样是一个值得考虑的问题。除了上述的不同运行模式转换问题外，电压、功率等重要电力指标的控制问题也不容忽视。

基于分布式发电技术的微电网多模式转换的控制问题，多智能体***(multi-agent system，简称MAS)技术无疑是最有效和最广泛应用的手段之一。到目前为止，也已经研究出很多基于分布式发电技术的微电网多模式转换的控制方法。然而，大多数人都将重点放在了基于MAS的逻辑切换控制或者连续动态调节问题并没有充分地考虑微电网***的切换条件与切换行为。因此，如何在保证***稳定运行的情况下，合理规划切换条件与切换行为，减少其模式转换次数是一个值得考虑的问题。并且在对母线电压的检测方案中，大多数采用的思路是直接将电压分为三个或五个等级，当母线电压因某种因素上升或下降到某一等级后，***采取一种控制措施维持母线电压以及***的稳定，却未考虑到当母线电压恰好在某两个等级间波动的情况，其会导致***不停转换控制措施。对于储能单元来说，其用途一般有两种：第一种是当可再生能源发电量供应不足时，储能单元负责向负载提供电能输出；另一种是当母线电压出现一定程度波动时，调用储能单元对其“削峰填谷”，稳定母线电压。然而大部分文章都是采用单一储能方案，单一储能方案在稳定电压波动时需要不停切换充放电，不仅性能一般，而且还会极大损耗储能寿命，另一部分在此基础上采用改进后的双储能控制，但双储能控制策略单一。

发明内容

根据现有技术存在的问题，本发明公开了一种基于强化学习和多智能体理论的微电网混合协调控制方法，设计基于电压分层控制方式的过渡电压层控制策略，在相邻电压层之间加入过渡层；

设计双储能分角色控制策略，当储能单元工作于稳压模式时，两储能分离工作；当需要储能辅助持续吸收功率或补充功率时，两储能工作方式转换为协同充/放电；.

构建基于Q-Learning的动作空间与状态空间：分析母线电压检测单元、储能单元、光伏发电单元、风力发电单元、柴油发电单元和负荷控制单元的各自必要的状态与动作、获取各自的动作空间与状态空间；

设计基于多智能体的强化学习控制框架：包括设计状态—动作对的基本更新规则以及选择相应的价值函数；

设计基本动作选择机制与回报值策略：包括设计***在初始状态下所采取的选择策略以及在各个状态下的回报值；

设计强化学习算法流程：基于以上策略设计合适算法流程以实现控制策略。

所述基于多智能体的强化学习控制框架采用如下方式设计：将***当前采集的状态信息与上一时刻采集的状态信息进行比较，若状态相同则不进行动作指令的生成，继续进行下一时刻状态信息采集；

当所有的状态与动作都确定后，***生成一个多维Q矩阵，强化学习模型***状态的Q值通过学习迭代逼近最优的动作值函数获取，

状态—动作对的基本更新规则如下式：

其中s为智能体当前的状态，a为根据当前状态所采取的动作，Q(s_t,a_t)表示智能体在状态s_t下通过设定的学习策略所选择的下一步动作指令a_t；β为衰减因子，其大小决定了选取的策略倾向于当前奖励还是未来奖励，R为基于状态和行为的奖励；

通过奖励函数判断执行动作、更改指令后的智能体状态与之前状态的情况、决定基于上一状态的动作应受到的奖励或惩罚程度，通过尝试组合所有基于当前状态允许的所有动作来最大化奖励函数的期望值之和，奖励函数为：

式中：

表示***在t时间中接下来j步的奖励，π为***所选择的策略

所述基本动作选择机制与回报值策略采用如下方式设计：

设置单元的启用优先级：其中风力/光伏发电>储能供电>柴油机组供电>负荷控制单元切负荷；

对可再生能源发电供应量刚好满足需求、可再生能源发电供应量大于需求和可再生能源发电供应量小于需求三种情况进行分情况设计。

由于采用了上述技术方案，本发明提供的一种基于强化学习和多智能体理论的微电网混合协调控制方法，该方法通过引入强化学习算法，以多个微电网智能体单元所获取的总回报期望的最大值作为目标，根据历史数据及当前状态自主学习迭代动作价值函数。多智能体混合协调控制的最优动作策略即为最终得到的收敛的状态—动作表，并以动作价值函数进一步优化控制器中的混合协调控制规则。并设计一种基于电压分层技术的过渡电压层控制策略，和一种双储能协调控制策略，以减小由控制策略带来的不稳定因素，稳定母线电压。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为加入过渡层的电压检测等级图；

图2为微电网***的模型图；

图3为环境、智能体与控制***关系图；

图4为基于强化学习的多智能体协调控制框架。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图4所示的一种基于强化学习和多智能体理论的微电网混合协调控制方法，包括如下步骤：

步骤1：为对母线电压进行最优控制，电压分层控制策略将母线电压分为6个检测等级：(—，0.95U_ref]，(0.95U_ref，0.96U_ref]，(0.96U_ref，0.98U_ref]，(0.98U_ref，1.02U_ref]，(1.02U_ref，1.05U_ref]，(1.05U_ref，—]，其中U_ref为参考电压。

由于可再生能源发电以及负荷需求的随机性，会导致母线电压出现一定程度的波动。当母线电压从某一范围跳变至另一范围时，检测单元将该状态变动信号传输至混合控制单元。为防止由于发电与需求的不确定性导致母线电压在两电压检测等级之间来回跳变造成检测单元频繁传输状态变动信号，本文创新性地在电压检测等级之间加入过渡电压层。如图1所示，当母线电压在某一电压层区内波动不会触发状态变动信号，此时该电压层区内包含的上一层区的下边界和下一层区的上边界都处于未激活状态，当母线电压继续上升(下降)至越过当前层区的上边界(下边界)时，该电压层区失效，上一电压层区(下一电压层区)激活，检测单元检测到母线电压状态信号变动，将具体状态变动信息传输至混合控制单元。电压检测单元的事件触发函数(event-triggered functions,ETFs)由ETF(U_s)表示，为：

其中Sgn(.)是符号函数；1(t)阶跃函数；U为当前母线电压；

和

分别表示当前电压所处于的电压层上限与下限，每一层的电压范围已经在上文中定义；当ETF(U_s)＝1时，母线电压所允许的范围上移一层区，当ETF(U_s)＝0时，母线电压所允许的范围下移一层区，ETF(U_s)＝0时，电压层区不作改变；t_s为触发时间。

步骤2：为最大限度发挥两组储能的容量优势以及维护储能寿命，储能控制单元对两组储能进行分角色控制。当母线电压因再生能源发电不稳定或其他因素导致波动时，储能工作于稳压工作方式(包括功率吸收与功率补偿两种工作方式)，双储能分离工作，一组储能专门用于功率吸收，吸收母线电压多余电能，进行“削峰”，另一组储能专门用于功率补偿，向母线供能以抑制母线电压的降低，进行“填谷”；当可再生能源发电量持续上升(下降)，需要储能辅助持续吸收功率(补充功率)时，两储能工作方式转换为协同充/放电。该控制策略的事件触发函数由ETF(E_s)表示，为：

ETF(E_s)＝Sgn[I_s]×[1(t)-1(t-t_s)] (5)

I_s为储能与母线之间的电流，I_s＞0表示储能充电，反之I_s＜0表示储能放电，t_s为触发时间。当ETF(E_s)＝1时两储能为协同充电工作方式，当ETF(E_s)＝-1时两储能为协同放电工作方式，当其为0时为分角色工作方式(稳压)。此外，为维护储能寿命及更好地让储能为***提供服务，设定两组储能SOC不能有过大差值，当储能控制单元检测到|SOC₁-SOC₂|＞0.3，即两储能容量相差0.3时，将对两储能的角色进行切换。综上，该种控制方式可消除单一储能中因充放电模式频繁切换所导致的时间损失，可进一步提升储能单元反应速度，能够更快地稳定母线电压波动，并且有效提升储能寿命。

步骤3：基于图2所示的微电网***模型图设计如下各单元的控制方案。

1)母线电压检测单元：为方便对母线电压进行最优控制，在实施方案(1)中已按照传统电压分层控制策略将母线电压分为6个检测等级(—，0.95U_ref]，(0.95U_ref，0.96U_ref]，(0.96U_ref，0.98U_ref]，(0.98U_ref，1.02U_ref]，(1.02U_ref，1.05U_ref]，(1.05U_ref，—]，与其相对应共有六个状态，其状态空间包括：超低、过低、偏低、正常、偏高、过高；但其状态变动因素取决于其他单元或自然因素，所以其无动作空间。

2)储能单元：为维护储能寿命，限制其容量的工作空间为0.1SOC—0.9SOC，即若储能作为放电或充电单元时，当其容量小于0.1SOC或大于0.9SOC时断开运行，因此其共有亏电(可充电)、满电(可放电)与可充放电三个容量状态。并且因储能共有稳压、协同充/放电与等待四个工作状态，状态空间包括：亏电(可充电)、满电(可放电)、可充放电、稳压、协同充电、协同放电、等待；每个工作状态都存在可以向其他状态转换的情况，因此共对应十二个工作状态的转换，即十二个动作，动作空间包括：稳压→协同充电、稳压→协同放电、稳压→等待、协同充电→稳压、协同充电→协同放电、协同充电→等待、协同放电→稳压、协同放电→协同充电、协同放电→等待、等待→稳压、等待→协同充电、等待→协同放电。

3)光伏发电单元：因为光伏发电的最大功率完全取决于自然条件的好坏，因此当发电功率小于负载功率时，此时发电单元的工作模式采用最大功率点追踪(MTTP)模式，使其尽可能提供更多功率，降低发电成本；当发电功率大于负载功率时，其工作模式采用恒功率模式，保证负载正常运行；当发电功率过低时，发电单元退出运行。因此其共有三个工作状态，状态空间包括：恒功率模式、MTTP模式、停止运行；不同于储能单元，光伏发电单元共有四种工作状态的转换，动作空间包括：恒功率→MTTP、MTTP→停止运行、停止运行→MTTP、MTTP→恒功率。

4)风力发电单元：同光伏发电单元，共有三个工作状态、四个动作，即状态空间包括：恒功率模式、MTTP模式、停止运行；动作空间包括：恒功率→MTTP、MTTP→停止运行、停止运行→MTTP、MTTP→恒功率。

5)柴油发电单元：当可再生能源发电不足同时储能电量也消耗殆尽时，启用柴油发电机组供电，保持负载正常运行。因此该单元有两个状态，两个动作。状态空间：运行、停止；动作空间：启动、停止。

6)负荷控制单元：负荷控制单元负责控制不重要负荷的供电。当所有发电功率均小于负载功率时，将由负荷控制单元逐一切除不重要负荷，以维持母线电压稳定，保证重要负荷的正常运行。该单元共有全部在线、部分切除与全部切除三个状态，对应切除负载与上线负载两个动作。状态空间：全部在线、部分切除、全部切除；动作空间：切除负载、上线负载。

步骤4：强化学习是一种无监督学习方法，智能体通过与环境的反复交互、不断学习，选择最优或者近似最优的动作，以实现***目标或保持***最佳状态，其基本模型一般包括如图3所示的环境与***两部分。

控制模块的强化学习模型***状态的Q值，通过学习迭代逼近最优的动作值函数，而与正在遵循的策略的相关性很小。当所有的状态与动作都确定后，***生成一个多维Q矩阵。需要说明的是，***对状态信息的采集、处理和下一步动作指令的下达是一个不间断的过程，并且动作指令具有覆盖性，即智能体必须时刻准备接受***传递来的动作更改指令。为减少***数据处理的计算量，将***当前采集的状态信息与上一时刻采集的状态信息进行比较，若状态相同则不进行动作指令的生成，继续进行下一时刻状态信息采集。状态—动作对的基本更新规则如下式：

其中s为智能体当前的状态，a为根据当前状态所采取的动作，Q(s_t,a_t)则表示智能体在状态s_t下通过设定的学习策略所选择的下一步动作指令a_t；β为衰减因子，其大小决定了选取的策略更倾向于当前奖励还是未来奖励，R为基于状态和行为的奖励，其结果由公式(8)给出。在智能体学习迭代过程中，每个智能体获得的奖励同时取决于自身动作以及由自身动作引起的其他智能体的动作。基于强化学习的多智能体协调控制框架如图4所示。

***通过奖励函数判断执行动作更改指令后的智能体状态与之前状态的情况来决定基于上一状态的动作应受到的奖励或惩罚程度，因此***通过尝试组合所有基于当前状态允许的所有动作来最大化奖励函数的期望值之和，奖励函数为：

式中：

表示***在t时间中接下来j步的奖励，π为***所选择的策略。

步骤5：在满足电压安全评估指标的前提下，控制***基于母线电压的状态信息，对各发电单元与负荷控制单元进行调控，考虑到储能与柴油机组带来的成本增加以及柴油机组造成的环境污染问题，对各单元的启用优先级排序如下：风力/光伏发电(储能调压)>储能供电>柴油机组供电>负荷控制单元切负荷。

可再生能源发电供应量刚好满足需求时：

母线电压在(0.98U_ref，1.02U_ref]范围波动，此时发电来源主要依靠风光等可再生能源供电，且工作模式为最大功率点追踪模式，并由双储能单元提供功率补偿以及实时稳压；

可再生能源发电供应量大于需求时：

当风力或光伏发电充足时，母线电压上升至(1.02U_ref，1.05U_ref]范围(以下均默认越过电压缓冲层)。储能动作：储能不再提供功率补偿，其工作模式切为充电模式，补充自身电能，同时将母线电压稳定在该范围内(即***选择此动作时回报值为r＝r₊，选择其他动作时回报值为r＝r_-，并且以下所表述的动作回报值均为正，未表述的其他动作回报值均为负，下文不再赘述)；

若母线电压继续升高，到达(1.05U_ref，—]范围，可再生能源动作：风力或光伏发电单元工作模式由最大功率点追踪模式转换为恒功率模式运行，同时将母线电压稳定在该范围内；

可再生能源发电供应量小于需求时：

当可再生能源发电功率下降，母线电压随之降至(0.98U_ref，1.02U_ref]范围时，储能动作：储能单元启用功率补偿，同时将母线电压稳定在该范围内；

若可再生能源发电功率继续下降，母线电压降至(0.96U_ref，0.98U_ref]范围内时，储能动作：储能开始供能以维持母线电压稳定；

当储能电量不足时，储能动作：储能退出运行。因而母线电压继续降低至(0.95U_ref，0.96U_ref]，柴油发电机组动作：柴油发电机组启用；

若负载负荷较大，致使柴油发电机组发出功率难以满足时，母线电压进入(—，0.95U_ref]范围，负荷控制器动作：负荷控制器逐个切除负载，以将电压维持在0.95U_ref附近(需说明的是，负荷控制器对可切负荷采用分区管理，每个分区由若干负荷组成，其负载容量大致相同，负荷控制器切除负荷的最小单位为“区”)；当可再生能源恢复，母线电压上升至(0.96U_ref，0.98U_ref]时，负荷控制器动作：负荷控制器尝试逐个上线被切除的负载(其过程与切除方式相反)。

步骤6：基于以上策略，设计合适算法流程以实现控制策略：

1)初始化设置：***结构读取，载入状态—动作矩阵，目标函数与奖励函数设置，Q表初始化；

2)参数设置：动作策略、衰减因子β设置；

3)检测当前环境下的状态s_t；

4)判断当前状态s_t与上一状态s_t-1是否一致，若一致，进行步骤5)；否则返回步骤3)

5)根据动作策略选择状态s_t所对应的动作a_t；

6)执行a_t，返回奖励值R与下一个状态s_t+1；

7)按式(5)更新Q值，将数据存入知识库中，返回步骤3)。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于强化学习和多智能体理论的微电网混合协调控制方法，其特征在于包括：

设计基于电压分层控制方式的过渡电压层控制策略，在相邻电压层之间加入过渡层；

2.根据权利要求1所述的一种基于强化学习和多智能体理论的微电网混合协调控制方法，其特征还在于：所述基于多智能体的强化学习控制框架采用如下方式设计：将***当前采集的状态信息与上一时刻采集的状态信息进行比较，若状态相同则不进行动作指令的生成，继续进行下一时刻状态信息采集；

状态—动作对的基本更新规则如下式：

式中：

表示***在t时间中接下来j步的奖励，π为***所选择的策略。

3.根据权利要求1所述的一种基于强化学习和多智能体理论的微电网混合协调控制方法，其特征还在于：所述基本动作选择机制与回报值策略采用如下方式设计：