CN116454926B - 一种面向配网三相不平衡治理的多类型资源协同调控方法 - Google Patents

一种面向配网三相不平衡治理的多类型资源协同调控方法 Download PDF

Info

Publication number
CN116454926B
CN116454926B CN202310696501.7A CN202310696501A CN116454926B CN 116454926 B CN116454926 B CN 116454926B CN 202310696501 A CN202310696501 A CN 202310696501A CN 116454926 B CN116454926 B CN 116454926B
Authority
CN
China
Prior art keywords
agent
markov
action
model
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310696501.7A
Other languages
English (en)
Other versions
CN116454926A (zh
Inventor
李佳勇
海征
陈大波
张聪
朱利鹏
帅智康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202310696501.7A priority Critical patent/CN116454926B/zh
Publication of CN116454926A publication Critical patent/CN116454926A/zh
Application granted granted Critical
Publication of CN116454926B publication Critical patent/CN116454926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/26Arrangements for eliminating or reducing asymmetry in polyphase networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/50Arrangements for eliminating or reducing asymmetry in polyphase networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Power Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

一种面向配网三相不平衡治理的多类型资源协同调控方法,属于配电网三相不平衡治理技术领域,包括S1设定五元组集合作为构建模型坐标;S2构建马尔可夫决策模型,求解马尔可夫决策模型,得到并联电容器组和换相开关的控制策略;S3构建马尔可夫博弈模型,求解马尔科夫博弈模型,使选定智能体在Q值估计模型中有选择性地关注非选定智能体的信息;S4采用两步法协同训练构建马尔可夫决策模型的上层智能体和构建马尔可夫博弈模型的下层智能体。解决了现有基于物理模型的控制技术过分依赖精细化建模,难以适用于部分可观测的配电网三相不平衡在线治理的问题,显著提升配电网的电流不平衡度补偿和电压不平衡治理效果。

Description

一种面向配网三相不平衡治理的多类型资源协同调控方法
技术领域
本发明属于配电网三相不平衡治理技术领域,涉及一种面向配网三相不平衡治理的多类型资源协同调控方法。
背景技术
目前,高比例分布式新能源接入配电网已成为我国能源发展的重要方向。然而,新能源渗透率的大幅增高不但会造成配电网频繁的电压波动,而且还会导致三相不平衡电流与电压的产生。此外,大量分散接入的单相分布式光伏电源产生的注入功率还会加剧配电网三相不平衡现象,严重危害配电网安全可靠运行。
现有技术中,只聚焦于利用光伏逆变器快速调节无功的能力对配电网电压进行实时控制,忽略了配电网固有的不对称性质及并联电容器组、换相开关与光伏逆变器的分布式协同作用,从而无法充分调用各类型可控设备的调节能力来改善配电网的电压与电流三相不平衡现象,提高电能质量。
发明内容
为实现上述目的,本发明提供面向配电网三相不平衡治理的多类型资源协同调控方法,解决了现有基于物理模型的控制技术过分依赖精细化建模,难以适用于部分可观测的配电网三相不平衡在线治理的问题,显著提升配电网的电流不平衡度补偿和电压不平衡治理效果。
本发明所采用的技术方案是:
本发明实施例的第一方面提供一种面向配网三相不平衡治理的多类型资源协同调控方法,包括:S1设定五元组集合作为构建模型坐标;S2构建马尔可夫决策模型,采用第一计算方法来求解马尔可夫决策模型,得到并联电容器组和换相开关的控制策略;S3构建马尔可夫博弈模型,采用第二计算方法来求解马尔科夫博弈模型,使选定智能体在Q值估计模型中有选择性地关注非选定智能体的信息;S4采用两步法协同训练构建马尔可夫决策模型的上层智能体和构建马尔可夫博弈模型的下层智能体。
其中,第一计算方法采用深度神经网络拟合函数DQN,得到并联电容器组和换相开关的最优控制策略;
第二计算方法采用一种引入注意力机制的多注意力动作-评价MAAC来求解马尔科夫博弈,使选定智能体在Q值估计过程中有选择性地关注非选定智能体的相关信息,用于降低计算复杂度和存储空间;
两步法采用多时间尺度控制方法协同训练构建马尔可夫决策模型的上层智能体和构建马尔可夫博弈模型的下层智能体,使并联电容器组、换相开关和光伏逆变器协同动作。
进一步的,根据五元组集合构建马尔可夫决策模型包括:状态空间、动作空间/>、奖励函数/>、状态转移概率函数/>、/>;S2.1设定状态空间/>,包括配电网所有节点的有功功率和无功功率、光伏设备的有功功率、节点电压幅值;S2.2设定动作空间,包括并联电容器组和换相开关的动作指令组成;S2.3设定奖励函数/>,包括通过输配联络节点的零序和负序电流分量之和、电压越限惩罚值、电压不平衡度越限惩罚值;S2.4设定状态转移概率函数/>;状态空间/>、动作空间/>、奖励函数/>表征的上层智能体,并用于累计折扣奖励的最大化。
进一步的,马尔科夫决策模型求解包括;S2.5根据深度神经网络来拟合动作价值函数;给定状态,采取动作/>,基于策略/>与环境连续交互得到期望奖励的具体过程,可定义动作-价值函数为Q函数,如:
其中,表示为策略/>下的期望值,/>为折扣因子,/>为Q网络的待优化权重参数,t表示为时刻t,/>表示为时刻t时的奖励函数值;
所述马尔科夫决策模型求解根据预测所述Q值,智能体将选择所述Q值最大的动作,并在预设的下一时刻生效。
进一步的,马尔科夫决策模型求解还包括;S2.6应用目标Q网络和经验回放机制;S2.7利用Adam优化器更新损失函数的参数,其中,所有评价网络可通过最小化联合回归损失函数来进行迭代更新,损失函数为:
其中,表示为期望值,/>表示为目标Q值,/>为奖励函数值,/>为折扣因子,/>为目标Q网络的权重参数,/>表示为预测Q值;
S2.8采用贪心策略来选择Q网络的动作。
进一步的,马尔科夫博弈模型包括;S3.1设定状态空间,状态空间/>包含配电网区域/>内所有节点的有功功率和无功功率,光伏的有功功率和无功功率、节点电压幅值以及时刻/>内并联电容器组和换相开关的状态信息;S3.2设定动作空间/>,用于计算得到区域内每个光伏逆变器的无功出力值;S3.3设定奖励函数/>,用于表示下层多智能体共享的奖励函数;在马尔科夫博弈模型的下层多智能体架构中,每隔/>时间间隔,通过每个智能体根据该区域内的局部状态信息,获得相应的动作策略,然后进行三相不对称配电网的潮流计算,得到各节点电压幅值等量测信息,最后在此基础上计算当前时刻的奖励函数值,并将三相不对称配电网转移到下一时刻状态。
进一步的,求解马尔科夫博弈模型包括;S3.4考虑自身的局部观测状态信息和动作信息外,还考虑了其他智能体局部信息的贡献度;S3.5基于三个可训练的参数共享矩阵,所有评价网络可通过最小化联合回归损失函数来进行迭代更新:S3.6每个智能体可以基于梯度策略来更新自身动作网络的参数;S3.7更新目标网络参数,使得每个智能体在Q值估计过程中有选择性地关注其他智能体的相关信息。
本发明的有益效果是:通过S1设定五元组集合作为构建模型坐标;S2构建马尔可夫决策模型,采用第一计算方法来求解马尔可夫决策模型,得到并联电容器组和换相开关的控制策略;S3构建马尔可夫博弈模型,采用第二计算方法来求解马尔科夫博弈模型,使选定智能体在Q值估计模型中有选择性地关注非选定智能体的信息;S4采用两步法协同训练构建马尔可夫决策模型的上层智能体和构建马尔可夫博弈模型的下层智能体。解决了现有基于物理模型的控制技术过分依赖精细化建模,难以适用于部分可观测的配电网三相不平衡在线治理的问题,显著提升配电网的电流不平衡度补偿和电压不平衡治理效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1 是本发明一实施例提供一种面向配网三相不平衡治理的多类型资源协同调控方法流程图;
图2 是本发明一实施例提供的面向配电网三相不平衡治理的多类型资源协同调控框架图;
图3是本发明一实施例提供的DQN方法网络架构图;
图4是本发明一实施例提供的智能体Q函数的注意力机制示意图;
图5是本发明一实施例提供的上层智能体训练流程图;
图6是本发明一实施例提供的下层多智能体训练流程图;
图7是本发明一实施例提供的多时间尺度控制方法的执行策略流程图;
图8a是本发明一实施例提供的节点a相电压幅值频率分布图;
图8b是本发明一实施例提供的节点a另一相电压幅值频率分布图;
图9a是本发明一实施例提供的节点b相电压幅值频率分布图;
图9b是本发明一实施例提供的节点b另一相电压幅值频率分布图;
图10a是本发明一实施例提供的节点c相电压幅值频率分布图;
图10b是本发明一实施例提供的节点c另一相电压幅值频率分布图;
图11a是本发明一实施例提供的电压不平衡度值频率分布图;
图11b是本发明一实施例提供的另一电压不平衡度值频率分布图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,图1 是本发明一实施例提供一种面向配网三相不平衡治理的多类型资源协同调控方法流程图;本发明实施例的第一方面提供一种面向配网三相不平衡治理的多类型资源协同调控方法,包括:S1设定五元组集合作为构建模型坐标;S2构建马尔可夫决策模型,采用第一计算方法来求解马尔可夫决策模型,得到并联电容器组和换相开关的控制策略;S3构建马尔可夫博弈模型,采用第二计算方法来求解马尔科夫博弈模型,使选定智能体在Q值估计模型中有选择性地关注非选定智能体的信息;S4采用两步法协同训练构建马尔可夫决策模型的上层智能体和构建马尔可夫博弈模型的下层智能体。
其中,第一计算方法采用深度神经网络拟合函数DQN,得到并联电容器组和换相开关的最优控制策略;
第二计算方法采用一种引入注意力机制的多注意力动作-评价MAAC来求解马尔科夫博弈,使选定智能体在Q值估计过程中有选择性地关注非选定智能体的相关信息,用于降低计算复杂度和存储空间;
两步法采用多时间尺度控制方法协同训练构建马尔可夫决策模型的上层智能体和构建马尔可夫博弈模型的下层智能体,使并联电容器组、换相开关和光伏逆变器协同动作。
在本实施例中,函数为一个可用深度神经网络表征的函数,因此该神经网络可称为Q网络。该网络中,其输出为一个实数,称为Q值,其表示为智能体在某个状态下采取某个动作所能获得的长期累积奖励值。
在本实施例中,五元组包括上层智能体的状态空间、动作空间、奖励函数、状态转移概率函数、折扣因子组成的五元组。
参阅图2,对以下进行说明,图2 是本发明一实施例提供的面向配电网三相不平衡治理的多类型资源协同调控框架图。
在本实施例中,步骤2为长时间尺度控制的子步骤,即S2构建马尔可夫决策模型,采用第一计算方法来求解马尔可夫决策模型为长时间尺度控制的子步骤;根据长时间尺度控制可以包括以步骤:
具体的,根据并联电容器组和换相开关动作方式的离散性,将其控制问题建模为马尔科夫决策过程,并由一个五元组描述:
示例的,五元组包括:状态空间,表示上层智能体状态空间的集合。在预设时刻或实验结果时刻t时,上层智能体的状态空间由配电网所有节点的有功功率和无功功率、光伏设备的有功功率、节点电压幅值等部分组成,并定义为/>
示例的,动作空间,表示上层智能体动作空间的集合;在/>时刻时,上层智能体的动作空间由并联电容器组和换相开关在该时刻的动作指令组成,可以定义为/>
需要说明的是,由于并联电容器组有开通、关断两种动作,因此其二进制动作空间集合的维度与并联电容器组的数量成正比,可以表示为。同样的,换相开关具备使A相导通、B相导通、C相导通三种不同动作,因此其动作空间集合的维度可表示为/>
示例的,奖励函数,表示上层智能体的奖励函数。在/>时刻时,上层智能体的奖励函数包括该时刻下通过输配联络节点的零序和负序电流分量之和、电压越限惩罚值、电压不平衡度越限惩罚值三部分,且为保证奖励函数值趋向最大值,可通过计算得到。
需要说明的是,分别表示为通过输配联络节点的零序和负序分量,/>表示为时刻t时的幅值,t表示为时刻t,如式(1)、式(2)所示;/>分别表示为节点电压越限的惩罚项和电压不平衡度违规的惩罚项,如式(3)、式(4)所示:
(1)
(2)
(3)
(4)
其中,(1)、(2)中,为/>相电压幅值,/>;/>和/>分别表示通过输配联络节点/>相位的有功和无功功率。
其中,(4)中,是三相节点/>的电压不平衡度,可由下式(5)计算得到,/>是三相不对称配电网中所有三相节点电压的集合;
(5)
(5)式中,为节点/>的平均相电压幅值。
进一步的,在状态转移概率函数中,由于配电网下一时刻的状态只取决于当前时刻的状态及当前策略下所采取的动作,因此状态转移概率函数服从马尔可夫决策过程。
需要说明的是,基于潮流计算结果来模拟实际配电网的三相不平衡运行工况,且在整个模型的训练过程中,状态转移关系满足配电网的潮流约束。
示例的,是折扣因子,用以平衡即时奖励和未来奖励的权重。
在本实施例中,上层智能体在每个时刻依据三相不对称配电网的全局观测状态信息/>,获得相应的动作指令/>,然后基于动作指令进行配电网潮流计算,获得当前时刻的奖励函数值/>以及下一时刻观测状态/>;基于这一步长循环,上层智能体的目标是通过智能体与三相不对称配电网环境的反复互动,学习到调节设备的最优投切策略,从而实现累计折扣奖励/>的最大化。
进一步的,马尔科夫决策过程求解采用第一计算方法来求解马尔可夫决策模型,第一计算方法采用DQN方法来求解上述马尔可夫决策过程,从而得到并联电容器组和换相开关的最优控制策略。
需要说明的是,DQN方法利用了深度神经网络来拟合动作价值函数,其中,/>、/>分别表示为环境的状态和动作,/>为Q网络的待优化权重参数。
参与图3,图3是本发明一实施例提供的DQN方法网络架构图;由图可知,Q网络由输入层、两个隐藏层和输出层组成。其输入为当前时刻的配电网全局状态信息/>,神经元个数为状态空间集合中的元素数量;其输出包含状态/>下并联电容器组和换相开关所有可能动作的预测Q值,其共有/>个神经元。
进一步的,依据这些预测Q值,智能体将选择Q值最大的动作在下一时刻生效。
优选的,为了提高训练过程中Q网络的稳定性和收敛性,DQN方法引入了一种目标Q网络和经验回放机制,则其损失函数如式(6)所示:
(6)
其中,式(6)中,表示为期望值,/>表示为目标Q值,/>为奖励函数值,/>为折扣因子,/>为目标Q网络的权重参数,/>表示为预测Q值。
利用Adam优化器 更新损失函数的参数,可得Q网络参数的更新公式为:
(7)
其中,式(7)中,和/>分别为/>时刻和/>时刻的Q网络参数,/>为学习率。为保证智能体有效利用环境信息的同时能够积极探索未知环境,本节采用一种/>贪心策略来选择Q网络的动作,即:
(8)
其中式(8)中,是一个常数,/>是一个随机生成的数。当/>时,智能体在动作空间随机选择一个动作,否则,智能体选择当前状态下Q值最大的动作。
需要说明的是,贪心策略是指智能体在大概率情况下选择Q值最大的动作,剩下的小概率情况会产生一个随即探索的动作,从而避免陷入局部最优解。
参阅图5,对以上原理进一步说明,图5是本发明一实施例提供的上层智能体训练流程图;
在本实施例中,S3构建马尔可夫博弈模型,采用第二计算方法来求解马尔科夫博弈模型的步骤为短时间尺度控制的子步骤,是将光伏逆变器的协同控制问题建模为部分可观测的马尔可夫博弈问题。其中,模型采用多个智能体表征不同区域的优化决策与信息交互,且每个智能体单独负责所在子区域内光伏逆变器的动作指令。则马尔科夫博弈主要由以下几个部分构成。
具体的,状态空间,其表示下层所有智能体状态空间的集合。其中,智能体/>在时刻/>内时间间隔/>时的状态/>包含配电网区域/>内所有节点的有功功率和无功功率,光伏的有功功率和无功功率、节点电压幅值以及时刻/>内并联电容器组和换相开关的状态信息,可表示为:/>
具体的,动作空间,其表示下层所有智能体动作空间的集合。其中,智能体/>在时刻/>内时间间隔/>时所有光伏逆变器的动作/>,可表示为与逆变器最大无功出力的比值,然后通过/>可计算得到区域/>内每个光伏逆变器的无功出力值。
具体的,奖励函数,其表示为下层多智能体共享的奖励函数。在/>时刻内的第/>个时间间隔时,智能体/>的奖励值可定义为:
(9)
其中,式(9)中,为三相不平衡电流基准值,/>、/>分别为区域/>内节点电压越限和电压不平衡度超过阈值时的惩罚项,其表示形式与式(3)和式(4)相同。
需要说明的是,下层多智能体中的状态转移概率函数的设计及/>值的选取与上层智能体的类似。
进一步的,在下层多智能体架构中,每隔时间间隔,每个智能体根据该区域内的局部状态信息/>,获得相应的动作策略/>,然后基于前推回代方法进行三相不对称配电网的潮流计算,得到各节点电压幅值等量测信息,最后在此基础上计算当前时刻的奖励函数值,并将三相不对称配电网转移到下一时刻状态。
参与图6,对以上原理进一步说明,图6是本发明一实施例提供的下层多智能体训练流程图。
在本实施例中,马尔科夫博弈的求解采用第二计算方法,第二计算方法采用MAAC(Multi-attention-actor-critic, 一种引入注意力机制的多注意力动作-评价)方法来求解上述马尔科夫博弈,从而使得每个智能体在Q值估计过程中有选择性地关注其他智能体的相关信息,以极大降低了计算复杂度和存储空间。
参阅图4,图4是本发明一实施例提供的智能体Q函数的注意力机制示意图;智能体Q函数的计算除了考虑自身的局部观测状态信息Q和动作信息/>外,还考虑了其他智能体局部信息的贡献度/>,如式(10)所示:
(10)
其中,式(10)中,表示为MLP(multi-layer perceptron, 双层多层感知机),表示为单层MLP编码器,而贡献度/>表示为除该智能体外其他所有智能体编码值的加权和,如式(11)所示:
(11)
其中,式(11)中,表示为将智能体编码/>转化为“值”的参数共享矩阵;/>为非线性激活函数;/>为分配给智能体/>的注意力权重,其是通过对/>与/>进行双线性映射获得,然后基于softmax操作传递编码值间的相似性,具体表达式如(12)所示:
(12)
其中,式(12)中,表示为将/>转化为“键值”的参数共享矩阵;/>表示为将/>转化为“键码”的参数共享矩阵。
基于上述三个可训练的参数共享矩阵,所有评价网络可通过最小化联合回归损失函数来进行迭代更新,如式(13)所示:
(13)
其中,式(13)中,
然后每个智能体可以基于梯度策略来更新自身动作网络的参数,如式(14)所示:
(14)
其中,式(14)中,,/>表示为除智能体外所有智能体的集合,/>,/>表示为多智能体的优势函数。
最后基于式(15)来更新目标网络参数:
(15)
其中,式(15)中,为软更新系数。
在本实施例中,S4采用两步法协同训练构建马尔可夫决策模型的上层智能体和构建马尔可夫博弈模型的下层智能体。
参阅图7,图7是本发明一实施例提供的多时间尺度控制方法的执行策略流程图;采用两步法协同训练上述上下双层智能体包括相应参数,其中,表示为其待优化参数集,/>是上层智能体的待优化权重参数集合,/>是下层多智能体的待优化权重参数集合。
在其中一个实施例中,根据五元组集合构建马尔可夫决策模型包括:状态空间、动作空间/>、奖励函数/>、状态转移概率函数/>、/>;S2.1设定状态空间/>,包括配电网所有节点的有功功率和无功功率、光伏设备的有功功率、节点电压幅值;S2.2设定动作空间/>,包括并联电容器组和换相开关的动作指令组成;S2.3设定奖励函数/>,包括通过输配联络节点的零序和负序电流分量之和、电压越限惩罚值、电压不平衡度越限惩罚值;S2.4设定状态转移概率函数/>;状态空间/>、动作空间/>、奖励函数/>表征的上层智能体,并用于累计折扣奖励的最大化。
在本实施例中,为了验证上述方法的正确性与可行性,在Pytorch框架的Python3.9中进行了所提方法的构建和训练过程。或,选用其他可以通过构建模型和训练过程的***,具体根据实验适配性选择。
进一步的,马尔科夫决策模型求解包括;S2.5根据深度神经网络来拟合动作价值函数;给定状态,采取动作/>,基于策略/>与环境连续交互得到期望奖励的具体过程,可定义动作-价值函数为Q函数,如:
其中,表示为策略/>下的期望值,/>为折扣因子,/>为Q网络的待优化权重参数,t表示为时刻t,/>表示为时刻t时的奖励函数值;
所述马尔科夫决策模型求解根据预测所述Q值,智能体将选择所述Q值最大的动作,并在预设的下一时刻生效。
在本实施例中,根据在Pytorch框架的Python 3.9中进行了所提方法的构建和训练过程,所采用的DQN方法参数设置如下:
进一步的,马尔科夫决策模型求解还包括;S2.6应用目标Q网络和经验回放机制;S2.7利用Adam优化器更新损失函数的参数,其中,所有评价网络可通过最小化联合回归损失函数来进行迭代更新,损失函数为:
其中,表示为期望值,/>表示为目标Q值,/>为奖励函数值,/>为折扣因子,/>为目标Q网络的权重参数,/>表示为预测Q值;
S2.8采用贪心策略来选择Q网络的动作。
在本实施例中,Q网络根据函数Qϕ(s, a)通常是一个参数为ϕ 的函数,比如神经网络,输出为一个实数的函数过程。目标Q网络可以是DQN(Deep Q-network,深度Q网络)是指基于深度学习的 Q学习算法,主要结合了值函数近似与神经网络技术,并采用了目标网络和经验回放的方法进行网络的训练。
在本实施例中,经验回放机制具体如下:经验回放机制用来打破样本数据间的相关性。即构建一个经验回放缓冲区,在训练回合中,将智能体与三相不对称配电网环境交互得到的经验数据存入到缓冲区中。而当经验缓冲区存储达到设定容量时,一方面,智能体开始更新其自身网络参数,即首先从经验回放缓冲区中随机抽取一定数量的经验样本数据/>,然后基于抽取的样本数据实现网络参数的迭代更新。另一方面,经验回放缓冲区还会自动删除最初与三相不对称配电网环境交互产生的样本经验数据,并存入最新学到的样本经验数据。
在本实施例中,Adam优化器(Adaptive Moment Estimation,优化器)具有梯度下降速度快,容易在最优值附近震荡的作用。
进一步的,马尔科夫博弈模型包括;S3.1设定状态空间,状态空间/>包含配电网区域/>内所有节点的有功功率和无功功率,光伏的有功功率和无功功率、节点电压幅值以及时刻/>内并联电容器组和换相开关的状态信息;S3.2设定动作空间/>,用于计算得到区域内每个光伏逆变器的无功出力值;S3.3设定奖励函数/>,用于表示下层多智能体共享的奖励函数;在马尔科夫博弈模型的下层多智能体架构中,每隔/>时间间隔,通过每个智能体根据该区域内的局部状态信息,获得相应的动作策略,然后进行三相不对称配电网的潮流计算,得到各节点电压幅值等量测信息,最后在此基础上计算当前时刻的奖励函数值,并将三相不对称配电网转移到下一时刻状态。
需要说明的是,在多智能体强化学习中,每一个智能体会有自身的价值函数,并以最大化其效用价值为目标,基于对环境的观测和交互自主地学习并制定策略。
进一步的,由于每一个智能体在与环境进行交互时不会考虑到其策略对其他智能体的影响。因此,在多个智能体相互交互影响下会存在竞争或合作的情况。而多智能体的决策具体可以用博弈论来分析。针对不同的多智能体强化学习的场景,可以采用不同的博弈框架来模拟交互的场景,整体上可以分为如下三种类别。
示例的,静态博弈,在静态博弈中,所有智能体同时做出决策,并且每一个智能体只做出一个action。由于每个智能体只行动一次,所以其可以做出一些出乎常规的欺骗和背叛策略来使自己在博弈中获益。因此,在静态博弈中,每一个智能体在制定策略时需要考虑并防范其他智能体的欺骗和背叛来降低自身的损失。
示例的,重复博弈,重复博弈是多个智能体在相同的状态下采取重复多次的决策动作。因此,每个智能体的总价值函数是其在每次决策动作所带来的价值的总和。相比于静态博弈,重复博弈大大地避免了多智能体之间恶意的动作决策,从而整体上提高了所有智能体总效益价值之和。
示例的,随机博弈,随机博弈(或马尔可夫博弈)可以看作是一个马尔可夫过程,其中存在多个智能体在多个状态下多次做出动作决策。每个智能体会根据自身所处的状态,通过对环境的观察和对其他智能体动作的预测,做出提升自身价值函数的最佳动作决策。
进一步的,求解马尔科夫博弈模型包括;S3.4考虑自身的局部观测状态信息和动作信息外,还考虑了其他智能体局部信息的贡献度;S3.5基于三个可训练的参数共享矩阵,所有评价网络可通过最小化联合回归损失函数来进行迭代更新:S3.6每个智能体可以基于梯度策略来更新自身动作网络的参数;S3.7更新目标网络参数,使得每个智能体在Q值估计过程中有选择性地关注其他智能体的相关信息。
在本实施例中,求解马尔科夫博弈模型采用MAAC方法在训练过程中的参数如下:
结合上述实施例相关原理,再增加相关数据论证可实施性。具体的,三相不平衡电流表现为验证所提控制方法在补偿三相不平衡电流方面的优势,为引入补偿度指标以量化电流不平衡的治理效果,其负序及零序电流分量的补偿度分别定义如下:
(16)
(17)
其中,式(16)、(17)中,和/>分别为正序、负序及零序电流分量的补偿度;/>和/>分别为无功补偿前后负序电流分量的幅值;/>和/>分别为无功补偿前后零序电流分量的幅值。然后分别随机从测试集样本数据中抽取两个典型日,共960组样本数据进行测试,可得测试集中的平均零序电流、平均负序电流以及补偿度值如下:
进一步的,在所提控制方法中,测试集中通过输配联络节点的平均负序电流分量与平均零序电流分量不仅与原始值相比均有大幅度的减小,且其补偿度均在55%以上,验证了所提方法在三相不平衡电流补偿方面的优势。
具体的,在电压控制方面为验证所提控制方法在电压控制方面的优势,为引入成功率指标以量化节点电压幅值控制方面的效果,其电压调节的成功率定义如下:
(18);
其中,式(18)中,为电压幅值调节的成功率;/>为采用调控方法前发生电压越限事故的数量;/>为采用调控方法后所有电压幅值均在安全范围内的数量。然后基于上述960组样本数据进行电压控制的验证测试,可得采用所提方法后电压幅值调节成功率的统计结果如下:
优选的,采用所提方法后测试集数据中节点a、b、c三相电压的最大值、最小值及电压不平衡度最大值的实验结果如下:
参阅图8a至图11b,上述附图分别为采用所提方法前后测试集数据中除节点0外的节点a、b、c相电压幅值及三相电压不平衡度的概率分布图。
其中,图8a是本发明一实施例提供的节点a相电压幅值频率分布图,附图在0.95p.u和0.97p.u范围内存在两个4000频率值;图8b是本发明一实施例提供的节点a另一相电压幅值频率分布图,附图在0.99p.u频率达到6000;图9a是本发明一实施例提供的节点b相电压幅值频率分布图,附图在0.98p.u周围接近4500频率值;图9b是本发明一实施例提供的节点b另一相电压幅值频率分布图,附图在0.99p.u至1p.u存在4000以上频率值;图10a是本发明一实施例提供的节点c相电压幅值频率分布图,附图在0.96p.u至0.98p.u频率集中向3500;图10b是本发明一实施例提供的节点c另一相电压幅值频率分布图,附图在0.98p.u至1.01p.u出现波动密集频率值;图11a是本发明一实施例提供的电压不平衡度值频率分布图,附图在0.5%不平衡度值至1.5%不平衡度值频率集中在1400附近;图11b是本发明一实施例提供的另一电压不平衡度值频率分布图,附图在0%不平衡度值时出现频率值,2%不平衡度值之前频率值为零,且均不超过1500频率值。
需要说明的是,所提控制方法通过联合调度并联电容器组、换相开关及光伏逆变器等不同类型调节设备,不仅可以100%避免电压发生越限现象,还可以使a、b、c各相电压幅值相对平稳,且接近于额定电压。此外,所提方法还可以使得各节点的三相电压幅值相近,即保证电压不平衡度在安全范围内。

Claims (6)

1.一种面向配网三相不平衡治理的多类型资源协同调控方法,其特征在于,
S1设定五元组集合作为构建模型坐标;
S2构建马尔可夫决策模型,采用第一计算方法来求解马尔可夫决策模型,得到并联电容器组和换相开关的控制策略;
S3构建马尔可夫博弈模型,采用第二计算方法来求解马尔可夫博弈模型,使选定智能体在值估计模型中有选择性地关注非选定智能体的信息;其中,马尔可夫博弈模型采用多个智能体表征不同区域的优化决策与信息交互,且每个智能体单独负责所在子区域内光伏逆变器的动作指令;智能体/>在时刻/>内时间间隔/>时的状态/>包含配电网区域内所有节点的有功功率和无功功率,光伏的有功功率和无功功率、节点电压幅值以及时刻/>内并联电容器组和换相开关的状态信息;
S4采用两步法协同训练构建马尔可夫决策模型的上层智能体和构建马尔可夫博弈模型的下层智能体;
其中,第一计算方法采用深度神经网络拟合函数DQN,得到并联电容器组和换相开关的最优控制策略;
第二计算方法采用一种引入注意力机制的多注意力动作-评价MAAC来求解马尔可夫博弈,使选定智能体在值估计过程中有选择性地关注非选定智能体的相关信息,用于降低计算复杂度和存储空间;
两步法采用多时间尺度控制方法协同训练构建马尔可夫决策模型的上层智能体和构建马尔可夫博弈模型的下层智能体,使并联电容器组、换相开关和光伏逆变器协同动作。
2.如权利要求1所述的资源协同调控方法,其特征在于,根据所述五元组集合构建马尔可夫决策模型包括:状态空间、动作空间/>、奖励函数/>、状态转移概率函数、/>
S2.1设定所述状态空间,包括配电网所有节点的有功功率和无功功率、光伏设备的有功功率、节点电压幅值;
S2.2设定所述动作空间,包括并联电容器组和换相开关的动作指令组成;
S2.3设定所述奖励函数,包括通过输配联络节点的零序和负序电流分量之和、电压越限惩罚值、电压不平衡度越限惩罚值;其中,/>分别表示为通过输配联络节点的零序和负序分量;/>分别表示为节点电压越限的惩罚项和电压不平衡度违规的惩罚项;/>表示为时刻/>时的幅值;/>表示为时刻/>
S2.4设定状态转移概率函数
所述状态空间、所述动作空间/>、所述奖励函数/>表征的上层智能体,并用于累计折扣奖励的最大化。
3.如权利要求2所述的资源协同调控方法,其特征在于,所述马尔可夫决策模型求解包括;
S2.5根据深度神经网络来拟合动作价值函数;给定状态,采取动作/>,基于策略/>与环境连续交互得到期望奖励的具体过程,定义动作-价值函数为Q函数:
其中,表示为策略/>下的期望值,/>为折扣因子,/>为/>网络的待优化权重参数,/>表示为时刻/>,/>表示为时刻/>时的奖励函数值;
所述马尔可夫决策模型求解根据预测所述值,智能体将选择所述/>值最大的动作,并在预设的下一时刻生效。
4.如权利要求3所述的资源协同调控方法,其特征在于,所述马尔可夫决策模型求解还包括;
S2.6应用目标网络和经验回放机制;
S2.7利用Adam优化器更新损失函数的参数,其中,所有评价网络通过最小化联合回归损失函数来进行迭代更新,损失函数为:/>其中,/>表示为期望值,/>表示为目标/>值,/>为奖励函数值,/>为折扣因子,/>为目标/>网络的权重参数,/>表示为预测/>值;
S2.8采用贪心策略来选择所述/>网络的动作。
5.如权利要求1所述的资源协同调控方法,其特征在于,所述马尔可夫博弈模型包括;
S3.1设定状态空间,所述状态空间/>包含配电网区域/>内所有节点的有功功率和无功功率,光伏的有功功率和无功功率、节点电压幅值以及时刻/>内并联电容器组和换相开关的状态信息;
S3.2设定动作空间,用于计算得到区域内每个光伏逆变器的无功出力值;
S3.3设定奖励函数,用于表示下层多智能体共享的奖励函数;
在所述马尔可夫博弈模型的下层多智能体架构中,每隔时间间隔,通过每个智能体根据该区域内的局部状态信息,获得相应的动作策略,然后进行三相不对称配电网的潮流计算,得到各节点电压幅值等量测信息,最后在此基础上计算当前时刻的奖励函数值,并将三相不对称配电网转移到下一时刻状态。
6.如权利要求5所述的资源协同调控方法,其特征在于,所述求解马尔可夫博弈模型包括;
S3.4测试自身的局部观测状态信息和动作信息,还测试智能体局部信息的贡献度;
S3.5基于三个训练的参数共享矩阵,所有评价网络通过最小化联合回归损失函数来进行迭代更新:
S3.6每个智能体基于梯度策略来更新自身动作网络的参数;
S3.7更新目标网络参数,使每个选定智能体在值估计过程中关注非选定智能体的相关信息。
CN202310696501.7A 2023-06-13 2023-06-13 一种面向配网三相不平衡治理的多类型资源协同调控方法 Active CN116454926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310696501.7A CN116454926B (zh) 2023-06-13 2023-06-13 一种面向配网三相不平衡治理的多类型资源协同调控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310696501.7A CN116454926B (zh) 2023-06-13 2023-06-13 一种面向配网三相不平衡治理的多类型资源协同调控方法

Publications (2)

Publication Number Publication Date
CN116454926A CN116454926A (zh) 2023-07-18
CN116454926B true CN116454926B (zh) 2023-09-01

Family

ID=87132361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310696501.7A Active CN116454926B (zh) 2023-06-13 2023-06-13 一种面向配网三相不平衡治理的多类型资源协同调控方法

Country Status (1)

Country Link
CN (1) CN116454926B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823803B (zh) * 2023-07-21 2024-01-30 深圳鑫舟生物信息科技有限公司 一种生物补偿理疗***
CN116961139B (zh) * 2023-09-19 2024-03-19 南方电网数字电网研究院有限公司 一种电力***的调度方法、调度装置和电子装置
CN117477607B (zh) * 2023-12-28 2024-04-12 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及***
CN117806170B (zh) * 2024-02-23 2024-05-10 中国科学院近代物理研究所 一种微束聚焦控制方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019129729A1 (en) * 2017-12-31 2019-07-04 Vito Nv Unbalance compensation by optimally redistributing current
KR20210051043A (ko) * 2019-10-29 2021-05-10 중앙대학교 산학협력단 3상 불평형 저전압 배전 네트워크에서 홈 에너지 관리 시스템 최적화 방법 및 장치
CN113489015A (zh) * 2021-06-17 2021-10-08 清华大学 一种基于强化学习的配电网多时间尺度无功电压控制方法
CN115117901A (zh) * 2022-06-17 2022-09-27 佳源科技股份有限公司 应用分布式光伏接入的台区三相不平衡优化方法及***
CN115986750A (zh) * 2022-12-30 2023-04-18 南京邮电大学 分层多智能体深度强化学习配电网电压调节方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019129729A1 (en) * 2017-12-31 2019-07-04 Vito Nv Unbalance compensation by optimally redistributing current
KR20210051043A (ko) * 2019-10-29 2021-05-10 중앙대학교 산학협력단 3상 불평형 저전압 배전 네트워크에서 홈 에너지 관리 시스템 최적화 방법 및 장치
CN113489015A (zh) * 2021-06-17 2021-10-08 清华大学 一种基于强化学习的配电网多时间尺度无功电压控制方法
CN115117901A (zh) * 2022-06-17 2022-09-27 佳源科技股份有限公司 应用分布式光伏接入的台区三相不平衡优化方法及***
CN115986750A (zh) * 2022-12-30 2023-04-18 南京邮电大学 分层多智能体深度强化学习配电网电压调节方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
考虑三相有功不平衡度的无功电压集中控制策略;黄辉; 余泓圻; 刘鹏伟;云南电力技术;第48卷(第2期);第31-36页 *

Also Published As

Publication number Publication date
CN116454926A (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN116454926B (zh) 一种面向配网三相不平衡治理的多类型资源协同调控方法
CN110535146B (zh) 基于深度确定策略梯度强化学习的电力***无功优化方法
Yang et al. Reinforcement learning in sustainable energy and electric systems: A survey
Li et al. Many-objective distribution network reconfiguration via deep reinforcement learning assisted optimization algorithm
Zhang et al. Accelerating bio-inspired optimizer with transfer reinforcement learning for reactive power optimization
CN114217524B (zh) 一种基于深度强化学习的电网实时自适应决策方法
CN113937829B (zh) 一种基于d3qn的主动配电网多目标无功控制方法
Wei et al. Social cognitive optimization algorithm with reactive power optimization of power system
CN115409650A (zh) 一种基于近端策略优化算法的电力***电压控制方法
CN115588998A (zh) 一种基于图强化学习的配电网电压无功优化方法
Zhang et al. Deep reinforcement learning for load shedding against short-term voltage instability in large power systems
CN117039981A (zh) 一种面向含新能源的大规模电网优化调度方法、装置、存储介质
CN116760047A (zh) 基于安全强化学习算法的配电网电压无功控制方法及***
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
Mu et al. Graph multi-agent reinforcement learning for inverter-based active voltage control
CN117833263A (zh) 一种基于ddpg的新能源电网电压控制方法及***
Hao et al. A New CIGWO-Elman Hybrid Model for Power Load Forecasting
CN116826762A (zh) 智能配电网电压安全控制方法、装置、设备及其介质
CN115133540B (zh) 一种配电网无模型的实时电压控制方法
CN115983373A (zh) 一种基于图卷积神经网络的近端策略优化方法
CN114048576B (zh) 一种稳定电网输电断面潮流的储能***智能化控制方法
Ao et al. The application of DQN in thermal process control
Vakula et al. Evolutionary Prisoner's Dilemma in updating fuzzy linguistic model to damp power system oscillations
CN117477607B (zh) 一种含智能软开关的配电网三相不平衡治理方法及***
Niedzwiedz et al. A consolidated actor-critic model with function approximation for high-dimensional POMDPs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant