CN110880773A - 基于数据驱动与物理模型驱动结合的电网调频控制方法 - Google Patents

基于数据驱动与物理模型驱动结合的电网调频控制方法 Download PDF

Info

Publication number
CN110880773A
CN110880773A CN201911129495.7A CN201911129495A CN110880773A CN 110880773 A CN110880773 A CN 110880773A CN 201911129495 A CN201911129495 A CN 201911129495A CN 110880773 A CN110880773 A CN 110880773A
Authority
CN
China
Prior art keywords
frequency modulation
sample
power grid
samples
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911129495.7A
Other languages
English (en)
Other versions
CN110880773B (zh
Inventor
李富盛
余涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911129495.7A priority Critical patent/CN110880773B/zh
Publication of CN110880773A publication Critical patent/CN110880773A/zh
Application granted granted Critical
Publication of CN110880773B publication Critical patent/CN110880773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/24Arrangements for preventing or reducing oscillations of power in networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了基于数据驱动与物理模型驱动结合的电网调频控制方法。所述方法根据电网的历史调频样本确定电网的状态空间集S和控制动作集A,然后对状态空间集的元素进行聚类,聚类结果作为条件生成式对抗网络的样本标签,训练条件生成式对抗网络,生成与历史调频样本具有相似分布的新样本,将新样本对历史调频样本进行增强,引入多层感知器MLP建立映射模型,使用Q学习控制器控制电网调频的物理模型,将映射模型的调度决策结果作为物理模型的初值,输出电网调频策略的最优解即在某一时刻的电网频率偏差与其对应的功率调节量并对电网进行调频。本发明引入生成式对抗网络进行数据增强,提高现有的基于模型驱动的电网调频策略初期迭代过程的效率。

Description

基于数据驱动与物理模型驱动结合的电网调频控制方法
技术领域
本发明涉及电力***调频控制技术领域,尤其涉及一种基于数据驱动与物理模型驱动结合的电网调频控制方法。
背景技术
随着时间推移,大量电网调频控制方法用于实际电网并积累了海量的历史决策方案,这些方案除了经过工程的验证,也经过调度员后续根据实际情况进行的修正,具有很高的工程应用价值。但是,之前大数据技术的发展水平较低,不具备处理海量的历史决策方案的能力,因此数据驱动的调频方法较为欠缺。近几年,随着人工智能技术的迅猛发展以及大数据技术在硬件、软件和算法上的快速进步,从海量历史调频控制数据中挖掘有用的调度经验成为可能。
传统的电网调频控制方法基本上是基于模型驱动的,对数学模型和算法质量要求很高,初值一般是随机选取的,造成算法初期耗时较长,容易陷入局部收敛,而且没有充分利用历史决策方案,造成数据资源的浪费,当遇到已经处理过的问题要重新进行完整的运算,耗时耗力。因此,如何将数据驱动与物理模型驱动结合从而改善物理驱动模型方法,是大数据时代下新型电网亟需研究的问题。
发明内容
有鉴于此,本发明的目的是提出基于数据驱动与物理模型驱动结合的电网调频控制方法,引入生成式对抗网络进行数据增强,可提高历史样本的多样性和健壮性,将数据驱动与模型驱动结合,可充分利用电网的历史调频数据,可提高物理模型初值选取的有效性,可提高现有的基于模型驱动的电网调频策略初期迭代过程的效率。
本发明的目的至少通过如下技术方案之一实现。
基于数据驱动与物理模型驱动结合的电网调频控制方法,包括以下步骤:
S1、根据电网的历史调频样本确定电网的状态空间集S和控制动作集A;
S2、利用k-means算法对状态空间集的元素进行聚类,聚类结果作为条件生成式对抗网络(CGAN)的样本标签;
S3、以噪声Z、状态空间集S、控制动作集A和样本标签Y作为条件生成式对抗网络的输入,采用最小化Wasserstein距离作为目标函数训练CGAN,生成与历史调频样本具有相似分布的生成样本;
S4、将生成样本对历史调频样本进行增强,获得增强样本,引入多层感知器MLP建立S到A的映射模型;
S5、使用Q学习控制器控制电网调频的物理模型,将映射模型的调度决策结果作为Q学习控制器的初值,输出电网调频控制策略的最优解,得到每一时段的电网频率偏差与其对应的功率调节量;
S6、根据每一时段的电网频率偏差与其对应的功率调节量对电网进行调频。
进一步地,步骤S1中,所述状态空间集S包括区域电网的频率偏差|Δf|、区域控制偏差|ACE|、控制性能标准值CPS1,即Sit={|Δfit|、|ACEit|、CPS1it},其中,Sit为第i天第t个功率调节时段的区域电网的状态空间集,|Δfit|为第i天第t个功率调节时段的区域电网的频率偏差,|ACEit|为第i天第t个功率调节时段的区域电网的区域控制偏差,CPS1it为第i天第t个功率调节时段的区域电网的控制性能标准值,i为历史调频样本的天数,p为历史调频样本的总天数,i∈[1,p],t为功率调节时段,T为功率调节的最大时段数,t∈[1,T];所述控制动作集A包括区域电网的功率调节量ΔP。
进一步地,步骤S2中,所述利用K-means算法对状态空间集的元素进行聚类包括以下步骤:
S2.1、初始化K个簇Ck,k∈[1,K],每个簇的聚类中心分别为{u1,u2,…,uk,…,uK},uk为第k个聚类中心,由归属于第k个簇Ck的所有历史调频样本的均值确定,聚类中心的计算公式为:
Figure BDA0002277869910000031
其中,nCk为归属于第k个簇Ck的所有历史调频样本的数量;
S2.2、分别计算状态空间集{S1t,S2t,…,Sit,…,Spt}与第k个聚类中心{u1,u2,…,uk,…,uK}的欧式距离;所述欧式距离为:
Figure BDA0002277869910000032
S2.3、将电网的历史调频样本划分到欧式距离最近的聚类中心,计算聚类目标函数如下所示:
Figure BDA0002277869910000033
S2.4、通过调整聚类中心数K,降低聚类目标函数J,当J达到最小时,即可根据当前聚类中心对电网的历史调频样本进行聚类。
进一步地,步骤S3具体包括以下步骤:
S3.1、构建条件生成式对抗网络;
S3.2、采用最小化Wasserstein距离作为所述条件生成式对抗网络的目标函数为:
Figure BDA0002277869910000034
其中,p(x)为历史调频样本的分布,p(Z)为生成样本的分布,D(x)为历史调频样本通过鉴别器的输出,D(G(Z))为生成样本通过鉴别器的输出,Ex~p(x)[D(x)]为对历史调频样本通过鉴别器的输出求取期望值,Ex~p(x)[D(x)]为对生成样本通过鉴别器的输出求取期望值;
S3.3、根据步骤S3.2所述目标函数训练,获得最佳的生成器,随机输入噪声Z,即可生成与历史调频样本具有相似分布的生成样本。
进一步地,所述条件生成式对抗网络包括生成器和鉴别器;生成器的输入为噪声和样本标签,生成器的输出为带有样本标签的生成样本;鉴别器的输入为带有样本标签的生成样本或带有样本标签的历史调频样本,输出为归属于历史调频样本的概率,用于区分历史调频样本和生成样本,若鉴别器输入的是带有样本标签的生成样本,则鉴别器输出接近为0,若鉴别器输入的是带有样本标签的历史调频样本,则鉴别器输出接近为1;
鉴别器输出的概率通过条件生成式对抗网络的目标函数传递给生成器和鉴别器,生成器通过最小化目标函数来更新,鉴别器通过最大化目标函数来更新。
进一步地,步骤S4具体包括以下步骤:
S4.1、将历史调频样本和与历史调频样本具有相似分布的生成样本分别按照状态空间集S和控制动作集A进行同类型数据合并,获得增强样本,合并方法为在历史调频样本的状态空间集最后直接添加生成样本的状态空间集,在历史调频样本的控制动作集最后直接添加生成样本的控制动作集;
S4.2、根据k-means算法对增强样本的状态空间集S进行聚类,形成Knew个聚类中心,形成Knew个簇;
S4.3、利用多层感知器MLP对聚类形成的Knew个簇分别建立S到A的映射模型。
进一步地,步骤S4.3中,所述多层感知器MLP由输入层、隐层和输出层构成,每一层通过全连接的方式连接到下一层,前一层的输出经过激活函数处理后作为下一层的输入,除了输入层外,其余每层的激活函数都采用sigmoid非线性激活函数;
输入层中,按正序顺序依次选择Knew个簇Ck,簇Ck的状态空间集作为多层感知器的输入层的输入,输入层的宽度为簇Ck的状态空间集的状态数量
Figure BDA0002277869910000051
输入层的
Figure BDA0002277869910000052
个状态分别对应唯一的控制动作tk
簇Ck的控制动作集的标签作为多层感知器的输出层的输出,输出层的宽度为簇Ck的控制动作集的可选控制动作数量
Figure BDA0002277869910000053
若第
Figure BDA0002277869910000054
个输入的状态对应的唯一的控制动作与输出的控制动作一致,则损失en为0,若不一致,则损失en为1;
簇Ck的多层感知器设置3层隐层,第1层隐层的宽度为128,第2层隐层的宽度为128,第3层隐层的宽度为64;簇Ck的多层感知器通过极小化损失函数Ek来更新多层感知器的权值参数;簇Ck的多层感知器的损失函数定义为:
Figure BDA0002277869910000055
进一步地,步骤S5中,所述Q学习控制器的值函数为:
Figure BDA0002277869910000056
其中:a,s,s′分别为动作选择、当前状态和下一时刻的状态,a∈A,s∈S,s′∈S;Q学习控制器的动作选择为区域电网的功率调节量ΔP,Q学习控制器在某一时刻的实时状态空间St为该时刻区域电网的频率偏差|Δft|、区域控制偏差|ACEt|、控制性能标准值CPS1t;Q(s,a)为在当前状态s在发生动作a后的可迭代计算的状态-动作对值函数,R(s,s',a)为当前状态s在发生动作a后向状态s'转移后的立即报酬,P(s'|s,a)为环境由当前状态s在发生动作a后向状态s'转移后的概率;γ为折扣率;Q(s',a)为下一状态s′发生动作a后的可迭代计算的状态-动作对值函数;P(s'|s,a)随着Q(s,a)的更新而同步更新,P(s'|s,a)按照Q(s,a)更新前和更新后的比例进行更新,得到下一次迭代的P(s'|s,a);电网调频控制策略为在任意状态s下选择具有最大Q(s,a)的动作a。
进一步地,Q学习控制器的更新值函数的迭代公式为:
Figure BDA0002277869910000061
其中:Qk+1为第k+1次迭代所得到的理想值Q*的逼近值,Qk为第k次迭代所得到的理想值Q*的逼近值,Q学习控制器在第k+1次迭代中得到样本[sk,a,r,sk+1];R(sk,ak,sk+1)为当前状态sk在发生动作ak后向状态sk+1转移后的立即报酬;α为学习率,0<α<1,为前后两次迭代改善部分的置信度;a'是指控制动作集A中的一个任意的动作。
进一步地,Q学习控制器在第t个功率调节时段的立即报酬函数R(s,s',a)为:
Figure BDA0002277869910000062
其中:ACE(s,s',a)和CPS1(s,s',a)均为当前状态s在发生动作a后向状态s'转移后的实时测量值;ACE*(s,s',a)和CPS1*(s,s',a)分别是当前状态s在发生动作a后向状态s'转移后的ACE控制理想值和CPS1指标控制理想值,其中ACE*(s,s',a)取为ACE调节死区值,CPS1*(s,s',a)的取值区间为[180,220]。
与现有技术相比,本发明有以下有益效果:
本发明提出的一种基于数据驱动与物理模型驱动结合的电网调频控制方法,将数据驱动与模型驱动结合,充分利用电网的历史调频控制数据,并引入生成式对抗网络方法对历史调频控制数据进行数据增强,提高数据的多样性和健壮性,用数据驱动方法获得的决策结果作为物理模型驱动方法的初值,可提高物理模型初值选取的有效性,可提高物理模型方法在算法初期的计算效率,同时由于数据驱动方法挖掘的是经过工程验证的历史调频数据,接近最优解,可改善物理模型驱动方法的全局收敛速度和精度。
附图说明
图1为本发明提供的一种基于数据驱动与物理模型驱动结合的电网调频控制方法的流程示意图;
图2为本发明实施例的条件生成式对抗网络示意图;
图3为本发明实施例的多层感知机示意图;
图4为本发明实施例中Q学习控制器的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明,下面将结合实施例以及附图,对本发明的具体实施进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1所示,基于数据驱动与物理模型驱动结合的电网调频控制方法,包括以下步骤:
S1、根据电网的历史调频样本确定电网的状态空间集S和控制动作集A;
所述状态空间集S包括区域电网的频率偏差|Δf|、区域控制偏差|ACE|、控制性能标准值CPS1,即Sit={|Δfit|、|ACEit|、CPS1it},其中,Sit为第i天第t个功率调节时段的区域电网的状态空间集,|Δfit|为第i天第t个功率调节时段的区域电网的频率偏差,|ACEit|为第i天第t个功率调节时段的区域电网的区域控制偏差,CPS1it为第i天第t个功率调节时段的区域电网的控制性能标准值,i为历史调频样本的天数,p为历史调频样本的总天数,i∈[1,p],t为功率调节时段,T为功率调节的最大时段数,t∈[1,T];所述控制动作集A包括区域电网的功率调节量ΔP。
S2、利用k-means算法对状态空间集的元素进行聚类,聚类结果作为条件生成式对抗网络(CGAN)的样本标签;所述利用K-means算法对状态空间集的元素进行聚类包括以下步骤:
S2.1、初始化K个簇Ck,k∈[1,K],每个簇的聚类中心分别为{u1,u2,…,uk,…,uK},uk为第k个聚类中心,由归属于第k个簇Ck的所有历史调频样本的均值确定,聚类中心的计算公式为:
Figure BDA0002277869910000081
其中,
Figure BDA0002277869910000082
为归属于第k个簇Ck的所有历史调频样本的数量;
S2.2、分别计算状态空间集{S1t,S2t,…,Sit,…,Spt}与第k个聚类中心{u1,u2,…,uk,…,uK}的欧式距离;所述欧式距离为:
Figure BDA0002277869910000083
S2.3、将电网的历史调频样本划分到欧式距离最近的聚类中心,计算聚类目标函数如下所示:
Figure BDA0002277869910000084
S2.4、通过调整聚类中心数K,降低聚类目标函数J,当J达到最小时,即可根据当前聚类中心对电网的历史调频样本进行聚类。
S3、以噪声Z、状态空间集S、控制动作集A和样本标签Y作为条件生成式对抗网络的输入,采用最小化Wasserstein距离作为目标函数训练CGAN,生成与历史调频样本具有相似分布的生成样本;具体包括以下步骤:
S3.1、构建条件生成式对抗网络;
如图2所示,所述条件生成式对抗网络包括生成器和鉴别器;生成器的输入为噪声和样本标签,生成器的输出为带有样本标签的生成样本;鉴别器的输入为带有样本标签的生成样本或带有样本标签的历史调频样本,输出为归属于历史调频样本的概率,用于区分历史调频样本和生成样本,若鉴别器输入的是带有样本标签的生成样本,则鉴别器输出接近为0,若鉴别器输入的是带有样本标签的历史调频样本,则鉴别器输出接近为1;
S3.2、采用最小化Wasserstein距离作为所述条件生成式对抗网络的目标函数为:
Figure BDA0002277869910000091
其中,p(x)为历史调频样本的分布,p(Z)为生成样本的分布,D(x)为历史调频样本通过鉴别器的输出,D(G(Z))为生成样本通过鉴别器的输出,Ex~p(x)[D(x)]为对历史调频样本通过鉴别器的输出求取期望值,Ex~p(x)[D(x)]为对生成样本通过鉴别器的输出求取期望值;
鉴别器输出的概率通过条件生成式对抗网络的目标函数传递给生成器和鉴别器,生成器通过最小化目标函数来更新,鉴别器通过最大化目标函数来更新;
S3.3、根据步骤S3.2所述目标函数训练,获得最佳的生成器,随机输入噪声Z,即可生成与历史调频样本具有相似分布的生成样本。
S4、将生成样本对历史调频样本进行增强,获得增强样本,引入多层感知器MLP建立S到A的映射模型;具体包括以下步骤:
S4.1、将历史调频样本和与历史调频样本具有相似分布的生成样本分别按照状态空间集S和控制动作集A进行同类型数据合并,获得增强样本,合并方法为在历史调频样本的状态空间集最后直接添加生成样本的状态空间集,在历史调频样本的控制动作集最后直接添加生成样本的控制动作集;
S4.2、根据k-means算法对增强样本的状态空间集S进行聚类,形成Knew个聚类中心,形成Knew个簇;
S4.3、利用多层感知器MLP对聚类形成的Knew个簇分别建立S到A的映射模型。
如图3所示,所述多层感知器MLP由输入层、隐层和输出层构成,每一层通过全连接的方式连接到下一层,前一层的输出经过激活函数处理后作为下一层的输入,除了输入层外,其余每层的激活函数都采用sigmoid非线性激活函数;
输入层中,按正序顺序依次选择Knew个簇Ck,簇Ck的状态空间集作为多层感知器的输入层的输入,输入层的宽度为簇Ck的状态空间集的状态数量
Figure BDA0002277869910000101
输入层的
Figure BDA0002277869910000102
个状态分别对应唯一的控制动作tk
簇Ck的控制动作集的标签作为多层感知器的输出层的输出,输出层的宽度为簇Ck的控制动作集的可选控制动作数量
Figure BDA0002277869910000103
若第
Figure BDA0002277869910000104
个输入的状态对应的唯一的控制动作与输出的控制动作一致,则损失en为0,若不一致,则损失en为1;
簇Ck的多层感知器设置3层隐层,第1层隐层的宽度为128,第2层隐层的宽度为128,第3层隐层的宽度为64;簇Ck的多层感知器通过极小化损失函数Ek来更新多层感知器的权值参数;簇Ck的多层感知器的损失函数定义为:
Figure BDA0002277869910000105
S5、使用Q学习控制器控制电网调频的物理模型,将映射模型的调度决策结果作为Q学习控制器的初值,输出电网调频控制策略的最优解,得到每一时段的电网频率偏差与其对应的功率调节量。
如图4所示,所述Q学习控制器的值函数为:
Figure BDA0002277869910000111
其中:a,s,s′分别为动作选择、当前状态和下一时刻的状态,a∈A,s∈S,s′∈S;Q学习控制器的动作选择为区域电网的功率调节量ΔP,Q学习控制器在某一时刻的实时状态空间St为该时刻区域电网的频率偏差|Δft|、区域控制偏差|ACEt|、控制性能标准值CPS1t;Q(s,a)为在当前状态s在发生动作a后的可迭代计算的状态-动作对值函数,R(s,s',a)为当前状态s在发生动作a后向状态s'转移后的立即报酬,P(s'|s,a)为环境由当前状态s在发生动作a后向状态s'转移后的概率;γ为折扣率;Q(s',a)为下一状态s′发生动作a后的可迭代计算的状态-动作对值函数;P(s'|s,a)随着Q(s,a)的更新而同步更新,P(s'|s,a)按照Q(s,a)更新前和更新后的比例进行更新,得到下一次迭代的P(s'|s,a);电网调频控制策略为在任意状态s下选择具有最大Q(s,a)的动作a。
Q学习控制器的更新值函数的迭代公式为:
Figure BDA0002277869910000112
其中:Qk+1为第k+1次迭代所得到的理想值Q*的逼近值,Qk为第k次迭代所得到的理想值Q*的逼近值,Q学习控制器在第k+1次迭代中得到样本[sk,a,r,sk+1];R(sk,ak,sk+1)为当前状态sk在发生动作ak后向状态sk+1转移后的立即报酬;α为学习率,0<α<1,为前后两次迭代改善部分的置信度;a'是指控制动作集A中的一个任意的动作。
Q学习控制器在第t个功率调节时段的立即报酬函数R(s,s',a)为:
Figure BDA0002277869910000113
其中:ACE(s,s',a)和CPS1(s,s',a)均为当前状态s在发生动作a后向状态s'转移后的实时测量值;ACE*(s,s',a)和CPS1*(s,s',a)分别是当前状态s在发生动作a后向状态s'转移后的ACE控制理想值和CPS1指标控制理想值,其中ACE*(s,s',a)取为ACE调节死区值,CPS1*(s,s',a)的取值区间为[180,220]。
S6、根据每一时段的电网频率偏差与其对应的功率调节量对电网进行调频。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.基于数据驱动与物理模型驱动结合的电网调频控制方法,其特征在于,包括以下步骤:
S1、根据电网的历史调频样本确定电网的状态空间集S和控制动作集A;
S2、利用k-means算法对状态空间集的元素进行聚类,聚类结果作为条件生成式对抗网络(CGAN)的样本标签;
S3、以噪声Z、状态空间集S、控制动作集A和样本标签Y作为条件生成式对抗网络的输入,采用最小化Wasserstein距离作为目标函数训练CGAN,生成与历史调频样本具有相似分布的生成样本;
S4、将生成样本对历史调频样本进行增强,获得增强样本,引入多层感知器MLP建立S到A的映射模型;
S5、使用Q学习控制器控制电网调频的物理模型,将映射模型的调度决策结果作为Q学习控制器的初值,输出电网调频控制策略的最优解,得到每一时段的电网频率偏差与其对应的功率调节量;
S6、根据每一时段的电网频率偏差与其对应的功率调节量对电网进行调频。
2.根据权利要求1所述的基于数据驱动与物理模型驱动结合的电网调频控制方法,其特征在于,步骤S1中,所述状态空间集S包括区域电网的频率偏差|Δf|、区域控制偏差|ACE|、控制性能标准值CPS1,即Sit={|Δfit|、|ACEit|、CPS1it},其中,Sit为第i天第t个功率调节时段的区域电网的状态空间集,|Δfit|为第i天第t个功率调节时段的区域电网的频率偏差,|ACEit|为第i天第t个功率调节时段的区域电网的区域控制偏差,CPS1it为第i天第t个功率调节时段的区域电网的控制性能标准值,i为历史调频样本的天数,p为历史调频样本的总天数,i∈[1,p],t为功率调节时段,T为功率调节的最大时段数,t∈[1,T];所述控制动作集A包括区域电网的功率调节量ΔP。
3.根据权利要求1所述的基于数据驱动与物理模型驱动结合的电网调频控制方法,其特征在于,步骤S2中,所述利用K-means算法对状态空间集的元素进行聚类包括以下步骤:
S2.1、初始化K个簇Ck,k∈[1,K],每个簇的聚类中心分别为{u1,u2,…,uk,…,uK},uk为第k个聚类中心,由归属于第k个簇Ck的所有历史调频样本的均值确定,聚类中心的计算公式为:
Figure FDA0002277869900000021
其中,
Figure FDA0002277869900000022
为归属于第k个簇Ck的所有历史调频样本的数量;
S2.2、分别计算状态空间集{S1t,S2t,…,Sit,…,Spt}与第k个聚类中心{u1,u2,…,uk,…,uK}的欧式距离;所述欧式距离为:
Figure FDA0002277869900000023
S2.3、将电网的历史调频样本划分到欧式距离最近的聚类中心,计算聚类目标函数如下所示:
Figure FDA0002277869900000024
S2.4、通过调整聚类中心数K,降低聚类目标函数J,当J达到最小时,即可根据当前聚类中心对电网的历史调频样本进行聚类。
4.根据权利要求1所述的基于数据驱动与物理模型驱动结合的电网调频控制方法,其特征在于,步骤S3具体包括以下步骤:
S3.1、构建条件生成式对抗网络;
S3.2、采用最小化Wasserstein距离作为所述条件生成式对抗网络的目标函数为:
Figure FDA0002277869900000025
其中,p(x)为历史调频样本的分布,p(Z)为生成样本的分布,D(x)为历史调频样本通过鉴别器的输出,D(G(Z))为生成样本通过鉴别器的输出,Ex~p(x)[D(x)]为对历史调频样本通过鉴别器的输出求取期望值,Ex~p(x)[D(x)]为对生成样本通过鉴别器的输出求取期望值;
S3.3、根据步骤S3.2所述目标函数训练,获得最佳的生成器,随机输入噪声Z,即可生成与历史调频样本具有相似分布的生成样本。
5.根据权利要求4所述的基于数据驱动与物理模型驱动结合的电网调频控制方法,其特征在于,所述条件生成式对抗网络包括生成器和鉴别器;生成器的输入为噪声和样本标签,生成器的输出为带有样本标签的生成样本;鉴别器的输入为带有样本标签的生成样本或带有样本标签的历史调频样本,输出为归属于历史调频样本的概率,用于区分历史调频样本和生成样本,若鉴别器输入的是带有样本标签的生成样本,则鉴别器输出接近为0,若鉴别器输入的是带有样本标签的历史调频样本,则鉴别器输出接近为1;
鉴别器输出的概率通过条件生成式对抗网络的目标函数传递给生成器和鉴别器,生成器通过最小化目标函数来更新,鉴别器通过最大化目标函数来更新。
6.根据权利要求1所述的基于数据驱动与物理模型驱动结合的电网调频控制方法,其特征在于,步骤S4具体包括以下步骤:
S4.1、将历史调频样本和与历史调频样本具有相似分布的生成样本分别按照状态空间集S和控制动作集A进行同类型数据合并,获得增强样本,合并方法为在历史调频样本的状态空间集最后直接添加生成样本的状态空间集,在历史调频样本的控制动作集最后直接添加生成样本的控制动作集;
S4.2、根据k-means算法对增强样本的状态空间集S进行聚类,形成Knew个聚类中心,形成Knew个簇;
S4.3、利用多层感知器MLP对聚类形成的Knew个簇分别建立S到A的映射模型。
7.根据权利要求6所述的基于数据驱动与物理模型驱动结合的电网调频控制方法,其特征在于,步骤S4.3中,所述多层感知器MLP由输入层、隐层和输出层构成,每一层通过全连接的方式连接到下一层,前一层的输出经过激活函数处理后作为下一层的输入,除了输入层外,其余每层的激活函数都采用sigmoid非线性激活函数;
输入层中,按正序顺序依次选择Knew个簇Ck,簇Ck的状态空间集作为多层感知器的输入层的输入,输入层的宽度为簇Ck的状态空间集的状态数量
Figure FDA0002277869900000041
输入层的
Figure FDA0002277869900000042
个状态分别对应唯一的控制动作tk
簇Ck的控制动作集的标签作为多层感知器的输出层的输出,输出层的宽度为簇Ck的控制动作集的可选控制动作数量
Figure FDA0002277869900000043
若第
Figure FDA0002277869900000044
个输入的状态对应的唯一的控制动作与输出的控制动作一致,则损失en为0,若不一致,则损失en为1;
簇Ck的多层感知器设置3层隐层,第1层隐层的宽度为128,第2层隐层的宽度为128,第3层隐层的宽度为64;簇Ck的多层感知器通过极小化损失函数Ek来更新多层感知器的权值参数;簇Ck的多层感知器的损失函数定义为:
Figure FDA0002277869900000045
8.根据权利要求1所述的基于数据驱动与物理模型驱动结合的电网调频控制方法,其特征在于,步骤S5中,所述Q学习控制器的值函数为:
Figure FDA0002277869900000046
其中:a,s,s′分别为动作选择、当前状态和下一时刻的状态,a∈A,s∈S,s′∈S;Q学习控制器的动作选择为区域电网的功率调节量ΔP,Q学习控制器在某一时刻的实时状态空间St为该时刻区域电网的频率偏差|Δft|、区域控制偏差|ACEt|、控制性能标准值CPS1t;Q(s,a)为在当前状态s在发生动作a后的可迭代计算的状态-动作对值函数,R(s,s',a)为当前状态s在发生动作a后向状态s'转移后的立即报酬,P(s'|s,a)为环境由当前状态s在发生动作a后向状态s'转移后的概率;γ为折扣率;Q(s',a)为下一状态s′发生动作a后的可迭代计算的状态-动作对值函数;P(s'|s,a)随着Q(s,a)的更新而同步更新,P(s'|s,a)按照Q(s,a)更新前和更新后的比例进行更新,得到下一次迭代的P(s'|s,a);电网调频控制策略为在任意状态s下选择具有最大Q(s,a)的动作a。
9.根据权利要求8所述的基于数据驱动与物理模型驱动结合的电网调频控制方法,其特征在于,Q学习控制器的更新值函数的迭代公式为:
Figure FDA0002277869900000051
其中:Qk+1为第k+1次迭代所得到的理想值Q*的逼近值,Qk为第k次迭代所得到的理想值Q*的逼近值,Q学习控制器在第k+1次迭代中得到样本[sk,a,r,sk+1];R(sk,ak,sk+1)为当前状态sk在发生动作ak后向状态sk+1转移后的立即报酬;α为学习率,0<α<1,为前后两次迭代改善部分的置信度;a'是指控制动作集A中的一个任意的动作。
10.根据权利要求8所述的基于数据驱动与物理模型驱动结合的电网调频控制方法,其特征在于,Q学习控制器在第t个功率调节时段的立即报酬函数R(s,s',a)为:
Figure FDA0002277869900000052
其中:ACE(s,s',a)和CPS1(s,s',a)均为当前状态s在发生动作a后向状态s'转移后的实时测量值;ACE*(s,s',a)和CPS1*(s,s',a)分别是当前状态s在发生动作a后向状态s'转移后的ACE控制理想值和CPS1指标控制理想值,其中ACE*(s,s',a)取为ACE调节死区值,CPS1*(s,s',a)的取值区间为[180,220]。
CN201911129495.7A 2019-11-18 2019-11-18 基于数据驱动与物理模型驱动结合的电网调频控制方法 Active CN110880773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911129495.7A CN110880773B (zh) 2019-11-18 2019-11-18 基于数据驱动与物理模型驱动结合的电网调频控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911129495.7A CN110880773B (zh) 2019-11-18 2019-11-18 基于数据驱动与物理模型驱动结合的电网调频控制方法

Publications (2)

Publication Number Publication Date
CN110880773A true CN110880773A (zh) 2020-03-13
CN110880773B CN110880773B (zh) 2023-09-15

Family

ID=69729087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911129495.7A Active CN110880773B (zh) 2019-11-18 2019-11-18 基于数据驱动与物理模型驱动结合的电网调频控制方法

Country Status (1)

Country Link
CN (1) CN110880773B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461977A (zh) * 2020-03-26 2020-07-28 华南理工大学 基于改进生成式对抗网络的电力数据超分辨率重建方法
CN111555368A (zh) * 2020-05-15 2020-08-18 广西大学 一种综合能源***的深度生成式对抗网络调度与控制方法
CN113434286A (zh) * 2021-05-15 2021-09-24 南京逸智网络空间技术创新研究院有限公司 一种适用于移动应用处理器的能效优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899026A (zh) * 2017-03-24 2017-06-27 三峡大学 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法
CN107766937A (zh) * 2017-09-11 2018-03-06 重庆大学 基于特征选取和循环神经网络的风电场功率超短期预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899026A (zh) * 2017-03-24 2017-06-27 三峡大学 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法
CN107766937A (zh) * 2017-09-11 2018-03-06 重庆大学 基于特征选取和循环神经网络的风电场功率超短期预测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461977A (zh) * 2020-03-26 2020-07-28 华南理工大学 基于改进生成式对抗网络的电力数据超分辨率重建方法
CN111555368A (zh) * 2020-05-15 2020-08-18 广西大学 一种综合能源***的深度生成式对抗网络调度与控制方法
CN111555368B (zh) * 2020-05-15 2022-12-06 广西大学 一种综合能源***的深度生成式对抗网络调度与控制方法
CN113434286A (zh) * 2021-05-15 2021-09-24 南京逸智网络空间技术创新研究院有限公司 一种适用于移动应用处理器的能效优化方法

Also Published As

Publication number Publication date
CN110880773B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN110880773A (zh) 基于数据驱动与物理模型驱动结合的电网调频控制方法
CN103164742B (zh) 一种基于粒子群优化神经网络的服务器性能预测方法
CN109818775B (zh) 一种短期网络流量预测方法
CN108985515B (zh) 一种基于独立循环神经网络的新能源出力预测方法及***
Zhang et al. A novel job-shop scheduling strategy based on particle swarm optimization and neural network
JP2010524104A (ja) 技術システムをコンピュータ支援により制御および/または調整するための方法
CN109858798B (zh) 关联改造措施与电压指标的电网投资决策建模方法及装置
CN116681144A (zh) 基于动态自适应知识蒸馏的联邦学习模型聚合方法
CN116560475A (zh) 一种服务器风扇控制方法及计算机设备
CN114139778A (zh) 风电机组功率预测建模方法及装置
CN114566971A (zh) 一种基于近端策略优化算法的实时最优潮流计算方法
Chi et al. Comparison of two multi-step ahead forecasting mechanisms for wind speed based on machine learning models
Ding et al. Multi-zone hvac control with model-based deep reinforcement learning
CN116009990B (zh) 基于宽注意力机制的云边协同元强化学习计算卸载方法
CN115800322B (zh) 一种调频方法
CN104200073A (zh) 一种基于局部Lipschitz估计的自适应群体全局优化方法
CN111749847B (zh) 一种风力发电机桨距在线控制方法、***和设备
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
Sun et al. Deterministic and discriminative imitation (d2-imitation): revisiting adversarial imitation for sample efficiency
Xu et al. An Automated Few-Shot Learning for Time Series Forecasting in Smart Grid Under Data Scarcity
KR102566824B1 (ko) 장단기 메모리 네트워크 모델을 학습시키는 방법 및 학습된 장단기 메모리 네트워크 모델을 이용하여 에너지 비용을 최소화하는 방법
CN106709159B (zh) 一种考虑奖惩制度的光伏发电调度方法
Liao et al. Improving the Accuracy and Interpretability of Neural Networks for Wind Power Forecasting
Doudkin et al. Spacecraft Telemetry Time Series Forecasting With Ensembles of Neural Networks
CN117674303B (zh) 一种基于数据价值阈值的虚拟电厂并行控制方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant