CN113706018A - 一种用户调峰行为的评估模型建立方法、评估方法及装置 - Google Patents

一种用户调峰行为的评估模型建立方法、评估方法及装置 Download PDF

Info

Publication number
CN113706018A
CN113706018A CN202111000182.9A CN202111000182A CN113706018A CN 113706018 A CN113706018 A CN 113706018A CN 202111000182 A CN202111000182 A CN 202111000182A CN 113706018 A CN113706018 A CN 113706018A
Authority
CN
China
Prior art keywords
user
peak shaving
behavior
peak
decision process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111000182.9A
Other languages
English (en)
Inventor
刘嘉宁
何宇俊
王可
曾凯文
段秦尉
刘沅昆
林斌
苏卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202111000182.9A priority Critical patent/CN113706018A/zh
Publication of CN113706018A publication Critical patent/CN113706018A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于电力***的需求响应技术领域,公开了一种用户调峰行为的评估模型建立方法、评估方法及装置,建立方法包括:获取用户数据,根据用户数据构建不含回报函数的用户调峰行为的三元组马尔科夫决策过程和用户调峰行为的第一示例轨迹;对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数;构建四元组马尔科夫决策过程并得到用户调峰行为的第二示例轨迹;对第二示例轨迹进行学习得到用户调峰行为的评估模型。有益效果:本发明可以使调度机构能够在不了解用户负荷的解析化模型情况下,能够采用数据驱动方式准确估计用户侧的调峰行为。

Description

一种用户调峰行为的评估模型建立方法、评估方法及装置
技术领域
本发明涉及电力***的需求响应技术领域,特别是涉及一种用户调峰行为的评估模型建立方法、评估方法及装置。
背景技术
调峰辅助服务的本质是通过短时电力调节使发电出力匹配负荷的变化,实现电力电量的平衡。随着新能源的大规模并网,电力***调节手段不足的问题越来越突出,原有的以火电为主的调峰辅助服务已不能满足电网运行需求。近年来,以用户资源为主的第三方主体也正越来越多地参与到电力调峰辅助服务中,可以为电网提供削峰和填谷等不同的调峰辅助服务。
与火电机组不同的是,用户资源参与调峰时,其负荷的调峰模型更加复杂,这是因为一方面负荷需求很难与火电机组一样建立解析化的经济运行模型,另一方面用户负荷还具有明显的时域耦合性,调峰持续的时长、已完成的调峰里程量都会影响用户的用电情况和可调峰潜力,因此必须考虑用户资源的内部状态变化。
目前,常规的统计模型和数据驱动方法更多地是从用户调峰的表象数据来预测调峰行为,对于用户调峰行为的时域相关性以及用户行为的内在决策机理缺乏足够考虑,无法根据用户的实时状态来动态估计用户的调峰行为。
发明内容
本发明的目的是:提供一种用户调峰行为的评估模型建立方法、评估方法及装置,可以根据用户的实时状态来动态估计用户的调峰行为,从而更好地改善电力负荷、促进电力***经济运行。
为了实现上述目的,本发明提供了一种用户调峰行为的评估模型建立方法,包括:
获取用户数据,所述用户数据包括:实际负荷数据、基线负荷数据和调峰价格分时数据。
根据用户数据构建用户调峰行为的三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹;所述三元组马尔科夫决策过程包括:用户在t时段的马尔科夫状态、用户调峰行为和t+1时段转移的状态。
根据用户调峰行为获取多个有效特征函数,对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射。
根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹。
对第二示例轨迹进行学习得到用户调峰行为的评估模型。
进一步的,所述根据用户数据构建三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹,具体为:
设用户i在t时段的实际负荷为
Figure BDA0003233783280000021
基线负荷为
Figure BDA0003233783280000022
调峰价格分时数据为
Figure BDA0003233783280000023
调峰负荷为
Figure BDA0003233783280000024
其中,
Figure BDA0003233783280000025
Figure BDA0003233783280000026
构建用户调峰行为的三元组马尔科夫决策过程dt=<st,at,s′t>,其中,st代表用户在t时段的马尔科夫状态,at代表用户的调峰行为,s′t代表t+1时段转移的状态;其中,所述st包括当前时段的调峰价格
Figure BDA0003233783280000027
用户的基线负荷
Figure BDA0003233783280000028
用户过去24小时的调峰行为
Figure BDA0003233783280000029
Figure BDA0003233783280000031
并且假设用户的状态空间为Si,即
Figure BDA0003233783280000032
用户的调峰行为具体为调峰负荷,即
Figure BDA0003233783280000033
Figure BDA0003233783280000034
Ai为用户i的调峰行为的行动空间。
根据三元组马尔科夫决策过程得到用户i调峰行为的第一示例轨迹,所述第一示例轨迹记为τm,所述τm的具体表示如下:
Figure BDA0003233783280000035
其中,m=1,2,…,M,m代表轨迹的条数,T代表该轨迹的总时长。
进一步的,所述根据用户调峰行为获取多个有效特征函数,具体为:
根据用户已经进行的调峰行为和进行调峰行为的调峰收益构造有效特征函数,所述有效特征函数包括:当前时段用户的调峰收益
Figure BDA0003233783280000036
用户的最大可调峰容量
Figure BDA0003233783280000037
用户在过去24小时已完成的调峰里程量
Figure BDA0003233783280000038
和用户进行有效调峰的已持续时间
Figure BDA0003233783280000039
所述有效特征函数的具体表达式如下:
Figure BDA00032337832800000310
Figure BDA00032337832800000311
Figure BDA00032337832800000312
Figure BDA00032337832800000313
进一步的,所述对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射,具体为:
设所述
Figure BDA00032337832800000314
的权重参数为θ1,所述
Figure BDA00032337832800000315
的权重参数为θ2,所述
Figure BDA00032337832800000316
的权重参数为θ3,所述
Figure BDA00032337832800000317
的权重参数为θ4
根据回报函数为有效特征函数的线性映射可以得到回报函数,所述回报函数记为
Figure BDA0003233783280000041
所述
Figure BDA0003233783280000042
具体为:
Figure BDA0003233783280000043
其中,
Figure BDA0003233783280000044
代表有效特征函数,θ=[θ1234]代表各有效特征函数的权重参数。
定义特征期望f(π)为有效特征函数在某一条第一示例轨迹τm中的累积期望,如下所示:
Figure BDA0003233783280000045
其中,π代表用户选择的策略,γ代表未来时段回报的衰减系数;
由M条用户的调峰行为的第一示例轨迹,得到特征期望的经验值,具体为:
Figure BDA0003233783280000046
其中,
Figure BDA0003233783280000047
代表第m条用户调的峰行为第一示例轨迹的特征期望;
当回报函数的权重参数为θ,多条第一示例轨迹进行强化学习训练得到的特征期望的总值与多条第一示例轨迹数据的特征期望的经验值相等时,确定训练的模拟模型与用户具有相同的决策偏好,具体形式如下:
Figure BDA0003233783280000048
其中,Pr(τm)代表各个行为轨迹τm的概率;
当回报函数的权重参数为θ,轨迹出现概率与回报函数的值呈指数关系,如下所示:
Figure BDA0003233783280000049
其中,sj代表属于第一示例轨迹τm中的某个状态,Z(θ)为使得总概率归一化的配分函数,表达式如下:
Figure BDA0003233783280000051
基于最大熵的优化模型可以表示为:
Figure BDA0003233783280000052
Figure BDA0003233783280000053
将其表示拉格朗日松弛可得到:
Figure BDA0003233783280000054
其中,λ1和λ0为拉格朗日松弛条件,通过次梯度法可以对
Figure BDA0003233783280000055
求解并得到θ。
进一步的,所述根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹,具体为:
将回报函数添加到三元组马尔科夫决策过程,得到四元组的马尔科夫决策过程dt=<st,at,rt,s′t>;
根据四元组马尔科夫决策过程得到用户i调峰行为的第二示例轨迹,所述第二示例轨迹记为τ′m,所述τ′m的具体表示如下:
Figure BDA0003233783280000056
进一步的,对第二示例轨迹进行学习得到用户调峰行为的评估模型,具体为:
构造智能体对第二示例轨迹进行学习,所述智能体学习的目标是在每个状态
Figure BDA0003233783280000057
下通过优化
Figure BDA0003233783280000058
来最大限度提高预期收益,预期收益为
Figure BDA0003233783280000059
定义以下Q函数:
Figure BDA0003233783280000061
其中,Qπ(s,a)表示在给定的某个策略π下,马尔科夫状态s和调峰行为a的预期收益;策略π的具体内涵是当输入为马尔科夫状态s时,输出某个调峰行为a的概率分布π(s,a);
最优的策略是能够使得Qπ(s,a)函数满足以下贝尔曼方程:
Figure BDA0003233783280000062
根据第二示例轨迹训练Q函数,得到用户调峰行为的评估模型。
进一步的,所述智能体包括:Q学习、Sarsa学习和深度Q网络。
本发明还公开了一种用户调峰行为的评估方法,应用上述的评估模型建立方法建立的评估模型对用户的调峰行为进行评估,所述评估方法包括:
获取用户当前的马尔科夫状态。
将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
本发明还公开了一种户调峰行为的评估装置,包括:获取模块和评估模块。
所述获取模块,用于获取用户当前的马尔科夫状态。
所述评估模块,用于将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
本发明公开的一种用户调峰行为的评估模型建立方法、评估方法及装置与现有技术相比,其有益效果在于:本发明可应用在电力***需求侧响应领域,使得调度机构能够在不了解用户负荷的解析化模型情况下,能够采用数据驱动方式准确估计用户侧的调峰行为,根据用户不同时刻的马尔科夫状态评估用户接下来的调峰行为,从而为用户侧参与电力辅助服务提供准确的估计手段,对于缓解供需平衡和促进新能源消纳等方面都具有应用价值。
附图说明
图1是本发明用户调峰行为的评估模型建立方法的流程示意图;
图2是本发明一种户调峰行为的评估装置的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1:
参照附图1,本发明公开了一种用户调峰行为的评估模型建立方法,主要包括如下步骤:
步骤S1,获取用户数据,所述用户数据包括:实际负荷数据、基线负荷数据和调峰价格分时数据。
步骤S2,根据用户数据构建用户调峰行为的三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹;所述三元组马尔科夫决策过程包括:用户在t时段的马尔科夫状态、用户调峰行为和t+1时段转移的状态。
步骤S3,根据用户调峰行为获取多个有效特征函数,对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射。
步骤S4,根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹。
步骤S5,对第二示例轨迹进行学习得到用户调峰行为的评估模型。
在步骤S1和步骤S2中,获取和使用的用户数据相同。设用户i在t时段的实际负荷为
Figure BDA0003233783280000071
基线负荷为
Figure BDA0003233783280000072
调峰价格分时数据为
Figure BDA0003233783280000081
调峰负荷为
Figure BDA0003233783280000082
其中,
Figure BDA0003233783280000083
在本实施例中,
Figure BDA0003233783280000084
为正代表填谷负荷,为负代表削峰负荷。设调峰价格分时数据为
Figure BDA0003233783280000085
即t时刻的调峰辅助服务补偿价格。当需要用户参与调峰时,用户对自身的用电量进行调节,进行填谷或削峰。本方法可应用在用户削峰行为和用户填谷行为的估计上。
在本实施例中,基线负荷采用历史数据测量,一般选择若干相同类型日的历史平均负荷作为基线负荷。
本领域技术人员知晓,马尔科夫决策过程为一般为的四元组形式:dt=<st,at,rt,s′t>,其中,st代表用户t时段的马尔科夫状态,at代表用户调峰行为,rt代表回报函数,s′t代表下一时段转移的状态。其中,用户的回报函数代表用户调峰行为的奖励和惩罚,例如用户从调峰中获得的补偿收益,用户调峰行为对自身生产生活的不利影响等等。
但是如果没有对用户侧资源的完整建模,那么无法直接从用户的负荷数据中得到回报函数。若可以建立用户侧的内部模型,那么可以知道用户调峰行为的目标函数和约束条件,然而现实中这些用户内部模型架构以及模型参数都是难以获取的,因此需要对回报函数的获取方法进行改进,从其它途径得到回报函数。
为了得到回报函数,本申请先建立了三元组的马尔科夫决策过程。在步骤S2中,所述根据用户数据构建三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹,具体为:
设用户i在t时段的实际负荷为
Figure BDA0003233783280000086
基线负荷为
Figure BDA0003233783280000087
调峰价格分时数据为
Figure BDA0003233783280000088
调峰负荷为
Figure BDA0003233783280000089
其中,
Figure BDA00032337832800000810
Figure BDA00032337832800000811
构建用户调峰行为的三元组马尔科夫决策过程dt=<st,at,s′t>,其中,st代表用户在t时段的马尔科夫状态,at代表用户的调峰行为,s′t代表下一时段转移的状态;其中,所述st包括当前时段的调峰价格
Figure BDA00032337832800000812
用户的基线负荷
Figure BDA00032337832800000813
用户过去24小时的调峰行为
Figure BDA0003233783280000091
Figure BDA0003233783280000092
并且假设用户的状态空间为Si,即
Figure BDA0003233783280000093
用户的调峰行为具体为调峰负荷,即
Figure BDA0003233783280000094
Figure BDA0003233783280000095
Ai为用户i的调峰行为的行动空间。
在本实施例中,选取了用户过去24小时的调峰行为作为与当前马尔科夫状态有关的调峰行为。可以根据实际需要进行选取,不影响用户调峰行为的马尔科夫性质。
根据三元组马尔科夫决策过程得到用户i调峰行为的第一示例轨迹,所述第一示例轨迹记为τm,所述τm的具体表示如下:
Figure BDA0003233783280000096
其中,m=1,2,…,M,m代表轨迹的条数,T代表该轨迹的总时长。
在步骤S3中,所述根据用户调峰行为获取多个有效特征函数,具体为:
根据用户已经进行的调峰行为和进行调峰行为的调峰收益构造有效特征函数,所述有效特征函数包括:当前时段用户的调峰收益
Figure BDA0003233783280000097
用户的最大可调峰容量
Figure BDA0003233783280000098
用户在过去24小时已完成的调峰里程量
Figure BDA0003233783280000099
和用户进行有效调峰的已持续时间
Figure BDA00032337832800000910
所述有效特征函数的具体表达式如下:
Figure BDA00032337832800000911
Figure BDA00032337832800000912
Figure BDA00032337832800000913
Figure BDA00032337832800000914
在本实施例中,设定用户的调峰(填谷)行为必须超过基线负荷的10%才有效,否则视为无效响应,即用户并没有真正去进行调峰行为。
在本实施例中,不同的有效特征函数代表用户在调峰决策时考虑的内在机理,例如
Figure BDA00032337832800000915
代表用户考虑调峰行为的经济效益,
Figure BDA00032337832800000916
Figure BDA0003233783280000101
等代表用户当前或已发生的调峰行为对其用电行为的影响。
在本实施例中,采用基于最大熵的逆向强化学习方法计算有效特征函数的权重参数:最大熵原理指的是对一个随机事件的概率分布进行预测时,预测应当满足全部已知条件,并且不能对未知情况做任何主观假设。在此情况下,概率分布最均匀,预测风险最小,因为这时概率的信息熵最大,所以被称为最大熵模型。
在步骤S3中,所述对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射,具体为:
所述
Figure BDA0003233783280000102
的权重参数为θ1,所述
Figure BDA0003233783280000103
的权重参数为θ2,所述
Figure BDA0003233783280000104
的权重参数为θ3,所述
Figure BDA0003233783280000105
的权重参数为θ4
根据回报函数为有效特征函数的线性映射可以得到回报函数,所述回报函数记为
Figure BDA0003233783280000106
所述
Figure BDA0003233783280000107
具体为:
Figure BDA0003233783280000108
其中,
Figure BDA0003233783280000109
代表有效特征函数,θ=[θ1234]代表各有效特征函数的权重参数,对于不同用户θ是未知的。
定义特征期望f(π)为有效特征函数在某一条第一示例轨迹τm中的累积期望,如下所示:
Figure BDA00032337832800001010
其中,π代表用户选择的策略,γ代表未来时段回报的衰减系数。
由M条用户的调峰行为的第一示例轨迹,得到特征期望的经验值,具体为:
Figure BDA00032337832800001011
Figure BDA0003233783280000111
其中,
Figure BDA0003233783280000112
代表第m条用户调的峰行为第一示例轨迹的特征期望;
当且仅当回报函数的权重参数为θ,根据多条第一示例轨迹进行强化学习训练得到的特征期望的总值与多条第一示例轨迹数据的特征期望的经验值相等时,确定训练的模拟模型与用户具有相同的决策偏好,具体形式如下:
Figure BDA0003233783280000113
其中,Pr(τm)代表各个行为轨迹τm的概率;
在于模拟模型具有相同θ的情况下,轨迹出现概率与回报函数的值呈指数关系,如下所示:
Figure BDA0003233783280000114
其中,sj代表属于第一示例轨迹τm中的某个状态,Z(θ)为使得总概率归一化的配分函数,表达式如下:
Figure BDA0003233783280000115
基于最大熵的优化模型可以表示为:
Figure BDA0003233783280000116
Figure BDA0003233783280000117
将其表示拉格朗日松弛可得到:
Figure BDA0003233783280000118
其中,λ1和λ0为拉格朗日松弛条件,通过次梯度法可以对
Figure BDA0003233783280000119
求解并得到θ。
在本实施例中,根据求解得到的θ和有效特征函数可以得到回报函数。
在步骤S4中,所述根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹,具体为:
将回报函数添加到三元组马尔科夫决策过程,得到四元组的马尔科夫决策过程dt=<st,at,rt,s′t>;
根据四元组马尔科夫决策过程得到用户i调峰行为的第二示例轨迹,所述第二示例轨迹记为τ′m,所述τ′m的具体表示如下:
Figure BDA0003233783280000121
在步骤S5中,所述对第二示例轨迹进行学习得到用户调峰行为的评估模型,具体为:
构造智能体对第二示例轨迹进行学习,智能体学习的目标是在每个状态
Figure BDA0003233783280000122
下通过优化
Figure BDA0003233783280000123
来最大限度提高预期收益,预期收益为
Figure BDA0003233783280000124
定义以下Q函数:
Figure BDA0003233783280000125
其中,Qπ(s,a)表示在给定的某个策略π下,马尔科夫状态s和调峰行为a的预期收益;策略π的具体内涵是当输入为马尔科夫状态s时,输出某个调峰行为a的概率分布π(s,a);
最优的策略是能够使得Qπ(s,a)函数满足以下贝尔曼方程:
Figure BDA0003233783280000126
根据第二示例轨迹训练Q函数,得到用户调峰行为的评估模型。
在本实施例中,所述智能体包括:Q学习、Sarsa学习和深度Q网络。
在本实施例中,需要说明的是,训练Q函数必须要提供r,否则算法难以收敛,而直接从用户的调峰行为数据是难以获得r的,这也是本发明采用逆向强化学习去获得r的意义。
以下为采用深度Q网络方法训练用户调峰评估模型的方法。
首先建立Q函数的深度神经网络模型,假设s的维度是u,a是离散变量,且a有v个可能的取值,假设模型的深度为3层,则深度神经网络模型表征的Q函数如下所示:
Qβ(s,a)=oneshot(a)*(A3*σ(A2*σ(A1*s+b1)+b2)+b3);
其中,β代表A1、A2、A3、b1、b2和b3等所有待训练参数,A1、A2和A3是uⅹv维的参数矩阵,b1、b2和b3是vⅹ1维的参数向量,σ代表激活函数,一般采用ReLU()作为激活函数,作用是为神经网络增加非线性因素。Oneshot(a)函数将a转化为形如[0 0 1 … 0]的1ⅹv维向量,其中第k个元素为1代表a的取值为第k种可能取值,其他元素则为0。
分别建立两个结构相同的Q网络,分别用Q和Q’来表示,并分别称为预测Q网络和目标Q网络,两个网络的结构完全一致,对应的权重系数分别为β和β’。
接下来将要训练Q网络的参数,设所有数据构成一个历史交易数据集,建立参数训练模型的损失函数如下:
Figure BDA0003233783280000131
其中,yj表示Q网络函数的目标值,表达式如下:
Figure BDA0003233783280000132
其中,γ代表折现率,一般γ可以取0.95。
在第k次训练时,从历史交易数据集中抽取一个批量,包含u个样本(sj,aj,s′j,rj),j=1,2,…,u,将样本代入上式可以计算损失函数Loss(β)。可以看出损失函数包含每个样本的四元组数据。
采用梯度下降法更新预测Q网络的参数如下:
Figure BDA0003233783280000141
其中,α代表参数训练的学习率,一般取0.01。每经过一定训练次数,将预测Q网络的参数复制到目标Q网络,如下:
β′←β;
则经过若干次训练后的预测Q网络可以逼近真实的Q函数,并用来模拟用户的决策。用户决策时根据给定的s,选择令Q函数最大化的a值。
实施例2:
在实施1的基础上,本发明还公开了一种用户调峰行为的评估方法,应用实施例1的评估模型建立方法建立的评估模型对用户的调峰行为进行评估,所述评估方法包括:
获取用户当前的马尔科夫状态。
将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
实施例3:
在实施例2的基础上,本发明还公开了一种户调峰行为的评估装置,包括:获取模块101和评估模块102。
所述获取模块101,用于获取用户当前的马尔科夫状态。
所述评估模块102,用于将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
综上,本发明实施例提供一种用户调峰行为的评估模型建立方法、评估方法及装置,其有益效果在于:本发明可应用在电力***需求侧响应领域,使得调度机构能够在不了解用户负荷的解析化模型情况下,能够采用数据驱动方式准确估计用户侧的调峰行为,根据用户不同时刻的马尔科夫状态评估用户接下来的调峰行为,从而为用户侧参与电力辅助服务提供准确的估计手段,对于缓解供需平衡和促进新能源消纳等方面都具有应用价值。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (9)

1.一种用户调峰行为的评估模型建立方法,其特征在于,包括:
获取用户数据,所述用户数据包括:实际负荷数据、基线负荷数据和调峰价格分时数据;
根据用户数据构建用户调峰行为的三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹;所述三元组马尔科夫决策过程包括:用户在t时段的马尔科夫状态、用户调峰行为和t+1时段转移的状态;
根据用户调峰行为获取多个有效特征函数,对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射;
根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹;
对第二示例轨迹进行学习得到用户调峰行为的评估模型。
2.根据权利要求1所述的一种用户调峰行为的评估模型建立方法,其特征在于,所述根据用户数据构建三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹,具体为:
设用户i在t时段的实际负荷为
Figure FDA0003233783270000011
基线负荷为
Figure FDA0003233783270000012
调峰价格分时数据为
Figure FDA0003233783270000013
调峰负荷为
Figure FDA0003233783270000014
其中,
Figure FDA0003233783270000015
Figure FDA0003233783270000016
构建用户调峰行为的三元组马尔科夫决策过程dt=<st,at,s′t>,其中,st代表用户在t时段的马尔科夫状态,at代表用户的调峰行为,s′t代表t+1时段转移的状态;其中,所述st包括当前时段的调峰价格
Figure FDA0003233783270000021
用户的基线负荷
Figure FDA0003233783270000022
用户过去24小时的调峰行为
Figure FDA0003233783270000023
Figure FDA0003233783270000024
并且假设用户的状态空间为Si,即
Figure FDA0003233783270000025
用户的调峰行为具体为调峰负荷,即
Figure FDA0003233783270000026
Figure FDA0003233783270000027
Ai为用户i的调峰行为的行动空间;
根据三元组马尔科夫决策过程得到用户i调峰行为的第一示例轨迹,所述第一示例轨迹记为τm,所述τm的具体表示如下:
Figure FDA0003233783270000028
其中,m=1,2,...,M,m代表轨迹的条数,T代表该轨迹的总时长。
3.根据权利要求1所述的一种用户调峰行为的评估模型建立方法,其特征在于,所述根据用户调峰行为获取多个有效特征函数,具体为:
根据用户已经进行的调峰行为和进行调峰行为的调峰收益构造有效特征函数,所述有效特征函数包括:当前时段用户的调峰收益
Figure FDA0003233783270000029
用户的最大可调峰容量
Figure FDA00032337832700000210
用户在过去24小时已完成的调峰里程量
Figure FDA00032337832700000211
和用户进行有效调峰的已持续时间
Figure FDA00032337832700000212
所述有效特征函数的具体表达式如下:
Figure FDA00032337832700000213
Figure FDA00032337832700000214
Figure FDA00032337832700000215
Figure FDA00032337832700000216
4.根据权利要求3所述的一种用户调峰行为的评估模型建立方法,其特征在于,所述对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射,具体为:
设所述
Figure FDA0003233783270000031
的权重参数为θ1,所述
Figure FDA0003233783270000032
的权重参数为θ2,所述
Figure FDA0003233783270000033
的权重参数为θ3,所述
Figure FDA0003233783270000034
的权重参数为θ4
根据回报函数为有效特征函数的线性映射可以得到回报函数,所述回报函数记为
Figure FDA0003233783270000035
所述
Figure FDA0003233783270000036
具体为:
Figure FDA0003233783270000037
其中,
Figure FDA0003233783270000038
代表有效特征函数,θ=[θ1,θ2,θ3,θ4]代表各有效特征函数的权重参数;
定义特征期望f(π)为有效特征函数在某一条第一示例轨迹τm中的累积期望,如下所示:
Figure FDA0003233783270000039
其中,不代表用户选择的策略,γ代表未来时段回报的衰减系数;
由M条用户的调峰行为的第一示例轨迹,得到特征期望的经验值,具体为:
Figure FDA00032337832700000310
其中,
Figure FDA00032337832700000311
代表第m条用户调的峰行为第一示例轨迹的特征期望;
当回报函数的权重参数为θ,多条第一示例轨迹进行强化学习训练得到的特征期望的总值与多条第一示例轨迹数据的特征期望的经验值相等时,确定训练的模拟模型与用户具有相同的决策偏好,具体形式如下:
Figure FDA00032337832700000312
其中,Pr(τm)代表各个行为轨迹τm的概率;
当回报函数的权重参数为θ,轨迹出现概率与回报函数的值呈指数关系,如下所示:
Figure FDA0003233783270000041
其中,sj代表属于第一示例轨迹τm中的某个状态,Z(θ)为使得总
Figure FDA0003233783270000042
基于最大熵的优化模型可以表示为:
Figure FDA0003233783270000043
Figure FDA0003233783270000044
Figure FDA0003233783270000045
将其表示拉格朗日松弛可得到:
Figure FDA0003233783270000046
其中,λ1和λ0为拉格朗日松弛条件,通过次梯度法可以对
Figure FDA0003233783270000047
求解并得到θ。
5.根据权利要求1所述的一种用户调峰行为的评估模型建立方法,其特征在于,所述根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹,具体为:
将回报函数添加到三元组马尔科夫决策过程,得到四元组的马尔科夫决策过程dt=<st,at,rt,s′t>;
根据四元组马尔科夫决策过程得到用户i调峰行为的第二示例轨迹,所述第二示例轨迹记为τ′m,所述τ′m的具体表示如下:
Figure FDA0003233783270000051
6.根据权利要求1所述的一种用户调峰行为的评估模型建立方法,其特征在于,对第二示例轨迹进行学习得到用户调峰行为的评估模型,具体为:
构造智能体对第二示例轨迹进行学习,所述智能体学习的目标是在每个状态
Figure FDA0003233783270000052
下通过优化
Figure FDA0003233783270000053
来最大限度提高预期收益,预期收益为
Figure FDA0003233783270000054
定义以下Q函数:
Figure FDA0003233783270000055
其中,Qπ(s,a)表示在给定的某个策略π下,马尔科夫状态s和调峰行为a的预期收益;策略π的具体内涵是当输入为马尔科夫状态s时,输出某个调峰行为a的概率分布π(s,a);
最优的策略是能够使得Qπ(s,a)函数满足以下贝尔曼方程:
Figure FDA0003233783270000056
根据第二示例轨迹训练Q函数,得到用户调峰行为的评估模型。
7.根据权利要求6所述的一种用户调峰行为的评估模型建立方法,其特征在于,所述智能体包括:Q学习、Sarsa学习和深度Q网络。
8.一种用户调峰行为的评估方法,其特征在于,应用权利要求1-7任一所述的评估模型建立方法建立的评估模型对用户的调峰行为进行评估,所述评估方法包括:
获取用户当前的马尔科夫状态;
将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
9.一种户调峰行为的评估装置,其特征在于,包括:获取模块和评估模块;
所述获取模块,用于获取用户当前的马尔科夫状态;
所述评估模块,用于将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
CN202111000182.9A 2021-08-27 2021-08-27 一种用户调峰行为的评估模型建立方法、评估方法及装置 Pending CN113706018A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111000182.9A CN113706018A (zh) 2021-08-27 2021-08-27 一种用户调峰行为的评估模型建立方法、评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111000182.9A CN113706018A (zh) 2021-08-27 2021-08-27 一种用户调峰行为的评估模型建立方法、评估方法及装置

Publications (1)

Publication Number Publication Date
CN113706018A true CN113706018A (zh) 2021-11-26

Family

ID=78656433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111000182.9A Pending CN113706018A (zh) 2021-08-27 2021-08-27 一种用户调峰行为的评估模型建立方法、评估方法及装置

Country Status (1)

Country Link
CN (1) CN113706018A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213151A1 (en) * 2014-08-07 2017-07-27 Okinawa Institute Of Science And Technology School Corporation Inverse reinforcement learning by density ratio estimation
CN109103912A (zh) * 2018-07-18 2018-12-28 合肥工业大学 考虑电网调峰需求的工业园区主动配电***调度优化方法
CN110365057A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN111967723A (zh) * 2020-07-24 2020-11-20 南昌大学 一种基于数据挖掘的用户调峰潜力分析方法
CN112737122A (zh) * 2020-12-28 2021-04-30 国网重庆市电力公司电力科学研究院 一种基于多能互补的电网调峰控制***与方法
CN112952847A (zh) * 2021-04-06 2021-06-11 合肥工业大学 考虑用电需求弹性的多区域主动配电***调峰优化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213151A1 (en) * 2014-08-07 2017-07-27 Okinawa Institute Of Science And Technology School Corporation Inverse reinforcement learning by density ratio estimation
CN109103912A (zh) * 2018-07-18 2018-12-28 合肥工业大学 考虑电网调峰需求的工业园区主动配电***调度优化方法
CN110365057A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN111967723A (zh) * 2020-07-24 2020-11-20 南昌大学 一种基于数据挖掘的用户调峰潜力分析方法
CN112737122A (zh) * 2020-12-28 2021-04-30 国网重庆市电力公司电力科学研究院 一种基于多能互补的电网调峰控制***与方法
CN112952847A (zh) * 2021-04-06 2021-06-11 合肥工业大学 考虑用电需求弹性的多区域主动配电***调峰优化方法

Similar Documents

Publication Publication Date Title
CN110705743B (zh) 一种基于长短期记忆神经网络的新能源消纳电量预测方法
CN113610303B (zh) 一种负荷预测方法及***
CN113112077B (zh) 基于多步预测深度强化学习算法的hvac控制***
CN111680786B (zh) 一种基于改进权重门控单元的时序预测方法
CN110389820A (zh) 一种基于v-TGRU模型进行资源预测的私有云任务调度方法
CN109344895B (zh) 一种激励型需求响应下的用户响应可靠性评估方法
CN114811713B (zh) 基于混合深度学习的二级网户间均衡供热调控方法
CN112686693A (zh) 电力现货市场边际电价预测方法、***、设备及存储介质
CN109214565A (zh) 一种适用于大电网分区调度的子区域***负荷预测方法
Chen et al. Deep reinforcement learning in a monetary model
CN115238167A (zh) 兼顾负荷与社会信息的电力用户精细化画像与管理方法
CN110310199B (zh) 借贷风险预测模型的构建方法、***及借贷风险预测方法
CN112488531B (zh) 基于深度强化学习的异构柔性负荷实时调控方法和装置
CN116468138A (zh) 空调负荷预测方法、***、电子设备及计算机存储介质
Chen et al. Data-driven stochastic game with social attributes for peer-to-peer energy sharing
Tilmant et al. Optimal operation of multipurpose reservoirs using flexible stochastic dynamic programming
CN113706018A (zh) 一种用户调峰行为的评估模型建立方法、评估方法及装置
CN110322342B (zh) 借贷风险预测模型的构建方法、***及借贷风险预测方法
CN111767991A (zh) 一种基于深度q学习的测控资源调度方法
Chen et al. A Deep Reinforcement Learning-Based Charging Scheduling Approach with Augmented Lagrangian for Electric Vehicle
CN116845882A (zh) 考虑温湿指数与耦合特性的综合能源负荷短期预测方法
CN116610416A (zh) 基于Kubernetes的负载预测型弹性伸缩***及方法
CN115663914A (zh) 一种基于深度强化学习的含风电虚拟电厂聚合调度方法
CN111784019A (zh) 电力负荷处理方法和装置
CN115629576A (zh) 非侵入式柔性负荷聚合特性辨识与优化方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination