CN113706018A - 一种用户调峰行为的评估模型建立方法、评估方法及装置 - Google Patents
一种用户调峰行为的评估模型建立方法、评估方法及装置 Download PDFInfo
- Publication number
- CN113706018A CN113706018A CN202111000182.9A CN202111000182A CN113706018A CN 113706018 A CN113706018 A CN 113706018A CN 202111000182 A CN202111000182 A CN 202111000182A CN 113706018 A CN113706018 A CN 113706018A
- Authority
- CN
- China
- Prior art keywords
- user
- peak shaving
- behavior
- peak
- decision process
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000013210 evaluation model Methods 0.000 title claims abstract description 38
- 238000011156 evaluation Methods 0.000 title claims description 20
- 230000006399 behavior Effects 0.000 claims abstract description 128
- 230000006870 function Effects 0.000 claims abstract description 125
- 230000008569 process Effects 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 claims description 5
- 238000004088 simulation Methods 0.000 claims description 4
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 5
- 230000004044 response Effects 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000001737 promoting effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于电力***的需求响应技术领域,公开了一种用户调峰行为的评估模型建立方法、评估方法及装置,建立方法包括:获取用户数据,根据用户数据构建不含回报函数的用户调峰行为的三元组马尔科夫决策过程和用户调峰行为的第一示例轨迹;对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数;构建四元组马尔科夫决策过程并得到用户调峰行为的第二示例轨迹;对第二示例轨迹进行学习得到用户调峰行为的评估模型。有益效果:本发明可以使调度机构能够在不了解用户负荷的解析化模型情况下,能够采用数据驱动方式准确估计用户侧的调峰行为。
Description
技术领域
本发明涉及电力***的需求响应技术领域,特别是涉及一种用户调峰行为的评估模型建立方法、评估方法及装置。
背景技术
调峰辅助服务的本质是通过短时电力调节使发电出力匹配负荷的变化,实现电力电量的平衡。随着新能源的大规模并网,电力***调节手段不足的问题越来越突出,原有的以火电为主的调峰辅助服务已不能满足电网运行需求。近年来,以用户资源为主的第三方主体也正越来越多地参与到电力调峰辅助服务中,可以为电网提供削峰和填谷等不同的调峰辅助服务。
与火电机组不同的是,用户资源参与调峰时,其负荷的调峰模型更加复杂,这是因为一方面负荷需求很难与火电机组一样建立解析化的经济运行模型,另一方面用户负荷还具有明显的时域耦合性,调峰持续的时长、已完成的调峰里程量都会影响用户的用电情况和可调峰潜力,因此必须考虑用户资源的内部状态变化。
目前,常规的统计模型和数据驱动方法更多地是从用户调峰的表象数据来预测调峰行为,对于用户调峰行为的时域相关性以及用户行为的内在决策机理缺乏足够考虑,无法根据用户的实时状态来动态估计用户的调峰行为。
发明内容
本发明的目的是:提供一种用户调峰行为的评估模型建立方法、评估方法及装置,可以根据用户的实时状态来动态估计用户的调峰行为,从而更好地改善电力负荷、促进电力***经济运行。
为了实现上述目的,本发明提供了一种用户调峰行为的评估模型建立方法,包括:
获取用户数据,所述用户数据包括:实际负荷数据、基线负荷数据和调峰价格分时数据。
根据用户数据构建用户调峰行为的三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹;所述三元组马尔科夫决策过程包括:用户在t时段的马尔科夫状态、用户调峰行为和t+1时段转移的状态。
根据用户调峰行为获取多个有效特征函数,对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射。
根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹。
对第二示例轨迹进行学习得到用户调峰行为的评估模型。
进一步的,所述根据用户数据构建三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹,具体为:
构建用户调峰行为的三元组马尔科夫决策过程dt=<st,at,s′t>,其中,st代表用户在t时段的马尔科夫状态,at代表用户的调峰行为,s′t代表t+1时段转移的状态;其中,所述st包括当前时段的调峰价格用户的基线负荷用户过去24小时的调峰行为令并且假设用户的状态空间为Si,即用户的调峰行为具体为调峰负荷,即且Ai为用户i的调峰行为的行动空间。
根据三元组马尔科夫决策过程得到用户i调峰行为的第一示例轨迹,所述第一示例轨迹记为τm,所述τm的具体表示如下:
其中,m=1,2,…,M,m代表轨迹的条数,T代表该轨迹的总时长。
进一步的,所述根据用户调峰行为获取多个有效特征函数,具体为:
所述有效特征函数的具体表达式如下:
进一步的,所述对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射,具体为:
定义特征期望f(π)为有效特征函数在某一条第一示例轨迹τm中的累积期望,如下所示:
其中,π代表用户选择的策略,γ代表未来时段回报的衰减系数;
由M条用户的调峰行为的第一示例轨迹,得到特征期望的经验值,具体为:
当回报函数的权重参数为θ,多条第一示例轨迹进行强化学习训练得到的特征期望的总值与多条第一示例轨迹数据的特征期望的经验值相等时,确定训练的模拟模型与用户具有相同的决策偏好,具体形式如下:
其中,Pr(τm)代表各个行为轨迹τm的概率;
当回报函数的权重参数为θ,轨迹出现概率与回报函数的值呈指数关系,如下所示:
其中,sj代表属于第一示例轨迹τm中的某个状态,Z(θ)为使得总概率归一化的配分函数,表达式如下:
基于最大熵的优化模型可以表示为:
将其表示拉格朗日松弛可得到:
进一步的,所述根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹,具体为:
将回报函数添加到三元组马尔科夫决策过程,得到四元组的马尔科夫决策过程dt=<st,at,rt,s′t>;
根据四元组马尔科夫决策过程得到用户i调峰行为的第二示例轨迹,所述第二示例轨迹记为τ′m,所述τ′m的具体表示如下:
进一步的,对第二示例轨迹进行学习得到用户调峰行为的评估模型,具体为:
定义以下Q函数:
其中,Qπ(s,a)表示在给定的某个策略π下,马尔科夫状态s和调峰行为a的预期收益;策略π的具体内涵是当输入为马尔科夫状态s时,输出某个调峰行为a的概率分布π(s,a);
最优的策略是能够使得Qπ(s,a)函数满足以下贝尔曼方程:
根据第二示例轨迹训练Q函数,得到用户调峰行为的评估模型。
进一步的,所述智能体包括:Q学习、Sarsa学习和深度Q网络。
本发明还公开了一种用户调峰行为的评估方法,应用上述的评估模型建立方法建立的评估模型对用户的调峰行为进行评估,所述评估方法包括:
获取用户当前的马尔科夫状态。
将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
本发明还公开了一种户调峰行为的评估装置,包括:获取模块和评估模块。
所述获取模块,用于获取用户当前的马尔科夫状态。
所述评估模块,用于将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
本发明公开的一种用户调峰行为的评估模型建立方法、评估方法及装置与现有技术相比,其有益效果在于:本发明可应用在电力***需求侧响应领域,使得调度机构能够在不了解用户负荷的解析化模型情况下,能够采用数据驱动方式准确估计用户侧的调峰行为,根据用户不同时刻的马尔科夫状态评估用户接下来的调峰行为,从而为用户侧参与电力辅助服务提供准确的估计手段,对于缓解供需平衡和促进新能源消纳等方面都具有应用价值。
附图说明
图1是本发明用户调峰行为的评估模型建立方法的流程示意图;
图2是本发明一种户调峰行为的评估装置的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1:
参照附图1,本发明公开了一种用户调峰行为的评估模型建立方法,主要包括如下步骤:
步骤S1,获取用户数据,所述用户数据包括:实际负荷数据、基线负荷数据和调峰价格分时数据。
步骤S2,根据用户数据构建用户调峰行为的三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹;所述三元组马尔科夫决策过程包括:用户在t时段的马尔科夫状态、用户调峰行为和t+1时段转移的状态。
步骤S3,根据用户调峰行为获取多个有效特征函数,对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射。
步骤S4,根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹。
步骤S5,对第二示例轨迹进行学习得到用户调峰行为的评估模型。
在本实施例中,为正代表填谷负荷,为负代表削峰负荷。设调峰价格分时数据为即t时刻的调峰辅助服务补偿价格。当需要用户参与调峰时,用户对自身的用电量进行调节,进行填谷或削峰。本方法可应用在用户削峰行为和用户填谷行为的估计上。
在本实施例中,基线负荷采用历史数据测量,一般选择若干相同类型日的历史平均负荷作为基线负荷。
本领域技术人员知晓,马尔科夫决策过程为一般为的四元组形式:dt=<st,at,rt,s′t>,其中,st代表用户t时段的马尔科夫状态,at代表用户调峰行为,rt代表回报函数,s′t代表下一时段转移的状态。其中,用户的回报函数代表用户调峰行为的奖励和惩罚,例如用户从调峰中获得的补偿收益,用户调峰行为对自身生产生活的不利影响等等。
但是如果没有对用户侧资源的完整建模,那么无法直接从用户的负荷数据中得到回报函数。若可以建立用户侧的内部模型,那么可以知道用户调峰行为的目标函数和约束条件,然而现实中这些用户内部模型架构以及模型参数都是难以获取的,因此需要对回报函数的获取方法进行改进,从其它途径得到回报函数。
为了得到回报函数,本申请先建立了三元组的马尔科夫决策过程。在步骤S2中,所述根据用户数据构建三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹,具体为:
构建用户调峰行为的三元组马尔科夫决策过程dt=<st,at,s′t>,其中,st代表用户在t时段的马尔科夫状态,at代表用户的调峰行为,s′t代表下一时段转移的状态;其中,所述st包括当前时段的调峰价格用户的基线负荷用户过去24小时的调峰行为令并且假设用户的状态空间为Si,即用户的调峰行为具体为调峰负荷,即且Ai为用户i的调峰行为的行动空间。
在本实施例中,选取了用户过去24小时的调峰行为作为与当前马尔科夫状态有关的调峰行为。可以根据实际需要进行选取,不影响用户调峰行为的马尔科夫性质。
根据三元组马尔科夫决策过程得到用户i调峰行为的第一示例轨迹,所述第一示例轨迹记为τm,所述τm的具体表示如下:
其中,m=1,2,…,M,m代表轨迹的条数,T代表该轨迹的总时长。
在步骤S3中,所述根据用户调峰行为获取多个有效特征函数,具体为:
所述有效特征函数的具体表达式如下:
在本实施例中,设定用户的调峰(填谷)行为必须超过基线负荷的10%才有效,否则视为无效响应,即用户并没有真正去进行调峰行为。
在本实施例中,采用基于最大熵的逆向强化学习方法计算有效特征函数的权重参数:最大熵原理指的是对一个随机事件的概率分布进行预测时,预测应当满足全部已知条件,并且不能对未知情况做任何主观假设。在此情况下,概率分布最均匀,预测风险最小,因为这时概率的信息熵最大,所以被称为最大熵模型。
在步骤S3中,所述对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射,具体为:
定义特征期望f(π)为有效特征函数在某一条第一示例轨迹τm中的累积期望,如下所示:
其中,π代表用户选择的策略,γ代表未来时段回报的衰减系数。
由M条用户的调峰行为的第一示例轨迹,得到特征期望的经验值,具体为:
当且仅当回报函数的权重参数为θ,根据多条第一示例轨迹进行强化学习训练得到的特征期望的总值与多条第一示例轨迹数据的特征期望的经验值相等时,确定训练的模拟模型与用户具有相同的决策偏好,具体形式如下:
其中,Pr(τm)代表各个行为轨迹τm的概率;
在于模拟模型具有相同θ的情况下,轨迹出现概率与回报函数的值呈指数关系,如下所示:
其中,sj代表属于第一示例轨迹τm中的某个状态,Z(θ)为使得总概率归一化的配分函数,表达式如下:
基于最大熵的优化模型可以表示为:
将其表示拉格朗日松弛可得到:
在本实施例中,根据求解得到的θ和有效特征函数可以得到回报函数。
在步骤S4中,所述根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹,具体为:
将回报函数添加到三元组马尔科夫决策过程,得到四元组的马尔科夫决策过程dt=<st,at,rt,s′t>;
根据四元组马尔科夫决策过程得到用户i调峰行为的第二示例轨迹,所述第二示例轨迹记为τ′m,所述τ′m的具体表示如下:
在步骤S5中,所述对第二示例轨迹进行学习得到用户调峰行为的评估模型,具体为:
定义以下Q函数:
其中,Qπ(s,a)表示在给定的某个策略π下,马尔科夫状态s和调峰行为a的预期收益;策略π的具体内涵是当输入为马尔科夫状态s时,输出某个调峰行为a的概率分布π(s,a);
最优的策略是能够使得Qπ(s,a)函数满足以下贝尔曼方程:
根据第二示例轨迹训练Q函数,得到用户调峰行为的评估模型。
在本实施例中,所述智能体包括:Q学习、Sarsa学习和深度Q网络。
在本实施例中,需要说明的是,训练Q函数必须要提供r,否则算法难以收敛,而直接从用户的调峰行为数据是难以获得r的,这也是本发明采用逆向强化学习去获得r的意义。
以下为采用深度Q网络方法训练用户调峰评估模型的方法。
首先建立Q函数的深度神经网络模型,假设s的维度是u,a是离散变量,且a有v个可能的取值,假设模型的深度为3层,则深度神经网络模型表征的Q函数如下所示:
Qβ(s,a)=oneshot(a)*(A3*σ(A2*σ(A1*s+b1)+b2)+b3);
其中,β代表A1、A2、A3、b1、b2和b3等所有待训练参数,A1、A2和A3是uⅹv维的参数矩阵,b1、b2和b3是vⅹ1维的参数向量,σ代表激活函数,一般采用ReLU()作为激活函数,作用是为神经网络增加非线性因素。Oneshot(a)函数将a转化为形如[0 0 1 … 0]的1ⅹv维向量,其中第k个元素为1代表a的取值为第k种可能取值,其他元素则为0。
分别建立两个结构相同的Q网络,分别用Q和Q’来表示,并分别称为预测Q网络和目标Q网络,两个网络的结构完全一致,对应的权重系数分别为β和β’。
接下来将要训练Q网络的参数,设所有数据构成一个历史交易数据集,建立参数训练模型的损失函数如下:
其中,yj表示Q网络函数的目标值,表达式如下:
其中,γ代表折现率,一般γ可以取0.95。
在第k次训练时,从历史交易数据集中抽取一个批量,包含u个样本(sj,aj,s′j,rj),j=1,2,…,u,将样本代入上式可以计算损失函数Loss(β)。可以看出损失函数包含每个样本的四元组数据。
采用梯度下降法更新预测Q网络的参数如下:
其中,α代表参数训练的学习率,一般取0.01。每经过一定训练次数,将预测Q网络的参数复制到目标Q网络,如下:
β′←β;
则经过若干次训练后的预测Q网络可以逼近真实的Q函数,并用来模拟用户的决策。用户决策时根据给定的s,选择令Q函数最大化的a值。
实施例2:
在实施1的基础上,本发明还公开了一种用户调峰行为的评估方法,应用实施例1的评估模型建立方法建立的评估模型对用户的调峰行为进行评估,所述评估方法包括:
获取用户当前的马尔科夫状态。
将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
实施例3:
在实施例2的基础上,本发明还公开了一种户调峰行为的评估装置,包括:获取模块101和评估模块102。
所述获取模块101,用于获取用户当前的马尔科夫状态。
所述评估模块102,用于将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
综上,本发明实施例提供一种用户调峰行为的评估模型建立方法、评估方法及装置,其有益效果在于:本发明可应用在电力***需求侧响应领域,使得调度机构能够在不了解用户负荷的解析化模型情况下,能够采用数据驱动方式准确估计用户侧的调峰行为,根据用户不同时刻的马尔科夫状态评估用户接下来的调峰行为,从而为用户侧参与电力辅助服务提供准确的估计手段,对于缓解供需平衡和促进新能源消纳等方面都具有应用价值。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (9)
1.一种用户调峰行为的评估模型建立方法,其特征在于,包括:
获取用户数据,所述用户数据包括:实际负荷数据、基线负荷数据和调峰价格分时数据;
根据用户数据构建用户调峰行为的三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹;所述三元组马尔科夫决策过程包括:用户在t时段的马尔科夫状态、用户调峰行为和t+1时段转移的状态;
根据用户调峰行为获取多个有效特征函数,对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射;
根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程,根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹;
对第二示例轨迹进行学习得到用户调峰行为的评估模型。
2.根据权利要求1所述的一种用户调峰行为的评估模型建立方法,其特征在于,所述根据用户数据构建三元组马尔科夫决策过程,并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹,具体为:
构建用户调峰行为的三元组马尔科夫决策过程dt=<st,at,s′t>,其中,st代表用户在t时段的马尔科夫状态,at代表用户的调峰行为,s′t代表t+1时段转移的状态;其中,所述st包括当前时段的调峰价格用户的基线负荷用户过去24小时的调峰行为令并且假设用户的状态空间为Si,即用户的调峰行为具体为调峰负荷,即且Ai为用户i的调峰行为的行动空间;
根据三元组马尔科夫决策过程得到用户i调峰行为的第一示例轨迹,所述第一示例轨迹记为τm,所述τm的具体表示如下:
其中,m=1,2,...,M,m代表轨迹的条数,T代表该轨迹的总时长。
4.根据权利要求3所述的一种用户调峰行为的评估模型建立方法,其特征在于,所述对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数,根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数,所述回报函数为多个有效特征函数的线性映射,具体为:
定义特征期望f(π)为有效特征函数在某一条第一示例轨迹τm中的累积期望,如下所示:
其中,不代表用户选择的策略,γ代表未来时段回报的衰减系数;
由M条用户的调峰行为的第一示例轨迹,得到特征期望的经验值,具体为:
当回报函数的权重参数为θ,多条第一示例轨迹进行强化学习训练得到的特征期望的总值与多条第一示例轨迹数据的特征期望的经验值相等时,确定训练的模拟模型与用户具有相同的决策偏好,具体形式如下:
其中,Pr(τm)代表各个行为轨迹τm的概率;
当回报函数的权重参数为θ,轨迹出现概率与回报函数的值呈指数关系,如下所示:
基于最大熵的优化模型可以表示为:
将其表示拉格朗日松弛可得到:
7.根据权利要求6所述的一种用户调峰行为的评估模型建立方法,其特征在于,所述智能体包括:Q学习、Sarsa学习和深度Q网络。
8.一种用户调峰行为的评估方法,其特征在于,应用权利要求1-7任一所述的评估模型建立方法建立的评估模型对用户的调峰行为进行评估,所述评估方法包括:
获取用户当前的马尔科夫状态;
将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
9.一种户调峰行为的评估装置,其特征在于,包括:获取模块和评估模块;
所述获取模块,用于获取用户当前的马尔科夫状态;
所述评估模块,用于将用户当前的马尔科夫状态输入到预设的评估模型中,得到用户的调峰行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111000182.9A CN113706018A (zh) | 2021-08-27 | 2021-08-27 | 一种用户调峰行为的评估模型建立方法、评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111000182.9A CN113706018A (zh) | 2021-08-27 | 2021-08-27 | 一种用户调峰行为的评估模型建立方法、评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113706018A true CN113706018A (zh) | 2021-11-26 |
Family
ID=78656433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111000182.9A Pending CN113706018A (zh) | 2021-08-27 | 2021-08-27 | 一种用户调峰行为的评估模型建立方法、评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113706018A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213151A1 (en) * | 2014-08-07 | 2017-07-27 | Okinawa Institute Of Science And Technology School Corporation | Inverse reinforcement learning by density ratio estimation |
CN109103912A (zh) * | 2018-07-18 | 2018-12-28 | 合肥工业大学 | 考虑电网调峰需求的工业园区主动配电***调度优化方法 |
CN110365057A (zh) * | 2019-08-14 | 2019-10-22 | 南方电网科学研究院有限责任公司 | 基于强化学习的分布式能源参与配电网调峰调度优化方法 |
CN111967723A (zh) * | 2020-07-24 | 2020-11-20 | 南昌大学 | 一种基于数据挖掘的用户调峰潜力分析方法 |
CN112737122A (zh) * | 2020-12-28 | 2021-04-30 | 国网重庆市电力公司电力科学研究院 | 一种基于多能互补的电网调峰控制***与方法 |
CN112952847A (zh) * | 2021-04-06 | 2021-06-11 | 合肥工业大学 | 考虑用电需求弹性的多区域主动配电***调峰优化方法 |
-
2021
- 2021-08-27 CN CN202111000182.9A patent/CN113706018A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213151A1 (en) * | 2014-08-07 | 2017-07-27 | Okinawa Institute Of Science And Technology School Corporation | Inverse reinforcement learning by density ratio estimation |
CN109103912A (zh) * | 2018-07-18 | 2018-12-28 | 合肥工业大学 | 考虑电网调峰需求的工业园区主动配电***调度优化方法 |
CN110365057A (zh) * | 2019-08-14 | 2019-10-22 | 南方电网科学研究院有限责任公司 | 基于强化学习的分布式能源参与配电网调峰调度优化方法 |
CN111967723A (zh) * | 2020-07-24 | 2020-11-20 | 南昌大学 | 一种基于数据挖掘的用户调峰潜力分析方法 |
CN112737122A (zh) * | 2020-12-28 | 2021-04-30 | 国网重庆市电力公司电力科学研究院 | 一种基于多能互补的电网调峰控制***与方法 |
CN112952847A (zh) * | 2021-04-06 | 2021-06-11 | 合肥工业大学 | 考虑用电需求弹性的多区域主动配电***调峰优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705743B (zh) | 一种基于长短期记忆神经网络的新能源消纳电量预测方法 | |
CN113610303B (zh) | 一种负荷预测方法及*** | |
CN113112077B (zh) | 基于多步预测深度强化学习算法的hvac控制*** | |
CN111680786B (zh) | 一种基于改进权重门控单元的时序预测方法 | |
CN110389820A (zh) | 一种基于v-TGRU模型进行资源预测的私有云任务调度方法 | |
CN109344895B (zh) | 一种激励型需求响应下的用户响应可靠性评估方法 | |
CN114811713B (zh) | 基于混合深度学习的二级网户间均衡供热调控方法 | |
CN112686693A (zh) | 电力现货市场边际电价预测方法、***、设备及存储介质 | |
CN109214565A (zh) | 一种适用于大电网分区调度的子区域***负荷预测方法 | |
Chen et al. | Deep reinforcement learning in a monetary model | |
CN115238167A (zh) | 兼顾负荷与社会信息的电力用户精细化画像与管理方法 | |
CN110310199B (zh) | 借贷风险预测模型的构建方法、***及借贷风险预测方法 | |
CN112488531B (zh) | 基于深度强化学习的异构柔性负荷实时调控方法和装置 | |
CN116468138A (zh) | 空调负荷预测方法、***、电子设备及计算机存储介质 | |
Chen et al. | Data-driven stochastic game with social attributes for peer-to-peer energy sharing | |
Tilmant et al. | Optimal operation of multipurpose reservoirs using flexible stochastic dynamic programming | |
CN113706018A (zh) | 一种用户调峰行为的评估模型建立方法、评估方法及装置 | |
CN110322342B (zh) | 借贷风险预测模型的构建方法、***及借贷风险预测方法 | |
CN111767991A (zh) | 一种基于深度q学习的测控资源调度方法 | |
Chen et al. | A Deep Reinforcement Learning-Based Charging Scheduling Approach with Augmented Lagrangian for Electric Vehicle | |
CN116845882A (zh) | 考虑温湿指数与耦合特性的综合能源负荷短期预测方法 | |
CN116610416A (zh) | 基于Kubernetes的负载预测型弹性伸缩***及方法 | |
CN115663914A (zh) | 一种基于深度强化学习的含风电虚拟电厂聚合调度方法 | |
CN111784019A (zh) | 电力负荷处理方法和装置 | |
CN115629576A (zh) | 非侵入式柔性负荷聚合特性辨识与优化方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |