CN113706018A

CN113706018A - 一种用户调峰行为的评估模型建立方法、评估方法及装置

Info

Publication number: CN113706018A
Application number: CN202111000182.9A
Authority: CN
Inventors: 刘嘉宁; 何宇俊; 王可; 曾凯文; 段秦尉; 刘沅昆; 林斌; 苏卓
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-26

Abstract

本发明属于电力***的需求响应技术领域，公开了一种用户调峰行为的评估模型建立方法、评估方法及装置，建立方法包括：获取用户数据，根据用户数据构建不含回报函数的用户调峰行为的三元组马尔科夫决策过程和用户调峰行为的第一示例轨迹；对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数，根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数；构建四元组马尔科夫决策过程并得到用户调峰行为的第二示例轨迹；对第二示例轨迹进行学习得到用户调峰行为的评估模型。有益效果：本发明可以使调度机构能够在不了解用户负荷的解析化模型情况下，能够采用数据驱动方式准确估计用户侧的调峰行为。

Description

一种用户调峰行为的评估模型建立方法、评估方法及装置

技术领域

本发明涉及电力***的需求响应技术领域，特别是涉及一种用户调峰行为的评估模型建立方法、评估方法及装置。

背景技术

调峰辅助服务的本质是通过短时电力调节使发电出力匹配负荷的变化，实现电力电量的平衡。随着新能源的大规模并网，电力***调节手段不足的问题越来越突出，原有的以火电为主的调峰辅助服务已不能满足电网运行需求。近年来，以用户资源为主的第三方主体也正越来越多地参与到电力调峰辅助服务中，可以为电网提供削峰和填谷等不同的调峰辅助服务。

与火电机组不同的是，用户资源参与调峰时，其负荷的调峰模型更加复杂，这是因为一方面负荷需求很难与火电机组一样建立解析化的经济运行模型，另一方面用户负荷还具有明显的时域耦合性，调峰持续的时长、已完成的调峰里程量都会影响用户的用电情况和可调峰潜力，因此必须考虑用户资源的内部状态变化。

目前，常规的统计模型和数据驱动方法更多地是从用户调峰的表象数据来预测调峰行为，对于用户调峰行为的时域相关性以及用户行为的内在决策机理缺乏足够考虑，无法根据用户的实时状态来动态估计用户的调峰行为。

发明内容

本发明的目的是：提供一种用户调峰行为的评估模型建立方法、评估方法及装置，可以根据用户的实时状态来动态估计用户的调峰行为，从而更好地改善电力负荷、促进电力***经济运行。

为了实现上述目的，本发明提供了一种用户调峰行为的评估模型建立方法，包括：

获取用户数据，所述用户数据包括：实际负荷数据、基线负荷数据和调峰价格分时数据。

根据用户数据构建用户调峰行为的三元组马尔科夫决策过程，并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹；所述三元组马尔科夫决策过程包括：用户在t时段的马尔科夫状态、用户调峰行为和t+1时段转移的状态。

根据用户调峰行为获取多个有效特征函数，对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数，根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数，所述回报函数为多个有效特征函数的线性映射。

根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程，根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹。

对第二示例轨迹进行学习得到用户调峰行为的评估模型。

进一步的，所述根据用户数据构建三元组马尔科夫决策过程，并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹，具体为：

设用户i在t时段的实际负荷为

基线负荷为

调峰价格分时数据为

调峰负荷为

其中，

构建用户调峰行为的三元组马尔科夫决策过程d_t＝<s_t,a_t,s′_t>，其中，s_t代表用户在t时段的马尔科夫状态，a_t代表用户的调峰行为，s′_t代表t+1时段转移的状态；其中，所述s_t包括当前时段的调峰价格

用户的基线负荷

用户过去24小时的调峰行为

令

并且假设用户的状态空间为S_i，即

用户的调峰行为具体为调峰负荷，即

且

A_i为用户i的调峰行为的行动空间。

根据三元组马尔科夫决策过程得到用户i调峰行为的第一示例轨迹，所述第一示例轨迹记为τ_m，所述τ_m的具体表示如下：

其中，m＝1，2，…，M，m代表轨迹的条数，T代表该轨迹的总时长。

进一步的，所述根据用户调峰行为获取多个有效特征函数，具体为：

根据用户已经进行的调峰行为和进行调峰行为的调峰收益构造有效特征函数，所述有效特征函数包括：当前时段用户的调峰收益

用户的最大可调峰容量

用户在过去24小时已完成的调峰里程量

和用户进行有效调峰的已持续时间

所述有效特征函数的具体表达式如下：

进一步的，所述对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数，根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数，所述回报函数为多个有效特征函数的线性映射，具体为：

设所述

的权重参数为θ₁，所述

的权重参数为θ₂，所述

的权重参数为θ₃，所述

的权重参数为θ₄。

根据回报函数为有效特征函数的线性映射可以得到回报函数，所述回报函数记为

所述

具体为：

其中，

代表有效特征函数，θ＝[θ₁,θ₂,θ₃,θ₄]代表各有效特征函数的权重参数。

定义特征期望f(π)为有效特征函数在某一条第一示例轨迹τ_m中的累积期望，如下所示：

其中，π代表用户选择的策略，γ代表未来时段回报的衰减系数；

由M条用户的调峰行为的第一示例轨迹，得到特征期望的经验值，具体为：

其中，

代表第m条用户调的峰行为第一示例轨迹的特征期望；

当回报函数的权重参数为θ，多条第一示例轨迹进行强化学习训练得到的特征期望的总值与多条第一示例轨迹数据的特征期望的经验值相等时，确定训练的模拟模型与用户具有相同的决策偏好，具体形式如下：

其中，Pr(τ_m)代表各个行为轨迹τ_m的概率；

当回报函数的权重参数为θ，轨迹出现概率与回报函数的值呈指数关系，如下所示：

其中，s_j代表属于第一示例轨迹τ_m中的某个状态，Z(θ)为使得总概率归一化的配分函数，表达式如下：

基于最大熵的优化模型可以表示为：

将其表示拉格朗日松弛可得到：

其中，λ₁和λ₀为拉格朗日松弛条件，通过次梯度法可以对

求解并得到θ。

进一步的，所述根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程，根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹，具体为：

将回报函数添加到三元组马尔科夫决策过程，得到四元组的马尔科夫决策过程d_t＝<s_t,a_t,r_t,s′t>；

根据四元组马尔科夫决策过程得到用户i调峰行为的第二示例轨迹，所述第二示例轨迹记为τ′_m，所述τ′_m的具体表示如下：

进一步的，对第二示例轨迹进行学习得到用户调峰行为的评估模型，具体为：

构造智能体对第二示例轨迹进行学习，所述智能体学习的目标是在每个状态

下通过优化

来最大限度提高预期收益，预期收益为

定义以下Q函数：

其中，Q_π(s,a)表示在给定的某个策略π下，马尔科夫状态s和调峰行为a的预期收益；策略π的具体内涵是当输入为马尔科夫状态s时，输出某个调峰行为a的概率分布π(s,a)；

最优的策略是能够使得Q_π(s,a)函数满足以下贝尔曼方程：

根据第二示例轨迹训练Q函数，得到用户调峰行为的评估模型。

进一步的，所述智能体包括：Q学习、Sarsa学习和深度Q网络。

本发明还公开了一种用户调峰行为的评估方法，应用上述的评估模型建立方法建立的评估模型对用户的调峰行为进行评估，所述评估方法包括：

获取用户当前的马尔科夫状态。

将用户当前的马尔科夫状态输入到预设的评估模型中，得到用户的调峰行为。

本发明还公开了一种户调峰行为的评估装置，包括：获取模块和评估模块。

所述获取模块，用于获取用户当前的马尔科夫状态。

所述评估模块，用于将用户当前的马尔科夫状态输入到预设的评估模型中，得到用户的调峰行为。

本发明公开的一种用户调峰行为的评估模型建立方法、评估方法及装置与现有技术相比，其有益效果在于：本发明可应用在电力***需求侧响应领域，使得调度机构能够在不了解用户负荷的解析化模型情况下，能够采用数据驱动方式准确估计用户侧的调峰行为，根据用户不同时刻的马尔科夫状态评估用户接下来的调峰行为，从而为用户侧参与电力辅助服务提供准确的估计手段，对于缓解供需平衡和促进新能源消纳等方面都具有应用价值。

附图说明

图1是本发明用户调峰行为的评估模型建立方法的流程示意图；

图2是本发明一种户调峰行为的评估装置的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1：

参照附图1，本发明公开了一种用户调峰行为的评估模型建立方法，主要包括如下步骤：

步骤S1，获取用户数据，所述用户数据包括：实际负荷数据、基线负荷数据和调峰价格分时数据。

步骤S2，根据用户数据构建用户调峰行为的三元组马尔科夫决策过程，并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹；所述三元组马尔科夫决策过程包括：用户在t时段的马尔科夫状态、用户调峰行为和t+1时段转移的状态。

步骤S3，根据用户调峰行为获取多个有效特征函数，对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数，根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数，所述回报函数为多个有效特征函数的线性映射。

步骤S4，根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程，根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹。

步骤S5，对第二示例轨迹进行学习得到用户调峰行为的评估模型。

在步骤S1和步骤S2中，获取和使用的用户数据相同。设用户i在t时段的实际负荷为

基线负荷为

调峰价格分时数据为

调峰负荷为

其中，

在本实施例中，

为正代表填谷负荷，为负代表削峰负荷。设调峰价格分时数据为

即t时刻的调峰辅助服务补偿价格。当需要用户参与调峰时，用户对自身的用电量进行调节，进行填谷或削峰。本方法可应用在用户削峰行为和用户填谷行为的估计上。

在本实施例中，基线负荷采用历史数据测量，一般选择若干相同类型日的历史平均负荷作为基线负荷。

本领域技术人员知晓，马尔科夫决策过程为一般为的四元组形式：d_t＝<s_t,a_t,r_t,s′_t>，其中，s_t代表用户t时段的马尔科夫状态，a_t代表用户调峰行为，r_t代表回报函数，s′_t代表下一时段转移的状态。其中，用户的回报函数代表用户调峰行为的奖励和惩罚，例如用户从调峰中获得的补偿收益，用户调峰行为对自身生产生活的不利影响等等。

但是如果没有对用户侧资源的完整建模，那么无法直接从用户的负荷数据中得到回报函数。若可以建立用户侧的内部模型，那么可以知道用户调峰行为的目标函数和约束条件，然而现实中这些用户内部模型架构以及模型参数都是难以获取的，因此需要对回报函数的获取方法进行改进，从其它途径得到回报函数。

为了得到回报函数，本申请先建立了三元组的马尔科夫决策过程。在步骤S2中，所述根据用户数据构建三元组马尔科夫决策过程，并根据三元组马尔科夫决策过程得到用户调峰行为的第一示例轨迹，具体为：

设用户i在t时段的实际负荷为

基线负荷为

调峰价格分时数据为

调峰负荷为

其中，

构建用户调峰行为的三元组马尔科夫决策过程d_t＝<s_t,a_t,s′_t>，其中，s_t代表用户在t时段的马尔科夫状态，a_t代表用户的调峰行为，s′_t代表下一时段转移的状态；其中，所述s_t包括当前时段的调峰价格

用户的基线负荷

用户过去24小时的调峰行为

令

并且假设用户的状态空间为S_i，即

用户的调峰行为具体为调峰负荷，即

且

A_i为用户i的调峰行为的行动空间。

在本实施例中，选取了用户过去24小时的调峰行为作为与当前马尔科夫状态有关的调峰行为。可以根据实际需要进行选取，不影响用户调峰行为的马尔科夫性质。

在步骤S3中，所述根据用户调峰行为获取多个有效特征函数，具体为：

用户的最大可调峰容量

用户在过去24小时已完成的调峰里程量

和用户进行有效调峰的已持续时间

所述有效特征函数的具体表达式如下：

在本实施例中，设定用户的调峰(填谷)行为必须超过基线负荷的10％才有效，否则视为无效响应，即用户并没有真正去进行调峰行为。

在本实施例中，不同的有效特征函数代表用户在调峰决策时考虑的内在机理，例如

代表用户考虑调峰行为的经济效益，

等代表用户当前或已发生的调峰行为对其用电行为的影响。

在本实施例中，采用基于最大熵的逆向强化学习方法计算有效特征函数的权重参数：最大熵原理指的是对一个随机事件的概率分布进行预测时，预测应当满足全部已知条件，并且不能对未知情况做任何主观假设。在此情况下，概率分布最均匀，预测风险最小，因为这时概率的信息熵最大，所以被称为最大熵模型。

在步骤S3中，所述对第一示例轨迹逆向学习获取与多个有效特征函数相对应的权重参数，根据所述多个有效特征函数和与多个有效特征函数相对应的权重参数构建回报函数，所述回报函数为多个有效特征函数的线性映射，具体为：

所述

的权重参数为θ₁，所述

的权重参数为θ₂，所述

的权重参数为θ₃，所述

的权重参数为θ₄；

所述

具体为：

其中，

代表有效特征函数，θ＝[θ₁,θ₂,θ₃,θ₄]代表各有效特征函数的权重参数，对于不同用户θ是未知的。

其中，π代表用户选择的策略，γ代表未来时段回报的衰减系数。

其中，

代表第m条用户调的峰行为第一示例轨迹的特征期望；

当且仅当回报函数的权重参数为θ，根据多条第一示例轨迹进行强化学习训练得到的特征期望的总值与多条第一示例轨迹数据的特征期望的经验值相等时，确定训练的模拟模型与用户具有相同的决策偏好，具体形式如下：

其中，Pr(τ_m)代表各个行为轨迹τ_m的概率；

在于模拟模型具有相同θ的情况下，轨迹出现概率与回报函数的值呈指数关系，如下所示：

基于最大熵的优化模型可以表示为：

将其表示拉格朗日松弛可得到：

其中，λ₁和λ₀为拉格朗日松弛条件，通过次梯度法可以对

求解并得到θ。

在本实施例中，根据求解得到的θ和有效特征函数可以得到回报函数。

在步骤S4中，所述根据回报函数和三元组马尔科夫决策过程得到四元组的马尔科夫决策过程，根据四元组马尔科夫决策过程得到用户调峰行为的第二示例轨迹，具体为：

将回报函数添加到三元组马尔科夫决策过程，得到四元组的马尔科夫决策过程d_t＝<s_t,a_t,r_t,s′_t>；

在步骤S5中，所述对第二示例轨迹进行学习得到用户调峰行为的评估模型，具体为：

构造智能体对第二示例轨迹进行学习，智能体学习的目标是在每个状态

下通过优化

来最大限度提高预期收益，预期收益为

定义以下Q函数：

最优的策略是能够使得Q_π(s,a)函数满足以下贝尔曼方程：

在本实施例中，所述智能体包括：Q学习、Sarsa学习和深度Q网络。

在本实施例中，需要说明的是，训练Q函数必须要提供r，否则算法难以收敛，而直接从用户的调峰行为数据是难以获得r的，这也是本发明采用逆向强化学习去获得r的意义。

以下为采用深度Q网络方法训练用户调峰评估模型的方法。

首先建立Q函数的深度神经网络模型，假设s的维度是u，a是离散变量，且a有v个可能的取值，假设模型的深度为3层，则深度神经网络模型表征的Q函数如下所示：

Q_β(s,a)＝oneshot(a)*(A₃*σ(A₂*σ(A₁*s+b₁)+b₂)+b₃)；

其中，β代表A₁、A₂、A₃、b₁、b₂和b₃等所有待训练参数，A₁、A₂和A₃是uⅹv维的参数矩阵，b₁、b₂和b₃是vⅹ1维的参数向量，σ代表激活函数，一般采用ReLU()作为激活函数，作用是为神经网络增加非线性因素。Oneshot(a)函数将a转化为形如[0 0 1 … 0]的1ⅹv维向量，其中第k个元素为1代表a的取值为第k种可能取值，其他元素则为0。

分别建立两个结构相同的Q网络，分别用Q和Q’来表示，并分别称为预测Q网络和目标Q网络，两个网络的结构完全一致，对应的权重系数分别为β和β’。

接下来将要训练Q网络的参数，设所有数据构成一个历史交易数据集，建立参数训练模型的损失函数如下：

其中，y_j表示Q网络函数的目标值，表达式如下：

其中，γ代表折现率，一般γ可以取0.95。

在第k次训练时，从历史交易数据集中抽取一个批量，包含u个样本(s_j,a_j,s′_j,r_j)，j＝1,2,…,u，将样本代入上式可以计算损失函数Loss(β)。可以看出损失函数包含每个样本的四元组数据。

采用梯度下降法更新预测Q网络的参数如下：

其中，α代表参数训练的学习率，一般取0.01。每经过一定训练次数，将预测Q网络的参数复制到目标Q网络，如下：

β′←β；

则经过若干次训练后的预测Q网络可以逼近真实的Q函数，并用来模拟用户的决策。用户决策时根据给定的s，选择令Q函数最大化的a值。

实施例2：

在实施1的基础上，本发明还公开了一种用户调峰行为的评估方法，应用实施例1的评估模型建立方法建立的评估模型对用户的调峰行为进行评估，所述评估方法包括：

获取用户当前的马尔科夫状态。

实施例3：

在实施例2的基础上，本发明还公开了一种户调峰行为的评估装置，包括：获取模块101和评估模块102。

所述获取模块101，用于获取用户当前的马尔科夫状态。

所述评估模块102，用于将用户当前的马尔科夫状态输入到预设的评估模型中，得到用户的调峰行为。

综上，本发明实施例提供一种用户调峰行为的评估模型建立方法、评估方法及装置，其有益效果在于：本发明可应用在电力***需求侧响应领域，使得调度机构能够在不了解用户负荷的解析化模型情况下，能够采用数据驱动方式准确估计用户侧的调峰行为，根据用户不同时刻的马尔科夫状态评估用户接下来的调峰行为，从而为用户侧参与电力辅助服务提供准确的估计手段，对于缓解供需平衡和促进新能源消纳等方面都具有应用价值。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。