CN117595346B

CN117595346B - 基于强化学习的充放电策略网络训练方法和储能控制方法

Info

Publication number: CN117595346B
Application number: CN202410072211.XA
Authority: CN
Inventors: 那琼澜; 李信; 邢宁哲; 王艺霏; 陈重韬; 邬小波; 曹良晶; 马跃; 彭柏; 杨峰; 娄竞; 王东升; 李坚; 吴佳; 李莉; 张海明
Original assignee: State Grid Corp of China SGCC; State Grid Jibei Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jibei Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-04-05
Anticipated expiration: 2044-01-18
Also published as: CN117595346A

Abstract

本说明书实施例提供基于强化学习的充放电策略网络训练方法和储能控制方法，包括构建充放电序贯决策模型；获取第k时间段的用电单价、用户电力负荷以及储能电池的荷电状态作为第k时间段的状态；根据第k时间段的状态、充放电序贯决策模型确定第k时间段储能电池的充放电功率动作；根据第k时间段的充放电功率动作和预先设置的奖励函数计算得到第k时间段的奖励，奖励函数包括效益奖励、退化奖励和负荷均衡奖励；利用第k时间段的奖励训练模型直至训练完成得到充放电策略网络。本方法基于强化学习构建了充放电序贯决策模型并设计了考虑了储能电池性能退化因素的奖励函数，充分利用了储能电池削峰填谷的能力，减少了电池容量损失和能源损失。

Description

基于强化学习的充放电策略网络训练方法和储能控制方法

技术领域

本说明书实施例涉及储能管控技术领域，尤其是一种基于强化学习的充放电策略网络训练方法和储能控制方法。

背景技术

随着电力供给侧结构不断调整，可再生能源接入电网的比例不断增大，使得峰谷负荷差被进一步拉大，加重了电力供应和电力需求间不匹配的问题。对此，用户侧储能技术被提出，其通过将多余的电力在用户侧存储起来，在需要的时候再释放出来，从而实现能源的高效利用。

用户侧储能需通过储能电池实现，储能电池持续大功率充放电将会导致其容量、性能退化。现有的方法未考虑储能电池的性能退化和时变用户电力负荷下用户侧储能装置的实时充放电控制，用户侧储能的运行控制有待进一步优化。

发明内容

针对现有技术的上述问题，本说明书实施例的目的在于，提供一种基于强化学习的充放电策略网络训练方法和储能控制方法，以解决现有技术中由于未考虑电池性能退化和时变用户电力负荷的因素导致用户侧储能控制不准确和能源浪费的问题。

为了解决上述技术问题，本说明书实施例的具体技术方案如下：

第一方面，本说明书实施例提供一种基于强化学习的充放电策略网络训练方法，包括：

构建用户侧储能电池的充放电序贯决策模型；

获取第k时间段的用电单价、用户电力负荷以及储能电池的荷电状态作为所述储能电池第k时间段的状态；

根据所述第k时间段的状态、所述充放电序贯决策模型，确定第k时间段储能电池的充放电功率动作；

根据第k时间段的充放电功率动作和预先设置的奖励函数，计算得到第k时间段的奖励，所述奖励函数包括考虑用电单价的效益奖励、考虑储能电池容量退化的退化奖励和负荷均衡奖励；

利用所述第k时间段的奖励迭代训练所述充放电序贯决策模型，直至训练完成得到充放电策略网络。

具体地，利用所述第k时间段的奖励迭代训练所述充放电序贯决策模型，直至训练完成得到充放电策略网络，包括：

根据所述第k时间段的奖励训练所述充放电序贯决策模型，得到第k+1时间段的状态；

根据所述第k+1时间段的状态和所述充放电序贯决策模型，确定第k+1时间段储能电池的充放电功率动作；

根据第k+1时间段储能电池的充放电功率动作和预先设置的奖励函数，计算得到第k+1时间段的奖励；

判断所述第k+1时间段的奖励是否满足预定条件；

若是，则将所述充放电序贯决策模型输出作为所述充放电策略网络；

若否，则重复以上步骤对所述充放电序贯决策模型进行迭代更新。

优选地，所述奖励函数为：

r _k= ω ₁ r _b(k) + ω ₂ r _s(k) + ω ₃ r _a(k)

其中，r _k为第k时间段的奖励；ω ₁、ω ₂和ω ₃为权重因子；r _b(k)为第k时间段的效益奖励；r _s(k)为第k时间段的负荷均衡奖励；r _a(k)为第k时间段的储能电池退化奖励；

所述效益奖励为：

其中，P _demand(i)为第i时间段的用户电力负荷；T _d为时间段的时间间隔；e _i为第i时间段的用电单价；P _b(i)为第i时间段的储能电池充放电功率；N为时间段的数量；

所述负荷均衡奖励为：

r _s(k) = P _b(k) - P _b(k-1)

其中，P _b(k)和P _b(k-1)分别为第k时间段和第k-1时间段的储能电池充放电功率；

所述储能电池退化奖励为：

其中，M为预指数因子；C _rate为充放电速率；σ为幂指数；R为通用气体常数；T为绝对温度；A(C _rate)为安时吞吐量。

具体地，所述安时吞吐量为：

其中，t _k为第k时间段的时刻；τ表示时间；i(τ)为第τ时刻的电流；Q _b为储能电池的额定容量。

具体地，第k时间段的储能电池的荷电状态通过如下充放电模型得到：

其中，SOC(k)为第k个时间段储能电池的荷电状态；SOC ₀为初始时间段储能电池的荷电状态；P _b(i)为第i时间段的储能电池充放电功率，当储能电池放电时，P _b(i)>0，当储能电池充电时，P _b(i)<0；T _d为各时间段的时间间隔；V _b为储能电池的开路电压；Q _b为储能电池的额定容量。

进一步地，所述第k时间段用户侧储能电池的充放电功率动作位于动作集合中，所述动作集合为：

其中，A为动作集合；P _b为用户用电负荷；和/>分别为最大充电功率和最大放电功率；N _a为动作集合中的动作数量。

更进一步地，判断所述第k+1时间段的奖励是否满足预定条件，为：

判断所述第k+1时间段的奖励和与第k+1时间段顺序相邻的其他多个时间段的奖励是否在预设的差异范围内，且所述第k+1时间段的奖励大于其他多个时间段的奖励。

第二方面，本说明书实施例提供一种储能控制方法，所述储能控制方法应用如上述技术方案提供的基于强化学习的充放电策略网络训练方法训练得到的充放电策略网络，所述储能控制方法包括：

获取当前时间段的用电单价、用户电力负荷以及储能电池的荷电状态；

将当前时间段的用电单价、用户电力负荷以及储能电池的荷电状态输入至所述充放电策略网络中，获得所述充放电策略网络输出的当前时间段的用户侧储能电池的充放电功率。

第三方面，本说明书实施例提供一种基于强化学习的充放电策略网络训练装置，包括：

模型构建模块，用于构建用户侧储能电池的充放电序贯决策模型；

状态获取模块，用于获取第k时间段的用电单价、用户电力负荷以及储能电池的荷电状态作为所述充放电序贯决策模型第k时间段的状态；

充放电功率动作确定模块，用于根据所述第k时间段的状态、所述充放电序贯决策模型，确定第k时间段储能电池的充放电功率动作；

奖励计算模块，用于根据第k时间段的充放电功率动作和预先设置的奖励函数，计算得到第k时间段的奖励，所述奖励函数包括考虑用电单价的效益奖励、考虑储能电池容量退化的退化奖励和负荷均衡奖励；

训练模块，用于利用所述第k时间段的奖励迭代训练所述充放电序贯决策模型，直至训练完成得到充放电策略网络。

第四方面，本说明书实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述技术方案提供的基于强化学习的充放电策略网络训练方法或储能控制方法。

采用上述技术方案，本说明书实施例提供的一种基于强化学习的充放电策略网络训练方法和储能控制方法，基于强化学习的方法构建了用户侧储能电池的充放电序贯决策模型，设计了效益奖励、负荷均衡奖励和考虑了用户侧储能电池在运行过程中性能退化因素的储能电池退化奖励，充分利用了用户侧储能的削峰填谷能力，降低了用电负荷方差和电池容量损失，提高了供电经济性，减少了能源的损失。

为让本说明书实施例的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本说明书实施例提供的一种基于强化学习的充放电策略网络训练方法的步骤示意图；

图2示出了对充放电序贯决策模型进行迭代训练的步骤示意图；

图3示出了本说明书实施例提供的一种储能控制方法的步骤示意图；

图4示出了本说明书实施例提供的一种基于强化学习的充放电策略网络训练装置的结构示意图；

图5示出了本说明书实施例提供的一种储能控制装置的步骤示意图；

图6示出了本说明书实施例提供的一种计算机设备的结构示意图。

附图符号说明：

41、模型构建模块；

42、状态获取模块；

43、充放电功率动作确定模块；

44、奖励计算模块；

45、训练模块；

51、获取模块；

52、充放电功率获得模块；

602、计算机设备；

604、处理器；

606、存储器；

608、驱动机构；

610、输入/输出模块；

612、输入设备；

614、输出设备；

616、呈现设备；

618、图形用户接口；

620、网络接口；

622、通信链路；

624、通信总线。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

需要说明的是，本说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本说明书的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书实施例提供了一种基于强化学习的充放电策略网络训练方法和储能控制方法，能够解决现有技术中由于未考虑电池性能退化和用户电力负荷时变因素导致用户侧储能控制不准确、进而导致能源浪费的问题。图1是本说明书实施例提供的一种基于强化学习的充放电策略网络训练方法的步骤示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图1所示，基于强化学习的充放电策略网络训练方法方法可以包括：

S110：构建用户侧储能电池的充放电序贯决策模型。

S120：获取第k时间段的用电单价、用户电力负荷以及储能电池的荷电状态作为所述储能电池第k时间段的状态。

记第k时间段的用电单价为e _i，为预先设置得到；记用户电力负荷为P _demand(k)，为由用户侧需求确定；以及，记储能电池的荷电状态为SOC(k)，其提供如下充放电模型得到：

其中，SOC(k)为第k个时间段储能电池的荷电状态；SOC ₀为初始时间段储能电池的荷电状态，可指定为每天的某个同一时刻（例如，每天的零时）为初始时刻；P _b(i)为第i时间段的储能电池充放电功率，当储能电池放电时，P _b(i)>0，当储能电池充电时，P _b(i)<0；T _d为各时间段的时间间隔；V _b为储能电池的开路电压；Q _b为储能电池的额定容量。

通过建立如上述公式所述的储能电池的充放电模型，能够更加准确的计算各时间段储能电池的荷电状态。

S130：根据所述第k时间段的状态、所述充放电序贯决策模型，确定第k时间段储能电池的充放电功率动作。

S140：根据第k时间段的充放电功率动作和预先设置的奖励函数，计算得到第k时间段的奖励，所述奖励函数包括考虑用电单价的效益奖励、考虑储能电池容量退化的退化奖励和负荷均衡奖励。

S150：利用所述第k时间段的奖励迭代训练所述充放电序贯决策模型，直至训练完成得到充放电策略网络。

本说明书实施例提供的基于强化学习的充放电策略网络训练方法，考虑了用户侧储能电池在运行过程中性能退化因素、基于强化学习的方法构建了用户侧储能电池的充放电序贯决策模型，通过设计效益奖励、负荷均衡奖励和储能电池退化奖励，充分利用用户侧储能的削峰填谷能力，在用电低谷、低电价的时间段内向储能电池充电，在用电高峰、高电价的时间段内利用储能电池放电，降低了用电负荷方差和电池容量损失，提高了供电经济性，减少了能源的损失。

具体地，序贯决策过程可表示为：

(…, s _k, a _k, r _k, s _k+1, a _k+1, r _k+1…)

其中，s _k，a _k和r _k分别为第k时间段储能电池的状态、动作和奖励；s _k+1，a _k+1和r _k+1分别为第k+1时间段储能电池的状态、动作和奖励。

即如图2所示，步骤S150：利用所述第k时间段的奖励迭代训练所述充放电序贯决策模型，直至训练完成得到充放电策略网络，具体为：

S210：根据所述第k时间段的奖励，更新所述储能电池在第k+1时间段的状态。

即利用奖励r _k，更新得到储能电池的状态s _k+1。

S220：根据所述第k+1时间段的状态和所述充放电序贯决策模型，确定第k+1时间段储能电池的充放电功率动作。

即将更新后的状态s _k+1输入至充放电序贯决策模型中，得到储能电池在第k+1时刻采取的充放电功率动作a _k+1。

S230：根据第k+1时间段储能电池的充放电功率动作和预先设置的奖励函数，计算得到第k+1时间段的奖励。

即根据充放电功率动作a _k+1和充放电策略网络，计算得到r _k+1。

S240：判断所述第k+1时间段的奖励是否满足预定条件。

在一些具体的实施例中，判断所述第k+1时间段的奖励是否满足预定条件为：

判断所述第k+1时间段的奖励和与该第k+1时间段顺序相邻的其他多个时间段的奖励是否在预设的差异范围内，且所述第k+1时间段的奖励大于其他多个时间段的奖励。即判断在对充放电序贯决策模型多次迭代进行强化学习后，其奖励是否达到最大且稳定。

S250：若是，则将所述充放电序贯决策模型输出作为所述充放电策略网络。

示例性的，判断n个顺序相邻时间段中第n个时间段的奖励是否为这n个时间段奖励中的最大值；且这n个时间段的奖励之间的差值在预设的差异阈值范围内，若是，则表明奖励已达到稳定，且充放电序贯决策模型已训练完成。若再次对充放电序贯决策模型进行迭代训练并得到了第n+1个时间段的奖励，该第n+1个时间段的奖励小于第n个时间段的奖励但第n+1个时间段的奖励与第n个时间段的奖励仍在预设的差异阈值范围内，则可将第n个时间段对应的充放电序贯决策模型输出为充放电策略网络。

若否，则跳转至步骤S210以重复以上步骤，对所述充放电序贯决策模型进行迭代更新。

即表明充放电序贯决策模型未训练完成，则利用奖励r _k+1，更新得到状态s _k+2；进而将状态s _k+2再次输入至充放电序贯决策模型，确定储能电池在第k+2时刻采取的充放电功率动作a _k+2并计算得到奖励r _k+2。再次判断奖励r _k+2是否满足预定条件，如此迭代直至充放电序贯决策模型更新完成。

需要说明的是，在强化学习过程中，当奖励大于预定值（比如零值）时，表明该奖励对充放电策略网络的更新起到正向引导的作用；当奖励小于等于预定值时，则表明该奖励对充放电策略网络的更新起到反向指引的作用，从而逐步引导充放电策略网络的学习。

本说明书实施例中，强化学习的状态可表示为：

s _k={P _demand(k),SOC(k), e _k}

其中，s _k为第k时间段的状态；P _demand(k)为第k时间段的用户电力负荷；SOC(k)为第k时间段储能电池的荷电状态；e _k为第k时间段的用电单价。

强化学习的动作集为：

其中，A为动作集合；和/>分别为最大充电功率和最大放电功率；N _a为动作集合中的动作数量。

强化学习的奖励为：

r _k= ω ₁ r _b(k) + ω ₂ r _s(k) + ω ₃ r _a(k)

其中，r _k为第k时间段的奖励；ω ₁，ω ₂和ω ₃为权重因子；r _b(k)为第k时间段的效益奖励；r _s(k)为第k时间段的负荷均衡奖励；r _a(k)为第k时间段的储能电池退化奖励。

在一些优选的实施例中，所述效益奖励可以为：

其中，P _demand(i)为第i时间段的用户电力负荷；T _d为时间段的时间间隔；e _i为第i时间段的用电单价；P _b(i)为第i时间段的储能电池充放电功率；N为时间段的数量。时间段为将一天中的24小时均匀划分得到，可选的，N的取值可以为24至48，即每个时间段的时间间隔T _d可以为1小时至0.5小时。通过选择合适的时间段数量和时间段的时长，可以兼顾充放电序贯决策模型迭代更新时的工作量和迭代更新的效率。

由上述效益奖励的表达式可知，所述效益奖励为末端奖励，只有划分得到的一天中的最后一个时间段其效益奖励才不为零，而最后一个时间段的效益奖励又在它之前的其他所有时间段相关。这是考虑了效益奖励的滞后性，在第N个时间段之前的各个时间段，储能电池所执行的充放电功率动作带来的奖励不是即时的作用于紧接于其后的时间段。通过设计如上述公式所示的效率奖励，有利于提高利用效率对充放电序贯决策模型进行迭代训练的准确性。

所述负荷均衡奖励为：

r _s(k) = P _b(k) - P _b(k-1)

其中，P _b(k)和P _b(k-1)分别为第k时间段和第k-1时间段的储能电池充放电功率。

通过设计如上公式所述的负荷均衡奖励，能够充分考虑用户侧储能的削峰填谷能力，使得在用电低谷、低电价的时间段内向储能电池充电，在用电高峰、高电价的时间段内利用储能电池放电，降低了用电负荷方差。

进一步地，所述储能电池退化奖励为：

所述安时吞吐量为：

其中，t _k为第k时间段的时刻；τ表示时间；i(τ)为第τ时刻的电流，可通过测量得到，并与对应时间段的储能电池充放电功率动作相关；Q _b为储能电池的额定容量。

通过设计如上述公式所述的储能电池退化奖励，考虑了储能电池性能退化的因素，性能退化即为电池容量随着其持续大功率充放电工作而减少，以期望通过强化学习得到能够减缓电池性能退化的充放电控制策略。最终，本说明书实施例通过设计考虑了用电单价的效益奖励、考虑了储能电池容量退化的退化奖励和负荷均衡奖励的奖励函数，可构建得到构建更加准确的用户侧储能电池的充放电序贯决策模型，最终得到充放电策略网络可对用户侧储能电池的各时间段充放电功率进行更加准确地控制，降低了电池容量损失，提高了供电经济性，减少了能源的浪费。

如图3所示，本说明书实施例还提供一种储能控制方法，所述储能控制方法应用如上述技术方案提供的一种基于强化学习的充放电策略网络训练方法训练得到的充放电策略网络，所述储能控制方法包括：

S310：获取当前时间段的用电单价、用户电力负荷以及储能电池的荷电状态。

S320：将当前时间段的用电单价、用户电力负荷以及储能电池的荷电状态输入至所述充放电策略网络中，获得所述充放电策略网络输出的当前时间段的用户侧储能电池的充放电功率。

即将当前时间段的用户电力负荷、储能电池的荷电状态和用电单价作为充放电策略网络的输入，充放电策略网络输出当前时间段的用户侧储能装置的最优充放电功率。

基于上述所述的一种基于强化学习的充放电策略网络训练方法，本说明书实施例还对应提供一种基于强化学习的充放电策略网络训练装置；以及，基于上述所述的一种储能控制方法，本说明书实施例还对应提供一种储能控制装置。所提供的装置可以包括使用了本说明书实施例所述方法的***（包括分布式***）、软件（应用）、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

如图4所示，本说明书实施例提供的一种基于强化学习的充放电策略网络训练装置，包括：

模型构建模块41，用于构建用户侧储能电池的充放电序贯决策模型；

状态获取模块42，用于获取第k时间段的用电单价、用户电力负荷以及储能电池的荷电状态作为所述充放电序贯决策模型第k时间段的状态；

充放电功率动作确定模块43，用于根据所述第k时间段的状态、所述充放电序贯决策模型，确定第k时间段储能电池的充放电功率动作；

奖励计算模块44，用于根据第k时间段的充放电功率动作和预先设置的奖励函数，计算得到第k时间段的奖励，所述奖励函数包括考虑用电单价的效益奖励、考虑储能电池容量退化的退化奖励和负荷均衡奖励；

训练模块45，用于利用所述第k时间段的奖励迭代训练所述充放电序贯决策模型，直至训练完成得到充放电策略网络。

如图5所示，本说明书实施例提供的储能控制装置，包括：

获取模块51，用于获取当前时间段的用电单价、用户电力负荷以及储能电池的荷电状态；

充放电功率获得模块52，用于将所述用电单价、用户电力负荷以及储能电池的荷电状态输入至策略网络，获得当前时间段的用户侧储能电池的充放电功率；所述策略网络由用户侧储能电池的充放电序贯决策模型基于强化学习方法训练得到。

如图6所示，为本说明书实施例提供的一种计算机设备，本说明书中的基于强化学习的充放电策略网络训练装置或储能控制装置可以为本实施例中的计算机设备，执行本说明书的上述方法。所述计算机设备602可以包括一个或多个处理器604，诸如一个或多个中央处理单元（CPU），每个处理单元可以实现一个或多个硬件线程。计算机设备602还可以包括任何存储器606，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器606可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备602的固定或可移除部件。在一种情况下，当处理器604执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备602可以执行相关联指令的任一操作。计算机设备602还包括用于与任何存储器交互的一个或多个驱动机构608，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备602还可以包括输入/输出模块610（I/O），其用于接收各种输入（经由输入设备612）和用于提供各种输出（经由输出设备614）。一个具体输出机构可以包括呈现设备616和相关联的图形用户接口（GUI）618。在其他实施例中，还可以不包括输入/输出模块610（I/O）、输入设备612以及输出设备614，仅作为网络中的一台计算机设备。计算机设备602还可以包括一个或多个网络接口620，其用于经由一个或多个通信链路622与其他设备交换数据。一个或多个通信总线624将上文所描述的部件耦合在一起。

通信链路622可以以任何方式实现，例如，通过局域网、广域网（例如，因特网）、点对点连接等、或其任何组合。通信链路622可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于如图1至图3所示的方法，本说明书实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本说明书实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如图1至图3所示的方法。

本说明书实施例还提供一种计算机程序产品，包括至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如图1至图3所示的方法。

应理解，在本说明书的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本说明书实施例的实施过程构成任何限定。

还应理解，在本说明书实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本说明书中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本说明书中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本说明书的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本说明书所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本说明书实施例方案的目的。

另外，在本说明书各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本说明书各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中应用了具体实施例对本说明书的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本说明书的方法及其核心思想；同时，对于本领域的一般技术人员，依据本说明书的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本说明书的限制。

Claims

1.一种基于强化学习的充放电策略网络训练方法，其特征在于，包括：

构建用户侧储能电池的充放电序贯决策模型；

根据第k时间段的充放电功率动作和预先设置的奖励函数，计算得到第k时间段的奖励，所述奖励函数包括考虑用电单价的效益奖励、考虑储能电池容量退化的退化奖励和负荷均衡奖励，所述奖励函数为：

r _k=ω ₁ r _b(k)+ω ₂ r _s(k)+ω ₃ r _a(k)

所述效益奖励为：

其中，P _demand（i）为第i时间段的用户电力负荷；T _d为时间段的时间间隔；e _i为第i时间段的用电单价；P _b(i)为第i时间段的储能电池充放电功率；N为时间段的数量；

所述负荷均衡奖励为：

r _s(k)=P _b(k)-P _b(k-1)

所述储能电池退化奖励为：

其中，M为预指数因子；C _rate为充放电速率；σ为幂指数；R为通用气体常数；T为绝对温度；A(C _rate)为安时吞吐量；

2.根据权利要求1所述的方法，其特征在于，利用所述第k时间段的奖励迭代训练所述充放电序贯决策模型，直至训练完成得到充放电策略网络，进一步为：

判断所述第k+1时间段的奖励是否满足预定条件；

3.根据权利要求1所述的方法，其特征在于，所述安时吞吐量为：

4.根据权利要求1所述的方法，其特征在于，第k时间段的储能电池的荷电状态通过如下充放电模型得到：

5.根据权利要求1所述的方法，其特征在于，所述第k时间段用户侧储能电池的充放电功率动作位于动作集合中，所述动作集合为：

6.根据权利要求2所述的方法，其特征在于，判断所述第k+1时间段的奖励是否满足预定条件，进一步为：

7.一种储能控制方法，其特征在于，所述储能控制方法应用如权利要求1至6任意一项所述的基于强化学习的充放电策略网络训练方法训练得到的充放电策略网络，所述储能控制方法包括：

8.一种基于强化学习的充放电策略网络训练装置，其特征在于，包括：

奖励计算模块，用于根据第k时间段的充放电功率动作和预先设置的奖励函数，计算得到第k时间段的奖励，所述奖励函数包括考虑用电单价的效益奖励、考虑储能电池容量退化的退化奖励和负荷均衡奖励，r _k=ω ₁ r _b(k)+ω ₂ r _s(k)+ω ₃ r _a(k)

所述效益奖励为：

所述负荷均衡奖励为：

r _s(k)=P _b(k)-P _b(k-1)

其中， P _b(k)和P _b(k-1)分别为第k时间段和第k-1时间段的储能电池充放电功率；

所述储能电池退化奖励为：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的方法。