CN117863948B

CN117863948B - 一种辅助调频的分散电动汽车充电控制方法及装置

Info

Publication number: CN117863948B
Application number: CN202410067438.5A
Authority: CN
Inventors: 赵卓立; 谭翰袁; 徐家文; 张泽翰; 卢健钊
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-06-11
Anticipated expiration: 2044-01-17
Also published as: CN117863948A

Abstract

本发明公开一种辅助调频的分散电动汽车充电控制方法及装置，包括如下步骤：获取当前的状态信息；其中，所述状态信息包括微电网的频率偏差与电动汽车的荷电状态；将所述当前的状态信息输入到决策网络模型中；其中，所述决策网络模型基于预设目标奖励函数训练得到，所述预设目标奖励函数通过所述状态信息进行构建；基于决策网络模型的输出，控制电动汽车的充电功率，同时存储本次所述充电工作经验。本发明能够在降低通信成本的同时提高电动汽车参与微电网调频控制策略的全面性。

Description

一种辅助调频的分散电动汽车充电控制方法及装置

技术领域

本发明涉及电动汽车领域，尤其涉及一种辅助调频的分散电动汽车充电控制方法及装置。

背景技术

目前，在电动汽车参与微电网调频控制的策略上存在以下缺陷：

1、现有技术在选取参与微电网调频服务的研究对象时，多数选择停靠于公共充电站中的电动汽车，忽视了利用私有充电机接入到电网中的电动汽车；

2、现有的电动汽车参与调频控制策略常采用电动汽车聚合成集群的方法，这样虽然减少了电动汽车集群的复杂度，但却容易忽视电动汽车个体的需求；

3、现有控制策略多为集中式或分布式控制，需要有良好的通信环境作为支撑，这带来了额外的通信成本，而且在通信中断时效果欠佳。

发明内容

本发明为克服上述现有技术的缺陷，提供一种辅助调频的分散电动汽车充电控制方法及装置，能够在降低通信成本的同时提高电动汽车参与微电网调频控制策略的全面性。

本发明一实施例提供一种辅助调频的分散电动汽车充电控制方法，包括如下步骤：

获取当前的状态信息；其中，所述状态信息包括微电网的频率偏差与电动汽车的荷电状态；

将所述当前的状态信息输入到最新决策网络模型中；其中，所述最新决策网络模型基于预设目标奖励函数训练得到，所述预设目标奖励函数通过所述状态信息进行构建；

基于所述最新决策网络模型的输出，控制电动汽车的充电功率，同时存储本次所述充电工作经验。

进一步的，所述预设目标奖励函数通过所述状态信息进行构建，具体包括：

根据所述微电网的频率偏差构建第一奖励函数；

根据所述电动汽车的荷电状态构建第二奖励函数；

将所述第一奖励函数与所述第二奖励函数根据预设权重系数加权相加，得到所述奖励值。

优选的，所述根据所述微电网的频率偏差构建第一奖励函数，具体包括：

设所述微电网的频率偏差为Δf，则所述第一奖励函数r₁的计算公式为：

其中，f₁、f₂、f₃分别表示微电网在正常运行、辅助控制、应急控制时的频率偏差边界，α₁、α₂、α₃分别为f₁、f₂、f₃对应的预设权重系数。

优选的，所述根据所述电动汽车的荷电状态构建第二奖励函数，具体包括：

设所述电动汽车的荷电状态为SOC，则所述第二奖励函数r₂的计算公式为：

其中，r_max为预设最大奖励值，SOC_min为预设最小荷电状态，SOC^*为预设目标荷电状态，SOC_max为预设最大荷电状态。

进一步的，所述最新决策网络模型基于预设目标奖励函数训练得到，具体包括：

初始化预测决策网络、预测价值网络、目标决策网络以及目标价值网络；

从预设经验池中随机选取充电工作经验数据，并根据预设损失函数训练所述预测价值网络；其中，所述充电工作经验数据基于采集实际运行数据与所述预设目标奖励函数计算得到；

通过软更新的方式将所述预测价值网络训练后的参数更新至所述目标价值网络；

根据参数更新后的目标价值网络，构建目标函数，并通过所述目标函数训练所述预测决策网络；

通过软更新的方式将所述预测决策网络训练后的参数更新至所述目标决策网络；

重新选取所述充电工作经验数据，并进行新一次训练，直到训练次数达到预设训练阈值后，结束训练并输出最后一次训练得到的所述目标决策网络为最新决策网络。

进一步的，所述充电工作经验数据基于采集实际运行数据与所述预设目标奖励函数计算得到，具体包括：

设所述当前的状态信息为S₁，所述参考功率为A，则当所述电动汽车根据所述参考功率完成充电后，得到充电后的状态信息S₂；

根据所述充电后的状态信息S₂，通过所述预设目标奖励函数计算奖励值R；

将[S₁,A,R,S₂]作为所述充电工作经验数据。

优选的，当所述预设经验池中的所述充电工作经验数据的数量小于预设数量阈值时，通过模拟充电工作经验数据填充所述预设经验池；其中，所述模拟充电工作经验数据的获取方式具体包括：

根据预设配置信息，建立负荷频率模型；其中，所述预设配置信息包括各个时刻的所述状态信息；

根据t时刻的所述状态信息S_t，通过所述预测决策网络计算得到t时刻的参考功率A_t；

根据所述t时刻的参考功率A_t，通过所述负荷频率模型仿真得到t+1时刻的所述状态信息S_t+1，并根据所述t+1时刻的状态信息S_t+1，计算奖励值R_t；

将[S_t,A_t,R_t,S_t+1]作为所述模拟充电工作经验数据输出至所述预设经验池。

进一步的，所述方法还包括：

每隔一段预设时长，将在所述预设时长内存储的充电工作经验数据上传至预设经验池中。

本发明另一实施例提供一种辅助调频的分散电动汽车充电控制装置，包括：获取模块、输入模块以及充电模块；

所述获取模块用于获取当前的状态信息；其中，所述状态信息包括微电网的频率偏差与电动汽车的荷电状态；

所述输入模块用于将所述当前的状态信息输入到最新决策网络模型中；其中，所述最新决策网络模型基于预设目标奖励函数训练得到，所述预设目标奖励函数通过所述状态信息进行构建；

所述充电模块用于基于所述最新决策网络模型的输出，控制电动汽车的充电功率，同时存储本次所述充电工作经验。

进一步的，所述充电模块还用于每隔一段预设时长，将在所述预设时长内存储的充电工作经验数据上传至预设经验池中。

与现有技术相比，本发明的有益效果在于：

本发明通过进行集中式训练和使用私人双向充电机进行分散式控制，将利用私有充电机接入到微电网中的电动汽车也纳入到微电网的调频控制策略中，提高了电动汽车参与微电网调频控制策略的全面性。

另外，本发明所提出的分散式控制只需要在一段预设时长内进行信息交互就能够实现对分散电动汽车的充电控制，相较于现有的集中式控制，降低了通信成本。

附图说明

图1为本发明一实施例提供的一种辅助调频的分散电动汽车充电控制方法的流程示意图。

图2为本发明另一实施例提供的一种辅助调频的分散电动汽车充电控制装置的结构示意图。

图3为本发明另一实施例提供的一种辅助调频的分散电动汽车充电控制架构的结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

参照图1，为本发明一实施例提供的一种辅助调频的分散电动汽车充电控制方法的流程示意图，包括以下步骤：

S1：获取当前的状态信息；其中，所述状态信息包括微电网的频率偏差与电动汽车的荷电状态；

S2：将所述当前的状态信息输入到最新决策网络模型中；其中，所述最新决策网络模型基于预设目标奖励函数训练得到，所述预设目标奖励函数通过所述状态信息进行构建；

S3：基于所述最新决策网络模型的输出，控制电动汽车的充电功率，同时存储本次所述充电工作经验。

对于步骤S2，具体的，所述预设目标奖励函数通过所述状态信息进行构建，具体包括：

根据所述微电网的频率偏差构建第一奖励函数；

根据所述电动汽车的荷电状态构建第二奖励函数；

在一个优选的实施例中，所述目标奖励函数从微电网的频率偏差与电动汽车的荷电状态两个方面进行考虑，通过调整它们各自的权重系数，可以同时兼顾微电网管理者与电动汽车用户双方的利益。

对于步骤S2，具体的，所述最新决策网络模型通过已有的充电工作经验训练所得，具体包括：

从预设经验池中随机选取若干条所述充电工作经验数据，并根据预设损失函数训练所述预测价值网络；

重新选取若干条所述充电工作经验数据，并进行新一轮训练，直到训练次数达到预设训练阈值后，结束训练并输出最后一次训练得到的所述目标决策网络为最新决策网络。

在一个优选的实施例中，所述预设损失函数中包括所述预测价值网络的待优化参数，在训练时，以最小化所述预设损失函数为目标优化所述预测价值网络的待优化参数，得到所述预测价值网络的优化参数。

优化结束后，将所述预测价值网络的优化参数通过软更新的方式覆盖到所述目标价值网络的对应参数上，设所述预测价值网络的优化参数为w，所述目标价值网络的对应参数初始值为v，更新后的对应参数为v’则所述软更新的计算公式为：

v’＝aw+(1-a)v

其中，a为预设学习系数。

所述目标函数包括所述预测决策网络的待优化参数，在训练时，以最大化所述目标函数为优化目标优化所述预测决策网络的待优化参数，得到所述预测决策网络的优化参数。

优化结束后，同理地，将所述预测决策网络的优化参数通过软更新的方式覆盖到所述目标决策网络的对应参数上，结束一轮训练。

在一次训练结束后，重新在预设经验池中选取充电工作经验数据并进行新一次训练，直至训练结束后，输出最后得到的所述目标决策网络为最新决策网络。

进一步的，所述充电工作经验数据基于所述预设目标奖励函数计算得到，具体包括：

设所述当前的状态信息为S₁，所述参考功率为A，则当所述私有充电机根据所述参考功率对电动汽车充电后，采集充电后的状态信息S₂；

将[S₁,A,R,S₂]作为所述充电工作经验数据。

在一个优选的实施例中，所述奖励值用于评估所述参考功率，即用于定性评估根据所述参考功率对电动汽车进行充电后，对微电网的频率稳定以及对电动汽车的充电效率作出的贡献。将奖励值纳入工作经验中有利于提高决策网络的训练效果。

根据所述t时刻的参考功率A_t，通过所述负荷频率模型仿真得到t+1时刻的所述状态信息S_t+1，并根据所述t+1时刻的状态信息S_t+1，通过预设目标奖励函数计算奖励值R_t；

在一个优选的实施例中，所述微电网频率负荷模型是基于实际微电网和电动汽车的特性，能够反映频率负荷关系的数学模型。在本发明中，微电网频率负荷模型作为多智能体深度强化学习的交互环境，它可用于模拟充电机调整充放电功率之后的微电网频率偏差，并进一步得到所述模拟充电工作经验数据。

进一步的，所述方法还包括：

在一个优选的实施例中，所述预设时长可以根据实际需要设置为数日、数周或数月。每当私有充电机上传充电工作经验至经验池后，中央控制器将根据更新后的经验池对决策网络进行升级，并最后将升级后的最新决策网络发送至私有充电机中。这样的架构设置相较于现有的集中式或分布式的控制架构来说，通信成本更低。

对于步骤S3，具体的，所述基于决策网络模型的输出，控制电动汽车的充电功，具体包括：

设状态信息为S，则参考功率a的计算公式具体为：

S＝μ(a,θ)

其中，μ(*)为所述最新决策网络的输出函数，θ为所述最新决策网络的网络参数。

相较于现有技术，本发明的有益效果在于：

通过进行集中式训练和使用私人双向充电机进行分散式控制，将利用私有充电机接入到微电网中的电动汽车也纳入到微电网的调频控制策略中，提高了电动汽车参与微电网调频控制策略的全面性。

参照图2，为本发明另一实施例提供的一种辅助调频的分散电动汽车充电控制装置的结构示意图，包括：获取模块201、输入模块202以及充电模块203；

所述获取模块201用于获取当前的状态信息；其中，所述状态信息包括微电网的频率偏差与电动汽车的荷电状态；

所述输入模块202用于将所述当前的状态信息输入到最新决策网络模型中；其中，所述最新决策网络模型基于预设目标奖励函数训练得到，所述预设目标奖励函数通过所述状态信息进行构建；

所述充电模块203用于基于所述最新决策网络模型的输出，控制电动汽车的充电功率，同时存储本次所述充电工作经验。

进一步的，所述充电模块203还用于每隔一段预设时长，将在所述预设时长内存储的充电工作经验数据上传至预设经验池中。

参照图3，为本发明另一实施例提供的一种辅助调频的分散电动汽车充电控制架构的结构示意图，包括：分散电动汽车以及中央服务器。

中央服务器作为网络的训练中心，它负责在收到来自充电机的经验后，使用多智能体深度强化学习算法对网络进行训练，并把训练完成的预测决策网络参数发送到对应的私人充电机中。

分散电动汽车分别与私人充电机连接，所述私人充电机在加载来自中央服务器的预测决策网络后，根据状态信息自主控制电动汽车的充放电功率，并对经验进行保存。每隔一段时间，私人充电机将保存经验池中的经验打包发往中央服务器。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种辅助调频的分散电动汽车充电控制方法，其特征在于，包括如下步骤：

基于所述最新决策网络模型的输出，控制电动汽车的充电功率，同时存储本次充电工作经验数据；

所述最新决策网络模型基于预设目标奖励函数训练得到，具体包括：

重新选取所述充电工作经验数据，并进行新一次训练，直到训练次数达到预设训练阈值后，结束训练并输出最后一次训练得到的所述目标决策网络为最新决策网络；

所述充电工作经验数据基于采集实际运行数据与所述预设目标奖励函数计算得到，具体包括：

设所述当前的状态信息为S₁，将S₁输入至所述最新决策网络，得到参考功率A，则当所述电动汽车根据所述参考功率完成充电后，得到充电后的状态信息S₂；

将[S₁,A,R,S₂]作为所述充电工作经验数据。

2.如权利要求1所述的辅助调频的分散电动汽车充电控制方法，其特征在于，所述预设目标奖励函数通过所述状态信息进行构建，具体包括：

根据所述微电网的频率偏差构建第一奖励函数；

根据所述电动汽车的荷电状态构建第二奖励函数；

将所述第一奖励函数与所述第二奖励函数根据预设权重系数加权相加，得到所述预设目标奖励函数。

3.如权利要求2所述的辅助调频的分散电动汽车充电控制方法，其特征在于，所述根据所述微电网的频率偏差构建第一奖励函数，具体包括：

4.如权利要求2所述的辅助调频的分散电动汽车充电控制方法，其特征在于，所述根据所述电动汽车的荷电状态构建第二奖励函数，具体包括：

5.如权利要求1所述的辅助调频的分散电动汽车充电控制方法，其特征在于，当所述预设经验池中的所述充电工作经验数据的数量小于预设数量阈值时，通过模拟充电工作经验数据填充所述预设经验池；其中，所述模拟充电工作经验数据的获取方式具体包括：

设t时刻的所述状态信息为S_t，则通过所述预测决策网络计算得到t时刻的参考功率A_t；

6.如权利要求1所述的辅助调频的分散电动汽车充电控制方法，其特征在于，所述方法还包括：

7.一种辅助调频的分散电动汽车充电控制装置，其特征在于，包括：获取模块、输入模块以及充电模块；

所述充电模块用于基于所述最新决策网络模型的输出，控制电动汽车的充电功率，同时存储本次充电工作经验数据；

将[S₁,A,R,S₂]作为所述充电工作经验数据。

8.如权利要求7所述的辅助调频的分散电动汽车充电控制装置，其特征在于，所述充电模块还用于每隔一段预设时长，将在所述预设时长内存储的充电工作经验数据上传至预设经验池中。