CN117863948B - 一种辅助调频的分散电动汽车充电控制方法及装置 - Google Patents
一种辅助调频的分散电动汽车充电控制方法及装置 Download PDFInfo
- Publication number
- CN117863948B CN117863948B CN202410067438.5A CN202410067438A CN117863948B CN 117863948 B CN117863948 B CN 117863948B CN 202410067438 A CN202410067438 A CN 202410067438A CN 117863948 B CN117863948 B CN 117863948B
- Authority
- CN
- China
- Prior art keywords
- preset
- state information
- decision network
- training
- charge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004088 simulation Methods 0.000 claims description 3
- 238000011217 control strategy Methods 0.000 abstract description 8
- 238000004891 communication Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 46
- 238000005457 optimization Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Landscapes
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
Abstract
本发明公开一种辅助调频的分散电动汽车充电控制方法及装置,包括如下步骤:获取当前的状态信息;其中,所述状态信息包括微电网的频率偏差与电动汽车的荷电状态;将所述当前的状态信息输入到决策网络模型中;其中,所述决策网络模型基于预设目标奖励函数训练得到,所述预设目标奖励函数通过所述状态信息进行构建;基于决策网络模型的输出,控制电动汽车的充电功率,同时存储本次所述充电工作经验。本发明能够在降低通信成本的同时提高电动汽车参与微电网调频控制策略的全面性。
Description
技术领域
本发明涉及电动汽车领域,尤其涉及一种辅助调频的分散电动汽车充电控制方法及装置。
背景技术
目前,在电动汽车参与微电网调频控制的策略上存在以下缺陷:
1、现有技术在选取参与微电网调频服务的研究对象时,多数选择停靠于公共充电站中的电动汽车,忽视了利用私有充电机接入到电网中的电动汽车;
2、现有的电动汽车参与调频控制策略常采用电动汽车聚合成集群的方法,这样虽然减少了电动汽车集群的复杂度,但却容易忽视电动汽车个体的需求;
3、现有控制策略多为集中式或分布式控制,需要有良好的通信环境作为支撑,这带来了额外的通信成本,而且在通信中断时效果欠佳。
发明内容
本发明为克服上述现有技术的缺陷,提供一种辅助调频的分散电动汽车充电控制方法及装置,能够在降低通信成本的同时提高电动汽车参与微电网调频控制策略的全面性。
本发明一实施例提供一种辅助调频的分散电动汽车充电控制方法,包括如下步骤:
获取当前的状态信息;其中,所述状态信息包括微电网的频率偏差与电动汽车的荷电状态;
将所述当前的状态信息输入到最新决策网络模型中;其中,所述最新决策网络模型基于预设目标奖励函数训练得到,所述预设目标奖励函数通过所述状态信息进行构建;
基于所述最新决策网络模型的输出,控制电动汽车的充电功率,同时存储本次所述充电工作经验。
进一步的,所述预设目标奖励函数通过所述状态信息进行构建,具体包括:
根据所述微电网的频率偏差构建第一奖励函数;
根据所述电动汽车的荷电状态构建第二奖励函数;
将所述第一奖励函数与所述第二奖励函数根据预设权重系数加权相加,得到所述奖励值。
优选的,所述根据所述微电网的频率偏差构建第一奖励函数,具体包括:
设所述微电网的频率偏差为Δf,则所述第一奖励函数r1的计算公式为:
其中,f1、f2、f3分别表示微电网在正常运行、辅助控制、应急控制时的频率偏差边界,α1、α2、α3分别为f1、f2、f3对应的预设权重系数。
优选的,所述根据所述电动汽车的荷电状态构建第二奖励函数,具体包括:
设所述电动汽车的荷电状态为SOC,则所述第二奖励函数r2的计算公式为:
其中,rmax为预设最大奖励值,SOCmin为预设最小荷电状态,SOC*为预设目标荷电状态,SOCmax为预设最大荷电状态。
进一步的,所述最新决策网络模型基于预设目标奖励函数训练得到,具体包括:
初始化预测决策网络、预测价值网络、目标决策网络以及目标价值网络;
从预设经验池中随机选取充电工作经验数据,并根据预设损失函数训练所述预测价值网络;其中,所述充电工作经验数据基于采集实际运行数据与所述预设目标奖励函数计算得到;
通过软更新的方式将所述预测价值网络训练后的参数更新至所述目标价值网络;
根据参数更新后的目标价值网络,构建目标函数,并通过所述目标函数训练所述预测决策网络;
通过软更新的方式将所述预测决策网络训练后的参数更新至所述目标决策网络;
重新选取所述充电工作经验数据,并进行新一次训练,直到训练次数达到预设训练阈值后,结束训练并输出最后一次训练得到的所述目标决策网络为最新决策网络。
进一步的,所述充电工作经验数据基于采集实际运行数据与所述预设目标奖励函数计算得到,具体包括:
设所述当前的状态信息为S1,所述参考功率为A,则当所述电动汽车根据所述参考功率完成充电后,得到充电后的状态信息S2;
根据所述充电后的状态信息S2,通过所述预设目标奖励函数计算奖励值R;
将[S1,A,R,S2]作为所述充电工作经验数据。
优选的,当所述预设经验池中的所述充电工作经验数据的数量小于预设数量阈值时,通过模拟充电工作经验数据填充所述预设经验池;其中,所述模拟充电工作经验数据的获取方式具体包括:
根据预设配置信息,建立负荷频率模型;其中,所述预设配置信息包括各个时刻的所述状态信息;
根据t时刻的所述状态信息St,通过所述预测决策网络计算得到t时刻的参考功率At;
根据所述t时刻的参考功率At,通过所述负荷频率模型仿真得到t+1时刻的所述状态信息St+1,并根据所述t+1时刻的状态信息St+1,计算奖励值Rt;
将[St,At,Rt,St+1]作为所述模拟充电工作经验数据输出至所述预设经验池。
进一步的,所述方法还包括:
每隔一段预设时长,将在所述预设时长内存储的充电工作经验数据上传至预设经验池中。
本发明另一实施例提供一种辅助调频的分散电动汽车充电控制装置,包括:获取模块、输入模块以及充电模块;
所述获取模块用于获取当前的状态信息;其中,所述状态信息包括微电网的频率偏差与电动汽车的荷电状态;
所述输入模块用于将所述当前的状态信息输入到最新决策网络模型中;其中,所述最新决策网络模型基于预设目标奖励函数训练得到,所述预设目标奖励函数通过所述状态信息进行构建;
所述充电模块用于基于所述最新决策网络模型的输出,控制电动汽车的充电功率,同时存储本次所述充电工作经验。
进一步的,所述充电模块还用于每隔一段预设时长,将在所述预设时长内存储的充电工作经验数据上传至预设经验池中。
与现有技术相比,本发明的有益效果在于:
本发明通过进行集中式训练和使用私人双向充电机进行分散式控制,将利用私有充电机接入到微电网中的电动汽车也纳入到微电网的调频控制策略中,提高了电动汽车参与微电网调频控制策略的全面性。
另外,本发明所提出的分散式控制只需要在一段预设时长内进行信息交互就能够实现对分散电动汽车的充电控制,相较于现有的集中式控制,降低了通信成本。
附图说明
图1为本发明一实施例提供的一种辅助调频的分散电动汽车充电控制方法的流程示意图。
图2为本发明另一实施例提供的一种辅助调频的分散电动汽车充电控制装置的结构示意图。
图3为本发明另一实施例提供的一种辅助调频的分散电动汽车充电控制架构的结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
参照图1,为本发明一实施例提供的一种辅助调频的分散电动汽车充电控制方法的流程示意图,包括以下步骤:
S1:获取当前的状态信息;其中,所述状态信息包括微电网的频率偏差与电动汽车的荷电状态;
S2:将所述当前的状态信息输入到最新决策网络模型中;其中,所述最新决策网络模型基于预设目标奖励函数训练得到,所述预设目标奖励函数通过所述状态信息进行构建;
S3:基于所述最新决策网络模型的输出,控制电动汽车的充电功率,同时存储本次所述充电工作经验。
对于步骤S2,具体的,所述预设目标奖励函数通过所述状态信息进行构建,具体包括:
根据所述微电网的频率偏差构建第一奖励函数;
根据所述电动汽车的荷电状态构建第二奖励函数;
将所述第一奖励函数与所述第二奖励函数根据预设权重系数加权相加,得到所述奖励值。
优选的,所述根据所述微电网的频率偏差构建第一奖励函数,具体包括:
设所述微电网的频率偏差为Δf,则所述第一奖励函数r1的计算公式为:
其中,f1、f2、f3分别表示微电网在正常运行、辅助控制、应急控制时的频率偏差边界,α1、α2、α3分别为f1、f2、f3对应的预设权重系数。
优选的,所述根据所述电动汽车的荷电状态构建第二奖励函数,具体包括:
设所述电动汽车的荷电状态为SOC,则所述第二奖励函数r2的计算公式为:
其中,rmax为预设最大奖励值,SOCmin为预设最小荷电状态,SOC*为预设目标荷电状态,SOCmax为预设最大荷电状态。
在一个优选的实施例中,所述目标奖励函数从微电网的频率偏差与电动汽车的荷电状态两个方面进行考虑,通过调整它们各自的权重系数,可以同时兼顾微电网管理者与电动汽车用户双方的利益。
对于步骤S2,具体的,所述最新决策网络模型通过已有的充电工作经验训练所得,具体包括:
初始化预测决策网络、预测价值网络、目标决策网络以及目标价值网络;
从预设经验池中随机选取若干条所述充电工作经验数据,并根据预设损失函数训练所述预测价值网络;
通过软更新的方式将所述预测价值网络训练后的参数更新至所述目标价值网络;
根据参数更新后的目标价值网络,构建目标函数,并通过所述目标函数训练所述预测决策网络;
通过软更新的方式将所述预测决策网络训练后的参数更新至所述目标决策网络;
重新选取若干条所述充电工作经验数据,并进行新一轮训练,直到训练次数达到预设训练阈值后,结束训练并输出最后一次训练得到的所述目标决策网络为最新决策网络。
在一个优选的实施例中,所述预设损失函数中包括所述预测价值网络的待优化参数,在训练时,以最小化所述预设损失函数为目标优化所述预测价值网络的待优化参数,得到所述预测价值网络的优化参数。
优化结束后,将所述预测价值网络的优化参数通过软更新的方式覆盖到所述目标价值网络的对应参数上,设所述预测价值网络的优化参数为w,所述目标价值网络的对应参数初始值为v,更新后的对应参数为v’则所述软更新的计算公式为:
v’=aw+(1-a)v
其中,a为预设学习系数。
所述目标函数包括所述预测决策网络的待优化参数,在训练时,以最大化所述目标函数为优化目标优化所述预测决策网络的待优化参数,得到所述预测决策网络的优化参数。
优化结束后,同理地,将所述预测决策网络的优化参数通过软更新的方式覆盖到所述目标决策网络的对应参数上,结束一轮训练。
在一次训练结束后,重新在预设经验池中选取充电工作经验数据并进行新一次训练,直至训练结束后,输出最后得到的所述目标决策网络为最新决策网络。
进一步的,所述充电工作经验数据基于所述预设目标奖励函数计算得到,具体包括:
设所述当前的状态信息为S1,所述参考功率为A,则当所述私有充电机根据所述参考功率对电动汽车充电后,采集充电后的状态信息S2;
根据所述充电后的状态信息S2,通过所述预设目标奖励函数计算奖励值R;
将[S1,A,R,S2]作为所述充电工作经验数据。
在一个优选的实施例中,所述奖励值用于评估所述参考功率,即用于定性评估根据所述参考功率对电动汽车进行充电后,对微电网的频率稳定以及对电动汽车的充电效率作出的贡献。将奖励值纳入工作经验中有利于提高决策网络的训练效果。
优选的,当所述预设经验池中的所述充电工作经验数据的数量小于预设数量阈值时,通过模拟充电工作经验数据填充所述预设经验池;其中,所述模拟充电工作经验数据的获取方式具体包括:
根据预设配置信息,建立负荷频率模型;其中,所述预设配置信息包括各个时刻的所述状态信息;
根据t时刻的所述状态信息St,通过所述预测决策网络计算得到t时刻的参考功率At;
根据所述t时刻的参考功率At,通过所述负荷频率模型仿真得到t+1时刻的所述状态信息St+1,并根据所述t+1时刻的状态信息St+1,通过预设目标奖励函数计算奖励值Rt;
将[St,At,Rt,St+1]作为所述模拟充电工作经验数据输出至所述预设经验池。
在一个优选的实施例中,所述微电网频率负荷模型是基于实际微电网和电动汽车的特性,能够反映频率负荷关系的数学模型。在本发明中,微电网频率负荷模型作为多智能体深度强化学习的交互环境,它可用于模拟充电机调整充放电功率之后的微电网频率偏差,并进一步得到所述模拟充电工作经验数据。
进一步的,所述方法还包括:
每隔一段预设时长,将在所述预设时长内存储的充电工作经验数据上传至预设经验池中。
在一个优选的实施例中,所述预设时长可以根据实际需要设置为数日、数周或数月。每当私有充电机上传充电工作经验至经验池后,中央控制器将根据更新后的经验池对决策网络进行升级,并最后将升级后的最新决策网络发送至私有充电机中。这样的架构设置相较于现有的集中式或分布式的控制架构来说,通信成本更低。
对于步骤S3,具体的,所述基于决策网络模型的输出,控制电动汽车的充电功,具体包括:
设状态信息为S,则参考功率a的计算公式具体为:
S=μ(a,θ)
其中,μ(*)为所述最新决策网络的输出函数,θ为所述最新决策网络的网络参数。
相较于现有技术,本发明的有益效果在于:
通过进行集中式训练和使用私人双向充电机进行分散式控制,将利用私有充电机接入到微电网中的电动汽车也纳入到微电网的调频控制策略中,提高了电动汽车参与微电网调频控制策略的全面性。
另外,本发明所提出的分散式控制只需要在一段预设时长内进行信息交互就能够实现对分散电动汽车的充电控制,相较于现有的集中式控制,降低了通信成本。
参照图2,为本发明另一实施例提供的一种辅助调频的分散电动汽车充电控制装置的结构示意图,包括:获取模块201、输入模块202以及充电模块203;
所述获取模块201用于获取当前的状态信息;其中,所述状态信息包括微电网的频率偏差与电动汽车的荷电状态;
所述输入模块202用于将所述当前的状态信息输入到最新决策网络模型中;其中,所述最新决策网络模型基于预设目标奖励函数训练得到,所述预设目标奖励函数通过所述状态信息进行构建;
所述充电模块203用于基于所述最新决策网络模型的输出,控制电动汽车的充电功率,同时存储本次所述充电工作经验。
进一步的,所述充电模块203还用于每隔一段预设时长,将在所述预设时长内存储的充电工作经验数据上传至预设经验池中。
参照图3,为本发明另一实施例提供的一种辅助调频的分散电动汽车充电控制架构的结构示意图,包括:分散电动汽车以及中央服务器。
中央服务器作为网络的训练中心,它负责在收到来自充电机的经验后,使用多智能体深度强化学习算法对网络进行训练,并把训练完成的预测决策网络参数发送到对应的私人充电机中。
分散电动汽车分别与私人充电机连接,所述私人充电机在加载来自中央服务器的预测决策网络后,根据状态信息自主控制电动汽车的充放电功率,并对经验进行保存。每隔一段时间,私人充电机将保存经验池中的经验打包发往中央服务器。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种辅助调频的分散电动汽车充电控制方法,其特征在于,包括如下步骤:
获取当前的状态信息;其中,所述状态信息包括微电网的频率偏差与电动汽车的荷电状态;
将所述当前的状态信息输入到最新决策网络模型中;其中,所述最新决策网络模型基于预设目标奖励函数训练得到,所述预设目标奖励函数通过所述状态信息进行构建;
基于所述最新决策网络模型的输出,控制电动汽车的充电功率,同时存储本次充电工作经验数据;
所述最新决策网络模型基于预设目标奖励函数训练得到,具体包括:
初始化预测决策网络、预测价值网络、目标决策网络以及目标价值网络;
从预设经验池中随机选取充电工作经验数据,并根据预设损失函数训练所述预测价值网络;其中,所述充电工作经验数据基于采集实际运行数据与所述预设目标奖励函数计算得到;
通过软更新的方式将所述预测价值网络训练后的参数更新至所述目标价值网络;
根据参数更新后的目标价值网络,构建目标函数,并通过所述目标函数训练所述预测决策网络;
通过软更新的方式将所述预测决策网络训练后的参数更新至所述目标决策网络;
重新选取所述充电工作经验数据,并进行新一次训练,直到训练次数达到预设训练阈值后,结束训练并输出最后一次训练得到的所述目标决策网络为最新决策网络;
所述充电工作经验数据基于采集实际运行数据与所述预设目标奖励函数计算得到,具体包括:
设所述当前的状态信息为S1,将S1输入至所述最新决策网络,得到参考功率A,则当所述电动汽车根据所述参考功率完成充电后,得到充电后的状态信息S2;
根据所述充电后的状态信息S2,通过所述预设目标奖励函数计算奖励值R;
将[S1,A,R,S2]作为所述充电工作经验数据。
2.如权利要求1所述的辅助调频的分散电动汽车充电控制方法,其特征在于,所述预设目标奖励函数通过所述状态信息进行构建,具体包括:
根据所述微电网的频率偏差构建第一奖励函数;
根据所述电动汽车的荷电状态构建第二奖励函数;
将所述第一奖励函数与所述第二奖励函数根据预设权重系数加权相加,得到所述预设目标奖励函数。
3.如权利要求2所述的辅助调频的分散电动汽车充电控制方法,其特征在于,所述根据所述微电网的频率偏差构建第一奖励函数,具体包括:
设所述微电网的频率偏差为Δf,则所述第一奖励函数r1的计算公式为:
其中,f1、f2、f3分别表示微电网在正常运行、辅助控制、应急控制时的频率偏差边界,α1、α2、α3分别为f1、f2、f3对应的预设权重系数。
4.如权利要求2所述的辅助调频的分散电动汽车充电控制方法,其特征在于,所述根据所述电动汽车的荷电状态构建第二奖励函数,具体包括:
设所述电动汽车的荷电状态为SOC,则所述第二奖励函数r2的计算公式为:
其中,rmax为预设最大奖励值,SOCmin为预设最小荷电状态,SOC*为预设目标荷电状态,SOCmax为预设最大荷电状态。
5.如权利要求1所述的辅助调频的分散电动汽车充电控制方法,其特征在于,当所述预设经验池中的所述充电工作经验数据的数量小于预设数量阈值时,通过模拟充电工作经验数据填充所述预设经验池;其中,所述模拟充电工作经验数据的获取方式具体包括:
根据预设配置信息,建立负荷频率模型;其中,所述预设配置信息包括各个时刻的所述状态信息;
设t时刻的所述状态信息为St,则通过所述预测决策网络计算得到t时刻的参考功率At;
根据所述t时刻的参考功率At,通过所述负荷频率模型仿真得到t+1时刻的所述状态信息St+1,并根据所述t+1时刻的状态信息St+1,计算奖励值Rt;
将[St,At,Rt,St+1]作为所述模拟充电工作经验数据输出至所述预设经验池。
6.如权利要求1所述的辅助调频的分散电动汽车充电控制方法,其特征在于,所述方法还包括:
每隔一段预设时长,将在所述预设时长内存储的充电工作经验数据上传至预设经验池中。
7.一种辅助调频的分散电动汽车充电控制装置,其特征在于,包括:获取模块、输入模块以及充电模块;
所述获取模块用于获取当前的状态信息;其中,所述状态信息包括微电网的频率偏差与电动汽车的荷电状态;
所述输入模块用于将所述当前的状态信息输入到最新决策网络模型中;其中,所述最新决策网络模型基于预设目标奖励函数训练得到,所述预设目标奖励函数通过所述状态信息进行构建;
所述充电模块用于基于所述最新决策网络模型的输出,控制电动汽车的充电功率,同时存储本次充电工作经验数据;
所述最新决策网络模型基于预设目标奖励函数训练得到,具体包括:
初始化预测决策网络、预测价值网络、目标决策网络以及目标价值网络;
从预设经验池中随机选取充电工作经验数据,并根据预设损失函数训练所述预测价值网络;其中,所述充电工作经验数据基于采集实际运行数据与所述预设目标奖励函数计算得到;
通过软更新的方式将所述预测价值网络训练后的参数更新至所述目标价值网络;
根据参数更新后的目标价值网络,构建目标函数,并通过所述目标函数训练所述预测决策网络;
通过软更新的方式将所述预测决策网络训练后的参数更新至所述目标决策网络;
重新选取所述充电工作经验数据,并进行新一次训练,直到训练次数达到预设训练阈值后,结束训练并输出最后一次训练得到的所述目标决策网络为最新决策网络;
所述充电工作经验数据基于采集实际运行数据与所述预设目标奖励函数计算得到,具体包括:
设所述当前的状态信息为S1,将S1输入至所述最新决策网络,得到参考功率A,则当所述电动汽车根据所述参考功率完成充电后,得到充电后的状态信息S2;
根据所述充电后的状态信息S2,通过所述预设目标奖励函数计算奖励值R;
将[S1,A,R,S2]作为所述充电工作经验数据。
8.如权利要求7所述的辅助调频的分散电动汽车充电控制装置,其特征在于,所述充电模块还用于每隔一段预设时长,将在所述预设时长内存储的充电工作经验数据上传至预设经验池中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410067438.5A CN117863948B (zh) | 2024-01-17 | 2024-01-17 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410067438.5A CN117863948B (zh) | 2024-01-17 | 2024-01-17 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117863948A CN117863948A (zh) | 2024-04-12 |
CN117863948B true CN117863948B (zh) | 2024-06-11 |
Family
ID=90580865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410067438.5A Active CN117863948B (zh) | 2024-01-17 | 2024-01-17 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117863948B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110809306A (zh) * | 2019-11-04 | 2020-02-18 | 电子科技大学 | 一种基于深度强化学习的终端接入选择方法 |
CN111934335A (zh) * | 2020-08-18 | 2020-11-13 | 华北电力大学 | 一种基于深度强化学习的集群电动汽车充电行为优化方法 |
CN112187074A (zh) * | 2020-09-15 | 2021-01-05 | 电子科技大学 | 一种基于深度强化学习的逆变器控制器 |
CN112989017A (zh) * | 2021-05-17 | 2021-06-18 | 南湖实验室 | 用于生成对话策略学习用高质量模拟经验的方法 |
CN113141017A (zh) * | 2021-04-29 | 2021-07-20 | 福州大学 | 基于ddpg算法和soc恢复的储能***参与电网一次调频的控制方法 |
CN113270937A (zh) * | 2021-03-30 | 2021-08-17 | 鹏城实验室 | 一种备用电池调度方法、计算机可读存储介质及*** |
CN113627993A (zh) * | 2021-08-26 | 2021-11-09 | 东北大学秦皇岛分校 | 一种基于深度强化学习的智能电动汽车充放电决策方法 |
CN113872198A (zh) * | 2021-09-29 | 2021-12-31 | 电子科技大学 | 一种基于强化学习方法的主动配电网故障恢复方法 |
CN114091879A (zh) * | 2021-11-15 | 2022-02-25 | 浙江华云电力工程设计咨询有限公司 | 基于深度强化学习的多园区能源调度方法和*** |
CN114423061A (zh) * | 2022-01-20 | 2022-04-29 | 重庆邮电大学 | 一种基于注意力机制和深度强化学习的无线路由优化方法 |
CN114742453A (zh) * | 2022-05-06 | 2022-07-12 | 江苏大学 | 基于Rainbow深度Q网络的微电网能量管理方法 |
CN115051403A (zh) * | 2022-03-16 | 2022-09-13 | 国网浙江省电力有限公司丽水供电公司 | 基于深度q学习的孤岛微电网负荷频率控制方法及*** |
CN115097729A (zh) * | 2022-06-21 | 2022-09-23 | 广东工业大学 | 一种基于强化学习的锅炉吹灰器的优化控制方法及*** |
CN115238891A (zh) * | 2022-07-29 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 决策模型训练方法、目标对象的策略控制方法及装置 |
CN115257745A (zh) * | 2022-07-21 | 2022-11-01 | 同济大学 | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 |
CN115366099A (zh) * | 2022-08-18 | 2022-11-22 | 江苏科技大学 | 基于正向运动学的机械臂深度确定性策略梯度训练方法 |
WO2023064474A1 (en) * | 2021-10-14 | 2023-04-20 | University Of Pittsburgh - Of The Commonwealth System Of Higher Education | Systems and methods for controlling magnetic microdevices with machine learning |
CN116185584A (zh) * | 2023-01-09 | 2023-05-30 | 西北工业大学 | 一种基于深度强化学习的多租户数据库资源规划与调度方法 |
CN116456493A (zh) * | 2023-04-20 | 2023-07-18 | 无锡学院 | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 |
CN116454902A (zh) * | 2023-05-09 | 2023-07-18 | 广东电网有限责任公司 | 基于强化学习的配电网调压方法、装置、设备和存储介质 |
CN116824848A (zh) * | 2023-06-08 | 2023-09-29 | 甘肃紫光智能交通与控制技术有限公司 | 基于贝叶斯深度q网络的交通信号优化控制方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2686030C1 (ru) * | 2015-07-24 | 2019-04-23 | Дипмайнд Текнолоджиз Лимитед | Непрерывное управление с помощью глубокого обучения с подкреплением |
CN108268938B (zh) * | 2018-01-24 | 2020-04-21 | 清华大学 | 神经网络及其信息处理方法、信息处理*** |
CA3032159A1 (en) * | 2018-01-31 | 2019-07-31 | Royal Bank Of Canada | Interactive reinforcement learning with dynamic reuse of prior knowledge |
US20210370978A1 (en) * | 2020-05-29 | 2021-12-02 | Toyota Research Institute, Inc. | Navigation cost computation for lane changes before a critical intersection |
CN115190079B (zh) * | 2022-07-05 | 2023-09-15 | 吉林大学 | 基于分层强化学习的高铁自供电感知通信一体化交互方法 |
CN116433219A (zh) * | 2023-03-20 | 2023-07-14 | 广东工业大学 | 一种工装更换策略动态搜索方法 |
CN116471629A (zh) * | 2023-05-06 | 2023-07-21 | 重庆邮电大学 | 一种基于深度强化学习的物联网智能拥塞控制方法 |
-
2024
- 2024-01-17 CN CN202410067438.5A patent/CN117863948B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110809306A (zh) * | 2019-11-04 | 2020-02-18 | 电子科技大学 | 一种基于深度强化学习的终端接入选择方法 |
CN111934335A (zh) * | 2020-08-18 | 2020-11-13 | 华北电力大学 | 一种基于深度强化学习的集群电动汽车充电行为优化方法 |
CN112187074A (zh) * | 2020-09-15 | 2021-01-05 | 电子科技大学 | 一种基于深度强化学习的逆变器控制器 |
CN113270937A (zh) * | 2021-03-30 | 2021-08-17 | 鹏城实验室 | 一种备用电池调度方法、计算机可读存储介质及*** |
CN113141017A (zh) * | 2021-04-29 | 2021-07-20 | 福州大学 | 基于ddpg算法和soc恢复的储能***参与电网一次调频的控制方法 |
CN112989017A (zh) * | 2021-05-17 | 2021-06-18 | 南湖实验室 | 用于生成对话策略学习用高质量模拟经验的方法 |
CN113627993A (zh) * | 2021-08-26 | 2021-11-09 | 东北大学秦皇岛分校 | 一种基于深度强化学习的智能电动汽车充放电决策方法 |
CN113872198A (zh) * | 2021-09-29 | 2021-12-31 | 电子科技大学 | 一种基于强化学习方法的主动配电网故障恢复方法 |
WO2023064474A1 (en) * | 2021-10-14 | 2023-04-20 | University Of Pittsburgh - Of The Commonwealth System Of Higher Education | Systems and methods for controlling magnetic microdevices with machine learning |
CN114091879A (zh) * | 2021-11-15 | 2022-02-25 | 浙江华云电力工程设计咨询有限公司 | 基于深度强化学习的多园区能源调度方法和*** |
CN114423061A (zh) * | 2022-01-20 | 2022-04-29 | 重庆邮电大学 | 一种基于注意力机制和深度强化学习的无线路由优化方法 |
CN115051403A (zh) * | 2022-03-16 | 2022-09-13 | 国网浙江省电力有限公司丽水供电公司 | 基于深度q学习的孤岛微电网负荷频率控制方法及*** |
CN114742453A (zh) * | 2022-05-06 | 2022-07-12 | 江苏大学 | 基于Rainbow深度Q网络的微电网能量管理方法 |
CN115097729A (zh) * | 2022-06-21 | 2022-09-23 | 广东工业大学 | 一种基于强化学习的锅炉吹灰器的优化控制方法及*** |
CN115257745A (zh) * | 2022-07-21 | 2022-11-01 | 同济大学 | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 |
CN115238891A (zh) * | 2022-07-29 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 决策模型训练方法、目标对象的策略控制方法及装置 |
CN115366099A (zh) * | 2022-08-18 | 2022-11-22 | 江苏科技大学 | 基于正向运动学的机械臂深度确定性策略梯度训练方法 |
CN116185584A (zh) * | 2023-01-09 | 2023-05-30 | 西北工业大学 | 一种基于深度强化学习的多租户数据库资源规划与调度方法 |
CN116456493A (zh) * | 2023-04-20 | 2023-07-18 | 无锡学院 | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 |
CN116454902A (zh) * | 2023-05-09 | 2023-07-18 | 广东电网有限责任公司 | 基于强化学习的配电网调压方法、装置、设备和存储介质 |
CN116824848A (zh) * | 2023-06-08 | 2023-09-29 | 甘肃紫光智能交通与控制技术有限公司 | 基于贝叶斯深度q网络的交通信号优化控制方法 |
Non-Patent Citations (2)
Title |
---|
一种最大置信上界经验采样的深度Q网络方法;朱斐;吴文;刘全;伏玉琛;;计算机研究与发展;20180815(第08期);全文 * |
基于深度强化学习的异构云无线接入网自适应无线资源分配算法;陈前斌;管令进;李子煜;王兆堃;杨恒;唐伦;;电子与信息学报;20200615(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117863948A (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000209707A (ja) | 電気自動車の充電計画装置 | |
CN113515884A (zh) | 分散式电动汽车实时优化调度方法、***、终端及介质 | |
CN103078389B (zh) | 综合电力***控制方法以及具有能量存储元件的相关设备 | |
CN112117760A (zh) | 基于双q值网络深度强化学习的微电网能量调度方法 | |
CN104321947B (zh) | 充电速率优化 | |
US8768549B2 (en) | Battery maintenance system | |
CN113103905B (zh) | 一种电动汽车智能充电分配调节方法、装置、设备及介质 | |
CN116001624A (zh) | 基于深度强化学习的一桩多联电动汽车有序充电方法 | |
CN113511082A (zh) | 基于规则和双深度q网络的混合动力汽车能量管理方法 | |
CN109878375A (zh) | 车辆功率分配方法、装置、***、车辆及车载控制器 | |
CN113627993A (zh) | 一种基于深度强化学习的智能电动汽车充放电决策方法 | |
CN114069612A (zh) | 充电桩接入控制方法、装置、计算机设备和存储介质 | |
CN112215434A (zh) | 一种lstm模型的生成方法、充电时长预测方法及介质 | |
CN113997805A (zh) | 一种新能源汽车的充电控制方法、***、车载终端及介质 | |
CN106165186A (zh) | 蓄电池控制装置以及蓄电池控制方法 | |
CN117863948B (zh) | 一种辅助调频的分散电动汽车充电控制方法及装置 | |
CN115587645A (zh) | 一种考虑充电行为随机性的电动汽车充电管理方法及*** | |
CN110535196B (zh) | 在换电设施中执行的充电方法、充电设备、以及远端服务器 | |
CN116993031A (zh) | 一种电动车的充电决策优化方法、装置、设备及介质 | |
CN112018847A (zh) | 充电电池的充电处理方法及装置、电动车辆 | |
CN114611811B (zh) | 基于ev负荷参与度的低碳园区优化调度方法及*** | |
CN113561834B (zh) | 一种充电桩有序充电管理方法及*** | |
CN115579910A (zh) | 一种微电网频率和电压的控制方法及终端 | |
CN110119848B (zh) | 链式通信电动汽车群体共享决策调频交易方法及*** | |
WO2014120250A1 (en) | Battery maintenance system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |