CN114619907A - 基于分布式深度强化学习的协调充电方法及协调充电*** - Google Patents
基于分布式深度强化学习的协调充电方法及协调充电*** Download PDFInfo
- Publication number
- CN114619907A CN114619907A CN202011470610.XA CN202011470610A CN114619907A CN 114619907 A CN114619907 A CN 114619907A CN 202011470610 A CN202011470610 A CN 202011470610A CN 114619907 A CN114619907 A CN 114619907A
- Authority
- CN
- China
- Prior art keywords
- neural network
- network
- state
- representing
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000005611 electricity Effects 0.000 claims abstract description 86
- 238000013528 artificial neural network Methods 0.000 claims description 164
- 239000003795 chemical substances by application Substances 0.000 claims description 164
- 238000004891 communication Methods 0.000 claims description 36
- 230000006399 behavior Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 17
- 230000003542 behavioural effect Effects 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 claims 12
- 238000012545 processing Methods 0.000 abstract description 6
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006403 short-term memory Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000969729 Apteryx rowi Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60L—PROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
- B60L53/00—Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
- B60L53/60—Monitoring or controlling charging stations
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60L—PROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
- B60L53/00—Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
- B60L53/60—Monitoring or controlling charging stations
- B60L53/63—Monitoring or controlling charging stations in response to network capacity
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60L—PROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
- B60L53/00—Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
- B60L53/60—Monitoring or controlling charging stations
- B60L53/64—Optimising energy costs, e.g. responding to electricity rates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/70—Energy storage systems for electromobility, e.g. batteries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/7072—Electromobility specific charging systems or methods for batteries, ultracapacitors, supercapacitors or double-layer capacitors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
- Y02T90/10—Technologies relating to charging of electric vehicles
- Y02T90/12—Electric charging stations
Landscapes
- Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于分布式深度强化学习的协调充电方法及协调充电***,其中,该方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了分布式协调充电方法的稳定性和可扩展性。此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。
Description
技术领域
本申请涉及计算机应用技术领域,更具体地说,涉及一种基于分布式深度强化学习的协调充电方法及协调充电***。
背景技术
新能源汽车是指采用非常规的车用燃料作为动力来源,综合车辆的动力控制和驱动方面的先进技术,形成的技术原理先进、具有新技术、新结构的汽车。目前主流的新能源汽车为以动力电池为全部或部分能量来源的电动汽车。
随着电动汽车数量的不断增加,电动汽车带来的能源需求对电网的影响很大,在没有任何充电控制的情况下,多个电动汽车接入电网后自动充电可能会造成电网拥堵。因此,在多个电动汽车接入电网的情况下的协调充电问题成为相关技术人员的研究方向之一。
现有的协调充电方法存在可扩展性较差以及在大量电动汽车接入时,信息收集和处理的时间和成本激增的问题。
发明内容
为解决上述技术问题,本申请提供了一种基于分布式深度强化学习的协调充电方法及协调充电***,以解决现有的协调充电方法存在的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题。
为实现上述技术目的,本申请实施例提供了如下技术方案:
一种基于分布式深度强化学习的协调充电方法,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电方法包括:
基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
一种基于分布式深度强化学习的协调充电***,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电***包括:
信息获取模块,用于基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
电价预测模块,用于根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
参数更新模块,用于基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
从上述技术方案可以看出,本申请实施例提供了一种基于分布式深度强化学习的协调充电方法及协调充电***,其中,所述基于分布式深度强化学习的协调充电方法基于通信模型获取各个智能体的状态信息,并基于所述智能体的状态信息以及基于状态信息获取的电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,所述深度强化学习网络包括第一神经网络和第二神经网络,即本申请实施例提供的协调充电方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了分布式协调充电方法的稳定性和可扩展性,此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请的一个实施例提供的一种基于分布式深度强化学习的协调充电方法的流程示意图;
图2为本申请的一个实施例提供的一种CommNet模型的模型图;
图4为本申请的一个实施例提供的长短时记忆网络的结构示意图;
图5为本申请的另一个实施例提供的一种基于分布式深度强化学习的协调充电方法的流程示意图;
图6为本申请的一个实施例提供的一种对深度神经网络的网络参数的更新过程的流程示意图;
图7为本申请的一个实施例提供的一种第二神经网络的结构图。
具体实施方式
正如背景技术中所述,现有技术中的协调充电方法大多是集中式的,在集中式架构下,每个电动汽车的充电策略由直接聚合器决定,它收集所有电动汽车的充电需求,然后求解一个优化问题,以确定每辆电动汽车的充电行为,并将基于优化的充电计划反馈给电动汽车的车主。因此,每个车主在最终实际运行的充电策略上放弃了个人的部分自主权。当电动汽车的数量很大时,就会需要更长的时间和成本进行信息的收集和处理。
另外,集中式协调充电方法通常假设配电站遵循某一控制算法并与电动汽车交互,或所有电动汽车遵循同一控制算法。首先,这会导致可扩展性问题。其次,电动汽车车主会担心传输到聚合器的信息隐私泄露。此外,聚合器上的单节点故障可能会导致整个***崩溃,从而产生对备份***的需求。
为了解决这一问题,本申请实施例提供了一种基于分布式深度强化学习的协调充电方法,该方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了基于分布式深度强化学习的协调充电方法的稳定性和可扩展性,此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种基于分布式深度强化学习的协调充电方法,如图1所示,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电方法包括:
S101:基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息。
所述智能体获取的历史电价信息是指所述智能体获取的该智能体所在地从当前时刻起,过去一段时间内的电价信息,例如可以是目标地所在地过去24小时内的电价信息,或者还可以是目标地所在地过去36小时或48小时等时间段内的电价信息。
所述通信模型可选为CommNet模型,第一神经网络的分布式调度过程利用了该通信模型,每个智能体将各自的状态信息作为通信消息发送到信道,然后通过访问广播通信结构来共享信息,而来自其他智能体的状态平均值作为下一层的输入之一。智能体之间存在通信交互的***能在具有大规模数据的场景中有良好表现。
参考图2,图2示出了CommNet模型的模型图,在CommNet的完整模型中,输入每个智能体的状态信息,通过两个通信步骤,将所有智能体的状态信息映射到它们的行为。在每个通信步骤T1,T2中,模块 传播它们的内部状态h,同时在公共信道上广播通信向量c。具体过程为,每个模块接收两个输入向量:隐藏状态向量和通信向量并输出向量它们的计算如下: 其中mean表示取隐藏状态向量的平均值获得通信向量;而的具体结构如图3所示,即其中Hm,Cm为相应的系数。输出层为softmax激活函数:输出output表示在t时刻观察到第n个智能体状态为时选择行为的概率,从而选择各自的行为。
除所述智能体获取的历史电价信息之外,在本申请的一些实施例中,所述智能体的状态信息还可以包括智能体的荷电状态、变压器负载状态、智能***置状态等信息。
S102:根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息。
在本申请的一个可选实施例中,步骤S102具体包括:将所述智能体获取的历史电价信息输入预先训练的长短时记忆网络(Long Short-Term Memory,LSTM)中,以获取所述预先训练的长短时记忆网络输出的与所述智能体对应的电价预测信息。
长短时记忆网络也可称为长短期记忆人工神经网络,是一种时间循环神经网络,参考图4,图4示出了本申请实施例中使用的长短时记忆网络的结构示意图,采取长短时记忆网络的目的是为了利用历史电价信息这样的连续信息,来提取包含未来电价趋势信息的特征。仍然参考图2,它的输入是过去24小时的电价Pt,输出为特征Ft={ft n(n=1,2,…,5)}(t=1,…,T),完整序列的长短时记忆网络展开是23层神经网络,每一层神经网络在图2中以LSTM Cell表示。在图4中,具体来说,第一层神经网络的输入为dt-22=pt-22-pt-23,其中pt-22和pt-23分别表示智能体在t-22,t-23时刻获取到的电价。yt-22为第一层神经网络的输出,它包含了过去的电价信息,ct-22为它的单元状态。然后yt-22和ct-22被传递到第二层神经网络,以此类推,此过程一直重复到最后一层神经网络。
对于具有不确定性的电价进行特征提取,获得对未来价格趋势的预测信息,能在下面的步骤S103中更好地逼近第二神经网络中的行为价值函数,使方法的收敛性能得到进一步提升。
S103:基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
所述深度强化学习网络包括actor网络和critic网络,其中,actor(玩家)网络只要负责动作(Action)生成并和环境交互,critic(评委)网络主要负责评估actor网络的表现,并指导actor网络下一阶段的动作。
本实施例中提供的基于分布式深度强化学习的协调充电方法的“分布式”这一特征的实现主要是指用于多个智能体上的分布式计算,该分布式计算通过第一神经网络实现,即将智能体之间的通信交互建立为CommNet等通信模型,然后在该通信模型上进行分布式计算来获取最优策略。
此外,本申请实施例提供的基于分布式深度强化学习的协调充电方法在避免电网过载的前提下,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值(即保证每个智能体的电池电量充足)。
在最小化能源成本这一目的的实现过程中,除了依靠更新深度强化学习网络的网络参数之外,还依靠了所述电价预测信息,电价预测信息中可包含电价趋势信息的特征,利用这些特征提出的调度策略可使充电成本最小。在更新深度强化学习网络的网络参数使损失函数最小和预期回报最大的过程即最大化总奖励的过程,而能源成本与总奖励的分量成反比,故实现了最小化能源成本的目的。
保证每个智能体的电池电量大于预设阈值的目的主要依靠训练深度强化学习网络的网络参数来实现。更新深度强化学习网络的网络参数以使损失函数最小和预期回报最大,即最大化总奖励,而保证智能体具有足够电池电量这一目标通过总奖励的分量来量化表征,且与总奖励的分量成正比,因此,最大化总奖励就可以实现保证智能体具有足够电池电量的目的。
在具体执行步骤S103之前,通常需要进行深度神经网络的初始化过程,参考图5,所述基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数之前还包括:
S104:初始化所述第一神经网络的权重以及所述第二神经网络的权重;
在本实施例中,所述第一神经网络的权重以θμ表示,所述第二神经网络的权重以θQ表示。步骤S104的具体可行执行方式可包括:用Xavier初始化器来初始化权重θQ,θμ。
S105:利用所述第一神经网络的权重初始化所述第一神经网络的目标网络的权重;
S106:利用所述第二神经网络的权重初始化所述第二神经网络的目标网络的权重;
S107:初始化外循环的迭代次数,令外循环的迭代次数episode=0。
在初始化完成后,下面对深度神经网络的网络参数的更新过程的可行执行步骤进行描述。
在本申请的一个实施例中,参考图6,所述基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数包括:
S1031:外循环开始,episode=episode+1,初始化当前时刻t=1;
S1032:基于各个所述智能体的状态信息,初始化状态空间,所述状态空间表示为:其中,表示第n个智能体在t时刻的状态,Bt∈(0,1)表示智能体在t时刻的荷电状态,Lt={0,1}表示智能体在t时刻的位置,且0表示在家,1表示出行,ζt∈(0.6,1.2)表示变压器在t时刻的负载占最大期望负载的百分比,Pt=[pt×pt-1×…×pt-23]表示智能体在t,t-1,…,t-23时刻获取的电价;
所述状态空间中以向量的方式存储各个所述智能体的状态信息,如前文所述,所述智能体的状态信息至少包括智能体荷电状态、变压器负载状态、智能***置状态以及智能体获取的历史电价信息。举例来说,的值可以是[0.8,0.6,0,18.52,15.46,…,16.58],分别指当前智能体的荷电量为充满电的80%且智能体此刻在家;变压器负载为最大期望负载的60%;当前电价为18.52元/千瓦时,前一小时为15.46元/千瓦时,前23小时为16.58元/千瓦时。
内循环开始;
S1034:在仿真环境中实施所述行为空间对应的行为,并观察奖励空间以及下一时刻的状态空间St+1,所述奖励空间表示为: 其中,表示第n个智能体在t时刻得到的奖励,rb,t=50*Bt表示智能体所有者对t时刻电池电量的满意度奖励; 表示对能源成本最小化程度的奖励,且pt表示智能体在t时刻获取到的电价,ct表示智能体在t时刻消耗的电量;ro,t={0,50}表示对避免变压器过载的奖励,且0表示变压器过载时的奖励,50表示变压器负载在期望范围内的奖励;
智能体在t时刻得到的奖励是指在每种状态下某个动作的累积回报,它将对动作的评价量化,可理解为一种用数值大小评价动作好坏的方式,无论具体取什么数据,对应的奖励种类都是一个数值,数值大小代表着对此动作的评价程度。
S1035:基于状态空间、行为空间、奖励空间和下一时刻的状态空间获取转移对,并将所述转移对存储到缓存区中,所述转移对表示为:ξ=(St,At,Rt,St+1);
S1036:判断所述缓存区是否满足更新开始条件,如果否,则令t=t+1,并返回根据为所有智能体的状态选择对应的行为空间的步骤;如果是,则更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重;
所述更新开始条件包括缓存区存储的转移对数量达到缓存区的最大存储量,即在缓存区存储的转移对数量达到缓存区的最大存储量时,判定所述缓存区满足更新开始条件,缓存区可以用Φ表示。
S1037:判断内循环的迭代次数是否大于或等于第一预设次数,如果否,则令t=t+1,并返回内循环开始的步骤,以进行新一次的内循环,如果是,则判断外循环的迭代次数是否大于第二预设次数,若是,则外循环结束,若否,则返回外循环开始的步骤,以进行新一次的外循环;
其中,所述更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重包括:
S10361:从缓存区中随机采集数量为预设数量的样本,所述样本表示为:ξi=(Si,t,Ai,t,Ri,t,Si,t+1),i=1,2,…,minibatch;并计算目标值 其中,Si,t表示t时刻第i个样本中的状态空间,Ai,t表示t时刻第i个样本中的行为空间,Ri,t表示t时刻第i个样本中的奖励空间,Si,t+1表示t时刻第i个样本中的下一时刻的状态空间,minibatch表示所述预设数量,δ表示第二神经网络更新的折扣因素;表示在状态Si,t+1通过第一神经网络的目标网络计算出的行为选择概率;表示在状态Si,t+1通过第二神经网络的目标网络执行行为后的行为价值函数;
S10362:利用随机梯度下降,针对第二神经网络的损失函数 来更新第二神经网络的权重θQ;其中,表示所述预设数量;Q(Si,t,Ai,t|θQ)表示在状态Si,t通过第二神经网络执行行为Ai,t后的行为价值函数。
S10363:利用随机梯度上升,针对第一神经网络的梯度 来更新第一神经网络的权重θμ;其中表示在状态Si,t通过第二神经网络执行行为μ(Si,t|θμ)后的行为价值函数的梯度;表示状态Si,t通过第一神经网络计算出的行为选择概率的梯度;
在图6所示的算法中,参考图7,图7示出了该算法中第二神经网络的结构图,从原始状态数据中提取电价特征是改善行为价值函数逼近的关键步骤。利用这些特征,最终选取的调度策略可以最小化奖励之一的充电成本。在critic网络的完整模型中,输入量为包含未来电价趋势信息的特征Ft、St中的Bt,ζt,Lt以及At,通过三层全连接神经网络以一致逼近函数Q(St,At),其中W为神经网络的权值。
下面对本申请实施例提供的基于分布式深度强化学习的协调充电***进行描述,下文描述的基于分布式深度强化学习的协调充电***可与上文描述的基于分布式深度强化学习的协调充电方法相互对应参照。
相应的,本申请实施例提供了一种基于分布式深度强化学习的协调充电***,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电***包括:
信息获取模块,用于基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
电价预测模块,用于根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
参数更新模块,用于基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
可选的,所述电价预测模块具体用于,将所述智能体获取的历史电价信息输入预先训练的长短时记忆网络中,以获取所述预先训练的长短时记忆网络输出的与所述智能体对应的电价预测信息。
可选的,还包括:
初始化模块,用于初始化所述第一神经网络的权重以及所述第二神经网络的权重;
利用所述第一神经网络的权重初始化所述第一神经网络的目标网络的权重;
利用所述第二神经网络的权重初始化所述第二神经网络的目标网络的权重;
初始化外循环的迭代次数,令外循环的迭代次数episode=0。
可选的,所述参数更新模块具体用于,外循环开始,episode=episode+1,初始化当前时刻t=1;
基于各个所述智能体的状态信息,初始化状态空间,所述状态空间表示为:其中,表示第n个目标体在t时刻的状态,Bt∈(0,1)表示智能体在t时刻的荷电状态,Lt={0,1}表示智能体在t时刻的位置,且0表示在家,1表示出行,ζt∈(0.6,1.2)表示变压器在t时刻的负载占最大期望负载的百分比,Pt=[pt×pt-1×…×pt-23]表示目标体在t,t-1,…,t-23时刻获取的电价;
内循环开始;
所述内循环包括:
在仿真环境中实施所述行为空间对应的行为,并观察奖励空间以及下一时刻的状态空间St+1,所述奖励空间表示为: 其中,表示第n个智能体在t时刻得到的奖励,rb,t=50*Bt表示智能体所有者对t时刻电池电量的满意度奖励;表示对能源成本最小化程度的奖励,且pt表示智能体在t时刻获取到的电价,ct表示智能体在t时刻消耗的电量;ro,t={0,50}表示对避免变压器过载的奖励,且0表示变压器过载时的奖励,50表示变压器负载在期望范围内的奖励;
基于状态空间、行为空间、奖励空间和下一时刻的状态空间获取转移对,并将所述转移对存储到缓存区中,所述转移对表示为:ξ=(St,At,Rt,St+1);
判断所述缓存区是否满足更新开始条件,如果否,则令t=t+1,并返回根据为所有智能体的状态选择对应的行为空间的步骤;如果是,则更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重;
判断内循环的迭代次数是否大于或等于第一预设次数,如果否,则令t=t+1,并返回内循环开始的步骤,以进行新一次的内循环,如果是,则判断外循环的迭代次数是否大于第二预设次数,若是,则外循环结束,若否,则返回外循环开始的步骤,以进行新一次的外循环;
可选的,所述参数更新模块更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重的过程具体包括:
从缓存区中随机采集数量为预设数量的样本,所述样本表示为:ξi=(Si,t,Ai,t,Ri,t,Si,t+1),i=1,2,…,minibatch;并计算目标值 其中,Si,t表示t时刻第i个样本中的状态空间,Ai,t表示t时刻第i个样本中的行为空间,Ri,t表示t时刻第i个样本中的奖励空间,Si,t+1表示t时刻第i个样本中的下一时刻的状态空间,minibatch表示所述预设数量,δ表示第二神经网络更新的折扣因素;表示在状态Si,t+1通过第一神经网络的目标网络计算出的行为选择概率;表示在状态Si,t+1通过第二神经网络的目标网络执行行为后的行为价值函数;
利用随机梯度上升,针对第一神经网络的梯度 来更新第一神经网络的权重θμ;其中表示在状态Si,t通过第二神经网络执行行为μ(Si,t|θμ)后的行为价值函数的梯度;表示状态Si,t通过第一神经网络计算出的行为选择概率的梯度;
综上所述,本申请实施例提供了一种基于分布式深度强化学习的协调充电方法及协调充电***,其中,所述基于分布式深度强化学习的协调充电方法基于通信模型获取各个智能体的状态信息,并基于所述智能体的状态信息以及基于状态信息获取的电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,所述深度强化学习网络包括第一神经网络和第二神经网络,即本申请实施例提供的协调充电方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了基于分布式深度强化学习的协调充电方法的稳定性和可扩展性,此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。
本说明书中各实施例中记载的特征可以相互替换或者组合,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于分布式深度强化学习的协调充电方法,其特征在于,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电方法包括:
基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
2.根据权利要求1所述的方法,其特征在于,所述根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息包括:
将所述智能体获取的历史电价信息输入预先训练的长短时记忆网络中,以获取所述预先训练的长短时记忆网络输出的与所述智能体对应的电价预测信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数之前还包括:
初始化所述第一神经网络的权重以及所述第二神经网络的权重;
利用所述第一神经网络的权重初始化所述第一神经网络的目标网络的权重;
利用所述第二神经网络的权重初始化所述第二神经网络的目标网络的权重;
初始化外循环的迭代次数,令外循环的迭代次数episode=0。
4.根据权利要求3所述的方法,其特征在于,所述基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数包括:
外循环开始,episode=episode+1,初始化当前时刻t=1;
基于各个所述智能体的状态信息,初始化状态空间,所述状态空间表示为:其中,表示第n个目标体在t时刻的状态,Bt∈(0,1)表示智能体在t时刻的荷电状态,Lt={0,1}表示智能体在t时刻的位置,且0表示在家,1表示出行,ζt∈(0.6,1.2)表示变压器在t时刻的负载占最大期望负载的百分比,Pt=[pt×pt-1×…×pt-23]表示目标体在t,t-1,…,t-23时刻获取的电价;
内循环开始;
所述内循环包括:
在仿真环境中实施所述行为空间对应的行为,并观察奖励空间以及下一时刻的状态空间St+1,所述奖励空间表示为: 其中,表示第n个智能体在t时刻得到的奖励,rb,t=50*Bt表示智能体所有者对t时刻电池电量的满意度奖励;表示对能源成本最小化程度的奖励,且pt表示智能体在t时刻获取到的电价,ct表示智能体在t时刻消耗的电量;ro,t={0,50}表示对避免变压器过载的奖励,且0表示变压器过载时的奖励,50表示变压器负载在期望范围内的奖励;
基于状态空间、行为空间、奖励空间和下一时刻的状态空间获取转移对,并将所述转移对存储到缓存区中,所述转移对表示为:ξ=(St,At,Rt,St+1);
判断所述缓存区是否满足更新开始条件,如果否,则令t=t+1,并返回根据为所有智能体的状态选择对应的行为空间的步骤;如果是,则更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重;
判断内循环的迭代次数是否大于或等于第一预设次数,如果否,则令t=t+1,并返回内循环开始的步骤,以进行新一次的内循环,如果是,则判断外循环的迭代次数是否大于第二预设次数,若是,则外循环结束,若否,则返回外循环开始的步骤,以进行新一次的外循环;
5.根据权利要求4所述的方法,其特征在于,所述更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重包括:
从缓存区中随机采集数量为预设数量的样本,所述样本表示为:ξi=(Si,t,Ai,t,Ri,t,Si,t+1),i=1,2,…,minibatch;并计算目标值 其中,Si,t表示t时刻第i个样本中的状态空间,Ai,t表示t时刻第i个样本中的行为空间,Ri,t表示t时刻第i个样本中的奖励空间,Si,t+1表示t时刻第i个样本中的下一时刻的状态空间,minibatch表示所述预设数量,δ表示第二神经网络更新的折扣因素;表示在状态Si,t+1通过第一神经网络的目标网络计算出的行为选择概率;表示在状态Si,t+1通过第二神经网络的目标网络执行行为后的行为价值函数;
利用随机梯度上升,针对第一神经网络的梯度 来更新第一神经网络的权重θμ;其中表示在状态Si,t通过第二神经网络执行行为μ(Si,t|θμ)后的行为价值函数的梯度;表示状态Si,t通过第一神经网络计算出的行为选择概率的梯度;
6.一种基于分布式深度强化学习的协调充电***,其特征在于,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电***包括:
信息获取模块,用于基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
电价预测模块,用于根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
参数更新模块,用于基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
7.根据权利要求6所述的***,其特征在于,所述电价预测模块具体用于,将所述智能体获取的历史电价信息输入预先训练的长短时记忆网络中,以获取所述预先训练的长短时记忆网络输出的与所述智能体对应的电价预测信息。
8.根据权利要求6所述的***,其特征在于,还包括:
初始化模块,用于初始化所述第一神经网络的权重以及所述第二神经网络的权重;
利用所述第一神经网络的权重初始化所述第一神经网络的目标网络的权重;
利用所述第二神经网络的权重初始化所述第二神经网络的目标网络的权重;
初始化外循环的迭代次数,令外循环的迭代次数episode=0。
9.根据权利要求8所述的***,其特征在于,所述参数更新模块具体用于,外循环开始,episode=episode+1,初始化当前时刻t=1;
基于各个所述智能体的状态信息,初始化状态空间,所述状态空间表示为:其中,表示第n个目标体在t时刻的状态,Bt∈(0,1)表示智能体在t时刻的荷电状态,Lt={0,1}表示智能体在t时刻的位置,且0表示在家,1表示出行,ζt∈(0.6,1.2)表示变压器在t时刻的负载占最大期望负载的百分比,Pt=[pt×pt-1×…×pt-23]表示目标体在t,t-1,…,t-23时刻获取的电价;
内循环开始;
所述内循环包括:
在仿真环境中实施所述行为空间对应的行为,并观察奖励空间以及下一时刻的状态空间St+1,所述奖励空间表示为: 其中,表示第n个智能体在t时刻得到的奖励,rb,t=50*Bt表示智能体所有者对t时刻电池电量的满意度奖励;表示对能源成本最小化程度的奖励,且pt表示智能体在t时刻获取到的电价,ct表示智能体在t时刻消耗的电量;ro,t={0,50}表示对避免变压器过载的奖励,且0表示变压器过载时的奖励,50表示变压器负载在期望范围内的奖励;
基于状态空间、行为空间、奖励空间和下一时刻的状态空间获取转移对,并将所述转移对存储到缓存区中,所述转移对表示为:ξ=(St,At,Rt,St+1);
判断所述缓存区是否满足更新开始条件,如果否,则令t=t+1,并返回根据为所有智能体的状态选择对应的行为空间的步骤;如果是,则更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重;
判断内循环的迭代次数是否大于或等于第一预设次数,如果否,则令t=t+1,并返回内循环开始的步骤,以进行新一次的内循环,如果是,则判断外循环的迭代次数是否大于第二预设次数,若是,则外循环结束,若否,则返回外循环开始的步骤,以进行新一次的外循环;
10.根据权利要求9所述的***,其特征在于,所述参数更新模块更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重的过程具体包括:
从缓存区中随机采集数量为预设数量的样本,所述样本表示为:ξi=(Si,t,Ai,t,Ri,t,Si,t+1),i=1,2,…,minibatch;并计算目标值 其中,Si,t表示t时刻第i个样本中的状态空间,Ai,t表示t时刻第i个样本中的行为空间,Ri,t表示t时刻第i个样本中的奖励空间,Si,t+1表示t时刻第i个样本中的下一时刻的状态空间,minibatch表示所述预设数量,δ表示第二神经网络更新的折扣因素;表示在状态Si,t+1通过第一神经网络的目标网络计算出的行为选择概率;表示在状态Si,t+1通过第二神经网络的目标网络执行行为后的行为价值函数;
利用随机梯度上升,针对第一神经网络的梯度 来更新第一神经网络的权重θμ;其中表示在状态Si,t通过第二神经网络执行行为μ(Si,t|θμ)后的行为价值函数的梯度;表示状态Si,t通过第一神经网络计算出的行为选择概率的梯度;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011470610.XA CN114619907B (zh) | 2020-12-14 | 2020-12-14 | 基于分布式深度强化学习的协调充电方法及协调充电*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011470610.XA CN114619907B (zh) | 2020-12-14 | 2020-12-14 | 基于分布式深度强化学习的协调充电方法及协调充电*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114619907A true CN114619907A (zh) | 2022-06-14 |
CN114619907B CN114619907B (zh) | 2023-10-20 |
Family
ID=81896971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011470610.XA Active CN114619907B (zh) | 2020-12-14 | 2020-12-14 | 基于分布式深度强化学习的协调充电方法及协调充电*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114619907B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997935A (zh) * | 2022-07-19 | 2022-09-02 | 东南大学溧阳研究院 | 一种基于内点策略优化的电动汽车充放电策略优化方法 |
CN116691419A (zh) * | 2023-08-03 | 2023-09-05 | 浙江大学 | 弱链接通信下深度强化学习的电动汽车自主充电控制方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100179704A1 (en) * | 2009-01-14 | 2010-07-15 | Integral Analytics, Inc. | Optimization of microgrid energy use and distribution |
CN103456099A (zh) * | 2013-08-26 | 2013-12-18 | 东南大学 | 一种基于实时电价的***式电动汽车充电控制方法 |
CN110248839A (zh) * | 2016-12-19 | 2019-09-17 | 法国电力公司 | 适用于电动汽车充电的*** |
CN110309968A (zh) * | 2019-06-28 | 2019-10-08 | 万帮充电设备有限公司 | 一种基于桩群预测充电量的动态定价***及方法 |
CN110374804A (zh) * | 2019-07-03 | 2019-10-25 | 西安交通大学 | 一种基于深度确定性策略梯度补偿的变桨距控制方法 |
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN110945542A (zh) * | 2018-06-29 | 2020-03-31 | 东莞理工学院 | 一种基于智能电网的多智能体深度强化学习代理方法 |
CN111725836A (zh) * | 2020-06-18 | 2020-09-29 | 上海电器科学研究所(集团)有限公司 | 一种基于深度强化学习的需求响应控制方法 |
-
2020
- 2020-12-14 CN CN202011470610.XA patent/CN114619907B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100179704A1 (en) * | 2009-01-14 | 2010-07-15 | Integral Analytics, Inc. | Optimization of microgrid energy use and distribution |
CN103456099A (zh) * | 2013-08-26 | 2013-12-18 | 东南大学 | 一种基于实时电价的***式电动汽车充电控制方法 |
CN110248839A (zh) * | 2016-12-19 | 2019-09-17 | 法国电力公司 | 适用于电动汽车充电的*** |
CN110945542A (zh) * | 2018-06-29 | 2020-03-31 | 东莞理工学院 | 一种基于智能电网的多智能体深度强化学习代理方法 |
CN110309968A (zh) * | 2019-06-28 | 2019-10-08 | 万帮充电设备有限公司 | 一种基于桩群预测充电量的动态定价***及方法 |
CN110374804A (zh) * | 2019-07-03 | 2019-10-25 | 西安交通大学 | 一种基于深度确定性策略梯度补偿的变桨距控制方法 |
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN111725836A (zh) * | 2020-06-18 | 2020-09-29 | 上海电器科学研究所(集团)有限公司 | 一种基于深度强化学习的需求响应控制方法 |
Non-Patent Citations (1)
Title |
---|
YIJUN CHENG, JUN PENG, XIN GU, FU JIANG, HENG LI, WEIRONG LIU, ZHIWU HUANG: "Optimal Energy Management of Energy Internet: A Distributed Actor-Critic Reinforcement Learning Method", 2020 AMERICAN CONTROL CONFERENCE, pages 521 - 526 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997935A (zh) * | 2022-07-19 | 2022-09-02 | 东南大学溧阳研究院 | 一种基于内点策略优化的电动汽车充放电策略优化方法 |
CN116691419A (zh) * | 2023-08-03 | 2023-09-05 | 浙江大学 | 弱链接通信下深度强化学习的电动汽车自主充电控制方法 |
CN116691419B (zh) * | 2023-08-03 | 2023-11-14 | 浙江大学 | 弱链接通信下深度强化学习的电动汽车自主充电控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114619907B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Mobility-aware charging scheduling for shared on-demand electric vehicle fleet using deep reinforcement learning | |
CN109347149B (zh) | 基于深度q值网络强化学习的微电网储能调度方法及装置 | |
CN111934335B (zh) | 一种基于深度强化学习的集群电动汽车充电行为优化方法 | |
CN110659796B (zh) | 一种可充电群车智能中的数据采集方法 | |
CN113627993A (zh) | 一种基于深度强化学习的智能电动汽车充放电决策方法 | |
CN114997631B (zh) | 一种电动汽车充电调度方法、装置、设备及介质 | |
CN113515884A (zh) | 分散式电动汽车实时优化调度方法、***、终端及介质 | |
CN116001624A (zh) | 基于深度强化学习的一桩多联电动汽车有序充电方法 | |
CN112633571A (zh) | 源网荷互动环境下基于lstm的超短期负荷预测方法 | |
CN114619907B (zh) | 基于分布式深度强化学习的协调充电方法及协调充电*** | |
CN111798121B (zh) | 一种面向电动汽车能源管理调度的分布式协同优化方法 | |
CN113326994A (zh) | 一种考虑源荷储互动的虚拟电厂能量协同优化方法 | |
Tao et al. | Data-driven on-demand energy supplement planning for electric vehicles considering multi-charging/swapping services | |
CN117565727B (zh) | 基于人工智能的无线充电自动控制方法及*** | |
Zhang et al. | A safe reinforcement learning-based charging strategy for electric vehicles in residential microgrid | |
CN114548644A (zh) | 基于电动汽车与充电设施动态匹配的配电网双层调度方法及*** | |
CN114611811B (zh) | 基于ev负荷参与度的低碳园区优化调度方法及*** | |
CN115395544A (zh) | 电动汽车充放电速率控制***与方法 | |
CN114154729A (zh) | 一种混合动力汽车复合储能***能量管理***及方法 | |
Dedeoglu et al. | Federated learning based demand reshaping for electric vehicle charging | |
CN118095783B (zh) | 一种电动汽车充电规划方法及装置 | |
CN117833307B (zh) | 一种基于近似集体策略和独立学习器的家庭微网群优化方法 | |
Li et al. | Reinforcement Learning Assisted Deep Learning for Probabilistic Charging Power Forecasting of EVCS | |
CN111049125B (zh) | 一种基于机器学习的电动车智能接入控制方法 | |
CN109094418B (zh) | 基于逐层优化策略的电动汽车主动排序充电控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Qin Jiahu Inventor after: Zhang Zilin Inventor after: Wan Yanni Inventor before: Zhang Zilin Inventor before: Qin Jiahu Inventor before: Wan Yanni |
|
CB03 | Change of inventor or designer information |