CN116436019B

CN116436019B - 一种多资源协调优化方法、装置及存储介质

Info

Publication number: CN116436019B
Application number: CN202310384258.5A
Authority: CN
Inventors: 孙磊; 郭东亮; 肖鹏; 杨景刚; 邵剑; 刘建军; 孙蓉; 陈杰; 杨立恒; 陈大兵; 张晓琴; 杜子韦华; 朱洪斌; 余翔
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2024-01-23
Anticipated expiration: 2043-04-12
Also published as: CN116436019A

Abstract

本发明公开了一种多资源协调优化方法、装置及存储介质，本发明基于以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本目标的第一多资源协调模型构建多资源协调优化神经网络，根据捕获的电动汽车、能源站、配电网状态信息、以及多资源协调优化神经网络，获得能源站充电桩继电模块优选的动作时刻，通过控制电动汽车的电气接入时间，实现电动汽车停车时间窗口内的多资源协调优化，能够合理解决充电站超期滞留问题，提高充电站运行效率。

Description

一种多资源协调优化方法、装置及存储介质

技术领域

本发明涉及一种多资源协调优化方法、装置及存储介质，属于电动汽车能源站能量调度技术领域。

背景技术

电动汽车作为环境友好型交通工具在近些年受到了诸多关注，然而，电动汽车用户充电难、充电设施资源分布不均衡等问题阻碍了电动汽车的友好发展，特别地，电动汽车到站后不立即进行充电操作、以及电池充满电后仍占据充电桩的行为普遍存在，即“超期滞留现象”。为了解决用户充电需求与充电站资源不匹配问题，提高电动汽车用户充电良好体验，对电动汽车能源站多资源协调优化调度是实现电动汽车友好互动的必要前提，但是目前还没有相应的技术。

发明内容

本发明提供了一种多资源协调优化方法、装置及存储介质，解决了背景技术中披露的问题。

为了解决上述技术问题，本发明所采用的技术方案是：

一种多资源协调优化方法，包括：

获取电动汽车、能源站、配电网的状态信息；

将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络，获得作为多资源协调优化结果的能源站充电桩继电模块优选的动作时刻；其中，多资源协调优化神经网络基于第一多资源协调模型构建，第一多资源协调模型以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标。

电动汽车、能源站、配电网的状态信息包括：

电动汽车抵达能源站的时间、电动汽车抵达能源站的荷电状态、电动汽车离开能源站的时间、电动汽车离开能源站的期望荷电状态、能源站光伏出力、能源站储能***剩余电量、能源站内总充电负荷和配电网实时电价。

基于第一多资源协调模型构建多资源协调优化神经网络的过程包括：

将第一多资源协调模型，转换为基于有限马尔科夫决策过程的多资源协调模型；

根据基于有限马尔科夫决策过程的多资源协调模型，构建多资源协调优化神经网络。

第一多资源协调模型的优化目标为：

max r^EV＝-λ^EV(S^exp-S^lea)

式中，r^EV为电动汽车充电满意度奖励，λ^EV为电动汽车充电未完成惩罚系数，S^exp为电动汽车期望荷电状态，S^lea为电动汽车离开能源站的实际荷电状态；

式中，r^CS为能源站运行成本奖励，T^arr为电动汽车抵达能源站的时间，T^lea为电动汽车离开能源站的时间，为t′时刻配电网向能源站提供的功率，/>为t′时刻配电网工业分时电价，Δt′为时间粒度，/>为t′时刻能源站储能***充放电功率，λ^ESS为能源站储能***耗损成本系数；

式中，r^PV为光伏能源消纳奖励，为t′时刻光伏可发电功率，/>为t′时刻光伏实际发电功率，λ^PV为光伏弃光惩罚系数。

基于有限马尔科夫决策过程的多资源协调模型中：

有限马尔科夫决策过程的状态包括电动汽车、能源站、配电网的状态信息；

有限马尔科夫决策过程的动作为能源站充电桩继电模块动作时刻；

有限马尔科夫决策过程的奖励为电动汽车充电满意度奖励、能源站运行成本奖励和光伏能源消纳奖励之和。

基于有限马尔科夫决策过程的多资源协调模型，包括：

s＝{T^arr,S^arr,T^lea,S^exp,P^PV,E^ESS,P^EV,λ^G}

式中，s为状态，T^arr为电动汽车抵达能源站的时间，S^arr为电动汽车抵达能源站的荷电状态，T^lea为电动汽车离开能源站的时间，S^exp为电动汽车离开能源站的期望荷电状态，P^PV为能源站光伏出力，E^ESS为能源站储能***剩余电量，P^EV为能源站内总充电负荷，λ^G为配电网实时电价；

a＝κ,κ∈[0,T_i ^park]

式中，a为动作，κ为能源站充电桩继电模块动作时刻，T_i ^park为电动汽车到达能源站车位后的在站等待时间；

r＝r^EV+r^CS+r^PV

式中，r为奖励，r^EV为电动汽车充电满意度奖励，r^CS为能源站运行成本奖励，r^PV为光伏能源消纳奖励；

式中，π为从状态映射到充电计划的策略，Q为状态-动作值函数，s_t为t时刻的状态，s_t+1为t+1时刻的状态，r_t为t时刻的奖励，a_t为t时刻的动作，γ为奖励折扣率，a′为t+1时刻的动作，E为期望。

多资源协调优化神经网络包括结构一致的评估网络和目标网络，均为深度Q网络，由评估网络得到能够获得最大动作-价值函数值的动作S1，再由目标网络计算动作S1所对应的动作-价值函数值；

在训练时，评估网络输入t时刻的状态和动作，目标网络输入t+1时刻的状态，评估网络和目标网络输出动作-价值函数；损失函数根据t时刻的奖励、评估网络的输出和目标网络的输出构建；评估网络每隔预设迭代次数后，将自身的参数复制给目标网络；

训练后，评估网络根据电动汽车、能源站、配电网的状态信息，输出能源站充电桩继电模块动作时刻。

多资源协调优化神经网络的损失函数为：

式中，L(θ)为损失函数，r_t为t时刻的奖励，γ为奖励折扣率，Q(s_t,a_t；θ⁺)为评估网络输出的动作-价值函数，s_t为t时刻的状态，a_t为t时刻的动作，θ⁺为评估网络参数，为目标网络输出的动作-价值函数，s_t+1为t+1时刻的状态，a′为t+1时刻的动作，θ^-为目标网络参数。

多资源协调优化神经网络基于优先回放缓存机制训练，在优先回放缓存机制中，根据损失函数的损失值设置训练样本的抽取概率，根据抽取概率抽取训练样本，训练多资源协调优化神经网络。

训练样本抽取概率P的公式为：

其中，ω为决定分布形状的超参数。

评估网络和目标网络均通过状态价值以及动作优势的组合输出动作-价值函数值。

深度Q网络的学习率根据迭代次数衰减；

衰减公式为：

α＝c_decayα₀

式中，α为衰减的学习率，α₀为初始学习率，为衰减系数，/>为余弦系数，α_min为最小学习率，n为当前迭代次数，d_episode当前衰减次数。

一种多资源协调优化装置，包括：

获取模块，用以获取电动汽车、能源站、配电网的状态信息；

协调优化模块，用以将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络，获得作为多资源协调优化结果的能源站充电桩继电模块优选的动作时刻；其中，多资源协调优化神经网络基于第一多资源协调模型构建，第一多资源协调模型以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标。

协调优化模块中，多资源协调优化神经网络构建的过程包括：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行多资源协调优化方法。

本发明所达到的有益效果：本发明基于以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标为目标的第一多资源协调模型构建多资源协调优化神经网络，根据捕获的电动汽车、能源站、配电网状态信息、以及多资源协调优化神经网络，获得能源站充电桩继电模块优选的动作时刻，通过控制电动汽车的电气接入时间，实现电动汽车停车时间窗口内的多资源协调优化，能够合理解决充电站超期滞留问题，提高充电站运行效率。

附图说明

图1为多资源协调优化方法的流程图；

图2为多资源协调优化方法的架构图；

图3为电动汽车能源站协调控制功率平衡图；

图4为电动汽车能源站多运行场景下结果对比图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种多资源协调优化方法，包括以下步骤：

步骤1，获取电动汽车、能源站、配电网的状态信息。

步骤2，将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络，获得作为多资源协调优化结果的能源站充电桩继电模块动作时刻；其中，多资源协调优化神经网络基于第一多资源协调模型构建，第一多资源协调模型以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标。

上述方法基于以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标的第一多资源协调模型构建多资源协调优化神经网络，根据捕获的电动汽车、能源站、配电网状态信息、以及多资源协调优化神经网络，获得能源站充电桩继电模块优选的动作时刻，通过控制电动汽车的电气接入时间，实现电动汽车停车时间窗口内的多资源协调优化，能够合理解决充电站超期滞留问题，提高充电站运行效率。

在实施上述方法之前需要预先构建并训练多资源协调优化神经网络，在构建神经网络之前，可以对“电动汽车-能源站-配电网”进行分析，构建以提高电动汽车充电满意度、提高光伏能源消纳、降低能源站运行成本为目标的第一多资源协调模型。

第一多资源协调模型的优化目标具体如下：

A、电动汽车充电满意度

能源站最根本的任务在于满足电动汽车充电需求，电动汽车充电满意度用公式可表示为：

r^EV＝-λ^EV(S^exp-S^lea)

式中，r^EV为电动汽车充电满意度奖励，λ^EV为电动汽车充电未完成惩罚系数，S^exp为电动汽车期望荷电状态，S^lea为电动汽车离开能源站的实际荷电状态。

这里将电动汽车开始充电时间作为动作选择的一部分，可能会出现选取时间过晚导致电动汽车离开时未充满电的情况。

B、能源站运行成本

能源站在运行过程中的成本主要为向电网购电成本，然而，考虑到一体化充电站储能***充放电对其寿命的影响，这里将购电成本以及储能充放电成本作为能源站运行成本，用公式可表示为：

式中，r^CS为能源站运行成本奖励，T^arr为电动汽车抵达能源站的时间，T^lea为电动汽车离开能源站的时间，为t′时刻配电网向能源站提供的功率，/>为t′时刻配电网工业分时电价，Δt′为时间粒度，/>为t′时刻能源站储能***充放电功率，λ^ESS为能源站储能***耗损成本系数。

C、光伏能源消纳

光伏弃光惩罚的引入可促进能源站设备资源与电动汽车的友好互动，提高光伏***利用率，促进充电站设备资源的高效利用，这里光伏能源消纳公式可表示为：

式中，r^PV为光伏能源消纳奖励，为t′时刻光伏可发电功率，/>为t′时刻光伏实际发电功率，λ^PV为光伏弃光惩罚系数，取0.1元/kWh。

因此具体的目标函数可表示为：

maxr^EV＝-λ^EV(S^exp-S^lea)

运行约束条件具体如下：

a、充电时间约束，用公式可表示为：

T^arr≤t_st≤T^lea-t_c

式中，t_st为电动汽车开始充电时间，t_c为电动汽车充电时长。

b、功率平衡约束，用公式可表示为：

当储能处于充电状态时：

P_EV(t)/η₁＝P_PV(t)η₁+P_G(t)η₂+P_B(t)/η₁

当储能处于放电状态时：

P_EV(t)/η₁＝P_PV(t)η₁+P_G(t)η₂+P_B(t)/η₁

式中，P_EV(t)、P_PV(t)、P_G(t)分别为t时刻电动汽车充电功率、光伏出力和电网提供的功率，P_B(t)为储能***电池充放电功率，储能处于充电状态时P_B(t)为正值，储能处于放电状态时P_B(t)为负值，η₁、η₂分别为DC/DC模块和AC/DC模块的效率。

c、储能***荷电状态约束，用公式可表示为：

SOC_min≤SOC(t)≤SOC_max

式中，SOC(t)为储能***荷电状态，SOC_min、SOC_max分别为SOC(t)的下限和上限。

d、储能***充放电功率约束，用公式可表示为：

|P_B(t)|≤P_B.max

式中，P_B.max为储能***变流模块的最大功率。

为适配人工智能，需要进一步将第一多资源协调模型，转换为基于有限马尔科夫决策过程的多资源协调模型，该模型主要包括状态、动作、奖励和状态-动作值函数，其中，状态可以包括电动汽车、能源站、配电网的状态信息，动作为能源站充电桩继电模块动作时刻，奖励为电动汽车充电满意度奖励、能源站运行成本奖励和光伏能源消纳奖励之和。

具体可以如下：

1、状态是深度强化学习中智能体对外界环境的感知信息，状态空间则是环境信息的集合。为准确、有效捕捉环境信息，避免信息冗余，将智能体对环境的感知分为电动汽车、能源站、配电网三方面，因此状态可用公式表示为：

s＝{T^arr,S^arr,T^lea,S^exp,P^PV,E^ESS,P^EV,λ^G}

式中，s为状态，T^arr为电动汽车抵达能源站的时间，S^arr为电动汽车抵达能源站的荷电状态，T^lea为电动汽车离开能源站的时间，S^exp为电动汽车离开能源站的期望荷电状态，T^arr、S^arr、T^lea和S^exp为电动汽车状态信息，P^PV为能源站光伏出力，E^ESS为能源站储能***剩余电量，P^EV为能源站内总充电负荷，P^PV、E^ESS和P^EV为能源站状态信息，λ^G为配电网实时电价，为配电网状态信息。

2、动作是智能体针对环境状态所采取的行动。针对能源站普遍存在的“超期滞留”问题，结合环境状态进行充电桩继电模块的启动时间控制，因此动作可用公式表示为：

a＝κ,κ∈[0,T_i ^park]

式中，a为动作，κ为能源站充电桩继电模块动作时刻，表示该电动汽车接入充电站直流母线，T_i ^park为电动汽车到达能源站车位后的在站等待时间。

需要注意到，κ的选取范围并不能保证电动汽车离开时达到期望SOC，因此须通过奖励函数对智能体的动作选取作进一步优化与引导。

3、奖励代表特定状态下智能体选取动作后所获得的及时反馈，是训练智能体学习某一能力或实现某一目标的最重要环节。考虑到电动汽车充电过程涉及多方面参与主体，因此奖励可用公式表示为：

式中，r为奖励。

4、强化学习算法中，采用状态-动作值函数Q(s_t,a_t)来评价状态s_t时采取动作a_t的好坏，动作-价值函数的贝尔曼方程可表示为：

式中，π为从状态映射到充电计划的策略，Q为状态-动作值函数，s_t为t时刻的状态，s_t+1为t+1时刻的状态，r_t为t时刻的奖励，a_t为t时刻的动作，γ为奖励折扣率，取值范围为[0,1]，γ接近于0时意味着智能体更在意短期回报，接近1时说明智能体更在意长期回报，a′为t+1时刻的动作，E为期望。

在Q学习框架基础上，深度Q网络(deep Q network,DQN)以深度神经网络代替Q表进行函数逼近，拟合状态-动作与Q值(即动作-价值函数值)的映射关系，其贝尔曼迭代方程可表示为：

式中：Q(s_t,a_t；θ⁺)为动作-价值函数的贝尔曼方程，为Q(s_t,a_t)展开后的形式，α为学习率，用于权衡先验知识与当前评估结果的重要性，其接近0时表示智能体倾向于利用先验知识，接近1时则倾向于当前估计值而忽略先前的信息，θ⁺为评估网络参数，θ^-为目标网络参数，r_t为t时刻的奖励，s_t+1为t+1时刻的状态，a′为t+1时刻的动作，s_t为t时刻的状态，a_t为t时刻的动作，γ为奖励折扣率。

根据基于有限马尔科夫决策过程的多资源协调模型，可进一步构建多资源协调优化神经网络，见图2。

多资源协调优化神经网络包括结构一致的评估网络和目标网络，两个网络均采用深度Q网络，由评估网络得到能够获得最大Q值的动作S1，再由目标网络计算动作S1所对应的Q值，有效缓解了Q值过估计现象。

为了进一步提高网络的稳定性，本发明对深度Q网络进行了结构改进，具体是通过状态价值以及动作优势的组合输出Q值，在频繁出现智能体采取不同动作但对应值函数差距微小的情形下，能够去除多余自由度，从而提高算法稳定性。

深度Q网络的传统训练方式是：基于均匀概率随机抽样历史样本进行训练，存在泛化性能、收敛性能以及计算性能不足的问题，而本发明基于优先回放缓存机制训练，在优先回放缓存机制中，根据损失函数的损失值设置训练样本的抽取概率，根据抽取概率抽取训练样本，训练多资源协调优化神经网络。

优先回放缓存机制利用损失值规定训练样本优先级别(即抽取概率)。在双Q网络中根据时差误差(the time difference error,TD-Error)，以相应的概率P_t进行排序抽取，得益于该机制更频繁的提取偏差较大的样本，算法的收敛速度显著加快。

式中，ω是决定分布形状的超参数。

为了兼顾网络训练速度以及算法后期稳定性，本发明将深度Q网络的学***，以保证其在训练后期充分利用前期经验；

用公式可表示为：

α＝c_decayα₀

式中，α为衰减的学习率，α₀为初始学习率，

为衰减系数，

为余弦系数，α_min为最小学习率，n为当前迭代次数，d_episode当前衰减次数。

见图2，训练样本中的元素包括s_t、a_t、r_t、s_t+1，在训练时，评估网络输入t时刻(历史时刻)的状态和动作，目标网络输入t+1时刻(历史时刻)的状态，评估网络和目标网络输出动作-价值函数。

损失函数为：

式中，L(θ)为损失函数。

在损失函数满足预设条件时，获得评估网络的参数。

在训练过程中，评估网络会每隔预设迭代次数N_f后，将自身的参数复制给目标网络，目标网络采用接收到的参数替换自身原有的参数，从而通过两个网络的配合以提高算法稳定性。

训练后，多资源协调优化神经网络即可进行使用，主要是使用评估网络，具体是将获取电动汽车、能源站、配电网的状态信息输入评估网络，即将电动汽车抵达能源站的时间、电动汽车抵达能源站的荷电状态、电动汽车离开能源站的时间、电动汽车离开能源站的期望荷电状态、能源站光伏出力、能源站储能***剩余电量、能源站内总充电负荷和配电网实时电价输入评估网络，评估网络输出能源站充电桩继电模块优选的动作时刻，即获得多资源协调优化结果，从而可以控制电动汽车的电气接入时间，实现电动汽车停车时间窗口内的多资源协调优化，能够合理解决充电站超期滞留问题，提高充电站运行效率。

上述状态信息有些可基于现有的***直接获取，有些可进一步在能源站***中增设新的模块，主要增设充电功率模块、光伏出力模块和储能***模块。

充电功率模块用以获取能源站内总充电负荷，该模块计算电动汽车开始充电时间、电动汽车初始SOC计算、电动汽车充电时长计算以及充电功率计算。

虽然电动汽车的充电行为具有随机性，但结合上下班交通高峰期时段以及加油站汽车用户的加油行为来分析，充电负荷仍具有一定规律性。这里建立多时间窗概率密度函数来描述电动汽车开始充电时间，假设电动汽车开始充电时间的分布函数满足：

式中，k_i为比例系数，t_i+1、t_i为相邻的两个时间节点，A_i为第i时间段初始时刻概率。

电动汽车到达能源站时动力电池剩余电量具有一定随机性，可用电池荷电状态SOC反映，假设电动汽车初始SOC符合对数正态分布：

式中，s₀为电动汽车到达能源站时的初始SOC，考虑到电动汽车到达充电站时初始SOC常在10％与60％之间，参数σ＝0.48，参数μ＝3.2。

电动汽车在充电站的充电时长由初始SOC、终止SOC以及充电功率决定，充电时长满足：

式中，s₁为充电终止SOC，Q′为电池容量，P_c为充电功率，η为充电效率；

设电池容量30kWh，采用恒功率充电方式，充电倍率为市场常见的2C，即充电功率为60kW，充电效率为0.8。考虑到动力电池充放电深度对电池寿命的影响，取电动汽车离开时的终止SOC均为0.9。

采用蒙特卡洛算法模拟电动汽车用户的随机充电行为，进行规模化电动汽车充电负荷的建模。首先，随机生成符合开始充电时间与初始SOC概率分布的电动汽车初始状态，接着，对每辆电动汽车的充电能量需求、充电时长以及充电结束时间进行计算。最后，在得到每辆电动汽车开始充电时间以及结束充电时间的基础上，统计一天中每一时刻处于充电状态的电动汽车数量，再累加即可得到全天每一时刻的电动汽车充电负荷需求，即得到能源站内总充电负荷。

光伏出力模块用以获取能源站光伏出力，光伏电池板的输出功率与很多因素有关，如环境温度、天气类型以及辐射强度等，其中辐射强度与环境温度是影响光伏出力最大的两个因素。这里采用光伏出力应用最广泛的简化计算模型：

式中，P_PV.th(t)为单块太阳能板理论发出功率，P_STC为单块太阳能板额定功率(标准测试环境：光辐射1kW/h²，环境温度25℃)，G_STC为标准光照强度，T_STC为标准环境温度，G(t)为t时刻光照强度，T_C(t)为t时刻太阳能电池板表面温度，T_EN(t)为t时刻环境温度，k为功率温度系数，一般取-0.47％。

储能***模块用以获取能源站储能***剩余电量，储能可平抑新能源的出力，即光伏多发了存储到储能里，光伏没有出力，就用储能里的电量。

充电过程中：

SOC(t)＝SOC(t-1)+P_B.Cη_CΔt/E_C

式中，SOC(t)、SOC(t-1)为储能中的电池t、t-1时刻的荷电状态，P_B.C为储能中的电池充电功率，η_C为充电效率，E_C为储能中的电池额定容量，Δt为充电过程中的时间粒度。

放电过程中：

式中，P_B.D为储能中的电池放电功率，η_D为放电效率，ΔT为放电过程中的时间粒度。

如图2，取购电费用330.35元，循环电量914.87kWh时。在2:00-6:00时段，由于此时配电网处于电价谷时，能源站在购电成本较低时段向配电网购电，减小了储能循环电量。白天时段，在对电动汽车开始充电时间控制下充电负荷峰值明显减小，光储协调可实现能源自给，且储能***充电功率相对平缓。在18:00-22:00时段由于光伏出力减弱，储能***协同配电网为电动汽车充电。

在能源站实际运营中，由于光伏出力受天气因素影响较大，在不同光伏出力情况下充电站调度方案有较大区别。为验证为了验证上述方法，设计以下四种能源站在实际运行中可能遇到的场景并进行结果对比。

场景1：光伏出力强，储能初始SOC大；场景2：光伏出力强，储能初始SOC小；场景3：光伏出力弱，储能初始SOC大；场景4：光伏出力弱，储能初始SOC小。比对见图4，可以看出能源站购电费用受光伏出力影响较大，场景1与场景4两种极端情况下，能源站购电费用相差接近一倍。而采用通过本发明获得的多资源协调优化结果，在多种运行场景下均优于常规调度方案，能够实现在平均降低能源站日购电费用87.33元，同时减小储能循环电量288.78kWh，有效提高了能源站运行的经济性。

基于相同的技术方案，本发明还公开了上述方法的软件装置，一种多资源协调优化装置，包括：

获取模块，用以获取电动汽车、能源站、配电网的状态信息。

协调优化模块中，多资源协调优化神经网络构建的过程包括：将第一多资源协调模型，转换为基于有限马尔科夫决策过程的多资源协调模型；根据基于有限马尔科夫决策过程的多资源协调模型，构建多资源协调优化神经网络。

上述装置各模块的数据处理流程与方法对应步骤的一致，这里不重复描述了。

基于相同的技术方案，本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行多资源协调优化方法。

基于相同的技术方案，本发明还公开了一种计算机设备，包括一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行多资源协调优化方法的指令。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种多资源协调优化方法，其特征在于，包括：

获取电动汽车、能源站、配电网的状态信息；

将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络，获得作为多资源协调优化结果的能源站充电桩继电模块优选的动作时刻；

其中，多资源协调优化神经网络构建过程包括：将第一多资源协调模型，转换为基于有限马尔科夫决策过程的多资源协调模型；根据基于有限马尔科夫决策过程的多资源协调模型，构建多资源协调优化神经网络；

第一多资源协调模型的优化目标为：

maxr^EV＝-λ^EV(S^exp-S^lea)

式中，r^EV为电动汽车充电满意度奖励，λ^EV为电动汽车充电未完成惩罚系数，S^exp为电动汽车期望荷电状态，S^lea为电动汽车离开能源站的实际荷电状态，r^CS为能源站运行成本奖励，T^arr为电动汽车抵达能源站的时间，T^lea为电动汽车离开能源站的时间，P_t′ ^DN为t′时刻配电网向能源站提供的功率，为t′时刻配电网工业分时电价，Δt′为时间粒度，P_t′ ^ESS为t′时刻能源站储能***充放电功率，λ^ESS为能源站储能***耗损成本系数，r^PV为光伏能源消纳奖励，P_t′ ^PV,e为t′时刻光伏可发电功率，P_t′ ^PV为t′时刻光伏实际发电功率，λ^PV为光伏弃光惩罚系数；

基于有限马尔科夫决策过程的多资源协调模型，包括：

有限马尔科夫决策过程的状态s包括电动汽车抵达能源站的时间T^arr、电动汽车抵达能源站的荷电状态S^arr、电动汽车离开能源站的时间T^lea、能源站光伏出力P^PV、能源站储能***剩余电量E^ESS、能源站内总充电负荷P^EV、配电网实时电价λ^G和电动汽车离开能源站的期望荷电状态S^exp；

有限马尔科夫决策过程的动作a为能源站充电桩继电模块动作时刻κ；其中，κ∈[0,T_i ^park]，T_i ^park为电动汽车到达能源站车位后的在站等待时间；

有限马尔科夫决策过程的奖励r为电动汽车充电满意度奖励、能源站运行成本奖励和光伏能源消纳奖励之和；

2.根据权利要求1所述的多资源协调优化方法，其特征在于，多资源协调优化神经网络包括结构一致的评估网络和目标网络，均为深度Q网络，由评估网络得到能够获得最大动作-价值函数值的动作S1，再由目标网络计算动作S1所对应的动作-价值函数值；

3.根据权利要求2所述的多资源协调优化方法，其特征在于，多资源协调优化神经网络的损失函数为：

式中，L(θ)为损失函数，r_t为t时刻的奖励，Q(s_t,a_t；θ⁺)为评估网络输出的动作-价值函数，θ⁺为评估网络参数，为目标网络输出的动作-价值函数，θ^-为目标网络参数。

4.根据权利要求3所述的多资源协调优化方法，其特征在于，多资源协调优化神经网络基于优先回放缓存机制训练，在优先回放缓存机制中，根据损失函数的损失值设置训练样本的抽取概率，根据抽取概率抽取训练样本，训练多资源协调优化神经网络。

5.根据权利要求4所述的多资源协调优化方法，其特征在于，训练样本抽取概率P的公式为：

其中，ω为决定分布形状的超参数。

6.根据权利要求3所述的多资源协调优化方法，其特征在于，评估网络和目标网络均通过状态价值以及动作优势的组合输出动作-价值函数值。

7.根据权利要求3所述的多资源协调优化方法，其特征在于，深度Q网络的学习率根据迭代次数衰减；

衰减公式为：

α＝c_decayα₀

8.一种多资源协调优化装置，其特征在于，包括：

协调优化模块，用以将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络，获得作为多资源协调优化结果的能源站充电桩继电模块优选的动作时刻；

第一多资源协调模型的优化目标为：

maxr^EV＝-λ^EV(S^exp-S^lea)

式中，r^EV为电动汽车充电满意度奖励，λ^EV为电动汽车充电未完成惩罚系数，S^exp为电动汽车期望荷电状态，S^lea为电动汽车离开能源站的实际荷电状态，r^CS为能源站运行成本奖励，T^arr为电动汽车抵达能源站的时间，T^lea为电动汽车离开能源站的时间，P_t′ ^DN为t′时刻配电网向能源站提供的功率，λ_t′DN为t′时刻配电网工业分时电价，Δt′为时间粒度，P_t′ ^ESS为t′时刻能源站储能***充放电功率，λ^ESS为能源站储能***耗损成本系数，r^PV为光伏能源消纳奖励，P_t′ ^PV,e为t′时刻光伏可发电功率，P_t′ ^PV为t′时刻光伏实际发电功率，λ^PV为光伏弃光惩罚系数；

基于有限马尔科夫决策过程的多资源协调模型，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求1～6所述的任一方法。