CN116014773A

CN116014773A - 一种基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法

Info

Publication number: CN116014773A
Application number: CN202211543981.5A
Authority: CN
Inventors: 许银亮; 杨弘榕
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-04-25

Abstract

本发明公开了基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，包括：建立基于配电网模型、电动汽车电池动态特性模型、充电价格激励模型以及放电价格激励模型的调度策略模型，调度策略模型经过基于高斯混合模型的两阶段训练方法进行训练；调度过程中，使用基于电动汽车能源可用性标准的K‑均值聚类方法来选择进行配网辅助服务的电动汽车；建立数据模拟器后，在离线阶段，使用真实数据和模拟数据的混合数据进行预训练，在在线阶段，使用实时数据进行训练。本发明提出的调度方法，能够有效提升训练速度和模型鲁棒性，并减少在线启动过程中的累积电压误差和违规电动车充电比例，从而解决实时削峰和电压调节问题。

Description

一种基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法

技术领域

本发明涉及协调配电网调度服务的技术领域，特别是涉及一种基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法。

背景技术

与传统的燃料汽车相比，电动汽车作为减少温室气体排放的有效方法，越来越受到世界各国广泛关注。根据国际能源署的报告，到2030年，全球13％的汽车将是电动的，电动汽车的需求在2021年和2030年之间每年平均增长36％，中国的电动汽车(EVs，ElectricVehicle)数量将达到6000万辆，峰值充电负荷将达到479GW，中国将成为电动汽车最大的生产国和消费国。国务院在《新能源汽车产业发展规划(2021－2035年)》中明确推动新能源汽车与能源、交通、信息通信全面深度融合，促进能源交通体系和城市智能化水平提升，构建产业协同发展新格局，并完善基础设施体系，加快推动充换电、加氢等基础设施建设。以电动汽车为代表的移动的灵活能量资源已然成为大规模分布式能源的典型代表和未来新一代电力***显著的特征。

然而，电动汽车的大量普及将对电网的安全和经济运行带来重大的负面影响，未经协调的大规模电动汽车充电及其随机行为可能会给配电网带来严重的负担，非管理式电动汽车充电增加了高峰时段的负荷需求，可能造成设备和线路堵塞，并严重威胁电力***的稳定运行；在一定时间特定范围内的大量电动汽车将导致电力需求激增，从而使线路损耗增加并造成电压下降，一旦电压下降到一定水平，电网将无法供电。随着车联网(V2G，Vehicle to Grid)技术的主动功率控制技术和四象限智能充电器技术的发展，电动汽车也可以作为灵活储能资源为电网提供辅助服务，为配电网的稳定运行发挥重要作用。因此，为电动汽车设计一种协调配网辅助服务的协调调度方案，以帮助配电网的经济和安全运行，对我国构建灵活调节、安全坚韧、智能互动灵活的新一代电网具有重要价值。

电动汽车充电辅助服务的监管方案可以归纳为两类：电动汽车充电协调和价格激励，然而，现有的方案只考虑其中之一，由于这两种方法之间的强关联性，使得提出的方案不具备可行性，且现有技术只能解决电网单一业务，尚未有能完成电动汽车参与调峰调压阻塞管理的通用性方案。此外，现有方案对电动汽车用户的需求响应评价方式比较粗糙，只使用简单线性模型来描述用户对价格激励的实际反应，且忽略了电动汽车的电荷状态和电动车车主充电需求对电网辅助服务参与意愿度的影响，这使得现有方案在实际运行中难以获得良好的效果。

现有方法通常使用电动汽车实时电荷状态和到达/离开时间作为聚类算法选择电动汽车参与调峰辅助服务的标准，但这不能很好地反映电动汽车的调度优先级。对于电池容量大的电动车来说，电动汽车高电荷状态(SOC，State of Charge)并不意味着充电时间短，而对于容量小的电动车来说，停放时间短也未必说明充电任务紧迫，现有方案未能设定有效的电动汽车参与电网辅助服务的标准以保障电动汽车用户的充电需求。

现有电动汽车的调度方案都是基于模型的传统优化方法，依赖于电动车状态和电网的完整和准确的信息，这在现实中很难获得。因为运行环境随时间的动态变化特性和电动车充电行为的不确定性，基于模型的方法可能无法有效地解决复杂的优化问题，随着配电网规模和电动汽车规模的增加，基于模型的方法的计算复杂性将给***运营商带来很大的计算成本。

发明内容

本发明的目的是在于解决电动汽车参与实时削峰和电压调节的技术问题。

为此，本发明提出一种基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，包括如下步骤：

建立基于配电网模型、电动汽车电池动态特性模型、充电价格激励模型以及放电价格激励模型的调度策略模型，所述调度策略模型经过基于GMM高斯混合模型的两阶段训练方法进行训练，以供协调配网辅助服务的电动汽车调度使用；调度过程中，使用基于电动汽车能源可用性标准的K-均值聚类方法来选择进行配网辅助服务的电动汽车；其中，所述基于GMM高斯混合模型的两阶段训练方法采用高斯混合法，通过高斯混合模型来拟合每个电动汽车用户充电行为特征的分布，所述高斯混合模型将电动汽车用户的充电行为特征分解为多个基于高斯的概率密度函数；建立基于所述高斯混合模型的数据模拟器后，在离线阶段，通过所述数据模拟器使用真实数据和模拟数据的混合数据进行预训练，在在线阶段，使用实时数据进行训练。

在本发明的一些实施例中，将真实数据分为三组，分别用于离线训练、在线训练和测试过程，在两个阶段的训练过程之后，使用未训练的真实数据测试所述方法。

在本发明的一些实施例中，在20％以上的模拟数据中为每个特征添加各向同性的截断高斯噪声，并按随机比例替换选定类型的数据。

在本发明的一些实施例中，为每个电动汽车定义一个松弛时间以评估其调度潜力，并通过设置奖励函数中的松弛时间惩罚项以满足电动汽车车主的充电需求。

在本发明的一些实施例中，所述电动汽车电池动态特性模型实现：描述电动汽车的充电/放电过程，并建立电动汽车到达/离开时间阶段的电动汽车储能模型，以及描述出发时的SOC应满足电动汽车用户的能量需求。

在本发明的一些实施例中，所述充电价格激励模型通过插值法得到价格-参与度曲线，利用神经网络对该曲线进行拟合，得到充电价格与电动汽车用户参与度之间的非线性函数关系。

在本发明的一些实施例中，所述放电价格激励模型计算电动汽车电池车联网(V2G)模式退化成本、电动汽车车联网(V2G)过程收益、电动汽车充电站收益，并提供基于韦伯-费希纳定律的放电价格激励方案。

在本发明的一些实施例中，所述调度策略使用基于深度强化学习的实时削峰和电压调节方案，由控制器设置充电价格以调整预期到达的电动汽车数量，并设置放电价格以激励电动汽车用户参与车联网(V2G)服务。

在本发明的一些实施例中，基于GMM高斯混合模型的训练采用两阶段强化学习框架首先将电动汽车协调配网辅助服务调度问题表述为马尔可夫决策过程，实现调峰调压和拥塞管理。

本发明还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序由处理器执行时，实现如上所述的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法。

本发明具有如下有益效果：

本发明提出的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，通过建立基于配电网模型、电动汽车电池动态特性模型、充电价格激励模型以及放电价格激励模型的调度策略模型，调度策略模型经过基于GMM高斯混合模型的两阶段训练方法进行训练等技术特征的设置，能够有效提升训练速度和模型鲁棒性，并减少在线启动过程中的累积电压误差和违规电动车充电比例，从而解决实时削峰和电压调节问题。

在本发明的一些实施例中，通过在20％以上的模拟数据中为每个特征添加了各向同性的截断高斯噪声，并按随机比例替换某些类型的数据，能够避免分布的过度集中，提高了模型的鲁棒性。

本发明实施例中的其他有益效果将在下文中进一步述及。

附图说明

图1是本发明实施例中方法流程图；

图2是本发明实施例1中总充电价格与充电意愿度之间关系的曲线图；

图3是本发明实施例1中利润与放电意愿度之间关系的曲线图。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本实施例中的左、右、上、下、顶、底等方位用语，仅是互为相对概念，或是以产品的正常使用状态为参考的，而不应该认为是具有限制性的。

本发明下述实施例提出了一种基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，包括以下步骤：建立基于配电网模型、电动汽车电池动态特性模型、充电价格激励模型以及放电价格激励模型的调度策略模型，所述调度策略模型经过基于GMM高斯混合模型的两阶段训练方法进行训练，以供协调配网辅助服务的电动汽车调度使用；调度过程中，使用基于电动汽车能源可用性标准的K-均值聚类方法来选择进行配网辅助服务的电动汽车；其中，所述基于GMM高斯混合模型的两阶段训练方法采用高斯混合法，通过高斯混合模型来拟合每个电动汽车用户充电行为特征的分布，所述高斯混合模型将电动汽车用户的充电行为特征分解为多个基于高斯的概率密度函数；建立基于所述高斯混合模型的数据模拟器后，在离线阶段，通过所述数据模拟器使用真实数据和模拟数据的混合数据进行预训练，在在线阶段，使用实时数据进行训练。

本发明实施例是一种基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，以解决实时削峰和电压调节问题。本发明实施例提出了一种新的电动汽车用户参与意愿的建模方法，该方法衡量了多属性态度对电动汽车用户选择的影响，并同时考虑了电动汽车用户、充电站和电网的利润。本发明实施例为每个电动车定义了一个松弛时间，以评估其调度潜力并通过设置奖励函数中的松弛时间惩罚项以保证满足电动汽车车主的充电需求，提出了基于K-means聚类方法的电动车能量可用性标准，本实施例为进行大规模电动汽车调度提供了有效的电动汽车状态分类标准。此外，本发明实施例提出了基于GMM(高斯混合模型)的两阶段训练方法，可有效提升训练速度和模型鲁棒性，并减少在线启动过程中的累积电压误差和违规电动车充电比例。本发明实施例方法流程如图1所示，包括以下步骤：

1模型

1.1配电网模型：

配电网的定义如下：B＝{0,1,2,…,b}表示总线的集合，表示线路的集合。对于每一个(m,n)∈L，m是母线n的唯一父节点，径向配网模型如下：

Γ＝{t_q|t_q＝qΔt,q∈Z^*} (7)

其中E_n是总线n上的电动车集合。P_mn,t，I_mn,t是线路mn的实时有功功率和电流大小，P_nq,t是线路nq的实时有功功率。Γ和是电网运行和电动车停放在充电站(CS，ChargeStation)的离散时间集合。Q_mn,是线路mn的实时无功功率。Q_nq,是线路nq的实时无功功率。Δt是时间间隔。分别为充电站、非电动汽车负载和本地太阳能光伏输出的有功/无功功率。为电动汽车的充电/放电有功功率。是充电过程中消耗的无功功率，而是电动汽车对电网的无功功率支持。是V2G模式和RPC(Reactive Power Control)模式下的电动汽车数量。是标准充电模式下的电动汽车数量。V_m,n/V_n,t是总线m/n的电压，r_mn/x_mn是线路(m,n)的阻抗/感抗，S_mn,t线路mn的实时视在功率。(1)和(2)是配电网线性化功率平衡。(3)和(4)是and和的构成。(5)和(6)是电压和功率约束，其中V^min/V^max是两个总线之间的最小/最大电压差。

1.2电动汽车电池动态特性模型:

每个电动汽车电池的动态特性模型如下：

其中是充电/放电效率。是电动车能量，是电动车电池容量。是二进制充放电状态下的最大充放电功率，是电动汽车电池的最低/最高SOC。和为充/放电、无功和最大视在功率。是充电器功率因子。是出发时的SOC，是充电后的预期能量状态。(8)-(14)描述了电动汽车的充电/放电过程，并建立了以到达/离开时间阶段的电动汽车储能模型。(15)表示出发时的SOC应满足电动汽车用户的能量需求

1.3充电价格激励模型

本发明实施例假设同一总线充电站的充电/放电价格和服务质量是相同的，且电动汽车车主只会选择工作和生活所在总线的充电站进行充电。每个电动汽车用户的充电价格合理性曲线是一条s形曲线且在一段时间内保持不变。时间t内的收费价格合理性曲线公式如下：

其中，R_n,t是总线n处的电动汽车充电站收费的合理度，其取值区间为[0,1]。总充电价格是充电价格和服务费之和。参数a_n,t,b_n,t和c_n,t决定了曲线的形状。各电动汽车车主的充电价格合理度曲线仅受当地历史充电价格和物价水平的影响，因此各电动汽车车主的合理度曲线总体相似。在各总线上收集电动汽车车主对所在总线充电站的评估信息，根据Fishbein模型和采集的信息，电动汽车车主对所在总线充电站的充电偏好度F_n,i,t计算公式如下：

其中是参与调研的电动汽车集合，表示电动汽车车主对电动汽车充电站的第j个属性的满意度，g为属性个数，表示电动汽车车主对电动汽车充电站的属性j的偏好程度。这些属性包括服务费、服务质量、地理位置、时间段t内平均等待时间等，主要取决于电动汽车车主的价格敏感度。

对于电动汽车车主i当地充电站收费价格的合理度阈值定义如下：

其中，S_n,i,t是车主损失电量的压力，衡量SOC变化对用户充电行为的影响。是用户充电决策的电池能量水平的阈值。ξ_n,i,t是反映用户对低电池焦虑的抵抗力的系数。

离散总充电价格点的预期充电参与率描述如下：

H＝{h∈Z^*,h≤N_h}(29)

是在离散价格点l参与充电的车主人数。N_n,s是调研的电动汽车车主的总数。是充电决策二元变量。δ为大于0的相邻离散价格点间距。是充电站从电厂购买电力的最低价格，是最高充电价格，N_h是离散价格点的个数。使用插值法得到价格-参与度曲线，利用神经网络对该曲线进行拟合，得到充电价格与电动汽车用户参与度之间的非线性函数关系。

1.4放电价格激励模型

现有充电器不仅实现了V2G功能，还实现了双向无功控制(Reactive PowerControl)。由于在RPC(Reactive Power Control)模式下电动汽车电池几乎没有退化，且仍能以正常功率充电，因此电动汽车聚合商不需要为用户RPC(Reactive Power Control)模式支付激励费用。在制定V2G(Vehicle to Grid)模式的放电价格时，本发明实施例应该全面考虑电动汽车充电站和电动汽车车主两者的利益。假设充电站可以从车主处获得部分信息，包括SOC(State of Charge)等基本电池信息。

1)电动汽车电池V2G(Vehicle to Grid)模式退化成本

由于锂离子电池的非线性降解过程，电动汽车电池成本模型是一个与放电深度(Depth Of Discharge)、放电功率和其他因素有关的非线性模型。V2G(Vehicle to Grid)过程中的电动车电池退化成本可以简化表述为：

其中和是V2G模式下的电动车集合和离散时间集合。是单位电池损耗价格，是时间阶段t内的放电能量。是电动车电池的投资。和分别为DOD(Depth Of Discharge)和电池周期数。

2)电动汽车V2G过程收益

电动汽车的充电价格以其到达时刻的充电价格为准，其放电价格在每个时间段t都会发生变化。本发明实施例假设所有充电站充电桩具有相同的充电和放电功率。每个电动汽车车主V2G(Vehicle to Grid)过程收益如下：

其中，是电动汽车用户参与V2G服务的利润，是电动汽车用户参与V2G(Vehicle to Grid)服务的利润。是对释放的能量进行回充的成本。是电动汽车到达时间的总充电价格。是CS的放电价格。是时间阶段t的充电能量。

3)电动汽车充电站收益

较高的放电价格将吸引更多电动汽车车主参与V2G(Vehicle to Grid)服务，但也将直接影响充电站的收益。充电站总收益定义如下：

其中和是RPC(Reactive Power Control)模式和标准充电模式下的电动汽车集合，是车主到达时的总充电价格。是处于充电状态的电动车数量，如(41)所示，是处于正常充电状态的电动车数量，不参与V2G或RPC模式。是峰值削减的时间集，如(48)所示，其中是起始/结束时间段。是充电利润，和是购电成本和价格。是CSs向电网出售能源的利润，是电网支付的反馈电价。是如果实际输出量没有达到70％的投标量的惩罚，是惩罚价格。是购买用户排放能量的V2G成本。是处于充电状态的电动汽车的数量，如(41)所示。是充电站的总放电功率。(44)以发电成本的最高价格作为约束确保电网公共部门的利润。

4)基于韦伯-费希纳定律的放电价格激励方案

韦伯-费希纳定律能够准确地表达人体的反应s与客观环境刺激I之间的函数关系。它首次应用于心理学和声学领域。

韦伯-费希纳定律指出，感觉的大小与刺激强度的对数成正比。刺激强度按几何级数增加，感觉强度按算术级数增加。韦伯-费希纳法的定义如下：

s＝klog(I)+s₀(49)

其中s是人类的感觉强度，I是外部环境的刺激强度。k是韦伯指数，它是感觉特异性的，应该根据刺激的感觉和类型来确定。s₀是刺激的积分常数。

假设每个电动车充电桩的参数是相同的。用户对V2G(Vehicle to Grid)服务的预期单位利润可以表述如下：

用户的预期平均单位利润可以表示为：

其中是平均总充电价格，是平均单位电池损耗价格。因为一般非常小，所以普通电动车模型的电池损耗价格w^L可以作为其数值。

在本发明实施例中，刺激强度I是单位放电能量的平均效益，人类感觉强度s代表电动汽车车主参与V2G(Vehicle to Grid)服务的平均意愿根据韦伯-费希纳定律，本发明实施例可以得到如下关系：

其中是有效利润激励范围的下限/上限。(55)是边界条件，其中s_0n,是最大意愿，k_n,t是反映用户对平均利润敏感性的系数。当时，平均单位利润会落入死区，这样用户就不会参与V2G服务。随着的增加，意愿逐渐加强，直到时达到饱和。如果不考虑出行链的影响，与当地电动车用户的平均收入成反比，而则刚好相反。

2基于两阶段深度强化学习的执行方案

2.1调度策略

图1表示拟议的基于深度强化学习的实时削峰和电压调节方案。控制器设置充电价格以调整预期到达的电动车数量，并设置放电价格以激励用户参与V2G服务。对于电动车用户，提出了基于电动车能源可用性标准的K-均值聚类方法来选择电动车进行V2G服务。之后，控制器选择在V2G(Vehicle to Grid)模式或RPC(Reactive Power Control)模式下运行的电动车数量。该控制器在离线阶段通过模拟器使用混合数据进行预训练，在在线阶段使用实时数据进行快速训练。

2.2基于电动车能源可用性标准的K-means方法

传统方法通常使用实时SOC(State of Charge)和出发/停车时间作为聚类算法的标准来选择V2G(Vehicle to Grid)服务的电动车，这不能很好地反映电动车的调度优先级。对于电池容量大的电动车来说，高的SOC(State of Charge)并不意味着短的充电时间，而对于容量小的电动车来说，短的停车时间可能并不能说明紧急的充电任务。为了解决上述问题，本发明实施例提出一种用于聚类算法的电动车能量可用性标准：

其中和χ_n,i,t是剩余充电能量和松弛时间，为车主预期SOC。本发明实施例之所以没有只根据松弛时间对电动汽车进行分类，是为了减少不确定性的风险，包括用户过早离开的行为和其他负载的波动。K-means算法的最小化目标函数写如下：

其中c_i和u_k表示样本和聚类中心。K_n,t和N_n,t是聚类中心和充电站电动汽车的数量。

2.3两阶段强化学习框架

(1)将电动汽车协调配网辅助服务调度问题表述为马尔可夫决策过程

1)调峰调压：

环境变量s_t：s_t是在时间阶段t中观察到的充电站和总线的状态信息，包括P_n,t,Q_n,t,V_n,t,和其中是到达的电动汽车数量，是最小松弛时间。

动作变量a_t：a_t是深度强化学习控制器在时间阶段t给出的控制动作，包括动作变量的值是根据先验知识预先约束的。

奖励r_t：奖励函数包含充电站利润与调峰出力量、电压和SOC约束，分为以下三部分：

(61)是利润与调峰奖励，(63)是SOC约束。(64)表示累计电压误差，(65)约束节点电压。其中，均是奖励函数，τ₁、τ₂、τ₃、τ₄、τ₅是奖励函数中设计的正系数，pu标幺值的通用单位。

2)阻塞管理：

奖励r_t，_c：奖励函数包含线路阻塞率、电压和SOC(State of Charge)约束，分为以下三部分：

(67)是阻塞奖励，c_n,t为线路实时负载占用率，(68)是SOC(State of Charge)约束。(69)约束节点电压。υ₁、υ₃是阻塞场景下奖励函数中设计的正系数。υ₄、υ₅奖励函数中设计的正系数。

(2)两阶段训练

在强化学习训练阶段的启动过程中，采样数据不足，智能体对环境知之甚少。深度强化学习算法需要生成许多随机动作来探索环境，这将导致昂贵的操作成本和严重的跟踪错误。为了克服采样率低的问题，避免训练初期探索不稳定带来的危险，一种解决思路是建立一个模拟器来执行两阶段的训练过程但这又会产生两个额外的问题：如何保证训练用生成数据的有效性，以及在训练数据集分布过于集中、比例不变的情况下提高模型的鲁棒性。

为了解决上述问题，本发明实施例提出了一种改进的两阶段深度强化学习训练方法。

首先为保证仿真数据的有效性，采用高斯混合法。用户的充电行为具有很强的规律性和可变性，为了生成反映电动汽车真实特征的数据，高斯混合模型(GMM,GaussianMixture Model)被用来拟合每个电动汽车用户充电行为特征的分布。高斯混合模型可以将电动汽车用户的充电行为特征分解为几个基于高斯的概率密度函数。高斯混合模型模型的表述如下：

其中x是特征，N(x|μ_v,Σ_v)是混合模型的第v个成分,V是成分的个数。π_v是第v个分量的权重。由于高斯混合模型是一种无监督的学习方法，它的最佳聚类数不能自动设置。计算每个特征的轮廓系数来选择最佳聚类数。

轮廓系数如下：

其中a(i)是样本i和同一聚类中所有其他点的平均距离。b(i)是样本和下一个最近的聚类中所有其他点的平均距离。剪影系数的取值范围是[-1,1]。阴影系数越高，集群性能越好。

在建立和基于高斯混合模型的数据模拟器后，将真实数据分为三组，分别用于离线训练、在线训练和测试过程。在离线训练过程中，只使用真实数据来实现快速训练。将真实数据和模拟数据以1:1的比例混合的数据集作为在线训练数据集，用于每一集。在两个阶段的训练过程之后，未训练的真实数据被用于测试所提出的方法。优选地，为了提高模型的鲁棒性，在20％或更多的模拟数据中为每个特征添加了各向同性的截断高斯噪声，并按随机比例替换某些类型的数据，以避免分布的过度集中。

实施例1

所有的测试都是在一台拥有3.40GHz CPU、1050Ti GTX显卡和16GB内存的计算机上使用Python进行的。Pytorch用于制定DRL(Deep Reinforcement Learning，深度强化学习)算法的神经网络框架，Pandapower用于建立修改后的IEEE 33总线分配网络。所提方案的有效性已经在修改后的IEEE 33总线配电网上的真实历史数据的模拟案例研究中得到了验证。

三个电动汽车聚合商分别设置在总线13、16和31处。实施例1研究的详细参数见表1和表2。根据所设参数，实施例1所采用的意愿评价模型如图2、图3所示所示，图2为本实施例中总充电价格与充电意愿度之间关系的曲线图，横坐标为总充电价格(元)，纵坐标为充电意愿度(％)；图3是本实施例中利润与放电意愿度之间关系的曲线图，横坐标为利润(元)，纵坐标为充电意愿度(％)。城市负荷曲线的高峰期通常出现在11:30至12:00之间，12:00之后迅速下降，而白天电动车充电的高峰期则在12:30-1:00。因为这两个高峰期是错开的，所以聚集者的竞价策略比预期的要保守。根据实际情况，将电网用电高峰时间设定为11:45，从早上10:00开始进行8次调度操作，间隔时间为15分钟。13总线的充电站聚合商的投标量为[0.27，0.46，0.68，1.03，1.6，2.74，4.1，5.02](单位：兆瓦)，有充电需求的电动汽车数量为[136，208，305，324，403，510，602，657](单位：辆)。16总线的充电站聚合商的投标量为[0.23，0.34，0.46，0.68，1.37，1.6，2.05，2.51](单位：兆瓦)，有充电需求的电动汽车数量为[104，114，126，152，163，176，181，192](单位：辆)。31总线的充电站聚合商的投标量为[0.34，0.68，1.37，2.28，4.1，5.7，7.3，9.58](单位：兆瓦)，有充电需求的电动汽车数量为[125，259，468，505，694，751，849，923](单位：辆)。

表1.仿真参数

表2.算法参数

可以得出以下结论：

1)在调峰期间，所提出的方案减少了3.43％-4.81％的峰值负荷，线路阻塞率回归安全范围，并避免了电压违规。此外，由于提供调峰服务，充电站的总利润增加了7.07％。

2)改进的两阶段方法的实施，在在线启动过程中，平均可以减少90.5％的累积电压误差和86.54％的违规电动车充电比例，与单阶段方法相比，训练速度提高约70％。

3)与传统方法相比，在奖励函数中提出的可用能量准则和SOC(State of Charge)约束确保了电动汽车用户的利益，将不符合充电要求的电动汽车的比例从27.04％降低到0.052％，平均额外等待时间为0.57分钟，最大额外等待时间为1.31分钟。

本发明上述实施例提出的一种基于深度强化学习(DRL)的两阶段电动汽车(EVs)辅助服务协调调度，并根据Fishbein模型和Weber-Fechner提出了一种细致的电动汽车用户参与意愿的建模方法，衡量了多属性态度对电动汽车用户选择的影响。本发明实施例可采用K-means聚类方法的电动车能量可用性标准来评估电动车的能量状态以进行调度，并在奖励函数中设计了一个反映电动车充电状态约束的松弛时间项，以满足电动车出发时的充电需求。本发明实施例所提出的模型训练过程分为两个阶段：在离线阶段，行为体使用混合数据，通过基于高斯混合模型的电动车模拟器学习虚拟环境的动态特性；在在线阶段，训练后的策略在实时环境中被快速更新，可以有效地对不确定性做出决策。实施例1结果表明，所提方法充分挖掘电动汽车灵活电力资源的调度潜力，使电网侧节点电压稳定回升至规定范围，负荷峰谷差减小，避免了传输线路阻塞问题。聚合商侧负荷波动率降低，利润也有显著提升。而电动汽车也能够在辅助服务结束后达到预期SOC值，因此，本发明实施例兼顾了电网侧，聚合商、电动汽车用户三方的利益。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，其特征在于，包括如下步骤：

建立基于配电网模型、电动汽车电池动态特性模型、充电价格激励模型以及放电价格激励模型的调度策略模型，所述调度策略模型经过基于GMM高斯混合模型的两阶段训练方法进行训练，以供协调配网辅助服务的电动汽车调度使用；调度过程中，使用基于电动汽车能源可用性标准的K-均值聚类方法来选择进行配网辅助服务的电动汽车；

其中，所述基于GMM高斯混合模型的两阶段训练方法采用高斯混合法，通过高斯混合模型来拟合每个电动汽车用户充电行为特征的分布，所述高斯混合模型将电动汽车用户的充电行为特征分解为多个基于高斯的概率密度函数；建立基于所述高斯混合模型的数据模拟器后，在离线阶段，通过所述数据模拟器使用真实数据和模拟数据的混合数据进行预训练，在在线阶段，使用实时数据进行训练。

2.如权利要求1所述的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，其特征在于，将真实数据分为三组，分别用于离线训练、在线训练和测试过程，在两个阶段的训练过程之后，使用未训练的真实数据测试所述方法。

3.如权利要求1所述的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，其特征在于，在20％以上的模拟数据中为每个特征添加各向同性的截断高斯噪声，并按随机比例替换选定类型的数据。

4.如权利要求1至3任一项所述的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，其特征在于，为每个电动汽车定义一个松弛时间以评估其调度潜力，并通过设置奖励函数中的松弛时间惩罚项以满足电动汽车车主的充电需求。

5.如权利要求1至3任一项所述的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，其特征在于，所述电动汽车电池动态特性模型实现：描述电动汽车的充电/放电过程，并建立电动汽车到达/离开时间阶段的电动汽车储能模型，以及描述出发时的SOC应满足电动汽车用户的能量需求。

6.如权利要求1至3任一项所述的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，其特征在于，所述充电价格激励模型通过插值法得到价格-参与度曲线，利用神经网络对该曲线进行拟合，得到充电价格与电动汽车用户参与度之间的非线性函数关系。

7.如权利要求1至3任一项所述的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，其特征在于，所述放电价格激励模型计算电动汽车电池车联网(V2G)模式退化成本、电动汽车车联网(V2G)过程收益、电动汽车充电站收益，并提供基于韦伯-费希纳定律的放电价格激励方案。

8.如权利要求1至3任一项所述的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，其特征在于，所述调度策略使用基于深度强化学习的实时削峰和电压调节方案，由控制器设置充电价格以调整预期到达的电动汽车数量，并设置放电价格以激励电动汽车用户参与车联网(V2G)服务。

9.如权利要求1至3任一项所述的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法，其特征在于，基于GMM高斯混合模型的训练采用两阶段强化学习框架首先将电动汽车协调配网辅助服务调度问题表述为马尔可夫决策过程，实现调峰调压和拥塞管理。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器执行时，实现如权利要求1至9任一项所述的基于深度强化学习的两阶段电动汽车协调配网辅助服务的调度方法。