CN114444802B

CN114444802B - 基于图神经网络强化学习的电动汽车充电引导优化方法

Info

Publication number: CN114444802B
Application number: CN202210109887.2A
Authority: CN
Inventors: 江昌旭; 卢玥君; 林铮; 邵振国
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2024-06-04
Anticipated expiration: 2042-01-29
Also published as: CN114444802A

Abstract

本发明提供了一种基于图神经网络强化学习的电动汽车充电引导优化方法，包括如下步骤：步骤S1：电力‑交通融合网协同优化模型初始化；步骤S2：更新电动汽车充电负荷；步骤S3：根据epsilon‑Greedy算法和图神经网络强化学习算法生成a _i,t；步骤S4：执行充电引导行为策略a _i,t；步骤S5：计算图神经网络强化学习算法的奖励函数；步骤S6：部分观测马尔科夫决策过程的状态x _i,t更新；步骤S7：将当前步的信息(x _i,t , a _i,t ,r _i,t,x _i,t)存储于记忆单元D中；步骤S8：判断是否达到预定的时间T _end；若否，则执行(2)~(7)；若是，则输出图神经网络强化学习算法参数和相应输出结果。应用本技术方案可实现有效地降低电动汽车充电总成本，实现电动汽车的有序充电以及电力***协同优化调度。

Description

基于图神经网络强化学习的电动汽车充电引导优化方法

技术领域

本发明涉及电力-交通融合网协同优化技术领域，特别是一种基于图神经网络强化学习的电动汽车充电引导优化方法。

背景技术

随着电动汽车规模化运行，电力***和交通***将会存在许多的交互融合，形成电力-交通融合网。该融合网涉及电动汽车、电力***和交通***等多个主体，包含了多种随机不确定因素。多个主体相互作用、多种随机因素的影响以及多种随机因素的耦合关系使得弄清电力和交通***的交互影响机理以及解决电力-交通融合网协同优化变得更加困难。例如电动汽车用户的出行和心理行为以及驾驶行为均具有一定的随机性，这将会影响到交通***的流量分布，使得交通流量也具有一定的不确定性，进一步影响到电动汽车达到充电站的时间，使得电动汽车的充电时间、排队时间和充电时长也具有很强的不确定性。不同于传统的电力负荷，电动汽车作为一种可移动的负荷，其随机性相比于传统的电力负荷更强，更加难以预测。

目前对电力-交通融合网研究可以分为三个研究方向：1)从电力***角度出发，通过计算节点边际成本电价或优化充电站服务定价来引导电动汽车以最低的成本进行充电；2)从交通***角度出发考虑充电路径优化实现充电成本最小化；3)综合考虑电动汽车、电力和交通***的利益，通过优化电动汽车的充电策略和电力***的调度决策实现综合效益最大化。但是现有的研究大部分属于静态优化问题，尚未考虑到电动汽车、充电站和电力***等主体在连续时间尺度上的耦合关系；同时现有大部分研究没有考虑到多种不确定因素及其相关耦合性对电力-交通融合网协同优化的影响。更重要的是，现有的研究中没有考虑到电动汽车间交互影响对电力-交通融合网协同优化影响。

发明内容

有鉴于此，本发明的目的在于提供一种基于图神经网络强化学习的电动汽车充电引导优化方法，能够有效的在考虑电力-交通融合网多种不确定性因素的情况下，能够有效地降低电动汽车充电总成本，实现电动汽车的有序充电以及电力***协同优化调度。

为实现上述目的，本发明采用如下技术方案：基于图神经网络强化学习的电动汽车充电引导优化方法，包括如下步骤：

步骤S1：电力-交通融合网协同优化模型初始化；

步骤S2：更新电动汽车充电负荷，并基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算；

步骤S3：根据epsilon-Greedy算法和图神经网络强化学习算法生成电动汽车充电引导行为策略a_i,t；

步骤S4：执行充电引导行为策略a_i,t，并对电动汽车的状态进行判断和更新；

步骤S5：根据电力-交通融合环境计算图神经网络强化学习算法的奖励函数；

步骤S6：部分观测马尔科夫决策过程的状态x_i,t更新；

步骤S7：将当前步的信息(x_i,t,a_i,t,r_i,t,x_i,t’)存储于记忆单元D中，并基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新；其中，x_i,t,表示图神经网络强化学习当前状态；a_i,t表示电动汽车行为策略；r_i,t表示图神经网络强化学习的奖励函数值；x_i,t’表示图神经网络强化学习下一步状态；

步骤S8：判断是否达到预定的时间T_end；若否，则执行(2)～(7)；若是，则输出图神经网络强化学习算法参数和相应输出结果。

在一较佳的实施例中，对电力-交通融合网协同优化模型初始化，包括以下步骤：

步骤21：电力网络和交通网络拓扑结构和参数确定，包括电力***节点、线路、初始电压、优化的上下限值，交通网络包括交通节点、道路参数、容量及行驶速度最大值；

步骤22：神经网络参数初始化，包括神经网络权重初始化和超参数设置，如学习速率α、折扣因子γ、批大小B和记忆单元D容量大小；

步骤23：将研究区域中的每辆电动汽车看做一个代理，并将其视为一个节点n∈N，将电动汽车间的连接视为边e∈E，以此构成图网络结构G＝(N,E)，并对每辆电动汽车i在当前状态x_i,t和邻接矩阵A进行初始化。

在一较佳的实施例中，更新电动汽车充电负荷和基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算步骤包括：

步骤31：更新电动汽车充电负荷：根据充电站中的电动汽车数量和充电功率计算各个充电站充电负荷，得到各个站的充电负荷后加上该节点的基础负荷即可以获得该节点的最终用电负荷；

步骤32：建立基于支路潮流模型的配电网最优潮流模型：

min f(p,q,P,Q,V,I) (1)

式中，E_N和E_L分别表示配电网节点和线路集合；P_ij和Q_ij表示从节点i流向节点j的支路有功功率和无功功率；P_jk表示从节点j流向节点k的支路有功功率；和/>表示发电机有功和无功出力，即注入到节点j的有功功率和无功功率；/>和/>表示风机注入到节点j的有功功率和无功功率；Q_js表示从节点j流向节点s的支路无功功率；r_ij和x_ij表示从节点i到节点j的支路电阻和电抗；I_ij表示从节点i到节点j的支路电流；π(j)表示与节点j相连的支路集合；/>和/>表示连接在节点j上的有功负荷和无功负荷；V_i表示节点i的电压幅值；V_j表示节点j的电压幅值；z_ij表示连接节点i和节点j的支路阻抗，满足z_ij＝r_ij+jx_ij；/>表示连接节点i和节点j的支路电流最大值；V _j和/>表示节点j的最小和最大电压；/>表示连接到节点j的风机最大有功出力；/>表示连接到节点j的风机的功率因素；

配电网节点j的负荷包括基础负荷/>和电动汽车充电负荷/>即

根据配电网实际需求，其目标函数min f(p,q,P,Q,V,I)可以最终定义为：

式中，表示注入节点i发电机的有功出力；a_i和b_i分别表示发电机的二次煤耗和一次煤耗系数；/>和/>分别从主网中购买电量的电价和有功功率；

步骤33：将以上非线性配电网最优潮流模型转换为二阶锥松弛规划模型：

由于BFM-OPF是非线性规划模型，令支路电流幅值以及支路电压幅值并对式进行二阶锥松弛(SOCR)转换，可以得到以下模型：

式中||·||₂表示二阶锥操作；上式-构成了松弛后的配电网最优潮流基本形式；

步骤34：采用Gurobi求解器求解上述模型的原问题和对偶变量，获取充电站所在节点的边际成本电价λ_k。

在一较佳的实施例中，所述epsilon-Greedy算法包括以下步骤：

步骤41：生成一个随机数u，判断其与epsilon-Greedy算法的衰退因子ξ的大小；

步骤42：若u<ξ，则采用随机的方式在当前状态对每辆电动汽车生成一个行为a_i,t，该行为在专利中表示电动汽车充电路径策略；

a_i,t＝randint(N_action) (19)

式中，N_action表示电动汽车行为决策的数量；

步骤43：若u≥ξ，则根据图神经网络强化学习算法的经验对每辆电动汽车i在当前状态x_i,t和邻接矩阵A下生成一个行为a_i,t，即

式中，θ_t表示图神经网络强化学习算法的参数；argmax()表示取最大值对应的参数操作；x_i,t表示第i辆电动汽车在时间t时的状态，其主要由时间t时第i辆电动汽车的状态x_i,t由电动汽车状态EV_i,t、近邻交通道路信息Ro_i,t、近邻电动汽车状态Ne_i,t和各充电站信息CS_t组成，即

x_i,t＝[EV_i,t,Ro_i,t,Ne_i,t,CS_t] (21)

式中，第i辆电动汽车状态EV_i,t包括电动汽车前往充电站时的下一节点道路编号/>电动汽车行驶速度v_i,t和剩余电量SOC_i,t；近邻交通道路信息状态Ro_i,t包括与电动汽车i所在下一节点/>相连的下一条道路的起始节点/>末节点道路长度/>以及道路上的电动车数量/>近邻电动汽车状态Ne_i,t包括各近邻电动汽车k的状态，如与第i辆电动汽车临近的第k辆电动汽车下一节点/>其所在的道路编号/>电动汽车行驶速度v_i,k,t和剩余电量SOC_i,k,t；充电站信息CS_t包括各充电站的充电电价p_c,t和电动汽车数量/>

所述图神经网络强化学习算法其神经网络结构包括一层的输入层，一层的全连接层对输入的状态x_i,t进行特征提取x_i,t’，然后将提出的特征x_i,t’和邻接矩阵A一起输入到两层的图神经网络中再进行特征提取，最后连接一层全连接层对电动汽车充电路径策略a_i,t进行输出；其中，所述的图神经网络采用的是图注意力网络。

在一较佳的实施例中，所述图神经网络强化学习算法的奖励函数r_i,t如式所示：

式中，node_cur和node_tar表示电动汽车所在当前节点和电动汽车将要前往的任一充电站节点，step表示电动汽车已经行驶的步数；penalty表示一个很大的惩罚因子；w_i表示第i辆电动汽车的单位时间成本；和/>分别表示在时间t时第i辆电动汽车前往第k个充电站时的行驶时间、充电等待时间和充电所需时间；λ_k,t表示在时间t时充电站k所在节点的边际成本电价；SOC_i,k,t表示在时间t时第i辆电动汽车达到充电站k时的剩余电量SOC_i,k,t；/>表示第i辆电动汽车电池额定容量；

从式可以看出该奖励函数r_i,t是一个分段函数；若第i辆电动汽车没有到达充电站node_cur≠node_tar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step＜N_step，此时其奖励函数r_i,t＝0；若第i辆电动汽车前往充电站的步数大于或等于给定的最大充电步数step≥N_step，表明该次充电行为探索失败，此时给予其一个较大的负奖励r_i,t＝-penalty；若第i辆电动汽车到达充电站node_cur＝node_tar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step＜N_step，此时其奖励函数根据电动汽车行驶时间和充电时间/>以及充电时电费来计算；

第i辆电动汽车在路段a的通行时间t_a,t根据美国联邦公路局函数(bureau ofpublic roads,BPR)来计算，即

式中，n_a,t表示t时刻路段a上的电动汽车数量；c_a和分别表示路段a的容量上限和t时刻电动汽车自由通行时间；由此可以得到第i辆电动汽车前往充电站k所需时间/>即

此外，第i辆电动汽车的充电等待时间可以通过式得到；

式中，SOC_t表示电动汽车剩余电量；表示电动汽车电池的额定容量；η表示充电功率因素，P^charging表示电动汽车充电的额定功率。

在一较佳的实施例中，所述基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新包括：

步骤61：从记忆单元D中随机抽取一定数量的样本Sample；

步骤62：构建损失函数如式所示，并在抽取的样本Sample下根据随机梯度下降方法对图神经网络强化学习算法权重进行更新如式所示；

式中，x,a,x'和a'分别为当前状态、动作以及下一时刻的状态和动作；r表示图神经网络强化学习的立即奖励；θ_t表示当前时刻t的图神经网络强化学习算法参数；0≤γ≤1表示折扣因子，其反映未来Q值对当前动作的影响；表示在目标图神经网络强化学习算法参数θ′_t下的状态-动作值；

式中，θ_t表示当前时刻t的图神经网络强化学习算法参数；表示对θ_t进行求导操作；α表示学习速率；

步骤63：每经过一定的步数根据当前图神经网络强化学习参数θ_t对目标图神经网络强化学习参数θ′_t进行更新。

与现有技术相比，本发明具有以下有益效果：

本发明提供了一种基于图神经网络强化学习的电动汽车充电引导优化方法，基于图理论将电动汽车间的相互影响关系转换为一种动态网络图结构，提出一种基于注意力机制的图神经网络强化学习来处理不规则非欧式结构数据，以此研究多智能体间的沟通、协作，探讨电动汽车间的相互影响。在考虑可再生能源出力的主动配电网基础上，通过二阶锥优化及对偶优化理论对配电网最优潮流进行求解并得到配电网节点边际成本电价，以此研究电力-交通融合网协同优化。所提出的基于图神经网络强化学习的电动汽车充电引导优化方法能够有效的在考虑电力-交通融合网多种不确定性因素的情况下，能够有效地降低电动汽车充电总成本，实现电动汽车的有序充电以及电力***协同优化调度。

附图说明

图1为本发明优选实施例的基于图神经网络强化学习的电动汽车充电引导优化方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，是本发明一种基于图神经网络强化学习的电动汽车充电引导优化方法，包括如下步骤：

S11：电力-交通融合网协同优化模型初始化；

S12：更新电动汽车充电负荷，并基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算；

S13：根据epsilon-Greedy算法和图神经网络强化学习算法生成电动汽车充电引导行为策略a_i,t；

S14：执行充电引导行为策略a_i,t，并对电动汽车的状态进行判断和更新；

S15：根据电力-交通融合环境计算图神经网络强化学习算法的奖励函数；

S16：部分观测马尔科夫决策过程的状态x_i,t更新；

S17：将当前步的信息(x_i,t,a_i,t,r_i,t,x_i,t’)存储于记忆单元D中，并基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新；

S18：判断是否达到预定的时间T_end。若否，则执行(2)～(7)；若是，则输出图神经网络强化学习算法参数和相应输出结果。

具体的：

一、电力-交通融合网协同优化模型初始化。主要的步骤包括电力网络和交通网络拓扑结构和参数确定，包括电力***节点、线路、初始电压、优化的上下限值，交通网络包括交通节点、道路参数、容量、行驶速度最大值等。

神经网络参数初始化，包括神经网络权重初始化和超参数设置，如学习速率α、折扣因子γ、批大小B和记忆单元容量大小D；

将研究区域中的每辆电动汽车看做一个代理，并将其视为一个节点n∈N，将电动汽车间的连接视为边e∈E，以此构成图网络结构G＝(N,E)，并对每辆电动汽车i在当前状态x_i,t和邻接矩阵A进行初始化。

二、更新电动汽车充电负荷，并基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算。主要包括以下步骤：

步骤21：更新电动汽车充电负荷：根据充电站中的电动汽车数量和充电功率计算各个充电站充电负荷，得到各个站的充电负荷后加上该节点的基础负荷即可以获得该节点的最终用电负荷；

步骤22：建立基于支路潮流模型的配电网最优潮流模型：

min f(p,q,P,Q,V,I) (1)

式中，E_N和E_L分别表示配电网节点和线路集合；P_ij和Q_ij表示从节点i流向节点j的支路有功功率和无功功率；和/>表示发电机有功和无功出力，即注入到节点j的有功功率和无功功率；/>和/>表示风机注入到节点j的有功功率和无功功率；r_ij和x_ij表示从节点i到节点j的支路电阻和电抗；I_ij表示从节点i到节点j的支路电流；π(j)表示与节点j相连的支路集合；/>和/>表示连接在节点j上的有功负荷和无功负荷；V_i表示节点i的电压幅值；z_ij表示连接节点i和节点j的支路阻抗，满足z_ij＝r_ij+jx_ij；/>表示连接节点i和节点j的支路电流最大值；V _j和/>表示节点j的最小和最大电压；/>表示连接到节点j的风机最大有功出力；/>表示连接到节点j的风机的功率因素。

配电网节点j的负荷包括基础负荷/>和电动汽车充电负荷/>即

式中，a_i和b_i分别表示发电机的二次煤耗和一次煤耗系数；和/>分别从主网中购买电量的电价和有功功率。

步骤23、将以上非线性配电网最优潮流模型转换为二阶锥松弛规划模型：

由于BFM-OPF是非线性规划模型，令以及/>并对式进行二阶锥松弛(SOCR)转换，可以得到以下模型：

式中||·||₂表示二阶锥操作；上式-构成了松弛后的配电网最优潮流基本形式。

步骤24、采用Gurobi求解器求解上述模型的原问题和对偶变量，获取充电站所在节点的边际成本电价λ_k。

三、根据epsilon-Greedy算法和图神经网络强化学习算法生成电动汽车充电引导行为策略a_i,t。主要包括以下步骤：

步骤31：生成一个随机数u，判断其与epsilon-Greedy算法的衰退因子ξ的大小。

步骤32：若u<ξ，则采用随机的方式在当前状态对每辆电动汽车生成一个行为a_i,t，该行为在专利中表示电动汽车充电路径策略；

a_i,t＝randint(N_action) (19)

式中，N_action表示电动汽车行为决策的数量。

步骤33：若u≥ξ，则根据图神经网络强化学习算法的经验对每辆电动汽车i在当前状态x_i,t和邻接矩阵A下生成一个行为a_i,t，即

x_i,t＝[EV_i,t,Ro_i,t,Ne_i,t,CS_t] (21)

所述图神经网络强化学习算法其神经网络结构包括一层的输入层，一层的全连接层对输入的状态x_i,t进行特征提取x_i,t’，然后将提出的特征x_i,t’和邻接矩阵A一起输入到两层的图神经网络中再进行特征提取，最后连接一层全连接层对电动汽车充电路径策略a_i,t进行输出。其中，本专利所述的图神经网络采用的是图注意力网络。

四、执行充电引导行为策略a_i,t，并对电动汽车的状态进行判断和更新。电动汽车的状态分为三种：决策状态、运行状态和充电状态。如果电动汽车抵达交叉路口node_cur＝node_next并且该路口不是充电站节点node_cur≠node_tar，此时电动处于决策状态，电动汽车执行充电引导行为策略a_i,t，并更新道路状态如电动汽车数量、行驶理想速度，更新电动汽车状态如所在道路位置、行驶速度和距离等信息；若电动汽车没有抵达交叉路口node_cur≠node_next，此时电动汽车处于运行状态，即电动汽车按照上一步的充电引导策略a_i,t-1继续沿着当前的道路向前行驶，并更新此时的电动汽车位置信息、速度信息和SOC状态；若电动汽车所在节点位置充电站节点上node_cur＝node_tar，此时电动汽车处于充电状态，若当前电动汽车数量大于充电站中充电桩的数量时，电动汽车需要排队等待进行充电，若充电站中有可用充电桩使用时，则电动汽车立即进行充电，并更新电动汽车充电等待时间、充电时间和电动汽车SOC状态。

五、根据电力-交通融合环境计算图神经网络强化学习算法的奖励函数。具体地，奖励函数r_i,t是一个分段函数：若第i辆电动汽车没有到达充电站node_cur≠node_tar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step＜N_step，此时其奖励函数r_i,t＝0；若第i辆电动汽车前往充电站的步数大于或等于给定的最大充电步数step≥N_step，表明该次充电行为探索失败，此时给予其一个较大的负奖励r_i,t＝-penalty；若第i辆电动汽车到达充电站node_cur＝node_tar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step＜N_step，此时其奖励函数根据电动汽车行驶时间充电等待时间/>充电时间/>以及充电时电费来计算，具体计算表达式如所示。

行驶时间充电等待时间/>充电时间/>计算表达式如-所示。

第i辆电动汽车在路段a的通行时间根据美国联邦公路局函数(bureau of publicroads,BPR)来计算，即

式中，n_a,t表示t时刻路段a上的电动汽车数量；c_a和分别表示路段a的容量上限和t时刻电动汽车自由通行时间。由此可以得到第i辆电动汽车前往充电站k所需时间/>即

此外，第i辆电动汽车的充电等待时间可以通过式得到。

式中，SOC_t表示电动汽车的剩余电量；表示电动汽车电池额定容量；η表示充电功率因素，P^charging表示电动汽车充电的额定功率。

六、部分观测马尔科夫决策过程的状态x_i,t更新，包括更新电动汽车状态EV_i,t、近邻交通道路信息Ro_i,t、近邻电动汽车状态Ne_i,t和各充电站信息CS_t。

七、将当前步的信息(x_i,t,a_i,t,r_i,t,x_i,t’)存储于记忆单元D中，并基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新。其主要包括以下步骤：

步骤71：从记忆单元D中随机抽取一定数量的样本Sample；

步骤72：构建损失函数如式所示，并在抽取的样本Sample下根据随机梯度下降方法对图神经网络强化学习算法权重进行更新如式所示；

式中，x,a,x'和a'分别为当前状态、动作以及下一时刻的状态和动作；θ_t表示当前时刻t的图神经网络强化学习算法参数；0≤γ≤1表示折扣因子，其反映未来Q值对当前动作的影响；表示在目标图神经网络强化学习算法参数θ′_t下的状态-动作值。

式中，θ_t表示当前时刻t的图神经网络强化学习算法参数；表示对θ_t进行求导操作；α表示学习速率。

步骤73：每经过一定的步数根据当前图神经网络强化学习参数θ_t对目标图神经网络强化学习参数θ′_t进行更新。

八、判断是否达到预定的时间T_end。若否，则执行(2)～(7)；若是，则输出图神经网络强化学习算法参数和相应输出结果。

本发明一种基于图神经网络强化学习的电动汽车充电引导优化方法，基于图理论将电动汽车间的相互影响关系转换为一种动态网络图结构，提出一种基于注意力机制的图神经网络强化学习来处理不规则非欧式结构数据，以此研究多智能体间的沟通、协作，探讨电动汽车间的相互影响。在考虑可再生能源出力的主动配电网基础上，通过二阶锥优化及对偶优化理论对配电网最优潮流进行求解并得到配电网节点边际成本电价，以此研究电力-交通融合网协同优化。所提出的基于图神经网络强化学习的电动汽车充电引导优化方法能够有效的在考虑电力-交通融合网多种不确定性因素的情况下，能够有效地降低电动汽车充电总成本，实现电动汽车的有序充电以及电力***协同优化调度。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.基于图神经网络强化学习的电动汽车充电引导优化方法，其特征在于，包括如下步骤：

步骤S1：电力-交通融合网协同优化模型初始化；

步骤S5：根据电力-交通融合环境计算图神经网络强化学习算法的奖励函数r_i,t；

步骤S6：部分观测马尔科夫决策过程的状态x_i,t更新；

步骤S8：判断是否达到预定的时间T_end；若否，则执行(2)～(7)；若是，则输出图神经网络强化学习算法参数和相应输出结果；

更新电动汽车充电负荷和基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算步骤包括：

步骤31：更新电动汽车充电负荷：根据充电站中的电动汽车数量和充电功率计算各个充电站充电负荷，得到各个站的充电负荷后加上该节点的基础负荷即获得该节点的最终用电负荷；

步骤32：建立基于支路潮流模型的配电网最优潮流模型：

min f(p,q,P,Q,V,I) (1)

s.t.

配电网节点j的负荷包括基础负荷/>和电动汽车充电负荷/>即

根据配电网实际需求，其目标函数min f(p,q,P,Q,V,I)最终定义为：

式中，a_i和b_i分别表示发电机的二次煤耗和一次煤耗系数；表示注入节点i发电机的有功出力；/>和/>分别从主网中购买电量的电价和有功功率；

步骤33：将非线性配电网最优潮流模型转换为二阶锥松弛规划模型：

由于BFM-OPF是非线性规划模型，令支路电流幅值以及支路电压幅值/>并对式(5)进行二阶锥松弛(SOCR)转换，得到以下模型：

s.t.

式中||·||₂表示二阶锥操作；上式(8)-(18)构成了松弛后的配电网最优潮流基本形式；

2.根据权利要求1所述的基于图神经网络强化学习的电动汽车充电引导优化方法，其特征在于，对电力-交通融合网协同优化模型初始化，包括以下步骤：

步骤22：神经网络参数初始化，包括神经网络权重初始化和超参数设置，学习速率α、折扣因子γ、批大小B和记忆单元D容量大小；

3.根据权利要求1所述的基于图神经网络强化学习的电动汽车充电引导优化方法，其特征在于，所述epsilon-Greedy算法包括以下步骤：

a_i,t＝randint(N_action) (19)

式中，N_action表示电动汽车行为决策的数量；

x_i,t＝[EV_i,t,Ro_i,t,Ne_i,t,CS_t] (21)

式中，第i辆电动汽车状态EV_i,t包括电动汽车前往充电站时的下一节点道路编号/>电动汽车行驶速度v_i,t和剩余电量SOC_i,t；近邻交通道路信息状态Ro_i,t包括与电动汽车i所在下一节点/>相连的下一条道路的起始节点/>末节点/>道路长度/>以及道路上的电动车数量/>近邻电动汽车状态Ne_i,t包括各近邻电动汽车k的状态，如与第i辆电动汽车临近的第k辆电动汽车下一节点/>其所在的道路编号电动汽车行驶速度v_i,k,t和剩余电量SOC_i,k,t；充电站信息CS_t包括各充电站的充电电价p_c,t和电动汽车数量/>

4.根据权利要求2所述的基于图神经网络强化学习的电动汽车充电引导优化方法，其特征在于，所述图神经网络强化学习算法的奖励函数r_i,t如式(26)所示：

从式(26)看出该奖励函数r_i,t是一个分段函数；若第i辆电动汽车没有到达充电站node_cur≠node_tar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step＜N_step，此时其奖励函数r_i,t＝0；若第i辆电动汽车前往充电站的步数大于或等于给定的最大充电步数step≥N_step，表明该次充电行为探索失败，此时给予其一个较大的负奖励r_i,t＝-penalty；若第i辆电动汽车到达充电站node_cur＝node_tar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step＜N_step，此时其奖励函数根据电动汽车行驶时间和充电时间/>以及充电时电费来计算；

第i辆电动汽车在路段a的通行时间t_a,t根据美国联邦公路局函数(bureau ofpublicroads,BPR)来计算，即

式中，n_a,t表示t时刻路段a上的电动汽车数量；c_a和分别表示路段a的容量上限和t时刻电动汽车自由通行时间；由此得到第i辆电动汽车前往充电站k所需时间/>即

此外，第i辆电动汽车的充电等待时间通过式(29)得到；

5.根据权利要求1所述的基于图神经网络强化学习的电动汽车充电引导优化方法，其特征在于，所述基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新包括：

步骤61：从记忆单元D中随机抽取一定数量的样本Sample；

步骤62：构建损失函数如式(30)所示，并在抽取的样本Sample下根据随机梯度下降方法对图神经网络强化学习算法权重进行更新如式(31)所示；