CN114444802B - 基于图神经网络强化学习的电动汽车充电引导优化方法 - Google Patents

基于图神经网络强化学习的电动汽车充电引导优化方法 Download PDF

Info

Publication number
CN114444802B
CN114444802B CN202210109887.2A CN202210109887A CN114444802B CN 114444802 B CN114444802 B CN 114444802B CN 202210109887 A CN202210109887 A CN 202210109887A CN 114444802 B CN114444802 B CN 114444802B
Authority
CN
China
Prior art keywords
node
charging
electric vehicle
neural network
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210109887.2A
Other languages
English (en)
Other versions
CN114444802A (zh
Inventor
江昌旭
卢玥君
林铮
邵振国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210109887.2A priority Critical patent/CN114444802B/zh
Publication of CN114444802A publication Critical patent/CN114444802A/zh
Application granted granted Critical
Publication of CN114444802B publication Critical patent/CN114444802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明提供了一种基于图神经网络强化学习的电动汽车充电引导优化方法,包括如下步骤:步骤S1:电力‑交通融合网协同优化模型初始化;步骤S2:更新电动汽车充电负荷;步骤S3:根据epsilon‑Greedy算法和图神经网络强化学习算法生成a i,t ;步骤S4:执行充电引导行为策略a i,t ;步骤S5:计算图神经网络强化学习算法的奖励函数;步骤S6:部分观测马尔科夫决策过程的状态x i,t 更新;步骤S7:将当前步的信息(x i,t , a i,t ,r i,t ,x i,t )存储于记忆单元D中;步骤S8:判断是否达到预定的时间T end;若否,则执行(2)~(7);若是,则输出图神经网络强化学习算法参数和相应输出结果。应用本技术方案可实现有效地降低电动汽车充电总成本,实现电动汽车的有序充电以及电力***协同优化调度。

Description

基于图神经网络强化学习的电动汽车充电引导优化方法
技术领域
本发明涉及电力-交通融合网协同优化技术领域,特别是一种基于图神经网络强化学习的电动汽车充电引导优化方法。
背景技术
随着电动汽车规模化运行,电力***和交通***将会存在许多的交互融合,形成电力-交通融合网。该融合网涉及电动汽车、电力***和交通***等多个主体,包含了多种随机不确定因素。多个主体相互作用、多种随机因素的影响以及多种随机因素的耦合关系使得弄清电力和交通***的交互影响机理以及解决电力-交通融合网协同优化变得更加困难。例如电动汽车用户的出行和心理行为以及驾驶行为均具有一定的随机性,这将会影响到交通***的流量分布,使得交通流量也具有一定的不确定性,进一步影响到电动汽车达到充电站的时间,使得电动汽车的充电时间、排队时间和充电时长也具有很强的不确定性。不同于传统的电力负荷,电动汽车作为一种可移动的负荷,其随机性相比于传统的电力负荷更强,更加难以预测。
目前对电力-交通融合网研究可以分为三个研究方向:1)从电力***角度出发,通过计算节点边际成本电价或优化充电站服务定价来引导电动汽车以最低的成本进行充电;2)从交通***角度出发考虑充电路径优化实现充电成本最小化;3)综合考虑电动汽车、电力和交通***的利益,通过优化电动汽车的充电策略和电力***的调度决策实现综合效益最大化。但是现有的研究大部分属于静态优化问题,尚未考虑到电动汽车、充电站和电力***等主体在连续时间尺度上的耦合关系;同时现有大部分研究没有考虑到多种不确定因素及其相关耦合性对电力-交通融合网协同优化的影响。更重要的是,现有的研究中没有考虑到电动汽车间交互影响对电力-交通融合网协同优化影响。
发明内容
有鉴于此,本发明的目的在于提供一种基于图神经网络强化学习的电动汽车充电引导优化方法,能够有效的在考虑电力-交通融合网多种不确定性因素的情况下,能够有效地降低电动汽车充电总成本,实现电动汽车的有序充电以及电力***协同优化调度。
为实现上述目的,本发明采用如下技术方案:基于图神经网络强化学习的电动汽车充电引导优化方法,包括如下步骤:
步骤S1:电力-交通融合网协同优化模型初始化;
步骤S2:更新电动汽车充电负荷,并基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算;
步骤S3:根据epsilon-Greedy算法和图神经网络强化学习算法生成电动汽车充电引导行为策略ai,t
步骤S4:执行充电引导行为策略ai,t,并对电动汽车的状态进行判断和更新;
步骤S5:根据电力-交通融合环境计算图神经网络强化学习算法的奖励函数;
步骤S6:部分观测马尔科夫决策过程的状态xi,t更新;
步骤S7:将当前步的信息(xi,t,ai,t,ri,t,xi,t’)存储于记忆单元D中,并基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新;其中,xi,t,表示图神经网络强化学习当前状态;ai,t表示电动汽车行为策略;ri,t表示图神经网络强化学习的奖励函数值;xi,t’表示图神经网络强化学习下一步状态;
步骤S8:判断是否达到预定的时间Tend;若否,则执行(2)~(7);若是,则输出图神经网络强化学习算法参数和相应输出结果。
在一较佳的实施例中,对电力-交通融合网协同优化模型初始化,包括以下步骤:
步骤21:电力网络和交通网络拓扑结构和参数确定,包括电力***节点、线路、初始电压、优化的上下限值,交通网络包括交通节点、道路参数、容量及行驶速度最大值;
步骤22:神经网络参数初始化,包括神经网络权重初始化和超参数设置,如学习速率α、折扣因子γ、批大小B和记忆单元D容量大小;
步骤23:将研究区域中的每辆电动汽车看做一个代理,并将其视为一个节点n∈N,将电动汽车间的连接视为边e∈E,以此构成图网络结构G=(N,E),并对每辆电动汽车i在当前状态xi,t和邻接矩阵A进行初始化。
在一较佳的实施例中,更新电动汽车充电负荷和基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算步骤包括:
步骤31:更新电动汽车充电负荷:根据充电站中的电动汽车数量和充电功率计算各个充电站充电负荷,得到各个站的充电负荷后加上该节点的基础负荷即可以获得该节点的最终用电负荷;
步骤32:建立基于支路潮流模型的配电网最优潮流模型:
min f(p,q,P,Q,V,I) (1)
式中,EN和EL分别表示配电网节点和线路集合;Pij和Qij表示从节点i流向节点j的支路有功功率和无功功率;Pjk表示从节点j流向节点k的支路有功功率;和/>表示发电机有功和无功出力,即注入到节点j的有功功率和无功功率;/>和/>表示风机注入到节点j的有功功率和无功功率;Qjs表示从节点j流向节点s的支路无功功率;rij和xij表示从节点i到节点j的支路电阻和电抗;Iij表示从节点i到节点j的支路电流;π(j)表示与节点j相连的支路集合;/>和/>表示连接在节点j上的有功负荷和无功负荷;Vi表示节点i的电压幅值;Vj表示节点j的电压幅值;zij表示连接节点i和节点j的支路阻抗,满足zij=rij+jxij;/>表示连接节点i和节点j的支路电流最大值;V j和/>表示节点j的最小和最大电压;/>表示连接到节点j的风机最大有功出力;/>表示连接到节点j的风机的功率因素;
配电网节点j的负荷包括基础负荷/>和电动汽车充电负荷/>
根据配电网实际需求,其目标函数min f(p,q,P,Q,V,I)可以最终定义为:
式中,表示注入节点i发电机的有功出力;ai和bi分别表示发电机的二次煤耗和一次煤耗系数;/>和/>分别从主网中购买电量的电价和有功功率;
步骤33:将以上非线性配电网最优潮流模型转换为二阶锥松弛规划模型:
由于BFM-OPF是非线性规划模型,令支路电流幅值以及支路电压幅值并对式进行二阶锥松弛(SOCR)转换,可以得到以下模型:
式中||·||2表示二阶锥操作;上式-构成了松弛后的配电网最优潮流基本形式;
步骤34:采用Gurobi求解器求解上述模型的原问题和对偶变量,获取充电站所在节点的边际成本电价λk
在一较佳的实施例中,所述epsilon-Greedy算法包括以下步骤:
步骤41:生成一个随机数u,判断其与epsilon-Greedy算法的衰退因子ξ的大小;
步骤42:若u<ξ,则采用随机的方式在当前状态对每辆电动汽车生成一个行为ai,t,该行为在专利中表示电动汽车充电路径策略;
ai,t=randint(Naction) (19)
式中,Naction表示电动汽车行为决策的数量;
步骤43:若u≥ξ,则根据图神经网络强化学习算法的经验对每辆电动汽车i在当前状态xi,t和邻接矩阵A下生成一个行为ai,t,即
式中,θt表示图神经网络强化学习算法的参数;argmax()表示取最大值对应的参数操作;xi,t表示第i辆电动汽车在时间t时的状态,其主要由时间t时第i辆电动汽车的状态xi,t由电动汽车状态EVi,t、近邻交通道路信息Roi,t、近邻电动汽车状态Nei,t和各充电站信息CSt组成,即
xi,t=[EVi,t,Roi,t,Nei,t,CSt] (21)
式中,第i辆电动汽车状态EVi,t包括电动汽车前往充电站时的下一节点道路编号/>电动汽车行驶速度vi,t和剩余电量SOCi,t;近邻交通道路信息状态Roi,t包括与电动汽车i所在下一节点/>相连的下一条道路的起始节点/>末节点道路长度/>以及道路上的电动车数量/>近邻电动汽车状态Nei,t包括各近邻电动汽车k的状态,如与第i辆电动汽车临近的第k辆电动汽车下一节点/>其所在的道路编号/>电动汽车行驶速度vi,k,t和剩余电量SOCi,k,t;充电站信息CSt包括各充电站的充电电价pc,t和电动汽车数量/>
所述图神经网络强化学习算法其神经网络结构包括一层的输入层,一层的全连接层对输入的状态xi,t进行特征提取xi,t’,然后将提出的特征xi,t’和邻接矩阵A一起输入到两层的图神经网络中再进行特征提取,最后连接一层全连接层对电动汽车充电路径策略ai,t进行输出;其中,所述的图神经网络采用的是图注意力网络。
在一较佳的实施例中,所述图神经网络强化学习算法的奖励函数ri,t如式所示:
式中,nodecur和nodetar表示电动汽车所在当前节点和电动汽车将要前往的任一充电站节点,step表示电动汽车已经行驶的步数;penalty表示一个很大的惩罚因子;wi表示第i辆电动汽车的单位时间成本;和/>分别表示在时间t时第i辆电动汽车前往第k个充电站时的行驶时间、充电等待时间和充电所需时间;λk,t表示在时间t时充电站k所在节点的边际成本电价;SOCi,k,t表示在时间t时第i辆电动汽车达到充电站k时的剩余电量SOCi,k,t;/>表示第i辆电动汽车电池额定容量;
从式可以看出该奖励函数ri,t是一个分段函数;若第i辆电动汽车没有到达充电站nodecur≠nodetar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step<Nstep,此时其奖励函数ri,t=0;若第i辆电动汽车前往充电站的步数大于或等于给定的最大充电步数step≥Nstep,表明该次充电行为探索失败,此时给予其一个较大的负奖励ri,t=-penalty;若第i辆电动汽车到达充电站nodecur=nodetar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step<Nstep,此时其奖励函数根据电动汽车行驶时间和充电时间/>以及充电时电费来计算;
第i辆电动汽车在路段a的通行时间ta,t根据美国联邦公路局函数(bureau ofpublic roads,BPR)来计算,即
式中,na,t表示t时刻路段a上的电动汽车数量;ca分别表示路段a的容量上限和t时刻电动汽车自由通行时间;由此可以得到第i辆电动汽车前往充电站k所需时间/>
此外,第i辆电动汽车的充电等待时间可以通过式得到;
式中,SOCt表示电动汽车剩余电量;表示电动汽车电池的额定容量;η表示充电功率因素,Pcharging表示电动汽车充电的额定功率。
在一较佳的实施例中,所述基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新包括:
步骤61:从记忆单元D中随机抽取一定数量的样本Sample;
步骤62:构建损失函数如式所示,并在抽取的样本Sample下根据随机梯度下降方法对图神经网络强化学习算法权重进行更新如式所示;
式中,x,a,x'和a'分别为当前状态、动作以及下一时刻的状态和动作;r表示图神经网络强化学习的立即奖励;θt表示当前时刻t的图神经网络强化学习算法参数;0≤γ≤1表示折扣因子,其反映未来Q值对当前动作的影响;表示在目标图神经网络强化学习算法参数θ′t下的状态-动作值;
式中,θt表示当前时刻t的图神经网络强化学习算法参数;表示对θt进行求导操作;α表示学习速率;
步骤63:每经过一定的步数根据当前图神经网络强化学习参数θt对目标图神经网络强化学习参数θ′t进行更新。
与现有技术相比,本发明具有以下有益效果:
本发明提供了一种基于图神经网络强化学习的电动汽车充电引导优化方法,基于图理论将电动汽车间的相互影响关系转换为一种动态网络图结构,提出一种基于注意力机制的图神经网络强化学习来处理不规则非欧式结构数据,以此研究多智能体间的沟通、协作,探讨电动汽车间的相互影响。在考虑可再生能源出力的主动配电网基础上,通过二阶锥优化及对偶优化理论对配电网最优潮流进行求解并得到配电网节点边际成本电价,以此研究电力-交通融合网协同优化。所提出的基于图神经网络强化学习的电动汽车充电引导优化方法能够有效的在考虑电力-交通融合网多种不确定性因素的情况下,能够有效地降低电动汽车充电总成本,实现电动汽车的有序充电以及电力***协同优化调度。
附图说明
图1为本发明优选实施例的基于图神经网络强化学习的电动汽车充电引导优化方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,是本发明一种基于图神经网络强化学习的电动汽车充电引导优化方法,包括如下步骤:
S11:电力-交通融合网协同优化模型初始化;
S12:更新电动汽车充电负荷,并基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算;
S13:根据epsilon-Greedy算法和图神经网络强化学习算法生成电动汽车充电引导行为策略ai,t
S14:执行充电引导行为策略ai,t,并对电动汽车的状态进行判断和更新;
S15:根据电力-交通融合环境计算图神经网络强化学习算法的奖励函数;
S16:部分观测马尔科夫决策过程的状态xi,t更新;
S17:将当前步的信息(xi,t,ai,t,ri,t,xi,t’)存储于记忆单元D中,并基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新;
S18:判断是否达到预定的时间Tend。若否,则执行(2)~(7);若是,则输出图神经网络强化学习算法参数和相应输出结果。
具体的:
一、电力-交通融合网协同优化模型初始化。主要的步骤包括电力网络和交通网络拓扑结构和参数确定,包括电力***节点、线路、初始电压、优化的上下限值,交通网络包括交通节点、道路参数、容量、行驶速度最大值等。
神经网络参数初始化,包括神经网络权重初始化和超参数设置,如学习速率α、折扣因子γ、批大小B和记忆单元容量大小D;
将研究区域中的每辆电动汽车看做一个代理,并将其视为一个节点n∈N,将电动汽车间的连接视为边e∈E,以此构成图网络结构G=(N,E),并对每辆电动汽车i在当前状态xi,t和邻接矩阵A进行初始化。
二、更新电动汽车充电负荷,并基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算。主要包括以下步骤:
步骤21:更新电动汽车充电负荷:根据充电站中的电动汽车数量和充电功率计算各个充电站充电负荷,得到各个站的充电负荷后加上该节点的基础负荷即可以获得该节点的最终用电负荷;
步骤22:建立基于支路潮流模型的配电网最优潮流模型:
min f(p,q,P,Q,V,I) (1)
式中,EN和EL分别表示配电网节点和线路集合;Pij和Qij表示从节点i流向节点j的支路有功功率和无功功率;和/>表示发电机有功和无功出力,即注入到节点j的有功功率和无功功率;/>和/>表示风机注入到节点j的有功功率和无功功率;rij和xij表示从节点i到节点j的支路电阻和电抗;Iij表示从节点i到节点j的支路电流;π(j)表示与节点j相连的支路集合;/>和/>表示连接在节点j上的有功负荷和无功负荷;Vi表示节点i的电压幅值;zij表示连接节点i和节点j的支路阻抗,满足zij=rij+jxij;/>表示连接节点i和节点j的支路电流最大值;V j和/>表示节点j的最小和最大电压;/>表示连接到节点j的风机最大有功出力;/>表示连接到节点j的风机的功率因素。
配电网节点j的负荷包括基础负荷/>和电动汽车充电负荷/>
根据配电网实际需求,其目标函数min f(p,q,P,Q,V,I)可以最终定义为:
式中,ai和bi分别表示发电机的二次煤耗和一次煤耗系数;和/>分别从主网中购买电量的电价和有功功率。
步骤23、将以上非线性配电网最优潮流模型转换为二阶锥松弛规划模型:
由于BFM-OPF是非线性规划模型,令以及/>并对式进行二阶锥松弛(SOCR)转换,可以得到以下模型:
式中||·||2表示二阶锥操作;上式-构成了松弛后的配电网最优潮流基本形式。
步骤24、采用Gurobi求解器求解上述模型的原问题和对偶变量,获取充电站所在节点的边际成本电价λk
三、根据epsilon-Greedy算法和图神经网络强化学习算法生成电动汽车充电引导行为策略ai,t。主要包括以下步骤:
步骤31:生成一个随机数u,判断其与epsilon-Greedy算法的衰退因子ξ的大小。
步骤32:若u<ξ,则采用随机的方式在当前状态对每辆电动汽车生成一个行为ai,t,该行为在专利中表示电动汽车充电路径策略;
ai,t=randint(Naction) (19)
式中,Naction表示电动汽车行为决策的数量。
步骤33:若u≥ξ,则根据图神经网络强化学习算法的经验对每辆电动汽车i在当前状态xi,t和邻接矩阵A下生成一个行为ai,t,即
式中,θt表示图神经网络强化学习算法的参数;argmax()表示取最大值对应的参数操作;xi,t表示第i辆电动汽车在时间t时的状态,其主要由时间t时第i辆电动汽车的状态xi,t由电动汽车状态EVi,t、近邻交通道路信息Roi,t、近邻电动汽车状态Nei,t和各充电站信息CSt组成,即
xi,t=[EVi,t,Roi,t,Nei,t,CSt] (21)
式中,第i辆电动汽车状态EVi,t包括电动汽车前往充电站时的下一节点道路编号/>电动汽车行驶速度vi,t和剩余电量SOCi,t;近邻交通道路信息状态Roi,t包括与电动汽车i所在下一节点/>相连的下一条道路的起始节点/>末节点道路长度/>以及道路上的电动车数量/>近邻电动汽车状态Nei,t包括各近邻电动汽车k的状态,如与第i辆电动汽车临近的第k辆电动汽车下一节点/>其所在的道路编号/>电动汽车行驶速度vi,k,t和剩余电量SOCi,k,t;充电站信息CSt包括各充电站的充电电价pc,t和电动汽车数量/>
所述图神经网络强化学习算法其神经网络结构包括一层的输入层,一层的全连接层对输入的状态xi,t进行特征提取xi,t’,然后将提出的特征xi,t’和邻接矩阵A一起输入到两层的图神经网络中再进行特征提取,最后连接一层全连接层对电动汽车充电路径策略ai,t进行输出。其中,本专利所述的图神经网络采用的是图注意力网络。
四、执行充电引导行为策略ai,t,并对电动汽车的状态进行判断和更新。电动汽车的状态分为三种:决策状态、运行状态和充电状态。如果电动汽车抵达交叉路口nodecur=nodenext并且该路口不是充电站节点nodecur≠nodetar,此时电动处于决策状态,电动汽车执行充电引导行为策略ai,t,并更新道路状态如电动汽车数量、行驶理想速度,更新电动汽车状态如所在道路位置、行驶速度和距离等信息;若电动汽车没有抵达交叉路口nodecur≠nodenext,此时电动汽车处于运行状态,即电动汽车按照上一步的充电引导策略ai,t-1继续沿着当前的道路向前行驶,并更新此时的电动汽车位置信息、速度信息和SOC状态;若电动汽车所在节点位置充电站节点上nodecur=nodetar,此时电动汽车处于充电状态,若当前电动汽车数量大于充电站中充电桩的数量时,电动汽车需要排队等待进行充电,若充电站中有可用充电桩使用时,则电动汽车立即进行充电,并更新电动汽车充电等待时间、充电时间和电动汽车SOC状态。
五、根据电力-交通融合环境计算图神经网络强化学习算法的奖励函数。具体地,奖励函数ri,t是一个分段函数:若第i辆电动汽车没有到达充电站nodecur≠nodetar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step<Nstep,此时其奖励函数ri,t=0;若第i辆电动汽车前往充电站的步数大于或等于给定的最大充电步数step≥Nstep,表明该次充电行为探索失败,此时给予其一个较大的负奖励ri,t=-penalty;若第i辆电动汽车到达充电站nodecur=nodetar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step<Nstep,此时其奖励函数根据电动汽车行驶时间充电等待时间/>充电时间/>以及充电时电费来计算,具体计算表达式如所示。
行驶时间充电等待时间/>充电时间/>计算表达式如-所示。
第i辆电动汽车在路段a的通行时间根据美国联邦公路局函数(bureau of publicroads,BPR)来计算,即
式中,na,t表示t时刻路段a上的电动汽车数量;ca分别表示路段a的容量上限和t时刻电动汽车自由通行时间。由此可以得到第i辆电动汽车前往充电站k所需时间/>
此外,第i辆电动汽车的充电等待时间可以通过式得到。
式中,SOCt表示电动汽车的剩余电量;表示电动汽车电池额定容量;η表示充电功率因素,Pcharging表示电动汽车充电的额定功率。
六、部分观测马尔科夫决策过程的状态xi,t更新,包括更新电动汽车状态EVi,t、近邻交通道路信息Roi,t、近邻电动汽车状态Nei,t和各充电站信息CSt
七、将当前步的信息(xi,t,ai,t,ri,t,xi,t’)存储于记忆单元D中,并基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新。其主要包括以下步骤:
步骤71:从记忆单元D中随机抽取一定数量的样本Sample;
步骤72:构建损失函数如式所示,并在抽取的样本Sample下根据随机梯度下降方法对图神经网络强化学习算法权重进行更新如式所示;
式中,x,a,x'和a'分别为当前状态、动作以及下一时刻的状态和动作;θt表示当前时刻t的图神经网络强化学习算法参数;0≤γ≤1表示折扣因子,其反映未来Q值对当前动作的影响;表示在目标图神经网络强化学习算法参数θ′t下的状态-动作值。
式中,θt表示当前时刻t的图神经网络强化学习算法参数;表示对θt进行求导操作;α表示学习速率。
步骤73:每经过一定的步数根据当前图神经网络强化学习参数θt对目标图神经网络强化学习参数θ′t进行更新。
八、判断是否达到预定的时间Tend。若否,则执行(2)~(7);若是,则输出图神经网络强化学习算法参数和相应输出结果。
本发明一种基于图神经网络强化学习的电动汽车充电引导优化方法,基于图理论将电动汽车间的相互影响关系转换为一种动态网络图结构,提出一种基于注意力机制的图神经网络强化学习来处理不规则非欧式结构数据,以此研究多智能体间的沟通、协作,探讨电动汽车间的相互影响。在考虑可再生能源出力的主动配电网基础上,通过二阶锥优化及对偶优化理论对配电网最优潮流进行求解并得到配电网节点边际成本电价,以此研究电力-交通融合网协同优化。所提出的基于图神经网络强化学习的电动汽车充电引导优化方法能够有效的在考虑电力-交通融合网多种不确定性因素的情况下,能够有效地降低电动汽车充电总成本,实现电动汽车的有序充电以及电力***协同优化调度。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.基于图神经网络强化学习的电动汽车充电引导优化方法,其特征在于,包括如下步骤:
步骤S1:电力-交通融合网协同优化模型初始化;
步骤S2:更新电动汽车充电负荷,并基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算;
步骤S3:根据epsilon-Greedy算法和图神经网络强化学习算法生成电动汽车充电引导行为策略ai,t
步骤S4:执行充电引导行为策略ai,t,并对电动汽车的状态进行判断和更新;
步骤S5:根据电力-交通融合环境计算图神经网络强化学习算法的奖励函数ri,t
步骤S6:部分观测马尔科夫决策过程的状态xi,t更新;
步骤S7:将当前步的信息(xi,t,ai,t,ri,t,xi,t’)存储于记忆单元D中,并基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新;其中,xi,t,表示图神经网络强化学习当前状态;ai,t表示电动汽车行为策略;ri,t表示图神经网络强化学习的奖励函数值;xi,t’表示图神经网络强化学习下一步状态;
步骤S8:判断是否达到预定的时间Tend;若否,则执行(2)~(7);若是,则输出图神经网络强化学习算法参数和相应输出结果;
更新电动汽车充电负荷和基于二阶锥松弛优化及对偶理论对电动汽车充电站所在的节点的边际成本电价进行优化计算步骤包括:
步骤31:更新电动汽车充电负荷:根据充电站中的电动汽车数量和充电功率计算各个充电站充电负荷,得到各个站的充电负荷后加上该节点的基础负荷即获得该节点的最终用电负荷;
步骤32:建立基于支路潮流模型的配电网最优潮流模型:
min f(p,q,P,Q,V,I) (1)
s.t.
式中,EN和EL分别表示配电网节点和线路集合;Pij和Qij表示从节点i流向节点j的支路有功功率和无功功率;Pjk表示从节点j流向节点k的支路有功功率;和/>表示发电机有功和无功出力,即注入到节点j的有功功率和无功功率;/>和/>表示风机注入到节点j的有功功率和无功功率;Qjs表示从节点j流向节点s的支路无功功率;rij和xij表示从节点i到节点j的支路电阻和电抗;Iij表示从节点i到节点j的支路电流;π(j)表示与节点j相连的支路集合;/>和/>表示连接在节点j上的有功负荷和无功负荷;Vi表示节点i的电压幅值;Vj表示节点j的电压幅值;zij表示连接节点i和节点j的支路阻抗,满足zij=rij+jxij;/>表示连接节点i和节点j的支路电流最大值;V j和/>表示节点j的最小和最大电压;/>表示连接到节点j的风机最大有功出力;/>表示连接到节点j的风机的功率因素;
配电网节点j的负荷包括基础负荷/>和电动汽车充电负荷/>
根据配电网实际需求,其目标函数min f(p,q,P,Q,V,I)最终定义为:
式中,ai和bi分别表示发电机的二次煤耗和一次煤耗系数;表示注入节点i发电机的有功出力;/>和/>分别从主网中购买电量的电价和有功功率;
步骤33:将非线性配电网最优潮流模型转换为二阶锥松弛规划模型:
由于BFM-OPF是非线性规划模型,令支路电流幅值以及支路电压幅值/>并对式(5)进行二阶锥松弛(SOCR)转换,得到以下模型:
s.t.
式中||·||2表示二阶锥操作;上式(8)-(18)构成了松弛后的配电网最优潮流基本形式;
步骤34:采用Gurobi求解器求解上述模型的原问题和对偶变量,获取充电站所在节点的边际成本电价λk
2.根据权利要求1所述的基于图神经网络强化学习的电动汽车充电引导优化方法,其特征在于,对电力-交通融合网协同优化模型初始化,包括以下步骤:
步骤21:电力网络和交通网络拓扑结构和参数确定,包括电力***节点、线路、初始电压、优化的上下限值,交通网络包括交通节点、道路参数、容量及行驶速度最大值;
步骤22:神经网络参数初始化,包括神经网络权重初始化和超参数设置,学习速率α、折扣因子γ、批大小B和记忆单元D容量大小;
步骤23:将研究区域中的每辆电动汽车看做一个代理,并将其视为一个节点n∈N,将电动汽车间的连接视为边e∈E,以此构成图网络结构G=(N,E),并对每辆电动汽车i在当前状态xi,t和邻接矩阵A进行初始化。
3.根据权利要求1所述的基于图神经网络强化学习的电动汽车充电引导优化方法,其特征在于,所述epsilon-Greedy算法包括以下步骤:
步骤41:生成一个随机数u,判断其与epsilon-Greedy算法的衰退因子ξ的大小;
步骤42:若u<ξ,则采用随机的方式在当前状态对每辆电动汽车生成一个行为ai,t,该行为在专利中表示电动汽车充电路径策略;
ai,t=randint(Naction) (19)
式中,Naction表示电动汽车行为决策的数量;
步骤43:若u≥ξ,则根据图神经网络强化学习算法的经验对每辆电动汽车i在当前状态xi,t和邻接矩阵A下生成一个行为ai,t,即
式中,θt表示图神经网络强化学习算法的参数;argmax()表示取最大值对应的参数操作;xi,t表示第i辆电动汽车在时间t时的状态,其主要由时间t时第i辆电动汽车的状态xi,t由电动汽车状态EVi,t、近邻交通道路信息Roi,t、近邻电动汽车状态Nei,t和各充电站信息CSt组成,即
xi,t=[EVi,t,Roi,t,Nei,t,CSt] (21)
式中,第i辆电动汽车状态EVi,t包括电动汽车前往充电站时的下一节点道路编号/>电动汽车行驶速度vi,t和剩余电量SOCi,t;近邻交通道路信息状态Roi,t包括与电动汽车i所在下一节点/>相连的下一条道路的起始节点/>末节点/>道路长度/>以及道路上的电动车数量/>近邻电动汽车状态Nei,t包括各近邻电动汽车k的状态,如与第i辆电动汽车临近的第k辆电动汽车下一节点/>其所在的道路编号电动汽车行驶速度vi,k,t和剩余电量SOCi,k,t;充电站信息CSt包括各充电站的充电电价pc,t和电动汽车数量/>
所述图神经网络强化学习算法其神经网络结构包括一层的输入层,一层的全连接层对输入的状态xi,t进行特征提取xi,t’,然后将提出的特征xi,t’和邻接矩阵A一起输入到两层的图神经网络中再进行特征提取,最后连接一层全连接层对电动汽车充电路径策略ai,t进行输出;其中,所述的图神经网络采用的是图注意力网络。
4.根据权利要求2所述的基于图神经网络强化学习的电动汽车充电引导优化方法,其特征在于,所述图神经网络强化学习算法的奖励函数ri,t如式(26)所示:
式中,nodecur和nodetar表示电动汽车所在当前节点和电动汽车将要前往的任一充电站节点,step表示电动汽车已经行驶的步数;penalty表示一个很大的惩罚因子;wi表示第i辆电动汽车的单位时间成本;和/>分别表示在时间t时第i辆电动汽车前往第k个充电站时的行驶时间、充电等待时间和充电所需时间;λk,t表示在时间t时充电站k所在节点的边际成本电价;SOCi,k,t表示在时间t时第i辆电动汽车达到充电站k时的剩余电量SOCi,k,t;/>表示第i辆电动汽车电池额定容量;
从式(26)看出该奖励函数ri,t是一个分段函数;若第i辆电动汽车没有到达充电站nodecur≠nodetar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step<Nstep,此时其奖励函数ri,t=0;若第i辆电动汽车前往充电站的步数大于或等于给定的最大充电步数step≥Nstep,表明该次充电行为探索失败,此时给予其一个较大的负奖励ri,t=-penalty;若第i辆电动汽车到达充电站nodecur=nodetar并且当前电动汽车前往充电站的步数在给定的最大充电步数内step<Nstep,此时其奖励函数根据电动汽车行驶时间和充电时间/>以及充电时电费来计算;
第i辆电动汽车在路段a的通行时间ta,t根据美国联邦公路局函数(bureau ofpublicroads,BPR)来计算,即
式中,na,t表示t时刻路段a上的电动汽车数量;ca分别表示路段a的容量上限和t时刻电动汽车自由通行时间;由此得到第i辆电动汽车前往充电站k所需时间/>
此外,第i辆电动汽车的充电等待时间通过式(29)得到;
式中,SOCt表示电动汽车剩余电量;表示电动汽车电池的额定容量;η表示充电功率因素,Pcharging表示电动汽车充电的额定功率。
5.根据权利要求1所述的基于图神经网络强化学习的电动汽车充电引导优化方法,其特征在于,所述基于随机梯度下降的方法对图神经网络强化学习算法权重进行更新包括:
步骤61:从记忆单元D中随机抽取一定数量的样本Sample;
步骤62:构建损失函数如式(30)所示,并在抽取的样本Sample下根据随机梯度下降方法对图神经网络强化学习算法权重进行更新如式(31)所示;
式中,x,a,x'和a'分别为当前状态、动作以及下一时刻的状态和动作;r表示图神经网络强化学习的立即奖励;θt表示当前时刻t的图神经网络强化学习算法参数;0≤γ≤1表示折扣因子,其反映未来Q值对当前动作的影响;表示在目标图神经网络强化学习算法参数θ′t下的状态-动作值;
式中,θt表示当前时刻t的图神经网络强化学习算法参数;表示对θt进行求导操作;α表示学习速率;
步骤63:每经过一定的步数根据当前图神经网络强化学习参数θt对目标图神经网络强化学习参数θ′t进行更新。
CN202210109887.2A 2022-01-29 2022-01-29 基于图神经网络强化学习的电动汽车充电引导优化方法 Active CN114444802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210109887.2A CN114444802B (zh) 2022-01-29 2022-01-29 基于图神经网络强化学习的电动汽车充电引导优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210109887.2A CN114444802B (zh) 2022-01-29 2022-01-29 基于图神经网络强化学习的电动汽车充电引导优化方法

Publications (2)

Publication Number Publication Date
CN114444802A CN114444802A (zh) 2022-05-06
CN114444802B true CN114444802B (zh) 2024-06-04

Family

ID=81372174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210109887.2A Active CN114444802B (zh) 2022-01-29 2022-01-29 基于图神经网络强化学习的电动汽车充电引导优化方法

Country Status (1)

Country Link
CN (1) CN114444802B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116436019B (zh) * 2023-04-12 2024-01-23 国网江苏省电力有限公司电力科学研究院 一种多资源协调优化方法、装置及存储介质
CN118098000B (zh) * 2024-04-24 2024-06-21 哈尔滨华鲤跃腾科技有限公司 一种基于人工智能的城市综合管理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570050A (zh) * 2019-09-25 2019-12-13 国网浙江省电力有限公司经济技术研究院 一种计及路-网-车的电动汽车充电引导方法
TWI687785B (zh) * 2019-02-25 2020-03-11 華碩電腦股份有限公司 自動回充方法
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
WO2021143075A1 (zh) * 2020-01-17 2021-07-22 南京东博智慧能源研究院有限公司 一种考虑电动汽车充电负荷时空分布的需求响应方法
CN113159578A (zh) * 2021-04-22 2021-07-23 杭州电子科技大学 基于强化学习的大型电动汽车充电站的充电优化调度方法
CN113515884A (zh) * 2021-04-19 2021-10-19 国网上海市电力公司 分散式电动汽车实时优化调度方法、***、终端及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI687785B (zh) * 2019-02-25 2020-03-11 華碩電腦股份有限公司 自動回充方法
CN110570050A (zh) * 2019-09-25 2019-12-13 国网浙江省电力有限公司经济技术研究院 一种计及路-网-车的电动汽车充电引导方法
WO2021143075A1 (zh) * 2020-01-17 2021-07-22 南京东博智慧能源研究院有限公司 一种考虑电动汽车充电负荷时空分布的需求响应方法
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN113515884A (zh) * 2021-04-19 2021-10-19 国网上海市电力公司 分散式电动汽车实时优化调度方法、***、终端及介质
CN113159578A (zh) * 2021-04-22 2021-07-23 杭州电子科技大学 基于强化学习的大型电动汽车充电站的充电优化调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多信息融合下电动汽车充电路径规划;夏冬;电测与仪器;20191225;第57卷(第22期);24-32 *

Also Published As

Publication number Publication date
CN114444802A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
Ahmad et al. An enhanced approach to optimally place the solar powered electric vehicle charging station in distribution network
CN114444802B (zh) 基于图神经网络强化学习的电动汽车充电引导优化方法
Chen et al. Optimal sizing and sitting of EVCS in the distribution system using metaheuristics: A case study
Sun et al. A customized voltage control strategy for electric vehicles in distribution networks with reinforcement learning method
CN111654036B (zh) 一种计及储能快充电站的配电网两阶段鲁棒优化调度方法
CN103915869B (zh) 一种基于移动设备的电动汽车智能充电***及方法
Su et al. Performance evaluation of a PHEV parking station using particle swarm optimization
Luo et al. Joint deployment of charging stations and photovoltaic power plants for electric vehicles
CN109840635A (zh) 基于电压稳定性和充电服务质量的电动汽车充电站规划方法
CN103078152B (zh) 集中性充电站智能充电方法
Dimitrov et al. Reinforcement learning based algorithm for the maximization of EV charging station revenue
CN110796286A (zh) 一种适用于电动汽车规模化应用的配电***的灵活规划方法
CN112686441A (zh) 基于交通均衡的电动汽车充电导航及路径选择方法
Rahmani-Andebili et al. Optimal incentive plans for plug-in electric vehicles
CN113255135A (zh) 一种基于交通均衡的电动汽车快速充电负荷模拟方法
Wan et al. A data-driven approach for real-time residential EV charging management
Jiang et al. On large action space in EV charging scheduling optimization
CN115879637A (zh) 基于多智能体深度强化学习的车-站-网互动决策方法
CN110929950B (zh) 一种电动汽车负荷预测方法及***
Rahman et al. Novel metaheuristic optimization strategies for plug-in hybrid electric vehicles: A holistic review
CN116961057A (zh) 一种考虑电动汽车的多时段配电网故障恢复方法
CN117091616A (zh) 一种电动汽车充电导航与调度方法
CN115099702B (zh) 基于拉格朗日松弛算法的电动公交日间运行充电优化方法
Shi et al. Coordinated operation of active distribution network, networked microgrids, and electric vehicle: A multi-agent PPO optimization method
Zadehbagheri et al. Charging and discharging of PHEVs in smart grids with ICA and TLBO algorithms with the approach of simultaneously reducing network peak load and distribution costs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant