CN114997935A - 一种基于内点策略优化的电动汽车充放电策略优化方法 - Google Patents

一种基于内点策略优化的电动汽车充放电策略优化方法 Download PDF

Info

Publication number
CN114997935A
CN114997935A CN202210848364.XA CN202210848364A CN114997935A CN 114997935 A CN114997935 A CN 114997935A CN 202210848364 A CN202210848364 A CN 202210848364A CN 114997935 A CN114997935 A CN 114997935A
Authority
CN
China
Prior art keywords
charging
time
electric vehicle
constraint
discharging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210848364.XA
Other languages
English (en)
Other versions
CN114997935B (zh
Inventor
臧汉洲
叶宇剑
汤奕
钱俊良
周吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liyang Research Institute of Southeast University
Original Assignee
Liyang Research Institute of Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liyang Research Institute of Southeast University filed Critical Liyang Research Institute of Southeast University
Priority to CN202210848364.XA priority Critical patent/CN114997935B/zh
Publication of CN114997935A publication Critical patent/CN114997935A/zh
Application granted granted Critical
Publication of CN114997935B publication Critical patent/CN114997935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02T90/10Technologies relating to charging of electric vehicles
    • Y02T90/16Information or communication technologies improving the operation of electric vehicles
    • Y02T90/167Systems integrating technologies related to power network operation and communication or information technologies for supporting the interoperability of electric or hybrid vehicles, i.e. smartgrids as interface for battery charging of electric vehicles [EV] or hybrid vehicles [HEV]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)

Abstract

本发明公开一种基于内点策略优化的电动汽车充放电策略优化方法,涉及电动汽车充放电调度领域,该方法包括:首先根据实际物理机理构建电动汽车充放电模型,同时基于电动汽车充放电部署优化问题建模为约束序贯决策问题。然后利用长短期记忆神经网络提取时变电价的未来走势,辅助后续深度强化学习进行策略优化。最后,将提取到的电价信息和电动汽车内部状态特征输入到基于深度神经网络的策略函数,赋能部署智能学习充放电动作,并通过对数障碍函数将电量约束扩充到内点策略优化的优化目标中进行策略优化。本发明部署优化方法在满足电动汽车用电需求的前提下最小化用户充电成本,同时提升策略对不确定性的适应性。

Description

一种基于内点策略优化的电动汽车充放电策略优化方法
技术领域
本发明涉及电动汽车充放电调度领域,具体是一种基于内点策略优化的实时电动汽车充放电策略部署优化方法。
背景技术
作为传统化石燃料汽车的环保替代品,电动汽车在过去几年中已被广泛采用。然而EV的快速发展,必然导致大规模的电动汽车集群集成到电网时,给电网的经济、安全运行造成巨大的挑战。为了应对这一问题,可以通过需求响应激励电动汽车将充电时间转移到非高峰时段,并根据动态电价优化电动汽车充电成本,甚至通过向电网放电来获得收益。
EV优化调度问题的本质是在多不确定性因素的随机场景下,对电动汽车充放电状态的时序安排问题。深度强化学习适用于在复杂不确定性的环境中寻找最优策略,是解决序列决策问题的有效方法。然而,当以满足用户出行用电需求为约束时,传统深度强化学习方法需要正确地设计一个惩罚项,并通过选择惩罚系数,以确保电动汽车在离开时能够完全充电。而选择合适的惩罚系数需要花费大量的时间精力,是非常繁琐的过程,并且一旦设计的惩罚系数不合适,将导致算法的性能急剧下降。
发明内容
本发明的目的在于提供一种基于内点策略优化的电动汽车充放电策略优化方法,不依赖对未来信息准确预测,仅靠实时感知环境状态进行自趋优式策略学习;所采用的长短期记忆神经网络有效提取时变电价未来趋势的时序特征;此外,内点策略优化算法以满足用户出行用电需求为约束前提,最小化用户充电成本的同时提升策略对不确定性的适应性。
为实现上述要求,本发明采用如下技术方案:
一种基于内点策略优化的电动汽车充放电策略优化方法,包含以下步骤:
Step1:对电动汽车在动态电价下的慢充过程建模,描述EV蓄电池状态空间,,考虑车主用电需求约束,将电动汽车充放电策略部署问题建模为约束马尔科夫决策问题;
Step2:利用长短期记忆神经网络提取时变电价的未来走势,辅助后续深度强化学习进行策略优化,实现对EV充放电策略有效部署;
Step3:采用基于内点策略优化算法,利用对数障碍函数转化电量约束条件,在深度神经网络中优化策略部署,最小化用户充电成本。
Step4:根据训练所得策略,将外部环境与部署智能体交互,获得实时电动汽车充放电决策。
进一步的,所述步骤Step1中电动汽车在动态电价下慢充的模型如下:
Figure BDA0003753893190000021
式中:t0和t1分别表示电动汽车到达、离开时间,且到达和离开均在时刻初发生;E0是电动汽车充放电开始时刻的剩余电量,Et与Et+1为t和t+1时刻的SOC值;ηch和ηdis为充电与放电时EV电池能量转换效率;
Figure BDA0003753893190000022
Figure BDA0003753893190000023
分别为充、放电最大功率;Δt为每个充电动作持续时长;at为电动汽车充放电功率,当at>0时,表示电动汽车充电,反之则表示放电。
电动汽车充放电部署智能体与环境:电动汽车充放电部署智能体与环境交互学习经验并对充放电部署策略进行优化;智能体观测的环境分为两个部分,一部分为电动汽车实时SOC值,另一部分则为该时间节点的时变电价。
状态集S:t时刻环境状态可定义为:
st=(Et,Pt-23,...,Pt)
式中包含三种类型的信息:Et为t时刻电动汽车SOC值;(Pt-23,...,Pt)表示过去24小时内的电价;
动作集A:在t时刻的动作at表示单位时间内电动汽车充放电功率,at×Δt为Δt时段内电动汽车电能转换量。
约束马尔科夫决策过程问题核心是在满足约束函数ct前提下,最大化奖励函数rt给出最优策略,因此电动汽车充电部署的优化目标是保证满足车主用电需求约束下的充电费用最少:
(1)充电费用即奖励值:
rt=R(st,at,st+1)=-at×Pt
式中:在充电过程中,奖励表示t时刻电价与单位时间充电功率乘积,即收费成本的负值;在放电过程中,奖励代表了向电网出售电力的收入。
(2)电量约束即约束值:
Figure BDA0003753893190000031
式中,|Et-Etarget|为充电完成时刻,电池电量Et与充电目标Etarget偏差值;Et-Emax和Emin-Et表示结合实际物理机理,保证在EV电池容量范围内进行充放电。
电动汽车充放电部署智能体学习的目标在于求解满足电量约束条件下的T时段总期望折扣奖励JC(π)最大,目标函数表示为:
Figure BDA0003753893190000032
ΠC={π:JC(π)≤d}
式中:γ为折扣因子,用于平衡当前约束值与未来约束值;d表示一个极小的约束方差。
进一步的,所述步骤Step2中,利用长短期记忆神经网络提取时变电价未来走势的特征信息,具体包括以下步骤:
长短期记忆神经网络与预测模块计算流程为:LSTM网络展开成一个23层的神经网络结构。其中,第一层的输入Xt-22表示为Xt-22=Pt-22-Pt-23,其中Pt-22和Pt-23分别代表t-22时刻和t-21时刻的时变电价。yt-22表示第一层的输出,ct-22表示其细胞状态。包含过去电价信息yt-22和ct-22被传递到下一层。这个过程一直重复到最后一层。
LSTM通过“门”的机制保护和控制细胞状态,来实现记忆信息的选择性传递,包括遗忘门、输入门、输出门:
Figure BDA0003753893190000033
式中:Oforget(t)、Oinput(t)、Oout(t)分别表示t时刻遗忘门、输入门、输出门的输出矩阵;Wyf、Wxf、Wyi、Wxi、Wyo、Wxo分别表示遗忘门、输入门、输出门与t-1时刻输出yt-1、t时刻输入xt的连接权值矩阵;bf、bi、bo分别表示对应支路上门的偏置向量;σ表示激活函数;
由此,时序电价未来趋势提取的计算公式如下:
Figure BDA0003753893190000041
式中:Oz(t)为t时刻输入到细胞状态模块的预处理信息;Wyz、Wxz分别表示t-1时刻输出yt-1、t时刻输入xt与Oz(t)的连接权值矩阵;bz为偏置向量;·表示矩阵的哈达玛乘积;tanh为激活函数。
进一步的,所述步骤Step3中,利用对数障碍函数扩充电量约束,具体包括以下步骤:
对于每个约束满足的问题,设定一个指标函数
Figure BDA0003753893190000042
满足:
Figure BDA0003753893190000043
式中:当在策略πθ下约束条件
Figure BDA0003753893190000044
得到满足时,将该问题转化为一个只考虑奖励的无约束策略优化问题来解决;然而,当任意约束违反时,惩罚是-∞,需要优先调整策略以满足约束。对数障碍函数是指标函数
Figure BDA0003753893190000045
的可微近似:
Figure BDA0003753893190000046
式中k是超参数,k值越大,对指标函数
Figure BDA0003753893190000047
拟合效果越好。这样通过指标函数
Figure BDA0003753893190000048
扩充目标,将原CMDP问题简化为无约束优化问题。
内点策略优化继承近端策略优化算法的框架,采用执行器-评判器架构,训练时从经验回放池里随机采样小批量数据用于策略更新;评判器网络则使用时序差分误差法更新网络参数θv,具体计算公式如下:
Figure BDA0003753893190000049
式中:
Figure BDA00037538931900000410
表示t时刻网络状态值函数;
近端策略优化进行一阶近似并采用蒙特卡洛近似期望后,通过裁剪函数获得目标函数LCLIP
Figure BDA00037538931900000411
式中:
Figure BDA0003753893190000051
表示新旧策略比率;
Figure BDA0003753893190000052
表示优势函数;clip(·)函数将ξt限制在关于超参数ε的区间[1-ε,1+ε]之内,简化计算过程。
内点策略优化通过对数障碍函数将约束条件扩充到目标函数中,不仅实现长时间耦合约束的满足,还实现了一种与随机梯度下降兼容的置信域修正方法,最终参数θ下的目标函数具体为:
Figure BDA0003753893190000053
进一步的,所述步骤Step4,具体内容如下:
智能体在线部署后的决策仅依靠已完成训练的执行器网络,载入执行器网络训练所得最优参数θ*下的神经网络模型,根据状态信息与智能体交互获得实时充放电决策。再不断重复交互过程,直至电动汽车离开充电桩。
有益效果:
本发明作为一种基于内点策略优化的电动汽车充放电策略优化方法,不依赖对未来信息准确预测,仅靠实时感知环境状态进行自趋优式策略学习;所采用的长短期记忆神经网络有效提取时变电价未来趋势的时序特征;此外,内点策略优化算法以满足用户出行用电需求为约束前提,最小化用户充电成本的同时提升策略对不确定性的适应性。
附图说明
图1为本发明基于长短期记忆神经网络的时序特征提取以及策略网络图。
图2为本发明内点策略优化算法训练流程图。
图3为本发明马尔可夫决策过程图。
图4为本发明内点策略优化算法下的奖励值示意图。
图5为本发明内点策略优化算法下的约束值示意图。
图6为本发明实时电动汽车充放电时间表。
具体实施实例
下面结合附图1对本发明中的具体实施方式作进一步详细说明:
本发明提出一种基于内点策略优化的电动汽车充放电策略优化方法,所述方法包括如下步骤:
Step1:对电动汽车在动态电价下的慢充过程建模,描述EV蓄电池状态空间,考虑车主用电需求约束,将电动汽车充放电策略部署问题建模为约束马尔科夫决策问题,具体包括:
Figure BDA0003753893190000061
式中:t0和t1分别表示电动汽车到达、离开时间,且到达和离开均在时刻初发生;E0是电动汽车充放电开始时刻的剩余电量,Et与Et+1为t和t+1时刻的SOC值;ηch和ηdis为充电与放电时EV电池能量转换效率;
Figure BDA0003753893190000062
Figure BDA0003753893190000063
分别为充、放电最大功率;Δt为每个充电动作持续时长;at为电动汽车充放电功率,当at>0时,表示电动汽车充电,反之则表示放电。
电动汽车充放电部署智能体与环境:电动汽车充放电部署智能体与环境交互学习经验并对充放电部署策略进行优化;智能体观测的环境可分为两个部分,一部分为电动汽车实时SOC值,另一部分则为该时间节点的时变电价。
状态集S:t时刻环境状态可定义为:
st=(Et,Pt-23,...,Pt)
式中包含三种类型的信息:Et为t时刻电动汽车SOC值;(Pt-23,...,Pt)表示过去24小时内的电价;
动作集A:在t时刻的动作at表示单位时间内电动汽车充放电功率,at×Δt为Δt时段内电动汽车电能转换量。
约束马尔科夫决策过程问题核心是在满足约束函数ct前提下,最大化奖励函数rt给出最优策略,因此电动汽车充电部署的优化目标是保证满足车主用电需求约束下的充电费用最少:
(1)充电费用即奖励值:
rt=R(st,at,st+1)=-at×Pt
式中:在充电过程中,奖励表示t时刻电价与单位时间充电功率乘积,即收费成本的负值;在放电过程中,奖励代表了向电网出售电力的收入。
(2)电量约束即约束值:
Figure BDA0003753893190000071
式中,|Et-Etarget|为充电完成时刻,电池电量Et与充电目标Etarget偏差值;Et-Emax和Emin-Et表示结合实际物理机理,保证在EV电池容量范围内进行充放电。
电动汽车充放电部署智能体学习的目标在于求解满足电量约束条件下的T时段总期望折扣奖励JC(π)最大,目标函数表示为:
Figure BDA0003753893190000072
ΠC={π:JC(π)≤d}
Step2:利用长短期记忆神经网络提取时变电价的未来走势,辅助后续深度强化学习进行策略优化,实现对EV充放电策略有效部署,具体包括:
长短期记忆神经网络与预测模块计算流程为:LSTM网络展开成一个23层的神经网络结构。其中,第一层的输入Xt-22表示为Xt-22=Pt-22-Pt-23,其中Pt-22和Pt-23分别代表t-22时刻和t-21时刻的时变电价。yt-22表示第一层的输出,ct-22表示其细胞状态。包含过去电价信息yt-22和ct-22被传递到下一层。这个过程一直重复到最后一层。
LSTM通过“门”的机制保护和控制细胞状态,来实现记忆信息的选择性传递,包括遗忘门、输入门、输出门:
Figure BDA0003753893190000073
式中:Oforget(t)、Oinput(t)、Oout(t)分别表示遗忘门、输入门、输出门的输出矩阵;Wyf、Wxf、Wyi、Wxi、Wyo、Wxo分别表示遗忘门、输入门、输出门与t-1时刻输出yt-1、t时刻输入xt的连接权值矩阵;bf、bi、bo分别表示对应支路上门的偏置向量;σ表示激活函数;
由此,时序电价未来趋势提取的计算公式如下:
Figure BDA0003753893190000081
式中:Oz(t)为t时刻输入到细胞状态模块的预处理信息;Wyz、Wxz分别表示t-1时刻输出yt-1、t时刻输入xt与Oz(t)的连接权值矩阵;bz为偏置向量;·表示矩阵的哈达玛乘积;tanh为激活函数。
Step3:采用基于内点策略优化算法,利用对数障碍函数转化电量约束条件,在深度神经网络中优化策略部署,最小化用户充电成本,具体包括:
对于每个约束满足的问题,设定一个指标函数
Figure BDA0003753893190000082
满足:
Figure BDA0003753893190000083
式中:当在策略πθ下约束条件
Figure BDA0003753893190000084
得到满足时,将该问题转化为一个只考虑奖励的无约束策略优化问题来解决;然而,当任意约束违反时,惩罚是-∞,需要优先调整策略以满足约束。对数障碍函数是指标函数
Figure BDA0003753893190000085
的可微近似:
Figure BDA0003753893190000086
式中k是超参数,k值越大,对指标函数
Figure BDA0003753893190000087
拟合效果越好。这样通过指标函数
Figure BDA0003753893190000088
扩充目标,将原CMDP问题简化为无约束优化问题。
内点策略优化继承近端策略优化算法的框架,采用执行器-评判器架构,训练时从经验回放池里随机采样小批量数据用于策略更新;评判器网络则使用时序差分误差法更新网络参数θv,具体计算公式如下:
Figure BDA0003753893190000089
式中:
Figure BDA00037538931900000810
表示t时刻网络状态值函数;
近端策略优化进行一阶近似并采用蒙特卡洛近似期望后,通过裁剪函数获得目标函数LCLIP
Figure BDA00037538931900000811
式中:
Figure BDA0003753893190000091
表示新旧策略比率;
Figure BDA0003753893190000092
表示优势函数;clip(·)函数将ξt限制在关于超参数ε的区间[1-ε,1+ε]之内,简化计算过程。
内点策略优化通过对数障碍函数将约束条件扩充到目标函数中,不仅实现长时间耦合约束的满足,还实现了一种与随机梯度下降兼容的置信域修正方法,最终参数θ下的目标函数具体为:
Figure BDA0003753893190000093
Step4:根据训练所得策略,将外部环境与部署智能体交互,获得实时电动汽车充放电决策,具体包括:
智能体在线部署后的决策仅依靠已完成训练的执行器网络,载入执行器网络训练所得最优参数θ*下的神经网络模型,根据状态信息与智能体交互获得实时充放电决策。再不断重复交互过程,直至电动汽车离开充电桩。

Claims (5)

1.一种基于内点策略优化的电动汽车充放电策略优化方法,其特征在于,包括以下步骤:
Step1:对电动汽车在动态电价下的慢充过程建模,描述EV蓄电池状态空间,考虑车主用电需求约束,将电动汽车充放电策略部署问题建模为约束马尔科夫决策问题;
Step2:利用长短期记忆神经网络提取时变电价的未来走势,辅助后续深度强化学习进行策略优化,实现对EV充放电策略有效部署;
Step3:采用基于内点策略优化算法,利用对数障碍函数转化电量约束条件,在深度神经网络中优化策略部署,最小化用户充电成本;
Step4:根据训练所得策略,将外部环境与部署智能体交互,获得实时电动汽车充放电决策。
2.根据权利要求1所述的一种基于内点策略优化的电动汽车充放电策略优化方法,其特征在于,所述步骤Step1中电动汽车在动态电价下慢充的模型如下:
Figure FDA0003753893180000011
式中:t0和t1分别表示电动汽车到达、离开时间,且到达和离开均在时刻初发生;E0是电动汽车充放电开始时刻的剩余电量,Et与Et+1为t和t+1时刻的SOC值;ηch和ηdis为充电与放电时EV电池能量转换效率;
Figure FDA0003753893180000012
Figure FDA0003753893180000013
分别为充、放电最大功率;Δt为每个充电动作持续时长;at为电动汽车充放电功率,当at>0时,表示电动汽车充电,反之则表示放电;
电动汽车充放电部署智能体与环境:电动汽车充放电部署智能体与环境交互学习经验并对充放电部署策略进行优化;智能体观测的环境分为两个部分,一部分为电动汽车实时SOC值,另一部分则为该时间节点的时变电价;
状态集S:t时刻环境状态可定义为:
st=(Et,Pt-23,K,Pt)
式中包含三种类型的信息:Et为t时刻电动汽车SOC值;(Pt-23,K,Pt)表示过去24小时内的电价;
动作集A:在t时刻的动作at表示单位时间内电动汽车充放电功率,at×Δt为Δt时段内电动汽车电能转换量;
约束马尔科夫决策过程问题核心是在满足约束函数ct前提下,最大化奖励函数rt给出最优策略,因此电动汽车充电部署的优化目标是保证满足车主用电需求约束下的充电费用最少:
(1)充电费用即奖励值:
rt=R(st,at,st+1)=-at×Pt
式中:在充电过程中,奖励表示单位时间充电功率与t时刻电价乘积,即收费成本的负值;在放电过程中,奖励代表了向电网出售电力的收入;
(2)电量约束即约束值:
Figure FDA0003753893180000021
式中,|Et-Etarget|为充电完成时刻,电池电量Et与充电目标Etarget偏差值;Et-Emax和Emin-Et表示结合实际物理机理,保证在EV电池容量范围内进行充放电;
电动汽车充放电部署智能体学习的目标在于求解满足电量约束条件下的T时段总期望折扣奖励JC(π)最大,目标函数表示为:
Figure FDA0003753893180000022
ΠC={π:JC(π)≤d}
式中:γ为折扣因子,用于平衡当前约束值与未来约束值;d表示一个极小的约束方差。
3.根据权利要求1所述的一种基于内点策略优化的电动汽车充放电策略优化方法,其特征在于,所述步骤Step2中,利用长短期记忆神经网络提取时变电价未来走势的特征信息,具体包括以下步骤:
长短期记忆神经网络与预测模块计算流程为:LSTM网络展开成一个23层的神经网络结构;其中,第一层的输入Xt-22表示为Xt-22=Pt-22-Pt-23,其中Pt-22和Pt-23分别代表t-22时刻和t-21时刻的时变电价;yt-22表示第一层的输出,ct-22表示其细胞状态;包含过去电价信息yt-22和ct-22被传递到下一层;这个过程一直重复到最后一层;
LSTM通过“门”的机制保护和控制细胞状态,来实现记忆信息的选择性传递,包括遗忘门、输入门、输出门:
Figure FDA0003753893180000031
式中:Oforget(t)、Oinput(t)、Oout(t)分别表示t时刻遗忘门、输入门、输出门的输出矩阵;Wyf、Wxf、Wyi、Wxi、Wyo、Wxo分别表示遗忘门、输入门、输出门与t-1时刻输出yt-1、t时刻输入xt的连接权值矩阵;bf、bi、bo分别表示对应支路上门的偏置向量;σ表示激活函数;
由此,时序电价未来趋势提取的计算公式如下:
Figure FDA0003753893180000032
式中:Oz(t)为t时刻输入到细胞状态模块的预处理信息;Wyz、Wxz分别表示t-1时刻输出yt-1、t时刻输入xt与Oz(t)的连接权值矩阵;bz为偏置向量;·表示矩阵的哈达玛乘积;tanh为激活函数。
4.根据权利要求1所述的一种基于内点策略优化的电动汽车充放电策略优化方法,其特征在于,所述步骤Step3中,利用对数障碍函数扩充电量约束,具体包括以下步骤:
对于每个约束满足的问题,设定一个指标函数
Figure FDA0003753893180000033
满足:
Figure FDA0003753893180000034
式中:当在策略πθ下约束条件
Figure FDA0003753893180000035
得到满足时,将该问题转化为一个只考虑奖励的无约束策略优化问题来解决;然而,当任意约束违反时,惩罚是-∞,需要优先调整策略以满足约束;对数障碍函数是指标函数
Figure FDA0003753893180000036
的可微近似:
Figure FDA0003753893180000037
式中k是超参数,k值越大,对指标函数
Figure FDA0003753893180000041
拟合效果越好;这样通过指标函数
Figure FDA0003753893180000042
扩充目标,将原CMDP问题简化为无约束优化问题;
内点策略优化继承近端策略优化算法的框架,采用执行器-评判器架构,训练时从经验回放池里随机采样小批量数据用于策略更新;评判器网络则使用时序差分误差法更新网络参数θv,具体计算公式如下:
Figure FDA0003753893180000047
式中:
Figure FDA0003753893180000048
表示t时刻网络状态值函数;
近端策略优化进行一阶近似并采用蒙特卡洛近似期望后,通过裁剪函数获得目标函数LCLIP
Figure FDA0003753893180000043
式中:
Figure FDA0003753893180000044
表示新旧策略比率;
Figure FDA0003753893180000045
表示优势函数;clip(·)函数将ξt限制在关于超参数ε的区间[1-ε,1+ε]之内,简化计算过程;
内点策略优化通过对数障碍函数将约束条件扩充到目标函数中,不仅实现长时间耦合约束的满足,还实现了一种与随机梯度下降兼容的置信域修正方法,最终参数θ下的目标函数具体为:
Figure FDA0003753893180000046
5.根据权利要求1所述的一种基于内点策略优化的电动汽车充放电策略优化方法,其特征在于,所述步骤Step4,具体内容如下:
智能体在线部署后的决策仅依靠已完成训练的执行器网络,载入执行器网络训练所得最优参数θ*下的神经网络模型,根据状态信息与智能体交互获得实时充放电决策。再不断重复交互过程,直至电动汽车离开充电桩。
CN202210848364.XA 2022-07-19 2022-07-19 一种基于内点策略优化的电动汽车充放电策略优化方法 Active CN114997935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210848364.XA CN114997935B (zh) 2022-07-19 2022-07-19 一种基于内点策略优化的电动汽车充放电策略优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210848364.XA CN114997935B (zh) 2022-07-19 2022-07-19 一种基于内点策略优化的电动汽车充放电策略优化方法

Publications (2)

Publication Number Publication Date
CN114997935A true CN114997935A (zh) 2022-09-02
CN114997935B CN114997935B (zh) 2023-04-07

Family

ID=83021907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210848364.XA Active CN114997935B (zh) 2022-07-19 2022-07-19 一种基于内点策略优化的电动汽车充放电策略优化方法

Country Status (1)

Country Link
CN (1) CN114997935B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731072A (zh) * 2022-11-22 2023-03-03 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
CN115936195A (zh) * 2022-11-23 2023-04-07 合肥工业大学 智能小区能源优化方法、***、电子设备和存储介质
CN117689188A (zh) * 2024-02-04 2024-03-12 江西驴充充物联网科技有限公司 基于大数据的用户充电策略优化***及方法
CN117863969A (zh) * 2024-03-13 2024-04-12 国网北京市电力公司 一种考虑电池损耗的电动汽车充放电控制方法及***
CN118082598A (zh) * 2024-04-25 2024-05-28 国网天津市电力公司电力科学研究院 电动车辆充电方法、装置、设备、介质和程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN113572157A (zh) * 2021-07-27 2021-10-29 东南大学 一种基于近端策略优化的用户实时自治能量管理优化方法
CN113627993A (zh) * 2021-08-26 2021-11-09 东北大学秦皇岛分校 一种基于深度强化学习的智能电动汽车充放电决策方法
CN113922404A (zh) * 2021-10-22 2022-01-11 山东大学 一种社区电动汽车集群充电协调方法及***
CN114619907A (zh) * 2020-12-14 2022-06-14 中国科学技术大学 基于分布式深度强化学习的协调充电方法及协调充电***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN114619907A (zh) * 2020-12-14 2022-06-14 中国科学技术大学 基于分布式深度强化学习的协调充电方法及协调充电***
CN113572157A (zh) * 2021-07-27 2021-10-29 东南大学 一种基于近端策略优化的用户实时自治能量管理优化方法
CN113627993A (zh) * 2021-08-26 2021-11-09 东北大学秦皇岛分校 一种基于深度强化学习的智能电动汽车充放电决策方法
CN113922404A (zh) * 2021-10-22 2022-01-11 山东大学 一种社区电动汽车集群充电协调方法及***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731072A (zh) * 2022-11-22 2023-03-03 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
CN115731072B (zh) * 2022-11-22 2024-01-30 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
WO2024108817A1 (zh) * 2022-11-22 2024-05-30 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
CN115936195A (zh) * 2022-11-23 2023-04-07 合肥工业大学 智能小区能源优化方法、***、电子设备和存储介质
CN117689188A (zh) * 2024-02-04 2024-03-12 江西驴充充物联网科技有限公司 基于大数据的用户充电策略优化***及方法
CN117689188B (zh) * 2024-02-04 2024-04-26 江西驴充充物联网科技有限公司 基于大数据的用户充电策略优化***及方法
CN117863969A (zh) * 2024-03-13 2024-04-12 国网北京市电力公司 一种考虑电池损耗的电动汽车充放电控制方法及***
CN117863969B (zh) * 2024-03-13 2024-05-17 国网北京市电力公司 一种考虑电池损耗的电动汽车充放电控制方法及***
CN118082598A (zh) * 2024-04-25 2024-05-28 国网天津市电力公司电力科学研究院 电动车辆充电方法、装置、设备、介质和程序产品

Also Published As

Publication number Publication date
CN114997935B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN114997935B (zh) 一种基于内点策略优化的电动汽车充放电策略优化方法
CN109347149B (zh) 基于深度q值网络强化学习的微电网储能调度方法及装置
CN113511082B (zh) 基于规则和双深度q网络的混合动力汽车能量管理方法
Xu et al. A soft actor-critic-based energy management strategy for electric vehicles with hybrid energy storage systems
CN111934335A (zh) 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN112862281A (zh) 综合能源***调度模型构建方法、装置、介质及电子设备
CN112131733B (zh) 计及电动汽车充电负荷影响的分布式电源规划方法
CN110138006B (zh) 考虑含有新能源电动汽车的多微电网协调优化调度方法
CN113572157B (zh) 一种基于近端策略优化的用户实时自治能量管理优化方法
CN113627993A (zh) 一种基于深度强化学习的智能电动汽车充放电决策方法
Huang et al. Ensemble learning for charging load forecasting of electric vehicle charging stations
CN107919675B (zh) 综合考虑车主和运营商利益的充电站负荷调度模型
CN112238781B (zh) 一种基于分层架构的电动汽车有序充电控制方法
CN116683513A (zh) 移动式微电网能量补充策略优化方法及***
CN115115130A (zh) 一种基于模拟退火算法的风光储制氢***日前调度方法
CN115308606A (zh) 一种基于邻近特征的锂离子电池健康状态估计方法
CN114619907B (zh) 基于分布式深度强化学习的协调充电方法及协调充电***
CN113972645A (zh) 基于多智能体深度确定策略梯度算法的配电网优化方法
CN117543581A (zh) 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用
CN117559468A (zh) 一种基于超短期频率偏差预测的v2g站快速调频响应方法
CN113555888B (zh) 一种微电网储能协调控制的方法
CN114583696A (zh) 基于bp神经网络和场景匹配的配电网无功优化方法及***
CN115036952A (zh) 一种基于mpc的电动汽车参与负荷平抑的实时功率控制方法
CN114742453A (zh) 基于Rainbow深度Q网络的微电网能量管理方法
CN112613229A (zh) 混合动力设备的能量管理方法、模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant