CN111049125B - 一种基于机器学习的电动车智能接入控制方法 - Google Patents

一种基于机器学习的电动车智能接入控制方法 Download PDF

Info

Publication number
CN111049125B
CN111049125B CN201910904347.1A CN201910904347A CN111049125B CN 111049125 B CN111049125 B CN 111049125B CN 201910904347 A CN201910904347 A CN 201910904347A CN 111049125 B CN111049125 B CN 111049125B
Authority
CN
China
Prior art keywords
charging
action
state
time
electric vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910904347.1A
Other languages
English (en)
Other versions
CN111049125A (zh
Inventor
唐子昱
李紫昕
方明星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Normal University
Original Assignee
Anhui Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Normal University filed Critical Anhui Normal University
Priority to CN201910904347.1A priority Critical patent/CN111049125B/zh
Publication of CN111049125A publication Critical patent/CN111049125A/zh
Application granted granted Critical
Publication of CN111049125B publication Critical patent/CN111049125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/008Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L53/00Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
    • B60L53/60Monitoring or controlling charging stations
    • B60L53/64Optimising energy costs, e.g. responding to electricity rates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/70Energy storage systems for electromobility, e.g. batteries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/7072Electromobility specific charging systems or methods for batteries, ultracapacitors, supercapacitors or double-layer capacitors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02T90/10Technologies relating to charging of electric vehicles
    • Y02T90/12Electric charging stations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Transportation (AREA)
  • Marketing (AREA)
  • Mechanical Engineering (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明公开了一种基于机器学习的电动车智能接入控制方法,包括:1把随机到达的电动车充电服务请求的接入控制过程描述为事件驱动决策过程;2将电网调峰电价和充电桩在线服务状态作为充电场站服务***联合状态;3将电动车到达充电场站提出服务请求作为事件,一个事件发生时,根据充电场站服务***联合状态,选择是否把到达的电动车接入充电场站提供充电服务作为***行动;4采用Q学习机器学习算法对电动车智能接入服务***进行在线优化。本发明能够对考虑电网调峰电价的充电场站服务***进行有效的电动车智能接入控制,从而能提高充电场站的运行经济性,并自适应电网调峰需求。

Description

一种基于机器学习的电动车智能接入控制方法
技术领域
本发明属于智能控制与优化技术领域,具体地说是一种基于机器学习的电动车智能接入控制方法。
背景技术
我国目前是全球最大的汽车消费市场,汽车生产者已将研发生产重点从传统能源为动力的汽车向新能源汽车方向进行转移,其中电动汽车在相当长的一段时期内将是新能源汽车发展的主流,具有巨大的消费潜力,市场占有量也将越来越大。而充电桩是为电动汽车提供充电服务的重要基础设施,也是电动汽车产业化和商业化过程中的重要环节。而随着电动汽车产业的快速发展和电动汽车市场保有量的大幅提高,对多个充电桩进行集中管理和运营的充电场站将是未来的一种重要商业模式和服务形态。另外,风电和光伏等新能源渗透率的提高,未来电力生产和服务的智能性和自适应性也将随之提高,对电力用户的用电进行有效管理和引导将是一种趋势。例如,各级调度中心可根据源荷预测数据制定电力调峰计划并通过实时电价下发,从而引导电力用户例如电动车充电场站合理用电,促进用户侧自主削峰填谷或移峰填谷。
现有的电网电价采取的是非常简单的、固定的分时电价机制,没有根据电网的源荷实际预测情况动态制定或调整电网调峰电价计划,充电场站服务***也没有根据实际电网调峰需求动态自适应地对电动车的充电请求进行自适应接入控制。因此,在实时电网调峰电价机制下,一个充电场站电动车的智能接入服务***,如何根据电网实时调峰电价和站内所有充电桩的在线服务状态,对一个随机到来的电动汽车的充电服务请求进行自适应响应,即控制其是否接入服务,从而提高充电场站的运行经济性,并自适应电网调峰需求将是有待研究解决的问题。
发明内容
本发明是为解决上述现有技术存在的不足之处,提出一种基于机器学习的电动车智能接入控制方法,以期能够对电动车服务请求随机到达的充电场站服务***进行有效的在线优化控制,从而提高充电场站的运行经济性,并自适应电网调峰需求。
本发明为解决技术问题采用如下技术方案:
本发明一种基于机器学习的电动车智能接入控制方法的特点是应用于配有J个充电桩,并为M种随机到达的电动车提供有偿充电服务的充电场站服务***中,令每个充电桩均能满足M种电动车的充电功率需求,且一个充电桩一次只为一个电动汽车提供充电服务;
将所述J个充电桩分别记为CS1,CS2,…,CSj,…,CSJ,M种电动车的充电功率需求记为P1,P2,…,Pm,…,PM,其中,CSj表示第j个充电桩,Pm表示第m种电动车的充电功率需求;
令K为一天最大周期数且对应总时长为T,将总时长T下的任意t时刻电网的调峰电价记为PRt,则PRt∈ΦPR;假设电网调峰电价按调度指令周期下发,且令τk为第k个调峰电价PRk下发的时刻,则记调峰电价序列为{(τk,PRk)|k=0,1,2,…,K-1,τ0=0},其中,PRk∈ΦPR,ΦPR是有限的电价状态空间;
记充电场站服务***的充电服务价格固定为PRev
假设t时刻有第mt种电动车随机到达电动场站申请充电服务,令所述第mt种电动车的电池当前荷电状态为
Figure GDA0002412578370000023
则将所述第mt种电动车的到达事件记为
Figure GDA0002412578370000024
将所述J个充电桩在t时刻的联合状态记为Ct=(CS1(t),CS2(t),…,CSj(t),…,CSJ(t)),其中
Figure GDA0002412578370000025
表示第j个充电桩的服务状态;mj(t)表示在t时刻第j个充电桩CSj正在服务的电动车种类,若mj(t)=0表示t时刻第j个充电桩CSj无车辆接入,若mj(t)∈{1,2,…,M}表示t时刻第j个充电桩CSj正在给{1,2,…,M}中的一种电动车充电;
Figure GDA0002412578370000026
表示t时刻第j个充电桩CSj正在服务的第mj(t)种电动车的电池当前荷电状态;
将t时刻第mt种电动车的到达事件
Figure GDA0002412578370000022
发生时的充电场站服务***状态记为st={Ct,PRt},则将到达事件
Figure GDA0002412578370000027
发生时刻t作为决策时刻,并将所述决策时刻的事件扩展状态记为
Figure GDA0002412578370000021
在所述决策时刻将充电场站服务***是否接入电动车并提供充电服务记为行动a,记第n个决策时刻Tn的行动为an,且an∈D={0,1},其中“0”表示拒绝服务,“1”表示接入服务,D表示行动集合;
所述电动车智能接入控制方法是按如下步骤进行:
步骤1、定义并初始化第n个决策时刻Tn的行动探索率为εn,且令0<εn<1;
定义Q值表中的元素为离散化事件扩展状态-行动对学习值,并初始化所述Q值表中的元素;
定义当前贪心控制策略表v为所述Q值表中每行最大的离散化事件扩展状态-行动对学习值所对应的行动构成的行动集合;
步骤2、初始化t=0,n=1;将当前行动探索率εn赋值给ε1;令将当前贪心控制策略表v赋值给原始策略表v0
步骤3、在所述充电场站服务***的第n个决策时刻Tn,到达事件
Figure GDA0002412578370000031
发生,观察充电场站服务***的当前联合状态st,事件扩展状态
Figure GDA0002412578370000032
令所述第n个决策时刻Tn的事件扩展状态
Figure GDA0002412578370000033
在Q值表中所对应的离散化状态记为
Figure GDA0002412578370000034
令所述第n个决策时刻Tn的事件扩展状态
Figure GDA0002412578370000035
下实际采取的行动记为
Figure GDA0002412578370000036
Figure GDA0002412578370000037
在所述第n个决策时刻Tn,若所有充电桩均在服务中,即{mj(t)∈{1,2,…,M}|j=1,2,…J},则令
Figure GDA0002412578370000038
否则在当前事件扩展状态
Figure GDA0002412578370000039
下,从所述Q值表中提取
Figure GDA00024125783700000310
所对应的离散化状态
Figure GDA00024125783700000311
下的贪心行动并记为
Figure GDA00024125783700000312
并以概率1-εn
Figure GDA00024125783700000313
赋值给
Figure GDA00024125783700000314
以所述探索率εn将所述行动集合D中除贪心行动
Figure GDA00024125783700000315
之外的另一个行动作为探索行动,记为
Figure GDA00024125783700000316
并赋值给
Figure GDA00024125783700000317
所述充电场站服务***采取行动
Figure GDA00024125783700000318
后,观测得到从第n个决策时刻Tn转移到第n+1个决策时刻Tn+1或转移到T时刻的***转移样本轨道
Figure GDA00024125783700000319
其中t=Tn,t′=Tn+1<T或t′=T;当t′=T时,令
Figure GDA00024125783700000320
步骤4、观测并计算所述充电场站服务***从第n个决策时刻Tn的当前状态
Figure GDA00024125783700000321
采取行动
Figure GDA00024125783700000322
转移到第n+1个决策时刻Tn+1或转移到时刻T的状态
Figure GDA00024125783700000323
的状态转移过程中获得的充电报酬
Figure GDA00024125783700000324
步骤5、利用式(1)和式(2)所示的差分公式和Q值更新公式,更新所述Q值表中
Figure GDA00024125783700000325
对应的离散化状态
Figure GDA00024125783700000326
下采取行动
Figure GDA00024125783700000327
的离散化事件扩展状态-行动对学习值
Figure GDA00024125783700000328
并重新赋值给
Figure GDA00024125783700000329
Figure GDA00024125783700000330
Figure GDA00024125783700000331
式(1)中,
Figure GDA0002412578370000041
表示转移到第n+1个决策时刻Tn+1或转移到时刻T的状态
Figure GDA0002412578370000042
对应的离散化状态
Figure GDA0002412578370000043
下若采取行动a的离散化事件扩展状态-行动对学习值;
式(2)中,运算符“:=”表示首先计算右式的值,然后赋给左边变量;
Figure GDA0002412578370000044
为第n个决策时刻Tn的离散化状态
Figure GDA0002412578370000045
下采取行动
Figure GDA0002412578370000046
的学习步长;
步骤6、选择更新后Q值表中每行最大的离散化事件扩展状态-行动对学习值所对应的行动并构成当前行动集合,以所述当前行动集合作为更新后的贪心控制策略表并赋值给当前贪心控制策略v;并对探索率εn进行衰减操作,从而得到更新后的探索率并赋值给εn+1
步骤7、若t′<T,则将n+1赋值给n,并返回步骤3;否则,表示t′=T,并执行步骤8;
步骤8、判断控制策略表v是否等于v0,若相等,则停止更新并以当前控制策略表v对M种电动汽车的随机充电服务请求进行接入控制,否则返回步骤2执行。
与现有技术相比,本发明的有益效果在于:
1、本发明提通过将随机到达的电动车充电服务请求作为事件,事件发生时***进行决策是否把到达的电动车接入充电场站提供充电服务,决策依据是由事件发生时间、***中充电桩的实时状态、当前电网调峰电价、到达的电动车种类及其SOC状态值构成的事件扩展状态,将事件发生时间和当前电网调峰电价作为事件扩展状态的一部分,有利于反映电网调峰的时序特性,使得控制策略自适应电网调峰需求,更加符合实际情况,提高了方法的可行性。
2、本发明以电网调峰电价和充电桩在线服务状态作为充电场站服务***联合状态;把随机到达的电动车充电服务请求作为事件;将随机发生的事件与充电场站服务***联合状态组合构成事件扩展状态;以是否把到达的电动车接入充电场站提供充电服务作为***行动;以电动车充电服务请求随机到达的时刻为决策时刻;把电动车随机到达的充电场站电动车智能接入控制过程描述为离散事件驱动决策过程,并根据***的实时事件扩展状态采取相应的行动;从而效地处理了电动车服务请求随机到达的充电场站电动车接入控制问题,通过优化,***能够合理地选择接入行动,提高了充电场站服务***的运行经济性,并能自适应电网调峰需求;
3、本发明通过一种机器学习方法,即Q学习方法,对充电场站电动车的接入问题进行智能控制与优化,相比理论求解方法,本发明不需要对控制***进行完整的数学建模,尤其是不需要对***中的随机特性进行精确建模。本发明只需通过观测***的运行样本进行实时在线学习即可学习得到较好的控制策略。另外,在***随机参数发生变化时,也无需操作人员对算法进行修改,仍然可以根据实际***的运行过程进行在线学习,自适应得到较好的电动车智能接入控制策略;
4、本发明电动车智能接入控制方法,也适用于充电价格分时段不同情形,以及适用于电网调峰电价非周期下发情形。
附图说明
图1为本发明方法流程图;
图2为本发明充电场站服务***的示意图。
具体实施方式
本实施例中,如图2所示,一种基于机器学习的电动车智能接入控制方法,是应用于由J个充电桩1、M种随机到达的电动车2、电网调峰电价计划3和接入控制中心4组成的充电场站服务***中,且每个充电桩都能自适应满足M种电动车的充电功率需求;
将第j个充电桩记为CSj,且一次只为一个电动汽车提供充电服务;从而将J个充电桩分别记为CS1,CS2,…,CSj,…,CSJ,j=1,2,…,J;
将第m种电动车的充电功率需求记为Pm KW,且其电池总容量为Em KWH,由电动车自身配置决定;从而将M种电动车的充电功率需求记为P1,P2,…,Pm,…,PM,m=1,2,…,M;
令K为一天最大周期数且对应总时长为T,将总时长T下的任意t时刻电网的调峰电价状态记为PRt元/千瓦时,且PRt∈ΦPR,ΦPR是有限的电价状态空间;假设电网调峰电价按调度指令周期下发,且τk为第k个调峰电价PRk下发的时刻,此价格维持到下一调峰电价下发时刻τk+1为止,即PRt=PRk,τk≤t<τk+1,k=0,1,2,…,K-1且τ0=0;调峰电价序列记为{(τk,PRk)|k=0,1,2,…,K-1,τ0=0};
充电场站提供有偿充电服务,充电场站充电服务价格为PRev元/千瓦时;
将t时刻电池荷电状态SOC为
Figure GDA0002412578370000051
的第mt种电动车随机到达电动场站申请充电服务,记为到达事件
Figure GDA0002412578370000052
将第j个充电桩的服务状态记为
Figure GDA0002412578370000053
从而将J个充电桩在t时刻的联合状态记为Ct=(CS1(t),CS2(t),…,CSj(t),…,CSJ(t));假设t=0时,所有充电桩为空;mj(t)表示在t时刻第j个充电桩CSj正在服务的电动车种类,若mj(t)=0表示t时刻第j个充电桩CSj无车辆接入,若mj(t)∈{1,2,…,M}表示t时刻第j个充电桩CSj正在给{1,2,…,M}中的一种电动车充电;
Figure GDA0002412578370000061
表示t时刻第j个充电桩CSj正在服务的第mj(t)种电动车的电池SOC;
将到达事件
Figure GDA0002412578370000062
发生时的充电场站服务***状态记为st={Ct,PRt},记事件扩展状态为
Figure GDA0002412578370000063
记第n个事件
Figure GDA0002412578370000064
发生的时刻为决策时刻Tn,即t=Tn,对应电网价格调峰期记为
Figure GDA0002412578370000065
Figure GDA0002412578370000066
令τK=T;
用一个较小的常数δ来离散化电动车电池SOC的变化区间[0 1],则得到
Figure GDA0002412578370000067
对应的离散化事件扩展状态
Figure GDA0002412578370000068
其中,下标“n”表示对应第n个决策时刻Tn的数值或离散化值;mn就表示
Figure GDA0002412578370000069
Figure GDA00024125783700000610
是Ct对应的离散化充电桩联合状态,
Figure GDA00024125783700000611
是CSj(t)对应的离散化状态,且
Figure GDA00024125783700000612
Figure GDA00024125783700000613
Φ是所有可能的离散化事件扩展状态构成的状态空间,记***总的离散化事件扩展状态数为S;
定义***决策时刻为任一电动车到达时刻,即事件发生时刻;
将充电场站服务***是否接入电动车并提供充电服务作为控制行动a,记第n个决策时刻Tn的行动为an,且an∈D={0,1},其中“0”表示拒绝服务,“1”表示接入服务,D表示行动集合;在任一决策时刻Tn,若mj(t)≠0,j=1,2,…,J,表示所有充电桩为忙,则an≡0;
将所有可能的离散化事件扩展状态进行编码,令
Figure GDA00024125783700000615
表示第s个离散化事件扩展状态,且
Figure GDA00024125783700000614
将所有充电桩为忙的可能的离散化事件扩展状态编码为最后且记状态数为Sb
在第n个决策时刻Tn,若an=1,则将到达的电动车接入到任一空闲充电桩并立即进行充电;假设一个电动车充满就立即离开充电场站;
如图1所示,该基于机器学习的电动车智能接入控制方法是按如下步骤进行:
步骤1、定义并初始化第n个决策时刻Tn的行动探索率为εn,且令0<εn<1,例如令εn=0.8;
定义Q值表中的元素为离散化事件扩展状态-行动对学习值,并初始化Q值表中的元素,例如随机初始化各元素的值或令其为0;Q值表以***的离散化事件扩展状态为Q值表的行,以***的接入动作为Q值表的列,即
Figure GDA0002412578370000071
其中Q值表最后Sb行对应的行动固定为“0”;
定义当前贪心控制策略表v为Q值表中每行最大的离散化事件扩展状态-行动对学习值所对应的行动构成的行动集合;
步骤2、初始化变量t=0和n=1;将当前行动探索率εn赋值给ε1;令原始策略表v0=v;
步骤3、在充电场站服务***的第n个决策时刻Tn,到达事件
Figure GDA0002412578370000072
发生,观察服务***的当前联合状态st,记事件扩展状态为
Figure GDA0002412578370000073
令第n个决策时刻Tn的当前事件扩展状态为
Figure GDA0002412578370000074
在Q值表中所对应的离散化状态记为
Figure GDA0002412578370000075
令第n个决策时刻Tn的当前事件扩展状态
Figure GDA0002412578370000076
下实际采取的行动记为
Figure GDA0002412578370000077
Figure GDA0002412578370000078
在第n个决策时刻Tn,若所有充电桩均在服务中,即{mj(t)∈{1,2,…,M}|j=1,2,…J},则令
Figure GDA0002412578370000079
否则在当前事件扩展状态
Figure GDA00024125783700000710
下,从Q值表中提取
Figure GDA00024125783700000711
对应的状态
Figure GDA00024125783700000712
下的贪心行动并记为
Figure GDA00024125783700000713
并以概率1-εn
Figure GDA00024125783700000714
赋值给
Figure GDA00024125783700000715
且以探索率εn将行动集合D中除贪心行动
Figure GDA00024125783700000716
之外的另一行动作为探索行动
Figure GDA00024125783700000717
赋值给
Figure GDA00024125783700000718
充电场站服务***采取行动
Figure GDA00024125783700000719
后,观测得到从第n个决策时刻Tn转移到第n+1个决策时刻Tn+1或转移到时刻T的转移样本轨道
Figure GDA00024125783700000720
其中t=Tn,t′=Tn+1<T或t′=T;当t′=T时,假设
Figure GDA00024125783700000721
步骤4、利用式(1)计算充电场站服务***从第n个决策时刻Tn的当前状态
Figure GDA0002412578370000081
采取行动
Figure GDA0002412578370000082
后,转移到第n+1个决策时刻Tn+1或转移到时刻T的状态
Figure GDA0002412578370000083
的状态转移过程中产生的累积报酬
Figure GDA0002412578370000084
Figure GDA0002412578370000085
式(1)中,定义mj(t)=0时sgn(mj(t))=0,mj(t)>0时sgn(mj(t))=1;且令t′=min{Tn+1,T};
Figure GDA0002412578370000086
表示第mj(t)种电动车的充电功率需求;
步骤5、利用式(2)和式(3)所示的差分公式和Q值更新公式,更新Q值表中
Figure GDA0002412578370000087
对应的离散化状态
Figure GDA0002412578370000088
采取行动
Figure GDA0002412578370000089
的离散化事件扩展状态-行动对学习值
Figure GDA00024125783700000810
得到更新后的学习值并赋值给
Figure GDA00024125783700000811
Figure GDA00024125783700000812
Figure GDA00024125783700000813
式(2)中,
Figure GDA00024125783700000814
表示转移到第n+1个决策时刻Tn或转移到时刻T的状态
Figure GDA00024125783700000815
对应的离散化状态
Figure GDA00024125783700000816
下采取行动a的离散化事件扩展状态-行动对学习值;
式(3)中,运算符“:=”表示首先计算右式的值,然后赋给左边变量;
Figure GDA00024125783700000817
为第n个决策时刻的当前离散化事件扩展状态
Figure GDA00024125783700000818
下采取行动
Figure GDA00024125783700000819
的学习步长;
步骤6、选择更新后Q值表中每行最大的离散化事件扩展状态-行动对学习值所对应的行动并构成当前行动集合,以当前行动集合作为更新后的贪心控制策略表并赋值给当前贪心控制策略v;并对探索率εn进行衰减操作,从而得到更新后的探索率并赋值给εn+1
步骤7、若t′=Tn+1<T,则将n+1赋值给n,并返回步骤3;否则,表示t′=T,执行步骤8;
步骤8、判断控制策略表v是否等于v0,若相等,则停止更新并以最终的控制策略表对M种电动汽车的随机充电服务请求进行接入控制,否则,返回步骤2执行。

Claims (1)

1.一种基于机器学习的电动车智能接入控制方法,其特征是应用于配有J个充电桩,并为M种随机到达的电动车提供有偿充电服务的充电场站服务***中,令每个充电桩均能满足M种电动车的充电功率需求,且一个充电桩一次只为一个电动车提供充电服务;
将所述J个充电桩分别记为CS1,CS2,…,CSj,…,CSJ,M种电动车的充电功率需求记为P1,P2,…,Pm,…,PM,其中,CSj表示第j个充电桩,Pm表示第m种电动车的充电功率需求;
令K为一天最大周期数且对应总时长为T,将总时长T下的任意t时刻电网的调峰电价记为PRt,则PRt∈ΦPR;假设电网调峰电价按调度指令周期下发,且令τk为第k个调峰电价PRk下发的时刻,则记调峰电价序列为{(τk,PRk)|k=0,1,2,…,K-1,τ0=0},其中,PRk∈ΦPR,ΦPR是有限的电价状态空间;
记充电场站服务***的充电服务价格固定为PRev
假设t时刻有第mt种电动车随机到达电动场站申请充电服务,令所述第mt种电动车的电池当前荷电状态为
Figure FDA0002916817390000011
则将所述第mt种电动车的到达事件记为
Figure FDA0002916817390000012
将所述J个充电桩在t时刻的联合状态记为Ct=(CS1(t),CS2(t),…,CSj(t),…,CSJ(t)),其中
Figure FDA0002916817390000013
表示第j个充电桩的服务状态;mj(t)表示在t时刻第j个充电桩CSj正在服务的电动车种类,若mj(t)=0表示t时刻第j个充电桩CSj无车辆接入,若mj(t)∈{1,2,…,M}表示t时刻第j个充电桩CSj正在给{1,2,…,M}中的一种电动车充电;
Figure FDA0002916817390000014
表示t时刻第j个充电桩CSj正在服务的第mj(t)种电动车的电池当前荷电状态;
将t时刻第mt种电动车的到达事件
Figure FDA0002916817390000015
发生时的充电场站服务***状态记为st={Ct,PRt},则将到达事件
Figure FDA0002916817390000016
发生时刻t作为决策时刻,并将所述决策时刻的事件扩展状态记为
Figure FDA0002916817390000017
在所述决策时刻将充电场站服务***是否接入电动车并提供充电服务记为行动a,记第n个决策时刻Tn的行动为an,且an∈D={0,1},其中“0”表示拒绝服务,“1”表示接入服务,D表示行动集合;
所述电动车智能接入控制方法是按如下步骤进行:
步骤1、定义并初始化第n个决策时刻Tn的行动探索率为εn,且令0<εn<1;
定义Q值表中的元素为离散化事件扩展状态-行动对学习值,并初始化所述Q值表中的元素即随机初始化各元素的值或令其为0;Q值表以***的离散化扩展事件状态为Q值表的行,以***的接入动作为Q值表的列,即
Figure FDA0002916817390000021
其中Q值表最后Sb行对应的行动固定为“0”;
定义当前贪心控制策略表v为所述Q值表中每行最大的离散化事件扩展状态-行动对学习值所对应的行动构成的行动集合;
步骤2、初始化t=0,n=1;将当前行动探索率εn赋值给ε1;令将当前贪心控制策略表v赋值给原始策略表v0
步骤3、在所述充电场站服务***的第n个决策时刻Tn,到达事件
Figure FDA0002916817390000022
发生,观察充电场站服务***的当前联合状态st,事件扩展状态
Figure FDA0002916817390000023
令所述第n个决策时刻Tn的事件扩展状态
Figure FDA0002916817390000024
在Q值表中所对应的离散化状态记为
Figure FDA0002916817390000025
令所述第n个决策时刻Tn的事件扩展状态
Figure FDA0002916817390000026
下实际采取的行动记为
Figure FDA0002916817390000027
在所述第n个决策时刻Tn,若所有充电桩均在服务中,即{mj(t)∈{1,2,…,M}|j=1,2,…J},则令
Figure FDA0002916817390000028
否则在当前事件扩展状态
Figure FDA0002916817390000029
下,从所述Q值表中提取
Figure FDA00029168173900000210
所对应的离散化状态
Figure FDA00029168173900000211
下的贪心行动并记为
Figure FDA00029168173900000212
并以概率1-εn
Figure FDA00029168173900000213
赋值给
Figure FDA00029168173900000214
以所述探索率εn将所述行动集合D中除贪心行动
Figure FDA00029168173900000215
之外的另一个行动作为探索行动,记为
Figure FDA00029168173900000216
并赋值给
Figure FDA00029168173900000217
所述充电场站服务***采取行动
Figure FDA00029168173900000218
后,观测得到从第n个决策时刻Tn转移到第n+1个决策时刻Tn+1或转移到T时刻的***转移样本轨道
Figure FDA00029168173900000219
其中t=Tn,t′=Tn+1<T或t′=T;当t′=T时,令
Figure FDA00029168173900000220
步骤4、观测并计算所述充电场站服务***从第n个决策时刻Tn的当前状态
Figure FDA00029168173900000221
采取行动
Figure FDA00029168173900000222
转移到第n+1个决策时刻Tn+1或转移到时刻T的状态
Figure FDA0002916817390000031
的状态转移过程中获得的充电报酬
Figure FDA0002916817390000032
步骤5、利用式(1)和式(2)所示的差分公式和Q值更新公式,更新所述Q值表中
Figure FDA0002916817390000033
对应的离散化状态
Figure FDA0002916817390000034
下采取行动
Figure FDA0002916817390000035
的离散化事件扩展状态-行动对学习值
Figure FDA0002916817390000036
并重新赋值给
Figure FDA0002916817390000037
Figure FDA0002916817390000038
Figure FDA0002916817390000039
式(1)中,
Figure FDA00029168173900000310
表示转移到第n+1个决策时刻Tn+1或转移到时刻T的状态
Figure FDA00029168173900000311
对应的离散化状态
Figure FDA00029168173900000312
下若采取行动a的离散化事件扩展状态-行动对学习值;
式(2)中,运算符“:=”表示首先计算右式的值,然后赋给左边变量;
Figure FDA00029168173900000313
为第n个决策时刻Tn的离散化状态
Figure FDA00029168173900000314
下采取行动
Figure FDA00029168173900000315
的学习步长;
步骤6、选择更新后Q值表中每行最大的离散化事件扩展状态-行动对学习值所对应的行动并构成当前行动集合,以所述当前行动集合作为更新后的贪心控制策略表并赋值给当前贪心控制策略v;并对探索率εn进行衰减操作,从而得到更新后的探索率并赋值给εn+1
步骤7、若t′<T,则将n+1赋值给n,并返回步骤3;否则,表示t′=T,并执行步骤8;
步骤8、判断控制策略表v是否等于v0,若相等,则停止更新并以当前控制策略表v对M种电动车的随机充电服务请求进行接入控制,否则返回步骤2执行。
CN201910904347.1A 2019-09-24 2019-09-24 一种基于机器学习的电动车智能接入控制方法 Active CN111049125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910904347.1A CN111049125B (zh) 2019-09-24 2019-09-24 一种基于机器学习的电动车智能接入控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910904347.1A CN111049125B (zh) 2019-09-24 2019-09-24 一种基于机器学习的电动车智能接入控制方法

Publications (2)

Publication Number Publication Date
CN111049125A CN111049125A (zh) 2020-04-21
CN111049125B true CN111049125B (zh) 2021-07-30

Family

ID=70232490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910904347.1A Active CN111049125B (zh) 2019-09-24 2019-09-24 一种基于机器学习的电动车智能接入控制方法

Country Status (1)

Country Link
CN (1) CN111049125B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107719170A (zh) * 2017-10-31 2018-02-23 云南电网有限责任公司 用于配电网调峰的电动汽车充电桩定时充电方法及装置
CN108944516A (zh) * 2018-07-19 2018-12-07 华北电力大学 一种基于区块链和机器学习的电动汽车充电激励机制
CN109130935A (zh) * 2018-08-30 2019-01-04 广东电网有限责任公司 一种电动汽车智能充电监控***
CN110190597A (zh) * 2019-05-31 2019-08-30 华北电力大学 一种分布式电力管理***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11545830B2 (en) * 2017-01-18 2023-01-03 Board Of Regents, The University Of Texas System Systems and methods of hierarchical forecasting of solar photovoltaic energy production
CN106786977B (zh) * 2017-01-22 2019-12-13 中南大学 一种电动汽车充电站的充电调度方法
US11135937B2 (en) * 2018-04-06 2021-10-05 Cisco Technology, Inc. Vehicle charging leveraging telecommunication infrastructure
CN109409388B (zh) * 2018-11-07 2021-08-27 安徽师范大学 一种基于图形基元的双模深度学习描述子构造方法
CN109808541B (zh) * 2019-01-17 2020-11-10 北京理工新源信息科技有限公司 一种电动汽车充电方法及***
CN110211671B (zh) * 2019-05-28 2021-03-16 安徽师范大学 一种基于权值分布的阈值化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107719170A (zh) * 2017-10-31 2018-02-23 云南电网有限责任公司 用于配电网调峰的电动汽车充电桩定时充电方法及装置
CN108944516A (zh) * 2018-07-19 2018-12-07 华北电力大学 一种基于区块链和机器学习的电动汽车充电激励机制
CN109130935A (zh) * 2018-08-30 2019-01-04 广东电网有限责任公司 一种电动汽车智能充电监控***
CN110190597A (zh) * 2019-05-31 2019-08-30 华北电力大学 一种分布式电力管理***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
机器学习在能源与电力***领域的应用和展望;程乐峰,余涛,张孝顺;《电力***自动化》;20190110;第43卷(第1期);15-24页 *

Also Published As

Publication number Publication date
CN111049125A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
Liang et al. Mobility-aware charging scheduling for shared on-demand electric vehicle fleet using deep reinforcement learning
Abdullah et al. Reinforcement learning based EV charging management systems–a review
CN111934335B (zh) 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN103241130B (zh) 一种电动公交车充换电站的能量管理方法及***
CN116001624A (zh) 基于深度强化学习的一桩多联电动汽车有序充电方法
CN109670627A (zh) 用于对能量存储***自动云控制的方法
CN102256369B (zh) 基于能量和通信开销的无线传感器网格任务调度方法
CN114997631B (zh) 一种电动汽车充电调度方法、装置、设备及介质
CN112865190A (zh) 计及光伏和充电需求的光储充电站优化调度方法和***
CN113326994A (zh) 一种考虑源荷储互动的虚拟电厂能量协同优化方法
CN114692965A (zh) 基于数模混合驱动的电动汽车集群可调度潜力预测方法及装置
Mbuwir et al. A hybrid policy gradient and rule-based control framework for electric vehicle charging
Wu et al. Electric vehicle charging scheduling considering infrastructure constraints
CN112757922A (zh) 一种车用燃料电池混合动力能量管理方法及***
CN111313449B (zh) 一种基于机器学习的集群电动汽车功率优化管理方法
CN111284347B (zh) 一种充电场站车辆接入控制中的状态聚类编码方法
CN114282821A (zh) 一种共享电动汽车的调度方法、***及设备
CN115587645A (zh) 一种考虑充电行为随机性的电动汽车充电管理方法及***
CN112836287B (zh) 一种基于神经网络的电动汽车资源灵活性预测方法
Li et al. Data-driven bi-level predictive energy management strategy for fuel cell buses with algorithmics fusion
CN110991931B (zh) 一种基于双中心q学习的充电场站协同优化控制方法
CN111049125B (zh) 一种基于机器学习的电动车智能接入控制方法
CN114619907A (zh) 基于分布式深度强化学习的协调充电方法及协调充电***
Wu et al. A Q-learning method for scheduling shared EVs under uncertain user demand and wind power supply
CN116843500A (zh) 充电站规划方法、神经网络模型训练方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant