CN111845773B - 基于强化学习的自动驾驶车辆微观决策方法 - Google Patents

基于强化学习的自动驾驶车辆微观决策方法 Download PDF

Info

Publication number
CN111845773B
CN111845773B CN202010642778.8A CN202010642778A CN111845773B CN 111845773 B CN111845773 B CN 111845773B CN 202010642778 A CN202010642778 A CN 202010642778A CN 111845773 B CN111845773 B CN 111845773B
Authority
CN
China
Prior art keywords
network
driving
vehicle
decision
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010642778.8A
Other languages
English (en)
Other versions
CN111845773A (zh
Inventor
郑侃
刘杰
赵龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010642778.8A priority Critical patent/CN111845773B/zh
Publication of CN111845773A publication Critical patent/CN111845773A/zh
Application granted granted Critical
Publication of CN111845773B publication Critical patent/CN111845773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Probability & Statistics with Applications (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于强化学习的自动驾驶车辆微观决策方法。所述方法采用强化学习的A3C算法,驾驶行为由Actor网络输出,灵活性强,判断逻辑的复杂度不受状态空间与行为空间大小的影响。所述方法采用了两阶段的训练求解过程。第一阶段训练得到一个适用所有路段的自动驾驶微观决策模型,以保证驾驶安全。第二阶段将第一阶段的整体模型部署到每条路段,各路段在此基础上各自训练单路段模型,具有可移植性。同时,第二阶段的持续训练使所述方法能够适应各种实时因素的影响。最后阐述了基于真实车联网***结构的分布式通信架构,能够完成求解过程中的分布式计算,因此,所述方法能够适应不同的道路特征和动态的驾驶环境,具有广泛的适用性和鲁棒性。

Description

基于强化学习的自动驾驶车辆微观决策方法
技术领域
本发明涉及自动驾驶技术领域,具体而言,涉及一种基于强化学习的自动驾驶车辆微观决策方法。
背景技术
自动驾驶技术是智能交通中的核心技术之一,自动驾驶决策通常分为两类,一类是宏观上的路径规划问题,即明确车辆出发地与目的地后,综合考虑驾驶路程、拥堵情况等因素,如何选择最优的驾驶路径,这一类问题已有较为成熟的解决方案,另一类问题是,确定了宏观的驾驶路线后,车辆在微观的某条道路上如何进行驾驶。
现有技术中,自动驾驶车辆微观决策模型分为以下几类:
有限状态机模型:车辆根据环境,从预先定义好的停车、换道、超车、避让、缓行等行为模式中选择合适的驾驶行为;
决策树模型:该类模型将驾驶行为模式使用树形结构表示出来,并将判断逻辑固化在树的分支节点处,进行自上而下的搜索机制。
例如中国专利公开号为CN110969848A的发明专利公开了一种对向双车道下基于强化学习的自动驾驶超车决策方法,包括以下步骤:通过传感器采集自动驾驶车辆的交通状态;将采集到的交通状态输入到经过训练的决策模型中;决策模型依据输入信息从其动作空间中选择相应的驾驶动作指令并输出,经本次驾驶动作后自动驾驶车辆形成新的交通状态;通过奖励函数计算本次驾驶动作的奖励值,并将原交通状态、驾驶动作、奖励值和新的交通状态作为转移样本存入经验回放池中;计算决策模型的损失函数值,并依据转移样本和损失函数值优化决策模型参数;重复以上步骤,直至自动驾驶结束。保证自动驾驶车辆超车决策过程的安全性和舒适性,通过强化学习决策方法,提高了决策的拟人性和鲁棒性。
再例如中国专利公开号为CN109624986A的发明专利公开了一种对向双车道下基于强化学习的自动驾驶超车决策方法,具体的说是一种通过对特定驾驶员风格的模式切换及跟车行为自适应学习进行自适应巡航控制的基于模式切换的驾驶风格的学习巡航控制***及方法。该发明将驾驶风格定义于不同跟车情况下驾驶员在定速巡航,加速接近,稳态跟车,快速制动几种模式间的切换策略,学习其驾驶风格,并在每种驾驶模式下使用基于连续状态的学习方法进一步学习其驾驶特性,该***适用于L2级别自动驾驶车辆,目标是有效学习到驾驶员的驾驶风格特性,提高特定驾驶员在不同工况下对于自适应巡航***的适应性及接受度。
现有技术中至少存在以下问题:
有限状态机模型和决策树模型均忽略了环境的不确定性,不能很好的适应环境的动态变化,并且在定义了较多的行为模式时,状态空间和行为空间较大,判断逻辑复杂,可行度不高,很难在具有丰富的结构特征的城区道路中展现较好的决策性能。
针对现有技术中有限状态机模型和决策树模型均忽略了环境的不确定性,不能很好的适应环境的动态变化,并且在定义了较多的行为模式时,状态空间和行为空间较大,判断逻辑复杂,可行度不高,很难在具有丰富的结构特征的城区道路中展现较好的决策性能的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于强化学习的自动驾驶车辆微观决策方法,满足自动驾驶中的安全要求和行车效率要求。
所述自动驾驶车辆微观决策方法包括以下步骤:
步骤1,强化学习建模,对自动驾驶决策方案进行建模表示;
步骤2,设计求解网络,步骤1中得到了有关驾驶微观决策的最优车辆微观决策方案,接下来使用A3C算法进行求解,在A3C算法中,全局网络和代理网络均包含一个Actor网络和一个Critic网络,所有全局网络和代理网络中的Actor网络和Critic网络是分别相同的,对于Actor网络和Critic网络的网络结构,二者均以状态作为输入,结合步骤1,采用由卷积层和全连接层构成的神经网络,其中,Actor网络代表了策略函数,输出层为策略函数中概率密度函数的μθ(s)和σθ(s),Critic网络代表了状态值函数,输出层为状态值
Figure BDA0002571864750000021
步骤3,进行决策方案的求解,基于步骤1和步骤2中定义的模型、决策方案和求解网络,进行Actor网络和Critic网络的训练,得到最优策略。
进一步地,在步骤1中,还包括以下步骤:
步骤1.1,将车辆的驾驶过程定义为一个马尔可夫决策过程,自动驾驶车辆被看作一个代理,车辆的驾驶环境看作强化学习的环境,代理车辆通过检测到的环境信息做出驾驶决策和驾驶行为,通过驾驶结果调整驾驶决策,将驾驶时间分为多个时隙,每个代理车辆在时隙的开始进行驾驶决策,确定每个代理车辆在时隙的驾驶行为;
步骤1.2,使用强化学习中的基本要素进行建模:
步骤1.2.1,状态集合,将车道方向定义为y方向,与y方向垂直的方向定义为x方向,若车道为弯道,则y方向表示车道的切线方向,将代理车辆和周围最近的I辆车的位置和速度定义为状态,则状态集合表示为:S={s|s=[c0,c1,c2,...,cI]},其中,s是状态集合中的一个样本,c0=[x0,y0,v0x,v0y]是由代理车辆x方向和y方向的位置及速度构成的向量,ci=[Δxi,Δyi,vix,viy],i≤I,Δxi,Δyi,vix,viy分别表示第i辆最近的车在x方向和y方向与代理车辆的距离和速度;
步骤1.2.2,动作集合,将每时隙代理车辆在两个方向上移动的距离定义为动作,则动作集合表示为:A={a|a=[x,y],Xm<x<XM,Ym<y<YM},其中,a是动作集合中的一个样本,x,y分别表示两个方向的移动距离,Xm,XM,Ym,YM分别表示两个方向上移动的最小距离、最大距离,且Ym=0;
步骤1.2.3,策略函数,策略函数π:S→A为状态到动作的映射,代表代理根据当前状态选择动作的特定方式,定义策略函数为随机函数πθ(a|s),随机函数取值代表状态s下采取动作a的概率,即策略函数为一概率密度函数,动作根据概率密度函数采样得到,如以下公式(1)所示:
Figure BDA0002571864750000031
公式(1)中,am=[Xm,Ym],aM=[XM,YM],代表动作的最大和最小取值,
Figure BDA0002571864750000032
其中,μθ(s)代表分布均值,σθ(s)代表分布方差,
Figure BDA0002571864750000033
步骤1.2.4,回报函数,回报函数规定了某种状态下做出某种动作后得到的奖励值,用以体现动作选取的优劣,将回报函数r定义为如以下式(2):
Figure BDA0002571864750000034
上式(2)中,kc为正;
步骤1.2.5,目标函数:为得到最优的驾驶策略,根据对安全性和驾驶效率的考量,将驾驶策略作为变量,定义如下的优化目标,对于每个代理,在初始状态下根据策略函数选择动作,达到下一状态,并不断重复选择动作、达到下一状态的过程,经若干次数的迭代后,最终产生一条轨迹Γ(πθ),对于这条轨迹,累计折扣回报表示为以下公式(3):
Figure BDA0002571864750000041
公式(3)中,γ是折扣因子,表示将来时刻的回报对此刻决策的重要性,rt表示t时刻代理获得的回报,将累计折扣回报的期望作为目标函数,如以下公式(4)所示:
Figure BDA0002571864750000042
公式(4)中,
Figure BDA0002571864750000043
代表累计折扣回报的期望,
步骤1.2.6,优化决策方案,驾驶决策方案为找到最优策略π*,使目标函数最大化,策略的优化过程实质上使策略函数的参数θ的优化,优化决策方案最终表示为以下公式(5):
Figure BDA0002571864750000044
得到最优参数θ*后,最优策略则表示为
Figure BDA0002571864750000045
即最优的车辆微观决策方案。
进一步地,在步骤3中,还包括以下步骤:
步骤3.1,训练全局策略,本阶段旨在得到一个适应所有路段的基础驾驶策略模型,本阶段的训练过程部署在中心服务器、RSU两层结构上,在本阶段中,中心服务器被作为全局网络层,所有RSU组成代理层,每个RSU为一个代理,部署的具体过程如下:
步骤3.1.1,将决策神经网络部署于中心服务器及所有RSU上;
步骤3.1.2,开启训练网络的迭代,即重复执行以下步骤,直至网络收敛:
步骤3.1.2.1,对于每个RSU,采集覆盖道路上车辆的行车轨迹,用以模拟驾驶环境,随机生成代理,模拟的驾驶环境中执行驾驶行为,根据驾驶环境得到状态信息,输入Actor和Critic网络,根据Actor网络的输出进行驾驶决策,做出驾驶动作,这一交互过程结束后,得到交互结果,并达到下一个状态的驾驶环境,继续进行交互,直到生成一条驾驶轨迹的采样数据;
步骤3.1.2.2,RSU使用本地驾驶轨迹数据集训练本地的决策网络,将训练结果上传至中心服务器;
步骤3.1.2.3,中心服务器收集到一个RSU传来的训练结果后,对全局网络进行一次更新,并将更新后的全局网络参数返回给该RSU;
步骤3.1.2.4,RSU接收到中心服务器返回的全局网络后,将其同步至本地网络,并在此基础上,开启新一轮的样本采集和训练;
步骤3.1.2.5,网络收敛之后,网络参数不再变化,即得到了一个适应所有路段的基础模型;
步骤3.2,训练单条道路模型,将步骤3.1中的全局网络层下沉至各个道路的RSU,代理层下沉至RSU覆盖道路上的所有自动驾驶车辆,对于每一条道路,具体部署方式如下:
步骤3.2.1,RSU从中心服务器同步第一阶段得到的基础模型,以作为全局网络;
步骤3.2.2,每个自动驾驶车辆开始进入RSU覆盖的道路时,从RSU处同步全局网络模型,成为该道路代理层中的一个代理,执行决策网络的训练:
步骤3.2.1.1,对于每个车辆,将自身作为代理,自身的驾驶行为轨迹作为训练样本,进行与步骤3.1.2.1相同的过程,得到轨迹采样数据;
步骤3.2.1.2,车辆使用本地驾驶轨迹数据集训练本地的决策网络,将训练结果上传至RSU;
步骤3.2.1.3,RSU收集到一个车辆传来的训练结果后,对全局网络进行一次更新,并将更新后的全局网络参数返回给该车辆;
步骤3.2.1.4,车辆接收到中心服务器返回的全局网络参数后,将全局网络参数同步至本地网络,并在此基础上,开启新一轮的样本采集和训练,直至驶离当前道路。
相对于现有技术,本发明所述的自动驾驶车辆微观决策方法具有以下显著的优越效果:
1,本发明的设计结合车联网的网络架构,易于部署,有很强的可行性。
2,本发明的不使用预先定义好的驾驶模式,驾驶行为较灵活,适应性强,且状态空间和行为空间的增大并不会增加决策的复杂度,计算模式较为简洁。
3,本发明的第一阶段能够得到普适的驾驶模型,能够保障在不同路段上行驶的安全,因此新增一条路段时,仅需从中心服务器处同步该模型,RSU和自动驾驶车辆能够立即开始训练过程,具有很强的普适性和可移植性。
4,本发明的第二阶段得到了专属每路段的驾驶模型,相比所有路段使用同一个模型,本发明的模型能够更好地适应不同路段的特性,在该路段的驾驶环境下,单路段的模型驾驶效率优于所有路段共享的模型,另外,相比与为每个路段单独训练一个模型,本发明的训练和计算成本更小。
5,本发明第二阶段的模型持续更新,相比于固定的驾驶策略模型,本模型能够适应不断变化的实时因素,如路况、天气、车流密度等,具有较好的鲁棒性。
附图说明
图1为本发明所述基于强化学习的自动驾驶车辆微观决策方法的A3C算法计算结构示意图;
图2为本发明所述基于强化学习的自动驾驶车辆微观决策方法的三层***结构示意图;
图3为本发明所述基于强化学习的自动驾驶车辆微观决策方法的表演者网络结构示意图;
图4为本发明所述基于强化学习的自动驾驶车辆微观决策方法的评论家网络结构示意图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明进行进一步的详细描述。
如图1至图4所示,所述自动驾驶车辆微观决策方法包括以下步骤:
步骤1,强化学习建模,对自动驾驶决策方案进行建模表示:
步骤1.1,将车辆的驾驶过程定义为一个马尔可夫决策过程,自动驾驶车辆被看作一个代理,车辆的驾驶环境看作强化学习的环境,代理车辆通过检测到的环境信息做出驾驶决策和驾驶行为,通过驾驶结果调整驾驶决策,将驾驶时间分为多个时隙,每个代理车辆在时隙的开始进行驾驶决策,确定每个代理车辆在时隙的驾驶行为;
步骤1.2,使用强化学习中的基本要素进行建模:
步骤1.2.1,状态集合,将车道方向定义为y方向,与y方向垂直的方向定义为x方向,若车道为弯道,则y方向表示车道的切线方向,将代理车辆和周围最近的I辆车的位置和速度定义为状态,则状态集合表示为:S={s|s=[c0,c1,c2,...,cI]},其中,s是状态集合中的一个样本,c0=[x0,y0,v0x,v0y]是由代理车辆x方向和y方向的位置及速度构成的向量,ci=[Δxi,Δyi,vix,viy],i≤I,Δxi,Δyi,vix,viy分别表示第i辆最近的车在x方向和y方向与代理车辆的距离和速度;
步骤1.2.2,动作集合,将每时隙代理车辆在两个方向上移动的距离定义为动作,则动作集合表示为:A={a|a=[x,y],Xm<x<XM,Ym<y<YM},其中,a是动作集合中的一个样本,x,y分别表示两个方向的移动距离,Xm,XM,Ym,YM分别表示两个方向上移动的最小距离、最大距离,且Ym=0;
步骤1.2.3,策略函数,策略函数π:S→A为状态到动作的映射,代表代理根据当前状态选择动作的特定方式,定义策略函数为随机函数πθ(a|s),随机函数取值代表状态s下采取动作a的概率,即策略函数为一概率密度函数,动作根据概率密度函数采样得到,如以下公式(1)所示:
Figure BDA0002571864750000071
公式(1)中,am=[Xm,Ym],aM=[XM,YM],代表动作的最大和最小取值,
Figure BDA0002571864750000072
其中,μθ(s)代表分布均值,σθ(s)代表分布方差,
Figure BDA0002571864750000073
步骤1.2.4,回报函数,回报函数规定了某种状态下做出某种动作后得到的奖励值,用以体现动作选取的优劣,将回报函数r定义为如以下式(2):
Figure BDA0002571864750000074
上式(2)中,kc为正;
步骤1.2.5,目标函数:为得到最优的驾驶策略,根据对安全性和驾驶效率的考量,将驾驶策略作为变量,定义如下的优化目标,对于每个代理,在初始状态下根据策略函数选择动作,达到下一状态,并不断重复选择动作、达到下一状态的过程,经若干次数的迭代后,最终产生一条轨迹Γ(πθ),对于这条轨迹,累计折扣回报表示为以下公式(3):
Figure BDA0002571864750000075
公式(3)中,γ是折扣因子,表示将来时刻的回报对此刻决策的重要性,rt表示t时刻代理获得的回报,将累计折扣回报的期望作为目标函数,如以下公式(4)所示:
Figure BDA0002571864750000081
公式(4)中,
Figure BDA0002571864750000082
代表累计折扣回报的期望,
步骤1.2.6,优化决策方案,驾驶决策方案为找到最优策略π*,使目标函数最大化,策略的优化过程实质上使策略函数的参数θ的优化,优化决策方案最终表示为以下公式(5):
Figure BDA0002571864750000083
得到最优参数θ*后,最优策略则表示为
Figure BDA0002571864750000084
即最优的车辆微观决策方案。
步骤2,设计求解网络,步骤1中得到了有关驾驶微观决策的最优车辆微观决策方案,接下来使用A3C算法进行求解,在A3C算法中,全局网络和代理网络均包含一个Actor网络和一个Critic网络,所有全局网络和代理网络中的Actor网络和Critic网络是分别相同的,对于Actor网络和Critic网络的网络结构,二者均以状态作为输入,结合步骤1.2.1中定义的状态的二维结构特点,采用图3和图4所示的由卷积层和全连接层构成的神经网络,其中,Actor网络代表了策略函数,输出层为策略函数中概率密度函数的μθ(s)和σθ(s),Critic网络代表了状态值函数,输出层为状态值
Figure BDA0002571864750000085
步骤3,进行决策方案的求解,基于步骤1和步骤2中定义的模型、决策方案和求解网络,进行Actor网络和Critic网络的训练,得到最优策略:
步骤3.1,训练全局策略,本阶段旨在得到一个适应所有路段的基础驾驶策略模型,本阶段的训练过程部署在中心服务器、RSU(Road Side Unit,路边单元)两层结构上,在本阶段中,中心服务器被作为全局网络层,所有RSU组成代理层,每个RSU为一个代理,部署的具体过程如下:
步骤3.1.1,将决策神经网络部署于中心服务器及所有RSU上;
步骤3.1.2,开启训练网络的迭代,即重复执行以下步骤,直至网络收敛:
步骤3.1.2.1,对于每个RSU,采集覆盖道路上车辆的行车轨迹,用以模拟驾驶环境,随机生成代理,模拟的驾驶环境中执行驾驶行为,根据驾驶环境得到状态信息,输入Actor和Critic网络,根据Actor网络的输出进行驾驶决策,做出驾驶动作,这一交互过程结束后,得到交互结果,并达到下一个状态的驾驶环境,继续进行交互,直到生成一条驾驶轨迹的采样数据;
步骤3.1.2.2,RSU使用本地驾驶轨迹数据集训练本地的决策网络,将训练结果上传至中心服务器;
步骤3.1.2.3,中心服务器收集到一个RSU传来的训练结果后,对全局网络进行一次更新,并将更新后的全局网络参数返回给该RSU;
步骤3.1.2.4,RSU接收到中心服务器返回的全局网络后,将其同步至本地网络,并在此基础上,开启新一轮的样本采集和训练;
步骤3.1.2.5,网络收敛之后,网络参数不再变化,即得到了一个适应所有路段的基础模型;
步骤3.2,训练单条道路模型,将步骤3.1中的全局网络层下沉至各个道路的RSU,代理层下沉至RSU覆盖道路上的所有自动驾驶车辆,对于每一条道路,具体部署方式如下:
步骤3.2.1,RSU从中心服务器同步第一阶段得到的基础模型,以作为全局网络;
步骤3.2.2,每个自动驾驶车辆开始进入RSU覆盖的道路时,从RSU处同步全局网络模型,成为该道路代理层中的一个代理,执行决策网络的训练:
步骤3.2.1.1,对于每个车辆,将自身作为代理,自身的驾驶行为轨迹作为训练样本,进行与步骤3.1.2.1相同的过程,得到轨迹采样数据;
步骤3.2.1.2,车辆使用本地驾驶轨迹数据集训练本地的决策网络,将训练结果上传至RSU;
步骤3.2.1.3,RSU收集到一个车辆传来的训练结果后,对全局网络进行一次更新,并将更新后的全局网络参数返回给该车辆;
步骤3.2.1.4,车辆接收到中心服务器返回的全局网络参数后,将全局网络参数同步至本地网络,并在此基础上,开启新一轮的样本采集和训练,直至驶离当前道路。
需要说明的是,全局网络和所有代理的Actor网络结构相同;全局网络和所有代理的Critic网络结构相同,也就是说,全局网络和所有代理网络的网络结构都是相同的:都由各自的Actor网络+Critic网络构成,且所有Actor网络结构相同,所有Critic网络结构相同。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种基于强化学习的自动驾驶车辆微观决策方法,其特征在于,包括以下步骤:
步骤1,强化学习建模,对自动驾驶决策方案进行建模表示;
步骤1.1,将车辆的驾驶过程定义为一个马尔可夫决策过程,自动驾驶车辆被看作一个代理,车辆的驾驶环境看作强化学习的环境,代理车辆通过检测到的环境信息做出驾驶决策和驾驶行为,通过驾驶结果调整驾驶决策,将驾驶时间分为多个时隙,每个代理车辆在时隙的开始进行驾驶决策,确定每个代理车辆在时隙的驾驶行为;
步骤1.2,使用强化学习中的基本要素进行建模:
步骤1.2.1,状态集合,将车道方向定义为y方向,与y方向垂直的方向定义为x方向,若车道为弯道,则y方向表示车道的切线方向,将代理车辆和周围最近的I辆车的位置和速度定义为状态,则状态集合表示为:S={s|s=[c0,c1,c2,...,cI]},其中,s是状态集合中的一个样本,
Figure FDA0003215305690000011
是由代理车辆x方向和y方向的位置及速度构成的向量,ci=[Δxi,Δyi,vix,viy],i≤I,Δxi,Δyi,vix,viy分别表示第i辆最近的车在x方向和y方向与代理车辆的距离和速度;
步骤1.2.2,动作集合,将每时隙代理车辆在两个方向上移动的距离定义为动作,则动作集合表示为:A={a|a=[x,y],Xm<x<XM,Ym<y<YM},其中,a是动作集合中的一个样本,x,y分别表示两个方向的移动距离,Xm,XM,Ym,YM分别表示两个方向上移动的最小距离、最大距离,且Ym=0;
步骤1.2.3,策略函数,策略函数π:S→A为状态到动作的映射,代表代理根据当前状态选择动作的特定方式,定义策略函数为随机函数πθ(a|s),随机函数取值代表状态s下采取动作a的概率,即策略函数为一概率密度函数,动作根据概率密度函数采样得到,如以下公式(1)所示:
Figure FDA0003215305690000012
公式(1)中,am=[Xm,Ym],aM=[XM,YM],代表动作的最大和最小取值,
Figure FDA0003215305690000013
其中,μθ(s)代表分布均值,σθ(s)代表分布方差,
Figure FDA0003215305690000021
步骤1.2.4,回报函数,回报函数规定了某种状态下做出某种动作后得到的奖励值,用以体现动作选取的优劣,将回报函数r定义为如以下式(2):
Figure FDA0003215305690000022
上式(2)中,kc为正;
步骤1.2.5,目标函数:为得到最优的驾驶策略,根据对安全性和驾驶效率的考量,将驾驶策略作为变量,定义如下的优化目标,对于每个代理,在初始状态下根据策略函数选择动作,达到下一状态,并不断重复选择动作、达到下一状态的过程,经若干次数的迭代后,最终产生一条轨迹Γ(πθ),对于这条轨迹,累计折扣回报表示为以下公式(3):
Figure FDA0003215305690000023
公式(3)中,γ是折扣因子,表示将来时刻的回报对此刻决策的重要性,rt表示t时刻代理获得的回报,将累计折扣回报的期望作为目标函数,如以下公式(4)所示:
Figure FDA0003215305690000024
公式(4)中,
Figure FDA0003215305690000025
代表累计折扣回报的期望,
步骤1.2.6,优化决策方案,驾驶决策方案为找到最优策略π*,使目标函数最大化,策略的优化过程实质上使策略函数的参数θ的优化,优化决策方案最终表示为以下公式(5):
Figure FDA0003215305690000026
得到最优参数θ*后,最优策略则表示为
Figure FDA0003215305690000027
即最优的车辆微观决策方案;
步骤2,设计求解网络,步骤1中得到了有关驾驶微观决策的最优车辆微观决策方案,接下来使用A3C算法进行求解,在A3C算法中,全局网络和代理网络均包含一个Actor网络和一个Critic网络,所有全局网络和代理网络中的Actor网络和Critic网络是分别相同的,对于Actor网络和Critic网络的网络结构,二者均以状态作为输入,结合步骤1,采用由卷积层和全连接层构成的神经网络,其中,Actor网络代表了策略函数,输出层为策略函数中概率密度函数的μθ(s)和σθ(s),Critic网络代表了状态值函数,输出层为状态值
Figure FDA0003215305690000031
步骤3,进行决策方案的求解,基于步骤1和步骤2中定义的模型、决策方案和求解网络,进行Actor网络和Critic网络的训练,得到最优策略。
2.根据权利要求1所述的基于强化学习的自动驾驶车辆微观决策方法,其特征在于,在步骤3中,还包括以下步骤:
步骤3.1,训练全局策略,本阶段旨在得到一个适应所有路段的基础驾驶策略模型,本阶段的训练过程部署在中心服务器、RSU两层结构上,在本阶段中,中心服务器被作为全局网络层,所有RSU组成代理层,每个RSU为一个代理,部署的具体过程如下:
步骤3.1.1,将决策神经网络部署于中心服务器及所有RSU上;
步骤3.1.2,开启训练网络的迭代,即重复执行以下步骤,直至网络收敛:
步骤3.1.2.1,对于每个RSU,采集覆盖道路上车辆的行车轨迹,用以模拟驾驶环境,随机生成代理,模拟的驾驶环境中执行驾驶行为,根据驾驶环境得到状态信息,输入Actor和Critic网络,根据Actor网络的输出进行驾驶决策,做出驾驶动作,这一交互过程结束后,得到交互结果,并达到下一个状态的驾驶环境,继续进行交互,直到生成一条驾驶轨迹的采样数据;
步骤3.1.2.2,RSU使用本地驾驶轨迹数据集训练本地的决策网络,将训练结果上传至中心服务器;
步骤3.1.2.3,中心服务器收集到一个RSU传来的训练结果后,对全局网络进行一次更新,并将更新后的全局网络参数返回给该RSU;
步骤3.1.2.4,RSU接收到中心服务器返回的全局网络后,将其同步至本地网络,并在此基础上,开启新一轮的样本采集和训练;
步骤3.1.2.5,网络收敛之后,网络参数不再变化,即得到了一个适应所有路段的基础模型;
步骤3.2,训练单条道路模型,将步骤3.1中的全局网络层下沉至各个道路的RSU,代理层下沉至RSU覆盖道路上的所有自动驾驶车辆,对于每一条道路,具体部署方式如下:
步骤3.2.1,RSU从中心服务器同步第一阶段得到的基础模型,以作为全局网络;
步骤3.2.2,每个自动驾驶车辆开始进入RSU覆盖的道路时,从RSU处同步全局网络模型,成为该道路代理层中的一个代理,执行决策网络的训练:
步骤3.2.1.1,对于每个车辆,将自身作为代理,自身的驾驶行为轨迹作为训练样本,进行与步骤3.1.2.1相同的过程,得到轨迹采样数据;
步骤3.2.1.2,车辆使用本地驾驶轨迹数据集训练本地的决策网络,将训练结果上传至RSU;
步骤3.2.1.3,RSU收集到一个车辆传来的训练结果后,对全局网络进行一次更新,并将更新后的全局网络参数返回给该车辆;
步骤3.2.1.4,车辆接收到中心服务器返回的全局网络参数后,将全局网络参数同步至本地网络,并在此基础上,开启新一轮的样本采集和训练,直至驶离当前道路。
CN202010642778.8A 2020-07-06 2020-07-06 基于强化学习的自动驾驶车辆微观决策方法 Active CN111845773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010642778.8A CN111845773B (zh) 2020-07-06 2020-07-06 基于强化学习的自动驾驶车辆微观决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010642778.8A CN111845773B (zh) 2020-07-06 2020-07-06 基于强化学习的自动驾驶车辆微观决策方法

Publications (2)

Publication Number Publication Date
CN111845773A CN111845773A (zh) 2020-10-30
CN111845773B true CN111845773B (zh) 2021-10-26

Family

ID=73153538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010642778.8A Active CN111845773B (zh) 2020-07-06 2020-07-06 基于强化学习的自动驾驶车辆微观决策方法

Country Status (1)

Country Link
CN (1) CN111845773B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348201B (zh) * 2020-11-11 2024-03-12 扬州大学 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法
CN112644516B (zh) * 2020-12-16 2022-03-29 吉林大学青岛汽车研究院 适用于环岛场景的无人驾驶控制***和控制方法
CN112700642B (zh) * 2020-12-19 2022-09-23 北京工业大学 一种利用智能网联车辆提高交通通行效率的方法
CN112896187B (zh) * 2021-02-08 2022-07-26 浙江大学 一种考虑社会兼容的自动驾驶决策的***与方法
CN113099418B (zh) * 2021-03-26 2022-08-16 深圳供电局有限公司 一种用于车联网数据传输的区块链任务的优化方法
CN113044064B (zh) * 2021-04-01 2022-07-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及***
CN113071524B (zh) * 2021-04-29 2022-04-12 深圳大学 决策控制方法、装置、自动驾驶车辆及存储介质
CN113501008B (zh) * 2021-08-12 2023-05-19 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113619604B (zh) * 2021-08-26 2023-08-15 清华大学 自动驾驶汽车的集成式决控方法、装置及存储介质
CN113511222B (zh) * 2021-08-27 2023-09-26 清华大学 场景自适应式车辆交互行为决策与预测方法及装置
CN117828489B (zh) * 2024-03-05 2024-05-14 河钢国际科技(北京)有限公司 智能船舶远程动态控制***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015094645A1 (en) * 2013-12-22 2015-06-25 Lytx, Inc. Autonomous driving comparison and evaluation
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及***
CN110320883A (zh) * 2018-03-28 2019-10-11 上海汽车集团股份有限公司 一种基于强化学习算法的车辆自动驾驶控制方法及装置
CN110406530A (zh) * 2019-07-02 2019-11-05 宁波吉利汽车研究开发有限公司 一种自动驾驶方法、装置、设备和车辆
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10061316B2 (en) * 2016-07-08 2018-08-28 Toyota Motor Engineering & Manufacturing North America, Inc. Control policy learning and vehicle control method based on reinforcement learning without active exploration

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015094645A1 (en) * 2013-12-22 2015-06-25 Lytx, Inc. Autonomous driving comparison and evaluation
CN110320883A (zh) * 2018-03-28 2019-10-11 上海汽车集团股份有限公司 一种基于强化学习算法的车辆自动驾驶控制方法及装置
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及***
CN110406530A (zh) * 2019-07-02 2019-11-05 宁波吉利汽车研究开发有限公司 一种自动驾驶方法、装置、设备和车辆
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度神经网络的关键技术及其在自动驾驶领域的应用;立升波;《汽车安全与节能学报》;20190228;全文 *

Also Published As

Publication number Publication date
CN111845773A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111845773B (zh) 基于强化学习的自动驾驶车辆微观决策方法
CN111931905B (zh) 一种图卷积神经网络模型、及利用该模型的车辆轨迹预测方法
CN109733415B (zh) 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN114495527B (zh) 一种混合交通环境下网联交叉口车路协同优化方法及***
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN111898211B (zh) 基于深度强化学习的智能车速度决策方法及其仿真方法
KR102306939B1 (ko) V2x 통신 및 이미지 처리를 이용한 정보 융합을 통해 자율 주행의 단기 경로를 플래닝하기 위한 방법 및 장치
CN111267830B (zh) 一种混合动力公交车能量管理方法、设备和存储介质
CN113643553B (zh) 基于联邦强化学习的多路口智能交通信号灯控制方法及***
CN104952248A (zh) 一种基于欧氏空间的车辆汇聚预测方法
CN104966129A (zh) 一种车辆运行轨迹的分离方法
CN113581182B (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及***
CN112183288B (zh) 一种基于模型的多智能体强化学习方法
CN113255998B (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN112550314A (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制***
CN114038218A (zh) 基于进出路况信息的链式反馈多路口信号灯决策***及方法
CN113593228A (zh) 一种高速公路瓶颈区域自动驾驶协同控制方法
CN112201070A (zh) 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法
CN113299079B (zh) 一种基于ppo和图卷积神经网络区域交叉口信号控制方法
CN114267191A (zh) 缓解交通拥堵驾驶员控制***、方法、介质、设备及应用
CN117075473A (zh) 一种人机混驾环境下的多车协同决策方法
CN116620327A (zh) 基于PPO和Lattice实现自动驾驶的高速场景的变道决策方法
CN117007066A (zh) 多规划算法集成的无人驾驶轨迹规划方法及相关装置
CN114117944B (zh) 一种模型更新方法、装置、设备及可读存储介质
CN111310919A (zh) 基于场景切分和局部路径规划的驾驶控制策略训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant