CN114707359A - 基于值分布强化学习的自动驾驶汽车决策规划方法 - Google Patents

基于值分布强化学习的自动驾驶汽车决策规划方法 Download PDF

Info

Publication number
CN114707359A
CN114707359A CN202210487160.8A CN202210487160A CN114707359A CN 114707359 A CN114707359 A CN 114707359A CN 202210487160 A CN202210487160 A CN 202210487160A CN 114707359 A CN114707359 A CN 114707359A
Authority
CN
China
Prior art keywords
quantile
vehicle
network
value
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210487160.8A
Other languages
English (en)
Inventor
唐小林
钟桂川
杨凯
陈永力
邓忠伟
彭颖
胡晓松
李佳承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210487160.8A priority Critical patent/CN114707359A/zh
Publication of CN114707359A publication Critical patent/CN114707359A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于值分布强化学习的自动驾驶汽车决策规划方法,属于自动驾驶汽车领域。该方法包括:S1:构建考虑不确定性的无信号灯十字路口场景;S2:构建全参数化分位数函数模型,作为自动驾驶汽车控制模型;S3:基于全参数化分位数函数模型中学习的状态‑动作回报分布信息,引入条件风险价值,生成具有风险意识的驾驶行为。本发明利用值分布强化学习提高了自动驾驶汽车在具有不确定性的环境下决策规划策略的安全性与稳定性。

Description

基于值分布强化学习的自动驾驶汽车决策规划方法
技术领域
本发明属于自动驾驶汽车领域,涉及一种基于值分布强化学习的自动驾驶汽车决策规划方法。
背景技术
自动驾驶技术近年来取得飞速发展,但是安全性已成为自动驾驶技术所面临的一个关键问题。安全性是阻碍自动驾驶汽车商业化的一个重要因素,也是近年来的一个研究热点。而自动驾驶决策规划模块,作为自动驾驶汽车的“大脑”,对自动驾驶汽车安全性有相当重要的影响,尤其是在十字路口等复杂城市场景下,如何进行自主安全的决策,近年来被广泛研究。
自动驾驶汽车决策规划模块,主要是根据当前环境状态,决策生成最优的驾驶行为,从而安全的完成驾驶任务,现有的决策规划方法,主要分为基于规则、基于优化以及基于学习的三类。其中,基于规则的方法,只适用于特定的场景;基于优化的方法,在实时性方面的表现较差。因此,基于学习的方法近年来被学术界和工业界广泛研究,其中强化学习已被广泛用于自动驾驶汽车的决策规划问题,得益于强化学习的实时性与场景适应性,基于强化学习的决策规划方法能很好的完成驾驶任务。但是,由于自动驾驶汽车所面临的驾驶环境日益复杂,恶劣天气、建筑物遮挡等造成的不完全感知,以及周围交通参与者的行为不确定性,给自动驾驶汽车的安全性带来了巨大挑战,传统的强化学习算法已经无法满足自动驾驶汽车对安全性的需求。
由于传统的强化学习以最大化回报的期望值来选择最优动作,回报的分布信息很大程度上被丢失,因此无法考虑由于环境中内在的不确定性对决策策略的影响。因此,亟需提出一种新的强化学习算法来处理环境中存在的不确定性,以提升自动驾驶汽车决策规划的安全性。
发明内容
有鉴于此,本发明的目的在于提供一种基于值分布强化学习的自动驾驶汽车决策规划方法,能提高自动驾驶汽车在具有不确定性的环境下决策规划策略的安全性与稳定性。
为达到上述目的,本发明提供如下技术方案:
一种基于值分布强化学习的自动驾驶汽车决策规划方法,具体包括以下步骤:
S1:构建考虑不确定性的无信号灯十字路口场景;
S2:构建全参数化分位数函数(FQF)网络模型,作为自动驾驶汽车控制模型;
S3:基于全参数化分位数函数(FQF)模型中学习的状态-动作回报分布信息,引入条件风险价值(CVaR),生成具有风险意识的驾驶行为。
进一步,步骤S1中,构建考虑不确定性的无信号灯十字路口场景,具体包括:建立遮挡模型,确定周围车辆模型,建立周围车辆类型分布。
进一步,步骤S1中,建立遮挡模型,具体包括:考虑十字路口两侧的遮挡,通过分析周围车辆与自车以及十字路口中心的相对位置关系,根据几何关系,计算出周围车辆能被自车观测到的临界距离d,以此作为判断周围车辆是否被遮挡的临界条件:
Figure BDA0003629612870000021
其中,l为每条车道宽度,d′为自车车头到十字路口中心点的距离,
Figure BDA0003629612870000022
为道路边界到遮挡物的距离,d为周围车辆车头至十字路口中心点的距离。
进一步,步骤S1中,确定周围车辆模型,具体包括:为使周围车辆能对环境的主动变化做出反应,规定仿真环境中,周围车辆的行为由智能驾驶员模型控制(IntelligentDriver Model):
Figure BDA0003629612870000023
Figure BDA0003629612870000024
其中,a为加速度,amax为最大加速度,v为车辆纵向速度,vtarget为车辆纵向期望速度,m为加速度参数,dtarget为车辆纵向期望距离,d0为车辆纵向最小距离,T0为车辆最小碰撞时间,Δv为与前车的相对速度。
进一步,步骤S1中,建立周围车辆类型分布,具体包括:规定仿真环境中,周围车辆包括激进(Aggressive)、保守(Conservative)、正常(Normal)三种类型,每种类型的车辆在每一个时间步,分别以一定的概率添加到环境中,周围车辆类型空间为:
Figure BDA0003629612870000025
进一步,步骤S2中,构建全参数化分位数函数模型,具体包括以下步骤:
S21:构建分位数提议网络(Fraction proposal network):以状态信息作为网络输入,输出每个状态-动作对应的最优分位点τ;
S22:构建分位数值网络(Quantile value network):将由分位数提议网络得到的最优分位点作为分位数值网络的输入,映射得到对应当前状态下,各个分位点对应的分位函数值;
S23:构建状态空间S:以周围车辆的位置、速度、航向角以及自车的位置、速度及航向角作为自车可观测的状态信息,值分布强化学习基于自车观测信息进行下一步的决策规划;
S24:构建动作空间A:动作空间定义为自车可执行动作的集合,为值分布强化学习网络的输出值,此处自车的动作空间包括加速、巡航和减速三个离散动作值;其中加速和减速两个动作的具体加速度由智能驾驶员模型(Intelligent Driver Model)计算得到;
S25:设计奖励函数,总奖励等于碰撞奖励Rcollision、完成任务的奖励Rsuccess以及超时奖励Rtimeout三部分之和;
S26:根据当前状态St,执行动作At,将自车执行动作后所得到的训练数据(St,At,Rt,St+1)添加至经验池;
S27:拟合回报分布;
S28:更新分位数提议网络:通过最小化1-Wasserstein距离,更新分位数提议网络,以确定最优的分位点τ,使其拟合的得到的分布更接近真实分布;
S29:更新分位数值网络:分位数值网络的更新目标是,最小化分位数回归Huber-loss,使分位数值网络的输出尽可能逼近目标值,以梯度下降法更新分位数值网络。
进一步,步骤S27具体包括:通过N个混合Dirac函数的加权值,拟合回报的分布:
Figure BDA0003629612870000031
其中,N为分位点数目,τi为分位数提议网络生成的分位点,满足τi-1i,且τ0=0,τN=1,δθi(s,a)为当前状态(s,a)下参数θi的Dirac函数。
进一步,步骤S28具体包括以下步骤:
S281:1-Wasserstein距离公式为:
Figure BDA0003629612870000032
其中,N为分位点数目,ω为神经网络参数,
Figure BDA0003629612870000033
为分位点
Figure BDA0003629612870000034
对应的分位数函数值,
Figure BDA0003629612870000035
S282:由于真实的分位数函数
Figure BDA0003629612870000036
实际上是无法得到的,因此利用带有分位数网络参数ω2的分位数值函数
Figure BDA0003629612870000037
作为当前状态下真实的分位数值函数;
S283:为了避免直接计算1-Wasserstein距离,通过对分位数提议网络的参数ω1利用梯度下降以最小化1-Wasserstein距离:
Figure BDA0003629612870000038
S284:全参数化分位数函数的回报期望为:
Figure BDA0003629612870000041
进一步,步骤S29具体包括以下步骤:
S291:求解时间差分方程:
Figure BDA0003629612870000042
其中,δij为TD-error,rt为当前时刻的回报,γ为衰减因子,Z为当前时刻的回报分布,Z′为下一时刻的回报分布;
S292:计算分位数回归Huber-loss:
Figure BDA0003629612870000043
Figure BDA0003629612870000044
其中,
Figure BDA0003629612870000045
为分位数回归Huber-loss,
Figure BDA0003629612870000046
为Huber-loss函数,κ为阈值;
S293:利用随机梯度下降,更新分位数值网络:
Figure BDA0003629612870000047
其中,
Figure BDA0003629612870000048
为t时刻的TD-error。
进一步,步骤S3具体包括以下步骤:
S31:基于步骤S2全参数化分位数函数(FQF)模型中所得到的回报分布信息,计算各个分布对应的条件风险价值(CVaR)为:
Figure BDA0003629612870000049
其中,风险价值(VaR):
Figure BDA00036296128700000410
Z为回报的分布,α为累积概率,R为回报,是一个随机变量;
S32:选择最优动作,以最大化CVaR值为目标,选择最优的具有风险敏感性的行为:
Figure BDA00036296128700000411
其中,
Figure BDA00036296128700000412
为当前状态st下所选择的最优动作,Z为回报的分布,α为累积概率。
本发明的有益效果在于:
1)本发明设计了一种无信号灯十字路口的仿真训练环境,同时考虑了由于环境中的遮挡导致的不完全感知和周围交通参与者的行为不确定性,使该场景更符合真实驾驶场景。
2)本发明设计了一种基于值分布强化学习的决策规划方法,采用全参数化分位数函数(FQF)更加准确的拟合值分布,为后续具有风险意识的决策行为生成,提供更准确的分布信息。
3)本发明设计了一种基于条件风险价值(CVaR)的行为生成方法,基于所得到的回报分布信息,考虑环境中存在的不确定性,生成具有风险意识的驾驶行为。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于值分布强化学习的自动驾驶汽车决策规划方法的整体逻辑框架图;
图2为构建仿真训练环境的逻辑框架图;
图3为全参数化分位数函数(FQF)网络结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,本发明提供了一种基于值分布强化学习的自动驾驶汽车决策规划方法。考虑到真实驾驶环境中存在的不确定性,建立了同时考虑遮挡以及不同驾驶员类型的无信号灯十字路口仿真训练环境。同时,考虑到自动驾驶汽车决策规划对于安全性的需求,提出了一种基于值分布强化学习的方法,通过全参数化分位数函数(FQF)拟合回报的真实分布,进而将条件风险值(CVaR)引入所得到的分布信息,生成具有风险意识的驾驶行为,提升自动驾驶汽车对环境中不确定性的处理能力。该方法具体包括以下步骤:
步骤S1:构建无信号灯的十字路口仿真训练场景,如图2所示,具体包括以下步骤:
S11:建立遮挡模型:考虑十字路口两侧的遮挡,通过分析周围车辆与自车以及十字路口中心的相对位置关系,根据几何关系,计算出周围车辆可被自车观测到的临界距离d,以此作为判断周围车辆是否被遮挡的临界条件:
Figure BDA0003629612870000061
其中,l为每条车道宽度,d′为自车车头到十字路口中心点的距离,
Figure BDA0003629612870000062
为道路边界到遮挡物的距离,d为周围车辆车头至十字路口中心点的距离。
S12:确定周围车辆模型:为使周围车辆能对环境的变化做出相应的反应,规定仿真环境中,周围车辆的行为由智能驾驶员模型控制(Intelligent Driver Model):
Figure BDA0003629612870000063
Figure BDA0003629612870000064
其中,a为加速度,amax为最大加速度,v为车辆纵向速度,vtarget为车辆纵向期望速度,m为加速度参数,dtarget为车辆纵向期望距离,d0为车辆纵向最小距离,T0为车辆最小碰撞时间,Δv为与前车的相对速度。
S13:建立周围车辆类型分布:为使自车能够根据不同驾驶员类型做出不同决策,规定仿真环境中,周围车辆包括激进(Aggressive)、保守(Conservative)、正常(Normal)三种类型,每种类型的车辆在每一个时间步,分别以概率:Paggressive=0.2,Pconservative=0.3,Pnormal=0.5添加到环境中,周围车辆类型空间为:
Figure BDA0003629612870000065
S14:初始化环境:随机初始化周围车辆的初始速度、位置与目标速度。
S2:构建全参数化分位数函数(FQF)模型,作为自动驾驶汽车控制模型,如图3所示,具体包括以下步骤:
S21:构建分位数提议网络(Fraction proposal network):以状态信息作为网络输入,输出每个状态-动作对应的最优分位点τ。
S22:构建分位数值网络(Quantile value network):将由分位数提议网络得到的最优分位点作为分位数值网络的输入,映射得到对应当前状态下,各个分位点对应的分位函数值。
S23:构建状态空间S:以周围车辆的位置、速度、航向角以及自车的位置、速度及航向角为自车可观测的状态信息,值分布强化学习基于自车观测信息进行下一步的决策规划。
Figure BDA0003629612870000066
其中,i=0代表自车,i∈[1,N]代表周围车辆,xi,yi代表车辆的横向和纵向位置,vxi,vyi代表车辆的横向和纵向速度,
Figure BDA0003629612870000067
代表车辆的航向角。
S24:构建动作空间A:动作空间定义为自车可执行动作的集合,为值分布强化学习网络的输出值,此处自车的动作空间包括加速、巡航、减速,其中加速和减速两个动作的具体加速度由智能驾驶员模型(Intelligent Driver Model)计算得到:
Figure BDA0003629612870000071
Figure BDA0003629612870000072
其中,a为加速度,amax为最大加速度,v为车辆纵向速度,vtarget为车辆纵向期望速度,m为加速度参数,dtarget为车辆纵向期望距离,d0为车辆纵向最小距离,T0为车辆最小碰撞时间,Δv为与前车的相对速度,加速度范围为:a∈[-3,1]m2/s
S25:设计奖励函数:奖励函数主要考虑安全Rcollision,成功率Rsuccess以及效率Rtimeout三部分之和,即:
R=Rcollision+Rsuccess+Rtimeout
第一项Rcollision为碰撞奖励,要求自车不能与周围环境车辆发生碰撞;
Rcollision=-10
第二项Rsuccess为完成任务的奖励,要求自车能够无碰撞的到达目标地点;
Rsuccess=10
第三项Rtimeout为超时奖励,要求自车不能超过规定的回合最大步数。
Rtimeout=-10
S26:根据当前状态St,执行动作At,将自车执行动作后所得到的训练数据(St,At,Rt,St+1)添加至经验池。
S27:拟合回报分布:通过N个混合Dirac函数的加权,拟合回报的分布:
Figure BDA0003629612870000073
其中,N为分位点数目,τi为分位数提议网络生成的分位点,满足τi-1<τi,且τ0=0,τN=1以及
Figure BDA0003629612870000074
Figure BDA0003629612870000075
为当前状态(s,a)下参数θi的Dirac函数。
S28:更新分位数提议网络:通过最小化1-Wasserstein距离,更新分位数提议网络,以确定最优的分位点τ,使其拟合得到的分布更接近真实分布。具体操作如下:
S281:1-Wasserstein距离公式为:
Figure BDA0003629612870000076
其中,N为分位点数目,ω为神经网络参数,
Figure BDA0003629612870000081
为分位点
Figure BDA0003629612870000082
对应的分位函数值,
Figure BDA0003629612870000083
S282:由于真实的分位数函数
Figure BDA0003629612870000084
实际上是无法得到的,因此利用带有分位数网络参数ω2的分位数值函数
Figure BDA0003629612870000085
作为当前状态下真实的分位数值函数。
S283:为了避免直接计算1-Wasserstein距离,通过对分位数提议网络的参数ω1利用梯度下降以最小化1-Wasserstein距离:
Figure BDA0003629612870000086
其中,
Figure BDA0003629612870000087
为分位点τi对应的分位函数值,
Figure BDA0003629612870000088
ω2为分位数值网络参数。
S284:全参数化分位数函数的回报期望为:
Figure BDA0003629612870000089
其中,N为分位点数目,
Figure BDA00036296128700000810
为分位点τi对应的分位函数值,
Figure BDA00036296128700000811
ω2为分位数值网络参数。
S29:更新分位数值网络:分位数值网络的更新目标是,最小化分位数回归Huber-loss,使分位数值网络的输出尽可能逼近目标值,求得损失函数后,以梯度下降法更新分位数值网络,具体操作如下:
S291:求解时间差分方程:
Figure BDA00036296128700000812
其中,rt为当前时刻的回报,γ为衰减因子,ω1为神经网络网络参数,
Figure BDA00036296128700000813
为分位点τi对应的分位函数值,
Figure BDA00036296128700000814
Z为当前时刻的回报分布,Z′为下一时刻的回报分布。
S292:计算分位数回归Huber-loss:
Figure BDA00036296128700000815
其中,Huber-loss:
Figure BDA00036296128700000816
δij为TD-error,κ为阈值。
S293:利用随机梯度下降,更新分位数值网络:
Figure BDA00036296128700000817
其中,N为分位点数目,
Figure BDA00036296128700000818
为分位数回归Huber-loss,
Figure BDA00036296128700000819
为t时刻的TD-error,κ为阈值,τi为分位点,
Figure BDA0003629612870000091
S3:基于步骤S2中所得到的回报分布,引入条件风险值(CVaR),生成具有风险意识的驾驶行为,具体包括以下步骤:
S31:基于步骤S2所得到的回报分布信息,计算各个分布对应的条件风险价值(CVaR):
Figure BDA0003629612870000092
其中,风险价值(VaR):
Figure BDA0003629612870000093
Z为回报的分布,α为累积概率,R为回报,是一个随机变量。
S32:选择最优动作:以最大化CVaR值为目标,选择最优的具有风险敏感性的行为:
Figure BDA0003629612870000094
其中,
Figure BDA0003629612870000095
为当前状态st下所选择的最优动作,Z为回报的分布,α为累积概率。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于值分布强化学习的自动驾驶汽车决策规划方法,其特征在于,该方法具体包括以下步骤:
S1:构建考虑不确定性的无信号灯十字路口场景;
S2:构建全参数化分位数函数模型,作为自动驾驶汽车控制模型;
S3:基于全参数化分位数函数模型中学习到的状态-动作回报分布信息,引入条件风险价值,生成具有风险意识的驾驶行为。
2.根据权利要求1所述的自动驾驶汽车决策规划方法,其特征在于,步骤S1中,构建考虑不确定性的无信号灯十字路口场景,具体包括:建立遮挡模型,确定周围车辆模型,建立周围车辆类型分布。
3.根据权利要求2所述的自动驾驶汽车决策规划方法,其特征在于,步骤S1中,建立遮挡模型,具体包括:考虑十字路口两侧的遮挡,通过分析周围车辆与自车以及十字路口中心的相对位置关系,根据几何关系,计算出周围车辆能被自车观测到的临界距离d,以此作为判断周围车辆是否被遮挡的临界条件:
Figure FDA0003629612860000011
其中,l为每条车道宽度,d′为自车车头到十字路口中心点的距离,
Figure FDA0003629612860000012
为道路边界到遮挡物的距离,d为周围车辆车头至十字路口中心点的距离。
4.根据权利要求2所述的自动驾驶汽车决策规划方法,其特征在于,步骤S1中,确定周围车辆模型,具体包括:周围车辆的行为由智能驾驶员模型控制:
Figure FDA0003629612860000013
Figure FDA0003629612860000014
其中,a为加速度,amax为最大加速度,v为车辆纵向速度,vtarget为车辆纵向期望速度,m为加速度参数,dtarget为车辆纵向期望距离,d0为车辆纵向最小距离,T0为车辆最小碰撞时间,Δv为与前车的相对速度。
5.根据权利要求1所述的自动驾驶汽车决策规划方法,其特征在于,步骤S2中,构建全参数化分位数函数模型,具体包括以下步骤:
S21:构建分位数提议网络:以状态信息作为网络输入,输出每个状态-动作对应的最优分位点τ;
S22:构建分位数值网络:将由分位数提议网络得到的最优分位点作为分位数值网络的输入,映射得到对应当前状态下,各个分位点对应的分位函数值;
S23:构建状态空间S:以周围车辆的位置、速度、航向角以及自车的位置、速度及航向角作为自车可观测的状态信息,值分布强化学习基于自车观测信息进行下一步的决策规划;
S24:构建动作空间A:动作空间定义为自车可执行动作的集合,为值分布强化学习网络的输出值,此处自车的动作空间包括加速、巡航和减速三个离散动作值;其中加速和减速两个动作的具体加速度由智能驾驶员模型计算得到;
S25:设计奖励函数,总奖励等于碰撞奖励Rcollision、完成任务的奖励Rsuccess以及超时奖励Rtimeout三部分之和;
S26:根据当前状态St,执行动作At,将自车执行动作后所得到的训练数据(St,At,Rt,St+1)添加至经验池;
S27:拟合回报分布;
S28:更新分位数提议网络:通过最小化1-Wasserstein距离,更新分位数提议网络,以确定最优的分位点τ,使其拟合的得到的分布更接近真实分布;
S29:更新分位数值网络:分位数值网络的更新目标是,最小化分位数回归Huber-loss,使分位数值网络的输出尽可能逼近目标值,并以梯度下降法更新分位数值网络。
6.根据权利要求5所述的自动驾驶汽车决策规划方法,其特征在于,步骤S27具体包括:通过N个混合Dirac函数的加权值,拟合回报的分布:
Figure FDA0003629612860000021
其中,N为分位点数目,τi为分位数提议网络生成的分位点,满足τi-1i,且τ0=0,τN=1,
Figure FDA0003629612860000022
为当前状态(s,a)下参数θi的Dirac函数。
7.根据权利要求6所述的自动驾驶汽车决策规划方法,其特征在于,步骤S28具体包括以下步骤:
S281:1-Wasserstein距离公式为:
Figure FDA0003629612860000023
其中,N为分位点数目,ω为神经网络参数,
Figure FDA0003629612860000024
为分位点
Figure FDA0003629612860000025
对应的分位数函数值,
Figure FDA0003629612860000026
S282:利用带有分位数网络参数ω2的分位数值函数
Figure FDA0003629612860000027
作为当前状态下真实的分位数值函数;
S283:通过对分位数提议网络的参数ω1利用梯度下降以最小化1-Wasserstein距离:
Figure FDA0003629612860000031
S284:全参数化分位数函数的回报期望为:
Figure FDA0003629612860000032
8.根据权利要求7所述的自动驾驶汽车决策规划方法,其特征在于,步骤S29具体包括以下步骤:
S291:求解时间差分方程:
Figure FDA0003629612860000033
其中,δij为TD-error,rt为当前时刻的回报,γ为衰减因子,Z为当前时刻的回报分布,Z′为下一时刻的回报分布;
S292:计算分位数回归Huber-loss:
Figure FDA0003629612860000034
Figure FDA0003629612860000035
其中,
Figure FDA0003629612860000036
为分位数回归Huber-loss,
Figure FDA0003629612860000037
为Huber-loss函数,k为阈值;
S293:利用随机梯度下降,更新分位数值网络:
Figure FDA0003629612860000038
其中,
Figure FDA0003629612860000039
为t时刻的TD-error。
9.根据权利要求1所述的自动驾驶汽车决策规划方法,其特征在于,步骤S3具体包括以下步骤:
S31:基于步骤S2中全参数化分位数函数模型所得到的回报分布信息,计算各个分布对应的条件风险价值(CVaR)为:
Figure FDA00036296128600000310
其中,风险价值
Figure FDA00036296128600000311
Z为回报的分布,α为累积概率,R为回报;
S32:选择最优动作,以最大化CVaR值为目标,选择最优的具有风险敏感性的行为:
Figure FDA00036296128600000312
其中,
Figure FDA00036296128600000313
为当前状态st下所选择的最优动作,Z为回报的分布,α为累积概率。
CN202210487160.8A 2022-05-06 2022-05-06 基于值分布强化学习的自动驾驶汽车决策规划方法 Pending CN114707359A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210487160.8A CN114707359A (zh) 2022-05-06 2022-05-06 基于值分布强化学习的自动驾驶汽车决策规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210487160.8A CN114707359A (zh) 2022-05-06 2022-05-06 基于值分布强化学习的自动驾驶汽车决策规划方法

Publications (1)

Publication Number Publication Date
CN114707359A true CN114707359A (zh) 2022-07-05

Family

ID=82176207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210487160.8A Pending CN114707359A (zh) 2022-05-06 2022-05-06 基于值分布强化学习的自动驾驶汽车决策规划方法

Country Status (1)

Country Link
CN (1) CN114707359A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117208019A (zh) * 2023-11-08 2023-12-12 北京理工大学前沿技术研究院 基于值分布强化学习的感知遮挡下纵向决策方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117208019A (zh) * 2023-11-08 2023-12-12 北京理工大学前沿技术研究院 基于值分布强化学习的感知遮挡下纵向决策方法及***
CN117208019B (zh) * 2023-11-08 2024-04-05 北京理工大学前沿技术研究院 基于值分布强化学习的感知遮挡下纵向决策方法及***

Similar Documents

Publication Publication Date Title
CN110843789B (zh) 一种基于时序卷积网络的车辆换道意图预测方法
CN110007675B (zh) 一种基于行车态势图的车辆自动驾驶决策***及基于无人机的训练集制备方法
CN110015306B (zh) 驾驶轨迹获取方法及装置
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及***
CN112965499A (zh) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN112347567A (zh) 一种车辆意图和轨迹预测的方法
CN111145552B (zh) 基于5g网络的车辆动态换道轨迹的规划方法
CN113954864A (zh) 一种融合周边车辆交互信息的智能汽车轨迹预测***及方法
CN112734808B (zh) 一种车辆行驶环境下易受伤害道路使用者的轨迹预测方法
CN107886750B (zh) 一种基于超视距协同认知的无人驾驶汽车控制方法与***
CN114564016A (zh) 一种结合路径规划和强化学习的导航避障控制方法、***及模型
CN112071059A (zh) 一种基于瞬时风险评估的智能车辆换道轨迹协同规划方法
CN109727490A (zh) 一种基于行车预测场的周边车辆行为自适应矫正预测方法
CN114973650A (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN114707359A (zh) 基于值分布强化学习的自动驾驶汽车决策规划方法
CN114516336B (zh) 一种考虑道路约束条件的车辆轨迹预测方法
CN117227755A (zh) 基于强化学习的复杂交通场景下自动驾驶决策方法及***
CN116050245A (zh) 基于复杂网络理论的高速公路自动驾驶商用车轨迹预测与决策方法与***
Mänttäri et al. Learning to predict lane changes in highway scenarios using dynamic filters on a generic traffic representation
US20230162539A1 (en) Driving decision-making method and apparatus and chip
CN116572993A (zh) 智能车辆风险敏感型序贯行为决策方法、装置及设备
CN116306800A (zh) 一种基于强化学习的智能驾驶决策学习方法
CN114104005B (zh) 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN116189451A (zh) 一种交通信号灯的控制方法、装置、终端设备和存储介质
CN114889608A (zh) 一种基于注意力机制的车辆换道预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination