CN116127853A - 融合时序信息的基于ddpg的无人驾驶超车决策方法 - Google Patents

融合时序信息的基于ddpg的无人驾驶超车决策方法 Download PDF

Info

Publication number
CN116127853A
CN116127853A CN202310197273.9A CN202310197273A CN116127853A CN 116127853 A CN116127853 A CN 116127853A CN 202310197273 A CN202310197273 A CN 202310197273A CN 116127853 A CN116127853 A CN 116127853A
Authority
CN
China
Prior art keywords
unmanned
overtaking
vehicle
model
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310197273.9A
Other languages
English (en)
Inventor
黄志清
张晨阳
王舒晴
赵瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202310197273.9A priority Critical patent/CN116127853A/zh
Publication of CN116127853A publication Critical patent/CN116127853A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了融合时序信息的基于DDPG的无人驾驶超车决策方法。本发明通过获取多个连续时刻的状态,如车辆速度、车轮转速、距离邻近其它车辆位置和车道线距离检测等状态信息,处理生成一个多维状态输入矩阵。然后将该状态矩阵输入到超车决策控制模型中,直接输出车辆的动作控制信号,如油门、刹车和转向角度,从而控制车辆完成超车驾驶行为。超车模型的神经网络结构基于Actor‑Critic架构,其中神经网络输入的多维状态矩阵融入了时间序列驾驶状态信息,通过时间衰减因子权重系数来控制不同时刻的状态空间所占的比重。最后通过在TORCS(TheOpenRacingCarSimulator)平台上的仿真实验表明,融合时序信息的超车模型能够控制无人车安全、精准地完成超车任务。

Description

融合时序信息的基于DDPG的无人驾驶超车决策方法
技术领域
本发明属于无人驾驶智能决策控制领域,涉及一种基于DDPG算法建模实现的无人驾驶超车决策方法。
背景技术
随着人工智能和信息感知的快速发展,无人驾驶技术受到学术界和工业界的广泛关注,迎来了蓬勃发展的阶段,无人驾驶技术已成为国内外研究的热点。无人驾驶在未来构建智慧城市体系中发挥着关键作用,无人驾驶的应用可以缓解道路交通拥堵、尾气排放污染、能源消耗、土地资源紧张等问题。超车是无人驾驶中一种基础的驾驶行为,它是指从当前车道变道进入超车道,超越同侧车辆后再返回原车道的过程。
目前解决超车决策控制问题的方法主要包括基于规则和基于学习的方法。基于规则的方法通常为针对某一场景人工设定规则,其中最具代表性的是有限状态机,它可以在不同的驾驶状态之间进行分类和切换,从而适应不同的驾驶场景。随着场景不确定性的增加,人工设定的规则也多种多样,从而导致规则数量庞大,规则库维护困难,因此基于规则的方法难以适应高动态和多样性的环境。基于学习的方法可以分为强化学习和深度强化学习。基于强化学习的方法只能用来解决低维度的状态和动作空间问题,具有很大的局限性且缺乏扩展性。基于深度强化学习的方法将神经网络的特征提取和强化学习的分步决策能力相结合,能够处理高维状态空间,更好地适应高动态和复杂的高维环境。基于深度强化学习构建超车驾驶行为是一种重要的研究途径,其中DDPG算法被广泛应用于无人驾驶领域,优势在于擅长处理连续型动作输出,同时与真实世界中的驾驶动作更加相近。根据真实世界中人类的超车行为可推断出,车辆超车的动作不仅取决于车辆当前时刻的状态,还取决于过去多个历史时刻的状态,即每个时刻的状态之间存在时间序列上的依赖关系。DDPG算法是依靠无人车的当前状态决策出的动作,并未考虑多个时刻的时序依赖性。对此,本发明提出了融合时序信息的基于DDPG的无人驾驶超车决策方法。
发明内容
本发明提出了融合时序信息的基于DDPG的无人驾驶超车决策方法,旨在解决不同时间段的多个状态对车辆动作具有不同程度影响,从而让无人车决策出更精准、更安全的动作控制信号,实现无人车的超车驾驶行为。考虑无人车的时间序列驾驶状态信息的端对端超车决策控制模型如图2所示。
本发明包括以下步骤:
步骤1:融合时序信息的基于DDPG的无人驾驶超车模型的多维状态空间和动作空间的设计。通过结合仿真环境上车辆的运动学和动力学因素分析,无人车的输入状态空间包括车辆速度、车辆与道路中心线的夹角以及车轮转速等信息,接着对输入状态进行维度扩充,然后构建无人车考虑时间序列驾驶状态信息的多维状态矩阵。多维状态矩阵由一段连续时间内多个时刻的状态数据组成,在考虑到多个时刻中距离当前时刻越近,其对无人车决策车辆动作产生影响越大的原因,决定设计一个时间衰减因子权重系数来控制不同时刻的状态空间所占比重不同。最后再对多维状态矩阵进行卷积操作形成带有时间衰减因子的特征图,形成过程如图3所示。无人车的输出动作空间包括油门、转角和刹车三种动作控制信号。
步骤2:融合时序信息的基于DDPG的无人驾驶超车模型的神经网络搭建。超车模型的神经网络由Actor网络μ(s|θμ)、Critic网络Q(s,a|θQ)、Target-Actor网络μ′(s′|θμ′)和Target-Critic网络Q′(s′,a′|θQ′)组成。无人驾驶超车模型的Actor网络负责根据无人车观测的当前状态输出无人车应采取的动作控制信号,无人驾驶超车模型的Target-Actor网络负责根据无人车观测的下一状态输出无人车应采取的目标动作控制信号。无人驾驶超车模型的Critic网络负责估计无人车观测的当前状态与采取的动作时应取得的Q值,无人驾驶超车模型的Target-Critic网络负责估计无人车观测的下一状态与采取的目标动作时应取得的Q值。
步骤3:融合时序信息的基于DDPG的无人驾驶超车模型的训练过程。通过无人车车身传感器获取连续t时刻内的环境状态信息st-1,st-2,…,st-n,处理生成无人车的多维状态空间矩阵,之后输入到超车模型的Actor网络得到无人车应该执行的动作at。然后将动作at交给无人驾驶仿真环境执行后生成无人车面临的新环境状态s′t,并计算无人车所获得的奖励值rt,最后不断地与无人驾驶仿真环境进行交互训练。融合时序信息的基于DDPG的超车模型与环境的交互过程如图4所示。超车模型控制无人车完成超车行为的过程中需要明确一个触发条件和两个关键变量,如图5所示。其中一个触发条件指的是汽车探测到前方有车且自身相对该车处于安全距离内,此时达到触发超车的条件。两个关键变量指的是无人车相对整个车道的横向偏移点位和纵向行驶速度偏移量,横向偏移点位控制无人车在不同车道行驶,纵向行驶速度偏移量控制无人车以不同的目标速度行驶,这两者都为超车模型控制无人车实施超车行为奠定基础。
步骤4:超车模型的学习过程。其学习过程一共分为两个阶段,分别是车道保持和超车阶段。车道保持阶段是无人车在单车环境下学习以恒定速度进行车道保持状态。通过调整横向偏移点位和纵向速度偏移量,同时结合车道保持奖励函数,共同指导无人车不断地学习左右转向和加减速操作,最后达到在不同车道以不同速度进行车道保持行驶的目的。超车阶段是无人车在多车的环境下学习超车行为。这一阶段以车道保持阶段为基础,当无人车前方传感器探测到前方有其它车辆时,则触发超车条件。由于无人车一开始没有超车经验,故会直接与前方车辆发生碰撞。当它在超车奖励函数的指导下经过一段时间的学习后,就能够在安全距离内通过改变横向偏移点位左转进入左车道,并进行车道保持行驶。然后通过更改纵向速度偏移量的值来学习加速超车行为,最后超车完成返回原车道。当无人车在右车道行驶,发现前方车辆后准备进行超车时的流程图如图6所示。
步骤5:融合时序信息的基于DDPG的无人驾驶超车模型的验证过程。对训练好的超车模型在TORCS仿真平台上进行测试,以验证无人车超车模型的控制精准度。
进一步地,步骤3中,超车模型的具体训练流程为:
步骤3.1:加载无人驾驶仿真环境,初始化车辆起始位置,更新无人车的环境状态信息st
步骤3.2:获得无人车在连续t时刻内的环境状态信息st-1,st-2,…,st-n,同时设定一个时间衰减因子权重系数α(0<α<1)。
步骤3.3:把获得的无人车多个状态信息组合形成多维状态矩阵A。
步骤3.4:将该状态矩阵输入到无人驾驶超车模型的Actor网络中,根据时间衰减因子α进行卷积操作形成无人车的多个时间衰减因子特征图Aα
Aα=A*diag(1,α1,α2…αn)          (1)
步骤3.5:然后将多个特征图Aα中的信息进行整合,重新组合成一个特征向量。最后把特征向量转化为一组三维向量,即为无人驾驶超车模型的Actor网络输出的动作at
步骤3.6:对动作at加入噪声N处理,之后把动作at应用到仿真环境上生成无人车的新环境状态信息s′t
at=at+N             (2)
步骤3.7:接着根据奖励函数R计算整体奖励值。其中
Figure BDA0004107617630000031
为无人车的纵向速度奖励函数,Rcollision为判断无人车是否发生碰撞的奖励函数,Rtrack为判断无人车是否冲出车道的奖励函数,Rovertaking为无人车执行超车行为时的奖励函数
Figure BDA0004107617630000032
步骤3.8:最后收集无人车的整体奖励值、新环境状态以及回合结束标志存入经验回放池。
步骤3.9:接着开始更新无人驾驶超车模型的Actor网络和Critic网络。
步骤3.10:首先从经验回放池中随机选取批量大小的样本数据,每个样本数据包括根据时间衰减因子组合成的多维状态矩阵A。
步骤3.11:接着把无人车的多维状态矩阵A和样本数据中的动作at拼接成无人驾驶超车模型的Target-Critic网络的输入状态空间。
步骤3.12:将该状态空间输入无人驾驶超车模型的Target-Critic网络估计出下一状态和动作的最大Q值y,其中γ是奖励衰减因子,rt是奖励值。
y=γQ′(s′t,μ′(s′tμ)|θQ)+rt            (4)
步骤3.13:然后通过最小化损失函数L(θQ)的方式更新无人驾驶超车模型的Critic网络参数θQ
Figure BDA0004107617630000041
步骤3.14:再根据返回的策略梯度
Figure BDA0004107617630000042
更新无人驾驶超车模型的Actor网络参数θμ
Figure BDA0004107617630000043
步骤3.15:之后以滑动平均的方式更新Target-Actor网络参数θμ′和Target-Critic网络参数θQ′,其中τ是滑动系数。
Figure BDA0004107617630000045
步骤3.16:最后保存无人驾驶超车模型的Actor网络和Critic网络模型。至此,融合时序信息的基于DDPG的无人驾驶超车模型训练完成。
进一步地,无人车的多维状态输入矩阵包括多个连续时刻的环境状态信息st,每一环境状态又包括车辆速度、车辆与道路中心线的夹角以及车轮转速等信息。
进一步地,无人车的动作空间at包括油门、转角和刹车三种动作控制信号。
进一步地,无人车的整体奖励函数R包括速度奖励函数
Figure BDA0004107617630000044
碰撞奖励函数Rcollision、回合终止奖励函数Rtrack和超车奖励函数Rovertaking
与现有的方法相比,本发明提出的融合时序信息的基于DDPG的无人驾驶超车决策方法具有更精准的动作控制效果,相较于单个状态决策的动作能够更好地控制无人车完成超车任务。
附图说明
图1为本发明的模型整体结构图
图2为本发明的融合时序信息的端对端超车模型图
图3为本发明的时间衰减因子特征图
图4为本发明的超车模型与仿真环境交互图
图5为本发明的超车触发条件和关键变量示意图
图6为本发明的超车行为流程图
具体实施方式
为了使本发明的目的,发明内容及优点更加清楚明白,以及结合附图对本发明作进一步的详细说明。实施案例中超车行为的执行流程以及网络模型的决策和更新过程的具体步骤如下:
步骤1:首先是无人车进行超车行为的执行流程。开始加载无人驾驶仿真环境,初始化车辆起始位置,更新无人车的环境状态信息。
步骤2:搭建融合时序信息的基于DDPG的无人驾驶超车模型的神经网络。超车模型的神经网络由Actor网络μ(s|θμ)、Critic网络Q(s,a|θQ)、Target-Actor网络μ′(s′|θμ′)和Target-Critic网络Q′(s′,a′|θQ′)组成。无人驾驶超车模型的Actor网络和Target-Actor网络是相同的,都由两层全连接网络组成,两层隐藏层均含有Relu激活函数,输出层含有Tanh和Sigmoid激活函数。Actor网络负责根据无人车观测的当前状态输出无人车应采取的动作控制信号,Target-Actor网络负责根据无人车观测的下一状态输出无人车应采取的目标动作控制信号。无人驾驶超车模型的Critic和Target-Critic网络相同,都由三层全连接网络组成,且只在第一层和第三层隐藏层含有Relu激活函数,其他层没有任何激活函数。Critic网络负责估计无人车观测的当前状态与采取的动作时应取得的Q值,Target-Critic网络负责估计无人车观测的下一状态与采取的目标动作时应取得的Q值。
步骤3:初始化无人驾驶超车模型的神经网络参数、经验回放池Replay Buffer和随机噪声N等。
步骤4:与仿真环境交互,收集无人车的多个时间序列驾驶状态信息存入经验回放池。
步骤5:将无人车的多个状态组合成多维状态矩阵A。
步骤6:将无人车的多维状态矩阵A作为环境状态空间输入到无人驾驶超车模型的Actor网络中。
步骤7:无人驾驶超车模型的Actor网络则进行状态处理,根据时间衰减因子α对多维状态矩阵A进行卷积操作,形成多个时间衰减因子特征图Aα,如图2所示。
步骤8:将多个特征图中的信息进行整合,重新组合成一个特征向量。
步骤9:此特征向量经过全连接操作转化为一组三维向量,即为无人驾驶超车模型的Actor网络输出的无人车的具体动作。
步骤10:再将此动作加入噪声N处理,变成带有噪声的动作at
步骤11:把噪声处理的动作at应用到TORCS仿真环境上,生成无人车的新环境观测信息s′t
步骤12:根据无人车的纵向速度奖励函数
Figure BDA0004107617630000061
计算速度奖励值r1
步骤13:判断此时无人车与其他车的安全距离是否触发超车条件,是否应执行超车行为流程。
步骤14:若达到超车条件,则超车模型开始控制无人车实施超车操作,如图6所示。
步骤15:根据无人车进行超车时的奖励函数Rovwrtaking开始计算无人车超车时的奖励值r2
步骤16:通过更改无人车横向偏移点位的值,控制无人车执行左转操作进入超车道中行驶。
步骤17:通过更改无人车纵向速度偏移量的值,控制无人车执行加速操作超越同侧车道中的车辆。
步骤18:在无人车超车完成后,超车模型控制无人车返回原车道行驶。
步骤19:同时更改无人车的纵向速度偏移量,控制无人车在原车道减速继续进行车道保持行驶。
步骤20:根据无人车的碰撞奖励函数Rcollision计算无人车在超车过程中是否发生碰撞的奖励值r3
步骤21:根据无人车的回合终止奖励函数Rtrack计算无人车在行驶过程中是否发生卡在轨道不动或冲出轨道的奖励值r4
步骤22:对无人车所获得的奖励值进行整合,得到整体奖励值Reward=r1+r2+r3+r4
步骤23:收集无人车的整体奖励值Reward、新环境状态s′t、回合结束标志done存入经验回放池。
步骤24:至此一次完整的融合时序信息的基于DDPG的无人驾驶超车模型控制无人车执行超车行为的流程完成,接着是超车模型中的神经网络决策和更新过程。
步骤25:从无人驾驶超车模型的经验回放池中随机选取批量大小的样本数据,每个样本数据包括根据时间衰减因子组合成的多维状态矩阵R。
步骤26:接着把无人车的多维状态矩阵A和样本数据中的动作at拼接成无人驾驶超车模型的Target-Critic网络的输入状态空间。
步骤27:将该状态空间输入无人驾驶超车模型的Target-Critic网络估计出下一状态和动作的最大Q值y。
步骤28:然后通过最小化损失函数L(θQ)的方式更新无人驾驶超车模型的Critic网络参数θQ
步骤29:再根据返回的策略梯度
Figure BDA0004107617630000071
更新无人驾驶超车模型的Actor网络参数θμ
步骤30:之后以滑动平均的方式更新无人驾驶超车模型的Target-Actor网络参数θμ′和Target-Critic网络参数θQ′
步骤31:最后将无人驾驶超车模型的Actor网络和Critic网络进行保存。
本发明的实施案例中,选用Ubuntu服务器上搭建的单向双车道的无人驾驶仿真平台超车场景作为无人车完成超车操作的条件。融合时序信息的基于DDPG的无人驾驶超车模型在达到超车条件时,通过结合无人车的横向偏移点位和纵向速度偏移量两个变量控制无人车实施超车行为,顺利展现了融合时序信息的基于DDPG的无人驾驶超车模型的决策控制过程。最后在TORCS仿真平台的E-track5地图上进行实验测试,表明无人车能够在无碰撞的条件下安全、精准地完成超车任务。

Claims (5)

1.融合时序信息的基于DDPG的无人驾驶超车决策方法,其特征在于,包括以下步骤:
步骤1:融合时序信息的基于DDPG的无人驾驶超车模型的多维状态空间和动作空间的设计;通过结合仿真环境上车辆的运动学和动力学因素分析,无人车的输入状态空间包括车辆速度、车辆与道路中心线的夹角以及车轮转速等信息,接着对输入状态进行维度扩充,然后构建考虑时间序列驾驶状态信息的多维状态矩阵;无人车的输出动作空间包括油门、转角和刹车三种动作控制信号;
步骤2:融合时序信息的基于DDPG的无人驾驶超车模型的神经网络搭建;超车模型的神经网络由Actor网络μ(s|θμ)、Critic网络Q(s,a|θQ)、Target-Actor网络μ′(s′|θμ′)和Target-Critic网络Q′(s′,a′|θQ′)组成;无人驾驶超车模型的Actor网络负责根据无人车观测的当前状态输出无人车应采取的动作控制信号,无人驾驶超车模型的Target-Actor网络负责根据无人车观测的下一状态输出无人车应采取的目标动作控制信号;无人驾驶超车模型的Critic网络负责估计无人车观测的当前状态与采取的动作时应取得的Q值,无人驾驶超车模型的Target-Critic网络负责估计无人车观测的下一状态与采取的目标动作时应取得的Q值;
步骤3:融合时序信息的基于DDPG的无人驾驶超车模型的训练过程;通过无人车车身传感器获取连续t时刻内的环境状态信息st-1,st-2,…,st-n,处理生成无人车的多维状态空间矩阵,之后输入到超车模型的Actor网络得到无人车应该执行的动作at;然后将动作at交给无人驾驶仿真环境执行后生成无人车面临的新环境状态s′t,并计算无人车所获得的奖励值rt,最后不断地与无人驾驶仿真环境进行交互训练;
步骤4:融合时序信息的基于DDPG的无人驾驶超车模型的学习过程;其学习过程一共分为两个阶段,分别是车道保持和超车阶段;车道保持阶段是超车模型控制的无人车在单车环境下学习以恒定速度进行车道保持状态;超车阶段是超车模型控制的无人车在多车的环境下学习超车行为;
步骤5:融合时序信息的基于DDPG的无人驾驶超车模型的验证过程;对训练好的超车模型在TORCS仿真平台上进行测试,以验证无人车超车模型的控制精准度。
2.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法,其特征在于,在步骤3中,无人驾驶超车模型与环境交互的训练流程为:
第一步,初始化无人驾驶场景中的车辆起始位置,更新环境状态信息st
第二步,获得连续多个t时刻内的环境状态信息st-1,st-2,…,st-n,同时设定一个时间衰减因子权重系数α,0<α<1;
第三步,将所获得的无人车的多个状态组合形成一个多维状态矩阵A;
第四步,将该状态矩阵输入到无人驾驶超车模型的Actor网络中,根据时间衰减因子α进行卷积操作形成无人车的多个时间衰减因子特征图Aα
第五步,然后将多个特征图Aα中的信息进行整合,重新组合成一个特征向量;最后把特征向量转化为一组三维向量,即为无人驾驶超车模型的Actor网络输出的无人车应执行的动作at
第六步,对动作at加入噪声N处理,之后把动作at应用到无人驾驶仿真环境上生成无人车的新环境状态信息s′t
第七步,接着根据设定的无人车整体奖励函数R计算其整体奖励值;
第八步,最后收集无人车的整体奖励值、新环境状态、回合结束标志存入无人车超车模型的经验回放池;
第九步,接着开始更新无人驾驶超车模型的Actor网络和Critic;
第十步,首先从经验回放池中随机选取批量大小的样本数据,每个样本数据包括根据时间衰减因子组合成的多维状态矩阵A;
第十一步,接着把无人车的多维状态矩阵A和样本数据中的动作at拼接成无人驾驶超车模型的Target-Critic网络的输入状态空间;
第十二步,将该状态空间输入无人驾驶超车模型的Target-Critic网络估计出无人车的下一状态和动作的最大Q值;
第十三步,然后通过最小化损失函数的方式更新无人驾驶超车模型的Critic网络参数θQ
第十四步,再根据策略梯度更新无人驾驶超车模型的Actor网络参数θμ
第十五步,之后以滑动平均的方式更新无人驾驶超车模型的Target-Actor网络参数θμ′和Target-Critic网络参数θQ′
第十六步,最后保存无人驾驶超车模型的Actor网络和Critic网络模型;至此,融合时序信息的基于DDPG的无人驾驶超车决策控制模型训练完成。
3.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法,其特征在于,无人车的多维状态输入矩阵包括多个连续时刻的环境状态信息st,每一状态又包括车辆速度、车辆与道路中心线的夹角以及车轮转速。
4.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法,其特征在于,无人车的动作空间at包括油门、转角和刹车三种动作控制信号。
5.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法,其特征在于,无人车的整体奖励函数R包括速度奖励函数
Figure FDA0004107617610000021
碰撞奖励函数Rcollision、回合终止奖励函数Rtrack和超车奖励函数Rovertaking
CN202310197273.9A 2023-03-03 2023-03-03 融合时序信息的基于ddpg的无人驾驶超车决策方法 Pending CN116127853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310197273.9A CN116127853A (zh) 2023-03-03 2023-03-03 融合时序信息的基于ddpg的无人驾驶超车决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310197273.9A CN116127853A (zh) 2023-03-03 2023-03-03 融合时序信息的基于ddpg的无人驾驶超车决策方法

Publications (1)

Publication Number Publication Date
CN116127853A true CN116127853A (zh) 2023-05-16

Family

ID=86297539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310197273.9A Pending CN116127853A (zh) 2023-03-03 2023-03-03 融合时序信息的基于ddpg的无人驾驶超车决策方法

Country Status (1)

Country Link
CN (1) CN116127853A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881853A (zh) * 2023-09-08 2023-10-13 小舟科技有限公司 基于多模态融合的注意力评估方法、***、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881853A (zh) * 2023-09-08 2023-10-13 小舟科技有限公司 基于多模态融合的注意力评估方法、***、设备及介质
CN116881853B (zh) * 2023-09-08 2024-01-05 小舟科技有限公司 基于多模态融合的注意力评估方法、***、设备及介质

Similar Documents

Publication Publication Date Title
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN112232490B (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN110992695B (zh) 基于冲突消解的车辆城市交叉口通行决策多目标优化方法
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN114312830B (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN112034887A (zh) 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN110525428B (zh) 一种基于模糊深度强化学习的自动泊车方法
CN115469663B (zh) 面向自动驾驶的基于深度强化学习的端到端导航避障方法
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN114564016A (zh) 一种结合路径规划和强化学习的导航避障控制方法、***及模型
CN113581182B (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及***
CN113311828B (zh) 一种无人车局部路径规划方法、装置、设备及存储介质
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN112784485A (zh) 一种基于强化学习的自动驾驶关键场景生成方法
CN116127853A (zh) 融合时序信息的基于ddpg的无人驾驶超车决策方法
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制***及方法
Chen et al. Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization
CN114973650A (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
Schütt et al. An application of scenario exploration to find new scenarios for the development and testing of automated driving systems in urban scenarios
CN113033902A (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
CN116629114A (zh) 多智能体的模型训练方法、***、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination