CN112508164A - 一种基于异步监督学习的端到端自动驾驶模型预训练方法 - Google Patents
一种基于异步监督学习的端到端自动驾驶模型预训练方法 Download PDFInfo
- Publication number
- CN112508164A CN112508164A CN202010727803.2A CN202010727803A CN112508164A CN 112508164 A CN112508164 A CN 112508164A CN 202010727803 A CN202010727803 A CN 202010727803A CN 112508164 A CN112508164 A CN 112508164A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- training
- model
- strategy
- automatic driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Transportation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Mechanical Engineering (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
Abstract
一种基于异步监督学***稳性,加速预训练过程收敛。端到端自动驾驶模型经过采集自现实世界的专家演示数据预训练后,可提升后续实车强化学习训练阶段模型初始性能并加速其收敛。此外,本发明提出了一种面向端到端自动驾驶模型训练过程的可视化分析方法,以从微观角度分析基于异步监督学习的预训练方法所带来的模型性能改进。本发明设计了一种多车分布式强化学习驱动自动驾驶模型训练***,用以采集专家演示数据并验证本发明所提出的预训练方法在现实世界中应用的可行性。
Description
技术领域
本发明涉及交通领域,特别涉及一种自动驾驶车辆的端到端模型预训练方法。
技术背景
当前自动驾驶面临一个巨大挑战:传统自动驾驶***结构过于庞大复杂。为尽可能完善自动驾驶***,以适应不同工况的需求,传统自动驾驶***不可避免因完善逻辑而导致***结构庞大复杂。过于复杂的传统自动驾驶***面临算法臃肿、性能受限和决策矛盾这三大问题:
(1)算法臃肿:传统自动驾驶***需要人工设定规则库以泛化无人车行驶状态,随着行驶环境场景的增多与复杂,算法规模也不断庞大;
(2)性能受限:其***结构决定了其在场景遍历深度、决策正确率上存在一定的瓶颈,难以处理复杂工况;
(3)决策矛盾:传统自动驾驶***采用有限状态机在不同状态下切换驾驶行为,而有限状态机的状态划分需要依据明确的边界条件。实际上驾驶行为间存在某些“灰色地带”,即同一场景下可能有1个以上合理的行为选择,使驾驶状态存在冲突。
深度强化学习(Deep Reinforcement Learning,Deep RL)的广泛成功使得DeepRL开始被越来越多地应用于端到端自动驾驶模型的训练。基于学习的算法舍弃了规则算法的层级架构,更加简洁直接,大幅简化了决策***结构。Deep RL模型训练过程中通过循环状态观察-动作执行-奖励获取的过程,只需要很少的先验知识就可以建立环境状态与最佳动作之间的映射关系。但是,正是由于缺乏先验知识,Deep RL的初始性能很差,因此在训练实际可落地应用的自动驾驶模型的过程中,Deep RL存在训练时间长(需要过多现实世界经验)的问题。在模拟仿真环境中,Deep RL模型初始性能差的缺点可以被容忍。但是,如果需要在真实世界中常态化运行基于Deep RL模型的自动驾驶车辆,则不可避免地需要使用真实车辆在现实世界中训练基于Deep RL的自动驾驶模型。在这种情况下,不佳的初始性能意味着真实的车辆会频繁在现实世界发生碰撞或为了避免危险被人为频繁介入中断训练,这些都将极大增加测试人员的工作量和训练时的危险性。因此为了在实际的自动驾驶车辆上部署基于Deep RL的端到端自动驾驶模型,Deep RL模型初始性能差的问题必须得到解决。
本发明考虑在Deep RL模型的训练中引入先验知识,以解决在真实世界中进行Deep RL 模型训练时初始性能差的问题。本发明为连续动作Deep RL模型提出了一种异步监督学习方法,该方法在多个采集自真实世界的训练数据集上并行异步执行多个监督学习过程。通过在不同线程中运行不同的监督学习过程,实现多个代理对模型参数并行异步在线更新,相比单个代理的参数更新过程,策略探索的时间相关性会大幅降低,从而使得监督学习过程更加稳定。为了避免收集耗时耗力的人类专家驾驶演示数据,本发明还使用一种人工设计的启发式驾驶策略(Manually Designed Heuristic Driving Policy,MDHDP),借助MDHDP驱动车辆产生高奖励经验数据作为专家演示,形成监督学习训练数据集。为了从微观角度直观分析预训练过程所带来的改进,本发明提出了一种适合基于连续动作Deep RL模型的可视化方法,这种可视化分析方法对于测试和验证连续输出神经网络模型具有重要意义。最后本发明设计了一种多车分布式强化学习驱动自动驾驶模型训练***,用以采集专家演示数据并验证本发明所提出的预训练方法在现实世界中应用的可行性。
发明内容
本发明所要解决的技术问题是提供一种端到端自动驾驶模型预训练方法,以解决在真实世界中训练强化学习驱动端到端自动驾驶模型时初始性能差、模型收敛慢的问题。
本发明解决其技术问题所采用的技术方案是:设计一种基于异步监督学***稳性,加速预训练过程收敛。端到端自动驾驶模型经过采集自现实世界的专家演示数据预训练后,可提升后续实车强化学习训练阶段模型初始性能并加速其收敛。此外,本发明为从微观角度分析所提出的预训练方法的有效性,配套提出了一种面向端到端自动驾驶模型训练过程的可视化分析方法。为了避免收集耗时耗力的人类专家驾驶演示数据,本发明还使用一种人工设计的启发式驾驶策略(Manually DesignedHeuristic Driving Policy, MDHDP),借助MDHDP驱动车辆产生高奖励经验数据作为专家演示,形成监督学习训练数据集。最后本发明为验证所提出的预训练方法在现实世界中应用的可行性,配套设计了一种多车分布式强化学习驱动自动驾驶模型训练***。
一种基于异步监督学***稳性,加速预训练过程收敛。
所述演示数据集是通过人工设计的启发式策略π′i驱动数据采集车i采集的,π′i基于预瞄理论设计如下:确定车轮转角并确定刹车和油门量,确定车轮转角为采集车i根据当前本车车速vit及前车位置确定车轮转角具体步骤为:
(1)采集车i根据当前车速vit和位置E(xit,yit)确定预瞄点F(x′it,y′it)
lEF=L+vit×Δt式中L是固定预瞄距离,Δt是预瞄系数;
(2)计算指向预瞄点F的转角
(3)根据前车j的位置与速度修正转角以避免碰撞
式中W=D/C,D是前车j与采集车i的横向距离,C是侧面碰撞安全阈值;
式中g是重力加速度,u是摩擦系数,M为车质量,CA是下压力系数,ρ是路段rt的曲率;
折扣系数γ:γ∈[0,1],用以平衡当前损失和长期损失。
所述的预训练过程为:
其中Π是随机策略的集合。
式中θ′和θ′v分别为线程相关参数,θ和θv为全局共享参数。
一种针对训练方法提出的面向端到端自动驾驶模型训练过程的可视化分析方法,所述的可视化分析方法基于单变量分析法设计得到,具体而言,在保持输入模型的图像中其他像素不变的情况下,改变某一像素o的值,改变幅度为Δo,对于神经网络中某层的输出影响如下:
所述端到端自动驾驶模型注意力热力图中的像素数与输入模型的图像的像素数一致,热力图中以特殊高亮的形式显示对模型输出结果有重大影响的图像区域,可以从微观角度检查模型的关注区域是否是与驾驶决策相关的区域,验证模型训练的有效性。
一种多车分布式强化学习驱动自动驾驶模型训练***,训练***由多辆机器人小车、建筑物模型、路面贴图等组成,包括策略学习场景,策略验证场景和UWB定位-强化学习奖励***,所述策略学习场景中的机器人小车作为强化学习训练过程中驾驶策略的学习者,多辆小车分布式探索环境,并行异步执行演员-评论家网络参数更新任务。
所述的策略验证场景中的机器人小车继承其他小车并行异步更新的全局驾驶策略,并在策略验证场景中行驶,UWB定位-强化学习奖励***给定奖励,策略验证小车记录得分。
所述的UWB定位-强化学习奖励***根据绑定在机器人小车上的UWB定位标签确定小车的位置,根据强化学习奖励函数给定策略学习和策略验证小车强化学习训练过程中实时获得的奖励。
本发明与现有技术相比,具有以下优点和积极效果:本发明针对现在强化学习驱动端到端自动驾驶模型存在的初始性能差、收敛速度慢的问题,提出以基于异步监督学习的端到端自动驾驶模型预训练方法为核心的端到端自动驾驶模型预训练、效果分析、落地验证一系列方法,很好地解决了这种强化学习驱动端到端自动驾驶模型难以落地部署的问题,将极大促进学习驱动的端到端自动驾驶技术发展,助力我国自动驾驶技术发展。所以综合而言,本方法对于提高车辆端到端自动驾驶***的总体性能具有极大的意义。
附图说明
图1是端到端自动驾驶模型结构图;
图2是异步监督学习方法理论架构图;
图3是多车分布式强化学习驱动自动驾驶模型训练***架构图;
图4是可视化分析方法示例。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明做各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本发明所使用的端到端自动驾驶模型如图1所示,模型的输入是四幅经过预处理的前置摄像头所拍摄的行车图像,第一层卷积层包含32个步幅为4尺寸为4×8×8的卷积核,紧接着后面一个卷积层包含32个步长为2尺寸为32×4×4的卷积核,紧接着后面一个卷积层包含32个步长为1尺寸为32×3×3的卷积核,最后是一个具有256个隐藏单元的全连接层。这四个隐藏层后面都带有激活层修正线性单元(ReLU,rectified linear units)。图1中的神经网络具有两组输出:两个线性输出用于表示模型输出动作的正态分布的均值和方差;一个线性输出用于表示值函数
预训练过程建模
折扣系数γ:γ∈[0,1],用以平衡当前损失和长期损失。
问题公式推导
根据预训练过程模型,我们进一步推导预训练过程的问题公式:
其中Π是随机策略的集合。
预训练演示数据采集
预训练所使用的演示数据集是通过人工设计的启发式策略π′i驱动数据采集车i采集的,π′i基于预瞄理论设计如下:
车轮转角:采集车i根据当前本车车速vit及前车位置确定车轮转角
(1)采集车i根据当前车速vit和位置E(xit,yit)确定预瞄点F(x′it,y′it)
lEF=L+vit×Δt
式中L是固定预瞄距离,Δt是预瞄系数;
(2)计算指向预瞄点F的转角
(3)根据前车j的位置与速度修正转角以避免碰撞
式中W=D/C,D是前车j与采集车i的横向距离,C是侧面碰撞安全阈值。
式中g是重力加速度,u是摩擦系数,M为车质量,CA是下压力系数,ρ是路段rt的曲率;
异步监督学习方法
式中θ′和θ′v分别为线程相关参数,θ和θv为全局共享参数。在多个预训练演示数据集上以并行和异步方式执行多个监督学习过程,即为异步监督学习方法。
可视化分析
式中并且如果则 和分别为这一层的权重和偏置参数。最后得到输入模型的图像中每个像素对模型最后输出的影响,绘制得到端到端自动驾驶模型注意力热力图。端到端自动驾驶模型注意力热力图中的像素数与输入模型的图像的像素数一致,热力图中以特殊高亮的形式显示对模型输出结果有重大影响的图像区域,可以从微观角度检查模型的关注区域是否是与驾驶决策相关的区域,验证模型训练的有效性。比如如果高亮区域处于输入图像中的天空、路旁建筑物等位置,则可以推断模型训练出现了问题,而如果高亮区域位于图像中的路面,其他车辆等位置,则可知训练是有效的。
多车分布式强化学习驱动自动驾驶模型训练***
为验证预训练方法在现实世界中的工程可行性,本发明提出一种由多辆机器人小车、建筑物模型、路面贴图等组成,包括策略学习场景,策略验证场景和UWB定位-强化学习奖励***的多车分布式强化学习驱动自动驾驶模型训练***。策略学习场景中的机器人小车作为强化学习训练过程中驾驶策略的学习者,多辆小车分布式探索环境,并行异步执行演员-评论家网络参数更新任务。策略验证场景中的机器人小车继承其他小车并行异步更新的全局驾驶策略,并在策略验证场景中行驶,UWB定位-强化学习奖励***给定奖励,策略验证小车记录得分。UWB定位-强化学习奖励***根据绑定在机器人小车上的UWB定位标签确定小车的位置,根据强化学习奖励函数给定策略学习和策略验证小车强化学习训练过程中实时获得的奖励。
本实施例中对于本发明所提异步监督学***稳性,加速预训练过程收敛。端到端自动驾驶模型经过采集自现实世界的专家演示数据预训练后,可提升后续实车强化学习训练阶段模型初始性能并加速其收敛。
本实施例中对于本发明所提多车分布式强化学习驱动自动驾驶模型训练***,其架构图如图3所示,包含2个策略学习场景,1个策略验证场景,和UWB定位-强化学习奖励***。实车训练***搭建完成后,通过本发明所提出的人工设计的启发式策略π′i驱动机器人小车在策略学习场景中采集演示数据,构建预训练演示数据集Ω。接着基于数据集Ω采用异步监督学习方法预训练端到端自动驾驶模型,预训练完成后,将模型部署于机器人小车,在实车训练***中开展后续的强化学习训练。
可能会存在一种现象是,训练的样本是有偏差的,导致训练的模型其实并不是用于解决所需要解决的问题。从宏观上基于现有训练数据难以分析,这时候就需要从微观角度判断模型是否对输入图像中的正确位置有反应。因此本发明基于单因素分析法设计训练效果可视化分析方法,通过对输入图像的每个像素依次做出细微改变,观察模型输出的变化,得到模型对各个像素的“重视度”,并绘制成端到端自动驾驶模型敏感区域热力图。如图4所示是一个示例,比如改变左侧蓝色方块的像素,输入模型后可以得到不同的结果,这个差异就是这个像素对于模型输出的重要度,得到各个像素的重要度就能绘制热力图。
Claims (10)
1.一种基于异步监督学***稳性,加速预训练过程收敛。
2.根据权利要求1所述的方法,其特征在于,所述演示数据集是通过人工设计的启发式策略π′i驱动数据采集车i采集的,π′i基于预瞄理论设计如下:确定车轮转角并确定刹车和油门量,确定车轮转角为采集车i根据当前本车车速vit及前车位置确定车轮转角具体步骤为:
(1)采集车i根据当前车速vit和位置E(xit,yit)确定预瞄点F(x′it,y′it)
lEF=L+vit×Δt式中L是固定预瞄距离,Δt是预瞄系数;
(2)计算指向预瞄点F的转角
(3)根据前车j的位置与速度修正转角以避免碰撞
式中W=D/C,D是前车j与采集车i的横向距离,C是侧面碰撞安全阈值;
式中g是重力加速度,u是摩擦系数,M为车质量,CA是下压力系数,ρ是路段rt的曲率;
7.根据权利要求6所述的训练方法,其特征在于,所述端到端自动驾驶模型注意力热力图中的像素数与输入模型的图像的像素数一致,热力图中以特殊高亮的形式显示对模型输出结果有重大影响的图像区域,可以从微观角度检查模型的关注区域是否是与驾驶决策相关的区域,验证模型训练的有效性。
8.一种针对权利要求1所述的基于异步监督学习的端到端自动驾驶模型预训练方法提出的多车分布式强化学习驱动自动驾驶模型训练***,其特征在于,训练***由多辆机器人小车、建筑物模型、路面贴图等组成,包括策略学习场景,策略验证场景和UWB定位-强化学习奖励***,所述策略学习场景中的机器人小车作为强化学习训练过程中驾驶策略的学习者,多辆小车分布式探索环境,并行异步执行演员-评论家网络参数更新任务。
9.根据权利要求8所述的训练***,其特征在于,所述的策略验证场景中的机器人小车继承其他小车并行异步更新的全局驾驶策略,并在策略验证场景中行驶,UWB定位-强化学习奖励***给定奖励,策略验证小车记录得分。
10.根据权利要求8所述的训练***,其特征在于,所述的UWB定位-强化学习奖励***根据绑定在机器人小车上的UWB定位标签确定小车的位置,根据强化学习奖励函数给定策略学习和策略验证小车强化学习训练过程中实时获得的奖励。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727803.2A CN112508164B (zh) | 2020-07-24 | 2020-07-24 | 一种基于异步监督学习的端到端自动驾驶模型预训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727803.2A CN112508164B (zh) | 2020-07-24 | 2020-07-24 | 一种基于异步监督学习的端到端自动驾驶模型预训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112508164A true CN112508164A (zh) | 2021-03-16 |
CN112508164B CN112508164B (zh) | 2023-01-10 |
Family
ID=74953327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010727803.2A Active CN112508164B (zh) | 2020-07-24 | 2020-07-24 | 一种基于异步监督学习的端到端自动驾驶模型预训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508164B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449823A (zh) * | 2021-08-31 | 2021-09-28 | 成都深蓝思维信息技术有限公司 | 自动驾驶模型训练方法及数据处理设备 |
CN113561986A (zh) * | 2021-08-18 | 2021-10-29 | 武汉理工大学 | 自动驾驶汽车决策方法及装置 |
CN113743469A (zh) * | 2021-08-04 | 2021-12-03 | 北京理工大学 | 一种融合多源数据及综合多维指标的自动驾驶决策方法 |
CN114895560A (zh) * | 2022-04-25 | 2022-08-12 | 浙江大学 | 一种电动机堵转条件下足式机器人物体追踪自适应控制方法 |
AT526259A1 (de) * | 2022-06-23 | 2024-01-15 | Avl List Gmbh | Verfahren zum Trainieren eines künstlichen neuronalen Netzes eines Fahrermodells |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492763A (zh) * | 2018-09-17 | 2019-03-19 | 同济大学 | 一种基于强化学习网络训练的自动泊车方法 |
CN110291477A (zh) * | 2016-12-02 | 2019-09-27 | 斯塔斯凯机器人公司 | 车辆控制***及使用方法 |
-
2020
- 2020-07-24 CN CN202010727803.2A patent/CN112508164B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110291477A (zh) * | 2016-12-02 | 2019-09-27 | 斯塔斯凯机器人公司 | 车辆控制***及使用方法 |
CN109492763A (zh) * | 2018-09-17 | 2019-03-19 | 同济大学 | 一种基于强化学习网络训练的自动泊车方法 |
Non-Patent Citations (1)
Title |
---|
YUN-PENG WANG: "Cooperative channel assignment for VANETs based on multiagent reinforcement learning", 《FRONTIERS OF INFORMATION TECHNOLOGY & ELECTRONIC ENGINEERING》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743469A (zh) * | 2021-08-04 | 2021-12-03 | 北京理工大学 | 一种融合多源数据及综合多维指标的自动驾驶决策方法 |
CN113743469B (zh) * | 2021-08-04 | 2024-05-28 | 北京理工大学 | 一种融合多源数据及综合多维指标的自动驾驶决策方法 |
CN113561986A (zh) * | 2021-08-18 | 2021-10-29 | 武汉理工大学 | 自动驾驶汽车决策方法及装置 |
CN113561986B (zh) * | 2021-08-18 | 2024-03-15 | 武汉理工大学 | 自动驾驶汽车决策方法及装置 |
CN113449823A (zh) * | 2021-08-31 | 2021-09-28 | 成都深蓝思维信息技术有限公司 | 自动驾驶模型训练方法及数据处理设备 |
CN114895560A (zh) * | 2022-04-25 | 2022-08-12 | 浙江大学 | 一种电动机堵转条件下足式机器人物体追踪自适应控制方法 |
CN114895560B (zh) * | 2022-04-25 | 2024-03-19 | 浙江大学 | 一种电动机堵转条件下足式机器人物体追踪自适应控制方法 |
AT526259A1 (de) * | 2022-06-23 | 2024-01-15 | Avl List Gmbh | Verfahren zum Trainieren eines künstlichen neuronalen Netzes eines Fahrermodells |
Also Published As
Publication number | Publication date |
---|---|
CN112508164B (zh) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112508164B (zh) | 一种基于异步监督学习的端到端自动驾驶模型预训练方法 | |
JP7287707B2 (ja) | 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム | |
CN108227710A (zh) | 自动驾驶控制方法和装置、电子设备、程序和介质 | |
US11474529B2 (en) | System and method for motion planning of an autonomous driving machine | |
CN111222630A (zh) | 一种基于深度强化学习的自主驾驶规则学习方法 | |
Hu et al. | Learning a deep cascaded neural network for multiple motion commands prediction in autonomous driving | |
CN112784485B (zh) | 一种基于强化学习的自动驾驶关键场景生成方法 | |
Huang et al. | Deductive reinforcement learning for visual autonomous urban driving navigation | |
Siebinga et al. | A human factors approach to validating driver models for interaction-aware automated vehicles | |
CN116134292A (zh) | 用于性能测试和/或训练自动驾驶车辆规划器的工具 | |
Sun et al. | Human-like highway trajectory modeling based on inverse reinforcement learning | |
Kim et al. | An open-source low-cost mobile robot system with an RGB-D camera and efficient real-time navigation algorithm | |
CN115062202A (zh) | 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质 | |
Hao et al. | Aggressive lane-change analysis closing to intersection based on UAV video and deep learning | |
Wang et al. | Pre-training with asynchronous supervised learning for reinforcement learning based autonomous driving | |
CN116300944A (zh) | 基于改进Double DQN的自动驾驶决策方法及*** | |
CN115981302A (zh) | 车辆跟驰换道行为决策方法、装置及电子设备 | |
WO2021258847A1 (zh) | 一种驾驶决策方法、装置及芯片 | |
CN115031753A (zh) | 基于安全势场和dqn算法的行车工况局部路径规划方法 | |
Mohammed et al. | Reinforcement learning and deep neural network for autonomous driving | |
Liu et al. | Enhancing Social Decision-Making of Autonomous Vehicles: A Mixed-Strategy Game Approach With Interaction Orientation Identification | |
Wu et al. | Learning driving behavior for autonomous vehicles using deep learning based methods | |
Tan et al. | RCP‐RF: A comprehensive road‐car‐pedestrian risk management framework based on driving risk potential field | |
Bhattacharyya | Modeling Human Driving from Demonstrations | |
US20240157978A1 (en) | Mixed reality simulation for autonomous systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |