CN112508164A - 一种基于异步监督学习的端到端自动驾驶模型预训练方法 - Google Patents

一种基于异步监督学习的端到端自动驾驶模型预训练方法 Download PDF

Info

Publication number
CN112508164A
CN112508164A CN202010727803.2A CN202010727803A CN112508164A CN 112508164 A CN112508164 A CN 112508164A CN 202010727803 A CN202010727803 A CN 202010727803A CN 112508164 A CN112508164 A CN 112508164A
Authority
CN
China
Prior art keywords
vehicle
training
model
strategy
automatic driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010727803.2A
Other languages
English (en)
Other versions
CN112508164B (zh
Inventor
田大新
郑坤贤
段续庭
周建山
韩旭
郎平
林椿眄
赵元昊
郝威
龙科军
刘赫
拱印生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010727803.2A priority Critical patent/CN112508164B/zh
Publication of CN112508164A publication Critical patent/CN112508164A/zh
Application granted granted Critical
Publication of CN112508164B publication Critical patent/CN112508164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Transportation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mechanical Engineering (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于异步监督学***稳性,加速预训练过程收敛。端到端自动驾驶模型经过采集自现实世界的专家演示数据预训练后,可提升后续实车强化学习训练阶段模型初始性能并加速其收敛。此外,本发明提出了一种面向端到端自动驾驶模型训练过程的可视化分析方法,以从微观角度分析基于异步监督学习的预训练方法所带来的模型性能改进。本发明设计了一种多车分布式强化学习驱动自动驾驶模型训练***,用以采集专家演示数据并验证本发明所提出的预训练方法在现实世界中应用的可行性。

Description

一种基于异步监督学习的端到端自动驾驶模型预训练方法
技术领域
本发明涉及交通领域,特别涉及一种自动驾驶车辆的端到端模型预训练方法。
技术背景
当前自动驾驶面临一个巨大挑战:传统自动驾驶***结构过于庞大复杂。为尽可能完善自动驾驶***,以适应不同工况的需求,传统自动驾驶***不可避免因完善逻辑而导致***结构庞大复杂。过于复杂的传统自动驾驶***面临算法臃肿、性能受限和决策矛盾这三大问题:
(1)算法臃肿:传统自动驾驶***需要人工设定规则库以泛化无人车行驶状态,随着行驶环境场景的增多与复杂,算法规模也不断庞大;
(2)性能受限:其***结构决定了其在场景遍历深度、决策正确率上存在一定的瓶颈,难以处理复杂工况;
(3)决策矛盾:传统自动驾驶***采用有限状态机在不同状态下切换驾驶行为,而有限状态机的状态划分需要依据明确的边界条件。实际上驾驶行为间存在某些“灰色地带”,即同一场景下可能有1个以上合理的行为选择,使驾驶状态存在冲突。
深度强化学习(Deep Reinforcement Learning,Deep RL)的广泛成功使得DeepRL开始被越来越多地应用于端到端自动驾驶模型的训练。基于学习的算法舍弃了规则算法的层级架构,更加简洁直接,大幅简化了决策***结构。Deep RL模型训练过程中通过循环状态观察-动作执行-奖励获取的过程,只需要很少的先验知识就可以建立环境状态与最佳动作之间的映射关系。但是,正是由于缺乏先验知识,Deep RL的初始性能很差,因此在训练实际可落地应用的自动驾驶模型的过程中,Deep RL存在训练时间长(需要过多现实世界经验)的问题。在模拟仿真环境中,Deep RL模型初始性能差的缺点可以被容忍。但是,如果需要在真实世界中常态化运行基于Deep RL模型的自动驾驶车辆,则不可避免地需要使用真实车辆在现实世界中训练基于Deep RL的自动驾驶模型。在这种情况下,不佳的初始性能意味着真实的车辆会频繁在现实世界发生碰撞或为了避免危险被人为频繁介入中断训练,这些都将极大增加测试人员的工作量和训练时的危险性。因此为了在实际的自动驾驶车辆上部署基于Deep RL的端到端自动驾驶模型,Deep RL模型初始性能差的问题必须得到解决。
本发明考虑在Deep RL模型的训练中引入先验知识,以解决在真实世界中进行Deep RL 模型训练时初始性能差的问题。本发明为连续动作Deep RL模型提出了一种异步监督学习方法,该方法在多个采集自真实世界的训练数据集上并行异步执行多个监督学习过程。通过在不同线程中运行不同的监督学习过程,实现多个代理对模型参数并行异步在线更新,相比单个代理的参数更新过程,策略探索的时间相关性会大幅降低,从而使得监督学习过程更加稳定。为了避免收集耗时耗力的人类专家驾驶演示数据,本发明还使用一种人工设计的启发式驾驶策略(Manually Designed Heuristic Driving Policy,MDHDP),借助MDHDP驱动车辆产生高奖励经验数据作为专家演示,形成监督学习训练数据集。为了从微观角度直观分析预训练过程所带来的改进,本发明提出了一种适合基于连续动作Deep RL模型的可视化方法,这种可视化分析方法对于测试和验证连续输出神经网络模型具有重要意义。最后本发明设计了一种多车分布式强化学习驱动自动驾驶模型训练***,用以采集专家演示数据并验证本发明所提出的预训练方法在现实世界中应用的可行性。
发明内容
本发明所要解决的技术问题是提供一种端到端自动驾驶模型预训练方法,以解决在真实世界中训练强化学习驱动端到端自动驾驶模型时初始性能差、模型收敛慢的问题。
本发明解决其技术问题所采用的技术方案是:设计一种基于异步监督学***稳性,加速预训练过程收敛。端到端自动驾驶模型经过采集自现实世界的专家演示数据预训练后,可提升后续实车强化学习训练阶段模型初始性能并加速其收敛。此外,本发明为从微观角度分析所提出的预训练方法的有效性,配套提出了一种面向端到端自动驾驶模型训练过程的可视化分析方法。为了避免收集耗时耗力的人类专家驾驶演示数据,本发明还使用一种人工设计的启发式驾驶策略(Manually DesignedHeuristic Driving Policy, MDHDP),借助MDHDP驱动车辆产生高奖励经验数据作为专家演示,形成监督学习训练数据集。最后本发明为验证所提出的预训练方法在现实世界中应用的可行性,配套设计了一种多车分布式强化学习驱动自动驾驶模型训练***。
一种基于异步监督学***稳性,加速预训练过程收敛。
所述演示数据集是通过人工设计的启发式策略π′i驱动数据采集车i采集的,π′i基于预瞄理论设计如下:确定车轮转角并确定刹车和油门量,确定车轮转角为采集车i根据当前本车车速vit及前车位置确定车轮转角具体步骤为:
(1)采集车i根据当前车速vit和位置E(xit,yit)确定预瞄点F(x′it,y′it)
lEF=L+vit×Δt式中L是固定预瞄距离,Δt是预瞄系数;
(2)计算指向预瞄点F的转角
Figure RE-GDA0002936600670000031
其中
Figure RE-GDA0002936600670000032
是采集车i的中心;
(3)根据前车j的位置与速度修正转角以避免碰撞
Figure RE-GDA0002936600670000033
式中W=D/C,D是前车j与采集车i的横向距离,C是侧面碰撞安全阈值;
确定刹车和油门量为采集车i根据当前本车车速vit,当前路段rt的限速
Figure RE-GDA0002936600670000034
与前车j的距离dit确定刹车和油门量具体步骤为:
(1)确定当前路段rt的限速
Figure RE-GDA0002936600670000035
Figure RE-GDA0002936600670000036
式中g是重力加速度,u是摩擦系数,M为车质量,CA是下压力系数,ρ是路段rt的曲率;
(2)本车车速vit未超过
Figure RE-GDA0002936600670000037
则增加油门量,本车车速vit超过
Figure RE-GDA0002936600670000038
或者距离前车j的距离小于正向碰撞安全阈值则增加刹车量。
所述的预训练过程,其由五元组
Figure RE-GDA0002936600670000039
定义如下:
状态
Figure RE-GDA00029366006700000310
Figure RE-GDA00029366006700000311
作为演示车i采集的时变环境状态集合,其中
Figure RE-GDA00029366006700000312
Figure RE-GDA00029366006700000313
代表预训练演示数据集Ω中第n条经验的状态,由4幅连续的前置摄像头所摄单通道图像组成;
动作
Figure RE-GDA00029366006700000314
Figure RE-GDA00029366006700000315
作为演示车i采集的演示驾驶动作集合,其中
Figure RE-GDA00029366006700000316
代表Ω中第n条经验的演示动作(车轮转角),而且
Figure RE-GDA00029366006700000317
损失函数
Figure RE-GDA00029366006700000318
Figure RE-GDA00029366006700000319
代表Ω中第n条经验的损失,如下式
Figure RE-GDA00029366006700000320
式中
Figure RE-GDA00029366006700000321
Figure RE-GDA00029366006700000322
是对应于
Figure RE-GDA00029366006700000323
的变量,
Figure RE-GDA00029366006700000324
是输入
Figure RE-GDA00029366006700000325
后被所预训练的模型输出的动作;
状态转移函数
Figure RE-GDA00029366006700000326
Figure RE-GDA00029366006700000327
为给定状态
Figure RE-GDA00029366006700000328
及动作
Figure RE-GDA00029366006700000329
后(假设n对应第t 时隙),***在下一时隙转移至状态
Figure RE-GDA00029366006700000330
的概率,表示为
Figure RE-GDA00029366006700000331
折扣系数γ:γ∈[0,1],用以平衡当前损失和长期损失。
所述的预训练过程为:
(1)给定随机策略
Figure RE-GDA0002936600670000041
输入状态
Figure RE-GDA0002936600670000042
后输出动作
Figure RE-GDA0002936600670000043
的概率分布;
(2)推导期望总损失函数
Figure RE-GDA0002936600670000044
表示从当前状态
Figure RE-GDA0002936600670000045
始终执行策略πi到最终状态时的总损失,如下式
Figure RE-GDA0002936600670000046
(3)推导随机探索总损失函数
Figure RE-GDA0002936600670000047
如果智能体在状态
Figure RE-GDA0002936600670000048
时未按照策略πi执行动作
Figure RE-GDA0002936600670000049
而是执行了其他的动作
Figure RE-GDA00029366006700000410
但是随后的状态中仍然按照策略πi,则期望总损失为
Figure RE-GDA00029366006700000411
(4)推导优势函数
Figure RE-GDA00029366006700000412
代表随机探索策略πi外的动作
Figure RE-GDA00029366006700000413
所带来的优势,如下式
Figure RE-GDA00029366006700000414
(5)确定问题公式:给定当前状态
Figure RE-GDA00029366006700000415
通过最小化优势函数
Figure RE-GDA00029366006700000416
寻找一个最优策略
Figure RE-GDA00029366006700000417
以最小化期望总损失函数
Figure RE-GDA00029366006700000418
探索过程收敛时
Figure RE-GDA00029366006700000419
满足下式
Figure RE-GDA00029366006700000420
其中Π是随机策略的集合。
所述异步监督学习引入演员-评论家神经网络作为一种非线性函数估计器预测随机动作策略
Figure RE-GDA00029366006700000421
和期望总损失函数
Figure RE-GDA00029366006700000422
以求解问题方程
Figure RE-GDA00029366006700000423
其中θ和θv分别为演员和评论家神经网络的参数,参数更新如下:
Figure RE-GDA00029366006700000424
Figure RE-GDA00029366006700000425
式中θ′和θ′v分别为线程相关参数,θ和θv为全局共享参数。
一种针对训练方法提出的面向端到端自动驾驶模型训练过程的可视化分析方法,所述的可视化分析方法基于单变量分析法设计得到,具体而言,在保持输入模型的图像中其他像素不变的情况下,改变某一像素o的值,改变幅度为Δo,对于神经网络中某层
Figure RE-GDA0002936600670000051
的输出影响如下:
Figure RE-GDA0002936600670000052
式中
Figure RE-GDA0002936600670000053
并且如果
Figure RE-GDA0002936600670000054
Figure RE-GDA0002936600670000055
Figure RE-GDA0002936600670000056
Figure RE-GDA0002936600670000057
分别为
Figure RE-GDA0002936600670000058
这一层的权重和偏置参数,最后得到输入模型的图像中每个像素对模型最后输出的影响,绘制得到端到端自动驾驶模型注意力热力图。
所述端到端自动驾驶模型注意力热力图中的像素数与输入模型的图像的像素数一致,热力图中以特殊高亮的形式显示对模型输出结果有重大影响的图像区域,可以从微观角度检查模型的关注区域是否是与驾驶决策相关的区域,验证模型训练的有效性。
一种多车分布式强化学习驱动自动驾驶模型训练***,训练***由多辆机器人小车、建筑物模型、路面贴图等组成,包括策略学习场景,策略验证场景和UWB定位-强化学习奖励***,所述策略学习场景中的机器人小车作为强化学习训练过程中驾驶策略的学习者,多辆小车分布式探索环境,并行异步执行演员-评论家网络参数更新任务。
所述的策略验证场景中的机器人小车继承其他小车并行异步更新的全局驾驶策略,并在策略验证场景中行驶,UWB定位-强化学习奖励***给定奖励,策略验证小车记录得分。
所述的UWB定位-强化学习奖励***根据绑定在机器人小车上的UWB定位标签确定小车的位置,根据强化学习奖励函数给定策略学习和策略验证小车强化学习训练过程中实时获得的奖励。
本发明与现有技术相比,具有以下优点和积极效果:本发明针对现在强化学习驱动端到端自动驾驶模型存在的初始性能差、收敛速度慢的问题,提出以基于异步监督学习的端到端自动驾驶模型预训练方法为核心的端到端自动驾驶模型预训练、效果分析、落地验证一系列方法,很好地解决了这种强化学习驱动端到端自动驾驶模型难以落地部署的问题,将极大促进学习驱动的端到端自动驾驶技术发展,助力我国自动驾驶技术发展。所以综合而言,本方法对于提高车辆端到端自动驾驶***的总体性能具有极大的意义。
附图说明
图1是端到端自动驾驶模型结构图;
图2是异步监督学习方法理论架构图;
图3是多车分布式强化学习驱动自动驾驶模型训练***架构图;
图4是可视化分析方法示例。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明做各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本发明所使用的端到端自动驾驶模型如图1所示,模型的输入是四幅经过预处理的前置摄像头所拍摄的行车图像,第一层卷积层包含32个步幅为4尺寸为4×8×8的卷积核,紧接着后面一个卷积层包含32个步长为2尺寸为32×4×4的卷积核,紧接着后面一个卷积层包含32个步长为1尺寸为32×3×3的卷积核,最后是一个具有256个隐藏单元的全连接层。这四个隐藏层后面都带有激活层修正线性单元(ReLU,rectified linear units)。图1中的神经网络具有两组输出:两个线性输出用于表示模型输出动作
Figure RE-GDA0002936600670000061
的正态分布的均值和方差;一个线性输出用于表示值函数
Figure RE-GDA0002936600670000062
预训练过程建模
基于异步监督学习的预训练过程由五元组
Figure RE-GDA0002936600670000063
定义如下:
状态
Figure RE-GDA0002936600670000064
Figure RE-GDA0002936600670000065
作为演示车i采集的时变环境状态集合,其中
Figure RE-GDA0002936600670000066
代表预训练演示数据集Ω中第n条经验的状态,由4幅连续的前置摄像头所摄单通道图像组成;
动作
Figure RE-GDA0002936600670000067
Figure RE-GDA0002936600670000068
作为演示车i采集的演示驾驶动作集合,其中
Figure RE-GDA0002936600670000069
代表Ω中第n条经验的演示动作(车轮转角),而且
Figure RE-GDA00029366006700000610
损失函数
Figure RE-GDA00029366006700000611
Figure RE-GDA00029366006700000612
代表Ω中第n条经验的损失,如下式
Figure RE-GDA00029366006700000613
式中
Figure RE-GDA00029366006700000614
Figure RE-GDA00029366006700000615
是对应于
Figure RE-GDA00029366006700000616
的变量,
Figure RE-GDA00029366006700000617
是输入
Figure RE-GDA00029366006700000618
后被所预训练的模型输出的动作;
状态转移函数
Figure RE-GDA00029366006700000619
Figure RE-GDA00029366006700000620
为给定状态
Figure RE-GDA00029366006700000621
及动作
Figure RE-GDA00029366006700000622
后(假设n对应第t 时隙),***在下一时隙转移至状态
Figure RE-GDA00029366006700000623
的概率,表示为
Figure RE-GDA00029366006700000624
折扣系数γ:γ∈[0,1],用以平衡当前损失和长期损失。
问题公式推导
根据预训练过程模型,我们进一步推导预训练过程的问题公式:
(1)给定随机策略
Figure RE-GDA00029366006700000625
输入状态
Figure RE-GDA00029366006700000626
后输出动作
Figure RE-GDA00029366006700000627
的概率分布;
(2)推导期望总损失函数
Figure RE-GDA00029366006700000628
表示从当前状态
Figure RE-GDA00029366006700000629
始终执行策略πi到最终状态时的总损失,如下式
Figure RE-GDA0002936600670000071
(3)推导随机探索总损失函数
Figure RE-GDA0002936600670000072
如果智能体在状态
Figure RE-GDA0002936600670000073
时未按照策略πi执行动作
Figure RE-GDA0002936600670000074
而是执行了其他的动作
Figure RE-GDA0002936600670000075
但是随后的状态中仍然按照策略πi,则期望总损失为
Figure RE-GDA0002936600670000076
(4)推导优势函数
Figure RE-GDA0002936600670000077
代表随机探索策略πi外的动作
Figure RE-GDA0002936600670000078
所带来的优势,如下式
Figure RE-GDA0002936600670000079
(5)确定问题公式:给定当前状态
Figure RE-GDA00029366006700000710
通过最小化优势函数
Figure RE-GDA00029366006700000711
寻找一个最优策略
Figure RE-GDA00029366006700000712
以最小化期望总损失函数
Figure RE-GDA00029366006700000713
探索过程收敛时
Figure RE-GDA00029366006700000714
满足下式
Figure RE-GDA00029366006700000715
其中Π是随机策略的集合。
预训练演示数据采集
预训练所使用的演示数据集是通过人工设计的启发式策略π′i驱动数据采集车i采集的,π′i基于预瞄理论设计如下:
车轮转角:采集车i根据当前本车车速vit及前车位置确定车轮转角
(1)采集车i根据当前车速vit和位置E(xit,yit)确定预瞄点F(x′it,y′it)
lEF=L+vit×Δt
式中L是固定预瞄距离,Δt是预瞄系数;
(2)计算指向预瞄点F的转角
Figure RE-GDA00029366006700000716
其中
Figure RE-GDA00029366006700000717
是采集车i的中心;
(3)根据前车j的位置与速度修正转角以避免碰撞
Figure RE-GDA00029366006700000718
式中W=D/C,D是前车j与采集车i的横向距离,C是侧面碰撞安全阈值。
刹车/油门:采集车i根据当前本车车速vit,当前路段rt的限速
Figure RE-GDA00029366006700000719
与前车j的距离dit确定刹车和油门量
(1)确定当前路段rt的限速
Figure RE-GDA0002936600670000081
Figure RE-GDA0002936600670000082
式中g是重力加速度,u是摩擦系数,M为车质量,CA是下压力系数,ρ是路段rt的曲率;
(2)本车车速vit未超过
Figure RE-GDA0002936600670000083
则增加油门量,本车车速vit超过
Figure RE-GDA0002936600670000084
或者距离前车j的距离小于正向碰撞安全阈值则增加刹车量。
异步监督学习方法
为求解问题方程
Figure RE-GDA0002936600670000085
我们引入演员-评论家神经网络作为一种非线性函数估计器预测随机动作策略
Figure RE-GDA0002936600670000086
和期望总损失函数
Figure RE-GDA0002936600670000087
其中θ和θv分别为演员和评论家神经网络的参数,参数更新如下:
Figure RE-GDA0002936600670000088
Figure RE-GDA0002936600670000089
式中θ′和θ′v分别为线程相关参数,θ和θv为全局共享参数。在多个预训练演示数据集上以并行和异步方式执行多个监督学习过程,即为异步监督学习方法。
可视化分析
可视化分析方法基于单变量分析法设计得到,具体而言,在保持输入模型的图像中其他像素不变的情况下,改变某一像素o的值,改变幅度为Δo,对于神经网络中某层
Figure RE-GDA00029366006700000810
的输出影响如下:
Figure RE-GDA00029366006700000811
式中
Figure RE-GDA00029366006700000812
并且如果
Figure RE-GDA00029366006700000813
Figure RE-GDA00029366006700000814
Figure RE-GDA00029366006700000815
Figure RE-GDA00029366006700000816
分别为
Figure RE-GDA00029366006700000817
这一层的权重和偏置参数。最后得到输入模型的图像中每个像素对模型最后输出的影响,绘制得到端到端自动驾驶模型注意力热力图。端到端自动驾驶模型注意力热力图中的像素数与输入模型的图像的像素数一致,热力图中以特殊高亮的形式显示对模型输出结果有重大影响的图像区域,可以从微观角度检查模型的关注区域是否是与驾驶决策相关的区域,验证模型训练的有效性。比如如果高亮区域处于输入图像中的天空、路旁建筑物等位置,则可以推断模型训练出现了问题,而如果高亮区域位于图像中的路面,其他车辆等位置,则可知训练是有效的。
多车分布式强化学习驱动自动驾驶模型训练***
为验证预训练方法在现实世界中的工程可行性,本发明提出一种由多辆机器人小车、建筑物模型、路面贴图等组成,包括策略学习场景,策略验证场景和UWB定位-强化学习奖励***的多车分布式强化学习驱动自动驾驶模型训练***。策略学习场景中的机器人小车作为强化学习训练过程中驾驶策略的学习者,多辆小车分布式探索环境,并行异步执行演员-评论家网络参数更新任务。策略验证场景中的机器人小车继承其他小车并行异步更新的全局驾驶策略,并在策略验证场景中行驶,UWB定位-强化学习奖励***给定奖励,策略验证小车记录得分。UWB定位-强化学习奖励***根据绑定在机器人小车上的UWB定位标签确定小车的位置,根据强化学习奖励函数给定策略学习和策略验证小车强化学习训练过程中实时获得的奖励。
本实施例中对于本发明所提异步监督学***稳性,加速预训练过程收敛。端到端自动驾驶模型经过采集自现实世界的专家演示数据预训练后,可提升后续实车强化学习训练阶段模型初始性能并加速其收敛。
本实施例中对于本发明所提多车分布式强化学习驱动自动驾驶模型训练***,其架构图如图3所示,包含2个策略学习场景,1个策略验证场景,和UWB定位-强化学习奖励***。实车训练***搭建完成后,通过本发明所提出的人工设计的启发式策略π′i驱动机器人小车在策略学习场景中采集演示数据,构建预训练演示数据集Ω。接着基于数据集Ω采用异步监督学习方法预训练端到端自动驾驶模型,预训练完成后,将模型部署于机器人小车,在实车训练***中开展后续的强化学习训练。
可能会存在一种现象是,训练的样本是有偏差的,导致训练的模型其实并不是用于解决所需要解决的问题。从宏观上基于现有训练数据难以分析,这时候就需要从微观角度判断模型是否对输入图像中的正确位置有反应。因此本发明基于单因素分析法设计训练效果可视化分析方法,通过对输入图像的每个像素依次做出细微改变,观察模型输出的变化,得到模型对各个像素的“重视度”,并绘制成端到端自动驾驶模型敏感区域热力图。如图4所示是一个示例,比如改变左侧蓝色方块的像素,输入模型后可以得到不同的结果,这个差异就是这个像素对于模型输出的重要度,得到各个像素的重要度就能绘制热力图。

Claims (10)

1.一种基于异步监督学***稳性,加速预训练过程收敛。
2.根据权利要求1所述的方法,其特征在于,所述演示数据集是通过人工设计的启发式策略π′i驱动数据采集车i采集的,π′i基于预瞄理论设计如下:确定车轮转角并确定刹车和油门量,确定车轮转角为采集车i根据当前本车车速vit及前车位置确定车轮转角具体步骤为:
(1)采集车i根据当前车速vit和位置E(xit,yit)确定预瞄点F(x′it,y′it)
lEF=L+vit×Δt式中L是固定预瞄距离,Δt是预瞄系数;
(2)计算指向预瞄点F的转角
Figure RE-FDA0002936600660000011
其中
Figure RE-FDA0002936600660000012
是采集车i的中心;
(3)根据前车j的位置与速度修正转角以避免碰撞
Figure RE-FDA0002936600660000013
式中W=D/C,D是前车j与采集车i的横向距离,C是侧面碰撞安全阈值;
确定刹车和油门量为采集车i根据当前本车车速vit,当前路段rt的限速
Figure RE-FDA0002936600660000014
与前车j的距离dit确定刹车和油门量具体步骤为:
(1)确定当前路段rt的限速
Figure RE-FDA0002936600660000015
Figure RE-FDA0002936600660000016
式中g是重力加速度,u是摩擦系数,M为车质量,CA是下压力系数,ρ是路段rt的曲率;
(2)本车车速vit未超过
Figure RE-FDA0002936600660000017
则增加油门量,本车车速vit超过
Figure RE-FDA0002936600660000018
或者距离前车j的距离小于正向碰撞安全阈值则增加刹车量。
3.根据权利要求1所述的方法,其特征在于,所述的预训练过程,其由五元组
Figure RE-FDA0002936600660000019
定义如下:
状态
Figure RE-FDA00029366006600000113
Figure RE-FDA00029366006600000110
作为演示车i采集的时变环境状态集合,其中
Figure RE-FDA00029366006600000111
Figure RE-FDA00029366006600000112
代表预训练演示数据集Ω中第n条经验的状态,由4幅连续的前置摄像头所摄单通道图像组成;
动作
Figure RE-FDA0002936600660000021
Figure RE-FDA0002936600660000022
作为演示车i采集的演示驾驶动作集合,其中
Figure RE-FDA0002936600660000023
代表Ω中第n条经验的演示动作(车轮转角),而且
Figure RE-FDA0002936600660000024
损失函数
Figure RE-FDA00029366006600000237
Figure RE-FDA0002936600660000025
代表Ω中第n条经验的损失,如下式
Figure RE-FDA0002936600660000026
式中
Figure RE-FDA0002936600660000027
Figure RE-FDA0002936600660000028
是对应于
Figure RE-FDA0002936600660000029
的变量,
Figure RE-FDA00029366006600000210
是输入
Figure RE-FDA00029366006600000211
后被所预训练的模型输出的动作;
状态转移函数
Figure RE-FDA00029366006600000238
Figure RE-FDA00029366006600000212
为给定状态
Figure RE-FDA00029366006600000213
及动作
Figure RE-FDA00029366006600000214
后(假设n对应第t时隙),***在下一时隙转移至状态
Figure RE-FDA00029366006600000215
的概率,表示为
Figure RE-FDA00029366006600000216
折扣系数γ:γ∈[0,1],用以平衡当前损失和长期损失。
4.根据权利要求1所述的训练方法,其特征在于,所述的预训练过程为:
(1)给定随机策略
Figure RE-FDA00029366006600000217
输入状态
Figure RE-FDA00029366006600000218
后输出动作
Figure RE-FDA00029366006600000219
的概率分布;
(2)推导期望总损失函数
Figure RE-FDA00029366006600000220
表示从当前状态
Figure RE-FDA00029366006600000221
始终执行策略πi到最终状态时的总损失,如下式
Figure RE-FDA00029366006600000222
(3)推导随机探索总损失函数
Figure RE-FDA00029366006600000223
如果智能体在状态
Figure RE-FDA00029366006600000224
时未按照策略πi执行动作
Figure RE-FDA00029366006600000225
而是执行了其他的动作
Figure RE-FDA00029366006600000226
但是随后的状态中仍然按照策略πi,则期望总损失为
Figure RE-FDA00029366006600000227
(4)推导优势函数
Figure RE-FDA00029366006600000228
代表随机探索策略πi外的动作
Figure RE-FDA00029366006600000229
所带来的优势,如下式
Figure RE-FDA00029366006600000230
(5)确定问题公式:给定当前状态
Figure RE-FDA00029366006600000231
通过最小化优势函数
Figure RE-FDA00029366006600000232
寻找一个最优策略
Figure RE-FDA00029366006600000233
以最小化期望总损失函数
Figure RE-FDA00029366006600000234
探索过程收敛时
Figure RE-FDA00029366006600000235
满足下式
Figure RE-FDA00029366006600000236
其中∏是随机策略的集合。
5.根据权利要求1所述的训练方法,其特征在于,所述异步监督学习引入演员-评论家神经网络作为一种非线性函数估计器预测随机动作策略
Figure RE-FDA0002936600660000031
和期望总损失函数
Figure RE-FDA0002936600660000032
以求解问题方程
Figure RE-FDA0002936600660000033
其中θ和θv分别为演员和评论家神经网络的参数,参数更新如下:
Figure RE-FDA0002936600660000034
Figure RE-FDA0002936600660000035
式中θ′和θ′v分别为线程相关参数,θ和θv为全局共享参数。
6.一种针对权利要求1所述的训练方法提出的面向端到端自动驾驶模型训练过程的可视化分析方法,其特征在于,所述的可视化分析方法基于单变量分析法设计得到,具体而言,在保持输入模型的图像中其他像素不变的情况下,改变某一像素o的值,改变幅度为Δo,对于神经网络中某层
Figure RE-FDA0002936600660000036
的输出影响如下:
Figure RE-FDA0002936600660000037
式中
Figure RE-FDA0002936600660000038
并且如果
Figure RE-FDA0002936600660000039
Figure RE-FDA00029366006600000310
Figure RE-FDA00029366006600000311
分别为
Figure RE-FDA00029366006600000312
这一层的权重和偏置参数,最后得到输入模型的图像中每个像素对模型最后输出的影响,绘制得到端到端自动驾驶模型注意力热力图。
7.根据权利要求6所述的训练方法,其特征在于,所述端到端自动驾驶模型注意力热力图中的像素数与输入模型的图像的像素数一致,热力图中以特殊高亮的形式显示对模型输出结果有重大影响的图像区域,可以从微观角度检查模型的关注区域是否是与驾驶决策相关的区域,验证模型训练的有效性。
8.一种针对权利要求1所述的基于异步监督学习的端到端自动驾驶模型预训练方法提出的多车分布式强化学习驱动自动驾驶模型训练***,其特征在于,训练***由多辆机器人小车、建筑物模型、路面贴图等组成,包括策略学习场景,策略验证场景和UWB定位-强化学习奖励***,所述策略学习场景中的机器人小车作为强化学习训练过程中驾驶策略的学习者,多辆小车分布式探索环境,并行异步执行演员-评论家网络参数更新任务。
9.根据权利要求8所述的训练***,其特征在于,所述的策略验证场景中的机器人小车继承其他小车并行异步更新的全局驾驶策略,并在策略验证场景中行驶,UWB定位-强化学习奖励***给定奖励,策略验证小车记录得分。
10.根据权利要求8所述的训练***,其特征在于,所述的UWB定位-强化学习奖励***根据绑定在机器人小车上的UWB定位标签确定小车的位置,根据强化学习奖励函数给定策略学习和策略验证小车强化学习训练过程中实时获得的奖励。
CN202010727803.2A 2020-07-24 2020-07-24 一种基于异步监督学习的端到端自动驾驶模型预训练方法 Active CN112508164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010727803.2A CN112508164B (zh) 2020-07-24 2020-07-24 一种基于异步监督学习的端到端自动驾驶模型预训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010727803.2A CN112508164B (zh) 2020-07-24 2020-07-24 一种基于异步监督学习的端到端自动驾驶模型预训练方法

Publications (2)

Publication Number Publication Date
CN112508164A true CN112508164A (zh) 2021-03-16
CN112508164B CN112508164B (zh) 2023-01-10

Family

ID=74953327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010727803.2A Active CN112508164B (zh) 2020-07-24 2020-07-24 一种基于异步监督学习的端到端自动驾驶模型预训练方法

Country Status (1)

Country Link
CN (1) CN112508164B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449823A (zh) * 2021-08-31 2021-09-28 成都深蓝思维信息技术有限公司 自动驾驶模型训练方法及数据处理设备
CN113561986A (zh) * 2021-08-18 2021-10-29 武汉理工大学 自动驾驶汽车决策方法及装置
CN113743469A (zh) * 2021-08-04 2021-12-03 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN114895560A (zh) * 2022-04-25 2022-08-12 浙江大学 一种电动机堵转条件下足式机器人物体追踪自适应控制方法
AT526259A1 (de) * 2022-06-23 2024-01-15 Avl List Gmbh Verfahren zum Trainieren eines künstlichen neuronalen Netzes eines Fahrermodells

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492763A (zh) * 2018-09-17 2019-03-19 同济大学 一种基于强化学习网络训练的自动泊车方法
CN110291477A (zh) * 2016-12-02 2019-09-27 斯塔斯凯机器人公司 车辆控制***及使用方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110291477A (zh) * 2016-12-02 2019-09-27 斯塔斯凯机器人公司 车辆控制***及使用方法
CN109492763A (zh) * 2018-09-17 2019-03-19 同济大学 一种基于强化学习网络训练的自动泊车方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUN-PENG WANG: "Cooperative channel assignment for VANETs based on multiagent reinforcement learning", 《FRONTIERS OF INFORMATION TECHNOLOGY & ELECTRONIC ENGINEERING》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743469A (zh) * 2021-08-04 2021-12-03 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113743469B (zh) * 2021-08-04 2024-05-28 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113561986A (zh) * 2021-08-18 2021-10-29 武汉理工大学 自动驾驶汽车决策方法及装置
CN113561986B (zh) * 2021-08-18 2024-03-15 武汉理工大学 自动驾驶汽车决策方法及装置
CN113449823A (zh) * 2021-08-31 2021-09-28 成都深蓝思维信息技术有限公司 自动驾驶模型训练方法及数据处理设备
CN114895560A (zh) * 2022-04-25 2022-08-12 浙江大学 一种电动机堵转条件下足式机器人物体追踪自适应控制方法
CN114895560B (zh) * 2022-04-25 2024-03-19 浙江大学 一种电动机堵转条件下足式机器人物体追踪自适应控制方法
AT526259A1 (de) * 2022-06-23 2024-01-15 Avl List Gmbh Verfahren zum Trainieren eines künstlichen neuronalen Netzes eines Fahrermodells

Also Published As

Publication number Publication date
CN112508164B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
CN112508164B (zh) 一种基于异步监督学习的端到端自动驾驶模型预训练方法
JP7287707B2 (ja) 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム
CN108227710A (zh) 自动驾驶控制方法和装置、电子设备、程序和介质
US11474529B2 (en) System and method for motion planning of an autonomous driving machine
CN111222630A (zh) 一种基于深度强化学习的自主驾驶规则学习方法
Hu et al. Learning a deep cascaded neural network for multiple motion commands prediction in autonomous driving
CN112784485B (zh) 一种基于强化学习的自动驾驶关键场景生成方法
Huang et al. Deductive reinforcement learning for visual autonomous urban driving navigation
Siebinga et al. A human factors approach to validating driver models for interaction-aware automated vehicles
CN116134292A (zh) 用于性能测试和/或训练自动驾驶车辆规划器的工具
Sun et al. Human-like highway trajectory modeling based on inverse reinforcement learning
Kim et al. An open-source low-cost mobile robot system with an RGB-D camera and efficient real-time navigation algorithm
CN115062202A (zh) 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质
Hao et al. Aggressive lane-change analysis closing to intersection based on UAV video and deep learning
Wang et al. Pre-training with asynchronous supervised learning for reinforcement learning based autonomous driving
CN116300944A (zh) 基于改进Double DQN的自动驾驶决策方法及***
CN115981302A (zh) 车辆跟驰换道行为决策方法、装置及电子设备
WO2021258847A1 (zh) 一种驾驶决策方法、装置及芯片
CN115031753A (zh) 基于安全势场和dqn算法的行车工况局部路径规划方法
Mohammed et al. Reinforcement learning and deep neural network for autonomous driving
Liu et al. Enhancing Social Decision-Making of Autonomous Vehicles: A Mixed-Strategy Game Approach With Interaction Orientation Identification
Wu et al. Learning driving behavior for autonomous vehicles using deep learning based methods
Tan et al. RCP‐RF: A comprehensive road‐car‐pedestrian risk management framework based on driving risk potential field
Bhattacharyya Modeling Human Driving from Demonstrations
US20240157978A1 (en) Mixed reality simulation for autonomous systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant