CN112508164A

CN112508164A - 一种基于异步监督学习的端到端自动驾驶模型预训练方法

Info

Publication number: CN112508164A
Application number: CN202010727803.2A
Authority: CN
Inventors: 田大新; 郑坤贤; 段续庭; 周建山; 韩旭; 郎平; 林椿眄; 赵元昊; 郝威; 龙科军; 刘赫; 拱印生
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2021-03-16
Anticipated expiration: 2040-07-24
Also published as: CN112508164B

Abstract

一种基于异步监督学***稳性，加速预训练过程收敛。端到端自动驾驶模型经过采集自现实世界的专家演示数据预训练后，可提升后续实车强化学习训练阶段模型初始性能并加速其收敛。此外，本发明提出了一种面向端到端自动驾驶模型训练过程的可视化分析方法，以从微观角度分析基于异步监督学习的预训练方法所带来的模型性能改进。本发明设计了一种多车分布式强化学习驱动自动驾驶模型训练***，用以采集专家演示数据并验证本发明所提出的预训练方法在现实世界中应用的可行性。

Description

一种基于异步监督学习的端到端自动驾驶模型预训练方法

技术领域

本发明涉及交通领域，特别涉及一种自动驾驶车辆的端到端模型预训练方法。

技术背景

当前自动驾驶面临一个巨大挑战：传统自动驾驶***结构过于庞大复杂。为尽可能完善自动驾驶***，以适应不同工况的需求，传统自动驾驶***不可避免因完善逻辑而导致***结构庞大复杂。过于复杂的传统自动驾驶***面临算法臃肿、性能受限和决策矛盾这三大问题：

(1)算法臃肿：传统自动驾驶***需要人工设定规则库以泛化无人车行驶状态，随着行驶环境场景的增多与复杂，算法规模也不断庞大；

(2)性能受限：其***结构决定了其在场景遍历深度、决策正确率上存在一定的瓶颈，难以处理复杂工况；

(3)决策矛盾：传统自动驾驶***采用有限状态机在不同状态下切换驾驶行为，而有限状态机的状态划分需要依据明确的边界条件。实际上驾驶行为间存在某些“灰色地带”，即同一场景下可能有1个以上合理的行为选择，使驾驶状态存在冲突。

深度强化学习(Deep Reinforcement Learning，Deep RL)的广泛成功使得DeepRL开始被越来越多地应用于端到端自动驾驶模型的训练。基于学习的算法舍弃了规则算法的层级架构，更加简洁直接，大幅简化了决策***结构。Deep RL模型训练过程中通过循环状态观察-动作执行-奖励获取的过程，只需要很少的先验知识就可以建立环境状态与最佳动作之间的映射关系。但是，正是由于缺乏先验知识，Deep RL的初始性能很差，因此在训练实际可落地应用的自动驾驶模型的过程中，Deep RL存在训练时间长(需要过多现实世界经验)的问题。在模拟仿真环境中，Deep RL模型初始性能差的缺点可以被容忍。但是，如果需要在真实世界中常态化运行基于Deep RL模型的自动驾驶车辆，则不可避免地需要使用真实车辆在现实世界中训练基于Deep RL的自动驾驶模型。在这种情况下，不佳的初始性能意味着真实的车辆会频繁在现实世界发生碰撞或为了避免危险被人为频繁介入中断训练，这些都将极大增加测试人员的工作量和训练时的危险性。因此为了在实际的自动驾驶车辆上部署基于Deep RL的端到端自动驾驶模型，Deep RL模型初始性能差的问题必须得到解决。

本发明考虑在Deep RL模型的训练中引入先验知识，以解决在真实世界中进行Deep RL 模型训练时初始性能差的问题。本发明为连续动作Deep RL模型提出了一种异步监督学习方法，该方法在多个采集自真实世界的训练数据集上并行异步执行多个监督学习过程。通过在不同线程中运行不同的监督学习过程，实现多个代理对模型参数并行异步在线更新，相比单个代理的参数更新过程，策略探索的时间相关性会大幅降低，从而使得监督学习过程更加稳定。为了避免收集耗时耗力的人类专家驾驶演示数据，本发明还使用一种人工设计的启发式驾驶策略(Manually Designed Heuristic Driving Policy，MDHDP)，借助MDHDP驱动车辆产生高奖励经验数据作为专家演示，形成监督学习训练数据集。为了从微观角度直观分析预训练过程所带来的改进，本发明提出了一种适合基于连续动作Deep RL模型的可视化方法，这种可视化分析方法对于测试和验证连续输出神经网络模型具有重要意义。最后本发明设计了一种多车分布式强化学习驱动自动驾驶模型训练***，用以采集专家演示数据并验证本发明所提出的预训练方法在现实世界中应用的可行性。

发明内容

本发明所要解决的技术问题是提供一种端到端自动驾驶模型预训练方法，以解决在真实世界中训练强化学习驱动端到端自动驾驶模型时初始性能差、模型收敛慢的问题。

本发明解决其技术问题所采用的技术方案是：设计一种基于异步监督学***稳性，加速预训练过程收敛。端到端自动驾驶模型经过采集自现实世界的专家演示数据预训练后，可提升后续实车强化学习训练阶段模型初始性能并加速其收敛。此外，本发明为从微观角度分析所提出的预训练方法的有效性，配套提出了一种面向端到端自动驾驶模型训练过程的可视化分析方法。为了避免收集耗时耗力的人类专家驾驶演示数据，本发明还使用一种人工设计的启发式驾驶策略(Manually DesignedHeuristic Driving Policy， MDHDP)，借助MDHDP驱动车辆产生高奖励经验数据作为专家演示，形成监督学习训练数据集。最后本发明为验证所提出的预训练方法在现实世界中应用的可行性，配套设计了一种多车分布式强化学习驱动自动驾驶模型训练***。

一种基于异步监督学***稳性，加速预训练过程收敛。

所述演示数据集是通过人工设计的启发式策略π′_i驱动数据采集车i采集的，π′_i基于预瞄理论设计如下：确定车轮转角并确定刹车和油门量，确定车轮转角为采集车i根据当前本车车速v_it及前车位置确定车轮转角具体步骤为：

(1)采集车i根据当前车速v_it和位置E(x_it,y_it)确定预瞄点F(x′_it,y′_it)

l_EF＝L+v_it×Δt式中L是固定预瞄距离，Δt是预瞄系数；

(2)计算指向预瞄点F的转角

其中

是采集车i的中心；

(3)根据前车j的位置与速度修正转角以避免碰撞

式中W＝D/C，D是前车j与采集车i的横向距离，C是侧面碰撞安全阈值；

确定刹车和油门量为采集车i根据当前本车车速v_it，当前路段r_t的限速

与前车j的距离d_it确定刹车和油门量具体步骤为：

(1)确定当前路段r_t的限速

式中g是重力加速度，u是摩擦系数，M为车质量，CA是下压力系数，ρ是路段r_t的曲率；

(2)本车车速v_it未超过

则增加油门量，本车车速v_it超过

或者距离前车j的距离小于正向碰撞安全阈值则增加刹车量。

所述的预训练过程，其由五元组

定义如下：

状态

令

作为演示车i采集的时变环境状态集合，其中

代表预训练演示数据集Ω中第n条经验的状态，由4幅连续的前置摄像头所摄单通道图像组成；

动作

令

作为演示车i采集的演示驾驶动作集合，其中

代表Ω中第n条经验的演示动作(车轮转角)，而且

损失函数

令

代表Ω中第n条经验的损失，如下式

式中

和

是对应于

的变量，

是输入

后被所预训练的模型输出的动作；

状态转移函数

令

为给定状态

及动作

后(假设n对应第t 时隙)，***在下一时隙转移至状态

的概率，表示为

折扣系数γ：γ∈[0,1]，用以平衡当前损失和长期损失。

所述的预训练过程为：

(1)给定随机策略

输入状态

后输出动作

的概率分布；

(2)推导期望总损失函数

表示从当前状态

始终执行策略π_i到最终状态时的总损失，如下式

(3)推导随机探索总损失函数

如果智能体在状态

时未按照策略π_i执行动作

而是执行了其他的动作

但是随后的状态中仍然按照策略π_i，则期望总损失为

(4)推导优势函数

代表随机探索策略π_i外的动作

所带来的优势，如下式

(5)确定问题公式：给定当前状态

通过最小化优势函数

寻找一个最优策略

以最小化期望总损失函数

探索过程收敛时

满足下式

其中Π是随机策略的集合。

所述异步监督学习引入演员-评论家神经网络作为一种非线性函数估计器预测随机动作策略

和期望总损失函数

以求解问题方程

其中θ和θ_v分别为演员和评论家神经网络的参数，参数更新如下：

式中θ′和θ′_v分别为线程相关参数，θ和θ_v为全局共享参数。

一种针对训练方法提出的面向端到端自动驾驶模型训练过程的可视化分析方法，所述的可视化分析方法基于单变量分析法设计得到，具体而言，在保持输入模型的图像中其他像素不变的情况下，改变某一像素o的值，改变幅度为Δo，对于神经网络中某层

的输出影响如下：

式中

并且如果

则

和

分别为

这一层的权重和偏置参数，最后得到输入模型的图像中每个像素对模型最后输出的影响，绘制得到端到端自动驾驶模型注意力热力图。

所述端到端自动驾驶模型注意力热力图中的像素数与输入模型的图像的像素数一致，热力图中以特殊高亮的形式显示对模型输出结果有重大影响的图像区域，可以从微观角度检查模型的关注区域是否是与驾驶决策相关的区域，验证模型训练的有效性。

一种多车分布式强化学习驱动自动驾驶模型训练***，训练***由多辆机器人小车、建筑物模型、路面贴图等组成，包括策略学习场景，策略验证场景和UWB定位-强化学习奖励***，所述策略学习场景中的机器人小车作为强化学习训练过程中驾驶策略的学习者，多辆小车分布式探索环境，并行异步执行演员-评论家网络参数更新任务。

所述的策略验证场景中的机器人小车继承其他小车并行异步更新的全局驾驶策略，并在策略验证场景中行驶，UWB定位-强化学习奖励***给定奖励，策略验证小车记录得分。

所述的UWB定位-强化学习奖励***根据绑定在机器人小车上的UWB定位标签确定小车的位置，根据强化学习奖励函数给定策略学习和策略验证小车强化学习训练过程中实时获得的奖励。

本发明与现有技术相比，具有以下优点和积极效果：本发明针对现在强化学习驱动端到端自动驾驶模型存在的初始性能差、收敛速度慢的问题，提出以基于异步监督学习的端到端自动驾驶模型预训练方法为核心的端到端自动驾驶模型预训练、效果分析、落地验证一系列方法，很好地解决了这种强化学习驱动端到端自动驾驶模型难以落地部署的问题，将极大促进学习驱动的端到端自动驾驶技术发展，助力我国自动驾驶技术发展。所以综合而言，本方法对于提高车辆端到端自动驾驶***的总体性能具有极大的意义。

附图说明

图1是端到端自动驾驶模型结构图；

图2是异步监督学习方法理论架构图；

图3是多车分布式强化学习驱动自动驾驶模型训练***架构图；

图4是可视化分析方法示例。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明做各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。本发明所使用的端到端自动驾驶模型如图1所示，模型的输入是四幅经过预处理的前置摄像头所拍摄的行车图像，第一层卷积层包含32个步幅为4尺寸为4×8×8的卷积核，紧接着后面一个卷积层包含32个步长为2尺寸为32×4×4的卷积核，紧接着后面一个卷积层包含32个步长为1尺寸为32×3×3的卷积核，最后是一个具有256个隐藏单元的全连接层。这四个隐藏层后面都带有激活层修正线性单元(ReLU，rectified linear units)。图1中的神经网络具有两组输出：两个线性输出用于表示模型输出动作

的正态分布的均值和方差；一个线性输出用于表示值函数

预训练过程建模

基于异步监督学习的预训练过程由五元组

定义如下：

状态

令

作为演示车i采集的时变环境状态集合，其中

动作

令

作为演示车i采集的演示驾驶动作集合，其中

代表Ω中第n条经验的演示动作(车轮转角)，而且

损失函数

令

代表Ω中第n条经验的损失，如下式

式中

和

是对应于

的变量，

是输入

后被所预训练的模型输出的动作；

状态转移函数

令

为给定状态

及动作

后(假设n对应第t 时隙)，***在下一时隙转移至状态

的概率，表示为

折扣系数γ：γ∈[0,1]，用以平衡当前损失和长期损失。

问题公式推导

根据预训练过程模型，我们进一步推导预训练过程的问题公式：

(1)给定随机策略

输入状态

后输出动作

的概率分布；

(2)推导期望总损失函数

表示从当前状态

始终执行策略π_i到最终状态时的总损失，如下式

(3)推导随机探索总损失函数

如果智能体在状态

时未按照策略π_i执行动作

而是执行了其他的动作

但是随后的状态中仍然按照策略π_i，则期望总损失为

(4)推导优势函数

代表随机探索策略π_i外的动作

所带来的优势，如下式

(5)确定问题公式：给定当前状态

通过最小化优势函数

寻找一个最优策略

以最小化期望总损失函数

探索过程收敛时

满足下式

其中Π是随机策略的集合。

预训练演示数据采集

预训练所使用的演示数据集是通过人工设计的启发式策略π′_i驱动数据采集车i采集的，π′_i基于预瞄理论设计如下：

车轮转角：采集车i根据当前本车车速v_it及前车位置确定车轮转角

l_EF＝L+v_it×Δt

式中L是固定预瞄距离，Δt是预瞄系数；

(2)计算指向预瞄点F的转角

其中

是采集车i的中心；

(3)根据前车j的位置与速度修正转角以避免碰撞

式中W＝D/C，D是前车j与采集车i的横向距离，C是侧面碰撞安全阈值。

刹车/油门：采集车i根据当前本车车速v_it，当前路段r_t的限速

与前车j的距离d_it确定刹车和油门量

(1)确定当前路段r_t的限速

(2)本车车速v_it未超过

则增加油门量，本车车速v_it超过

或者距离前车j的距离小于正向碰撞安全阈值则增加刹车量。

异步监督学习方法

为求解问题方程

我们引入演员-评论家神经网络作为一种非线性函数估计器预测随机动作策略

和期望总损失函数

式中θ′和θ′_v分别为线程相关参数，θ和θ_v为全局共享参数。在多个预训练演示数据集上以并行和异步方式执行多个监督学习过程，即为异步监督学习方法。

可视化分析

可视化分析方法基于单变量分析法设计得到，具体而言，在保持输入模型的图像中其他像素不变的情况下，改变某一像素o的值，改变幅度为Δo，对于神经网络中某层

的输出影响如下：

式中

并且如果

则

和

分别为

这一层的权重和偏置参数。最后得到输入模型的图像中每个像素对模型最后输出的影响，绘制得到端到端自动驾驶模型注意力热力图。端到端自动驾驶模型注意力热力图中的像素数与输入模型的图像的像素数一致，热力图中以特殊高亮的形式显示对模型输出结果有重大影响的图像区域，可以从微观角度检查模型的关注区域是否是与驾驶决策相关的区域，验证模型训练的有效性。比如如果高亮区域处于输入图像中的天空、路旁建筑物等位置，则可以推断模型训练出现了问题，而如果高亮区域位于图像中的路面，其他车辆等位置，则可知训练是有效的。

多车分布式强化学习驱动自动驾驶模型训练***

为验证预训练方法在现实世界中的工程可行性，本发明提出一种由多辆机器人小车、建筑物模型、路面贴图等组成，包括策略学习场景，策略验证场景和UWB定位-强化学习奖励***的多车分布式强化学习驱动自动驾驶模型训练***。策略学习场景中的机器人小车作为强化学习训练过程中驾驶策略的学习者，多辆小车分布式探索环境，并行异步执行演员-评论家网络参数更新任务。策略验证场景中的机器人小车继承其他小车并行异步更新的全局驾驶策略，并在策略验证场景中行驶，UWB定位-强化学习奖励***给定奖励，策略验证小车记录得分。UWB定位-强化学习奖励***根据绑定在机器人小车上的UWB定位标签确定小车的位置，根据强化学习奖励函数给定策略学习和策略验证小车强化学习训练过程中实时获得的奖励。

本实施例中对于本发明所提异步监督学***稳性，加速预训练过程收敛。端到端自动驾驶模型经过采集自现实世界的专家演示数据预训练后，可提升后续实车强化学习训练阶段模型初始性能并加速其收敛。

本实施例中对于本发明所提多车分布式强化学习驱动自动驾驶模型训练***，其架构图如图3所示，包含2个策略学习场景，1个策略验证场景，和UWB定位-强化学习奖励***。实车训练***搭建完成后，通过本发明所提出的人工设计的启发式策略π′_i驱动机器人小车在策略学习场景中采集演示数据，构建预训练演示数据集Ω。接着基于数据集Ω采用异步监督学习方法预训练端到端自动驾驶模型，预训练完成后，将模型部署于机器人小车，在实车训练***中开展后续的强化学习训练。

可能会存在一种现象是，训练的样本是有偏差的，导致训练的模型其实并不是用于解决所需要解决的问题。从宏观上基于现有训练数据难以分析，这时候就需要从微观角度判断模型是否对输入图像中的正确位置有反应。因此本发明基于单因素分析法设计训练效果可视化分析方法，通过对输入图像的每个像素依次做出细微改变，观察模型输出的变化，得到模型对各个像素的“重视度”，并绘制成端到端自动驾驶模型敏感区域热力图。如图4所示是一个示例，比如改变左侧蓝色方块的像素，输入模型后可以得到不同的结果，这个差异就是这个像素对于模型输出的重要度，得到各个像素的重要度就能绘制热力图。

Claims

1.一种基于异步监督学***稳性，加速预训练过程收敛。

2.根据权利要求1所述的方法，其特征在于，所述演示数据集是通过人工设计的启发式策略π′_i驱动数据采集车i采集的，π′_i基于预瞄理论设计如下：确定车轮转角并确定刹车和油门量，确定车轮转角为采集车i根据当前本车车速v_it及前车位置确定车轮转角具体步骤为：

(1)采集车i根据当前车速v_it和位置E(x_it，y_it)确定预瞄点F(x′_it，y′_it)

l_EF＝L+v_it×Δt式中L是固定预瞄距离，Δt是预瞄系数；

(2)计算指向预瞄点F的转角

其中

是采集车i的中心；

(3)根据前车j的位置与速度修正转角以避免碰撞

与前车j的距离d_it确定刹车和油门量具体步骤为：

(1)确定当前路段r_t的限速

(2)本车车速v_it未超过

则增加油门量，本车车速v_it超过

或者距离前车j的距离小于正向碰撞安全阈值则增加刹车量。

3.根据权利要求1所述的方法，其特征在于，所述的预训练过程，其由五元组

定义如下：

状态

令

作为演示车i采集的时变环境状态集合，其中

动作

令

作为演示车i采集的演示驾驶动作集合，其中

代表Ω中第n条经验的演示动作(车轮转角)，而且

损失函数

令

代表Ω中第n条经验的损失，如下式

式中

和

是对应于

的变量，

是输入

后被所预训练的模型输出的动作；

状态转移函数

令

为给定状态

及动作

后(假设n对应第t时隙)，***在下一时隙转移至状态

的概率，表示为

折扣系数γ：γ∈[0，1]，用以平衡当前损失和长期损失。

4.根据权利要求1所述的训练方法，其特征在于，所述的预训练过程为：

(1)给定随机策略

输入状态

后输出动作

的概率分布；

(2)推导期望总损失函数

表示从当前状态

始终执行策略πi到最终状态时的总损失，如下式

(3)推导随机探索总损失函数

如果智能体在状态

时未按照策略π_i执行动作

而是执行了其他的动作

但是随后的状态中仍然按照策略π_i，则期望总损失为

(4)推导优势函数

代表随机探索策略π_i外的动作

所带来的优势，如下式

(5)确定问题公式：给定当前状态

通过最小化优势函数

寻找一个最优策略

以最小化期望总损失函数

探索过程收敛时

满足下式

其中∏是随机策略的集合。

5.根据权利要求1所述的训练方法，其特征在于，所述异步监督学习引入演员-评论家神经网络作为一种非线性函数估计器预测随机动作策略

和期望总损失函数

以求解问题方程

6.一种针对权利要求1所述的训练方法提出的面向端到端自动驾驶模型训练过程的可视化分析方法，其特征在于，所述的可视化分析方法基于单变量分析法设计得到，具体而言，在保持输入模型的图像中其他像素不变的情况下，改变某一像素o的值，改变幅度为Δo，对于神经网络中某层

的输出影响如下：

式中

并且如果

和

分别为

7.根据权利要求6所述的训练方法，其特征在于，所述端到端自动驾驶模型注意力热力图中的像素数与输入模型的图像的像素数一致，热力图中以特殊高亮的形式显示对模型输出结果有重大影响的图像区域，可以从微观角度检查模型的关注区域是否是与驾驶决策相关的区域，验证模型训练的有效性。

8.一种针对权利要求1所述的基于异步监督学习的端到端自动驾驶模型预训练方法提出的多车分布式强化学习驱动自动驾驶模型训练***，其特征在于，训练***由多辆机器人小车、建筑物模型、路面贴图等组成，包括策略学习场景，策略验证场景和UWB定位-强化学习奖励***，所述策略学习场景中的机器人小车作为强化学习训练过程中驾驶策略的学习者，多辆小车分布式探索环境，并行异步执行演员-评论家网络参数更新任务。

9.根据权利要求8所述的训练***，其特征在于，所述的策略验证场景中的机器人小车继承其他小车并行异步更新的全局驾驶策略，并在策略验证场景中行驶，UWB定位-强化学习奖励***给定奖励，策略验证小车记录得分。

10.根据权利要求8所述的训练***，其特征在于，所述的UWB定位-强化学习奖励***根据绑定在机器人小车上的UWB定位标签确定小车的位置，根据强化学习奖励函数给定策略学习和策略验证小车强化学习训练过程中实时获得的奖励。