CN116176572A

CN116176572A - 一种基于dqn深度强化学习的汽车紧急避撞控制方法

Info

Publication number: CN116176572A
Application number: CN202310168297.1A
Authority: CN
Inventors: 卢晓晖; 郑馨義; 吕新展; 李绍松; 李佳纯; 董旭升; 张鹏飞; 张袅娜
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-30

Abstract

目前AEB***在与障碍物距离小于总纵向制动距离的突发情况下无法避免碰撞，且只依靠传感器信息在面对不同的障碍物时，只能做出相同的制动动作，因此，本发明提出一种基于DQN深度强化学习的汽车紧急避撞控制方法，属于新能源汽车制动领域，将图像与传感器信息拼接作为状态输入，在纵向制动基础上加入横向避让动作，拟解决AEB***在突发情况下仅依靠纵向制动避撞效果不好的问题，以及在面对不同障碍物时的制动行为更具有针对性，该方法包括子任务设计、状态与动作空间设计、多目标奖励函数设计、DQN参数设置及训练；本发明提高了算法训练效率，提高了汽车的安全性，使汽车的避让策略更加人性化。

Description

一种基于DQN深度强化学习的汽车紧急避撞控制方法

技术领域：

本发明属于新能源汽车制动领域，具体地说是一种基于DQN深度强化学习的汽车紧急避撞控制方法。

背景技术：

自动紧急制动(Autonomous Emergency Braking)，是基于环境感知传感器感知前方可能与车辆、行人或其他交通参与者所发生的碰撞风险，并通过***自动触发执行机构来实施制动，以避免碰撞或减轻碰撞程度的主动安全功能。

大多数研究者都是用基于规则的方法、基于PID算法、模糊控制方法、模型预测控制等传统的方法去研究城市工况下的自动紧急制动功能。但是这些方法各自都存在着大量手动调参、控制精度不高、依赖模型的精确度、模型复杂度高、计算量大和计算速度慢等问题。并且这些方法在处理真实道路上可能发生的所有场景方面存在局限性，应对复杂交通环境自适应能力弱，鲁棒性欠佳，非常依赖于人工经验来制定规则，只使用基于环境感知传感器的信息无法根据障碍物的不同类别而做出不同的制动或转向动作。基于深度强化学习的端到端结构可以利用感知输入直接获得油门、刹车、车轮转角等控制动作，大大减少了各层算法构建的工作量和调参成本，同时提升了自动驾驶的泛化能力，还可以在算法内部里对奖励函数里加入相应的目标要求对多个目标进行优化。并且深度强化学习结合了深度神经网络的感知抽象特征的强大能力，能够在多变的环境中自适应地进行学习，并且对训练环境以外的场景也具有一定的适应性，此外在训练完成后的计算速度也要比传统算法快。目前，深度强化学习在目标识别、自动控制、游戏等领域均有良好的表现，将其与智能驾驶相结合也成为了自动驾驶技术研究的一个流行方向。

当前，在已经产品化的自动驾驶技术中，AEB***为纵向避撞辅助***，即通过预警或主动制动控制的方式降低车辆在纵向行驶方向上的碰撞风险。但是，通过调研发现，仅依靠纵向制动***的主要缺点是它们无法避免与障碍物的距离小于总制动距离的碰撞，且在较高的行驶车速情况下，基于转向的避撞操纵比基于制动的避撞操纵更为有效。因为在这种条件下，转向操纵所需的临界避撞距离比制动控制所需的临界避撞距离短，也就是，在采用紧急制动操纵无法避免碰撞发生的情况下，车辆仍然能够通过转向控制策略有效地避免碰撞的发生。根据现有研究，在紧急情况下，随着碰撞时间(Time to Collision,TTC)从2.5s减小至1.5s的过程中，只采用制动避撞的驾驶员比例从72％降至43％，只通过转向避撞的驾驶员比例从14％降至0，而采用转向与制动联合避撞的驾驶员比例从14％上升至57％。

本发明应用深度强化学习使得智能汽车自适应地学习自动紧急避撞控制策略，状态输入采用高维图像信息与一维传感器信息结合的方法，在相同位置与速度下，图像中行人与静止障碍物车有着不同的形状与颜色，可以让汽车更好的辨别前方障碍物的种类，而只使用传感器信息不管是车或者人都只能获得相同的数据信息。通过深度神经网络来获取并处理环境中的状态信息以及拟合强化学习的值函数，用强化学习的试错思想充分地探索环境，结合机器学习与深度学习的优势，取长补短，在纵向制动的基础上加入了转向动作，制动和转向***试图通过在***检测到在危险区域时采取转向或变道来改善碰撞情况，使得汽车在不同紧急情况场景下的有着不同的驾驶决策，让汽车的紧急避撞***更加人性化。并且对于提高车辆的安全性，具有非常重要的意义。

发明内容：

为了使新能源汽车紧急避撞***更具有安全性和人性化特点，本发明提供一种基于DQN深度强化学***衡了在发生事故时对障碍物造成的损害和车辆尽快脱离风险时获得的奖励。DQN针对车辆遇到行人横穿城市道路和静止障碍物车场景进行训练。

本发明解决技术问题所采取的技术方案如下：

一种基于DQN深度强化学***台中循环训练，对神经网络的参数进行迭代优化，让汽车学会在不同的紧急状态下执行正确的动作，使得在前方有障碍物，自身车辆通过制动或者自动紧急转向，避免追尾或碰撞事故。本发明根据多任务划分的强化学习方法建立两个策略网络和多目标奖励函数，大大提高了训练效率，同时引入图像作为状态输入的一部分，可以使车辆在面对不同障碍物时采取不同的动作，更加人性化。

该方法包括以下步骤：

步骤1、子任务设计，其过程包括如下子步骤：

步骤1.1、建立紧急避撞过程的马尔可夫模型：

紧急避撞过程具备马尔可夫性，即下一时刻的车辆速度、加速度、位置信息、图像信息等只与当前状态有关，与历史状态无关。当前时刻车辆采取制动或者转向，就会影响下一时刻的车辆状态。马尔可夫决策过程基于交互对象智能体和环境进行构建，包括状态、动作、奖励函数三个要素。智能体感知当前的***状态，按照策略对环境实施动作，从而改变环境的状态得到奖励。状态、动作、状态转移概率、奖励和折扣因子的合集(S、A、P、R、γ)就构成了强化学习马尔可夫决策过程的五元组。本发明将紧急避撞过程建模为马尔可夫决策过程，通过离散状态空间学习最优决策，最大化累计奖励来实现安全与效率的联合最优化。

步骤1.2、纵向制动控制训练任务设计：

此任务中，主车的初速度V_init在2.67m/s至16.67m/s之间随机选择，行人或者静止汽车在距离汽车(5·V_init)m处出现，行人随机从道路两端横穿马路，行人速度V_ped在1m/s至3m/s之间随机选择，静止汽车则出现在车道中央；碰撞时间TTC在1.5s至4s之间随机选择，行人启动时间或者静止汽车出现时间为主车在与行人或者静止汽车纵向距离(TTC·V_init)m处；在此任务的碰撞时间区间TTC下主车面对的是一般场景，主车有充分的纵向制动距离，因此只训练主车采取纵向制动动作来避让横穿马路的行人或者静止汽车。

步骤1.3、横纵向联合制动控制训练任务设计：

此任务中，主车的初速度V_init在2.67m/s至16.67m/s之间随机选择，行人或者静止汽车在距离汽车(5·V_init)m处出现，行人随机从道路两端横穿马路，行人速度V_ped在1m/s至3m/s之间随机选择，静止汽车则出现在车道中央；碰撞时间TTC在0.5s至1.5s之间随机选择，行人启动时间或者静止汽车出现时间为主车在纵向距离行人或者静止汽车(TTC·V_init)m处；在在此任务的碰撞时间区间TTC下主车面对的是紧急突发场景，当行驶至危险区域时，训练主车在面对横穿马路的行人时优先采取纵向制动动作保证安全，在面对静止汽车的时候优先采取转向制动动作来实现避让，让主车在面对不同障碍物时的制动行为更具有针对性。

步骤2、状态与动作空间设计，其过程包括状态空间设计与动作空间设计；

步骤2.1、状态空间设计，其过程包括图像预处理、信息拼接：

步骤2.1.1、图像预处理：

首先将语义分割相机的视角调整为俯视图视角，调整相机的水平位置，获取以主车位置为图片中心的语义分割鸟瞰图，语义分割将每种物体分配像素类别，而每个类别在调色板中对应一种颜色，正常的语义分割图像中每一种事物的颜色都有各自的数字标签，所以最终的输出分割图就是含有不同颜色块的一张图。但是在本发明中只保留车道线、主车和障碍物(人、静止汽车)颜色各自不同的数字标签，其他一切事物颜色的数字标签都改为相同的数字，即预处理过后的图像中只剩下车道线、主车、障碍物(人、静止汽车)和其他事物各自不同的5种颜色。目的是简化了汽车周边关系不大的事物的颜色，着重区别汽车与道路、车道线和行人的颜色。

步骤2.1.2、信息拼接:

图像经过步骤2.1.1预处理之后，将经过一个卷积神经网络提取图像的特征信息，卷积网络π(z,p)具体包括三层卷积层和一层全连接层。其中z为高维图像信息，p为一维信息(主车速度V、相对距离d，相对速度V_rel)。全连接层FC1处理展平后的第三层卷积层Conv3的输出结果，再通过Cat拼接函数把图像的一维特征矩阵与一维传感器信息(汽车自身速度、汽车与障碍物的相对距离、汽车与障碍物的相对速度)拼接起来，得到新的一维矩阵，也即是DQN算法中的状态输入，作为后续输出动作的全连接网络的输入。

步骤2.2、动作空间设计；

步骤2.2.1、纵向制动控制训练任务的动作空间：

在该任务下，主车有充分的纵向制动距离，因此动作空间只包含汽车的纵向制动动作(无制动、弱制动、强制动)，步骤2.1.2中拼接过后的一维矩阵作为状态输入到现实Q1网络中，该网络有两层全连接层，输出神经元个数3，分别对应三个动作，输出为三个动作的Q值。

步骤2.2.2、横纵向联合制动控制训练任务的动作空间：

在此任务的大部分紧急场景中，汽车面对的是紧急突发情况，因此不仅训练汽车的纵向制动动作，还包括转向制动动作，动作空间包含汽车的纵向和横向动作(无制动、弱制动、强制动、制动并右转、制动并左转)，步骤2.1.2中拼接过后的一维矩阵作为状态输入到现实Q2网络中，该网络有两层全连接层，输出神经元个数为5，分别对应五个动作，输出为五个动作的Q值。

针对两个不同任务智能体Agent会有各自两个不同的Q网络，汽车在面对不同的紧急情况时***会切换不同的现实Q网络来输出动作完成避撞任务。

步骤3、多目标奖励函数设计，其目标是使汽车学到的策略兼顾安全性、效率性、舒适性；

为实现紧急避障控制时，车辆控制的稳定性和避障的安全性，本发明采用理想停车区域和危险区域的划分对奖励函数进行设计。在主车处于危险区域之外时，鼓励车辆采取制动措施可以制动，在主车位于危险区域内时，鼓励车辆采取转向变道措施，当距离小于危险区域时，将大概率碰撞。奖励函数设计如下：

步骤3.1、纵向紧急避撞控制训练任务奖励函数设计：

该任务针对于TTC在1.5秒至4秒之间的紧急情况，本发明采用理想停车区域(3-6m)和危险区域(0-3m)对决策的奖励函数进行设计，奖励函数设计为：

其中，V为汽车的汽车当前速度，d为汽车与前方障碍物的纵向距离，V_init为每个回合开始时汽车的初速度，ΔV为汽车上一时刻速度V_t-1与当前时刻速度V_t的差值。当汽车满足上述除了公式(1)第四个和最后一个判定条件的以外任一判定条件，获得相应的奖励并结束该回合的训练立刻进行下一回合的训练。停车区域的划分是为了安全性和道路通行的效率性，汽车相邻两时刻的速度变化是为了车辆的舒适性，防止过大的速度变化。

步骤3.2、横纵向联合紧急避撞控制训练任务奖励函数设计：

该任务针对于TTC在0.5秒至1.5秒之间的紧急情况，危险区域修改为(0.5-3m)，理想停车区域(3-6m)，为了训练当汽车行驶至危险区域时，面对横穿马路的行人时优先采取纵向制动动作保证安全，在面对静止汽车的时候优先采取转向制动动作来实现避让，因此奖励函数设计为：

其中，V为汽车的汽车当前速度，d为汽车与前方障碍物的纵向距离，k1，k2分别为鼓励和惩罚转向动作的权重系数，在障碍物为行人时候，k1＝1，在障碍物为静止汽车时候，k1＝10，在危险区域不发生碰撞的情况下，更加鼓励面对静止汽车采取转向动作，面对行人的时候优先采取纵向制动动作，k2＝-10,V_init为每个回合开始时主汽车的初速度，ΔV为汽车上一时刻速度V_t-1与当前时刻速度V_t的差值，d_lat为汽车与车道中心线的横向距离。Carla仿真软件中的汽车宽度为1.8m，主车与静止汽车或者行人横向距离小于2m即视为发生碰撞并结束当前回合，因此当汽车满足上述除了公式(2)第五个和最后一个判定条件的以外任一判定条件，获得相应的奖励并结束该回合的训练立刻进行下一回合的训练。在危险区域的奖励中加入对横向距离的限制，相比于行人更加鼓励汽车在面对静止汽车时采取转向动作进行紧急避让，理想停车区域为3至6米，鼓励汽车在此区域区间采取纵向制动停车，如果汽车在此区域采取了转向变道动作，会给予比较大的负奖励，另外汽车在距离障碍物6米以外采取转向动作也是比较危险的，给予负奖励。

步骤4、DQN参数设置及训练，其过程包括算法环境配置、迭代优化训练；

DQN参数设置,DQN算法中设计几个比较重要的超参数设计。首先是折扣因子γ，在强化学***衡。探索时间占比指的是ε从1下降到最终ε的时间占总训练时间的比例，在(0,1)内取值，在本模型中最终ε取0.05，经历10000个回合从1缓慢降至0.05。

步骤4.2、纵向制动避撞控制任务迭代优化训练：

初始化超参数，进行循环训练。在每个训练回合中，现实Q1网络接收到状态输入，输出三个动作的Q值，智能体使用贪婪算法选择动作，获得奖励，到达下一个状态。将状态，动作，奖励，下一状态，是否结束标志打包成一个五元组(S、A、R、S_t+1、done)，作为一条经验存放入经验回放池里。目标Q1网络从经验池中随机抽取一批经验，其输出的Q值与现实Q1网络输出的Q值作均方差，此为神经网络的LOSS损失，神经网络的优化目标就是最小化这个损失，使得现实Q1网络输出的动作都可以尽可能的接近于目标Q1网络输出的Q值。继续执行下一个动作，如此循环往复训练。算法目标是训练智能体能学会一个最大化奖励的策略，在保证安全性、效率性与舒适性下避免与目标障碍物的碰撞。

步骤4.3、横纵向联合制动避撞控制任务迭代优化训练:

初始化超参数，进行循环训练。在每个训练回合中，现实Q2网络接收到状态输入，输出五个动作的Q值，智能体使用贪婪算法选择动作，获得奖励，到达下一个状态。将状态，动作，奖励，下一状态，是否结束标志打包成一个五元组(S、A、R、S_t+1、done)，作为一条经验存放入经验回放池里。目标Q2网络从经验池中随机抽取一批经验，其输出的Q值与现实Q2网络输出的Q值作均方差，此为神经网络的LOSS损失，神经网络的优化目标就是最小化这个损失，使得现实Q2网络输出的动作都可以尽可能的接近于目标Q2网络输出的Q值，继续执行下一个动作，如此循环往复训练。算法目标同样是训练智能体能学会一个最大化奖励的策略，在保证安全性、效率性与舒适性下避免与目标障碍物的碰撞。

步骤4.4、将两个任务中现实网络Q1及现实网络Q2的神经网络参数保存下来，作为在线神经网络控制器。TTC在1.5秒至4秒时选择现实网络Q1作为控制器，输出纵向制动动作。TTC在0.5秒至1.5秒时选择现实网络Q2作为控制器，输出横向或者纵向控制动作，实现避撞任务。

本发明的有益效果是：本发明基于DQN深度强化学习算法的紧急避撞控制方法，可以在面对复杂多变的环境且具有多重约束的复杂***中提高制动效果的安全性和可靠性，减少交通事故发生的数量及其损失；本发明从端到端控制入手，跳出形式化建模，形成面向多场景行驶环境并搭载智能体的拟人化自动紧急制动策略交互式学习方法，本发明可以根据车辆当前状态采取相应的驾驶行为，进而有效保证车辆制动策略的自适应能力；从技术方面，在传统AEB***基础上加上转向动作，作为智能驾驶的安全组成技术，其发展为智能驾驶的发展提供助力，保证智能驾驶的安全性，提高新能源汽车制动安全性，为新能源汽车智能制动的发展提供一定的参考。

附图说明

图1是本发明的实施步骤流程图。

图2是本发明的实验场景示意图。

图3是本发明的神经网络结构图。

图4是本发明的控制思路流程图。

具体实施方式

下面结合附图和实施对本发明进行详细的描述。

本发明提出一种基于DQN深度强化学习的紧急避撞控制方法，使用高维图像信息与一维传感器信息结合作为状态输入，结合多目标函数和多任务划分的训练方法。使得在前方有障碍物，自身车辆又无法完成制动避撞目标的情况下完成自动紧急转向，避免追尾或碰撞事故。如图1，具体包括以下步骤：

步骤1、子任务设计，其过程包括如下子步骤：

步骤1.1、建立紧急避撞过程的马尔可夫模型：

紧急避撞过程具备马尔可夫性，即下一时刻的车辆速度、加速度、位置信息、图像信息等只与当前状态有关，与历史状态无关。当前时刻车辆采取制动或者转向，就会影响下一时刻的车辆状态。马尔可夫决策过程基于交互对象智能体和环境进行构建，包括状态、动作、奖励函数三个要素。智能体感知当前的***状态，按照策略对环境实施动作，从而改变环境的状态得到奖励。状态、动作、状态转移概率、奖励和折扣因子的合集(S、A、P、R、γ)就构成了强化学习马尔可夫决策过程的五元组。本发明将跟紧急避撞过程建模为马尔可夫决策过程，通过离散状态空间学习最优决策，最大化累计奖励来实现安全与效率的联合最优化。

步骤1.2、纵向制动控制训练任务设计：

此任务中，如图2所示，停止线设定为距离障碍物3m处，小于3m定义为危险区域，理想停车线设定为距离障碍物6m处，3m至6m定义为理想停车区域，行人横穿马路触发点Ptrig是当汽车经过该位置时，行人开始运动穿越马路,。主车的初速度V_init在2.67m/s至16.67m/s之间随机选择，行人或者静止汽车在距离汽车(5·V_init)m处出现，行人随机从道路两端横穿马路，行人速度V_ped在1m/s至3m/s之间随机选择，静止汽车则出现在车道中央；碰撞时间TTC在1.5s至4s之间随机选择，行人启动时间或者静止汽车出现时间在与行人或者静止汽车纵向距离(TTC·V_init)m处；在此任务的碰撞时间TTC区间下主车面对的是一般场景，主车有充分的纵向制动距离，因此只训练汽车采取纵向制动动作来避让横穿马路的行人或者静止汽车。

步骤1.3、横纵向联合制动控制训练任务设计：

此任务中，停止线设定为距离障碍物0.5m处，小于0.5m至3m定义为危险区域，理想停车线设定为距离障碍物6m处，3m至6m定义为理想停车区域，行人横穿马路触发点Ptrig是当汽车经过该位置时，行人开始运动穿越马路。主车的初速度V_init在2.67m/s至16.67m/s之间随机选择，行人或者静止汽车在距离汽车(5V_init)m处出现，行人随机从道路两端横穿马路，行人速度V_ped在1m/s至3m/s之间随机选择，静止汽车则出现在车道中央；碰撞时间TTC在0.5s至1.5s之间随机选择，行人启动时间或者静止汽车出现时间在与行人或者静止汽车纵向距离(TTC·V_init)m处；在在此任务的碰撞时间TTC区间下主车面对的是紧急突发场景，当行驶至危险区域时，训练主车在面对横穿马路的行人时优先采取纵向制动动作保证安全，在面对静止汽车的时候优先采取转向制动动作来实现避让，让主车在面对不同障碍物时的制动行为更具有针对性。

步骤2.1.1、图像预处理：

首先将语义分割相机的视角调整为俯视图视角，调整相机的水平位置，获取以主车位置为图片中心的语义分割鸟瞰图，语义分割将每种物体分配像素类别，而每个类别在调色板中对应一种颜色，正常的语义分割图像中每一种事物颜色都有各自的数字标签，所以最终的输出分割图就是含有不同颜色块的一张图。在Carla中，例如建筑的数字标签为1，行人的数字标签为4，路灯的数字标签为5等等。但是在本发明中只保留车道线、主车和障碍物(人、静止汽车)的颜色各自不同的数字标签，把道路的数字标签改为1，车道线的数字标签改为2，汽车的数字标签改为5，行人的数字标签改为8，其他一切事物的颜色数字标签都改为4，即其他事物都为相同的颜色，即预处理过后的图像中只剩下车道线、主车、障碍物(人、静止汽车)和其他事物各自不同的5种颜色。目的是简化汽车周边关系不大的事物的颜色，着重区别汽车与道路、车道线和行人的颜色。

步骤2.1.2、信息拼接:

图像经过步骤2.1.1预处理之后，将经过一个卷积神经网络提取图像的特征信息，卷积网络π(z,p)具体包括三层卷积层和一层全连接层。其中z为高维图像信息，p为一维信息(主车速度V、相对距离d，相对速度V_rel)。如图3图像预处理部分所示，所述的三层卷积层均由大小为5×5的卷积核组成，步长stride＝2，激活函数为ReLU；所述的第一层全连接为全连接层FC1。全连接层FC1处理展平后的第三层卷积层Conv3的输出结果，大小为1×256，再通过Cat拼接函数把图像的一维特征矩阵与一维传感器信息(汽车自身速度、汽车与障碍物的相对距离、汽车与障碍物的相对速度)拼接起来，得到新的一维矩阵，拼接后大小为1×259，也即是DQN算法中的状态输入，作为后续输出动作的全连接网络的输入。

步骤2.2、动作空间设计；

步骤2.2.1、纵向制动控制训练任务的动作空间：

在该任务下，主车有充分的纵向制动距离，因此动作空间只包含汽车的纵向制动动作(无制动、弱制动、强制动)。如图3下部分所示，步骤2.1.2中拼接过后的一维矩阵作为状态输入到现实Q1网络中，该网络有两层全连接层，第一层全连接层输入神经元个数为259，输出神经元个数为128，第二层全连接层输入神经元个数为128，激活函数为leakyReLU，输出神经元个数为3，分别对应三个动作，输出为三个动作的Q值。

步骤2.2.2、横纵向联合制动控制训练任务的动作空间：

在此任务的大部分紧急场景中，主车的纵向制动距离都是不足够的，因此不仅训练汽车的纵向制动动作，还包括转向制动动作，动作空间包含汽车的纵向和横向动作(无制动、弱制动、强制动、制动并右转、制动并左转)。步骤2.1.2中拼接过后的一维矩阵作为状态输入到现实Q2网络中，该网络有两层全连接层，第一层全连接层FC2输入神经元个数为259，输出神经元个数为128，第二层全连接层FC3输入神经元个数为128，激活函数为leakyReLU，输出神经元个数为5，分别对应五个动作，输出为五个动作的Q值。

步骤3、多目标奖励函数设计，其目标包括安全性、效率性、舒适性；

为实现紧急避障控制时，车辆控制的稳定性和避障的安全性，本发明采用安全停车区域和危险区域对决策的奖励函数进行设计。在主车处于危险区域之外时，鼓励车辆采取制动措施可以制动，在主车位于危险区域时，鼓励车辆采取转向变道措施，当小于危险区域时，将大概率碰撞。奖励函数设计如下：

步骤3.1、纵向紧急避撞控制训练任务奖励函数设计：

该任务针对于TTC在1.5秒至4秒之间的一般情况，定义理想停车区域(3-6m)和危险区域(0-3m)对奖励函数进行设计，奖励函数设计为：

其中，V为汽车的汽车当前速度，d为汽车与前方障碍物的纵向距离，V_init为每个回合开始时汽车的初速度，ΔV为汽车上一时刻速度V_t-1与当前时刻速度V_t的差值；当汽车满足上述除了公式(3)第四个和最后一个判定条件的以外任一判定条件，获得相应的奖励并结束该回合的训练立刻进行下一回合的训练；停车区域的划分是为了安全性和道路通行的效率性，汽车相邻两时刻的速度变化是为了车辆的舒适性，防止过大的速度变化。

步骤3.2、横纵向联合紧急避撞控制训练任务奖励函数设计：

该任务针对于TTC在0.5秒至1.5秒之间的紧急突发情况，危险区域修改为(0.5-3m)，理想停车区域(3-6m)，为了训练当汽车行驶至危险区域时，面对横穿马路的行人时优先采取纵向制动动作保证安全，在面对静止汽车的时候优先采取转向制动动作来实现避让，因此奖励函数设计为：

其中，V为汽车的汽车当前速度，d为汽车与前方障碍物的纵向距离，k1，k2分别为鼓励和惩罚转向动作的权重系数，在障碍物为行人时候，k1＝1，在障碍物为静止汽车时候，k1＝10，在危险区域不发生碰撞的情况下，更加鼓励面对静止汽车采取转向动作，面对行人的时候优先采取纵向制动动作，k2＝-10，V_init为每个回合开始时汽车的初速度，ΔV为汽车上一时刻速度V_t-1与当前时刻速度V_t的差值，d_lat为汽车与车道中心线的横向距离；Carla仿真软件中的汽车宽度为1.8m，主车与静止汽车或者行人横向距离小于2m即视为发生碰撞并结束当前回合，因此当汽车满足上述除了公式(4)第五个和最后一个判定条件的以外任一判定条件，获得相应的奖励并结束该回合的训练立刻进行下一回合的训练；在危险区域的奖励中加入对横向距离的限制，相比于行人更加鼓励汽车在面对静止汽车时采取转向动作进行紧急避让，理想停车区域为3至6米，鼓励汽车在此区域区间采取纵向制动停车，如果汽车在此区域采取了转向变道动作，会给予比较大的负奖励，另外汽车在距离障碍物6米以外采取转向动作也是比较危险的，给予负奖励。

步骤4.1、DQN参数设置,DQN算法中设计几个比较重要的超参数设计。首先是折扣因子γ，在强化学***衡。探索时间占比指的是ε从1下降到最终ε的时间占总训练时间的比例，在(0,1)内取值，在本模型中最终ε取0.05，经历10000个回合从1缓慢降至0.05。

步骤4.2、纵向制动避撞控制任务迭代优化训练,纵向制动避撞控制任务具体算法步骤如下：

步骤4.2.1、初始化。首先初始化经验回放池D1，它的容量为N；初始化现实Q1网络，随机生成权重ω1；初始化目标Q1网络，权重为ω1'＝ω1；

步骤4.2.2循环遍历每个回合episode＝1,2,…,M：

步骤4.2.3每个回合开始，初始化状态S1；

步骤4.2.4用ε-greedy策略生成动作at：以ε概率选择一个随机的动作action，或选择at＝max_aQ(s_t,a；ω)；

步骤4.2.5主车执行动作at，与Carla中环境交互，接收即时奖励r_t及新的状态St+1；

步骤4.2.6将transition一组样本(S_t,a_t,r_t,S_t+1)存入经验回放池D中，作为训练神经网络的数据集；

步骤4.2.7从经验回放池D1中随机抽取一个批次minibatch的数据transitions(s_j,a_j,r_j,s_j+1)；

步骤4.2.8如果j+1步是到达终止状态的话，令y_j＝r_j，否则，令y_j＝r_j+γmax_a'Q(s_t+1,a'；ω')；

步骤4.2.9损失函数L＝(y_j-Q(s_t,a_j；ω))²,损失函数L为目标Q值与当前Q值的均方误差，训练过程中使得损失值最小，对L关于ω1使用梯度下降法进行更新现实Q1网络的参数；

步骤4.2.10每隔C步更新target Q网络，即把现实Q1网络的参数复制到目标Q1网络中，ω1'＝ω1；

步骤4.2.11循环训练直到最后算法收敛；

步骤4.3、横纵向联合制动避撞控制任务迭代优化训练,横纵向联合制动避撞控制任务具体算法步骤如下：

步骤4.3.1、初始化。首先初始化经验回放池D2，它的容量为N；初始化现实Q2网络，随机生成权重ω2；初始化目标Q2网络，权重为ω2'＝ω2；

步骤4.3.2循环遍历每个回合episode＝1,2,…,M：

步骤4.3.3每个回合开始，初始化状态S1；

步骤4.3.4用ε-greedy策略生成动作at：以ε概率选择一个随机的动作action，或选择at＝max_aQ(s_t,a；ω)；

步骤4.3.5主车执行动作at，与Carla中环境交互，接收即时奖励r_t及新的状态St+1；

步骤4.3.6将transition一组样本(S_t,a_t,r_t,S_t+1)存入经验回放池D2中，作为训练神经网络的数据集；

步骤4.3.7从经验回放池D2中随机抽取一个批次minibatch的数据transitions(s_j,a_j,r_j,s_j+1)；

步骤4.3.8如果j+1步是到达终止状态的话，令y_j＝r_j，否则，令y_j＝r_j+γmax_a'Q(s_t+1,a'；ω')；

步骤4.3.9损失函数L＝(y_j-Q(s_t,a_j；ω))²，损失函数L为目标Q值与当前Q值的均方误差，训练过程中使得损失值最小，对L关于ω2使用梯度下降法进行更新现实Q2网络的参数；

步骤4.3.10每隔C步更新target Q网络，即把现实Q2网络的参数复制到目标Q2网络中，ω2'＝ω2；

步骤4.3.11循环训练直到最后算法收敛；

步骤4.4、将两个任务中现实网络Q1及现实网络Q2的神经网络参数保存下来，作为在线神经网络控制器。如图4所示，TTC在1.5秒至4秒时，选择现实网络Q1作为控制器，输出纵向制动动作；TTC在0.5秒至1.5秒时，选择现实网络Q2作为控制器，输出横向或者纵向控制动作，实现避撞任务。

Claims

1.一种基于DQN深度强化学习的汽车紧急避撞控制方法，其特征在于，该方法包括子任务设计、状态与动作空间设计、多目标奖励函数设计、DQN参数设置及训练；子任务设计根据不同的紧急情况设计不同的训练任务；状态与动作空间设计首先将图像与传感器信息拼接作为状态输入，然后根据不同的训练任务设计不同的横纵向动作空间；多目标奖励函数设计使汽车的避让策略兼具安全性、效率性及舒适性；最后DQN参数设置及训练是根据实际对超参数进行设定，然后循环训练对网络参数进行迭代优化；

该方法包括以下步骤：

步骤1、子任务设计，其过程包括如下子步骤：

步骤1.1、建立紧急避撞过程的马尔可夫模型；

步骤1.2、纵向制动控制训练任务设计：

此任务中，主车的初速度V_init在2.67m/s至16.67m/s之间随机选择，行人或者静止汽车在距离汽车(5·V_init)m处出现，行人随机从道路两端横穿马路，行人速度V_ped在1m/s至3m/s之间随机选择，静止汽车则出现在车道中央；碰撞时间TTC在1.5s至4s之间随机选择，行人启动时间或者静止汽车出现时间为主车在与行人或者静止汽车纵向距离(TTC·V_init)m处，在此任务的碰撞时间TTC区间下主车面对的是一般场景，主车有充分的纵向制动距离，因此只训练主车采取纵向制动动作来避让横穿马路的行人或者静止汽车；

步骤1.3、横纵向联合制动控制训练任务设计：

此任务中，主车的初速度V_init在2.67m/s至16.67m/s之间随机选择，行人或者静止汽车在距离汽车(5·V_init)m处出现，行人随机从道路两端横穿马路，行人速度V_ped在1m/s至3m/s之间随机选择，静止汽车则出现在车道中央，碰撞时间TTC在0.5s至1.5s之间随机选择，行人启动时间或者静止汽车出现时间为主车在与行人或者静止汽车纵向距离(TTC·V_init)m处，在在此任务的碰撞时间TTC区间下主车面对的是紧急突发场景，当行驶至危险区域时，训练主车在面对横穿马路的行人时优先采取纵向制动动作保证安全，在面对静止汽车的时候优先采取转向制动动作来实现避让，让主车在面对不同障碍物时的制动行为更具有针对性；

步骤2.1.1、图像预处理：

首先将语义分割相机的视角调整为俯视图视角，获取以主车位置为图片中心的语义分割鸟瞰图，语义分割将每种物体分配像素类别，而每个类别在调色板中对应一种颜色，所以最终的输出分割图就是含有不同颜色块的一张图；但是在本发明中只保留车道线、主车和障碍物(人、静止汽车)的颜色各自不同的数字标签，其他一切事物颜色的数字标签都改为相同数字，即预处理过后的图像中只剩下车道线、主车、障碍物(人、静止汽车)和其他事物各自不同的5种颜色；

步骤2.1.2、信息拼接:

图像经过步骤2.1.1预处理之后，将经过一个卷积神经网络提取图像的特征信息，卷积神经网络包含三层卷积层和一个全连接层，卷积层提取语义分割俯视图的特征信息，全连接层将图像的信息展平为一维矩阵，再通过Cat拼接函数把图像的一维特征矩阵与一维传感器信息(汽车自身速度、汽车与障碍物的相对距离、汽车与障碍物的相对速度)拼接起来，得到新的一维矩阵，也即是DQN算法中的状态输入；

步骤2.2、动作空间设计；

步骤2.2.1、纵向制动控制训练任务的动作空间：

在该任务下，主车有充分的纵向制动距离，因此动作空间只包含汽车的纵向制动动作(无制动、弱制动、强制动)，步骤2.1.2中拼接过后的一维矩阵作为状态输入到现实Q1网络中，该网络有两层全连接层，输出三个动作的Q值；

步骤2.2.2、横纵向联合制动控制训练任务的动作空间：

在此任务的大部分场景中，汽车面对的是紧急突发情况，因此不仅训练汽车的纵向制动动作，还包括转向制动动作，动作空间包含汽车的纵向和横向动作(无制动、弱制动、强制动、制动并右转、制动并左转)，步骤2.1.2中拼接过后的一维矩阵作为状态输入到现实Q2网络中，该网络有两层全连接层，输出五个动作的Q值；

为实现紧急避障控制时，车辆控制的稳定性和避障的安全性，本发明采用理想停车区域和危险区域的划分对奖励函数进行设计，在主车处于危险区域之外时，鼓励车辆采取制动措施可以制动，在主车位于危险区域时，鼓励车辆采取转向变道措施，当距离小于危险区域时，将大概率碰撞，奖励函数设计如下:

步骤3.1、纵向紧急避撞控制训练任务奖励函数设计:

该任务针对于碰撞时间TTC在1.5秒至4秒之间的一般情况，定义理想停车区域(3-6m)和危险区域(0-3m)对决策的奖励函数进行设计，奖励函数设计为：

其中，V为汽车的汽车当前速度，d为汽车与前方障碍物的纵向距离，V_init为每个回合开始时汽车的初速度，ΔV为汽车上一时刻速度V_t-1与当前时刻速度V_t的差值；当汽车满足除了公式(1)第四个和最后一个判定条件的以外任一判定条件，获得相应的奖励并结束该回合的训练立刻进行下一回合的训练；停车区域的划分是为了安全性和道路通行的效率性，汽车相邻两时刻的速度变化是为了车辆的舒适性，防止过大的速度变化；

步骤3.2、横纵向联合紧急避撞控制训练任务奖励函数设计:

该任务针对于碰撞时间TTC在0.5秒至1.5秒之间的紧急突发情况，危险区域修改为(0.5-3m)，理想停车区域(3-6m)，为了训练当汽车行驶至危险区域时，面对横穿马路的行人时优先采取纵向制动动作保证安全，在面对静止汽车的时候优先采取转向制动动作来实现避让，因此奖励函数设计为：

其中，V为汽车的汽车当前速度，d为汽车与前方障碍物的纵向距离，k1，k2分别为鼓励和惩罚转向动作的权重系数，在障碍物为行人时候，k1＝1，在障碍物为静止汽车时候，k1＝10，在危险区域不发生碰撞的情况下，更加鼓励面对静止汽车采取转向动作，面对行人的时候优先采取纵向制动动作，k2＝-10，V_init为每个回合开始时汽车的初速度，ΔV为汽车上一时刻速度V_t-1与当前时刻速度V_t的差值，d_lat为汽车与静止汽车或者行人的横向距离；Carla仿真软件中的汽车宽度为1.8m，主车与静止汽车或者行人横向距离小于2m即视为发生碰撞并结束当前回合，因此当汽车满足上述除了公式(2)第五个和最后一个判定条件的以外任一判定条件，获得相应的奖励并结束该回合的训练立刻进行下一回合的训练；在危险区域的奖励中加入对横向距离的限制，相比于行人更加鼓励汽车在面对静止汽车时采取转向动作进行紧急避让，理想停车区域为3至6米，鼓励汽车在此区域区间采取纵向制动停车，如果汽车在此区域采取了转向变道动作，会给予比较大的负奖励，另外汽车在距离障碍物6米以外采取转向动作也是比较危险的，给予负奖励；

步骤4.1、DQN参数设配置，DQN算法中设计几个比较重要的超参数设计；首先是折扣因子γ，取值范围(0，1]；γ越大智能体agent往前考虑的步数越多，折扣因子的取值原则是，在算法能够收敛的前提下尽可能大，在本模型中取0.95；然后是全连接神经网络的学***衡，探索时间占比指的是ε从1下降到最终ε的时间占总训练时间的比例，在(0，1)内取值，通常来说，复杂任务的探索时间占比应设得大一些，以保证充分的探索，在本模型中最终ε取0.05，经历10000个回合从1缓慢降至0.05；

步骤4.2、纵向制动避撞控制任务迭代优化训练:

初始化超参数，进行循环训练，在每个训练回合中，现实Q1网络接收到状态输入，输出三个动作的Q值；智能体使用贪婪算法选择动作，获得奖励，到达下一个状态；将状态，动作，奖励，下一状态，是否结束标志打包成一个五元组，作为一条经验存放入经验回放池里；目标Q1网络从经验池中随机抽取一批经验，其输出的Q值与现实Q1网络输出的Q值作均方差，此为神经网络的LOSS损失，神经网络的优化目标就是最小化这个损失，使得现实Q1网络输出的动作都可以尽可能的接近于目标Q1网络输出的Q值，继续执行下一个动作，如此循环往复训练；算法目标是训练智能体能学会一个最大化奖励的策略，在保证安全性、效率性与舒适性下避免与目标障碍物的碰撞；

步骤4.3、横纵向联合制动避撞控制任务迭代优化训练:

初始化超参数，进行循环训练，在每个训练回合中，现实Q2网络接收到状态输入，输出五个动作的Q值，智能体使用贪婪算法选择动作，获得奖励，到达下一个状态；将状态、动作、奖励、下一状态，是否结束标志打包成一个五元组，作为一条经验存放入经验回放池里；目标Q2网络从经验池中随机抽取一批经验，其输出的Q值与现实Q2网络输出的Q值作均方差，此为神经网络的LOSS损失，神经网络的优化目标就是最小化这个损失，使得现实Q2网络输出的动作都可以尽可能的接近于目标Q2网络输出的Q值，继续执行下一个动作，如此循环往复训练；算法目标是训练智能体能学会一个最大化奖励的策略，在保证安全性、效率性与舒适性下避免与目标障碍物的碰撞；

步骤4.4、将两个任务中目标Q1网络及目标Q2网络的神经网络参数保存下来，作为在线神经网络控制器，TTC在1.5秒至4秒时选择目标Q1网络作为控制器，输出纵向制动动作，TTC在0.5秒至1.5秒时选择目标Q2网络作为控制器，输出横向或者纵向控制动作，实现避撞任务。