CN112622886A

CN112622886A - 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法

Info

Publication number: CN112622886A
Application number: CN202011512720.8A
Authority: CN
Inventors: 李旭; 胡玮明; 胡锦超; 常彬
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-12-20
Filing date: 2020-12-20
Publication date: 2021-04-09
Anticipated expiration: 2040-12-20
Also published as: CN112622886B

Abstract

本发明公开了一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法。首先，针对中国的道路行驶环境，搭建驾驶模拟仿真平台，采集多种行驶工况下优秀驾驶员的典型驾驶行为。其次，引入基于最大熵的逆向强化学习算法，学习人类优秀驾驶员的驾驶行为。最后，将防碰撞预警策略问题描述为马尔科夫决策过程，建立基于正向强化学习的防碰撞驾驶决策模型，得到准确、可靠、具有适应性的防碰撞预警策略。本发明提出的方法，综合考虑前向、后向障碍物对车辆碰撞的影响，为驾驶员提供节气门开度、方向盘转角控制量等精确量化的驾驶建议，且能够适应不同的行驶工况和驾驶员操作，克服了现有的重型营运车辆防碰撞预警方法缺乏准确性、适应性的问题。

Description

一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法

技术领域

本发明涉及一种车辆防碰撞预警策略，尤其涉及一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法，属于汽车安全技术领域。

背景技术

营运车辆作为道路运输的主要承担者，其安全状况直接影响道路交通运输安全。不同于小型乘用车辆，营运客、货运输车辆多为大、中型车辆，具有质心位置高、外廓尺寸和总质量大等特点，且车辆运营强度大、运行时间长、运行环境复杂。运输过程中一旦发生交通事故，易导致群死群伤、货物脱落、燃烧、***等严重后果，造成财产损失、环境污染、生态破坏等恶劣影响，且极易诱发大型、特大型安全事故，严重威胁社会公共安全。

相关研究表明，碰撞是道路运输过程中最主要的事故形态，前向碰撞在碰撞事故中所占的比例最大，特别是在高速公路上的碰撞事故大多都是前向碰撞。虽然后向碰撞发生频率相对较低，但是对于以危险品运输罐车为代表的重型营运车辆而言，后向碰撞更容易导致罐体破损，进而引发罐内危险品泄漏甚至燃烧、***，产生的次生伤害远远超过事故本身所造成的伤害，具有更高的危险性。美国公路交通安全管理局的相关统计数据表明，在碰撞事故发生前，如果能对驾驶员进行预警提示并增加0.5秒的预处理时间，则会减少约30％至60％的车辆碰撞事故。因此，研究准确、可靠的重型营运车辆前后向防碰撞预警策略，对于提升危险品运输安全保障能力、提高道路交通安全具有重要的作用。

目前，已有较多专利、文献对车辆防碰撞预警策略进行了研究，但大多面向小型乘用车辆。相比于乘用车辆，重型营运车辆具有质心位置较高、载重量较大等特点，导致其制动距离较长、侧倾稳定性较差，在紧急制动或变道过程中，罐内液体或挂车上的货物晃动会进一步增加车辆的不稳定性，极易失稳而发生侧翻。因此，面向乘用车辆的防碰撞预警策略，难以适用于重型营运车辆。

在针对重型营运车辆的防碰撞预警策略研究中，目前仅针对前方或后方等单一方向的碰撞危险程度进行分级预警提示，且未考虑驾驶员操作、行驶工况等因素对车辆碰撞的影响。目前的方法虽然可以起到一定的预警作用，但存在对不同行驶工况的适应性差、预警不准确的问题，难以适应复杂多变的交通环境和波动差异的车辆行驶工况。此外，现有方法主要采用声音、灯光等形式进行预警提示，未涉及提供行驶速度、行驶轨迹等具体驾驶建议的防碰撞预警策略研究，缺乏准确性和可靠性。

总体而言，目前针对重型营运车辆的防碰撞预警策略研究，在准确性、适应性等方面仍存在较大的不足，尚缺乏准确、可靠、自适应驾驶员操作和行驶工况的重型营运车辆防碰撞预警策略研究。

发明内容

发明目的：针对重型营运车辆防碰撞预警方法缺乏准确性、适应性的问题，本发明公开了一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法。该方法能够为驾驶员提供节气门开度、方向盘转角控制量等精确量化的驾驶建议，且能够适应不同的行驶工况和驾驶员操作，提高了重型营运车辆防碰撞预警方法的准确性和适应性。

技术方案：本发明针对重型营运车辆，如半挂罐车、半挂列车，提出了一种综合考虑前后障碍物的防碰撞预警策略。首先，针对中国的道路行驶环境，搭建驾驶模拟仿真平台，采集多种行驶工况下优秀驾驶员的典型驾驶行为。其次，引入基于最大熵的逆向强化学习算法，学习人类优秀驾驶员的驾驶行为。最后，将防碰撞预警策略问题描述为马尔科夫决策过程，建立基于正向强化学习的防碰撞驾驶决策模型，得到准确、可靠、具有适应性的防碰撞预警方法。包括以下步骤：

步骤一：搭建驾驶模拟仿真平台

为了降低因车辆碰撞造成的交通事故发生频率，提高重型营运车辆的安全性，本发明提出了一种防碰撞预警策略，其适用的场景为：在重型营运车辆行驶过程中，车辆前方、后方均存在障碍物，为了防止与周围车辆发生碰撞，应有效、及时地为驾驶员提供加减速、转向等决策策略，以避免碰撞事故的发生。

根据以上描述的场景，搭建驾驶模拟仿真平台，并采集优秀驾驶员在真实驾驶环境下的驾驶行为。具体包括：

首先，搭建基于Prescan的驾驶模拟仿真平台，针对中国的道路行驶环境，构建包含直道、弯道的城镇虚拟环境模型，驾驶员通过驾驶模拟器控制重型营运车辆运动。

其次，在重型营运车辆上安装厘米级高精度差分GPS、惯性测量单元和毫米波雷达，以获取精确的自车运动状态信息和相对运动状态信息，具体包括位置、速度、偏航角、加速度、相对速度和相对距离。同时，利用车身CAN总线获取驾驶员的控制信息，包括制动踏板压力、方向盘转角和节气门开度。

最后，设计车道变换、车道保持、车辆跟驰、匀速、加速、减速6种行驶工况，选取30名不同年龄、不同驾驶风格的优秀驾驶员进行数据采集试验，在时空全局统一坐标系下实现对优秀驾驶员各种典型驾驶行为的数据采集，构建优秀驾驶员的驾驶数据库。

在本发明中，前方车辆是指位于重型营运车辆行驶道路前方，且位于同一车道线内、行驶方向相同的车辆。后方车辆是指位于重型营运车辆行驶道路后方，且位于同一车道线内、行驶方向相同的车辆。

步骤二：学习人类优秀驾驶员的驾驶行为

为了提高防碰撞预警策略的适应性，本发明引入基于最大熵的逆向强化学习算法，对步骤一采集的优秀驾驶员在不同行驶工况下的驾驶行为进行学习。

在实际交通场景下，优秀驾驶员的驾驶行为通常不容易显式表达，但获取优秀驾驶行为产生的行驶轨迹相对容易。考虑到所有可能出现的轨迹中，优秀驾驶员的行驶轨迹对应的报酬值最大，本发明利用报酬函数表征人类优秀驾驶员的驾驶行为。

首先，建立优秀驾驶员行驶轨迹的报酬函数：

式(1)中，ξ_i表示第i条优秀驾驶员的行驶轨迹，且ξ_i＝{(S₁,A₁),(S₂,A₂),...,(S_m,A_m)}，m表示采集的优秀驾驶员的行驶轨迹数量，r_θ(ξ_i)表示第i条优秀驾驶员行驶轨迹的特征向量，即这条驾驶轨迹的报酬函数，r_θ(S_i,A_i)表示这条轨迹中第i个“状态-动作”的报酬值，S_i表示i时刻的状态，A_i表示i时刻的动作。

考虑到优秀驾驶员往往根据行驶速度、偏航角、与车道线的距离、与前后障碍物的距离等变量进行驾驶决策，本发明利用纵向速度、横向速度、偏航角、与前后障碍物的距离对报酬值进行线性拟合。

r_θ(S_i,A_i)＝r_θ(φ₁,φ₂,φ₃,φ₄)＝θ^rT·φ (2)

式(2)中，特征值φ₁＝v_sxcosψ_s,φ₂＝v_sysinψ_s,φ₃＝d_sf-d₀,φ₄＝d_sr-d₀，v_sx,v_sy分别表示重型营运车辆的横向速度和纵向速度，单位为米每秒，ψ_s为偏航角，单位为度，d_sf,d_sr分别表示重型营运车辆与前方车辆、后方车辆的相对车间距，单位为米，θ^rT为系数矩阵，φ表示拟合后的特征值。

拥有最大熵的轨迹概率可表示为：

式(3)中，p(ξ_iθ)表示拥有最大熵的轨迹的概率，Z(θ)为配分函数，且

表示策略π_t-1下的轨迹数据，n表示当前策略下采样轨迹的数量。

其次，建立优秀驾驶员行驶轨迹的概率模型，利用最大信息熵原理，求解拥有最大熵的行驶轨迹，具体如式(4)所示：

式(4)中，

表示采集的优秀驾驶员的行驶轨迹。

利用拉格朗日乘子法，将式(4)转化为：

式(5)中，J(θ)为损失函数。

考虑到优秀驾驶员行驶轨迹出现的概率越大，报酬函数越能表达优秀驾驶员的驾驶行为，将式(5)描述为：

利用梯度下降方法最小化报酬函数，得到报酬函数的全局最优解：

最后，利用梯度下降算法对报酬函数的参数进行优化，进而学习到报酬函数的全局最优解。根据优化后的参数θ^r，可以输出当前的报酬函数r_θ(S_i,A_i)，即表征优秀驾驶员驾驶行为的函数。

步骤三：建立防碰撞驾驶决策模型

本发明采用DDPG算法，并基于步骤一采集的优秀驾驶员的驾驶行为和步骤二获取的优秀驾驶策略，建立防碰撞驾驶决策模型，研究不同驾驶员操作和行驶工况下的防碰撞预警策略。具体包括以下4个子步骤：

子步骤1：定义防碰撞驾驶决策模型的基础参数

考虑到重型营运车辆的未来运动状态同时受当前运动状态和当前动作影响，本发明将防碰撞驾驶决策问题建模为马尔科夫决策过程，并对模型的基础参数进行定义：t时刻的状态S_t、t+1时刻的状态S_t+1、t时刻的动作A_t以及动作A_t对应的回报值R_t；具体地：

(1)定义状态空间

重型营运车辆的行驶安全不仅与车辆自身的运动状态有关，还与前、后障碍物的相对运动状态有关。因此，利用步骤一获取的运动状态信息，定义状态空间：

S_t＝(v_sx,v_sy,v_sf,v_sr,a_sx,a_sy,d_sf,d_sr,ω_s,θ_s,δ_br,δ_thr) (8)

式(8)中，v_sf,v_sr分别表示重型营运车辆与前方车辆、后方车辆的相对速度，单位为米每秒；a_sx,a_sy分别表示重型营运车辆的横向加速度和纵向加速度，单位为米每二次方秒；ω_s为车辆的横摆角速度，单位为弧度每秒；θ_s为车辆的方向盘转角，单位为度，δ_br,δ_thr分别表示车辆制动踏板开度、节气门开度，单位为百分数。

(2)定义动作决策

为了建立更为准确、可靠的防碰撞预警策略，本发明兼顾车辆的横向运动和纵向运动，同时考虑到车辆的节气门和制动踏板控制量不会同时出现，将方向盘转角和加速/制动归一量作为控制量，定义决策模型输出的预警策略，即动作决策A_t＝[θ_{str_out},δ_{s_out}]。

其中，A_t为t时刻的动作决策，θ_{str_out}表示归一化后的方向盘转角控制量，范围为[-1,1]，δ_{s_out}表示加速/制动归一量，范围为[-1,1]。当δ_{s_out}＝0时，表示重型营运车辆匀速运动，当δ_{s_out}＝-1时，表示车辆以最大减速度进行制动，当δ_{s_out}＝1时，表示车辆以最大加速度进行加速。

(3)定义奖励函数

定义奖励函数为：

R_t＝r₁+r₂+r₃ (9)

式(9)中，R_t为t时刻的奖励函数，r₁为安全距离奖励函数，r₂为舒适性奖励函数，r₃为惩罚函数。

首先，为了防止车辆发生碰撞，设计安全距离奖励函数r₁：

式(10)中，d₀安全距离阈值。

其次，为了保证车辆的驾驶舒适性，应尽可能的避免出现过大的冲击度，设计舒适性奖励函数r₂＝|a_sy(t+1)-a_sy(t)|。

最后，为了对车辆的错误动作进行判断，设计惩罚函数r₃：

式(11)中，S_pen为惩罚项，在本发明中，取S_pen＝-100，表示当车辆发生碰撞或侧翻时，决策模型将得到-100的惩罚。

子步骤2：搭建防碰撞决策模型的网络架构

利用“策略-评价”网络框架搭建防碰撞驾驶决策网络，包括策略网络和值函数网络两部分。其中，策略网络用于对状态S_t的特征提取，并对特征进行回归，从而输出连续动作A_t；值函数网络用于接收状态S_t和动作A_t，从而评估当前“状态-动作”的价值。具体地：

(1)设计策略网络

利用多个全连接层结构的神经网络建立策略网络。首先，将归一化后的状态空间S_t输入到全连接层F₁，其次，与全连接层F₂、全连接层F₃，最后，得到输出O₁，即动作决策A_t。

考虑到状态空间的维度为12，设置状态输入层的神经元数量为12。各全连接层的激活函数均为线性整流单元(Rectified Linear Unit,ReLU)，其表达式为f(x)＝max(0,x)，全连接层F₁、F₂、F₃的神经元数量分别为20，20，10。

(2)设计值函数网络

利用多个全连接层结构的神经网络建立值函数网络。首先，将归一化后的状态量S_t和动作A_t输入到全连接层F₄，其次，与全连接层F₅、全连接层F₆，最后，得到输出O₂，即Q值。

各全连接层的激活函数均为ReLU，全连接层F₄、F₅、F₆的神经元数量分别为20，20，10。

子步骤3：训练策略网络和值函数网络

策略网络和值函数网络均存在各自的网络参数，在训练迭代时更新这两部分的网络参数，使得网络收敛以得到更佳的结果。具体训练更新步骤包括：

子步骤3.1：采集优秀驾驶员的轨迹数据

子步骤3.2：利用式(2)建立报酬函数，并初始化值函数网络参数θ^Q、策略网络参数θ^μ和参数θ^r；

子步骤3.3：将式(9)作为初始策略优化目标，利用DDPG算法进行策略优化(参见文献：Lillicrap,T.,J.Hunt,A.Pritzel,N.Heess,T.Erez,Y.Tassa,D.Silver andDaanWierstra.Continuous control with deep reinforcement learning[C]//International Conference on Learning Representations(ICLR).2016:1-14.)，获得初始策略π₀；

子步骤3.4：进行迭代求解，每一次迭代包括子步骤3.41至子步骤3.43，具体地：

子步骤3.41：收集策略π_t-1下的轨迹数据

子步骤3.42：根据轨迹数据

和

拟合配分函数Z(θ)；

子步骤3.43：利用随机梯度下降算法最小化式(7)，优化报酬函数参数

子步骤3.44：将优化后的报酬函数r_θ(S_i,A_i)作为优化目标，利用DDPG算法进行策略优化，更新值函数网络参数θ^Q和策略网络参数θ^μ；

子步骤3.45：计算报酬函数的更新幅度，当报酬函数的更新幅度小于给定阈值时，此时的报酬函数为最优的报酬函数。

子步骤3.5：按照子步骤3.4提供的方法进行迭代更新，使策略网络和值函数网络逐渐收敛。在训练过程中，若车辆发生碰撞或侧翻，则终止当前回合并开始新的回合进行训练。当重型营运车辆利用模型输出的决策策略稳定有效地避免车辆碰撞时，表示迭代完成。

子步骤4：利用防碰撞驾驶决策模型输出防碰撞预警策略

将厘米级高精度差分GPS、惯性测量单元和毫米波雷达等传感器采集的信息输入到已训练的防碰撞驾驶决策网络中，可以实时输出合理的方向盘转角和节气门开度命令，为驾驶员提供精确量化、可靠的驾驶建议，从而实现了准确、可靠、自适应驾驶员操作和行驶工况的重型营运车辆防碰撞预警策略输出。

有益效果：相比于一般的车辆防碰撞预警策略，本发明提出的方法具有更为准确、可靠、自适应的特点，具体体现在：

(1)本发明提出的方法综合考虑前向和后向障碍物对车辆碰撞的影响，以数值的形式将行驶速度、方向盘转向等驾驶策略精确量化，实现了准确、可靠的重型营运车辆防碰撞预警决策。

(2)本发明提出的方法能够适应不同的驾驶员操作和行驶工况，输出的驾驶策略能够根据驾驶员操作和行驶工况变化自适应调整，解决了现有的重型营运车辆防碰撞预警策略缺乏准确性、适应性的问题。

(3)本发明提出的方法不需进行复杂的车辆动力学建模，计算方法简单清晰。

附图说明

图1是本发明的技术路线示意图；

图2是本发明建立的防碰撞驾驶决策模型的网络架构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明。

为了建立准确、可靠、自适应驾驶员操作和行驶工况的防碰撞预警策略，本发明针对重型营运车辆，如半挂列车、半挂罐车，提出了一种综合考虑前后障碍物的防碰撞预警策略。首先，针对中国的道路行驶环境，搭建驾驶模拟仿真平台，采集多种行驶工况下优秀驾驶员的典型驾驶行为。其次，引入基于最大熵的逆向强化学习算法，学习人类优秀驾驶员的驾驶行为。最后，将防碰撞预警策略问题描述为马尔科夫决策过程，建立基于正向强化学习的防碰撞驾驶决策模型，得到准确、可靠、具有适应性的防碰撞预警策略。本发明的技术路线如图1所示，具体步骤如下：

步骤一：搭建驾驶模拟仿真平台

步骤二：学习人类优秀驾驶员的驾驶行为

首先，建立优秀驾驶员行驶轨迹的报酬函数：

r_θ(S_i,A_i)＝r_θ(φ₁,φ₂,φ₃,φ₄)＝θ^rT·φ (2)

拥有最大熵的轨迹概率可表示为：

式(4)中，

表示采集的优秀驾驶员的行驶轨迹。

利用拉格朗日乘子法，将式(4)转化为：

式(5)中，J(θ)为损失函数。

步骤三：建立防碰撞驾驶决策模型

常见的防碰撞预警策略，主要包括基于***物理模型和基于数据驱动的方法。基于***物理模型的防碰撞预警策略，是将表征碰撞危险的实际值与设定的报警阈值进行比较，当实际值超过阈值时进行碰撞预警，然而，在车辆运动过程中，车辆运动参数、道路条件和后方交通状态均存在不确定性，使得这些方法缺乏准确性和环境适应性。在基于数据驱动的方法中，深度强化学习方法将深度学习的感知能力和强化学习的决策能力相结合，对不确定性问题具有适应性特点。因此，本发明采用深度强化学习算法，并综合考虑前向、后向障碍物对车辆碰撞的影响，建立重型营运车辆的防碰撞驾驶决策模型。

基于深度强化学习的决策方法主要包括：基于值函数、基于策略搜索和基于Actor-Critic架构的决策方法三类。基于值的深度强化学习算法不能处理连续输出的问题，无法满足防碰撞决策中连续输出驾驶策略的需求。相比于基于策略搜索的方法，基于Actor-Critic架构的决策方法结合了值函数估计和策略搜索，具有较快的更新速度，其中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法借鉴了深度Q网络(Deep Q Network,DQN)经验回放的思路，在输出连续动作空间方面取得了较好的效果。因此，本发明采用DDPG算法，并基于步骤一采集的优秀驾驶员的驾驶行为和步骤二获取的优秀驾驶策略，建立防碰撞驾驶决策模型，研究不同驾驶员操作和行驶工况下的防碰撞预警策略。具体包括以下4个子步骤：

子步骤1：定义防碰撞驾驶决策模型的基础参数

(1)定义状态空间

S_t＝(v_sx,v_sy,v_sf,v_sr,a_sx,a_sy,d_sf,d_sr,ω_s,θ_s,δ_br,δ_thr) (8)

式(8)中，v_sf,v_sr分别表示重型营运车辆与前方车辆、后方车辆的相对速度，单位为米每秒；a_sx,a_sy分别表示重型营运车辆的横向加速度和纵向加速度，单位为米每二次方秒；ω_s为重型营运车辆的横摆角速度，单位为弧度每秒；θ_s为重型营运车辆的方向盘转角，单位为度，δ_br,δ_thr分别表示重型营运车辆制动踏板开度、节气门开度，单位为百分数。

(2)定义动作决策

(3)定义奖励函数

为了实现对动作决策A_t优劣的定量评价，通过建立回报函数的方式，将评价具体化和数值化。若执行动作A_t之后能够使重型营运车辆的行驶状态更加安全，则回报值为奖赏，否则，回报值为惩罚，使得防碰撞驾驶决策模型对上一次执行的错误动作有一定的判断。

不同于乘用车辆，重型营运车辆具有质心位置较高、载重量较大等特点，在紧急制动、转向、变道过程中，容易发生侧翻。因此，在建立防碰撞预警策略时，需同时考虑车辆碰撞、侧翻的发生。定义奖励函数为：

R_t＝r₁+r₂+r₃ (9)

首先，为了防止车辆发生碰撞，设计安全距离奖励函数r₁：

式(10)中，d₀安全距离阈值。

最后，为了对车辆的错误动作进行判断，设计惩罚函数r₃：

子步骤2：搭建防碰撞决策模型的网络架构

利用“策略-评价”网络框架搭建防碰撞驾驶决策网络，包括策略网络和值函数网络两部分。其中，策略网络用于对状态S_t的特征提取，并对特征进行回归，从而输出连续动作A_t；值函数网络用于接收状态S_t和动作A_t，从而评估当前“状态-动作”的价值。网络架构如图2所示，具体地：

(1)设计策略网络

(2)设计值函数网络

子步骤3：训练策略网络和值函数网络

子步骤3.1：采集优秀驾驶员的轨迹数据

子步骤3.41：收集策略π_t-1下的轨迹数据

子步骤3.42：根据轨迹数据

和

拟合配分函数Z(θ)；

子步骤4：利用防碰撞驾驶决策模型输出防碰撞预警策略

Claims

1.一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法，其特征在于：该方法包括如下步骤：

步骤一、搭建驾驶模拟仿真平台：

搭建一个在重型营运车辆行驶过程中，车辆前方、后方均存在障碍物的驾驶模拟仿真平台，并采集优秀驾驶员在真实驾驶环境下的驾驶行为；具体包括：

首先，搭建基于Prescan的驾驶模拟仿真平台，构建包含直道、弯道的城镇虚拟环境模型，驾驶员通过驾驶模拟器控制重型营运车辆运动；

其次，在重型营运车辆上安装厘米级高精度差分GPS、惯性测量单元和毫米波雷达，以获取精确的自车运动状态信息和相对运动状态信息，具体包括位置、速度、偏航角、加速度、相对速度和相对距离；同时，利用车身CAN总线获取驾驶员的控制信息，包括制动踏板压力、方向盘转角和节气门开度；

最后，设计车道变换、车道保持、车辆跟驰、匀速、加速、减速6种行驶工况，选取30名不同年龄、不同驾驶风格的优秀驾驶员进行数据采集试验，在时空全局统一坐标系下实现对优秀驾驶员各种典型驾驶行为的数据采集，构建优秀驾驶员的驾驶数据库；

定义前方车辆是指位于重型营运车辆行驶道路前方，且位于同一车道线内、行驶方向相同的车辆；后方车辆是指位于重型营运车辆行驶道路后方，且位于同一车道线内、行驶方向相同的车辆；

步骤二：学习人类优秀驾驶员的驾驶行为

引入基于最大熵的逆向强化学习算法，对步骤一采集的优秀驾驶员在不同行驶工况下的驾驶行为进行学习；

利用报酬函数表征人类优秀驾驶员的驾驶行为；

首先，建立优秀驾驶员行驶轨迹的报酬函数：

式(1)中，ξ_i表示第i条优秀驾驶员的行驶轨迹，且ξ_i＝{(S₁,A₁),(S₂,A₂),...,(S_m,A_m)}，m表示采集的优秀驾驶员的行驶轨迹数量，r_θ(ξ_i)表示第i条优秀驾驶员行驶轨迹的特征向量，即这条驾驶轨迹的报酬函数，r_θ(S_i,A_i)表示这条轨迹中第i个“状态-动作”的报酬值，S_i表示i时刻的状态，A_i表示i时刻的动作；

利用纵向速度、横向速度、偏航角、与前后障碍物的距离对报酬值进行线性拟合；

r_θ(S_i,A_i)＝r_θ(φ₁,φ₂,φ₃,φ₄)＝θ^rT·φ (2)

式(2)中，特征值φ₁＝v_sxcosψ_s,φ₂＝v_sysinψ_s,φ₃＝d_sf-d₀,φ₄＝d_sr-d₀，v_sx,v_sy分别表示重型营运车辆的横向速度和纵向速度，单位为米每秒，ψ_s为偏航角，单位为度，d_sf,d_sr分别表示重型营运车辆与前方车辆、后方车辆的相对车间距，单位为米，θ^rT为系数矩阵，φ表示拟合后的特征值；

拥有最大熵的轨迹概率可表示为：

式(3)中，p(ξ_i|θ)表示拥有最大熵的轨迹的概率，Z(θ)为配分函数，且

表示策略π_t-1下的轨迹数据，n表示当前策略下采样轨迹的数量；

式(4)中，

表示采集的优秀驾驶员的行驶轨迹；

利用拉格朗日乘子法，将式(4)转化为：

式(5)中，J(θ)为损失函数；

最后，利用梯度下降算法对报酬函数的参数进行优化，进而学习到报酬函数的全局最优解；根据优化后的参数θ^r，可以输出当前的报酬函数r_θ(S_i,A_i)，即表征优秀驾驶员驾驶行为的函数；

步骤三：建立防碰撞驾驶决策模型

采用DDPG算法，并基于步骤一采集的优秀驾驶员的驾驶行为和步骤二获取的优秀驾驶策略，建立防碰撞驾驶决策模型，研究不同驾驶员操作和行驶工况下的防碰撞预警策略；具体包括以下4个子步骤：

子步骤1：定义防碰撞驾驶决策模型的基础参数

将防碰撞驾驶决策问题建模为马尔科夫决策过程，并对模型的基础参数进行定义：t时刻的状态S_t、t+1时刻的状态S_t+1、t时刻的动作A_t以及动作A_t对应的回报值R_t；具体地：

(1)定义状态空间

重型营运车辆的行驶安全不仅与车辆自身的运动状态有关，还与前、后障碍物的相对运动状态有关；因此，利用步骤一获取的运动状态信息，定义状态空间：

S_t＝(v_sx,v_sy,v_sf,v_sr,a_sx,a_sy,d_sf,d_sr,ω_s,θ_s,δ_br,δ_thr) (8)

式(8)中，v_sf,v_sr分别表示重型营运车辆与前方车辆、后方车辆的相对速度，单位为米每秒；a_sx,a_sy分别表示重型营运车辆的横向加速度和纵向加速度，单位为米每二次方秒；ω_s为车辆的横摆角速度，单位为弧度每秒；θ_s为车辆的方向盘转角，单位为度，δ_br,δ_thr分别表示车辆制动踏板开度、节气门开度，单位为百分数；

(2)定义动作决策

兼顾车辆的横向运动和纵向运动，同时考虑到车辆的节气门和制动踏板控制量不会同时出现，将方向盘转角和加速/制动归一量作为控制量，定义决策模型输出的预警策略，即动作决策A_t＝[θ_{str_out},δ_{s_out}]；

其中，A_t为t时刻的动作决策，θ_{str_out}表示归一化后的方向盘转角控制量，范围为[-1,1]，δ_{s_out}表示加速/制动归一量，范围为[-1,1]；当δ_{s_out}＝0时，表示重型营运车辆匀速运动，当δ_{s_out}＝-1时，表示车辆以最大减速度进行制动，当δ_{s_out}＝1时，表示车辆以最大加速度进行加速；

(3)定义奖励函数

定义奖励函数为：

R_t＝r₁+r₂+r₃ (9)

式(9)中，R_t为t时刻的奖励函数，r₁为安全距离奖励函数，r₂为舒适性奖励函数，r₃为惩罚函数；

首先，为了防止车辆发生碰撞，设计安全距离奖励函数r₁：