CN111845773B

CN111845773B - 基于强化学习的自动驾驶车辆微观决策方法

Info

Publication number: CN111845773B
Application number: CN202010642778.8A
Authority: CN
Inventors: 郑侃; 刘杰; 赵龙
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2021-10-26
Anticipated expiration: 2040-07-06
Also published as: CN111845773A

Abstract

本发明公开了一种基于强化学习的自动驾驶车辆微观决策方法。所述方法采用强化学习的A3C算法，驾驶行为由Actor网络输出，灵活性强，判断逻辑的复杂度不受状态空间与行为空间大小的影响。所述方法采用了两阶段的训练求解过程。第一阶段训练得到一个适用所有路段的自动驾驶微观决策模型，以保证驾驶安全。第二阶段将第一阶段的整体模型部署到每条路段，各路段在此基础上各自训练单路段模型，具有可移植性。同时，第二阶段的持续训练使所述方法能够适应各种实时因素的影响。最后阐述了基于真实车联网***结构的分布式通信架构，能够完成求解过程中的分布式计算，因此，所述方法能够适应不同的道路特征和动态的驾驶环境，具有广泛的适用性和鲁棒性。

Description

基于强化学习的自动驾驶车辆微观决策方法

技术领域

本发明涉及自动驾驶技术领域，具体而言，涉及一种基于强化学习的自动驾驶车辆微观决策方法。

背景技术

自动驾驶技术是智能交通中的核心技术之一，自动驾驶决策通常分为两类，一类是宏观上的路径规划问题，即明确车辆出发地与目的地后，综合考虑驾驶路程、拥堵情况等因素，如何选择最优的驾驶路径，这一类问题已有较为成熟的解决方案，另一类问题是，确定了宏观的驾驶路线后，车辆在微观的某条道路上如何进行驾驶。

现有技术中，自动驾驶车辆微观决策模型分为以下几类：

有限状态机模型：车辆根据环境，从预先定义好的停车、换道、超车、避让、缓行等行为模式中选择合适的驾驶行为；

决策树模型：该类模型将驾驶行为模式使用树形结构表示出来，并将判断逻辑固化在树的分支节点处，进行自上而下的搜索机制。

例如中国专利公开号为CN110969848A的发明专利公开了一种对向双车道下基于强化学习的自动驾驶超车决策方法，包括以下步骤：通过传感器采集自动驾驶车辆的交通状态；将采集到的交通状态输入到经过训练的决策模型中；决策模型依据输入信息从其动作空间中选择相应的驾驶动作指令并输出，经本次驾驶动作后自动驾驶车辆形成新的交通状态；通过奖励函数计算本次驾驶动作的奖励值，并将原交通状态、驾驶动作、奖励值和新的交通状态作为转移样本存入经验回放池中；计算决策模型的损失函数值，并依据转移样本和损失函数值优化决策模型参数；重复以上步骤，直至自动驾驶结束。保证自动驾驶车辆超车决策过程的安全性和舒适性，通过强化学习决策方法，提高了决策的拟人性和鲁棒性。

再例如中国专利公开号为CN109624986A的发明专利公开了一种对向双车道下基于强化学习的自动驾驶超车决策方法，具体的说是一种通过对特定驾驶员风格的模式切换及跟车行为自适应学习进行自适应巡航控制的基于模式切换的驾驶风格的学习巡航控制***及方法。该发明将驾驶风格定义于不同跟车情况下驾驶员在定速巡航，加速接近，稳态跟车，快速制动几种模式间的切换策略，学习其驾驶风格，并在每种驾驶模式下使用基于连续状态的学习方法进一步学习其驾驶特性，该***适用于L2级别自动驾驶车辆，目标是有效学习到驾驶员的驾驶风格特性，提高特定驾驶员在不同工况下对于自适应巡航***的适应性及接受度。

现有技术中至少存在以下问题：

有限状态机模型和决策树模型均忽略了环境的不确定性，不能很好的适应环境的动态变化，并且在定义了较多的行为模式时，状态空间和行为空间较大，判断逻辑复杂，可行度不高，很难在具有丰富的结构特征的城区道路中展现较好的决策性能。

针对现有技术中有限状态机模型和决策树模型均忽略了环境的不确定性，不能很好的适应环境的动态变化，并且在定义了较多的行为模式时，状态空间和行为空间较大，判断逻辑复杂，可行度不高，很难在具有丰富的结构特征的城区道路中展现较好的决策性能的问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于强化学习的自动驾驶车辆微观决策方法，满足自动驾驶中的安全要求和行车效率要求。

所述自动驾驶车辆微观决策方法包括以下步骤：

步骤1，强化学习建模，对自动驾驶决策方案进行建模表示；

步骤2，设计求解网络，步骤1中得到了有关驾驶微观决策的最优车辆微观决策方案，接下来使用A3C算法进行求解，在A3C算法中，全局网络和代理网络均包含一个Actor网络和一个Critic网络，所有全局网络和代理网络中的Actor网络和Critic网络是分别相同的，对于Actor网络和Critic网络的网络结构，二者均以状态作为输入，结合步骤1，采用由卷积层和全连接层构成的神经网络，其中，Actor网络代表了策略函数，输出层为策略函数中概率密度函数的μ_θ(s)和σ_θ(s)，Critic网络代表了状态值函数，输出层为状态值

步骤3，进行决策方案的求解，基于步骤1和步骤2中定义的模型、决策方案和求解网络，进行Actor网络和Critic网络的训练，得到最优策略。

进一步地，在步骤1中，还包括以下步骤：

步骤1.1，将车辆的驾驶过程定义为一个马尔可夫决策过程，自动驾驶车辆被看作一个代理，车辆的驾驶环境看作强化学习的环境，代理车辆通过检测到的环境信息做出驾驶决策和驾驶行为，通过驾驶结果调整驾驶决策，将驾驶时间分为多个时隙，每个代理车辆在时隙的开始进行驾驶决策，确定每个代理车辆在时隙的驾驶行为；

步骤1.2，使用强化学习中的基本要素进行建模：

步骤1.2.1，状态集合，将车道方向定义为y方向，与y方向垂直的方向定义为x方向，若车道为弯道，则y方向表示车道的切线方向，将代理车辆和周围最近的I辆车的位置和速度定义为状态，则状态集合表示为：S＝{s|s＝[c₀,c₁,c₂,...,c_I]}，其中，s是状态集合中的一个样本，c₀＝[x₀,y₀,v_0x,v_0y]是由代理车辆x方向和y方向的位置及速度构成的向量，c_i＝[Δx_i,Δy_i,v_ix,v_iy],i≤I，Δx_i,Δy_i,v_ix,v_iy分别表示第i辆最近的车在x方向和y方向与代理车辆的距离和速度；

步骤1.2.2，动作集合，将每时隙代理车辆在两个方向上移动的距离定义为动作，则动作集合表示为：A＝{a|a＝[x,y],X_m＜x＜X_M,Y_m＜y＜Y_M}，其中，a是动作集合中的一个样本，x,y分别表示两个方向的移动距离，X_m,X_M,Y_m,Y_M分别表示两个方向上移动的最小距离、最大距离，且Y_m＝0；

步骤1.2.3，策略函数，策略函数π:S→A为状态到动作的映射，代表代理根据当前状态选择动作的特定方式，定义策略函数为随机函数π_θ(a|s)，随机函数取值代表状态s下采取动作a的概率，即策略函数为一概率密度函数，动作根据概率密度函数采样得到，如以下公式(1)所示：

公式(1)中，a_m＝[X_m,Y_m]，a_M＝[X_M,Y_M]，代表动作的最大和最小取值，

其中，μ_θ(s)代表分布均值，σ_θ(s)代表分布方差，

步骤1.2.4，回报函数，回报函数规定了某种状态下做出某种动作后得到的奖励值，用以体现动作选取的优劣，将回报函数r定义为如以下式(2)：

上式(2)中，k_c为正；

步骤1.2.5，目标函数：为得到最优的驾驶策略，根据对安全性和驾驶效率的考量，将驾驶策略作为变量，定义如下的优化目标，对于每个代理，在初始状态下根据策略函数选择动作，达到下一状态，并不断重复选择动作、达到下一状态的过程，经若干次数的迭代后，最终产生一条轨迹Γ(π_θ)，对于这条轨迹，累计折扣回报表示为以下公式(3)：

公式(3)中，γ是折扣因子，表示将来时刻的回报对此刻决策的重要性，r_t表示t时刻代理获得的回报，将累计折扣回报的期望作为目标函数，如以下公式(4)所示：

公式(4)中，

代表累计折扣回报的期望，

步骤1.2.6，优化决策方案，驾驶决策方案为找到最优策略π^*，使目标函数最大化，策略的优化过程实质上使策略函数的参数θ的优化，优化决策方案最终表示为以下公式(5)：

得到最优参数θ^*后，最优策略则表示为

即最优的车辆微观决策方案。

进一步地，在步骤3中，还包括以下步骤：

步骤3.1，训练全局策略，本阶段旨在得到一个适应所有路段的基础驾驶策略模型，本阶段的训练过程部署在中心服务器、RSU两层结构上，在本阶段中，中心服务器被作为全局网络层，所有RSU组成代理层，每个RSU为一个代理，部署的具体过程如下：

步骤3.1.1，将决策神经网络部署于中心服务器及所有RSU上；

步骤3.1.2，开启训练网络的迭代，即重复执行以下步骤，直至网络收敛：

步骤3.1.2.1，对于每个RSU，采集覆盖道路上车辆的行车轨迹，用以模拟驾驶环境，随机生成代理，模拟的驾驶环境中执行驾驶行为，根据驾驶环境得到状态信息，输入Actor和Critic网络，根据Actor网络的输出进行驾驶决策，做出驾驶动作，这一交互过程结束后，得到交互结果，并达到下一个状态的驾驶环境，继续进行交互，直到生成一条驾驶轨迹的采样数据；

步骤3.1.2.2，RSU使用本地驾驶轨迹数据集训练本地的决策网络，将训练结果上传至中心服务器；

步骤3.1.2.3，中心服务器收集到一个RSU传来的训练结果后，对全局网络进行一次更新，并将更新后的全局网络参数返回给该RSU；

步骤3.1.2.4，RSU接收到中心服务器返回的全局网络后，将其同步至本地网络，并在此基础上，开启新一轮的样本采集和训练；

步骤3.1.2.5，网络收敛之后，网络参数不再变化，即得到了一个适应所有路段的基础模型；

步骤3.2，训练单条道路模型，将步骤3.1中的全局网络层下沉至各个道路的RSU，代理层下沉至RSU覆盖道路上的所有自动驾驶车辆，对于每一条道路，具体部署方式如下：

步骤3.2.1，RSU从中心服务器同步第一阶段得到的基础模型，以作为全局网络；

步骤3.2.2，每个自动驾驶车辆开始进入RSU覆盖的道路时，从RSU处同步全局网络模型，成为该道路代理层中的一个代理，执行决策网络的训练：

步骤3.2.1.1，对于每个车辆，将自身作为代理，自身的驾驶行为轨迹作为训练样本，进行与步骤3.1.2.1相同的过程，得到轨迹采样数据；

步骤3.2.1.2，车辆使用本地驾驶轨迹数据集训练本地的决策网络，将训练结果上传至RSU；

步骤3.2.1.3，RSU收集到一个车辆传来的训练结果后，对全局网络进行一次更新，并将更新后的全局网络参数返回给该车辆；

步骤3.2.1.4，车辆接收到中心服务器返回的全局网络参数后，将全局网络参数同步至本地网络，并在此基础上，开启新一轮的样本采集和训练，直至驶离当前道路。

相对于现有技术，本发明所述的自动驾驶车辆微观决策方法具有以下显著的优越效果：

1，本发明的设计结合车联网的网络架构，易于部署，有很强的可行性。

2，本发明的不使用预先定义好的驾驶模式，驾驶行为较灵活，适应性强，且状态空间和行为空间的增大并不会增加决策的复杂度，计算模式较为简洁。

3，本发明的第一阶段能够得到普适的驾驶模型，能够保障在不同路段上行驶的安全，因此新增一条路段时，仅需从中心服务器处同步该模型，RSU和自动驾驶车辆能够立即开始训练过程，具有很强的普适性和可移植性。

4，本发明的第二阶段得到了专属每路段的驾驶模型，相比所有路段使用同一个模型，本发明的模型能够更好地适应不同路段的特性，在该路段的驾驶环境下，单路段的模型驾驶效率优于所有路段共享的模型，另外，相比与为每个路段单独训练一个模型，本发明的训练和计算成本更小。

5，本发明第二阶段的模型持续更新，相比于固定的驾驶策略模型，本模型能够适应不断变化的实时因素，如路况、天气、车流密度等，具有较好的鲁棒性。

附图说明

图1为本发明所述基于强化学习的自动驾驶车辆微观决策方法的A3C算法计算结构示意图；

图2为本发明所述基于强化学习的自动驾驶车辆微观决策方法的三层***结构示意图；

图3为本发明所述基于强化学习的自动驾驶车辆微观决策方法的表演者网络结构示意图；

图4为本发明所述基于强化学习的自动驾驶车辆微观决策方法的评论家网络结构示意图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明进行进一步的详细描述。

如图1至图4所示，所述自动驾驶车辆微观决策方法包括以下步骤：

步骤1，强化学习建模，对自动驾驶决策方案进行建模表示：

步骤1.2，使用强化学习中的基本要素进行建模：

其中，μ_θ(s)代表分布均值，σ_θ(s)代表分布方差，

上式(2)中，k_c为正；

公式(4)中，

代表累计折扣回报的期望，

得到最优参数θ^*后，最优策略则表示为

即最优的车辆微观决策方案。

步骤2，设计求解网络，步骤1中得到了有关驾驶微观决策的最优车辆微观决策方案，接下来使用A3C算法进行求解，在A3C算法中，全局网络和代理网络均包含一个Actor网络和一个Critic网络，所有全局网络和代理网络中的Actor网络和Critic网络是分别相同的，对于Actor网络和Critic网络的网络结构，二者均以状态作为输入，结合步骤1.2.1中定义的状态的二维结构特点，采用图3和图4所示的由卷积层和全连接层构成的神经网络，其中，Actor网络代表了策略函数，输出层为策略函数中概率密度函数的μ_θ(s)和σ_θ(s)，Critic网络代表了状态值函数，输出层为状态值

步骤3，进行决策方案的求解，基于步骤1和步骤2中定义的模型、决策方案和求解网络，进行Actor网络和Critic网络的训练，得到最优策略：

步骤3.1，训练全局策略，本阶段旨在得到一个适应所有路段的基础驾驶策略模型，本阶段的训练过程部署在中心服务器、RSU(Road Side Unit，路边单元)两层结构上，在本阶段中，中心服务器被作为全局网络层，所有RSU组成代理层，每个RSU为一个代理，部署的具体过程如下：

步骤3.1.1，将决策神经网络部署于中心服务器及所有RSU上；

需要说明的是，全局网络和所有代理的Actor网络结构相同；全局网络和所有代理的Critic网络结构相同，也就是说，全局网络和所有代理网络的网络结构都是相同的：都由各自的Actor网络+Critic网络构成，且所有Actor网络结构相同，所有Critic网络结构相同。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于强化学习的自动驾驶车辆微观决策方法，其特征在于，包括以下步骤：

步骤1，强化学习建模，对自动驾驶决策方案进行建模表示；

步骤1.2，使用强化学习中的基本要素进行建模：

步骤1.2.1，状态集合，将车道方向定义为y方向，与y方向垂直的方向定义为x方向，若车道为弯道，则y方向表示车道的切线方向，将代理车辆和周围最近的I辆车的位置和速度定义为状态，则状态集合表示为：S＝{s|s＝[c₀,c₁,c₂,...,c_I]}，其中，s是状态集合中的一个样本，

是由代理车辆x方向和y方向的位置及速度构成的向量，c_i＝[Δx_i,Δy_i,v_ix,v_iy],i≤I，Δx_i,Δy_i,v_ix,v_iy分别表示第i辆最近的车在x方向和y方向与代理车辆的距离和速度；

其中，μ_θ(s)代表分布均值，σ_θ(s)代表分布方差，

上式(2)中，k_c为正；

公式(4)中，

代表累计折扣回报的期望，

得到最优参数θ^*后，最优策略则表示为

即最优的车辆微观决策方案；

2.根据权利要求1所述的基于强化学习的自动驾驶车辆微观决策方法，其特征在于，在步骤3中，还包括以下步骤：

步骤3.1.1，将决策神经网络部署于中心服务器及所有RSU上；