CN113501008A

CN113501008A - 一种基于强化学习算法的自动驾驶行为决策方法

Info

Publication number: CN113501008A
Application number: CN202110928217.9A
Authority: CN
Inventors: 田小青; 骆嫚; 万骞
Original assignee: Dongfeng Yuexiang Technology Co Ltd
Current assignee: Dongfeng Yuexiang Technology Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-10-15
Anticipated expiration: 2041-08-12
Also published as: CN113501008B

Abstract

本发明的目的在于公开一种基于强化学习算法的自动驾驶行为决策方法，基于传感器对周围目标信息的感知，自动驾驶车辆可以完成在巡航，跟车，换道，超车，制动等状态间的切换，基于预先规划的路线完成自主行驶功能。基于强化学习的行为决策***采用了在演员‑评论家（Actor‑Critic）算法上改进的TD3算法，有效避免了可能存在的迭代训练无法收敛的问题，同时具有更快的学习速度。

Description

一种基于强化学习算法的自动驾驶行为决策方法

技术领域

本发明涉及自动驾驶技术领域，涉及了一种用于L4级自动驾驶车辆的基于深度强化学习的行为决策方法。

背景技术

随着汽车保有量的不断增加，随之带来的交通拥堵问题与交通安全问题开始得到越来越多的重视。而发展自动驾驶可以很好的应对这一系列的问题，因此，自动驾驶技术开始受到越来越多的重视，也是未来汽车比不可少的功能之一。自动驾驶***按照层次可以分为环境感知，行为决策，运动控制三个部分。行为决策***的主要功能可以概括为基于上层感知层输入的汽车当前的行驶状态，周围环境信息，以及驾驶任务等信息对驾驶行为进行决策。

发明内容

(一)要解决的技术问题

本发明的目的在于公开一种基于强化学习算法的自动驾驶行为决策方法，基于传感器对周围目标信息的感知，自动驾驶车辆可以完成在巡航，跟车，换道，超车，制动等状态间的切换，基于预先规划的路线完成自主行驶功能。

(二)发明内容

为实现上述目的，本发明实施例提供如下技术方案：一种基于强化学习算法的自动驾驶行为决策方法，基于传感器对周围目标信息的感知，自动驾驶车辆完成各种行驶状态间的切换，其特征是包括以下步骤：

步骤S1：利用有限状态机来建立基于规则的行为决策***，有限状态机可以表示为一个五元组：

F＝(S，s₀，F，∑，δ)

其中，S为状态集；s₀为状态机的默认状态，即初始状态集；F为终止状态，中止状态可能为空集，即无结束状态；∑为事件集合，即状态机的所有可能的输入的集合；δ为转移逻辑，输入事件与当前状态共同作用造成状态转移：∑×S→S

在有限状态机中，对象由事件触发和状态迁移来表征，当输入目标输入信息到有限状态机当中时，状态会通过转移路径发生转移，最终输出状态对应的动作,基于规则的行为决策***将自动驾驶车辆的目标进行分类，包括初始化，巡航，跟车，换道，制动状态；

步骤S2：自动驾驶车辆基于自车当前时刻状态，车辆传感器得到行为决策必须的基于周围环境的目标输入信息，目标输入信息包括目标的位置与状态ID信息，基于目标输入信息，基于规则的行为决策***出下一时刻自动驾驶车辆目标状态；

步骤S3：结合经验池与强化学习模型，建立基于强化学习的行为决策***，将采集到的人类驾驶员驾驶行为进行抽取得到状态行为集合，并放入经验池进行存储，训练基于强化学习的行为决策***，基于当前时刻状态与目标输入信息，输出下一时刻车辆目标状态；

步骤S4：建立仲裁***，仲裁***对基于规则的行为决策***与基于强化学习的行为决策***做出的结论进行评估与仲裁，输出最终确定的下一时刻的自动驾驶车辆目标状态。

作为优选，所述步骤S3包括以下分步骤：

S301：采集到的人类驾驶员驾驶行为，得到状态行为集合；

S302：将状态行为集合放入经验池进行存储，***基于经验池对强化学习模型进行训练，基于自车当前时刻状态与目标输入信息，结合经验池与强化学习模型，输出下一时刻车辆目标状态。

作为优选，所述步骤S301又包括以下分步骤：

S3011：采集人类驾驶员在不同驾驶场景下的动作序列τ_i：

τ_i＝<s₁ ⁱ，a₁ ⁱ，s₂ ⁱ，a₂ ⁱ，...，s_n ⁱ，a_n ⁱ>，

s_n ⁱ：第i个序列中第n个状态，

a_n ⁱ：第i个序列中第n个动作；

S3012：对序列中的动作-行为对进行抽取，得到基于抽取的状态-行为对构件状态行为集合：D＝<(s₁，a₁)，(s₂，a₂)...，(s₂，a₂))。

作为优选，所述步骤S302又包括以下分步骤：

S3021：基于步骤S3011得到的状态行为集合，构件经验池；

S3022：构建基于TD3算法的深度强化学习结构，并利用经验池训练深度强化学习结构，基于目标输入信息与自车当前时刻状态，基于深度强化学习结构，输出自车对应下一时刻目标动作与目标状态；

作为优选，所述步骤S3022还包括以下分步骤：

S30221：利用二次采样经验优先级回放，对ID3算法进行优化，以提高学习数据的质量，并加快学习速度；二次采样可以分为两步：从序列中采样，采集的序列组成样本经验池后，再从采样得到序列中进行样本采集；

从序列中采样：序列经验池E＝{l₁，l₂，l₃...，l_N}由一系列序列

组成；

每一序列的累计回报G_i可表示为：

基于每一序列的累计回报，可以计算该序列的采样优先级p_i：

p_i＝G_i+ε，

基于每一序列的采样优先级，可以对该序列的采样概率p(i)进行分配，优先级值p_i越大，采样概率越大：

采集到的n个序列l_i ^*(i＝1，2，...，n)组成样本经验池E^*＝{l₁ ^*，l₂ ^*，...，l_n ^*，其中，在序列l_i中，样本数为n_i，每个样本表示为

为布尔变量，用于表示状态

是否为终止状态。从序列中采样时，每一序列的采样优先级由累计回报来表示，而从样本经验池中采样时，每一样本的采样优先级p_i ^*由样本的TD偏差δ_i表示：

p_i ^*＝|δ_i|+ε，

样本经验池E^*中每一序列l_i ^*的样本数为n_i ^*，则样本经验池E^*中样本总数可以表示为：

故基于每一样本的采样优先级p_i ^*，可以求得该样本的采样概率p(i)^*：

S30222：基于当前的状态s_t，演员网络C_φ输出当前动作a_t；

S30223：基于当前的状态s_t与动作a_t，评论家网络Q_θ1与Q_θ2分别计算出当前动作价值函数Q值Q_θi(s_t，a_t)(i＝1，2)；

S30224：基于下一时刻状态S_t+1，演员目标网络C_φ′输出目标动作

S30225：基于下一时刻状态S_t+1与目标动作

评论家目标网络Q_θ1′与Q_θ2′分别计算出目标Q值

S30226：评论家网络通过演员目标网络与评论家目标网络进行更新。由于对Q值的估计如果过高，可能会造成，误差的累计，所以选取两个评论家目标网络输出的Q值的较小值用于计算目标值y_t，以用于更新评论家网络；

S30227：计算演员网络(Actor Network)与评论家网络(Critic Network)的损失函数；

S30228：重复步骤S30221-S30227，直至S30227中的演员网络与评论家网络的损失函数均小于阈值或迭代步数达到最大步数；

作为优选，所述步骤S4具体为：

基于目标输入信息与当前自车状态，基于规则的决策***(状态机输出状态)输出下一时刻状态s_t+1(1)，并输出达到下一时刻状态的目标动作a_t(1)，基于强化学习的行为决策***(神经网络输出状态)输出下一时刻的目标动作a_t(2)；

若目标动作a_t(1)与a_t(2)相同，则输出；

若目标动作a_t(1)与a_t(2)不同，则计算两者对应的目标价值函数Q(1)与Q(2)，输出价值函数较高的动作。

本发明通过基于规则的行为决策***，可以在不同环境的道路下快速做出相应的行为决策，同时基于强化学习的行为决策***对基于规则的行为决策***起到互补的作用，训练好的强化学习模块可以学习基于规则的决策***未定义驾驶场景的新的驾驶策略，从而对行为决策***进行更新。同时，基于强化学习的行为决策***采用了在演员-评论家(Actor-Critic)算法上改进的TD3算法，有效避免了可能存在的迭代训练无法收敛的问题，同时具有更快的学习速度，同时，本专利采用了二次采用优先级回放的方法对TD3算法进行了进一步优化，减小了因学习到不理想的策略而使网络训练进入歧途的可能性。

(三)有益效果：

基于规则的行为决策***，可以在不同环境的道路下快速做出相应的行为决策，同时基于强化学习的行为决策***对基于规则的行为决策***起到互补的作用，训练好的强化学习模块可以学习基于规则的决策***未定义驾驶场景的新的驾驶策略，从而对行为决策***进行更新。基于强化学习的行为决策***采用了在演员-评论家(Actor-Critic)算法上改进的TD3算法，有效避免了可能存在的迭代训练无法收敛的问题，同时具有更快的学习速度。

附图说明

图1为本发明实施例提供的一种状态机的状态转移逻辑图；

图2为本发明实施例提供的一种深度强化学习结构的构件图；

图3为本发明实施例提供的一种基于规则与学习的自动驾驶车辆行为决策***具体工作流程图。

具体实施方式

一下通过具体示例对本发明进行详细描述，通过本说明书所揭露的内容，本领域的相关技术人员可以了解到本公开的其他优点与功效。本发明还可以通过另外不同的实施方式加以实施或利用，本说明书中的各项细节也可以在不背离本发明的精神的情况下，基于各种观点与应用而做出修饰与改变。

基于规则与学习的自动驾驶车辆行为决策***具体工作流程如图所示(可参考图3)，可以在城市道路环境中，基于感知模块得到的环境信息，并结合车辆当前时刻处于的行驶状态，输出下一时刻的目标行驶状态与对应的状态转移需要的动作，从而使自动驾驶车辆在规划的路线上完成自主行驶。自动驾驶车辆做出的行为决策由两个模块同时生成：一是基于规则的行为决策***；二是基于学习的行为决策***，基于规则的***可以基于基本的规则，快速生成对应决策，而基于学习的行为决策***相比于基于规则的决策***，在陌生环境中完成自学习功能，二者为互补关系。生成的两个决策会经过仲裁模块进行评价，从而输出两者中较优的决策。

本发明中的基于规则与基于学习的自动驾驶车辆行为决策方法具体来说可以包括以下步骤：

F＝(S，s₀，F，∑，δ)

在有限状态机中，对象由事件触发和状态迁移来表征，当输入目标输入信息到有限状态机当中时，状态会通过转移路径发生转移，最终输出状态对应的动作，基于规则的行为决策***将自动驾驶车辆的目标状态进行分类，包括初始化，巡航，跟车，换道，制动状态；

步骤S2具体可表示为：

前方切入，造成前方切入危险，此时判断前方为危险时，需要该目标的位置与状态信息；

换道时，需要获取前方与后方目标的位置与状态信息；

这些目标所需的状态信息相似，但不同目标的作用完全不同，故考虑设置一个目标ID信息，以对不同目标进行分类，再获取不同目标的状态ID信息，具体包括周围目标(跟车目标，前方切入目标，后方切入目标)的相对位置，速度，加速度信息，同时还需要自车当前的状态和当前车道ID。(可参考图1)

故初步将输入输出接口定义为：

t时刻输入接口：

[stateID(t)，laneID，tarID-i，V_xi，V_yi，X_i，Y_i，tarlaneID](i＝1，2，3..)

stateID：自车当前时刻状态(1：初始化2：跟车3：巡航4：换道5：制动)

laneID：自车当前车道ID(从左至右分别为-1，0，1)

tarID-i：目标i的ID(1：跟车目标2：前方切入目标3：后方切入目标)

V_xi，V_yi：目标i的纵向与横向速度信息

X_i，Y_i：目标i的纵向与横向位置信息

tarlaneID：目标i的车道ID。

步骤S3：结合经验池与强化学习模型，建立基于强化学习的行为决策***，将采集到的人类驾驶员驾驶行为进行抽取得到状态行为集合，并放入经验池进行存储，训练基于强化学习的行为决策***，基于当前时刻状态与目标输入信息，基于强化学习的行为决策***输出下一时刻车辆目标状态。

立仲裁***，仲裁***对基于规则的行为决策***与基于强化学习的行为决策***做出的结论进行评估与仲裁，输出最终确定的下一时刻的自动驾驶车辆目标状态；

步骤S3包括以下分步骤：

S301：采集到的人类驾驶员驾驶行为，得到状态行为集合；

步骤S301又包括以下分步骤：

S3011：采集人类驾驶员在不同驾驶场景下的动作序列τ_i：

τ_i＝〈s₁ ⁱ，a₁ ⁱ，s₂ ⁱ，a₂ ⁱ，...，s_n ⁱ，a_n ⁱ〉

s_n ⁱ：第i个序列中第n个状态，

a_n ⁱ：第i个序列中第n个动作；

S3012：对序列中的动作-行为对进行抽取，得到基于抽取的状态-行为对构件状态行为集合：

D＝<(s₁，a₁)，(s₂，a₂)...，(s₂，a₂)>

S302：将状态行为集合放入经验池进行存储，***基于经验池对强化学习模型进行训练，基于自车当前时刻状态与目标输入信息，结合经验池与强化学习模型，输出下一时刻车辆目标状态；

步骤S302又包括以下分步骤：

S3021：基于步骤S3011得到的状态行为集合，构件经验池；

S3022：构建基于TD3算法的深度强化学习结构，并利用经验池训练深度强化学习结构，基于目标输入信息与自车当前时刻状态，基于深度强化学习结构，输出自车对应下一时刻目标动作与目标状态(可参考图2)

S3022：训练步骤S3022还包括以下分步骤：

S30221：利用二次采样经验优先级回放，对ID3算法进行优化，以提高学习数据的质量，并加快学习速度。二次采样可以分为两步：从序列中采样，采集的序列组成样本经验池后，再从采样得到序列中进行样本采集；

二次采样可以分为两步：从序列中采样，采集的序列组成样本经验池后，再从采样得到序列中进行样本采集；

组成。

每一序列的累计回报G_i可表示为：

p_i＝G_i+ε

采集到的n个序列l_i ^*(i＝1，2，...，n)组成样本经验池E^*＝{l₁ ^*，l₂ ^*，...，l_n ^*}，其中，在序列l_i中，样本数为n_i，每个样本表示为

为布尔变量，用于表示状态

p_i ^*＝|δ_i｜+ε

S30222：基于当前的状态s_t，演员网络C_φ输出当前动作a_t；

S30224基于下一时刻状态s_t+1，演员目标网络C_φ′输出目标动作

S30225：基于下一时刻状态s_t+1与目标动作

评论家目标网络Q_θ1′与Q_θ2′分别计算出目标Q值

其中，步骤S3024构建的的深度强化学习结构是主要基于TD3算法，是一种基于Actor-Critic算法改进而来的结构。TD3算法的基本框架由6个网络构成：演员(Actor)网络C_φ，演员目标(Actor Target)网络C_φ′，评论家(Critic)网络Q_θ1与Q_θ2，评论家目标(CriticTarget)网络Q_θ1′与Q_θ2′。演员网络，演员目标网络，评论家网络，评论家目标网络由卷积神经网络构建而成。

步骤S4具体为：

若目标动作a_t(1)与a_t(2)相同，则输出；

需要说明的是，在本文中，变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于强化学习算法的自动驾驶行为决策方法，基于传感器对围目标信息的感知，自动驾驶车辆完成各种行驶状态间的切换，其特征是包括以下步骤：

步骤S1：利用有限状态机来建立基于规则的行为决策***，有限状态机可以表示为一个五元组：F＝(S，s₀，F，∑，δ)，

其中，S为状态集；s₀为状态机的默认状态，即初始状态集；F为终止状态，中止状态可能为空集，即无结束状态；∑为事件集合，即状态机的所有可能的输入的集合；δ为转移逻辑，输入事件与当前状态共同作用造成状态转移：∑×S→S，

2.根据权利要求1所述的一种基于强化学习算法的自动驾驶行为决策方法，其特征是所述步骤S3包括以下分步骤：

S301：采集到的人类驾驶员驾驶行为，得到状态行为集合；

3.根据权利要求2所述的一种基于强化学习算法的自动驾驶行为决策方法，其特征是所述步骤S301又包括以下分步骤：

S3011：采集人类驾驶员在不同驾驶场景下的动作序列τ_i：

τ_i＝<s₁ ⁱ，a₁ ⁱ，s₂ ⁱ，a₂ ⁱ，...，s_n ⁱ，a_n ⁱ>，

s_n ⁱ：第i个序列中第n个状态，

a_n ⁱ：第i个序列中第n个动作；

S3012：对序列中的动作-行为对进行抽取，得到基于抽取的状态-行为对构件状态行为集合：D＝<(s₁，a₁)，(s₂，a₂)...，(s₂，a₂)>。

4.根据权利要求2所述的一种基于强化学习算法的自动驾驶行为决策方法，其特征是所述步骤S302又包括以下分步骤：

S3021：基于步骤S3011得到的状态行为集合，构件经验池；

S3022：构建基于TD3算法的深度强化学习结构，并利用经验池训练深度强化学习结构，基于目标输入信息与自车当前时刻状态，基于深度强化学习结构，输出自车对应下一时刻目标动作与目标状态。

5.根据权利要求4所述的一种基于强化学习算法的自动驾驶行为决策方法，其特征是所述步骤S3022还包括以下分步骤：

S30221：利用二次采样经验优先级回放，对ID3算法进行优化，以提高学习数据的质量，并加快学习速度；

S30222：基于当前的状态S_t，演员网络C_φ输出当前动作a_t；

S30224:基于下一时刻状态s_t+1，演员目标网络C_φ′输出目标动作

S30225：基于下一时刻状态s_t+1与目标动作

评论家目标网络Q_θ1′与Q_θ2′分别计算出目标Q值

S30226：评论家网络通过演员目标网络与评论家目标网络进行更新，选取两个评论家目标网络输出的Q值的较小值用于计算目标值y_t，以用于更新评论家网络；

S30228：重复步骤S30221-S30227，直至S30227中的演员网络与评论家网络的损失函数均小于阈值或迭代步数达到最大步数。

6.根据权利要求5所述的一种基于强化学习算法的自动驾驶行为决策方法，其特征是所述二次采样可以分为两步：1)从序列中采样，2)采集的序列组成样本经验池后，再从采样得到序列中进行样本采集。

7.根据权利要求5所述的一种基于强化学习算法的自动驾驶行为决策方法，其特征是所述步骤S4具体为：

若目标动作a_t(1)与a_t(2)相同，则输出；