CN109598934A

CN109598934A - 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法

Info

Publication number: CN109598934A
Application number: CN201811524283.4A
Authority: CN
Inventors: 杨殿阁; 曹重; 江昆; 封硕; 王思佳; 肖中阳; 谢诗超; 焦新宇
Original assignee: Tsinghua University
Current assignee: Beijing Chaoxing Future Technology Co., Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-09
Anticipated expiration: 2038-12-13
Also published as: CN109598934B

Abstract

本发明涉及一种基于融合规则与学习模型的无人驾驶汽车驶离高速的方法，其步骤：无人驾驶汽车在高速公路行驶过程中，根据导航***在匝道前一段距离产生下匝道动机，利用规则模型尝试下匝道，并判断基于规则的决策模型下匝道是否降低成功率，若没有降低，则采用规则模型决策动作，反之则进入下一步；基于增强学习的框架建立混合规则与增强学习的混合决策模型及其训练方法，混合决策模型能够在远离匝道时采用规则模型驾驶，并在驶向匝道过程中，根据下匝道紧迫性利用增强学习决策模型调整车辆动作。本发明能提升无人驾驶汽车下匝道过程的行驶效率与稳定性，实现在有限感知范围，难以预测的环境车辆条件下，无人驾驶汽车高效、高稳定性的下匝道决策。

Description

一种基于规则与学习模型的无人驾驶汽车驶离高速的方法

技术领域

本发明涉及一种无人驾驶汽车决策技术领域，特别是关于一种基于规则与学习模型的无人驾驶汽车驶离高速的方法。

背景技术

无人驾驶汽车自主决策是无人驾驶汽车***中的重要组成部分，高速公路是无人驾驶汽车重要的应用场景，其中，无人驾驶汽车驶离高速公路(下匝道)的过程对无人驾驶汽车的行驶效率有重要影响，过早的换到最右侧车道上等待下匝道或错过匝道均会显著降低行驶效率。现阶段，主流的下匝道方法是通过在合适的地方产生换道动机，利用若干次换道行为实现下匝道过程。但由于换道行为本身无法根据下匝道的紧迫性自我调整，该方法驶离高速公路的成功率较低，需要的准备距离较长，导致无人驾驶汽车效率下降。另一方面，由于无人驾驶汽车感知范围有限，且高速公路上驾驶员行为充满不确定性，利用简单枚举换道规则对下匝道成功率的影响难以估计，无法覆盖所有环境状态；而单纯利用纯学习的方法生成的结果难以控制，会影响车辆行驶的安全性与稳定性。

发明内容

针对上述问题，本发明的目的是提供一种基于规则与学习模型的无人驾驶汽车驶离高速的方法，其能够充分发挥增强学习在高度不确定环境下对明确目标的决策能力，同时兼顾基于规则的决策模型的安全性与稳定性，提升无人驾驶汽车下匝道过程的行驶效率与稳定性，实现在有限感知范围，难以预测的环境车辆条件下，无人驾驶汽车高效、高稳定性的下匝道决策。

为实现上述目的，本发明采取以下技术方案：一种基于融合规则与学习模型的无人驾驶汽车驶离高速的方法，其包括以下步骤：1)无人驾驶汽车在高速公路行驶过程中，根据导航***在匝道前一段距离产生下匝道动机，首先利用规则模型尝试下匝道，并判断基于规则的决策模型下匝道是否降低成功率，若没有降低，则采用规则模型决策动作，若降低则进入步骤2)；以匝道口起点为原点，车辆行驶方向为x，垂直车辆行驶方向向上为y，单位为m，建立直角坐标系；则无人驾驶汽车行驶位置，速度加速度为周围环境车辆的位置速度，加速度为i＝1,2,…,n；另外，规则模型的时间间隔为Δt,规则模型的输出为在下一个Δt时间内无人驾驶汽车预期保持的横、纵向加速度其中分别为车辆在纵、横向方向的速度与加速度，t表示当前时刻；2)基于增强学习的框架建立混合规则与增强学习的混合决策模型及其训练方法，混合决策模型能够在远离匝道时采用规则模型驾驶，并在驶向匝道过程中，根据下匝道紧迫性利用增强学习决策模型调整车辆动作，提高下匝道的成功率。

进一步，所述步骤1)中，规则模型的建立方法包括以下步骤：1.1)在x方向上的决策需要综合分析无人驾驶汽车期望行驶速度、与前车期望保持的距离以及无人驾驶汽车的动力学特性；1.2)车辆在y方向决策用于决定是否换道，换道过程中y方向决策预先设定好即可，由于规则模型用于下匝道，因此产生换道动机后，一旦发现安全的位置即开始换道，否则继续保持车道行驶；1.3)以无人驾驶汽车当前位置、车速、下一刻目标位置和下一刻目标车速为边界条件，用五次多项式生成一条平滑曲线，并将其离散成为频率为20Hz的引导点向无人驾驶汽车发送引导信号，生成无人驾驶汽车局部轨迹。

进一步，所述步骤1.1)中，x方向上的决策包括以下步骤：1.1.1)无人驾驶汽车期望的行驶速度为：

如果前车存在；

其中，是无人驾驶汽车的最大减速度；Δt是时间间隔；d_f是当前时刻无人驾驶汽车与其所在车道的前方车辆的距离；为当前无人驾驶汽车车速；是当前前车车速；是前车的最大减速度；是无人驾驶汽车正常行驶时的期望行驶速度；

1.1.2)为达到无人驾驶汽车期望速度，无人驾驶汽车的期望加速度为：

1.1.3)根据无人驾驶汽车的期望加速度将x方向最终决策调整为：

其中，a_min为无人驾驶汽车正常行驶时的最大减速度，a_max为无人驾驶汽车正常行驶时的最大加速度。

进一步，所述步骤1.2)中，y方向决策包括以下步骤：1.2.1)通过判断目标车道前、后方车辆的运动状态确定当前换道是否安全，当满足以下任意一种条件时则能开始换道：(1)目标车道前后方观测范围内没有车；(2)目标车道存在前车，且当前自车车速满足：

其中，d_f,j是无人驾驶汽车与目标车道上前车的跟车距离；是目标车道上前车的车速；是目标车道前车的最大减速度；(3)目标车道存在后车，且后车车速满足：

其中，是目标车道后车的最大减速度；d_r,j是无人驾驶汽车与目标车道上后车的跟车距离；是目标车道上后车的车速；是目标车道后车的最大减速度；(4)目标车道同时存在前车与后车，且车速均满足条件(2)、(3)的要求；1.2.2)当无人驾驶汽车决定换道时，换道过程中y方向决策恒定，换道决策为：整个换道过程设定需要经历两个时间间隔2Δt，因此需要在横向方向上经过先加速后减速两个过程；当得到可行的换道时机时，设定y方向决策为：

其中，w为车道宽度；当上一个已经开始换道时，下一刻y方向决策设定为：

此时无人驾驶汽车完成一次换道；1.2.3)根据决策的动作计算出下一刻无人驾驶汽车的速度及位置：

进一步，所述步骤2)中，混合决策模型的建立及其训练方法包括以下步骤：2.1)定义环境状态空间，动作空间以及奖励机制；2.2)利用增强学习模型输出的动作必须满足安全性与交通规则速度的限制，故对增强学习的动作加以限制；2.3)混合决策模型在高度不确定的仿真环境中通过不断重复的下匝道过程进行训练。

进一步，所述步骤2.1)中，环境状态空间，动作空间以及奖励机制的定义如下：2.1.1)环境状态由环境中车辆位置、行驶状态、驾驶策略、与匝道间的距离构建而成，其定义如下：

其中，坐标系与规则模型坐标系相同，l＝|x_e|为当前车辆与匝道间距离；q_e为无人驾驶汽车行驶状态；q_i为环境车行驶状态，θ_i为环境车驾驶策略；s表示环境状态；表示所有环境状态构成的环境状态空间；行驶状态中，任意一辆环境车辆与无人驾驶汽车的x方向坐标差均小于50m，即

|x_e-x_i|≤50m；

2.1.2)动作定义是通过车辆x方向、y方向加速度定义的，全部可选择的动作空间如下：

其中，a_brake为无人驾驶汽车最大减速度；a_rule为规则模型生成的动作；y方向动作是当车辆开始换道时采用而下一刻采用实现换道；每一个动作均能计算出无人驾驶汽车下一刻所到达的位置与速度，以此为边界条件构建五次多项式，并将其离散成20Hz的局部引导轨迹引导无人驾驶车辆完成该动作；

2.1.3)混合决策模型奖励机制包括两部分，分别为下匝道完成奖励与规则模型启发奖励，其设定方法如下：下匝道完成奖励r₁为：

规则模型启发奖励r₂为：

最终动作获得的奖励为：

r＝r₁+r₂。

进一步，所述步骤2.2)中，限制方法步骤如下：2.2.1)为满足当前车道行驶的安全性需求，需要保证无人驾驶汽车与其前车的距离能够满足：当前车以最大减速度减速直至停车时，无人驾驶汽车能够通过采用最大减速度减速停车而不会发生碰撞，因此无人驾驶汽车的车速v限制为：

当动作空间中某一项会导致下一刻的速度不满足该约束时，该动作从动作空间中删除；当不存在前车时，则没有安全性速度限制；在换道时，当目标车道上前车、后车以及无人驾驶汽车的状态不满足换道条件时，换道动作从动作空间中删除，生成的动作能够保证车辆行驶安全；2.2.2)为满***通规则对速度的要求，当动作空间中某一动作导致下一刻车辆速度不满***通规则的速度限制时，该动作从动作空间中删除。

进一步，所述步骤2.3)中，训练方法利用粒子滤波与蒙克卡罗树搜索的方法实现，具体步骤如下：2.3.1)采用IDM及MOBIL拟合车辆驾驶策略，采用粒子滤波的方法进行拟合；其中，IDM为智能驾驶员模型，MOBIL为总制动最小化换道模型；2.3.2)混合决策模型使用增强学习模型，由于状态空间连续且维度较高，因此采用蒙特卡洛树搜索的方法训练增强学习模型；2.3.3)重复以上过程若干次完成训练。

进一步，所述步骤2.3.1)中，采用粒子滤波的方法进行拟合的步骤如下：(1)针对每一个新出现的环境车辆建立一个粒子库；(2)随机选取50组驾驶策略模型参数作为初始粒子；(3)根据50组粒子构成的驾驶模型将所有环境车辆转移到下一刻状态；(4)根据真实观测到的下一刻环境车辆状态分析50组粒子与环境车辆的真实驾驶模型的差别，并集中向靠近真实驾驶模型的粒子附近重新采样新的50组粒子；(5)重复该过程，并在每一刻选择最靠近真实驾驶模型的粒子作为驾驶模型输入状态空间。

进一步，所述步骤2.3.2)中，采用蒙特卡洛树搜索的方法训练增强学习模型，具体步骤如下：(1)每个状态均有若干备选动作，且这些动作均满足安全性与交通规则的要求，初始化的蒙特卡洛树每个动作价值相同；(2)在每次仿真过程中，当所有动作价值相同时，优先采用规则模型生成的动作进行仿真；(3)若动作价值不同时，选择的动作为：

其中，Q(s,a)是动作a对环境状态s的价值函数；N(s,a)是过去仿真过程中在环境状态s时采用动作a的次数；N(s)＝∑_aN(s,a)；c是探索新动作意向常数；

(4)每次仿真结束后，根据最终获得的奖励，对过程中的状态与动作间价值的映射进行调整，更新价值函数Q(s,a)。

本发明由于采取以上技术方案，其具有以下优点：1、本发明能够根据下匝道的紧迫性调整无人车驾驶策略，提高下匝道成功率。2、本发明优先采用基于规则的无人驾驶决策模型，在规则模型可能失效时用基于增强学***滑曲线，满足车辆动力学模型与车辆轨迹跟踪的要求。

综上所述，在基于规则的无人驾驶汽车决策模型基础上，利用增强学习针对下匝道问题进行训练，使得无人驾驶汽车能够根据下匝道的紧迫性调整行驶策略，是提高无人驾驶汽车形式效率与稳定性的有效途径之一，从而推动无人汽车的发展。

附图说明

图1是基于规则与增强学习的无人驾驶汽车下匝道决策模型(混合下匝道决策模型)框架示意图；

图2是动作决策间连接方法示意图；

图3是混合下匝道决策模型的算法示意图；

图4是增强学习环境状态空间示意图；

图5是奖励机制对模型影响的示意图；

图6是蒙特卡洛树搜索方法示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明提供一种基于融合规则与学习模型的无人驾驶汽车驶离高速的方法，其包括以下步骤：

1)一辆无人驾驶汽车在高速公路行驶过程中，根据导航***在匝道前一段距离产生下匝道动机，首先利用基于规则的决策模型(即规则模型)尝试下匝道，并判断基于规则的决策模型下匝道是否降低成功率，若没有降低，则采用规则模型决策动作，若降低则进入步骤2)；

为便于描述，首先以匝道口起点为原点，车辆行驶方向为x，垂直车辆行驶方向向上为y，单位为m，建立直角坐标系。则无人驾驶汽车行驶位置，速度加速度可以表示为周围环境车辆的位置速度，加速度可以表示为另外规则模型的时间间隔为Δt(＝0.75s),规则模型的输出为在下一个Δt时间内无人驾驶汽车预期保持的横、纵向加速度，即其中下标e,i分别代表无人驾驶汽车和环境车辆，x,y表示车辆在上述坐标系的位置，分别为车辆在纵、横向方向的速度与加速度，t表示当前时刻。

规则模型的建立方法如下：

1.1)在x方向(纵向)上的决策需要综合分析无人驾驶汽车期望行驶速度、与前车期望保持的距离以及无人驾驶汽车的动力学特性；具体步骤如下：

1.1.1)无人驾驶汽车期望的行驶速度为：

如果前车存在；

其中，是无人驾驶汽车的最大减速度；Δt是时间间隔；d_f是当前时刻无人驾驶汽车与其所在车道的前方车辆(即前车)的距离；为当前无人驾驶汽车车速；是当前前车车速；是前车的最大减速度；是无人驾驶汽车正常行驶时的期望行驶速度；

1.1.3)由于受到动力学限制以及驾驶舒适性要求，最终在x方向上期望的速度可能无法通过一次决策调整实现，因此根据无人驾驶汽车的期望加速度将x方向最终决策调整为：

其中，a_min为无人驾驶汽车正常行驶时的最大减速度，a_max为无人驾驶汽车正常行驶时的最大加速度，这两个值设定为车辆动力学最大减、最大加速度的0.1倍。

1.2)车辆在y方向(横向)决策用于决定是否换道，换道过程中横向决策预先设定好即可，由于规则模型用于下匝道，因此产生换道动机后，一旦发现安全的位置即开始换道，否则继续保持车道行驶；具体设定如下：

1.2.1)通过判断目标车道前、后方车辆的运动状态确定当前换道是否安全，当满足以下任意一种条件时即可开始换道：

(1)目标车道前后方观测范围内没有车；

(2)目标车道存在前车，且当前自车(即无人驾驶汽车)车速满足：

其中，d_f,j是无人驾驶汽车与目标车道上前车的跟车距离；是目标车道上前车的车速；是目标车道前车的最大减速度；

(3)目标车道存在后车，且后车车速满足：

其中，是目标车道后车的最大减速度；d_r,j是无人驾驶汽车与目标车道上后车的跟车距离；是目标车道上后车的车速；是目标车道后车的最大减速度；

(4)目标车道同时存在前车与后车，且车速均满足条件(2)、(3)的要求。

1.2.2)当无人驾驶汽车决定换道时，换道过程中y方向决策恒定；

换道决策为：

整个换道过程设定需要经历两个时间间隔，即换道过程时间为2Δt(＝1.5s)，因此需要在横向方向上经过先加速后减速两个过程。当通过步骤1.2.1)后得到可行的换道时机时，此时设定y方向决策为：

其中，w为车道宽度。

当上一个已经开始换道时，下一刻y方向决策设定为：

此时无人驾驶汽车完成一次换道。

1.2.3)根据决策的动作计算出下一刻无人驾驶汽车的速度及位置：

1.3)以无人驾驶汽车当前位置、车速、下一时刻的目标位置和下一时刻的目标车速为边界条件，用五次多项式生成一条平滑曲线，并将其离散成为频率为20Hz的引导点向无人驾驶汽车发送引导信号，生成无人驾驶汽车局部轨迹，如图2所示。

以上为基于规则的无人驾驶车辆下匝道决策模型，该模型考虑了安全性，驾驶舒适性等问题，能够生成平滑的车辆引导轨迹，实现无人驾驶汽车下匝道的目的，但局部换道决策无法响应对下匝道的紧迫性，因此影响无人驾驶汽车通行效率。

2)如图3所示，基于增强学习的框架建立混合规则与增强学习的决策模型(即混合决策模型)及其训练方法，混合决策模型能够在远离匝道时采用规则模型驾驶，并在驶向匝道过程中，根据下匝道紧迫性利用增强学习决策模型调整车辆动作，进而提高下匝道的成功率；

混合决策模型的建立及其训练方法包括以下步骤：

2.1)增强学习的目的是建立一个从环境状态到动作之间的映射模型，利用不同的动作所获得的奖励来不断训练模型，最终模型所生成的动作能够最大限度获得奖励。因此需要首先定义环境状态空间，动作空间以及奖励机制。

2.1.1)图3中的环境状态由环境中车辆位置、行驶状态、驾驶策略、与匝道间的距离构建而成，如图4所示，其定义如下：

其中，坐标系与规则模型坐标系相同，l＝|x_e|为当前车辆与匝道间距离；q_e为无人驾驶汽车行驶状态；q_i为环境车行驶状态，θ_i为环境车驾驶策略。s表示环境状态；表示所有环境状态构成的环境状态空间；

行驶状态中环境车驾驶策略是无法直接观测的，需要通过车辆行驶过程中不断估计。另外，由于受到观测范围限制，无人驾驶汽车仅能观测前后50m范围内的环境车，因此任意一辆环境车辆与无人驾驶汽车的x方向坐标差均小于50m，即

|x_e-x_i|≤50m；

2.1.2)动作定义与规则模型一样，都是通过车辆横纵向加速度定义的，全部可选择的动作空间如下：

其中，a_min，a_max与规则模型中定义相同；a_brake为无人驾驶汽车最大减速度；a_rule为规则模型生成的动作；横向动作与规则模型一致，即当车辆开始换道时采用而下一刻采用实现换道。

每一个动作均可以计算出无人驾驶汽车下一刻所到达的位置与速度，以此为边界条件构建五次多项式，并将其离散成20Hz的局部引导轨迹引导无人驾驶车辆完成该动作，如图2所示。

2.1.3)混合决策模型奖励机制包括两部分，分别为下匝道完成奖励与规则模型启发奖励，其设定方法如下：

下匝道完成奖励r₁为：

规则模型启发奖励r₂为：

最终动作获得的奖励为：

r＝r₁+r₂。

由于当无人驾驶汽车离匝道口较远时，车辆决策对下匝道影响很小，因此需要采用规则模型，规则模型启发奖励机制能够帮助维护无人驾驶汽车采用规则模型。如图5所示，当无人驾驶汽车远离匝道时，规则模型生成的动作的价值f_d由于有启发式奖励，被提升为f_d'，显著大于其他动作的价值，因此车辆总会采取规则模型的动作；

在无人驾驶汽车接近匝道口时，动作对下匝道成功率的影响增强，即获得下匝道完成奖励可能性增加。当存在一个动作的价值高于被提升后规则模型的动作的价值f_d'时，该动作比规则模型的动作更有助于下匝道，此时无人驾驶汽车采用增强学习决策模型下匝道；

通过这种方式，该混合决策模型能够在远离匝道时采用规则模型驾驶，并在驶向匝道过程中，根据下匝道紧迫性利用增强学习决策模型调整车辆动作，进而提高下匝道的成功率。

2.2)利用增强学习模型输出的动作必须满足安全性与交通规则速度的限制，因此需要对增强学习的动作加以限制；

其限制方法步骤如下：

2.2.1)为满足当前车道行驶的安全性需求，需要保证无人驾驶汽车与其前车(与上文前车定义相同)的距离能够满足：当前车以最大减速度减速直至停车时，无人驾驶汽车能够通过采用最大减速度减速停车而不会发生碰撞，因此无人驾驶汽车的车速v限制为：

当步骤2.1.2)的动作空间中某一项会导致下一刻的速度不满足该约束时，该动作从动作空间中删除。当不存在前车时，则没有安全性速度限制。在换道时，当目标车道上前车、后车以及无人驾驶汽车的状态不满足步骤1.2.1)中的换道条件时，换道动作从动作空间中删除。通过上述方式，所生成的动作能够保证车辆行驶安全。

2.2.2)为满***通规则对速度的要求，当动作空间中某一动作导致下一刻车辆速度不满***通规则的速度限制时，该动作从动作空间中删除。因此利用增强学习产生的动作能够保证无人驾驶汽车车速始终保持满***通规则限制。

2.3)该混合决策模型在高度不确定的仿真环境(环境车辆有不同的驾驶策略，相同驾驶策略的车下一刻动作具有随机性)中通过不断重复的下匝道过程进行训练；

训练方法利用粒子滤波与蒙克卡罗树搜索的方法实现，具体步骤如下：

2.3.1)由于状态空间中，驾驶策略无法被直接观测，因此需要通过在线拟合的方式补充该策略。在本实施例中，采用IDM(智能驾驶员模型，Intelligent Driver Model)及MOBIL(总制动最小化换道模型，Minimizing Overall Braking Induced by LaneChanges)拟合车辆驾驶策略，两个模型共有8个参数需要根据车辆行驶表现进行拟合。本发明采用粒子滤波的方法进行拟合，步骤如下：

(1)针对每一个新出现的环境车辆建立一个粒子库；

(2)随机选取50组驾驶策略模型参数作为初始粒子；

(3)根据50组粒子构成的驾驶模型将所有环境车辆转移到下一刻状态；

(4)根据真实观测到的下一刻环境车辆状态分析50组粒子与环境车辆的真实驾驶模型的差别，并集中向靠近真实驾驶模型的粒子附近重新采样新的50组粒子；

(5)重复该过程，并在每一刻选择最靠近真实驾驶模型的粒子作为环境车辆的驾驶模型输入状态空间。

以上方法是采用粒子滤波获得了最大似然的驾驶模型(即环境车驾驶策略)θ_i,将该驾驶模型作为环境状态一部分送入增强学习模型中训练。此时，增强学习需要的全部环境状态已经全部获取完成。

2.3.2)本发明中混合决策模型使用增强学习模型，由于状态空间连续且维度较高，因此采用蒙特卡洛树搜索的方法训练增强学习模型，具体步骤如下：

(1)如图6所示，每个状态均有若干备选动作，且这些动作均满足步骤2.2)中对安全性与交通规则的要求。初始化的蒙特卡洛树每个动作价值相同；

(2)在每次仿真过程中，当所有动作价值相同时，优先采用规则模型生成的动作进行仿真；

(3)若动作价值不同时，选择的动作为：

其中，Q(s,a)是动作a对环境状态s的价值函数；N(s,a)是过去仿真过程中在环境状态s时采用动作a的次数；N(s)＝∑_aN(s,a)；c是探索新动作意向常数，在本实施例中优选为5；

(4)每次仿真结束后(无人驾驶汽车进入匝道或错过匝道)，根据最终获得的奖励，对过程中的状态与动作间价值的映射进行调整，更新价值函数Q(s,a)。

2.3.3)重复以上过程若干次完成训练。

综上所述，本发明在高度随机的仿真环境中进行了下匝道试验，无人驾驶汽车在一个四排道高速公路上的最左侧车道，并准备下匝道。为了与规则模型下道进行比较，设置分别在1000m,1500m,2000m前不允许换道，其后规则模型获得下匝道动机，并采用步骤1)中的方法下匝道500次，混合决策模型在相同的条件下同样下匝道500次，结果如表1所示。结果表明混合决策模型能够有效提升下匝道成功率5％-50％，且全过程中保证了车辆安全并满***通规则约束。

表1基于规则的模型与混合下匝道模型的结果比较

上述各实施例仅用于说明本发明，各个步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种基于融合规则与学习模型的无人驾驶汽车驶离高速的方法，其特征在于包括以下步骤：

1)无人驾驶汽车在高速公路行驶过程中，根据导航***在匝道前一段距离产生下匝道动机，首先利用规则模型尝试下匝道，并判断基于规则的决策模型下匝道是否降低成功率，若没有降低，则采用规则模型决策动作，若降低则进入步骤2)；

以匝道口起点为原点，车辆行驶方向为x，垂直车辆行驶方向向上为y，单位为m，建立直角坐标系；则无人驾驶汽车行驶位置，速度加速度为周围环境车辆的位置速度，加速度为另外，规则模型的时间间隔为Δt,规则模型的输出为在下一个Δt时间内无人驾驶汽车预期保持的横、纵向加速度其中分别为车辆在纵、横向方向的速度与加速度，t表示当前时刻；

2)基于增强学习的框架建立混合规则与增强学习的混合决策模型及其训练方法，混合决策模型能够在远离匝道时采用规则模型驾驶，并在驶向匝道过程中，根据下匝道紧迫性利用增强学习决策模型调整车辆动作，提高下匝道的成功率。

2.如权利要求1所述无人驾驶汽车驶离高速的方法，其特征在于：所述步骤1)中，规则模型的建立方法包括以下步骤：

1.1)在x方向上的决策需要综合分析无人驾驶汽车期望行驶速度、与前车期望保持的距离以及无人驾驶汽车的动力学特性；

1.2)车辆在y方向决策用于决定是否换道，换道过程中y方向决策预先设定好即可，由于规则模型用于下匝道，因此产生换道动机后，一旦发现安全的位置即开始换道，否则继续保持车道行驶；

1.3)以无人驾驶汽车当前位置、车速、下一刻目标位置和下一刻目标车速为边界条件，用五次多项式生成一条平滑曲线，并将其离散成为频率为20Hz的引导点向无人驾驶汽车发送引导信号，生成无人驾驶汽车局部轨迹。

3.如权利要求2所述无人驾驶汽车驶离高速的方法，其特征在于：所述步骤1.1)中，x方向上的决策包括以下步骤：

1.1.1)无人驾驶汽车期望的行驶速度为：

4.如权利要求3所述无人驾驶汽车驶离高速的方法，其特征在于：所述步骤1.2)中，y方向决策包括以下步骤：

1.2.1)通过判断目标车道前、后方车辆的运动状态确定当前换道是否安全，当满足以下任意一种条件时则能开始换道：

(1)目标车道前后方观测范围内没有车；

(2)目标车道存在前车，且当前自车车速满足：

(3)目标车道存在后车，且后车车速满足：

(4)目标车道同时存在前车与后车，且车速均满足条件(2)、(3)的要求；

1.2.2)当无人驾驶汽车决定换道时，换道过程中y方向决策恒定，换道决策为：

整个换道过程设定需要经历两个时间间隔2Δt，因此需要在横向方向上经过先加速后减速两个过程；当得到可行的换道时机时，设定y方向决策为：

其中，w为车道宽度；

当上一个已经开始换道时，下一刻y方向决策设定为：

此时无人驾驶汽车完成一次换道；

5.如权利要求1至4任一项所述无人驾驶汽车驶离高速的方法，其特征在于：所述步骤2)中，混合决策模型的建立及其训练方法包括以下步骤：

2.1)定义环境状态空间，动作空间以及奖励机制；

2.2)利用增强学习模型输出的动作必须满足安全性与交通规则速度的限制，故对增强学习的动作加以限制；

2.3)混合决策模型在高度不确定的仿真环境中通过不断重复的下匝道过程进行训练。

6.如权利要求5所述无人驾驶汽车驶离高速的方法，其特征在于：所述步骤2.1)中，环境状态空间，动作空间以及奖励机制的定义如下：

2.1.1)环境状态由环境中车辆位置、行驶状态、驾驶策略、与匝道间的距离构建而成，其定义如下：

其中，坐标系与规则模型坐标系相同，l＝|x_e|为当前车辆与匝道间距离；q_e为无人驾驶汽车行驶状态；q_i为环境车行驶状态，θ_i为环境车驾驶策略；s表示环境状态；表示所有环境状态构成的环境状态空间；

行驶状态中，任意一辆环境车辆与无人驾驶汽车的x方向坐标差均小于50m，即

|x_e-x_i|≤50m；

其中，a_brake为无人驾驶汽车最大减速度；a_rule为规则模型生成的动作；y方向动作是当车辆开始换道时采用而下一刻采用实现换道；

每一个动作均能计算出无人驾驶汽车下一刻所到达的位置与速度，以此为边界条件构建五次多项式，并将其离散成20Hz的局部引导轨迹引导无人驾驶车辆完成该动作；

下匝道完成奖励r₁为：

规则模型启发奖励r₂为：

最终动作获得的奖励为：

r＝r₁+r₂。

7.如权利要求5所述无人驾驶汽车驶离高速的方法，其特征在于：所述步骤2.2)中，限制方法步骤如下：

2.2.1)为满足当前车道行驶的安全性需求，需要保证无人驾驶汽车与其前车的距离能够满足：当前车以最大减速度减速直至停车时，无人驾驶汽车能够通过采用最大减速度减速停车而不会发生碰撞，因此无人驾驶汽车的车速v限制为：

当动作空间中某一项会导致下一刻的速度不满足该约束时，该动作从动作空间中删除；当不存在前车时，则没有安全性速度限制；在换道时，当目标车道上前车、后车以及无人驾驶汽车的状态不满足换道条件时，换道动作从动作空间中删除，生成的动作能够保证车辆行驶安全；

2.2.2)为满***通规则对速度的要求，当动作空间中某一动作导致下一刻车辆速度不满***通规则的速度限制时，该动作从动作空间中删除。

8.如权利要求5所述无人驾驶汽车驶离高速的方法，其特征在于：所述步骤2.3)中，训练方法利用粒子滤波与蒙克卡罗树搜索的方法实现，具体步骤如下：

2.3.1)采用IDM及MOBIL拟合车辆驾驶策略，采用粒子滤波的方法进行拟合；其中，IDM为智能驾驶员模型，MOBIL为总制动最小化换道模型；

2.3.2)混合决策模型使用增强学习模型，由于状态空间连续且维度较高，因此采用蒙特卡洛树搜索的方法训练增强学习模型；

2.3.3)重复以上过程若干次完成训练。

9.如权利要求8所述无人驾驶汽车驶离高速的方法，其特征在于：所述步骤2.3.1)中，采用粒子滤波的方法进行拟合的步骤如下：

(1)针对每一个新出现的环境车辆建立一个粒子库；

(2)随机选取50组驾驶策略模型参数作为初始粒子；

(5)重复该过程，并在每一刻选择最靠近真实驾驶模型的粒子作为驾驶模型输入状态空间。

10.如权利要求8所述无人驾驶汽车驶离高速的方法，其特征在于：所述步骤2.3.2)中，采用蒙特卡洛树搜索的方法训练增强学习模型，具体步骤如下：

(1)每个状态均有若干备选动作，且这些动作均满足安全性与交通规则的要求，初始化的蒙特卡洛树每个动作价值相同；

(3)若动作价值不同时，选择的动作为：