CN109598934A - 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法 - Google Patents

一种基于规则与学习模型的无人驾驶汽车驶离高速的方法 Download PDF

Info

Publication number
CN109598934A
CN109598934A CN201811524283.4A CN201811524283A CN109598934A CN 109598934 A CN109598934 A CN 109598934A CN 201811524283 A CN201811524283 A CN 201811524283A CN 109598934 A CN109598934 A CN 109598934A
Authority
CN
China
Prior art keywords
pilotless automobile
model
lane
vehicle
ring road
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811524283.4A
Other languages
English (en)
Other versions
CN109598934B (zh
Inventor
杨殿阁
曹重
江昆
封硕
王思佳
肖中阳
谢诗超
焦新宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chaoxing Future Technology Co., Ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811524283.4A priority Critical patent/CN109598934B/zh
Publication of CN109598934A publication Critical patent/CN109598934A/zh
Application granted granted Critical
Publication of CN109598934B publication Critical patent/CN109598934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于融合规则与学习模型的无人驾驶汽车驶离高速的方法,其步骤:无人驾驶汽车在高速公路行驶过程中,根据导航***在匝道前一段距离产生下匝道动机,利用规则模型尝试下匝道,并判断基于规则的决策模型下匝道是否降低成功率,若没有降低,则采用规则模型决策动作,反之则进入下一步;基于增强学习的框架建立混合规则与增强学习的混合决策模型及其训练方法,混合决策模型能够在远离匝道时采用规则模型驾驶,并在驶向匝道过程中,根据下匝道紧迫性利用增强学习决策模型调整车辆动作。本发明能提升无人驾驶汽车下匝道过程的行驶效率与稳定性,实现在有限感知范围,难以预测的环境车辆条件下,无人驾驶汽车高效、高稳定性的下匝道决策。

Description

一种基于规则与学习模型的无人驾驶汽车驶离高速的方法
技术领域
本发明涉及一种无人驾驶汽车决策技术领域,特别是关于一种基于规则与学习模型的无人驾驶汽车驶离高速的方法。
背景技术
无人驾驶汽车自主决策是无人驾驶汽车***中的重要组成部分,高速公路是无人驾驶汽车重要的应用场景,其中,无人驾驶汽车驶离高速公路(下匝道)的过程对无人驾驶汽车的行驶效率有重要影响,过早的换到最右侧车道上等待下匝道或错过匝道均会显著降低行驶效率。现阶段,主流的下匝道方法是通过在合适的地方产生换道动机,利用若干次换道行为实现下匝道过程。但由于换道行为本身无法根据下匝道的紧迫性自我调整,该方法驶离高速公路的成功率较低,需要的准备距离较长,导致无人驾驶汽车效率下降。另一方面,由于无人驾驶汽车感知范围有限,且高速公路上驾驶员行为充满不确定性,利用简单枚举换道规则对下匝道成功率的影响难以估计,无法覆盖所有环境状态;而单纯利用纯学习的方法生成的结果难以控制,会影响车辆行驶的安全性与稳定性。
发明内容
针对上述问题,本发明的目的是提供一种基于规则与学习模型的无人驾驶汽车驶离高速的方法,其能够充分发挥增强学习在高度不确定环境下对明确目标的决策能力,同时兼顾基于规则的决策模型的安全性与稳定性,提升无人驾驶汽车下匝道过程的行驶效率与稳定性,实现在有限感知范围,难以预测的环境车辆条件下,无人驾驶汽车高效、高稳定性的下匝道决策。
为实现上述目的,本发明采取以下技术方案:一种基于融合规则与学习模型的无人驾驶汽车驶离高速的方法,其包括以下步骤:1)无人驾驶汽车在高速公路行驶过程中,根据导航***在匝道前一段距离产生下匝道动机,首先利用规则模型尝试下匝道,并判断基于规则的决策模型下匝道是否降低成功率,若没有降低,则采用规则模型决策动作,若降低则进入步骤2);以匝道口起点为原点,车辆行驶方向为x,垂直车辆行驶方向向上为y,单位为m,建立直角坐标系;则无人驾驶汽车行驶位置,速度加速度为周围环境车辆的位置速度,加速度为i=1,2,…,n;另外,规则模型的时间间隔为Δt,规则模型的输出为在下一个Δt时间内无人驾驶汽车预期保持的横、纵向加速度其中分别为车辆在纵、横向方向的速度与加速度,t表示当前时刻;2)基于增强学习的框架建立混合规则与增强学习的混合决策模型及其训练方法,混合决策模型能够在远离匝道时采用规则模型驾驶,并在驶向匝道过程中,根据下匝道紧迫性利用增强学习决策模型调整车辆动作,提高下匝道的成功率。
进一步,所述步骤1)中,规则模型的建立方法包括以下步骤:1.1)在x方向上的决策需要综合分析无人驾驶汽车期望行驶速度、与前车期望保持的距离以及无人驾驶汽车的动力学特性;1.2)车辆在y方向决策用于决定是否换道,换道过程中y方向决策预先设定好即可,由于规则模型用于下匝道,因此产生换道动机后,一旦发现安全的位置即开始换道,否则继续保持车道行驶;1.3)以无人驾驶汽车当前位置、车速、下一刻目标位置和下一刻目标车速为边界条件,用五次多项式生成一条平滑曲线,并将其离散成为频率为20Hz的引导点向无人驾驶汽车发送引导信号,生成无人驾驶汽车局部轨迹。
进一步,所述步骤1.1)中,x方向上的决策包括以下步骤:1.1.1)无人驾驶汽车期望的行驶速度为:
如果前车存在;
其中,是无人驾驶汽车的最大减速度;Δt是时间间隔;df是当前时刻无人驾驶汽车与其所在车道的前方车辆的距离;为当前无人驾驶汽车车速;是当前前车车速;是前车的最大减速度;是无人驾驶汽车正常行驶时的期望行驶速度;
1.1.2)为达到无人驾驶汽车期望速度,无人驾驶汽车的期望加速度为:
1.1.3)根据无人驾驶汽车的期望加速度将x方向最终决策调整为:
其中,amin为无人驾驶汽车正常行驶时的最大减速度,amax为无人驾驶汽车正常行驶时的最大加速度。
进一步,所述步骤1.2)中,y方向决策包括以下步骤:1.2.1)通过判断目标车道前、后方车辆的运动状态确定当前换道是否安全,当满足以下任意一种条件时则能开始换道:(1)目标车道前后方观测范围内没有车;(2)目标车道存在前车,且当前自车车速满足:
其中,df,j是无人驾驶汽车与目标车道上前车的跟车距离;是目标车道上前车的车速;是目标车道前车的最大减速度;(3)目标车道存在后车,且后车车速满足:
其中,是目标车道后车的最大减速度;dr,j是无人驾驶汽车与目标车道上后车的跟车距离;是目标车道上后车的车速;是目标车道后车的最大减速度;(4)目标车道同时存在前车与后车,且车速均满足条件(2)、(3)的要求;1.2.2)当无人驾驶汽车决定换道时,换道过程中y方向决策恒定,换道决策为:整个换道过程设定需要经历两个时间间隔2Δt,因此需要在横向方向上经过先加速后减速两个过程;当得到可行的换道时机时,设定y方向决策为:
其中,w为车道宽度;当上一个已经开始换道时,下一刻y方向决策设定为:
此时无人驾驶汽车完成一次换道;1.2.3)根据决策的动作计算出下一刻无人驾驶汽车的速度及位置:
进一步,所述步骤2)中,混合决策模型的建立及其训练方法包括以下步骤:2.1)定义环境状态空间,动作空间以及奖励机制;2.2)利用增强学习模型输出的动作必须满足安全性与交通规则速度的限制,故对增强学习的动作加以限制;2.3)混合决策模型在高度不确定的仿真环境中通过不断重复的下匝道过程进行训练。
进一步,所述步骤2.1)中,环境状态空间,动作空间以及奖励机制的定义如下:2.1.1)环境状态由环境中车辆位置、行驶状态、驾驶策略、与匝道间的距离构建而成,其定义如下:
其中,坐标系与规则模型坐标系相同,l=|xe|为当前车辆与匝道间距离;qe为无人驾驶汽车行驶状态;qi为环境车行驶状态,θi为环境车驾驶策略;s表示环境状态;表示所有环境状态构成的环境状态空间;行驶状态中,任意一辆环境车辆与无人驾驶汽车的x方向坐标差均小于50m,即
|xe-xi|≤50m;
2.1.2)动作定义是通过车辆x方向、y方向加速度定义的,全部可选择的动作空间如下:
其中,abrake为无人驾驶汽车最大减速度;arule为规则模型生成的动作;y方向动作是当车辆开始换道时采用而下一刻采用实现换道;每一个动作均能计算出无人驾驶汽车下一刻所到达的位置与速度,以此为边界条件构建五次多项式,并将其离散成20Hz的局部引导轨迹引导无人驾驶车辆完成该动作;
2.1.3)混合决策模型奖励机制包括两部分,分别为下匝道完成奖励与规则模型启发奖励,其设定方法如下:下匝道完成奖励r1为:
规则模型启发奖励r2为:
最终动作获得的奖励为:
r=r1+r2
进一步,所述步骤2.2)中,限制方法步骤如下:2.2.1)为满足当前车道行驶的安全性需求,需要保证无人驾驶汽车与其前车的距离能够满足:当前车以最大减速度减速直至停车时,无人驾驶汽车能够通过采用最大减速度减速停车而不会发生碰撞,因此无人驾驶汽车的车速v限制为:
当动作空间中某一项会导致下一刻的速度不满足该约束时,该动作从动作空间中删除;当不存在前车时,则没有安全性速度限制;在换道时,当目标车道上前车、后车以及无人驾驶汽车的状态不满足换道条件时,换道动作从动作空间中删除,生成的动作能够保证车辆行驶安全;2.2.2)为满***通规则对速度的要求,当动作空间中某一动作导致下一刻车辆速度不满***通规则的速度限制时,该动作从动作空间中删除。
进一步,所述步骤2.3)中,训练方法利用粒子滤波与蒙克卡罗树搜索的方法实现,具体步骤如下:2.3.1)采用IDM及MOBIL拟合车辆驾驶策略,采用粒子滤波的方法进行拟合;其中,IDM为智能驾驶员模型,MOBIL为总制动最小化换道模型;2.3.2)混合决策模型使用增强学习模型,由于状态空间连续且维度较高,因此采用蒙特卡洛树搜索的方法训练增强学习模型;2.3.3)重复以上过程若干次完成训练。
进一步,所述步骤2.3.1)中,采用粒子滤波的方法进行拟合的步骤如下:(1)针对每一个新出现的环境车辆建立一个粒子库;(2)随机选取50组驾驶策略模型参数作为初始粒子;(3)根据50组粒子构成的驾驶模型将所有环境车辆转移到下一刻状态;(4)根据真实观测到的下一刻环境车辆状态分析50组粒子与环境车辆的真实驾驶模型的差别,并集中向靠近真实驾驶模型的粒子附近重新采样新的50组粒子;(5)重复该过程,并在每一刻选择最靠近真实驾驶模型的粒子作为驾驶模型输入状态空间。
进一步,所述步骤2.3.2)中,采用蒙特卡洛树搜索的方法训练增强学习模型,具体步骤如下:(1)每个状态均有若干备选动作,且这些动作均满足安全性与交通规则的要求,初始化的蒙特卡洛树每个动作价值相同;(2)在每次仿真过程中,当所有动作价值相同时,优先采用规则模型生成的动作进行仿真;(3)若动作价值不同时,选择的动作为:
其中,Q(s,a)是动作a对环境状态s的价值函数;N(s,a)是过去仿真过程中在环境状态s时采用动作a的次数;N(s)=∑aN(s,a);c是探索新动作意向常数;
(4)每次仿真结束后,根据最终获得的奖励,对过程中的状态与动作间价值的映射进行调整,更新价值函数Q(s,a)。
本发明由于采取以上技术方案,其具有以下优点:1、本发明能够根据下匝道的紧迫性调整无人车驾驶策略,提高下匝道成功率。2、本发明优先采用基于规则的无人驾驶决策模型,在规则模型可能失效时用基于增强学***滑曲线,满足车辆动力学模型与车辆轨迹跟踪的要求。
综上所述,在基于规则的无人驾驶汽车决策模型基础上,利用增强学习针对下匝道问题进行训练,使得无人驾驶汽车能够根据下匝道的紧迫性调整行驶策略,是提高无人驾驶汽车形式效率与稳定性的有效途径之一,从而推动无人汽车的发展。
附图说明
图1是基于规则与增强学习的无人驾驶汽车下匝道决策模型(混合下匝道决策模型)框架示意图;
图2是动作决策间连接方法示意图;
图3是混合下匝道决策模型的算法示意图;
图4是增强学习环境状态空间示意图;
图5是奖励机制对模型影响的示意图;
图6是蒙特卡洛树搜索方法示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明提供一种基于融合规则与学习模型的无人驾驶汽车驶离高速的方法,其包括以下步骤:
1)一辆无人驾驶汽车在高速公路行驶过程中,根据导航***在匝道前一段距离产生下匝道动机,首先利用基于规则的决策模型(即规则模型)尝试下匝道,并判断基于规则的决策模型下匝道是否降低成功率,若没有降低,则采用规则模型决策动作,若降低则进入步骤2);
为便于描述,首先以匝道口起点为原点,车辆行驶方向为x,垂直车辆行驶方向向上为y,单位为m,建立直角坐标系。则无人驾驶汽车行驶位置,速度加速度可以表示为周围环境车辆的位置速度,加速度可以表示为另外规则模型的时间间隔为Δt(=0.75s),规则模型的输出为在下一个Δt时间内无人驾驶汽车预期保持的横、纵向加速度,即其中下标e,i分别代表无人驾驶汽车和环境车辆,x,y表示车辆在上述坐标系的位置,分别为车辆在纵、横向方向的速度与加速度,t表示当前时刻。
规则模型的建立方法如下:
1.1)在x方向(纵向)上的决策需要综合分析无人驾驶汽车期望行驶速度、与前车期望保持的距离以及无人驾驶汽车的动力学特性;具体步骤如下:
1.1.1)无人驾驶汽车期望的行驶速度为:
如果前车存在;
其中,是无人驾驶汽车的最大减速度;Δt是时间间隔;df是当前时刻无人驾驶汽车与其所在车道的前方车辆(即前车)的距离;为当前无人驾驶汽车车速;是当前前车车速;是前车的最大减速度;是无人驾驶汽车正常行驶时的期望行驶速度;
1.1.2)为达到无人驾驶汽车期望速度,无人驾驶汽车的期望加速度为:
1.1.3)由于受到动力学限制以及驾驶舒适性要求,最终在x方向上期望的速度可能无法通过一次决策调整实现,因此根据无人驾驶汽车的期望加速度将x方向最终决策调整为:
其中,amin为无人驾驶汽车正常行驶时的最大减速度,amax为无人驾驶汽车正常行驶时的最大加速度,这两个值设定为车辆动力学最大减、最大加速度的0.1倍。
1.2)车辆在y方向(横向)决策用于决定是否换道,换道过程中横向决策预先设定好即可,由于规则模型用于下匝道,因此产生换道动机后,一旦发现安全的位置即开始换道,否则继续保持车道行驶;具体设定如下:
1.2.1)通过判断目标车道前、后方车辆的运动状态确定当前换道是否安全,当满足以下任意一种条件时即可开始换道:
(1)目标车道前后方观测范围内没有车;
(2)目标车道存在前车,且当前自车(即无人驾驶汽车)车速满足:
其中,df,j是无人驾驶汽车与目标车道上前车的跟车距离;是目标车道上前车的车速;是目标车道前车的最大减速度;
(3)目标车道存在后车,且后车车速满足:
其中,是目标车道后车的最大减速度;dr,j是无人驾驶汽车与目标车道上后车的跟车距离;是目标车道上后车的车速;是目标车道后车的最大减速度;
(4)目标车道同时存在前车与后车,且车速均满足条件(2)、(3)的要求。
1.2.2)当无人驾驶汽车决定换道时,换道过程中y方向决策恒定;
换道决策为:
整个换道过程设定需要经历两个时间间隔,即换道过程时间为2Δt(=1.5s),因此需要在横向方向上经过先加速后减速两个过程。当通过步骤1.2.1)后得到可行的换道时机时,此时设定y方向决策为:
其中,w为车道宽度。
当上一个已经开始换道时,下一刻y方向决策设定为:
此时无人驾驶汽车完成一次换道。
1.2.3)根据决策的动作计算出下一刻无人驾驶汽车的速度及位置:
1.3)以无人驾驶汽车当前位置、车速、下一时刻的目标位置和下一时刻的目标车速为边界条件,用五次多项式生成一条平滑曲线,并将其离散成为频率为20Hz的引导点向无人驾驶汽车发送引导信号,生成无人驾驶汽车局部轨迹,如图2所示。
以上为基于规则的无人驾驶车辆下匝道决策模型,该模型考虑了安全性,驾驶舒适性等问题,能够生成平滑的车辆引导轨迹,实现无人驾驶汽车下匝道的目的,但局部换道决策无法响应对下匝道的紧迫性,因此影响无人驾驶汽车通行效率。
2)如图3所示,基于增强学习的框架建立混合规则与增强学习的决策模型(即混合决策模型)及其训练方法,混合决策模型能够在远离匝道时采用规则模型驾驶,并在驶向匝道过程中,根据下匝道紧迫性利用增强学习决策模型调整车辆动作,进而提高下匝道的成功率;
混合决策模型的建立及其训练方法包括以下步骤:
2.1)增强学习的目的是建立一个从环境状态到动作之间的映射模型,利用不同的动作所获得的奖励来不断训练模型,最终模型所生成的动作能够最大限度获得奖励。因此需要首先定义环境状态空间,动作空间以及奖励机制。
2.1.1)图3中的环境状态由环境中车辆位置、行驶状态、驾驶策略、与匝道间的距离构建而成,如图4所示,其定义如下:
其中,坐标系与规则模型坐标系相同,l=|xe|为当前车辆与匝道间距离;qe为无人驾驶汽车行驶状态;qi为环境车行驶状态,θi为环境车驾驶策略。s表示环境状态;表示所有环境状态构成的环境状态空间;
行驶状态中环境车驾驶策略是无法直接观测的,需要通过车辆行驶过程中不断估计。另外,由于受到观测范围限制,无人驾驶汽车仅能观测前后50m范围内的环境车,因此任意一辆环境车辆与无人驾驶汽车的x方向坐标差均小于50m,即
|xe-xi|≤50m;
2.1.2)动作定义与规则模型一样,都是通过车辆横纵向加速度定义的,全部可选择的动作空间如下:
其中,amin,amax与规则模型中定义相同;abrake为无人驾驶汽车最大减速度;arule为规则模型生成的动作;横向动作与规则模型一致,即当车辆开始换道时采用而下一刻采用实现换道。
每一个动作均可以计算出无人驾驶汽车下一刻所到达的位置与速度,以此为边界条件构建五次多项式,并将其离散成20Hz的局部引导轨迹引导无人驾驶车辆完成该动作,如图2所示。
2.1.3)混合决策模型奖励机制包括两部分,分别为下匝道完成奖励与规则模型启发奖励,其设定方法如下:
下匝道完成奖励r1为:
规则模型启发奖励r2为:
最终动作获得的奖励为:
r=r1+r2
由于当无人驾驶汽车离匝道口较远时,车辆决策对下匝道影响很小,因此需要采用规则模型,规则模型启发奖励机制能够帮助维护无人驾驶汽车采用规则模型。如图5所示,当无人驾驶汽车远离匝道时,规则模型生成的动作的价值fd由于有启发式奖励,被提升为fd',显著大于其他动作的价值,因此车辆总会采取规则模型的动作;
在无人驾驶汽车接近匝道口时,动作对下匝道成功率的影响增强,即获得下匝道完成奖励可能性增加。当存在一个动作的价值高于被提升后规则模型的动作的价值fd'时,该动作比规则模型的动作更有助于下匝道,此时无人驾驶汽车采用增强学习决策模型下匝道;
通过这种方式,该混合决策模型能够在远离匝道时采用规则模型驾驶,并在驶向匝道过程中,根据下匝道紧迫性利用增强学习决策模型调整车辆动作,进而提高下匝道的成功率。
2.2)利用增强学习模型输出的动作必须满足安全性与交通规则速度的限制,因此需要对增强学习的动作加以限制;
其限制方法步骤如下:
2.2.1)为满足当前车道行驶的安全性需求,需要保证无人驾驶汽车与其前车(与上文前车定义相同)的距离能够满足:当前车以最大减速度减速直至停车时,无人驾驶汽车能够通过采用最大减速度减速停车而不会发生碰撞,因此无人驾驶汽车的车速v限制为:
当步骤2.1.2)的动作空间中某一项会导致下一刻的速度不满足该约束时,该动作从动作空间中删除。当不存在前车时,则没有安全性速度限制。在换道时,当目标车道上前车、后车以及无人驾驶汽车的状态不满足步骤1.2.1)中的换道条件时,换道动作从动作空间中删除。通过上述方式,所生成的动作能够保证车辆行驶安全。
2.2.2)为满***通规则对速度的要求,当动作空间中某一动作导致下一刻车辆速度不满***通规则的速度限制时,该动作从动作空间中删除。因此利用增强学习产生的动作能够保证无人驾驶汽车车速始终保持满***通规则限制。
2.3)该混合决策模型在高度不确定的仿真环境(环境车辆有不同的驾驶策略,相同驾驶策略的车下一刻动作具有随机性)中通过不断重复的下匝道过程进行训练;
训练方法利用粒子滤波与蒙克卡罗树搜索的方法实现,具体步骤如下:
2.3.1)由于状态空间中,驾驶策略无法被直接观测,因此需要通过在线拟合的方式补充该策略。在本实施例中,采用IDM(智能驾驶员模型,Intelligent Driver Model)及MOBIL(总制动最小化换道模型,Minimizing Overall Braking Induced by LaneChanges)拟合车辆驾驶策略,两个模型共有8个参数需要根据车辆行驶表现进行拟合。本发明采用粒子滤波的方法进行拟合,步骤如下:
(1)针对每一个新出现的环境车辆建立一个粒子库;
(2)随机选取50组驾驶策略模型参数作为初始粒子;
(3)根据50组粒子构成的驾驶模型将所有环境车辆转移到下一刻状态;
(4)根据真实观测到的下一刻环境车辆状态分析50组粒子与环境车辆的真实驾驶模型的差别,并集中向靠近真实驾驶模型的粒子附近重新采样新的50组粒子;
(5)重复该过程,并在每一刻选择最靠近真实驾驶模型的粒子作为环境车辆的驾驶模型输入状态空间。
以上方法是采用粒子滤波获得了最大似然的驾驶模型(即环境车驾驶策略)θi,将该驾驶模型作为环境状态一部分送入增强学习模型中训练。此时,增强学习需要的全部环境状态已经全部获取完成。
2.3.2)本发明中混合决策模型使用增强学习模型,由于状态空间连续且维度较高,因此采用蒙特卡洛树搜索的方法训练增强学习模型,具体步骤如下:
(1)如图6所示,每个状态均有若干备选动作,且这些动作均满足步骤2.2)中对安全性与交通规则的要求。初始化的蒙特卡洛树每个动作价值相同;
(2)在每次仿真过程中,当所有动作价值相同时,优先采用规则模型生成的动作进行仿真;
(3)若动作价值不同时,选择的动作为:
其中,Q(s,a)是动作a对环境状态s的价值函数;N(s,a)是过去仿真过程中在环境状态s时采用动作a的次数;N(s)=∑aN(s,a);c是探索新动作意向常数,在本实施例中优选为5;
(4)每次仿真结束后(无人驾驶汽车进入匝道或错过匝道),根据最终获得的奖励,对过程中的状态与动作间价值的映射进行调整,更新价值函数Q(s,a)。
2.3.3)重复以上过程若干次完成训练。
综上所述,本发明在高度随机的仿真环境中进行了下匝道试验,无人驾驶汽车在一个四排道高速公路上的最左侧车道,并准备下匝道。为了与规则模型下道进行比较,设置分别在1000m,1500m,2000m前不允许换道,其后规则模型获得下匝道动机,并采用步骤1)中的方法下匝道500次,混合决策模型在相同的条件下同样下匝道500次,结果如表1所示。结果表明混合决策模型能够有效提升下匝道成功率5%-50%,且全过程中保证了车辆安全并满***通规则约束。
表1基于规则的模型与混合下匝道模型的结果比较
上述各实施例仅用于说明本发明,各个步骤都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不应排除在本发明的保护范围之外。

Claims (10)

1.一种基于融合规则与学习模型的无人驾驶汽车驶离高速的方法,其特征在于包括以下步骤:
1)无人驾驶汽车在高速公路行驶过程中,根据导航***在匝道前一段距离产生下匝道动机,首先利用规则模型尝试下匝道,并判断基于规则的决策模型下匝道是否降低成功率,若没有降低,则采用规则模型决策动作,若降低则进入步骤2);
以匝道口起点为原点,车辆行驶方向为x,垂直车辆行驶方向向上为y,单位为m,建立直角坐标系;则无人驾驶汽车行驶位置,速度加速度为周围环境车辆的位置速度,加速度为另外,规则模型的时间间隔为Δt,规则模型的输出为在下一个Δt时间内无人驾驶汽车预期保持的横、纵向加速度其中分别为车辆在纵、横向方向的速度与加速度,t表示当前时刻;
2)基于增强学习的框架建立混合规则与增强学习的混合决策模型及其训练方法,混合决策模型能够在远离匝道时采用规则模型驾驶,并在驶向匝道过程中,根据下匝道紧迫性利用增强学习决策模型调整车辆动作,提高下匝道的成功率。
2.如权利要求1所述无人驾驶汽车驶离高速的方法,其特征在于:所述步骤1)中,规则模型的建立方法包括以下步骤:
1.1)在x方向上的决策需要综合分析无人驾驶汽车期望行驶速度、与前车期望保持的距离以及无人驾驶汽车的动力学特性;
1.2)车辆在y方向决策用于决定是否换道,换道过程中y方向决策预先设定好即可,由于规则模型用于下匝道,因此产生换道动机后,一旦发现安全的位置即开始换道,否则继续保持车道行驶;
1.3)以无人驾驶汽车当前位置、车速、下一刻目标位置和下一刻目标车速为边界条件,用五次多项式生成一条平滑曲线,并将其离散成为频率为20Hz的引导点向无人驾驶汽车发送引导信号,生成无人驾驶汽车局部轨迹。
3.如权利要求2所述无人驾驶汽车驶离高速的方法,其特征在于:所述步骤1.1)中,x方向上的决策包括以下步骤:
1.1.1)无人驾驶汽车期望的行驶速度为:
其中,是无人驾驶汽车的最大减速度;Δt是时间间隔;df是当前时刻无人驾驶汽车与其所在车道的前方车辆的距离;为当前无人驾驶汽车车速;是当前前车车速;是前车的最大减速度;是无人驾驶汽车正常行驶时的期望行驶速度;
1.1.2)为达到无人驾驶汽车期望速度,无人驾驶汽车的期望加速度为:
1.1.3)根据无人驾驶汽车的期望加速度将x方向最终决策调整为:
其中,amin为无人驾驶汽车正常行驶时的最大减速度,amax为无人驾驶汽车正常行驶时的最大加速度。
4.如权利要求3所述无人驾驶汽车驶离高速的方法,其特征在于:所述步骤1.2)中,y方向决策包括以下步骤:
1.2.1)通过判断目标车道前、后方车辆的运动状态确定当前换道是否安全,当满足以下任意一种条件时则能开始换道:
(1)目标车道前后方观测范围内没有车;
(2)目标车道存在前车,且当前自车车速满足:
其中,df,j是无人驾驶汽车与目标车道上前车的跟车距离;是目标车道上前车的车速;是目标车道前车的最大减速度;
(3)目标车道存在后车,且后车车速满足:
其中,是目标车道后车的最大减速度;dr,j是无人驾驶汽车与目标车道上后车的跟车距离;是目标车道上后车的车速;是目标车道后车的最大减速度;
(4)目标车道同时存在前车与后车,且车速均满足条件(2)、(3)的要求;
1.2.2)当无人驾驶汽车决定换道时,换道过程中y方向决策恒定,换道决策为:
整个换道过程设定需要经历两个时间间隔2Δt,因此需要在横向方向上经过先加速后减速两个过程;当得到可行的换道时机时,设定y方向决策为:
其中,w为车道宽度;
当上一个已经开始换道时,下一刻y方向决策设定为:
此时无人驾驶汽车完成一次换道;
1.2.3)根据决策的动作计算出下一刻无人驾驶汽车的速度及位置:
5.如权利要求1至4任一项所述无人驾驶汽车驶离高速的方法,其特征在于:所述步骤2)中,混合决策模型的建立及其训练方法包括以下步骤:
2.1)定义环境状态空间,动作空间以及奖励机制;
2.2)利用增强学习模型输出的动作必须满足安全性与交通规则速度的限制,故对增强学习的动作加以限制;
2.3)混合决策模型在高度不确定的仿真环境中通过不断重复的下匝道过程进行训练。
6.如权利要求5所述无人驾驶汽车驶离高速的方法,其特征在于:所述步骤2.1)中,环境状态空间,动作空间以及奖励机制的定义如下:
2.1.1)环境状态由环境中车辆位置、行驶状态、驾驶策略、与匝道间的距离构建而成,其定义如下:
其中,坐标系与规则模型坐标系相同,l=|xe|为当前车辆与匝道间距离;qe为无人驾驶汽车行驶状态;qi为环境车行驶状态,θi为环境车驾驶策略;s表示环境状态;表示所有环境状态构成的环境状态空间;
行驶状态中,任意一辆环境车辆与无人驾驶汽车的x方向坐标差均小于50m,即
|xe-xi|≤50m;
2.1.2)动作定义是通过车辆x方向、y方向加速度定义的,全部可选择的动作空间如下:
其中,abrake为无人驾驶汽车最大减速度;arule为规则模型生成的动作;y方向动作是当车辆开始换道时采用而下一刻采用实现换道;
每一个动作均能计算出无人驾驶汽车下一刻所到达的位置与速度,以此为边界条件构建五次多项式,并将其离散成20Hz的局部引导轨迹引导无人驾驶车辆完成该动作;
2.1.3)混合决策模型奖励机制包括两部分,分别为下匝道完成奖励与规则模型启发奖励,其设定方法如下:
下匝道完成奖励r1为:
规则模型启发奖励r2为:
最终动作获得的奖励为:
r=r1+r2
7.如权利要求5所述无人驾驶汽车驶离高速的方法,其特征在于:所述步骤2.2)中,限制方法步骤如下:
2.2.1)为满足当前车道行驶的安全性需求,需要保证无人驾驶汽车与其前车的距离能够满足:当前车以最大减速度减速直至停车时,无人驾驶汽车能够通过采用最大减速度减速停车而不会发生碰撞,因此无人驾驶汽车的车速v限制为:
当动作空间中某一项会导致下一刻的速度不满足该约束时,该动作从动作空间中删除;当不存在前车时,则没有安全性速度限制;在换道时,当目标车道上前车、后车以及无人驾驶汽车的状态不满足换道条件时,换道动作从动作空间中删除,生成的动作能够保证车辆行驶安全;
2.2.2)为满***通规则对速度的要求,当动作空间中某一动作导致下一刻车辆速度不满***通规则的速度限制时,该动作从动作空间中删除。
8.如权利要求5所述无人驾驶汽车驶离高速的方法,其特征在于:所述步骤2.3)中,训练方法利用粒子滤波与蒙克卡罗树搜索的方法实现,具体步骤如下:
2.3.1)采用IDM及MOBIL拟合车辆驾驶策略,采用粒子滤波的方法进行拟合;其中,IDM为智能驾驶员模型,MOBIL为总制动最小化换道模型;
2.3.2)混合决策模型使用增强学习模型,由于状态空间连续且维度较高,因此采用蒙特卡洛树搜索的方法训练增强学习模型;
2.3.3)重复以上过程若干次完成训练。
9.如权利要求8所述无人驾驶汽车驶离高速的方法,其特征在于:所述步骤2.3.1)中,采用粒子滤波的方法进行拟合的步骤如下:
(1)针对每一个新出现的环境车辆建立一个粒子库;
(2)随机选取50组驾驶策略模型参数作为初始粒子;
(3)根据50组粒子构成的驾驶模型将所有环境车辆转移到下一刻状态;
(4)根据真实观测到的下一刻环境车辆状态分析50组粒子与环境车辆的真实驾驶模型的差别,并集中向靠近真实驾驶模型的粒子附近重新采样新的50组粒子;
(5)重复该过程,并在每一刻选择最靠近真实驾驶模型的粒子作为驾驶模型输入状态空间。
10.如权利要求8所述无人驾驶汽车驶离高速的方法,其特征在于:所述步骤2.3.2)中,采用蒙特卡洛树搜索的方法训练增强学习模型,具体步骤如下:
(1)每个状态均有若干备选动作,且这些动作均满足安全性与交通规则的要求,初始化的蒙特卡洛树每个动作价值相同;
(2)在每次仿真过程中,当所有动作价值相同时,优先采用规则模型生成的动作进行仿真;
(3)若动作价值不同时,选择的动作为:
其中,Q(s,a)是动作a对环境状态s的价值函数;N(s,a)是过去仿真过程中在环境状态s时采用动作a的次数;N(s)=∑aN(s,a);c是探索新动作意向常数;
(4)每次仿真结束后,根据最终获得的奖励,对过程中的状态与动作间价值的映射进行调整,更新价值函数Q(s,a)。
CN201811524283.4A 2018-12-13 2018-12-13 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法 Active CN109598934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811524283.4A CN109598934B (zh) 2018-12-13 2018-12-13 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811524283.4A CN109598934B (zh) 2018-12-13 2018-12-13 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法

Publications (2)

Publication Number Publication Date
CN109598934A true CN109598934A (zh) 2019-04-09
CN109598934B CN109598934B (zh) 2020-11-06

Family

ID=65961837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811524283.4A Active CN109598934B (zh) 2018-12-13 2018-12-13 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法

Country Status (1)

Country Link
CN (1) CN109598934B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109991987A (zh) * 2019-04-29 2019-07-09 北京智行者科技有限公司 自动驾驶决策方法及装置
CN110427682A (zh) * 2019-07-26 2019-11-08 清华大学 一种基于虚拟现实的交通场景模拟实验平台和方法
CN111413974A (zh) * 2020-03-30 2020-07-14 清华大学 一种基于学习采样式的汽车自动驾驶运动规划方法及***
CN111483468A (zh) * 2020-04-24 2020-08-04 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和***
CN111605565A (zh) * 2020-05-08 2020-09-01 昆山小眼探索信息科技有限公司 基于深度强化学习的自动驾驶行为决策方法
CN111645687A (zh) * 2020-06-11 2020-09-11 知行汽车科技(苏州)有限公司 变道策略确定方法、装置及存储介质
CN112099515A (zh) * 2020-11-16 2020-12-18 北京鼎翰科技有限公司 一种用于换道避让的自动驾驶方法
CN112198794A (zh) * 2020-09-18 2021-01-08 哈尔滨理工大学 一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法
CN112896166A (zh) * 2021-03-01 2021-06-04 苏州挚途科技有限公司 车辆换道方法、装置和电子设备
CN113120003A (zh) * 2021-05-18 2021-07-16 同济大学 无人驾驶车辆运动行为决策方法
CN113324556A (zh) * 2021-06-04 2021-08-31 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用***
CN113345268A (zh) * 2021-07-16 2021-09-03 长沙理工大学 基于自动驾驶专用车道部署场景下高速公路下匝道分流区域的cav换道决策方法
CN113511215A (zh) * 2021-05-31 2021-10-19 西安电子科技大学 一种混合自动驾驶决策方法、设备及计算机存储介质
CN113593228A (zh) * 2021-07-26 2021-11-02 广东工业大学 一种高速公路瓶颈区域自动驾驶协同控制方法
CN113682312A (zh) * 2021-09-23 2021-11-23 中汽创智科技有限公司 一种融合深度强化学习的自主换道方法及***
TWI750762B (zh) * 2020-08-06 2021-12-21 財團法人車輛研究測試中心 自駕車之混合決策方法及其系統
EP4209963A1 (en) 2022-01-11 2023-07-12 Ford Global Technologies, LLC Method for autonomous driving of a vehicle, a data processing circuit, a computer program, and a computer-readable medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874597A (zh) * 2017-02-16 2017-06-20 北理慧动(常熟)车辆科技有限公司 一种应用于自动驾驶车辆的高速公路超车行为决策方法
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
CN107161155A (zh) * 2017-04-27 2017-09-15 大连理工大学 一种基于人工神经网络的车辆协同换道方法及其***
CN107315411A (zh) * 2017-07-04 2017-11-03 合肥工业大学 一种基于车车协同下无人驾驶车辆的换道轨迹规划方法
KR20180052812A (ko) * 2016-11-10 2018-05-21 한국전자통신연구원 교통 상황별 안전 운전 대처를 위한 데이터베이스 구축방법
CN108897313A (zh) * 2018-05-23 2018-11-27 清华大学 一种分层式端到端车辆自动驾驶***构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180052812A (ko) * 2016-11-10 2018-05-21 한국전자통신연구원 교통 상황별 안전 운전 대처를 위한 데이터베이스 구축방법
CN106874597A (zh) * 2017-02-16 2017-06-20 北理慧动(常熟)车辆科技有限公司 一种应用于自动驾驶车辆的高速公路超车行为决策方法
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
CN107161155A (zh) * 2017-04-27 2017-09-15 大连理工大学 一种基于人工神经网络的车辆协同换道方法及其***
CN107315411A (zh) * 2017-07-04 2017-11-03 合肥工业大学 一种基于车车协同下无人驾驶车辆的换道轨迹规划方法
CN108897313A (zh) * 2018-05-23 2018-11-27 清华大学 一种分层式端到端车辆自动驾驶***构建方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109991987A (zh) * 2019-04-29 2019-07-09 北京智行者科技有限公司 自动驾驶决策方法及装置
CN110427682A (zh) * 2019-07-26 2019-11-08 清华大学 一种基于虚拟现实的交通场景模拟实验平台和方法
CN111413974A (zh) * 2020-03-30 2020-07-14 清华大学 一种基于学习采样式的汽车自动驾驶运动规划方法及***
CN111413974B (zh) * 2020-03-30 2021-03-30 清华大学 一种基于学习采样式的汽车自动驾驶运动规划方法及***
CN111483468A (zh) * 2020-04-24 2020-08-04 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和***
CN111605565A (zh) * 2020-05-08 2020-09-01 昆山小眼探索信息科技有限公司 基于深度强化学习的自动驾驶行为决策方法
CN111645687A (zh) * 2020-06-11 2020-09-11 知行汽车科技(苏州)有限公司 变道策略确定方法、装置及存储介质
TWI750762B (zh) * 2020-08-06 2021-12-21 財團法人車輛研究測試中心 自駕車之混合決策方法及其系統
CN112198794A (zh) * 2020-09-18 2021-01-08 哈尔滨理工大学 一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法
CN112099515A (zh) * 2020-11-16 2020-12-18 北京鼎翰科技有限公司 一种用于换道避让的自动驾驶方法
CN112896166A (zh) * 2021-03-01 2021-06-04 苏州挚途科技有限公司 车辆换道方法、装置和电子设备
CN113120003A (zh) * 2021-05-18 2021-07-16 同济大学 无人驾驶车辆运动行为决策方法
CN113120003B (zh) * 2021-05-18 2022-06-03 同济大学 无人驾驶车辆运动行为决策方法
CN113511215A (zh) * 2021-05-31 2021-10-19 西安电子科技大学 一种混合自动驾驶决策方法、设备及计算机存储介质
CN113324556A (zh) * 2021-06-04 2021-08-31 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用***
CN113324556B (zh) * 2021-06-04 2024-03-26 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用***
CN113345268A (zh) * 2021-07-16 2021-09-03 长沙理工大学 基于自动驾驶专用车道部署场景下高速公路下匝道分流区域的cav换道决策方法
CN113345268B (zh) * 2021-07-16 2022-03-18 长沙理工大学 高速公路下匝道分流区域的cav换道决策方法
CN113593228A (zh) * 2021-07-26 2021-11-02 广东工业大学 一种高速公路瓶颈区域自动驾驶协同控制方法
CN113593228B (zh) * 2021-07-26 2022-06-03 广东工业大学 一种高速公路瓶颈区域自动驾驶协同控制方法
CN113682312A (zh) * 2021-09-23 2021-11-23 中汽创智科技有限公司 一种融合深度强化学习的自主换道方法及***
EP4209963A1 (en) 2022-01-11 2023-07-12 Ford Global Technologies, LLC Method for autonomous driving of a vehicle, a data processing circuit, a computer program, and a computer-readable medium

Also Published As

Publication number Publication date
CN109598934B (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN109598934A (zh) 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法
Liang et al. Heavy-duty vehicle platoon formation for fuel efficiency
CN108475465B (zh) 用于移动、特别是控制或者调整车队的方法
CN110992695B (zh) 基于冲突消解的车辆城市交叉口通行决策多目标优化方法
CN110187639A (zh) 一种基于参数决策框架的轨迹规划控制方法
CN109345020A (zh) 一种完全信息下的无信号交叉口车辆驾驶行为预测模型
CN109501799A (zh) 一种车联网条件下的动态路径规划方法
CN107798861A (zh) 一种车辆协作式编队行驶方法及***
Yoo et al. Stackelberg game based model of highway driving
CN106427987A (zh) 控制混合动力车辆的***和方法
CN107168303A (zh) 一种汽车的自动驾驶方法及装置
CN110910646B (zh) 用于交叉口的无人驾驶公交车辆的协同控制方法
CN110304074A (zh) 一种基于分层状态机的混合式驾驶方法
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN114613142B (zh) 一种基于规则的自动驾驶交叉口车辆换道控制方法
CN111445697A (zh) 一种智能网联条件下的高速公路协同车辆换道控制方法
Bayar et al. Impact of different spacing policies for adaptive cruise control on traffic and energy consumption of electric vehicles
Yan et al. A multi-vehicle game-theoretic framework for decision making and planning of autonomous vehicles in mixed traffic
CN114023108B (zh) 一种混合交通流变道模型及变道仿真方法
Lu et al. A game-theoretic approach on conflict resolution of autonomous vehicles at unsignalized intersections
Wei et al. A learning-based autonomous driver: emulate human driver's intelligence in low-speed car following
Zhang et al. A game theoretic four-stage model predictive controller for highway driving
Elsner Optimizing passenger comfort in cost functions for trajectory planning
CN116704793A (zh) 一种提升高速公路隧道内部瓶颈路段通行能力的控制方法
Teng et al. Car following model based on driving risk field for vehicle infrastructure cooperation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191231

Address after: 100083 401a, floor 4, building 6, yard 1, Zhongguancun East Road, Haidian District, Beijing

Applicant after: Beijing Chaoxing Future Technology Co., Ltd

Address before: 100084 Beijing, Haidian District, 100084 box office box office, Tsinghua University,

Applicant before: Tsinghua University

GR01 Patent grant
GR01 Patent grant