CN112061116A - 一种基于势能场函数逼近的强化学习方法的泊车策略 - Google Patents

一种基于势能场函数逼近的强化学习方法的泊车策略 Download PDF

Info

Publication number
CN112061116A
CN112061116A CN202010847538.1A CN202010847538A CN112061116A CN 112061116 A CN112061116 A CN 112061116A CN 202010847538 A CN202010847538 A CN 202010847538A CN 112061116 A CN112061116 A CN 112061116A
Authority
CN
China
Prior art keywords
potential energy
parking
vehicle
energy field
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010847538.1A
Other languages
English (en)
Other versions
CN112061116B (zh
Inventor
李道飞
刘关明
刘傲
林思远
肖斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010847538.1A priority Critical patent/CN112061116B/zh
Publication of CN112061116A publication Critical patent/CN112061116A/zh
Application granted granted Critical
Publication of CN112061116B publication Critical patent/CN112061116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/06Automatic manoeuvring for parking
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明公开了一种基于势能场函数逼近的强化学习方法的泊车策略,通过设计势能场来逼近强化学习过程中的状态价值函数;根据车辆状态价值函数值通过ε‑贪婪策略从预设的可执行动作空间中选择执行动作;利用车辆利用状态转移方程根据车辆当前状态和选择的动作预测车辆下一状态;重复选择执行动作和预测状态这一过程至泊车结束,所有选择的动作序列构成实时泊车规划路径。本发明通过训练势能场参数适用于各种不同的泊车区域,在不同的场景下进行泊车路径规划,具有通用性;可实时地规划泊车路径,且该路径可准确跟踪。

Description

一种基于势能场函数逼近的强化学习方法的泊车策略
技术领域
本发明属于交通工具技术领域,尤其涉及一种基于势能场函数逼近的强化学习方法的泊车策略。
背景技术
目前,自动泊车技术的主流路线仍大部分基于传统的路径规划算法,主要分为随机路径生成算法、利用函数拟合生成路径的路径规划算法以及基于规则的路径规划算法等三类。其中,随机路径生成算法如RRT(Rapidly-exploring Random Tree,快速随机生成树算法)、PRM(Probabilistic Roadmap,随机路线图算法)等,需要在预先制造好的场景地图内随机产生路径,之后再对随机生成的路径进行碰撞检测(或检测是否在可行驶区域),再在所有满足要求的路径中通过优化目标选择最优停车路径。利用函数拟合生成路径的方法可用多项式、贝塞尔曲线、反正切函数等,在获得环境信息的情况下,根据选择的函数形式,再利用碰撞约束、泊车的几何约束以及车辆性能约束等条件进行优化求解,最后确定所选函数的参数,从而生成路径。基于规则的路径规划方法主要是按照驾驶经验,根据车辆和泊车位所处的不同位置关系作规划,从而生成整个路径。
但是,上述三类泊车路径规划方法都存在一定的局限性,随机路径生成算法对传感器的要求较高,需要提前利用感知获得整个泊车环境的信息,且难以保证所生成的路径是车辆可实际实现的轨迹。基于函数拟合生成的路径,对车位和车辆的初始位姿有较严格的要求,其对于不同场景几乎没有适用性,且在车辆实际泊车过程中路径跟踪误差较大的情况下难以继续规划,不是一种容易满足实时规划的泊车算法。基于规则的泊车路径规划方法同样不够灵活,且难以保证设定的规则具有完备性,对新的场景需要人工重新制定算法规则。
人工势能场方法是一种经典的机器人路径规划方案,它利用了势能场的概念,一般只将运动物体考虑为质点。但是,在泊车场景下,由于车辆的外形和转向特性,不能将车辆视为简单的质点或圆形,所以直接利用人工势能场规划的路径实际上无法供车辆跟踪控制来实现。势能的定义是,物体或***由于其位置或状态而具有的能量叫势能,势能不是物体单独拥有的,而是相互作用的物体共有的。车辆在泊车过程中,可认为泊车环境(包括地形、其他车辆)是一个场,车辆在其中具有势能,该势能与车辆位置和状态有关,将势能看作泊车过程所追逐的目标,则泊车过程正是一个追求势能增长的过程。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于势能场函数逼近的强化学习方法的泊车策略。
本发明的目的是通过以下技术方案来实现的:一种基于势能场函数逼近的强化学习方法的泊车策略,通过设计势能场来逼近强化学习过程中的状态价值函数,势能场作用体现为车辆当前状态、目标车位、可行驶区域和车辆参数等不同因素在车辆状态价值函数的定量表示;根据车辆当前状态和预设的可执行动作空间,利用状态转移方程预测每个可执行动作对应的下一状态,然后结合势能场计算每个预测状态的状态价值函数值,通过ε-贪婪策略从中选择状态价值函数值最高一个动作;再根据该动作对应的状态选择下一个动作,重复预测状态和选择执行动作这一过程至泊车结束,最后根据选择动作序列生成实时泊车规划路径。
进一步地,根据需要的路径设计引导线,用引导线和泊车边界约束生成势能场,优化势能场参数,最后得到的势能场函数可以用来表示车辆泊车过程中车辆在每一个状态下的状态价值函数值;其中泊车区域包括可行驶区域和目标车位,泊车边界为泊车区域外轮廓。
进一步地,设计的势能场分为引力部分产生的势能场和斥力部分产生的势能场;引力部分势能场由设计的虚拟引导线产生,且不同的虚拟引导线产生的场在不同区域具有不同的优先级,优先级高的场覆盖优先级低的场;斥力部分势能场由泊车边界产生。
进一步地,对于不同类型的泊车区域设计不同的势能场,不同部分的势能场具有不同的作用范围;其中,引力部分势能为正值,在其作用范围内越靠近引导线引力势能越大,进一步地越靠近终点引力势能越大,且终点的引力势能最大;斥力部分势能为负值,泊车边界的斥力势能为负无穷,且在其作用范围内越靠近泊车边界斥力势能越大。
进一步地,根据车辆状态,势能场不同部分对车辆不同位置的作用不同,产生的势能也不一样,因此对车辆状态价值函数的贡献不同;引力势能场部分产生的状态价值函数值对车辆的后轴中心点产生作用,斥力场部分泊车边界产生的状态价值函数对车辆外轮廓的四个角点产生作用,且目标车位与可行驶区域的接触角点产生的势能场对车辆的外轮廓边产生作用。
进一步地,引力部分势能场的状态价值函数值v0为:
v0=f(X)
Figure BDA0002643577410000021
X=[(x-xtarget),(y-ytarget),(yaw-yawtarget)]
其中,车辆状态至少包括车辆后轴中点在泊车位坐标系下的x,y坐标和车辆纵向中心轴与在泊车位坐标系下x轴的夹角yaw,记为(x,y,yaw);(xtarget,ytarget,yawtarget)为终点状态;v0表示由引力引起的势能场函数值,函数f为由引力引起的势能场函数;C0和C1是待训练获得的参数。
斥力部分势能场的状态价值函数值v1i为:
v1i=-C2/di 2
其中,车辆轮廓有四个角点,目标车位与可行驶区域有两个接触角点,i=1~6,d1~d4为每个车辆轮廓角点到泊车边界的最短距离,d5~d6为每个目标车位与可行驶区域的接触角点到车辆轮廓边的最短距离;如果di超过了斥力作用范围,则v1i=0;C2是一个待训练参数。
最终车辆状态价值函数值V为:
Figure BDA0002643577410000031
进一步地,定义泊车成功率为优化目标来优化势能场参数,泊车成功率定义如下:在同一个场景下,拟训练N个回合,且每个回合的车辆初始状态随机生成,若其中有M个回合是以车辆成功驶入车位为结束标志,则该组势能场参数下的泊车成功率为M/N×100%;所述结束标志包括车辆成功驶入车位、车辆驶离泊车区域和泊车超时。
进一步地,所述执行动作由方向盘转角和档位组成,其中档位包括前进档位、倒车档位和空档位。
进一步地,每次利用状态转移方程预测下一状态前,先从预设的可执行动作空间中去除使车辆与泊车边界发生碰撞的动作,再从利用ε-贪婪策略选择执行动作;根据ε-贪婪策略和状态转移方程得到由当前状态直到最终预测状态的一连串动作序列后,对动作序列进行修剪去除循环动作,得到最终的泊车规划路径。
进一步地,所述车辆参数包括前悬、后悬、轴距、车宽、最小转弯半径和传动比。
与现有技术相比,本发明的有益效果是:与传统的强化学习方法不同,本发明方法不设置及时奖励,而是通过势能场逼近的方法给出状态价值函数,在强化学习算法的训练过程中,由车辆观测状态、车辆状态价值函数预测值、车辆状态转移矩阵和车辆预测动作作为本发明算法的基本构成:
1、通过利用本发明,具体车辆可以通过自行训练一个最小的标准泊车区域内的泊车场景,设计势能场函数,并离线计算其相应的势能场参数,在遇到的其他可行驶区域时,若其他泊车区域包含了这个训练的区域,则可以直接利用训练参数进行泊车路径规划;
2、通过利用本发明,对于不规则或各种不同的泊车区域可以分别训练出不同的势能场,在不同的场景下进行泊车路径规划,该方法具有通用性;
3、由于车辆的观测状态是实时的,车辆在不同状态均能在势能场的作用下规划出轨迹,有利于提高其泛化能力,这是本发明的发明点之一;
4、由于该强化学习是建立在车辆运动学模型下的过程,且最后的输出路径由车辆的预测动作序列倒推回来,这保证了该发明的路径是车辆可以准确跟踪的;
5、通过建立合适的虚拟引导线来构建势能场,并通过泊车成功率的引入衡量势能场的好坏,使得最终的状态价值函数更加科学,这是本发明的发明点之一。
附图说明
此处说明的附图为本发明提供进一步理解,构成本发明的一部分,并不构成对本发明的限定;
图1为本发明实施例的一种应用场景示意图;
图2为本发明实施例的势能场构建方法示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
本发明一种基于势能场逼近状态价值函数的强化学***滑,根据选择动作序列生成实时泊车规划路径。本发明方法适用于垂直泊车、侧方位泊车、斜向车位泊车等不同的泊车场景,只需要在不同场景下设计相应的势能场以及优化参数。
在实车上运行前,先根据具体的实车参数构建运动学模型,再根据实车参数和传感器信息确定需要的泊车区域,并在离线情况下构建相应的势能场参数。在一次具体的任务中,首先,给算法输入环境参数,算法会生成具体的势能场,再输入车辆的当前位姿,该泊车算法会规划出从当前点开始的一条能成功泊车的路径。车辆根据规划路径进行跟踪或根据算法给出的预测动作序列进行跟踪。在车辆真实的运动过程中,可以实时调用该算法,只需要知道当前的位姿,无论车辆是否存在大的跟踪误差,本泊车算法均能实时规划出以当前点为起点的一条泊车路径。通过势能场作为状态价值函数的估计,避免了强化学习构建策略时存在的泊车环境下设计奖励的难题。且对于在势能场内的每一个安全位置,由于采用的策略带有一定概率的探索性,车辆能成功跨过局部最优的状态,最后成功到达目标车位。
本发明具体包括以下步骤:
(1)车辆状态价值函数的数值由泊车环境决定,在泊车算法最开始的阶段利用传感器获得环境信息,根据获得的环境信息借用势能场的思想生成车辆状态价值函数。车辆观测状态至少包括车辆后轴中点在泊车位坐标系下的x坐标,车辆后轴中点在泊车位坐标系下的y坐标,以及车辆纵向中心轴与在泊车位坐标系下x轴的夹角yaw,组合为(x,y,yaw)。
例如,在如图1所示的垂直泊车应用场景中,可行驶区域A的长度为30m,可行驶区域A的宽度为5m(5m以上也可视为5m),矩形区域B为目标车位,目标车位的长×宽=6m×2.2m。车辆参数:轴距=2.7m,前悬=0.985m,后悬=0.8m,车宽=1.9m,最小转弯半径=5.8m,转向系传动比为20。在有了具体的车辆参数和预期的泊车区域后,泊车过程的势能场也可以相应的确定下来。
(2)构建势能场:
(1.1)在全局坐标下,根据需要的路径设计虚拟引导线,引导线指向泊车终点位置。
(1.2)用引导线和泊车边界约束生成势能场,其中泊车边界为可行驶区域和目标车位的外轮廓;对于不同类型的泊车区域,设计不同的势能场;不同障碍物和引导线的势能具有不同的作用范围;在势能场中结合碰撞约束和车辆泊车终点约束,设计的势能场分为引力部分产生势能场和斥力部分产生的势能场:
引力部分势能场由设计的虚拟引导线产生,引导线的势能场表现为正值,该部分场作用范围大;车辆在靠近终点状态的过程中,其势能不断增大;不同的虚拟引导线产生的场在不同区域具有不同的优先级,优先级高的场会覆盖优先级低的场;
斥力部分势能场由泊车边界产生,且斥力场只在一个很小的范围内对车辆有影响,可以满足避撞的要求;在泊车边界处,将车辆受到的斥力部分势能设为负无穷大。
根据车辆状态,势能场不同部分对车辆上的不同位置点的作用不同,产生的势能也不一样,因此对车辆状态价值函数的贡献不同:
引力势能场部分产生的状态价值函数值对车辆的后轴中心点产生作用;
斥力场部分泊车边界产生的状态价值函数对车辆外轮廓的四个角点产生作用,泊车位与可行驶区域的接触角点产生的势能场对车辆外轮廓的轮廓边产生作用。
如图2所示实施例的势能场函数设计,泊车边界均表现为排斥力的特征,即越靠近势能场,车辆的预估状态价值函数负得越多,但该边界的排斥力作用范围仅限于边界附近的一个小的区域。相应的,对于期望的虚拟引导线(图2中虚线箭头表示部分),则表现为引力的形式,越靠近引导线,车辆的预估状态价值函数值正得就越多,且车辆的引导线作用范围较大,使得车辆在泊车区域的每个位置都会受到引力的作用进行规划。对于不同的虚拟引导线,按照车辆所处的不同区域给予不同的优先级,优先级高的引力覆盖优先级低的引力,例如,在图2所示的点划线框包括的车辆可行驶区域和泊车位区域(记为C区)内,引导线3的优先级更高,即此区域内,车辆不受引导线1,2的影响;点划线区域未包括的其它可行驶区域(记为D区)内,引导线1,2的优先级更高。
(3)泊车过程:本发明通过强化学习的方法来获得泊车路径,更具体的,本发明从探索序列中学习泊车策略。根据当前车辆状态,确定车辆在环境中的位姿,并确定当前所有可执行动作空间,再根据状态转移方程预测所有可执行动作空间的每一个动作对应的下一刻预测状态,并计算预测状态的状态价值函数值,最后根据ε-贪婪策略,选取满足策略的状态价值函数值(最大的),最终选取对应的预测动作;再将该预测动作对应的的状态更新为当前状态,再基于当前状态计算每个动作的预测状态和相应预测状态价值函数,从而根据贪婪策略选择下一动作;以此类推,重复上面这个过程直至成功泊车、车辆超出泊车区域或泊车超时,然后规划结束。步骤(3)具体为:
(3.1)车辆在泊车区域内的任意一个安全位置,均能按照本发明方法生成一个到泊车位的动作序列,且动作选择生成的策略为ε-贪婪策略(以ε的概率随机选择下一步动作,1-ε的概率选择收益最大的概率,0<ε≤1),即有一定的探索概率。同时在探索时,从可执行动作空间中去除所有使车辆与泊车区域边界线发生碰撞的动作元素,剩下的子空间是车辆当前状态下进行探索的动作空间。车辆的可执行动作即车辆的动作空间(action),为能够控制车辆运动的输出,实际情况中如车速设置为泊车车速,车辆的执行动作由方向盘转角SW和档位信息(Gear)两个维度组成,其中档位包括前进档位、倒车档位、空档位等。
(3.2)车辆状态转移矩阵根据车辆的性能约束和车辆运动学模型生成,用于表示车辆在某一动作下,从一个状态转移得到下一个状态。根据车辆参数建立的车辆运动学模型可以根据车辆的当前状态(x0,y0,yaw0)和输入动作(SW,Gear),预估出车辆下一刻的状态(x1,y1,yaw1)。
(3.3)对于车辆的每一个状态,势能场能给出相应的状态价值函数值。
车辆的引导线会给车一个目标的终点状态(xtarget,ytarget,yawtarget),这一部分的状态价值函数值根据差值X给定:
v0=f(X)
Figure BDA0002643577410000061
X=[(x-xtarget),(y-ytarget),(yaw-yawtarget)]
其中,v0表示由引力引起的势能场函数值,函数f为由引力引起的势能场函数;C0和C1是待训练获得的参数。
对于势能场中斥力的部分,由于车辆的车身轮廓上每一点都要满足避撞要求,所以斥力作用在车辆轮廓的四个角点和四条轮廓边上。根据车辆的当前状态(x,y,yaw)和车辆的车身参数计算出车辆四个角点的相应坐标值,计算每个点到边界线的最短距离di,其中四个角点下标i=1,2,3,4;再根据泊车位与可行驶区域的两个接触角点的坐标,计算每个点到这车辆轮廓的最短距离di(i=5,6);如果di在斥力作用范围内,这一部分状态价值函数值可以表述为
v1i=-C2/di 2
其中,v1i表示由斥力引起的势能场函数值,C2是一个待训练参数。如果di超出了泊车边界的斥力范围,则该部分状态价值函数值为v1i=0。
最终车辆状态价值函数值V计算为
Figure BDA0002643577410000071
(3.4)应用本发明方法,得到由当前状态直到最终预测状态的一连串动作序列。对动作序列进行修剪,具体为删除使状态轨迹出现环路的动作子序列,再利用状态转移方程和当前状态以及修剪后的动作序列进行仿真推演,输出最终的泊车规划路径。
(4)根据具体的车辆参数,通过优化训练得到最优的势能场函数参数,具体如下:
定义与势能场函数参数相关的泊车成功率为优化目标来优化势能场参数如下:在同一个场景下,拟训练N个回合,且每个回合的车辆初始状态随机生成,再根据车辆观测状态和可执行动作、状态转移矩阵、当前势能场执行步骤(3)进行车辆的泊车过程。结束阶段有三个标志:车辆成功泊入车位、车辆驶离泊车区域、经过某一最大步长,满足三者中任何一个标志即认为此回合泊车阶段结束。若其中有M个回合是以车辆成功驶入车位为结束标志,则该组势能场参数下的泊车成功率为M/N×100%。由上面定义的泊车成功率与势能场的函数相关,则可以该泊车成功率参数为优化目标,离线优化势能场,找到该特定环境下的最优势能场函数。基于训练好的参数C0,C1,C2等数,在该强化学习中车辆可以实时规划出一条从当前状态价值函数值一直到整个势能场中状态价值最高的地方,而这个状态价值最高的状态在泊车位内,最后得到的势能场函数可以用来表示车辆泊车过程中车辆在每一个状态下的强化学习的状态价值函数值,即用该方法可以成功规划出一条泊车路径。
本发明实例并不限定于任何特定的泊车区域,以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:通过设计势能场来逼近强化学习过程中的状态价值函数,势能场作用体现为车辆当前状态、目标车位、可行驶区域和车辆参数等不同因素在车辆状态价值函数的定量表示;根据车辆当前状态和预设的可执行动作空间,利用状态转移方程预测每个可执行动作对应的下一状态,然后结合势能场计算每个预测状态的状态价值函数值,通过ε-贪婪策略从中选择状态价值函数值最高一个动作;再根据该动作对应的状态选择下一个动作,重复预测状态和选择执行动作这一过程至泊车结束,最后根据选择动作序列生成实时泊车规划路径。
2.根据权利要求1所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:根据需要的路径设计引导线,用引导线和泊车边界约束生成势能场,优化势能场参数,最后得到的势能场函数可以用来表示车辆泊车过程中车辆在每一个状态下的状态价值函数值;其中泊车边界为泊车区域外轮廓,泊车区域包括可行驶区域和目标车位。
3.根据权利要求2所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:设计的势能场分为引力部分产生的势能场和斥力部分产生的势能场;引力部分势能场由设计的虚拟引导线产生,且不同的虚拟引导线产生的场在不同区域具有不同的优先级,优先级高的场覆盖优先级低的场;斥力部分势能场由泊车边界产生。
4.根据权利要求3所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:对于不同类型的泊车区域设计不同的势能场,不同部分的势能场具有不同的作用范围;其中,引力部分势能为正值,在其作用范围内越靠近引导线引力势能越大,进一步地越靠近终点引力势能越大,且终点的引力势能最大;斥力部分势能为负值,泊车边界的斥力势能为负无穷,且在其作用范围内越靠近泊车边界斥力势能越大。
5.根据权利要求3所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:根据车辆状态,势能场不同部分对车辆不同位置的作用不同,产生的势能也不一样,因此对车辆状态价值函数的贡献不同;引力势能场部分产生的状态价值函数值对车辆的后轴中心点产生作用,斥力场部分泊车边界产生的状态价值函数对车辆外轮廓的四个角点产生作用,且目标车位与可行驶区域的接触角点产生的势能场对车辆的外轮廓边产生作用。
6.根据权利要求5所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:引力部分势能场的状态价值函数值v0为:
v0=f(X)
Figure FDA0002643577400000011
X=[(x-xtarget),(y-ytarget),(yaw-yawtarget)]
其中,车辆状态至少包括车辆后轴中点在泊车位坐标系下的x,y坐标和车辆纵向中心轴与在泊车位坐标系下x轴的夹角yaw,记为(x,y,yaw);(xtarget,ytarget,yawtarget)为终点状态;v0表示由引力引起的势能场函数值,函数f为由引力引起的势能场函数;C0和C1是待训练获得的参数。
斥力部分势能场的状态价值函数值v1i为:
v1i=-C2/di 2
其中,车辆轮廓有四个角点,目标车位与可行驶区域有两个接触角点,i=1~6,d1~d4为每个车辆轮廓角点到泊车边界的最短距离,d5~d6为每个目标车位与可行驶区域的接触角点到车辆轮廓边的最短距离;如果di超过了斥力作用范围,则v1i=0;C2是一个待训练参数。
最终车辆状态价值函数值V为:
Figure FDA0002643577400000021
7.根据权利要求2所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:定义泊车成功率为优化目标来优化势能场参数,泊车成功率定义如下:在同一个场景下,拟训练N个回合,且每个回合的车辆初始状态随机生成,若其中有M个回合是以车辆成功驶入车位为结束标志,则该组势能场参数下的泊车成功率为M/N×100%;所述结束标志包括车辆成功驶入车位、车辆驶离泊车区域和泊车超时。
8.根据权利要求1所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:所述执行动作由方向盘转角和档位组成,其中档位包括前进档位、倒车档位和空档位。
9.根据权利要求1所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:每次利用状态转移方程预测下一状态前,先从预设的可执行动作空间中去除使车辆与泊车边界发生碰撞的动作,再从利用ε-贪婪策略选择执行动作;根据ε-贪婪策略和状态转移方程得到由当前状态直到最终预测状态的一连串动作序列后,对动作序列进行修剪去除循环动作,得到最终的泊车规划路径。
10.根据权利要求1所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:所述车辆参数包括前悬、后悬、轴距、车宽、最小转弯半径和传动比。
CN202010847538.1A 2020-08-21 2020-08-21 一种基于势能场函数逼近的强化学习方法的泊车策略 Active CN112061116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010847538.1A CN112061116B (zh) 2020-08-21 2020-08-21 一种基于势能场函数逼近的强化学习方法的泊车策略

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010847538.1A CN112061116B (zh) 2020-08-21 2020-08-21 一种基于势能场函数逼近的强化学习方法的泊车策略

Publications (2)

Publication Number Publication Date
CN112061116A true CN112061116A (zh) 2020-12-11
CN112061116B CN112061116B (zh) 2021-10-29

Family

ID=73658797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010847538.1A Active CN112061116B (zh) 2020-08-21 2020-08-21 一种基于势能场函数逼近的强化学习方法的泊车策略

Country Status (1)

Country Link
CN (1) CN112061116B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112677983A (zh) * 2021-01-07 2021-04-20 浙江大学 一种识别驾驶员驾驶风格的***
CN113335270A (zh) * 2021-07-01 2021-09-03 湖南大学 一种泊车路径规划方法和装置
CN113705474A (zh) * 2021-08-30 2021-11-26 北京易航远智科技有限公司 车位检测方法和装置
CN115472038A (zh) * 2022-11-01 2022-12-13 南京杰智易科技有限公司 一种基于深度强化学习的自动泊车方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007055389A1 (de) * 2007-11-20 2009-05-28 Valeo Schalter Und Sensoren Gmbh Verfahren und Vorrichtung zur Kollisionsverhinderung bei der Planung einer Bahn zum Einparken eines Fahrzeugs
JP2018188107A (ja) * 2017-05-11 2018-11-29 日野自動車株式会社 連結車の後退駐車支援装置
CN109318890A (zh) * 2018-06-29 2019-02-12 北京理工大学 一种基于动态窗口及障碍物势能场的无人车动态避障方法
CN110136481A (zh) * 2018-09-20 2019-08-16 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007055389A1 (de) * 2007-11-20 2009-05-28 Valeo Schalter Und Sensoren Gmbh Verfahren und Vorrichtung zur Kollisionsverhinderung bei der Planung einer Bahn zum Einparken eines Fahrzeugs
JP2018188107A (ja) * 2017-05-11 2018-11-29 日野自動車株式会社 連結車の後退駐車支援装置
CN109318890A (zh) * 2018-06-29 2019-02-12 北京理工大学 一种基于动态窗口及障碍物势能场的无人车动态避障方法
CN110136481A (zh) * 2018-09-20 2019-08-16 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张猛: "自动泊车路径规划算法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *
李清烈: "《第二届广东海事高级论坛论文集》", 31 March 2008, 大连海事大学出版社 *
杨海涛: "《复杂信息网络性能设计》", 31 March 2014, 中国宇航出版社 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112677983A (zh) * 2021-01-07 2021-04-20 浙江大学 一种识别驾驶员驾驶风格的***
CN113335270A (zh) * 2021-07-01 2021-09-03 湖南大学 一种泊车路径规划方法和装置
CN113335270B (zh) * 2021-07-01 2022-05-03 湖南大学 一种泊车路径规划方法和装置
CN113705474A (zh) * 2021-08-30 2021-11-26 北京易航远智科技有限公司 车位检测方法和装置
CN113705474B (zh) * 2021-08-30 2022-04-15 北京易航远智科技有限公司 车位检测方法和装置
CN115472038A (zh) * 2022-11-01 2022-12-13 南京杰智易科技有限公司 一种基于深度强化学习的自动泊车方法和***
CN115472038B (zh) * 2022-11-01 2023-02-03 南京杰智易科技有限公司 一种基于深度强化学习的自动泊车方法和***

Also Published As

Publication number Publication date
CN112061116B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN112061116B (zh) 一种基于势能场函数逼近的强化学习方法的泊车策略
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN110297494B (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及***
Shi et al. Driving decision and control for automated lane change behavior based on deep reinforcement learning
CN109976340B (zh) 一种基于深度增强学习的人机协同动态避障方法及***
Lin et al. Decision making through occluded intersections for autonomous driving
WO2020079074A2 (en) Autonomous vehicle planning
CN111780777A (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN110969848A (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN112141091B (zh) 解决车位偏移和定位偏移的二次泊车方法、***及车辆
CN115303297B (zh) 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置
CN111645673B (zh) 一种基于深度强化学习的自动泊车方法
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN113291318B (zh) 基于部分可观测马尔科夫模型的无人车盲区转弯规划方法
CN113311828B (zh) 一种无人车局部路径规划方法、装置、设备及存储介质
CN114859905A (zh) 一种基于人工势场法和强化学习的局部路径规划方法
CN113247023A (zh) 一种行驶规划方法、装置、计算机设备及存储介质
Li et al. Adaptive sampling-based motion planning with a non-conservatively defensive strategy for autonomous driving
CN117007066A (zh) 多规划算法集成的无人驾驶轨迹规划方法及相关装置
Yamaguchi et al. Model predictive path planning for autonomous parking based on projected C-space
Garzón et al. Game theoretic decision making based on real sensor data for autonomous vehicles’ maneuvers in high traffic
CN116872915A (zh) 一种基于遗传算法的自动泊车多目标自适应轨迹优化方法
CN116009558A (zh) 一种结合运动学约束的移动机器人路径规划方法
CN116027788A (zh) 融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法及设备
CN113829351B (zh) 一种基于强化学习的移动机械臂的协同控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant