CN106017494B - 基于学徒学习的路径规划方法及装置 - Google Patents
基于学徒学习的路径规划方法及装置 Download PDFInfo
- Publication number
- CN106017494B CN106017494B CN201610344023.3A CN201610344023A CN106017494B CN 106017494 B CN106017494 B CN 106017494B CN 201610344023 A CN201610344023 A CN 201610344023A CN 106017494 B CN106017494 B CN 106017494B
- Authority
- CN
- China
- Prior art keywords
- module
- geopotential
- track
- weighing vector
- status switch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3446—Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
基于学徒学习的路径规划方法及装置,包括如下步骤,找出路径规划问题中所有的状态序列,将状态序列的位势场项进行加权,计算总势场最低的状态序列,根据总势场最低的状态序列得到最佳路径。解决自动路径规划的问题。
Description
技术领域
本发明涉及自动驾驶领域,尤其涉及一种基于学徒学习的路径规划方法及装置。
背景技术
无人车辆的运动和路径规划通常都是通过利用复杂的***值方程,来进行全局导航或实现局部轨迹线路的平滑化。在现实操作中,在设计运动路径规划的***值方程时,我们常常需要考虑大量不同的所需参数,而这些独立地对我们的路径规划有重要影响的参数,互相之间亦有冲突的可能。比如说,我们需要的参数可能包括轨迹的平滑程度,与障碍物的接近程度,路径的最大曲率,车道的保持等等。此外,我们很可能并不知道每一个参数的确切衡量标准,因此针对一个特定的参数,我们可能需要考虑好几个不同的位势场项(potential-field terms)。为了完整地详细说明利用位势方程来进行无人车辆的运动路径规划的问题,我们需要量化地确定到底如何去平衡这些位势场项(也就是给这些位势场项加权)。在实际操作中,位势场项的权衡结果很可能并不是唯一的,并且通常需要大量的人工手动工程才能得到我们所期待的路径规划结果。
对大量的人工手动工程的需求显然对于实现无人车辆路径规划不利,但获得一些人工演示驾驶轨迹案例却并不困难。而这样的演示案例固有地包含了我们所需要的如何对位势场项进行恰当权衡的信息。我们可以通过“模仿”,能够避免盲目地全局搜索,而能专注于更有意义地局部优化。
本发明将要介绍一种基于学徒学习技术的运动路径规划方法。通过对演示案例进行学徒学习,我们能够学会如何对对位势场项进行权衡,从而减少对人工手动工程的依赖。此外,我们还会介绍如何将关于对位势场项进行加权的先验信息囊括进学徒学习算法中。
发明内容
为此,需要提供一种基于学徒学习技术的运动路径规划方法,解决自动路径规划的问题。
为实现上述目的,发明人提供了一种基于学徒学习的路径规划方法,包括如下步骤,找出路径规划问题中所有的状态序列,将状态序列的位势场项进行加权,计算总势场最低的状态序列,根据总势场最低的状态序列得到最佳路径。
进一步地,还包括步骤,获取关于加权向量的先验知识集,从所述先验知识集中随机挑选一个加权向量作为当前加权向量,根据当前加权向量求得路径规划问题的当前解,根据当前解计算势场项的累积势能值,根据累积势能值找到下一个加权向量的估计,将下一个加权向量的估计作为当前加权向量并重复求解,直至找到最佳路径。
具体地,还包括步骤,运行离散的全局搜索,用离散版本的位势场项取代连续坐标版本中偏离车道相关的位势场项。
进一步地,还包括步骤,用共轭梯度下降法对轨迹本身属性相关的位势场项进行优化。
具体地,所述位势场项包括:前进行驶轨迹的长度、后退形式轨迹的长度、运动方向的转换次数、偏离车道的轨迹长度、轨迹与主要行驶方向的偏离测量或轨迹平滑程度的测量。
一种基于学徒学习的路径规划装置,包括状态序列找寻模块、加权计算模块、最佳路径模块,所述状态序列找寻模块用于找出路径规划问题中所有的状态序列,所述加权计算模块用于将状态序列的位势场项进行加权,计算总势场最低的状态序列,所述最佳路径模块用于根据总势场最低的状态序列得到最佳路径。
进一步地,还包括先验获取模块、当前解模块、加权估计模块,所述先验模块用于获取关于加权向量的先验知识集,所述当前解模块用于从所述先验知识集中随机挑选一个加权向量作为当前加权向量,根据当前加权向量求得路径规划问题的当前解,所述加权估计模块用于根据当前解计算势场项的累积势能值,根据累积势能值找到下一个加权向量的估计,所述当前解模块还用于将下一个加权向量的估计作为当前加权向量并重复求解,直至找到最佳路径。
进一步地,还包括全局搜索模块,所述全局搜索模块用于运行离散的全局搜索,用离散版本的位势场项取代连续坐标版本中偏离车道相关的位势场项。
进一步地,还包括轨迹平滑模块,所述轨迹平滑模块用于用共轭梯度下降法对轨迹本身属性相关的位势场项进行优化。
具体地,所述位势场项包括:前进行驶轨迹的长度、后退形式轨迹的长度、运动方向的转换次数、偏离车道的轨迹长度、轨迹与主要行驶方向的偏离测量或轨迹平滑程度的测量。
区别于现有技术,上述技术方案整合了学徒学习应用到路径规划中,使得机器能够“学会”如何对对位势场项进行权衡,从而减少对人工手动工程的依赖。此外,还将关于对位势场项进行加权的先验信息囊括进学徒学习算法中。更好地解决了自动路径规划的问题。
附图说明
图1为本发明具体实施方式所述的方法流程图;
图2为本发明具体实施方式所述的装置模块图;
图3为本发明具体实施方式所述的停车场网络图;
图4为本发明具体实施方式所述的轨迹规划示例图。
附图标记说明:
200、状态序列找寻模块;
202、加权计算模块;
204、最佳路径模块;
206、先验获取模块;
208、当前解模块;
210、加权估计模块;
212、全局搜索模块;
214、轨迹平滑模块。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
1.1基本思路
A.路径规划是一个最优化的问题
这里请看图1,为一种基于学徒学习的路径规划方法流程图,包括如下步骤,S100找出路径规划问题中所有的状态序列,将状态序列的位势场项进行加权,计算总势场最低的状态序列,S106根据总势场最低的状态序列得到最佳路径。我们用S来表示车辆的状态空间。每一条轨迹或路线s都对应了一个状态序列。我们可以将路径规划的问题,转化成一个轨迹势能的最小化问题。我们将位势场项表示为我们让来表示对应不同位势场项的加权系数的向量。轨迹的总势能Φ(s)即为:
在给定一个起始状态s0和一个目标状态sG的情况下,路径规划的问题将被转化成:
这里找出路径规划问题中所有的状态序列指满足问题预设条件的路径集合,具体地S代表的是所有可能的状态序列的集合。要成为一个可能的状态序列,轨迹s需要满足一个最基本的条件:从起始状态s0开始,在目标状态sG停止。除此之外也可能需要满足其他的条件,比如说两个相继的状态之间不能够超过某一个特定距离。
在实际操作中,许多位势场项都能够被进一步分解成几个子位势场项的总和,而每个子位势场项只取决在一个单独时间t的状态。然而,这样一个分解在我们的算法中并没有体现,这是由于大多数我们在运动路径规划中所使用的位势场项并不能够被分解。
我们将位势场运动路径规划的问题用一个元组来表示,并用来表示不包括加权向量ω位势场运动路径规划问题。
一般来说,定义了一个复杂的势能,使得最小化势能的问题成为了一个非线性的多模式最优化问题。
我们的最优化算法也因此更加基于特定的问题,取决于多个位势场项的公式表达,会有灵活的变动。
B.学徒学习和位势场
在学徒学习的设定下,我们会被给定一系列m个不包括加权向量ω的运动路径规划问题和一系列相应的人工演示驾驶轨迹案例
贯穿全文,我们让因此对每一个位势场项φk来说,μk是一个累积了所有轨迹{s(i)}的势能值的向量。
1.2学徒学习算法
学徒学习算法原本是基于马尔可夫决策过程(Markov decision process)设定的,在这里,我们要介绍一个学徒学习算法在位势场运动路径规划设定下的改良版本。从本质上来说,学徒学习算法要解决的是一个逆优化问题:在给定演示案例的情况下,学徒学习算法会为势能方程找到一系列的加权系数,使得势能方程能够给出与演示案例最为接近的轨迹规划结果。这里我们通过对比轨迹规划结果的势能方程累积值和演示案例的势能方程累积值才衡量轨迹规划结果是否与演示案例足够接近。举个例子来说,如果前进驾驶分段(forward driving segments)和后退驾驶分段(backward driving segments)的长度是唯二的位势场项,那么对从同一个起始状态s0开始,在同一个目标状态sG结束的两条路径来说,如果它们有大致等量的前进驾驶和后退驾驶,我们就认为它们是接近的。
接下来我们将结束学徒学习算法在位势场运动路径规划设定下的改良版本:图1所示的实施例中,本方法还包括步骤,S102获取关于加权向量的先验知识集,从所述先验知识集中随机挑选一个加权向量作为当前加权向量,S104根据当前加权向量求得路径规划问题的当前解,根据当前解计算势场项的累积势能值,S106根据累积势能值找到下一个加权向量的估计,将下一个加权向量的估计作为当前加权向量并重复求解,直至找到最佳路径。
我们的算法将和一个描述了关于加权向量ω的先验知识的凸(convex)集W作为输入值。其中W是选择性输入的。接着算法如下展开:
1)算法首先随机地挑选一个加权向量ω(0)。设定j=0。
2)为当前的加权向量ω(j)求路径规划的问题的解,也就是说,要找到:
3)计算位势场项的累积势能值:
4)找到对下一个加权向量ω(j+1)的估计。这个估计值就是以下凸优化问题的解:
ω≥μ-μE;ω∈W
如果‖ω‖≤∈(准确度阀值),就退出算法并返回x,{ω(0),μ(0),…,ω(j),μ(j)}。否则,设j=j+1,并继续步骤2。
大致来说,算法交替地“猜测”新的加权向量和对路径规划问题进行求解。前者仅需要通过解凸优化问题便可有效地解决。在本方法中,我们为凸优化问题添加了三个限制。ω≥0,ω≥μ-μE涵盖了我们已知的事实:权重都是正值,而不同的位势场项对距离的贡献只有在演示案例的表现胜过当前最佳路径μ(j)的情况下才为非零。ω∈W这个限制使我们能够将额外的先验信息也囊括到算法中。
当算法执行“退出”操作时,必须满足‖μ-μE‖≤‖ω‖≤∈。因此,当随机地(根据x)选择由算法经过多次迭代得到的路径时,我们能得到和演示案例在准确度∈内表现相当的轨迹选择结果。为了将算法延伸成一个完整的设定,我们可以相应地随机选择基于x得到的加权向量{ω(0),μ(0),…,ω(j)},然后对所产生的路径规划问题进行求解。然而在现实操作中,随机的组合通常无法得到我们想要的结果。相反,我们可以对由满足x(j)≥0的向量ω(j)生成的轨迹进行抽检。通过凸分析(convex analysis),我们能够保证步骤4的最优化问题有一个最多有p+1个非零项的解;同时我们能够保证最少其中一个解,拥有能跟演示案例相媲美的表现。
1.3在停车场导航中利用学徒学习算法进行路径规划
一个有能力在停车场设定中产生类人的轨迹的算法必须要对成本建模,各种广泛的需要考虑的因素包括:
·轨迹的总长度
·逆行(倒车)的轨迹分段的长度
·运动方向在前行和后退之间转换的次数
·轨迹上的点距离障碍物的接近程度
·轨迹的平滑程度
·轨迹与环境中驾驶车道的距离
·轨迹与停车场中主要的行驶方向的对齐程度(measure of alignment)
我们需要轨迹与环境中驾驶车道的距离测量,来区别那些会在停车场中(不遵守规则)穿过空地的司机和那些会停留在适当的车道直到到达目的地的司机。图3展示留一个典型的停车场车道网络图我们假设这样一张图是给定的,是路径策划模块的一个输入。
我们需要轨迹与停车场中主要的行驶方向的对齐程度,来区分那些擦着拐角行驶以减小转弯曲率的司机,和那些会转较大的弯以沿着停车场的主要行驶方向行驶的司机。所谓的主要行驶方向可以通过传感器的数据计算出来。在这个例子中,我们用图3中的驾驶车道网络作为主要行驶方向的定义。
让我们将车辆的运动学状态用<x,θ,d>,其中x=<x,y>代表来车辆的方位,θ代表来车辆的朝向,而d={0,1}代表车辆运动的方向:前进(d=0)或后退(d=1)。进一步地,我们假设停车场的驾驶车道网络图已给出,让αE代表边E的角度。我们将一个点x与图之间的距离定义为:
其中代表的是点x与边E之间的二维欧几里德距离。同样,我将一个定向点<x,θ>与图之间的距离定义为:
换句话说,也就是点x和与车辆朝向的夹角小于一定阀值(αmin)的最近边之间的距离。
进一步,将R(s)定义为一个指标方程。当车辆在车道上时,R(s)=1,换句话说,即xi与图之间的距离低于一个给定阀值
最后,让代表边E与轨迹上最近的点xi间的夹角。
路径规划的目的是要最小化路径s={<xi,θi,di>}的势能:
其中Δxi=xi-xi-1。上面各项分别代表了:1)前进行驶轨迹的长度,2)后退行驶轨迹的长度,3)运动方向在前行和后退之间转换的次数,4)偏离车道的轨迹长度,5)轨迹到车道图之间的总计距离,6)轨迹方向与停车场中主要的行驶方向的偏离测量,和7)轨迹平滑程度的测量。
势能方程中各项的权重定义了上文所说的加权向量ω,在学习过程中将会使用到。
以上定义的路径规划问题是一个复杂的连续坐标最优化程序,有多个局部最小值。为了能更有效率地进行运算,我们将运用一个两个阶段的方法。第一阶段,我们将运行一个大致的离散的全局搜索,以找到在全局最优值附近的解;第二阶段我们将找到的解在连续坐标上进一步的细化调整。
A.全局搜索
进一步地,还包括步骤运行离散的全局搜索,用离散版本的位势场项取代连续坐标版本中偏离车道相关的位势场项。
在第一阶段中,我们使用一个A星搜索算法的变型,利用一系列离散的控制动作,应用在如上定义的车辆的四维运动学状态上。由于这个阶段中我们使用了一系列高度离散话的控制动作,所以无法完整精确的将与轨迹本身属性相关的位势场项(比如平滑程度、偏离测量)纳入考虑。因此,第一阶段中,我们只能考虑那些与全局的相关的位势场项。而局部的特征只会在第二阶段的最优化算法中用到。
在这里,定义A星搜索算法的行为的主要元素是局部解的成本和成本启发式算法(cost-to-go heuristics)。***值方程由等式3中的那些与全局相关的位势能项<ωfwd,ωrev,ωsw,ωroad,ωlane>定义。
由于全局搜索的离散性以及处于运算的原因,我们要用一个离散版本的相似位势场项将连续坐标版本中的与偏离车道相关的位势场项取代。首先我们定义一个指标方程L(s),如果车辆在正确的车道上,也就是说车辆与车道图之间的距离低于一个给定阀值的话,L(s)就等于1:
与偏离车道相关的位势场项被近似为:
换句话说,这一项计算的是(经过加权的)偏离车道的轨迹长度。
B.局部的轨迹平滑
进一步地,还包括步骤,用共轭梯度下降法对轨迹本身属性相关的位势场项进行优化。
处于计算的考量,全局A星搜索算法使用的是一系列高度离散的控制动作,得到的轨迹并不是最优化的轨迹。在算法的第二阶段,我们利用共轭梯度法,一种从运算角度上来说非常有效率的连续坐标最优化方法,来进一步优化我们的结果。
平滑算法用上文A部分的A星搜索算法得到的轨迹作为输入值。由于轨迹的全局行为已经在上一个阶段确定了,所以等式3中的全局性的位势场项在第二阶段中已经不在有利用意义了。在第二阶段中,我们的目标是要对由A星搜索算法得到的轨迹进行局部的调整。
因此,第二阶段用到的是等式3中与轨迹本身属性相关的局部位势场项<ωdir,ωcuru,ωlane>,而具体的优化中采取的是共轭梯度下降法。共轭梯度下降法的执行需要目标方程的梯度,我们可以针对每一个位势场项将这个梯度计算出来。
C.轨迹演示案例
通过对第一阶段和第二阶段所用到的位势场项的权重ω进行不同的设定,使我们的轨迹规划算法能够去模仿广泛而多样的人类驾驶风格。图2展示了几个不同的典型轨迹代表案例。在所有这些例子中,起始状态和目标状态的设定(起始状态和目标状态由车辆的位置和方向<x,y,θ>决定)都是一样的,算法所使用的位势场项也是一样的。唯一的区别就是加权向量ω=<ωfwd,ωrev,ωsw,ωroad,ωlane,ω′lane,ωcurv>的设定不同。
图4中,灰色的物体代表了障碍物;起始状态由一个空心的长方形表示,而目标状态由一个实心的长方形表示;路径的x-y坐标根据路径规划模块的时间粒度,用一条虚线表示,虚线上的小三角形指明了车辆的行驶方向。每当车辆不在车道上行驶时,即L(s)=0时,虚线就会被换成更深色的虚线。当车辆完全在道路之外行驶时,即R(s)=0时,我们用比较大的黑圆圈代替虚线上的点。双平行线的网络即为我们的驾驶车道网络图
图4轨迹规划算法示例图,在设定不同的初始加权向量ω的情况下,生成的不同的轨迹。这些轨迹模仿的是不同的全局和局部行为。
图4a对应的,就是一个对改变方向的惩罚(ωsw)低,后退行驶成本(ωrev)低的初始加权向量设定下得出的轨迹。如果我们加重对改变方向的惩罚,加大后退行驶的成本,就会得到如图4b所对应的轨迹-行驶了更长的距离才到达终点,但避免了后退行驶。如果加重对轨迹方向与停车场中主要的行驶方向的偏离测量的权重(ωdir),我们就会得到如图4c所对应的轨迹-图4c的轨迹选择了与图4b轨迹大致相同的全局路径,但是与停车场中的主要行驶方向更加一致,虽然它依然选择了从两排停车位中横穿过去。如果加重对偏离道路的惩罚(ωroad),我们将会得到如图4d的轨迹-车辆不再横穿停车位,但是我们仍能观察到车辆有时并不在正确的车道上行驶。最后,如果加强对偏离车道的惩罚(ωlane,ω′lane),我们会得到一条更加与正确车道吻合的轨迹,如图4e所示。
3.4部分实验结果
为了验证学徒学习算法是否能有效的“模仿”学习人类的驾驶行为。我们让一个司机在停车场中进行驾驶以采集演示案例,这些案例被分为了三类:
·“优秀类”:要求司机尽最大可能在正确的车道行驶;
·“草率类”:告知司机他可以偏离正确车道,但只能一直前行行驶,不能倒车;
·“后退类”:告知司机在倒退行驶可以更快到达目的地时,允许倒退行驶;
每一类型我们各收集五个案例,并运行我们的算法“学习”若干次,最后对比算法生产的轨迹和案例轨迹。我们发现,算法学习到的驾驶行为跟司机所展示的驾驶行为非常相似-它甚至学会了要靠右行驶。上文我们提到过,我们能通过对比轨迹规划结果的势能方程累积值μ和演示案例的势能方程累积值μE才衡量轨迹规划结果是否与演示案例足够接近。表格1展示了一些关于μ,μE和ω的实验数据。
表1
请看图2,为一种基于学徒学习的路径规划装置,包括状态序列找寻模块200、加权计算模块202、最佳路径模块204,所述状态序列找寻模块200用于找出路径规划问题中所有的状态序列,所述加权计算模块202用于将状态序列的位势场项进行加权,计算总势场最低的状态序列,所述最佳路径模块204用于根据总势场最低的状态序列得到最佳路径。通过上述模块设计,能够找出满足路径规划问题的状态序列集合,通过计算状态序列中位势场项加权总势场,达到计算最佳路径的效果。
在进一步的实施例中,还包括先验获取模块206、当前解模块208、加权估计模块210,所述先验模块206用于获取关于加权向量的先验知识集,所述当前解模块208用于从所述先验知识集中随机挑选一个加权向量作为当前加权向量,根据当前加权向量求得路径规划问题的当前解,所述加权估计模块210用于根据当前解计算势场项的累积势能值,根据累积势能值找到下一个加权向量的估计,所述当前解模块208还用于将下一个加权向量的估计作为当前加权向量并重复求解,直至找到最佳路径。通过上述设计,能够达到根据不同的加权向量“预测”下一个加权向量的效果,更好地解决了路径规划的问题。
其他一些实施例中,还包括全局搜索模块212,所述全局搜索模块212用于运行离散的全局搜索,用离散版本的位势场项取代连续坐标版本中偏离车道相关的位势场项。使得车辆的轨迹不易偏离车道,更好地解决了路径规划的问题。
进一步地,还包括轨迹平滑模块214,所述轨迹平滑模块用于用共轭梯度下降法对轨迹本身属性相关的位势场项进行优化。使得车辆的轨迹不易出现反复的转换,更好地解决了路径规划的问题。
具体地,所述位势场项包括:前进行驶轨迹的长度、后退形式轨迹的长度、运动方向的转换次数、偏离车道的轨迹长度、轨迹与主要行驶方向的偏离测量或轨迹平滑程度的测量。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (6)
1.一种基于学徒学***滑程度的测量;
计算总势场最低的状态序列,根据总势场最低的状态序列得到最佳路径,还包括步骤,获取关于加权向量的先验知识集,从所述先验知识集中随机挑选一个加权向量作为当前加权向量,根据当前加权向量求得路径规划问题的当前解,根据当前解计算势场项的累积势能值,根据累积势能值找到下一个加权向量的估计,将下一个加权向量的估计作为当前加权向量并重复求解,直至找到最佳路径。
2.根据权利要求1所述的基于学徒学习的路径规划方法,其特征在于,还包括步骤,运行离散的全局搜索,用离散版本的位势场项取代连续坐标版本中偏离车道相关的位势场项。
3.根据权利要求1所述的基于学徒学***滑程度的测量。
4.一种基于学徒学***滑程度的测量;计算总势场最低的状态序列,所述最佳路径模块用于根据总势场最低的状态序列得到最佳路径,还包括先验获取模块、当前解模块、加权估计模块,所述先验获取模块用于获取关于加权向量的先验知识集,所述当前解模块用于从所述先验知识集中随机挑选一个加权向量作为当前加权向量,根据当前加权向量求得路径规划问题的当前解,所述加权估计模块用于根据当前解计算势场项的累积势能值,根据累积势能值找到下一个加权向量的估计,所述当前解模块还用于将下一个加权向量的估计作为当前加权向量并重复求解,直至找到最佳路径。
5.根据权利要求4所述的基于学徒学习的路径规划装置,其特征在于,还包括全局搜索模块,所述全局搜索模块用于运行离散的全局搜索,用离散版本的位势场项取代连续坐标版本中偏离车道相关的位势场项。
6.根据权利要求4所述的基于学徒学***滑模块,所述轨迹平滑模块用于用共轭梯度下降法对轨迹本身属性相关的位势场项进行优化,轨迹本身属性相关的位势场项包括轨迹到车道之间的总计距离,轨迹方向与停车场中主要的行驶方向的偏离测量或轨迹平滑程度的测量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610344023.3A CN106017494B (zh) | 2016-05-23 | 2016-05-23 | 基于学徒学习的路径规划方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610344023.3A CN106017494B (zh) | 2016-05-23 | 2016-05-23 | 基于学徒学习的路径规划方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106017494A CN106017494A (zh) | 2016-10-12 |
CN106017494B true CN106017494B (zh) | 2019-02-12 |
Family
ID=57096023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610344023.3A Active CN106017494B (zh) | 2016-05-23 | 2016-05-23 | 基于学徒学习的路径规划方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106017494B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI621093B (zh) * | 2016-10-25 | 2018-04-11 | 財團法人資訊工業策進會 | 具個人化學習路徑自動產生機制之學習規劃方法與學習規劃系統 |
CN107357255B (zh) * | 2017-07-28 | 2019-03-29 | 哈尔滨理工大学 | 基于学习策略的激光切割机保护钢板维修路径规划方法 |
CN111880568A (zh) * | 2020-07-31 | 2020-11-03 | 深圳前海微众银行股份有限公司 | 无人机自动控制的优化训练方法、装置、设备及存储介质 |
CN112197778A (zh) * | 2020-09-08 | 2021-01-08 | 南京理工大学 | 基于改进a*算法的轮式机场巡界机器人路径规划方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8233705B2 (en) * | 2008-10-03 | 2012-07-31 | Eastman Kodak Company | Potential field-based gamut mapping |
CN102591332B (zh) * | 2011-01-13 | 2014-08-13 | 同济大学 | 用于无人驾驶汽车局部路径规划的装置及方法 |
CN102819264B (zh) * | 2012-07-30 | 2015-01-21 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
US9199668B2 (en) * | 2013-10-28 | 2015-12-01 | GM Global Technology Operations LLC | Path planning for evasive steering maneuver employing a virtual potential field technique |
CN104503453A (zh) * | 2014-12-16 | 2015-04-08 | 重庆邮电大学 | 基于细菌觅食势场法的移动机器人路径规划方法 |
-
2016
- 2016-05-23 CN CN201610344023.3A patent/CN106017494B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106017494A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106017494B (zh) | 基于学徒学习的路径规划方法及装置 | |
Gu et al. | Tunable and stable real-time trajectory planning for urban autonomous driving | |
JP2022516383A (ja) | 自律型車両の計画 | |
Caraffini et al. | Parallel memetic structures | |
Lee | Heterogeneous-ants-based path planner for global path planning of mobile robot applications | |
CN110134140B (zh) | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 | |
CN112292693A (zh) | 强化学习***训练返回函数的元梯度更新 | |
Nguyen et al. | Inverse reinforcement learning with locally consistent reward functions | |
Rempe et al. | Trace and pace: Controllable pedestrian animation via guided trajectory diffusion | |
KR20180111959A (ko) | 비디오 이해를 위한 모션-기반 어텐션에 의한 순환 네트워크들 | |
CN110174118A (zh) | 基于强化学习的机器人多目标搜索路径规划方法和装置 | |
CN107744663B (zh) | 人工智能ai单位的寻路方法及装置 | |
CN104020665A (zh) | 基于多目标粒子群算法的机械臂最小跃度轨迹优化方法 | |
Herman et al. | Inverse reinforcement learning of behavioral models for online-adapting navigation strategies | |
CN110254422A (zh) | 一种基于多目标增强学习及贝塞尔曲线的汽车避障方法 | |
Kujanpää et al. | Hierarchical imitation learning with vector quantized models | |
CN112829744B (zh) | 基于纵横向耦合的车辆长时域轨迹预测方法 | |
Jaafra et al. | Robust reinforcement learning for autonomous driving | |
Redlarski et al. | Using river formation dynamics algorithm in mobile robot navigation | |
CN116448134B (zh) | 基于风险场与不确定分析的车辆路径规划方法及装置 | |
Loscalzo et al. | Sample aware embedded feature selection for reinforcement learning | |
Do et al. | Vehicle path planning with maximizing safe margin for driving using Lagrange multipliers | |
Xu | Context-based trajectory prediction with LSTM networks | |
Wang et al. | Efficient reinforcement learning for autonomous ship collision avoidance under learning experience reuse | |
Queißer et al. | Bootstrapping of parameterized skills through hybrid optimization in task and policy spaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |