CN107479547A - 基于示教学习的决策树行为决策算法 - Google Patents

基于示教学习的决策树行为决策算法 Download PDF

Info

Publication number
CN107479547A
CN107479547A CN201710687194.0A CN201710687194A CN107479547A CN 107479547 A CN107479547 A CN 107479547A CN 201710687194 A CN201710687194 A CN 201710687194A CN 107479547 A CN107479547 A CN 107479547A
Authority
CN
China
Prior art keywords
state
msub
mrow
learning
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710687194.0A
Other languages
English (en)
Other versions
CN107479547B (zh
Inventor
王祝萍
邢文治
张皓
陈启军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201710687194.0A priority Critical patent/CN107479547B/zh
Publication of CN107479547A publication Critical patent/CN107479547A/zh
Application granted granted Critical
Publication of CN107479547B publication Critical patent/CN107479547B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于示教学习的决策树行为决策算法,主要解决现有技术中存在的现有决策算法不能同时兼顾综合复杂的场景和稳定的要求的问题。该一种基于示教学习的决策树行为决策算法包括步骤为:存储示教轨迹的状态转移规律;求取状态转移频率矩阵和状态转移概率矩阵;构建奖励;决策树对即将产生的动作进行评估;更新转移频率矩阵与状态转移概率矩阵;重复上述过程至评估通过。通过上述方案,本发明达到了无人驾驶行为决策应的最大合理性和安全性目的。

Description

基于示教学习的决策树行为决策算法
技术领域
本发明涉及无人驾驶领域,具体地说,是涉及一种基于示教学习的决策树行为决策算法。
背景技术
无人驾驶汽车是具有自主行驶能力移动机器人的一种高级形态。它是能够实现环境感知、决策规划与运动控制三大功能于一体的智能计算***。***相对其它小型移动机器人来说,结构比较复杂。除了基本的移动行驶能力外,具有运用雷达、摄像头等各种传感器配合特制的高精度地图进行即时的数据融合与定位,实现对当前环境的感知理解。同时,根据感知器理解的道路和运动障碍物信息,车辆运用决策规划算法切出合理可行的预期轨迹,由控制模块进行最终的车辆移动行为实施。整个智能计算***包括了车道线检测、障碍物识别、高精度地图、高精度定位、决策规划算法和控制器设计等重要的关键技术,涉及众多学科知识,具有极高的理论研究意义与工程实践价值。
无人驾驶车辆研究的领域包括环境感知、行为决策、规划控制三大方向。其中,行为决策作为连接环境感知与规划控制的中枢位置,具有十分重要的地位,已经成为无人驾驶领域研究的重点和难点。行为决策是在当前环境下可选的几种可行性方案中挑选出符合自身行为目的的最佳方案过程。在这个过程中,往往需要特定的决策算法对采取行为之后的结果状态进行预测评价,力求在统一判断标准下做到选取最佳的行为。对于无人驾驶车辆而言,行为决策需要根据当前雷达、摄像头等传感器融合的数据信息获取对外部环境的感知理解,对车辆即将执行的下一个行为进行合理的预测,并根据决策算法将可选的行为以物理值的形式传递给规划控制***,进一步实现决策模块的期望行为,以实现车辆的无人操作自主驾驶。
行为决策理论最早出现在心理学、管理学、经济学领域,后来逐渐拓展应用于其他方向。当前,关于车辆的行为决策主要集中于有限状态机、决策树、多属性决策等传统的经验方法和基于学习的预测方法。基于经验的设计方法不能拓展至综合复杂的场景;基于学习预测的方法虽然对行为有着难以确定的稳定性与安全性,不过对场景的适应能力要远优于基于经验的设计方法。从无人驾驶的发展来看,必然面临场景的复杂性与多变性这一问题,基于学习预测的方法将会成为实现车辆行为决策的最佳选项。示教学习作为一种基于学习预测的方法能够有效解决场景的可拓展性,是一种高效的行为决策解决方案。
在实际运用中,仅以示教学习作为无人驾驶行为决策的部分并不能解决该问题。无人驾驶的行为决策应确保行为的最大合理性。常见的示教学习均是理论上对无人驾驶的行为决策进行概率建模,很难从实际问题上最大程度避免行为的不合理性。另外,示教部分的数据并不能完全覆盖全域空间。示教数据从某种程度上而言,只是提供了较少的先验决策知识。对于无人驾驶行为决策问题,决策***需要在先验知识上能够继续强化更新策略。
发明内容
本发明的目的在于提供一种基于示教学习的决策树行为决策算法,以解决现有决策算法很难从实际问题上最大程度避免行为的不合理性的问题。
为了解决上述问题,本发明提供如下技术方案:
一种基于示教学习的决策树行为决策算法包括如下步骤:
(a)用行为的状态转移频率矩阵和状态转移概率矩阵来描述示教学习中的示教规律,存储示教轨迹的状态转移规律;
(b)根据步骤(a)求取状态转移频率矩阵和状态转移概率矩阵;
(c)根据状态转移频率构建奖励;
(d)转移概率矩阵输出即将进行的选择动作时,决策树根据步骤(b)对状态转移概率矩阵即将产生的动作进行评估,评估通过,则执行状态转移,评估不通过,则执行步骤(e);
(e)根据步骤(b)和(c)通过Actor-Critic算法更新转移频率矩阵与状态转移概率矩阵;
(f)重复步骤(d)和(e)至评估通过。
具体地,步骤(a)的具体过程为:先将预测路面的长度进行栅格化;设计记录转换关系的状态转移表格;以矩阵的形式填入转移表格的频率,以此作为示教中由当前状态转移到后继状态的频次,状态转移概率是通过softmax函数计算当前状态的后继n个可能状态的访问频率得出。
具体地,步骤(b)的具体过程为:状态转移频率是记录当前状态下即将被访问状态的次数,状态转移概率即计算这样的次数所得出的转移概率值;将示教学习的状态转移轨迹进行离散化抽样构建状态转移频率矩阵,状态转移概率是通过softmax函数计算当前状态的后继n个可能状态的访问频率得出。
具体地,步骤(c)的具体过程为:将即将进行的状态动作与期望的状态动作进行比对;如果符合期望的则进行奖励加分,否则进行负奖励惩罚;若在当前状态的其它未选择动作中出现比所选动作更加接近期望动作的行为,则进行奖励加分;最终将离散的状态点进行拟合,得到规划曲线;其中,奖励的变化表达式设计为:
上式表明,在动作符合期望的时候,可以设置Δr=+1;反之,动作不符合期望的时候,可以设置Δr=-1,其中au是期望的动作,a是即将进行的动作。
具体地,步骤(d)的具体过程为:决策树通过两个方面来评判动作转移的合理性和安全性;都满足则评估通过,否则,评估不通过;
一是评判状态转移的合理性,以此确认车辆能够在自身物理条件限制的情况下实现转移;评价过程为si→sj,||i-j||=1;
上式中si代表第i个状态;该式表明,每次运动时,车辆都会在当前状态的邻近状态选择转移状态;
二是将轨迹点拟合后,进行膨胀,确认轨迹可行驶域内无其它障碍物:
其中是状态si相对于车辆的横纵坐标,xobstacle,yobstacle临近域的障碍物横纵坐标,xwidth,ylength分别是车辆宽度和长度的1/2。
具体地,步骤(e)的具体过程为:其强化方式为:
δt=rt+γV(st+1)-V(st),p(st,at):=p(st,at)+βδt
其中rt立即奖励;V(st)是当前状态预测后的累积奖励,V(st+1)是从下一个状态预测后的累积奖励,β是更新程度,γ是当前预测之后的奖励可信程度,p(st,at)是在状态st执行动作at的概率,该式是在示教学习的转移频率得到的转移概率基础上进行更新。
与现有技术相比,本发明具有以下有益效果:决策树算法是处于中间的位置,向上承接状态转移规律,向下连接强化或者修正状态转移规律。对于人类驾驶员的示教规律,本发明定义状态转移频率与状态转移概率两个矩阵来进行描述。状态转移频率是记录当前状态下即将被访问状态的次数,状态转移概率即计算这样的次数所得出的转移概率值。当转移概率输出即将进行的选择动作,决策树算法需要对当前的动作的合理性或者安全性进行检查评价。经过决策树评价之后,算法会对当前的状态转移频率矩阵进行修正,增加合理动作的频次,减少不合理动作的频次。修正后的状态转移频率矩阵会继续计算相应的转移概率,以此往复循环强化;确保了无人驾驶行为决策应的最大合理性和安全性。
附图说明
图1为本发明的专家示教车道访问图。
图2为本发明的恢复结果图。
图3为部分实验数据恢复拟合图一。
图4为部分实验数据恢复拟合图二。
图5为部分实验数据恢复拟合图三。
图6为部分实验数据恢复拟合图四。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。
在整个算法框架中,决策树算法是处于中间的位置,向上承接状态转移规律,向下连接强化或者修正状态转移规律。对于人类驾驶员的示教规律,本发明定义状态转移频率与状态转移概率两个矩阵来进行描述。状态转移频率是记录当前状态下即将被访问状态的次数,状态转移概率即计算这样的次数所得出的转移概率值。当转移概率输出即将进行的选择动作,决策树算法需要对当前的动作的合理性或者安全性进行检查评价。经过决策树评价之后,算法会对当前的状态转移频率矩阵进行修正,增加合理动作的频次,减少不合理动作的频次。修正后的状态转移频率矩阵会继续计算相应的转移概率,以此往复循环强化;其具体过程如下:
基于示教学习的决策树行为决策算法包括如下步骤:
(a)用行为的状态转移频率矩阵和状态转移概率矩阵来描述示教学习中的示教规律,存储示教轨迹的状态转移规律;
先将预测路面的长度进行栅格化;设计记录转换关系的状态转移表格;以矩阵的形式填入转移表格的频率,以此作为示教中由当前状态转移到后继状态的频次,状态转移概率是通过softmax函数计算当前状态的后继n个可能状态的访问频率得出;
(b)根据步骤(a)求取状态转移频率矩阵和状态转移概率矩阵;
状态转移频率是记录当前状态下即将被访问状态的次数,状态转移概率即计算这样的次数所得出的转移概率值;将示教学习的状态转移轨迹进行离散化抽样构建状态转移频率矩阵,状态转移概率是通过softmax函数计算当前状态的后继n个可能状态的访问频率得出。
(c)根据状态转移频率构建奖励;
将即将进行的状态动作与期望的状态动作进行比对;如果符合期望的则进行奖励加分,否则进行负奖励惩罚;若在当前状态的其它未选择动作中出现比所选动作更加接近期望动作的行为,则进行奖励加分;最终将离散的状态点进行拟合,得到规划曲线;其中,奖励的变化表达式设计为:
上式表明,在动作符合期望的时候,可以设置Δr=+1;反之,动作不符合期望的时候,可以设置Δr=-1,其中au是期望的动作,a是即将进行的动作。
(d)转移概率矩阵输出即将进行的选择动作时,决策树根据步骤(b)对状态转移概率矩阵即将产生的动作进行评估,评估通过,则执行状态转移,评估不通过,则执行步骤(e);
决策树通过两个方面来评判动作转移的合理性和安全性;都满足则评估通过,否则,评估不通过;
一是评判状态转移的合理性,以此确认车辆能够在自身物理条件限制的情况下实现转移;评价过程为si→sj,||i-j||=1;
上式中si代表第i个状态;该式表明,每次运动时,车辆都会在当前状态的邻近状态选择转移状态;
二是将轨迹点拟合后,进行膨胀,确认轨迹可行驶域内无其它障碍物:
其中是状态si相对于车辆的横纵坐标,xobstacle,yobstacle临近域的障碍物横纵坐标,xwidth,ylength分别是车辆宽度和长度的1/2。。
(e)根据步骤(b)和(c)通过Actor-Critic算法更新转移频率矩阵与状态转移概率矩阵;
其强化方式为:
δt=rt+γV(st+1)-V(st),p(st,at):=p(st,at)+βδt
其中rt立即奖励;V(st)是当前状态预测后的累积奖励,V(st+1)是从下一个状态预测后的累积奖励,β是更新程度,γ是当前预测之后的奖励可信程度,p(st,at)是在状态st执行动作at的概率,该式是在示教学习的转移频率得到的转移概率基础上进行更新。
(f)重复步骤(d)和(e)至评估通过。
本发明的策略更新部分采用的是Actor-Critic算法。Actor-Critic算法是基于无模型的算法,该算法可用于无模型的情况以及有模型的情况。基于无模型的求解算法是马尔科夫求解方法上的一个重大突破,将理论性较强的数学手段迁移到了更加符合实际具体问题的应用场景。在基于模型的算法类别里,共同的属性是求解策略需要依赖于已有先验转移模型和奖励结构。与之不同的是,基于无模型的求解策略是不要这些的。一般说来,生活中的问题恰恰是难以理想模型化。可以这样说,完整的马尔科夫过程模型是藏在生活中的,难以明显决策出。从这一点看,无模型算法将原有的理论通过简化问题模型约束条件的处理更加适合解决具体问题。在基于无模型的算法中,智能体可以通过对环境的交互,抽样获取转移概率等基于模型定义的相关变量信息,以统计的视角获得对环境的先验认知,再估计所求的奖励函数;或者,智能体运用无模型的算法模糊求解奖励函数,近似优化目标。这其实是两个方向上的选择。第一种与环境交互学习得到转移概率和奖励模型后,便能够用基于模型的求解方法得到最优策略。第二种直接近似的方法是以一种模糊的手段求解得到最佳策略,对模型的形式不需要任何要求。在众多的求解方法中,也有将两者结合在一起的算法,一边估计奖励函数一边用近似模型加速奖励学习,两者互相迭代反复更新。需要指出的是,在这些无模型的算法中,第二种直接近似的方法最受关注,应用范围也是最广的;以下为具体实验过程中的仿真设计及实验设计;
仿真设计
本次仿真中,状态需要离散化为27个。最终的状态转移矩阵大小为。转移的概率矩阵由当前状态的后继5个可能状态的访问频率计算得来。
决策树框架在这里检测转移状态的可行性。本次仿真中,决策树将作如下检测:
1、检测状态跳转的车道号。如果车道号之间的数值之差大于2,说明车辆面临从当前最左车道直接跳到最右车道。算法将该状态后的后继状态访问频率置为0。算法从更新的频率矩阵中继续选择一个概率最大的可转移状态。
2、通过车道号检测后,算法需要检测左转或右转是否碰撞到其它障碍物。如果碰撞到其它障碍物,则该后继状态的访问频率减为原来的一半。算法从更新的频率矩阵中继续选择一个概率最大的可转移状态。
3、通过上述检测后,算法可执行状态转移。
图1与图2是仿真结果
实验设计
在本次实验中,示教数据来源于对车辆行驶轨迹的抽样。在驾驶员驾驶车辆行驶过程中,车辆一般在右车道行驶。当遇到障碍物时,车辆在右车道与其保持一定的距离内进行变道避让。在变道时,车辆与障碍物之间的抽样状态有5个。针对这样的抽样过程,检测树以及强化过程如下所示:
利用离散化的抽样状态构建的转移矩阵,并依据抽样数据填充转移矩阵;
1、利用上述得到的转移频率矩阵,计算转移概率矩阵;
2、利用检测树检测状态跳转的合理性。不允许车辆的状态直接从右车道跳转左车道或从左车道跳转到右车道。
3、利用检测检测状态左转或右转是否会碰到障碍物;
4、对于状态的跳转,计算当前状态与障碍物的距离。如果计算得到当前状态到障碍物的距离大于示教数据中车辆偏转轨迹时车辆与障碍物的距离,并且为一个状态距离时,对该状态的非同车道后继邻近状态访问频率加1。
5、更新频率矩阵,选取概率最大的状态进行转移。
6、离散状态进行插值拟合。
图3到图6为实验结果。
按照上述实施例,便可很好地实现本发明。值得说明的是,基于上述结构设计的前提下,为解决同样的技术问题,即使在本发明上做出的一些无实质性的改动或润色,所采用的技术方案的实质仍然与本发明一样,故其也应当在本发明的保护范围内。

Claims (6)

1.一种基于示教学习的决策树行为决策算法,其特征在于,包括如下步骤:
(a)用行为的状态转移频率矩阵和状态转移概率矩阵来描述示教学习中的示教规律,存储示教轨迹的状态转移规律;
(b)根据步骤(a)求取状态转移频率矩阵和状态转移概率矩阵;
(c)根据状态转移频率构建奖励;
(d)转移概率矩阵输出即将进行的选择动作时,决策树根据步骤(b)对状态转移概率矩阵即将产生的动作进行评估,评估通过,则执行状态转移,评估不通过,则执行步骤(e);
(e)根据步骤(b)和(c)通过Actor-Critic算法更新转移频率矩阵与状态转移概率矩阵;
(f)重复步骤(d)和(e)至评估通过。
2.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(a)的具体过程为:先将预测路面的长度进行栅格化;设计记录转换关系的状态转移表格;以矩阵的形式填入转移表格的频率,以此作为示教中由当前状态转移到后继状态的频次,状态转移概率是通过softmax函数计算当前状态的后继n个可能状态的访问频率得出。
3.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(b)的具体过程为:状态转移频率是记录当前状态下即将被访问状态的次数,状态转移概率即计算这样的次数所得出的转移概率值;将示教学习的状态转移轨迹进行离散化抽样构建状态转移频率矩阵,状态转移概率是通过softmax函数计算当前状态的后继n个可能状态的访问频率得出。
4.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(c)的具体过程为:将即将进行的状态动作与期望的状态动作进行比对;如果符合期望的则进行奖励加分,否则进行负奖励惩罚;若在当前状态的其它未选择动作中出现比所选动作更加接近期望动作的行为,则进行奖励加分;最终将离散的状态点进行拟合,得到规划曲线;其中,奖励的变化表达式设计为:
<mrow> <msub> <mi>r</mi> <mrow> <mi>a</mi> <mo>=</mo> <msub> <mi>a</mi> <mi>&amp;mu;</mi> </msub> </mrow> </msub> <mo>=</mo> <mo>+</mo> <mi>&amp;Delta;</mi> <mi>r</mi> </mrow>
上式表明,在动作符合期望的时候,可以设置Δr=+1;反之,动作不符合期望的时候,可以设置Δr=-1,其中au是期望的动作,a是即将进行的动作。
5.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(d)的具体过程为:决策树通过两个方面来评判动作转移的合理性和安全性;都满足则评估通过,否则,评估不通过;
一是评判状态转移的合理性,以此确认车辆能够在自身物理条件限制的情况下实现转移;评价过程为si→sj,||i-j||=1;
上式中si代表第i个状态;该式表明,每次运动时,车辆都会在当前状态的邻近状态选择转移状态;
二是将轨迹点拟合后,进行膨胀,确认轨迹可行驶域内无其它障碍物:
<mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> <mi>t</mi> <mi>a</mi> <mi>c</mi> <mi>l</mi> <mi>e</mi> </mrow> </msub> <mo>|</mo> <mo>|</mo> <mo>&gt;</mo> <msub> <mi>x</mi> <mrow> <mi>w</mi> <mi>i</mi> <mi>d</mi> <mi>t</mi> <mi>h</mi> </mrow> </msub> <mo>,</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>y</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>-</mo> <msub> <mi>y</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> <mi>t</mi> <mi>a</mi> <mi>c</mi> <mi>l</mi> <mi>e</mi> </mrow> </msub> <mo>|</mo> <mo>|</mo> <mo>&gt;</mo> <msub> <mi>y</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> </mrow> </msub> </mrow>
其中是状态si相对于车辆的横纵坐标,xobstacle,yobstacle临近域的障碍物横纵坐标,xwidth,ylength分别是车辆宽度和长度的1/2。
6.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(e)的具体过程为;其强化方式为:
δt=rt+γV(st+1)-V(st),p(st,at):=p(st,at)+βδt
其中rt立即奖励;V(st)是当前状态预测后的累积奖励,V(st+1)是从下一个状态预测后的累积奖励,β是更新程度,γ是当前预测之后的奖励可信程度,p(st,at)是在状态st执行动作at的概率,该式是在示教学习的转移频率得到的转移概率基础上进行更新。
CN201710687194.0A 2017-08-11 2017-08-11 基于示教学习的决策树行为决策算法 Expired - Fee Related CN107479547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710687194.0A CN107479547B (zh) 2017-08-11 2017-08-11 基于示教学习的决策树行为决策算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710687194.0A CN107479547B (zh) 2017-08-11 2017-08-11 基于示教学习的决策树行为决策算法

Publications (2)

Publication Number Publication Date
CN107479547A true CN107479547A (zh) 2017-12-15
CN107479547B CN107479547B (zh) 2020-11-24

Family

ID=60600126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710687194.0A Expired - Fee Related CN107479547B (zh) 2017-08-11 2017-08-11 基于示教学习的决策树行为决策算法

Country Status (1)

Country Link
CN (1) CN107479547B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229730A (zh) * 2017-12-19 2018-06-29 同济大学 一种基于模糊奖励的无人驾驶车辆轨迹生成方法
CN108446727A (zh) * 2018-03-09 2018-08-24 上海安亭地平线智能交通技术有限公司 驾驶行为决策方法、***和电子设备
CN109461342A (zh) * 2018-12-19 2019-03-12 畅加风行(苏州)智能科技有限公司 一种用于无人驾驶机动车的教学***及其教学方法
CN110084539A (zh) * 2018-11-30 2019-08-02 武汉大学 灌溉决策学习方法、装置、服务器和存储介质
WO2019149214A1 (zh) * 2018-02-05 2019-08-08 腾讯科技(深圳)有限公司 一种智能运动设备及其导航方法和存储介质
CN110568848A (zh) * 2019-09-10 2019-12-13 东风商用车有限公司 清扫车的示教自动驾驶作业***
CN110738221A (zh) * 2018-07-18 2020-01-31 华为技术有限公司 一种运算***及方法
CN112141098A (zh) * 2020-09-30 2020-12-29 上海汽车集团股份有限公司 一种智能驾驶汽车避障决策方法及装置
CN113176739A (zh) * 2020-01-09 2021-07-27 丰田自动车株式会社 车辆用控制装置、车辆控制方法以及存储车辆用控制程序的非瞬时性的计算机可读介质
US20220126831A1 (en) * 2020-10-28 2022-04-28 Argo AI, LLC Methods and systems for tracking a mover's lane over time

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6162905A (ja) * 1984-09-04 1986-03-31 Komatsu Ltd 無人車両の自動運転方法
JPH01106113A (ja) * 1987-10-19 1989-04-24 Toshiba Corp 清掃ロボット装置
JPH08101712A (ja) * 1994-09-30 1996-04-16 Mitsubishi Heavy Ind Ltd 無人搬送車通行経路のオンラインティーチング装置
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
CN103792846A (zh) * 2014-02-18 2014-05-14 北京工业大学 基于Skinner操作条件反射原理的机器人避障导航方法
CN104570738A (zh) * 2014-12-30 2015-04-29 北京工业大学 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型
CN105487537A (zh) * 2015-11-06 2016-04-13 福州华鹰重工机械有限公司 一种车辆运动规划方法和无人车
CN105700526A (zh) * 2016-01-13 2016-06-22 华北理工大学 具有自主学习能力的在线序列极限学习机方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6162905A (ja) * 1984-09-04 1986-03-31 Komatsu Ltd 無人車両の自動運転方法
JPH01106113A (ja) * 1987-10-19 1989-04-24 Toshiba Corp 清掃ロボット装置
JPH08101712A (ja) * 1994-09-30 1996-04-16 Mitsubishi Heavy Ind Ltd 無人搬送車通行経路のオンラインティーチング装置
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
CN103792846A (zh) * 2014-02-18 2014-05-14 北京工业大学 基于Skinner操作条件反射原理的机器人避障导航方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型
CN104570738A (zh) * 2014-12-30 2015-04-29 北京工业大学 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法
CN105487537A (zh) * 2015-11-06 2016-04-13 福州华鹰重工机械有限公司 一种车辆运动规划方法和无人车
CN105700526A (zh) * 2016-01-13 2016-06-22 华北理工大学 具有自主学习能力的在线序列极限学习机方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AHMED HUSSEIN.ETC: "《Imitation Learning: A Survey of Learning Methods》", 《ACM COMPUTING SURVEYS》 *
JANE BROOKS ZURN.ETC: "《Self-reproduction for articulated behaviors with dual humanoid robots using on-line decision tree classification》", 《ROBOTICA》 *
PAWEŁ CICHOSZ.ETC: "《IMITATION LEARNING OF CAR DRIVING SKILLS WITH DECISION TREES AND RANDOM FORESTS》", 《INTERNATIONAL JOURNAL OF APPLIED MATHEMATICS & COMPUTER SCIENCE》 *
YUAN ZHAN-PING.ETC: "《Adaptive output feedback control for uncertain nonholonomic chained systems》", 《中南大学学报(英文版)》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229730A (zh) * 2017-12-19 2018-06-29 同济大学 一种基于模糊奖励的无人驾驶车辆轨迹生成方法
CN108229730B (zh) * 2017-12-19 2021-07-20 同济大学 一种基于模糊奖励的无人驾驶车辆轨迹生成方法
WO2019149214A1 (zh) * 2018-02-05 2019-08-08 腾讯科技(深圳)有限公司 一种智能运动设备及其导航方法和存储介质
US11247701B2 (en) 2018-02-05 2022-02-15 Tencent Technology (Shenzhen) Company Ltd Smart moving device, navigation method thereof, and storage medium
CN108446727A (zh) * 2018-03-09 2018-08-24 上海安亭地平线智能交通技术有限公司 驾驶行为决策方法、***和电子设备
CN110738221A (zh) * 2018-07-18 2020-01-31 华为技术有限公司 一种运算***及方法
CN110738221B (zh) * 2018-07-18 2024-04-26 华为技术有限公司 一种运算***及方法
CN110084539A (zh) * 2018-11-30 2019-08-02 武汉大学 灌溉决策学习方法、装置、服务器和存储介质
CN110084539B (zh) * 2018-11-30 2021-10-22 武汉大学 灌溉决策学习方法、装置、服务器和存储介质
CN109461342A (zh) * 2018-12-19 2019-03-12 畅加风行(苏州)智能科技有限公司 一种用于无人驾驶机动车的教学***及其教学方法
CN109461342B (zh) * 2018-12-19 2023-06-27 畅加风行(苏州)智能科技有限公司 一种用于无人驾驶机动车的教学***及其教学方法
CN110568848B (zh) * 2019-09-10 2022-09-23 东风商用车有限公司 清扫车的示教自动驾驶作业***
CN110568848A (zh) * 2019-09-10 2019-12-13 东风商用车有限公司 清扫车的示教自动驾驶作业***
CN113176739A (zh) * 2020-01-09 2021-07-27 丰田自动车株式会社 车辆用控制装置、车辆控制方法以及存储车辆用控制程序的非瞬时性的计算机可读介质
CN113176739B (zh) * 2020-01-09 2024-04-30 丰田自动车株式会社 车辆用控制装置、车辆控制方法以及存储车辆用控制程序的非瞬时性的计算机可读介质
CN112141098A (zh) * 2020-09-30 2020-12-29 上海汽车集团股份有限公司 一种智能驾驶汽车避障决策方法及装置
US11577732B2 (en) * 2020-10-28 2023-02-14 Argo AI, LLC Methods and systems for tracking a mover's lane over time
US20220126831A1 (en) * 2020-10-28 2022-04-28 Argo AI, LLC Methods and systems for tracking a mover's lane over time

Also Published As

Publication number Publication date
CN107479547B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN107479547A (zh) 基于示教学习的决策树行为决策算法
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及***
Wen et al. Path planning for active SLAM based on deep reinforcement learning under unknown environments
Wang et al. A survey of learning‐based robot motion planning
Hoque et al. Lazydagger: Reducing context switching in interactive imitation learning
Liu et al. Map-based deep imitation learning for obstacle avoidance
CN108229730B (zh) 一种基于模糊奖励的无人驾驶车辆轨迹生成方法
Fridman et al. Deeptraffic: Driving fast through dense traffic with deep reinforcement learning
Bajcsy et al. Analyzing human models that adapt online
Al Dabooni et al. Heuristic dynamic programming for mobile robot path planning based on Dyna approach
Babu et al. Model predictive control for autonomous driving considering actuator dynamics
Liu et al. Impact of sharing driving attitude information: A quantitative study on lane changing
CN111781922A (zh) 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
Liang et al. Human-in-the-loop reinforcement learning
Banerjee et al. A survey on physics informed reinforcement learning: Review and open problems
Liu et al. Autonomous highway merging in mixed traffic using reinforcement learning and motion predictive safety controller
Moghadam et al. A deep reinforcement learning approach for long-term short-term planning on frenet frame
Gao et al. Cola-HRL: Continuous-lattice hierarchical reinforcement learning for autonomous driving
Lodhi et al. Autonomous vehicular overtaking maneuver: A survey and taxonomy
Kabtoul et al. Proactive and smooth maneuvering for navigation around pedestrians
Hou et al. Hybrid residual multiexpert reinforcement learning for spatial scheduling of high-density parking lots
Chen et al. When shall i be empathetic? the utility of empathetic parameter estimation in multi-agent interactions
Aroor et al. Toward crowd-sensitive path planning
Sierra-Garcia et al. Federated discrete reinforcement learning for automatic guided vehicle control
Hosseinzadeh et al. Toward Safe and Efficient Human–Robot Interaction via Behavior-Driven Danger Signaling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201124