CN107861508A - 一种移动机器人局部运动规划方法及装置 - Google Patents

一种移动机器人局部运动规划方法及装置 Download PDF

Info

Publication number
CN107861508A
CN107861508A CN201710987041.8A CN201710987041A CN107861508A CN 107861508 A CN107861508 A CN 107861508A CN 201710987041 A CN201710987041 A CN 201710987041A CN 107861508 A CN107861508 A CN 107861508A
Authority
CN
China
Prior art keywords
mrow
msub
mobile robot
map
msup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710987041.8A
Other languages
English (en)
Other versions
CN107861508B (zh
Inventor
刘越江
陈子冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ninebot Beijing Technology Co Ltd
Original Assignee
Ninebot Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ninebot Beijing Technology Co Ltd filed Critical Ninebot Beijing Technology Co Ltd
Priority to CN201710987041.8A priority Critical patent/CN107861508B/zh
Publication of CN107861508A publication Critical patent/CN107861508A/zh
Priority to PCT/CN2018/087326 priority patent/WO2019076044A1/zh
Application granted granted Critical
Publication of CN107861508B publication Critical patent/CN107861508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种移动机器人局部运动规划方法,所述方法包括:确定平面(2d)局部代价地图图像;确定所述移动机器人的速度;基于所述速度以及所述2d局部代价地图图像,通过基于学习的规划器为所述移动机器人制定动作指令,以由所述移动机器人执行所述动作指令。本发明还同时公开了一种移动机器人局部运动规划装置。

Description

一种移动机器人局部运动规划方法及装置
技术领域
本发明涉及机器人技术领域,具体涉及一种移动机器人局部运动规划方法及装置。
背景技术
躲避障碍物的运动规划是智能移动机器人有望掌握的基本技能之一。在过去十年中已经开发了各种算法,以使机器人能够规划到目标点或跟随参考路径,而不会撞到障碍物的轨迹。尽管取得了重大进展,移动机器人与人类在移动规划方面的差距还很远。例如,人类以可以以忽略不计的努力快速做出运动决策,稳健地适应不确定性和不可预见的障碍,运动表现的非常平滑和自然。给定足够的局部化和全球路径信息,例如全球定位***(GPS,Global Positioning System)和谷歌(Google)地图,人们无论在步行、跑步或驾驶过程中凭借强大的规划决策能力在不同条件下进行导航。相比之下,移动机器人还在努力实现这些。
一类高性能规划算法是从优化角度解决了局部移动规划和障碍物回避问题。这些算法的主要特征是最小化潜在轨迹的代价函数(或最大化效用函数)。然后将最佳轨迹连同相应的控制策略在每个周期重复地馈送到机器人控制器。这种方法在数学上是可解释的。然而,解决优化问题是一个挑战:由于目标函数涉及机器人动态模型,并且约束可能由与复杂几何相关的组件组成,优化问题通常是非线性的,并且难以在有限的计算资源的消费者机器人上实时解决。为了减少计算时间,研究者提出了各种各样的方法,诸如采样和线性化方法,然而这些都导致了退化为次优解。
除了基于优化的方法外,模仿学习(IL,Imitation Learning)正在成为解决规划和控制问题的新兴技术。模仿学习的核心思想是通过克隆预期行为或理解示范器所追求的奖励来从专家示范中学习策略。模仿学习中一个快速增长的分支是端到端的方法,将原始感官输入直接映射到电机输出,而无需手工编程。通过卷积神经网络(CNN,ConvolutionalNeural Network),端到端模仿学习***已经开发出广泛的应用,并取得了令人兴奋的成果。然而,大多数现有的基于CNN的规划器或控制器的性能明显低于策略示范器,部分原因是标准CNN不足以表达基于规划的推理。模仿学习的另一个挑战是示范器与学习策略之间的状态分布不匹配,这可能导致使用学习策略时陷入次优、甚至发散的轨迹。一些方法试图通过迭代收集更接近学习的策略的训练样本来解决这个问题。然而,训练数据集中的灾难性事件的稀缺性仍然是实际操作的隐患。
因此,如何使移动机器人做出高效的躲避障碍物,仍是亟待解决的技术问题。
发明内容
有鉴于此,本发明期望提供一种移动机器人局部运动规划方法及装置,给出了一种新的用于移动机器人的局部运动规划和躲避障碍物的模仿学习方法,可高效地躲避障碍物,加快移动机器人的局部运动规划决策,同时使做出的决策尽可能优化、安全和通用。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明实施例提供了一种移动机器人局部运动规划方法,所述方法包括:
确定平面(2d)局部代价地图(Costmap)图像;
确定所述移动机器人的速度;
基于所述速度以及所述2d局部代价地图图像,通过基于学习的规划器为所述移动机器人制定动作指令,以由所述移动机器人执行所述动作指令。
上述方案中,可选地,所述确定2d局部代价地图图像,包括:
获取所述移动机器人上预定传感器采集到的数据;
基于所述数据对所述移动机器人进行定位,同时建立所述移动机器人所在的周围环境地图;
根据给定的全局路径以及所述周围环境地图确定局部目标点以及局部障碍物地图;
根据所述局部目标点和所述局部障碍物地图确定2d局部代价地图图像。
上述方案中,可选地,所述基于学习的规划器通过如下方式学习局部运动规划策略:
给定2d局部代价地图图像和移动机器人速度,按照公式(1)提供如下动作命令:
u=fθ(m,u') (1)
其中,u=(v,w)是要执行的线速度v和角速度w的向量,u'是移动机器人的速度矢量,θ是模型权重参数,m是2d局部代价地图图像。
上述方案中,可选地,确定所述2d局部代价地图的方式包括:
依据公式(2)确定2d局部代价地图,其中,2d局部代价地图被构建为局部目标奖励和障碍物惩罚的总和:
m=λmgoal-mobs (2)
其中,mobs是障碍物概率的局部障碍物地图,mgoal是一个二值目标地图,其中,在所述二值目标地图中,将局部目标点的像素的值设为1,其他像素值设为0,λ为关于奖励系数的超参数;且如果参考路径上最近的有效子目标点位于2d局部代价地图窗口之外,则使用所述有效目标点到地图边框上的投影点来代替所述有效目标点。
上述方案中,可选地,确定2d局部代价地图的方式包括:
将给定的2d局部代价地图图像和给定的移动机器人速度,输入至预设神经网络模型中,通过所述预设神经网络模型学习得到2d局部代价地图;其中,所述预设神经网络模型中是忽略卷积层的神经网络模型。
上述方案中,可选地,确定所述模型权重参数θ的方式包括:
给定一组示范动作指令规划器基于误差最小化准则训练所需的局部运动规划策略:
其中,是示范的元组,J(θ)表示误差函数,是示范动作指令与实际动作指令fθ(mi,u'i)差的绝度值的平方的累加和;
一旦训练完成,模型权重参数θ固定,并且在部署期间输入至公式(1)中,以使得公式(1)基于模型权重参数θ计算动作命令。
上述方案中,可选地,所述通过基于学习的规划器为所述移动机器人制定动作指令,包括:
输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络,所述价值迭代模块通过策略改进和截断策略评估的递归运算来提取高级规划特征;
其中,s和r分别对应于2d局部代价地图中像素的位置和成本,p(s',r/s,u)表示转移概率;k表示循环次数;γ表示衰减因子;vk+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值;vk(s')表示移动机器人在经k次迭代之后得到的在位置s’的价值;u表示移动机器人执行的动作指令;s’表示移动机器人在位置s执行动作指令u后,在2d局部代价地图中像素的位置;
从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征;
将来自关注区域的高级规划特征与移动机器人的速度融合,并将融合结果提供给深层神经网络中能产生平滑连续动作命令的完全连接层,以得到为所述移动机器人制定的动作指令。
上述方案中,可选地,所述方法还包括:
选择能提供预设数量计算资源的基于优化的规划器,作为示范器;
所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的,其中,公式(5b)与(5c)为约束条件;
xk+1=h(xk,u),k=0,...,N-1 (5b)
其中,N是预测范围的长度,xk是时间步长k处的移动机器人的2d姿态,dg是移动机器人与时间步长N处的局部目标点之间的距离,αg是移动机器人方位与从移动机器人位置到时间步长N处的局部目标点的方向之间的绝对角度,h(xk,u)是机器人运动学模型,是允许访问的最大障碍物概率,w1,w2,w3是成本重量参数。
上述方案中,可选地,所述基于学习的规划器的训练样本的获取来源包括:
根据示范器的正常实验轨迹而生成的第一种代价地图;其中,所述示范器的正常实验轨迹,是用于预计在预定比例的概率范围内所述基于学习的规划器将遇到的轨迹;
人为干预生成的第二种代价地图,包含所述示范器未预计的危险情况,用于弥补所述示范器所忽略的所述基于学习的规划器将遇到的小概率事件。
第二方面,本发明实施例提供了一种移动机器人局部运动规划装置,所述装置包括:
预处理器,用于确定平面2d局部代价地图图像;确定所述移动机器人的速度;
控制器,用于基于所述速度以及所述2d局部代价地图图像,通过基于学习的规划器为所述移动机器人制定动作指令,以由所述移动机器人执行所述动作指令。
上述方案中,可选地,所述预处理器,具体用于:
获取所述移动机器人上预定传感器采集到的数据;
基于所述数据对所述移动机器人进行定位,同时建立所述移动机器人所在的周围环境地图;
根据给定的全局路径以及所述周围环境地图确定局部目标点以及局部障碍物地图;
根据所述局部目标点和所述局部障碍物地图确定2d局部代价地图图像。
上述方案中,可选地,所述控制器,具体用于:
给定2d局部代价地图图像和移动机器人速度,按照公式(1)提供如下动作命令:
u=fθ(m,u') (1)
其中,u=(v,w)是要执行的线速度v和角速度w的向量,u'是移动机器人的速度矢量,θ是模型权重参数,m是2d局部代价地图图像。
上述方案中,可选地,所述预处理器,具体用于:
依据公式(2)确定2d局部代价地图,其中,2d局部代价地图被构建为局部目标奖励和障碍物惩罚的总和:
m=λmgoal-mobs (2)
其中,mobs是障碍物概率的局部障碍物地图,mgoal是一个二值目标地图,其中,在所述二值目标地图中,将局部目标点的像素值设为1,其他像素值设为0,λ为关于奖励系数的超参数;且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外,则用所述有效目标点到地图边框上的投影点来代替所述有效目标点。
上述方案中,可选地,所述预处理器,具体用于:
将给定的2d局部代价地图图像和给定的移动机器人速度,输入至预设神经网络模型中,通过所述预设神经网络模型学习得到2d局部代价地图;其中,所述预设神经网络模型中是忽略卷积层的神经网络模型。
上述方案中,可选地,所述控制器确定所述模型权重参数θ的方式包括:
给定一组示范动作指令规划器基于误差最小化准则训练所需的局部运动规划策略:
其中,是示范的元组,J(θ)表示误差函数,是示范动作指令与实际动作指令fθ(mi,u'i)差的绝度值的平方的累加和;
一旦训练完成,模型权重参数θ固定,并且在部署期间输入至公式(1)中,以使得公式(1)基于模型权重参数θ计算动作命令。
上述方案中,可选地,所述控制器,具体用于:
输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络,所述价值迭代模块通过递归运算来提取高级规划特征;
其中,s和r分别对应于2d局部代价地图中像素的位置和成本,p(s',r/s,u)表示转移概率;k表示循环次数;γ表示衰减因子;vk+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值;vk(s')表示移动机器人在经k次迭代之后得到的在位置s’的价值;u表示移动机器人执行的动作指令;s’表示移动机器人在位置s执行动作指令u后,在2d局部代价地图中像素的位置;
从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征;
将来自关注区域的高级规划特征与移动机器人的速度融合,并将融合结果提供给深层神经网络中能产生平滑连续动作命令的完全连接层,以得到为所述移动机器人制定的动作指令。
上述方案中,可选地,所述控制器,还用于:
选择能提供预设数量计算资源的基于优化的规划器作为示范器;
所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的,其中,公式(5b)与(5c)为约束条件;
xk+1=h(xk,u),k=0,...,N-1 (5b)
其中,N是预测范围的长度,xk是时间步长k处的移动机器人的2d姿态,dg是移动机器人与时间步长N处的局部目标点之间的距离,αg是移动机器人方位与从移动机器人位置到时间步长N处的局部目标点的方向之间的绝对角度,h(xk,u)是机器人运动学模型,是允许访问的最大障碍物概率,w1,w2,w3是成本重量参数。
上述方案中,可选地,所述控制器,还用于:
根据示范器的正常实验轨迹而生成的第一种代价地图;其中,所述示范器的正常实验轨迹,是用于预计在预定比例的概率范围内所述基于学习的规划器将遇到的轨迹;
人为干预生成的第二种代价地图,包含所述示范器未预计的危险情况,用于弥补所述示范器所忽略的所述基于学习的规划器将遇到的小概率事件;
将所述第一种代价地图和所述第二种代价地图作为基于学习的规划器的训练样本。
第三方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序用于执行以上所述的移动机器人局部运动规划方法。
本发明提出的移动机器人局部运动规划方法及装置,确定2d局部代价地图图像;确定所述移动机器人的速度;基于所述速度以及所述2d局部代价地图图像,通过基于学习的规划器为所述移动机器人制定动作指令,以由所述移动机器人执行所述动作指令,可高效地躲避障碍物,加快移动机器人的局部运动规划决策,同时使做出的决策尽可能优化、安全和通用。
附图说明
图1为本发明提供的移动机器人局部运动规划方法的实现流程示意图;
图2为本发明提供的移动机器人局部运动规划装置的组成结构示意图;
图3为本发明提供的具有策略网络的局部移动规划***的框图;
图4为本发明提供的局部规划的深层神经网络示意图;
图5为本发明提供的一款赛格威递送机器人的示意图;
图6为本发明提供的训练有素的规划器对示范器的绝对预测误差的方框图;
图7为本发明提供的训练有素的规划器和示范器在测试数据集的不同误差范围内的三种情况下提供的动作指令;
图8为本发明提供的基于学习的规划器与基于优化的规划器之间的最优差距的比较示意图;
图9为本发明提供的基于学习的规划器与基于优化的规划器之间的计算时间的比较示意图;
图10为本发明提供的仿真环境中的导航图;
图11为本发明提供的训练有素的规划器对于现实世界实验中参考路径上的意外障碍物的反应示意图;
图12为本发明提供的来自现实世界环境中导航轨迹示意图。
具体实施方式
为了更好的解释本发明,下面,先介绍一些现有技术中有关模仿学习方面的研究。
目前,有关模仿学习方面的研究广泛集中在端对端方法上。例如,卷积神经网络模型被训练以将可视输入图像映射到用于接地移动机器人、四旋翼飞行器和自动驾驶的左/右转向命令。最近的另一项研究提出了一种目标驱动的移动规划器,从激光测距仪的原始输入产生线速度和角速度。尽管有这些进展,网络模式在规划背景下的有效性仍然是现有策略模仿方法中的一大挑战。
为了改进基于规划的推理,最近在几项工作中研究了新的神经网络架构。引入了一个名为预测器(predictron)的端到端架构,其核心是由马可夫奖励过程代表的抽象模型,可以推出价值估计。具有类似潜在动机的另一个深度神经网络架构是价值迭代网络,其包括一个用于递归值迭代的特殊模块。有学者开发了一个循环网络,作为路径积分最优控制的表示,以学习成本和动态模型。
模仿学习的另一个实际挑战是示范与学习的策略之间的数据分配不匹配。为了应对这一挑战,有学者提出了一种迭代数据侵略方法,并将其应用于学习微型飞行器的反应式控制器。这种方法进一步扩展到SafeDAgger,其训练安全的策略,以防止学习过程陷入危险状态,同时减少人为干预频率。另一篇最近的文章通过使用自适应模型预测控制器作为调整其策略的示范器来逐渐填补示范与学习的策略之间的分配差距来解决这个问题。
然而,上述这些方案的训练数据集中的灾难性事件的稀缺性仍然是安全至上的应用中的一个缺陷。
基于此,本发明提出了一种用于移动机器人的局部运动规划和躲避障碍物的模仿学习方法。主要目标是加快移动机器人做出局部运动规划决策的速度,同时使做出决策尽可能优化、安全和通用。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
本发明实施例提供一种移动机器人局部运动规划方法,如图1所示,所述方法主要包括:
步骤101、确定平面(2d)局部代价地图图像。
可选地,所述确定2d局部代价地图图像,包括:
获取所述移动机器人上预定传感器采集到的数据;
基于所述数据对所述移动机器人进行定位,同时建立所述移动机器人所在的周围环境地图;
根据给定的全局路径以及所述周围环境地图确定局部目标点以及局部障碍物地图;
根据所述局部目标点和所述局部障碍物地图确定2d局部代价地图图像。
这里,所述预定传感器可以是一个,也可以是多个。比如,所述预定传感器可以是所述移动机器人上的相机或摄像头。
步骤102、确定所述移动机器人的速度。
作为一种实施方式,所述确定所述移动机器人的速度,包括:
确定第一时刻所述移动机器人的第一位置信息;
确定第二时刻所述移动机器人的第二位置信息;其中,所述第一时刻为所述第二时刻的前一时刻;
根据所述第一位置信息、所述第二位置信息、所述第一时刻、所述第二时刻,确定所述移动机器人的速度。
例如,所述移动机器人的速度=(第二位置信息-第一位置信息)/(第二时刻-第一时刻)。
当然,确定所述移动机器人的速度的方式并不限于以上所列举的这种形式,还可以通过其他方式来确定。比如,直接从所述移动机器人的速度传感器获取数据,进而确定所述移动机器人的速度。
步骤103、基于所述速度以及所述2d局部代价地图图像,通过基于学习的规划器为所述移动机器人制定动作指令,以由所述移动机器人执行所述动作指令。
这里,所述动作指令,包括:
所述移动机器人需执行的线速度和角速度。
如此,所述移动机器人通过执行上述方式所确定的动作指令,能够有效躲避障碍物,且通过上述方式所确定的动作指令,用时较短。
需要说明的是,上述所述基于学习的规划器,是训练有素的规划期,能够为所述移动机器人快速准确的制定动作指令。
示例性地,所述基于学习的规划器通过如下方式学习局部运动规划策略:
给定2d局部代价地图图像和移动机器人速度,按照公式(1)提供如下动作命令:
u=fθ(m,u') (1)
其中,u=(v,w)是要执行的线速度v和角速度w的向量,u’是移动机器人的速度矢量,θ是模型权重参数,m是2d局部代价地图图像;其中,所述代价地图可通过多种方式来确定。
上述方案中,所述2d局部代价地图的确定方式之一为:
依据公式(2)确定代价地图,其中,代价地图被构建为局部目标奖励和障碍物惩罚的总和:
m=λmgoal-mobs (2)
其中,mobs是障碍物概率的局部障碍物地图,mgoal是一个二值目标地图,其中,在所述二值目标地图中,将局部目标点的像素值设为1,其他像素值设为0,λ为关于奖励系数的超参数;且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外,则用所述有效目标点到地图边框上的投影点来代替所述有效目标点。
上述方案中,所述2d局部代价地图的确定方式之二为:
将给定的2d局部代价地图图像和给定的移动机器人速度,输入至预设神经网络模型中,通过所述预设神经网络模型学习得到2d局部代价地图;其中,所述预设神经网络模型中是忽略卷积层的神经网络模型。
上述方案中,确定所述模型权重参数θ的方式包括:
给定一组示范动作指令规划器基于误差最小化准则训练所需的局部运动规划策略:
其中,是示范的元组,J(θ)表示误差函数,是示范动作指令与实际动作指令fθ(mi,u'i)差的绝度值的平方的累加和;
一旦训练完成,模型权重参数θ固定,并且在部署期间输入至公式(1)中,以使得公式(1)基于模型权重参数θ计算动作命令。
上述方案中,所述通过基于学习的规划器为所述移动机器人制定动作指令,包括:
输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络,所述价值迭代模块通过策略改进和截断策略评估的递归运算来提取高级规划特征;
其中,s和r分别对应于2d局部代价地图中像素的位置和成本,p(s',r/s,u)表示转移概率;k表示循环次数;γ表示衰减因子;vk+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值;vk(s')表示移动机器人在经k次迭代之后得到的在位置s’的价值;u表示移动机器人执行的动作指令;s’表示移动机器人在位置s执行动作指令u后,在2d局部代价地图中像素的位置;
从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征;
将来自关注区域的高级规划特征与移动机器人的速度融合,并将融合结果提供给深层神经网络中能产生平滑连续动作命令的完全连接层,以得到为所述移动机器人制定的动作指令,使所述移动机器人在局部运动规划中模仿预期行为和躲避障碍物。
这里,所述关注区域是代价地图上的部分区域。
这里,提取的来自关注区域的特征,比如仅提取与目标点朝向方向一致的特征,这样,有助于快速获得动作指令。
上述方案中,所述方法还包括:
选择能提供预设数量计算资源的基于优化的规划器,作为示范器;这里,预设数量可以理解为大量的;
所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的,其中,公式(5b)与(5c)为约束条件;
xk+1=h(xk,u),k=0,...,N-1 (5b)
其中,N是预测范围的长度,xk是时间步长k处的移动机器人的2d姿态,dg是移动机器人与时间步长N处的局部目标点之间的距离,αg是移动机器人方位与从移动机器人位置到时间步长N处的局部目标点的方向之间的绝对角度,h(xk,u)是机器人运动学模型,是允许访问的最大障碍物概率,w1,w2,w3是成本重量参数。
示例性地,所述基于学习的规划器的训练样本的获取来源包括:
根据示范器的正常实验轨迹而生成的第一种代价地图;其中,所述示范器的正常实验轨迹,是用于预计在预定比例的概率范围内所述基于学习的规划器将遇到的轨迹;
人为干预生成的第二种代价地图,包含所述示范器未预计的危险情况,用于弥补所述示范器所忽略的所述基于学习的规划器将遇到的小概率事件。
这里,所述预定比例的概率范围可以理解为:在大多数时间里所述基于学习的规划器将遇到这样的轨迹。
可选地,生成第二种代价地图的方法包括:
首先,随机生成预设数量的二进制障碍物集群;
然后,对所述二进制障碍物集群进行高斯模糊处理,对障碍物地图进行概率转换。
最后,将局部目标点随机绘制在障碍物地图上。
本发明提出的移动机器人局部运动规划方法,可高效地躲避障碍物,加快移动机器人做出局部运动规划决策的速度,同时使做出的决策尽可能优化、安全和通用。
实施例二
本实施例提供了一种移动机器人局部运动规划装置,所述装置包括:
预处理器10,用于确定平面2d局部代价地图图像;确定所述移动机器人的速度;
控制器20,用于基于所述速度以及所述2d局部代价地图图像,通过基于学习的规划器为所述移动机器人制定动作指令,以由所述移动机器人执行所述动作指令。
上述方案中,所述移动机器人包括基于学习的规划器。
作为一种实施方式,所述预处理器10,具体用于:
获取所述移动机器人上预定传感器采集到的数据;
基于所述数据对所述移动机器人进行定位,同时建立所述移动机器人所在的周围环境地图;
根据给定的全局路径以及所述周围环境地图确定局部目标点以及局部障碍物地图;
根据所述局部目标点和所述局部障碍物地图确定2d局部代价地图图像。
具体的,所述基于学习的规划器是如何学习局部运动规划策略的,如何选择示范器,如何获取训练样本等处理方式,可参照前述移动机器人局部运动规划方法中相应内容来实现;在此不再赘述。
作为一种实施方式,所述控制器20,具体用于:
给定2d局部代价地图图像和移动机器人速度,按照公式(1)提供如下动作命令:
u=fθ(m,u') (1)
其中,u=(v,w)是要执行的线速度v和角速度w的向量,u'是移动机器人的速度矢量,θ是模型权重参数,m是2d局部代价地图图像。
作为一种实施方式,所述预处理器10,具体用于:
依据公式(2)确定2d局部代价地图,其中,2d局部代价地图被构建为局部目标奖励和障碍物惩罚的总和:
m=λmgoal-mobs (2)
其中,mobs是障碍物概率的局部障碍物地图,mgoal是一个二值目标地图,其中,在所述二值目标地图中,将局部目标点的像素值设为1,其他像素值设为0,λ为关于奖励系数的超参数;且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外,则用所述有效目标点到地图边框上的投影点来代替所述有效目标点。
作为一种实施方式,所述预处理器10,具体用于:
将给定的2d局部代价地图图像和给定的移动机器人速度,输入至预设神经网络模型中,通过所述预设神经网络模型学习得到2d局部代价地图;其中,所述预设神经网络模型中是忽略卷积层的神经网络模型。
作为一种实施方式,所述控制器20确定所述模型权重参数θ的方式包括:
给定一组示范动作指令规划器基于误差最小化准则训练所需的局部运动规划策略:
其中,是示范的元组,J(θ)表示误差函数,是示范动作指令与实际动作指令fθ(mi,u'i)差的绝度值的平方的累加和;
一旦训练完成,模型权重参数θ固定,并且在部署期间输入至公式(1)中,以使得公式(1)基于模型权重参数θ计算动作命令。
作为一种实施方式,所述控制器20,具体用于:
输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络,所述价值迭代模块通过递归运算来提取高级规划特征;
其中,s和r分别对应于2d局部代价地图中像素的位置和成本,p(s',r/s,u)表示转移概率;k表示循环次数;γ表示衰减因子;vk+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值;vk(s')表示移动机器人在经k次迭代之后得到的在位置s’的价值;u表示移动机器人执行的动作指令;s’表示移动机器人在位置s执行动作指令u后,在2d局部代价地图中像素的位置;
从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征;
将来自关注区域的高级规划特征与移动机器人的速度融合,并将融合结果提供给深层神经网络中能产生平滑连续动作命令的完全连接层,以得到为所述移动机器人制定的动作指令。
作为一种实施方式,所述控制器20,还用于:
选择能提供预设数量计算资源的基于优化的规划器作为示范器;
所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的,其中,公式(5b)与(5c)为约束条件;
xk+1=h(xk,u),k=0,...,N-1 (5b)
其中,N是预测范围的长度,xk是时间步长k处的移动机器人的2d姿态,dg是移动机器人与时间步长N处的局部目标点之间的距离,αg是移动机器人方位与从移动机器人位置到时间步长N处的局部目标点的方向之间的绝对角度,h(xk,u)是机器人运动学模型,是允许访问的最大障碍物概率,w1,w2,w3是成本重量参数。
作为一种实施方式,所述控制器20,还用于:
根据示范器的正常实验轨迹而生成的第一种代价地图;其中,所述示范器的正常实验轨迹,是用于预计在预定比例的概率范围内所述基于学习的规划器将遇到的轨迹;
人为干预生成的第二种代价地图,包含所述示范器未预计的危险情况,用于弥补所述示范器所忽略的所述基于学习的规划器将遇到的小概率事件;
将所述第一种代价地图和所述第二种代价地图作为基于学习的规划器的训练样本。
本领域技术人员应当理解,图2中所示的移动机器人局部运动规划装置中的各处理模块的实现功能可参照前述移动机器人局部运动规划方法的相关描述而理解。本领域技术人员应当理解,图2所示的移动机器人局部运动规划装置中各处理单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本发明提出的移动机器人局部运动规划装置,可使得移动机器人高效地躲避障碍物,快速做出局部运动规划决策,同时使做出的决策尽可能优化、安全和通用。
实施例三
基于实施例一和实施例二所述的移动机器人局部运动规划方法和装置,下面给出我们通过深刻的模仿学习提出的用于移动机器人的局部运动规划和躲避障碍物的方法。主要目标是加快移动机器人做出局部运动规划决策,同时使做出决策尽可能优化、安全和通用。
A.***结构
图3为具有策略网络的局部移动规划***的框图,从图3可以看出,该***主要包括两大规划块,第一个规划块,用于预处理原始传感数据,并根据机器人姿势产生描述周围障碍物的局部占用图和从全局路径提取的局部目标点。这些中间结果随后被馈送到第二个规划块,在第二个规划块中我们采用深度神经网络来模拟局部规划策略。此外,我们还提供机器人的速度作为网络输入,以提高顺序决策的平滑度。在部署期间,所提出的神经网络策略通过在每个采样时间执行前馈计算产生动作命令,因此对于实时决策而言是在计算上是高效的和易于处理的。
B.问题制定,如何学习局部运动规划策略
给定2d局部代价地图图像和移动机器人速度,局部运动规划策略提供如下动作命令:
u=fθ(m,u') (1)
其中,u=(v,w)是要执行的线速度v和角速度w的向量,u’是移动机器人的最新速度矢量,θ是模型权重参数,m是2d局部代价地图图像;其中,所述代价地图可通过多种方式来确定。
具体来说,代价地图被构建为局部目标奖励和障碍物惩罚的总和:
m=λmgoal-mobs (2)
其中,mobs是障碍物概率的局部障碍物地图,mgoal是一个二值目标地图,其中,在所述二值目标地图中,局部目标点的像素的值等于1,其他为0,λ为关于奖励系数的超参数;且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外,则用所述有效目标点到地图边框上的投影点来代替所述有效目标点。
需要说明的是,代价地图还可通过其他方式确定:
将给定的2d局部代价地图图像和给定的移动机器人速度,输入至预设神经网络模型中,通过所述预设神经网络模型学习得到代价地图;其中,所述预设神经网络模型中是忽略卷积层的神经网络模型。
注意,通过在网络前面添加额外的卷积层,也可以在神经网络内学习代价地图。但是,在我们的实证实验中,我们观察到推理精度差异很小。两个可能的原因可能是:从式(2)计算出的代价地图确实代表了示范器的成本函数的本质,并且价值函数最终被学习并适应代价地图。在这项工作中,我们删除成本学习的卷积层,旨在减少模型冗余。
给定一组示范动作指令规划器基于误差最小化准则训练所需的局部运动规划策略:
其中,是示范的元组,J(θ)表示误差函数,是示范动作指令与实际动作指令fθ(mi,u'i)差的绝度值的平方的累加和;
一旦训练完成,模型权重参数θ固定,并且在部署期间输入至公式(1)中,以使得公式(1)基于模型权重参数θ计算动作命令。
C.神经网络模型,利用神经网络模型表示fθ(mi,u'i)
输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络,所述价值迭代模块通过策略改进和截断策略评估的递归运算来提取高级规划特征;
其中,s和r分别对应于代价地图中像素的位置和成本,p(s',r/s,u)表示转移概率;k表示循环次数;γ表示衰减因子,γ取值为0~1;vk+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值;vk(s')表示移动机器人在第k次循环时的速度;表示移动机器人在经k次迭代之后得到的在位置s’的价值;u表示移动机器人执行的动作指令;s’表示移动机器人在位置s执行动作指令u后,在2d局部代价地图中像素的位置;
从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征,如图4中的Q值;
将来自关注区域的高级规划特征与移动机器人的速度融合,并将融合结果提供给能产生平滑连续动作命令的完全连接层,以在局部运动规划中模仿预期行为和躲避障碍物。
这里,所述关注区域是2d局部代价地图上的部分区域。
这里,提取的来自关注区域的特征,比如仅提取与目标点朝向方向一致的特征,这样,有助于快速获得动作指令。
图4示出了局部规划的深层神经网络示意图,图4中,卷积层中的参数表示过滤器尺寸、深度和步幅。完全连接的层中的参数表示输出单元的尺寸。在实验中,循环次数K可选择为36,具体如何选择循环次数K,这与局部代价地图图像的大小有关。
D.基于优化的示范器
由于所提出的方法的主要目标是学习最优策略,所以示范器的自然选择是一种提供有大量计算资源的基于优化的规划器。在本发明中,我们使用开发的一套局部规划器作为示范器,试图在每个采样时间最小化成本,具体的,所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的,其中,公式(5b)与(5c)为约束条件;
xk+1=h(xk,u),k=0,...,N-1 (5b)
其中,N是预测范围的长度,xk是时间步长k处的移动机器人的2d姿态,dg是移动机器人与时间步长N处的局部目标点之间的距离,αg是移动机器人方位与从移动机器人位置到时间步长N处的局部目标点的方向之间的绝对角度,h(xk,u)是机器人运动学模型,是允许访问的最大障碍物概率,w1,w2,w3是成本重量参数。为了简化计算,在预测范围内假设控制动作不变。
在机器人导航期间,需要在每个采样时间重复按照公式(5a)、(5b)、(5c)求解。但是,项mobs(xk)和g(xk,u)可能涉及使问题难以有效解决的非线性。传统的方法使用基于抽样的求解器通常会损害到近似的次优解决方案。在每个规划周期,首先生成预测范围内的一些潜在轨迹,然后根据相关的成本值进行评估。因此,所得到的解决方案的质量很大程度上取决于所考虑的候选轨迹的数量和不同。出于行为示范的目的,我们采用大量样本的规划器来提供接近最优的参考策略。
E.数据采集
如前所述,模仿学习的开放挑战是训练数据集与学习的策略之间的状态分配不匹配。为了有效地解决这个问题和尽可能完整地覆盖可能出现的观测,我们从两个来源收集训练样本。第一个是专家示范的正常实验轨迹,预计在大多数时间里由训练有素的规划器遇到这样的轨迹。第二个是人为生成的随机代价地图,用于馈送示范器很少遇到的危险情况。随机代价地图生成过程如下:一些二进制障碍物集群首先随机生成,然后是高斯模糊,用于对障碍物地图进行概率转换。随后,局部目标点随机绘制在地图上。最后,我们将代价地图转换为机器人协调***,使得所有数据集中的机器人的姿态相同,这被认为有利于样本效率。
本发明开发了一种模仿学习算法,实现实时近似最佳的局部运动规划,同时对移动机器人应用保持较好的安全性和通用性。与端对端模仿不同,我们开发了一个基于预处理的2d局部代价地图作为输入的局部规划策略。该局部代价地图可以从局部目标点和障碍物地图构建,其包含从诸如激光雷达、声纳和深度相机的传感器设备接收的多帧信息。在每个采样时间,我们的嵌入价值迭代网络的局部运动规划模型,通过前馈推理产生一个动作指令,这个过程在计算上是高效的并且能够进行基于规划的推理。为了训练一个稳健的模型,我们使用从示范实验收集的现实世界的局部障碍物地图和随机生成的人造地图的组合,这不但加速了数据收集过程,而且对于在示范中很少遇到的危险观察样本也起到补充作用。本文提出的方法和现有的学习方法的简要比较在表1中总结。
表1:关于局部2d模仿学习、现有的端到端模仿学习和传统的基于优化的方法之间的局部移动规划方法的比较。
本申请的主要贡献至少包括:
1、将局部运动规划表达为基于预处理的2d局部代价地图图像的模仿学习问题。这种学习形式可结合价值迭代网络(VIN,Value Iteration Networks),并且对于很多种类的传感器设备是通用的。
2、通过随机产生人造局部代价地图,克服训练数据的短缺,特别是稀少但危险的事件样本缺乏的问题。
为了更好地说明本发明移动机器人局部运动规划方法的有效性与可行性,可将本发明的移动机器人局部运动规划方法应用于机器人平台中,进行实验。
下面,就局部规划器的实验和评估进行详细介绍。
A、装备
首先,实验采用的机器人平台是投递机器人(Loomo Go),配备有英特尔实感技术传感器(Intel RealSense)、超声波传感器以及轮编码器的赛格威递送机器人(Segwaydelivery robot)。RealSense中的深度相机用于维持固定尺寸2.8m×2.8m的局部占用图,分辨率为0.1m。
其次,对于模型训练,我们总共收集了超过600k的元组,一半来自示范轨迹,一半来自随机生成。数据集分为训练集(80%)和测试集(20%)。这里,训练集和测试集的比例可以根据实际需求进行调整。示范器采用基于优化的规划器,对于[0.0m/s,0.5m/s]范围内的线速度采样11个网格点,对于[-0.8rad/s,0.8rad/s]范围内的角速度采样81个网格点。神经网络模型采用深度学习***(Tensorflow)框架实现,并在英伟达-_泰坦(Nvidia TitanX)上用Adam优化器从头开始训练约8小时;其中,Adam是一种基于一阶梯度来优化随机目标函数的算法;评估和部署均在采用Intel i7-6700HQ CPU、Ubuntu 14.04操作***的膝上型电脑(laptop)上进行。图5给出了一款赛格威递送机器人的示意图,图5中的赛格威递送机器人配备有Intel Realsense ZR300(30Hz RGB-深度,FishEye和IMU)、Intel Atom Z8750(4核,2.4GHz)和4GB内存;其中,IMU的英文全称是Inertial measurement unit,中文含义是惯性测量单元。
B、模型指标
我们首先通过比较训练数据集和测试数据集中的预测精度以及提出的基于学习的规划器对基于优化的规划器的性能,逐帧评估训练的模型。
1)训练和测试准确性:图6显示了训练有素的规划器对示范器的绝对预测误差的方框图。要分别测量线速度和角速度的误差,因为它们对规划结果的影响是不同的。图6中,框的下限和上限分别代表第一个四分位数和第三个四分位数。框中的线代表中位数,水平线外面标有“+”的点代表异常值。从图6可以看出,训练数据集和测试数据集上预测误差的第一和第三、四分位数非常小,训练有素的规划器,其训练和测试的准确性明显高于现有的基于优化的规划器。这里,训练有素的规划器是采用本发明所述移动机器人局部运动规划方法所得到的规划器,也是基于学习的规划器。
表2总结了规划准确性的详细指标。可以注意到,测试数据集上的线速度和角速度的平均误差与训练数据集一样好,说明学习的模型在局部规划任务中具有很强的泛化能力。我们还可以观察到,测试数据集上的错误的标准偏差高于训练数据集,这表明一些显著的预测异常值仍然存在。
训练-v[m/s] 训练-w[rad/s] 测试-v[m/s] 测试-w[rad/s]
平均 0.0031 0.0115 0.0037 0.0151
标准 0.0050 0.0132 0.0079 0.0308
表2:预测误差的统计
除了平均性能外,我们还研究了大预测错误发生的情况。图7显示了训练有素的规划器和示范器在测试数据集的不同误差范围内的三种情况下提供的动作指令。图7中,左边误差是正常的(0.0024),中间误差较大(0.1477),右边误差超大(0.5733)。机器人位于2d占据图中北面的原点。孤立的灰色单元是目标,而其他单元的黑暗代表障碍概率。线的长度表示线速度,而方向表示角速度。
在左侧情况下,训练有素的规划器预测一种倾向于与两侧的障碍物集群保持一些距离的动作,这几乎与示范器提供的决策重叠。在中间,训练有素的规划器与示范器略有不同,这可能是由于隐藏在障碍物集群中的目标点引入的歧义。当局部目标落后于机器人时,如右侧的情况所示,训练有素的规划器难以产生与示范器完全相同的动作。但是,训练有素的规划器的决策仍然被认为是合理的,因为它以更平滑的变化速度转向正确的方向。
2)与基于优化的规划器的比较:本发明所提出的基于学习的规划器的一个关键动机是减少计算时间,计算时间用时长是传统的基于优化的方法的缺点。因此,我们将训练有素的规划器的性能与复杂规划环境中的基于优化的规划器进行比较。如下D所述,考虑的候选轨迹数量对计算时间和解决方案质量有很大的影响。在以下评估中,我们以11×81线速度和角速度样本作为基准线规划器采用示范器,并用不同数量的样本(5×11,7×31,8×51,9×61,10×71)评估基于学习的规划器和基于优化的规划器的性能。每个决策的最佳差距定义为其中,v和w是从评估的规划器获得的线速度和角速度,来自基线参考。
图8示出了基于学习的规划器与基于优化的规划器之间的最优差距的比较示意图。从图8可以得到,基于学习的规划器的最优性误差大致等于基于优化的规划器,具有750个样本轨迹。
图9示出了基于学习的规划器与基于优化的规划器之间的计算时间的比较示意图。从图9可以得到,基于学习的规划器的计算时间大致等于基于优化的规划器,具有160个样本轨迹。
如图8和图9所示,对于基于优化的规划器,尽管平均最优性差距随采样数量的增加而减小,但计算时间几乎呈线性增长。相比之下,提出的基于学习的规划器在大约22ms提供高度竞争的质量解决方案,明显快于基于优化的方法。注意,基于学习的规划器的更好的性能并不意味着更长的计算时间。它与示范行为和训练数据集的质量有关。如果我们把公式(5a)充分解决为最优,将其用作示范器,那么训练有素的策略的质量有望进一步提高。
C、仿真环境中的导航
在准确的逐帧动作预测的基础上,在本节中,我们评估训练有素的规划器在导航仿真中的性能。为了检查躲避障碍物的能力,将机器人导航的全局参考路径设置为接近或跨越障碍物。在每个采样时间,训练有素的规划器接收局部代价地图并返回速度矢量,这使得根据运动学模型将机器人驱动到新的状态。所得到的轨迹显示在图10中。图10中,虚线表示全局参考路径,实线和点化线分别对应于基于学习的规划器和基于优化的示范器的轨迹。从图10可以看出,训练有素的规划器的轨迹成功地避免了当全局参考值接近时的障碍,同时顺利地在开放空间中跟随参考。此外,训练有素的规划器的轨迹与示范器的行为几乎相同,这说明了训练有素的规划器在模仿近似最佳示范器方面的高质量。
D、现实世界中的导航
最后,我们将训练有素的模型部署到现实世界的导航实验中。给定全局参考路径,赛格威递送机器人的任务是遵循参考路径,避免路上的障碍。注意两个方面:对参考路径上意想不到的障碍的反应,以及长期运行的稳健性。
1)对全局路径上的障碍的反应:图11示出了训练有素的规划器对于现实世界实验中参考路径上的意外障碍物的反应示意图。图11中,上半部分显示了馈送给规划器的局部障碍物地图。下半部分是从机器人前置摄像头捕获的相应视图。机器人位于2d局部地图上朝北的原点。线的长度代表线速度,方向代表角速度。
如图11所示,机器人基于在线构建的局部占用图进行局部规划决策。虽然这个地图规模相对较小,但是这张地图提供了丰富的周边环境信息。当遇到阻碍全局轨迹的障碍物,训练有素的规划器成功地提供了将机器人驱动到开放区域的动作指令。
2)长期操作:长期实验在充满障碍物的狭窄的走廊中进行。机器人的任务是递归地跟随全局参考路径,而不会碰到任何障碍物。图12显示了来自现实世界环境中两个规划器的导航轨迹示意图,一个是基于示范轨迹的数据和人为生成的局部代价地图的混合训练,另一个是仅通过从示范实验收集的正常数据单一地训练。图12中,2d占用图的黑暗与障碍物概率成比例;且机器人的任务是在办公楼走廊中用训练有素的规划器中递归地导航,而不会撞到障碍物。
从图12可以看出,用后者的规划器操作的机器人几次触及拥挤地区的障碍物,为了安全起见,必须进行人为干预。相比之下,用混合数据集训练的规划器成功地驱动机器人绕过障碍物移动,并以稳健而平稳的方式在走廊中漫游。
综上,本发明提出了一个基于预处理的2d局部代价地图,通过深度模仿学习建立了具有躲避障碍物能力的局部运动规划***。嵌入了价值迭代网络,并通过实际和人造代价地图图像的混合训练,开发的局部规划器在决策质量、计算时间和稳健性方面具有很强的竞争力。
未来的工作可以在以下两个方面得到延伸。首先,应该进一步研究数据集的分布和预测误差,以便用于馈送未掌握的情境的人造代价地图的以更有效和易于处理的方式生成。第二,除了对局部规划策略的推论外,我们还考虑用附加的输出扩展提出的模型,以预测动作指令的不确定性,这对于安全至上的现实世界操作将是一个宝贵的加分。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (19)

1.一种移动机器人局部运动规划方法,其特征在于,所述方法包括:
确定2d局部代价地图图像;
确定所述移动机器人的速度;
基于所述速度以及所述2d局部代价地图图像,通过基于学习的规划器为所述移动机器人制定动作指令,以由所述移动机器人执行所述动作指令。
2.如权利要求1所述的方法,其特征在于,所述确定2d局部代价地图图像,包括:
获取所述移动机器人上预定传感器采集到的数据;
基于所述数据对所述移动机器人进行定位,同时建立所述移动机器人所在的周围环境地图;
根据给定的全局路径以及所述周围环境地图确定局部目标点以及局部障碍物地图;
根据所述局部目标点和所述局部障碍物地图确定2d局部代价地图图像。
3.如权利要求1或2所述的方法,其特征在于,所述通过基于学习的规划器为所述移动机器人制定动作指令,包括::
给定2d局部代价地图图像和移动机器人速度,按照公式(1)提供如下动作命令:
u=fθ(m,u') (1)
其中,u=(v,w)是要执行的线速度v和角速度w的向量,u'是移动机器人的速度矢量,θ是模型权重参数,m是2d局部代价地图图像。
4.如权利要求3所述的方法,其特征在于,确定2d局部代价地图的方式包括:
依据公式(2)确定2d局部代价地图,其中,2d局部代价地图被构建为局部目标奖励和障碍物惩罚的总和:
m=λmgoal-mobs (2)
其中,mobs是障碍物概率的局部障碍物地图,mgoal是一个二值目标地图,其中,在所述二值目标地图中,将局部目标点的像素值设为1,其他像素值设为0,λ为关于奖励系数的超参数;且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外,则使用所述有效目标点到地图边框上的投影点来代替所述有效目标点。
5.如权利要求3所述的方法,其特征在于,确定2d局部代价地图的方式包括:
将给定的2d局部代价地图图像和给定的移动机器人速度,输入至预设神经网络模型中,通过所述预设神经网络模型学习得到2d局部代价地图;其中,所述预设神经网络模型中是忽略卷积层的神经网络模型。
6.如权利要求3所述的方法,其特征在于,确定所述模型权重参数θ的方式包括:
给定一组示范动作指令规划器基于误差最小化准则训练所需的局部运动规划策略:
<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>u</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>f</mi> <mi>&amp;theta;</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <msup> <mi>u</mi> <mo>&amp;prime;</mo> </msup> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中,是示范的元组,J(θ)表示误差函数,是示范动作指令与实际动作指令fθ(mi,u'i)差的绝度值的平方的累加和;
一旦训练完成,模型权重参数θ固定,并且在部署期间输入至公式(1)中,以使得公式(1)基于模型权重参数θ计算动作命令。
7.如权利要求3所述的方法,其特征在于,所述通过基于学习的规划器为所述移动机器人制定动作指令,包括:
输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络,所述价值迭代模块通过递归运算来提取高级规划特征;
<mrow> <msub> <mi>v</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>u</mi> </munder> <munder> <mo>&amp;Sigma;</mo> <mrow> <msup> <mi>s</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <mi>r</mi> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <mi>r</mi> <mo>/</mo> <mi>s</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>&amp;lsqb;</mo> <mi>r</mi> <mo>+</mo> <msub> <mi>&amp;gamma;v</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
其中,s和r分别对应于2d局部代价地图中像素的位置和成本,p(s',r/s,u)表示转移概率;k表示循环次数;γ表示衰减因子;vk+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值;vk(s')表示移动机器人在经k次迭代之后得到的在位置s’的价值;u表示移动机器人执行的动作指令;s’表示移动机器人在位置s执行动作指令u后,在2d局部代价地图中像素的位置;
从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征;
将来自关注区域的高级规划特征与移动机器人的速度融合,并将融合结果提供给深层神经网络中能产生平滑连续动作命令的完全连接层,以得到为所述移动机器人制定的动作指令。
8.如权利要求3所述的方法,其特征在于,所述方法还包括:
选择能提供预设数量计算资源的基于优化的规划器,作为示范器;
所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的,其中,公式(5b)与(5c)为约束条件;
<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>u</mi> </munder> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>m</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <msub> <mi>d</mi> <mi>g</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <msub> <mi>&amp;alpha;</mi> <mi>g</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mn>3</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>u</mi> <mo>-</mo> <msup> <mi>u</mi> <mo>&amp;prime;</mo> </msup> <mo>|</mo> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mi>a</mi> <mo>)</mo> </mrow> </mrow>
xk+1=h(xk,u),k=0,...,N-1 (5b)
<mrow> <msub> <mi>m</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;le;</mo> <mover> <mi>m</mi> <mo>&amp;OverBar;</mo> </mover> <mo>,</mo> <mi>k</mi> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mi>c</mi> <mo>)</mo> </mrow> </mrow>
其中,N是预测范围的长度,xk是时间步长k处的移动机器人的2d姿态,dg是移动机器人与时间步长N处的局部目标点之间的距离,αg是移动机器人方位与从移动机器人位置到时间步长N处的局部目标点的方向之间的绝对角度,h(xk,u)是机器人运动学模型,是允许访问的最大障碍物概率,w1,w2,w3是成本重量参数。
9.如权利要求8所述的方法,其特征在于,所述基于学习的规划器的训练样本的获取来源包括:
根据示范器的正常实验轨迹而生成的第一种代价地图;其中,所述示范器的正常实验轨迹,是用于预计在预定比例的概率范围内所述基于学习的规划器将遇到的轨迹;
人为干预生成的第二种代价地图,包含所述示范器未预计的危险情况,用于弥补所述示范器所忽略的所述基于学习的规划器将遇到的小概率事件。
10.一种移动机器人局部运动规划装置,其特征在于,所述装置包括:
预处理器,用于确定平面2d局部代价地图图像;确定所述移动机器人的速度;
控制器,用于基于所述速度以及所述2d局部代价地图图像,通过基于学习的规划器为所述移动机器人制定动作指令,以由所述移动机器人执行所述动作指令。
11.如权利要求10所述的装置,其特征在于,所述预处理器,具体用于:
获取所述移动机器人上预定传感器采集到的数据;
基于所述数据对所述移动机器人进行定位,同时建立所述移动机器人所在的周围环境地图;
根据给定的全局路径以及所述周围环境地图确定局部目标点以及局部障碍物地图;
根据所述局部目标点和所述局部障碍物地图确定2d局部代价地图图像。
12.如权利要求10或11所述的装置,其特征在于,所述控制器,具体用于:
给定2d局部代价地图图像和移动机器人速度,按照公式(1)提供如下动作命令:
u=fθ(m,u') (1)
其中,u=(v,w)是要执行的线速度v和角速度w的向量,u'是移动机器人的速度矢量,θ是模型权重参数,m是2d局部代价地图图像。
13.如权利要求12所述的装置,其特征在于,所述预处理器,具体用于:
依据公式(2)确定2d局部代价地图,其中,2d局部代价地图被构建为局部目标奖励和障碍物惩罚的总和:
m=λmgoal-mobs (2)
其中,mobs是障碍物概率的局部障碍物地图,mgoal是一个二值目标地图,其中,在所述二值目标地图中,将局部目标点的像素值设为1,其他像素值设为0,λ为关于奖励系数的超参数;且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外,则用所述有效目标点到地图边框上的投影点来代替所述有效目标点。
14.如权利要求12所述的装置,其特征在于,所述预处理器,具体用于:
将给定的2d局部代价地图图像和给定的移动机器人速度,输入至预设神经网络模型中,通过所述预设神经网络模型学习得到2d局部代价地图;其中,所述预设神经网络模型中是忽略卷积层的神经网络模型。
15.如权利要求12所述的装置,其特征在于,所述控制器确定所述模型权重参数θ的方式包括:
给定一组示范动作指令规划器基于误差最小化准则训练所需的局部运动规划策略:
<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>u</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>f</mi> <mi>&amp;theta;</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <msup> <mi>u</mi> <mo>&amp;prime;</mo> </msup> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中,是示范的元组,J(θ)表示误差函数,是示范动作指令与实际动作指令fθ(mi,u'i)差的绝度值的平方的累加和;
一旦训练完成,模型权重参数θ固定,并且在部署期间输入至公式(1)中,以使得公式(1)基于模型权重参数θ计算动作命令。
16.如权利要求12所述的装置,其特征在于,所述控制器,具体用于:
输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络,所述价值迭代模块通过递归运算来提取高级规划特征;
<mrow> <msub> <mi>v</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>u</mi> </munder> <munder> <mo>&amp;Sigma;</mo> <mrow> <msup> <mi>s</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <mi>r</mi> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <mi>r</mi> <mo>/</mo> <mi>s</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>&amp;lsqb;</mo> <mi>r</mi> <mo>+</mo> <msub> <mi>&amp;gamma;v</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
其中,s和r分别对应于2d局部代价地图中像素的位置和成本,p(s',r/s,u)表示转移概率;k表示循环次数;γ表示衰减因子;vk+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值;vk(s')表示移动机器人在经k次迭代之后得到的在位置s’的价值;u表示移动机器人执行的动作指令;s’表示移动机器人在位置s执行动作指令u后,在2d局部代价地图中像素的位置;
从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征;
将来自关注区域的高级规划特征与移动机器人的速度融合,并将融合结果提供给深层神经网络中能产生平滑连续动作命令的完全连接层,以得到为所述移动机器人制定的动作指令。
17.如权利要求12所述的装置,其特征在于,所述控制器,还用于:
选择能提供预设数量计算资源的基于优化的规划器作为示范器;
所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的,其中,公式(5b)与(5c)为约束条件;
<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>u</mi> </munder> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>m</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <msub> <mi>d</mi> <mi>g</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <msub> <mi>&amp;alpha;</mi> <mi>g</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mn>3</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>u</mi> <mo>-</mo> <msup> <mi>u</mi> <mo>&amp;prime;</mo> </msup> <mo>|</mo> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mi>a</mi> <mo>)</mo> </mrow> </mrow>
xk+1=h(xk,u),k=0,...,N-1 (5b)
<mrow> <msub> <mi>m</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;le;</mo> <mover> <mi>m</mi> <mo>&amp;OverBar;</mo> </mover> <mo>,</mo> <mi>k</mi> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mi>c</mi> <mo>)</mo> </mrow> </mrow>
其中,N是预测范围的长度,xk是时间步长k处的移动机器人的2d姿态,dg是移动机器人与时间步长N处的局部目标点之间的距离,αg是移动机器人方位与从移动机器人位置到时间步长N处的局部目标点的方向之间的绝对角度,h(xk,u)是机器人运动学模型,是允许访问的最大障碍物概率,w1,w2,w3是成本重量参数。
18.如权利要求17所述的装置,其特征在于,所述控制器,还用于:
根据示范器的正常实验轨迹而生成的第一种代价地图;其中,所述示范器的正常实验轨迹,是用于预计在预定比例的概率范围内所述基于学习的规划器将遇到的轨迹;
人为干预生成的第二种代价地图,包含所述示范器未预计的危险情况,用于弥补所述示范器所忽略的所述基于学习的规划器将遇到的小概率事件;
将所述第一种代价地图和所述第二种代价地图作为基于学习的规划器的训练样本。
19.一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至9任一项所述的移动机器人局部运动规划方法。
CN201710987041.8A 2017-10-20 2017-10-20 一种移动机器人局部运动规划方法及装置 Active CN107861508B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710987041.8A CN107861508B (zh) 2017-10-20 2017-10-20 一种移动机器人局部运动规划方法及装置
PCT/CN2018/087326 WO2019076044A1 (zh) 2017-10-20 2018-05-17 移动机器人局部运动规划方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710987041.8A CN107861508B (zh) 2017-10-20 2017-10-20 一种移动机器人局部运动规划方法及装置

Publications (2)

Publication Number Publication Date
CN107861508A true CN107861508A (zh) 2018-03-30
CN107861508B CN107861508B (zh) 2021-04-20

Family

ID=61697686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710987041.8A Active CN107861508B (zh) 2017-10-20 2017-10-20 一种移动机器人局部运动规划方法及装置

Country Status (2)

Country Link
CN (1) CN107861508B (zh)
WO (1) WO2019076044A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109358618A (zh) * 2018-09-28 2019-02-19 安徽工程大学 一种移动机器人的路径规划方法
WO2019076044A1 (zh) * 2017-10-20 2019-04-25 纳恩博(北京)科技有限公司 移动机器人局部运动规划方法、装置及计算机存储介质
CN110046457A (zh) * 2019-04-26 2019-07-23 百度在线网络技术(北京)有限公司 人体模型的控制方法、装置、电子设备以及存储介质
CN110285813A (zh) * 2019-07-01 2019-09-27 东南大学 一种室内移动机器人人机共融导航装置及方法
CN110503065A (zh) * 2019-08-28 2019-11-26 南京大学 一种基于距离度量的移动设备用户动作姿态识别方法
CN110858328A (zh) * 2018-08-06 2020-03-03 纳恩博(北京)科技有限公司 用于模仿学习的数据采集方法、装置及存储介质
CN111079603A (zh) * 2019-12-06 2020-04-28 青岛歌尔智能传感器有限公司 步长预测方法、控制器、定位设备和可读存储介质
CN111288995A (zh) * 2020-03-12 2020-06-16 深圳市人工智能与机器人研究院 移动机器人的路径规划方法、路径规划装置及终端设备
CN111739099A (zh) * 2020-07-20 2020-10-02 北京云迹科技有限公司 预防跌落方法、装置及电子设备
CN111912407A (zh) * 2019-05-08 2020-11-10 胡贤良 一种多机器人***的路径规划方法
CN112631269A (zh) * 2019-10-08 2021-04-09 国立大学法人静冈大学 自主移动机器人及自主移动机器人的控制程序
CN112969976A (zh) * 2020-08-03 2021-06-15 深圳市大疆创新科技有限公司 可移动平台的控制方法、可移动平台及存储介质
CN113805483A (zh) * 2021-09-17 2021-12-17 中国人民解放军国防科技大学 基于模型预测的机器人控制方法、装置和计算机设备
CN115167434A (zh) * 2022-07-21 2022-10-11 清华大学深圳国际研究生院 一种局部导航避障方法及机器人

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445222A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 导航方法、装置、存储介质以及终端
CN112783147A (zh) * 2019-11-11 2021-05-11 科沃斯机器人股份有限公司 一种轨迹规划方法、装置、机器人及存储介质
CN112304314A (zh) * 2020-08-27 2021-02-02 中国科学技术大学 一种分布式多机器人的导航方法
CN114237242B (zh) * 2021-12-14 2024-02-23 北京云迹科技股份有限公司 基于光学编码器对机器人进行控制的方法及装置
CN114355923B (zh) * 2021-12-28 2024-04-02 杭州电子科技大学 一种a*引导下基于mpc的轨迹规划及跟踪方法
CN115421494A (zh) * 2022-09-19 2022-12-02 西安交通大学 清洁机器人路径规划方法、***、计算机设备及存储介质
CN115542901B (zh) * 2022-09-21 2024-06-07 北京航空航天大学 基于近端策略训练的可变形机器人避障方法
CN116911176B (zh) * 2023-07-08 2024-04-30 哈尔滨理工大学 一种基于轮式移动机器人速度和振动状态的地形可通过性预测方法
CN117232531B (zh) * 2023-11-14 2024-01-30 长沙小钴科技有限公司 机器人导航规划方法及存储介质和终端设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130112507A (ko) * 2012-04-04 2013-10-14 인하대학교 산학협력단 S* 알고리즘을 이용한 이동로봇의 안전경로계획 수립방법
CN104573140A (zh) * 2013-10-09 2015-04-29 北京军区军事训练模拟仿真研发服务中心 一种应用于虚拟仿真的分层动态路径规划方法
CN105629974A (zh) * 2016-02-04 2016-06-01 重庆大学 一种基于改进型人工势场法的机器人路径规划方法及***
CN105955280A (zh) * 2016-07-19 2016-09-21 Tcl集团股份有限公司 移动机器人路径规划和避障方法及***
CN106325275A (zh) * 2016-09-14 2017-01-11 广州今甲智能科技有限公司 一种机器人导航的***、方法及装置
CN106774327A (zh) * 2016-12-23 2017-05-31 中新智擎有限公司 一种机器人路径规划方法及装置
CN106774347A (zh) * 2017-02-24 2017-05-31 安科智慧城市技术(中国)有限公司 室内动态环境下的机器人路径规划方法、装置和机器人
WO2017095591A1 (en) * 2015-12-02 2017-06-08 Qualcomm Incorporated Simultaneous mapping and planning by a robot

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861508B (zh) * 2017-10-20 2021-04-20 纳恩博(北京)科技有限公司 一种移动机器人局部运动规划方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130112507A (ko) * 2012-04-04 2013-10-14 인하대학교 산학협력단 S* 알고리즘을 이용한 이동로봇의 안전경로계획 수립방법
CN104573140A (zh) * 2013-10-09 2015-04-29 北京军区军事训练模拟仿真研发服务中心 一种应用于虚拟仿真的分层动态路径规划方法
WO2017095591A1 (en) * 2015-12-02 2017-06-08 Qualcomm Incorporated Simultaneous mapping and planning by a robot
CN105629974A (zh) * 2016-02-04 2016-06-01 重庆大学 一种基于改进型人工势场法的机器人路径规划方法及***
CN105955280A (zh) * 2016-07-19 2016-09-21 Tcl集团股份有限公司 移动机器人路径规划和避障方法及***
CN106325275A (zh) * 2016-09-14 2017-01-11 广州今甲智能科技有限公司 一种机器人导航的***、方法及装置
CN106774327A (zh) * 2016-12-23 2017-05-31 中新智擎有限公司 一种机器人路径规划方法及装置
CN106774347A (zh) * 2017-02-24 2017-05-31 安科智慧城市技术(中国)有限公司 室内动态环境下的机器人路径规划方法、装置和机器人

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019076044A1 (zh) * 2017-10-20 2019-04-25 纳恩博(北京)科技有限公司 移动机器人局部运动规划方法、装置及计算机存储介质
CN110858328B (zh) * 2018-08-06 2022-06-14 纳恩博(北京)科技有限公司 用于模仿学习的数据采集方法、装置及存储介质
CN110858328A (zh) * 2018-08-06 2020-03-03 纳恩博(北京)科技有限公司 用于模仿学习的数据采集方法、装置及存储介质
CN109358618A (zh) * 2018-09-28 2019-02-19 安徽工程大学 一种移动机器人的路径规划方法
CN110046457A (zh) * 2019-04-26 2019-07-23 百度在线网络技术(北京)有限公司 人体模型的控制方法、装置、电子设备以及存储介质
CN111912407B (zh) * 2019-05-08 2022-05-17 胡贤良 一种多机器人***的路径规划方法
CN111912407A (zh) * 2019-05-08 2020-11-10 胡贤良 一种多机器人***的路径规划方法
CN110285813A (zh) * 2019-07-01 2019-09-27 东南大学 一种室内移动机器人人机共融导航装置及方法
CN110285813B (zh) * 2019-07-01 2022-11-25 东南大学 一种室内移动机器人人机共融导航装置及方法
CN110503065A (zh) * 2019-08-28 2019-11-26 南京大学 一种基于距离度量的移动设备用户动作姿态识别方法
CN112631269A (zh) * 2019-10-08 2021-04-09 国立大学法人静冈大学 自主移动机器人及自主移动机器人的控制程序
CN112631269B (zh) * 2019-10-08 2024-06-11 国立大学法人静冈大学 自主移动机器人及自主移动机器人的控制程序
CN111079603A (zh) * 2019-12-06 2020-04-28 青岛歌尔智能传感器有限公司 步长预测方法、控制器、定位设备和可读存储介质
CN111288995A (zh) * 2020-03-12 2020-06-16 深圳市人工智能与机器人研究院 移动机器人的路径规划方法、路径规划装置及终端设备
CN111739099A (zh) * 2020-07-20 2020-10-02 北京云迹科技有限公司 预防跌落方法、装置及电子设备
CN112969976A (zh) * 2020-08-03 2021-06-15 深圳市大疆创新科技有限公司 可移动平台的控制方法、可移动平台及存储介质
CN113805483A (zh) * 2021-09-17 2021-12-17 中国人民解放军国防科技大学 基于模型预测的机器人控制方法、装置和计算机设备
CN115167434A (zh) * 2022-07-21 2022-10-11 清华大学深圳国际研究生院 一种局部导航避障方法及机器人

Also Published As

Publication number Publication date
CN107861508B (zh) 2021-04-20
WO2019076044A1 (zh) 2019-04-25

Similar Documents

Publication Publication Date Title
CN107861508A (zh) 一种移动机器人局部运动规划方法及装置
Chen et al. Interpretable end-to-end urban autonomous driving with latent deep reinforcement learning
Chen et al. Deep imitation learning for autonomous driving in generic urban scenarios with enhanced safety
Bewley et al. Learning to drive from simulation without real world labels
KR102296507B1 (ko) 트래킹 네트워크를 포함한 cnn을 사용하여 객체를 트래킹하는 방법 및 이를 이용한 장치
Smolyakov et al. Self-driving car steering angle prediction based on deep neural network an example of CarND udacity simulator
CN108319293A (zh) 一种基于lstm网络的uuv实时避碰规划方法
CN104462727B (zh) 一种基于动态遥感数据驱动的溢油仿真参数优化方法
CN109299732A (zh) 无人驾驶行为决策及模型训练的方法、装置及电子设备
CN108334677A (zh) 一种基于gru网络的uuv实时避碰规划方法
Delgado et al. Robotics in construction: A critical review of the reinforcement learning and imitation learning paradigms
CN115829171B (zh) 一种联合时空信息和社交互动特征的行人轨迹预测方法
Kashihara Deep Q learning for traffic simulation in autonomous driving at a highway junction
Cheng et al. Mpnp: Multi-policy neural planner for urban driving
CN110039537A (zh) 一种基于神经网络的在线自学习多关节运动规划方法
AbuZekry et al. Comparative study of neuro-evolution algorithms in reinforcement learning for self-driving cars
Xu et al. Context-aware timewise vaes for real-time vehicle trajectory prediction
Bhaggiaraj et al. Deep Learning Based Self Driving Cars Using Computer Vision
Yang et al. Research on autonomous navigation control of unmanned ship based on unity3d
Ilyichenkova et al. The usage of neural networks for motion prediction of autonomous objects
CN114153216B (zh) 基于深度强化学习和块规划的月面路径规划***和方法
Zhang et al. A deep learning method for the prediction of focused waves in a wave flume
Zhang et al. A virtual end-to-end learning system for robot navigation based on temporal dependencies
Li et al. Research on road detection algorithm for power operation safety inspection robots
Zhang et al. Data collection through translation network based on end-to-end deep learning for autonomous driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant