CN114185339A - 一种动态环境下的移动机器人路径规划方法 - Google Patents

一种动态环境下的移动机器人路径规划方法 Download PDF

Info

Publication number
CN114185339A
CN114185339A CN202111347670.7A CN202111347670A CN114185339A CN 114185339 A CN114185339 A CN 114185339A CN 202111347670 A CN202111347670 A CN 202111347670A CN 114185339 A CN114185339 A CN 114185339A
Authority
CN
China
Prior art keywords
mobile robot
reward
obstacle
dynamic
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111347670.7A
Other languages
English (en)
Inventor
李芃
丁祥成
孙宏放
张兰勇
李奕霏
刘洪丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heu Qingdao Ship Science And Technology Co ltd
Harbin Engineering University
Original Assignee
Heu Qingdao Ship Science And Technology Co ltd
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heu Qingdao Ship Science And Technology Co ltd, Harbin Engineering University filed Critical Heu Qingdao Ship Science And Technology Co ltd
Priority to CN202111347670.7A priority Critical patent/CN114185339A/zh
Publication of CN114185339A publication Critical patent/CN114185339A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种动态环境下的移动机器人路径规划方法。通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息;对原始数据进行数据处理后,与移动机器人周围的信息结合后得到DDPG算法的状态S;设计DDPG算法的状态空间、动作空间和奖励函数,所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励;根据速度和运动的特点构建多类型动态障碍物环境;将DDPG算法与好奇心算法相融合,建立内外奖励共同作用的奖励机制;移动机器人使用改进完成的DDPG算法在建立的环境中进行训练学习,实现动态环境下的移动机器人路径规划。本发明用以解决动态环境下移动机器人路径规划中存在准确率低和收敛速度慢的问题。

Description

一种动态环境下的移动机器人路径规划方法
技术领域
本发明涉及移动机器人技术领域,具体涉及一种动态环境下的移动机器人路径规划方法。
背景技术
在机器人自主导航中,路径规划是一个非常重要的部分。机器人路径规划问题可以描述为在机器人自身位姿己知的情况下,根据一个或者多个优化目标,在机器人工作环境中寻找到一条从当前点到指定目标点的最优路径。目前,常用算法有人工势场法、遗传算法、模糊逻辑法、强化学习法等。其中强化学习(Reinforcement Learning,RL)算法是一种完全不需要智能体事先对所处环境进行了解的学习算法,移动机器人在对当前环境进行感知的同时采取相应的行动,根据当前状态和所采取的行动,移动机器人从当前状态迁移至下一个状态。Q-learning算法是强化学习的经典算法,算法简单且收敛性好,得到广泛应用。但当环境较为复杂,随着状态空间维数的增加,强化学习算法易陷入“维数***”。深度学习(Deep Learning,DL)具有较好的处理高维信息的能力,将其与强化学习结合的深度强化学习(Deep Reinforcement Learning,DRL)通过学习端到端(End-to-end)的模型,既能处理高维的环境信息又能进行相应的规划任务。因此DQN算法应运而生,但DQN算法通常解决离散且维度不高的动作空间的问题。2016年由DeepMind团队提出的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,使用Actor-Critic算法框架,同时借鉴DQN算法的思想解决连续动作空间问题。但DDPG算法应用于动态环境下路径规划时,存在着成功率低、收敛速度慢等缺点,且相关研究大多停留在理论层面,缺少对实际问题的解决方案。
发明内容
本发明提供一种动态环境下的移动机器人路径规划方法,用以解决动态环境下移动机器人路径规划中存在准确率低和收敛速度慢的问题。
本发明通过以下技术方案实现:
一种动态环境下移动机器人路径规划方法,所述路径规划方法包括以下步骤:
步骤1:通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息;
步骤2:对步骤1中的原始数据进行数据处理后,与移动机器人周围的信息结合后得到DDPG算法的状态S;
步骤3:设计DDPG算法的状态空间、动作空间和奖励函数,所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励;
步骤4:根据速度和运动的特点构建多类型动态障碍物环境;
步骤5:将DDPG算法与好奇心算法相融合,建立内外奖励共同作用的奖励机制;
步骤S6:移动机器人使用改进完成的DDPG算法在步骤4中建立的环境中进行训练学习。
进一步的,所述步骤1中的原始数据包括目标点和动态障碍物距激光雷达距离、方位、姿态和形状。
进一步的,所述步骤2的移动机器人周围的信息包括移动机器人与障碍物的距离、与目标点之间的距离,以及移动机器人朝向偏离目标点所在方向的角度。
进一步的,所述步骤2根据机器人与障碍物之间的距离将机器人与障碍物之间状态分为导航状态N和撞到障碍物状态C,如下公式所示:
Figure BDA0003354602560000021
其中di(t)是机器人在时间t的第i维激光雷达距离数据;当机器人与障碍物之间的距离di(t)≤0.2m,机器人处于撞到障碍物状态C;当机器人与障碍物之间的距离di(t)>0.2m时机器人处于正常导航状态N。
进一步的,所述步骤3的奖励函数包括对目标直线距离的奖惩、靠近目标点奖励以及远离目标点惩罚;碰撞到动态障碍物给予惩罚;到达目标点给予奖励。
进一步的,所述步骤4在匀速运动的动态障碍物基础上加入随机变换速度的障碍物,设定障碍物速度在(vlow-vhigh)之间每时刻随机变换,其中vlow为设定的动态障碍物最低的运动速度,vhigh为设定的动态障碍物最高的运动速度,并根据障碍物有规律和无规律的运动特点设定了水平、竖直以及旋转的有规律和无规律运动的动态障碍物。
进一步的,所述步骤5具体为,好奇心算法与DDPG算法相结合后最终的奖励值为
Figure BDA0003354602560000031
式中rt为总的奖励值,
Figure BDA0003354602560000032
为好奇心模块的内在奖励,
Figure BDA0003354602560000033
为DDPG算法的外在奖励。
本发明的有益效果是:
本发明相比原始DDPG算法的路径规划,在相同条件训练环境下,提高了算法的收敛速度。
本发明相比原始DDPG算法的路径规划,在动态环境下路径规划成功率有着显著的提升。
本发明相比原始DDPG算法的路径规划,对于复杂动态环境的路径规划有着较好的适应性。
本发明建立内外奖励共同作用的奖励机制并通过加入优先经验回放、迁移学习和Radam算法提高算法成功率和收敛速度,并将其应用于动态环境下移动机器人的路径规划,使其在短时间内从起点安全无碰撞移动到终点。
附图说明
图1为本发明动态环境路径规划算法流程图。
图2为本发明中用于训练动态环境下路径规划的仿真实验图。
图3为本发明用于测试训练模型在障碍物速度随机变化下泛化性能的仿真实验图。
图4为本发明用于测试训练模型在障碍物速度和环境大小变化下泛化性能的仿真实验图。
图5为本发明中未改进算法的回报函数曲线图。
图6为本发明中改进完成算法的回报函数曲线图。
图7为本发明中在动态环境下训练完成的路径规划结果图。
图8为本发明中测试训练模型在障碍物速度随机变化下泛化性能的路径规划结果图。
图9为本发明中测试训练模型在障碍物速度和环境变化下泛化性能的路径规划结果图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明建立内外奖励共同作用的奖励机制并通过加入优先经验回放、迁移学习和Radam算法提高算法成功率和收敛速度,并将其应用于动态环境下移动机器人的路径规划,使其在短时间内从起点安全无碰撞移动到终点。
一种动态环境下移动机器人路径规划方法,所述路径规划方法包括以下步骤:
步骤1:通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息;
所述步骤1中的原始数据包括目标点和动态障碍物距激光雷达距离、方位、姿态和形状。
机器人通过激光雷达获取自身与周围障碍物的距离,激光雷达的探测距离范围为(0.12,3.5)(单位m),激光雷达探测的角度范围(-90,90),即以机器人正前方为0度,向左90度角和向右90度角,激光雷达数据是20维,每维雷达数据间角度9度。机器人在移动过程中对是否撞到障碍物的状态判断依据:距离障碍物的距离小于0.2m即判定为撞到障碍物。实际仿真时候,获取20维的激光雷达距离信息。
步骤2:对步骤1中的原始数据进行数据处理后,与移动机器人周围的信息结合后得到DDPG算法的状态S;
所述步骤2的移动机器人周围的信息包括移动机器人与障碍物的距离、与目标点之间的距离,以及移动机器人朝向偏离目标点所在方向的角度。
所述步骤2根据机器人与障碍物之间的距离将机器人与障碍物之间状态分为导航状态N和撞到障碍物状态C,如下公式所示:
Figure BDA0003354602560000041
其中di(t)是机器人在时间t的第i维激光雷达距离数据;当机器人与障碍物之间的距离di(t)≤0.2m,机器人处于撞到障碍物状态C;当机器人与障碍物之间的距离di(t)>0.2m时机器人处于正常导航状态N。
步骤3:设计DDPG算法的状态空间、动作空间和奖励函数,所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励;
进一步的,所述步骤3的奖励函数包括对目标直线距离的奖惩、靠近目标点奖励以及远离目标点惩罚;碰撞到动态障碍物给予惩罚;到达目标点给予奖励。
所述步骤3奖励函数为
Figure BDA0003354602560000051
其中reward是回报值;pt为t时刻位置移动机器人与设定点之间的距离,dgoal为移动机器人与目标点的距离阈值;rarrive是到达奖励,当移动机器人与目标点的距离小于等于阈值dgoal即认为到达目标点,给予奖励;其次rcollision是碰撞惩罚,当移动机器人与障碍物的距离小于等于阈值dcollision即认为碰撞到障碍物,给予惩罚;cr为一个常数,cr(pt-1-pt)为移动机器人从起始点到达目标点过程中的奖励值,接近目标点为正,远离目标点为负。
DDPG的决策网络最后输出的是连续的角速度值。输出量是连续的角速度更加符合机器人的运动学特性,所以机器人在移动过程中的运动轨迹也会更加平滑,输出动作也更加连续。在仿真中需要限制角速度不能过大,所以本例设置角速度最大值为ωmax,所以DDPG最终输出的角速度区间为(-ωmaxmax)(单位rad/s),线速度值为v(m/s),前进的速度为(v,0.0),左转的速度为(vleft,-ωmax),右转的速度为(vright,ωmax)。
Figure BDA0003354602560000052
上式中reward为回报值。t为训练时刻,di-0为机器人与障碍物的距离,在实验仿真时当di-0小于0.2时则为碰撞到障碍物回报值为-200,di-t为机器人与目标点的距离值,当到达目标点时奖励100,其他情况则为前一时刻距离目标点与当前时刻距离目标点的差值即300*(di-t(t-1)-di-t(t))作为回报值。该设计是为了使机器人不断向目标点移动,使机器人每采取一个动作都能及时获得反馈,保证报酬函数的连续性,加快算法的收敛速度。
步骤4:根据速度和运动的特点构建多类型动态障碍物环境;
进一步的,所述步骤4在匀速运动的动态障碍物基础上加入随机变换速度的障碍物,设定障碍物速度在(vlow-vhigh)之间每时刻随机变换,其中vlow为设定的动态障碍物最低的运动速度,vhigh为设定的动态障碍物最高的运动速度,并根据障碍物有规律和无规律的运动特点设计了水平、竖直以及旋转的动态障碍物。
如图2仿真环境所示,建立长宽m×m米的正方形围墙,添加4个(c1×c1×c1)m3以v1(m/s)的速度逆时针旋转的动态障碍物,起始点移动机器人位置设置为(-x,y),目标点彩色圆环设置为(x,-y);如图3仿真环境所示,在图2仿真环境基础上,再添加4个动态障碍物,上下两个(c2×c2×c2)m3的障碍物以每时刻(vlow-vhigh)m/s之间的随机速度水平运动,中间两个(c2×c2×c2)m3的障碍物以每时刻(vlow-vhigh)m/s之间的随机速度竖直运动;如图4仿真环境所示,建立长宽m1×m1米的正方形围墙,添加了12个动态障碍物,其中中间4个(c1×c1×c1)(m3以每时刻(vlow-vmid)m/s之间的随机速度水平运动,上下4个(c2×c2×c2)m3的障碍物以每时刻(vmid-vhigh)m/s之间的随机速度水平运动,左右4个(c2×c2×c2)m3的障碍物以每时刻(vmid-vhigh)m/s之间的随机速度竖直运动。
所述仿真环境设置的标准为,动态障碍物环境设置为大小不一、运动状态不同、速度恒定或速度随机变化的正方体形状,来保证障碍物为有规律或无规律运动。
步骤5:将DDPG算法与好奇心算法相融合,建立内外奖励共同作用的奖励机制;并通过加入优先经验回放、迁移学习和Radam算法提高算法成功率和收敛速度;
进一步的,所述步骤5具体为,如图5所示为未改进算法的回报函数曲线图。内在好奇心模块(ICM)减小智能体学习过程中动作与自身误差的形式来提供内在奖励,使移动机器人在内外奖励共同作用下训练,达到良好的路径规划效果。好奇心算法与DDPG算法相结合后最终的奖励值为
Figure BDA0003354602560000061
式中rt为总的奖励值,
Figure BDA0003354602560000062
为好奇心模块的内在奖励,
Figure BDA0003354602560000063
为DDPG算法的外在奖励,并通过加入优先经验回放、迁移学习和Radam算法提高算法成功率和收敛速度。
首先针对算法的神经网络采用自适应学习率优化时出现方差过大而导致路径规划成功率低这一问题,采用Radam神经网络优化器来替换DDPG算法的Adam神经网络优化器来提高成功率。Radam算法是近年来提出的算法,具有收敛快、精度高的特点,且Radam算法可以有效解决自适应学习方法中存在的差异问题。Radam算法公式可以表示如下:
Figure BDA0003354602560000071
其中θ是待训练的参数,t为训练时刻,αt为步长,rt为整流项,
Figure BDA0003354602560000072
为偏值校正后的移动二阶矩,
Figure BDA0003354602560000073
为偏值校正后的移动平均线,衰减率{β12},mt是一阶矩(动量),vt为二阶矩(自适应学***均值的最大长度,ρt是简单移动平均值的最大值,J(θ)为目标参数,
Figure BDA0003354602560000074
是梯度系数。
其次,针对算法在复杂的动态环境中适应性差而造成的成功率低的问题,采用好奇心算法与DDPG算法相结合,其中好奇心算法通过减小智能体学习过程中动作与自身误差的形式来提供内在奖励,DDPG算法提供外在奖励,使移动机器人在内外奖励共同作用下训练,得到在复杂的动态环境下良好的路径规划效果,增强了算法的适应性。好奇心算法中神经网络参数θF是通过最小化损失函数LF的方式进行优化:
Figure BDA0003354602560000075
式中,
Figure BDA0003354602560000076
表示状态预估值,
Figure BDA0003354602560000077
表示原始状态st编码的特征向量,
Figure BDA0003354602560000078
表示原始状态st+1编码的特征向量。
内在奖励值为:
Figure BDA0003354602560000079
式中,η为比例因子,满足;η>0。原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测。因此,得到与DDPG算法相结合后最终的奖励值为
Figure BDA00033546025600000710
式中rt为总的奖励值,
Figure BDA00033546025600000711
为好奇心模块的内在奖励,
Figure BDA00033546025600000712
为DDPG算法的外在奖励。
然后,针对移动机器人在动态环境路径规划中,因为所处环境的不确定性,出现在训练前期因碰撞存在着大量的无效经验,原始DDPG算法将这些无效经验用于训练,从而造成了训练后路径规划成功率比较低且浪费大量时间的问题。采用加入优先经验回放的方法,优先经验回放抽取经验时,优先抽取最有价值的经验,但是又不能只抽取最有价值,不然会造成过拟合,应该是价值越高的,抽取到的概率越大,价值最低的,也有一定的概率抽到。其核心更新公式为:
Qw(st,at)=Qw(st,at)+[rt+1+γmaxaQw(st+1,at+1)-Qw(st,at)]
其中TD-error为:
δt=rt+1+γmaxa Qw(st+1,at+1)-Qw(st,at)
maxaQω(st+1,at+1)为当移动机器人处于状态st+1时,从动作空间中选取的动作αt+1使Qω(st+1,at+1)为所有动作对应的Q值中的最大值,t为训练时刻。γ为折扣因子,使其取(0,1)之间的值,让移动机器人不过分的关注以后每一步动作所带来的奖励值,也不会变的短视,只关注眼前的动作回报。rt+1为移动机器人执行动作at,由状态st转移至st+1所得的回报值。
最后通过迁移学习来提高算法在路径规划训练中收敛的速度。如图6为所示为改进完成算法的回报函数曲线图。
步骤6:移动机器人使用改进完成的DDPG算法在步骤4中建立的环境中进行训练学习,完成训练之后,移动机器人使用训练好的模型参数能够有效的在动态环境中进行避碰和路径规划,并以较高的成功率到达目标点。

Claims (8)

1.一种动态环境下移动机器人路径规划方法,其特征在于,所述路径规划方法包括以下步骤:
步骤1:通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息;
步骤2:对步骤1中的原始数据进行数据处理后,与移动机器人周围的信息结合后得到DDPG算法的状态S;
步骤3:设计DDPG算法的状态空间、动作空间和奖励函数,所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励;
步骤4:根据速度和运动的特点构建多类型动态障碍物环境;
步骤5:将DDPG算法与好奇心算法相融合,建立内外奖励共同作用的奖励机制;
步骤6:移动机器人使用改进完成的DDPG算法在步骤4中建立的环境中进行训练学习,并对训练好的模型进行动态环境下路径规划的测试。
2.根据权利要求1所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤1中的原始数据包括目标点和动态障碍物距激光雷达距离、方位、姿态和形状。
3.根据权利要求1所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤2的移动机器人周围的信息包括移动机器人与障碍物的距离、与目标点之间的距离,以及移动机器人朝向偏离目标点所在方向的角度。
4.根据权利要求3所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤2根据机器人与障碍物之间的距离将机器人与障碍物之间状态分为导航状态N和撞到障碍物状态C,如下公式所示:
Figure RE-FDA0003443357200000011
其中di(t)是机器人在时间t的第i维激光雷达距离数据;当机器人与障碍物之间的距离di(t)≤0.2m,机器人处于撞到障碍物状态C;当机器人与障碍物之间的距离di(t)>0.2m时机器人处于正常导航状态N。
5.根据权利要求1所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤3的奖励函数包括对目标直线距离的奖惩、靠近目标点奖励以及远离目标点惩罚;碰撞到动态障碍物给予惩罚;到达目标点给予奖励。
6.根据权利要求5所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤3奖励函数为
Figure RE-FDA0003443357200000021
其中reward是回报值;pt为t时刻位置移动机器人与设定点之间的距离,dgoal为移动机器人与目标点的距离阈值;rarrive是到达奖励,当移动机器人与目标点的距离小于等于阈值dgoal即认为到达目标点,给予奖励;其次rcollision是碰撞惩罚,当移动机器人与障碍物的距离小于等于阈值dcollisinon即认为碰撞到障碍物,给予惩罚;cr为一个常数,cr(pt-1-pt)为移动机器人从起始点到达目标点过程中的奖励值,接近目标点为正,远离目标点为负。
7.根据权利要求1所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤4在匀速运动的动态障碍物基础上加入随机变换速度的障碍物,设定障碍物速度在(vlow-vhigh)之间每时刻随机变换,其中vlow为设定的动态障碍物最低的运动速度,vhigh为设定的动态障碍物最高的运动速度,并根据障碍物有规律和无规律的运动特点设计了水平、竖直以及旋转的动态障碍物。
8.根据权利要求1所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤5具体为,好奇心算法与DDPG算法相结合后最终的奖励值为
Figure RE-FDA0003443357200000022
式中rt为总的奖励值,
Figure RE-FDA0003443357200000023
为好奇心模块的内在奖励,
Figure RE-FDA0003443357200000024
为DDPG算法的外在奖励。
CN202111347670.7A 2021-11-15 2021-11-15 一种动态环境下的移动机器人路径规划方法 Pending CN114185339A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111347670.7A CN114185339A (zh) 2021-11-15 2021-11-15 一种动态环境下的移动机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111347670.7A CN114185339A (zh) 2021-11-15 2021-11-15 一种动态环境下的移动机器人路径规划方法

Publications (1)

Publication Number Publication Date
CN114185339A true CN114185339A (zh) 2022-03-15

Family

ID=80540064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111347670.7A Pending CN114185339A (zh) 2021-11-15 2021-11-15 一种动态环境下的移动机器人路径规划方法

Country Status (1)

Country Link
CN (1) CN114185339A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115542901A (zh) * 2022-09-21 2022-12-30 北京航空航天大学 基于近端策略训练的可变形机器人避障方法
CN115657678A (zh) * 2022-10-28 2023-01-31 中国船舶重工集团公司第七一九研究所 面向复杂动态环境的水下无人潜航器航迹生成方法及***
CN116540731A (zh) * 2023-06-02 2023-08-04 东莞理工学院 融合堆叠lstm与sac算法的路径规划方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113219997A (zh) * 2021-06-08 2021-08-06 河北师范大学 一种基于tpr-ddpg的移动机器人路径规划方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113219997A (zh) * 2021-06-08 2021-08-06 河北师范大学 一种基于tpr-ddpg的移动机器人路径规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIANGCHENG DING等: "Research on Dynamic Path Planning of Mobile Robot Based on Improved DDPG Algorithm", 《HINDAWI MOBILE INFORMATION SYSTEMS》, 12 November 2021 (2021-11-12), pages 1 - 10 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115542901A (zh) * 2022-09-21 2022-12-30 北京航空航天大学 基于近端策略训练的可变形机器人避障方法
CN115542901B (zh) * 2022-09-21 2024-06-07 北京航空航天大学 基于近端策略训练的可变形机器人避障方法
CN115657678A (zh) * 2022-10-28 2023-01-31 中国船舶重工集团公司第七一九研究所 面向复杂动态环境的水下无人潜航器航迹生成方法及***
CN115657678B (zh) * 2022-10-28 2024-04-26 中国船舶重工集团公司第七一九研究所 面向复杂动态环境的水下无人潜航器航迹生成方法及***
CN116540731A (zh) * 2023-06-02 2023-08-04 东莞理工学院 融合堆叠lstm与sac算法的路径规划方法及***
CN116540731B (zh) * 2023-06-02 2024-03-26 东莞理工学院 融合堆叠lstm与sac算法的路径规划方法及***

Similar Documents

Publication Publication Date Title
CN110610271B (zh) 一种基于长短记忆网络的多重车辆轨迹预测方法
US11747155B2 (en) Global path planning method and device for an unmanned vehicle
CN114185339A (zh) 一种动态环境下的移动机器人路径规划方法
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
US20230037632A1 (en) Reinforcement learning method and apparatus
CN110147101B (zh) 一种基于深度强化学习的端到端分布式多机器人编队导航方法
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
CN112356830A (zh) 一种基于模型强化学习的智能泊车方法
CN112651374B (zh) 一种基于社会信息的未来轨迹预测方法及自动驾驶***
CN116540731B (zh) 融合堆叠lstm与sac算法的路径规划方法及***
CN115993831B (zh) 基于深度强化学习的机器人无目标网络的路径规划方法
CN116382267B (zh) 一种基于多模态脉冲神经网络的机器人动态避障方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
Li et al. A deep reinforcement learning based approach for autonomous overtaking
CN114973650A (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN114485673B (zh) 基于深度强化学习的服务机器人人群感知导航方法及***
CN110968102B (zh) 一种基于深度强化学习的多agent避碰方法
Doellinger et al. Environment-aware multi-target tracking of pedestrians
CN114518762B (zh) 机器人避障装置、避障控制方法和机器人
CN116360454A (zh) 行人环境下基于深度强化学习的机器人路径避碰规划方法
CN115542733A (zh) 基于深度强化学习的自适应动态窗口法
CN114077242A (zh) 用于在具有多个硬件代理的控制情况下控制硬件代理的设备和方法
Li et al. Efficiency-reinforced learning with auxiliary depth reconstruction for autonomous navigation of mobile devices
Gök Dynamic path planning via Dueling Double Deep Q-Network (D3QN) with prioritized experience replay
CN113589810B (zh) 智能体动态自主避障运动方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination