CN114185339A

CN114185339A - 一种动态环境下的移动机器人路径规划方法

Info

Publication number: CN114185339A
Application number: CN202111347670.7A
Authority: CN
Inventors: 李芃; 丁祥成; 孙宏放; 张兰勇; 李奕霏; 刘洪丹
Original assignee: Heu Qingdao Ship Science And Technology Co ltd; Harbin Engineering University
Current assignee: Heu Qingdao Ship Science And Technology Co ltd; Harbin Engineering University
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-03-15

Abstract

本发明公开了一种动态环境下的移动机器人路径规划方法。通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息；对原始数据进行数据处理后，与移动机器人周围的信息结合后得到DDPG算法的状态S；设计DDPG算法的状态空间、动作空间和奖励函数，所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励；根据速度和运动的特点构建多类型动态障碍物环境；将DDPG算法与好奇心算法相融合，建立内外奖励共同作用的奖励机制；移动机器人使用改进完成的DDPG算法在建立的环境中进行训练学习,实现动态环境下的移动机器人路径规划。本发明用以解决动态环境下移动机器人路径规划中存在准确率低和收敛速度慢的问题。

Description

一种动态环境下的移动机器人路径规划方法

技术领域

本发明涉及移动机器人技术领域，具体涉及一种动态环境下的移动机器人路径规划方法。

背景技术

在机器人自主导航中，路径规划是一个非常重要的部分。机器人路径规划问题可以描述为在机器人自身位姿己知的情况下，根据一个或者多个优化目标，在机器人工作环境中寻找到一条从当前点到指定目标点的最优路径。目前，常用算法有人工势场法、遗传算法、模糊逻辑法、强化学习法等。其中强化学习(Reinforcement Learning，RL)算法是一种完全不需要智能体事先对所处环境进行了解的学习算法，移动机器人在对当前环境进行感知的同时采取相应的行动，根据当前状态和所采取的行动，移动机器人从当前状态迁移至下一个状态。Q-learning算法是强化学习的经典算法，算法简单且收敛性好，得到广泛应用。但当环境较为复杂，随着状态空间维数的增加，强化学习算法易陷入“维数***”。深度学习(Deep Learning，DL)具有较好的处理高维信息的能力，将其与强化学习结合的深度强化学习(Deep Reinforcement Learning，DRL)通过学习端到端(End-to-end)的模型，既能处理高维的环境信息又能进行相应的规划任务。因此DQN算法应运而生，但DQN算法通常解决离散且维度不高的动作空间的问题。2016年由DeepMind团队提出的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法，使用Actor-Critic算法框架，同时借鉴DQN算法的思想解决连续动作空间问题。但DDPG算法应用于动态环境下路径规划时，存在着成功率低、收敛速度慢等缺点，且相关研究大多停留在理论层面，缺少对实际问题的解决方案。

发明内容

本发明提供一种动态环境下的移动机器人路径规划方法，用以解决动态环境下移动机器人路径规划中存在准确率低和收敛速度慢的问题。

本发明通过以下技术方案实现：

一种动态环境下移动机器人路径规划方法，所述路径规划方法包括以下步骤：

步骤1：通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息；

步骤2：对步骤1中的原始数据进行数据处理后，与移动机器人周围的信息结合后得到DDPG算法的状态S；

步骤3：设计DDPG算法的状态空间、动作空间和奖励函数，所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励；

步骤4：根据速度和运动的特点构建多类型动态障碍物环境；

步骤5：将DDPG算法与好奇心算法相融合，建立内外奖励共同作用的奖励机制；

步骤S6：移动机器人使用改进完成的DDPG算法在步骤4中建立的环境中进行训练学习。

进一步的，所述步骤1中的原始数据包括目标点和动态障碍物距激光雷达距离、方位、姿态和形状。

进一步的，所述步骤2的移动机器人周围的信息包括移动机器人与障碍物的距离、与目标点之间的距离，以及移动机器人朝向偏离目标点所在方向的角度。

进一步的，所述步骤2根据机器人与障碍物之间的距离将机器人与障碍物之间状态分为导航状态N和撞到障碍物状态C，如下公式所示：

其中d_i(t)是机器人在时间t的第i维激光雷达距离数据；当机器人与障碍物之间的距离d_i(t)≤0.2m，机器人处于撞到障碍物状态C；当机器人与障碍物之间的距离d_i(t)>0.2m时机器人处于正常导航状态N。

进一步的，所述步骤3的奖励函数包括对目标直线距离的奖惩、靠近目标点奖励以及远离目标点惩罚；碰撞到动态障碍物给予惩罚；到达目标点给予奖励。

进一步的，所述步骤4在匀速运动的动态障碍物基础上加入随机变换速度的障碍物，设定障碍物速度在(v_low-v_high)之间每时刻随机变换，其中v_low为设定的动态障碍物最低的运动速度，v_high为设定的动态障碍物最高的运动速度，并根据障碍物有规律和无规律的运动特点设定了水平、竖直以及旋转的有规律和无规律运动的动态障碍物。

进一步的，所述步骤5具体为，好奇心算法与DDPG算法相结合后最终的奖励值为

式中r_t为总的奖励值，

为好奇心模块的内在奖励，

为DDPG算法的外在奖励。

本发明的有益效果是：

本发明相比原始DDPG算法的路径规划，在相同条件训练环境下，提高了算法的收敛速度。

本发明相比原始DDPG算法的路径规划，在动态环境下路径规划成功率有着显著的提升。

本发明相比原始DDPG算法的路径规划，对于复杂动态环境的路径规划有着较好的适应性。

本发明建立内外奖励共同作用的奖励机制并通过加入优先经验回放、迁移学习和Radam算法提高算法成功率和收敛速度，并将其应用于动态环境下移动机器人的路径规划，使其在短时间内从起点安全无碰撞移动到终点。

附图说明

图1为本发明动态环境路径规划算法流程图。

图2为本发明中用于训练动态环境下路径规划的仿真实验图。

图3为本发明用于测试训练模型在障碍物速度随机变化下泛化性能的仿真实验图。

图4为本发明用于测试训练模型在障碍物速度和环境大小变化下泛化性能的仿真实验图。

图5为本发明中未改进算法的回报函数曲线图。

图6为本发明中改进完成算法的回报函数曲线图。

图7为本发明中在动态环境下训练完成的路径规划结果图。

图8为本发明中测试训练模型在障碍物速度随机变化下泛化性能的路径规划结果图。

图9为本发明中测试训练模型在障碍物速度和环境变化下泛化性能的路径规划结果图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所述步骤1中的原始数据包括目标点和动态障碍物距激光雷达距离、方位、姿态和形状。

机器人通过激光雷达获取自身与周围障碍物的距离，激光雷达的探测距离范围为(0.12,3.5)(单位m)，激光雷达探测的角度范围(-90,90)，即以机器人正前方为0度，向左90度角和向右90度角，激光雷达数据是20维，每维雷达数据间角度9度。机器人在移动过程中对是否撞到障碍物的状态判断依据：距离障碍物的距离小于0.2m即判定为撞到障碍物。实际仿真时候，获取20维的激光雷达距离信息。

所述步骤2的移动机器人周围的信息包括移动机器人与障碍物的距离、与目标点之间的距离，以及移动机器人朝向偏离目标点所在方向的角度。

所述步骤2根据机器人与障碍物之间的距离将机器人与障碍物之间状态分为导航状态N和撞到障碍物状态C，如下公式所示：

所述步骤3奖励函数为

其中reward是回报值；p_t为t时刻位置移动机器人与设定点之间的距离，d_goal为移动机器人与目标点的距离阈值；r_arrive是到达奖励，当移动机器人与目标点的距离小于等于阈值d_goal即认为到达目标点，给予奖励；其次r_collision是碰撞惩罚，当移动机器人与障碍物的距离小于等于阈值d_collision即认为碰撞到障碍物，给予惩罚；c_r为一个常数，c_r(p_t-1-p_t)为移动机器人从起始点到达目标点过程中的奖励值，接近目标点为正，远离目标点为负。

DDPG的决策网络最后输出的是连续的角速度值。输出量是连续的角速度更加符合机器人的运动学特性，所以机器人在移动过程中的运动轨迹也会更加平滑，输出动作也更加连续。在仿真中需要限制角速度不能过大，所以本例设置角速度最大值为ω_max，所以DDPG最终输出的角速度区间为(-ω_max,ω_max)(单位rad/s)，线速度值为v(m/s)，前进的速度为(v，0.0)，左转的速度为(v_left，-ω_max)，右转的速度为(v_right，ω_max)。

上式中reward为回报值。t为训练时刻，d_i-0为机器人与障碍物的距离，在实验仿真时当d_i-0小于0.2时则为碰撞到障碍物回报值为-200，d_i-t为机器人与目标点的距离值，当到达目标点时奖励100，其他情况则为前一时刻距离目标点与当前时刻距离目标点的差值即300*(d_i-t(t-1)-d_i-t(t))作为回报值。该设计是为了使机器人不断向目标点移动，使机器人每采取一个动作都能及时获得反馈，保证报酬函数的连续性，加快算法的收敛速度。

步骤4：根据速度和运动的特点构建多类型动态障碍物环境；

进一步的，所述步骤4在匀速运动的动态障碍物基础上加入随机变换速度的障碍物，设定障碍物速度在(v_low-v_high)之间每时刻随机变换，其中v_low为设定的动态障碍物最低的运动速度，v_high为设定的动态障碍物最高的运动速度，并根据障碍物有规律和无规律的运动特点设计了水平、竖直以及旋转的动态障碍物。

如图2仿真环境所示，建立长宽m×m米的正方形围墙，添加4个(c₁×c₁×c₁)m³以v₁(m/s)的速度逆时针旋转的动态障碍物，起始点移动机器人位置设置为(-x,y)，目标点彩色圆环设置为(x,-y)；如图3仿真环境所示，在图2仿真环境基础上，再添加4个动态障碍物，上下两个(c₂×c₂×c₂)m³的障碍物以每时刻(v_low-v_high)m/s之间的随机速度水平运动，中间两个(c₂×c₂×c₂)m³的障碍物以每时刻(v_low-v_high)m/s之间的随机速度竖直运动；如图4仿真环境所示，建立长宽m₁×m₁米的正方形围墙，添加了12个动态障碍物，其中中间4个(c₁×c₁×c₁)(m³以每时刻(v_low-v_mid)m/s之间的随机速度水平运动，上下4个(c₂×c₂×c₂)m³的障碍物以每时刻(v_mid-v_high)m/s之间的随机速度水平运动，左右4个(c₂×c₂×c₂)m³的障碍物以每时刻(v_mid-v_high)m/s之间的随机速度竖直运动。

所述仿真环境设置的标准为，动态障碍物环境设置为大小不一、运动状态不同、速度恒定或速度随机变化的正方体形状，来保证障碍物为有规律或无规律运动。

步骤5：将DDPG算法与好奇心算法相融合，建立内外奖励共同作用的奖励机制；并通过加入优先经验回放、迁移学习和Radam算法提高算法成功率和收敛速度；

进一步的，所述步骤5具体为，如图5所示为未改进算法的回报函数曲线图。内在好奇心模块(ICM)减小智能体学习过程中动作与自身误差的形式来提供内在奖励，使移动机器人在内外奖励共同作用下训练，达到良好的路径规划效果。好奇心算法与DDPG算法相结合后最终的奖励值为

式中r_t为总的奖励值，

为好奇心模块的内在奖励，

为DDPG算法的外在奖励，并通过加入优先经验回放、迁移学习和Radam算法提高算法成功率和收敛速度。

首先针对算法的神经网络采用自适应学习率优化时出现方差过大而导致路径规划成功率低这一问题，采用Radam神经网络优化器来替换DDPG算法的Adam神经网络优化器来提高成功率。Radam算法是近年来提出的算法，具有收敛快、精度高的特点，且Radam算法可以有效解决自适应学习方法中存在的差异问题。Radam算法公式可以表示如下：

其中θ是待训练的参数，t为训练时刻，α_t为步长，r_t为整流项，

为偏值校正后的移动二阶矩，

为偏值校正后的移动平均线，衰减率{β₁,β₂}，m_t是一阶矩(动量)，v_t为二阶矩(自适应学***均值的最大长度，ρ_t是简单移动平均值的最大值，J(θ)为目标参数,

是梯度系数。

其次，针对算法在复杂的动态环境中适应性差而造成的成功率低的问题，采用好奇心算法与DDPG算法相结合，其中好奇心算法通过减小智能体学习过程中动作与自身误差的形式来提供内在奖励，DDPG算法提供外在奖励，使移动机器人在内外奖励共同作用下训练，得到在复杂的动态环境下良好的路径规划效果，增强了算法的适应性。好奇心算法中神经网络参数θ_F是通过最小化损失函数L_F的方式进行优化：

式中，

表示状态预估值，

表示原始状态s_t编码的特征向量，

表示原始状态s_t+1编码的特征向量。

内在奖励值为：

式中，η为比例因子，满足；η>0。原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测。因此，得到与DDPG算法相结合后最终的奖励值为

式中r_t为总的奖励值，

为好奇心模块的内在奖励，

为DDPG算法的外在奖励。

然后，针对移动机器人在动态环境路径规划中，因为所处环境的不确定性，出现在训练前期因碰撞存在着大量的无效经验，原始DDPG算法将这些无效经验用于训练，从而造成了训练后路径规划成功率比较低且浪费大量时间的问题。采用加入优先经验回放的方法，优先经验回放抽取经验时，优先抽取最有价值的经验，但是又不能只抽取最有价值，不然会造成过拟合，应该是价值越高的，抽取到的概率越大，价值最低的，也有一定的概率抽到。其核心更新公式为：

Q_w(s_t,a_t)＝Q_w(s_t,a_t)+[r_t+1+γmax_aQ_w(s_t+1,a_t+1)-Q_w(s_t,a_t)]

其中TD-error为：

δ_t＝r_t+1+γmax_a Q_w(s_t+1,a_t+1)-Q_w(s_t,a_t)

max_aQ_ω(s_t+1，a_t+1)为当移动机器人处于状态s_t+1时，从动作空间中选取的动作α_t+1使Q_ω(s_t+1，a_t+1)为所有动作对应的Q值中的最大值，t为训练时刻。γ为折扣因子，使其取(0，1)之间的值，让移动机器人不过分的关注以后每一步动作所带来的奖励值，也不会变的短视，只关注眼前的动作回报。r_t+1为移动机器人执行动作a_t，由状态s_t转移至s_t+1所得的回报值。

最后通过迁移学习来提高算法在路径规划训练中收敛的速度。如图6为所示为改进完成算法的回报函数曲线图。

步骤6：移动机器人使用改进完成的DDPG算法在步骤4中建立的环境中进行训练学习，完成训练之后，移动机器人使用训练好的模型参数能够有效的在动态环境中进行避碰和路径规划，并以较高的成功率到达目标点。

Claims

1.一种动态环境下移动机器人路径规划方法，其特征在于，所述路径规划方法包括以下步骤：

步骤4：根据速度和运动的特点构建多类型动态障碍物环境；

步骤6：移动机器人使用改进完成的DDPG算法在步骤4中建立的环境中进行训练学习，并对训练好的模型进行动态环境下路径规划的测试。

2.根据权利要求1所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤1中的原始数据包括目标点和动态障碍物距激光雷达距离、方位、姿态和形状。

3.根据权利要求1所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤2的移动机器人周围的信息包括移动机器人与障碍物的距离、与目标点之间的距离，以及移动机器人朝向偏离目标点所在方向的角度。

4.根据权利要求3所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤2根据机器人与障碍物之间的距离将机器人与障碍物之间状态分为导航状态N和撞到障碍物状态C，如下公式所示：

5.根据权利要求1所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤3的奖励函数包括对目标直线距离的奖惩、靠近目标点奖励以及远离目标点惩罚；碰撞到动态障碍物给予惩罚；到达目标点给予奖励。

6.根据权利要求5所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤3奖励函数为

其中reward是回报值；p_t为t时刻位置移动机器人与设定点之间的距离，d_goal为移动机器人与目标点的距离阈值；r_arrive是到达奖励，当移动机器人与目标点的距离小于等于阈值d_goal即认为到达目标点，给予奖励；其次r_collision是碰撞惩罚，当移动机器人与障碍物的距离小于等于阈值d_collisinon即认为碰撞到障碍物，给予惩罚；c_r为一个常数，c_r(p_t-1-p_t)为移动机器人从起始点到达目标点过程中的奖励值，接近目标点为正，远离目标点为负。

7.根据权利要求1所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤4在匀速运动的动态障碍物基础上加入随机变换速度的障碍物，设定障碍物速度在(v_low-v_high)之间每时刻随机变换，其中v_low为设定的动态障碍物最低的运动速度，v_high为设定的动态障碍物最高的运动速度，并根据障碍物有规律和无规律的运动特点设计了水平、竖直以及旋转的动态障碍物。

8.根据权利要求1所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤5具体为，好奇心算法与DDPG算法相结合后最终的奖励值为

式中r_t为总的奖励值，

为好奇心模块的内在奖励，

为DDPG算法的外在奖励。