CN113759901A

CN113759901A - 一种基于深度强化学习的移动机器人自主避障方法

Info

Publication number: CN113759901A
Application number: CN202110924145.0A
Authority: CN
Inventors: 杨宇翔; 黄子情; 高明裕; 董哲康; 林辉品
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-12-07

Abstract

本发明涉及一种基于深度强化学习的移动机器人自主避障方法。采用深度强化学习方法通过奖励函数指导移动机器人进行自主避障到达目标位置技能的学习。利用注意力机制判断行人等障碍物对移动机器人的相对重要性即潜在干扰性，通过深度强化学习的方法实现仿真环境与真实环境完成自主避障导航至目标的任务。本发明具有很高的环境适应性和避障成功率，能够在复杂环境下实现移动机器人的自主避障。

Description

一种基于深度强化学习的移动机器人自主避障方法

技术领域

本发明属于智能控制领域，具体涉及含注意力机制的Dueling DQN的深度强化学习的移动机器人自主避障方法。

背景技术

移动机器人自主避障是机器人任务中的一项基本任务，具有广泛的应用场景。基于深度强化学习的移动机器人自主避障是该领域的一个研究热点，深度强化学习方法通过奖励函数来指导智能体自主学习高效有用的路径规划策略，能够实现在复杂环境下的自主避障。本发明在移动机器人自主避障深度强化学习网络中引入注意力机制使网络能够分析障碍物对移动机器人的相对重要性即干扰性的大小，大大提升了复杂环境中移动机器人自主避障的成功率，具有重要的理论价值和实际意义。

发明内容

本发明专利提供了基于深度强化学习的移动机器人自主避障方法，包括以下步骤：

步骤(1)：状态空间和动作空间设定

移动机器人的状态信息包括自身大小半径r，由ROS(Robot Operating System，机器人操作***)中amcl节点获取的自身位置p＝[p_x,p_y]，自身运动速度及方向，默认自身运动速度v_pref，还包括关于移动机器人到达目标点时的位置g＝[g_x,g_y]和方向θ。

移动机器人通过搭载的深度相机和2D激光雷达观测环境；观测状态空间包括障碍物的位置

速度

和大小半径rⁱ。t时刻观察状态的第i个障碍物的状态表示为

其中的

是由Δt内障碍物的位置变化计算而来。在移动机器人初始起点位置时移动机器人为中心，x轴的正方向是从其起点位置到目标位置的方向。以移动机器人为中心的状态S_t,

表示为：

动作空间由速度和方向构成的离散动作；

步骤(2)：深度强化学习网络构建

基于前置交互性注意力机制的D3QN(Double Dueling DQN)深度强化学习网络，该网络用于估计状态-动作对的Q值，网络分为如下三部分：

(a)利用MLP提取出固定长度的状态特征。

具有ReLU(Rectified Linear Unit)型非线性激活函数的两个多层感知机(MLPs)分别对S_t和

进行特征提取，生成固定长度的特征向量，再进行特征融合得到J_t，包含n+1个固定长度的特征向量e_i,i＝1...n+1，其中n表示障碍物的个数。

(b)注意力机制层部分

将步骤(a)的结果的每一特征向量e_i,i＝1...n+1，输入到随后的多层感知机Φ_f(e_i)中以获得成对的人机交互特征f_i。同时e_i,i＝1...n+1被馈送到另一个多层感知机Φ_α(e_i)以获得每个障碍物的注意力分数α_i，该注意力分数代表每个障碍物对移动机器人的相对重要性，即障碍物对移动机器人的潜在干扰的可能大小。由注意力分数加权的交互性特征的线性组合随后被作为环境障碍物特征C_t。

f_i＝Φ_f(e_i),i＝1,...,n+1 (2)

α_i＝Φ_α(eⁱ),i＝1,...,n+1 (3)

其中C_t为注意力分数加权的交互性特征的线性组合后的环境特征。将C_t和S_t进行特征融合得到特征H_t；

(c)将特征H_t输入Double Dueling DQN网络得到最佳动作

Double Dueling DQN网络包括两层全连接层ψ_c(H_t；α)和两个支路全连接层；其中一个支路全连接层为状态值函数V(H_t；α,β)，另一个支路全连接层为优势函数A(H_t,a_t；α,η)，两个最终相加才是最终的状态-动作值函数。V(H_t；α,β)是对当前状态的长远判断，而A(H_t,a_t；α,η)则衡量在当前状态下不同动作的好坏。

Q(H_t,a_t；α,β,η)＝V(H_t；α,β)+A(H_t,a_t；α,η) (5)

其中,α为全连接层共享参数，β和η分别为两支路全连接层参数。

步骤(3)设计奖励函数，仿真环境训练深度强化学习网络；

(a)奖励函数设计：

为更好的实现移动机器人与环境的交互，将奖励函数分为三部分R_g,R_c和R_s。R_g设计为成功导航至目标位置，R_c用于惩罚碰撞情况，R_s用于奖赏在导航过程中对所有障碍物保持一个安全距离。

故奖赏函数为：

其中，

和

分别为：

其中，p_t为t时刻移动机器人的位置，p_t-Δt为_t-Δt时刻移动机器人的位置，d_g为移动机器人与目标位置之间的距离，

为t时刻移动机器人第i个行人等障碍物之间的最短间隔距离，d_c表示行人能忍受的最小舒适距离,d_c设定值为0.2m；

(b)采用时序差分方式对策略网络进行更新，训练。

目标在于得到最优策略：π^*:J_t→a^t，最大化移动机器人在到达目标点时的累积期望回报：

在t时将J_t输入最优策略即深度强化学习网络中得到最佳执行动作，执行该动作后，再次采集depth图和雷达点云数据经过各自预处理后的下一融合特征J_t+Δt，根据移动机器人导航过程中是否到达目标位置，是否碰撞，是否对行人保持一个安全距离对动作a_t给出一个综合性的奖励R(J_t,a_t)，采用时序差分方式最小化当前值网络的值和目标值网络的目标值之间的时间差分误差值，其目标值为：

其中，w′为目标值网络参数，w表示当前值网络参数，Q(·)为状态-动作值函数，γ∈(0,1)为折扣因子，用于平衡即时奖励和未来的奖励，此处v_pref用于归一化，否则缓慢移动的机器人的价值函数会非常小。每训练T步，将当前值网络的参数复制给目标值网络，接下来T步参数更新的目标将由更新后的目标值网络负责提供；

采用随机梯度下降法对Double Dueling DQN网络参数进行更新，使用均方差定义损失函数：

L(θ)＝∑(y_t-Q(J_t,a_t；w))² (13)

在进行交互更新网络参数时，也会从优先级经验池中获取一些之前经历过的优先级较高的样本参与训练，提高数据使用效率。

(c)虚拟环境仿真训练和测试

仿真环境为ROS的Kinetic版本中的Gazebo(ROS中含有的物理仿真环境)平台，利用pedsim_ros模型多随机运动行人的障碍场景进行复杂环境场景模拟，模拟传感器使用的模型为RealsenseD435i型的RGB-D相机和2D雷达感知环境状态，设定随机可达目标点，按前面的网络策略进行仿真训练和测试。

步骤(4)将仿真训练结果迁移至真实移动机器人平台。

(a)实际移动机器人平台搭载2D激光雷达、Intel的Realsense D435i型号的RGB-D相机以及IMU等传感器，将实际移动机器人平台利用cartographer建图算法使用激光雷达对室内环境进行建图。

(b)将上一步骤中的网络训练结果迁移至实际移动机器人平台上，在含有静态障碍物、动态障碍物以及随机走动的行人的复杂场景中进行导航测试实验，远程主机和移动机器人主机之间通过ROS分布式通信机制进行通信，在远程主机上发布一些命令对移动机器人进行控制，启动雷达节点并将RGB-D相机启动节点打开，打开ROS中的可视化图形工具Rviz，对移动机器人的移动进行实时监测，运行导航节点，通过远程主机在Rviz中发布导航命令即导航目标点位置，即可使移动机器人使用深度强化学习方法进行规划路线动态避障，安全避开随机走动的人群及其他障碍物，顺利到达目标点位置。

作为优选，所述的动作空间由81种离散动作组成，由一个停止动作和80种运动动作，这80种运动动作由5个速度

和16个方向

组合而成。

本发明具有以下有益的效果：本发明采用深度强化学习方法通过奖励函数指导移动机器人进行的自主避障到达目标位置的学习。利用注意力机制判断行人等障碍物对移动机器人的相对重要性即潜在干扰性，通过深度强化学习的方法实现仿真环境与真实环境完成自主避障导航至目标的任务。通过学习后，该方法能够在复杂环境下完成移动机器人的自主避障到达目标位置任务。

附图说明

图1为本发明的基于深度强化学习的移动机器人自主避障方法的网络结构图。

具体实施方式

步骤(1)：状态空间和动作空间设定

移动机器人的状态信息包括自身大小半径r＝0.3m,由ROS(Robot OperatingSystem，机器人操作***)中amcl节点获取的自身位置p＝[p_x,p_y]，自身运动速度及方向，默认速度v_pref＝1m/s，还包括关于移动机器人到达目标点时的位置g＝[g_x,g_y]和方向θ。

移动机器人搭载的深度相机和2D激光雷达观测到的环境。深度图大小为80x80，激光雷达频率为40Hz。观测状态空间包括行人等障碍物位置

速度

和大小半径rⁱ。时刻观察状态的第i个行人或障碍物的状态可表示为

其中的

是由Δt内行人障碍物的位置变化计算而来。在移动机器人初始起点位置时移动机器人为中心，x轴的正方向是从其起点位置到目标位置的方向。以移动机器人为中心的状态S_t,

可以表示为：

动作空间由81种离散动作组成，由一个停止动作和80种运动动作，这80种运动动作由5个速度

和16个方向

组合而成。

步骤(2)：深度强化网络构建

如图1所示，基于前置交互性注意力机制的D3QN(Double Dueling DQN)深度强化学习网络，该网络用于估计状态-动作对的Q值，网络分为如下三部分：

(a)利用MLP提取出固定长度的状态特征。

进行特征提取，生成固定长度的特征向量，再进行特征融合得到J_t，包含n+1个固定长度的特征向量e_i,i＝1...n+1。

(b)注意力机制层部分

将上一步骤结果的每一特征向量e_i,i＝1...n+1输入到随后的多层感知机Φ_f(e_i)中以获得成对的人机交互特征f_i。同时e_i,i＝1...n+1被馈送到另一个多层感知机Φ_α(e_i)以获得每个行人或运动障碍物的注意力分数α_i，该分数代表每个行人或运动障碍物对移动机器人的相对重要性，即行人等障碍物对移动机器人的潜在干扰的可能大小。由注意力分数加权的交互性特征的线性组合随后被作为环境人群特征C_t。

f_i＝Φ_f(e_i),i＝1,...,n+1 (2)

α_i＝Φ_α(eⁱ),i＝1,...,n+1 (3)

其中C_t为注意力分数加权的交互性特征的线性组合后的环境特征。将C_t和S_t进行特征融合得到特征H_t，将其作为Double Dueling DQN的输入。

(c)Double Dueling DQN网络结构部分

Double Dueling DQN网络由两层全连接层ψ_c(H_t；α),和两个支路全连接层分别用于获取状态值函数V(H_t；α,β)和优势函数A(H_t,a_t；α,η)组成，两个最终相加才是最终的状态-动作值函数。V(H_t；α,β)是对当前状态的长远判断，而A(H_t,a_t；α,η)则衡量在当前状态下不同动作的好坏。

Q(H_t,a_t；α,β,η)＝V(H_t；α,β)+A(H_t,a_t；α,η) (5)

步骤(3)设计奖励函数，仿真环境训练深度强化学习网络。

(a)奖励函数设计：

为更好的实现移动机器人与环境的交互，将奖励函数分为三部分R_g,R_c和R_s。R_g设计为成功导航至目标位置，R_c用于惩罚碰撞情况，R_s用于奖赏在导航过程中对所有行人保持一个安全距离。

故奖赏函数为：

其中，

和

分别为：

(b)采用时序差分方式对策略网络进行更新，训练。

在时间t时将J_t输入最优策略即深度强化学习网络中得到最佳执行动作，执行该动作后，再次采集depth图和雷达点云数据经过各自预处理后的下一融合特征J_t+Δt，根据移动机器人导航过程中是否到达目标位置，是否碰撞，是否对行人保持一个安全距离对动作a_t给出一个综合性的奖励R(J_t,a_t)，采用时序差分方式最小化当前值网络的和目标值网络的目标值之间的时间差分误差值，其目标值为：

其中，w′为目标值网络参数，w表示当前值网络参数，γ为折扣因子，用于平衡即时奖励和未来的奖励，此处v_pref用于归一化，否则缓慢移动的机器人的价值函数会非常小。在实验中，设置γ＝0.5。每训练T＝500步，将当前值网络的参数复制给目标值网络，接下来T步参数更新的目标将由更新后的目标值网络负责提供。

采用随机梯度下降法对网络参数进行更新，使用均方差定义损失函数：

L(θ)＝∑(y_t-Q(J_t,a_t；w))² (13)

(c)虚拟环境仿真训练和测试

步骤(4)将仿真训练结果迁移至真实移动机器人平台。

Claims

1.一种基于深度强化学习的移动机器人自主避障方法，其特征在于该方法的具体步骤是：

步骤(1)：状态空间和动作空间设定

移动机器人的状态信息包括自身大小半径r，自身位置p＝[p_x，p_y]，自身运动速度及方向，默认自身运动速度v_pref，还包括关于移动机器人到达目标点时的位置g＝[g_x，g_y]和方向θ；

速度

和大小半径rⁱ；t时刻观察状态的第i个障碍物的状态表示为

其中的

是由Δt内障碍物的位置变化计算而来；在移动机器人初始起点位置时移动机器人为中心，x轴的正方向是从其起点位置到目标位置的方向；以移动机器人为中心的状态S_t，

表示为：

动作空间由速度和方向构成的离散动作；

步骤(2)：深度强化学习网络构建

基于前置交互性注意力机制的D3QN深度强化学习网络，该网络用于估计状态-动作对的Q值，网络分为如下三部分：

(a)利用MLP提取出固定长度的状态特征；

具有ReLU型非线性激活函数的两个多层感知机分别对S_t和

进行特征提取，生成固定长度的特征向量，再进行特征融合得到J₊，包含n+1个固定长度的特征向量e_i，i＝1...n+1，其中n表示障碍物的个数；

(b)注意力机制层部分

将步骤(a)的结果的每一特征向量e_i，i＝1...n+1，输入到随后的多层感知机Φ_f(e_i)中以获得成对的人机交互特征f_i；同时e_i，i＝1...n+1被馈送到另一个多层感知机Φ_α(e_i)以获得每个障碍物的注意力分数α_i，该注意力分数代表每个障碍物对移动机器人的相对重要性，即障碍物对移动机器人的潜在干扰的可能大小；由注意力分数加权的交互性特征的线性组合随后被作为环境障碍物特征C_t；

f_i＝Φ_f(e_i)，i＝1，...，n+1 (2)

α_i＝Φ_α(eⁱ)，i＝1，...，n+1 (3)

其中C_t为注意力分数加权的交互性特征的线性组合后的环境特征；将C_t和S_t进行特征融合得到特征H_t；

(c)将特征H_t输入Double Dueling DQN网络得到最佳动作

Double Dueling DQN网络包括两层全连接层ψ_c(H_t；α)和两个支路全连接层；其中一个支路全连接层为状态值函数V(H_t；α，β)，另一个支路全连接层为优势函数A(H_t，a_t；α，η)，两个最终相加才是最终的状态-动作值函数；V(H_t；α，β)是对当前状态的长远判断，而A(H_t，a_t；α，η)则衡量在当前状态下不同动作的好坏；

Q(H_t，a_t；α，β，η)＝V(H_t；α，β)+A(H_t，a_t；α，η) (5)

其中，α为全连接层共享参数，β和η分别为两支路全连接层参数；

步骤(3)设计奖励函数，仿真环境训练深度强化学习网络；

(a)奖励函数设计：

为更好的实现移动机器人与环境的交互，将奖励函数分为三部分R_g，R_c和R_s；R_g设计为成功导航至目标位置，R_c用于惩罚碰撞情况，R_s用于奖赏在导航过程中对所有障碍物保持一个安全距离；

故奖赏函数为：

其中，

和

分别为：

其中，p_t为t时刻移动机器人的位置，p_t-Δt为t-Δt时刻移动机器人的位置，d_g为移动机器人与目标位置之间的距离，

为t时刻移动机器人第i个行人等障碍物之间的最短间隔距离，d_c表示行人能忍受的最小舒适距离，d_c设定值为0.2m；

(b)采用时序差分方式对策略网络进行更新，训练；

目标在于得到最优策略：π^*：J_t→a^t，最大化移动机器人在到达目标点时的累积期望回报：

在t时将J_t输入最优策略即深度强化学习网络中得到最佳执行动作，执行该动作后，再次采集depth图和雷达点云数据经过各自预处理后的下一融合特征J_t+Δt，根据移动机器人导航过程中是否到达目标位置，是否碰撞，是否对行人保持一个安全距离对动作a_t给出一个综合性的奖励R(J_t，a_t)，采用时序差分方式最小化当前值网络的值和目标值网络的目标值之间的时间差分误差值，其目标值为：

其中，w′为目标值网络参数，w表示当前值网络参数，Q(·)为状态-动作值函数，γ∈(0，1)为折扣因子，用于平衡即时奖励和未来的奖励，此处v_pref用于归一化，否则缓慢移动的机器人的价值函数会非常小；每训练T步，将当前值网络的参数复制给目标值网络，接下来T步参数更新的目标将由更新后的目标值网络负责提供；

L(θ)＝∑(y_t-Q(J_t，a_t；w))² (13)

在进行交互更新网络参数时，也会从优先级经验池中获取一些之前经历过的优先级较高的样本参与训练，提高数据使用效率；

(c)虚拟环境仿真训练和测试；

步骤(4)将仿真训练结果迁移至真实移动机器人平台。

2.根据权利要求1所述的一种基于深度强化学习的移动机器人自主避障方法，其特征在于：所述的动作空间由81种离散动作组成，由一个停止动作和80种运动动作，这80种运动动作由5个速度

和16个方向

组合而成。

3.根据权利要求1所述的一种基于深度强化学***台，利用pedsim_ros模型多随机运动行人的障碍场景进行复杂环境场景模拟，模拟传感器使用的模型为RealsenseD435i型的RGB-D相机和2D雷达感知环境状态，设定随机可达目标点，按前面的网络策略进行仿真训练和测试。

4.根据权利要求1所述的一种基于深度强化学习的移动机器人自主避障方法，其特征在于：

所述的将仿真训练结果迁移至真实移动机器人平台，具体为：

(a)实际移动机器人平台搭载2D激光雷达、Intel的Realsense D435i型号的RGB-D相机以及IMU传感器，将实际移动机器人平台利用cartographer建图算法使用激光雷达对室内环境进行建图；

(b)将网络训练结果迁移至实际移动机器人平台上，在含有静态障碍物、动态障碍物以及随机走动的行人的复杂场景中进行导航测试实验，远程主机和移动机器人主机之间通过ROS分布式通信机制进行通信，在远程主机上发布一些命令对移动机器人进行控制，启动雷达节点并将RGB-D相机启动节点打开，打开ROS中的可视化图形工具Rviz，对移动机器人的移动进行实时监测，运行导航节点，通过远程主机在Rviz中发布导航命令即导航目标点位置，即可使移动机器人使用深度强化学习方法进行规划路线动态避障，安全避开随机走动的人群及其他障碍物，顺利到达目标点位置。