CN113759901A - 一种基于深度强化学习的移动机器人自主避障方法 - Google Patents

一种基于深度强化学习的移动机器人自主避障方法 Download PDF

Info

Publication number
CN113759901A
CN113759901A CN202110924145.0A CN202110924145A CN113759901A CN 113759901 A CN113759901 A CN 113759901A CN 202110924145 A CN202110924145 A CN 202110924145A CN 113759901 A CN113759901 A CN 113759901A
Authority
CN
China
Prior art keywords
mobile robot
network
target
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110924145.0A
Other languages
English (en)
Inventor
杨宇翔
黄子情
高明裕
董哲康
林辉品
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110924145.0A priority Critical patent/CN113759901A/zh
Publication of CN113759901A publication Critical patent/CN113759901A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种基于深度强化学习的移动机器人自主避障方法。采用深度强化学习方法通过奖励函数指导移动机器人进行自主避障到达目标位置技能的学习。利用注意力机制判断行人等障碍物对移动机器人的相对重要性即潜在干扰性,通过深度强化学习的方法实现仿真环境与真实环境完成自主避障导航至目标的任务。本发明具有很高的环境适应性和避障成功率,能够在复杂环境下实现移动机器人的自主避障。

Description

一种基于深度强化学习的移动机器人自主避障方法
技术领域
本发明属于智能控制领域,具体涉及含注意力机制的Dueling DQN的深度强化学习的移动机器人自主避障方法。
背景技术
移动机器人自主避障是机器人任务中的一项基本任务,具有广泛的应用场景。基于深度强化学习的移动机器人自主避障是该领域的一个研究热点,深度强化学习方法通过奖励函数来指导智能体自主学习高效有用的路径规划策略,能够实现在复杂环境下的自主避障。本发明在移动机器人自主避障深度强化学习网络中引入注意力机制使网络能够分析障碍物对移动机器人的相对重要性即干扰性的大小,大大提升了复杂环境中移动机器人自主避障的成功率,具有重要的理论价值和实际意义。
发明内容
本发明专利提供了基于深度强化学习的移动机器人自主避障方法,包括以下步骤:
步骤(1):状态空间和动作空间设定
移动机器人的状态信息包括自身大小半径r,由ROS(Robot Operating System,机器人操作***)中amcl节点获取的自身位置p=[px,py],自身运动速度及方向,默认自身运动速度vpref,还包括关于移动机器人到达目标点时的位置g=[gx,gy]和方向θ。
移动机器人通过搭载的深度相机和2D激光雷达观测环境;观测状态空间包括障碍物的位置
Figure BDA0003208594550000011
速度
Figure BDA0003208594550000012
和大小半径ri。t时刻观察状态的第i个障碍物的状态表示为
Figure BDA0003208594550000013
其中的
Figure BDA0003208594550000014
是由Δt内障碍物的位置变化计算而来。在移动机器人初始起点位置时移动机器人为中心,x轴的正方向是从其起点位置到目标位置的方向。以移动机器人为中心的状态St,
Figure BDA0003208594550000015
表示为:
Figure BDA0003208594550000016
动作空间由速度和方向构成的离散动作;
步骤(2):深度强化学习网络构建
基于前置交互性注意力机制的D3QN(Double Dueling DQN)深度强化学习网络,该网络用于估计状态-动作对的Q值,网络分为如下三部分:
(a)利用MLP提取出固定长度的状态特征。
具有ReLU(Rectified Linear Unit)型非线性激活函数的两个多层感知机(MLPs)分别对St
Figure BDA0003208594550000021
进行特征提取,生成固定长度的特征向量,再进行特征融合得到Jt,包含n+1个固定长度的特征向量ei,i=1...n+1,其中n表示障碍物的个数。
(b)注意力机制层部分
将步骤(a)的结果的每一特征向量ei,i=1...n+1,输入到随后的多层感知机Φf(ei)中以获得成对的人机交互特征fi。同时ei,i=1...n+1被馈送到另一个多层感知机Φα(ei)以获得每个障碍物的注意力分数αi,该注意力分数代表每个障碍物对移动机器人的相对重要性,即障碍物对移动机器人的潜在干扰的可能大小。由注意力分数加权的交互性特征的线性组合随后被作为环境障碍物特征Ct
fi=Φf(ei),i=1,...,n+1 (2)
αi=Φα(ei),i=1,...,n+1 (3)
Figure BDA0003208594550000022
其中Ct为注意力分数加权的交互性特征的线性组合后的环境特征。将Ct和St进行特征融合得到特征Ht
(c)将特征Ht输入Double Dueling DQN网络得到最佳动作
Double Dueling DQN网络包括两层全连接层ψc(Ht;α)和两个支路全连接层;其中一个支路全连接层为状态值函数V(Ht;α,β),另一个支路全连接层为优势函数A(Ht,at;α,η),两个最终相加才是最终的状态-动作值函数。V(Ht;α,β)是对当前状态的长远判断,而A(Ht,at;α,η)则衡量在当前状态下不同动作的好坏。
Q(Ht,at;α,β,η)=V(Ht;α,β)+A(Ht,at;α,η) (5)
其中,α为全连接层共享参数,β和η分别为两支路全连接层参数。
步骤(3)设计奖励函数,仿真环境训练深度强化学习网络;
(a)奖励函数设计:
为更好的实现移动机器人与环境的交互,将奖励函数分为三部分Rg,Rc和Rs。Rg设计为成功导航至目标位置,Rc用于惩罚碰撞情况,Rs用于奖赏在导航过程中对所有障碍物保持一个安全距离。
故奖赏函数为:
Figure BDA0003208594550000031
其中,
Figure BDA0003208594550000032
Figure BDA0003208594550000033
分别为:
Figure BDA0003208594550000034
Figure BDA0003208594550000035
Figure BDA0003208594550000036
Figure BDA0003208594550000037
其中,pt为t时刻移动机器人的位置,pt-Δtt-Δt时刻移动机器人的位置,dg为移动机器人与目标位置之间的距离,
Figure BDA0003208594550000038
为t时刻移动机器人第i个行人等障碍物之间的最短间隔距离,dc表示行人能忍受的最小舒适距离,dc设定值为0.2m;
(b)采用时序差分方式对策略网络进行更新,训练。
目标在于得到最优策略:π*:Jt→at,最大化移动机器人在到达目标点时的累积期望回报:
Figure BDA0003208594550000039
在t时将Jt输入最优策略即深度强化学习网络中得到最佳执行动作,执行该动作后,再次采集depth图和雷达点云数据经过各自预处理后的下一融合特征Jt+Δt,根据移动机器人导航过程中是否到达目标位置,是否碰撞,是否对行人保持一个安全距离对动作at给出一个综合性的奖励R(Jt,at),采用时序差分方式最小化当前值网络的值和目标值网络的目标值之间的时间差分误差值,其目标值为:
Figure BDA0003208594550000041
其中,w′为目标值网络参数,w表示当前值网络参数,Q(·)为状态-动作值函数,γ∈(0,1)为折扣因子,用于平衡即时奖励和未来的奖励,此处vpref用于归一化,否则缓慢移动的机器人的价值函数会非常小。每训练T步,将当前值网络的参数复制给目标值网络,接下来T步参数更新的目标将由更新后的目标值网络负责提供;
采用随机梯度下降法对Double Dueling DQN网络参数进行更新,使用均方差定义损失函数:
L(θ)=∑(yt-Q(Jt,at;w))2 (13)
在进行交互更新网络参数时,也会从优先级经验池中获取一些之前经历过的优先级较高的样本参与训练,提高数据使用效率。
(c)虚拟环境仿真训练和测试
仿真环境为ROS的Kinetic版本中的Gazebo(ROS中含有的物理仿真环境)平台,利用pedsim_ros模型多随机运动行人的障碍场景进行复杂环境场景模拟,模拟传感器使用的模型为RealsenseD435i型的RGB-D相机和2D雷达感知环境状态,设定随机可达目标点,按前面的网络策略进行仿真训练和测试。
步骤(4)将仿真训练结果迁移至真实移动机器人平台。
(a)实际移动机器人平台搭载2D激光雷达、Intel的Realsense D435i型号的RGB-D相机以及IMU等传感器,将实际移动机器人平台利用cartographer建图算法使用激光雷达对室内环境进行建图。
(b)将上一步骤中的网络训练结果迁移至实际移动机器人平台上,在含有静态障碍物、动态障碍物以及随机走动的行人的复杂场景中进行导航测试实验,远程主机和移动机器人主机之间通过ROS分布式通信机制进行通信,在远程主机上发布一些命令对移动机器人进行控制,启动雷达节点并将RGB-D相机启动节点打开,打开ROS中的可视化图形工具Rviz,对移动机器人的移动进行实时监测,运行导航节点,通过远程主机在Rviz中发布导航命令即导航目标点位置,即可使移动机器人使用深度强化学习方法进行规划路线动态避障,安全避开随机走动的人群及其他障碍物,顺利到达目标点位置。
作为优选,所述的动作空间由81种离散动作组成,由一个停止动作和80种运动动作,这80种运动动作由5个速度
Figure BDA0003208594550000051
和16个方向
Figure BDA0003208594550000052
组合而成。
本发明具有以下有益的效果:本发明采用深度强化学习方法通过奖励函数指导移动机器人进行的自主避障到达目标位置的学习。利用注意力机制判断行人等障碍物对移动机器人的相对重要性即潜在干扰性,通过深度强化学习的方法实现仿真环境与真实环境完成自主避障导航至目标的任务。通过学习后,该方法能够在复杂环境下完成移动机器人的自主避障到达目标位置任务。
附图说明
图1为本发明的基于深度强化学习的移动机器人自主避障方法的网络结构图。
具体实施方式
本发明专利提供了基于深度强化学习的移动机器人自主避障方法,包括以下步骤:
步骤(1):状态空间和动作空间设定
移动机器人的状态信息包括自身大小半径r=0.3m,由ROS(Robot OperatingSystem,机器人操作***)中amcl节点获取的自身位置p=[px,py],自身运动速度及方向,默认速度vpref=1m/s,还包括关于移动机器人到达目标点时的位置g=[gx,gy]和方向θ。
移动机器人搭载的深度相机和2D激光雷达观测到的环境。深度图大小为80x80,激光雷达频率为40Hz。观测状态空间包括行人等障碍物位置
Figure BDA0003208594550000053
速度
Figure BDA0003208594550000054
和大小半径ri。时刻观察状态的第i个行人或障碍物的状态可表示为
Figure BDA0003208594550000055
其中的
Figure BDA0003208594550000056
是由Δt内行人障碍物的位置变化计算而来。在移动机器人初始起点位置时移动机器人为中心,x轴的正方向是从其起点位置到目标位置的方向。以移动机器人为中心的状态St,
Figure BDA0003208594550000057
可以表示为:
Figure BDA0003208594550000058
动作空间由81种离散动作组成,由一个停止动作和80种运动动作,这80种运动动作由5个速度
Figure BDA0003208594550000061
和16个方向
Figure BDA0003208594550000062
组合而成。
步骤(2):深度强化网络构建
如图1所示,基于前置交互性注意力机制的D3QN(Double Dueling DQN)深度强化学习网络,该网络用于估计状态-动作对的Q值,网络分为如下三部分:
(a)利用MLP提取出固定长度的状态特征。
具有ReLU(Rectified Linear Unit)型非线性激活函数的两个多层感知机(MLPs)分别对St
Figure BDA0003208594550000063
进行特征提取,生成固定长度的特征向量,再进行特征融合得到Jt,包含n+1个固定长度的特征向量ei,i=1...n+1。
(b)注意力机制层部分
将上一步骤结果的每一特征向量ei,i=1...n+1输入到随后的多层感知机Φf(ei)中以获得成对的人机交互特征fi。同时ei,i=1...n+1被馈送到另一个多层感知机Φα(ei)以获得每个行人或运动障碍物的注意力分数αi,该分数代表每个行人或运动障碍物对移动机器人的相对重要性,即行人等障碍物对移动机器人的潜在干扰的可能大小。由注意力分数加权的交互性特征的线性组合随后被作为环境人群特征Ct
fi=Φf(ei),i=1,...,n+1 (2)
αi=Φα(ei),i=1,...,n+1 (3)
Figure BDA0003208594550000064
其中Ct为注意力分数加权的交互性特征的线性组合后的环境特征。将Ct和St进行特征融合得到特征Ht,将其作为Double Dueling DQN的输入。
(c)Double Dueling DQN网络结构部分
Double Dueling DQN网络由两层全连接层ψc(Ht;α),和两个支路全连接层分别用于获取状态值函数V(Ht;α,β)和优势函数A(Ht,at;α,η)组成,两个最终相加才是最终的状态-动作值函数。V(Ht;α,β)是对当前状态的长远判断,而A(Ht,at;α,η)则衡量在当前状态下不同动作的好坏。
Q(Ht,at;α,β,η)=V(Ht;α,β)+A(Ht,at;α,η) (5)
其中,α为全连接层共享参数,β和η分别为两支路全连接层参数。
步骤(3)设计奖励函数,仿真环境训练深度强化学习网络。
(a)奖励函数设计:
为更好的实现移动机器人与环境的交互,将奖励函数分为三部分Rg,Rc和Rs。Rg设计为成功导航至目标位置,Rc用于惩罚碰撞情况,Rs用于奖赏在导航过程中对所有行人保持一个安全距离。
故奖赏函数为:
Figure BDA0003208594550000071
其中,
Figure BDA0003208594550000072
Figure BDA0003208594550000073
分别为:
Figure BDA0003208594550000074
Figure BDA0003208594550000075
Figure BDA0003208594550000076
Figure BDA0003208594550000077
其中,pt为t时刻移动机器人的位置,pt-Δtt-Δt时刻移动机器人的位置,dg为移动机器人与目标位置之间的距离,
Figure BDA0003208594550000078
为t时刻移动机器人第i个行人等障碍物之间的最短间隔距离,dc表示行人能忍受的最小舒适距离,dc设定值为0.2m;
(b)采用时序差分方式对策略网络进行更新,训练。
目标在于得到最优策略:π*:Jt→at,最大化移动机器人在到达目标点时的累积期望回报:
Figure BDA0003208594550000079
在时间t时将Jt输入最优策略即深度强化学习网络中得到最佳执行动作,执行该动作后,再次采集depth图和雷达点云数据经过各自预处理后的下一融合特征Jt+Δt,根据移动机器人导航过程中是否到达目标位置,是否碰撞,是否对行人保持一个安全距离对动作at给出一个综合性的奖励R(Jt,at),采用时序差分方式最小化当前值网络的和目标值网络的目标值之间的时间差分误差值,其目标值为:
Figure BDA0003208594550000081
其中,w′为目标值网络参数,w表示当前值网络参数,γ为折扣因子,用于平衡即时奖励和未来的奖励,此处vpref用于归一化,否则缓慢移动的机器人的价值函数会非常小。在实验中,设置γ=0.5。每训练T=500步,将当前值网络的参数复制给目标值网络,接下来T步参数更新的目标将由更新后的目标值网络负责提供。
采用随机梯度下降法对网络参数进行更新,使用均方差定义损失函数:
L(θ)=∑(yt-Q(Jt,at;w))2 (13)
在进行交互更新网络参数时,也会从优先级经验池中获取一些之前经历过的优先级较高的样本参与训练,提高数据使用效率。
(c)虚拟环境仿真训练和测试
仿真环境为ROS的Kinetic版本中的Gazebo(ROS中含有的物理仿真环境)平台,利用pedsim_ros模型多随机运动行人的障碍场景进行复杂环境场景模拟,模拟传感器使用的模型为RealsenseD435i型的RGB-D相机和2D雷达感知环境状态,设定随机可达目标点,按前面的网络策略进行仿真训练和测试。
步骤(4)将仿真训练结果迁移至真实移动机器人平台。
(a)实际移动机器人平台搭载2D激光雷达、Intel的Realsense D435i型号的RGB-D相机以及IMU等传感器,将实际移动机器人平台利用cartographer建图算法使用激光雷达对室内环境进行建图。
(b)将上一步骤中的网络训练结果迁移至实际移动机器人平台上,在含有静态障碍物、动态障碍物以及随机走动的行人的复杂场景中进行导航测试实验,远程主机和移动机器人主机之间通过ROS分布式通信机制进行通信,在远程主机上发布一些命令对移动机器人进行控制,启动雷达节点并将RGB-D相机启动节点打开,打开ROS中的可视化图形工具Rviz,对移动机器人的移动进行实时监测,运行导航节点,通过远程主机在Rviz中发布导航命令即导航目标点位置,即可使移动机器人使用深度强化学习方法进行规划路线动态避障,安全避开随机走动的人群及其他障碍物,顺利到达目标点位置。

Claims (4)

1.一种基于深度强化学习的移动机器人自主避障方法,其特征在于该方法的具体步骤是:
步骤(1):状态空间和动作空间设定
移动机器人的状态信息包括自身大小半径r,自身位置p=[px,py],自身运动速度及方向,默认自身运动速度vpref,还包括关于移动机器人到达目标点时的位置g=[gx,gy]和方向θ;
移动机器人通过搭载的深度相机和2D激光雷达观测环境;观测状态空间包括障碍物的位置
Figure FDA0003208594540000011
速度
Figure FDA0003208594540000012
和大小半径ri;t时刻观察状态的第i个障碍物的状态表示为
Figure FDA0003208594540000013
其中的
Figure FDA0003208594540000014
是由Δt内障碍物的位置变化计算而来;在移动机器人初始起点位置时移动机器人为中心,x轴的正方向是从其起点位置到目标位置的方向;以移动机器人为中心的状态St
Figure FDA0003208594540000015
表示为:
Figure FDA0003208594540000016
动作空间由速度和方向构成的离散动作;
步骤(2):深度强化学习网络构建
基于前置交互性注意力机制的D3QN深度强化学习网络,该网络用于估计状态-动作对的Q值,网络分为如下三部分:
(a)利用MLP提取出固定长度的状态特征;
具有ReLU型非线性激活函数的两个多层感知机分别对St
Figure FDA0003208594540000017
进行特征提取,生成固定长度的特征向量,再进行特征融合得到J+,包含n+1个固定长度的特征向量ei,i=1...n+1,其中n表示障碍物的个数;
(b)注意力机制层部分
将步骤(a)的结果的每一特征向量ei,i=1...n+1,输入到随后的多层感知机Φf(ei)中以获得成对的人机交互特征fi;同时ei,i=1...n+1被馈送到另一个多层感知机Φα(ei)以获得每个障碍物的注意力分数αi,该注意力分数代表每个障碍物对移动机器人的相对重要性,即障碍物对移动机器人的潜在干扰的可能大小;由注意力分数加权的交互性特征的线性组合随后被作为环境障碍物特征Ct
fi=Φf(ei),i=1,...,n+1 (2)
αi=Φα(ei),i=1,...,n+1 (3)
Figure FDA0003208594540000021
其中Ct为注意力分数加权的交互性特征的线性组合后的环境特征;将Ct和St进行特征融合得到特征Ht
(c)将特征Ht输入Double Dueling DQN网络得到最佳动作
Double Dueling DQN网络包括两层全连接层ψc(Ht;α)和两个支路全连接层;其中一个支路全连接层为状态值函数V(Ht;α,β),另一个支路全连接层为优势函数A(Ht,at;α,η),两个最终相加才是最终的状态-动作值函数;V(Ht;α,β)是对当前状态的长远判断,而A(Ht,at;α,η)则衡量在当前状态下不同动作的好坏;
Q(Ht,at;α,β,η)=V(Ht;α,β)+A(Ht,at;α,η) (5)
其中,α为全连接层共享参数,β和η分别为两支路全连接层参数;
步骤(3)设计奖励函数,仿真环境训练深度强化学习网络;
(a)奖励函数设计:
为更好的实现移动机器人与环境的交互,将奖励函数分为三部分Rg,Rc和Rs;Rg设计为成功导航至目标位置,Rc用于惩罚碰撞情况,Rs用于奖赏在导航过程中对所有障碍物保持一个安全距离;
故奖赏函数为:
Figure FDA0003208594540000022
其中,
Figure FDA0003208594540000023
Figure FDA0003208594540000024
分别为:
Figure FDA0003208594540000025
Figure FDA0003208594540000026
Figure FDA0003208594540000027
Figure FDA0003208594540000028
其中,pt为t时刻移动机器人的位置,pt-Δt为t-Δt时刻移动机器人的位置,dg为移动机器人与目标位置之间的距离,
Figure FDA0003208594540000031
为t时刻移动机器人第i个行人等障碍物之间的最短间隔距离,dc表示行人能忍受的最小舒适距离,dc设定值为0.2m;
(b)采用时序差分方式对策略网络进行更新,训练;
目标在于得到最优策略:π*:Jt→at,最大化移动机器人在到达目标点时的累积期望回报:
Figure FDA0003208594540000032
在t时将Jt输入最优策略即深度强化学习网络中得到最佳执行动作,执行该动作后,再次采集depth图和雷达点云数据经过各自预处理后的下一融合特征Jt+Δt,根据移动机器人导航过程中是否到达目标位置,是否碰撞,是否对行人保持一个安全距离对动作at给出一个综合性的奖励R(Jt,at),采用时序差分方式最小化当前值网络的值和目标值网络的目标值之间的时间差分误差值,其目标值为:
Figure FDA0003208594540000033
其中,w′为目标值网络参数,w表示当前值网络参数,Q(·)为状态-动作值函数,γ∈(0,1)为折扣因子,用于平衡即时奖励和未来的奖励,此处vpref用于归一化,否则缓慢移动的机器人的价值函数会非常小;每训练T步,将当前值网络的参数复制给目标值网络,接下来T步参数更新的目标将由更新后的目标值网络负责提供;
采用随机梯度下降法对Double Dueling DQN网络参数进行更新,使用均方差定义损失函数:
L(θ)=∑(yt-Q(Jt,at;w))2 (13)
在进行交互更新网络参数时,也会从优先级经验池中获取一些之前经历过的优先级较高的样本参与训练,提高数据使用效率;
(c)虚拟环境仿真训练和测试;
步骤(4)将仿真训练结果迁移至真实移动机器人平台。
2.根据权利要求1所述的一种基于深度强化学习的移动机器人自主避障方法,其特征在于:所述的动作空间由81种离散动作组成,由一个停止动作和80种运动动作,这80种运动动作由5个速度
Figure FDA0003208594540000034
和16个方向
Figure FDA0003208594540000035
组合而成。
3.根据权利要求1所述的一种基于深度强化学***台,利用pedsim_ros模型多随机运动行人的障碍场景进行复杂环境场景模拟,模拟传感器使用的模型为RealsenseD435i型的RGB-D相机和2D雷达感知环境状态,设定随机可达目标点,按前面的网络策略进行仿真训练和测试。
4.根据权利要求1所述的一种基于深度强化学习的移动机器人自主避障方法,其特征在于:
所述的将仿真训练结果迁移至真实移动机器人平台,具体为:
(a)实际移动机器人平台搭载2D激光雷达、Intel的Realsense D435i型号的RGB-D相机以及IMU传感器,将实际移动机器人平台利用cartographer建图算法使用激光雷达对室内环境进行建图;
(b)将网络训练结果迁移至实际移动机器人平台上,在含有静态障碍物、动态障碍物以及随机走动的行人的复杂场景中进行导航测试实验,远程主机和移动机器人主机之间通过ROS分布式通信机制进行通信,在远程主机上发布一些命令对移动机器人进行控制,启动雷达节点并将RGB-D相机启动节点打开,打开ROS中的可视化图形工具Rviz,对移动机器人的移动进行实时监测,运行导航节点,通过远程主机在Rviz中发布导航命令即导航目标点位置,即可使移动机器人使用深度强化学习方法进行规划路线动态避障,安全避开随机走动的人群及其他障碍物,顺利到达目标点位置。
CN202110924145.0A 2021-08-12 2021-08-12 一种基于深度强化学习的移动机器人自主避障方法 Pending CN113759901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110924145.0A CN113759901A (zh) 2021-08-12 2021-08-12 一种基于深度强化学习的移动机器人自主避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110924145.0A CN113759901A (zh) 2021-08-12 2021-08-12 一种基于深度强化学习的移动机器人自主避障方法

Publications (1)

Publication Number Publication Date
CN113759901A true CN113759901A (zh) 2021-12-07

Family

ID=78789100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110924145.0A Pending CN113759901A (zh) 2021-08-12 2021-08-12 一种基于深度强化学习的移动机器人自主避障方法

Country Status (1)

Country Link
CN (1) CN113759901A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489059A (zh) * 2022-01-13 2022-05-13 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114510038A (zh) * 2022-01-18 2022-05-17 山东大学 一种在移动人群环境中的机器人导航方法及***
CN115079706A (zh) * 2022-08-16 2022-09-20 合肥工业大学 人机协同控制移动式机器人智能避障方法和***
CN117527570A (zh) * 2023-12-18 2024-02-06 无锡北微传感科技有限公司 基于边缘强化学习的传感器集群位置优化方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019149214A1 (zh) * 2018-02-05 2019-08-08 腾讯科技(深圳)有限公司 一种智能运动设备及其导航方法和存储介质
CN110488872A (zh) * 2019-09-04 2019-11-22 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
CN110883776A (zh) * 2019-11-29 2020-03-17 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN112179367A (zh) * 2020-09-25 2021-01-05 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN112882469A (zh) * 2021-01-14 2021-06-01 浙江大学 一种融合全局训练的深度强化学习避障导航方法
CN112904848A (zh) * 2021-01-18 2021-06-04 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储***多机器人路径规划方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019149214A1 (zh) * 2018-02-05 2019-08-08 腾讯科技(深圳)有限公司 一种智能运动设备及其导航方法和存储介质
CN110488872A (zh) * 2019-09-04 2019-11-22 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
CN110883776A (zh) * 2019-11-29 2020-03-17 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN112179367A (zh) * 2020-09-25 2021-01-05 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN112882469A (zh) * 2021-01-14 2021-06-01 浙江大学 一种融合全局训练的深度强化学习避障导航方法
CN112904848A (zh) * 2021-01-18 2021-06-04 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储***多机器人路径规划方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489059A (zh) * 2022-01-13 2022-05-13 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114489059B (zh) * 2022-01-13 2024-02-02 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114510038A (zh) * 2022-01-18 2022-05-17 山东大学 一种在移动人群环境中的机器人导航方法及***
CN115079706A (zh) * 2022-08-16 2022-09-20 合肥工业大学 人机协同控制移动式机器人智能避障方法和***
CN115079706B (zh) * 2022-08-16 2022-11-15 合肥工业大学 人机协同控制移动式机器人智能避障方法和***
CN117527570A (zh) * 2023-12-18 2024-02-06 无锡北微传感科技有限公司 基于边缘强化学习的传感器集群位置优化方法
CN117527570B (zh) * 2023-12-18 2024-05-17 无锡北微传感科技有限公司 基于边缘强化学习的传感器集群位置优化方法

Similar Documents

Publication Publication Date Title
Ruan et al. Mobile robot navigation based on deep reinforcement learning
Zhu et al. Deep reinforcement learning based mobile robot navigation: A review
CN113759901A (zh) 一种基于深度强化学习的移动机器人自主避障方法
Asoh et al. Socially embedded learning of the office-conversant mobile robot jijo-2
Wu et al. Bnd*-ddqn: Learn to steer autonomously through deep reinforcement learning
Xie et al. Drl-vo: Learning to navigate through crowded dynamic scenes using velocity obstacles
Li et al. A behavior-based mobile robot navigation method with deep reinforcement learning
Müller et al. Autonomous miniature blimp navigation with online motion planning and re-planning
Tung et al. Socially aware robot navigation using deep reinforcement learning
CN113515131A (zh) 基于条件变分自动编码器的移动机器人避障方法及***
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
Honerkamp et al. N $^{2} $ M $^{2} $: Learning Navigation for Arbitrary Mobile Manipulation Motions in Unseen and Dynamic Environments
Xu et al. Avoidance of manual labeling in robotic autonomous navigation through multi-sensory semi-supervised learning
Xu et al. Automated labeling for robotic autonomous navigation through multi-sensory semi-supervised learning on big data
US20220269948A1 (en) Training of a convolutional neural network
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
Zeng et al. Robot navigation in crowd based on dual social attention deep reinforcement learning
Lewis et al. Virtual testing and policy deployment framework for autonomous navigation of an unmanned ground vehicle using reinforcement learning
Luo et al. Recursive neural network based semantic navigation of an autonomous mobile robot through understanding human verbal instructions
Wei et al. Deep reinforcement learning with heuristic corrections for UGV navigation
Lv et al. A deep safe reinforcement learning approach for mapless navigation
CN114396949A (zh) 一种基于ddpg的移动机器人无先验地图导航决策方法
Wang et al. Autonomous obstacle avoidance algorithm of UAVs for automatic terrain following application
Zhang et al. A deep reinforcement learning method for mobile robot path planning in unknown environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination