CN113759901A - 一种基于深度强化学习的移动机器人自主避障方法 - Google Patents
一种基于深度强化学习的移动机器人自主避障方法 Download PDFInfo
- Publication number
- CN113759901A CN113759901A CN202110924145.0A CN202110924145A CN113759901A CN 113759901 A CN113759901 A CN 113759901A CN 202110924145 A CN202110924145 A CN 202110924145A CN 113759901 A CN113759901 A CN 113759901A
- Authority
- CN
- China
- Prior art keywords
- mobile robot
- network
- target
- reinforcement learning
- deep reinforcement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000004088 simulation Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 230000007613 environmental effect Effects 0.000 claims abstract description 4
- 230000033001 locomotion Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 230000009977 dual effect Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000007792 addition Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 208000002177 Cataract Diseases 0.000 claims description 2
- 230000004888 barrier function Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims 1
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明涉及一种基于深度强化学习的移动机器人自主避障方法。采用深度强化学习方法通过奖励函数指导移动机器人进行自主避障到达目标位置技能的学习。利用注意力机制判断行人等障碍物对移动机器人的相对重要性即潜在干扰性,通过深度强化学习的方法实现仿真环境与真实环境完成自主避障导航至目标的任务。本发明具有很高的环境适应性和避障成功率,能够在复杂环境下实现移动机器人的自主避障。
Description
技术领域
本发明属于智能控制领域,具体涉及含注意力机制的Dueling DQN的深度强化学习的移动机器人自主避障方法。
背景技术
移动机器人自主避障是机器人任务中的一项基本任务,具有广泛的应用场景。基于深度强化学习的移动机器人自主避障是该领域的一个研究热点,深度强化学习方法通过奖励函数来指导智能体自主学习高效有用的路径规划策略,能够实现在复杂环境下的自主避障。本发明在移动机器人自主避障深度强化学习网络中引入注意力机制使网络能够分析障碍物对移动机器人的相对重要性即干扰性的大小,大大提升了复杂环境中移动机器人自主避障的成功率,具有重要的理论价值和实际意义。
发明内容
本发明专利提供了基于深度强化学习的移动机器人自主避障方法,包括以下步骤:
步骤(1):状态空间和动作空间设定
移动机器人的状态信息包括自身大小半径r,由ROS(Robot Operating System,机器人操作***)中amcl节点获取的自身位置p=[px,py],自身运动速度及方向,默认自身运动速度vpref,还包括关于移动机器人到达目标点时的位置g=[gx,gy]和方向θ。
移动机器人通过搭载的深度相机和2D激光雷达观测环境;观测状态空间包括障碍物的位置速度和大小半径ri。t时刻观察状态的第i个障碍物的状态表示为其中的是由Δt内障碍物的位置变化计算而来。在移动机器人初始起点位置时移动机器人为中心,x轴的正方向是从其起点位置到目标位置的方向。以移动机器人为中心的状态St,表示为:
动作空间由速度和方向构成的离散动作;
步骤(2):深度强化学习网络构建
基于前置交互性注意力机制的D3QN(Double Dueling DQN)深度强化学习网络,该网络用于估计状态-动作对的Q值,网络分为如下三部分:
(a)利用MLP提取出固定长度的状态特征。
具有ReLU(Rectified Linear Unit)型非线性激活函数的两个多层感知机(MLPs)分别对St和进行特征提取,生成固定长度的特征向量,再进行特征融合得到Jt,包含n+1个固定长度的特征向量ei,i=1...n+1,其中n表示障碍物的个数。
(b)注意力机制层部分
将步骤(a)的结果的每一特征向量ei,i=1...n+1,输入到随后的多层感知机Φf(ei)中以获得成对的人机交互特征fi。同时ei,i=1...n+1被馈送到另一个多层感知机Φα(ei)以获得每个障碍物的注意力分数αi,该注意力分数代表每个障碍物对移动机器人的相对重要性,即障碍物对移动机器人的潜在干扰的可能大小。由注意力分数加权的交互性特征的线性组合随后被作为环境障碍物特征Ct。
fi=Φf(ei),i=1,...,n+1 (2)
αi=Φα(ei),i=1,...,n+1 (3)
其中Ct为注意力分数加权的交互性特征的线性组合后的环境特征。将Ct和St进行特征融合得到特征Ht;
(c)将特征Ht输入Double Dueling DQN网络得到最佳动作
Double Dueling DQN网络包括两层全连接层ψc(Ht;α)和两个支路全连接层;其中一个支路全连接层为状态值函数V(Ht;α,β),另一个支路全连接层为优势函数A(Ht,at;α,η),两个最终相加才是最终的状态-动作值函数。V(Ht;α,β)是对当前状态的长远判断,而A(Ht,at;α,η)则衡量在当前状态下不同动作的好坏。
Q(Ht,at;α,β,η)=V(Ht;α,β)+A(Ht,at;α,η) (5)
其中,α为全连接层共享参数,β和η分别为两支路全连接层参数。
步骤(3)设计奖励函数,仿真环境训练深度强化学习网络;
(a)奖励函数设计:
为更好的实现移动机器人与环境的交互,将奖励函数分为三部分Rg,Rc和Rs。Rg设计为成功导航至目标位置,Rc用于惩罚碰撞情况,Rs用于奖赏在导航过程中对所有障碍物保持一个安全距离。
故奖赏函数为:
其中,pt为t时刻移动机器人的位置,pt-Δt为t-Δt时刻移动机器人的位置,dg为移动机器人与目标位置之间的距离,为t时刻移动机器人第i个行人等障碍物之间的最短间隔距离,dc表示行人能忍受的最小舒适距离,dc设定值为0.2m;
(b)采用时序差分方式对策略网络进行更新,训练。
目标在于得到最优策略:π*:Jt→at,最大化移动机器人在到达目标点时的累积期望回报:
在t时将Jt输入最优策略即深度强化学习网络中得到最佳执行动作,执行该动作后,再次采集depth图和雷达点云数据经过各自预处理后的下一融合特征Jt+Δt,根据移动机器人导航过程中是否到达目标位置,是否碰撞,是否对行人保持一个安全距离对动作at给出一个综合性的奖励R(Jt,at),采用时序差分方式最小化当前值网络的值和目标值网络的目标值之间的时间差分误差值,其目标值为:
其中,w′为目标值网络参数,w表示当前值网络参数,Q(·)为状态-动作值函数,γ∈(0,1)为折扣因子,用于平衡即时奖励和未来的奖励,此处vpref用于归一化,否则缓慢移动的机器人的价值函数会非常小。每训练T步,将当前值网络的参数复制给目标值网络,接下来T步参数更新的目标将由更新后的目标值网络负责提供;
采用随机梯度下降法对Double Dueling DQN网络参数进行更新,使用均方差定义损失函数:
L(θ)=∑(yt-Q(Jt,at;w))2 (13)
在进行交互更新网络参数时,也会从优先级经验池中获取一些之前经历过的优先级较高的样本参与训练,提高数据使用效率。
(c)虚拟环境仿真训练和测试
仿真环境为ROS的Kinetic版本中的Gazebo(ROS中含有的物理仿真环境)平台,利用pedsim_ros模型多随机运动行人的障碍场景进行复杂环境场景模拟,模拟传感器使用的模型为RealsenseD435i型的RGB-D相机和2D雷达感知环境状态,设定随机可达目标点,按前面的网络策略进行仿真训练和测试。
步骤(4)将仿真训练结果迁移至真实移动机器人平台。
(a)实际移动机器人平台搭载2D激光雷达、Intel的Realsense D435i型号的RGB-D相机以及IMU等传感器,将实际移动机器人平台利用cartographer建图算法使用激光雷达对室内环境进行建图。
(b)将上一步骤中的网络训练结果迁移至实际移动机器人平台上,在含有静态障碍物、动态障碍物以及随机走动的行人的复杂场景中进行导航测试实验,远程主机和移动机器人主机之间通过ROS分布式通信机制进行通信,在远程主机上发布一些命令对移动机器人进行控制,启动雷达节点并将RGB-D相机启动节点打开,打开ROS中的可视化图形工具Rviz,对移动机器人的移动进行实时监测,运行导航节点,通过远程主机在Rviz中发布导航命令即导航目标点位置,即可使移动机器人使用深度强化学习方法进行规划路线动态避障,安全避开随机走动的人群及其他障碍物,顺利到达目标点位置。
本发明具有以下有益的效果:本发明采用深度强化学习方法通过奖励函数指导移动机器人进行的自主避障到达目标位置的学习。利用注意力机制判断行人等障碍物对移动机器人的相对重要性即潜在干扰性,通过深度强化学习的方法实现仿真环境与真实环境完成自主避障导航至目标的任务。通过学习后,该方法能够在复杂环境下完成移动机器人的自主避障到达目标位置任务。
附图说明
图1为本发明的基于深度强化学习的移动机器人自主避障方法的网络结构图。
具体实施方式
本发明专利提供了基于深度强化学习的移动机器人自主避障方法,包括以下步骤:
步骤(1):状态空间和动作空间设定
移动机器人的状态信息包括自身大小半径r=0.3m,由ROS(Robot OperatingSystem,机器人操作***)中amcl节点获取的自身位置p=[px,py],自身运动速度及方向,默认速度vpref=1m/s,还包括关于移动机器人到达目标点时的位置g=[gx,gy]和方向θ。
移动机器人搭载的深度相机和2D激光雷达观测到的环境。深度图大小为80x80,激光雷达频率为40Hz。观测状态空间包括行人等障碍物位置速度和大小半径ri。时刻观察状态的第i个行人或障碍物的状态可表示为其中的是由Δt内行人障碍物的位置变化计算而来。在移动机器人初始起点位置时移动机器人为中心,x轴的正方向是从其起点位置到目标位置的方向。以移动机器人为中心的状态St,可以表示为:
步骤(2):深度强化网络构建
如图1所示,基于前置交互性注意力机制的D3QN(Double Dueling DQN)深度强化学习网络,该网络用于估计状态-动作对的Q值,网络分为如下三部分:
(a)利用MLP提取出固定长度的状态特征。
具有ReLU(Rectified Linear Unit)型非线性激活函数的两个多层感知机(MLPs)分别对St和进行特征提取,生成固定长度的特征向量,再进行特征融合得到Jt,包含n+1个固定长度的特征向量ei,i=1...n+1。
(b)注意力机制层部分
将上一步骤结果的每一特征向量ei,i=1...n+1输入到随后的多层感知机Φf(ei)中以获得成对的人机交互特征fi。同时ei,i=1...n+1被馈送到另一个多层感知机Φα(ei)以获得每个行人或运动障碍物的注意力分数αi,该分数代表每个行人或运动障碍物对移动机器人的相对重要性,即行人等障碍物对移动机器人的潜在干扰的可能大小。由注意力分数加权的交互性特征的线性组合随后被作为环境人群特征Ct。
fi=Φf(ei),i=1,...,n+1 (2)
αi=Φα(ei),i=1,...,n+1 (3)
其中Ct为注意力分数加权的交互性特征的线性组合后的环境特征。将Ct和St进行特征融合得到特征Ht,将其作为Double Dueling DQN的输入。
(c)Double Dueling DQN网络结构部分
Double Dueling DQN网络由两层全连接层ψc(Ht;α),和两个支路全连接层分别用于获取状态值函数V(Ht;α,β)和优势函数A(Ht,at;α,η)组成,两个最终相加才是最终的状态-动作值函数。V(Ht;α,β)是对当前状态的长远判断,而A(Ht,at;α,η)则衡量在当前状态下不同动作的好坏。
Q(Ht,at;α,β,η)=V(Ht;α,β)+A(Ht,at;α,η) (5)
其中,α为全连接层共享参数,β和η分别为两支路全连接层参数。
步骤(3)设计奖励函数,仿真环境训练深度强化学习网络。
(a)奖励函数设计:
为更好的实现移动机器人与环境的交互,将奖励函数分为三部分Rg,Rc和Rs。Rg设计为成功导航至目标位置,Rc用于惩罚碰撞情况,Rs用于奖赏在导航过程中对所有行人保持一个安全距离。
故奖赏函数为:
其中,pt为t时刻移动机器人的位置,pt-Δt为t-Δt时刻移动机器人的位置,dg为移动机器人与目标位置之间的距离,为t时刻移动机器人第i个行人等障碍物之间的最短间隔距离,dc表示行人能忍受的最小舒适距离,dc设定值为0.2m;
(b)采用时序差分方式对策略网络进行更新,训练。
目标在于得到最优策略:π*:Jt→at,最大化移动机器人在到达目标点时的累积期望回报:
在时间t时将Jt输入最优策略即深度强化学习网络中得到最佳执行动作,执行该动作后,再次采集depth图和雷达点云数据经过各自预处理后的下一融合特征Jt+Δt,根据移动机器人导航过程中是否到达目标位置,是否碰撞,是否对行人保持一个安全距离对动作at给出一个综合性的奖励R(Jt,at),采用时序差分方式最小化当前值网络的和目标值网络的目标值之间的时间差分误差值,其目标值为:
其中,w′为目标值网络参数,w表示当前值网络参数,γ为折扣因子,用于平衡即时奖励和未来的奖励,此处vpref用于归一化,否则缓慢移动的机器人的价值函数会非常小。在实验中,设置γ=0.5。每训练T=500步,将当前值网络的参数复制给目标值网络,接下来T步参数更新的目标将由更新后的目标值网络负责提供。
采用随机梯度下降法对网络参数进行更新,使用均方差定义损失函数:
L(θ)=∑(yt-Q(Jt,at;w))2 (13)
在进行交互更新网络参数时,也会从优先级经验池中获取一些之前经历过的优先级较高的样本参与训练,提高数据使用效率。
(c)虚拟环境仿真训练和测试
仿真环境为ROS的Kinetic版本中的Gazebo(ROS中含有的物理仿真环境)平台,利用pedsim_ros模型多随机运动行人的障碍场景进行复杂环境场景模拟,模拟传感器使用的模型为RealsenseD435i型的RGB-D相机和2D雷达感知环境状态,设定随机可达目标点,按前面的网络策略进行仿真训练和测试。
步骤(4)将仿真训练结果迁移至真实移动机器人平台。
(a)实际移动机器人平台搭载2D激光雷达、Intel的Realsense D435i型号的RGB-D相机以及IMU等传感器,将实际移动机器人平台利用cartographer建图算法使用激光雷达对室内环境进行建图。
(b)将上一步骤中的网络训练结果迁移至实际移动机器人平台上,在含有静态障碍物、动态障碍物以及随机走动的行人的复杂场景中进行导航测试实验,远程主机和移动机器人主机之间通过ROS分布式通信机制进行通信,在远程主机上发布一些命令对移动机器人进行控制,启动雷达节点并将RGB-D相机启动节点打开,打开ROS中的可视化图形工具Rviz,对移动机器人的移动进行实时监测,运行导航节点,通过远程主机在Rviz中发布导航命令即导航目标点位置,即可使移动机器人使用深度强化学习方法进行规划路线动态避障,安全避开随机走动的人群及其他障碍物,顺利到达目标点位置。
Claims (4)
1.一种基于深度强化学习的移动机器人自主避障方法,其特征在于该方法的具体步骤是:
步骤(1):状态空间和动作空间设定
移动机器人的状态信息包括自身大小半径r,自身位置p=[px,py],自身运动速度及方向,默认自身运动速度vpref,还包括关于移动机器人到达目标点时的位置g=[gx,gy]和方向θ;
移动机器人通过搭载的深度相机和2D激光雷达观测环境;观测状态空间包括障碍物的位置速度和大小半径ri;t时刻观察状态的第i个障碍物的状态表示为其中的是由Δt内障碍物的位置变化计算而来;在移动机器人初始起点位置时移动机器人为中心,x轴的正方向是从其起点位置到目标位置的方向;以移动机器人为中心的状态St,表示为:
动作空间由速度和方向构成的离散动作;
步骤(2):深度强化学习网络构建
基于前置交互性注意力机制的D3QN深度强化学习网络,该网络用于估计状态-动作对的Q值,网络分为如下三部分:
(a)利用MLP提取出固定长度的状态特征;
(b)注意力机制层部分
将步骤(a)的结果的每一特征向量ei,i=1...n+1,输入到随后的多层感知机Φf(ei)中以获得成对的人机交互特征fi;同时ei,i=1...n+1被馈送到另一个多层感知机Φα(ei)以获得每个障碍物的注意力分数αi,该注意力分数代表每个障碍物对移动机器人的相对重要性,即障碍物对移动机器人的潜在干扰的可能大小;由注意力分数加权的交互性特征的线性组合随后被作为环境障碍物特征Ct;
fi=Φf(ei),i=1,...,n+1 (2)
αi=Φα(ei),i=1,...,n+1 (3)
其中Ct为注意力分数加权的交互性特征的线性组合后的环境特征;将Ct和St进行特征融合得到特征Ht;
(c)将特征Ht输入Double Dueling DQN网络得到最佳动作
Double Dueling DQN网络包括两层全连接层ψc(Ht;α)和两个支路全连接层;其中一个支路全连接层为状态值函数V(Ht;α,β),另一个支路全连接层为优势函数A(Ht,at;α,η),两个最终相加才是最终的状态-动作值函数;V(Ht;α,β)是对当前状态的长远判断,而A(Ht,at;α,η)则衡量在当前状态下不同动作的好坏;
Q(Ht,at;α,β,η)=V(Ht;α,β)+A(Ht,at;α,η) (5)
其中,α为全连接层共享参数,β和η分别为两支路全连接层参数;
步骤(3)设计奖励函数,仿真环境训练深度强化学习网络;
(a)奖励函数设计:
为更好的实现移动机器人与环境的交互,将奖励函数分为三部分Rg,Rc和Rs;Rg设计为成功导航至目标位置,Rc用于惩罚碰撞情况,Rs用于奖赏在导航过程中对所有障碍物保持一个安全距离;
故奖赏函数为:
其中,pt为t时刻移动机器人的位置,pt-Δt为t-Δt时刻移动机器人的位置,dg为移动机器人与目标位置之间的距离,为t时刻移动机器人第i个行人等障碍物之间的最短间隔距离,dc表示行人能忍受的最小舒适距离,dc设定值为0.2m;
(b)采用时序差分方式对策略网络进行更新,训练;
目标在于得到最优策略:π*:Jt→at,最大化移动机器人在到达目标点时的累积期望回报:
在t时将Jt输入最优策略即深度强化学习网络中得到最佳执行动作,执行该动作后,再次采集depth图和雷达点云数据经过各自预处理后的下一融合特征Jt+Δt,根据移动机器人导航过程中是否到达目标位置,是否碰撞,是否对行人保持一个安全距离对动作at给出一个综合性的奖励R(Jt,at),采用时序差分方式最小化当前值网络的值和目标值网络的目标值之间的时间差分误差值,其目标值为:
其中,w′为目标值网络参数,w表示当前值网络参数,Q(·)为状态-动作值函数,γ∈(0,1)为折扣因子,用于平衡即时奖励和未来的奖励,此处vpref用于归一化,否则缓慢移动的机器人的价值函数会非常小;每训练T步,将当前值网络的参数复制给目标值网络,接下来T步参数更新的目标将由更新后的目标值网络负责提供;
采用随机梯度下降法对Double Dueling DQN网络参数进行更新,使用均方差定义损失函数:
L(θ)=∑(yt-Q(Jt,at;w))2 (13)
在进行交互更新网络参数时,也会从优先级经验池中获取一些之前经历过的优先级较高的样本参与训练,提高数据使用效率;
(c)虚拟环境仿真训练和测试;
步骤(4)将仿真训练结果迁移至真实移动机器人平台。
3.根据权利要求1所述的一种基于深度强化学***台,利用pedsim_ros模型多随机运动行人的障碍场景进行复杂环境场景模拟,模拟传感器使用的模型为RealsenseD435i型的RGB-D相机和2D雷达感知环境状态,设定随机可达目标点,按前面的网络策略进行仿真训练和测试。
4.根据权利要求1所述的一种基于深度强化学习的移动机器人自主避障方法,其特征在于:
所述的将仿真训练结果迁移至真实移动机器人平台,具体为:
(a)实际移动机器人平台搭载2D激光雷达、Intel的Realsense D435i型号的RGB-D相机以及IMU传感器,将实际移动机器人平台利用cartographer建图算法使用激光雷达对室内环境进行建图;
(b)将网络训练结果迁移至实际移动机器人平台上,在含有静态障碍物、动态障碍物以及随机走动的行人的复杂场景中进行导航测试实验,远程主机和移动机器人主机之间通过ROS分布式通信机制进行通信,在远程主机上发布一些命令对移动机器人进行控制,启动雷达节点并将RGB-D相机启动节点打开,打开ROS中的可视化图形工具Rviz,对移动机器人的移动进行实时监测,运行导航节点,通过远程主机在Rviz中发布导航命令即导航目标点位置,即可使移动机器人使用深度强化学习方法进行规划路线动态避障,安全避开随机走动的人群及其他障碍物,顺利到达目标点位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110924145.0A CN113759901A (zh) | 2021-08-12 | 2021-08-12 | 一种基于深度强化学习的移动机器人自主避障方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110924145.0A CN113759901A (zh) | 2021-08-12 | 2021-08-12 | 一种基于深度强化学习的移动机器人自主避障方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113759901A true CN113759901A (zh) | 2021-12-07 |
Family
ID=78789100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110924145.0A Pending CN113759901A (zh) | 2021-08-12 | 2021-08-12 | 一种基于深度强化学习的移动机器人自主避障方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113759901A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114489059A (zh) * | 2022-01-13 | 2022-05-13 | 沈阳建筑大学 | 基于d3qn-per移动机器人路径规划方法 |
CN114510038A (zh) * | 2022-01-18 | 2022-05-17 | 山东大学 | 一种在移动人群环境中的机器人导航方法及*** |
CN115079706A (zh) * | 2022-08-16 | 2022-09-20 | 合肥工业大学 | 人机协同控制移动式机器人智能避障方法和*** |
CN117527570A (zh) * | 2023-12-18 | 2024-02-06 | 无锡北微传感科技有限公司 | 基于边缘强化学习的传感器集群位置优化方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019149214A1 (zh) * | 2018-02-05 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 一种智能运动设备及其导航方法和存储介质 |
CN110488872A (zh) * | 2019-09-04 | 2019-11-22 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的无人机实时路径规划方法 |
CN110883776A (zh) * | 2019-11-29 | 2020-03-17 | 河南大学 | 一种快速搜索机制下改进dqn的机器人路径规划算法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112882469A (zh) * | 2021-01-14 | 2021-06-01 | 浙江大学 | 一种融合全局训练的深度强化学习避障导航方法 |
CN112904848A (zh) * | 2021-01-18 | 2021-06-04 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN113110509A (zh) * | 2021-05-17 | 2021-07-13 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的仓储***多机器人路径规划方法 |
-
2021
- 2021-08-12 CN CN202110924145.0A patent/CN113759901A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019149214A1 (zh) * | 2018-02-05 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 一种智能运动设备及其导航方法和存储介质 |
CN110488872A (zh) * | 2019-09-04 | 2019-11-22 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的无人机实时路径规划方法 |
CN110883776A (zh) * | 2019-11-29 | 2020-03-17 | 河南大学 | 一种快速搜索机制下改进dqn的机器人路径规划算法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112882469A (zh) * | 2021-01-14 | 2021-06-01 | 浙江大学 | 一种融合全局训练的深度强化学习避障导航方法 |
CN112904848A (zh) * | 2021-01-18 | 2021-06-04 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN113110509A (zh) * | 2021-05-17 | 2021-07-13 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的仓储***多机器人路径规划方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114489059A (zh) * | 2022-01-13 | 2022-05-13 | 沈阳建筑大学 | 基于d3qn-per移动机器人路径规划方法 |
CN114489059B (zh) * | 2022-01-13 | 2024-02-02 | 沈阳建筑大学 | 基于d3qn-per移动机器人路径规划方法 |
CN114510038A (zh) * | 2022-01-18 | 2022-05-17 | 山东大学 | 一种在移动人群环境中的机器人导航方法及*** |
CN115079706A (zh) * | 2022-08-16 | 2022-09-20 | 合肥工业大学 | 人机协同控制移动式机器人智能避障方法和*** |
CN115079706B (zh) * | 2022-08-16 | 2022-11-15 | 合肥工业大学 | 人机协同控制移动式机器人智能避障方法和*** |
CN117527570A (zh) * | 2023-12-18 | 2024-02-06 | 无锡北微传感科技有限公司 | 基于边缘强化学习的传感器集群位置优化方法 |
CN117527570B (zh) * | 2023-12-18 | 2024-05-17 | 无锡北微传感科技有限公司 | 基于边缘强化学习的传感器集群位置优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ruan et al. | Mobile robot navigation based on deep reinforcement learning | |
Zhu et al. | Deep reinforcement learning based mobile robot navigation: A review | |
CN113759901A (zh) | 一种基于深度强化学习的移动机器人自主避障方法 | |
Asoh et al. | Socially embedded learning of the office-conversant mobile robot jijo-2 | |
Wu et al. | Bnd*-ddqn: Learn to steer autonomously through deep reinforcement learning | |
Xie et al. | Drl-vo: Learning to navigate through crowded dynamic scenes using velocity obstacles | |
Li et al. | A behavior-based mobile robot navigation method with deep reinforcement learning | |
Müller et al. | Autonomous miniature blimp navigation with online motion planning and re-planning | |
Tung et al. | Socially aware robot navigation using deep reinforcement learning | |
CN113515131A (zh) | 基于条件变分自动编码器的移动机器人避障方法及*** | |
CN116679711A (zh) | 一种基于有模型与无模型强化学习的机器人避障方法 | |
Honerkamp et al. | N $^{2} $ M $^{2} $: Learning Navigation for Arbitrary Mobile Manipulation Motions in Unseen and Dynamic Environments | |
Xu et al. | Avoidance of manual labeling in robotic autonomous navigation through multi-sensory semi-supervised learning | |
Xu et al. | Automated labeling for robotic autonomous navigation through multi-sensory semi-supervised learning on big data | |
US20220269948A1 (en) | Training of a convolutional neural network | |
Ejaz et al. | Autonomous visual navigation using deep reinforcement learning: An overview | |
CN113959446B (zh) | 一种基于神经网络的机器人自主物流运输导航方法 | |
Zeng et al. | Robot navigation in crowd based on dual social attention deep reinforcement learning | |
Lewis et al. | Virtual testing and policy deployment framework for autonomous navigation of an unmanned ground vehicle using reinforcement learning | |
Luo et al. | Recursive neural network based semantic navigation of an autonomous mobile robot through understanding human verbal instructions | |
Wei et al. | Deep reinforcement learning with heuristic corrections for UGV navigation | |
Lv et al. | A deep safe reinforcement learning approach for mapless navigation | |
CN114396949A (zh) | 一种基于ddpg的移动机器人无先验地图导航决策方法 | |
Wang et al. | Autonomous obstacle avoidance algorithm of UAVs for automatic terrain following application | |
Zhang et al. | A deep reinforcement learning method for mobile robot path planning in unknown environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |