CN111506063A - 一种基于分层强化学习框架的移动机器人无图导航方法 - Google Patents

一种基于分层强化学习框架的移动机器人无图导航方法 Download PDF

Info

Publication number
CN111506063A
CN111506063A CN202010283116.6A CN202010283116A CN111506063A CN 111506063 A CN111506063 A CN 111506063A CN 202010283116 A CN202010283116 A CN 202010283116A CN 111506063 A CN111506063 A CN 111506063A
Authority
CN
China
Prior art keywords
model
level
navigation
mobile robot
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010283116.6A
Other languages
English (en)
Other versions
CN111506063B (zh
Inventor
李骜
王童
王明会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010283116.6A priority Critical patent/CN111506063B/zh
Publication of CN111506063A publication Critical patent/CN111506063A/zh
Application granted granted Critical
Publication of CN111506063B publication Critical patent/CN111506063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提出一种基于分层强化学习框架的移动机器人无图导航方法,包括如下步骤:步骤1、配置交互式训练环境,设置移动机器人参数;步骤2、构建基于分层强化学习模型的导航控制框架;步骤3、采用联合辅助训练方案对网络模型进行训练;步骤4、利用训练好的模型实现导航任务。相比现有基于深度强化学习的分层控制方法,本发明提出的控制框架通过高层决策自动调控不同低层决策输出行为策略来实现导航控制;在模型训练过程中采用联合辅助训练方案,提升低层避障模型性能的同时又加速高层模型收敛,使得模型更适用于未知复杂环境,提高了无图导航性能。

Description

一种基于分层强化学习框架的移动机器人无图导航方法
技术领域
本发明涉及一种基于分层强化学习框架的移动机器人无图导航方法,属于机器人导航控制领域。
背景技术
导航是指通过实时规划运动方向,实现引导移动机器人无碰撞地移动到目标位置的技术,是移动机器人最基本功能之一,也是机器人控制领域核心研究内容之一。传统导航方法依赖全局高精度地图,计算效率也会随着环境复杂性的增加急剧降低,给移动机器人在复杂环境中顺利完成导航任务带来了困难。基于深度强化学习(Deep ReinforcementLearning,DRL)的无图导航方法通过感知环境进行局部运动规划,受环境复杂程度影响较小,具有较强的适应能力。
DRL无图导航方法的基本框架均是将传感器数据作为状态信息输入到DRL网络模型中,输出控制动作对机器人进行移动控制。为了得到导航控制策略,决策模型在训练过程中要学习避障与接近目标位置两种行为策略相结合的复杂移动策略。由于这两种基础行为策略结合后的奖励函数难以设计,直接学习导航策略具有较高的难度,从而导致模型在复杂环境中难以收敛。
分层导航控制框架的方法则是将导航动作决策过程分解为高层次与低层次两种决策过程,其中低层决策包含两种低级行为策略,分别用于实现避障与接近目标位置两种子任务,而高层决策用于调控低层决策的行为策略输出,由此影响机器人最终的运动策略。由于不同子任务由不同决策模型独立实现,并在高层决策的调控下间接实现导航控制,从而降低了单个决策模型直接学习导航策略的难度。但现有方法中,高层决策过程均是通过手动设计的控制器来实现,难以保证较高的成功率来应对复杂任务环境。除此之外,由于子任务与主(导航)任务在任务奖励上不完全一致,使用固定的预先训练的低层行为策略而不进行进一步的调整,无法完美适用于最终的导航任务,从而影响导航控制的性能。
发明内容
本发明的目的是为了解决移动机器人难以在复杂未知环境下进行无图导航的问题,提供了一种基于分层强化学习控制框架,可以自动将高层策略与低层策略结合起来实现主任务的无图导航方法,提高移动机器人在复杂环境下的导航性能。
本发明提出的技术方案如下:一种基于分层强化学习框架的移动机器人无图导航方法,包括如下步骤:
步骤1、配置交互式训练环境,设置移动机器人参数;
步骤2、构建基于分层强化学习模型的导航控制框架;
步骤3、采用联合辅助训练方案对网络模型进行训练;
步骤4、利用训练好的模型实现导航任务。
进一步的,所述步骤1具体包括如下步骤:
1.1)移动机器人通过与环境交互的方式学习无图导航策略,采用Stage二维模拟器作为训练环境,调整训练环境中的障碍物布局,增加导航难度;
1.2)在模拟器中设置移动机器人的运动方式,添加激光雷达传感器用于感知环境,并设置激光雷达的传感器类型、扫描精度、以及检测范围。
进一步的,所述步骤2具体包括如下步骤:
2.1)基于分层强化学习搭建一种包含高层次与低层次的决策模型,低层决策模型由低层DRL模型与朝向控制器两个部分组成,其中低层DRL模型用于实现避障策略,朝向控制器用于实现目标接近策略,且两者输出的动作均能够对机器人运动进行直接控制;高层决策模型仅由一种高层DRL模型构成,用于选择不同的低层行为策略作为每一步移动的实际控制策略;
所述高层DRL模型与低层DRL模型均采用Dueling-DDQN算法实现,朝向控制器由手动设计实现,根据机器人的相对偏转方向来输出与之相反的控制动作,使得移动机器人的朝向始终趋向于目标点方向;
2.2)实时采集到的传感器数据经过预处理与融合操作后用于输入到不同决策模型中,其中激光雷达扫描数据作为低层DRL模型的输入状态sl;目标点的相对坐标[x,y]作为朝向控制器的输入;机器人的移动线速度和角速度[ν,ω]再与[x,y]、sl进行拼接作为高层DRL模型的状态输入sh
2.3)对于移动机器人的每一步运动,首先高层决策模型根据当前状态sh选择两种低层行为策略之一作为最终的控制策略,然后激活相应的低层决策模型输出控制动作,使得移动机器人以相应的行为策略进行移动;为减小移动机器人在行进过程中由于频繁切换行为策略造成的抖动,不同低层行为策略执行动作的持续时间不同。
进一步的,所述步骤3具体包括如下步骤:
3.1)移动机器人与环境的交互采用回合制;
3.2)在移动机器人与环境交互的过程中,每一步运动后,两种决策模型都将分别从环境中得到各自的反馈奖励,高层模型与低层模型计算奖励的公式分别为:
Figure BDA0002447460140000031
Figure BDA0002447460140000032
其中,η、ε、β和δ为常数,DistObstacle为最小障碍物距离,DistGoal为到目标位置的直线距离,v为线速度大小,Ptime为时间惩罚项,Pcrash为碰撞惩罚项,Psuccess为任务完成奖励;
这些奖励值分别用于组成各自的经验数据来训练模型,并采用不同时间尺度的更新方式对两种DRL模型的网络参数分别进行更新;
3.3)在训练初期,联合训练辅助器代替高层决策模型进行决策,完成对低层行为策略的选择,并激活相应的低层决策模型控制机器人移动;与环境交互产生的经验数据同样用于更新高层DRL模型,辅助器的决策过程表示为:
Figure BDA0002447460140000033
其中,ah为输出的选择动作,0代表选择避障策略,1代表选择接近策略,D为目标方向左右15°范围内的最小障碍物距离,DistGoal为到目标位置的直线距离;
3.4)训练过程中计算每一回合的累积奖励,当累积奖励稳定在预定值以上时,保留此时的网络模型参数作为最终的训练结果。
进一步的,所述步骤4具体包括如下步骤:
4.1)在模拟器环境中通过随机生成坐标点设置移动机器人的起始位置与导航目标点位置,将训练好的决策模型作为导航控制器,在每一时间步接收传感器数据,输出角速度与线速度指令来控制移动机器人的运动;
4.2)将在模拟器中训练好的导航控制模型迁移到真实机器人上使用,结合传感器***与机器人底座驱动***组成完整的导航控制***进行导航。
本发明的有益效果是:
相比现有基于深度强化学习的分层控制方法,本发明提出的控制框架基于分层强化学习,使得高层决策能够自动调控不同低层决策的控制执行顺序,并且输出不同时间尺度的行为策略来实现导航控制;另外,在模型训练阶段采用联合辅助训练方案,提升低层避障模型性能的同时又加速高层模型收敛,使得模型更适用于未知复杂环境,提高了无图导航性能。
附图说明
图1为本发明方法流程图;
图2为本发明方法构建的分层控制框架的结构示意图;
图3为本发明方法的导航控制实现流程图;
图4为本发明方法在虚拟复杂环境中的导航结果示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本发明实施例提供一种基于分层强化学习框架的移动机器人无图导航方法,如图1所示,其主要包括如下步骤:
步骤1、配置交互式训练环境,设置移动机器人参数。
1.1)移动机器人通过与环境交互的方式学习无图导航策略,采用Stage二维模拟器作为训练环境,调整训练环境中的障碍物布局,如包含长走廊、死角与大凹形区域等结构,使其具有较高的导航难度;
1.2)在模拟器中设置移动机器人的运动方式为二轮差速式,并添加单线激光雷达传感器用于感知环境,本实施例中,激光雷达的水平扫描范围设置为240°,扫描精度为1°,距离检测范围为0.05~5.6米。
步骤2、构建基于分层强化学习模型的导航控制框架。
2.1)如图2所示,基于分层强化学习搭建一种包含高层次(high level)与低层次(low level)的决策模型,低层决策模型由低层深度强化学习(DRL)模型与朝向控制器(orientation controller)两个部分组成,其中低层DRL模型用于实现避障策略,朝向控制器用于实现目标接近策略,且两者输出的动作均可对机器人运动进行直接控制;高层决策模型仅由一种高层DRL模型构成,主要用于选择不同的低层行为策略作为每一步移动的实际控制策略;
如图2左半部分内容所示,高层DRL模型基于Dueling-DDQN算法,模型网络结构包括1层参数共享的全连接层、2层参数不共享的全连接层,输出层长度为2,对应两种低层行为策略的选择动作;
如图2右半部分内容所示,上方的低层DRL模型同样基于Dueling-DDQN算法,模型网络结构包括1层参数共享的全连接层、2层参数不共享的全连接层,输出层长度为7,对应7种移动(线速度m/s、角速度rad/s)控制动作,在本实施例中分别为[0.2,0.79],[0.4,0.63],[0.4,0.35],[0.4,0.0],[0.4,-0.35],[0.4,-0.63],[0.2,-0.79]。下方的朝向控制器参数直接由手动进行设定,具体实现过程包括以下操作:根据目标点相对坐标,计算出移动机器人当前朝向相对于目标点方向的累积偏转角度θ,并通过设定阈值对θ进行限定,公式表示为:
Figure BDA0002447460140000051
限定后的取值范围[-1.5π,1.5π]划分为7个区间,分别对应与低层DRL模型相同的7种控制动作,θ所在区间对应的动作即为朝向控制器输出的控制动作,采用该动作进行移动控制能够减小θ,从而使得移动机器人始终趋向于目标点方向移动;
2.2)实时采集到的传感器数据经过处理后作为决策模型的输入状态,本实施例中操作如下:首先对采集到的每一帧原始激光雷达扫描数据进行均匀采样、添加高斯噪声、归一化处理,得到长度为40的一维序列,然后再与其他模态的传感器数据进行融合操作,用于输入到不同决策模型中。其中连续三帧处理后的激光雷达扫描数据平展(flatten)成120维的向量作为低层DRL模型的输入状态sl;目标点的相对坐标[x,y]作为朝向控制器的输入;机器人的运动线速度和角速度[ν,ω]再与[x,y]、sl进行拼接(merge)得到124维的向量,作为高层DRL模型的状态输入sh
2.3)移动机器人的控制频率设为5Hz,对于每一步的移动控制,实现过程如下:首先高层决策模型输入状态sh,得到对两种低层行为策略估计的优势值,然后选择优势值较高的低层行为策略,并激活相应的低层决策模型输出控制动作,即线速度与角速度控制指令,紧接着移动机器人以相应的行为策略(避障或接近目标)进行移动,最终通过两种层次的模型的联合实现导航控制;
特别地,高层模型每次完成决策后,根据被激活的低层行为策略的种类,确定下一次高层决策时刻到来时是否更新高层决策的选择动作,具体流程如图3所示,目标接近策略每次被激活后只进行单步控制,该步动作执行结束后,高层模型继续根据当前状态sh选择性激活行为策略;避障策略每次被激活后则进行连续5步控制,即5步之内高层模型不进行新的决策,移动控制策略依然保持为避障策略,5步移动完成之后,高层模型再继续根据sh选择下一步的行为策略。
步骤3、采用联合辅助训练方案对网络模型进行训练。
3.1)移动机器人与环境的交互采用回合制,本实施例中,在每一回合开始时,移动机器人的初始姿态与目标位置在一定区域内随机设置;当机器人在移动过程中成功到达目标位置、与障碍发生碰撞或超出300步仍未到达目标位置,该回合结束;
3.2)在移动机器人与环境交互的过程中,每一步运动后,两种决策模型都将分别从环境中得到反馈奖励,高层模型与低层模型计算奖励的公式分别为:
Figure BDA0002447460140000061
Figure BDA0002447460140000062
其中,η、ε、β和δ为常数,DistObstacle为最小障碍物距离,DistGoal为到目标位置的直线距离,v为线速度大小,Ptime为时间惩罚项,Pcrash为碰撞惩罚项,Psuccess为任务完成奖励;本实施例中,η、ε、β和δ取值分别为0.04、0.2、0.01和-0.01,Ptime、Pcrash和Psuccess取值分别为-0.02、-10和10;
高层模型的奖励rh通过结合当前步的选择动作ah与始末经历的两种状态sh、sh'组成了本次交互产生的经验数据[sh,ah,sh',rh],并储存到高层经验库中用于更新高层DRL模型的参数;类似的,低层决策模型有[sl,al,sl',rl]储存到低层经验库中,特别地,低层经验库中的交互经验是在导航任务下通过两种行为策略产生的,将其全部用于更新低层DRL模型的参数,使得学习到的避障策略更适合导航任务;
采用不同时间尺度的更新方式对两种DRL模型的网络参数分别进行更新;
本实施例中,用于更新网络参数的公式为:
Figure BDA0002447460140000063
其中,st为当前输入状态,st+k为第k步的输入状态,at为当前动作,at+k为第k步的动作,rt+τ为第τ步的奖励,Q为状态-动作对的价值估计,α为学习率,γ为奖励折扣因子,k为时间尺度,特别的,当用于更新高层DRL决策模型时,k取值为5;当用于更新低层DRL决策模型时,k取值为1;
3.3)在训练初期,联合训练辅助器代替高层决策模型进行决策,完成对低层行为策略的选择并激活相应的低层决策模型,控制机器人移动与环境进行交互,交互产生的经验数据同样存入高层经验库中,用于更新高层DRL模型,辅助器公式如下:
Figure BDA0002447460140000064
其中,ah为输出的选择动作,0代表选择避障策略,1代表选择接近策略,D为目标方向左右15°范围内的最小障碍物距离,DistGoal为到目标位置的直线距离;
3.4)训练过程中计算每一回合的累积奖励,当累积奖励稳定在8以上时,保留此时的网络模型参数作为最终的训练结果。
步骤4、利用训练好的模型实现导航任务。
4.1)在虚拟环境中通过随机生成坐标点设置移动机器人的起始位置与导航目标点位置,将训练好的决策模型作为导航控制器,在每一时间步接收传感器数据,输出角速度与线速度指令来控制移动机器人的运动。实现结果如图4所示,图中三角形为机器人起始点,五角星为导航目标位置,之间的曲线为机器人移动轨迹,由此可知该方法可以避免陷入局部极小等复杂区域,成功地在复杂环境中控制移动机器人实现无图导航;
4.2)模拟器中仿真的激光雷达数据与真实激光雷达传感器所采集到的数据差异较小,因此忽略输入状态在分布上的差异,直接将在模拟器中训练好的导航控制模型迁移到真实机器人上使用,结合传感器***与机器人底座驱动***组成完整的导航控制***,从而进行导航。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种基于分层强化学习框架的移动机器人无图导航方法,其特征在于,包括如下步骤:
步骤1、配置交互式训练环境,设置移动机器人参数;
步骤2、构建基于分层强化学习模型的导航控制框架;
步骤3、采用联合辅助训练方案对网络模型进行训练;
步骤4、利用训练好的模型实现导航任务。
2.根据权利要求1所述的一种基于分层强化学习框架的移动机器人无图导航方法,其特征在于,所述步骤1具体包括如下步骤:
1.1)移动机器人通过与环境交互的方式学习无图导航策略,采用Stage二维模拟器作为训练环境,调整训练环境中的障碍物布局,增加导航难度;
1.2)在模拟器中设置移动机器人的运动方式,添加激光雷达传感器用于感知环境,并设置激光雷达的传感器类型、扫描精度、以及检测范围。
3.根据权利要求1所述的一种基于分层强化学习框架的移动机器人无图导航方法,其特征在于,所述步骤2具体包括如下步骤:
2.1)基于分层强化学习搭建一种包含高层次与低层次的决策模型,低层决策模型由低层DRL模型与朝向控制器两个部分组成,其中低层DRL模型用于实现避障策略,朝向控制器用于实现目标接近策略,且两者输出的动作均能够对机器人运动进行直接控制;高层决策模型仅由一种高层DRL模型构成,用于选择不同的低层行为策略作为每一步移动的实际控制策略;
所述高层DRL模型与低层DRL模型均采用Dueling-DDQN算法实现,朝向控制器由手动设计实现,根据机器人的相对偏转方向来输出与之相反的控制动作,使得移动机器人的朝向始终趋向于目标点方向;
2.2)实时采集到的传感器数据经过预处理与融合操作后用于输入到不同决策模型中,其中激光雷达扫描数据作为低层DRL模型的输入状态sl;目标点的相对坐标[x,y]作为朝向控制器的输入;机器人的移动线速度和角速度[ν,ω]再与[x,y]、sl进行拼接作为高层DRL模型的状态输入sh
2.3)对于移动机器人的每一步运动,首先高层决策模型根据当前状态sh选择两种低层行为策略之一作为最终的控制策略,然后激活相应的低层决策模型输出控制动作,使得移动机器人以相应的行为策略进行移动;为减小移动机器人在行进过程中由于频繁切换行为策略造成的抖动,不同低层行为策略执行动作的持续时间不同。
4.根据权利要求1所述的一种基于分层强化学习框架的移动机器人无图导航方法,其特征在于,所述步骤3具体包括如下步骤:
3.1)移动机器人与环境的交互采用回合制;
3.2)在移动机器人与环境交互的过程中,每一步运动后,两种决策模型都将分别从环境中得到各自的反馈奖励,高层模型与低层模型计算奖励的公式分别为:
Figure FDA0002447460130000021
Figure FDA0002447460130000022
其中,η、ε、β和δ为常数,DistObstacle为最小障碍物距离,DistGoal为到目标位置的直线距离,v为线速度大小,Ptime为时间惩罚项,Pcrash为碰撞惩罚项,Psuccess为任务完成奖励;
这些奖励值分别用于组成各自的经验数据来训练模型,并采用不同时间尺度的更新方式对两种DRL模型的网络参数分别进行更新;
3.3)在训练初期,联合训练辅助器代替高层决策模型进行决策,完成对低层行为策略的选择,并激活相应的低层决策模型控制机器人移动;与环境交互产生的经验数据同样用于更新高层DRL模型,辅助器的决策过程表示为:
Figure FDA0002447460130000023
其中,ah为输出的选择动作,0代表选择避障策略,1代表选择接近策略,D为目标方向左右15°范围内的最小障碍物距离,DistGoal为到目标位置的直线距离;
3.4)训练过程中计算每一回合的累积奖励,当累积奖励稳定在预定值以上时,保留此时的网络模型参数作为最终的训练结果。
5.根据权利要求1所述的一种基于分层强化学习框架的移动机器人无图导航方法,其特征在于,所述步骤4具体包括如下步骤:
4.1)在模拟器环境中通过随机生成坐标点设置移动机器人的起始位置与导航目标点位置,将训练好的决策模型作为导航控制器,在每一时间步接收传感器数据,输出角速度与线速度指令来控制移动机器人的运动;
4.2)将在模拟器中训练好的导航控制模型迁移到真实机器人上使用,结合传感器***与机器人底座驱动***组成完整的导航控制***进行导航。
CN202010283116.6A 2020-04-13 2020-04-13 一种基于分层强化学习框架的移动机器人无图导航方法 Active CN111506063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010283116.6A CN111506063B (zh) 2020-04-13 2020-04-13 一种基于分层强化学习框架的移动机器人无图导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010283116.6A CN111506063B (zh) 2020-04-13 2020-04-13 一种基于分层强化学习框架的移动机器人无图导航方法

Publications (2)

Publication Number Publication Date
CN111506063A true CN111506063A (zh) 2020-08-07
CN111506063B CN111506063B (zh) 2021-08-13

Family

ID=71876013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010283116.6A Active CN111506063B (zh) 2020-04-13 2020-04-13 一种基于分层强化学习框架的移动机器人无图导航方法

Country Status (1)

Country Link
CN (1) CN111506063B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113218399A (zh) * 2021-05-12 2021-08-06 天津大学 一种基于多智能体分层强化学习的迷宫导航方法及装置
CN113253733A (zh) * 2021-06-03 2021-08-13 杭州未名信科科技有限公司 一种基于学习和融合的导航避障方法、装置及***
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN114905505A (zh) * 2022-04-13 2022-08-16 南京邮电大学 一种移动机器人的导航控制方法、***及存储介质
WO2023069567A1 (en) * 2021-10-22 2023-04-27 Nec Laboratories America, Inc. Robotic navigation and transport of objects

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106740846A (zh) * 2016-12-02 2017-05-31 大连理工大学 一种双模式切换的电动汽车自适应巡航控制方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN110782481A (zh) * 2019-10-18 2020-02-11 华中光电技术研究所(中国船舶重工集团有限公司第七一七研究所) 无人艇智能决策方法及***
WO2020036594A1 (en) * 2018-08-14 2020-02-20 Flitsch Robert Methods and apparatus for mobile additive manufacturing
CN110908386A (zh) * 2019-12-09 2020-03-24 中国人民解放军军事科学院国防科技创新研究院 一种无人车分层路径规划方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106740846A (zh) * 2016-12-02 2017-05-31 大连理工大学 一种双模式切换的电动汽车自适应巡航控制方法
WO2020036594A1 (en) * 2018-08-14 2020-02-20 Flitsch Robert Methods and apparatus for mobile additive manufacturing
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN110782481A (zh) * 2019-10-18 2020-02-11 华中光电技术研究所(中国船舶重工集团有限公司第七一七研究所) 无人艇智能决策方法及***
CN110908386A (zh) * 2019-12-09 2020-03-24 中国人民解放军军事科学院国防科技创新研究院 一种无人车分层路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
程鹏辉: "《3DS MAX 6基础与实例快学教程》", 30 November 2004, 上海科学普及出版社 *
董瑶等: "基于深度强化学习的移动机器人路径规划", 《计算机工程与应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113218399A (zh) * 2021-05-12 2021-08-06 天津大学 一种基于多智能体分层强化学习的迷宫导航方法及装置
CN113218399B (zh) * 2021-05-12 2022-10-04 天津大学 一种基于多智能体分层强化学习的迷宫导航方法及装置
CN113253733A (zh) * 2021-06-03 2021-08-13 杭州未名信科科技有限公司 一种基于学习和融合的导航避障方法、装置及***
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
WO2023069567A1 (en) * 2021-10-22 2023-04-27 Nec Laboratories America, Inc. Robotic navigation and transport of objects
CN114905505A (zh) * 2022-04-13 2022-08-16 南京邮电大学 一种移动机器人的导航控制方法、***及存储介质
CN114905505B (zh) * 2022-04-13 2024-04-19 南京邮电大学 一种移动机器人的导航控制方法、***及存储介质

Also Published As

Publication number Publication date
CN111506063B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN111506063B (zh) 一种基于分层强化学习框架的移动机器人无图导航方法
Chen et al. Deep imitation learning for autonomous driving in generic urban scenarios with enhanced safety
Chen et al. Stabilization approaches for reinforcement learning-based end-to-end autonomous driving
Wang et al. A hybrid visual servo controller for robust grasping by wheeled mobile robots
CN111578940B (zh) 一种基于跨传感器迁移学习的室内单目导航方法及***
WO2019076044A1 (zh) 移动机器人局部运动规划方法、装置及计算机存储介质
CN104808590B (zh) 一种基于关键帧策略的移动机器人视觉伺服控制方法
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
Bouton et al. Reinforcement learning with iterative reasoning for merging in dense traffic
JP7130062B2 (ja) 経路決定方法
Cai et al. DQ-GAT: Towards safe and efficient autonomous driving with deep Q-learning and graph attention networks
Qi et al. Learning-based path planning and predictive control for autonomous vehicles with low-cost positioning
Yu et al. A hybrid path planning method for an unmanned cruise ship in water quality sampling
CN112114592B (zh) 一种实现无人机自主穿越可移动框形障碍物的方法
Liu et al. ReinforcementDriving: Exploring trajectories and navigation for autonomous vehicles
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
Yan et al. Real-world learning control for autonomous exploration of a biomimetic robotic shark
Li et al. A real-time and predictive trajectory-generation motion planner for autonomous ground vehicles
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
Smit et al. Informed sampling-based trajectory planner for automated driving in dynamic urban environments
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
Xiang et al. Application of Improved Q-Learning Algorithm in Dynamic Path Planning for Aircraft at Airports
Batkovic Enabling Safe Autonomous Driving in Uncertain Environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant