CN111221340B - 一种基于粗粒度特征的可迁移视觉导航设计方法 - Google Patents

一种基于粗粒度特征的可迁移视觉导航设计方法 Download PDF

Info

Publication number
CN111221340B
CN111221340B CN202010084879.8A CN202010084879A CN111221340B CN 111221340 B CN111221340 B CN 111221340B CN 202010084879 A CN202010084879 A CN 202010084879A CN 111221340 B CN111221340 B CN 111221340B
Authority
CN
China
Prior art keywords
navigation
coarse
grained
neural network
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010084879.8A
Other languages
English (en)
Other versions
CN111221340A (zh
Inventor
汪晨
曾凡玉
葛树志
***·阿卜杜拉齐兹·埃尔多索基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010084879.8A priority Critical patent/CN111221340B/zh
Publication of CN111221340A publication Critical patent/CN111221340A/zh
Application granted granted Critical
Publication of CN111221340B publication Critical patent/CN111221340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于粗粒度特征的可迁移视觉导航设计方法,涉及自主导航技术领域,其通过在多组不同的虚拟环境中训练独立粗粒度特征模块,确保粗粒度特征模块学习的特征映射适用于不同的导航任务,可迁移性强;在新的导航任务中,直接加载已训练完成的独立粗粒度特征模块,因此仅需训练粗粒度特征模块以外的其余神经网络参数,即可完成新的导航任务,训练的计算量非常小,同时导航神经网络因具有粗粒度模块而具有强大的特征提取能力;独立粗粒度特征模块是独立于特征提取网络的独立模块,可配合使用者自身构建的网络使用,无需重新构建、训练神经网络,只需在深度学习框架中加载已训练模型即可,操作非常简单。

Description

一种基于粗粒度特征的可迁移视觉导航设计方法
技术领域
本发明涉及自主导航技术领域,具体而言,涉及一种基于粗粒度特征的可迁移视觉导航设计方法。
背景技术
自主导航是无人驾驶和移动机器人中的重要问题,其目的是智能体在未知场景中移动至指定位置。自主导航在机器人、无人驾驶等领域应用广泛,尤其是无人驾驶中的一个重要研究领域。自主导航保证车辆、机器人在复杂场景中有效移动,是实现车辆与机器人智能化的前提条件。因此,导航是无人驾驶、自主机器人领域中一个极其重要的研究课题,主要包含两类不同的导航方法:基于同步定位与建图(SLAM)的导航算法和基于视觉的深度强化学习导航算法。
SLAM导航算法主要用于解决机器人在未知环境运动时的定位与地图构建问题。根据使用传感器的不同,SLAM导航算法又可分为基于激光雷达的Lidar-SLAM和基于视觉的Visual-SLAM。虽然两者使用的传感器不同,就其工作原理的本质上都是利用传感器感知周围环境,通过视觉里程即估计两个时刻的相对运动,后端处理视觉里程计估计结果的累积误差,根据前端与后端得到的运动轨迹来建立虚拟环境地图,最后通过回环检测考虑同一场景不同时刻的图像,提供空间上约束来消除累积误差。SLAM导航算法的有效性极大程度上受限于传感器的精度,而高精度传感器的价格导致该方法硬件成本高,难以推广。此外,复杂动态场景难以建模,同时建图与定位的迭代计算无法避免地会造成定位误差累积,难以通过回环检测完全消除,从而降低了SLAM算法的鲁棒性与可靠性。
基于视觉的深度强化学习导航算法利用摄像头获取场景图像信息,通过多层卷积神经网络提取场景特征信息输入多层全连接神经网络,从而实现端到端的控制决策,输出机器人等智能体的动作指令。随着近年国内外学者对深度强化学习研究的深入,长短期记忆网络、外部记忆等模块被加入深度强化学习导航算法的框架中通过自适应地储存以往地状态与动作信息提高导航算法地性能。此外,有的学者融合视觉图像与速度、加速度、场景深度等信息,构造相应代价函数以加速导航算法收敛。
相比传统的SLAM导航方法,基于视觉的深度强化学习导航方法主要通过工业相机捕捉场景图像降低制造成本,同时克服传统SLAM方法对复杂多变场景难以建模的技术难点。然而,深度强化学习导航算法通过大量样本数据训练神经网络,主要存在两个方面的缺陷。一、训练成本高。随着神经网络深度增加,网络参数数量急剧上升。目前通过GPU、TPU训练神经网络需几天,甚至几十天。二、模型迁移性差。单一场景训练会导致神经网络过拟合,即已训练模型难以应用于其他环境,而多场景训练时算法难以收敛。在新环境的导航模型只能从头开始训练。
发明内容
本发明在于提供一种基于粗粒度特征的可迁移视觉导航设计方法,其能够缓解上述问题。
为了缓解上述的问题,本发明采取的技术方案如下:
本发明提供了一种基于粗粒度特征的可迁移视觉导航设计方法,包括以下步骤:
S100、构建一个独立粗粒度特征模块以及m个包含粗粒度特征模块的导航神经网络Ⅰ,并初始化神经网络参数,m≥2;
S200、随机生成m个不同的虚拟导航环境,并在各个虚拟导航环境中均初始化一个虚拟移动机器人Ⅰ,所述导航神经网络Ⅰ与所述虚拟导航环境一一对应,m个虚拟导航环境、m个虚拟移动机器人Ⅰ以及m个导航神经网络Ⅰ构成m个更新条件,每个更新条件由相对应的一个虚拟导航环境、一个虚拟移动机器人Ⅰ以及一个导航神经网络Ⅰ构成;
S300、利用各更新条件训练更新所述独立粗粒度特征模块,直至独立粗粒度特征模块收敛,将收敛的独立粗粒度特征模块作为最终独立粗粒度特征模块;
S400、构建一个包含有粗粒度特征模块的导航神经网络Ⅱ,并初始化神经网络参数,利用所述最终独立粗粒度特征模块的参数对所述导航神经网络Ⅱ的粗粒度特征模块的参数进行更新,得到导航神经网络Ⅲ;
S500、在新导航环境中初始化一个虚拟移动机器人Ⅱ;
S600、利用新导航环境和虚拟移动机器人Ⅱ,训练更新所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络参数,得到导航神经网络Ⅳ,完成在新导航环境中的导航设计。
本技术方案的技术效果是:
通过在多组不同的虚拟环境中训练独立粗粒度特征模块,确保粗粒度特征模块学习的特征映射适用于不同的导航任务,这样的粗粒度特征模块能够提取多环境导航中的共有知识,适用于不同的导航任务,从而具有更强的泛化性能,相比局限于单一环境导航任务的神经网络,可迁移性更强;
在新的导航任务中,直接加载已训练完成的独立粗粒度特征模块,因此仅需训练粗粒度特征模块以外的其余神经网络参数,即可完成新的导航任务,训练的计算量非常小,大大降低了时间成本,同时导航神经网络因具有粗粒度模块而具有强大的特征提取能力,尤其在新任务场景变化较大的情况下,本发明相比重新训练神经网络可以减少训练时间;
独立粗粒度特征模块是独立于特征提取网络的独立模块,可配合使用者自身构建的网络使用,无需重新构建、训练神经网络,只需在深度学习框架中加载已训练模型即可,操作非常简单。
可选地,所述环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、目标物形状、目标物尺寸和目标物纹理。
本技术方案的技术效果是:通过设置上述构成因子可以有效确保各个虚拟导航环境不完全相同,从而每个更新条件不尽相同。不同更新条件对独立粗粒度特征模块的更新使得其能够提取到描述不同虚拟导航环境的共同粗粒度特征,由此提高独立粗粒度模块的可迁移性与泛化性能。
具体地,所述步骤S300中,每次对所述独立粗粒度特征模块进行训练更新的过程包括以下步骤:
S301、令导航神经网络Ⅰ控制虚拟导航环境内的虚拟移动机器人Ⅰ连续导航交互t次,得到包含t个交互样本的交互样本序列Ⅰ;
S302、利用交互样本序列Ⅰ根据强化学习算法计算并保存导航神经网络Ⅰ的粗粒度特征模块梯度,更新导航神经网络Ⅰ的参数;
S303、利用所保存的导航神经网络Ⅰ的粗粒度特征模块梯度,通过梯度下降法更新独立粗粒度特征模块;
S304、利用更新后的独立粗粒度特征模块的神经网络参数再次更新导航神经网络Ⅰ的参数;
S305、重复步骤S301至步骤S304,直至导航神经网络Ⅰ收敛,输出收敛的导航神经网络Ⅰ所对应的独立粗粒度特征模块。
本技术方案的技术效果是:通过导航神经网络控制虚拟移动机器人与虚拟导航环境连续交互获得交互样本,利用交互样本更新导航神经网络与独立粗粒度特征模块保证该导航神经网络有效学习在对应虚拟环境中的导航能力,最终确保独立粗粒度特征学习到适用于该虚拟环境的特征提取能力。
具体地,所述交互样本由机器人完成动作前的感知场景视觉图像、机器人动作、环境反馈奖励以及机器人完成动作后的感知场景视觉图像组成;
所述虚拟移动机器人在环境中的导航交互过程为:
虚拟移动机器人在动作前获取环境的感知场景视觉图像,通过导航神经网络生成机器人动作,虚拟移动机器按照所生成的机器人动作移动,待其完成机器人动作后,再次获取环境的感知场景视觉图像,并得到环境反馈奖励。
可选地,所述环境反馈奖励用正负数值表示,当虚拟移动机器人在规定导航时间内到达目标物***置,则得到正数值奖励,否则得到负数值奖励。
本技术方案的技术效果是:设置正数值奖励有助于虚拟机器人学习到正确的动作,从而指导虚拟机器人导航至目标位置,而负数值奖励有助于虚拟机器人摒弃错误的动作,例如撞墙或错误路线,从而使虚拟机器人选择最短路径达到目的地。
可选地,m个虚拟移动机器人Ⅰ在各自对应的虚拟导航环境中同时进行连续导航交互。
本技术方案的技术效果是:不同虚拟移动机器人与各自对应的虚拟导航环境同时交互,有助于减少整体训练时间,从而有助于提高方案效率。
可选地,所述步骤S300中,各更新条件异步对独立粗粒度特征模块进行训练更新。
本技术方案的技术效果是:不同虚拟导航环境的更新条件对独立粗粒度特征模块异步更新充分利用了不同环境的导航信息,能够避免独立粗粒度模块对于单一虚拟环境的过拟合,从而提高独立粗粒度特征模块对不同环境的适应能力,增强其可迁移性和泛化能力。
具体地,所述步骤S600具体包括以下步骤:
S601、令所述导航神经网络Ⅲ控制虚拟移动机器人Ⅱ在新导航环境中连续导航交互若干次,得到包含若干交互样本的交互样本序列Ⅱ;
S602、利用交互样本序列Ⅱ训练更新所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络参数,得到导航神经网络Ⅳ;
S603、重复步骤S601至步骤S602,直至导航神经网络Ⅳ收敛,输出收敛后的导航神经网络Ⅳ,完成在新导航环境中的导航设计。
本技术方案的技术效果是:导航神经网络III由粗粒度特征模块、细粒度特征模块、决策网络构成。加载已保存粗粒度模块能够提取新导航环境中通用的粗粒度导航特征,而在新导航环境中导航训练细粒度特征模块有助于其学习到适用于新导航环境的特有细粒度导航特征,结合通用粗粒度导航特征与特有细粒度导航特征输入决策网络、输出动作行为,从而保证导航机器人在新环境更精确地导航。同时由于加载的粗粒度模块已训练完毕,仅训练细粒度导航特征模块和决策网络能够减少训练时间。最终实现在短时间内获得适用于新导航环境的导航神经网络III。
可选地,所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络指的是细粒度特征模块以及决策网络。
可选地,所述独立粗粒度特征模块和导航神经网络Ⅰ的神经网络参数通过正态分布函数N(μ=0,σ=0.1)随机初始化。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是所述基于粗粒度特征的可迁移视觉导航设计方法流程图;
图2是独立粗粒度特征模块以及包含有粗粒度特征的导航神经网络的结构示意图;
图3是VizDoom导航环境示意图;
图4是基于粗粒度特征的导航网络异步更新示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参照图1,本实施例提供了一种基于粗粒度特征的可迁移视觉导航设计方法。
第一步、构建一个独立粗粒度特征模块K以及两个包含粗粒度特征模块的导航神经网络ⅠAgent1、Agent2,并初始化神经网络参数。
导航神经网络Ⅰ的结构如图2(左)所示,独立粗粒度特征模块K如图2(右)所示。
导航神经网络Ⅰ具体构建过程如下:
1)构建粗粒度特征模块和细粒度特征模块,特征模块均由卷积神经网络构成;细粒度特征模块用于提取表达环境场景的特有特征向量φ(St),粗粒度特征模块用于提取通用特征向量
Figure BDA0002381689880000061
2)将φ(St)与
Figure BDA0002381689880000062
拼接后输入决策网络,决策网络由多层全连接网络构成,分别输出状态值vt与动作At
3)根据强化学习算法,为导航神经网络Ⅰ构造损失函数L1训练细粒度特征模块与决策网络,构造损失函数L2训练粗粒度特征模块,损失函数的计算公式如下:
Figure BDA0002381689880000063
Figure BDA0002381689880000064
式中,α1、α2、β1、和β2为权重超参数;St、St+1、At和Rt分别表示为机器人完成动作前的感知场景视觉图像、机器人完成动作后的感知场景视觉图像、机器人动作和环境反馈奖励,t=1,2,...;
Figure BDA0002381689880000065
φ(St)分别表示为图像经过细粒度特征模块和粗粒度特征模块的特征向量;
Figure BDA0002381689880000066
和P(φ(St)|St)分别表示当前图像St经过导航神经网络得到动作At和φ(St)的概率。
在本实施例中,利用正态分布函数N(μ=0,σ=0.1)随机初始化独立粗粒度特征模块和导航神经网络Ⅰ的神经网络参数。
第二步、随机生成两个不同的虚拟导航环境E1、E2,并分别在E1和E2中初始化虚拟移动机器人ⅠRobot1、Robot2,E1与Agent1对应,E2与Agent2对应,一共构成两个更新条件,第一个更新条件由E1、Robot1和Agent1构成,第二个更新条件由E2、Robot2和Agent2构成。
在本实施例中,是在VizDoom中生成E1、E2,VizDoom导航环境示意如图3所示,环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、目标物形状、目标物尺寸和目标物纹理。虚拟机器人的任务是在虚拟导航环境中到达邮筒状目标物***置T,在规定时间内到达目标物***置则得到+1.0正奖励,否则机器人每走一步得到-0.001负奖励,完成导航任务或逾时都将重置导航环境,每次导航环境重置时,智能体、障碍物以及目标物的位置都随机初始化。
第三步、利用利用各更新条件训练更新所述独立粗粒度特征模块,直至独立粗粒度特征模块收敛,将收敛的独立粗粒度特征模块作为最终独立粗粒度特征模块。
每个更新条件对独立粗粒度特征模块的更新均不止一次,直到算法收敛即可停止训练,通常情况下,每个更新条件至少更新上千次。
在本实施例中,每次更新时,均需要采用导航交互方式,在E1、E2中交互时,E1、E2中的交互过程同时进行,由于交互速度不同,因此,两个更新条件异步对独立粗粒度特征模块K进行训练更新,即其中一个更新条件对独立粗粒度特征模块K进行更新后,另一个更新条件再在经过一次更新后的独立粗粒度特征模块K进行更新,如图4所示。
由E1、Robot1和Agent1构成的更新条件以及由E2、Robot2和Agent2构成的更新条件对独立粗粒度特征模块K进行更新的过程相同,设i为虚拟导航环境序号,其取值为1或2,当其取1时,表示采用了由E1、Robot1和Agent1构成的更新条件对独立粗粒度特征模块K进行更新,当其取2时,表示采用了由E2、Robot2和Agent2构成的更新条件对独立粗粒度特征模块K进行更新,对独立粗粒度特征模块K的更新过程如下:
1)令导Agenti控制Ei内的Agenti连续导航交互t次,得到包含t个交互样本的交互样本序列Ⅰ
Figure BDA0002381689880000071
其中,虚拟移动机器人在环境中的单次导航交互过程为:
虚拟移动机器人在动作前获取环境的感知场景视觉图像
Figure BDA0002381689880000072
通过导航神经网络生成机器人动作
Figure BDA0002381689880000073
虚拟移动机器按照所生成的机器人动作
Figure BDA0002381689880000074
移动,待其完成机器人动作后,再次获取环境的感知场景视觉图像
Figure BDA0002381689880000081
并得到环境反馈奖励
Figure BDA0002381689880000082
2)利用
Figure BDA0002381689880000083
根据强化学习算法计算并保存Agenti的粗粒度特征模块梯度,更新Agenti的参数,即将
Figure BDA0002381689880000084
Figure BDA0002381689880000085
输入损失函数L1和L2计算并保存Agenti的粗粒度特征模块梯度,使用细粒度特征模块和决策网络的梯度更新Agenti参数;
3)利用所保存的Agenti的粗粒度特征模块梯度,通过梯度下降法更新独立粗粒度特征模块K;
4)利用更新后的独立粗粒度特征模块K的神经网络参数再次更新Agenti的参数;
重复步骤1)至步骤4),直至Agenti收敛,输出收敛的Agenti所对应的独立粗粒度特征模块K,即输出Agenti收敛时,步骤3)得到的更新后的独立粗粒度特征模块K。
在本实施例中,Robot1在E1中的连续导航交互过程与Robot2在E2中的连续导航交互过程同时进行,以提高交互效率。
第四步、构建一个包含有粗粒度特征模块的导航神经网络ⅡAgent3,并初始化神经网络参数,利用最终独立粗粒度特征模块K的参数对Agent3的粗粒度特征模块的参数进行更新,得到导航神经网络ⅢAgent4,保持Agent4的粗粒度特征模块不再接受训练更新。
第五步、在新导航环境E3中初始化一个虚拟移动机器人ⅡRobot3
第六步、利用E3和Robot3,训练更新Agent4除粗粒度特征模块以外的其余神经网络参数,得到导航神经网络ⅣAgent5,完成在新导航环境中的导航设计。
在本实施例中,获取Agent5的过程具体如下:
1)令Agent4控制Robot3在E3中连续导航交互若干次,得到包含若干交互样本的交互样本序列Ⅱ
Figure BDA0002381689880000086
其中上标3表示对应E3
2)利用
Figure BDA0002381689880000087
训练更新Agent4除粗粒度特征模块以外的其余神经网络参数,得到Agent5,即将
Figure BDA0002381689880000088
输入损失函数L1计算并保存Agent4的梯度,仅使用梯度更新Agent4的细粒度特征模块和决策网络的参数,之后得到Agent5
重复步骤1)至步骤2),直至Agent5收敛,输出收敛后的Agent5,完成在新导航环境中的导航设计。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,包括以下步骤:
S100、构建一个独立粗粒度特征模块以及m个包含粗粒度特征模块的导航神经网络Ⅰ,并初始化神经网络参数,m≥2;
S200、随机生成m个不同的虚拟导航环境,并在各个虚拟导航环境中均初始化一个虚拟移动机器人Ⅰ,所述导航神经网络Ⅰ与所述虚拟导航环境一一对应,m个虚拟导航环境、m个虚拟移动机器人Ⅰ以及m个导航神经网络Ⅰ构成m个更新条件,每个更新条件由相对应的一个虚拟导航环境、一个虚拟移动机器人Ⅰ以及一个导航神经网络Ⅰ构成;
S300、利用各更新条件训练更新所述独立粗粒度特征模块,直至独立粗粒度特征模块收敛,将收敛的独立粗粒度特征模块作为最终独立粗粒度特征模块;
S400、构建一个包含有粗粒度特征模块的导航神经网络Ⅱ,并初始化神经网络参数,利用所述最终独立粗粒度特征模块的参数对所述导航神经网络Ⅱ的粗粒度特征模块的参数进行更新,得到导航神经网络Ⅲ;
S500、在新导航环境中初始化一个虚拟移动机器人Ⅱ;
S600、利用新导航环境和虚拟移动机器人Ⅱ,训练更新所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络参数,得到导航神经网络Ⅳ,完成在新导航环境中的导航设计;
所述步骤S300中,每次对所述独立粗粒度特征模块进行训练更新的过程包括以下步骤:
S301、令导航神经网络Ⅰ控制虚拟导航环境内的虚拟移动机器人Ⅰ连续导航交互t次,得到包含t个交互样本的交互样本序列Ⅰ;
S302、利用交互样本序列Ⅰ根据强化学习算法计算并保存导航神经网络Ⅰ的粗粒度特征模块梯度,更新导航神经网络Ⅰ的参数;
S303、利用所保存的导航神经网络Ⅰ的粗粒度特征模块梯度,通过梯度下降法更新独立粗粒度特征模块;
S304、利用更新后的独立粗粒度特征模块的神经网络参数再次更新导航神经网络Ⅰ的参数;
S305、重复步骤S301至步骤S304,直至导航神经网络Ⅰ收敛,输出收敛的导航神经网络Ⅰ所对应的独立粗粒度特征模块。
2.根据权利要求1所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、目标物形状、目标物尺寸和目标物纹理。
3.根据权利要求1所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,
所述交互样本由机器人完成动作前的感知场景视觉图像、机器人动作、环境反馈奖励以及机器人完成动作后的感知场景视觉图像组成;
所述虚拟移动机器人在环境中的导航交互过程为:
虚拟移动机器人在动作前获取环境的感知场景视觉图像,通过导航神经网络生成机器人动作,虚拟移动机器按照所生成的机器人动作移动,待其完成机器人动作后,再次获取环境的感知场景视觉图像,并得到环境反馈奖励。
4.根据权利要求3所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述环境反馈奖励用正负数值表示,当虚拟移动机器人在规定导航时间内到达目标物***置,则得到正数值奖励,否则得到负数值奖励。
5.根据权利要求1所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,m个虚拟移动机器人Ⅰ在各自对应的虚拟导航环境中同时进行连续导航交互。
6.根据权利要求1所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述步骤S300中,各更新条件异步对独立粗粒度特征模块进行训练更新。
7.根据权利要求1所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述步骤S600具体包括以下步骤:
S601、令所述导航神经网络Ⅲ控制虚拟移动机器人Ⅱ在新导航环境中连续导航交互若干次,得到包含若干交互样本的交互样本序列Ⅱ;
S602、利用交互样本序列Ⅱ训练更新所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络参数,得到导航神经网络Ⅳ;
S603、重复步骤S601至步骤S602,直至导航神经网络Ⅳ收敛,输出收敛后的导航神经网络Ⅳ,完成在新导航环境中的导航设计。
8.根据权利要求1或7所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络指的是细粒度特征模块以及决策网络。
9.根据权利要求8所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述独立粗粒度特征模块和导航神经网络Ⅰ的神经网络参数通过正态分布函数N随机初始化。
CN202010084879.8A 2020-02-10 2020-02-10 一种基于粗粒度特征的可迁移视觉导航设计方法 Active CN111221340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010084879.8A CN111221340B (zh) 2020-02-10 2020-02-10 一种基于粗粒度特征的可迁移视觉导航设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010084879.8A CN111221340B (zh) 2020-02-10 2020-02-10 一种基于粗粒度特征的可迁移视觉导航设计方法

Publications (2)

Publication Number Publication Date
CN111221340A CN111221340A (zh) 2020-06-02
CN111221340B true CN111221340B (zh) 2023-04-07

Family

ID=70826127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010084879.8A Active CN111221340B (zh) 2020-02-10 2020-02-10 一种基于粗粒度特征的可迁移视觉导航设计方法

Country Status (1)

Country Link
CN (1) CN111221340B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081468A (zh) * 2021-03-15 2022-09-20 天津大学 一种基于知识迁移的多任务卷积神经网络故障诊断方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107438754A (zh) * 2015-02-10 2017-12-05 御眼视觉技术有限公司 用于自主车辆导航的稀疏地图
EP3396533A2 (en) * 2017-04-28 2018-10-31 INTEL Corporation Programmable coarse grained and sparse matrix compute hardware with advanced scheduling
CN109643367A (zh) * 2016-07-21 2019-04-16 御眼视觉技术有限公司 用于自主车辆导航的众包和分发稀疏地图以及车道测量
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航***的方法
CN110555881A (zh) * 2019-08-29 2019-12-10 桂林电子科技大学 一种基于卷积神经网络的视觉slam测试方法
CN110631588A (zh) * 2019-09-23 2019-12-31 电子科技大学 一种基于rbf网络的无人机视觉导航定位方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345589A (zh) * 2018-09-11 2019-02-15 百度在线网络技术(北京)有限公司 基于自动驾驶车辆的位置检测方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107438754A (zh) * 2015-02-10 2017-12-05 御眼视觉技术有限公司 用于自主车辆导航的稀疏地图
CN109643367A (zh) * 2016-07-21 2019-04-16 御眼视觉技术有限公司 用于自主车辆导航的众包和分发稀疏地图以及车道测量
EP3396533A2 (en) * 2017-04-28 2018-10-31 INTEL Corporation Programmable coarse grained and sparse matrix compute hardware with advanced scheduling
CN108805792A (zh) * 2017-04-28 2018-11-13 英特尔公司 具有先进调度的可编程粗粒度化和稀疏矩阵计算硬件
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航***的方法
CN110555881A (zh) * 2019-08-29 2019-12-10 桂林电子科技大学 一种基于卷积神经网络的视觉slam测试方法
CN110631588A (zh) * 2019-09-23 2019-12-31 电子科技大学 一种基于rbf网络的无人机视觉导航定位方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Communications, Cloud ;Big Data Computing, Internet of People and Smart City Innovation》.2019,447-453. *
Trusted Computing, Scalable Computing *
Yang Gu 等.CoFINLo: Coarse to Fine Indoor Navigation and Localization System.《2019 IEEE SmartWorld, Ubiquitous Intelligence &amp Computing, Advanced *
黄睿.面向高值目标微变监测的不同粒度视觉检测问题研究.《中国博士学位论文全文数据库信息科技辑》.2018,(第9期),I138-28. *

Also Published As

Publication number Publication date
CN111221340A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
Wang et al. Learning to navigate through complex dynamic environment with modular deep reinforcement learning
Sun et al. Motion planning for mobile robots—Focusing on deep reinforcement learning: A systematic review
Furfaro et al. Deep learning for autonomous lunar landing
CN112135716B (zh) 数据高效的分层强化学习
WO2019183568A1 (en) Controlling a robot based on free-form natural language input
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
CN111260026B (zh) 一种基于元强化学习的导航迁移方法
Chaffre et al. Sim-to-real transfer with incremental environment complexity for reinforcement learning of depth-based robot navigation
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
CN112631128A (zh) 一种多模异构信息融合的机器人装配技能学习方法及***
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN111221340B (zh) 一种基于粗粒度特征的可迁移视觉导航设计方法
CN111833400A (zh) 一种相机位姿定位方法
CN114943182A (zh) 基于图神经网络的机器人线缆形状控制方法及设备
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview
US20240054008A1 (en) Apparatus and method for performing a task
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
CN114815813B (zh) 一种基于改进ddpg算法的高效路径规划方法、装置及介质
Lee et al. Visual-inertial odometry for unmanned aerial vehicle using deep learning
CN115867918A (zh) 使用相对熵q学习训练动作选择***
Wang et al. Multi-feature fusion for deep reinforcement learning: sequential control of mobile robots
CN116989800B (zh) 一种基于脉冲强化学习的移动机器人视觉导航决策方法
Febrianto et al. Path Planning Based on Deep Reinforcement Learning Towards Human-Robot Collaboration
Candare et al. Deep Imitation Learning for Safe Indoor Autonomous Micro Aerial Vehicle Navigation
Chen et al. Robot Motion Planning Under Uncertain Condition Using Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant