CN116734850A - 一种基于视觉输入的无人平台强化学习自主导航***及方法 - Google Patents

一种基于视觉输入的无人平台强化学习自主导航***及方法 Download PDF

Info

Publication number
CN116734850A
CN116734850A CN202310458355.4A CN202310458355A CN116734850A CN 116734850 A CN116734850 A CN 116734850A CN 202310458355 A CN202310458355 A CN 202310458355A CN 116734850 A CN116734850 A CN 116734850A
Authority
CN
China
Prior art keywords
module
unmanned platform
reinforcement learning
visual
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310458355.4A
Other languages
English (en)
Inventor
李震
白正琨
陈振
刘向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202310458355.4A priority Critical patent/CN116734850A/zh
Publication of CN116734850A publication Critical patent/CN116734850A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Automation & Control Theory (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于无人平台自主导航技术领域,特别涉及一种基于视觉输入的无人平台强化学***台自主导航***,本发明设计独特的运动状态特征提取网络和视觉特征提取网络,使得强化学习决策网络能获得全面丰富的状态信息以促进网络学习;同时,本发明设计的基于动作调整的强化学习导航算法将启发式控制器与动作调整网络共同引入到基线PPO算法中,能够帮助强化学习训练更快收敛,避免陷入局部最优甚至不收敛,提升算法的整体效率;总体来看,本发明所提出的导航***能够在没有环境先验信息的条件下进行自主导航,具有泛化性和可迁移性。

Description

一种基于视觉输入的无人平台强化学习自主导航***及方法
技术领域
本发明属于无人平台自主导航技术领域,特别涉及一种基于视觉输入的无人平台强化学习自主导航***及方法。
背景技术
导航技术是无人平台诸多应用的基础,只有解决了导航问题,无人平台才能执行更加复杂要求更高的任务。对无人平台而言,导航问题可以简要描述为无人平台从当前位置出发,通过感知环境,规划出一条无碰撞路径移动到目标位置。导航任务重,无人平台需要从环境中感知的信息主要为自身在环境中的位置。全球定位***(Global PositioningSystem,GPS)虽然能够提供无人平台的位置信息,但是其在室内由于信号弱,定位精度低,并不能作为导航算法的输入使用。另外,传统的无人平台路径规划方法普遍是基于先验地图上进行路径规划,如包含深度优先搜索(Depth First Search,DFS)和广度优先搜索(Breadth First Search,BFS)的搜索算法。搜索算法依靠已知的地图信息和环境中的障碍物信息搜索出从起点到目标点的可通行路径。这些算法需要提前知道环境信息才能工作,并且面对复杂场景则难以发挥作用。
基于双目视觉的定位技术,能在没有环境先验信息的情况下,同时提供无人平台的位置并对环境进行建图,可以在此基础上完成导航。此类方法可用于室内等GPS信号较弱的环境或地图信息缺失的条件下,是当下的研究热点,已经应用于家用机器人、无人驾驶等领域。机器学***台导航提供巨大的应用潜力。在无人平台室内导航中,通过神经网络对图像感知信息进行处理,提取图像特征,能帮助无人平台更深层次地认识环境,提升导航性能。导航问题可以抽象成一个序列决策问题,即无人平台从当前状态通过执行一个动作到达下一状态,从开始不断重复此过程直至到达目标点。这类问题可以通过强化学习(Reinforcement Learning,RL)解决。
因此,将基于视觉输入的强化学***台导航任务,可以让无人平台自主与环境进行探索交互,并做出决策,不需要人为干预完成导航。另一方面,还能使无人平台适应更复杂的环境,增加无人平台在不同环境下的任务能力。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提出一种基于视觉输入的无人平台强化学***台位置信息的获取、传感器数据特征提取、到完成强化学习路径规划导航的一套完整的***及方法,用于进行室内导航任务的仿真。
本发明的技术解决方案是:一种基于视觉输入的无人平台强化学习自主导航***。
该自主导航***包括环境仿真模块、视觉感知模块、强化学习模块;
所述环境仿真模块用于输出仿真无人平台的速度信息、RGB图像信息、深度图像信息给强化学习模块;用于输出双目相机的视觉图像给视觉感知模块;
所述视觉感知模块用于接收环境仿真模块输出的双目相机的视觉图像,并根据接收到的双目相机的视觉图像获得无人平台在世界坐标系下的相对位置,输出给强化学习模块;
所述强化学***台的速度信息、RGB图像信息、深度图像信息,以及视觉感知模块输出的无人平台在世界坐标系下的相对位置;强化学***台的速度信息、RGB图像信息、深度图像信息、无人平台在世界坐标系下的相对位置,输出无人平台的动作给环境仿真模块中的无人平台。
具体地,所述环境仿真模块是由UE4引擎和AirSim插件组成的仿真环境,UE4引擎负责搭建并渲染无人平台行动所需的模拟环境,AirSim负责引入四旋翼、无人车等无人平台仿真模型;环境仿真模块提供无人平台传感器接口及控制接口,该环境仿真模块通过传感器接口向强化学***台的速度信息、RGB图像信息、对齐的深度图像信息,无人平台动作的控制信号通过环境仿真模块的控制接口传给仿真环境中的无人平台,完成无人平台模拟行动;仿真环境中无人平台双目相机的视觉图像通过ROS的话题传入视觉感知模块。
具体地,所述视觉感知模块对接收到的双目相机的视觉图像先进行图像预处理,然后提取预处理后的视觉图像的特征点,最后将提取的视觉图像的特征点输入到视觉里程计进行计算,得到无人平台的实时位置,同时使用局部地图修正得到的无人平台的实时位置,
具体地,所述视觉感知模块基于ROS搭建,视觉感知模块计算得到的无人平台在世界坐标系下的相对位置信息经由ROS话题发布给强化学习模块作为导航算法输入的一部分进行决策,同时,该视觉感知模块建立了一个基于ROS服务机制的服务端,用于在仿真过程中触发重置功能,即出发点置零、地图清空、关键帧清除操作。
所述的视觉感知模块根据接收到的双目相机的视觉图像获得无人平台在世界坐标系下的相对位置的方法为:
步骤S1:通过ROS获取双目相机的视觉图像;
步骤S2:对视觉图像进行预处理;
步骤S3:将预处理后的视觉图像输入到视觉里程计中进行计算获得初步的无人平台的实时位置
步骤S4:更新局部地图并通过局部地图的信息优化初步的实时位置
步骤S5:将优化后的实时位置通过ROS发送给强化学习模块
具体地,所述强化学习模块由负责进行状态特征提取的状态特征提取模块和负责路径规划的深度强化学习决策模块组成;当强化学习训练需要重新开始时,强化学习模块作为ROS服务的客户端向视觉感知模块的服务端发出重置请求,同时重置强化学习模块和视觉感知模块。
所述的状态特征提取模块接收来自于环境仿真模块及视觉感知模块的原始信息,并对这些原始信息进行处理,这些原始信息包括环境仿真模块给的RGB图及深度图信息、无人平台的速度信息,视觉感知模块给的无人平台实时位置信息,以及导航训练过程中产生的时序信息;状态特征提取模块需要对这些信息分别进行处理并进行特征聚合,得到最终的无人平台状态特征,并输出给深度强化学习决策模块;
所述的深度强化学***台状态特征,根据接收到无人平台状态特征输出当前状态特征下无人平台的最优动作,交由环境仿真模块中的无人平台执行。深度强化学习决策模块中的重要部分包括动作集设计、奖励函数设计、算法架构设计。
所述强化学习模块中的状态特征提取模块由视觉处理子模块、运动信息处理子模块和时序特征提取子模块组成;
所述的视觉信息处理子模块用于接收来自环境仿真模块输出的无人平台的3通道RGB图像与对齐的深度图像;处理后最终得到无人平台的视觉特征;
所述的运动信息处理子模块接收来自视觉感知模块计算得到的无人平台实时位置以及来自环境仿真模块输出的无人平台速度信息;处理后最终得到得到无人平台的运动特征;
所述的时序特征提取子模块在无人平台的视觉特征和运动特征的基础上,结合强化学***台状态特征;
所述的状态特征提取模块对接收到的原始信息进行处理的方法步骤包括:
步骤S1:视觉信息处理子模块接收来自环境仿真模块传入的RGB图像及深度图像;
步骤S2:对RGB图像按照范围缩放、尺寸调整和标准化的先后顺序进行预处理;
步骤S3:对深度图像按照范围缩放、尺寸调整和标准化的先后顺序进行预处理;
步骤S4:采用ResNet-50网络从预处理后的RGB图像中提取1×512的RGB特征;
步骤S5:采用ResNet-50网络从预处理后的深度图像中提取1×512的深度特征;
步骤S6:将RGB特征与深度特征进行特征聚合,得到1×1024的特征;
步骤S7:通过全连接层将1×1024的特征映射到1×512维,得到无人平台的视觉特征;
步骤S9:运动信息处理子模块接收来自视觉感知模块计算得到的无人平台实时位置以及来自环境仿真模块输出的无人平台速度信息;
步骤S10:将无人平台实时位置信息与导航目标点信息计算得到NED坐标系下无人平台相对于导航目标点的相对位置信息;
步骤S11:计算无人平台机体坐标系下的无人平台线速度和无人平台机体坐标系下的无人平台相对于导航目标点的相对位置;
步骤S12:通过多层感知机对线速度和相对位置信息进行特征映射,由6维映射至128维,得到无人平台的运动特征;
步骤S13:时序特征提取子模块接收视觉特征提取子模块输出的大小为1×512的视觉特征与运动特征提取子模块输出的大小为1×128的运动特征;
步骤S14:将视觉特征与运动特征进行聚合,得到大小为1×640的向量;
步骤S15:将步骤S14中得到的1×640的向量通过全连接层映射到1×512维,得到无人平台当前状态的运动状态特征;
步骤S16:将无人平台当前时刻状态特征、上一周期动作信息、上一周期奖励信息共同输入LSTM网络进行提取,最终得到1×512的无人平台状态特征;
所述深度强化学***台动作;
深度强化学习决策模块所述中所述的动作集包含前后左右的单向运动和向左前方和右前方的斜向运动,以及逆时针旋转和顺时针旋转,一共八个动作的离散动作集;
深度强化学习决策模块中所述的奖励函数,也就是强化学习PPO控制器算法中的奖励函数r由显示奖励rf、碰撞奖励rc、步长奖励rs、距离奖励rd四个部分组成;
深度强化学***台当前状态同时输入到PPO网络和启发式控制器,它们分别输出强化学习动作和启发式动作,动作调整网络根据当前状态做出决策,执行强化学习动作或启发式动作,智能体执行该决策,并将实际执行的动作和该决策送入经验池,然后更新PPO网络和动作调整网络;
深度强化学习决策模块的算法步骤如下:
步骤S1:初始化动作调整网络参数
步骤S2:初始化PPO策略网络参数和价值函数网络参数φ0
步骤S3:初始化经验回放池R;
步骤S4:重置环境和无人平台状态,重置经验回放池;
步骤S5:获得无人平台初始状态s0和目标点位置pd
步骤S6:采样PPO策略网络输出动作at 0
步骤S7:采样启发式控制器输出动作
步骤S8:采样动作调整网络输出动作at∈{at 0,at 1};
步骤S9:执行动作at,得到奖励rt+1和下一状态st+1
步骤S10:判断||st+1-pd||是否趋近于0,如果趋近于0,则令dt+1=1;如果不趋近于0,则令dt+1=0;
步骤S11:将(st,at,rt+1,st+1,dt+1)储存进R;
步骤S12:判断目前时刻是否为T-1,如果是则执行步骤S13;如果不是则执行步骤S6;
步骤S13:从R中随机采样minibatch大小的样本;
步骤S14:计算累计折扣收益计算优势函数/>
步骤S15:更新PPO网络,更新动作调整网络;
步骤S16:判断目前采样数是否为M,如果是则执行步骤S17;如果不是则执行步骤S13;
步骤S17:判断目前是否到达第K幕,如果是则算法结束,如果不是则执行步骤S4。
一种基于视觉输入的无人平台强化学习自主导航方法,该方法的步骤包括:
第一步,环境仿真模块输出仿真无人平台的速度信息、RGB图像信息、深度图像信息给强化学习模块;
第二步,环境仿真模块输出双目相机的视觉图像给视觉感知模块;
第三步,视觉感知模块接收环境仿真模块输出的双目相机的视觉图像,并根据接收到的双目相机的视觉图像获得无人平台在世界坐标系下的相对位置,并输出给强化学习模块;
第四步,强化学***台的速度信息、RGB图像信息、深度图像信息,以及视觉感知模块输出的无人平台在世界坐标系下的相对位置,并根据接收到的无人平台的速度信息、RGB图像信息、深度图像信息、无人平台在世界坐标系下的相对位置,输出无人平台的动作给环境仿真模块中的无人平台。
有益效果
(1)本发明实现了一套完整的,基于视觉输入的,从环境数据获取、环境特征提取到路径规划算法实现的无人平台自主导航***;
(2)本发明中基于视觉输入的定位,即本发明的视觉感知模块,更加符合现实情况中无人平台通过视觉实现定位的情况,而不是直接从仿真环境的接口中获取位置真值,更适合迁移至现实实验中;
(3)本发明的状态特征提取模块中设计了运动状态特征提取网络和视觉特征提取网络,使得强化学习决策网络能获得全面丰富的状态信息以促进网络学习;
(4)本发明的深度强化学习决策模块中基于动作调整的强化学习导航算法将启发式控制器与动作调整网络共同引入到基线PPO算法中,能够帮助强化学习训练更快收敛,避免陷入局部最优甚至不收敛,提升算法的整体效率;
(5)本发明的***能够在没有环境先验信息的条件下进行自主导航,具有一定的泛化性和可迁移性。
(6)本发明属于无人平台自主导航技术领域,特别涉及一种基于视觉输入的无人平台强化学***台自主导航***,其中基于视觉输入的定位,更加符合现实情况中无人平台通过视觉实现定位的情况,而不是直接从仿真环境的接口中获取位置真值,更适合迁移至现实实验中;另外,本发明设计了独特的运动状态特征提取网络和视觉特征提取网络,使得强化学习决策网络能获得全面丰富的状态信息以促进网络学习;同时,本发明设计的基于动作调整的强化学习导航算法将启发式控制器与动作调整网络共同引入到基线PPO算法中,能够帮助强化学习训练更快收敛,避免陷入局部最优甚至不收敛,提升算法的整体效率;总体来看,本发明所提出的导航***能够在没有环境先验信息的条件下进行自主导航,具有一定的泛化性和可迁移性。
附图说明
图1为本发明中基于视觉输入的强化学习导航***框架;
图2为发明中图1所示强化学习模块的具体结构;
图3为发明中图1所示强化学习模块更具体的实施方式;
图4为图3中“视觉信息处理子模块”的具体流程;
图5为图3中“运动信息处理子模块”的具体流程;
图6为图3中“时序特征提取子模块”的具体流程;
图7为图3中“深度强化学习决策模块”的具体流程;
图8为图2中“深度强化学习决策模块”中动作集设计的说明图;
图9为图2中“动作调整网络”的具体流程。
具体实施方式
为了将本申请的目的、技术方案及优点进行更清楚、完整的描述,下面将结合附图及实施例做进一步详细说明。
如图1所示,一种基于视觉输入的无人平台强化学习自主导航***,该自主导航***包括环境仿真模块、视觉感知模块、强化学习模块三大模块组成;图中实线箭头代表信息的传递方向,椭圆形状代表传递的信息内容。
所述环境仿真模块是由UE4引擎和AirSim插件组成的仿真环境,UE4引擎负责搭建并渲染无人平台行动所需的模拟环境,AirSim负责引入四旋翼、无人车等无人平台仿真模型;环境仿真模块提供无人平台传感器接口及控制接口,该环境仿真模块通过传感器接口(APIs)向强化学***台的速度信息、RGB图像信息、对齐的深度图像信息,同时,强化学***台动作的控制信号通过环境仿真模块的控制接口(APIs)传给仿真环境中的无人平台,完成无人平台模拟行动;环境仿真模块中的仿真无人平台作为一个ROS的工作节点(Node)输出双目相机的视觉图像,双目相机的视觉图像通过ROS的话题传入视觉感知模块;
所述视觉感知模块基于ROS搭建,视觉感知模块用于接收环境仿真模块输出的双目相机的视觉图像,并对接收到的双目相机的视觉图像先进行图像预处理,然后提取预处理后的视觉图像的特征点,最后将提取的视觉图像的特征点输入到视觉里程计进行计算,得到无人平台的实时位置,同时使用局部地图修正得到的无人平台的实时位置,即得到无人平台在世界坐标系下的相对位置;该无人平台在世界坐标系下的相对位置信息经由ROS话题发布给强化学习模块作为导航算法输入的一部分进行决策;同时,该视觉感知模块建立了一个基于ROS服务机制的服务端(Service),用于在仿真过程中触发重置功能,即出发点置零、地图清空、关键帧清除等操作;
所述强化学***台速度信息是来自于环境仿真模块的传感器信息,位置信息是来自视觉感知模块的无人平台实时位置;该强化学***台的动作;当训练需要重新开始时,强化学习模块作为ROS服务的客户端向视觉感知模块的服务端发出重置请求,同时重置强化学习模块和视觉感知模块;
所述的状态特征提取模块接收来自于环境仿真模块及视觉感知模块的原始信息,并对这些原始信息进行处理,这些原始信息包括环境仿真模块给的RGB图及深度图信息、无人平台的速度信息,视觉感知模块给的无人平台实时位置信息,以及导航训练过程中产生的时序信息;状态特征提取模块需要对这些信息分别进行处理并进行特征聚合,得到最终的无人平台状态特征,并输出给深度强化学习决策模块;
所述深度强化学***台状态特征,根据接收到无人平台状态特征输出当前状态特征下无人平台的最优动作,交由环境仿真模块中的无人平台执行;深度强化学习决策模块中的重要部分包括动作集设计、奖励函数设计、算法架构设计。
所述状态特征提取模块由视觉处理子模块、运动信息处理子模块和时序特征提取子模块三个子模块组成,如图3所示;
所述视觉信息处理子模块如图4所示用于接收来自环境仿真模块输出的无人平台的3通道RGB图像与对齐的深度图像;RGB图像经过范围缩放、尺寸调整和标准化后的预处理后,采用ResNet-50网络提取特征,输出形状为1×512的RGB特征;深度图像经过范围缩放、尺寸调整和标准化后的预处理后,采用ResNet-50网络提取特征,输出形状为1×512的深度特征;然后将1×512的RGB特征与1×512的深度特征进行特征聚合,得到1×1024的视觉特征,再通过全连接层将1×1024的视觉特征映射到1×512维,得到无人平台的视觉特征;
更进一步地,范围缩放指将原始图像的数据范围缩放到[0,1];尺寸调整指调整图片的大小为3×224×224;图像的标准化(Normalization)处理过程如下式,对每一个输入通道(channel),原始值减去均值(mean)除以标准差(Standard Deviation,std)就是处理后的结果;
所述的运动信息处理子模块如图5所示接收来自视觉感知模块计算得到的无人平台实时位置以及来自环境仿真模块输出的无人平台速度信息,这些信息都是在NED坐标系下的;运动信息处理子模块先将无人平台实时位置信息与导航目标点信息计算得到NED坐标系下无人平台相对于导航目标点的相对位置信息,再使用环境仿真模块提供的无人平台的四元数解算得到欧拉角,随后求得旋转矩阵,接着计算无人平台机体坐标系下的无人平台线速度和无人平台机体坐标系下的无人平台相对于导航目标点的相对位置;最后,通过多层感知机(Multi-Layer Perceptron,MLP)对线速度和相对位置信息进行特征映射,由6维映射至128维,得到无人平台的运动特征;
所述的时序特征提取子模块如图6所示在视觉特征和运动特征的基础上,结合上一周期的动作信息和奖励信息,得到最终的无人平台状态特征表示,具体为:首先,该子模块接受视觉特征提取子模块输出的大小为1×512的视觉特征与运动特征提取子模块输出的大小为1×128的运动特征。然后将它们进行聚合,得到大小为1×640的向量,接着通过全连接层映射到1×512维,得到无人平台当前时刻状态特征;由于无人平台采用离散动作集,为了便于表示,采用独热编码(One-hot Encoding)表示上一周期的动作信息,以1位有效进行编码,例如动作集中有8个动作,上周期采取的动作为第4个,则将动作表示为a=[0,0,0,1,0,0,0,0]。最后,将无人平台当前时刻状态特征、上一周期动作信息、上一周期奖励信息共同输入长短时记忆网络(Long short-term memory,LSTM)进行提取,最终得到1×512的无人平台状态特征。
所述深度强化学***台动作;现对深度强化学***台运动信息输出启发式动作,Actor网络、Critic网络和动作调整网络均由全连接层构成,三个网络的输入均为时序特征提取模块输出的1×512维的状态特征,Actor网络输出动作集中动作的概率分布,按概率分布进行采样得到强化学习动作,Critic网络输出状态估计价值。动作调整网络在强化学习动作和启发式动作之间进行选择,作用类似于一个单刀双掷开关;
进一步地,深度强化学***台的离散动作集如图8所示包含x轴和y轴两个方向的运动以及绕z轴的旋转一共八个动作,移动分为前后左右的单向运动和向左前方和右前方的斜向运动,旋转分为逆时针旋转和顺时针旋转,其中,单一方向的运动速度建议设置为1m/s,向两个斜前方向的运动速度为vx=vy=0.8m/s,直线运动持续时间均为1s,而旋转运动的角速度为持续时间为0.5s;
进一步地,深度强化学***台离目标点能更近,那么可以获得一个较小的奖励,如果远离了目标点,那么给予一个较小的惩罚,形式如式:rd=kd· lΔ,其中,kd表示接近0的正常量,lΔ表示执行当前动作后目标点的距离变化,若lΔ>0说明距离变短,rd为正,无人平台获得一个正奖励,反之lΔ<0说明远离目标,rd为负,无人平台获得一个惩罚;结合以上四项,无人平台在目标点导航任务下的奖励函数可表示为:r=rf+rc+rs+rd
进一步地,深度强化学***台当前状态同时输入到PPO网络和启发式控制器,它们分别输出强化学习动作和启发式动作,动作调整网络根据当前状态做出决策,执行强化学习动作或启发式动作,智能体执行该决策,并将实际执行的动作和该决策送入经验池,然后更新PPO网络和动作调整网络;
具体的,所述启发式控制器可以选取遍历离散作集后下一位置离目标点欧几里得距离最近的动作,避免随机无效探索,加速强化学***台实际执行的动作放入经验池,这样经验池中储存着当前动作调整网络评估的最优动作;PPO控制器通过经验池进行更新,相对于通过随机策略获得的经验,带有启发式动作的经验可以帮助PPO算法更快收敛到最优;随着PPO网络的不断提高其对应的价值也不断提高,动作调整网络会逐渐偏向于采用PPO控制器输出的动作。
深度强化学习决策模块的算法步骤如下:
步骤S1:初始化动作调整网络参数
步骤S2:初始化PPO策略网络参数和价值函数网络参数φ0
步骤S3:初始化经验回放池R;
步骤S4:重置环境和无人平台状态,重置经验回放池;
步骤S5:获得无人平台初始状态s0和目标点位置pd
步骤S6:采样PPO策略网络输出动作at 0
步骤S7:采样启发式控制器输出动作
步骤S8:采样动作调整网络输出动作at∈{at 0,at 1};
步骤S9:执行动作at,得到奖励rt+1和下一状态st+1
步骤S10:判断||st+1-pd||是否趋近于0,如果趋近于0,则令dt+1=1;如果不趋近于0,则令dt+1=0;
步骤S11:将(st,at,rt+1,st+1,dt+1)储存进R;
步骤S12:判断目前时刻是否为T-1,如果是则执行步骤S13;如果不是则执行步骤S6;
步骤S13:从R中随机采样minibatch大小的样本;
步骤S14:计算累计折扣收益计算优势函数/>
步骤S15:更新PPO网络,更新动作调整网络;
步骤S16:判断目前采样数是否为M,如果是则执行步骤S17;如果不是则执行步骤S13;
步骤S17:判断目前是否到达第K幕,如果是则算法结束,如果不是则执行步骤S4。
一种基于视觉输入的无人平台强化学习自主导航方法,该方法的步骤包括:
第一步,环境仿真模块输出仿真无人平台的速度信息、RGB图像信息、深度图像信息给强化学习模块;
第二步,环境仿真模块输出双目相机的视觉图像给视觉感知模块;
第三步,视觉感知模块接收环境仿真模块输出的双目相机的视觉图像,并根据接收到的双目相机的视觉图像获得无人平台在世界坐标系下的相对位置,并输出给强化学习模块;
第四步,强化学***台的速度信息、RGB图像信息、深度图像信息,以及视觉感知模块输出的无人平台在世界坐标系下的相对位置,并根据接收到的无人平台的速度信息、RGB图像信息、深度图像信息、无人平台在世界坐标系下的相对位置,输出无人平台的动作给环境仿真模块中的无人平台。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种基于视觉输入的无人平台强化学习自主导航***,其特征在于:
该自主导航***包括环境仿真模块、视觉感知模块、强化学习模块;
所述环境仿真模块用于输出仿真无人平台的速度信息、RGB图像信息、深度图像信息给强化学习模块,环境仿真模块还用于输出双目相机的视觉图像给视觉感知模块;
所述视觉感知模块用于接收环境仿真模块输出的双目相机的视觉图像,并根据接收到的双目相机的视觉图像获得无人平台在世界坐标系下的相对位置,输出给强化学习模块;
所述强化学***台的速度信息、RGB图像信息、深度图像信息,以及视觉感知模块输出的无人平台在世界坐标系下的相对位置,并根据接收到的无人平台的速度信息、RGB图像信息、深度图像信息、无人平台在世界坐标系下的相对位置,输出无人平台的动作给环境仿真模块中的无人平台。
2.根据权利要求1所述的一种基于视觉输入的无人平台强化学习自主导航***,其特征在于:
所述环境仿真模块是由UE4引擎和AirSim插件组成的仿真环境,UE4引擎负责搭建并渲染无人平台行动所需的模拟环境,AirSim负责引入四旋翼、无人车等无人平台仿真模型;环境仿真模块提供无人平台传感器接口及控制接口,该环境仿真模块通过传感器接口向强化学***台的速度信息、RGB图像信息、对齐的深度图像信息,无人平台动作的控制信号通过环境仿真模块的控制接口传给仿真环境中的无人平台,完成无人平台模拟行动;仿真环境中无人平台双目相机的视觉图像通过ROS的话题传入视觉感知模块。
3.根据权利要求1或2所述的一种基于视觉输入的无人平台强化学习自主导航***,其特征在于:
所述视觉感知模块对接收到的双目相机的视觉图像先进行图像预处理,然后提取预处理后的视觉图像的特征点,最后将提取的视觉图像的特征点输入到视觉里程计进行计算,得到无人平台的实时位置,同时使用局部地图修正得到的无人平台的实时位置;
所述视觉感知模块基于ROS搭建,视觉感知模块计算得到的无人平台在世界坐标系下的相对位置信息经由ROS话题发布给强化学习模块作为导航算法输入的一部分进行决策,同时,该视觉感知模块建立了一个基于ROS服务机制的服务端,用于在仿真过程中触发重置功能,即出发点置零、地图清空、关键帧清除操作;
所述的视觉感知模块根据接收到的双目相机的视觉图像获得无人平台在世界坐标系下的相对位置的方法为:
步骤S1:通过ROS获取双目相机的视觉图像;
步骤S2:对视觉图像进行预处理;
步骤S3:将预处理后的视觉图像输入到视觉里程计中进行计算获得初步的无人平台的实时位置;
步骤S4:更新局部地图并通过局部地图的信息优化初步的实时位置;
步骤S5:将优化后的实时位置通过ROS发送给强化学习模块。
4.根据权利要求1或2所述的一种基于视觉输入的无人平台强化学习自主导航***,其特征在于:
所述强化学习模块由负责进行状态特征提取的状态特征提取模块和负责路径规划的深度强化学习决策模块组成;当强化学习训练需要重新开始时,强化学习模块作为ROS服务的客户端向视觉感知模块的服务端发出重置请求,同时重置强化学习模块和视觉感知模块。
5.根据权利要求4所述的一种基于视觉输入的无人平台强化学习自主导航***,其特征在于:
所述的状态特征提取模块用于接收来自于环境仿真模块及视觉感知模块的原始信息,并对这些原始信息进行处理,这些原始信息包括环境仿真模块给的RGB图及深度图信息、无人平台的速度信息,视觉感知模块给的无人平台实时位置信息,以及导航训练过程中产生的时序信息;状态特征提取模块需要对这些信息分别进行处理并进行特征聚合,得到最终的无人平台状态特征,并输出给深度强化学习决策模块;
所述的深度强化学***台状态特征,根据接收到无人平台状态特征输出当前状态特征下无人平台的最优动作,交由环境仿真模块中的无人平台执行,深度强化学习决策模块包括动作集设计、奖励函数设计、算法架构设计。
6.根据权利要求5所述的一种基于视觉输入的无人平台强化学习自主导航***,其特征在于:
所述强化学习模块中的状态特征提取模块由视觉处理子模块、运动信息处理子模块和时序特征提取子模块组成;
所述视觉信息处理子模块用于接收来自环境仿真模块输出的无人平台的3通道RGB图像与对齐的深度图像;处理后最终得到无人平台的视觉特征;
所述的运动信息处理子模块接收来自视觉感知模块计算得到的无人平台实时位置以及来自环境仿真模块输出的无人平台速度信息;处理后最终得到无人平台的运动特征;
所述的时序特征提取子模块在无人平台的视觉特征和运动特征的基础上,结合强化学***台状态特征。
7.根据权利要求6所述的一种基于视觉输入的无人平台强化学习自主导航***,其特征在于:
所述的状态特征提取模块对接收到的原始信息进行处理的方法步骤包括:
步骤S1:视觉信息处理子模块接收来自环境仿真模块传入的RGB图像及深度图像;
步骤S2:对RGB图像按照范围缩放、尺寸调整和标准化的先后顺序进行预处理;
步骤S3:对深度图像按照范围缩放、尺寸调整和标准化的先后顺序进行预处理;
步骤S4:采用ResNet-50网络从预处理后的RGB图像中提取1×512的RGB特征;
步骤S5:采用ResNet-50网络从预处理后的深度图像中提取1×512的深度特征;
步骤S6:将RGB特征与深度特征进行特征聚合,得到1×1024的特征;
步骤S7:通过全连接层将1×1024的特征映射到1×512维,得到无人平台的视觉特征;
步骤S9:运动信息处理子模块接收来自视觉感知模块计算得到的无人平台实时位置以及来自环境仿真模块输出的无人平台速度信息;
步骤S10:将无人平台实时位置信息与导航目标点信息计算得到NED坐标系下无人平台相对于导航目标点的相对位置信息;
步骤S11:计算无人平台机体坐标系下的无人平台线速度和无人平台机体坐标系下的无人平台相对于导航目标点的相对位置;
步骤S12:通过多层感知机对线速度和相对位置信息进行特征映射,由6维映射至128维,得到无人平台的运动特征;
步骤S13:时序特征提取子模块接收视觉特征提取子模块输出的大小为1×512的视觉特征与运动特征提取子模块输出的大小为1×128的运动特征;
步骤S14:将视觉特征与运动特征进行聚合,得到大小为1×640的向量;
步骤S15:将步骤S14中得到的1×640的向量通过全连接层映射到1×512维,得到无人平台当前状态的运动状态特征;
步骤S16:将无人平台当前时刻状态特征、上一周期动作信息、上一周期奖励信息共同输入LSTM网络进行提取,最终得到1×512的无人平台状态特征。
8.根据权利要求5所述的一种基于视觉输入的无人平台强化学习自主导航***,其特征在于:
所述深度强化学***台动作;
深度强化学习决策模块的动作集包含前后左右的单向运动和向左前方和右前方的斜向运动,以及逆时针旋转和顺时针旋转,一共八个动作的离散动作集;
深度强化学习决策模块的奖励函数,也就是强化学习PPO控制器算法中的奖励函数r由显示奖励rf、碰撞奖励rc、步长奖励rs、距离奖励rd四个部分组成;
深度强化学***台当前状态同时输入到PPO网络和启发式控制器,它们分别输出强化学习动作和启发式动作,动作调整网络根据当前状态做出决策,执行强化学习动作或启发式动作,智能体执行该决策,并将实际执行的动作和该决策送入经验池,然后更新PPO网络和动作调整网络。
9.根据权利要求8所述的一种基于视觉输入的无人平台强化学习自主导航***,其特征在于:
深度强化学习决策模块的算法步骤如下:
步骤S1:初始化动作调整网络参数
步骤S2:初始化PPO策略网络参数和价值函数网络参数φ0
步骤S3:初始化经验回放池R;
步骤S4:重置环境和无人平台状态,重置经验回放池;
步骤S5:获得无人平台初始状态s0和目标点位置pd
步骤S6:采样PPO策略网络输出动作
步骤S7:采样启发式控制器输出动作
步骤S8:采样动作调整网络输出动作at∈{at 0,at 1};
步骤S9:执行动作at,得到奖励rt+1和下一状态st+1
步骤S10:判断||st+1-pd||是否趋近于0,如果趋近于0,则令dt+1=1;如果不趋近于0,则令dt+1=0;
步骤S11:将(st,at,rt+1,st+1,dt+1)储存进R;
步骤S12:判断目前时刻是否为T-1,如果是则执行步骤S13;如果不是则执行步骤S6;
步骤S13:从R中随机采样minibatch大小的样本;
步骤S14:计算累计折扣收益计算优势函数/>
步骤S15:更新PPO网络,更新动作调整网络;
步骤S16:判断目前采样数是否为M,如果是则执行步骤S17;如果不是则执行步骤S13;
步骤S17:判断目前是否到达第K幕,如果是则算法结束,如果不是则执行步骤S4。
10.一种基于视觉输入的无人平台强化学习自主导航方法,其特征在于该方法的步骤包括:
第一步,环境仿真模块输出仿真无人平台的速度信息、RGB图像信息、深度图像信息给强化学习模块;
第二步,环境仿真模块输出双目相机的视觉图像给视觉感知模块;
第三步,视觉感知模块接收环境仿真模块输出的双目相机的视觉图像,并根据接收到的双目相机的视觉图像获得无人平台在世界坐标系下的相对位置,并输出给强化学习模块;
第四步,强化学***台的速度信息、RGB图像信息、深度图像信息,以及视觉感知模块输出的无人平台在世界坐标系下的相对位置,并根据接收到的无人平台的速度信息、RGB图像信息、深度图像信息、无人平台在世界坐标系下的相对位置,输出无人平台的动作给环境仿真模块中的无人平台。
CN202310458355.4A 2023-04-26 2023-04-26 一种基于视觉输入的无人平台强化学习自主导航***及方法 Pending CN116734850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310458355.4A CN116734850A (zh) 2023-04-26 2023-04-26 一种基于视觉输入的无人平台强化学习自主导航***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310458355.4A CN116734850A (zh) 2023-04-26 2023-04-26 一种基于视觉输入的无人平台强化学习自主导航***及方法

Publications (1)

Publication Number Publication Date
CN116734850A true CN116734850A (zh) 2023-09-12

Family

ID=87915910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310458355.4A Pending CN116734850A (zh) 2023-04-26 2023-04-26 一种基于视觉输入的无人平台强化学习自主导航***及方法

Country Status (1)

Country Link
CN (1) CN116734850A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117215197A (zh) * 2023-10-23 2023-12-12 南开大学 四旋翼飞行器在线轨迹规划方法、***、电子设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117215197A (zh) * 2023-10-23 2023-12-12 南开大学 四旋翼飞行器在线轨迹规划方法、***、电子设备及介质
CN117215197B (zh) * 2023-10-23 2024-03-29 南开大学 四旋翼飞行器在线轨迹规划方法、***、电子设备及介质

Similar Documents

Publication Publication Date Title
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及***
US11494937B2 (en) Multi-task multi-sensor fusion for three-dimensional object detection
CN111123963B (zh) 基于强化学习的未知环境自主导航***及方法
CN110007675B (zh) 一种基于行车态势图的车辆自动驾驶决策***及基于无人机的训练集制备方法
US20200363800A1 (en) Decision Making Methods and Systems for Automated Vehicle
Tai et al. Towards cognitive exploration through deep reinforcement learning for mobile robots
CN112629542B (zh) 基于ddpg和lstm的无地图机器人路径导航方法及***
CN113762252A (zh) 无人机智能跟随目标确定方法、无人机和遥控器
Drews et al. Aggressive deep driving: Model predictive control with a cnn cost model
CN112232490A (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
Espinoza et al. Deep interactive motion prediction and planning: Playing games with motion prediction models
CN111795700A (zh) 一种无人车强化学习训练环境构建方法及其训练***
CN115303297B (zh) 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置
Li et al. Learning view and target invariant visual servoing for navigation
CN116734850A (zh) 一种基于视觉输入的无人平台强化学习自主导航***及方法
Guo et al. A deep reinforcement learning based approach for AGVs path planning
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
Liu et al. A hierarchical reinforcement learning algorithm based on attention mechanism for UAV autonomous navigation
Chen et al. Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization
CN115032984A (zh) 一种面向港口物流智能机器人的半自主导航方法及***
CN113961013A (zh) 一种基于rgb-d slam的无人机路径规划方法
US20210398014A1 (en) Reinforcement learning based control of imitative policies for autonomous driving
Ruan et al. Obstacle avoidance navigation method for robot based on deep reinforcement learning
CN117705113A (zh) 一种改进ppo的无人机视觉避障及自主导航方法
US20240054008A1 (en) Apparatus and method for performing a task

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination