CN114089762B - 一种基于强化学习的水空两栖无人航行器路径规划方法 - Google Patents

一种基于强化学习的水空两栖无人航行器路径规划方法 Download PDF

Info

Publication number
CN114089762B
CN114089762B CN202111381994.2A CN202111381994A CN114089762B CN 114089762 B CN114089762 B CN 114089762B CN 202111381994 A CN202111381994 A CN 202111381994A CN 114089762 B CN114089762 B CN 114089762B
Authority
CN
China
Prior art keywords
amphibious unmanned
unmanned aircraft
path planning
grid
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111381994.2A
Other languages
English (en)
Other versions
CN114089762A (zh
Inventor
杨晓飞
史逸伦
叶辉
杜昭平
佘宏伟
严鑫
刘伟
冯北镇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202111381994.2A priority Critical patent/CN114089762B/zh
Publication of CN114089762A publication Critical patent/CN114089762A/zh
Application granted granted Critical
Publication of CN114089762B publication Critical patent/CN114089762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于强化学习的水空两栖无人航行器路径规划方法。步骤是:S1、选取两栖无人航行器执行路径规划任务的区域S,根据区域S,提取电子海图中对应区域S的数据进行三维环境建模;S2、构建两栖无人航行器路径规划的马尔可夫决策过程(MDP);S3、给定起始点和目标点,根据两栖无人航行器路径规划的MDP,基于深度Q网络(DQN)算法根据两栖无人航行器的不同工作场景完成全局路径规划。本发明较现有的针对两栖无人航行器路径规划的环境建模方法的规划范围提高到了几十公里,并有效的考虑两栖无人航行器的运动特性,结合DQN算法,可以更加快速有效的找到一条符合其工作场景的最优路径。

Description

一种基于强化学习的水空两栖无人航行器路径规划方法
技术领域
本发明属于自主路径规划技术领域,具体地说,是涉及一种面向水空两栖无人航行器的智能路径规划方法。
背景技术
水空两栖无人航行器具有水上航行和空中飞行功能,较普通无人艇具有快速到达任务点、搜索视野广的优点。可以有效的解决常规的水上搜索救援方法依靠救援人员驾驶巡逻艇前往事发地点存在着救援时间慢、成本高、频次低的弊端。路径规划是实现两栖无人航行器自主化的关键技术之一。路径规划模块性能的高低直接关系着两栖无人航行器行进路径选择的优劣和行进的流畅度,也关系着两栖无人航行器在执行任务期间是否能满足能耗最小、速度最快等指标。
发明专利CN109871022A,介绍了一种水空两栖无人航行器的智能路径规划和局部避障方法,通过实时获取两栖无人航行器的工作环境信息,建立三维栅格地图,使用改进的A*算法进行路径规划。发明专利CN112698646A,介绍了一种基于强化学习的航行器路径规划方法,通过接入电子海图中的障碍物信息,构建虚拟力场,设定虚拟力场奖励函数进行路径规划。
现有的针对两栖无人航行器的路径规划方法,通过实时构建三维栅格地图只能运用于两栖无人航行器周围数十米内小范围的局部路径规划,然而两栖无人航行器工作半径可以达到数十公里,该方法无法解决这种大范围地图的路径规划任务。且传统的路径规划搜索方法(A *)无法去利用两栖无人航行器跨维度运动的特性去寻找路径规划的最优解。现有的通过强化学习针对两栖无人航行器的路径规划方法,通常是自建栅格环境模型来进行规划,该方法具有算法搜索空间大,不同于真实环境无法应用于实际的规划任务中;通过电子海图这类实际的环境地图来建环境模型的路径规划任务,未对电子海图数字化建模,影响基于强化学习的路径规划算法的训练效率。
发明内容
发明目的:为了克服现有针对两栖无人航行器路径规划方法无法应对适合其大范围工作半径的路径规划任务,无法有效的考虑利用两栖无人航行器的运动特性寻找路径规划的最优解,以及利用电子海图去做路径规划未对电子海图进行数字化建模影响强化学习算法的训练效率的不足。本发明提供了一种基于强化学习的水空两栖无人航行器路径规划方法。
该方法通过对S-57格式电子海图的数据进行提取,结合实际的数字高程数据,建立了基于电子海图的两栖无人航行器路径规划的环境模型。根据航行器与障碍物相撞的风险以及其他一些规则,建立了奖励函数。随后,采用深度Q网络(DQN)算法原理进行重复训练。经过充分的训练,建立了路径规划的人工智能,可以依据航行器不同的工作场景找到一条有意义的、合理的路径。
技术方案:为了实现上述目的,本发明采用的具体技术方案如下:
一种基于强化的水空两栖无人航行器路径规划方法,包括如下步骤:
S1、选取两栖无人航行器执行路径规划任务的区域S,根据区域S,提取电子海图中对应区域S的数据进行三维环境建模;
S2、构建两栖无人航行器路径规划的马尔可夫决策过程(MDP);
S3、给定起始点和目标点,根据两栖无人航行器路径规划的MDP,基于深度Q网络(DQN) 算法根据两栖无人航行器的不同工作场景完成全局路径规划;
本发明进一步改进,所述S1步骤具体包括:
S101、所述的选取两栖无人航行器所需要执行任务的区域S,即执行任务区域的经纬度范围。
S102、所述的根据区域S,即根据区域S的经纬度选用拥有对应区域的S-57格式的电子海图文件,以S为提取电子海图中数据的范围,进行路径规划需要的电子海图的数据进行提取。
S103、所述的提取电子海图中对应区域S的数据,即选取需要从电子海图中提取的用于路径规划的物标类型,通常为陆地、岛礁等,通过查阅电子海图的官方文件IHO S-57(ENC) 得知这些物标类型所对应的图层号,通过地理空间矢量数据开源库(OGR)库提取所需的电子海图数据;
S104、所述的通过地理空间矢量数据开源库(OGR)库提取所需的电子海图数据,即通过地理空间矢量数据开源库(OGR)库中(OGRSFDriver)类中函数来打开S-57格式的电子海图文件,并调用(S57reader)类根据所需要提取物标类型的图层号来逐层读取海图数据。
S105、将逐层读取到陆地、暗礁等电子海图上的数据按照图层(Layer)-要素(feature)-字段 (field)和几何对象(geometry)逐层保存在可扩展标识语言(xml)(可拓展标记语言)文件中;其中几何对象(geometry)保存着要素的几何属性,表明要素的类型是点(point)、线(line)或者多边形 (polygon)的其中一种。
S106、所述的对区域S的数据进行三维环境建模,即完成提取电子海图数据提取并保存为可扩展标识语言(xml)文件后,根据区域S的经度范围(wlong,elong),纬度范围为(hlati,llati), 取栅格尺寸为squaresize,建立列数为(wlong-elong)/squaresize+1,行数为(hlati-llati)/squaresiz e+1的栅格矩阵。栅格矩阵第i行j列栅格的中心点的经纬度可以表示为:
则此栅格的四个顶点a,b,c,d的经纬度可以表示为:
S107、通过对区域S的电子海图数据提取得到可扩展标识语言(xml)文件,对可扩展标识语言(xml)遍历,按照顺序去访问每一个节点。主要分为两个任务:1、确立栅格地图的可航行点和不可航行点;2、填充每个栅格的水深值。
S107-1、所述的第一项任务确立栅格地图的可航点和不可航行点,即当要素位于陆地和暗礁图层下,要素类型为多边形(Polygon)和线(line)时,访问其子节点点集(waypoints),将点集(waypoints)节点下的所有坐标点(waypoint)节点的经纬度坐标存储下来,使用多边形函数将这些存储下来的经纬度坐标点填充成多边形,与上述的a,b,c,d点构成的矩形做多边形交叉判断,如果二者存在交叉,则将此时的abcd点所处的栅格设为不可航行栅格;要素类型为点(p oint)时,同样先获取它的点集(waypoints)下的坐标点(waypoint)节点的经纬度坐标,并判断每一个坐标是否在a,b,c,d构成的矩形栅格内,如果在,就将当前a,b,c,d点所处的栅格设为不可航行栅格。
S107-2、所述的第二项任务填充每个栅格的水深值,即当要素子节点位于等深线图层节点下,同样先获取它的点集(waypoints)下的坐标点(waypoint)节点的经纬度坐标,并判断坐标点是否在a,b,c,d构成的矩形栅格内且此栅格为可航行栅格,如果成立,就将水深(depth)的值赋给栅格。因为等深线的几何形状是线(line),所以不是全部可航行栅格都有深度值,其他未被赋值的栅格以等深线为范围进行递增插值,即靠近水深值小的栅格则赋小值,靠近水深值大的栅格则赋大的水深值。这样就可以将所有可航行栅格赋有深度值。
S108、最终可以得到一个具有实际地理信息的栅格矩阵,矩阵中带有数值的单元表示带有深度值的可航行区域。
S109、通过获取区域S的高程数据,一般为tif格式。
S110、所述的获取区域S的高程数据,即在截取区域S高程数据时,可以得到左上角顶点的经纬度坐标和二维数组的尺寸。所以根据高程数据的分辨率,可以计算出每个像素点的经纬度信息,每个像素点的值则为高程值。所以,在得到高程数据的二维数组以及每个单元的高程值和经纬度坐标后,通过比对赋值的方法,将S108所述的栅格矩阵的不可航行区域按照其经纬度坐标赋上高程值,这样就可以得到具有高程数据的栅格矩阵。
本发明进一步改进,所述S2步骤中构建两栖无人航行器路径规划的(MDP)具体方法包括:
S201、所述的构建两栖无人航行器路径规划的马尔可夫决策过程(MDP),第一确定两栖无人航行器的状态空间,被定义为两栖无人航行器的位置坐标(x,y)和高度z,位置坐标(x,y) 表示为二维的连续空间,为了简化训练过程,高度z表示为一维的离散空间。因此两栖无人航行器的状态空间表示为
[(x1,y1,z1),(x2,y2,z2),.......,(xn,yn,zn)] (3)
S202、所述的构建两栖无人航行器路径规划的马尔可夫决策过程(MDP),第二确定两栖无人航行器的动作空间。考虑到两栖无人航行器同时具备水中航行和空中飞行的特点,所以将两栖无人航行器的动作离散成上、下、左、右、起飞和降落六个动作,即动作空间A=[up,down,left,right,fly,descend]。
S203、所述的上、下、左、右这四个动作移动的距离,分为两种情况考虑,分别为航行和飞行。在航行情况下,通过对实验室自船的航行速度测试,采取其一分钟前进的位移距离为上、下、左、右动作的移动距离(dsail);在飞行情况下,通过对实验室自船的航行速度测试,采取其一分钟前进的位移距离为上、下、左、右动作的移动距离(dflight)。起飞和降落动作的移动距离做了简化处理,即起飞动作执行后,两栖无人航行器会垂直起飞到达其所能到达最大高度(hmax),而降落动作执行后,两栖无人航行器会垂直降落到水面高度为0。根据定义的状态和动作空间,以一个给定的动作进行状态转换,可以表示为
其中[x'y'z']是下一个状态,[x y z]是当前状态。
S204、所述的构建两栖无人航行器路径规划的MDP,第三确定两栖无人航行器路径规划的奖励函数。
S204-1、目标区域奖励(rterminal)。提高训练效率在两栖无人航行器到达目标点区域视为完成任务。
S204-2、距离奖励函数(rdistance)。旨在加强目标区域的影响力,约束两栖无人航行器能更快的前往目标区域。
其中DistanceNow表示的是当前状态两栖无人航行器与目标点的距离,DistanceFuture表示下一步状态两栖无人航行器与目标点的距离。λdistance为距离权重系数。
S204-3、能耗奖励函数(rpower)。两栖无人航行器在运动时,其飞行和航行状态所消耗的能量是不同的,为了使路径规划的路线中飞行航行的占比符合不同的工作场景需求,采用了能耗奖励函数rpower。通过对实验室的两栖无人航行器进行能耗测试,得知其一分钟的飞行能耗以及其一分钟的航行能耗,得到它们的比值为λflightsail,所以能耗奖励函数可以表示为
其中α是一个比例系数,当两栖无人航行器为飞行状态和航行状态时,每做一个动作都会产生负的能耗奖励。
S204-4、水深奖励(rdepth)。根据电子海图解析出来的环境模型,每个坐标点都有对应的水深。与其他工作不同时,本研究采用坐标点的水深值Depth大小,来表示两栖无人航行器与陆地、岛礁等大型障碍物的距离。正常来说,水深越大的地方距离陆地越远,水深越小的地方离陆地越近。水深奖励函数rdepth可以表示为:
其中λ1~λ6为奖励函数的数值,障碍物标志位(obstance)是为了更好的保证两栖无人航行器的安全性以及起飞时机的恰当性,本研究将两栖无人航行器***一周构成一个3*3的正方形区域,当作两栖无人航行器的探测区域,如果区域有障碍物,则输出obstance=1
S204-5、碰撞奖励函数(robstance)。碰撞奖励旨在防止两栖无人航行器碰撞到障碍物。在强化学习算法训练过程中,一但两栖无人航行器与障碍物发生碰撞,碰撞奖励函数将返回一个的大的负奖励。碰撞奖励函数可以表示为:
robstance=-λobstance(Depth>0 and z=0) (9)
λobstance代表碰撞奖励返回的负奖励值,当两栖无人航行器下一个状态所处的坐标水深值为正且不在飞行状态即视为与障碍物发生碰撞,产生碰撞奖励。
S205、总的奖励函数可以表示为:
rtotal=λa*rterminalb*rdistancec*rpowerd*rdepthe*robstance (10)
其中λa、λb、λc、λd、λe为权重系数。
本发明进一步改进,所述S3步骤中给定起始点和目标点,根据两栖无人航行器路径规划的MDP,基于深度Q网络(DQN)算法根据两栖无人航行器的不同工作场景完成全局路径规划具体包括:
S301、所述的给定起始点和目标点,即选定路径规划任务的起始点的和目标点的经纬度坐标;
S302、所述的两栖无人航行器路径规划的MDP,即S2所述的构建两栖无人航行器的马尔可夫决策过程,包括状态空间、动作空间和奖惩函数。所述的基于深度Q网络(DQN)算法,即选择深度Q网络(DQN)算法,用作路径规划的算法,设定批大小(Batch_size)(每次给两栖无人航行器学习的数据量大小)、学习率(Learning rate)、训练次数(episode)、衰减因子(ga mma)、内存回放单元大小(memory_size)的数值,设定Q预测网络的层数,根据S2的两栖无人航行器的MDP和S1的三维环境模型进行训练。
S303、所述的根据两栖无人航行器的不同工作场景,即设定两栖无人航行器的三个不同工作场景:场景一为遇到突发事件需紧急出动执行任务,要求最快速到达目标地点。场景二为日常工作任务,要求有储能余量。场景三为储量余量过半需返航充电。通过修改S205中奖励函数的不同权重系数来实现不同工作场景的路径规划任务。
与现有技术相比,本发明具有如下显著的优点:
1、本发明使用的基于电子海图的三维环境建模方法简单有效,有效将电子海图于无人航行器结合,利用电子海图丰富的地理信息可以进行数十公里范围的路径规划,有效的弥补了现有技术规划范围较小的缺点。
2、本发明采用强化学习的方法对两栖无人航行器进行路径规划,其动作空间的设定,将起飞和降落作为独立的动作,有效的考虑了两栖无人航行器的运动特性。
3、本发明通过考虑两栖无人航行器的工作场景,设立奖励函数;从电子海图提取的水深信息,通过水深信息来有效限制两栖无人航行器的飞行和航行;通过各部分奖励的权重来实现不同任务场景的要求。
4、本发明训练完成的模型具有良好的泛化性,更换路径规划任务地图的区域,现有的A *算法需要重新搜索一遍,本方法训练好的模型可以运用有效的先验知识,很快搜索到一条合适的路径,较现有的方法省去了一个搜索周期。
附图说明
图1是本发明的一种基于强化学习的两栖无人航行器路径规划方法的逻辑步骤示意图,
图2是解析完电子海图后保存的可扩展标识语言(xml)文件的结构图,
图3是本发明的基于电子海图的三维环境建模的部分含有高层信息的栅格矩阵图,
图4是本发明的基于电子海图的三维环境建模示意图,
图5是本发明的基于深度Q算法的流程图,
图6是本发明的两栖无人航行器工作场景示意图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明做进一步详细描述,该实例仅用于解释本发明,并不对本发明的保护范围构成限定。
如图1所示,本发明的一种基于强化学习的路径规划方法,包括如下三个步骤。
S1、选取两栖无人航行器执行路径规划任务的区域S,根据区域S,提取电子海图中对应区域S的数据进行三维环境建模。
本实施例中,S1选取两栖无人航行器执行路径规划任务的区域S,根据区域S,提取电子海图中对应区域S的数据进行三维环境建模具体实现如下:
Step1、选取两栖无人航行器进行路径规划的工作区域S,S的经度范围为(wlong=119.53 25,elong=119.7325),纬度范围为(hlati=23.729659,llati=23.529659),为实际地图上中国澎湖列岛区域。
Step2、根据所述的区域S的经纬度坐标,选用拥有区域S的S-57格式的电子海图:中国南海电子海图EA200001,查阅IHO S-57(ENC)确定需要从电子海图中解析的物标的图层号,本实施例中解析了电子海图区域S中的陆地、岛礁和等水深线。查阅可知,陆地图层号为71,暗礁图层号为153,等水深线图层号为43。通过调用地理空间矢量数据开源库(OGR)中的S5 7reader类根据所需要提取物标类型的图层号来逐层读取电子海图数据。并按照如图2所示的结构存储在可扩展标识语言(xml)文件中。
Step3、本实施例根据两栖无人航行器的一分钟最大航行距离,选取栅格尺寸squaresize=0.002,以区域S的经纬度范围生成行(row)=101,列(col)=101的栅格矩阵,通过每个栅格顶点a, b,c,d的经纬度坐标,与Step2中的可扩展标识语言(xml)文件,按照要素(feature)和几何形状(g eometry),进行多边形交叉判断,赋予栅格可航和不可航的属性。比如可扩展标识语言(xml)中某要素(feature)是位于陆地(land)的图层(layer)下,它的几何形状是polygon(多边形),有数个点集(waypoints)组成,根据这些点集(waypoints)的经纬度信息,与上面自建的栅格地图相同经纬度区域进行多边形交叉判断,只要这个要素的构成的多边形与某个栅格交叉则将这个栅格赋予不可航栅格。同时,根据等水深线图层下的点集(waypoints)的坐标信息对可航栅格进行赋值,未被赋值的栅格,根据周围栅格进行插值。在通过GIS软件获取对应区域S的高程信息,得到区域S的高程信息的二维数组,按照对应的经纬度坐标对栅格地图的陆地区域进行高程数据赋值。这样就得到一个拥有高程数据和实际地理信息的栅格矩阵,如图3所示为区域S某部分含有高程数据和实际地理信息的栅格矩阵。三维环境模型可视化如图4所示。
S2、构建两栖无人航行器路径规划的马尔可夫决策过程(MDP)。
本实施例中,S2构建两栖无人航行器路径规划的马尔可夫决策过程(MDP)具体实现步骤如下:
Step1、状态空间被定义为两栖无人航行器的位置坐标(x,y)和高度z,位置坐标(x,y)表示为二维的连续空间,为了简化训练过程,高度z表示为一维的离散空间。因此两栖无人航行器的状态空间表示为
[(x1,y1,z1),(x2,y2,z2),.......,(xn,yn,zn)] (1)
Step2、将两栖无人航行器的动作离散成上、下、左、右、起飞和降落六个动作,即动作空间A=[up,down,left,right,fly,descend]。
Step3、在航行情况下,通过对实验室自船的航行速度测试,采取其一分钟前进的位移距离为上、下、左、右动作的移动距离dsail;在飞行情况下,通过对实验室自船的航行速度测试,采取其一分钟前进的位移距离为上、下、左、右动作的移动距离dflight。起飞和降落动作的移动距离做了简化处理,即起飞动作执行后,两栖无人航行器会垂直起飞到达其所能到达最大高度hmax,而降落动作执行后,两栖无人航行器会垂直降落到水面高度为0。根据定义的状态和动作空间,以一个给定的动作进行状态转换,可以表示为
其中[x'y'z']是下一个状态,[x y z]是当前状态。
Step3、奖励函数表示为:
rtotal=λa*rterminalb*rdistancec*rpowerd*rdepthe*robstance (3)
其中λa、λb、λc、λd、λe为权重系数。
目标区域奖励(rterminal)。提高训练效率在两栖无人航行器到达目标点区域视为完成任务。
距离奖励函数(rdistance)。旨在加强目标区域的影响力,约束两栖无人航行器能更快的前往目标区域。
其中DistanceNow表示的是当前状态两栖无人航行器与目标点的距离,DistanceFuture表示下一步状态两栖无人航行器与目标点的距离。λdistance为距离权重系数。
能耗奖励函数(rpower)。两栖无人航行器在运动时,其飞行和航行状态所消耗的能量是不同的,为了使路径规划的路线中飞行航行的占比符合不同的工作场景需求,采用了能耗奖励函数rpower。通过对实验室的两栖无人航行器进行能耗测试,得知其一分钟的飞行能耗λflight以及其一分钟的航行能耗λsail,得到它们的比值为λflightsail,所以能耗奖励函数可以表示为
其中α是一个比例系数,当两栖无人航行器为飞行状态和航行状态时,每做一个动作都会产生负的能耗奖励。
水深奖励(rdepth)。根据电子海图解析出来的环境模型,每个坐标点都有对应的水深。与其他工作不同时,本研究采用坐标点的水深值Depth大小,来表示两栖无人航行器与陆地、岛礁等大型障碍物的距离。正常来说,水深越大的地方距离陆地越远,水深越小的地方离陆地越近。水深奖励函数rdepth可以表示为:
其中λ1~λ6为奖励函数的数值,obstance是为了更好的保证两栖无人航行器的安全性以及起飞时机的恰当性,本研究将两栖无人航行器***一周构成一个3*3的正方形区域,当作两栖无人航行器的探测区域,如果区域有障碍物,则输出obstance=1
碰撞奖励函数(robstance)。碰撞奖励旨在防止两栖无人航行器碰撞到障碍物。在强化学习算法训练过程中,一但两栖无人航行器与障碍物发生碰撞,碰撞奖励函数将返回一个的大的负奖励。碰撞奖励函数可以表示为:
robstance=-λobstance(Depth>0 and z=0) (8)
λobstance代表碰撞奖励返回的负奖励值,当两栖无人航行器下一个状态所处的坐标水深值为正且不在飞行状态即视为与障碍物发生碰撞,产生碰撞奖励。
S3、给定起始点和目标点,根据两栖无人航行器路径规划的MDP,基于深度Q网络(DQN) 算法根据两栖无人航行器的不同工作场景完成全局路径规划;
本实施例中,根据S1的环境建模和S2的MDP构建,S3基于深度Q网络(DQN)算法根据两栖无人航行器的不同工作场景完成全局路径规划的具体实现如下:
Step1、给定路径规划的起始点和目标点
Step2、导入S1建立的环境模型,选用深度Q网络(DQN)算法,基于两栖无人航行器路径规划的深度Q网络(DQN)算法流程图如图5所示。用作路径规划的算法,设定批尺寸(Batch_ size)=32、学习率(Learning rate)=0.01、训练次数(episode)=5000、衰减因子(gamma)=0.9、内存回放单元大小(memory_size)=20000,设定Q网络的层数为3层,根据S2的两栖无人航行器的MDP和S1的三维环境模型进行训练。
S303、设定两栖无人航行器的三个不同工作场景如图6所示:场景一为遇到突发事件需紧急出动执行任务,要求最快速到达目标地点。主要通过调节奖励函数rtotal中的权重系数λc、λd等于0,不考虑储能和水深限制;
场景二为日常工作任务,要求有储能余量。调节奖励函数rtotal中的所有权重系数。
场景三为储量余量过半需返航充电。调节奖励函数rtotal中,权重系数λb、λd等于0,不考虑水深和距离限制。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化状态改进,这些变化和改进都在要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (4)

1.一种基于强化学习的水空两栖无人航行器路径规划方法,其特征在于,包括如下步骤:
S1、选取两栖无人航行器执行路径规划任务的区域S,根据区域S,提取电子海图中对应区域S的数据进行三维环境建模;
S2、构建两栖无人航行器路径规划的马尔可夫决策过程(MDP);
S3、给定起始点和目标点,根据两栖无人航行器路径规划的MDP,基于深度Q网络(DQN)算法根据两栖无人航行器的不同工作场景完成全局路径规划;
所述S2步骤中构建两栖无人航行器路径规划的马尔可夫决策过程(MDP)关于两栖无人航行器动作空间和状态空间定义的具体内容如下:
(1)、两栖无人航行器的状态空间,被定义为两栖无人航行器的位置坐标(x,y)和高度z,位置坐标(x,y)表示为二维的连续空间,为了简化训练过程,高度z表示为一维的离散空间;因此两栖无人航行器的状态空间表示为
[(x1,y1,z1),(x2,y2,z2),.......,(xn,yn,zn)] (3)
(2)、考虑到两栖无人航行器同时具备水中航行和空中飞行的特点,所以将两栖无人航行器的动作离散成上、下、左、右、起飞和降落六个动作,即动作空间A=[up,down,left,right,fly,descend];
(3)、在航行情况下,通过对实验室自船的航行速度测试,采取其一分钟前进的位移距离为上、下、左、右动作的移动距离(dsail);在飞行情况下,通过对实验室自船的航行速度测试,采取其一分钟前进的位移距离为上、下、左、右动作的移动距离(dflight);起飞和降落动作的移动距离做了简化处理,即起飞动作执行后,两栖无人航行器会垂直起飞到达其所能到达最大高度(hmax),而降落动作执行后,两栖无人航行器会垂直降落到水面高度为0;根据定义的状态和动作空间,以一个给定的动作进行状态转换,可以表示为
其中[x'y'z']是下一个状态,[x y z]是当前状态;
所述S2步骤中构建两栖无人航行器路径规划的马尔可夫决策过程(MDP)关于两栖无人航行器奖励函数定义的具体内容如下:
(1)、目标区域奖励(rterminal);提高训练效率在两栖无人航行器到达目标点区域视为完成任务;
(2)、距离奖励函数(rdistance);旨在加强目标区域的影响力,约束两栖无人航行器能更快的前往目标区域;
其中DistanceNow表示的是当前状态两栖无人航行器与目标点的距离,DistanceFuture表示下一步状态两栖无人航行器与目标点的距离;λdistance为距离权重系数;
(3)、能耗奖励函数(rpower);两栖无人航行器在运动时,其飞行和航行状态所消耗的能量是不同的,为了使路径规划的路线中飞行航行的占比符合不同的工作场景需求,采用了能耗奖励函数rpower;通过对实验室的两栖无人航行器进行能耗测试,得知其一分钟的飞行能耗λflight以及其一分钟的航行能耗λsail,得到它们的比值为λflightsail,所以能耗奖励函数可以表示为
其中α是一个比例系数,当两栖无人航行器为飞行状态和航行状态时,每做一个动作都会产生负的能耗奖励;
(4)、水深奖励(rdepth);根据电子海图解析出来的环境模型,每个坐标点都有对应的水深;与其他工作不同时,本研究采用坐标点的水深值(Depth)大小,来表示两栖无人航行器与陆地、岛礁等大型障碍物的距离;正常来说,水深越大的地方距离陆地越远,水深越小的地方离陆地越近;水深奖励函数rdepth可以表示为:
其中λ1~λ6为奖励函数的数值,障碍物标志位(obstance)是为了更好的保证两栖无人航行器的安全性以及起飞时机的恰当性,本研究将两栖无人航行器***一周构成一个3*3的正方形区域,当作两栖无人航行器的探测区域,如果区域有障碍物,则输出obstance=1;
(5)、碰撞奖励函数(robstance);碰撞奖励旨在防止两栖无人航行器碰撞到障碍物;在强化学习算法训练过程中,一但两栖无人航行器与障碍物发生碰撞,碰撞奖励函数将返回一个的大的负奖励;碰撞奖励函数可以表示为:
robstance=-λobstance(Depth>0 and z=0) (9)
λobstance代表碰撞奖励返回的负奖励值,当两栖无人航行器下一个状态所处的坐标水深值为正且不在飞行状态即视为与障碍物发生碰撞,产生碰撞奖励;
(6)、总的奖励函数可以表示为:
rtotal=λa*rterminalb*rdistancec*rpowerd*rdepthe*robstance (10)
其中λa、λb、λc、λd、λe为权重系数;
所述S3步骤中给定起始点和目标点,根据两栖无人航行器路径规划的MDP,基于深度Q网络(DQN)算法的具体过程如下:
(1)、给定路径规划的起始点和目标点;
(2)、导入S1建立的环境模型,选用深度Q网络(DQN)算法用作路径规划的算法,设定批尺寸(Batch_size)=32、学习率(Learning rate)=0.01、训练次数(episode)=5000、衰减因子(gamma)=0.9、内存回放单元大小(memory_size)=20000,设定Q网络的层数为3层,根据S2的两栖无人航行器的MDP和S1的三维环境模型进行训练。
2.根据权利要求1所述的基于强化学习的水空两栖无人航行器路径规划方法,其特征在于:S1中所述的选取两栖无人航行器执行路径规划任务的区域S,根据区域S,提取电子海图中对应区域S的数据的具体内容和步骤如下:
(1)、选取两栖无人航行器所需执行任务的区域S;
(2)、根据区域S的经纬度选用拥有对应区域的S-57格式的电子海图,以区域S为提取电子海图数据的范围,进行路径规划需要的电子海图数据进行提取;
(3)、选取需要从电子海图中提取的用于路径规划的物标类型,通常为陆地、岛礁,通过查阅电子海图的官方文件IHO S-57(ENC)得知这些物标类型所对应的图层号;
(4)、通过地理空间矢量数据开源库(OGR)根据所需要提取物标类型的图层号来逐层读取海图数据;
(5)、将逐层读取到陆地、暗礁电子海图上的数据按照图层(Layer)-要素(feature)-字段(field)和几何对象(geometry)逐层保存在可扩展标识语言(可扩展标识语言(xml))文件中;其中几何对象(geometry)保存着要素的几何属性,表明要素的类型是点(point)、线(line)或者多边形(polygon)的其中一种。
3.根据权利要求1所述的基于强化学习的水空两栖无人航行器路径规划方法,其特征在于:S1中所述的提取电子海图中对应区域S的数据进行三维环境建模具体内容和步骤如下:
(1)、根据区域S的经度范围(wlong,elong),纬度范围为(hlati,llati),取栅格尺寸为(squar esize),建立列数为(wlong-elong)/squaresize+1,行数为(hlati-llati)/squaresize+1的栅格矩阵;栅格矩阵第i行j列栅格的中心点的经纬度可以表示为:
则此栅格的四个顶点a,b,c,d的经纬度表示为:
a=(centerpointlon-0.5*squaresize,centerpointlat-0.5*squaresize)
b=(centerpointlon+0.5*squaresize,centerpointlat+0.5*squaresize)
c=(centerpointlon+0.5*squaresize,centerpointlat-0.5*squaresize)
d=(centerpointlon-0.5*squaresize,centerpointlat-0.5*squaresize) (2)
(2)、通过对区域S的电子海图数据提取得到可扩展标识语言(xml)文件,对可扩展标识语言(xml)遍历,按照顺序去访问每一个节点;分为两个任务:第一项任务、确立栅格地图的可航行点和不可航行点;第二项任务、填充每个栅格的水深值;其具体方法是:
(2.1)、所述的第一项任务确立栅格地图的可航点和不可航行点,即当要素位于陆地和暗礁图层下,要素类型为多边形(Polygon)和线(line)时,访问其子节点点集(waypoints),将点集(waypoints)节点下的所有坐标点(waypoint)节点的经纬度坐标存储下来,使用多边形函数将这些存储下来的经纬度坐标点填充成多边形,与上述的a,b,c,d点构成的矩形做多边形交叉判断,如果二者存在交叉,则将此时的abcd点所处的栅格设为不可航行栅格;要素类型为点(point)时,同样先获取它的点集(waypoints)下的坐标点(waypoint)节点的经纬度坐标,并判断每一个坐标是否在a,b,c,d构成的矩形栅格内,当在,则将当前a,b,c,d点所处的栅格设为不可航行栅格;
(2.2)、所述的第二项任务填充每个栅格的水深值,即当要素子节点位于等深线图层节点下,同样先获取它的点集(waypoints)下的坐标点(waypoint)节点的经纬度坐标,并判断坐标点是否在a,b,c,d构成的矩形栅格内且此栅格为可航行栅格,如果成立,就将水深(dep的值赋给栅格;因为等深线的几何形状是线(line),所以不是全部可航行栅格都有深度值,其他未被赋值的栅格以等深线为范围进行递增插值,即靠近水深值小的栅格则赋小值,靠近水深值大的栅格则赋大的水深值;这样就可以将所有可航行栅格赋有深度值;
(3)、最终可以得到一个具有实际地理信息的栅格矩阵,矩阵中带有数值的单元表示带有深度值的可航行区域;
(4)、通过获取区域S的高程数据,一般为tif格式;
(5)、所述的获取区域S的高程数据,即在截取区域S高程数据时,得到左上角顶点的经纬度坐标和二维数组的尺寸;所以根据高程数据的分辨率,计算出每个像素点的经纬度信息,每个像素点的值则为高程值;所以,在得到高程数据的二维数组以及每个单元的高程值和经纬度坐标后,通过比对赋值的方法,将(3)所述的栅格矩阵的不可航行区域按照其经纬度坐标赋上高程值,这样就可以得到具有高程数据的栅格矩阵。
4.根据权利要求1所述的基于强化学习的水空两栖无人航行器路径规划方法,其特征在于,所述S3步骤中根据两栖无人航行器的不同工作场景完成全局路径规划中两栖无人航行器工作场景设置如下:
(1)、设定两栖无人航行器的三个不同工作场景:场景一为遇到突发事件需紧急出动执行任务,要求最快速到达目标地点;主要通过调节奖励函数rtotal中的权重系数λc、λd等于0,不考虑储能和水深限制;
(2)、场景二为日常工作任务,要求有储能余量;调节奖励函数rtotal中的所有权重系数;
(3)、场景三为储量余量过半需返航充电;调节奖励函数rtotal中,权重系数λb、λd等于0,不考虑水深和距离限制。
CN202111381994.2A 2021-11-22 2021-11-22 一种基于强化学习的水空两栖无人航行器路径规划方法 Active CN114089762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111381994.2A CN114089762B (zh) 2021-11-22 2021-11-22 一种基于强化学习的水空两栖无人航行器路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111381994.2A CN114089762B (zh) 2021-11-22 2021-11-22 一种基于强化学习的水空两栖无人航行器路径规划方法

Publications (2)

Publication Number Publication Date
CN114089762A CN114089762A (zh) 2022-02-25
CN114089762B true CN114089762B (zh) 2024-06-21

Family

ID=80302350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111381994.2A Active CN114089762B (zh) 2021-11-22 2021-11-22 一种基于强化学习的水空两栖无人航行器路径规划方法

Country Status (1)

Country Link
CN (1) CN114089762B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114924587B (zh) * 2022-05-27 2024-03-19 江苏科技大学 一种无人机路径规划方法
CN114721409B (zh) * 2022-06-08 2022-09-20 山东大学 一种基于强化学习的水下航行器对接控制方法
CN115206157A (zh) * 2022-08-05 2022-10-18 白杨时代(北京)科技有限公司 一种无人潜航器寻路训练方法、装置及无人潜航器
CN115657683B (zh) * 2022-11-14 2023-05-02 中国电子科技集团公司第十研究所 一种可用于巡检作业任务的无人无缆潜水器实时避障方法
CN115855226B (zh) * 2023-02-24 2023-05-30 青岛科技大学 基于dqn和矩阵补全的多auv协同水下数据采集方法
CN116880551B (zh) * 2023-07-13 2024-06-14 之江实验室 基于随机事件捕获的飞行轨迹规划方法,***及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103900573A (zh) * 2014-03-27 2014-07-02 哈尔滨工程大学 一种基于s57标准电子海图的水下运载器多约束航路规划方法
CN108507575A (zh) * 2018-03-20 2018-09-07 华南理工大学 一种基于rrt算法的无人船海面路径规划方法及***
CN109871022A (zh) * 2019-03-18 2019-06-11 江苏科技大学 一种面向两栖无人搜救器的智能路径规划及避障方法
CN112698646A (zh) * 2020-12-05 2021-04-23 西北工业大学 一种基于强化学习的航行器路径规划方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8938348B2 (en) * 2011-12-13 2015-01-20 Mitsubishi Electric Research Laboratories, Inc. Method for optimizing run curve of vehicles
ES2943122T3 (es) * 2017-06-29 2023-06-09 Boeing Co Método y sistema para operar de forma autónoma una aeronave
EP3614389B1 (en) * 2018-08-23 2023-10-11 Tata Consultancy Services Limited Systems and methods for predicting structure and properties of atomic elements and alloy materials thereof
CN109803344B (zh) * 2018-12-28 2019-10-11 北京邮电大学 一种无人机网络拓扑及路由联合构建方法
US11074480B2 (en) * 2019-01-31 2021-07-27 StradVision, Inc. Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning
CN110110028B (zh) * 2019-05-09 2023-06-09 浪潮软件集团有限公司 一种面向ogc标准按自定义区域显示地图的方法及***
KR102303432B1 (ko) * 2019-11-25 2021-09-16 한국기술교육대학교 산학협력단 장애물의 특성을 고려한 dqn 및 slam 기반의 맵리스 내비게이션 시스템 및 그 처리 방법
CN112198870B (zh) * 2020-06-01 2022-09-02 西北工业大学 基于ddqn的无人机自主引导机动决策方法
KR102529331B1 (ko) * 2021-12-29 2023-05-09 서울대학교산학협력단 강화 학습을 사용한 uav bs 기반의 통신 방법 및 이러한 방법을 수행하는 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103900573A (zh) * 2014-03-27 2014-07-02 哈尔滨工程大学 一种基于s57标准电子海图的水下运载器多约束航路规划方法
CN108507575A (zh) * 2018-03-20 2018-09-07 华南理工大学 一种基于rrt算法的无人船海面路径规划方法及***
CN109871022A (zh) * 2019-03-18 2019-06-11 江苏科技大学 一种面向两栖无人搜救器的智能路径规划及避障方法
CN112698646A (zh) * 2020-12-05 2021-04-23 西北工业大学 一种基于强化学习的航行器路径规划方法

Also Published As

Publication number Publication date
CN114089762A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN114089762B (zh) 一种基于强化学习的水空两栖无人航行器路径规划方法
CN110108284B (zh) 一种顾及复杂环境约束的无人机三维航迹快速规划方法
Tang et al. Geometric A-star algorithm: An improved A-star algorithm for AGV path planning in a port environment
CN114384920B (zh) 一种基于局部栅格地图实时构建的动态避障方法
Xiaofei et al. Global path planning algorithm based on double DQN for multi-tasks amphibious unmanned surface vehicle
CN108564202B (zh) 一种基于环境预报信息的无人艇航线优化方法
CN108459503B (zh) 一种基于量子蚁群算法的无人水面艇航迹规划方法
Wu et al. Long-voyage route planning method based on multi-scale visibility graph for autonomous ships
CN111222701B (zh) 一种基于海洋环境图层的船舶航线自动规划与评价方法
CN111679692A (zh) 一种基于改进A-star算法的无人机路径规划方法
CN106203721B (zh) 自适应船舶破冰能力的极地冰区航线设计***及方法
CN109871022A (zh) 一种面向两栖无人搜救器的智能路径规划及避障方法
CN102980581A (zh) 基于不规则海岛的无人机覆盖航迹规划方法
CN111880549A (zh) 面向无人船路径规划的深度强化学习奖励函数优化方法
Li et al. AUV 3D path planning based on A* algorithm
CN113505431B (zh) 基于st-dqn海上无人机目标搜寻方法、装置、设备和介质
CN110608744A (zh) 一种具有动态避障功能的水质采样无人艇路径规划方法
CN112859864A (zh) 一种面向无人船的几何路径规划方法
CN110906935A (zh) 一种无人艇路径规划方法
CN110440804A (zh) 适用于极地冰区航行的智能导航方法
CN117193296A (zh) 一种基于高安全性的改进a星无人艇路径规划方法
Du et al. An optimized path planning method for coastal ships based on improved DDPG and DP
Zhao et al. Autonomous exploration method for fast unknown environment mapping by using UAV equipped with limited FOV sensor
Gao et al. An optimized path planning method for container ships in Bohai bay based on improved deep Q-learning
CN110320907A (zh) 一种基于改进蚁群算法和椭圆碰撞锥推演模型的无人水面艇双层避碰方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant