CN115493595A - 一种基于局部感知与近端优化策略的auv路径规划方法 - Google Patents

一种基于局部感知与近端优化策略的auv路径规划方法 Download PDF

Info

Publication number
CN115493595A
CN115493595A CN202211219574.9A CN202211219574A CN115493595A CN 115493595 A CN115493595 A CN 115493595A CN 202211219574 A CN202211219574 A CN 202211219574A CN 115493595 A CN115493595 A CN 115493595A
Authority
CN
China
Prior art keywords
auv
network
path planning
optimization strategy
ocean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211219574.9A
Other languages
English (en)
Inventor
杨嘉琛
霍紫强
霍佳明
肖帅
***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202211219574.9A priority Critical patent/CN115493595A/zh
Publication of CN115493595A publication Critical patent/CN115493595A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/203Specially adapted for sailing ships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

当代海洋探测模式向智能化、信息化转变,以追求更小的行动风险和更长的航行时间,水下无人探测体系的重要性随之日益凸显,考虑洋流因素和障碍物因素的路径规划成为AUV水下航行的必备条件。本发明是针对洋流因素被忽略,没有有效利用局部障碍物信息的情形下,提出的一种结合局部感知的近端优化策略算法的AUV路径规划方法。通过构建水下洋流环境,搭建近端优化策略的神经网络结构,设计考虑多因素的奖励函数,获得AUV水下路径规划的流程图。通过实验对该方法进行了验证。本发明可广泛应用于水下AUV的实时路径规划。

Description

一种基于局部感知与近端优化策略的AUV路径规划方法
所属技术领域
本发明属于AUV自主路径规划领域,尤其涉及一种考虑洋流影响的基于局部感知和近端优化策略的AUV路径规划方法。
背景技术
当代海洋探测模式向智能化、信息化转变,以追求更小的行动风险和更长的航行时间,水下无人探测体系的重要性随之日益凸显。AUV是水下无人作战体系的重要组成部分,路径规划是AUV安全有效完成作战任务的重要技术,需要考虑洋流、避障、自身性能等约束条件,追求能源消耗、航行时间、安全隐蔽等指标最优。
当前常用的路径规划的方法主要有基于有向图的搜索方法、启发式搜索算法、人工势场法、快速生成随机树法等。对于大规模区域的AUV路径规划问题,快速得到符合要求的路径比花费大量时间求解最优路径更重要,强化学习算法由于其智能性与动态学习能力成为路径规划算法研究的热点。
强化学习主要由智能体、环境、状态、动作、奖励组成;智能体执行了某个动作后,智能体将采集到新的观测状态,对于该状态转换环境会给出奖励信号。随后,智能体根据新的状态和环境反馈的奖励,按照当前策略执行新的动作。智能体通过强化学习,不断优化自身策略,最终能够在不同状态下都采取最优动作。近端优化策略算法属于基于策略的强化学习算法,用以解决多维动作空间下的动作选择问题。
发明内容
本发明要解决的技术问题是针对以上不足,提供一种结合局部感知的近端优化策略算法的AUV路径规划方法。本发明的技术方案如下:
1.获取障碍物信息、洋流信息,根据信息构建三维环境;
2.构建用于评估动作的评论家网络和用来输出动作的演员网络,初始化网络参数。
3.根据神经网络的输出选择动作,获取到样本,并放到经验池中,用于之后的学习。
4.样本中的奖励函数计算公式如下:
Rd=arctank1tt+1d)
其中ξt代表AUV当前位置和目标点的距离,δd为偏置项,加大AUV获得正奖励的难度。
Figure BDA0003870365280000011
Figure BDA0003870365280000012
Figure BDA0003870365280000013
与洋流相关的奖励由实际速度
Figure BDA0003870365280000014
与AUV速度
Figure BDA0003870365280000015
的比值设定。当目标可达且洋流对AUV的运动有积极影响时,实际速度应大于AUV的速度。参数τc通常被设置为0.5,以促进AUV更多地利用洋流。Rc随洋流角度的增大而减小,并随洋流速度的增大而增大。当洋流产生负面影响或利用程度较低时,该公式倾向于通过δc对智能体进行惩罚。
最终奖励函数为:R=k1*Rd+k2*Rc
5.评论家网络和演员网络使用样本进行学习,演员网络的更新公式推导如下:
目标函数为:
Figure BDA0003870365280000021
目标函数的梯度为:
Figure BDA0003870365280000022
更新公式:为
Figure BDA0003870365280000023
α为学习率
演员网络的更新方式为
Figure BDA0003870365280000024
当优势函数估计值
Figure BDA0003870365280000025
大于0时,网络参数将朝着增大该动作输出概率的方向优化,但是优化到rt(θ)=1+ε为止;相反地,当
Figure BDA0003870365280000026
时,网络参数将向减小该动作地概率方向优化,直到rt(θ)=1-ε,本质上控制了策略更新的幅度。
在近端优化策略中,使用时序差分误差对优势函数进行估计,单步TD-error定义为累积折扣奖励和Critic网络状态估计的差值。优势函数的估计值为N步TD-error,表示为:
δt=rx+1+γVβ(st+1)-Vβ(st).
优势函数为:
Figure BDA0003870365280000027
评论家网络的更新方式为:LVFβ=(Vβ-Vt targ)2
6.按照5的方式对两个网络进行参数更新。根据输出的概率分布,进行抽样选取动作。重复上述采样,更新网络的过程,直到达到指定的最大回合数。每一回合结束的标志是达到最大步数或者到达目标点,最后输出路径。
本发明采用的近端优化策略算法包含两个网络:评论家网络和演员网络;评论家网络评估动作的价值,演员网络负责输出动作,可以对样本进行多次学习,将on-policy转化为off-policy,提高了经验池中样本的利用率。本发明的输入为相对位置信息与局部障碍物的描述信息联合输入,能够提供全局指引和局部感知的功能。使用输出概率分布的方式,使网络在多维动作空间下仍然能够收敛。
附图说明
图1所提方法框图
图2实验结果
具体实施方式
所提方法主要包括:输入处理,初始化网络,奖励函数设计,网络更新,决策等步骤。图1给出了所提方法的框图。
一种基于近端优化策略算法的AUV路径规划方法,具体实施过程包括以下步骤:
1.环境构建。从国家海洋数据中心下载洋流与深度数据122.75°E-130.75°E,15.25°N-23.625°N,最大深度为6400m。以(122.75°E,15.25°N,-6400m)为坐标原点建立坐标系,目标点为(130.75°E,23.625°N,-6400m),AUV的航速为1.5m/s。
2.状态输入,包括三部分:位置信息,洋流信息,局部环境信息。其中位置信息采用相对位置坐标输入:
Figure BDA0003870365280000031
(gx,gy,gz)为目标点坐标,(x,y,z)为当前位置坐标,洋流信息根据当前所处位置进行获取,表示为(u,v,w),局部环境信息由传感器感知,并转化为0,1矩阵。其中,0代表有障碍,1代表安全。感知范围为3个单位长度,感知矩阵维度为3×3×3。
3.局部感知输入经过神经网络处理变为1×3的输入,并与位置和洋流信息连接后作为最终输入。
4.构建演员神经网络用于输出策略,其参数记为α,通过softmax最终输出27维向量,并根据概率分布进行抽样;构建评论家神经网络用于输出动作的价值,其参数记为β,除最后一层外,其余网络结构与演员网络相同。
5.将3中的输入传入演员网络,输出动作at,AUV执行当前动作,并在洋流影响下得到新状态st+1,获得奖励rt,将当前样本存入经验池(st,at,rt,st+1),重复此过程直到当前回合结束。回合结束标志为到达目标或者达到最大步数2000步。
6.奖励函数设置如下:
Rd=arctank1tt+1d)
其中ξt代表AUV当前位置和目标点的距离,δd为偏置项,加大AUV获得正奖励的难度。
Figure BDA0003870365280000032
Figure BDA0003870365280000033
Figure BDA0003870365280000034
与洋流相关的奖励由实际速度
Figure BDA0003870365280000035
与AUV速度
Figure BDA0003870365280000036
的比值设定。当目标可达且洋流对AUV的运动有积极影响时,实际速度应大于AUV的速度。参数τc通常被设置为0.5,以促进AUV更多地利用洋流。Rc随洋流角度的增大而减小,并随洋流速度的增大而增大。当洋流产生负面影响或利用程度较低时,该公式倾向于通过δc对智能体进行惩罚。
最终奖励函数为:R=k1*Rd+k2*Rc,其中k1=1,k2=0.5。
7.回合结束后,样本数达到指定容量1000,则开始进行更新;若未达到,继续进行采样。更新公式如下:
评论家网络和演员网络使用样本进行学习,演员网络的更新公式推导如下:
目标函数为:
Figure BDA0003870365280000041
目标函数的梯度为:
Figure BDA0003870365280000042
更新公式:为
Figure BDA0003870365280000043
α为学习率
演员网络的更新方式为
Figure BDA0003870365280000044
当优势函数估计值
Figure BDA0003870365280000045
大于0时,网络参数将朝着增大该动作输出概率的方向优化,但是优化到rt(θ)=1+ε为止;相反地,当
Figure BDA0003870365280000046
时,网络参数将向减小该动作地概率方向优化,直到rt(θ)=1-ε,本质上控制了策略更新的幅度。
在近端优化策略中,使用时序差分误差对优势函数进行估计,单步TD-error定义为累积折扣奖励和Critic网络状态估计的差值。优势函数的估计值为N步TD-error,表示为:
δt=rt+1+γVβ(st+1)-Vβ(st).
优势函数为:
Figure BDA0003870365280000047
评论家网络的更新方式为:LVFβ=(Vβ-Vt targ)2
其中ε设置为0.3,学习率α为0.001。
测试实验结果如图2所示,路径长度为610.38km,路径花费时间为337413s。

Claims (4)

1.一种基于局部感知与近端优化策略的AUV路径规划方法,所述路径规划方法包括:
(1)获取障碍物信息、洋流信息,根据信息构建三维环境;
(2)构建用于评估动作的评论家网络和用来输出动作的演员网络,初始化网络参数;
(3)根据神经网络的输出选择动作,获取到样本,并放到经验池中,用于之后的学习;
(4)设计考虑多种因素的奖励函数;
(5)使用经验池的样本进行训练,直到达到最大回合数,输出路径。
2.如权利要求1所示述的基于局部感知与近端优化策略的AUV路径规划方法,所述步骤(4)中的奖励函数计算公式如下:
Rd=arctan k1tt+1d)
其中ξt代表AUV当前位置和目标点的距离,δd为偏置项,加大AUV获得正奖励的难度。
Figure FDA0003870365270000011
Figure FDA0003870365270000012
Figure FDA0003870365270000013
与洋流相关的奖励由实际速度
Figure FDA0003870365270000014
与AUV速度
Figure FDA0003870365270000015
的比值设定。当目标可达且洋流对AUV的运动有积极影响时,实际速度应大于AUV的速度。参数τc通常被设置为0.5,以促进AUV更多地利用洋流。Rc随洋流角度的增大而减小,并随洋流速度的增大而增大。当洋流产生负面影响或利用程度较低时,该公式倾向于通过δc对智能体进行惩罚。
最终奖励函数设置为:R=k1*Rd+k2*Rc
3.如权利要求1所示述的基于局部感知与近端优化策略的AUV路径规划方法,所述步骤(4)中构建评论家网络和演员网络使用样本进行学习,演员网络的更新公式推导如下:
目标函数为:
Figure FDA0003870365270000016
目标函数的梯度为:
Figure FDA0003870365270000017
更新公式:为
Figure FDA0003870365270000018
α为学习率
演员网络的更新方式为
Figure FDA0003870365270000019
当优势函数估计值
Figure FDA00038703652700000110
大于0时,网络参数将朝着增大该动作输出概率的方向优化,但是优化到rt(θ)=1+ε为止;相反地,当
Figure FDA00038703652700000111
时,网络参数将向减小该动作地概率方向优化,直到rt(θ)=1-ε,本质上控制了策略更新的幅度。
在近端优化策略中,使用时序差分误差对优势函数进行估计,单步TD-error定义为累积折扣奖励和Critic网络状态估计的差值。优势函数的估计值为N步TD-error,表示为:
δt=rt+1+γVβ(st+1)-Vβ(st).
优势函数为:
Figure FDA0003870365270000021
评论家网络的更新方式为:
Figure FDA0003870365270000022
4.如权利要求1所示述的基于局部感知与近端优化策略的AUV路径规划方法,所述步骤(5)对两个网络进行参数更新。根据输出的概率分布,进行抽样选取动作。重复上述采样,更新网络的过程,直到达到指定的最大回合数。每一回合结束的标志是达到最大步数或者到达目标点。
CN202211219574.9A 2022-09-28 2022-09-28 一种基于局部感知与近端优化策略的auv路径规划方法 Pending CN115493595A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211219574.9A CN115493595A (zh) 2022-09-28 2022-09-28 一种基于局部感知与近端优化策略的auv路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211219574.9A CN115493595A (zh) 2022-09-28 2022-09-28 一种基于局部感知与近端优化策略的auv路径规划方法

Publications (1)

Publication Number Publication Date
CN115493595A true CN115493595A (zh) 2022-12-20

Family

ID=84472697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211219574.9A Pending CN115493595A (zh) 2022-09-28 2022-09-28 一种基于局部感知与近端优化策略的auv路径规划方法

Country Status (1)

Country Link
CN (1) CN115493595A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN111829527A (zh) * 2020-07-23 2020-10-27 中国石油大学(华东) 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112698646A (zh) * 2020-12-05 2021-04-23 西北工业大学 一种基于强化学习的航行器路径规划方法
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113532457A (zh) * 2021-06-07 2021-10-22 山东师范大学 机器人路径导航方法、***、设备及存储介质
CN113534668A (zh) * 2021-08-13 2021-10-22 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN111829527A (zh) * 2020-07-23 2020-10-27 中国石油大学(华东) 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112698646A (zh) * 2020-12-05 2021-04-23 西北工业大学 一种基于强化学习的航行器路径规划方法
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113532457A (zh) * 2021-06-07 2021-10-22 山东师范大学 机器人路径导航方法、***、设备及存储介质
CN113534668A (zh) * 2021-08-13 2021-10-22 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIACHEN YANG,ET AL: "A Time-Saving Path Planning Scheme for Autonomous Underwater Vehicles With Complex Underwater Conditions", 《IEEE INTERNET OF THINGS JOURNAL》, 12 September 2022 (2022-09-12), pages 1001 - 1013 *

Similar Documents

Publication Publication Date Title
Jiang et al. Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge
CN111142522B (zh) 一种分层强化学习的智能体控制方法
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN104298239B (zh) 一种室内移动机器人增强地图学习路径规划方法
CN107168324B (zh) 一种基于anfis模糊神经网络的机器人路径规划方法
WO2018120739A1 (zh) 路径规划方法、装置及机器人
CN109655066A (zh) 一种基于Q(λ)算法的无人机路径规划方法
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
CN110750096A (zh) 静态环境下基于深度强化学习的移动机器人避碰规划方法
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
Xie et al. Learning with stochastic guidance for robot navigation
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及***
CN115248591B (zh) 基于混合初始化灰狼粒子群算法的uuv路径规划方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
Song et al. Autonomous mobile robot navigation using machine learning
CN116448119A (zh) 一种面向突发威胁的无人蜂群协同航迹规划方法
CN115493595A (zh) 一种基于局部感知与近端优化策略的auv路径规划方法
CN114740873B (zh) 一种基于多目标改进粒子群算法的自主式水下机器人的路径规划方法
Li et al. Research on the agricultural machinery path tracking method based on deep reinforcement learning
Zhang et al. Visual navigation of mobile robots in complex environments based on distributed deep reinforcement learning
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
Duo et al. A deep reinforcement learning based mapless navigation algorithm using continuous actions
Martin et al. The application of particle swarm optimization and maneuver automatons during non-Markovian motion planning for air vehicles performing ground target search
Zong et al. A method for robustness improvement of robot obstacle avoidance algorithm
Chong et al. Heuristic dynamic path planning algorithm based on SALSTM-DDPG

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination