CN112800545B - 基于d3qn的无人船自适应路径规划方法、设备及存储介质 - Google Patents

基于d3qn的无人船自适应路径规划方法、设备及存储介质 Download PDF

Info

Publication number
CN112800545B
CN112800545B CN202110118727.XA CN202110118727A CN112800545B CN 112800545 B CN112800545 B CN 112800545B CN 202110118727 A CN202110118727 A CN 202110118727A CN 112800545 B CN112800545 B CN 112800545B
Authority
CN
China
Prior art keywords
unmanned ship
network
path planning
adaptive path
current state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110118727.XA
Other languages
English (en)
Other versions
CN112800545A (zh
Inventor
胡潇文
刘峰
陈畅
杨茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202110118727.XA priority Critical patent/CN112800545B/zh
Publication of CN112800545A publication Critical patent/CN112800545A/zh
Application granted granted Critical
Publication of CN112800545B publication Critical patent/CN112800545B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Computer Hardware Design (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)

Abstract

本发明属于无人船路径规划领域,通过学习的方式使无人船进行自适应的路径规划。主要包括:构建无人船模型,将无人船放在仿真环境下航行;无人船按照行为空间的行为随机探索;通过无人船的深度相机获取环境图像信息,通过定位***获取无人船位置信息,将探索得到的数据存放到优先经验回放池;将回放池的数据提取进行D3QN网络的训练;将训练好的网络模型加载到实际无人船中,进行真实环境路径规划。本发明可以在不需要先验信息的情况下,使路径规划精度高,碰撞率小,无人船的自适应能力强。

Description

基于D3QN的无人船自适应路径规划方法、设备及存储介质
技术领域
本发明涉及无人船路径规划技术领域,尤其涉及一种基于D3QN的无人船自适应路径规划方法、设备及存储介质。
背景技术
随着人工智能时代的兴起,无人船技术得到广泛的发展。我国存在着很多海洋环境恶劣的区域,而国内的无人船对环境的自适应能力又较差,又存在各种外界干扰因素,使得国内的无人船技术还远远没有达到预期的要求,迫切的需要一种自适应能力强的,能够应对突发情况的路径规划算法来突破当前的瓶颈。
传统的无人船路径规划方法的设计原则是根据先验的地图,来规划出一条最优化的无障碍路径,无人船只用遵从算法的指令形式,一旦环境发生变化则算法不能给出最佳的指引。传统的方法在简单的环境中能够有较高的稳定性。但是在未来的研究中,人类会探测越来越复杂的深海,其中将会存在复杂的动静态障碍物和险恶的环境,环境会突然发生变化,在没有预先的探测地图情况下,无人船只有拥有自适应的自主决策***,才能适应环境的变化。
为了提高无人船的自适应能力,这就需要无人船控制***对无人船的空间信息和周围环境的状态具有良好的认知能力和辨识能力。根据目前已有的文献研究,如遗传算法、蚁群算法和A*算法,虽然能够得到收敛,在简单环境下得到较好效果,但是在遇到突发情况时,没有能够及时处理的自适应能力,在强干扰情况下,会大大影响路径规划效果,甚至发生碰撞,产生严重后果。
发明内容
本发明要解决的问题是,克服现有技术的不足,当发生突发状况时,路径规划算法能够进行及时的处理,具有良好的自适应能力。提出一种基于D3QN的无人船自适应路径规划方法,使无人船能及时避碰,安全系数高。
为了实现上述目的,本发明提供的基于D3QN的无人船自适应路径规划方法,包括以下步骤:
S1、构建无人船模型和水下仿真环境,设计D3QN网络,将所述无人船模型放在所述水下仿真环境下自主航行;
S2、从当前状态S根据ε-贪婪算法选择行为A;
S3、根据所述行为A采用PID位置和速度误差控制算法使无人船到达下一个状态S’,获取下一个状态S’处与障碍物之间的第一位置关系,并获取下一个状态S’处与终点之间的第二位置关系,根据所述第一位置关系和所述第二位置关系利用奖惩机制得到回报R;
S4、获取当前状态S的环境信息和位置信息,合并为当前状态数据s,获取下一个状态S’的环境信息和位置信息,合并为下一个状态数据s’,将当前状态数据s、行为A、下一个状态数据s’和回报R以数组D的形式存放到优先经验回放池中,并通过TD-error(用时序差分法计算得到的当前状态函数值与目标值函数的差值)计算得到优先经验回放池中数组D的采样概率;
S5、根据所述采样概率将所述经验回放池中的数组D提取到D3QN网络,进行D3QN网络的梯度下降误差训练,并判断是否满足终止条件,若满足,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S’作为当前状态S,返回步骤S2;
S6、将所述训练的无人船自适应路径规划模型导入到无人船路径规划***,进行真实环境的无人船路径规划,并获得无人船路径。
进一步地,所述构建无人船模型和水下仿真环境,设计D3QN网络的步骤包括:
通过ROS和Gazebo搭建所述无人船模型和所述水下仿真环境;
通过LSTM网络、卷积神经网络和对抗性的全连接网络分别构成主网络和目标网络;
通过所述主网络、所述目标网络和经验回放池构成所述D3QN网络。
进一步地,所述无人船模型上设置深度相机和定位***;
所述深度相机用于获取当前环境信息;
所述定位***用于获取无人船的位置信息。
进一步地,步骤S5具体包括:
将整个所述优先经验回放池的空间按最小样本量M分为M个小范围;
在每个所述小范围内根据所述采样概率随机提取一个样本数据;
根据所述样本数据得到当前状态数据s和下一个状态数据s’;
通过所述主网络的卷积神经网络处理所述当前状态数据s中的环境信息,得到第一环境信息;
通过所述主网络的LSTM网络处理所述当前状态数据s中的位置信息,得到第一位置信息;
将所述第一环境信息和所述第一位置信息结合并输入到所述主网络中的对抗性全连接网络中,得到所述主网络的输出Q;
通过所述目标网络的卷积神经网络处理下一个状态数据s’中的环境信息,得到第二环境信息;
通过所述目标网络的LSTM网络处理下一个状态数据s’中的位置信息,得到第二位置信息;
将所述第二环境信息和所述第二位置信息结合并输入到所述目标网络中的对抗性全连接网络中,得到所述目标网络的输出Q1;
根据所述Q1和所述Q计算得到目标输出Qt;
根据所述Q和所述Qt计算得到误差函数;
基于所述误差函数采用梯度下降方法训练所述D3QN网络,判断误差函数是否满足终止条件,若满足,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S’作为当前状态S,返回步骤S2,重新训练。
进一步地,所述ε-贪婪算法为:
Figure BDA0002921259010000031
其中,ε∈(0,1),Step为训练步数,ε被设置为衰减函数类型,贪婪算法以ε的概率随机从行为空间选择行为,以1-ε的概率选择得到所述主网络的输出Q最大的行为。
进一步地,所述奖惩机制为:
Figure BDA0002921259010000032
其中,R为回报,do表示当前状态S无人船与终点的距离,dt表示下一个状态S’无人船与终点的距离。
进一步地,所述PID位置和速度误差控制算法为:
Ep=[P(x′,y′,z′)-P(x,y,z),O(r′,p′,y′)-O(r,p,y)]
Ev=[v(x′,y′,z′)-v(x,y,z),ω(x′,y′,z′)-ω(x,y,z)]
其中,Ep为偏向角,Ev为速度偏差,r、p和y为无人船分别与x轴、y轴和z轴偏向的角度,P(x′,y′,z′),O(r′,p′,y′)分别为一个状态S’无人船的位置和偏向角,v(x′,y′,z′),ω(x′,y′,z′)为采取行为A给定目标的线速度和角速度,P(x,y,z),O(r,p,y)分别为当前状态S无人船的位置和偏向角,v(x,y,z),ω(x,y,z)分别为当前状态S无人船的线速度和角速度。
此外,为了实现上述目的,本发明还提供了一种基于D3QN的无人船自适应路径规划设备,所述无人船自适应路径规划设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无人船自适应路径规划程序,所述无人船自适应路径规划程序被所述处理器执行时实现任一项所述的无人船自适应路径规划方法的步骤。
此外,为了实现上述目的,本发明还提供了一种存储介质,所述存储介质上存储有无人船自适应路径规划程序,所述无人船自适应路径规划程序被处理器执行时实现任一项所述的无人船自适应路径规划方法的步骤。
本发明的有益效果:本发明采用D3QN算法,不需要提前给出样本信息,通过自主探索获得的经验即可自主对网络进行训练,直到训练结束得到最优解;基于LSTM和卷积神经网络融合的主网络可以实现无人船环境的特征融合,采用学习的方式使无人船具有对环境变化的自适应能力,符合以后无人船更加智能化的发展方向。
附图说明
图1是本发明基于D3QN的无人船自适应路径规划方法执行流程图;
图2是图1对应的具体算法的流程图;
图3是D3QN网络处理无人船位置和图像信息框架图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1和图2,图1是本发明基于D3QN的无人船自适应路径规划方法执行流程图,图2是图1对应的具体算法的流程图。
本发明实施例提供了一种基于D3QN的无人船自适应路径规划方法,包括以下步骤:
S1、构建无人船模型和水下仿真环境,设计D3QN网络,将所述无人船模型放在所述水下仿真环境下自主航行;
通过ROS和Gazebo搭建无人船和水下环境,无人船上装置有深度相机,具有定位***,ROS具有Topic通信功能;
将LSTM网络,卷积神经网络,Dueling结构的全连接网络,三种网络结合生成的主网络和参数滞后于主网络一定步数目标网络,优先经验回放池。
通过无人船的深度相机获取所述水下仿真环境的图像信息;
通过定位***获取无人船位置信息;
采用ROS的Topic功能将无人船的位置信息和无人船的图像信息从Gazebo中传递到自适应路径规划算法中存储。
S2、从当前状态S根据ε-贪婪算法选择行为A,所述ε-贪婪算法为:
Figure BDA0002921259010000051
其中,ε∈(0,1),Step为训练步数,ε被设置为衰减函数类型,贪婪算法以ε的概率随机从行为空间选择行为,以1-ε的概率选择得到所述主网络的输出Q最大的行为。
S3、根据所述行为A采用PID位置和速度误差控制算法使无人船到达下一个状态S’,获取下一个状态S’处与障碍物之间的第一位置关系,并获取下一个状态S’处与终点之间的第二位置关系,根据所述第一位置关系和所述第二位置关系利用奖惩机制得到回报R;
所述PID位置和速度误差控制算法为:
Ep=[P(x′,y′,z′)-P(x,y,z),O(r′,p′,y′)-O(r,p,y)]
Ev=[v(x′,y′,z′)-v(x,y,z),ω(x′,y′,z′)-ω(x,y,z)]
其中,Ep为偏向角,Ev为速度偏差,r、p和y为无人船分别与x轴、y轴和z轴偏向的角度,P(x′,y′,z′),O(r′,p′,y′)分别为一个状态S’无人船的位置和偏向角,v(x′,y′,z′),ω(x′,y′,z′)为采取行为A给定目标的线速度和角速度,P(x,y,z),O(r,p,y)分别为当前状态S无人船的位置和偏向角,v(x,y,z),ω(x,y,z)分别为当前状态S无人船的线速度和角速度。
利用奖惩机制计算回报具体为:
当无人船靠近终点,获得少量奖励;
当无人船远离终点,得到少量惩罚;
当无人船到达终点,获得大量奖励;
当无人船接近障碍物,获得大量惩罚;
所述奖惩机制计算回报的公式为:
Figure BDA0002921259010000061
其中,R为回报,do表示当前状态S无人船与终点的距离,dt表示下一个状态S’无人船与终点的距离。
S4、获取当前状态S的环境信息和位置信息,合并为当前状态数据s,获取下一个状态S’的环境信息和位置信息,合并为下一个状态数据s’,将当前状态数据s、行为A、下一个状态数据s’和回报R合并形成5个数组D,并将数组D存放到优先经验回放池中,并通过TD-error计算得到优先经验回放池中数组D的采样概率;
根据TD-error计算优先级(采样概率),第i个样本的TD-error(时间差分误差)值δi的计算公式为:
δi=Ri+Qt(si,argmaxaQ(si,a))-Q(si-1,ai-1)
argmaxaQ(si,a)表示样本i的状态数据si下选择能够获得最大主网络输出Q值Q(si,a)的行为A,Qt(si,argmaxaQ(si,a))代表在状态数据si下选择行为A获得的目标网络输出Q值,Q(si-1,ai-1)表示第i-1个样本的状态数据si-1选择行为ai-1获得的主网络输出Q值,γ为衰减系数,取值为0.8,根据优先级随机采样的转移概率为:
Figure BDA0002921259010000071
其中,α指数表示随机采样优先级的程度,当α等于0时表现为均匀随机采样,pi表示第i个样本的优先级大小,当采用成比例采样时,pi的大小为:
pi=|δi|+ε
其中,ε为大于0的变量,防止TD-error为0的样本得不到回放机会。
S5、根据所述采样概率将所述经验回放池中的数组D提取到D3QN网络,进行D3QN网络的梯度下降误差训练,并判断是否满足终止条件,若满足,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S’作为当前状态S,返回步骤S2;具体步骤为:
将整个所述优先经验回放池的空间按最小样本量M分为M个小范围;
在每个所述小范围内根据所述采样概率随机提取一个样本数据;
根据所述样本数据得到当前状态数据s和下一个状态数据s’;
请参考图3,图3是D3QN网络处理无人船位置和图像信息框架图;
通过所述主网络的卷积神经网络处理所述当前状态数据s中的环境信息,得到第一环境信息;
通过所述主网络的LSTM网络处理所述当前状态数据s中的位置信息,得到第一位置信息;
将所述第一环境信息和所述第一位置信息结合并输入到所述主网络中的对抗性全连接网络中,得到所述主网络的输出Q;
通过所述目标网络的卷积神经网络处理下一个状态数据s’中的环境信息,得到第二环境信息;
通过所述目标网络的LSTM网络处理下一个状态数据s’中的位置信息,得到第二位置信息;
将所述第二环境信息和所述第二位置信息结合并输入到所述目标网络中的对抗性全连接网络中,得到所述目标网络的输出Q1;
根据所述Q1和所述Q计算得到目标输出Qt;
根据所述Q和所述Qt计算得到误差函数L;
所述误差函数L的计算公式为:
L(θ)=E[(R+γQt(s′,argmaxa′Q(s′,a′;θ);θ-)-Q(s,a;θ))2]
根据误差函数采取梯度下降的方法训练网络权重参数;实现公式为:
Figure BDA0002921259010000081
其中,θ为主网络权重参数,θ-为目标网络权重参数,为衰减系数,取值为0.8,Q(s,a;θ)表示在s状态下,主网络权重参数为θ时选择行为A获得的主网络Q值,argmaxa′Q(s′,a′;θ)表示能够在状态数据s’下能够获得最大主网络输出Q值的行为A’;Qt(s′,argmaxa′Q(s′,a′;θ)表示在状态数据s’下选择行为A’得到的目标网络输出Q值;
判断是否接近碰撞,如果接近碰撞,返回到过去状态S,重新选择行为A,否则继续执行训练步骤;
判断是否达到终点,如果达到终点,重置到起始点,继续训练,否则继续执行训练步骤;
判断是否更新目标网络权重(判断条件为每500步更新一次),如果是,将主网络权重参数全部复制到目标网络,否则不变;
判断是否到达迭代次数,若是,终止训练,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S’作为当前状态S,继续从S2开始重新训练。
在训练过程中,如果接近碰撞,返回到过去状态S,重新选择行为A;如果达到终点,重置到起始点,继续训练;如果更新目标网络权重(判断条件为每500步更新一次),将主网络权重参数全部复制到目标网络;判断是否到达迭代次数,若是,终止训练,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S’作为当前状态S,继续从S2开始重新训练。
S6、将所述训练的无人船自适应路径规划模型导入到无人船路径规划***,进行真实环境的无人船路径规划,并获得无人船路径。
此外,本发明实施例还提供了一种基于D3QN的无人船自适应路径规划设备,所述无人船自适应路径规划设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无人船自适应路径规划程序,所述无人船自适应路径规划程序被所述处理器执行时实现所述的无人船自适应路径规划方法的步骤。
此外,本发明实施例还提供了一种存储介质,所述存储介质上存储有无人船自适应路径规划程序,所述无人船自适应路径规划程序被处理器执行时实现所述的无人船自适应路径规划方法的步骤。
本发明的有益效果:本发明采用D3QN算法,不需要提前给出样本信息,通过自主探索获得的经验即可自主对网络进行训练,直到训练结束得到最优解;基于LSTM和卷积神经网络融合的主网络可以实现无人船环境的特征融合,采用学习的方式使无人船具有对环境变化的自适应能力,符合以后无人船更加智能化的发展方向。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于D3QN的无人船自适应路径规划方法,其特征在于,所述无人船自适应路径规划方法包括以下步骤:
S1、构建无人船模型和水下仿真环境,设计D3QN网络,将所述无人船模型放在所述水下仿真环境下自主航行;
S2、从当前状态S根据ε-贪婪算法选择行为A;
S3、根据所述行为A采用PID位置和速度误差控制算法使无人船到达下一个状态S’,获取下一个状态S’处与障碍物的第一位置关系,获取下一个状态S’处与终点的第二位置关系,根据所述第一位置关系和所述第二位置关系利用奖惩机制得到回报R;
S4、获取当前状态S的环境信息和位置信息,合并为当前状态数据s,获取下一个状态S’的环境信息和位置信息,合并为下一个状态数据s’,将当前状态数据s、行为A、下一个状态数据s’和回报R以数组D的形式存放到优先经验回放池中,并通过TD-error计算得到优先经验回放池中数组D的采样概率;
S5、根据所述采样概率将所述经验回放池中的数组D提取到D3QN网络,进行D3QN网络的梯度下降误差训练,并判断是否满足终止条件,若满足,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S’作为当前状态S,返回步骤S2;
S6、将所述训练的无人船自适应路径规划模型导入到无人船路径规划***,进行真实环境的无人船路径规划,并获得无人船路径。
2.根据权利要求1所述的无人船自适应路径规划方法,其特征在于,所述构建无人船模型和水下仿真环境,设计D3QN网络的步骤包括:
通过ROS和Gazebo搭建所述无人船模型和所述水下仿真环境;
通过LSTM网络、卷积神经网络和对抗性的全连接网络分别构成主网络和目标网络;
通过所述主网络、所述目标网络和经验回放池构成所述D3QN网络。
3.根据权利要求1所述的无人船自适应路径规划方法,其特征在于,所述无人船模型上设置深度相机和定位***;
所述深度相机用于获取当前环境信息;
所述定位***用于获取无人船的位置信息。
4.根据权利要求 2所述的无人船自适应路径规划方法,其特征在于,所述步骤S5具体包括:
将整个所述优先经验回放池的空间按最小样本量M分为M个小范围;
在每个所述小范围内根据所述采样概率随机提取一个样本数据;
根据所述样本数据得到当前状态数据s和下一个状态数据s’;
通过所述主网络和所述目标网络分别处理所述当前状态数据s和下一个状态数据s’,得到所述主网络的输出Q和所述目标网络的输出Q1;
根据所述Q1和所述Q计算得到目标输出Qt;
根据所述Q和所述Qt计算得到误差函数;
基于所述误差函数采用梯度下降方法训练所述D3QN网络,判断误差函数是否满足终止条件,若满足,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S’作为当前状态S,返回步骤S2,重新训练。
5.根据权利要求4所述的无人船自适应路径规划方法,其特征在于,所述通过所述主网络和所述目标网络分别处理所述当前状态数据s和下一个状态数据s’,得到所述主网络的输出Q和所述目标网络的输出Q1的步骤包括:
通过所述主网络的卷积神经网络处理所述当前状态数据s中的环境信息,得到第一环境信息;
通过所述主网络的LSTM网络处理所述当前状态数据s中的位置信息,得到第一位置信息;
将所述第一环境信息和所述第一位置信息结合并输入到所述主网络中的对抗性全连接网络中,得到所述主网络的输出Q;
通过所述目标网络的卷积神经网络处理下一个状态数据s’中的环境信息,得到第二环境信息;
通过所述目标网络的LSTM网络处理下一个状态数据s’中的位置信息,得到第二位置信息;
将所述第二环境信息和所述第二位置信息结合并输入到所述目标网络中的对抗性全连接网络中,得到所述目标网络的输出Q1。
6.根据权利要求2所述的无人船自适应路径规划方法,其特征在于,所述ε-贪婪算法为:
Figure FDA0002921258000000031
其中,ε∈(0,1),Step为训练步数,ε被设置为衰减函数类型,贪婪算法以ε的概率随机从行为空间选择行为,以1-ε的概率选择得到所述主网络的输出Q最大的行为。
7.根据权利要求1所述的无人船自适应路径规划方法,其特征在于,所述奖惩机制为:
Figure FDA0002921258000000032
其中,R为回报,do表示当前状态S无人船与终点的距离,dt表示下一个状态S’无人船与终点的距离。
8.根据权利要求1所述的无人船自适应路径规划方法,其特征在于,所述PID位置和速度误差控制算法为:
Ep=[P(x′,y′,z′)-P(x,y,z),O(r′,p′,y′)-O(r,p,y)]
Ev=[v(x′,y′,z′)-v(x,y,z),(x′,y′,z′)-ω(x,y,z)]
其中,Ep为偏向角,Ev为速度偏差,r、p和y为无人船分别与x轴、y轴和z轴偏向的角度,P(x′,y′,z′),O(r′,p′,y′)分别为下一个状态S’无人船的位置和偏向角,v(x′,y′,z′),ω(x′,y′,z′)为采取行为A给定目标的线速度和角速度,P(x,y,z),O(r,p,y)分别为当前状态S无人船的位置和偏向角,v(x,y,z),ω(x,y,z)分别为当前状态S无人船的线速度和角速度。
9.一种基于D3QN的无人船自适应路径规划设备,其特征在于,所述无人船自适应路径规划设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无人船自适应路径规划程序,所述无人船自适应路径规划程序被所述处理器执行时实现如权利要求1至8中任一项所述的无人船自适应路径规划方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有无人船自适应路径规划程序,所述无人船自适应路径规划程序被处理器执行时实现如权利要求1至8中任一项所述的无人船自适应路径规划方法的步骤。
CN202110118727.XA 2021-01-28 2021-01-28 基于d3qn的无人船自适应路径规划方法、设备及存储介质 Expired - Fee Related CN112800545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110118727.XA CN112800545B (zh) 2021-01-28 2021-01-28 基于d3qn的无人船自适应路径规划方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110118727.XA CN112800545B (zh) 2021-01-28 2021-01-28 基于d3qn的无人船自适应路径规划方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112800545A CN112800545A (zh) 2021-05-14
CN112800545B true CN112800545B (zh) 2022-06-24

Family

ID=75812443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110118727.XA Expired - Fee Related CN112800545B (zh) 2021-01-28 2021-01-28 基于d3qn的无人船自适应路径规划方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112800545B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411099B (zh) * 2021-05-28 2022-04-29 杭州电子科技大学 一种基于pper-dqn的双变跳频图案智能决策方法
CN113503878B (zh) * 2021-07-07 2023-04-07 大连海事大学 一种无人船路径规划方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362089A (zh) * 2019-08-02 2019-10-22 大连海事大学 一种基于深度强化学习和遗传算法的无人船自主导航的方法
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN110488872A (zh) * 2019-09-04 2019-11-22 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
WO2019241022A1 (en) * 2018-06-13 2019-12-19 Nvidia Corporation Path detection for autonomous machines using deep neural networks
CN110703766A (zh) * 2019-11-07 2020-01-17 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN111829527A (zh) * 2020-07-23 2020-10-27 中国石油大学(华东) 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190184561A1 (en) * 2017-12-15 2019-06-20 The Regents Of The University Of California Machine Learning based Fixed-Time Optimal Path Generation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019241022A1 (en) * 2018-06-13 2019-12-19 Nvidia Corporation Path detection for autonomous machines using deep neural networks
CN110362089A (zh) * 2019-08-02 2019-10-22 大连海事大学 一种基于深度强化学习和遗传算法的无人船自主导航的方法
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN110488872A (zh) * 2019-09-04 2019-11-22 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
CN110703766A (zh) * 2019-11-07 2020-01-17 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN111829527A (zh) * 2020-07-23 2020-10-27 中国石油大学(华东) 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进Q学习算法的无人水面艇动态环境路径规划;王猛等;《仪表技术》;20200415(第04期);第17-21页 *

Also Published As

Publication number Publication date
CN112800545A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112241176B (zh) 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
JP6854549B2 (ja) 強化学習に基づくauv行動計画及び動作制御の方法
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN112800545B (zh) 基于d3qn的无人船自适应路径规划方法、设备及存储介质
Tan et al. Fast marching square method based intelligent navigation of the unmanned surface vehicle swarm in restricted waters
CN111694365A (zh) 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN113176776B (zh) 基于深度强化学习的无人艇天气自适应避障方法
CN113010963B (zh) 基于深度强化学习的变质量水下航行器避障方法及***
CN109784201A (zh) 基于四维风险评估的auv动态避障方法
CN112925319B (zh) 一种基于深度强化学习的水下自主航行器动态避障方法
CN115016496A (zh) 基于深度强化学习的水面无人艇路径跟踪方法
CN113848984B (zh) 一种无人机集群控制方法及***
CN113190037A (zh) 基于改进流体扰动和麻雀算法的无人机最优路径搜索方法
Yao et al. A hierarchical architecture using biased min-consensus for USV path planning
Wang et al. A fuzzy logic path planning algorithm based on geometric landmarks and kinetic constraints
CN114879671A (zh) 一种基于强化学习mpc的无人艇轨迹跟踪控制方法
Wang et al. Path-following optimal control of autonomous underwater vehicle based on deep reinforcement learning
CN117590867B (zh) 基于深度强化学习的水下自主航行器接驳控制方法和***
Wang et al. A greedy navigation and subtle obstacle avoidance algorithm for USV using reinforcement learning
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
Amendola et al. Navigation in restricted channels under environmental conditions: Fast-time simulation by asynchronous deep reinforcement learning
CN114910072A (zh) 基于深度强化学习的无人机导航方法、装置、设备及介质
Gao et al. An optimized path planning method for container ships in Bohai bay based on improved deep Q-learning
CN114840928A (zh) 一种基于深度学习的水下航行器集群运动仿真方法
Yao et al. UAV/USV Cooperative Trajectory Optimization Based on Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Hu Xiaowen

Inventor after: Liu Feng

Inventor after: Chen Chang

Inventor after: Yang Qian

Inventor before: Liu Feng

Inventor before: Hu Xiaowen

Inventor before: Chen Chang

Inventor before: Yang Qian

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220624

CF01 Termination of patent right due to non-payment of annual fee