CN117376934B - 一种基于深度强化学习的多无人机海上移动基站部署方法 - Google Patents

一种基于深度强化学习的多无人机海上移动基站部署方法 Download PDF

Info

Publication number
CN117376934B
CN117376934B CN202311675962.2A CN202311675962A CN117376934B CN 117376934 B CN117376934 B CN 117376934B CN 202311675962 A CN202311675962 A CN 202311675962A CN 117376934 B CN117376934 B CN 117376934B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
representing
vehicles
unmanned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311675962.2A
Other languages
English (en)
Other versions
CN117376934A (zh
Inventor
罗汉江
邵明月
陶航
刘建港
董鹏燕
王胤言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN202311675962.2A priority Critical patent/CN117376934B/zh
Publication of CN117376934A publication Critical patent/CN117376934A/zh
Application granted granted Critical
Publication of CN117376934B publication Critical patent/CN117376934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B11/00Transmission systems employing sonic, ultrasonic or infrasonic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B13/00Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
    • H04B13/02Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/155Ground-based stations
    • H04B7/15507Relay station based processing for cell extension or control of coverage area
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • H04W16/26Cell enhancers or enhancement, e.g. for tunnels, building shadow
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • H04W4/026Services making use of location information using location based information parameters using orientation information, e.g. compass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Astronomy & Astrophysics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于深度强化学***均覆盖范围得分和公平性得分最大且能量消耗小。本发明适用于海上无人机移动基站与水下自主航行器海空跨介质通信覆盖需求。

Description

一种基于深度强化学习的多无人机海上移动基站部署方法
技术领域
本发明属于海空跨介质无线通信技术领域,具体涉及一种基于深度强化学习的多无人机海上移动基站部署方法。
背景技术
由于复杂的海洋环境,导致海洋通信不及时,在海洋意外事件处理上造成损失。一般情况下,解决海上通信问题可通过建立海面基站来实现。例如,使用浮标基站预测水下节点位置,使用无人船(Unmanned Surface Vessel,USV)作为海面基站检测水下污染源等。然而,传统的海面浮标基站一般锚定在指定位置,船舶、无人船等海面基站灵活性低,而水下自主航行器(Autonomous Underwater Vehicle,AUV)具有自主性、高度灵活性,因此会出现超出海面基站通信范围进而导致信息传输延时或传输中断的情况。而且海洋环境具有不确定性,波浪、风等的扰动都会对海面追踪水下自主航行器造成影响。因此,在面对海洋意外事件时,难以使用传统的海上基站部署方法解决短时间内快速部署的问题。
无人机凭借其灵活性,通常作为空中基站执行海洋信息收集、海上搜救等任务。目前,无人机已应用于海上信息收集、海上覆盖范围增强、与无人船协同任务分配等场景。相比于海面浮标、船舶、无人船等,无人机不受洋流扰动、波浪等的影响,不会产生水下噪声。无人机具有非常高的机动性以及成本效益,因此适用于意外事件处理任务。而且,无人机海上移动基站可以在紧急情况下快速和动态的部署,是一种具有高服务质量(Quality ofService,QoS)的低成本服务基站。
目前,无人机作为移动基站实现通信覆盖的研究大多集中于地面场景,利用无人机作为海上移动基站实现海上意外事件场景中的动态部署的研究较少。而在一个无人机集群中,其成本和通信范围有限,且存在海空跨介质问题,要构建高效的海上无人机通信***、提供有效的通信覆盖服务非常具有挑战性,其中在短时间内如何快速动态部署无人机解决水下自主航行器实时移动导致的覆盖不平衡是一个亟需解决的关键问题。
发明内容
为解决在意外事件场景下海上无人机的动态部署通信问题,本发明提出了一种基于深度强化学***均覆盖范围得分和公平性得分并最小化能量消耗的最优策略。
本发明的技术方案如下:
一种基于深度强化学习的多无人机海上移动基站部署方法,在无人机动态部署***中采用基于多智能体深度确定性策略梯度的强化学习算法进行动作决策,作为移动基站的无人机根据当前环境自主完成动作决策,具体包括如下步骤:
步骤1、在目标区域中部署携带水听器的无人机、水下自主航行器并进行初始化;具体对水下自主航行器的位置、无人机的位置和数量进行初始化;
步骤2、在目标区域内无人机之间通过射频信号建立通信,并接收初始观测状态,将初始观测状态输入无人机动态部署***,无人机动态部署***采用基于多智能体深度确定性策略梯度的强化学习算法进行动作决策,选择具体的动作进行动态部署;
步骤3、无人机动态部署***完成动作决策后,继续执行基于多智能体深度确定性策略梯度的强化学习算法,根据当前策略获得的水下自主航行器数量、通信流量、相邻无人机状态信息调整当前无人机的下一步移动方向;
步骤4、无人机执行调整动作后,水听器与水下自主航行器进行声通信;无人机同步更新状态信息数据;若无人机覆盖区域内水下自主航行器数量和流量不均衡、无人机能量消耗大,则重新执行步骤2;否则,重复执行步骤3-步骤4,直到无人机的平均覆盖范围得分和公平性得分最大且能量消耗小,动态部署完成。
进一步地,所述步骤1中,在目标区域的海平面上空部署N个无人机,无人机距离海平面的高度为H,相邻两个无人机之间的最大通信距离为Dcom,无人机的覆盖范围为Rcov,水听器由长为H1的尼龙绳吊起,充当传感器悬挂在每一个无人机下方,并置于水下,水下部署M个水下自主航行器;水听器监测水下自主航行器的通信流量和位置信息。
进一步地,所述步骤2中,初始观测状态包括所有无人机的观测信息,包括无人机i的能耗ei、无人机i的速度vi、无人机i覆盖的水下自主航行器的数量mi、无人机i的通信范围内所接收到的水下自主航行器的通信流量ψi、无人机i的位置si=[xi,yi],i=1,2,…,N、无人机i的相邻无人机覆盖区域内的水下自主航行器数量无人机i的相邻无人机覆盖区域内的通信流量/>
进一步地,所述步骤2中,无人机动态部署***采用多智能体深度确定性策略梯度的强化学习算法进行动作决策,具体的动作决策过程为:无人机动态部署***根据当前策略及探索噪声选择一个动作/>其中,/>是目标策略,oi表示无人机i的观测信息,ai表示无人机i的动作;动作集是a=(a1,a2,…,ai,…,aN),aN为第N个无人机的动作,无人机动态部署***依据当前策略从动作集a中选择一个动作,选择的动作是在t时刻无人机调整移动位置的所有可能的变化之一;
无人机动态部署***在执行一步动作后,设置奖励函数如下:
设置个人奖励为:
其中,rc表示无人机的个人奖励,M表示水下自主航行器的数量,表示在无人机i的覆盖范围内的水下自主航行器数量;
设置群体奖励为:
其中,rnc表示群体奖励,表示无人机i的相邻无人机覆盖区域内的水下自主航行器数量,/>是与无人机i相邻的无人机的数量;
设置能耗奖励为:
其中,re为能耗奖励;表示无人机i在t时刻移动所消耗的能量;
设置通信流量奖励为:
rtra=β×ψi (4);
其中,rtra为通信流量奖励;β是奖励权重;ψi是无人机i的通信范围内所接收到的水下自主航行器的通信流量;
将惩罚项pi定义为:
其中,RUAV为无人机i与其相邻无人机之间的距离;Dmin为安全距离;Dcom为最大通信距离;
每个无人机的奖励函数ri为:
ri=re×(rc+ξ×rnc+rtra)+pi (6);
其中,ξ是超参数。
进一步地,所述步骤3中,无人机动态部署***在海洋环境中根据当前环境自主完成动作决策时,需要不断更新Actor网络参数θi、Critic网络参数ωi、目标Actor网络参数θ′i和目标Critic网络参数ω′i
Critic网络参数ωi通过最小化损失函数L(ωi)来更新,具体公式如下:
其中,是用来存储数据的经验回放池;/>表示损失函数的期望;y表示目标值,γ为折扣系数,/>表示更新价值函数中使用的目标策略的集合;/>表示更新第N个无人机的价值函数所使用的目标策略;/>表示目标策略网络的价值函数,x′表示所有无人机的下一个状态的观测信息;a′N表示第N个无人机的下一个动作;a′j表示根据目标策略做出选择后的动作;μ′j表示目标Actor网络;oj表示无人机j的观测信息;/>是一个中心化的动作价值函数;x表示所有无人机的观测信息;
Actor网络参数θi执行梯度下降来更新,具体公式为:
其中,表示对参数θi求导,J(θi)表示优化目标;/>为梯度下降的期望;表示无人机i的策略函数;/>表示对动作求导;/>表示Actor网络下所执行的策略;μ表示所有无人机的策略集合;/>表示在Critic网络下无人机i根据当前策略/>采取的动作ai的函数值;
软更新目标Critic网络参数ω′i和目标Actor网络参数θ′i,具体公式如下所示:
其中,ε表示软更新的系数,←表示更新。
进一步地,所述步骤4中,当一轮动态调整结束,进行如下优化过程:
步骤4.1、计算无人机的平均覆盖范围得分为:
其中,Ct表示无人机的平均覆盖范围得分;m表示水下自主航行器的序号;M表示水下自主航行器的数量;表示在时间T内,水下自主航行器的总覆盖范围;t表示时间序号;/>表示水下自主航行器的覆盖状态;
计算无人机的公平性得分为:
其中,Ft表示无人机的公平性得分;
步骤4.2、根据t时刻的调整方向变量,计算移动过程中每个无人机能量消耗得分为:
其中,Et表示无人机的能量消耗得分;表示在时刻t无人机移动产生的能量消耗,计算公式如下:
其中,e0为无人机悬停能耗;为系数;ehyd为每架无人机由于悬挂水听器的移动阻力而产生的能量消耗;/>表示当前t时刻无人机i的移动距离,计算公式如下:
其中,表示无人机i上一时刻移动后的位置,/>表示无人机i上一时刻移动后的横坐标,/>为无人机i上一时刻移动后的纵坐标;/>表示无人机i在t时刻的横坐标,/>表示无人机i在t时刻的纵坐标,Dcom为最大通信距离,Dmin为安全距离;
步骤4.3、无人机根据接收到的相邻无人机的观测信息,计算移动过程中的平均覆盖范围得分、公平性得分和能量消耗得分;无人机的评价指标通过如下公式计算,最终达到最大化平均覆盖范围得分、公平性得分和最小化能量消耗的效果;
其中,EI表示无人机的评价指标。
本发明所带来的有益技术效果如下。
本发明可以根据不同的影响因素(如水下自主航行器数量多少、通信流量大小等)自适应地选择最佳的移动方向,以最大化无人机的平均覆盖范围得分和公平性得分并最小化能量消耗;为克服无人机与水下自主航行器跨介质通信的问题,提出了利用水听器作为通信中继,充当传感器,实现与水下自主航行器的水声通信;同时提出了三个评价指标,以此来评估动态部署方案的有效性。
本发明同时考虑水下自主航行器覆盖数量、通信流量和相邻无人机的观测信息等几个关键因素来优化无人机的覆盖性能和能耗。在此基础上,提出了一种基于多智能体强化学习的无人机动态部署算法,其中设计了三个全局变量的指标,以进一步增大无人机覆盖和降低飞行能耗。与现有的无人机部署方法相比较,本发明基于多智能体深度强化学习的无人机动态部署算法能够优化无人机的覆盖性能和能量消耗,同时将水听器作为通信中继克服海空跨介质通信问题,可以适用于各种海面基站覆盖水下机器人的应用。
附图说明
图1为本发明基于深度强化学习的多无人机海上移动基站部署方法的流程图。
图2为本发明仿真实验中无人机动态部署算法收敛性示意图。
图3为本发明仿真实验中不同数量无人机的平均覆盖范围得分对比图。
图4为本发明仿真实验中不同数量无人机的公平性得分对比图。
图5为本发明仿真实验中不同数量无人机的能量消耗得分对比图。
图6为本发明仿真实验中相同数量无人机下的多智能体深度强化学***均覆盖范围得分对比图。
图7为本发明仿真实验中相同数量无人机下的多智能体深度强化学***性得分对比图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
本发明中,无人机作为空中移动基站,利用水听器设备实现水声通信,同时利用深度强化学***均覆盖范围得分、公平性得分和最小化无人机的能量消耗。为了解决由于水下自主航行器实时移动导致的覆盖不平衡问题,将动态部署问题建模为局部马尔可夫决策过程。然后,提出一种基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)的强化学习算法寻找最优策略,动态部署无人机。
本发明采用了基于多智能体深度确定性策略梯度的动态部署算法,无人机根据覆盖区域内水下自主航行器的数量以及通信流量智能地调整移动方向,同时考虑同其相邻无人机的距离以及其所覆盖的水下自主航行器数量,从而最大限度地提高无人机的覆盖性能并平衡调整过程中的能量消耗。
如图1所示,一种基于深度强化学习的多无人机海上移动基站部署方法具体包括如下步骤:
步骤1、在目标区域中部署携带水听器的无人机、水下自主航行器并进行初始化;
在目标区域的海平面上空部署N个无人机,无人机距离海平面的高度为H,相邻两个无人机之间的最大通信距离为Dcom,无人机的覆盖范围为Rcov,水听器由长为H1的尼龙绳吊起,充当传感器悬挂在每一个无人机下方,并置于水下,水下部署M个水下自主航行器,每个水下自主航行器均能实现与水听器的水声通信,所有水听器具有相同的传感和通信能力;无人机具有相同初始能量,且由于通信能量远低于推进能量,通信能量忽略不计;水下自主航行器具有相同的移动能力和通信能力,不考虑水下环境对无人机部署通信产生的影响。
将无人机i的坐标位置表示为si=[xi,yi],i=1,2,…,N,N表示无人机的数量,xi表示无人机i的横坐标,yi表示无人机i的纵坐标;当水下自主航行器处于无人机的最大通信半径Rcov内时,与水听器进行声学通信;水听器监测水下自主航行器并收集监测到的水下自主航行器状态信息,包括无人机覆盖的水下自主航行器的数量、无人机所接收的水下自主航行器的通信流量;地面基站将数据分配到各个无人机,然后相邻无人机在固定高度H内协同移动或悬停,无人机之间通过无线电建立初始连接。
步骤2、在目标区域内无人机之间通过射频信号建立通信,并接收初始观测状态,将初始观测状态输入无人机动态部署***,无人机动态部署***采用基于多智能体深度确定性策略梯度的强化学习算法进行动作决策,选择具体的动作进行动态部署。
为解决无人机与水下自主航行器跨介质通信的问题,利用尼龙绳在每个无人机上配备了水听器设备。放置在水中的水听器充当传感器,实现与水下自主航行器的水声通信,监测水下自主航行器的通信流量和位置信息。每个无人机都将通过射频通信将自己的状态信息传输给相邻无人机。
初始观测状态包括所有无人机的观测信息,即无人机i的能耗ei、无人机i的速度vi、无人机i覆盖的水下自主航行器的数量mi、无人机i的通信范围内所接收到的水下自主航行器的通信流量ψi、无人机i的位置si=[xi,yi],i=1,2,…,N。
无人机i从全局信息获得部分观测信息,无人机i的观测信息包括无人机i的能耗ei、无人机i的速度vi、无人机i覆盖的水下自主航行器的数量mi、无人机i的通信范围内所接收到的水下自主航行器的通信流量ψi、无人机i的位置si=[xi,yi],i=1,2,…,N、无人机i的相邻无人机覆盖区域内的水下自主航行器数量无人机i的相邻无人机覆盖区域内的通信流量/>
无人机动态部署***采用多智能体深度确定性策略梯度的强化学习算法进行动作决策,具体的动作决策过程为:无人机动态部署***根据当前策略及探索噪声选择一个动作/>其中,/>是目标策略,oi表示无人机i的观测信息,ai表示无人机i的动作;动作集是a=(a1,a2,…,ai,…,aN),aN为第N个无人机的动作,无人机动态部署***依据当前策略从动作集a中选择一个动作,选择的动作是在t时刻无人机调整移动位置的所有可能的变化之一。
无人机动态部署***采用多智能体深度确定性策略梯度的强化学习算法进行动作决策,在执行一步动作后,设置奖励函数如下:
设rc表示无人机的个人奖励,它反映了无人机i的覆盖范围。本发明利用覆盖率来衡量每架无人机单独覆盖的情况,鼓励无人机覆盖更多的水下自主航行器,以获得更高的个人奖励,其个人奖励表示为:
其中,M表示水下自主航行器的数量,表示在无人机i的通信范围内的水下自主航行器数量。
rnc表示群体奖励,它反映了无人机i的相邻无人机的覆盖情况。本发明使用其相邻无人机的平均覆盖率来衡量一跳邻居的覆盖情况,鼓励无人机之间的协作交流,其群体奖励表示如下:
其中,表示无人机i的相邻无人机覆盖区域内的水下自主航行器数量,/>是与无人机i相邻的无人机的数量。
无人机在移动过程中,根据移动或悬停的状态、移动的距离、水听器等计算每个无人机消耗的能量。本发明的目的是规划一条最优的路径最小化能量消耗。因此,关于能耗奖励re可以被设计如下:
其中,表示无人机i在t时刻移动所消耗的能量。
为提高水下自主航行器的QoS,本发明考虑了水下自主航行器的通信流量,鼓励无人机向通信流量大的区域移动,其通信流量奖励rtra表示如下:
rtra=β×ψi (4);
其中,β是奖励权重,通过调整β的值,协调水下自主航行器数量和通信流量的奖励权重。ψi是无人机i的通信范围内所接收到的水下自主航行器的通信流量。
pi为无人机的惩罚项。一方面,当无人机i与其邻居之间的距离超过最大通信距离Dcom时,则会失去与邻居的通信联系,无人机i将会得到pi的惩罚。另一方面,当无人机i与其邻居之间的距离小于安全距离Dmin时,则会发生碰撞,无人机i将会获得碰撞惩罚pi。当无人机i与其邻居之间的距离超过最大通信距离Dcom或安全距离Dmin时,将不会获得pi的惩罚。将惩罚项pi定义为:
其中,RUAV为无人机i与其相邻无人机之间的距离。
因此,每个无人机的奖励函数ri可以表示如下:
ri=re×(rc+ξ×rnc+rtra)+pi (6);
其中,ξ是超参数,通过调整ξ来平衡个人和群体奖励的重要性权重。
步骤3、无人机动态部署***完成动作决策后,继续执行基于多智能体深度确定性策略梯度的强化学习算法,根据当前策略获得的水下自主航行器数量、通信流量、相邻无人机状态信息调整当前无人机的下一步移动方向。
无人机动态部署***在海洋环境中根据当前环境自主完成动作决策时,需要不断更新Actor网络参数θi、Critic网络参数ωi、目标Actor网络参数θi′和目标Critic网络参数ωi′;
Critic网络参数ωi通过最小化损失函数L(ωi)来更新,具体公式如下:
其中,是用来存储数据的经验回放池;/>表示损失函数的期望;y表示目标值,γ为折扣系数,/>表示更新价值函数中使用的目标策略的集合;/>表示更新第N个无人机的价值函数所使用的目标策略;/>表示目标策略网络的价值函数,x′表示所有无人机的下一个状态的观测信息;a′N表示第N个无人机的下一个动作;aj′表示根据目标策略做出选择后的动作;μj′表示目标Actor网络;oj表示无人机j的观测信息;/>是一个中心化的动作价值函数;x表示所有无人机的观测信息;
Actor网络参数θi执行梯度下降来更新,具体公式为:
其中,表示对参数θi求导,J(θi)表示优化目标;Ex,a~D为梯度下降的期望;/>表示无人机i的策略函数;/>表示对动作求导;/>表示Actor网络下所执行的策略;μ表示所有无人机的策略集合;/>表示在Critic网络下无人机i根据当前策略/>采取的动作ai的函数值;
软更新目标Critic网络参数ωi′和目标Actor网络参数θi′,具体公式如下所示:
其中,ωi′表示目标Critic网络参数,θi′表示目标Actor网络参数,ε表示软更新的系数,←表示更新。
步骤4、无人机执行调整动作后,水听器与水下自主航行器进行声通信;无人机同步更新状态信息数据;若无人机覆盖区域内水下自主航行器数量和流量不均衡、无人机能量消耗大,则重新执行步骤2;否则,重复执行步骤3-步骤4,直到无人机的平均覆盖范围得分和公平性得分最大且能量消耗小,动态部署完成。
当一轮动态调整结束,为满足最大化覆盖性能,优化过程如下:
步骤4.1、计算无人机的平均覆盖范围得分为:
其中,Ct表示无人机的平均覆盖范围得分;m表示水下自主航行器的序号;M表示水下自主航行器的数量;表示在时间T内,水下自主航行器的总覆盖范围;t表示时间序号;/>表示水下自主航行器的覆盖状态,当/>时,说明水下自主航行器在水听器的通信范围之内,即被无人机所覆盖;否则/>
计算公平性得分Ft为:
其中,Ft表示无人机的公平性得分,用来描述水下自主航行器覆盖范围的公平性,即地理公平性,确保在时刻t内每一个水下自主航行器都能被覆盖到。如果每个水下自主航行器都能得到相同的覆盖,那么Ft的值就更接近于1。
步骤4.2、对于电池驱动的旋翼无人机,机载能量有限,包括推进能量和通信能量。由于无人机的推进能量远大于通信能量,因此通信能量忽略不计。基于此,本发明只考虑无人机移动所产生的能量。因此,根据t时刻的调整方向变量,计算移动过程中每个无人机能量消耗得分为:
其中,Et表示无人机的能量消耗得分;表示在时刻t无人机移动产生的能量消耗,计算公式如下:
其中,e0为无人机悬停能耗;为系数;ehyd为每架无人机由于悬挂水听器的移动阻力而产生的能量消耗;/>表示当前t时刻无人机i的移动距离,计算公式如下:
其中,表示无人机i上一时刻移动后的位置,/>表示无人机i上一时刻移动后的横坐标,/>为无人机i上一时刻移动后的纵坐标;/>表示无人机i在t时刻的横坐标,/>表示无人机i在t时刻的纵坐标,Dcom为最大通信距离,Dmin为安全距离。
步骤4.3、无人机根据接收到的相邻无人机的观测信息,计算移动过程中的平均覆盖范围得分、公平性得分和能量消耗得分;无人机的评价指标通过如下公式计算,最终达到最大化平均覆盖范围得分、公平性得分和最小化能量消耗的效果;
其中,EI表示无人机的评价指标。
本发明主要目的是让无人机在海洋环境中根据当前环境状态自主完成行为决策及动作控制,具体实现过程如下:
(1)利用编程软件搭建基于多智能体深度强化学习的智能无人机的动态部署仿真***,通过仿真训练得到最优决策策略,具体步骤如下:
(1.1)确定无人机和水下自主航行器的状态,建立环境模型;
(1.2)确定无人机和水下自主航行器的初始位置,初始化当前t时刻环境状态等算法参数;
(1.3)对于每个智能体,根据当前策略选择一个动作,确定调整方向变量;
(1.4)执行动作集a中的一个动作,得到奖励r和所有无人机的下一个状态的观测信息x′;
(1.5)保存经验到经验池,并随机采样小批量经验训练神经网络;
(1.6)通过最小化损失函数更新Critic网络参数ωi,并执行梯度下降更新Actor网络参数θi
(1.7)软更新目标Critic网络参数ω′i和目标Actor网络参数θ′i
(1.8)判断当前时刻状态是否超过数据收集时间,若未超过数据收集时间,转(1.3);否则转(1.9);
(1.9)判断是否完成动态部署回合迭代,若是,终止并输出结果,否则转(1.2);
(2)利用基于多智能体深度强化学习的控制器控制无人机完成调整进而输出动作,具体步骤如下:
(2.1)初始化参数,如Actor网络参数θi、Critic网络参数ωi及其目标网络参数,经验回放池最大回合E,最大时间T等;
(2.2)进行外部回合循环;
(2.2.1)随机分配水下自主航行器和无人机的位置;
(2.2.2)初始化一个随机过程,用于动作探索;
(2.2.3)获取所有无人机的观测信息x;
(2.2.4)进行内部时间步循环;
(2.2.4.1)对于每个无人机i,用当前策略选择一个动作ai
(2.2.4.2)执行动作a=(a1,…,aN),获得所有无人机的下一个状态的观测信息x′和奖励r=(r1,…,rN),rN为第N个无人机的奖励;
(2.2.4.3)将(x,a,r,x′)存储到经验回放池中;
(2.2.4.4)x←x′;
(2.2.4.5)进行内部循环;
(2.2.4.5.1)从经验回放池中随机抽取小批量/>样本;
(2.2.4.5.2)通过最小化损失函数L(ωi)来更新Critic网络参数ωi,具体计算公式为(7);
(2.2.4.5.3)执行梯度下降更新Actor网络参数θi,具体计算公式为(8);
(2.2.4.5.4)若每个无人机都更新完成,则结束内部循环;
(2.2.4.6)软更新每个无人机i的目标Critic网络参数和目标Actor网络参数,具体计算公式为(9);
(2.2.4.7)若所有无人机动态部署时间超时,结束内部时间步循环;
(2.2.5)若达到外部循环步数,结束外部回合循环;
(2.3)输出无人机的平均覆盖范围得分、公平性得分及能量消耗得分。
本发明的效果通过如下仿真实验进一步说明:
仿真条件如下:
在仿真中,无人机部署在1000m×1000m的目标区域上空,随机分布15个水下自主航行器和N个无人机,无人机在10米的固定高度飞行或悬停。为保证水听器受水下噪声的影响较小,选择用H1=40m的尼龙绳悬挂普通微型水听器。在初始阶段,随机分配无人机和水下自主航行器的位置。此外,基于多智能体深度确定性策略梯度MADDPG的强化学习算法由Python 3.8实现,相关参数的数值设置如下:
无人机的覆盖范围Rcov设置为200m;相邻两个无人机之间的最大通信距离Dcom设置为100m;相邻两个无人机之间的安全距离Dmin设置为5m;无人机距离海平面的高度H设置为10m;尼龙绳长度H1设置为40m;系数为0.5;折扣因子γ设置为0.95;学习率α设置为0.01;目标网络的更新率τ设置为0.01;经验回放池/>长度设置为1e-6;批处理大小/>设置为1024;最大回合E设置为20000。
为了验证所提出的动态部署方案的可靠性,使用平均覆盖范围得分、公平性得分和能量消耗得分作为评价指标。此外,将无人机的数量扩展到不同数值,并在相同场景下采用不同策略加以验证。
仿真结果如下:
为了验证在训练阶段神经网络的收敛性,图2显示了基于MADDPG动态部署方案的平均奖励函数曲线,其中横坐标是训练的迭代次数(即回合数),纵坐标是累积奖励的返回值(即奖励值)。可以看出,在训练早期阶段,由于许多水下自主航行器还未被覆盖到,奖励值很低且上下浮动,随着训练周期继续增加,每回合奖励值和平均奖励值均逐渐增加并趋于稳定。
为了验证无人机动态部署方案的有效性,将平均覆盖范围得分、公平性得分和能量消耗得分作为评价指标。根据目标区域的范围以及无人机的通信范围,分别验证数量为4个和5个的无人机的覆盖性能。
图3显示了在测试阶段不同数量的无人机的平均覆盖范围得分变化情况。随着测试时间的增加,不同数量的无人机的平均覆盖范围得分均呈现出不同程度的上升趋势。结果表明,本发明提出的无人机动态部署方案能够满足最大化覆盖的要求,验证了动态部署算法的有效性。
为了评估无人机覆盖的公平性,图4分析了不同数量无人机在测试阶段的公平性得分的变化趋势。可以看出,公平性得分在15步时开始收敛并逐渐趋于稳定,其值均高于0.8。因此,该方案可以有效地解决水下自主航行器多次被覆盖的情况,保证了水下自主航行器覆盖的公平性,也验证了动态部署方案的可扩展性。
图5描述了不同数量的无人机在动态部署过程中的能量消耗情况。在本发明中无人机的能耗与其移动距离成比例,为了更好地处理数据,将能耗进行了归一化处理。从图中可以看出在第5步左右三条曲线都先呈现上升趋势,随后立即下降。由于初始阶段水下自主航行器和无人机的位置随机分布,因此无人机需要不断探索以找到水下自主航行器的初始位置。随着时间的增加,无人机之间通过协同通信,逐渐学习到一个最优的移动方向,在满足覆盖的条件下,能耗也越来越小。
同时,还比较了在深度强化学***均覆盖范围得分和公平性得分的变化情况。
图6和图7是在不同无人机数量下,本发明基于多智能体深度确定性策略梯度的动态部署方案与深度强化学***均覆盖范围得分和公平性得分的比较结果。与本发明动态部署方案相比,深度强化学***均覆盖范围得分和公平性得分均远低于动态部署方案。
上述数值结果表明,本发明方案具有良好的性能,可以有效地实现无人机的动态部署,满足对水下自主航行器的最大化覆盖和公平覆盖,并尽可能降低无人机的能量消耗。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (1)

1.一种基于深度强化学习的多无人机海上移动基站部署方法,其特征在于,在无人机动态部署***中采用基于多智能体深度确定性策略梯度的强化学习算法进行动作决策,作为移动基站的无人机根据当前环境自主完成动作决策,具体包括如下步骤:
步骤1、在目标区域中部署携带水听器的无人机、水下自主航行器并进行初始化;具体对水下自主航行器的位置、无人机的位置和数量进行初始化;
步骤2、在目标区域内无人机之间通过射频信号建立通信,并接收初始观测状态,将初始观测状态输入无人机动态部署***,无人机动态部署***采用基于多智能体深度确定性策略梯度的强化学习算法进行动作决策,选择具体的动作进行动态部署;
步骤3、无人机动态部署***完成动作决策后,继续执行基于多智能体深度确定性策略梯度的强化学习算法,根据当前策略获得的水下自主航行器数量、通信流量、相邻无人机状态信息调整当前无人机的下一步移动方向;
步骤4、无人机执行调整动作后,水听器与水下自主航行器进行声通信;无人机同步更新状态信息数据;若无人机覆盖区域内水下自主航行器数量和流量不均衡、无人机能量消耗大,则重新执行步骤2;否则,重复执行步骤3-步骤4,直到无人机的平均覆盖范围得分和公平性得分最大且能量消耗小,动态部署完成;
所述步骤1中,在目标区域的海平面上空部署N个无人机,无人机距离海平面的高度为H,相邻两个无人机之间的最大通信距离为Dcom,无人机的覆盖范围为Rcov,水听器由长为H1的尼龙绳吊起,充当传感器悬挂在每一个无人机下方,并置于水下,水下部署M个水下自主航行器;水听器监测水下自主航行器的通信流量和位置信息;
所述步骤2中,初始观测状态包括所有无人机的观测信息,包括无人机i的能耗ei、无人机i的速度vi、无人机i覆盖的水下自主航行器的数量mi、无人机i的通信范围内所接收到的水下自主航行器的通信流量ψi、无人机i的位置si=[xi,yi],i=1,2,…,N、无人机i的相邻无人机覆盖区域内的水下自主航行器数量无人机i的相邻无人机覆盖区域内的通信流量/>
所述步骤2中,无人机动态部署***采用多智能体深度确定性策略梯度的强化学习算法进行动作决策,具体的动作决策过程为:无人机动态部署***根据当前策略及探索噪声选择一个动作/>其中,/>是目标策略,oi表示无人机i的观测信息,ai表示无人机i的动作;动作集是a=(a1,a2,…,ai,…,aN),aN为第N个无人机的动作,无人机动态部署***依据当前策略从动作集a中选择一个动作,选择的动作是在t时刻无人机调整移动位置的所有可能的变化之一;
无人机动态部署***在执行一步动作后,设置奖励函数如下:
设置个人奖励为:
其中,rc表示无人机的个人奖励,M表示水下自主航行器的数量,表示在无人机i的覆盖范围内的水下自主航行器数量;
设置群体奖励为:
其中,rnc表示群体奖励,表示无人机i的相邻无人机覆盖区域内的水下自主航行器数量,/>是与无人机i相邻的无人机的数量;
设置能耗奖励为:
其中,re为能耗奖励;表示无人机i在t时刻移动所消耗的能量;
设置通信流量奖励为:
rtra=β×ψi (4);
其中,rtra为通信流量奖励;β是奖励权重;ψi是无人机i的通信范围内所接收到的水下自主航行器的通信流量;
将惩罚项pi定义为:
其中,RUAV为无人机i与其相邻无人机之间的距离;Dmin为安全距离;Dcom为最大通信距离;
每个无人机的奖励函数ri为:
ri=re×(rc+ξ×rnc+rtra)+pi (6);
其中,ξ是超参数;
所述步骤3中,无人机动态部署***在海洋环境中根据当前环境自主完成动作决策时,需要不断更新Actor网络参数θi、Critic网络参数ωi、目标Actor网络参数θ′i和目标Critic网络参数ω′i
Critic网络参数ωi通过最小化损失函数L(ωi)来更新,具体公式如下:
其中,是用来存储数据的经验回放池;/>表示损失函数的期望;y表示目标值,γ为折扣系数,/>表示更新价值函数中使用的目标策略的集合;/>表示更新第N个无人机的价值函数所使用的目标策略;/>表示目标策略网络的价值函数,x′表示所有无人机的下一个状态的观测信息;a′N表示第N个无人机的下一个动作;a′j表示根据目标策略做出选择后的动作;μ′j表示目标Actor网络;oj表示无人机j的观测信息;/>是一个中心化的动作价值函数;x表示所有无人机的观测信息;
Actor网络参数θi执行梯度下降来更新,具体公式为:
其中,表示对参数θi求导,J(θi)表示优化目标;/>为梯度下降的期望;/>表示无人机i的策略函数;/>表示对动作求导;/>表示Actor网络下所执行的策略;μ表示所有无人机的策略集合;/>表示在Critic网络下无人机i根据当前策略/>采取的动作ai的函数值;
软更新目标Critic网络参数ω′i和目标Actor网络参数θ′i,具体公式如下所示:
其中,ε表示软更新的系数,←表示更新;
所述步骤4中,当一轮动态调整结束,进行如下优化过程:
步骤4.1、计算无人机的平均覆盖范围得分为:
其中,Ct表示无人机的平均覆盖范围得分;m表示水下自主航行器的序号;M表示水下自主航行器的数量;表示在时间T内,水下自主航行器的总覆盖范围;t表示时间序号;/>表示水下自主航行器的覆盖状态;
计算无人机的公平性得分为:
其中,Ft表示无人机的公平性得分;
步骤4.2、根据t时刻的调整方向变量,计算移动过程中每个无人机能量消耗得分为:
其中,Et表示无人机的能量消耗得分;表示在时刻t无人机移动产生的能量消耗,计算公式如下:
其中,e0为无人机悬停能耗;为系数;ehyd为每架无人机由于悬挂水听器的移动阻力而产生的能量消耗;/>表示当前t时刻无人机i的移动距离,计算公式如下:
其中,表示无人机i上一时刻移动后的位置,/>表示无人机i上一时刻移动后的横坐标,/>为无人机i上一时刻移动后的纵坐标;/>表示无人机i在t时刻的横坐标,/>表示无人机i在t时刻的纵坐标,Dcom为最大通信距离,Dmin为安全距离;
步骤4.3、无人机根据接收到的相邻无人机的观测信息,计算移动过程中的平均覆盖范围得分、公平性得分和能量消耗得分;无人机的评价指标通过如下公式计算,最终达到最大化平均覆盖范围得分、公平性得分和最小化能量消耗的效果;
其中,EI表示无人机的评价指标。
CN202311675962.2A 2023-12-08 2023-12-08 一种基于深度强化学习的多无人机海上移动基站部署方法 Active CN117376934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311675962.2A CN117376934B (zh) 2023-12-08 2023-12-08 一种基于深度强化学习的多无人机海上移动基站部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311675962.2A CN117376934B (zh) 2023-12-08 2023-12-08 一种基于深度强化学习的多无人机海上移动基站部署方法

Publications (2)

Publication Number Publication Date
CN117376934A CN117376934A (zh) 2024-01-09
CN117376934B true CN117376934B (zh) 2024-02-27

Family

ID=89398823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311675962.2A Active CN117376934B (zh) 2023-12-08 2023-12-08 一种基于深度强化学习的多无人机海上移动基站部署方法

Country Status (1)

Country Link
CN (1) CN117376934B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019147552A (ja) * 2014-12-31 2019-09-05 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd 機体の高度制限及び制御
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112511250A (zh) * 2020-12-03 2021-03-16 中国人民解放***箭军工程大学 一种基于drl的多无人机空中基站动态部署方法及***
US11164464B1 (en) * 2018-10-08 2021-11-02 Facebook, Inc. Optimizing trajectory of unmanned aerial vehicles
CN114706427A (zh) * 2022-06-02 2022-07-05 武汉理工大学 一种海空立体协同搜寻***及其控制方法
CN114828146A (zh) * 2022-04-19 2022-07-29 中国电子科技集团公司第七研究所 一种基于神经网络和迭代学习的无人集群地理位置路由方法
CN114879666A (zh) * 2022-04-22 2022-08-09 华中科技大学 一种基于rrt算法的水面无人艇路径规划方法和装置
CN116405111A (zh) * 2023-06-09 2023-07-07 山东科技大学 一种基于深度强化学习的海上无人机辅助光数据收集方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201103822D0 (en) * 2011-03-07 2011-04-20 Isis Innovation System for providing locality information and associated devices
WO2016154551A1 (en) * 2015-03-26 2016-09-29 Matternet, Inc. Route planning for unmanned aerial vehicles
GB2565837B (en) * 2017-08-25 2020-05-27 Arm Ip Ltd Systems and methods for navigation
KR20190106948A (ko) * 2019-08-30 2019-09-18 엘지전자 주식회사 지능형 디바이스 및 그 제어 방법
US11703853B2 (en) * 2019-12-03 2023-07-18 University-Industry Cooperation Group Of Kyung Hee University Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019147552A (ja) * 2014-12-31 2019-09-05 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd 機体の高度制限及び制御
US11164464B1 (en) * 2018-10-08 2021-11-02 Facebook, Inc. Optimizing trajectory of unmanned aerial vehicles
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112511250A (zh) * 2020-12-03 2021-03-16 中国人民解放***箭军工程大学 一种基于drl的多无人机空中基站动态部署方法及***
CN114828146A (zh) * 2022-04-19 2022-07-29 中国电子科技集团公司第七研究所 一种基于神经网络和迭代学习的无人集群地理位置路由方法
CN114879666A (zh) * 2022-04-22 2022-08-09 华中科技大学 一种基于rrt算法的水面无人艇路径规划方法和装置
CN114706427A (zh) * 2022-06-02 2022-07-05 武汉理工大学 一种海空立体协同搜寻***及其控制方法
CN116405111A (zh) * 2023-06-09 2023-07-07 山东科技大学 一种基于深度强化学习的海上无人机辅助光数据收集方法

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
Jinglong Wang ; Hanjiang Luo,ETC..Reliable Water-Air Direct Wireless Communication: Kalman Filter-Assisted Deep Reinforcement .《2022 IEEE 47th Conference on Local Computer Networks (LCN)》.2022,233-238. *
Jun Ye, Chengxi Li,ETC..Deep Learning in Maritime Autonomous Surface Ships: Current Development and Challenges.《SpringerLink》.584-601. *
Luo, HJ (Luo, Hanjiang) [1] *
Mingxing Jiang ; Zhongwen Guo ; etc..OceanSense: A practical wireless sensor network on the surface of the sea.《2009 IEEE International Conference on Pervasive Computing and Communications》.2009,全文. *
Wang, JL (Wang, Jinglong) [1],ETC..Recent Progress of Air/Water Cross-Boundary Communications for Underwater Sensor Networks: A Review.《 ISI_Web of Science》.2022,88360-8382. *
Zhizun Qin,Hanjiang Luo,etc..An Informative Path Planning for Multi-granularity Collaborative Search via Multiple UAVs.《ACM TURC '23: Proceedings of the ACM Turing Award Celebration Conference - China 2023July》.2023,100-101. *
Zikai Feng ; Mengxing Huang ; ETC..Multi-Agent Reinforcement Learning With Policy Clipping and Average Evaluation for UAV-Assisted Communication Markov Game.《 IEEE Transactions on Intelligent Transportation Systems ( Volume: 24, Issue: 12, December 2023)》.2023,12481-14292. *
无人水面舰艇的协同编队控制策略研究;刘兆清;《CNKI 硕士论文》;20190315;全文 *
海洋物联网水面及水下多模通信技术研究进展_;罗汉江;《CNKI》;全文 *
海洋监测传感器网络关键技术研究;罗汉江;《CNKI-硕士论文》;20110615;全文 *
海洋观测网络无线通信资源优化分配;孟祥云;《CNKI 硕士论文》;全文 *

Also Published As

Publication number Publication date
CN117376934A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
JP6854549B2 (ja) 強化学習に基づくauv行動計画及び動作制御の方法
Liu et al. Intelligent multi-task allocation and planning for multiple unmanned surface vehicles (USVs) using self-organising maps and fast marching method
Zhang et al. Ship motion attitude prediction based on an adaptive dynamic particle swarm optimization algorithm and bidirectional LSTM neural network
Wu et al. Reinforcement learning and particle swarm optimization supporting real-time rescue assignments for multiple autonomous underwater vehicles
CN103513654B (zh) 不可预测的交通工具导航
CN112034711B (zh) 一种基于深度强化学习的无人艇抗海浪干扰控制方法
CN111880549B (zh) 面向无人船路径规划的深度强化学习奖励函数优化方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN116405111B (zh) 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN115016496A (zh) 基于深度强化学习的水面无人艇路径跟踪方法
CN109240280B (zh) 基于强化学习的锚泊辅助动力定位***控制方法
CN109784201A (zh) 基于四维风险评估的auv动态避障方法
CN108255060A (zh) 基于极限学习机的船舶动力定位自抗扰控制方法
CN116166034B (zh) 跨域协同围捕方法、装置及***
CN114967713B (zh) 基于强化学习的水下航行器浮力离散变化下的控制方法
CN117376934B (zh) 一种基于深度强化学习的多无人机海上移动基站部署方法
Zhu et al. Path planning algorithm for AUV based on a Fuzzy-PSO in dynamic environments
CN114548663A (zh) 一种充电无人机为任务无人机空中充电的调度方法
CN112327838B (zh) 一种基于改进自映射算法的多无人水面艇多任务分配方法
CN117724524A (zh) 一种基于改进球面向量粒子群算法的无人机航线规划方法
CN112800545A (zh) 基于d3qn的无人船自适应路径规划方法、设备及存储介质
CN115334165B (zh) 一种基于深度强化学***台调度方法及***
CN110928278B (zh) 一种用于无人艇的自主安全航行方法和无人艇
CN114943168B (zh) 一种水上浮桥组合方法及***
Jose et al. Navigating the Ocean with DRL: Path following for marine vessels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant