CN111786713B - 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 - Google Patents

一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 Download PDF

Info

Publication number
CN111786713B
CN111786713B CN202010497656.4A CN202010497656A CN111786713B CN 111786713 B CN111786713 B CN 111786713B CN 202010497656 A CN202010497656 A CN 202010497656A CN 111786713 B CN111786713 B CN 111786713B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
ground
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010497656.4A
Other languages
English (en)
Other versions
CN111786713A (zh
Inventor
刘中豪
覃振权
卢炳先
王雷
朱明�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010497656.4A priority Critical patent/CN111786713B/zh
Publication of CN111786713A publication Critical patent/CN111786713A/zh
Application granted granted Critical
Publication of CN111786713B publication Critical patent/CN111786713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Astronomy & Astrophysics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于多智能体深度强化学***调度和无人机能耗损失信息引入到瞬时奖励函数中,在提高吞吐量的同时保证无人机对地面用户服务的公平性,并减少能耗损失,使无人机集群能够适应动态环境。

Description

一种基于多智能体深度强化学习的无人机网络悬停位置优化 方法
技术领域
本发明涉及无线通信技术领域,特别涉及一种基于多智能体深度强化学习的多无人机网络悬停位置优化方法。
背景技术
近年来,由于无人机的高机动性、易部署性和低成本,基于无人机的通信技术引起了广泛的关注,成为了无线通信领域的一个新的研究热点。无人机辅助通信技术主要有以下几个应用场景:无人机作为移动基站为基础设施稀少或灾后地区提供通信覆盖、无人机作为中继节点为相距较远的无法直接建立连接的两个通信节点提供无线连接、基于无人机的数据分发和采集。本发明主要针对第一个场景,在该场景中,无人机的悬停位置决定了整个无人机网络的覆盖性能和吞吐量大小。无人机网络所服务的地面设备可能具有移动性,因此无人机需要不断地调整自身的悬停位置以实现最优的性能。
2018年,Qingqing Wu等人在论文《JointTrajectoryandCommunicationDesignforMulti-UAVEnabledWirelessNetworks》中提出一种多无人机对地通信***的UAV路径规划方案,将时间划分为多个周期,每个周期UAVs的移动轨迹是相同的,在每个时隙,无人机基站服务特定的地面用户。该方案将优化问题建模为混合整数规划问题,并使用块坐标梯度下降和近似凸优化技术进行求解,求得周期内每个时间片的最优悬停位置,最大化和地面用户间的下行链路吞吐量。但是,该论文提出的方案只适用于静态环境,是假设地面设备不具备移动性的条件下进行的,并不适用于地面用户不断移动的场景。Chi Harold Liu等人在论文《Energy-Efficient UAV Control for Effective andFair CommunicationCoverage:A DeepReinforcement Learning Approach》提出了一种基于深度强化学***无线覆盖,并尽可能减少UAVs的能耗。但是,该方法仅仅考虑了UAVs网络的覆盖性能,且是针对区域的粗粒度覆盖公平,而不是针对用户的细粒度覆盖公平。此外,该方法是一种集中式的方案,需要一个控制器在每个时隙收集所有无人机的信息,才能做出决策。
综上所述,基于无人机基站的对地通信网络中的UAVs路径规划技术主要有如下缺陷:(1)没有考虑环境的动态性,即地面用户的移动性。(2)采用的是集中式的算法,依赖全局信息和集中式控制,某些大范围的场景中,进行集中式控制是较为困难的,因此需要一种分布式的控制策略,每个无人机基站仅靠自己获得的信息做出决策。(3)忽略了考虑用户层次的服务公平性。这些缺陷使得现有的无人机网络中的UAVs轨迹优化方法无法适用于实际通信环境。
发明内容
本发明的目的是提出一种基于多智能体强化学习的多无人机悬停位置优化方法,以解决上述技术问题。
本发明的技术方案:
一种基于多智能体深度强化学习的无人机网络悬停位置优化方法,步骤如下:
(1)建立多无人机対地通信网络模型,主要包括以下4个步骤:
(1.1)建立场景模型:建立一个边长为l的正方形目标区域,该区域中有N个地面用户和M个无人机基站(UAV-BSs),这些无人机基站为地面用户提供通信服务。时间被划分为T个相同的时隙,从上一时隙到当前时隙,地面用户可能静止也可能发生移动,因此无人机基站需要在每个时隙寻找新的最优悬停位置,并在到达目标位置后选择地面用户进行数据传输服务。
(1.2)建立空对地通信模型:本发明使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于高飞行高度,相比于地面基站更容易与地面用户建立视距链路(LoS),在LoS情况下,无人机基站m和地面用户n之间的路径损耗模型为:
Figure BDA0002523468170000031
其中η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,
Figure BDA0002523468170000032
表示无人机基站m和地面用户n之间的距离,其中rn,m表示二者的水平距离,h为无人机基站固定飞行高度。根据路径损失,信道增益可以表示为
Figure BDA0002523468170000033
根据信道增益,无人机基站m和地面用户n之间在时隙t的数据传输速率为:
Figure BDA0002523468170000034
其中σ表示加性高斯白噪声,pt表示无人机基站的发射功率,gn,m(t)表示t时刻无人机基站m和地面用户n之间的信道增益。
(1.3)建立覆盖模型:由于硬件限制,每个无人机基站的覆盖范围是有限的。本发明定义了最大可容忍路径损失Lmax,如果某一时刻无人机基站和用户之间路径损失小于Lmax,我们认为建立的连接是可靠的,否则,我们认为建立连接失败。因此,可以根据最大可容忍路径损耗定义出每个无人机基站的有效覆盖范围,该范围以无人机基站在地面的投影点为圆心,以Rcov为半径,根据路径损失公式,Rcov可以表示为:
Figure BDA0002523468170000035
(1.4)建立能量损耗模型:本发明主要关注无人机移动造成的能量损耗,考虑无人机的飞行速度V以及飞行功率pf,无人机基站m在时隙t的飞行能耗取决于飞行的距离:
Figure BDA0002523468170000041
其中
Figure BDA0002523468170000042
分别表示无人机在水平面上x轴和y轴的位置坐标。
(2)将问题建模为局部可观测马尔科夫决策过程:
每个无人机基站相当于一个智能体;在每一个环境状态为S(t)的时隙中,智能体m在仅能获得自身覆盖范围内的局部观察om,并根据决策函数um(om),从动作集A中选择动作am,以最大化折扣总期望奖励
Figure BDA0002523468170000043
其中γ∈(0,1)为折扣系数,rm(t)表示智能体m在t时刻的奖励;
***状态集合S={S(t)|S(t)=(Su(t),Sg(t))},分别包含无人机基站的当前状态
Figure BDA0002523468170000044
和地面用户当前状态
Figure BDA0002523468170000045
无人机基站状态
Figure BDA0002523468170000046
包括无人机当前的位置信息;地面用户状态
Figure BDA0002523468170000047
包括当前地面用户的位置信息。
无人机动作集合A={a(t)|a(t)=(θ(t),d(t))},在时隙t,无人机m需要在得到当前局部观察信息后做出决策am(t),移动到下一个悬停位置,因此动作集合包括飞行旋转角度θ(t)和移动距离d(t)。
***及时奖励r(t):本文的目标是在考虑用户服务公平性和能耗的同时,最大化无人机网络的吞吐量。因此,在每个时刻t通过调整无人机悬停位置所产生的额外吞吐量是一个正项奖励,表示为:
ΔC(t)=C(Su(t+1),Sg(t))-C(Su(t),Sg(t))
其中C(Su(t),Sg(t))表示无人机基站状态为Su(t),地面用户状态为Sg(t)时网络产生的吞吐量。C(Su(t+1),Sg(t))则表示无人机基站状态为Su(t+1),地面用户状态为Sg(t)时网络产生的吞吐量。考虑到用户服务的公平性,如果某个区域聚集有大量用户,而某个区域只有一个用户,无人机基站为了追求最大化吞吐量会一直悬停在高密度区域,而忽略低密度区域,因此本发明为每个用户的吞吐量奖励施加一个权重wn(t)实现比例公平调度。Rreq表示的是地面用户需求的最小通信速率要求,Rn(t)表示的是地面用户n从开始阶段到时刻t的平均通信速率。当无人机基站服务该用户时,Rn(t)增长,该用户的权重会逐渐变小;若该用户没有被服务到,则Rn(t)减小,该用户权重不断增大。因此,用户稀疏地区的奖励权重会不断增大,吸引无人机基站进行服务。
Figure BDA0002523468170000051
Figure BDA0002523468170000053
其中,an,m(t)是一个指示变量,在t时刻,如果无人机基站m服务地面用户用户n,那么an,m(t)=1,因此,综合考虑公平性吞吐量奖励和能耗损失惩罚,本发明给出***实时奖励r(t):
Figure BDA0002523468170000052
其中α表示能耗惩罚所占的权重,α越大,则该***在决策时更注重能耗损失,反之则越忽略能耗损失。
局部观察集合O(t)={o1(t),…,oM(t)},当多无人机基站在一个大范围区域协同工作时,每个无人机无法观察到全局信息,只能观察到自身覆盖范围内的地面用户信息。om(t)表示t时刻无人机基站m所观察到的处于自己覆盖范围内的地面用户的位置信息。
(3)基于多智能体深度强化学习算法进行训练:
本发明将多智能体深度强化学习算法MADDPG引入到无人机对地通信网络悬停位置优化中,采用集中式训练和分布式执行的架构,在训练时使用全局信息,更好地指导每个无人机的决策函数的梯度更新,在执行时每个无人机仅使用自己观察到的局部信息做出下一步决策,更贴合实际场景的需要;每个智能体采用了Actor-Critic架构的DDPG网络进行训练,策略网络用来拟合策略函数u(o),输入局部观察o,输出动作策略a;评价网络用来拟合状态-动作函数Q(s,a),表示在***状态为s时,采取动作a所获得的期望奖励;令u={u1,…,uM}表示M个智能体的确定性策略函数,
Figure BDA0002523468170000061
表示每个策略网络的参数,Q={Q1,…,QM}表示M个智能体的评价网络,
Figure BDA0002523468170000062
表示评价网络的参数,步骤(3)包括:
(3.1)初始化经验回放空间,设置经验回放空间大小,初始化每个DDPG网络的参数,训练回合数等
(3.2)从训练回合epoch=1开始,从时刻t=1开始。
(3.3)获取当前无人机的局部观察信息o和整个***当前状态s;每个无人机m使用t时隙得到的局部观察信息,基于∈贪婪策略和DDPG网络输出决策信息am调整悬停位置,并根据和地面用户间的路径损耗,基于贪婪方案选择路径损耗最低的W个地面用户进行通信服务,得到瞬时回报奖励r,达到下一***状态s′并获得局部观察信息o′;将(s,o,a,r,s′,o′)作为样本存入经验回放空间,a={a1,…,aM}表示所有无人机的联合动作,o={o1,…,om}表示所有无人机的局部观察信息,t=t+1。
(3.4)若回放空间存储的样本数量大于B,到达步骤3.5;否则,继续收集样本,返回步骤3.3。
(3.5)对每个智能体m,从经验回放空间中随机采样固定数量K的样本,计算目标值,其中第k个样本(sk,ok,ak,rk,s′k,ok)的目标值yk可以表示为:
Figure BDA0002523468170000071
其中Q′m表示第m个智能体的评价网络的目标网络,u′m表示第m个智能体的策略网络的目标网络,rk表示第k个样本中的及时奖励,a′m表示无人机m在***状态s′k下根据局部观察
Figure BDA0002523468170000072
所作出的决策。基于全局信息,使用梯度下降法最小化损失函数
Figure BDA0002523468170000073
更新该智能体的评价网络的参数:
Figure BDA0002523468170000074
根据评价网络和样本信息,基于样本的策略梯度,更新该智能体策略网络的参数:
Figure BDA0002523468170000075
(3.6)间隔一定回合后,即,更新目标网络参数θQ′和θu′:θQ′=τθQ+(1-τ)θQ′u′=τθu+(1-τ)θu′。当达到总时长T或无人机能量耗尽后,退出当前训练回合,否则,返回步骤3.3。若训练回合数已到,则退出训练过程,否则进入新的训练回合。
(4)将训练好的策略网络u分配给每个无人机,将无人机部署到目标区域,每个无人机在每个时隙根据自身的局部观察调整悬停位置,并对地面用户进行通信服务。
本发明的有益效果:本发明提出一种基于多智能体深度强化学***权重和能耗损失信息,在提高吞吐量的同时一定程度上保证了用户服务的公平性和无人机集群的低能耗。
附图说明
图1是本发明所述的无人机对地通信网络场景示意图。
图2是本发明一种基于多智能体深度强化学习的无人机网络悬停位置优化方法的流程图。
图3是本发明基于多智能体深度强化学习的训练无人机分布式策略网络的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种基于多智能体深度强化学***性和能耗损失,不能因为追求吞吐量最大化而忽略某些地面用户,并尽可能减少无人机基站移动所造成的能耗损失。本发明的流程如图2所示,首先,对具体的应用场景中的通信模型、覆盖模型和能耗模型等进行建模并构建优化目标;其次,根据优化目标和多无人机***特性将优化问题建模为局部可观测马尔科夫决策过程;然后,使用仿真平台模拟多无人机对地通信场景,通过无人机集群和环境的交互采集样本,使用多智能体深度强化学***的通信覆盖。
具体步骤如下:
(1)建立多无人机対地通信网络模型,主要包括以下4个步骤:
(1.1)建立场景模型:建立一个边长为l的正方形目标区域,该区域中有N个地面用户和M个无人机基站(UAV-BSs),这些无人机基站为地面用户提供通信服务。时间被划分为T个相同的时隙,从上一时隙到当前时隙,地面用户可能静止也可能发生移动,因此无人机基站需要在每个时隙寻找新的最优悬停位置,并在到达目标位置后选择地面用户进行数据传输服务。
(1.2)建立空对地通信模型:本发明使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于高飞行高度,相比于地面基站更容易与地面用户建立视距链路(LoS),在LoS情况下,无人机基站m和地面用户n之间的路径损耗模型为:
Figure BDA0002523468170000091
其中η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,
Figure BDA0002523468170000092
表示无人机基站m和地面用户n之间的距离,rn,m为水平距离,h为无人机基站固定飞行高度。根据路径损失,信道增益可以表示为
Figure BDA0002523468170000101
根据信道增益,无人机基站m和地面用户n之间在时隙t的数据传输速率为:
Figure BDA0002523468170000102
其中σ表示加性高斯白噪声,pt表示无人机基站的发射功率,gn,m(t)表示t时刻无人机基站m和地面用户n之间的信道增益。
(1.3)建立覆盖模型:由于硬件限制,每个无人机基站的覆盖范围是有限的。本发明定义了最大可容忍路径损失Lmax,如果某一时刻无人机基站和用户之间路径损失小于Lmax,我们认为建立的连接是可靠的,否则,我们认为建立连接失败。因此,可以根据最大可容忍路径损耗定义出每个无人机基站的有效覆盖范围,该范围以无人机基站在地面的投影点为圆心,以Rcov为半径,根据路径损失公式,Rcov可以表示为:
Figure BDA0002523468170000103
(1.4)建立能量损耗模型:本发明主要关注无人机移动造成的能量损耗,考虑无人机的飞行速度V以及飞行功率pf,无人机基站m在时隙t的飞行能耗取决于飞行的距离:
Figure BDA0002523468170000104
其中
Figure BDA0002523468170000105
分别表示无人机在水平面上x轴和y轴的位置坐标。
(2)将问题建模为局部可观测马尔科夫决策过程:
每个无人机基站相当于一个智能体;在每一个环境状态为S(t)的时隙中,智能体m在仅能获得自身覆盖范围内的局部观察om,并根据决策函数um(om),从动作集A中选择动作am,以最大化折扣总期望奖励
Figure BDA0002523468170000106
其中γ∈(0,1)为折扣系数,rm(t)表示智能体m在t时刻的奖励;
***状态集合S={S(t)|S(t)=(Su(t),Sg(t))},分别包含无人机基站的当前状态
Figure BDA0002523468170000111
和地面用户当前状态
Figure BDA0002523468170000112
无人机基站状态
Figure BDA0002523468170000113
包括无人机当前的位置信息;地面用户状态
Figure BDA0002523468170000114
包括当前地面用户的位置信息。
无人机动作集合A={a(t)|a(t)=(θ(t),d(t))},在时隙t,无人机m需要在得到当前局部观察信息后做出决策am(t),移动到下一个悬停位置,因此动作集合包括飞行旋转角度θ(t)和移动距离d(t)。
***及时奖励r(t):本文的目标是在考虑用户服务公平性和能耗的同时,最大化无人机网络的吞吐量。因此,在每个时刻t通过调整无人机悬停位置所产生的额外吞吐量是一个正项奖励,表示为:
ΔC(t)=C(Su(t+1),Sg(t))-C(Su(t),Sg(t))
其中C(Su(t),Sg(t))表示无人机基站状态为Su(t),地面用户状态为Sg(t)时网络产生的吞吐量。C(Su(t+1),Sg(t))则表示无人机基站状态为Su(t+1),地面用户状态为Sg(t)时网络产生的吞吐量。考虑到用户服务的公平性,如果某个区域聚集有大量用户,而某个区域只有一个用户,无人机基站为了追求最大化吞吐量会一直悬停在高密度区域,而忽略低密度区域,因此本发明为每个用户的吞吐量奖励施加一个权重wn(t)实现比例公平调度。Rreq表示的是地面用户需求的最小通信速率要求,Rn(t)表示的是地面用户n从开始阶段到时刻t的平均通信速率。当无人机基站服务该用户时,Rn(t)增长,该用户的权重会逐渐变小;若该用户没有被服务到,则Rn(t)减小,该用户权重不断增大。因此,用户稀疏地区的奖励权重会不断增大,吸引无人机基站进行服务。
Figure BDA0002523468170000121
Figure BDA0002523468170000122
因此,综合考虑公平性吞吐量奖励和能耗损失惩罚,本发明给出***实时奖励r(t)
Figure BDA0002523468170000123
其中α表示能耗惩罚所占的权重,α越大,则该***在决策时更注重能耗损失,反之则越忽略能耗损失。
局部观察集合O(t)={o1(t),…,oM(t)},当多无人机基站在一个大范围区域协同工作时,每个无人机无法观察到全局信息,只能观察到自身覆盖范围内的地面用户信息。om(t)表示无人机基站m所观察到的处于自己覆盖范围内的地面用户的位置信息。
(3)基于多智能体深度强化学习算法进行训练:
本发明将多智能体深度强化学习算法MADDPG引入到无人机对地通信网络悬停位置优化中,采用集中式训练和分布式执行的架构,在训练时使用全局信息,更好地指导每个无人机的决策函数的梯度更新,在执行时每个无人机仅使用自己观察到的局部信息做出下一步决策,更贴合实际场景的需要;每个智能体采用了Actor-Critic架构的DDPG网络进行训练,策略网络用来拟合策略函数u(o),输入局部观察o,输出动作策略a;评价网络用来拟合状态-动作函数Q(s,a),表示在***状态为s时,采取动作a所获得的期望奖励;令u={u1,…,uM}表示M个智能体的确定性策略函数,
Figure BDA0002523468170000124
表示每个策略网络的参数,Q={Q1,…,QM}表示M个智能体的评价网络,
Figure BDA0002523468170000131
表示评价网络的参数,如图3所示,步骤(3)包括:
(3.1)初始化经验回放空间,并设置经验回放空间大小B,初始化每个DDPG网络的参数θ,训练回合数P,时长T等
(3.2)从训练回合epoch=1开始,从时刻t=1开始。
(3.3)获取当前无人机的局部观察信息o和整个***当前状态s;每个无人机m使用t时隙得到的局部观察信息,基于∈贪婪策略和DDPG网络输出决策信息am调整悬停位置,并根据和地面用户间的路径损耗,基于贪婪方案选择路径损耗最低的W个地面用户进行通信服务,得到瞬时回报奖励r,达到下一***状态s′并获得局部观察信息o′;将(s,o,a,r,s′,o′)作为样本存入经验回放空间,a={a1,…,aM}表示所有无人机的联合动作,o={o1,…,om}表示所有无人机的局部观察信息,t=t+1;
(3.4)若回放空间存储的样本数量大于B,到达步骤3.5;否则,继续收集样本,返回步骤3.3。
(3.5)对每个智能体m,从经验回放空间中随机采样固定数量K的样本,计算目标值,其中第k个样本(sk,ok,ak,rk,s′k,ok)的目标值yk可以表示为:
Figure BDA0002523468170000132
其中Q′m表示第m个智能体的评价网络的目标网络,u′m表示第m个智能体的策略网络的目标网络,rk表示第k个样本中的及时奖励,a′m表示无人机m在***状态s′k下根据局部观察
Figure BDA0002523468170000133
所作出的决策。基于全局信息,使用梯度下降法最小化损失函数
Figure BDA0002523468170000134
更新该智能体的评价网络的参数:
Figure BDA0002523468170000141
根据评价网络和样本信息,基于样本的策略梯度,更新该智能体策略网络的参数:
Figure BDA0002523468170000142
(3.6)间隔一定回合后,更新评价目标网络参数θQ′和策略目标网络参数θu′:θQ′=τθQ+(1-τ)θQ′u′=τθu+(1-τ)θu′。当达到总时长T或无人机能量耗尽后,退出当前训练回合,否则,返回步骤3.3。若训练回合数已到,则退出训练过程,否则进入新的训练回合。
(4)将训练好的策略网络u分配给每个无人机,将无人机部署到目标区域,每个无人机在每个时隙根据自身的局部观察调整悬停位置,并对地面用户进行通信服务。
综上所述:
本发明提出一种基于多智能体深度强化学***性。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (1)

1.一种基于多智能体深度强化学习的无人机网络悬停位置优化方法,其特征在于,步骤如下:
(1)建立多无人机対地通信网络模型
(1.1)建立场景模型:建立一个边长为l的正方形目标区域,该区域中有N个地面用户和M个无人机基站,无人机基站为地面用户提供通信服务;时间被划分为T个相同的时隙,从上一时隙到当前时隙,地面用户可能静止也可能发生移动,因此无人机基站需要在每个时隙寻找新的最优悬停位置,并在到达目标位置后选择地面用户进行数据传输服务;
(1.2)建立空对地通信模型:使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于高飞行高度,相比于地面基站更容易与地面用户建立视距链路LoS,在LoS情况下,无人机基站m和地面用户n之间的路径损耗模型为:
Figure FDA0002970558180000011
其中,η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,
Figure FDA0002970558180000012
表示无人机基站m和地面用户n之间的距离,rn,m为水平距离,h为无人机基站固定飞行高度;根据路径损失,信道增益表示为
Figure FDA0002970558180000013
根据信道增益,无人机基站m和地面用户n之间在时隙t的数据传输速率为Rn,m(t):
Figure FDA0002970558180000014
其中,σ表示加性高斯白噪声,pt表示无人机基站的发射功率,gn,m(t)表示t时刻无人机基站m和地面用户n之间的信道增益;
(1.3)建立覆盖模型:定义最大可容忍路径损失Lmax,如果某一时刻无人机基站和用户之间路径损失小于Lmax,建立的连接是可靠的,否则,建立连接失败的;根据最大可容忍路径损耗定义出每个无人机基站的有效覆盖范围,该范围以无人机基站在地面的投影点为圆心,以Rcov为半径,根据路径损失公式,Rcov表示为:
Figure FDA0002970558180000021
(1.4)建立能量损耗模型:关注无人机移动造成的能量损耗,考虑无人机的飞行速度V以及飞行功率pf,无人机基站m在时隙t的飞行能耗Δem(t)取决于飞行的距离:
Figure FDA0002970558180000022
其中,
Figure FDA0002970558180000023
分别表示t时刻无人机在水平面上x轴和y轴的位置坐标;
(2)将问题建模为局部可观测马尔科夫决策过程:
每个无人机基站相当于一个智能体;在每一个环境状态为S(t)的时隙中,智能体m在仅能获得自身覆盖范围内的局部观察om,并根据决策函数um(om),从动作集中选择动作am,以最大化折扣总期望奖励
Figure FDA0002970558180000024
其中γ∈(0,1)为折扣系数,rm(t)表示智能体m在t时刻的奖励;
***状态集合S={S(t)|S(t)=(Su(t),Sg(t))},分别包含无人机基站的当前状态
Figure FDA0002970558180000025
和地面用户当前状态
Figure FDA0002970558180000026
每个无人机基站的状态
Figure FDA0002970558180000027
包括无人机当前的位置信息;每个地面用户状态
Figure FDA0002970558180000028
包括当前地面用户的位置信息;
无人机动作集合A={a(t)|a(t)=(θ(t),d(t))},在时隙t,无人机m需要在得到当前局部观察信息后做出决策am(t),移动到下一个悬停位置,因此动作集合包括飞行旋转角度θ(t)和移动距离d(t);
***实时奖励r(t):在考虑用户服务公平性和能耗的同时,最大化无人机网络的吞吐量;因此,在每个时刻t通过调整无人机悬停位置所产生的额外吞吐量是一个正项奖励,表示为:
ΔC(t)=C(Su(t+1),Sg(t))-C(Su(t),Sg(t))
其中,C(Su(t),Sg(t))表示无人机基站状态为Su(t),地面用户状态为Sg(t)时网络产生的吞吐量;C(Su(t+1),Sg(t))则表示无人机基站状态为Su(t+1),地面用户状态为Sg(t)时网络产生的吞吐量;考虑到用户服务的公平性,如果某个区域聚集有大量用户,而某个区域仅有少量用户,无人机基站为了追求最大化吞吐量会一直悬停在高密度区域,而忽略低密度区域,因此为每个用户的吞吐量奖励施加一个权重wn(t)实现比例公平调度;Rreq表示的是地面用户需求的最小通信速率要求,Rn(t)表示的是地面用户n从开始阶段到时刻t的平均通信速率;当无人机基站服务该用户时,Rn(t)增长,该用户的权重逐渐变小;若该用户没有被服务到,则Rn(t)增长,该用户权重不断增大;因此,用户稀疏地区的奖励权重会不断增大,吸引无人机基站进行服务;
Figure FDA0002970558180000031
Figure FDA0002970558180000032
其中,an,m(t)是一个指示变量,在t时刻,如果无人机基站m服务地面用户用户n,那么an,m(t)=1,反之,an,m(t)=0;因此,综合考虑公平性吞吐量奖励和能耗损失惩罚,***实时奖励r(t):
Figure FDA0002970558180000041
其中,δ表示能耗惩罚所占的权重,δ越大,则该***在决策时更注重能耗损失,反之则越忽略能耗损失;
局部观察集合O(t)={o1(t),…,oM(t)},当多无人机基站在一个大范围区域协同工作时,每个无人机无法观察到全局信息,只能观察到自身覆盖范围内的地面用户信息;om(t)表示t时刻无人机基站m所观察到的处于自己覆盖范围内的地面用户的位置信息;
(3)基于多智能体深度强化学习算法进行训练:
将多智能体深度强化学习算法MADDPG引入到无人机对地通信网络悬停位置优化中,采用集中式训练和分布式执行的架构,在训练时使用全局信息,更好地指导每个无人机的决策函数的梯度更新,在执行时每个无人机仅使用自己观察到的局部信息做出下一步决策,更贴合实际场景的需要;每个智能体采用了Actor-Critic架构的DDPG网络进行训练,策略网络用来拟合策略函数u(o),输入局部观察o,输出动作策略a;评价网络用来拟合状态-动作函数Q(s,a),表示在***状态为s时,采取动作a所获得的期望奖励;令u={u1,…,uM}表示M个智能体的确定性策略函数,
Figure FDA0002970558180000042
表示每个策略网络的参数,Q={Q1,…,QM}表示M个智能体的评价网络,
Figure FDA0002970558180000043
表示评价网络的参数;
(3.1)初始化经验回放空间,设置经验回放空间大小,初始化每个DDPG网络的参数,训练回合数;
(3.2)从训练回合epoch=1开始,从时刻t=1开始;
(3.3)获取当前无人机的局部观察信息o和整个***当前状态s;每个无人机m使用t时隙得到的局部观察信息,基于贪婪策略和DDPG网络输出决策信息am调整悬停位置,并根据和地面用户间的路径损耗,基于贪婪方案选择路径损耗最低的W个地面用户进行通信服务,得到瞬时回报奖励r,达到下一***状态s′并获得局部观察信息o′;将(s,o,a,r,s′,o′)作为样本存入经验回放空间,a={a1,…,aM}表示所有无人机的联合动作,o={o1,…,om}表示所有无人机的局部观察信息,t=t+1;
(3.4)若回放空间存储的样本数量大于B,到达步骤(3.5);否则,继续收集样本,返回步骤(3.3);
(3.5)对每个智能体m,从经验回放空间中随机采样固定数量K的样本,计算目标值,其中第k个样本(sk,ok,ak,rk,s′k,o′k)的目标值yk可以表示为:
Figure FDA0002970558180000051
其中Q′m表示第m个智能体的评价网络的目标网络,u′m表示第m个智能体的策略网络的目标网络,rk表示第k个样本中的及时奖励,a′m表示无人机m在***状态s′k下根据局部观察
Figure FDA0002970558180000052
所作出的决策;基于全局信息,使用梯度下降法最小化损失函数
Figure FDA0002970558180000053
更新该智能体的评价网络的参数:
Figure FDA0002970558180000054
根据评价网络和样本信息,基于样本的策略梯度,更新该智能体策略网络的参数:
Figure FDA0002970558180000055
(3.6)间隔一定回合后,更新评价目标网络参数θQ′和策略目标网络参数θu′:θQ′=τθQ+(1-τ)θQ′u′=τθu+(1-τ)θu′;τ∈(0,1)表示更新权重;当达到总时长T或无人机能量耗尽后,退出当前训练回合,否则,返回步骤(3.3);若训练回合数已到,则退出训练过程,否则进入新的训练回合;
(4)将训练好的策略网络u分配给每个无人机,将无人机部署到目标区域,每个无人机在每个时隙根据自身的局部观察调整悬停位置,并对地面用户进行通信服务。
CN202010497656.4A 2020-06-04 2020-06-04 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 Active CN111786713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010497656.4A CN111786713B (zh) 2020-06-04 2020-06-04 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010497656.4A CN111786713B (zh) 2020-06-04 2020-06-04 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Publications (2)

Publication Number Publication Date
CN111786713A CN111786713A (zh) 2020-10-16
CN111786713B true CN111786713B (zh) 2021-06-08

Family

ID=72753669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010497656.4A Active CN111786713B (zh) 2020-06-04 2020-06-04 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Country Status (1)

Country Link
CN (1) CN111786713B (zh)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256056B (zh) * 2020-10-19 2022-03-01 中山大学 基于多智能体深度强化学习的无人机控制方法及***
CN112512115B (zh) * 2020-11-20 2022-02-11 北京邮电大学 一种空中基站位置确定方法、装置及电子设备
CN112566209A (zh) * 2020-11-24 2021-03-26 山西三友和智慧信息技术股份有限公司 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN112511197B (zh) * 2020-12-01 2022-12-23 南京工业大学 基于深度强化学习的无人机辅助弹性视频多播方法
CN112752357B (zh) * 2020-12-02 2022-06-17 宁波大学 基于能量收割技术的在线无人机辅助数据收集方法及装置
CN112511250B (zh) * 2020-12-03 2022-06-03 中国人民解放***箭军工程大学 一种基于drl的多无人机空中基站动态部署方法及***
CN112636811B (zh) * 2020-12-08 2021-11-30 北京邮电大学 一种中继无人机部署方法及装置
CN112672361B (zh) * 2020-12-17 2022-12-02 东南大学 一种基于无人机集群部署的大规模mimo容量提升方法
CN112821938B (zh) * 2021-01-08 2021-10-22 重庆大学 一种空天地卫星通信***的总吞吐量及能耗优化方法
CN112904890B (zh) * 2021-01-15 2023-06-30 北京国网富达科技发展有限责任公司 一种电力线路的无人机自动巡检***及方法
CN112947575B (zh) * 2021-03-17 2023-05-16 中国人民解放军国防科技大学 基于深度强化学习的无人机集群多目标搜索方法及***
CN113094982B (zh) * 2021-03-29 2022-12-16 天津理工大学 一种基于多智能体深度强化学习的车联网边缘缓存方法
CN113194488B (zh) * 2021-03-31 2023-03-31 西安交通大学 一种无人机轨迹和智能反射面相移联合优化方法及***
CN113162679B (zh) * 2021-04-01 2023-03-10 南京邮电大学 基于ddpg算法的irs辅助无人机通信联合优化方法
CN113342029B (zh) * 2021-04-16 2022-06-21 山东师范大学 基于无人机群的最大传感器数据采集路径规划方法及***
CN113115344B (zh) * 2021-04-19 2021-12-14 中国人民解放***箭军工程大学 基于噪声优化的无人机基站通信资源分配策略预测方法
CN113286275A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于多智能体强化学习的无人机集群高效通信方法
CN113190039B (zh) * 2021-04-27 2024-04-16 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法
CN113364495B (zh) * 2021-05-25 2022-08-05 西安交通大学 一种多无人机轨迹和智能反射面相移联合优化方法及***
CN113286314B (zh) * 2021-05-25 2022-03-08 重庆邮电大学 一种基于q学习算法的无人机基站部署及用户关联方法
CN113255218B (zh) * 2021-05-27 2022-05-31 电子科技大学 无线自供电通信网络的无人机自主导航及资源调度方法
CN113328775B (zh) * 2021-05-28 2022-06-21 怀化学院 一种uav高度定位***及计算机存储介质
CN113660681B (zh) * 2021-05-31 2023-06-06 西北工业大学 一种应用于无人机集群辅助传输的多智能体资源优化方法
CN113242556B (zh) * 2021-06-04 2022-08-23 重庆邮电大学 一种基于差异化服务的无人机资源动态部署方法
CN113382060B (zh) * 2021-06-07 2022-03-22 北京理工大学 一种物联网数据收集中的无人机轨迹优化方法及***
CN113392971B (zh) * 2021-06-11 2022-09-02 武汉大学 策略网络训练方法、装置、设备及可读存储介质
CN113364630A (zh) * 2021-06-15 2021-09-07 广东技术师范大学 一种服务质量QoS差异化优化方法、装置
CN113572548B (zh) * 2021-06-18 2023-07-07 南京理工大学 一种基于多智能体强化学习的无人机网络协同快跳频方法
CN113346944B (zh) * 2021-06-28 2022-06-10 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及***
CN113467508B (zh) * 2021-06-30 2022-06-28 天津大学 面向围捕任务的多无人机智能协同决策方法
CN113641192B (zh) * 2021-07-06 2023-07-18 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113613339B (zh) * 2021-07-10 2023-10-17 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法
CN113395708B (zh) * 2021-07-13 2023-01-31 东南大学 基于全局环境预测的多自主体集中式区域覆盖方法与***
CN113359480B (zh) * 2021-07-16 2022-02-01 中国人民解放***箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113776531B (zh) * 2021-07-21 2024-07-19 电子科技大学长三角研究院(湖州) 无线自供电通信网络的多无人机自主导航及任务分配算法
CN113625751B (zh) * 2021-08-05 2023-02-24 南京航空航天大学 面向空地一体联邦学习的无人机位置与资源联合优化方法
CN113625569B (zh) * 2021-08-12 2022-02-08 中国人民解放军32802部队 一种基于混合决策模型的小型无人机防控决策方法及***
CN113706023B (zh) * 2021-08-31 2022-07-12 哈尔滨理工大学 基于深度强化学习的舰载机保障作业人员调度方法
CN113691294B (zh) * 2021-09-27 2022-01-18 中国人民解放军空军预警学院 一种近场稀疏阵列天线波束建立方法及装置
CN114051252B (zh) * 2021-09-28 2023-05-26 嘉兴学院 无线接入网中多用户智能发射功率控制方法
CN113762512B (zh) * 2021-11-10 2022-03-18 北京航空航天大学杭州创新研究院 分布式模型训练方法、***及相关装置
CN114142912B (zh) * 2021-11-26 2023-01-06 西安电子科技大学 高动态空中网络时间覆盖连续性保障的资源管控方法
CN114222251B (zh) * 2021-11-30 2024-06-28 中山大学·深圳 一种多无人机的自适应网络成型和轨迹优化方法
CN114268986A (zh) * 2021-12-14 2022-04-01 北京航空航天大学 一种无人机计算卸载与充电服务效能优化方法
CN114372612B (zh) * 2021-12-16 2023-04-28 电子科技大学 面向无人机移动边缘计算场景的路径规划和任务卸载方法
CN114268963B (zh) * 2021-12-24 2023-07-11 北京航空航天大学 一种面向通信覆盖的无人机网络自主部署方法
CN114339842B (zh) * 2022-01-06 2022-12-20 北京邮电大学 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
CN114374951B (zh) * 2022-01-12 2024-04-30 重庆邮电大学 一种多无人机动态预部署方法
CN114124784B (zh) * 2022-01-27 2022-04-12 军事科学院***工程研究院网络信息研究所 一种基于垂直联邦的智能路由决策保护方法和***
CN114548551A (zh) * 2022-02-21 2022-05-27 广东汇天航空航天科技有限公司 一种剩余续航时间确定方法、装置、飞行器和介质
CN114567888B (zh) * 2022-03-04 2023-12-26 国网浙江省电力有限公司台州市黄岩区供电公司 一种多无人机动态部署方法
CN114625151B (zh) * 2022-03-10 2024-05-28 大连理工大学 一种基于强化学习的水下机器人避障路径规划方法
CN114449482B (zh) * 2022-03-11 2024-05-14 南京理工大学 基于多智能体深度强化学习的异构车联网用户关联方法
CN114679699A (zh) * 2022-03-23 2022-06-28 重庆邮电大学 基于深度强化学习的多无人机节能巡航通信覆盖方法
CN114884895B (zh) * 2022-05-05 2023-08-22 郑州轻工业大学 一种基于深度强化学习的智能流量调度方法
CN114980169A (zh) * 2022-05-16 2022-08-30 北京理工大学 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
CN114980020B (zh) * 2022-05-17 2024-07-12 中科润物科技(南京)有限公司 一种基于maddpg算法的无人机数据收集方法
CN114997617B (zh) * 2022-05-23 2024-06-07 华中科技大学 一种多无人平台多目标联合探测任务分配方法及***
CN115038155B (zh) * 2022-05-23 2023-02-07 香港中文大学(深圳) 一种超密集多接入点的动态协同传输方法
CN115314904B (zh) * 2022-06-14 2024-03-29 北京邮电大学 基于多智能体最大熵强化学习的通信覆盖方法及相关设备
CN114942653B (zh) * 2022-07-26 2022-10-25 北京邮电大学 无人集群飞行策略的确定方法、装置和电子设备
CN115460543B (zh) * 2022-08-31 2024-04-19 中国地质大学(武汉) 一种分布式环形栅栏覆盖方法、设备及存储设备
CN115713130B (zh) * 2022-09-07 2023-09-05 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN115802313B (zh) * 2022-11-16 2024-06-28 河南大学 基于智能反射面的空地移动网络携能公平通信方法
CN115499849B (zh) * 2022-11-16 2023-04-07 国网湖北省电力有限公司信息通信公司 一种无线接入点与可重构智能表面协作方法
CN116208968B (zh) * 2022-12-30 2024-04-05 北京信息科技大学 基于联邦学习的轨迹规划方法及装置
CN116009590B (zh) * 2023-02-01 2023-11-17 中山大学 无人机网络分布式轨迹规划方法、***、设备及介质
CN116456307B (zh) * 2023-05-06 2024-04-09 山东省计算中心(国家超级计算济南中心) 一种基于q学习的能量受限物联网数据采集和融合方法
CN116502547B (zh) * 2023-06-29 2024-06-04 深圳大学 一种基于图强化学习的多无人机无线能量传输方法
CN116980881B (zh) * 2023-08-29 2024-01-23 北方工业大学 一种多无人机协作数据分发方法、***、电子设备及介质
CN117376934B (zh) * 2023-12-08 2024-02-27 山东科技大学 一种基于深度强化学习的多无人机海上移动基站部署方法
CN117835463B (zh) * 2023-12-27 2024-07-19 武汉大学 基于深度强化学习的空地自组通信网络时空动态部署方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10025991B2 (en) * 2016-11-08 2018-07-17 Dedrone Holdings, Inc. Systems, methods, apparatuses, and devices for identifying, tracking, and managing unmanned aerial vehicles
US11071160B2 (en) * 2016-11-11 2021-07-20 Qualcomm Incorporated Methods for beam recovery in millimeter wave systems
KR20200037816A (ko) * 2017-08-02 2020-04-09 스트롱 포스 아이오티 포트폴리오 2016, 엘엘씨 대규모 데이터 세트들을 갖는 산업 사물 인터넷 데이터 수집 환경에서의 검출을 위한 방법들 및 시스템들
CN111045443B (zh) * 2018-10-11 2021-07-02 北京航空航天大学 无人机通信网络移动控制方法、装置、设备及存储介质
CN110198531B (zh) * 2019-05-24 2021-04-06 吉林大学 一种基于相对速度的动态d2d中继选择方法
CN110430527B (zh) * 2019-07-17 2020-09-25 大连理工大学 一种无人机对地安全传输功率分配方法
CN110488861B (zh) * 2019-07-30 2020-08-28 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110531617B (zh) * 2019-07-30 2021-01-08 北京邮电大学 多无人机3d悬停位置联合优化方法、装置和无人机基站
CN110730028B (zh) * 2019-08-29 2022-05-13 广东工业大学 一种无人机辅助反向散射通信装置以及资源分配控制方法
CN110809274B (zh) * 2019-10-28 2023-04-21 南京邮电大学 一种面向窄带物联网的无人机基站增强网络优化方法
CN111132009B (zh) * 2019-12-23 2020-12-15 北京邮电大学 物联网的移动边缘计算方法、装置及***
CN111026147B (zh) * 2019-12-25 2021-01-08 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置

Also Published As

Publication number Publication date
CN111786713A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111786713B (zh) 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN109831797B (zh) 一种推动功率受限的无人机基站带宽和轨迹联合优化方法
Zhang et al. Energy-efficient trajectory optimization for UAV-assisted IoT networks
CN110364031B (zh) 地面传感器网络中无人机集群的路径规划和无线通信方法
CN109067490B (zh) 蜂窝网联下多无人机协同移动边缘计算***资源分配方法
CN109286913B (zh) 基于蜂窝网联的无人机移动边缘计算***能耗优化方法
CN111263332A (zh) 基于深度强化学习的无人机轨迹及功率联合优化方法
Zhang et al. Three-dimension trajectory design for multi-UAV wireless network with deep reinforcement learning
CN109885088B (zh) 边缘计算网络中基于机器学习的无人机飞行轨迹优化方法
CN113359480B (zh) 基于mappo算法多无人机与用户协同通信优化方法
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN110602633A (zh) 一种面向爆发性流量的移动边缘计算无人机群辅助通信方法
CN108668257B (zh) 一种分布式无人机邮差中继轨迹优化方法
CN113660681A (zh) 一种应用于无人机集群辅助传输的多智能体资源优化方法
CN114339842B (zh) 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
CN112702713B (zh) 一种多约束条件下的低空无人机通信部署方法
CN114980169A (zh) 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN113163332A (zh) 基于度量学习的路标图着色无人机节能续航数据收集方法
CN115407794A (zh) 基于强化学习的海域安全通信无人机轨迹实时规划方法
Babu et al. Fairness-based energy-efficient 3-D path planning of a portable access point: A deep reinforcement learning approach
CN114615759A (zh) 一种非正交多址接入网络中无人机辅助通信的方法
CN114205769A (zh) 基于无人机数据采集***的联合轨迹优化与带宽分配方法
CN113776531A (zh) 无线自供电通信网络的多无人机自主导航及任务分配算法
CN117119489A (zh) 一种基于多无人机辅助的无线供能网络的部署和资源优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant