CN111786713B - 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 - Google Patents
一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 Download PDFInfo
- Publication number
- CN111786713B CN111786713B CN202010497656.4A CN202010497656A CN111786713B CN 111786713 B CN111786713 B CN 111786713B CN 202010497656 A CN202010497656 A CN 202010497656A CN 111786713 B CN111786713 B CN 111786713B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- network
- ground
- base station
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 238000005457 optimization Methods 0.000 title claims abstract description 21
- 238000004891 communication Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000005265 energy consumption Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 12
- 239000003795 chemical substances by application Substances 0.000 claims description 52
- 238000011156 evaluation Methods 0.000 claims description 20
- 230000009471 action Effects 0.000 claims description 16
- 230000005540 biological transmission Effects 0.000 claims description 6
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000009916 joint effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
- H04B7/18506—Communications with or from aircraft, i.e. aeronautical mobile service
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/18—Network planning tools
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/22—Traffic simulation tools or models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Aviation & Aerospace Engineering (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Astronomy & Astrophysics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种基于多智能体深度强化学***调度和无人机能耗损失信息引入到瞬时奖励函数中,在提高吞吐量的同时保证无人机对地面用户服务的公平性,并减少能耗损失,使无人机集群能够适应动态环境。
Description
技术领域
本发明涉及无线通信技术领域,特别涉及一种基于多智能体深度强化学习的多无人机网络悬停位置优化方法。
背景技术
近年来,由于无人机的高机动性、易部署性和低成本,基于无人机的通信技术引起了广泛的关注,成为了无线通信领域的一个新的研究热点。无人机辅助通信技术主要有以下几个应用场景:无人机作为移动基站为基础设施稀少或灾后地区提供通信覆盖、无人机作为中继节点为相距较远的无法直接建立连接的两个通信节点提供无线连接、基于无人机的数据分发和采集。本发明主要针对第一个场景,在该场景中,无人机的悬停位置决定了整个无人机网络的覆盖性能和吞吐量大小。无人机网络所服务的地面设备可能具有移动性,因此无人机需要不断地调整自身的悬停位置以实现最优的性能。
2018年,Qingqing Wu等人在论文《JointTrajectoryandCommunicationDesignforMulti-UAVEnabledWirelessNetworks》中提出一种多无人机对地通信***的UAV路径规划方案,将时间划分为多个周期,每个周期UAVs的移动轨迹是相同的,在每个时隙,无人机基站服务特定的地面用户。该方案将优化问题建模为混合整数规划问题,并使用块坐标梯度下降和近似凸优化技术进行求解,求得周期内每个时间片的最优悬停位置,最大化和地面用户间的下行链路吞吐量。但是,该论文提出的方案只适用于静态环境,是假设地面设备不具备移动性的条件下进行的,并不适用于地面用户不断移动的场景。Chi Harold Liu等人在论文《Energy-Efficient UAV Control for Effective andFair CommunicationCoverage:A DeepReinforcement Learning Approach》提出了一种基于深度强化学***无线覆盖,并尽可能减少UAVs的能耗。但是,该方法仅仅考虑了UAVs网络的覆盖性能,且是针对区域的粗粒度覆盖公平,而不是针对用户的细粒度覆盖公平。此外,该方法是一种集中式的方案,需要一个控制器在每个时隙收集所有无人机的信息,才能做出决策。
综上所述,基于无人机基站的对地通信网络中的UAVs路径规划技术主要有如下缺陷:(1)没有考虑环境的动态性,即地面用户的移动性。(2)采用的是集中式的算法,依赖全局信息和集中式控制,某些大范围的场景中,进行集中式控制是较为困难的,因此需要一种分布式的控制策略,每个无人机基站仅靠自己获得的信息做出决策。(3)忽略了考虑用户层次的服务公平性。这些缺陷使得现有的无人机网络中的UAVs轨迹优化方法无法适用于实际通信环境。
发明内容
本发明的目的是提出一种基于多智能体强化学习的多无人机悬停位置优化方法,以解决上述技术问题。
本发明的技术方案:
一种基于多智能体深度强化学习的无人机网络悬停位置优化方法,步骤如下:
(1)建立多无人机対地通信网络模型,主要包括以下4个步骤:
(1.1)建立场景模型:建立一个边长为l的正方形目标区域,该区域中有N个地面用户和M个无人机基站(UAV-BSs),这些无人机基站为地面用户提供通信服务。时间被划分为T个相同的时隙,从上一时隙到当前时隙,地面用户可能静止也可能发生移动,因此无人机基站需要在每个时隙寻找新的最优悬停位置,并在到达目标位置后选择地面用户进行数据传输服务。
(1.2)建立空对地通信模型:本发明使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于高飞行高度,相比于地面基站更容易与地面用户建立视距链路(LoS),在LoS情况下,无人机基站m和地面用户n之间的路径损耗模型为:
其中η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,表示无人机基站m和地面用户n之间的距离,其中rn,m表示二者的水平距离,h为无人机基站固定飞行高度。根据路径损失,信道增益可以表示为根据信道增益,无人机基站m和地面用户n之间在时隙t的数据传输速率为:
其中σ表示加性高斯白噪声,pt表示无人机基站的发射功率,gn,m(t)表示t时刻无人机基站m和地面用户n之间的信道增益。
(1.3)建立覆盖模型:由于硬件限制,每个无人机基站的覆盖范围是有限的。本发明定义了最大可容忍路径损失Lmax,如果某一时刻无人机基站和用户之间路径损失小于Lmax,我们认为建立的连接是可靠的,否则,我们认为建立连接失败。因此,可以根据最大可容忍路径损耗定义出每个无人机基站的有效覆盖范围,该范围以无人机基站在地面的投影点为圆心,以Rcov为半径,根据路径损失公式,Rcov可以表示为:
(1.4)建立能量损耗模型:本发明主要关注无人机移动造成的能量损耗,考虑无人机的飞行速度V以及飞行功率pf,无人机基站m在时隙t的飞行能耗取决于飞行的距离:
(2)将问题建模为局部可观测马尔科夫决策过程:
每个无人机基站相当于一个智能体;在每一个环境状态为S(t)的时隙中,智能体m在仅能获得自身覆盖范围内的局部观察om,并根据决策函数um(om),从动作集A中选择动作am,以最大化折扣总期望奖励其中γ∈(0,1)为折扣系数,rm(t)表示智能体m在t时刻的奖励;
无人机动作集合A={a(t)|a(t)=(θ(t),d(t))},在时隙t,无人机m需要在得到当前局部观察信息后做出决策am(t),移动到下一个悬停位置,因此动作集合包括飞行旋转角度θ(t)和移动距离d(t)。
***及时奖励r(t):本文的目标是在考虑用户服务公平性和能耗的同时,最大化无人机网络的吞吐量。因此,在每个时刻t通过调整无人机悬停位置所产生的额外吞吐量是一个正项奖励,表示为:
ΔC(t)=C(Su(t+1),Sg(t))-C(Su(t),Sg(t))
其中C(Su(t),Sg(t))表示无人机基站状态为Su(t),地面用户状态为Sg(t)时网络产生的吞吐量。C(Su(t+1),Sg(t))则表示无人机基站状态为Su(t+1),地面用户状态为Sg(t)时网络产生的吞吐量。考虑到用户服务的公平性,如果某个区域聚集有大量用户,而某个区域只有一个用户,无人机基站为了追求最大化吞吐量会一直悬停在高密度区域,而忽略低密度区域,因此本发明为每个用户的吞吐量奖励施加一个权重wn(t)实现比例公平调度。Rreq表示的是地面用户需求的最小通信速率要求,Rn(t)表示的是地面用户n从开始阶段到时刻t的平均通信速率。当无人机基站服务该用户时,Rn(t)增长,该用户的权重会逐渐变小;若该用户没有被服务到,则Rn(t)减小,该用户权重不断增大。因此,用户稀疏地区的奖励权重会不断增大,吸引无人机基站进行服务。
其中,an,m(t)是一个指示变量,在t时刻,如果无人机基站m服务地面用户用户n,那么an,m(t)=1,因此,综合考虑公平性吞吐量奖励和能耗损失惩罚,本发明给出***实时奖励r(t):
其中α表示能耗惩罚所占的权重,α越大,则该***在决策时更注重能耗损失,反之则越忽略能耗损失。
局部观察集合O(t)={o1(t),…,oM(t)},当多无人机基站在一个大范围区域协同工作时,每个无人机无法观察到全局信息,只能观察到自身覆盖范围内的地面用户信息。om(t)表示t时刻无人机基站m所观察到的处于自己覆盖范围内的地面用户的位置信息。
(3)基于多智能体深度强化学习算法进行训练:
本发明将多智能体深度强化学习算法MADDPG引入到无人机对地通信网络悬停位置优化中,采用集中式训练和分布式执行的架构,在训练时使用全局信息,更好地指导每个无人机的决策函数的梯度更新,在执行时每个无人机仅使用自己观察到的局部信息做出下一步决策,更贴合实际场景的需要;每个智能体采用了Actor-Critic架构的DDPG网络进行训练,策略网络用来拟合策略函数u(o),输入局部观察o,输出动作策略a;评价网络用来拟合状态-动作函数Q(s,a),表示在***状态为s时,采取动作a所获得的期望奖励;令u={u1,…,uM}表示M个智能体的确定性策略函数,表示每个策略网络的参数,Q={Q1,…,QM}表示M个智能体的评价网络,表示评价网络的参数,步骤(3)包括:
(3.1)初始化经验回放空间,设置经验回放空间大小,初始化每个DDPG网络的参数,训练回合数等
(3.2)从训练回合epoch=1开始,从时刻t=1开始。
(3.3)获取当前无人机的局部观察信息o和整个***当前状态s;每个无人机m使用t时隙得到的局部观察信息,基于∈贪婪策略和DDPG网络输出决策信息am调整悬停位置,并根据和地面用户间的路径损耗,基于贪婪方案选择路径损耗最低的W个地面用户进行通信服务,得到瞬时回报奖励r,达到下一***状态s′并获得局部观察信息o′;将(s,o,a,r,s′,o′)作为样本存入经验回放空间,a={a1,…,aM}表示所有无人机的联合动作,o={o1,…,om}表示所有无人机的局部观察信息,t=t+1。
(3.4)若回放空间存储的样本数量大于B,到达步骤3.5;否则,继续收集样本,返回步骤3.3。
(3.5)对每个智能体m,从经验回放空间中随机采样固定数量K的样本,计算目标值,其中第k个样本(sk,ok,ak,rk,s′k,ok)的目标值yk可以表示为:其中Q′m表示第m个智能体的评价网络的目标网络,u′m表示第m个智能体的策略网络的目标网络,rk表示第k个样本中的及时奖励,a′m表示无人机m在***状态s′k下根据局部观察所作出的决策。基于全局信息,使用梯度下降法最小化损失函数更新该智能体的评价网络的参数:
根据评价网络和样本信息,基于样本的策略梯度,更新该智能体策略网络的参数:
(3.6)间隔一定回合后,即,更新目标网络参数θQ′和θu′:θQ′=τθQ+(1-τ)θQ′,θu′=τθu+(1-τ)θu′。当达到总时长T或无人机能量耗尽后,退出当前训练回合,否则,返回步骤3.3。若训练回合数已到,则退出训练过程,否则进入新的训练回合。
(4)将训练好的策略网络u分配给每个无人机,将无人机部署到目标区域,每个无人机在每个时隙根据自身的局部观察调整悬停位置,并对地面用户进行通信服务。
本发明的有益效果:本发明提出一种基于多智能体深度强化学***权重和能耗损失信息,在提高吞吐量的同时一定程度上保证了用户服务的公平性和无人机集群的低能耗。
附图说明
图1是本发明所述的无人机对地通信网络场景示意图。
图2是本发明一种基于多智能体深度强化学习的无人机网络悬停位置优化方法的流程图。
图3是本发明基于多智能体深度强化学习的训练无人机分布式策略网络的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种基于多智能体深度强化学***性和能耗损失,不能因为追求吞吐量最大化而忽略某些地面用户,并尽可能减少无人机基站移动所造成的能耗损失。本发明的流程如图2所示,首先,对具体的应用场景中的通信模型、覆盖模型和能耗模型等进行建模并构建优化目标;其次,根据优化目标和多无人机***特性将优化问题建模为局部可观测马尔科夫决策过程;然后,使用仿真平台模拟多无人机对地通信场景,通过无人机集群和环境的交互采集样本,使用多智能体深度强化学***的通信覆盖。
具体步骤如下:
(1)建立多无人机対地通信网络模型,主要包括以下4个步骤:
(1.1)建立场景模型:建立一个边长为l的正方形目标区域,该区域中有N个地面用户和M个无人机基站(UAV-BSs),这些无人机基站为地面用户提供通信服务。时间被划分为T个相同的时隙,从上一时隙到当前时隙,地面用户可能静止也可能发生移动,因此无人机基站需要在每个时隙寻找新的最优悬停位置,并在到达目标位置后选择地面用户进行数据传输服务。
(1.2)建立空对地通信模型:本发明使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于高飞行高度,相比于地面基站更容易与地面用户建立视距链路(LoS),在LoS情况下,无人机基站m和地面用户n之间的路径损耗模型为:
其中η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,表示无人机基站m和地面用户n之间的距离,rn,m为水平距离,h为无人机基站固定飞行高度。根据路径损失,信道增益可以表示为根据信道增益,无人机基站m和地面用户n之间在时隙t的数据传输速率为:
其中σ表示加性高斯白噪声,pt表示无人机基站的发射功率,gn,m(t)表示t时刻无人机基站m和地面用户n之间的信道增益。
(1.3)建立覆盖模型:由于硬件限制,每个无人机基站的覆盖范围是有限的。本发明定义了最大可容忍路径损失Lmax,如果某一时刻无人机基站和用户之间路径损失小于Lmax,我们认为建立的连接是可靠的,否则,我们认为建立连接失败。因此,可以根据最大可容忍路径损耗定义出每个无人机基站的有效覆盖范围,该范围以无人机基站在地面的投影点为圆心,以Rcov为半径,根据路径损失公式,Rcov可以表示为:
(1.4)建立能量损耗模型:本发明主要关注无人机移动造成的能量损耗,考虑无人机的飞行速度V以及飞行功率pf,无人机基站m在时隙t的飞行能耗取决于飞行的距离:
(2)将问题建模为局部可观测马尔科夫决策过程:
每个无人机基站相当于一个智能体;在每一个环境状态为S(t)的时隙中,智能体m在仅能获得自身覆盖范围内的局部观察om,并根据决策函数um(om),从动作集A中选择动作am,以最大化折扣总期望奖励其中γ∈(0,1)为折扣系数,rm(t)表示智能体m在t时刻的奖励;
无人机动作集合A={a(t)|a(t)=(θ(t),d(t))},在时隙t,无人机m需要在得到当前局部观察信息后做出决策am(t),移动到下一个悬停位置,因此动作集合包括飞行旋转角度θ(t)和移动距离d(t)。
***及时奖励r(t):本文的目标是在考虑用户服务公平性和能耗的同时,最大化无人机网络的吞吐量。因此,在每个时刻t通过调整无人机悬停位置所产生的额外吞吐量是一个正项奖励,表示为:
ΔC(t)=C(Su(t+1),Sg(t))-C(Su(t),Sg(t))
其中C(Su(t),Sg(t))表示无人机基站状态为Su(t),地面用户状态为Sg(t)时网络产生的吞吐量。C(Su(t+1),Sg(t))则表示无人机基站状态为Su(t+1),地面用户状态为Sg(t)时网络产生的吞吐量。考虑到用户服务的公平性,如果某个区域聚集有大量用户,而某个区域只有一个用户,无人机基站为了追求最大化吞吐量会一直悬停在高密度区域,而忽略低密度区域,因此本发明为每个用户的吞吐量奖励施加一个权重wn(t)实现比例公平调度。Rreq表示的是地面用户需求的最小通信速率要求,Rn(t)表示的是地面用户n从开始阶段到时刻t的平均通信速率。当无人机基站服务该用户时,Rn(t)增长,该用户的权重会逐渐变小;若该用户没有被服务到,则Rn(t)减小,该用户权重不断增大。因此,用户稀疏地区的奖励权重会不断增大,吸引无人机基站进行服务。
因此,综合考虑公平性吞吐量奖励和能耗损失惩罚,本发明给出***实时奖励r(t)
其中α表示能耗惩罚所占的权重,α越大,则该***在决策时更注重能耗损失,反之则越忽略能耗损失。
局部观察集合O(t)={o1(t),…,oM(t)},当多无人机基站在一个大范围区域协同工作时,每个无人机无法观察到全局信息,只能观察到自身覆盖范围内的地面用户信息。om(t)表示无人机基站m所观察到的处于自己覆盖范围内的地面用户的位置信息。
(3)基于多智能体深度强化学习算法进行训练:
本发明将多智能体深度强化学习算法MADDPG引入到无人机对地通信网络悬停位置优化中,采用集中式训练和分布式执行的架构,在训练时使用全局信息,更好地指导每个无人机的决策函数的梯度更新,在执行时每个无人机仅使用自己观察到的局部信息做出下一步决策,更贴合实际场景的需要;每个智能体采用了Actor-Critic架构的DDPG网络进行训练,策略网络用来拟合策略函数u(o),输入局部观察o,输出动作策略a;评价网络用来拟合状态-动作函数Q(s,a),表示在***状态为s时,采取动作a所获得的期望奖励;令u={u1,…,uM}表示M个智能体的确定性策略函数,表示每个策略网络的参数,Q={Q1,…,QM}表示M个智能体的评价网络,表示评价网络的参数,如图3所示,步骤(3)包括:
(3.1)初始化经验回放空间,并设置经验回放空间大小B,初始化每个DDPG网络的参数θ,训练回合数P,时长T等
(3.2)从训练回合epoch=1开始,从时刻t=1开始。
(3.3)获取当前无人机的局部观察信息o和整个***当前状态s;每个无人机m使用t时隙得到的局部观察信息,基于∈贪婪策略和DDPG网络输出决策信息am调整悬停位置,并根据和地面用户间的路径损耗,基于贪婪方案选择路径损耗最低的W个地面用户进行通信服务,得到瞬时回报奖励r,达到下一***状态s′并获得局部观察信息o′;将(s,o,a,r,s′,o′)作为样本存入经验回放空间,a={a1,…,aM}表示所有无人机的联合动作,o={o1,…,om}表示所有无人机的局部观察信息,t=t+1;
(3.4)若回放空间存储的样本数量大于B,到达步骤3.5;否则,继续收集样本,返回步骤3.3。
(3.5)对每个智能体m,从经验回放空间中随机采样固定数量K的样本,计算目标值,其中第k个样本(sk,ok,ak,rk,s′k,ok)的目标值yk可以表示为:其中Q′m表示第m个智能体的评价网络的目标网络,u′m表示第m个智能体的策略网络的目标网络,rk表示第k个样本中的及时奖励,a′m表示无人机m在***状态s′k下根据局部观察所作出的决策。基于全局信息,使用梯度下降法最小化损失函数更新该智能体的评价网络的参数:
根据评价网络和样本信息,基于样本的策略梯度,更新该智能体策略网络的参数:
(3.6)间隔一定回合后,更新评价目标网络参数θQ′和策略目标网络参数θu′:θQ′=τθQ+(1-τ)θQ′,θu′=τθu+(1-τ)θu′。当达到总时长T或无人机能量耗尽后,退出当前训练回合,否则,返回步骤3.3。若训练回合数已到,则退出训练过程,否则进入新的训练回合。
(4)将训练好的策略网络u分配给每个无人机,将无人机部署到目标区域,每个无人机在每个时隙根据自身的局部观察调整悬停位置,并对地面用户进行通信服务。
综上所述:
本发明提出一种基于多智能体深度强化学***性。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (1)
1.一种基于多智能体深度强化学习的无人机网络悬停位置优化方法,其特征在于,步骤如下:
(1)建立多无人机対地通信网络模型
(1.1)建立场景模型:建立一个边长为l的正方形目标区域,该区域中有N个地面用户和M个无人机基站,无人机基站为地面用户提供通信服务;时间被划分为T个相同的时隙,从上一时隙到当前时隙,地面用户可能静止也可能发生移动,因此无人机基站需要在每个时隙寻找新的最优悬停位置,并在到达目标位置后选择地面用户进行数据传输服务;
(1.2)建立空对地通信模型:使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于高飞行高度,相比于地面基站更容易与地面用户建立视距链路LoS,在LoS情况下,无人机基站m和地面用户n之间的路径损耗模型为:
其中,η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,表示无人机基站m和地面用户n之间的距离,rn,m为水平距离,h为无人机基站固定飞行高度;根据路径损失,信道增益表示为根据信道增益,无人机基站m和地面用户n之间在时隙t的数据传输速率为Rn,m(t):
其中,σ表示加性高斯白噪声,pt表示无人机基站的发射功率,gn,m(t)表示t时刻无人机基站m和地面用户n之间的信道增益;
(1.3)建立覆盖模型:定义最大可容忍路径损失Lmax,如果某一时刻无人机基站和用户之间路径损失小于Lmax,建立的连接是可靠的,否则,建立连接失败的;根据最大可容忍路径损耗定义出每个无人机基站的有效覆盖范围,该范围以无人机基站在地面的投影点为圆心,以Rcov为半径,根据路径损失公式,Rcov表示为:
(1.4)建立能量损耗模型:关注无人机移动造成的能量损耗,考虑无人机的飞行速度V以及飞行功率pf,无人机基站m在时隙t的飞行能耗Δem(t)取决于飞行的距离:
(2)将问题建模为局部可观测马尔科夫决策过程:
每个无人机基站相当于一个智能体;在每一个环境状态为S(t)的时隙中,智能体m在仅能获得自身覆盖范围内的局部观察om,并根据决策函数um(om),从动作集中选择动作am,以最大化折扣总期望奖励其中γ∈(0,1)为折扣系数,rm(t)表示智能体m在t时刻的奖励;
***状态集合S={S(t)|S(t)=(Su(t),Sg(t))},分别包含无人机基站的当前状态和地面用户当前状态每个无人机基站的状态包括无人机当前的位置信息;每个地面用户状态包括当前地面用户的位置信息;
无人机动作集合A={a(t)|a(t)=(θ(t),d(t))},在时隙t,无人机m需要在得到当前局部观察信息后做出决策am(t),移动到下一个悬停位置,因此动作集合包括飞行旋转角度θ(t)和移动距离d(t);
***实时奖励r(t):在考虑用户服务公平性和能耗的同时,最大化无人机网络的吞吐量;因此,在每个时刻t通过调整无人机悬停位置所产生的额外吞吐量是一个正项奖励,表示为:
ΔC(t)=C(Su(t+1),Sg(t))-C(Su(t),Sg(t))
其中,C(Su(t),Sg(t))表示无人机基站状态为Su(t),地面用户状态为Sg(t)时网络产生的吞吐量;C(Su(t+1),Sg(t))则表示无人机基站状态为Su(t+1),地面用户状态为Sg(t)时网络产生的吞吐量;考虑到用户服务的公平性,如果某个区域聚集有大量用户,而某个区域仅有少量用户,无人机基站为了追求最大化吞吐量会一直悬停在高密度区域,而忽略低密度区域,因此为每个用户的吞吐量奖励施加一个权重wn(t)实现比例公平调度;Rreq表示的是地面用户需求的最小通信速率要求,Rn(t)表示的是地面用户n从开始阶段到时刻t的平均通信速率;当无人机基站服务该用户时,Rn(t)增长,该用户的权重逐渐变小;若该用户没有被服务到,则Rn(t)增长,该用户权重不断增大;因此,用户稀疏地区的奖励权重会不断增大,吸引无人机基站进行服务;
其中,an,m(t)是一个指示变量,在t时刻,如果无人机基站m服务地面用户用户n,那么an,m(t)=1,反之,an,m(t)=0;因此,综合考虑公平性吞吐量奖励和能耗损失惩罚,***实时奖励r(t):
其中,δ表示能耗惩罚所占的权重,δ越大,则该***在决策时更注重能耗损失,反之则越忽略能耗损失;
局部观察集合O(t)={o1(t),…,oM(t)},当多无人机基站在一个大范围区域协同工作时,每个无人机无法观察到全局信息,只能观察到自身覆盖范围内的地面用户信息;om(t)表示t时刻无人机基站m所观察到的处于自己覆盖范围内的地面用户的位置信息;
(3)基于多智能体深度强化学习算法进行训练:
将多智能体深度强化学习算法MADDPG引入到无人机对地通信网络悬停位置优化中,采用集中式训练和分布式执行的架构,在训练时使用全局信息,更好地指导每个无人机的决策函数的梯度更新,在执行时每个无人机仅使用自己观察到的局部信息做出下一步决策,更贴合实际场景的需要;每个智能体采用了Actor-Critic架构的DDPG网络进行训练,策略网络用来拟合策略函数u(o),输入局部观察o,输出动作策略a;评价网络用来拟合状态-动作函数Q(s,a),表示在***状态为s时,采取动作a所获得的期望奖励;令u={u1,…,uM}表示M个智能体的确定性策略函数,表示每个策略网络的参数,Q={Q1,…,QM}表示M个智能体的评价网络,表示评价网络的参数;
(3.1)初始化经验回放空间,设置经验回放空间大小,初始化每个DDPG网络的参数,训练回合数;
(3.2)从训练回合epoch=1开始,从时刻t=1开始;
(3.3)获取当前无人机的局部观察信息o和整个***当前状态s;每个无人机m使用t时隙得到的局部观察信息,基于贪婪策略和DDPG网络输出决策信息am调整悬停位置,并根据和地面用户间的路径损耗,基于贪婪方案选择路径损耗最低的W个地面用户进行通信服务,得到瞬时回报奖励r,达到下一***状态s′并获得局部观察信息o′;将(s,o,a,r,s′,o′)作为样本存入经验回放空间,a={a1,…,aM}表示所有无人机的联合动作,o={o1,…,om}表示所有无人机的局部观察信息,t=t+1;
(3.4)若回放空间存储的样本数量大于B,到达步骤(3.5);否则,继续收集样本,返回步骤(3.3);
(3.5)对每个智能体m,从经验回放空间中随机采样固定数量K的样本,计算目标值,其中第k个样本(sk,ok,ak,rk,s′k,o′k)的目标值yk可以表示为:其中Q′m表示第m个智能体的评价网络的目标网络,u′m表示第m个智能体的策略网络的目标网络,rk表示第k个样本中的及时奖励,a′m表示无人机m在***状态s′k下根据局部观察所作出的决策;基于全局信息,使用梯度下降法最小化损失函数更新该智能体的评价网络的参数:
根据评价网络和样本信息,基于样本的策略梯度,更新该智能体策略网络的参数:
(3.6)间隔一定回合后,更新评价目标网络参数θQ′和策略目标网络参数θu′:θQ′=τθQ+(1-τ)θQ′,θu′=τθu+(1-τ)θu′;τ∈(0,1)表示更新权重;当达到总时长T或无人机能量耗尽后,退出当前训练回合,否则,返回步骤(3.3);若训练回合数已到,则退出训练过程,否则进入新的训练回合;
(4)将训练好的策略网络u分配给每个无人机,将无人机部署到目标区域,每个无人机在每个时隙根据自身的局部观察调整悬停位置,并对地面用户进行通信服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010497656.4A CN111786713B (zh) | 2020-06-04 | 2020-06-04 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010497656.4A CN111786713B (zh) | 2020-06-04 | 2020-06-04 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111786713A CN111786713A (zh) | 2020-10-16 |
CN111786713B true CN111786713B (zh) | 2021-06-08 |
Family
ID=72753669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010497656.4A Active CN111786713B (zh) | 2020-06-04 | 2020-06-04 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111786713B (zh) |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256056B (zh) * | 2020-10-19 | 2022-03-01 | 中山大学 | 基于多智能体深度强化学习的无人机控制方法及*** |
CN112512115B (zh) * | 2020-11-20 | 2022-02-11 | 北京邮电大学 | 一种空中基站位置确定方法、装置及电子设备 |
CN112566209A (zh) * | 2020-11-24 | 2021-03-26 | 山西三友和智慧信息技术股份有限公司 | 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法 |
CN112511197B (zh) * | 2020-12-01 | 2022-12-23 | 南京工业大学 | 基于深度强化学习的无人机辅助弹性视频多播方法 |
CN112752357B (zh) * | 2020-12-02 | 2022-06-17 | 宁波大学 | 基于能量收割技术的在线无人机辅助数据收集方法及装置 |
CN112511250B (zh) * | 2020-12-03 | 2022-06-03 | 中国人民解放***箭军工程大学 | 一种基于drl的多无人机空中基站动态部署方法及*** |
CN112636811B (zh) * | 2020-12-08 | 2021-11-30 | 北京邮电大学 | 一种中继无人机部署方法及装置 |
CN112672361B (zh) * | 2020-12-17 | 2022-12-02 | 东南大学 | 一种基于无人机集群部署的大规模mimo容量提升方法 |
CN112821938B (zh) * | 2021-01-08 | 2021-10-22 | 重庆大学 | 一种空天地卫星通信***的总吞吐量及能耗优化方法 |
CN112904890B (zh) * | 2021-01-15 | 2023-06-30 | 北京国网富达科技发展有限责任公司 | 一种电力线路的无人机自动巡检***及方法 |
CN112947575B (zh) * | 2021-03-17 | 2023-05-16 | 中国人民解放军国防科技大学 | 基于深度强化学习的无人机集群多目标搜索方法及*** |
CN113094982B (zh) * | 2021-03-29 | 2022-12-16 | 天津理工大学 | 一种基于多智能体深度强化学习的车联网边缘缓存方法 |
CN113194488B (zh) * | 2021-03-31 | 2023-03-31 | 西安交通大学 | 一种无人机轨迹和智能反射面相移联合优化方法及*** |
CN113162679B (zh) * | 2021-04-01 | 2023-03-10 | 南京邮电大学 | 基于ddpg算法的irs辅助无人机通信联合优化方法 |
CN113342029B (zh) * | 2021-04-16 | 2022-06-21 | 山东师范大学 | 基于无人机群的最大传感器数据采集路径规划方法及*** |
CN113115344B (zh) * | 2021-04-19 | 2021-12-14 | 中国人民解放***箭军工程大学 | 基于噪声优化的无人机基站通信资源分配策略预测方法 |
CN113286275A (zh) * | 2021-04-23 | 2021-08-20 | 南京大学 | 一种基于多智能体强化学习的无人机集群高效通信方法 |
CN113190039B (zh) * | 2021-04-27 | 2024-04-16 | 大连理工大学 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
CN113364495B (zh) * | 2021-05-25 | 2022-08-05 | 西安交通大学 | 一种多无人机轨迹和智能反射面相移联合优化方法及*** |
CN113286314B (zh) * | 2021-05-25 | 2022-03-08 | 重庆邮电大学 | 一种基于q学习算法的无人机基站部署及用户关联方法 |
CN113255218B (zh) * | 2021-05-27 | 2022-05-31 | 电子科技大学 | 无线自供电通信网络的无人机自主导航及资源调度方法 |
CN113328775B (zh) * | 2021-05-28 | 2022-06-21 | 怀化学院 | 一种uav高度定位***及计算机存储介质 |
CN113660681B (zh) * | 2021-05-31 | 2023-06-06 | 西北工业大学 | 一种应用于无人机集群辅助传输的多智能体资源优化方法 |
CN113242556B (zh) * | 2021-06-04 | 2022-08-23 | 重庆邮电大学 | 一种基于差异化服务的无人机资源动态部署方法 |
CN113382060B (zh) * | 2021-06-07 | 2022-03-22 | 北京理工大学 | 一种物联网数据收集中的无人机轨迹优化方法及*** |
CN113392971B (zh) * | 2021-06-11 | 2022-09-02 | 武汉大学 | 策略网络训练方法、装置、设备及可读存储介质 |
CN113364630A (zh) * | 2021-06-15 | 2021-09-07 | 广东技术师范大学 | 一种服务质量QoS差异化优化方法、装置 |
CN113572548B (zh) * | 2021-06-18 | 2023-07-07 | 南京理工大学 | 一种基于多智能体强化学习的无人机网络协同快跳频方法 |
CN113346944B (zh) * | 2021-06-28 | 2022-06-10 | 上海交通大学 | 空天地一体化网络中时延最小化计算任务卸载方法及*** |
CN113467508B (zh) * | 2021-06-30 | 2022-06-28 | 天津大学 | 面向围捕任务的多无人机智能协同决策方法 |
CN113641192B (zh) * | 2021-07-06 | 2023-07-18 | 暨南大学 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
CN113613339B (zh) * | 2021-07-10 | 2023-10-17 | 西北农林科技大学 | 基于深度强化学习的多优先级无线终端的信道接入方法 |
CN113395708B (zh) * | 2021-07-13 | 2023-01-31 | 东南大学 | 基于全局环境预测的多自主体集中式区域覆盖方法与*** |
CN113359480B (zh) * | 2021-07-16 | 2022-02-01 | 中国人民解放***箭军工程大学 | 基于mappo算法多无人机与用户协同通信优化方法 |
CN113776531B (zh) * | 2021-07-21 | 2024-07-19 | 电子科技大学长三角研究院(湖州) | 无线自供电通信网络的多无人机自主导航及任务分配算法 |
CN113625751B (zh) * | 2021-08-05 | 2023-02-24 | 南京航空航天大学 | 面向空地一体联邦学习的无人机位置与资源联合优化方法 |
CN113625569B (zh) * | 2021-08-12 | 2022-02-08 | 中国人民解放军32802部队 | 一种基于混合决策模型的小型无人机防控决策方法及*** |
CN113706023B (zh) * | 2021-08-31 | 2022-07-12 | 哈尔滨理工大学 | 基于深度强化学习的舰载机保障作业人员调度方法 |
CN113691294B (zh) * | 2021-09-27 | 2022-01-18 | 中国人民解放军空军预警学院 | 一种近场稀疏阵列天线波束建立方法及装置 |
CN114051252B (zh) * | 2021-09-28 | 2023-05-26 | 嘉兴学院 | 无线接入网中多用户智能发射功率控制方法 |
CN113762512B (zh) * | 2021-11-10 | 2022-03-18 | 北京航空航天大学杭州创新研究院 | 分布式模型训练方法、***及相关装置 |
CN114142912B (zh) * | 2021-11-26 | 2023-01-06 | 西安电子科技大学 | 高动态空中网络时间覆盖连续性保障的资源管控方法 |
CN114222251B (zh) * | 2021-11-30 | 2024-06-28 | 中山大学·深圳 | 一种多无人机的自适应网络成型和轨迹优化方法 |
CN114268986A (zh) * | 2021-12-14 | 2022-04-01 | 北京航空航天大学 | 一种无人机计算卸载与充电服务效能优化方法 |
CN114372612B (zh) * | 2021-12-16 | 2023-04-28 | 电子科技大学 | 面向无人机移动边缘计算场景的路径规划和任务卸载方法 |
CN114268963B (zh) * | 2021-12-24 | 2023-07-11 | 北京航空航天大学 | 一种面向通信覆盖的无人机网络自主部署方法 |
CN114339842B (zh) * | 2022-01-06 | 2022-12-20 | 北京邮电大学 | 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置 |
CN114374951B (zh) * | 2022-01-12 | 2024-04-30 | 重庆邮电大学 | 一种多无人机动态预部署方法 |
CN114124784B (zh) * | 2022-01-27 | 2022-04-12 | 军事科学院***工程研究院网络信息研究所 | 一种基于垂直联邦的智能路由决策保护方法和*** |
CN114548551A (zh) * | 2022-02-21 | 2022-05-27 | 广东汇天航空航天科技有限公司 | 一种剩余续航时间确定方法、装置、飞行器和介质 |
CN114567888B (zh) * | 2022-03-04 | 2023-12-26 | 国网浙江省电力有限公司台州市黄岩区供电公司 | 一种多无人机动态部署方法 |
CN114625151B (zh) * | 2022-03-10 | 2024-05-28 | 大连理工大学 | 一种基于强化学习的水下机器人避障路径规划方法 |
CN114449482B (zh) * | 2022-03-11 | 2024-05-14 | 南京理工大学 | 基于多智能体深度强化学习的异构车联网用户关联方法 |
CN114679699A (zh) * | 2022-03-23 | 2022-06-28 | 重庆邮电大学 | 基于深度强化学习的多无人机节能巡航通信覆盖方法 |
CN114884895B (zh) * | 2022-05-05 | 2023-08-22 | 郑州轻工业大学 | 一种基于深度强化学习的智能流量调度方法 |
CN114980169A (zh) * | 2022-05-16 | 2022-08-30 | 北京理工大学 | 一种基于轨迹与相位联合优化的无人机辅助地面通信方法 |
CN114980020B (zh) * | 2022-05-17 | 2024-07-12 | 中科润物科技(南京)有限公司 | 一种基于maddpg算法的无人机数据收集方法 |
CN114997617B (zh) * | 2022-05-23 | 2024-06-07 | 华中科技大学 | 一种多无人平台多目标联合探测任务分配方法及*** |
CN115038155B (zh) * | 2022-05-23 | 2023-02-07 | 香港中文大学(深圳) | 一种超密集多接入点的动态协同传输方法 |
CN115314904B (zh) * | 2022-06-14 | 2024-03-29 | 北京邮电大学 | 基于多智能体最大熵强化学习的通信覆盖方法及相关设备 |
CN114942653B (zh) * | 2022-07-26 | 2022-10-25 | 北京邮电大学 | 无人集群飞行策略的确定方法、装置和电子设备 |
CN115460543B (zh) * | 2022-08-31 | 2024-04-19 | 中国地质大学(武汉) | 一种分布式环形栅栏覆盖方法、设备及存储设备 |
CN115713130B (zh) * | 2022-09-07 | 2023-09-05 | 华东交通大学 | 基于超参数网络权重分配深度强化学习的车辆调度方法 |
CN115802313B (zh) * | 2022-11-16 | 2024-06-28 | 河南大学 | 基于智能反射面的空地移动网络携能公平通信方法 |
CN115499849B (zh) * | 2022-11-16 | 2023-04-07 | 国网湖北省电力有限公司信息通信公司 | 一种无线接入点与可重构智能表面协作方法 |
CN116208968B (zh) * | 2022-12-30 | 2024-04-05 | 北京信息科技大学 | 基于联邦学习的轨迹规划方法及装置 |
CN116009590B (zh) * | 2023-02-01 | 2023-11-17 | 中山大学 | 无人机网络分布式轨迹规划方法、***、设备及介质 |
CN116456307B (zh) * | 2023-05-06 | 2024-04-09 | 山东省计算中心(国家超级计算济南中心) | 一种基于q学习的能量受限物联网数据采集和融合方法 |
CN116502547B (zh) * | 2023-06-29 | 2024-06-04 | 深圳大学 | 一种基于图强化学习的多无人机无线能量传输方法 |
CN116980881B (zh) * | 2023-08-29 | 2024-01-23 | 北方工业大学 | 一种多无人机协作数据分发方法、***、电子设备及介质 |
CN117376934B (zh) * | 2023-12-08 | 2024-02-27 | 山东科技大学 | 一种基于深度强化学习的多无人机海上移动基站部署方法 |
CN117835463B (zh) * | 2023-12-27 | 2024-07-19 | 武汉大学 | 基于深度强化学习的空地自组通信网络时空动态部署方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10025991B2 (en) * | 2016-11-08 | 2018-07-17 | Dedrone Holdings, Inc. | Systems, methods, apparatuses, and devices for identifying, tracking, and managing unmanned aerial vehicles |
US11071160B2 (en) * | 2016-11-11 | 2021-07-20 | Qualcomm Incorporated | Methods for beam recovery in millimeter wave systems |
KR20200037816A (ko) * | 2017-08-02 | 2020-04-09 | 스트롱 포스 아이오티 포트폴리오 2016, 엘엘씨 | 대규모 데이터 세트들을 갖는 산업 사물 인터넷 데이터 수집 환경에서의 검출을 위한 방법들 및 시스템들 |
CN111045443B (zh) * | 2018-10-11 | 2021-07-02 | 北京航空航天大学 | 无人机通信网络移动控制方法、装置、设备及存储介质 |
CN110198531B (zh) * | 2019-05-24 | 2021-04-06 | 吉林大学 | 一种基于相对速度的动态d2d中继选择方法 |
CN110430527B (zh) * | 2019-07-17 | 2020-09-25 | 大连理工大学 | 一种无人机对地安全传输功率分配方法 |
CN110488861B (zh) * | 2019-07-30 | 2020-08-28 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110531617B (zh) * | 2019-07-30 | 2021-01-08 | 北京邮电大学 | 多无人机3d悬停位置联合优化方法、装置和无人机基站 |
CN110730028B (zh) * | 2019-08-29 | 2022-05-13 | 广东工业大学 | 一种无人机辅助反向散射通信装置以及资源分配控制方法 |
CN110809274B (zh) * | 2019-10-28 | 2023-04-21 | 南京邮电大学 | 一种面向窄带物联网的无人机基站增强网络优化方法 |
CN111132009B (zh) * | 2019-12-23 | 2020-12-15 | 北京邮电大学 | 物联网的移动边缘计算方法、装置及*** |
CN111026147B (zh) * | 2019-12-25 | 2021-01-08 | 北京航空航天大学 | 基于深度强化学习的零超调量无人机位置控制方法及装置 |
-
2020
- 2020-06-04 CN CN202010497656.4A patent/CN111786713B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111786713A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111786713B (zh) | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 | |
CN109831797B (zh) | 一种推动功率受限的无人机基站带宽和轨迹联合优化方法 | |
Zhang et al. | Energy-efficient trajectory optimization for UAV-assisted IoT networks | |
CN110364031B (zh) | 地面传感器网络中无人机集群的路径规划和无线通信方法 | |
CN109067490B (zh) | 蜂窝网联下多无人机协同移动边缘计算***资源分配方法 | |
CN109286913B (zh) | 基于蜂窝网联的无人机移动边缘计算***能耗优化方法 | |
CN111263332A (zh) | 基于深度强化学习的无人机轨迹及功率联合优化方法 | |
Zhang et al. | Three-dimension trajectory design for multi-UAV wireless network with deep reinforcement learning | |
CN109885088B (zh) | 边缘计算网络中基于机器学习的无人机飞行轨迹优化方法 | |
CN113359480B (zh) | 基于mappo算法多无人机与用户协同通信优化方法 | |
CN114690799A (zh) | 基于信息年龄的空天地一体化无人机物联网数据采集方法 | |
CN110602633A (zh) | 一种面向爆发性流量的移动边缘计算无人机群辅助通信方法 | |
CN108668257B (zh) | 一种分布式无人机邮差中继轨迹优化方法 | |
CN113660681A (zh) | 一种应用于无人机集群辅助传输的多智能体资源优化方法 | |
CN114339842B (zh) | 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置 | |
CN112702713B (zh) | 一种多约束条件下的低空无人机通信部署方法 | |
CN114980169A (zh) | 一种基于轨迹与相位联合优化的无人机辅助地面通信方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN113163332A (zh) | 基于度量学习的路标图着色无人机节能续航数据收集方法 | |
CN115407794A (zh) | 基于强化学习的海域安全通信无人机轨迹实时规划方法 | |
Babu et al. | Fairness-based energy-efficient 3-D path planning of a portable access point: A deep reinforcement learning approach | |
CN114615759A (zh) | 一种非正交多址接入网络中无人机辅助通信的方法 | |
CN114205769A (zh) | 基于无人机数据采集***的联合轨迹优化与带宽分配方法 | |
CN113776531A (zh) | 无线自供电通信网络的多无人机自主导航及任务分配算法 | |
CN117119489A (zh) | 一种基于多无人机辅助的无线供能网络的部署和资源优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |