CN115499921A

CN115499921A - 面向复杂无人机网络的三维轨迹设计及资源调度优化方法

Info

Publication number: CN115499921A
Application number: CN202210896671.5A
Authority: CN
Inventors: 赵赛; 吴荣杰; 黄高飞; 唐冬
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-12-20

Abstract

本发明公开了一种面向复杂无人机网络的三维轨迹设计及资源调度优化方法，包括如下步骤：S1、随机生成无人机和地面用户的初始位置；S2、生成无人机空对地通信模型；S3、生成无人机通信信道模型；S4、生成无人机传输能量消耗模型；S5、将所述无人机空对地通信模型、所述无人机通信信道模型和所述无人机传输能量消耗模型参数传入深度强化学习网络中，学习提取特征值；S6、通过神经网络训练目标***模型，优化目标参数；S7、从累积的训练经验池中随机抽出动作保持随机性训练。本发明利用强化学习的方法解决传统凸优化的方法无法解决的高维度问题还有传统凸优化的方法无法解决的高维度的效率问题。

Description

面向复杂无人机网络的三维轨迹设计及资源调度优化方法

技术领域

本发明属于无线通信技术领域，尤其涉及一种面向复杂无人机网络的三维轨迹设计及资源调度优化方法。

背景技术

无人机辅助通信范式有望在下一代无线通信***中发挥关键作用，有望提供具有更广泛和更深覆盖的无处不在的连接。特别是，使用无人机作为空中移动基站为分布式地面终端传输数据被认为是实现绿色通信的一种有前途的技术。与基于地面基站的通信***相比，基于无人机的空中基站***具有显着的特点，例如高概率建立强视距信道以提高覆盖范围、灵活部署和快速响应突发事件或有限持续时间的任务，以及用于提高光谱和能量效率的动态三维放置和移动等。

由于高机动性，无人机可以向潜在的地面用户移动并以低功耗建立可靠的连接。因此，无人机的轨迹设计对于无人机辅助通信***至关重要。迄今为止，有已经有几项相关工作研究了具有各种优化目标的轨迹设计，例如吞吐量、能源效率和飞行时间。在现在有的研究中，作者考虑联合优化地面用户的传输调度、功率分配以及多天线无人机的二维轨迹，以最大化上行链路通信中的最小和速率。此外，为了最小化多用户单输入单输出通信总功耗，其他作者联合优化了无人机的二维轨迹和发射波束成形向量。此外，一些作者设计了无人机的飞行轨迹，以最大限度地减少无人机数据传输的巡航时间，从而达到吞吐量、能量和延迟的要求。

近几十年，在当前5G移动通信中，随着各种新兴产业迅猛发展地面骨干网承受着巨大的数据传输压力。同时受限于地理条件的影响，许多偏远地区仍处于无线覆盖欠缺的状态。这些前所未有的对高质量无线通信服务的需求，对当前传统地面通信网络提出了严峻挑战。为此，在未来6G及以后的无线通信中，无人机作为空中接入节点辅助地面通信成为一种有前途的解决。

未来的无线通信***有望满足人们对高质量无线服务的前所未有的需求，这对传统的地面通信网络提出了挑战，特别是在诸如足球场或摇滚音乐会等交通热点地区。首先，无人机可以作为空中基站来补充和/或支持现有的地面通信基础设施，因为它们可以灵活地重新部署在临时交通热点或自然灾害之后。其次，无人机还被部署为地面终端之间的中继站和空中基站，以提高链路性能。第三，无人机还可以用作空中基站，从地面物联网设备收集数据，在那里建设完整的蜂窝基础设施是负担不起的。第四，联合地面用户，无人机通信网络能够显著提高现有点对点无人机对地通信的可靠性、安全性、覆盖范围和吞吐量。无人机制造行业在无人机辅助无线网络设计方面既面临机遇也面临挑战。在充分实现上述所有好处之前，必须解决几个技术挑战，包括无人机的最佳三维部署、它们的干扰管理能量供应、轨道设计无人机与用户之间的信道模型、资源分配，以及与现有基础设施的兼容性。

在未来6G及以后的无线通信中，无人机作为空中接入节点辅助地面通信成为一种有前途的解决方案。现有的研究成果已经研究了无人机的二维和三维部署和轨迹设计，而没有考虑功率分配。在考虑无人机运动的复杂动态时，传统方法(例如凸优化，匹配理论)设计无人机的三维轨迹变得具有挑战性。幸运的是，强化学习可以使代理通过学习来提高其处理性能。更明确地说，强化学习能够及时与环境交互以获取用户的信息，并学习轨迹设计深度学习神经，为地面用户提供高质量的服务。由于强化学习的基于环境的决策特性，选择该方法作为考虑地面用户的无人机航迹设计方法。据我们所知，现有的研究成果大多没有考虑下无人机的三维弹道设计的资源分配。此外，在已有的研究成果中，大部分采用强化学习方法来求解无约束的马尔可夫决策过程问题。然而，在无线通信实际应用中，要保证高质量的服务和资源分配的约束是必不可少的，因此，强化学习方法被期待。

考虑到这些挑战，已经有几项工作利用深度强化学***通信覆盖。为了最小化任务完成时间和预期通信中断持续时间的加权和，作者专注于在深度强化学习的帮助下优化无人机轨迹。然而，现有的基于深度强化学习的方法通常假设简化的信道模型或单一服务目标场景，这可能导致模型不匹配，并在实际城市场景中不可避免地造成性能损失，然而，上述基于传统优化解决方案的无人机轨迹设计存在一些严重的局限性。首先，制定优化问题需要一个准确且易于处理的无线电传播模型，而这通常很难获得。其次，基于优化的设计还需要完美的信道状态信息，这在实践中很难获得。最后，现代通信***中的大多数优化问题都是高度非凸的，难以有效解决。

发明内容

本发明提供一种面向复杂无人机网络的三维轨迹设计及资源调度优化方法，针对无人机辅助地面通信***在模式下进行研究，将深度强化学***性，以解决上述问题、为了达到上述目的，在本发明提供如下的技术方案：

一种面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其包括如下步骤：

S1、随机生成无人机和地面用户的初始位置；

S2、生成无人机空对地通信模型；

S3、生成无人机通信信道模型；

S4、生成无人机传输能量消耗模型；

S5、将所述无人机空对地通信模型、所述无人机通信信道模型和所述无人机传输能量消耗模型参数传入深度强化学习网络中，学习提取特征值；

S6、通过神经网络训练目标***模型，优化目标参数；

S7、从累积的训练经验池中随机抽出动作保持随机性训练。

进一步地，所述无人机空对地通信模型由无人机和地面用户之间的LOS链路和非视距NLOS链路组成。

进一步地，所述无人机和地面用户之间的LOS链路和非视距NLOS链路的平均路径损耗PL表示为：

PL＝P_LoS×PL_LoS+P_NLOS×PL_NLOS；

其中P_LOS为LOS链路的路径损耗，P_NLOS为NLOS链路的路径损耗，且满足P_NLOS＝1-P_LOS。

进一步地，所述无人机通信信道模型包含3个无人机和M个地面用户的无人机辅助下行链路无线网络。

进一步地，所述地面用户只能连接到一个无人机和占用一个资源块。

进一步地，所述S4为：通过计算所述无人机水平和垂直速度、无人机在每个时隙的推进能量，从而得到总的消耗能耗，生成无人机传输能量消耗模型。

进一步地，所述深度网络神经包括2层原始网络和2层目标网络，每层有64个神经元。

进一步地，所述神经网络分为特征提取模块和后续处理模块。

进一步地，所述S7具体为：通过价值-状态函数计算每个动作最优的动作，从而分析出每个时隙最大的价值的动作，利用强化学习算法和交互信息，重复步骤S5至S7，执行阶段分布式地使用所述深度神经网络进行导航，各个无人机使用所述深度神经网络，根据自身的观察值计算出自身的控制量，从而得出最优的三维无人机轨迹路线和最佳功率带宽分配。

进一步地，所述交互信息包括观察值、奖励值、控制量，深度神经网络和权衡参数。

本发明提的面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其有益技术效果至少在于以下几点：

(1)本发明在保证所有地面用户被服务的同时，调整无人机的实时位置以最大化总下行链路容量的深度学习神经的同时在有限的无人机能量下消耗最少；

(2)本发明优化目标仅局限于无人机或地面接入控制，并从整个通信***博弈层面去进行分析设计；

(3)本发明用强化学***性，实行多代理分布式集中计算。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明实施例基于深度强化学习的三维无人机辅助通信***技术路线流程图。

图2为本发明实施例基于深度强化学习的三维无人机辅助通信***模拟通信环境仿真示意图。

图3为本发明实施例基于循环卷积神经网络和循环神经网络的无人机通信***模型示意图。

具体实施方式

实施例

请参见附图1-3，发明是基于针对无人机辅助地面通信***在模式下进行研究，将深度强化学***性。下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1所示，本发明提供的面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其包括如下步骤：

S1、随机生成无人机和地面用户的初始位置；

S2、生成无人机空对地通信模型；

S3、生成无人机通信信道模型；

S4、生成无人机传输能量消耗模型；

S6、通过神经网络训练目标***模型，优化目标参数；

S7、从累积的训练经验池中随机抽出动作保持随机性训练。

具体地，步骤1、搭建仿真环境，利用pycharm仿真平台，gym和TensorFlow1.6。深度强化学习的基本思想是通过试错的方式，在智能体跟环境交互的过程中迭代优化智能体的控制深度学习神经。因此在使用本发明提出的方法时，需要搭建仿真环境，以供多无人机进行试错。所搭建的仿真环境需要满足以下功能：

如图2所示，考虑了3架无人机作为空中基站，在1000×1000×500米立方体区域内为一组漫游的地面用户提供服务的场景。所有无人机都能够调整其实时3D位置以跟踪移动的地面用户，旨在为地面用户提供高质量的无线服务，同时试图确保所有地面用户都得到服务。随机生成无人机和地面用户的初始位置，保证设计的通信***具有适应性。

具体地，步骤2、通过一下以下公式构建无人机空对地通信模型在本文中，我们考虑中的空对地通信模型。空对地模型同时考虑了无人机和地面用户之间的LOS链路和非视距(NLOS)链路。更明确地说，LOS链路的路径损耗和NLOS链路的路径损耗(以dB为单位)由

其中d_nm是从无人机到地面用户m的欧几里得距离，f_C是载波频率，C是光速。此外，η和η_NLoS分别是LOS链路和NLOS链路的平均附加损耗。此外，出现LOS链路的概率由下式给出

其中a和b是取决于环境(乡村、城市等)的常数，无人机的海拔高度为h_n，l_nm表示从无人机n到地面用户m的水平距离。

因此，P_NLOS＝1-P_LOS的概率。

因此，LOS和NLOS链路上的平均路径损耗可以表示为

PL＝P_LoS×PL_LoS+P_NLOS×PL_NLOS (4)

具体地，步骤3、通过一下公式构建信道模型我们考虑一个具有3个无人机和M(1，2，...，10)个地面用户的无人机辅助下行链路无线网络。无人机和地面用户S都配备了一个天线。所有无人机共享相同的带宽，即分区为K(1，2，...，k，...，K)个资源块(RB)。每个地面用户只能连接到一个无人机并占用一个RB。我们通过调用中演示的相同方法将功率分配给无人机，并将相同的功率分配给所有RB。将

表示为资源块指示符，其中，如果地面用户m占用无人机n的第k个Rb，则

否则，

因此，Rbk上从无人机n到地面用户m的下行链路传输的信干噪比(SINR)为

其中P_nm和PL_nm分别表示从无人机n到地面用户m的发射功率和路径损耗。

σ2＝W*N0，W表示带宽，N0表示噪声功率谱。Imnk表示除无人机n以外的所有无人机对地面用户m的干扰，本文只考虑下行容量，因此不考虑无人机之间的干扰，只考虑无人机和地面用户之间的干扰。在Rbk上无人机n和地面用户m之间的容量可以表示为

因此，下行链路总容量计算如下

覆盖范围：

表示为覆盖指示符号，其中，当通过Rbk从无人机n到地面用户m的传输的SINR超过阈值κ时覆盖为1，不覆盖为0。因此，总覆盖范围表示为

对于每架无人机来说，t时刻会被不同数量地面用户选择接入，而不同的资源分配深度学***性。为衡量地面用户之间通信速率的差异，本文引入Jain公平指数作为对无人机m的评价指标引入Jain公平指数作为对无人机n的评价指标。

其中，

是第n架无人机在t时隙服务的地面用户数量，即在t时刻有s_n(t)个地面用户选择无人机n作为自己的接入基站，M为无人机n服务的地面用户m集合,f_n(t)越大，则代表无人机n资源分配的公平性越高，地面用户之间通信速率的差异越小。

具体地，步骤4、生成无人机传输能量消耗模型：鉴于上述假设，无人机在时隙t的水平飞行速度可以表示为

其中v_max是最大水平速度。如果v_max＝0，则UAV将悬停在时隙t。另一方面，无人机在时隙t的垂直飞行速度可以表示为

其中v_max是无人机的最大垂直速度。通过计算水平和垂直速度，旋翼无人机在每个时隙的推进能量可表示为

式中P0和P1分别为悬停状态下的无人机功率和感应功率；P2是恒定的下降/上升功率；Utip是转子叶片的叶尖速度；v0是悬停时的平均转子诱导速度；d0和s分别为机身阻力比和旋翼坚固度；ρ和G分别表示空气密度和转子盘面积。

整理上述约束条件求在每个时隙的最大化公式10-1的无人机的传输速率。

C₄:C_cover(t)＝M (10-5)

其中，P_m,n(t)和b_m,n(t)分别为无人机n给地面用户m分配的发射功率和带宽资源，b_min为最小可分带宽，每架无人机在t时刻的决策动作包含了给服务地面用户的功率、带宽分配方案与自己的飞行角度。

具体地，步骤5、通过S1中随机初始化，无人机的起始位置N1…Nn和随机地面用户M1…Mn分布。无人机以速度0-10m/s移动，其中初始化无人机的高度100米，最小高度为30米，最大飞行高度为200米，其中无人机的带宽为B为2MHZ，无人机的功率P为5mW,Utip是转子叶片的叶尖速度120(m/s)；v0是悬停时的平均转子诱导速度4.3(m/s)；d0和s分别为机身阻力比0.6和旋翼坚固度0.05；ρ和G分别表示空气密度1.225(kg/m^33)和转子盘面积0.503m^2。最后随机初始化的地面用户以0-0.5m/s移动。

模拟无人机在城市中为地面用户通信的环境变量，初始化a，b分别为9.61和0.16。而直射链路和非直射链路的连接对应的路径损耗为0.01和0.2。其噪声功率谱为-169dBm/Hz，相距每1米的路径损耗为3dB，f_C是载波频率900MHz，C是光速为3×10^8米/秒。

根据以上环境的状态为无人机编队返回其局部观察值：每个无人机的观察值包含对环境的地面用户每个时刻的坐标位置(X1，Y1)，即根据无人机自身的坐标系和地面用户的坐标求得直线距离，带入步骤2，计算求得此时刻LOS和NLOS链路上的平均路径损耗最小值，无人机n到地面用户m的下行链路传输的信干噪比(SINR)的最小值，从而得到最优下行链路总容量。

根据环境的状态以及无人机编队的控制指令更新环境的状态：除了需要根据无人机编队的控制指令去更新无人机的位置以外，还需要检测是否有碰撞的发生，碰撞包括无人机与无人机之间的碰撞，无人机的间距小于安全距离，则可能会发生信道通信干扰，增加噪声，从而减少下行链路传输的信干噪比。

根据环境的状态以及无人机编队的控制指令返回即时奖励值：奖励值的计算。每个代理在采取行动时可以获得自己的即时奖励r_t ⁿ。即时奖励定义为下一个时隙的下行链路容量的平均值和能量消耗最小值。具体奖励设计如下：

地面在多智能体中由于奖励受到智能体联合动作的影响，并且随着智能体数量的增加，训练难度及复杂度指数增长。本文用，其中N为智能体数量，S为状态空间。A和R分别表示所有智能体的动作空间集合与奖励函数集合，π是基于概率的状态转移函数，γ为折扣因子代表未来奖励与当前奖励的权衡。每个智能体拥有自己的随机深度学习神经函数以最大化长期折扣回报。

代理：所有的无人机都扮演代理的角色，每个无人机都是一个独立的代理。此外，在水平方向和垂直方向上，无人机的速度分别是恒定的。

状态：我们认为状态为S＝(Gt，ID无人机)∈S，其中Gt表示所有代理在时隙t的位置信息，ID无人机表示用于区分哪个无人机当前正在执行动作的无人机的ID。特别地，我们使用一个热码来识别ID无人机，例如001、010和100分别表示第一个、第二个和第三个无人机。此外，任意主体N(n∈(1，2，3，…，N))的三维位置表示为

其中

为水平位置，

为高度。

动作：所有代理具有相同的动作空间An，n＝1,2,3，…，n，表示为{前，后，右，左，上升，下降，悬停}，其中前，后，右，左，上升和下降表示代理分别向前，向后，右，左，上升和下降方向移动。悬停表示代理悬停在当前位置。而且，在时间点t，无人机的行动和所有代理人都有独立的行动。无人机飞行方向超过7个方向，增加飞行方向会增加算法的状态-动作空间，但神经网络可以处理增加的动作空间，并且算法不会失去通用性。

奖励：每个代理在采取行动时可以获得自己的即时奖励r_t ⁿ。即时奖励定义为下一个时隙的下行链路容量的平均值。例如，在时隙t，代理N执行动作a和移动到新位置。然后，代理n获得即时奖励

其中C_t+1是时隙t+1的下行链路容量，N是代理的数量。

成本：与传统的马尔科夫问题不同，我们需要考虑马尔科夫问题中代理人的成本(惩罚)。代理n的即时成本定义为

其中

是代理n在时隙t切断的地面用户个数.在马尔科夫问题中，每个代理的目标是最大化报酬和成本的累积差值.在这个问题中，每个代理的目标是最大化报酬和成本之间的累积差值

如果

意味着被代理n切断的地面用户个数低于平均值Mn，则给出负反馈。否则，给出正反馈。

设计奖励函数以引导无人机编队的学习：无人机编队的试错学习需要根据环境返回的奖励值来衡量决策的好坏，而奖励值的计算依赖于奖励函数，因此奖励函数是基于深度强化学习的方法的重要组成部分。

本发明中的奖励函数由多个子奖励函数加权求和而成，即：

r＝r_c+r_snr+r_col+r_b

每个时隙所有地面用户的最小信道容量用于反映通信网络的性能。为了保证每个地面用户的通信质量，当分配给每个地面用户的信道r_c的SNR低于阈值时给出惩罚为r_snr为-10，惩罚定义为两个无人机之间的距离小于安全距离时，碰撞的风险很高。负奖励用于阻止无人机靠得太近r_col为-100，所有无人机必须在指定区域内飞行。因此，无人机在违反边界规则时将受到处罚r_b为-100。

在每个时隙分别把初始化的参数带入计算出无人机下一个动作的前，后，右，左，上升，下降，悬停时刻的能量消耗最小值和总共的奖励R的结果的最大值。

步骤6、为了满足分布式执行的要求，编队级别的深度学习神经网络由多个无人机级别的深度学习神经网络构成。各个无人机利用无人机级别的深度学习神经网络，根据无人机级别的局部观察值计算出无人机级别的控制量。接下来通过将无人机级别的控制量拼接在一起，得到编队级别的控制量。

由于本发明针对的是同一种无人机，每个无人机都采用相同的控制深度学习神经，因此每个无人机的深度学习神经网络是共享参数的。

如图3所示，无人机的深度学***均，得到顺序无关模块的总输出。后续处理模块使用全连接层对特征提取模块得到的总特征进行进一步操作，最后得到无人机级别的控制量。

利用DDPG算法优化深度强化学习模型。

深度强化学习中的动作空间包括无人机的动作和发射功率两个变量，考虑发射功率在一定范围内连续变化，为了解决这种高维动作空间，尤其是连续动作空间中的联合优化问题，将Q学习与神经网络结合，引入了一种基于行动家-评论家(Actor-Critic，AC)框架的双价值网络的DDPG算法。

在DDPG算法中，既有Actor策略网络，又有Critic评价网络，可以通过训练来优化这两个网络的参数。DDPG算法采用强化学习的Actor-Critic架构，由2层64个神经网络组成：2个结构相同的Actor策略网络，分别为在线Actor策略网络和目标Actor策略网络；2个结构相同的Critic评价网络，分别为在线Critic评价网络和目标Critic评价网络。其中，目标Actor策略网络和目标Critic评价网络主要用于产生训练数据集，而在线Actor策略网络和在线Critic评价网络主要用于训练优化网络参数。在AC框架中，Actor负责通过策略梯度学习策略，而Critic负责通过策略评估估计值函数。一方面Actor学习策略，而策略改进依赖Critic估计的值函数；另一方面Critic估计值函数，而值函数又是策略的函数。策略和值函数互相耦合互相依赖，因此需要在训练过程中迭代优化。Actor

网络的输入是St，输出是某一动作At。状态价值函数为

其中，γ是折扣率，它控制强化学习未来的学习程度。RL模型的目标是学习最优策略，最大化长期累积收益。换句话说，RL代理的目标是找到最佳状态动作值

其中Γ表示学习速率。此外，通过最小化损耗来更新Q网络中的参数

训练回合数N初始化为1；

N回合中的时间步t初始化为1；

在线Actor策略网络根据输入状态St，输出动作At，并获取即时的奖励Rt，同

时转到下一状态St+1，从而获得训练数据(St,At,Rt,St+1)；

将训练数据(St,At,Rt,St+1)存入经验回放池中；

从经验回放池中随机采样T个训练数据(St,At,Rt,St+1)构成数据集，发送给

在线Actor策略网络、在线Critic评价网络、目标Actor策略网络和目标Critic评价网络；根据采样得到的数据集，目标Actor策略网络根据状态Si+1输出动作Ai+1，目标Critic评价网络根据状态Si+1和目标Actor策略网络输出的动作A′i+1，输出评估函数Q′(Si+1,A′i+1|θ′)给损耗梯度函数J(θ)在线Critic评价网络根据状态Si、动作Ai和即时奖励Ri，输出评估函数Q(Si,Ai|θ)给根据损耗函数梯度更新参数θ′；在线Actor策略网络将动作Ai输出给抽样策略梯度并根据

更新参数θ,1≤i≤T；根据在线网络参数θ′和θ分别更新目标网络参数θ′和θ：

其中θ′和θ分别是评价Q网的参数和目标Q网的参数。采用ADAM算法指导评价Q网络的更新过程。具体地，通过以下公式优化损失函数(17)来更新θ。

在实际应用中，与其他基准算法相比，ADAM算法能够获得更好的性能，具有有效的学习效果和更快的收敛速度。此外，通过以下方式更新目标Q网络的参数

θ＝αθ+(1-α)θ′, (14)

其中α表示更新率，它决定了评估Q网络中新生成的参数对目标Q网络中的参数有多大影响。特别地，目标Q网络的参数定期更新，更新周期为300次。使用目标Q网络的目的是防止高估。

判断是否满足t＜K，K为p回合中的总时间步，若是，t＝t+1，

判断是否满足p＜I，I为训练回合数设定阈值，若是，p＝p+1，，

否则，优化结束，得到优化后的深度强化学习模型。

利用基于行动者-评价家的强化学习方法，在无人机编队与仿真环境交互的过程中更新深度学习神经网络和值网络；无人机生成操作表，把选择动作的方位、是否连接地面用户通信、无人机悬停时间0-120S，拼接生成7*9*120维度的操作表，分别带入通过计算出最优的奖励，在把每个奖励数据，更过2个共享的全连接层处理数据，给每个动作打上不同的动作奖励的标签，从而选出最优的动作。批评神经网络层，通过对实际执行动作效果作为监督，打上正负标签，下次个训练回合。

通过价值-状态函数计算每个动作最优的动作，从而分析出每个时隙最大的价值的动作。利用强化学习算法，根据交互信息：观察值、奖励值、控制量，对深度学习神经网络和值。在执行阶段分布式地使用深度学习神经网络进行导航。在执行的时候，各个无人机使用无人机级别的深度学习神经网络，根据自身的观察值计算出自身的控制量。控制量为，假定给的动作变量通过神经网络筛选出来的最佳无人机飞行的方位值，功率分配值和带宽分配值。

具体地，步骤7、在DDPG架构中调用重放存储器。回放存储器用于存储体验样本(s,a,r,s′)。在每个训练步骤中，从重放存储器中随机选择一小批经验样本来训练和更新评价Q网络的参数。小批量样本的大小决定了深度强化学习算法的样本利用率。因为。不适当的小批量不能充分利用经验样本。因此，为了保证DRL算法的样本利用率和收敛性，必须慎重选择合适的小批量。此外，动作优势函数能够保证动作值在相同状态下的相对顺序不变，从而减少冗余，为了增强DDPG的稳定性。始网络和目标网络采用2层，每层有64个神经元，我们使用ReLu作为激活函数，ADAM作为优化器来训练DNN，输出仿真结果。DDPG算法提高了***的学习效率，增强了学习过程的稳定性。其中，在线网络通过ADAM等算法利用梯度更新参数，目标网络通过软更新更新参数。目标网络参数变化小，用于在训练过程中提供在线网络更新所需的一些信息；在线网络参数实时更新，每过指定步数之后，在线网络的参数会拷贝给目标网络。目标网络的引入使学习过程更加稳定，训练易于收敛，经过一定迭代步数训练之后的***就是最优***。DDPG优化算法中使用了经验池回放的方法。深度神经网络作为监督学习模型，要求样本数据相互独立，但由Q学习算法得到的样本在时间上是高度关联的，如果这些数据序列直接用于训练，会导致神经网络的过拟合，不易收敛。DDPG算法将智能体每个时间节点与环境交互得到的转移样本(st,at,rt,st+1)都存放在经验回放池中，然后从经验回放池中随机抽取T个样本数据(si,ai,ri,si+1)来训练神经网络，这样采样得到的数据可以认为是相互之间无关联的,1≤i≤T。

综上所述，本专利提出了面向复杂无人机网络的三维轨迹设计及资源调度优化方法，在三维多无人机的情况下实现实时无人机位置以最大化总下行链路容量的深度学习神经。在现有的一些工作中，将与这类似的具有非凸性的优化问题简化为了多个凸的子问题进行求解，并且通过迭代收敛到次优解。能够在较短时间内收敛，但却是以损失精度为代价。同时，在一些基于启发式算法求解的研究中，利用多次迭代在解空间中搜寻近似最优解，但这些方法在动态环境中的效率却大为降低。传统凸优化的方法无法解决的高维度，时变的情况下，我们考虑用强化学习的方法解决此问题，并且达到一定的效果。

本发明上述实施例重点是利用强化学习的方法，解决了传统凸优化的方法无法解决的高维度问题，还有传统凸优化的方法无法解决的高维度的效率等问题。

尽管已经示出和描述了本发明的实施例，本领域技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形，本发明的范围由权利要求及其等同物限定。

Claims

1.一种面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其特征在于，所述方法具体为：

S1、随机生成无人机和地面用户的初始位置；

S2、生成无人机空对地通信模型；

S3、生成无人机通信信道模型；

S4、生成无人机传输能量消耗模型；

S6、通过神经网络训练目标***模型，优化目标参数；

S7、从累积的训练经验池中随机抽出动作保持随机性训练。

2.根据权利要求1所述面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其特征在于，所述无人机空对地通信模型由无人机和地面用户之间的LOS链路和非视距NLOS链路组成。

3.根据权利要求2所述面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其特征在于，所述无人机和地面用户之间的LOS链路和非视距NLOS链路的平均路径损耗PL表示为：

PL＝P_LoS×PL_LoS+P_NLOS×PL_NLoS；

4.根据权利要求1所述面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其特征在于，所述无人机通信信道模型包含3个无人机和M个地面用户的无人机辅助下行链路无线网络。

5.根据权利要求4所述面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其特征在于，所述地面用户只能连接到一个无人机和占用一个资源块。

6.根据权利要求1所述面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其特征在于，所述步骤S4为：通过计算所述无人机水平和垂直速度、无人机在每个时隙的推进能量，从而得到总的消耗能耗，生成无人机传输能量消耗模型。

7.根据权利要求1所述面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其特征在于，所述深度网络神经包括2层原始网络和2层目标网络，每层有64个神经元。

8.根据权利要求1所述面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其特征在于，所述神经网络分为特征提取模块和后续处理模块。

9.根据权利要求1所述面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其特征在于，所述步骤S7具体为：通过价值-状态函数计算每个动作最优的动作，从而分析出每个时隙最大的价值的动作，利用强化学习算法和交互信息，重复步骤S5至S7，执行阶段分布式地使用所述深度神经网络进行导航，各个无人机使用所述深度神经网络，根据自身的观察值计算出自身的控制量，从而得出最优的三维无人机轨迹路线和最佳功率带宽分配。

10.根据权利要求9所述面向复杂无人机网络的三维轨迹设计及资源调度优化方法，其特征在于，所述交互信息包括观察值、奖励值、控制量，深度神经网络和权衡参数。