CN116321181A

CN116321181A - 一种多无人机辅助边缘计算的在线轨迹及资源优化方法

Info

Publication number: CN116321181A
Application number: CN202310068530.9A
Authority: CN
Inventors: 胡晗; 沈乐; 朱晨鸣; 王强; 魏贤虎; 彭凤强; 周旭
Original assignee: China Information Consulting and Designing Institute Co Ltd
Current assignee: China Information Consulting and Designing Institute Co Ltd
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-06-23

Abstract

本发明提出了一种多无人机辅助边缘计算的在线轨迹及资源优化方法，根据用户关联约束条件，无人机飞行约束条件，子信道分配约束条件以及任务完成总时延约束条件，在动态环境马尔可夫模型下，使用所提出的HDRT算法处理优化变量，其中DDPG单元处理无人机轨迹，DQN单元处理用户决策和子信道分配，以获得最小的长期平均用户加权能耗；本发明提高了用户的上传链路速率，进而降低了用户的能耗和时延，解决了众多参数难以同时在线优化的问题，容易扩展到各种***场景，用户可以灵活地进行卸载决策，同时无人机进行轨迹优化，为用户更好地提供服务。

Description

一种多无人机辅助边缘计算的在线轨迹及资源优化方法

技术领域

本发明涉及一种在线轨迹及资源优化方法，特别是一种多无人机辅助边缘计算的在线轨迹及资源优化方法。

背景技术

移动边缘计算技术弥补了移动设备有限的资源与移动应用程序***式增长的计算需求之间的差距。移动设备能够将其计算任务卸载到与基站关联的MEC服务器上，从而降低延迟和功耗，延长移动设备的电池寿命，这解决了移动设备在延时约束下的资源受限问题，从而获得更好的用户体验。然而，在通信设施稀疏分布或发生突发自然灾害的情况下，固定基础设施提供的MEC服务不能有效地工作，这看出MEC***的灵活性较差。

最近，无人机通信由于其在高度可控机动性方面的优势和飞行灵活性，在军事和民用应用中得到了广泛的研究。此外，无人机可以很好地配备MEC服务器。因此，无人机辅助MEC***已被提出以弥补固定基站MEC***的缺陷。在具有计算密集型任务的场景中，该***为用户提供边缘计算服务以提高能源效率。在实际场景中，通过优化无人机的轨迹，可以提升相应卸载用户的上行链路数据速率，进而减少用户的能耗和延迟。论文“JointOffloading and Trajectory Design for UAV-Enabled Mobile Edge ComputingSystems”(IEEE Internet of Things Journal，vol.6，no.2，pp.1879-1892，April2019)联合优化无人机的飞行轨迹，计算卸载和用户调度，开发了一种基于惩罚的双重分解优化框架的算法，实验减少了无人机辅助MEC***中用户的处理时延。但该论文只在场景中考虑了一架无人机，而没有考虑多无人机的场景。而论文“Optimization of Task Schedulingand Dynamic Service Strategy for Multi-UAV-Enabled Mobile-Edge ComputingSystem”(IEEE Transactions on Cognitive Communications and Networking，vol.7，no.3，pp.970-984，Sept.2021)基于传统优化方法，考虑了多无人机辅助的MEC***中的任务调度和动态服务策略的两层优化，以最大限度地减少用户的总能耗。

对于无人机辅助的MEC***下的问题，多无人机相较单无人机，状态和动作空间更大，采用传统优化方法处理，在状态和动作空间维度较大的情况下，导致求解比较难，也不容易收敛，并且基于凸优化的方法不能动态地卸载。因此，受到人工智能技术应用的启发，论文“Deep Reinforcement Learning based dynamic trajectory control for UAV-assisted Mobile Edge Computing”(IEEE Transactions on Mobile Computing，vol.21，no.10，pp.3536-3550，1 Oct.2022)利用DDPG算法和匹配算法分别处理无人机的轨迹、用户决策和无人机计算资源分配问题，但是该论文并没有将离散变量和连续变量同时用深度强化学习处理，同时没有考虑信道的分配。

现有研究大多基于传统优化的方法，使用了复杂的数学公式和数值优化技术，难以真正解决多变量实时联合优化问题。而在动态环境下，单一的强化学习算法又很难解决混合决策的多无人机辅助MEC场景中的问题，因此，亟需开发一种可以处理多无人机辅助的MEC***中的动态轨迹优化和计算卸载问题的方案。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种多无人机辅助边缘计算的在线轨迹及资源优化方法。

为了解决上述技术问题，本发明公开了一种多无人机辅助边缘计算的在线轨迹及资源优化方法，包括如下步骤：

步骤1，构建多用户多无人机的移动边缘计算模型；

所述模型中包含N个用户和M个无人机，每个无人机都配备基站；用户的计算任务在用户本地或卸载到无人机上进行处理；

步骤2，根据无人机的运动轨迹，获取无人机的位置，并且计算任意两架无人机的位置，避免碰撞；

步骤3，根据不同的卸载方案，分别构建卸载计算模型和本地计算模型；

步骤4，构建优化问题，优化目标是最小化长期平均用户加权能耗；得到用户的加权能耗；

步骤5，在所述多用户多无人机的移动边缘计算模型中，根据无人机的位置，用户的计算任务，用户的卸载决策和子信道分配以及获取的用户加权能耗，建立马尔可夫过程；

步骤6，根据步骤5中建立的马尔可夫过程，利用混合决策深度强化学习算法优化所述多用户多无人机的移动边缘计算模型，利用DDPG和DQN分别处理优化问题中的连续变量和离散变量，得到无人机的飞行动作以及用户的卸载决策和子信道的分配；

步骤7，判断混合决策深度强化学习算法是否收敛，若是，则执行步骤8，否则，增加训练迭代次数并继续训练所述多用户多无人机的移动边缘计算模型；

步骤8，测试混合决策深度强化学习算法收敛后的性能，完成多无人机辅助边缘计算的在线轨迹及资源优化。

有益效果：

第一，固定基站的MEC的***性能难以获得保证，本发明将无人机引入MEC***，提高了MEC***的灵活性，提高了用户的上传链路速率，进而降低了用户的能耗和时延。

第二，本发明首次在无人机辅助的MEC***中引入混合深度强化学习算法(HDRT算法)的框架，相比于传统的优化方法，解决了众多参数难以同时在线优化的问题，提出的HDRT算法不需要使用复杂的数学公式和数值优化技术，很容易扩展到各种***场景。

第三，本发明在无人机辅助的MEC***中考虑所有用户的加权能耗和，考虑联合优化用户决策，子信道分配，无人机轨迹优化和资源分配，用户可以灵活地进行卸载决策，同时无人机进行轨迹优化，为用户更好地提供服务。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的流程示意图。

图2是本发明的***模型示意图。

图3是本发明的算法结构示意图。

图4是本发明的HDRT算法中DDPG单元和DQN单元的收敛示意图。

图5是本发明算法收敛后的无人机轨迹示意图。

图6是本发明和现有其他技术在不同任务量下的用户加权能耗对比示意图。

图7是本发明和现有其他技术在不同无人机计算资源下的用户加权能耗对比示意图。

图8是本发明和现有其他技术在不同子信道个数下的用户加权能耗对比示意图。

具体实施方式

本发明提出了一种多无人机辅助边缘计算的在线轨迹及资源优化方法，如图1所示，包括如下步骤：

步骤1，构建多用户多无人机的移动边缘计算模型。

如图2所示，模型中包含N个用户和M个无人机，由集合n∈N_s＝{1，2，...，N}和m∈M_s＝{1，2，...，M}表示。每个无人机配备移动边缘计算(Mobile Edge Computing，MEC)基站。设置T个时隙，由集合t∈T_s＝{1，2，...，T}表示，设置N个用户和M个无人机的初始位置。N个用户和M个无人机的分布进行如下定义：所有通信节点建立三维笛卡尔坐标系，部署N个地面用户，设置用户n在时隙t产生任务

A_n(t)＝{D_n(t)，F_n(t)}

其中D_n(t)表示当用户选择卸载任务时需要传输到无人机的数据的大小，F_n(t)表示执行此任务所需的CPU周期的总数。a_n，m(t)＝{0，1}，其中，a_n，m(t)＝1，m≠0表示在第t个时隙，第n个用户决定将任务卸载到第m个无人机上，a_n，m(t)＝1，m＝0和a_n，m(t)＝0表示在第t个时隙，第n个用户决定本地执行任务。

步骤2，根据无人机的运动轨迹，获取无人机的位置，并且计算任意两架无人机的位置，以避免碰撞。

固定高度的无人机配备MEC基站可以接收信号，第m个无人机的初始坐标为[X_m(0)，Y_m(0)，Z_m]，在时隙t，第m个UAV的飞行动作由飞行角度θ_m(t)∈[0，θ^max)和飞行距离d_m(t)∈[0，d^max]决定，其中θ^max表示无人机可转动的最大角度，d^max表示无人机可飞行的最大距离，则第m个UAV的坐标表示为

和

在时隙t，第m个UAV和第m′个UAV的距离表达式为

步骤3，根据不同的卸载方案，分别构建卸载计算模型和本地计算模型。

第n个用户的坐标表示为[x_n，y_n]，如果在时隙t，第n个用户选择卸载任务到第m个无人机上，则用户n与对应无人机m的水平距离表示为

在计算卸载过程中，本发明应用正交频分复用(Orthogonal Frequency DivisionMultiplexing，OFDM)方案，将信道分为若干带宽相同的个子信道，子信道分配指示变量用δ_n，k(t)∈{0，1}表示，δ_n，k(t)＝1表示第k个子信道被分配给第n个用户，否则δ_n，k(t)＝0，然后得到第n个用户对应第m个无人机的上行数据速率，可表示为

其中B是子信道带宽，P_Tr表示第n个用户的发射功率，

g₀表示参考距离1m处的信道功率增益，G₀表示天线增益，σ²表示噪声功率。

如果在时隙t，第n个用户选择卸载计算到第m个无人机上，花费的总时间表示为

其中

是在时隙t，第n个用户卸载数据到第m个无人机的上传时间，为

是无人机计算第n个用户的任务所需的计算时间，表示为

其中

指在时隙t，第m个无人机提供给相对应用户的计算资源，表示为

其中f^max是每个时隙无人机可提供给用户的最大计算资源。忽略了无人机将计算结果返回给用户的时间。则第n个用户卸载数据到第m个无人机的卸载计算总的能耗表示为

如果在时隙t，第n个用户选择本地计算，则本地计算花费的时间表示为

其中

表示第n个用户本地执行任务用到的计算资源，本地计算花费的能耗表示为

其中k_n是有效电容系数，

是功耗，v_n是根据芯片体系结构而预先配置的模型参数。

为了便于统计，卸载总时间表示为

步骤4，目标是最小化长期平均用户加权能耗，构建优化问题。

长期平均用户加权能耗最小化表示为：

约束条件为：

其中，C^max表示每架无人机可服务的最大用户数量。θ^max表示无人机可转动的最大角度。d^max表示无人机可飞行的最大距离。R^max表示限定的矩形区域最大边界值。R^min表示任意两架无人机之间的最小距离。K表示每个用户可占用的最大子信道个数。T^max表示每个任务完成的最大时延允许。

步骤5，根据无人机辅助的MEC***中的无人机的位置，用户的计算任务，用户的卸载决策和子信道分配以及获取的用户加权能耗，建立马尔可夫过程。

建立马尔可夫过程为：

状态空间S：环境中的状态分为输入深度确定性策略梯度(Deep DeterministicPolicy Gradient，DDPG)的状态

和输入深度Q网络(Deep Q Network，DQN)的状态/>

输入DDPG的状态包含了无人机位置，输入DQN的状态包含了无人机位置和用户的任务量。

动作空间A：DDPG单元的输出动作

由无人机的运动轨迹构成，DQN的输出动作/>

由用户决策和子信道分配构成。

即时奖励r：考虑到用户的加权上传能耗和无人机的碰撞，DDPG单元奖励定义为

其中

表示用户卸载计算能耗，ρ表示无人机惩罚，即无人机飞出目标区域或者任意两架无人机的间距小于指定最小距离。DQN奖励被定义为所有用户在各时隙的加权能耗和，写作

其中a_n，m(t)表示用户卸载决策，

表示用户卸载计算能耗，E_n(t)表示用户本地计算能耗。

步骤6，如图3所示，利用所提出的混合决策深度强化学习算法(HDRT算法)，利用DDPG(参考：论文“Deep Reinforcement Learning based dynamic trajectory controlfor UAV-assisted Mobile Edge Computing”(IEEE Transactions on MobileComputing，vol.21，no.10，pp.3536-3550，1 Oct.2022))和DQN(参考：论文“Semi-Distributed Resource Management in UAV-Aided MEC Systems：A Multi-AgentFederated Reinforcement Learning Approach”(IEEE Transactions on VehicularTechnology，vol.70，no.12，pp.13162-13173，Dec.2021))分别处理优化问题中的连续变量和离散变量；

步骤6.1，初始化经验池

步骤6.2，初始化DDPG单元中的actor网络即演员网络π(s_t；μ)和目标actor网络即目标演员网络π(s_t；μ^-)和critic网络即评论家网络Q(s_t，a_t；θ)和目标critic网络即目标评论家网络Q(s_t，a_t；θ^-)；

步骤6.3，初始化DQN单元中的估计网络Q(s_t，a_t；χ)和目标网络Q(s_t，a_t；χ^-)；

步骤6.4，初始化迭代次数Episode为1；

步骤6.5，初始化迭代时隙为1；

步骤6.6，初始化DDPG单元和DQN单元的状态

和/>

步骤6.7，预设暂存DQN单元中的状态、动作和奖励的值dqn_s，dqn_a，dqn_r；

步骤6.8，DDPG单元根据

获取动作，其中N′中表示一个服从正态分布的随机噪声，获取/>

并更新/>

步骤6.9，判断时隙数是否大于1，如果是，将

将存入经验池；

步骤6.10，DQN单元根据贪婪策略选取动作

如果概率小于或等于ε，则选择DQN单元的估计网络输出的动作，否则随机选择一个动作；

步骤6.11，DDPG单元与DQN单元分别与环境进行交互获得奖励

步骤6.12，根据输入的状态

Actor在线网络获得连续动作/>

步骤6.13，将

将存入经验池/>

中；

步骤6.14，判断训练过程是否开始，若是则进入(6.15)，若不是则t＝t+1；

步骤6.15，从经验池

中随机采样一批数量/>

的样本构成数据集(s_i，a_i，r_i，s_i+1)，发送给DDPG单元和DQN单元；

步骤6.16，DDPG单元的Actor估计网络根据状态

得到动作/>

将状态

和得到的动作/>

输入Critic估计网络，获得/>

根据

来对Actor估计网络参数μ进行更新，结合奖励/>

利用/>

对Critic估计网络参数进行更新，其中γ₁是折扣因子；

步骤6.17，DQN单元的估计网络根据状态

和动作/>

得到对应的/>

目标DQN网络根据状态/>

得到对应的/>

结合奖励/>

在线DQN网络通过最小化损失函数：

更新网络参数，其中γ₂是折扣因子；

步骤6.18，每间隔W步将DQN估计网络参数的值赋给DQN目标网络参数；

步骤6.19，采用软更新的方式，利用Actor估计网络参数μ更Actor目标网络中参数μ^-，利用Critic估计网络参数θ更新Critic目标网络中参数θ^-；

步骤6.20，判断是否满足轮小于k^max，若是，则Episode+1，返回(6.5)，若不是，则优化结束，得到优化后的多用户多无人机的移动边缘计算模型。

步骤7，判断算法是否收敛，若是，则继续执行后续步骤，否则，增加训练迭代次数并继续训练网络；所述判断算法是否收敛的具体方法包括：算法收敛后的输出结果也不是唯一的，在奖励上升至一定程度后，之后每个回合相较上个回合的变化不大则可认为收敛，可详见附图4(a)和4(b)，即和预期最大可能达到的奖励相差不大即可。

根据训练完成后的混合深度强化学习模型获得优化的解，得到***的加权用户能耗。输入当前的***状态

深度强化学习可以根据模型学习到最优的动作/>

得到最优无人机的轨迹，用户决策和子信道分配。

下面结合仿真实验对本发明的效果做进一步说明。

1、仿真条件：

本发明的仿真实验在Python3.7，Tensorflow1.14的仿真平台上进行的。计算机CPU型号为因特尔酷睿i5，显卡型号为英伟达GeForce GTX960M。本发明中用户个数N设置为3，无人机个数M设置为2，无人机高度为Z_m＝75m，可服务于目标区域边长为R^max＝400m。每回合的时隙长度为T＝60，最大时延允许为T^max＝1s。子信道个数为K＝3，子信道带宽为B＝2Mhz。用户n在时隙t中生成的每个计算任务的大小D_n(t)均匀分布在10KB与12.5KB之间，所需的CPU周期F_n(t)均匀分布在2×10⁹cycles与2.5×10⁹cycles之间。每架无人机每个时隙可服务的最大用户数量为C^max＝2。每个无人机每时隙可飞行的最大近距离d^max＝30m，可转动的最大角度θ^max＝2π。两架无人机应该保持的最小距离R^min＝1m。对于卸载计算，发射功率P_Tr＝0.1W，天线增益G₀＝2.2846，噪声功率σ²＝-90dBm，无人机计算资源为f^max＝50GHz，参考距离1m处的信道功率增益g₀＝1.42×10^-4。对于本地计算，用户的计算资源为

有效电容系数k_n＝10^-28，芯片体系结构而预先配置的模型参数v_n＝3。

本发明提出的混合深度强化学习算法(HDRT算法)中，DDPG单元的actor和critic的估计网络和目标网络都包含了两个全连接的隐藏层，分别有256和128个神经元。actor网络和critic网络的学习率分别为0.0001和0.001。AdamOptimizer优化器用于更新actor和critic的估计网络。惩罚值为ρ＝0.01，随机噪声为N′(0，2)，噪声的衰减率为0.99995。折扣因子γ₁＝0.99，软更新的参数为τ＝0.001。DQN单元的估计网络和目标网络都包含了两个全连接的隐藏层，分别有100和20个神经元。AdamOptimizer优化器用于更新DQN的估计网络，学习率为0.001。折扣因子γ₂＝0.9，在开始训练后每个时隙增加0.0001，直至增加到0.99。DQN目标网络更新间隔W＝100。

最大回合数k^max＝3000，经验池大小为

经验池抽取的尺寸为S＝64。

2、仿真内容：

参照附图4(a)、4(b)，显示了在本发明算法下，不同智能体在每回合内的平均奖励。横坐标表示回合数，纵坐标表示环境返回的平均奖励。整个训练设置为3000个回合，每回合包含60个时隙。在每一回合中，每个智能体不断地进行决策和与环境的交互，并根据环境反馈更新网络模型。可以看出，DDPG单元和DQN单元的奖励随着训练次数的增加而不断增加，并最终趋于收敛。可以看出，DDPG单元在300个回合后奖励急剧增加，并在1000个回合后逐渐趋于稳定。此外，DQN单元在学习过程开始后开始收敛，在300个回合后逐渐趋于稳定。原因是，在训练开始之前，DQN单元的输出动作不稳定。当无人机向用户密集区域飞行时，DQN单元在一个相对稳定的状态下做出决策。同时，收到无人机相对固定的轨迹影响，DQN单元获得的奖励也趋于稳定。然后，通过DQN单元的稳定输出，基本确定了无人机的运动轨迹。在那之后，DDPG单元也获得了一个稳定的奖励。

参照附图5，可以观察到本发明下的无人机轨迹图。横纵坐标分别表示二维坐标系中的x轴和y轴。用户在固定的位置，在几个时隙内，无人机从初始坐标飞到用户密集型的地方提供服务，这是由于本发明提出的HDRT算法可以指导无人机做出正确的决策。具体来说，为了降低用户的传输能耗，获得更高的奖励，DDPG单元可以做出适当的决策，在算法收敛后，动态地优化无人机轨迹，短时间内即可指挥无人机到其适当的区域。

附图6采用了本发明和现有技术在不同平均任务大小的用户加权能耗性能对比图。以正三角形和圆形标示的折线分别表示采用本发明方法控制的一架和两架无人机在不同平均任务大小的用户加权能耗，以矩形和倒三角形标示的折线分别表示采用随机方法控制的一架和两架无人机在不同平均任务大小的用户加权能耗，以五角星和菱形标示的折线分别表示采用DQN方法控制的一架和两架无人机在不同平均任务大小的用户加权能耗。通过比较几种方法得到的用户加权能耗，可以看出，在不同平均任务大小的情况下，无论是在一架无人机还是多架无人机的场景下，本发明方法的用户加权能耗明显低于其他几种方法，并且随着平均用户任务量的增加，本发明方法的性能优势与其他几种方法相比更明显。

附图7采用了本发明和现有技术在不同无人机计算资源下的用户加权能耗性能对比图。以正三角形和圆形标示的折线分别表示采用本发明方法控制的一架和两架无人机在不同无人机计算资源下的用户加权能耗，以矩形和倒三角形标示的折线分别表示采用随机方法控制的一架和两架无人机在不同无人机计算资源下的用户加权能耗，以五角星和菱形标示的折线分别表示采用DQN方法控制的一架和两架无人机在不同无人机计算资源下的用户加权能耗。通过比较几种方法得到的用户加权能耗，可以看出，在无人机计算资源较低时，本发明方法在降低用户加权能耗方面有更好的表现。本发明方法控制的一架无人机的方案性能更优于随机方法控制的两架无人机方案。当无人机计算资源的增加到一定程度时，本发明方法控制的两架无人机方案的用户加权能耗明显低于其他几种方法，具有更好的性能优势。

附图8采用了本发明和现有技术在不同子信道个数下的用户加权能耗性能对比图。以正三角形和圆形标示的折线分别表示采用本发明方法控制的一架和两架无人机在不同子信道个数下的用户加权能耗，以矩形和倒三角形标示的折线分别表示采用随机方法控制的一架和两架无人机在不同子信道个数下的用户加权能耗，以五角星和菱形标示的折线分别表示采用DQN方法控制的一架和两架无人机在不同子信道个数下的用户加权能耗。通过比较几种方法得到的用户加权能耗，可以看出，当子信道个数为2时，***不足以服务所有用户，本发明方法控制的两架无人机方案性能略优于其他方法。当子信道个数增加到一定程度，并且可以覆盖到所有用户时，本发明方法控制的两架无人机方案在减小用户加权能耗方面对比其他方法有显著的提高，体现了性能优势。

综合上述仿真结果和分析，本发明所提出的用于最小化长期平均用户加权能耗的最佳轨迹控制和资源优化方法，可以动态进行卸载，并且可以保证***获得最小的用户加权能耗，节省了用户的能量开销，提升了服务质量，这使得本发明在实际中能更好的得到应用。

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种多无人机辅助边缘计算的在线轨迹及资源优化方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机，服务器，单片机，MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种多无人机辅助边缘计算的在线轨迹及资源优化方法。的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种多无人机辅助边缘计算的在线轨迹及资源优化方法，其特征在于，包括如下步骤：

步骤1，构建多用户多无人机的移动边缘计算模型；

所述模型中包含N个用户和M个无人机，每个无人机都配备基站，分别用集合n∈N_s＝{1,2,…,N}和m∈M_s＝{1,2,…,M}表示；用户的计算任务在用户本地或卸载到无人机上进行处理；

步骤4，构建优化问题，优化目标是最小化长期平均用户加权能耗；

2.根据权利要求1所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法，其特征在于，步骤1所述的构建多用户多无人机的移动边缘计算模型，具体包括：

设置T个时隙，集合为t∈T_s＝{1,2,…,T}，设置N个用户和M个无人机的初始位置，每个无人机配备MEC基站；获取用户和无人机的间的相对位置；每个时隙中，用户产生一个计算任务，根据卸载决策确定用户的任务执行方式；所述任务执行方式包括用户本地计算和用户卸载计算，具体如下：

采用用户本地计算时，计算本地计算时延和本地计算能耗；采用用户卸载计算时，根据子信道分配指示器获取每个用户分配到的子信道个数，计算采用用户卸载计算方式的用户的上传速率，并计算卸载计算上传时延和任务执行时延，计算卸载计算能耗。

3.根据权利要求2所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法，其特征在于，步骤3所述的分别构建卸载计算模型和本地计算模型，具体方法如下：

步骤3-1，构建卸载计算模型并进行计算，计算用户n与对应无人机m的水平距离，结合分配给用户n的子信道个数，得到用户n与对应无人机m的上传速率，计算相应的传输时延、卸载计算时延以及卸载计算能耗；

步骤3-2，构建本地计算模型并进行计算，计算本地计算时延以及本地计算能耗。

4.根据权利要求3所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法，其特征在于，步骤3-1所述构建卸载计算模型并进行计算，具体方法包括：

第n个用户的坐标表示为[x_n,y_n]，如果在时隙t，第n个用户选择卸载任务到第m个无人机上，则用户n与对应无人机m的水平距离l_n,m(t)表示为：

其中，X_m(t)表示无人机m二维坐标系中的横坐标，Y_m(t)表示无人机m二维坐标系中的纵坐标；

在计算卸载过程中，将信道分为K个带宽相同的个子信道，用集合k∈K_s＝{1,2,…,K}表示，子信道分配指示变量用δ_n,k(t)∈{0,1}表示，δ_n,k(t)＝1表示第k个子信道被分配给第n个用户，否则δ_n,k(t)＝0，得到第n个用户对应第m个无人机的上行数据速率r_n,m(t)，表示为：

其中，B是子信道带宽，P_Tr表示第n个用户的发射功率，参数

g₀表示参考距离1m处的信道功率增益，G₀表示天线增益，σ²表示噪声功率；

在时隙t，第n个用户选择卸载计算到第m个无人机上，则花费的总时间

表示为：

其中，

是在时隙t，第n个用户卸载数据到第m个无人机的上传时间，为：

其中，D_n(t)表示户n选择卸载计算时需要传输到无人机的数据大小；

是无人机计算第n个用户的任务所需的计算时间，表示为：

其中，F_n(t)表示用户n执行任务所需的CPU周期的总数，

指在时隙t，第m个无人机提供给相对应用户的计算资源，表示为：

其中，f^max是每个时隙无人机提供给用户的最大计算资源，a_n,m(t)表示用户决策，a_n,m(t)＝{0,1}，其中，a_n,m(t)＝1,m≠0表示在第t个时隙，第n个用户决定将任务卸载到第m个无人机上，a_n,m(t)＝1,m＝0和a_n,m(t)＝0表示在第t个时隙，第n个用户决定本地执行任务；忽略无人机将计算结果返回给用户的时间，则第n个用户卸载数据到第m个无人机的卸载计算总的能耗

表示为：

5.根据权利要求4所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法，其特征在于，步骤3-2，构建本地计算模型并进行计算，具体方法包括：

如果在时隙t，第n个用户选择本地计算，则本地计算花费的时间

表示为：

其中，

表示第n个用户本地执行任务用到的计算资源，本地计算花费的能耗/>

表示为：

其中，k_n是有效电容系数，

是功耗，v_n是预先配置的模型参数；

则任务完成时间T_total(t)表示为：

6.根据权利要求5所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法，其特征在于，步骤4所述的构建优化问题，具体方法包括：

通过优化无人机轨迹、用户关联与子信道分配，构建优化问题，目标是最小化长期平均用户加权能耗，即：

约束条件为：

其中，a_n,m(t)表示用户决策，

表示用户卸载计算能耗，E_n(t)表示用户本地计算能耗，C^max表示每架无人机服务的最大用户数量，θ_m(t)表示第m架无人机的转动角度，θ^max表示无人机转动的最大角度，θ_m(t)表示第m架无人机的飞行距离，d^max表示无人机飞行的最大距离，X_m(t)和Y_m(t)表示第m架无人机二维坐标系中的横坐标和纵坐标，R^max表示限定的矩形区域最大边界值，R_m,m，(t)表示第m架无人机和第m’架无人机之间的距离，R^min表示任意两架无人机之间的最小距离，δ_n,k(t)表示子信道分配指示器，K表示每个用户占用的最大子信道个数，T_total(t)表示每个时隙任务完成花费的时间，T^max表示每个时隙任务全部完成的最大时延允许。

7.根据权利要求6所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法，其特征在于，步骤5所述的建立马尔可夫过程，具体方法如下：

状态空间S：环境中的状态分为输入DDPG单元的状态

和输入DQN单元的状态/>

输入DDPG单元的状态/>

包括无人机的位置，输入DQN单元的状态/>

包括无人机的位置和用户的任务量；

动作空间A：DDPG单元的输出动作

由无人机的运动轨迹构成，DQN的输出动作/>

由用户决策和子信道分配构成；

即时奖励r：考虑用户加权能耗和无人机的碰撞，DDPG单元的奖励

定义为：

其中，ρ表示无人机惩罚，即无人机飞出目标区域或者任意两架无人机的间距小于指定最小距离；DQN单元的奖励

定义为所有用户在各时隙的加权能耗和，表示为：

8.根据权利要求7所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法，其特征在于，步骤6所述的利用混合决策深度强化学习算法优化所述多用户多无人机的移动边缘计算模型，即引入DDPG算法和DQN算法，构建混合决策深度强化学习算法，在每个时隙开始时，采用DDPG算法的DDPG单元处理无人机的轨迹优化问题，即处理连续变量，并得到无人机的轨迹，获取新的无人机位置，结合用户的计算任务，作为状态输入采用DQN算法的DQN单元，并输出离散动作，得到用户决策和子信道分配策略；根据得到的用户决策和子信道分配策略计算相应的用户能耗，用户能耗包括本地计算能耗和卸载计算能耗，并根据无人机位置的约束条件判断是否触发惩罚项，即无人机是否飞出目标区域以及任意两架无人机的相对位置是否小于规定阈值，获取更新所述多用户多无人机的移动边缘计算模型的奖励。

9.根据权利要求8所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法，其特征在于，步骤6中所述的利用DDPG和DQN分别处理优化问题中的连续变量和离散变量，具体方法包括：

步骤6-1，初始化经验池D；

步骤6-2，初始化DDPG单元中的actor网络π(s_t；μ)、目标actor网络π(s_t；μ^-)、critic网络Q(s_t,a_t；θ)和目标critic网络Q(s_t,a_t；θ^-)；其中，s_t表示在第t个时隙输入DDPG单元的状态，μ表示actor网络的参数，μ^-表示目标actor网络的参数，a_t表示在第t个时隙DDPG单元输出的动作，θ表示critic网络的参数，θ^-表示目标critic网络的参数；

步骤6-3，初始化DQN单元中的估计网络Q(s_t,a_t；χ)和目标网络Q(s_t,a_t；χ^-)；其中，χ表示DQN单元中估计网络的参数，χ^-表示DQN单元中目标网络的参数；

步骤6-4，初始化迭代次数Episode为1；

步骤6-5，初始化迭代时隙为1；

步骤6-6，初始化DDPG单元和DQN单元的状态