CN116893861A

CN116893861A - 基于空地协同边缘计算的多智能体协作依赖任务卸载方法

Info

Publication number: CN116893861A
Application number: CN202310900737.8A
Authority: CN
Inventors: 赵继军; 王雨晨; 杨健; 连彬; 魏忠诚; 王超; 王巍
Original assignee: Hebei University of Engineering
Current assignee: Hebei University of Engineering
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-17

Abstract

本发明公开了基于空地协同边缘计算的多智能体协作依赖任务卸载方法，包括以下步骤：步骤1、构建协同卸载***；步骤2、用户智能体预处理应用服务请求任务；步骤3、将依赖任务卸载决策问题模型结合动作空间分解的方式建模为分布式部分可观测马尔可夫决策过程；步骤4、初始化每个智能体所拥有的神经网络以及经验回放池D；步骤5、智能体与环境交互，并上传分布式感知的局部状态信息及与环境交互信息至经验回放池D；步骤6、更新智能体的TargetActor网络和目标价值网络；步骤7、判断网络是否达到预设的收敛条件，选择是否输出卸载决策。本发明采用上述的基于空地协同边缘计算的多智能体协作依赖任务卸载方法，可提升***性能与实际应用价值。

Description

基于空地协同边缘计算的多智能体协作依赖任务卸载方法

技术领域

本发明涉及边缘计算技术领域，尤其是涉及基于空地协同边缘计算的多智能体协作依赖任务卸载方法。

背景技术

随着科技的飞速发展，物联网应用程序中的计算密集型和时延敏感型移动业务量大幅增长。如何高效处理由这些物联网设备产生的大量应用程序数据，已经成为了当前亟需解决的问题。然而，由于终端用户设备(User Equipment，UE)的计算和存储能力有限，凭借其自身的能力往往无法独立完成需要大量计算资源的应用程序的响应需求。移动边缘计算(Mobile Edge Computing，MEC)作为一种新兴的计算范式，被视为缓解资源密集型应用程序与资源匮乏物联网设备间紧张关系的桥梁，其相比云数据中心更靠近终端用户的物理优势不仅缩短了任务传输时间，降低了安全隐患，而且提供更强的计算能力，间接地减轻了UE的压力。

然而，处于部分地貌复杂或因灾害设备毁坏的环境下，地面MEC却无法有效且全面地为需求设备提供服务。无人机(Unmanned Aerial Vehicle，UAV)因其灵活机动、易于部署、可快速响应等特点，在上述特殊场景中得到了广泛应用。尽管搭载MEC的UAV增强了边缘节点的灵活部署能力并改善了其服务区域受限的问题，但在应用程序中存在多个具有关联属性特征的子任务时，许多研究仅将任务卸载至UAV或单一的边缘节点，并未充分利用全局范围内所检测到的所有资源。因此，应根据所需卸载任务的特性与全局资源信息适当调整卸载机制。对于具有不同依赖关系子任务的应用程序，选择采用空地协同卸载的UAV-MEC***是十分必要的。

当前，UAV-MEC空地节点协同卸载的研究仅关注单个应用程序的卸载工作以及单用户在静态环境下的卸载方法，虽然这种方式极大简化了问题的复杂性，但同时也限制了实际应用的可能性。在资源有限的多用户多服务请求场景中，若用户仅考虑自身区域范围内的利益卸载任务，很可能导致场景中的资源分布失衡，从而引发卸载流程失控。相关研究人员通常采用节点拓扑重构的方法解决上述问题，但依据场景中设备与资源的复杂度势必造成时间及能耗的损失。

为解决多用户卸载任务相互影响的问题，需联合考虑全局资源分配与协同卸载的优化。每个用户作为一个智能体，采用多用户合作博弈的方式，通过协同合作获取全局内无人机的位置资源与MEC资源状况信息以完成任务。该方法可以有效解决多用户卸载任务时可能出现的冲突与竞争，实现全局资源的最优分配和利用，提高***的效率与性能。此外，该方法还可以适应不同任务和场景的需求，具有良好的通用性与灵活性。

鉴于以上考虑，本发明提供基于空地协同边缘计算的多智能体协作依赖任务卸载方法。

发明内容

本发明的目的是提供基于空地协同边缘计算的多智能体协作依赖任务卸载方法，可最小化任务卸载总时延，从而提升***性能与实际应用价值。

为实现上述目的，本发明提供了基于空地协同边缘计算的多智能体协作依赖任务卸载方法，包括以下步骤：

步骤1、构建无人机-移动边缘计算空地节点协同卸载***；

步骤2、用户智能体预处理自身产生的应用服务请求任务；

步骤3、将包含多个主体的依赖任务卸载决策问题模型结合动作空间分解的方式建模为分布式部分可观测马尔可夫决策过程；

步骤4、初始化每个智能体所拥有的神经网络以及经验回放池D；

步骤5、智能体开始与环境交互，并分别上传分布式感知的局部状态信息及与环境交互信息至经验回放池D中；

步骤6、根据损失函数软更新每个智能体的Target Actor网络和目标价值网络；

步骤7、判断网络是否达到预设的收敛条件，选择是否输出卸载决策。

优选的，所述步骤1中无人机-移动边缘计算空地节点协同卸载***共被分为两层：空中层和地面层；空中层由M架无人机组成，地面层包含N个MEC服务器和D个终端设备；用户作为智能体执行卸载决策，可以获取周围环境和资源信息，并根据应用程序中子任务特性及当前资源状况调度任务分配至UAV、MEC服务器或本地处理；为最小化卸载时延，建立如下数学表达式：

其中，F为所有串行子任务的集合，Q为所有并行子任务的集合，Q_i为并行集合中第i个子集，T_i,j为第i个并行集合中的第j个子任务时延，t_i为第i个串行子任务的时延；表示任务卸载的总时延为所有并行集合中用时最长的子任务卸载时延与所有串行子任务卸载总时延之和。

优选的，所述步骤2中首先遍历表示终端设备应用程序中子任务之间依赖关系的有向无环图G＝(V,E)以此掌握任务依赖信息，其中V表示为任务集，E表示依赖约束；其次，通过图G中节点入度出度的数值,划分同一优先级处理集合；最后，将所有子集合归类添加至空白序列task_sequence中，将任务划分为串并行卸载的集合，生成任务调度序列，以便后续的任务调度工作。

优选的，所述步骤3中将包含多个主体的依赖任务卸载决策问题模型结合动作空间分解的方式建模为分布式部分可观测马尔可夫决策过程，并设计适当的奖励函数以实现空地协同无人机边缘计算模型中最小化卸载总时延的目标，所构建的任务卸载模型表示为：

参数含义如下：

(1)状态空间X：由用户所观测到的任务队列、任务依赖关系、计算资源分布和任务执行位置组成；

(2)动作空间A：用户可以选择将子任务i卸载至UAV、MEC服务器或本地执行，其中包含N个智能体的动作空间A¹,...,A^N；

(3)状态转移概率P：根据子任务i执行位置和资源分布所确定，S×A¹×...×A^N→P(S)；

(4)奖励函数R：依据子任务依赖关系、资源利用率和任务卸载时延，设计适当地奖励函数，Rⁱ:S×A¹×...×A^N→R；

(5)观测空间O：每个智能体都经历部分可观测马尔可夫决策过程，获取其本地局部观测oⁱ，并依据自身策略产生相应动作Aⁱ与环境交互；

基于MADDPG算法依据子任务依赖关系、节点的资源利用率和子任务卸载时延三方面，设计适当的奖励函数，该奖励函数旨在保证子任务依赖约束卸载的情况下，平衡卸载时延与计算资源利用率，以达到最小化卸载总时延的目的，对于集合G中的子任务，可以同时考虑将其卸载至UAV、MEC服务器或本地处理，因此，奖励函数R定义如下：

其中，ω₁，ω₂，ω₃为奖励函数定义式中的权重参数，表示第d个应用程序中第j个子任务处理时延的倒数，若任务卸载至节点，则包含发送时延、执行时延和回传时延；若任务本地处理，则仅保留执行时延，/>表示卸载子任务j时节点k的资源利用率；/>表示第j个子任务的依赖延迟，即根据子任务j的依赖关系计算其前驱任务j'完成时间与任务j开始的时间差，表示如下：/>

优选的，所述步骤4中4个神经网络包括用于表示策略的Actor网络和用于表示价值的Critic网络以及其分别对应的目标策略Target Actor网络和目标价值Target Critic网络；Actor网络依据当前状态反馈合适的动作，价值网络负责根据状态-动作判断好坏；两个目标网络为防止训练过程中的过度拟合，起到稳定作用。

优选的，所述步骤5中从经验回收池D中随机选取一批经验进行训练，依据其中的全局观测信息，包括UAV与MEC服务器的位置与资源、子任务拓扑排序信息、每个智能体所响应的动作以及环境反馈奖励，训练自身Critic网络参数，并利用Critic网络计算梯度，更新Actor网络；每个智能体的目标都是最大化自身的期望累计奖励，所以将目标函数定义奖励的期望如下：

其中，μ_i是指第i个智能体的策略，为t时刻第i个智能体参照全局所有智能体所输出的动作获得的奖励值，γ为累计奖励的折扣因子，该式计算了从x₀状态开始，考虑所有智能体策略以及其状态转移函数p，在训练过程中第i个智能体所有奖励总和的期望。

优选的，所述步骤6中通过设置软更新系数决定源网络参数和目标网络参数混合的权重，防止过度拟合，以保证训练的稳定。

优选的，所述步骤7中通过观察网络参数更新幅度、奖励变化幅度、迭代次数等指标来判断网络是否达到预设的收敛条件，选择是否输出卸载决策，如果未达到预期收敛条件，则返回步骤5，继续智能体与环境交互的训练过程。

优选的，所述任务卸载约束包括：

约束1：无人机在规定区域内按照椭圆区域飞行，以便达到最大的服务范围，同时在Δt时隙内UAV的飞行速度、加速度、飞行角度与物理位置在准静态环境中都是可观测的；

约束2：子任务卸载时，需保证其前驱所有依赖任务执行结束并返回结果，一方面，如果任务在UAV或MEC服务器执行时，需确保所有的输出结果已全部随该任务一起发送至边缘节点；另一方面，如果任务在本地执行，需保证其前驱所有输出结果已全部回传至终端设备；设P为任务之间的依赖关系矩阵，其中P(i,j,k)表示任务j的执行是否依赖任务k的执行结果，则对任意任务j和k，当P(i,j,k)＝1时，需满足：

T_{k_finish}≤T_{j_start},1≤i≤I,1≤j,k≤J

其中，T_{k_finish}和T_{j_start}分别表示任务j的开始时间和任务k的完成时间，

约束3：每个子任务仅能在一个节点执行，如UAV、MEC服务器或本地，设为二进制决策变量，分别表示应用程序k中的第j个子任务是否在UAV、MEC服务器或本地设备执行，约束表示如下：

其中，K表示应用程序的数量，J每个应用程序中子任务的数量。

因此，本发明采用上述基于空地协同边缘计算的多智能体协作依赖任务卸载方法，具有以下有益效果：

1.本发明采用马尔科夫博弈过程建模空地节点协同依赖任务卸载，实时获取子任务依赖关系和节点资源利用率的动态变化。这一建模方法在解决多用户任务卸载冲突与竞争的同时，实现子任务的最优时延调度，提升卸载效率与性能。

2.本发明在任务卸载决策中加入任务依赖约束并采用串并行依赖任务的卸载方式，有助于避免因任务依赖而产生的资源浪费和性能下降以及因子任务间依赖关联过多造成卸载时延较长的现象，提高资源利用率与卸载速率。

3.本发明采用基于MADDPG算法的多智能体协同决策策略，在各智能体集中训练过程中有效地掌握全局节点状态信息。该策略避免了节点拓扑重构过程，从而显著提升了***响应速度和效率。

4.本发明在考虑子任务依赖关系、节点的资源利用率和任务卸载时延的基础上，设计相应奖励函数。在满足在子任务依赖关系的前提下，平衡卸载时延与计算资源利用率，以实现整体性能优化。

5.本发明充分考虑实际应用需求，兼顾卸载决策的可行性和可操作性。基于MADDPG算法实现的多智能体协同决策能够根据实际场景进行实时调整，满足***性能和资源利用需求。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明基于空地协同边缘计算的多智能体协作依赖任务卸载方法实施例的流程图；

图2是本发明基于空地协同边缘计算的多智能体协作依赖任务卸载方法实施例空地协同无人机边缘计算卸载框架图；

图3是本发明基于空地协同边缘计算的多智能体协作依赖任务卸载方法实施例应用程序d的DAG图；

图4是本发明基于空地协同边缘计算的多智能体协作依赖任务卸载方法实施例应用程序任务预处理的拓扑排序树状图；

图5是本发明基于空地协同边缘计算的多智能体协作依赖任务卸载方法实施例串并行卸载排序图；

图6是本发明基于空地协同边缘计算的多智能体协作依赖任务卸载方法实施例MADDPG的中心化训练图；

图7是本发明基于空地协同边缘计算的多智能体协作依赖任务卸载方法实施例MADDPG的去中心化决策。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

实施例一

如图所示，本发明提供了基于空地协同边缘计算的多智能体协作依赖任务卸载方法，如图1所示，包括如下步骤：

步骤1、构建无人机-移动边缘计算空地节点协同卸载***；

为实现多智能体决策的空地协同任务卸载功能，如图2所示，本步骤构建一个空地协同UAV辅助MEC***，其中UAV搭载MEC服务器与地面边缘节点协同为用户提供卸载服务。为满足多用户不同的服务需求，实现空地节点协同依赖任务卸载策略，最小化UAV-MEC***中应用程序的卸载总时延的目标，将***建模为如下三个模型：

A UAV-MEC***模型

该模型共被分为两层：空中网络层和地面网络层。空中网络层由M架UAV组成，UAV被视为在固定区域内沿椭圆轨迹飞行的边缘节点，根据信道干扰比中阈值的大小，网络中设备组可以动态加入或离开UAVs的覆盖范围。地面层包含N个MEC服务器和D个终端设备，其中地面层设备通过D2D通信链路进行信息传递，UAV与用户之间通过正交多址技术传递信息，网络中的设备总数可以由K＝M∪N∪D表示。

用户设备上配备智能体进行卸载决策，其可以获取周围环境和资源信息，并根据应用程序中子任务特性及当前资源状况调度任务分配至UAV、MEC服务器或本地处理。将整个卸载时间P＝{1,2,...,p,...P}分为尽可能小的p个时隙，若每个时隙长度趋近于无穷小，则可将UAV动态地飞行轨迹转变成Δp时间内的准静态位置，其飞行轨迹可表示为S_m(p)＝[x_m(p),y_m(p),h_m(p)]。在Δp时隙内，采用笛卡尔三维坐标系描述设备位置，其中(x_m(p),y_m(p),h_m(p))表示UAV的位置，(x_n,y_n,0)表示MEC服务器位置，(x_d,y_d,0)表示地面用户设备位置。由于UAV被设定按照固定的飞行轨迹运动，其速度、加速度和飞行角度在时隙Δq为定值，其下一时刻位置可表示为

S_m(p+1)＝[x_m(p)+V_m(p)cos(θ_m(p)),y_m(p)+V_m(p)sin(θ_m(p)),h_m(p)],θ_m(p)∈[0,2π]

其中，UAV的加速度与速度表示为 θ_m(p)为UAV m的飞行角度，其飞行约束为/>设定e_i,j代表节点间是否连通，当e_i,j＝1时，表示节点间已连通可以传输数据卸载任务；当e_i,j＝0时，则表示i,j节点间的通信链路不可用或j节点的资源已满无法卸载数据。

如图3所示，该模型中使用有向无环图(Directed Acyclic Graph,DAG)G_d表示第d个终端设备的应用程序，G_d＝(V_d,E_i,j)，其中V_d表示图中子任务集，E_i,j表示任务之间的依赖关系，若E_i,j＝1表示子任务j的执行需要子任务i的计算结果；若E_i,j＝0，表示子任务i与子任务j之间不存在先后执行顺序。对任务集V_d中每个子任务v_i＝(a_i,c_i,T_i ^tol)，a_i是子任务i输入数据的大小，c_i为计算该任务每bit数据所需的CPU周期数，T_i ^tol为计算该任务最大可容忍延迟。DAG图中的子任务可根据其卸载时延、全局资源利用率选择是否卸载或本地执行，若子任务被卸载至UAV或MEC服务器，则卸载过程分为三个阶段：发送数据阶段、执行任务阶段与结果回传阶段；若子任务在本地执行，其时延仅需考虑本地执行的时间。与此同时，如图5所示，在空地协同卸载场景中，多个边缘节点可以同时为没有依赖关联的子任务提供服务。

B通信模型

本发明中，地面用户与MEC服务器之间采用设备到设备(device to device,D2D)的通信方式进行信息交互，用户与空中UAV采用正交多址技术通信。在时刻Δp时，用户d与UAV m之间的上行传输速率为：

UAV m与用户d之间的下行传输速率为：

D2D链路中，用户d到MEC服务器n之间的上行传输速率为：

用户d到MEC服务器n之间的下行传输速率为：

其中，与/>分别表示任务上行传输过程与下行传输过程中的信道带宽，P_d,m与P_d,n分别表示用户d到UAVm和用户d到边缘服务器n的传输功率，σ²为传输过程中的信道噪声。

因此，若子任务j被卸载至UAV m，其传输时延为结果回传时延为若子任务j被卸载到MEC服务器n，则其传输时延为/>结果回传时延为若子任务j在本地执行，则不存在传输时延与结果回传时延。

C计算模型

本发明中，子任务卸载为完全卸载，每个应用程序中无依赖关系的子任务可以在UAV与MEC服务器上同时执行，本地处理时延为UAV处理时延为MEC服务器的处理时延为/>因此，若任务被卸载至UAV或MEC服务器，其总卸载时延分别为：

若子任务j在本地执行，则其总处理时延为：

综上所述，为最小化空地协同卸载时延，建立如下目标函数与约束条件：

s.t.C1:

C2:θ_m(p)∈[0,2π]

C3:S_m(0)＝S_m(p)

C4:

C5:T_{k_finish}≤T_{j_start},1≤i≤I,1≤j,K≤J

C6:

C7:

C8:P_d,m+P_d,n≤P^max

C9:

其中，F为所有串行子任务的集合，Q为所有并行子任务的集合，Q_i为并行集合中第i个子集，T_i,j为第i个并行集合中的第j个子任务时延，t_i为第i个串行子任务的时延。表示任务卸载的总时延为所有并行集合中用时最长的子任务卸载时延与所有串行子任务卸载总时延之和。约束C1、C2、C3表示UAV按照固定飞行轨迹运动；约束C4表示每个子任务的卸载总时延小于其最大可容忍时延；约束C5表示子任务j开始卸载的先决条件是其前驱所有具有依赖关系的子任务都以执行完毕；约束C6表示子任务有且尽可能在一个设备上执行，其设备包括：本地用户、地面边缘服务器或UAV；约束C7为本地、边缘服务器和UAV卸载任务的功率约束；约束C8表示用户d的传输功率可以保证应用程序子任务的正常卸载；约束C9表示卸载子任务时边缘服务器的剩余计算资源完全可用。

步骤2、用户智能体预处理自身产生的应用服务请求任务；

首先，遍历表示终端设备应用程序中子任务之间依赖关系的有向无环图(Directed Acyclic Graph,DAG)G＝(V,E)以此掌握任务依赖信息，其中V表示为任务集，E表示依赖约束。其次，通过图G中节点入度出度的数值,划分同一优先级处理集合；最后，将所有子集合归类添加至空白序列task_sequence中，将任务划分为串并行卸载的集合，生成任务调度序列，以便后续的任务调度工作。具体方法如下：

获取根据任务间的依赖约束所创建的有向无环图G；

初始化一个空的任务序列task_sequence，用来存储任务执行顺序；

首先在G中找到所有入度为0的节点，这些节点表示没有依赖关系的任务或已经解决依赖关系的任务，将这些集合加入一个待处理任务集合中；

将candidates中可以并行处理的任务放入同一组，需要串行处理的任务放入不同的组；

按照单个任务的处理时间对candidates其中的分组进行排序，将排序后的任务分组以此添加到task_sequence中；

从DAG图G中移除已经添加到task_sequence的任务节点以及与这些节点相关的边；

如果DAG图中仍有剩余节点，则返回步骤3，继续处理剩余任务。否则，结束拓扑排序过程，得到完整的任务处理序列task_sequence。

如图3所示，DAG图G中共包含6个子节点与7条节点间的依赖关系，按照其依赖约束进行拓扑排序可生成如图4所示的5种分别需要计算6个子节点卸载时间的卸载决策。然而，在空地协同UAV-MEC***中，多个边缘节点可以同时处理不同的子任务，这种子任务预处理方式能够极大减少应用程序的处理时延。如图5所示，没有依赖约束的两个子集合{v₂,v₃}、{v₄,v₅}中的子任务可同时卸载至不同的服务器，计算卸载应用程序d的总时延时，仅需考虑其无依赖约束子集合中所用时延最大的子任务。此时，图3的任务拓扑排序序列如下task_sequence＝{v1,{v2,v3},{v4,v5},v6}。基于此方法，图3中DAG图中所用卸载总时延表示为：

将包含多个主体的依赖任务卸载决策问题模型结合动作空间分解的方式建模为分布式部分可观测马尔可夫决策过程，并设计适当的奖励函数以实现空地协同无人机边缘计算模型中最小化卸载总时延的目标，所构建的任务卸载模型表示为：

参数含义如下：

步骤4、初始化每个智能体所拥有的4个神经网络以及经验回放池D；

4个神经网络包括用于表示策略的Actor网络μ(o_d,θ_d)和用于表示价值的Critic网络q(s,a；w_d)以及其分别对应的目标策略Target Actor网络和目标价值Target Critic网络。在MADDPG算法中，Actor网络是确定性的，依据当前状态反馈合适的动作，对于确定的输入o_d，会得到确定的动作a_d。价值网络负责根据状态-动作判断其动作的好坏程度。两个目标网络的设置是为防止训练过程中的过度拟合，起到算法的稳定作用。

如图6所示，智能体开始与环境交互，分别上传分布式感知的局部状态信息、与环境交互的动作、奖励以及下一局部状态信息(o，a，r，o_)至经验回放池D中。设第d个智能体自身的局部观测记作o_d，o_d中包含了当前所处理的子任务集合、局部环境状态信息包括可用边缘节点的数量、资源、位置以及其中的任务队列和所需的等待时间。

时隙p时，智能体d所执行的动作表示如下a_d,j＝(L_j,Z_j,m,Z_j,n),L_j＝1表示子任务j在本地执行，Z_j,m的数值表示子任务j卸载给UAV的编号，Z_j,n表示子任务j卸载给MEC服务器的编号。同一时隙内，动作a_d,j有且仅可能存在一个不为零的数。根据步骤4设计的奖励函数与环境交互，并计算动作执行后下一状态o_的信息。

随后智能体d从经验回放池中随机选取一批经验进行训练，每条经验都是由四元组(o_p,a_p,r_p,o_p+1)构成，依据其中的全局观测信息包括UAV与MEC服务器的位置与资源、子任务拓扑排序信息、每个智能体所响应的动作以及环境反馈奖励，训练自身Critic网络参数，训练Q值的损失函数定义为：

其中，w_i为第i个智能体Critic网络的参数，a_j＝μ_j(o_j)为智能体a_j在确定输入o_j下所输出的动作，x'为x下一状态所有智能体观测状态，是x'状态下参考所有智能体输出动作的预估价值，/>为x状态下所有智能体输出动作的预估价值。γ为累计奖励的折扣因子，r_i为第i个智能体当下动作所获得的奖励，为该Critic网络的目标值函数。

利用Critic网络计算梯度，更新Actor网络，训练第i号Actor网络μ_i(o_i；θ_i)的目标是改进θ_i，提高第i号Actor网络的平均打分。其中基于梯度上升法更新Actor网络，那么目标函数的梯度为下式：

每个智能体的目标都是最大化自身的期望累计奖励，所以将目标函数定义奖励的期望如下：

其中，μ_i是指第i个智能体的策略，为t时刻第i个智能体参照全局所有智能体所输出的动作获得的奖励值，γ为累计奖励的折扣因子。该式计算了从x₀状态开始，考虑所有智能体策略以及其状态转移函数p，在训练过程中第i个智能体所有奖励总和的期望。

通过设置软更新系数决定源网络参数和目标网络参数混合的权重，防止过度拟合，以保证训练的稳定。对于每个智能体d更新目标网络参数：

θ_n'←——τθ_n+(1-τ)θ_n'

通过观察网络参数更新幅度、奖励变化幅度、迭代次数等指标来判断网络是否达到预设的收敛条件，选择是否输出卸载决策。如果未达到预期收敛条件，则返回步骤5，继续智能体与环境交互的训练过程。最后，如图7所示，更新策略后的智能体分布式地独立执行计算卸载工作。

因此，本发明采用上述基于空地协同边缘计算的多智能体协作依赖任务卸载方法，可最小化任务卸载总时延，从而提升***性能与实际应用价值。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.基于空地协同边缘计算的多智能体协作依赖任务卸载方法，其特征在于：包括以下步骤：

步骤1、构建无人机-移动边缘计算空地节点协同卸载***；

步骤2、用户智能体预处理自身产生的应用服务请求任务；

2.根据权利要求1所述的基于空地协同边缘计算的多智能体协作依赖任务卸载方法，其特征在于：所述步骤1中无人机-移动边缘计算空地节点协同卸载***共被分为两层：空中层和地面层；空中层由M架无人机组成，地面层包含N个MEC服务器和D个终端设备；用户作为智能体执行卸载决策，可以获取周围环境和资源信息，并根据应用程序中子任务特性及当前资源状况调度任务分配至UAV、MEC服务器或本地处理；为最小化卸载时延，建立如下数学表达式：

3.根据权利要求1所述的基于空地协同边缘计算的多智能体协作依赖任务卸载方法，其特征在于：所述步骤2中首先遍历表示终端设备应用程序中子任务之间依赖关系的有向无环图G＝(V,E)以此掌握任务依赖信息，其中V表示为任务集，E表示依赖约束；其次，通过图G中节点入度出度的数值，划分同一优先级处理集合；最后，将所有子集合归类添加至空白序列task_sequence中，将任务划分为串并行卸载的集合，生成任务调度序列，以便后续的任务调度工作。

4.根据权利要求1所述的基于空地协同边缘计算的多智能体协作依赖任务卸载方法，其特征在于：所述步骤3中将包含多个主体的依赖任务卸载决策问题模型结合动作空间分解的方式建模为分布式部分可观测马尔可夫决策过程，并设计适当的奖励函数以实现空地协同无人机边缘计算模型中最小化卸载总时延的目标，所构建的任务卸载模型表示为：

参数含义如下：

其中，ω₁，ω₂，ω₃为奖励函数定义式中的权重参数，表示第d个应用程序中第j个子任务处理时延的倒数，若任务卸载至节点，则包含发送时延、执行时延和回传时延；若任务本地处理，则仅保留执行时延，/>表示卸载子任务j时节点k的资源利用率；表示第j个子任务的依赖延迟，即根据子任务j的依赖关系计算其前驱任务j'完成时间与任务j开始的时间差，表示如下：/>

5.根据权利要求1所述的基于空地协同边缘计算的多智能体协作依赖任务卸载方法，其特征在于：所述步骤4中4个神经网络包括用于表示策略的Actor网络和用于表示价值的Critic网络以及其分别对应的目标策略Target Actor网络和目标价值Target Critic网络；Actor网络依据当前状态反馈合适的动作，价值网络负责根据状态-动作判断好坏；两个目标网络为防止训练过程中的过度拟合，起到稳定作用。

6.根据权利要求1所述的基于空地协同边缘计算的多智能体协作依赖任务卸载方法，其特征在于：所述步骤5中从经验回收池D中随机选取一批经验进行训练，依据其中的全局观测信息，包括UAV与MEC服务器的位置与资源、子任务拓扑排序信息、每个智能体所响应的动作以及环境反馈奖励，训练自身Critic网络参数，并利用Critic网络计算梯度，更新Actor网络；每个智能体的目标都是最大化自身的期望累计奖励，所以将目标函数定义奖励的期望如下：

7.根据权利要求1所述的基于空地协同边缘计算的多智能体协作依赖任务卸载方法，其特征在于：所述步骤6中通过设置软更新系数决定源网络参数和目标网络参数混合的权重，防止过度拟合，以保证训练的稳定。

8.根据权利要求1所述的基于空地协同边缘计算的多智能体协作依赖任务卸载方法，其特征在于：所述步骤7中通过观察网络参数更新幅度、奖励变化幅度、迭代次数等指标来判断网络是否达到预设的收敛条件，选择是否输出卸载决策，如果未达到预期收敛条件，则返回步骤5，继续智能体与环境交互的训练过程。

9.根据权利要求1所述的基于空地协同边缘计算的多智能体协作依赖任务卸载方法，其特征在于：所述任务卸载约束包括：

T_{k_finish}≤T_{j_start},1≤i≤I,1≤j,k≤J