CN116017472B

CN116017472B - 应急网络的无人机轨迹规划和资源分配方法

Info

Publication number: CN116017472B
Application number: CN202211563377.9A
Authority: CN
Inventors: 漆华妹; 周政; 盛羽; 江苏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2024-04-19
Anticipated expiration: 2042-12-07
Also published as: CN116017472A

Abstract

本公开实施例中提供了一种应急网络的无人机轨迹规划和资源分配方法，属于数据处理技术领域，具体包括：初始化actor网络,critic网络；更新每一个无人机智能体网络参数；步骤3，判断是否超过训练次数最大序号；初始化***环境；步骤5，判断是否超过周期最大序号大小；输入环境状态；添加OU噪声；执行所有无人机的动作；获得环境下一状态和无人机的观测状态；计算优先级函数；随机抽取采样大小的数据，并且执行下一步骤，否则跳到步骤14；通过损失函数更新critic网络，通过策略梯度更新actor网络；分别更新目标网络的参数；步骤14，跳到步骤5；步骤15，跳到步骤3。通过本公开的方案，提高了控制和计算效率。

Description

应急网络的无人机轨迹规划和资源分配方法

技术领域

本公开实施例涉及数据处理技术领域，尤其涉及一种应急网络的无人机轨迹规划和资源分配方法。

背景技术

目前，随着物联网的发展，有许多来自个人和组织的超密集异构设备通过传感器和应用程序定期生成和存储大量数据。物联网设备计算资源和电池能量受限，无法满足这些应用的要求。为了分析数十亿个边缘物联网设备生成的数据，计算任务将在云层中传输和执行。因此，计算成本会很高。边缘计算技术(Mobile Edge Computing，简称MEC)在网络边缘提供存储和计算资源，使得移动应用的计算密集型任务能够有效的从移动设备(Mobile Devices，MD)卸载到网络边缘的MEC服务器上，并在处理后得到即时反馈，降低用户能量消耗。但在举办大型活动(比如体育观赛等)的人口密集的热点区域，接入的终端用户呈爆发式增长，当大量用户同时接入网络时，会导致数据传输的高延迟和网络拥塞，降低用户体验或者固定的基础设施因为自然灾害等异常而损坏。因此，仅依靠在临近终端用户处部署固定的边缘服务器来满足即时的任务需求是不够的。

无人机(Unmanned Aerial Vehicle，UAV)使用当前的蜂窝技术向移动设备提供计算、带宽和电源资源等资源。因为其部署成本更低，可以灵活地将连接的传感器替换为部署到不同位置的一个设备，能够携带灵活的有效载荷，并且可以灵活地为任何地方的不同任务重新编程。除此之外，无人机能够避免地理环境影响，与用户建立高视距链路，减少信号阻塞，因此受到了人们的广泛关注。而现有卸载方案存在以下技术问题：1.基于传统启发式的卸载方案在用户的位置发生改变时，算法需要重新迭代计算，由于迭代次数较多，采用传统的启发式方法求解轨迹规划和计算卸载的优化问题非常耗时。2.由于现实世界的问题建模日益复杂，单个智能体的DRL方法很难进行集中控制。其原因在于集中式服务器与其他设备之间的通信延迟。3.现有的基于深度强化学习的方案直接应用于混合整数非线性规划问题会需要将连续变量离散化，而这样会导致高维动作空间问题，使得神经网络拟合效果变差，导致方案的整体效果降低。

可见，亟需一种控制和计算效率强的应急网络的无人机轨迹规划和资源分配方法。

发明内容

有鉴于此，本公开实施例提供一种应急网络的无人机轨迹规划和资源分配方法，至少部分解决现有技术中存在的部分问题。

第一方面，本公开实施例提供了一种应急网络的无人机轨迹规划和资源分配方法，包括：

步骤1，根据参数表初始化actor网络,critic网络学习率α_a,α_c,软更新参数τ,折扣因子γ,经验重放池大小B,更新间隔ψ,采样大小H；

步骤2，分别更新每一个无人机智能体的actor网络参数θ_i ^π,critic网络参数以及目标actor网络参数θ_i ^π′,目标critic网络参数/>

步骤3，判断训练序号h是否超过训练次数最大序号h_max，如果超过则算法结束，否则跳到步骤4；

步骤4，初始化***环境，获得初始状态S₀和初始观测状态

步骤5，判断周期序号l是否超过周期最大序号大小l_max，如果是则跳到步骤15，如果不是则执行下一步；

步骤6，输入无人机所观测到的环境状态到无人机内actor网络，actor网络输出当前无人机i需要执行的动作包括无人机的飞行速度和飞行角度，以及分配给各个用户的通信资源；

步骤7，为actor网络输出的动作添加OU噪声，并输出所有无人机的动作

步骤8，执行所有无人机的动作并为地面设备分配信道资源；

步骤9，获得环境下一状态S_t+1和无人机的观测状态

步骤10，为每一个无人机计算当前观测范围内用户的优先级函数，根据优先级函数计算用户的卸载次序，选择前W个用户取得最佳用户关联，计算无人机执行动作从环境获得奖励添加数据(O_t,A_t,R_t,O_t+1)到缓冲池；

步骤11，如果是一个更新周期则从缓冲池中随机抽取采样大小的数据，并且执行下一步骤，否则跳到步骤14；

步骤12，通过损失函数更新critic网络，通过策略梯度更新actor网络；

步骤13，通过软更新公式分别更新目标网络的参数，其中，所述目标网络包括目标actor网络和目标critic网络；

步骤14，令l＝l+1，跳到步骤5；

步骤15，令l＝0并且h＝h+1，跳到步骤3。

根据本公开实施例的一种具体实现方式，所述步骤6之前，所述方法还包括：

在时隙t，每个无人机根据当前***状态及其观测范围获得观测/>

根据本公开实施例的一种具体实现方式，所述优先级函数的表达式为

其中为平衡因子，/>表示在n时间之前已卸载的总次数，越大，Θ越小，用户的优先级越小，α为相关系数，/>为本地计算数据量，/>为用户i上传数据量，/>为无人机j的飞行能耗，k是用户设备CPU有效开关电容，p_i(n)是用户上传功率，P_c无人机静态能耗。

根据本公开实施例的一种具体实现方式,所述损失函数的表达式为

其中，目标值的计算公式为

动作/>是下一个时隙的目标actor网络的输出。

根据本公开实施例的一种具体实现方式，所述策略梯度的计算公式为

根据本公开实施例的一种具体实现方式，所述软更新公式为

θ_i ^π′←τθ_i ^π+(1-τ)θ_i ^π′。

本公开实施例中的应急网络的轨迹规划和资源分配方案，包括：步骤1，根据参数表初始化actor网络,critic网络学习率α_a,α_c,软更新参数τ,折扣因子γ,经验重放池大小B,更新间隔ψ,采样大小H；步骤2，分别更新每一个无人机智能体的actor网络参数θ_i ^π,critic网络参数以及目标actor网络参数θ_i ^π′,目标critic网络参数/>步骤3，判断训练序号h是否超过训练次数最大序号h_max，如果超过则算法结束，否则跳到步骤4；步骤4，初始化***环境，获得初始状态S₀和初始观测状态/> 步骤5，判断周期序号l是否超过周期最大序号大小l_max，如果是则跳到步骤15，如果不是则执行下一步；步骤6，输入无人机所观测到的环境状态到无人机内actor网络，actor网络输出当前无人机i需要执行的动作/>包括无人机的飞行速度和飞行角度，以及分配给各个用户的通信资源；步骤7，为actor网络输出的动作添加OU噪声，并输出所有无人机的动作/> 步骤8，执行所有无人机的动作/>并为地面设备分配信道资源；步骤9，获得环境下一状态S_t+1和无人机的观测状态/>步骤10，为每一个无人机计算当前观测范围内用户的优先级函数，根据优先级函数计算用户的卸载次序，选择前W个用户取得最佳用户关联，计算无人机执行动作从环境获得奖励添加数据(O_t,A_t,R_t,O_t+1)到缓冲池；步骤11，如果是一个更新周期则从缓冲池中随机抽取采样大小的数据，并且执行下一步骤，否则跳到步骤14；步骤12，通过损失函数/>更新critic网络，通过策略梯度更新actor网络；步骤13，通过软更新公式分别更新目标网络的参数，其中，所述目标网络包括目标actor网络和目标critic网络；步骤14，令l＝l+1，跳到步骤5；步骤15，令l＝0并且h＝h+1，跳到步骤3。

本公开实施例的有益效果为：通过本公开的方案，该能源效率最大化问题分解成两个子问题，使用多智能体强化学习来输出无人机的飞行角度和飞行速度和，并且在移动到下一位置，利用我们提出的自适应优先级函数来选择用户进行卸载，线性时间的卸载决策降低了深度强化学习的动作空间搜索维度，提高了网络的收敛速度。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种应急网络的无人机轨迹规划和资源分配方法的流程示意图；

图2为本公开实施例提供的另一种应急网络的无人机轨迹规划和资源分配方法的流程示意图；

图3为本公开实施例提供的一种应急网络的无人机轨迹规划和资源分配方法的***模型示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种应急网络的无人机轨迹规划和资源分配方法，所述方法可以应用于无人机起点的热点区域(体育馆等)或者是基础设施损毁的区域的应急网络的无人机轨迹规划和资源分配过程中。

参见图1，为本公开实施例提供的一种应急网络的无人机轨迹规划和资源分配方法的流程示意图。如图1和图2所示，所述方法主要包括以下步骤：

具体实施时，可以先根据参数表初始化actor网络,critic网络学习率α_a,α_c,软更新参数τ,折扣因子γ,经验重放池大小B,更新间隔ψ,采样大小H。

具体实施时，可以先分别更新每一个无人机智能体的actor网络参数θ_i ^π,critic网络参数以及目标actor网络参数θ_i ^π′,目标critic网络参数/>

具体实施时，在对网络进行训练时，可以先判断训练序号h是否超过训练次数最大序号h_max，如果超过则算法结束，否则跳到步骤4。

步骤4，初始化***环境，获得初始状态S₀和初始观测状态

具体实施时，可以初始化***环境，获得初始状态S₀和初始观测状态

具体实施时，训练过程中，可以判断周期序号l是否超过周期最大序号大小l_max，如果是则跳到步骤15，如果不是则执行下一步操作流程。

步骤6，输入无人机所观测到的环境状态到无人机内actor网络，actor网络输出当前无人机需要执行的动作包括无人机的飞行速度和飞行角度，以及分配给各个用户的通信资源；

可选的，所述步骤6之前，所述方法还包括：

具体实施时，在时隙t，每个无人机UAV根据当前***状态及其观测范围获得观测/>然后将观测值输入在线actor网络。

具体实施时，作为反馈，actor网络输出当前时隙中要在UAV执行的动作为了探索最优策略并避免局部最优，我们在执行之前将来自奥恩斯坦-乌伦贝克(OrnsteinUhlenbeck，简称OU)过程的噪声添加到操作中。

步骤8，执行所有无人机的动作并为地面设备分配信道资源；

具体实施时，当获得所有无人机的动作后，可以控制执行所有无人机的动作并为地面设备分配信道资源。

步骤9，获得环境下一状态S_t+1和无人机的观测状态

具体实施时，环境根据所有智能体的动作和预定义的状态转换函数生成下一时隙S_t+1的状态Ω，并且获得局部观测O_t+1。

进一步的，对于无人机i，用户j所述优先级函数的表达式为

其中是平衡因子，/>表示在n时间之前已卸载的总次数，越大，Θ越小，用户的优先级越小，α为相关系数，/>为本地计算数据量，/>为用户j上传数据量，/>为无人机I的飞行能耗，k是用户设备CPU有效开关电容，p_j(n)是用户上传功率，P_c无人机静态能耗。

具体实施时，向根据定义的自适应优先级函数计算每个任务的优先级，根据贪心算法选择前W个用户进行卸载。根据卸载决策计算出每个智能体的即时奖励迭代完成后，生成的经验元组(O_t,A_t,R_t,O_t+1)将存储在回放缓冲区中，以便更新参数。需要说明的是，考虑到容量有限，当应答缓冲区已满时，新生成的元组将替换最旧的元组。

具体实施时，需要实时判断是否已经完成了一个更新周期，如果是一个更新周期则从缓冲池中随机抽取采样大小的数据，并且执行下一步骤，否则跳到步骤14。

在上述实施例的基础上，所述损失函数的表达式为

其中，目标值的计算公式为

动作/>是下一个时隙的目标actor网络的输出。

进一步的，所述策略梯度的计算公式为

具体实施时，考虑到能源成本和通信延迟，可以使用critic网络在训练过程中对其他智能体进行建模，从而评估actor网络的性能。因此，critic网络的输入包含一个时隙内所有智能体的观察值和行动值，即而网络参数则是通过使用集中训练模式中所有智能体的交互体验来更新的。具体更新过程如下：我们在每ψ次迭代后更了actor网络和critic网络的参数。具体地说，我们从回放缓冲区随机选择一批样本来更新网络参数。给定采样的经验数据(O_k,A_k,R_k,O_k+1),k＝1,…,G在线critic网络通过最小化损失函数来更新其参数/>

在上式中，目标值的计算公式为

动作/>是下一个时隙的目标actor网络的输出。

进一步的，所述软更新公式为

θ_i ^π′←τθ_i ^π+(1-τ)θ_i ^π′。

具体实施时，actor网络的参数使用本地信息进行简单更新。培训过程完成后，将在执行阶段使用每个本地actor，并以分散的方式行事。对于在线actor网络，我们使用策略梯度更新其参数θ_i ^π，如下所示

最后，可以采用“软更新”方法更新逼近在线网络参数的目标网络，步骤τ<<1.

θ_i ^π′←τθ_i ^π+(1-τ)θ_i ^π′

步骤14，令l＝l+1，跳到步骤5；

具体实施时，在完成一次更新周期后，可以令l＝l+1，跳到步骤5。

步骤15，令l＝0并且h＝h+1，跳到步骤3。

具体实施时，在训练完成后，可以令l＝0并且h＝h+1，跳到步骤3。

本实施例提供的应急网络的无人机轨迹规划和资源分配方法，应用背景明确，适用于任意无人机起点的热点区域(体育馆等)或者是基础设施损毁的区域。

传统的启发式方法在提出问题都会预设一些固定的值(任务大小、信道信息等)，但是实际情况往往会发生变化，算法引入深度强化学习解决了传统启发式方法不适用动态变化的复杂环境。

因为建模的问题是能源效率最大化问题，解决的问题中包括连续变量(无人机轨迹和信道资源)和离散变量，因为MADDPG算法只能应用于连续变量问题，无法优化离散变量，如果使用优化离散变量的MADQN算法同时优化连续变量和离散变量则会增大动作空间，导致收敛变慢。为了降低动作状态空间，我们所提出的改进算法将该问题分解成两个子问题，使用多智能体强化学习来输出无人机的飞行角度和飞行速度和，并且在移动到下一位置，利用我们提出的自适应优先级函数来选择用户进行卸载，线性时间的卸载决策降低了深度强化学习的动作空间搜索维度，提高了网络的收敛速度。

下面将结合一个具体实施例对本方案进行说明，在热点区域的MEC网络中，存在超密集异构设备，这些设备连接到不同小单元中的SBSs上。。但是，SBSs和其他终端使用蜂窝网络为移动设备(MD)提供服务。但是由于本地服务器将被大量的物联网(IoT)设备请求导致任务处理慢或者阻塞。或者由于突发性原因导致MEC服务器故障，小型单元网络覆盖将受到干扰。因此考虑考虑一个由M个用户M＝{1,2,…,M}和N＝{1,2,…,N}架无人机组成的无人机辅助***。无人机配置具有强大计算能力的边缘服务器，从初始位置飞往一个区域大小为L×W为MD提供服务，MD收集的一部分数据可以通过无线链路卸载到无人机上执行。该***在指定任务期间运行。为了便于说明，任务周期被划分为具有时隙长度τ的若干时隙，其索引为时隙长度τ＝T/N应足够小，以使UAV i飞行通过一个小距离，并且在每个时隙内对信道增益进行近似采样。在每个时隙期间，假设UAV使用频分多址(FDMA)协议为其相关地面MD提供服务。

考虑一个三维(3D)笛卡尔坐标系，其中每个用户j∈M分散在地面上，其水平坐标由c_j(n)＝(x_j(n),y_j(n))给出。假设一架飞机以离地面恒定的高度H飞行。UAV在平面上的飞行轨迹可以表示为q_i(n)＝(x_i(n),y_i(n))，据欧几里德公式，可以得到UAV和用户i在间隙t的距离可以表示为公式(1)。

一般来说，对于UAV-MD无线通信链路，视线(LoS)信道比其他信道更具优势。，其可以表示为公式(2)。

其中β₀表示参考距离d₀＝1m处的信道功率增益。其中d₀＝1m是第j个MD与无人机i的距离。此外,我们假设每架无人机都有一个最大方位角θ^max.因此，在每个时隙中，可以得到无人机的最大水平覆盖R^max，如公式(3)所示。

R^max＝H tan(θ^max) (3)

对于每个MD，其任务可以在本地执行，也可以卸载到无人机i上执行。引入一个二元变量s_i,j(n)∈{0,1}来区分不同的状态。s_i,j(n)＝1表示用户j与UAV i在时隙n相关联并由其服务，否则s_i,j(n)＝0。

无人机飞行模型。每个无人机i的数据传感的第一步是根据一定的方向和距离飞到目标位置；这一过程导致飞行延迟和能量消耗，分别用和/>表示。我们将UAV i的功率表示为/>飞行期间的相应能量消耗表示

计算模型

(1).本地计算

为了处理计算任务，每个用户j在不同的时隙具有有限的计算能力，表示为f_j(n)。ρ是处理一位计算任务所需的CPU周期数。因此，在时隙n用户j处执行的计算比特可以如下获得：

用户j用于本地计算的功耗建模为κ是CPU的有效开关电容，其值取决于芯片结构。因此，用户j在时间段τ的能耗可以表示为

(2).无人机辅助边缘计算

当用户选择将其计算任务卸载到无人机MEC服务器时，输入数据需要通过无线上行链路传输到UAV。每个用户的频谱带宽为B₀。根据香农公式，从用户卸载的计算位表示为：

其中，N₀表示噪声功率谱密度，p_j(n)表示时隙n用户j的发射功率，α_i,j(n)表示时隙n用户j与无人机i之间的带宽分配比例。传输卸载计算位用户所消耗的相应能量如下所示：

因此，在无人机辅助MEC网络中，用户总计算比特由本地计算比特和卸载比特组成，其计算如下：

就***的总能耗而言，除了传输和计算中的能耗外，实际***还涉及基带处理或电池备份引起的其他静态能耗。假设静态功率P_c是恒定的，与其他能量消耗无关。然后，用于处理计算任务的无人机***和用户消耗的总能耗可以表示为

计算效率定义为总计算位与总能耗的比率，我们有

在部分计算卸载模式下，联合优化用户关联无人机飞行轨迹以及无人机带宽来使用户的计算效率最大化。因此，无人机辅助MEC***的计算效率最大化问题可以表述为：

其中C1是对上传功率的约束，C2表示用户只能将任务上传到一个无人机上，C3是对无人机的速度约束，C4是对无人机最小处理比特约束，C5，C6分别是对无人机和用户的位置约束，C7是对无人机之间的距离约束。

本节为无人机机动性和用户关联问题提供了完整的解决方案。由于问题的复杂性，首先使用Dinkelbach将分式问题转换为整式问题，再根据变量的类别进一步简化分为轨迹调度和信道资源分配子问题和用户关联子问题，然后使用深度强化学习中的处理离散变量的MADDPG算法来求解无人机的轨迹和无人机的信道分配问题(连续变量问题)，在确定无人机位置的情况下，我们提出了一种自适应优先级函数来为用户决定卸载优先级，解决用户关联问题(01整数问题)。

简化问题

为了求解分式规划问题，应用Dinkelbach方法将原问题转化为基于相同约束条件的参数规划问题C1-C7。假设η^*是最优计算效率，最优解的充要条件如下:

max{R(s(n),q(n),α(n))-η^*E(s(n),q(n),α(n))}＝0 (13)

P可以转化为参数问题P1，如下所示：

其中η为非负参数。定义F(η)＝R(s9n),q9n),α(n))-ηE(s(n),q(n),α(n))，这是η的严格单调递减函数。如果最优的能源效率η^*已经预先给出，有F(η)≥0当η≤η^*,当η>η^*时，F9η)<0

虽然问题P1更容易处理，但由于离散变量和整数变量的耦合，问题P1仍然是非凸的。如果直接使用深度强化学习对轨迹和信道资源以及计算卸载进行联合优化，轨迹规划和资源分配离散化导致的动作空间是巨大的，为了解耦非凸问题，将问题P1分解为两个子问题SP1和SP2，并提出一种迭代方式求解它们。

(1).UAV轨迹调度与信道资源分配：

可以在给定用户关联的情况下，优化UAV的轨迹调度，问题可以表示为SP1：

目标函数关于UAV飞行轨迹q(n)和信道资源分配α(n)是非凸的，问题SP1仍然是非凸的。该问题虽然可以使用连续凸优化(successive convex optimization method，SCA)等方法来取得局部最优解，但是其方法函数化简求解复杂，一旦设定的环境发生改变或者任务模型发生改变，需要重新迭代。因此，考虑使用深度强化学习方法可以适应各种复杂易变的场景，减少计算次数，因此提出一种基于MADDPG的算法来解决该子问题。

(2).用户关联

问题P1中的用户关联是给定信道资源和无人机飞行轨迹的整数规划过程。

在问题SP2，连续变量被完全分离，只剩下二进制变量，这是一个标准的整数线性规划问题。为了尽可能的减低时间复杂度，这里我们提出一种基于公平性的自适应函数在线性时间复杂度来进行求解。

在SP2,问题中，连续变量完全分离，是一个标准的整数线性规划问题。为实现卸载公平，我们引入了平衡因子和自适应优先级函数。对于每个无人机i，传输范围内用户j的优先级函数如公式(17)所示

表示在n时间之前已卸载的总次数。/>越大，Θ越小，用户的优先级越小。α是一个相关系数。

我们将多用户关联和计算、通信资源分配问题表述为部分可观察马尔可夫决策过程(POMDP)，该过程可以定义为元组其中T和Ω分别是状态转移函数和观测函数。T和Ω是在环境中预定义的。γ是未来奖励的折扣因子。在POMDP中，每个智能体都会获得o_t∈O基于当前***状态s_t∈S，然后选择一个操作a_t∈A根据他们的政策π_i(a_t∣o_t)。作为行动的结果，智能体将从环境中获得奖励和下一次观察。智能体的目标是最大化预期收益/>更明确地说，状态、观察、行动和奖励的定义如下。

状态空间

整个***的状态空间定义如下：{S^task,S^uav}，S^task是时变任务信息的集合。每个用户设备j的状态由元组/>表示，其中前两个元素表示任务j的坐标，/>表示该时隙是否有数据量，该变量通过随机生成，/>

观测空间

智能体(即UAV)的观察范围有限，也就是说，UAV只能从其广播范围内设备接收状态消息。因此，agent的观察空间通常是状态空间的子集。其中，我们用O＝{T，S^uav}，其中是最符合要求的W个设备。

动作空间

根据策略和观察到的***状态，每个UAV在每个时隙进行联合操作，包括轨迹规划和资源分配。由于轨迹规划和计算资源分配都会对任务成本产生影响，并且它们都是连续变量的优化，因此将它们结合起来考虑是合理的。具体来说，我们将动作空间定义为A＝{(v_i,θ_i,α_i,j(n))|_j∈N}，其中v_i是飞行速度，θ_i是飞行方向。它们都决定了UAVi在每个时隙结束时的位置。如第三节所定义，最后两个元α_i,j(n)分别表示无人机i分配给用户j的信道资源比例。

奖励函数

其中是t时刻的能源效率，通过自适应优先级函数求得用户关联后通过公式(11)获得，ζ为飞出活动区域或者碰撞获得的惩罚。

为了解决上述问题，本发明实施例提出了一种基于actor-critic框架的改进DRL算法。算法的框架图如图3所示。具体来说，我们将actor网络部署在无人机，因此每个UAV视为一个智能体，并应用多智能体DRL算法来提高无人机的飞行效率和信道资源分配效率。从而提高***性能。由于多个智能体之间的通信可能会导致高延迟和能源成本，因此我们不采用明确的信息交换通道，而是利用critic网络来建模其他智能体，critic网络可以建立在远端指挥中心，以在所有UAVs的并发学***衡状态。提出的多智能体DRL算法基于actor-critic框架，网络结构由两个组件组成：actor网络和critic网络。为了稳定训练过程，为每个actor网络和每个critic网络采用两个附加的神经网络。特别是，每个actor网络中都有一个在线actor网络(Online Actor Network)和一个目标actor网络(TargetActor Network)。同样，每个critic网络中都有一个在线评论家网络和一个目标评论家网络。作为智能体的策略功能，在线actor网络输出特定的动作来控制智能体。，我们为每架UAV训练一个独立的actor网络。基于所有智能体的观察和操作，critic网络输出每个智能体的状态操作值，可用于评估培训阶段的策略性能。下面介绍了详细的交互和网络更新方法。

1)在时隙t，每个UAV i根据当前***状态及其观测范围获得观测/>然后将观测值输入在线actor网络。

2)作为反馈，actor网络输出当前时隙中要在UAV i执行的动作为了探索最优策略并避免局部最优，我们在执行之前将来自Ornstein Uhlenbeck(OU)过程的噪声添加到操作中。

3)然后，环境根据所有智能体的动作和预定义的状态转换函数生成下一时隙S_t+1的状态Ω，并且获得局部观测O_t+1,并向根据定义的自适应优先级函数计算每个任务的优先级，根据贪心算法选择前W个用户进行卸载。根据卸载决策计算出每个智能体的即时奖励

4)步骤1)-3)为一个迭代，迭代完成后，生成的经验元组(O_t,A_t,R_t,O_t+1将存储在回放缓冲区中，以便更新参数。请注意，由于容量有限，当应答缓冲区已满时，新生成的元组将替换最旧的元组。

5)考虑到能源成本和通信延迟，我们不采用明确的信息交换方式。相反，我们使用critic网络在训练过程中对其他智能体进行建模，从而评估actor网络的性能。因此，critic网络的输入包含一个时隙内所有智能体的观察值和行动值，即而网络参数则是通过使用集中训练模式中所有智能体的交互体验来更新的。具体更新过程如下：我们在每ψ次迭代后更了actor网络和critic网络的参数。具体地说，我们从回放缓冲区随机选择一批样本来更新网络参数。给定采样的经验数据(O_k,A_k,R_k,O_k+1),k＝1,…,G在线critic网络通过最小化公式(18)给出的损失函数来更新其参数/>

在公式(18)中，目标值的计算公式为

在公式(19)中，动作是下一个时隙的目标actor网络的输出。

6)actor网络的参数使用本地信息进行简单更新。培训过程完成后，将在执行阶段使用每个本地actor，并以分散的方式行事。对于在线actor网络，我们使用策略梯度更新其参数θ_i ^π，如下所示

最后，我们采用“软更新”方法更新逼近在线网络参数的目标网络，步骤τ<<1.

在本发明实施例中，通信参数设置：

在无人机辅助MEC***中，20个用户随机分布在100m×100m的二维区域内，为了更具有一般性，我们采用用户随机移动模型。在实验场景中，为了适应体育赛事或者由于意外导致的服务器设备不可用等各种场景，假设用户的任务是随机到达的。5架无人机从初始位置飞到用户区域为用户提供服务，用户的计算任务可以卸载给无人机执行，也可以在本地执行。假设无人机在100米的固定高度飞行。通信、计算和飞行的其余参数汇总在表1中。

表1

超参数设置：

假设每个智能体都具有相同的DNN体系结构。更具体地说，Actor网络和Critic网络都有一个输入层、两个隐藏层和一个输出层，其中第一和第二隐藏层分别有128和256个神经元。可以使用Adam优化器以0.001的学习率优化DNN参数，并每ψ＝25个周期更新一次DNN。训练批大小和回放缓冲区大小分别设置为256和10000。未来奖励的折扣因子γ为0.9，目标网络的软更新率τ设置为0.05。

本发明实施例针对应急网络中基础设施损坏或者流量过载的情况，提出了一种无人机辅助边缘计算的方法，来解决基础设施无法为用户提供服务的紧急情况，具体通过提出一种基于多智能体深度强化学习的方法，从无人机的轨迹规划和用户关联以及通信资源分配三个维度联合优化来最大化整个***的计算效率，通过本公开的方案，提高了***的计算效率。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种应急网络的无人机轨迹规划和资源分配方法，其特征在于，包括：

步骤4，初始化***环境，获得初始状态S₀和初始观测状态

步骤8，执行所有无人机的动作并为地面设备分配信道资源；

步骤9，获得环境下一状态S_t+1和无人机的观测状态

所述优先级函数的表达式为

其中为平衡因子，/>表示在n时间之前已卸载的总次数，/>越大，Θ越小，用户的优先级越小，α为相关系数，/>为本地计算数据量，/>为用户i上传数据量，/>为无人机j的飞行能耗，k是用户设备CPU有效开关电容，p_j(n)是用户上传功率，P_c无人机静态能耗；

所述损失函数的表达式为

其中，目标值的计算公式为

动作/>是下一个时隙的目标actor网络的输出；

所述策略梯度的计算公式为

所述软更新公式为

步骤14，令l＝l+1，跳到步骤5；

步骤15，令l＝0并且h＝h+1，跳到步骤3。

2.根据权利要求1所述的方法，其特征在于,所述步骤6之前，所述方法还包括：