CN117055619A

CN117055619A - 基于多智能体强化学习的无人机调度方法

Info

Publication number: CN117055619A
Application number: CN202311145550.8A
Authority: CN
Inventors: 李晓欢; 夏雪; 陈倩
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-11-14

Abstract

本发明公开了一种基于多智能体强化学习的无人机调度方法，包括设有若干架搭载边缘服务器的无人机、物联网设备和一个基站的***，所述方法包括如下步骤：首先从***中获取环境信息；然后判断是否有物联网设备生成新的任务，若有：根据就近任务卸载原则为无人机分配任务并更新无人机资源信息进入无人机调度决策阶段，若没有：直接进入无人机调度决策阶段；在无人机调度决策阶段，无人机根据获取的环境信息使用MADDPG算法做出下一步运动状态决策；然后在下一个时隙中更新环境信息，重新执行以上步骤。这种方法以在多无人机随资源需求调度时确保整体性能的同时优化个体无人机的自主性与效率，提高***效用和无人机能量效率。

Description

基于多智能体强化学习的无人机调度方法

技术领域

本发明涉及移动边缘计算、多智能体强化学习、无人机调度领域，具体是一种基于多智能体强化学习的无人机调度方法。

背景技术

随着无人机技术和移动边缘计算技术^[1](mobile edge computing，简称MEC)的发展，将无人机与移动边缘计算相结合的研究已逐渐成为新的焦点^[2,3]。无人机具有快速部署、灵活调度等优点，可以在短时间内为移动物联网设备(Mobile User Equipments，简称UEs)提供高效的计算服务，弥补了传统移动边缘计算需要依赖稳定且固定的基础设施例如微基站或者云数据中心不能灵活地移动或者重新配置的不足。然而，也带来了新的挑战，如何优化无人机的部署和调度，在满足服务需求的同时，尽可能提高无人机效能等问题仍需要进一步的研究和探讨。

多无人机***可以通过无人机间的协同，增加计算和传输能力，但无人机之间的协同工作解决调度问题，需要进行更复杂的优化计算，集中式最优化算法是最常用的解决问题的方式之一^[4,5]。然而，任务卸载和轨迹规划优化等问题往往具有高度的非凸性，这使得优化问题的复杂度很高，并且现实场景下全局信息一般又难以实时获取，传统的集中式优化方案并不完全适用。分布式方法可以允许无人机个体根据自身的局部信息做出决策，从而在一定程度上降低了对全局信息的依赖，更好地考虑和保障无人机个体的效益^[6,7]。但是分布式方法往往忽视了无人机之间的协作，可能会降低整体的***性能，并且需要大量的信息交换和计算资源，这在一些资源有限的场景下可能难以实现。并且相关研究缺乏对物联网设备移动性带来的资源需求改变情况的相关研究，导致多无人机协同为大规模移动UEs提供计算卸载时***效用低、能耗高的问题仍没有得到有效解决。

发明内容

本发明的目的是针对以下两方面问题：1.现有的集中式或分布式方法在实际场景中存在缺陷，需要从无人机个体和全局视角进行最优决策；2.缺乏对物联网设备移动性带来的资源需求改变情况的相关研究，而提出一种基于多智能体强化学习的无人机位置调度方法。这种方法以在多无人机随资源需求调度时确保整体性能的同时优化个体无人机的自主性与效率，提高***效用和无人机能量效率。

实现本发明目的是技术方案是：

基于多智能体强化学习的无人机调度方法，包括设有若干架搭载边缘服务器的无人机、物联网设备和一个基站的***，所述方法包括如下步骤：

首先从***中获取环境信息，环境信息包括物联网设备位置信息、任务发布情况、无人机资源及位置信息；然后判断是否有物联网设备生成新的任务，若有：根据就近任务卸载原则为无人机分配任务并更新无人机资源信息进入无人机调度决策阶段，其中就近任务卸载原则为选择与生成任务的无人机距离最近的无人机进行卸载，若没有：直接进入无人机调度决策阶段；在无人机调度决策阶段，无人机根据获取的环境信息使用MADDPG算法做出下一步运动状态决策；然后在下一个时隙中更新环境信息，重新执行基于新的环境信息判断是否有新的任务、为无人机分配任务、进行无人机调度决策，并使用MADDPG算法决定无人机的下一步运动状态的步骤；

以上过程即将无人机作为多智能体强化学习中的智能体，不断地在现实或模拟环境中进行交互，在时隙t，这些无人机获取环境信息，然后根据独立的策略选择各自在强化学习中根据环境信息做出的动作，当这些动作被相应的无人机执行后，环境信息随之转变到时隙t+1的状态，并以奖励形式反馈，无人机通过对环境信息做出动作后得到奖励形式的过程即状态转化的持续观察和学习，共同努力去了解环境的规律并获得策略的最优解；

具体步骤如下：

1)为使用多智能体强化学习解决无人机调度的决策问题，需要将该问题建模为马尔科夫决策过程(Markov Decision Process,简称MDP)，该过程用元组＜Γ,s,a,r,γ>表示，Γ为无人机集，s是所有无人机的状态空间，a为无人机的动作空间，r是无人机的奖励函数，γ为累计折扣奖励的衰减系数；

(1)状态空间

每个时隙t的状态空间s_t由K个物联网节点、J架无人机和环境共同决定，定义为：

s_t＝{l^M(t),l^U(t),R(t),o'(t)} (1)

其中，l^U(t),R(t)分别代表t时隙的J架无人机的位置及其机载资源信息的集合，l^M表示K个物联网节点位置信息集合，o'表示时隙t的所有任务请求信息；

(2)动作空间

时隙t每架无人机的动作空间a(t)均由无人机的飞行角度θ和飞行速度v^U组成，表示为：

a(t)＝(θ(t),v^U(t)) (2)

(3)奖励函数

通过设置奖励促进无人机进行策略的学习，旨在快速应对物联网设备对无人机机载资源需求的变化，降低任务执行能耗，并提高***效用，同时需要满足无人机运动约束条件；

(3.1)无人机j在空中飞行产生的能耗及悬停产生的能耗/>分别为，其中j∈J，j为正整数：

其中，P_f为飞行功率，为飞行距离，P_h为悬停功率，/>为悬停时间；

无人机j接收任务数据产生的通信能耗计算能耗/>分别为：

其中，无人机的接收功率为P^r，P^c表示无人机在执行任务时的CPU功率，为任务与无人机之间的卸载关系，/>为0表示没有卸载到该无人机为1表示卸载到该无人机，任务的数据量为p_z，/>为上行数据速率，/>为无人机cpu计算频率，当所有UEs的计算任务完成后，无人机的总能耗为飞行能耗、悬停能耗、计算能耗和通信能耗之和，表示为：

(3.2)为了快速响应资源需求的变化，构建了一个任务热点地区模型，该模型根据物联网设备和无人机的位置分布进行网格化分隔，以研究任务需求与无人机资源的关系；令网格总数为V，无人机通信半径为r，通过判断无人机与网格之间的位置关系可计算无人机覆盖个数，覆盖其中一个网格w_υ的无人机个数为b_υ，网格w_υ在时隙t的任务及资源信息表述为w_υ＝{a_υ,I_υ,l_υ}，a_υ为单位时间网格的任务请求量，通过判断物联网设备与网格之间的位置关系可知物联网设备所属网格，进一步通过物联网设备单位时间的任务请求量可得到单位时间网格的任务请求量；l_υ为网格的位置，I_υ为单位网格任务资源比，定义为：

其中ω,ρ,χ是调节参数，且均为正数，将I_υ作为无人机调度的影响因素之一，时隙t中网格任务资源比的平衡情况Φ^hot，用标准差来表示为：

(3.3)为了均衡任务卸载增加任务处理量，引入了负载均衡模型，这一模型在提高***的能耗效率和增加任务处理量方面具有明显的增益，它可以防止无人机过载，并均衡任务卸载，从而使能源得到更高效的利用，令无人机j的待处理任务所需CPU周期数α_j作为评估无人机节点的负载均衡情况的参数，将时隙t中无人机j的负载级别定义为L_j(t)＝ωα_j(t)，ω为折扣因子，时隙t中无人机***的负载均衡等级Ψ^slb，用标准差来表示为：

为确保***能高效地应对变化的资源需求、提高***能量效率，构造以无人机总能耗E_j、任务完成数据量和***负载均衡Ψ^slb、任务资源比Φ^hot参数为主要指标的奖励函数，表示为：

其中，η₁、η₂、η₃均为折扣因子，R_pc(t)＝σ₁(t)+σ₂(t)为无人机的运动约束惩罚，σ₁是无人机在任务执行过程中不满足最小安全距离时得到一个相对较小的负反馈即惩罚，σ₂是无人机在任务执行过程中超出运动范围时得到的惩罚；

2)步骤1)构建了基于多用户马尔可夫决策过程的模型，根据该模型输出无人机的运动决策，为求解基于多用户马尔可夫决策过程的模型并得到最优的飞行决策，根据设计的奖励机制，采用MADDPG算法不断训练无人机做出最优动作；

以上不仅建模了无人机的资源负载和***资源需求的变化，还将基于多用户马尔可夫决策过程的模型中的平衡参数和能耗智能地融入奖励机制中，这种整合方法为无人机的决策网络提供了快速更新到最优参数的路径；

马尔可夫决策过程为智能体提供了一个决策框架，使其可以在不同的状态中采取动作，并从环境中获得相应的奖励。当这一决策过程涉及到多个智能体时，智能体们的动作选择会相互影响，使得问题的复杂性显著增加。MADDPG算法能够在集中式训练中考虑所有智能体的策略，但在分布式执行中，每个智能体只依赖自己的策略。因此，MADDPG算法可以有效地求解涉及多智能体的MDP模型。

MADDPG算法求解的详细过程如下：

1.初始化：为每个智能体初始化两个神经网络：一个Actor网络π_i和一个Critic网络同时初始化对应的target网络，target网络初始权重与Actor和Critic网络函数相同。

2.策略执行：在给定的MDP状态s下，每个智能体使用MDP策略集合π＝{π₁,...,π_N}选择，动作策略参数为θ＝{θ1₁,...,θ_N}。

3.环境交互：智能体在环境中执行所选动作，接收环境反馈的下一个状态s'和奖励。

4.经验存储：将当前状态、动作、奖励和下一状态(s,a,r,s')存储在经验回放缓冲区中。

5.从缓冲区中采样：随机从经验回放缓冲区中抽取一批数据(sⁱ,aⁱ,rⁱ,sⁱ')进行学习。

6.更新Critic网络：对于每个智能体，利用其他智能体的策略和它们的目标网络计算预期的Q值。然后根据式计算实际的Q值和预期的Q值之间的误差，并按此误差更新评论家网络。

7.更新Actor网络：使用Q函数网络计算的Q值梯度来更新每个智能体的策略网络，期望奖励梯度为其中D为经验池。

8.软更新目标网络：以0.01-0.001的速率更新每个无人机的目标网络参数：

θ′_i←τθ_i+(1-τ)θ′_i；μ′_i←τμ_i+(1-τ)μ′_i。

9.迭代优化：重复上述步骤2-8，直到达到预定的训练周期。

通过MADDPG算法求解过程，MADDPG算法在多智能体环境中有效地更新策略，寻找到在MDP模型中最优或接近最优的策略，这个策略即为最终的调度结果。

基于先前的创新模型与奖励机制，并利用MADDPG算法的集中式训练与分布式执行特性，无人机在集中式训练环境中，通过最大化累积奖励函数并确保算法收敛，从而确定其最佳的飞行角度与速度。在实际飞行中，无人机按照分布式执行策略，与环境交互，实时更新其感知信息。受益于任务热点地区模型和负载均衡模型的引导，无人机能够根据任务需求及自身的实时状况，动态且灵活地调整飞行策略。每次输出的动作，都指导无人机朝特定的方向以特定的速度飞行。串联这些连续的飞行指令，便形成了无人机的飞行路径。这一策略巧妙地将复杂的多无人机多任务协同工作简化为高效的飞行策略调整。

本技术方案的优点或有益效果：

本技术方案提出了一个在多无人机边缘计算网络中的位置调度策略框架。为了快速应对资源需求变化，构建了任务热点地区模型，根据物联网设备和无人机的位置分布进行网格化分隔，更好地理解任务需求与无人机资源之间的关系。此外，为了提高任务处理量，还引入了负载均衡模型，其目的在于防止无人机过载，均衡任务卸载，从而使能源得以更有效地利用。

位置调度算法采用了多智能体深度确定性策略梯度方法，同时考虑了无人机能耗、任务完成数据量和***负载均衡、任务资源比状态。MADDPG算法以其集中式训练和分布式执行的特性，能够处理动态、非线性的环境，并在大规模状态和动作空间中进行高效的学习，寻找全局最优或接近全局最优的解，从而最大化***效用和能量效率。

附图说明

图1为实施例***的结构图；

图2为实施例中***流程图；

图3为实施例中多智能体强化学习框架；

图4为实施例中MADDPG算法框架；

图5为实施例中奖励值随训练周期的变化图；

图6为实施例仿真场景中无人机的最佳位置图；

图7为实施例中***效用随用户个数的变化图；

图8为实施例中能量效率随用户个数的变化图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述，但不是对本发明的限定。

实施例：

基于多智能体强化学习的无人机调度方法，包括设有若干架搭载边缘服务器的无人机、物联网设备和一个基站的***，如图1所示，所述方法包括如下步骤，如图2所示：

以上过程即将无人机作为多智能体强化学习中的智能体，如图3所示，不断地在现实或模拟环境中进行交互，在时隙t，这些无人机获取环境信息，然后根据独立的策略选择各自在强化学习中根据环境信息做出的动作，当这些动作被相应的无人机执行后，环境信息随之转变到时隙t+1的状态，并以奖励形式反馈，无人机通过对环境信息做出动作后得到奖励形式的过程即状态转化的持续观察和学习，共同努力去了解环境的规律并获得策略的最优解；

具体步骤如下：

1)为使用多智能体强化学习解决无人机调度的决策问题，需要将无人机调度问题建模为马尔科夫决策过程即MDP，该过程用元组<Γ,s,a,r,γ>表示，Γ为无人机集，s是所有无人机的状态空间，a为无人机的动作空间，r是无人机的奖励函数，γ为累计折扣奖励的衰减系数；

(1)状态空间

s_t＝{l^M(t),l^U(t),R(t),o'(t)} (1)

其中，l^U(t),R(t)分别代表时隙t的J架无人机的位置及其机载资源信息的集合，l^M表示所有物联网节点位置信息集合，o'表示时隙t的所有任务请求信息；

(2)动作空间

a(t)＝(θ(t),v^U(t)) (2)

(3)奖励函数

(3.1)无人机j在空中飞行产生的能耗及悬停产生的能耗/>分别如公式(3)所示，其中j∈J，j为正整数：

其中，P_f为飞行功率，为飞行距离^[8]，P_h为悬停功率，/>为悬停时间；

无人机j接收任务数据产生的通信能耗计算能耗/>分别为：

(3.2)为了快速响应资源需求的变化，构建了一个任务热点地区模型，该模型根据物联网设备和无人机的位置分布进行网格化分隔，以研究任务需求与无人机资源的关系；令网格总数为V，无人机通信半径为r，通过判断无人机与网格之间的位置关系可计算无人机覆盖个数，覆盖其中一个网格w_υ的无人机个数为b_υ，网格w_υ在时隙t的任务及资源信息表述为w_υ＝{a_υ,I_υ,l_υ,G_υ}，a_υ为单位时间网格的任务请求量，通过判断物联网设备与网格之间的位置关系可知物联网设备所属网格，进一步通过物联网设备单位时间的任务请求量可得到单位时间网格的任务请求量；l_υ为网格的位置，I_υ为单位网格任务资源比，定义为：

(3.3)为了均衡任务卸载增加任务处理量，引入了负载均衡模型，令无人机j的待处理任务所需CPU周期数α_j作为评估无人机节点的负载均衡情况的参数，将时隙t中无人机j的负载级别定义为L_j(t)＝ωα_j(t)，ω为折扣因子，时隙t中无人机***的负载均衡等级Ψ^slb，用标准差来表示为：

MADDPG算法框架如图4所示，求解的详细过程如下：

θ′_i←τθ_i+(1-τ)θ′_i；μ′_i←τμ_i+(1-τ)μ′_i。

9.迭代优化：重复上述步骤2-8，直到达到预定的训练周期。

下面以具体实例进行说明：

本例通过PyCharm环境、TensorFlow等工具包进行实验结果的仿真，评估了所提出的多无人机边缘计算网络中的调度策略和***及相关算法的有效性。仿真中设置三维的实验场景地图，地图区域大小为1km*1km，无人机的飞行高度固定100m。任务区域内分布了100个物联网设备部署在随机位置并连续移动，5架搭载边缘服务器的无人机。在每个时隙中，物联网节点随机生成任务，概率为P∈[0.2,0.5]，任务数据大小为1Mb-2Mb，无人机通信半径130m，无人机CPU频率2×10⁹cycle/s，计算每字节数据所需CPU周期数500cycle/bit，带宽2MHz，总任务时长480s。

实验分别采用本例所提出的基于MADDPG的无人机调度算法与现有的IDDPG、IDQN算法对该场景中的多无人机进行调度训练，以提高***效用和能量效率并降低任务卸载时的***能耗。3种算法的平均奖励值如图5所示，三种算法所得到的方案均能够收敛，MADDPG算法的收敛速度略慢于两种对比算法但其获得的平均奖励值最高。这是由于本例在处理多智能体协作问题时，能够学***均奖励值。

图6展示了5架无人机在不同时隙所作出的运动决策，图6(a)为UEs＝50的最佳位置图，图6(b)为UEs＝100的最佳位置图，这包括下一步的方向选择以及根据用户分布进行位置部署后的最优位置、覆盖范围。通过观察图6中可以发现，无人机***的位置尽可能地覆盖更多的物联网设备以达到任务资源比的平衡，使得***能够提供更多的计算卸载服务、最大化***效用和能量效率。

图7显示了MADDPG、IDDPG和IDQN三种策略在不同无人机数量(即3和5)下的***效用。在用户数量从50增加到200的过程中，所有策略的***效用都表现出增长的趋势，但增长率逐渐下降，这是由于随着用户数量的增加，***压力增大，处理效率相应降低。但总的来说，更多的用户数量依然会带来更大的***效用。比较不同的策略，MADDPG的表现最佳，其次是IDDPG，最后是IDQN。因为MADDPG采用了多智能体深度确定性策略梯度方法，引入了无人机负载均衡和任务资源比参数，从无人机和全局角度共同进行设置，能够迅速应对环境变化，使得其在多无人机环境中能更好地处理和优化任务。对于每种策略，使用更多的无人机能处理更多的任务，从而提高整体的***效用。当用户数量在75-125之间时，本例的***效用明显高于对比算法，并且随着无人机数量的增加，本例与对比算法在***效用上的差距也随之加大。以上实验结果表明，在无人机数量和用户数量较多的环境下，选择MADDPG策略并使用更多的无人机能获得最高的***效用。

能量效率代表了多无人机边缘计算***的执行效率。通过比较在不同物联网节点数量下算法的能量效率进行评估。结果如图8所示，可以看出本例使用的MADDPG算法达到了最高的能量效率。这是因为在位置调度时同时考虑了无人机的效用和能耗以及最小化任务资源比的平衡参数来规划无人机的轨迹，从而提高了无人机的能量效率。

参考文献：

[1]唐清清,李斌.面向空天地一体化网络的移动边缘计算技术[J].无线电通信技术,2021,47(1)：27-35.

[2]ZHANG T,XU Y,LOO J,et al.Joint computation and communicationdesign for UAV-assisted mobile edge computing in IoT[J].IEEE Transactions onIndustrial Informatics,2019,16(8)：5505-5516.

[3]潘弘洋,刘昭,杨波,等.基于新一代通信技术的无人机***群体智能方法综述[J].吉林大学学报(工学版),2023,53(3):629-642.

[4]YANG Z,PAN C,WANG K,et al.Energy efficient resource allocation inUAV-enabled mobile edge computing networks[J].IEEE Transactions on WirelessCommunications,2019,18(9):4576-4589.

[5]YANG L,YAO H,WANG J,et al.Multi-UAV-enabled load-balance mobile-edge computing for IoT networks[J].IEEE Internet of Things Journal,2020,7(8)：6898-6908.

[6]CHEN X,BI Y,HAN G,et al.Distributed Computation Offloading andTrajectory Optimization in Multi-UAV-Enabled Edge Computing[J/OL].IEEEInternet of Things Journal,2022,9(20)：20096-20110.DOI：10.1109/JIOT.2022.3175050.

[7]WEID,MA J,LUO L,et al.Computation offloading over multi-UAV MECnetwork：A distributed deep reinforcement learning approach[J].ComputerNetworks,2021,199∶108439.

[8]唐峯竹，李春海.基于无人机协同的多任务动态分配方法研究.航空航天科学与工程；自动化技术，硕士电子期刊2022年第02期.

Claims

1.基于多智能体强化学习的无人机调度方法，其特征在于，包括设有若干架搭载边缘服务器的无人机、物联网设备和一个基站的***，所述方法包括如下步骤：

以上过程即将无人机作为多智能体强化学习中的智能体，不断地在现实或模拟环境中进行交互，在时隙t，这些无人机获取环境信息，然后根据独立的策略选择各自在强化学习中根据环境信息做出的动作，当这些动作被相应的无人机执行后，环境信息随之转变到时隙t+1的状态，并以奖励形式反馈，无人机通过对环境信息做出动作后得到奖励形式的过程即状态转化的持续观察和学习获得策略的最优解；

具体步骤如下：

1)为使用多智能体强化学习解决无人机调度的决策问题，需要将该问题建模为马尔科夫决策过程，该过程用元组<Γ,s,a,r,γ>表示，Γ为无人机集，s是所有无人机的状态空间，a为无人机的动作空间，r是无人机的奖励函数，γ为累计折扣奖励的衰减系数。

(1)状态空间

s_t＝{l^M(t),l^U(t),R(t),o'(t)} (1)

其中，l^U(t),R(t)分别代表时隙t的J架无人机的位置及其机载资源信息的集合，l^M表示K个物联网节点位置信息集合，o'表示时隙t的所有任务请求信息；

(2)动作空间

a(t)＝(θ(t),v^U(t)) (2)

(3)奖励函数

通过设置奖励促进无人机进行策略的学习，旨在快速应对物联网设备对无人机载资源需求的变化，降低任务执行能耗，并提高***效用，同时需要满足无人机运动约束条件；

无人机j接收任务数据产生的通信能耗计算能耗/>分别为：

其中ω,ρ,χ是调节参数，且均为正数，将I_υ作为无人机调度的影响因素之一，时隙t中网格任务资源比的平衡情况Ф^hot，用标准差来表示为：

为确保***能高效地应对变化的资源需求、提高***能量效率，构造以无人机总能耗E_j、任务完成数据量和***负载均衡Ψ^slb、任务资源比Ф^hot参数为主要指标的奖励函数，表示为：

MADDPG算法求解的详细过程如下：

1.初始化：为每个智能体初始化两个神经网络：一个Actor网络π_i和一个Critic网络同时初始化对应的target网络，target网络初始权重与Actor和Critic网络函数相同；

2.策略执行：在给定的MDP状态s下，每个智能体使用MDP策略集合π＝{π₁,...,π_N}选择，动作策略参数为θ＝{θ₁,...,θ_N}；

3.环境交互：智能体在环境中执行所选动作，接收环境反馈的下一个状态s'和奖励；

4.经验存储：将当前状态、动作、奖励和下一状态(s,a,r,s')存储在经验回放缓冲区中；

5.从缓冲区中采样：随机从经验回放缓冲区中抽取一批数据(sⁱ,aⁱ,rⁱ,s^i')进行学习；

6.更新Critic网络：对于每个智能体，利用其他智能体的策略和它们的目标网络计算预期的Q值，然后根据式计算实际的Q值和预期的Q值之间的误差，并按此误差更新评论家网络；

7.更新Actor网络：使用Q函数网络计算的Q值梯度来更新每个智能体的策略网络，期望奖励梯度为其中D为经验池；

θ′_i←τθ_i+(1-τ)θ′_i；μ′_i←τμ_i+(1-τ)μ′_i；

9.迭代优化：重复上述步骤2-8，直到达到预定的训练周期。

通过MADDPG算法求解过程，MADDPG算法在多智能体环境中有效地更新策略，寻找到在MDP模型中最优或接近最优的无人机位置调度策略。