CN111786713B

CN111786713B - 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Info

Publication number: CN111786713B
Application number: CN202010497656.4A
Authority: CN
Inventors: 刘中豪; 覃振权; 卢炳先; 王雷; 朱明�
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2021-06-08
Anticipated expiration: 2040-06-04
Also published as: CN111786713A

Abstract

一种基于多智能体深度强化学***调度和无人机能耗损失信息引入到瞬时奖励函数中，在提高吞吐量的同时保证无人机对地面用户服务的公平性，并减少能耗损失，使无人机集群能够适应动态环境。

Description

一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

技术领域

本发明涉及无线通信技术领域，特别涉及一种基于多智能体深度强化学习的多无人机网络悬停位置优化方法。

背景技术

近年来，由于无人机的高机动性、易部署性和低成本，基于无人机的通信技术引起了广泛的关注，成为了无线通信领域的一个新的研究热点。无人机辅助通信技术主要有以下几个应用场景：无人机作为移动基站为基础设施稀少或灾后地区提供通信覆盖、无人机作为中继节点为相距较远的无法直接建立连接的两个通信节点提供无线连接、基于无人机的数据分发和采集。本发明主要针对第一个场景，在该场景中，无人机的悬停位置决定了整个无人机网络的覆盖性能和吞吐量大小。无人机网络所服务的地面设备可能具有移动性，因此无人机需要不断地调整自身的悬停位置以实现最优的性能。

2018年，Qingqing Wu等人在论文《JointTrajectoryandCommunicationDesignforMulti-UAVEnabledWirelessNetworks》中提出一种多无人机对地通信***的UAV路径规划方案，将时间划分为多个周期，每个周期UAVs的移动轨迹是相同的，在每个时隙，无人机基站服务特定的地面用户。该方案将优化问题建模为混合整数规划问题，并使用块坐标梯度下降和近似凸优化技术进行求解，求得周期内每个时间片的最优悬停位置，最大化和地面用户间的下行链路吞吐量。但是，该论文提出的方案只适用于静态环境，是假设地面设备不具备移动性的条件下进行的，并不适用于地面用户不断移动的场景。Chi Harold Liu等人在论文《Energy-Efficient UAV Control for Effective andFair CommunicationCoverage:A DeepReinforcement Learning Approach》提出了一种基于深度强化学***无线覆盖，并尽可能减少UAVs的能耗。但是，该方法仅仅考虑了UAVs网络的覆盖性能，且是针对区域的粗粒度覆盖公平，而不是针对用户的细粒度覆盖公平。此外，该方法是一种集中式的方案，需要一个控制器在每个时隙收集所有无人机的信息，才能做出决策。

综上所述，基于无人机基站的对地通信网络中的UAVs路径规划技术主要有如下缺陷：(1)没有考虑环境的动态性，即地面用户的移动性。(2)采用的是集中式的算法，依赖全局信息和集中式控制，某些大范围的场景中，进行集中式控制是较为困难的，因此需要一种分布式的控制策略，每个无人机基站仅靠自己获得的信息做出决策。(3)忽略了考虑用户层次的服务公平性。这些缺陷使得现有的无人机网络中的UAVs轨迹优化方法无法适用于实际通信环境。

发明内容

本发明的目的是提出一种基于多智能体强化学习的多无人机悬停位置优化方法，以解决上述技术问题。

本发明的技术方案：

一种基于多智能体深度强化学习的无人机网络悬停位置优化方法，步骤如下：

(1)建立多无人机対地通信网络模型，主要包括以下4个步骤：

(1.1)建立场景模型：建立一个边长为l的正方形目标区域，该区域中有N个地面用户和M个无人机基站(UAV-BSs)，这些无人机基站为地面用户提供通信服务。时间被划分为T个相同的时隙，从上一时隙到当前时隙，地面用户可能静止也可能发生移动，因此无人机基站需要在每个时隙寻找新的最优悬停位置，并在到达目标位置后选择地面用户进行数据传输服务。

(1.2)建立空对地通信模型：本发明使用空对地信道模型对无人机基站和地面用户之间的信道进行建模，无人机基站由于高飞行高度，相比于地面基站更容易与地面用户建立视距链路(LoS)，在LoS情况下，无人机基站m和地面用户n之间的路径损耗模型为：

其中η表示额外路径损耗系数，c表示光速，f_c表示子载波频率，α表示路径损失指数，

表示无人机基站m和地面用户n之间的距离，其中r_n,m表示二者的水平距离，h为无人机基站固定飞行高度。根据路径损失，信道增益可以表示为

根据信道增益，无人机基站m和地面用户n之间在时隙t的数据传输速率为：

其中σ表示加性高斯白噪声，p_t表示无人机基站的发射功率，g_n,m(t)表示t时刻无人机基站m和地面用户n之间的信道增益。

(1.3)建立覆盖模型：由于硬件限制，每个无人机基站的覆盖范围是有限的。本发明定义了最大可容忍路径损失L_max，如果某一时刻无人机基站和用户之间路径损失小于L_max，我们认为建立的连接是可靠的，否则，我们认为建立连接失败。因此，可以根据最大可容忍路径损耗定义出每个无人机基站的有效覆盖范围，该范围以无人机基站在地面的投影点为圆心，以R_cov为半径，根据路径损失公式，R_cov可以表示为：

(1.4)建立能量损耗模型：本发明主要关注无人机移动造成的能量损耗，考虑无人机的飞行速度V以及飞行功率p_f，无人机基站m在时隙t的飞行能耗取决于飞行的距离：

其中

分别表示无人机在水平面上x轴和y轴的位置坐标。

(2)将问题建模为局部可观测马尔科夫决策过程：

每个无人机基站相当于一个智能体；在每一个环境状态为S(t)的时隙中，智能体m在仅能获得自身覆盖范围内的局部观察o_m，并根据决策函数u_m(o_m)，从动作集A中选择动作a_m，以最大化折扣总期望奖励

其中γ∈(0,1)为折扣系数，r_m(t)表示智能体m在t时刻的奖励；

***状态集合S＝{S(t)|S(t)＝(S^u(t),S^g(t))}，分别包含无人机基站的当前状态

和地面用户当前状态

无人机基站状态

包括无人机当前的位置信息；地面用户状态

包括当前地面用户的位置信息。

无人机动作集合A＝{a(t)|a(t)＝(θ(t),d(t))}，在时隙t，无人机m需要在得到当前局部观察信息后做出决策a_m(t)，移动到下一个悬停位置，因此动作集合包括飞行旋转角度θ(t)和移动距离d(t)。

***及时奖励r(t)：本文的目标是在考虑用户服务公平性和能耗的同时，最大化无人机网络的吞吐量。因此，在每个时刻t通过调整无人机悬停位置所产生的额外吞吐量是一个正项奖励，表示为：

ΔC(t)＝C(S^u(t+1),S^g(t))-C(S^u(t),S^g(t))

其中C(S^u(t),S^g(t))表示无人机基站状态为S^u(t)，地面用户状态为S^g(t)时网络产生的吞吐量。C(S^u(t+1),S^g(t))则表示无人机基站状态为S^u(t+1)，地面用户状态为S^g(t)时网络产生的吞吐量。考虑到用户服务的公平性，如果某个区域聚集有大量用户，而某个区域只有一个用户，无人机基站为了追求最大化吞吐量会一直悬停在高密度区域，而忽略低密度区域，因此本发明为每个用户的吞吐量奖励施加一个权重w_n(t)实现比例公平调度。R_req表示的是地面用户需求的最小通信速率要求，R_n(t)表示的是地面用户n从开始阶段到时刻t的平均通信速率。当无人机基站服务该用户时，R_n(t)增长，该用户的权重会逐渐变小；若该用户没有被服务到，则R_n(t)减小，该用户权重不断增大。因此，用户稀疏地区的奖励权重会不断增大，吸引无人机基站进行服务。

其中，a_n,m(t)是一个指示变量，在t时刻，如果无人机基站m服务地面用户用户n，那么a_n,m(t)＝1，因此，综合考虑公平性吞吐量奖励和能耗损失惩罚，本发明给出***实时奖励r(t):

其中α表示能耗惩罚所占的权重，α越大，则该***在决策时更注重能耗损失，反之则越忽略能耗损失。

局部观察集合O(t)＝{o₁(t),…,o_M(t)}，当多无人机基站在一个大范围区域协同工作时，每个无人机无法观察到全局信息，只能观察到自身覆盖范围内的地面用户信息。o_m(t)表示t时刻无人机基站m所观察到的处于自己覆盖范围内的地面用户的位置信息。

(3)基于多智能体深度强化学习算法进行训练：

本发明将多智能体深度强化学习算法MADDPG引入到无人机对地通信网络悬停位置优化中，采用集中式训练和分布式执行的架构，在训练时使用全局信息，更好地指导每个无人机的决策函数的梯度更新，在执行时每个无人机仅使用自己观察到的局部信息做出下一步决策，更贴合实际场景的需要；每个智能体采用了Actor-Critic架构的DDPG网络进行训练，策略网络用来拟合策略函数u(o)，输入局部观察o，输出动作策略a；评价网络用来拟合状态-动作函数Q(s,a)，表示在***状态为s时，采取动作a所获得的期望奖励；令u＝{u₁,…,u_M}表示M个智能体的确定性策略函数，

表示每个策略网络的参数，Q＝{Q₁,…,Q_M}表示M个智能体的评价网络，

表示评价网络的参数，步骤(3)包括：

(3.1)初始化经验回放空间，设置经验回放空间大小，初始化每个DDPG网络的参数，训练回合数等

(3.2)从训练回合epoch＝1开始，从时刻t＝1开始。

(3.3)获取当前无人机的局部观察信息o和整个***当前状态s；每个无人机m使用t时隙得到的局部观察信息，基于∈贪婪策略和DDPG网络输出决策信息a_m调整悬停位置，并根据和地面用户间的路径损耗，基于贪婪方案选择路径损耗最低的W个地面用户进行通信服务，得到瞬时回报奖励r，达到下一***状态s′并获得局部观察信息o′；将(s,o,a,r,s′,o′)作为样本存入经验回放空间，a＝{a₁,…,a_M}表示所有无人机的联合动作，o＝{o₁,…,o_m}表示所有无人机的局部观察信息，t＝t+1。

(3.4)若回放空间存储的样本数量大于B，到达步骤3.5；否则，继续收集样本，返回步骤3.3。

(3.5)对每个智能体m，从经验回放空间中随机采样固定数量K的样本，计算目标值，其中第k个样本(s^k,o^k,a^k,r^k,s^′k,o^k)的目标值y^k可以表示为：

其中Q′_m表示第m个智能体的评价网络的目标网络，u′_m表示第m个智能体的策略网络的目标网络，r^k表示第k个样本中的及时奖励，a′_m表示无人机m在***状态s^′k下根据局部观察

所作出的决策。基于全局信息，使用梯度下降法最小化损失函数

更新该智能体的评价网络的参数：

根据评价网络和样本信息，基于样本的策略梯度，更新该智能体策略网络的参数：

(3.6)间隔一定回合后，即，更新目标网络参数θ^Q′和θ^u′：θ^Q′＝τθ^Q+(1-τ)θ^Q′,θ^u′＝τθ^u+(1-τ)θ^u′。当达到总时长T或无人机能量耗尽后，退出当前训练回合，否则，返回步骤3.3。若训练回合数已到，则退出训练过程，否则进入新的训练回合。

(4)将训练好的策略网络u分配给每个无人机，将无人机部署到目标区域，每个无人机在每个时隙根据自身的局部观察调整悬停位置，并对地面用户进行通信服务。

本发明的有益效果：本发明提出一种基于多智能体深度强化学***权重和能耗损失信息，在提高吞吐量的同时一定程度上保证了用户服务的公平性和无人机集群的低能耗。

附图说明

图1是本发明所述的无人机对地通信网络场景示意图。

图2是本发明一种基于多智能体深度强化学习的无人机网络悬停位置优化方法的流程图。

图3是本发明基于多智能体深度强化学习的训练无人机分布式策略网络的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一种基于多智能体深度强化学***性和能耗损失，不能因为追求吞吐量最大化而忽略某些地面用户，并尽可能减少无人机基站移动所造成的能耗损失。本发明的流程如图2所示，首先，对具体的应用场景中的通信模型、覆盖模型和能耗模型等进行建模并构建优化目标；其次，根据优化目标和多无人机***特性将优化问题建模为局部可观测马尔科夫决策过程；然后，使用仿真平台模拟多无人机对地通信场景，通过无人机集群和环境的交互采集样本，使用多智能体深度强化学***的通信覆盖。

具体步骤如下：

(1)建立多无人机対地通信网络模型，主要包括以下4个步骤：

表示无人机基站m和地面用户n之间的距离，r_n,m为水平距离，h为无人机基站固定飞行高度。根据路径损失，信道增益可以表示为

其中

分别表示无人机在水平面上x轴和y轴的位置坐标。

(2)将问题建模为局部可观测马尔科夫决策过程：

其中γ∈(0,1)为折扣系数，r_m(t)表示智能体m在t时刻的奖励；

和地面用户当前状态

无人机基站状态

包括无人机当前的位置信息；地面用户状态

包括当前地面用户的位置信息。

ΔC(t)＝C(S^u(t+1),S^g(t))-C(S^u(t),S^g(t))

因此，综合考虑公平性吞吐量奖励和能耗损失惩罚，本发明给出***实时奖励r(t)

局部观察集合O(t)＝{o₁(t),…,o_M(t)}，当多无人机基站在一个大范围区域协同工作时，每个无人机无法观察到全局信息，只能观察到自身覆盖范围内的地面用户信息。o_m(t)表示无人机基站m所观察到的处于自己覆盖范围内的地面用户的位置信息。

(3)基于多智能体深度强化学习算法进行训练：

表示评价网络的参数，如图3所示，步骤(3)包括：

(3.1)初始化经验回放空间，并设置经验回放空间大小B，初始化每个DDPG网络的参数θ，训练回合数P，时长T等

(3.2)从训练回合epoch＝1开始，从时刻t＝1开始。

(3.3)获取当前无人机的局部观察信息o和整个***当前状态s；每个无人机m使用t时隙得到的局部观察信息，基于∈贪婪策略和DDPG网络输出决策信息a_m调整悬停位置，并根据和地面用户间的路径损耗，基于贪婪方案选择路径损耗最低的W个地面用户进行通信服务，得到瞬时回报奖励r，达到下一***状态s′并获得局部观察信息o′；将(s,o,a,r,s′,o′)作为样本存入经验回放空间，a＝{a₁,…,a_M}表示所有无人机的联合动作，o＝{o₁,…,o_m}表示所有无人机的局部观察信息，t＝t+1；

更新该智能体的评价网络的参数：

(3.6)间隔一定回合后，更新评价目标网络参数θ^Q′和策略目标网络参数θ^u′：θ^Q′＝τθ^Q+(1-τ)θ^Q′,θ^u′＝τθ^u+(1-τ)θ^u′。当达到总时长T或无人机能量耗尽后，退出当前训练回合，否则，返回步骤3.3。若训练回合数已到，则退出训练过程，否则进入新的训练回合。

综上所述：

本发明提出一种基于多智能体深度强化学***性。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于多智能体深度强化学习的无人机网络悬停位置优化方法，其特征在于，步骤如下：

(1)建立多无人机対地通信网络模型

(1.1)建立场景模型：建立一个边长为l的正方形目标区域，该区域中有N个地面用户和M个无人机基站，无人机基站为地面用户提供通信服务；时间被划分为T个相同的时隙，从上一时隙到当前时隙，地面用户可能静止也可能发生移动，因此无人机基站需要在每个时隙寻找新的最优悬停位置，并在到达目标位置后选择地面用户进行数据传输服务；

(1.2)建立空对地通信模型：使用空对地信道模型对无人机基站和地面用户之间的信道进行建模，无人机基站由于高飞行高度，相比于地面基站更容易与地面用户建立视距链路LoS，在LoS情况下，无人机基站m和地面用户n之间的路径损耗模型为：

其中，η表示额外路径损耗系数，c表示光速，f_c表示子载波频率，α表示路径损失指数，

表示无人机基站m和地面用户n之间的距离，r_n,m为水平距离，h为无人机基站固定飞行高度；根据路径损失，信道增益表示为

根据信道增益，无人机基站m和地面用户n之间在时隙t的数据传输速率为R_n,m(t)：

其中，σ表示加性高斯白噪声，p_t表示无人机基站的发射功率，g_n,m(t)表示t时刻无人机基站m和地面用户n之间的信道增益；

(1.3)建立覆盖模型：定义最大可容忍路径损失L_max，如果某一时刻无人机基站和用户之间路径损失小于L_max，建立的连接是可靠的，否则，建立连接失败的；根据最大可容忍路径损耗定义出每个无人机基站的有效覆盖范围，该范围以无人机基站在地面的投影点为圆心，以R_cov为半径，根据路径损失公式，R_cov表示为：

(1.4)建立能量损耗模型：关注无人机移动造成的能量损耗，考虑无人机的飞行速度V以及飞行功率p_f，无人机基站m在时隙t的飞行能耗Δe_m(t)取决于飞行的距离：

其中，

分别表示t时刻无人机在水平面上x轴和y轴的位置坐标；

(2)将问题建模为局部可观测马尔科夫决策过程：

每个无人机基站相当于一个智能体；在每一个环境状态为S(t)的时隙中，智能体m在仅能获得自身覆盖范围内的局部观察o_m，并根据决策函数u_m(o_m)，从动作集中选择动作a_m，以最大化折扣总期望奖励

其中γ∈(0,1)为折扣系数，r_m(t)表示智能体m在t时刻的奖励；

和地面用户当前状态

每个无人机基站的状态

包括无人机当前的位置信息；每个地面用户状态

包括当前地面用户的位置信息；

无人机动作集合A＝{a(t)|a(t)＝(θ(t),d(t))}，在时隙t，无人机m需要在得到当前局部观察信息后做出决策a_m(t)，移动到下一个悬停位置，因此动作集合包括飞行旋转角度θ(t)和移动距离d(t)；

***实时奖励r(t)：在考虑用户服务公平性和能耗的同时，最大化无人机网络的吞吐量；因此，在每个时刻t通过调整无人机悬停位置所产生的额外吞吐量是一个正项奖励，表示为：

ΔC(t)＝C(S^u(t+1),S^g(t))-C(S^u(t),S^g(t))

其中，C(S^u(t),S^g(t))表示无人机基站状态为S^u(t)，地面用户状态为S^g(t)时网络产生的吞吐量；C(S^u(t+1),S^g(t))则表示无人机基站状态为S^u(t+1)，地面用户状态为S^g(t)时网络产生的吞吐量；考虑到用户服务的公平性，如果某个区域聚集有大量用户，而某个区域仅有少量用户，无人机基站为了追求最大化吞吐量会一直悬停在高密度区域，而忽略低密度区域，因此为每个用户的吞吐量奖励施加一个权重w_n(t)实现比例公平调度；R_req表示的是地面用户需求的最小通信速率要求，R_n(t)表示的是地面用户n从开始阶段到时刻t的平均通信速率；当无人机基站服务该用户时，R_n(t)增长，该用户的权重逐渐变小；若该用户没有被服务到，则R_n(t)增长，该用户权重不断增大；因此，用户稀疏地区的奖励权重会不断增大，吸引无人机基站进行服务；

其中，a_n,m(t)是一个指示变量，在t时刻，如果无人机基站m服务地面用户用户n，那么a_n,m(t)＝1，反之，a_n,m(t)＝0；因此，综合考虑公平性吞吐量奖励和能耗损失惩罚，***实时奖励r(t)：

其中，δ表示能耗惩罚所占的权重，δ越大，则该***在决策时更注重能耗损失，反之则越忽略能耗损失；

局部观察集合O(t)＝{o₁(t),…,o_M(t)}，当多无人机基站在一个大范围区域协同工作时，每个无人机无法观察到全局信息，只能观察到自身覆盖范围内的地面用户信息；o_m(t)表示t时刻无人机基站m所观察到的处于自己覆盖范围内的地面用户的位置信息；

(3)基于多智能体深度强化学习算法进行训练：

将多智能体深度强化学习算法MADDPG引入到无人机对地通信网络悬停位置优化中，采用集中式训练和分布式执行的架构，在训练时使用全局信息，更好地指导每个无人机的决策函数的梯度更新，在执行时每个无人机仅使用自己观察到的局部信息做出下一步决策，更贴合实际场景的需要；每个智能体采用了Actor-Critic架构的DDPG网络进行训练，策略网络用来拟合策略函数u(o)，输入局部观察o，输出动作策略a；评价网络用来拟合状态-动作函数Q(s,a)，表示在***状态为s时，采取动作a所获得的期望奖励；令u＝{u₁,…,u_M}表示M个智能体的确定性策略函数，

表示评价网络的参数；

(3.1)初始化经验回放空间，设置经验回放空间大小，初始化每个DDPG网络的参数，训练回合数；

(3.2)从训练回合epoch＝1开始，从时刻t＝1开始；

(3.3)获取当前无人机的局部观察信息o和整个***当前状态s；每个无人机m使用t时隙得到的局部观察信息，基于贪婪策略和DDPG网络输出决策信息a_m调整悬停位置，并根据和地面用户间的路径损耗，基于贪婪方案选择路径损耗最低的W个地面用户进行通信服务，得到瞬时回报奖励r，达到下一***状态s′并获得局部观察信息o′；将(s,o,a,r,s′,o′)作为样本存入经验回放空间，a＝{a₁,…,a_M}表示所有无人机的联合动作，o＝{o₁,…,o_m}表示所有无人机的局部观察信息，t＝t+1；

(3.4)若回放空间存储的样本数量大于B，到达步骤(3.5)；否则，继续收集样本，返回步骤(3.3)；

(3.5)对每个智能体m，从经验回放空间中随机采样固定数量K的样本，计算目标值，其中第k个样本(s^k,o^k,a^k,r^k,s′^k,o′^k)的目标值y^k可以表示为：

所作出的决策；基于全局信息，使用梯度下降法最小化损失函数

更新该智能体的评价网络的参数：

(3.6)间隔一定回合后，更新评价目标网络参数θ^Q′和策略目标网络参数θ^u′：θ^Q′＝τθ^Q+(1-τ)θ^Q′,θ^u′＝τθ^u+(1-τ)θ^u′；τ∈(0,1)表示更新权重；当达到总时长T或无人机能量耗尽后，退出当前训练回合，否则，返回步骤(3.3)；若训练回合数已到，则退出训练过程，否则进入新的训练回合；