CN113359480B

CN113359480B - 基于mappo算法多无人机与用户协同通信优化方法

Info

Publication number: CN113359480B
Application number: CN202110806485.3A
Authority: CN
Inventors: 赵建伟; 吴官翰; 贾维敏; 张峰干; 姜楠; 王连锋; 谭力宁; 金伟; 金国栋; 沈涛; 张聪; 何芳
Original assignee: Rocket Force University of Engineering of PLA
Current assignee: Rocket Force University of Engineering of PLA
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2022-02-01
Anticipated expiration: 2041-07-16
Also published as: CN113359480A

Abstract

本发明公开了一种基于MAPPO算法多无人机与用户协同通信优化方法，包括以下步骤：一、无人机网络模型和用户网络模型的建立；二、无人机和用户场景设置；三、无人机和用户的观测状态的获取；四、无人机和用户的全局状态的获取；五、无人机和用户的奖励的获取；六、储存经验元组；七、MAPPO算法迭代优化网络模型的参数；八、多无人机和多用户协同通信优化预测。本发明通过无人机和用户网络模型参数优化，实现了无人机飞行方位角、功率、带宽分配优化，有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略，实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。

Description

基于MAPPO算法多无人机与用户协同通信优化方法

技术领域

本发明属于无人机和用户通信技术领域，尤其是涉及一种基于MAPPO算法多无人机与用户协同通信优化方法。

背景技术

在当前5G移动通信中，随着各种新兴产业迅猛发展地面骨干网承受着巨大的数据传输压力。同时受限于地理条件的影响，许多偏远地区仍处于无线覆盖欠缺的状态。这些前所未有的对高质量无线通信服务的需求，对当前传统地面通信网络提出了严峻挑战。为此，在未来6G及以后的无线通信中，无人机(Unmanned Aerial Vehicle,UAV)作为空中接入节点辅助地面通信成为一种有前途的解决方案。

无人机作为飞行基站具有较强的灵活性及自由度，可跨越多种地形为用户提供无线覆盖，一方面可以卸载部分地面溢出的计算负荷，减轻地面基站计算传输压力，另一方面可以灵活调整地面覆盖范围及区域，以应对随机运动的地面用户(Ground User,GU)。与此同时，无人机空地链路的良好视距特性使得非视距遮挡和阴影效应的概率大为减少，在一定程度上减少了不必要的路径损耗，在无人机有限的能量和提供同等通信服务质量(Quality of Service,QoS)条件下，更有助于延长它的工作时间。

现有的主要针对无人机在固定的通信资源分配，或对单一通信资源分配下对无人机进行轨迹优化。优化目标仅局限于无人机或地面接入控制，并未从多个无人机和多个用户层面去进行研究。

因此，现如今缺少一种基于MAPPO算法多无人机与用户协同通信优化方法，通过无人机和用户网络模型参数优化，实现了无人机飞行方位角、功率、带宽分配优化，有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略，实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于MAPPO算法多无人机与用户协同通信优化方法，其方法步骤简单，设计合理，通过无人机和用户网络模型参数优化，实现了无人机飞行方位角、功率、带宽分配优化，有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略，实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。

为解决上述技术问题，本发明采用的技术方案是：一种基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于，该方法包括以下步骤：

步骤一、无人机网络模型和用户网络模型的建立：

步骤101、设定无人机Actor网络的参数为φ，无人机Critic网络的参数为ω₁，用户Actor网络的参数为θ，用户Critic网络的参数为ω₂；

步骤102、设定无人机Actor网络的参数φ的初始值为φ(0)，无人机Critic网络的参数ω₁的初始值为ω₁(0)，用户Actor网络的参数θ的初始值为θ(0)，用户Critic网络的参数ω₂的初始值为ω₂(0)；其中，φ(0)、ω₁(0)、θ(0)和ω₂(0)满足神经网络正交初始化；

步骤二、无人机和用户场景设置：

步骤201、建立二维直角坐标系OXY；其中，二维直角坐标系和地面区域D重合；

步骤202、设定地面区域D中存在N个用户，且用户集合为

其中，第t个时刻第n个用户的位置坐标为

n和N均为正整数，且1≤n≤N，地面区域D位于OXY的第一象限，且原点O和地面区域D的左下角重合，t为正整数；

步骤203、设定地面区域D的上空存在M架无人机，且无人机集合为

且

其中，M架无人机相对地面区域D的部署高度均为h；

步骤三、无人机和用户的观测状态的获取：

步骤301、采用计算机设定第t个时刻第n个用户的观测状态为

且

其中，

表示第t个时刻第n个用户的坐标位置，

表示第t个时刻第n个用户可接入的第m个无人机在OXY下的二维坐标位置，m和M均为正整数，且1≤m≤M；s_m(t-j)表示第m个无人机在第t个时刻之前的第j个时刻中服务的用户数目，j为正整数，且j＝1,…,w；w为正整数，且w＜t；

步骤302、将第t个时刻第n个用户的观测状态

输入初始值为θ(0)的用户Actor网络中，用户Actor网络输出第m架无人机的预激活分量χ_m(θ(0))；

步骤303、采用计算机根据

得到第t个时刻第n个用户选择第m架无人机动作的离散概率分布

其中，exp(·)表示以自然常数e为底的指数函数，

表示第t个时刻第n个用户选择无人机的动作；

步骤304、第t个时刻第n个用户根据离散概率分布

采样动作

并选择相应的无人机接入，并获取第t个时刻第n个用户选择无人机的动作

的概率

步骤305、根据用户选择及无人机自身状态，采用计算机设定第t个时刻第m架无人机的观测状态为

且

其中，

表示第t个时刻第m架无人机在OXY下的二维坐标位置，

表示第t个时刻除去第m架无人机后其它无人机在OXY下的坐标位置，m′为正整数，m′≠m，且

σ_m,n(t)表示接入第m架无人机的第n个用户的状态；

步骤306、采用计算机将第t个时刻第m架无人机的观测状态

输入初始值为φ(0)的无人机Actor网络中，无人机Actor网络输出第t个时刻第m架无人机的观测状态

下第t个时刻第m架无人机的动作

的概率分布

其中，

服从贝塔分布，即

α_φ和β_φ均为贝塔分布的形状参数；

表示第t个时刻第m架无人机的动作；

根据

采样动作

得到第t个时刻第m架无人机给第n个用户的发射功率输出值

第t个时刻第m架无人机给第n个用户的带宽输出值

和第t个时刻第m架无人机的飞行方位角

以及第t个时刻第m架无人机的动作

的概率

步骤307、采用计算机设定

作为第t个时刻第m架无人机的动作掩码，采用计算机令

和

其中，

表示第t个时刻第m架无人机给第n个用户掩码后功率值，

表示第t个时刻第m架无人机给第n个用户掩码后带宽值；

步骤308、采用计算机根据

得到第t个时刻第m架无人机给第n个用户分配的发射功率动作分量p_m,n(t)；

采用计算机根据

得到第t个时刻第m架无人机给第n个用户分配的带宽资源动作分量b_m,n(t)；其中，b_m(t)表示第t个时刻第m架无人机可支配的带宽资源，且

B_total表示所有UAV共享的总带宽资源，s_m(t)表示接入第m架无人机的用户的总数，b_min表示最小可分带宽；

步骤309、采用计算机得到第t个时刻第m架无人机的动作

且

其中，

表示第t个时刻第m架无人机的飞行方位角；

步骤30A、将第t个时刻第n个用户的观测状态为

和第t个时刻第m架无人机的观测状态为

合并记作第t个时刻第i个智能体的观测状态

其中，智能体包括M架无人机和N个用户，i为正整数，且

将第t个时刻第n个用户选择无人机的动作

和第t个时刻第m架无人机的动作

合并记作第t个时刻第i个智能体的动作

将第t个时刻第n个用户选择无人机的动作

的概率

和第t个时刻第m架无人机的动作

的概率

合并记作第i个智能体的动作概率

步骤四、无人机和用户的全局状态的获取：

步骤401、采用计算机根据香农信道容量，并输入步骤309中的p_m,n(t)和b_m,n(t)，得到第t个时刻第m架无人机提供给第n个用户的理论通信速率c_m,n(t)；

步骤402、采用计算机根据

得到第t个时刻第n个用户的通信速率

步骤403、采用计算机设定第t个时刻第m架无人机的全局状态为

且

步骤404、采用计算机设定第t个时刻第n个用户的全局状态为

其中，

表示第t个时刻除去第n个用户后其它用户在OXY下的坐标位置，n′为正整数，且n′≠n，且

步骤405、将第t个时刻第m架无人机的全局状态

和第t个时刻第n个用户的全局状态

合并记作第t个时刻第i个智能体的全局状态

其中，i为正整数，且

步骤五、无人机和用户的奖励的获取：

步骤501、采用计算机根据

得到第t个时刻N个用户的平均通信速率c_mean(t)；

步骤502、采用计算机根据

得到第t个时刻第m架无人机的公平指数f_m(t)；

步骤503、采用计算机根据

得到第t个时刻第m架无人机的奖励

其中，r_d表示无人机的奖励系数，κ_r为f_m(t)的指数参数，

表示第t个时刻第m架无人机的边界惩罚项；

步骤504、采用计算机根据

得到第t个时刻第n个用户的奖励

其中，r_c表示用户的奖励系数；

步骤505、采用计算机将第t个时刻第n个用户的奖励

和第t个时刻第m架无人机的奖励

合并记作第t个时刻第i个智能体的奖励

步骤六、储存经验元组：

步骤601、采用计算机将

作为第t个时刻第i个智能体的经验元组，并将其存入缓存区中；

步骤602、重复步骤三至步骤601，获取下一个时刻的经验元组，并将其存入缓存区中，直至t＝T_max时，完成一个回合的数据存储；其中，T_max表示每个回合的总时刻数；

步骤603、重复步骤602，进行下一个回合的数据存储，直至缓存区中经验元组的数量为B，得到第一轮训练数据；其中，B大于T_max；

步骤七、MAPPO算法迭代优化网络模型的参数：

步骤701、输入第一轮训练数据，计算机利用MAPPO算法对无人机Actor网络φ的参数和用户Actor网络的参数θ进行梯度上升优化，得到无人机Actor网络的参数φ的第一轮优化值和用户Actor网络的参数θ的第一轮优化值；

同时，采用计算机利用MAPPO算法对中无人机Critic网络ω₁的参数和用户Critic网络ω₂的参数进行梯度下降优化，得到无人机Critic网络的参数ω₁的第一轮优化值和用户Critic网络的参数ω₂的第一轮优化值；

步骤702、按照步骤三至步骤603所述的方法，得到下一轮训练数据；

步骤703、输入下一轮训练数据，按照步骤701所述的方法，以上一轮优化值作为参数初始值，进行下一轮的优化更新，得到无人机Actor网络的参数φ的下一轮优化值、用户Actor网络的参数θ的下一轮优化值、无人机Critic网络的参数ω₁的下一轮优化值和用户Critic网络的参数ω₂的下一轮优化值；

步骤704、按照步骤三至步骤603所述的方法，完成设定的最大回合T_h的数据存储，得到第P轮训练数据；其中，P为正整数；

步骤705、输入第P轮训练数据，并按照步骤701所述的方法，以上一轮优化值作为参数初始值，得到无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω₁的第P轮优化值和用户Critic网络的参数ω₂的第P轮最后轮优化值；

步骤八、多无人机和多用户协同通信优化预测：

步骤801、根据无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω₁的第P轮优化值和用户Critic网络的参数ω₂的第P轮优化值，得到优化后的网络模型；

步骤802、获取后续时刻第n个用户的观测状态和第m架无人机的观测状态，并输入优化后的网络模型，得到后续时刻第m架无人机和第n个用户的协同通信优化动作策略。

上述的基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于：步骤401中采用计算机根据香农信道容量，并输入步骤309中的p_m,n(t)和b_m,n(t)，得到第t个时刻第m架无人机提供给第n个用户的理论通信速率c_m,n(t)，具体过程如下：

步骤4011、采用计算机根据公式

得到第t个时刻第m架无人机到第n个用户的LoS链路概率

其中，a表示与环境相关的第一常数，b表示与环境相关的第二常数，d_m,n(t)表示第t个时刻第m架无人机到第n个用户的直线距离；

步骤4012、采用计算机根据公式

得到第t个时刻第m架无人机到第n个用户在LoS链路下的路径损耗

其中，ξ_LoS表示LoS链路下的附加损耗，c表示光速，f_c表示信号载频；

步骤4013、采用计算机根据公式

得到第t个时刻第m架无人机到第n个用户在NLoS链路下的路径损耗

其中，ξ_NLoS表示NLoS链路下的附加损耗；

步骤4014、采用计算机根据公式

得到第t个第m架无人机到第n个用户信号的路径损耗PL_m,n(t)；其中，

表示第t个时刻第m架无人机到第n个用户的NLoS链路概率，且

步骤4015、采用计算机根据公式

得到第t个时刻第n个用户信号接收第m架无人机的信号功率

步骤4016、采用计算机根据公式

得到第t个时刻第m架无人机提供给第n个用户的理论通信速率c_m,n(t)；其中，n₀表示信道中高斯白噪声的功率谱密度。

上述的基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于：步骤4011中4.88＜a＜28，0＜b＜1；

步骤4012和步骤4013中NLoS链路下的附加损耗ξ_NLoS大于LoS链路下的附加损耗ξ_LoS，LoS链路下的附加损耗ξ_LoS的取值范围为(0dB,50dB)，NLoS链路下的附加损耗ξ_NLoS的取值范围为(10dB,100dB)；

步骤504中用户奖励系数r_c的取值范围为1～3；

步骤503中无人机的奖励系数r_d的取值范围为1～5，且r_d大于r_c；指数参数κ_r的取值范围为1～5的正整数。

上述的基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于：步骤503中第t个时刻第m架无人机的边界惩罚项

的获取，具体过程如下：

步骤5031、设定地面区域D在X轴上的上界为u_max,x，地面区域D在Y轴上的上界为u_max,y，地面区域D在X轴上的下界为u_min,x，地面区域D在Y轴上的下界为u_min,y；且u_min,x＝u_min,y＝0；

步骤5032、采用计算机根据第t个时刻第m架无人机的位置

得到第t个时刻第m架无人机的X坐标

和第t个时刻第m架无人机的Y坐标

步骤5033、当

大于u_max,x或者

小于u_min,x时，采用计算机根据

得到第t个时刻第m架无人机的边界惩罚项

其中，r_b表示惩罚项系数，κ_b表示梯度因子，用来决定边界函数的平缓程度，惩罚项系数r_b的取值范围为10～50，梯度因子κ_b为0.07～0.1；

当

大于u_max,y或者

小于u_min,y时，采用计算机根据

得到第t个时刻第m架无人机的边界惩罚项

当

大于u_max,x且

大于u_max,y或者

小于u_min,x且

小于u_min,y时，采用计算机根据

得到第t个时刻第m架无人机的边界惩罚项

当

和

均位于地面区域D中时，

上述的基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于：步骤301中w的取值范围为3～20；

步骤306中α_φ和β_φ满足如下：α_φ≥1，β_φ≥1。

上述的基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于：步骤704中设定的最大回合T_h的取值范围为5000～6000；

总轮数

本发明与现有技术相比具有以下优点：

1、本发明方法步骤简单、设计合理，以适应多个无人机和多用户的博弈，实现协同通信优化策略的预测，以使在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。

2、本发明所采用的方法首先是无人机网络模型和用户网络模型的建立，然后通过无人机和用户场景设置、无人机和用户的观测状态的获取、无人机和用户的全局状态的获取、无人机和用户的奖励的获取和储存经验元组，得到训练数据，并通过MAPPO算法对训练数据进行训练以实现网络模型的参数的更新优化，得到优化后的网络模型；最后将后续时刻用户的观测状态和无人机的观测状态输入优化后的网络模型，以得到无人机和用户的协同通信优化策略。

3、本发明中利用MAPPO算法对无人机Actor网络的参数、用户Actor网络的参数、无人机Critic网络的参数和用户Critic网络的参数进行训练迭代，能使所有用户通过竞争策略贪婪最大化自身可获取通信速率，每架无人机为选择接入自己的用户智能分配功率及带宽资源，并且动态决策自己的飞行方位角，通过与其他无人机合作形成当前环境下最合适的空间拓扑结构。

4、本发明对用户的接入策略，无人机分配的功率、无人机分配的带宽资源调度以及无人机的飞行方位角进行了联合优化，且所有无人机共享总带宽资源，在满足每个用户最小通信速率约束条件下，通过动态资源调度最大化***吞吐量的同时保证用户之间通信速率的公平性。

5、本发明采用MAPPO(Multi-Agent Proximal Policy Optimization)算法来解决多种类型智能体离散与连续动作共存的问题。与以往集中决策无人机群多维动作的方法不同，MAPPO算法考虑到现实条件下的部分可观测性，使每个智能体仅依靠自身观测分布式决策。避免了单智能体强化学习算法处理多智能体问题时，集中决策方式带来的维度过高、不可扩展等弊端。

6、本发明针对不同无人机可能会被不同数量用户选择接入的现实问题，通过设置动作掩码，动态调整无人机资源分配策略维度，依靠动作掩码屏蔽没有选择接入的用户信息，即无人机只需要为选择接入自己的用户分配资源。

7、本发明针对无人机的飞行方位角优化时，考虑无人机飞行方位角有界的现实情况，采用参数化的贝塔策略取代传统高斯策略，可以解决无人机动作有界条件下高斯策略的有偏估计问题，并改善多峰奖励环境下收敛至局部最优现象。

8、本发明不仅对功率进行策略分配，而且对带宽进行策略分配，提高了分配的灵活性和纬度。

综上所述，本发明方法步骤简单，设计合理，通过无人机和用户网络模型参数优化，实现了无人机飞行方位角、功率、带宽分配优化，有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略，实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的方法流程框图。

具体实施方式

如图1所示的一种基于MAPPO算法多无人机与用户协同通信优化方法，包括以下步骤：

步骤一、无人机网络模型和用户网络模型的建立：

步骤二、无人机和用户场景设置：

步骤202、设定地面区域D中存在N个用户，且用户集合为

其中，第t个时刻第n个用户的位置坐标为

且

其中，M架无人机相对地面区域D的部署高度均为h；

步骤三、无人机和用户的观测状态的获取：

步骤301、采用计算机设定第t个时刻第n个用户的观测状态为

且

其中，

表示第t个时刻第n个用户的坐标位置，

步骤302、将第t个时刻第n个用户的观测状态

步骤303、采用计算机根据

其中，exp(·)表示以自然常数e为底的指数函数，

表示第t个时刻第n个用户选择无人机的动作；

步骤304、第t个时刻第n个用户根据离散概率分布

采样动作

的概率

且

其中，

表示第t个时刻第m架无人机在OXY下的二维坐标位置，

σ_m,n(t)表示接入第m架无人机的第n个用户的状态；

步骤306、采用计算机将第t个时刻第m架无人机的观测状态

下第t个时刻第m架无人机的动作

的概率分布

其中，

服从贝塔分布，即

α_φ和β_φ均为贝塔分布的形状参数；

表示第t个时刻第m架无人机的动作；

根据

采样动作

得到第t个时刻第m架无人机给第n个用户的发射功率输出值

第t个时刻第m架无人机给第n个用户的带宽输出值

和第t个时刻第m架无人机的飞行方位角

以及第t个时刻第m架无人机的动作

的概率

步骤307、采用计算机设定

作为第t个时刻第m架无人机的动作掩码，采用计算机令

和

其中，

表示第t个时刻第m架无人机给第n个用户掩码后功率值，

表示第t个时刻第m架无人机给第n个用户掩码后带宽值；

步骤308、采用计算机根据

采用计算机根据

步骤309、采用计算机得到第t个时刻第m架无人机的动作

且

其中，

表示第t个时刻第m架无人机的飞行方位角；

步骤30A、将第t个时刻第n个用户的观测状态为

和第t个时刻第m架无人机的观测状态为

合并记作第t个时刻第i个智能体的观测状态

其中，智能体包括M架无人机和N个用户，i为正整数，且

将第t个时刻第n个用户选择无人机的动作

和第t个时刻第m架无人机的动作

合并记作第t个时刻第i个智能体的动作

将第t个时刻第n个用户选择无人机的动作

的概率

和第t个时刻第m架无人机的动作

的概率

合并记作第i个智能体的动作概率

步骤四、无人机和用户的全局状态的获取：

步骤402、采用计算机根据

得到第t个时刻第n个用户的通信速率

且

步骤404、采用计算机设定第t个时刻第n个用户的全局状态为

其中，

步骤405、将第t个时刻第m架无人机的全局状态

和第t个时刻第n个用户的全局状态

合并记作第t个时刻第i个智能体的全局状态

其中，i为正整数，且

步骤五、无人机和用户的奖励的获取：

步骤501、采用计算机根据

得到第t个时刻N个用户的平均通信速率c_mean(t)；

步骤502、采用计算机根据

得到第t个时刻第m架无人机的公平指数f_m(t)；

步骤503、采用计算机根据

得到第t个时刻第m架无人机的奖励

其中，r_d表示无人机的奖励系数，κ_r为f_m(t)的指数参数，

表示第t个时刻第m架无人机的边界惩罚项；

步骤504、采用计算机根据

得到第t个时刻第n个用户的奖励

其中，r_c表示用户的奖励系数；

步骤505、采用计算机将第t个时刻第n个用户的奖励

和第t个时刻第m架无人机的奖励

合并记作第t个时刻第i个智能体的奖励

步骤六、储存经验元组：

步骤601、采用计算机将

步骤七、MAPPO算法迭代优化网络模型的参数：

步骤八、多无人机和多用户协同通信优化预测：

本实施例中，步骤401中采用计算机根据香农信道容量，并输入步骤309中的p_m,n(t)和b_m,n(t)，得到第t个时刻第m架无人机提供给第n个用户的理论通信速率c_m,n(t)，具体过程如下：

步骤4011、采用计算机根据公式

得到第t个时刻第m架无人机到第n个用户的LoS链路概率

步骤4012、采用计算机根据公式

步骤4013、采用计算机根据公式

其中，ξ_NLoS表示NLoS链路下的附加损耗；

步骤4014、采用计算机根据公式

表示第t个时刻第m架无人机到第n个用户的NLoS链路概率，且

步骤4015、采用计算机根据公式

得到第t个时刻第n个用户信号接收第m架无人机的信号功率

步骤4016、采用计算机根据公式

本实施例中，步骤4011中4.88＜a＜28，0＜b＜1；

步骤504中用户奖励系数r_c的取值范围为1～3；

本实施例中，步骤503中第t个时刻第m架无人机的边界惩罚项

的获取，具体过程如下：

步骤5032、采用计算机根据第t个时刻第m架无人机的位置

得到第t个时刻第m架无人机的X坐标

和第t个时刻第m架无人机的Y坐标

步骤5033、当

大于u_max,x或者

小于u_min,x时，采用计算机根据

得到第t个时刻第m架无人机的边界惩罚项

当

大于u_max,y或者

小于u_min,y时，采用计算机根据

得到第t个时刻第m架无人机的边界惩罚项

当

大于u_max,x且

大于u_max,y或者

小于u_min,x且

小于u_min,y时，采用计算机根据

得到第t个时刻第m架无人机的边界惩罚项

当

和

均位于地面区域D中时，

本实施例中，步骤301中w的取值范围为3～20；

步骤306中α_φ和β_φ满足如下：α_φ≥1，β_φ≥1。

本实施例中，步骤704中设定的最大回合T_h的取值范围为5000～6000；

总轮数

本实施例中，区域D为2km×2km的方形区域，M架无人机相对地面区域D的部署高度h＝500m，每个回合开始时，所有无人机从原点起飞，而用户随机分布在区域D并以随机的方向和速度运动，T_max＝1000。

本实施例中，设定的最大回合T_h的取值为5000，B的取值为2000～4000。

本实施例中，w的取值范围为3。

本实施例中，每架无人机的发射的总发射功率P_total为10mw，所有UAV共享的总带宽资源B_total＝30MHz，信号载频f_c＝2GHz，信道中高斯白噪声的功率谱密度n₀＝1×10^-17mw/Hz，最小可分带宽b_min＝0.1MHz。

本实施例中，T_max＝1000，每个决策时间间隔为1s，即第个t时刻和第个t+1时刻的间隔为1s。

本实施例中，实际使用时，当σ_m,n(t)＝1时表示第n个用户选择第m架无人机作为接入基站时，反之则为0。

本实施例中，用户奖励系数r_c的取值为1，无人机的奖励系数r_d的取值为2，指数参数κ_r的取值为5，

本实施例中，惩罚项系数r_b的取值范围为20，梯度因子κ_b为8×10^-2。

本实施例中，α_φ＝β_φ＝1。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于，该方法包括以下步骤：

步骤一、无人机网络模型和用户网络模型的建立：

步骤二、无人机和用户场景设置：

步骤202、设定地面区域D中存在N个用户，且用户集合为

其中，第t个时刻第n个用户的位置坐标为

且

其中，M架无人机相对地面区域D的部署高度均为h；

步骤三、无人机和用户的观测状态的获取：

步骤301、采用计算机设定第t个时刻第n个用户的观测状态为

且

其中，

表示第t个时刻第n个用户的坐标位置，

步骤302、将第t个时刻第n个用户的观测状态

步骤303、采用计算机根据

其中，exp(·)表示以自然常数e为底的指数函数，

表示第t个时刻第n个用户选择无人机的动作；

步骤304、第t个时刻第n个用户根据离散概率分布

采样动作

的概率

且

其中，

表示第t个时刻第m架无人机在OXY下的二维坐标位置，

σ_m,n(t)表示接入第m架无人机的第n个用户的状态；

步骤306、采用计算机将第t个时刻第m架无人机的观测状态

下第t个时刻第m架无人机的动作

的概率分布

其中，

服从贝塔分布，即

α_φ和β_φ均为贝塔分布的形状参数；

表示第t个时刻第m架无人机的动作；

根据

采样动作

得到第t个时刻第m架无人机给第n个用户的发射功率输出值

第t个时刻第m架无人机给第n个用户的带宽输出值

和第t个时刻第m架无人机的飞行方位角

以及第t个时刻第m架无人机的动作

的概率

步骤307、采用计算机设定

作为第t个时刻第m架无人机的动作掩码，采用计算机令

和

其中，

表示第t个时刻第m架无人机给第n个用户掩码后功率值，

表示第t个时刻第m架无人机给第n个用户掩码后带宽值；

步骤308、采用计算机根据

采用计算机根据

B_total表示所有UAV共享的总带宽资源，s_m(t)表示接入第m架无人机的用户的总数，b_min表示最小可分带宽；P_total表示每架无人机的发射的总发射功率；

步骤309、采用计算机得到第t个时刻第m架无人机的动作

且

其中，

表示第t个时刻第m架无人机的飞行方位角；

步骤30A、将第t个时刻第n个用户的观测状态为

和第t个时刻第m架无人机的观测状态为

合并记作第t个时刻第i个智能体的观测状态

其中，智能体包括M架无人机和N个用户，i为正整数，且

将第t个时刻第n个用户选择无人机的动作

和第t个时刻第m架无人机的动作

合并记作第t个时刻第i个智能体的动作

将第t个时刻第n个用户选择无人机的动作

的概率

和第t个时刻第m架无人机的动作

的概率

合并记作第i个智能体的动作概率

步骤四、无人机和用户的全局状态的获取：

步骤402、采用计算机根据

得到第t个时刻第n个用户的通信速率

且

步骤404、采用计算机设定第t个时刻第n个用户的全局状态为

其中，

步骤405、将第t个时刻第m架无人机的全局状态

和第t个时刻第n个用户的全局状态

合并记作第t个时刻第i个智能体的全局状态

其中，i为正整数，且

步骤五、无人机和用户的奖励的获取：

步骤501、采用计算机根据

得到第t个时刻N个用户的平均通信速率c_mean(t)；

步骤502、采用计算机根据

得到第t个时刻第m架无人机的公平指数f_m(t)；

步骤503、采用计算机根据

得到第t个时刻第m架无人机的奖励

其中，r_d表示无人机的奖励系数，κ_r为f_m(t)的指数参数，

表示第t个时刻第m架无人机的边界惩罚项；

步骤504、采用计算机根据

得到第t个时刻第n个用户的奖励

其中，r_c表示用户的奖励系数；

步骤505、采用计算机将第t个时刻第n个用户的奖励

和第t个时刻第m架无人机的奖励

合并记作第t个时刻第i个智能体的奖励

步骤六、储存经验元组：

步骤601、采用计算机将

步骤七、MAPPO算法迭代优化网络模型的参数：

步骤八、多无人机和多用户协同通信优化预测：

2.按照权利要求1所述的基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于：步骤401中采用计算机根据香农信道容量，并输入步骤309中的p_m,n(t)和b_m,n(t)，得到第t个时刻第m架无人机提供给第n个用户的理论通信速率c_m,n(t)，具体过程如下：

步骤4011、采用计算机根据公式

得到第t个时刻第m架无人机到第n个用户的LoS链路概率

步骤4012、采用计算机根据公式

步骤4013、采用计算机根据公式

其中，ξ_NLoS表示NLoS链路下的附加损耗；

步骤4014、采用计算机根据公式

表示第t个时刻第m架无人机到第n个用户的NLoS链路概率，且

步骤4015、采用计算机根据公式

得到第t个时刻第n个用户信号接收第m架无人机的信号功率

步骤4016、采用计算机根据公式

3.按照权利要求2所述的基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于：步骤4011中4.88＜a＜28，0＜b＜1；

步骤504中用户奖励系数r_c的取值范围为1～3；

4.按照权利要求1所述的基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于：步骤503中第t个时刻第m架无人机的边界惩罚项

的获取，具体过程如下：

步骤5032、采用计算机根据第t个时刻第m架无人机的位置

得到第t个时刻第m架无人机的X坐标

和第t个时刻第m架无人机的Y坐标

步骤5033、当

大于u_max,x或者

小于u_min,x时，采用计算机根据

得到第t个时刻第m架无人机的边界惩罚项

当

大于u_max,y或者

小于u_min,y时，采用计算机根据

得到第t个时刻第m架无人机的边界惩罚项

当

大于u_max,x且

大于u_max,y或者

小于u_min,x且

小于u_min,y时，采用计算机根据

得到第t个时刻第m架无人机的边界惩罚项

当

和

均位于地面区域D中时，

5.按照权利要求1所述的基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于：步骤301中w的取值范围为3～20；

步骤306中α_φ和β_φ满足如下：α_φ≥1，β_φ≥1。

6.按照权利要求1所述的基于MAPPO算法多无人机与用户协同通信优化方法，其特征在于：步骤704中设定的最大回合T_h的取值范围为5000～6000；

总轮数