CN113359480B - 基于mappo算法多无人机与用户协同通信优化方法 - Google Patents

基于mappo算法多无人机与用户协同通信优化方法 Download PDF

Info

Publication number
CN113359480B
CN113359480B CN202110806485.3A CN202110806485A CN113359480B CN 113359480 B CN113359480 B CN 113359480B CN 202110806485 A CN202110806485 A CN 202110806485A CN 113359480 B CN113359480 B CN 113359480B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
user
mth
tth moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110806485.3A
Other languages
English (en)
Other versions
CN113359480A (zh
Inventor
赵建伟
吴官翰
贾维敏
张峰干
姜楠
王连锋
谭力宁
金伟
金国栋
沈涛
张聪
何芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rocket Force University of Engineering of PLA
Original Assignee
Rocket Force University of Engineering of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rocket Force University of Engineering of PLA filed Critical Rocket Force University of Engineering of PLA
Priority to CN202110806485.3A priority Critical patent/CN113359480B/zh
Publication of CN113359480A publication Critical patent/CN113359480A/zh
Application granted granted Critical
Publication of CN113359480B publication Critical patent/CN113359480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于MAPPO算法多无人机与用户协同通信优化方法,包括以下步骤:一、无人机网络模型和用户网络模型的建立;二、无人机和用户场景设置;三、无人机和用户的观测状态的获取;四、无人机和用户的全局状态的获取;五、无人机和用户的奖励的获取;六、储存经验元组;七、MAPPO算法迭代优化网络模型的参数;八、多无人机和多用户协同通信优化预测。本发明通过无人机和用户网络模型参数优化,实现了无人机飞行方位角、功率、带宽分配优化,有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略,实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。

Description

基于MAPPO算法多无人机与用户协同通信优化方法
技术领域
本发明属于无人机和用户通信技术领域,尤其是涉及一种基于MAPPO算法多无人机与用户协同通信优化方法。
背景技术
在当前5G移动通信中,随着各种新兴产业迅猛发展地面骨干网承受着巨大的数据传输压力。同时受限于地理条件的影响,许多偏远地区仍处于无线覆盖欠缺的状态。这些前所未有的对高质量无线通信服务的需求,对当前传统地面通信网络提出了严峻挑战。为此,在未来6G及以后的无线通信中,无人机(Unmanned Aerial Vehicle,UAV)作为空中接入节点辅助地面通信成为一种有前途的解决方案。
无人机作为飞行基站具有较强的灵活性及自由度,可跨越多种地形为用户提供无线覆盖,一方面可以卸载部分地面溢出的计算负荷,减轻地面基站计算传输压力,另一方面可以灵活调整地面覆盖范围及区域,以应对随机运动的地面用户(Ground User,GU)。与此同时,无人机空地链路的良好视距特性使得非视距遮挡和阴影效应的概率大为减少,在一定程度上减少了不必要的路径损耗,在无人机有限的能量和提供同等通信服务质量(Quality of Service,QoS)条件下,更有助于延长它的工作时间。
现有的主要针对无人机在固定的通信资源分配,或对单一通信资源分配下对无人机进行轨迹优化。优化目标仅局限于无人机或地面接入控制,并未从多个无人机和多个用户层面去进行研究。
因此,现如今缺少一种基于MAPPO算法多无人机与用户协同通信优化方法,通过无人机和用户网络模型参数优化,实现了无人机飞行方位角、功率、带宽分配优化,有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略,实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于MAPPO算法多无人机与用户协同通信优化方法,其方法步骤简单,设计合理,通过无人机和用户网络模型参数优化,实现了无人机飞行方位角、功率、带宽分配优化,有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略,实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
为解决上述技术问题,本发明采用的技术方案是:一种基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于,该方法包括以下步骤:
步骤一、无人机网络模型和用户网络模型的建立:
步骤101、设定无人机Actor网络的参数为φ,无人机Critic网络的参数为ω1,用户Actor网络的参数为θ,用户Critic网络的参数为ω2
步骤102、设定无人机Actor网络的参数φ的初始值为φ(0),无人机Critic网络的参数ω1的初始值为ω1(0),用户Actor网络的参数θ的初始值为θ(0),用户Critic网络的参数ω2的初始值为ω2(0);其中,φ(0)、ω1(0)、θ(0)和ω2(0)满足神经网络正交初始化;
步骤二、无人机和用户场景设置:
步骤201、建立二维直角坐标系OXY;其中,二维直角坐标系和地面区域D重合;
步骤202、设定地面区域D中存在N个用户,且用户集合为
Figure GDA0003376312920000021
Figure GDA0003376312920000022
其中,第t个时刻第n个用户的位置坐标为
Figure GDA0003376312920000023
n和N均为正整数,且1≤n≤N,地面区域D位于OXY的第一象限,且原点O和地面区域D的左下角重合,t为正整数;
步骤203、设定地面区域D的上空存在M架无人机,且无人机集合为
Figure GDA0003376312920000031
Figure GDA0003376312920000032
其中,M架无人机相对地面区域D的部署高度均为h;
步骤三、无人机和用户的观测状态的获取:
步骤301、采用计算机设定第t个时刻第n个用户的观测状态为
Figure GDA0003376312920000033
Figure GDA0003376312920000034
其中,
Figure GDA0003376312920000035
表示第t个时刻第n个用户的坐标位置,
Figure GDA0003376312920000036
表示第t个时刻第n个用户可接入的第m个无人机在OXY下的二维坐标位置,m和M均为正整数,且1≤m≤M;sm(t-j)表示第m个无人机在第t个时刻之前的第j个时刻中服务的用户数目,j为正整数,且j=1,…,w;w为正整数,且w<t;
步骤302、将第t个时刻第n个用户的观测状态
Figure GDA0003376312920000037
输入初始值为θ(0)的用户Actor网络中,用户Actor网络输出第m架无人机的预激活分量χm(θ(0));
步骤303、采用计算机根据
Figure GDA0003376312920000038
得到第t个时刻第n个用户选择第m架无人机动作的离散概率分布
Figure GDA0003376312920000039
其中,exp(·)表示以自然常数e为底的指数函数,
Figure GDA00033763129200000310
表示第t个时刻第n个用户选择无人机的动作;
步骤304、第t个时刻第n个用户根据离散概率分布
Figure GDA00033763129200000311
采样动作
Figure GDA00033763129200000312
并选择相应的无人机接入,并获取第t个时刻第n个用户选择无人机的动作
Figure GDA00033763129200000313
的概率
Figure GDA00033763129200000314
步骤305、根据用户选择及无人机自身状态,采用计算机设定第t个时刻第m架无人机的观测状态为
Figure GDA00033763129200000315
Figure GDA00033763129200000316
其中,
Figure GDA00033763129200000317
表示第t个时刻第m架无人机在OXY下的二维坐标位置,
Figure GDA00033763129200000318
表示第t个时刻除去第m架无人机后其它无人机在OXY下的坐标位置,m′为正整数,m′≠m,且
Figure GDA00033763129200000319
σm,n(t)表示接入第m架无人机的第n个用户的状态;
步骤306、采用计算机将第t个时刻第m架无人机的观测状态
Figure GDA0003376312920000041
输入初始值为φ(0)的无人机Actor网络中,无人机Actor网络输出第t个时刻第m架无人机的观测状态
Figure GDA0003376312920000042
下第t个时刻第m架无人机的动作
Figure GDA0003376312920000043
的概率分布
Figure GDA0003376312920000044
其中,
Figure GDA0003376312920000045
服从贝塔分布,即
Figure GDA0003376312920000046
αφ和βφ均为贝塔分布的形状参数;
Figure GDA0003376312920000047
表示第t个时刻第m架无人机的动作;
根据
Figure GDA0003376312920000048
采样动作
Figure GDA0003376312920000049
得到第t个时刻第m架无人机给第n个用户的发射功率输出值
Figure GDA00033763129200000410
第t个时刻第m架无人机给第n个用户的带宽输出值
Figure GDA00033763129200000411
和第t个时刻第m架无人机的飞行方位角
Figure GDA00033763129200000412
以及第t个时刻第m架无人机的动作
Figure GDA00033763129200000413
的概率
Figure GDA00033763129200000414
步骤307、采用计算机设定
Figure GDA00033763129200000415
作为第t个时刻第m架无人机的动作掩码,采用计算机令
Figure GDA00033763129200000416
Figure GDA00033763129200000417
其中,
Figure GDA00033763129200000418
表示第t个时刻第m架无人机给第n个用户掩码后功率值,
Figure GDA00033763129200000419
表示第t个时刻第m架无人机给第n个用户掩码后带宽值;
步骤308、采用计算机根据
Figure GDA00033763129200000420
得到第t个时刻第m架无人机给第n个用户分配的发射功率动作分量pm,n(t);
采用计算机根据
Figure GDA00033763129200000421
得到第t个时刻第m架无人机给第n个用户分配的带宽资源动作分量bm,n(t);其中,bm(t)表示第t个时刻第m架无人机可支配的带宽资源,且
Figure GDA00033763129200000422
Btotal表示所有UAV共享的总带宽资源,sm(t)表示接入第m架无人机的用户的总数,bmin表示最小可分带宽;
步骤309、采用计算机得到第t个时刻第m架无人机的动作
Figure GDA00033763129200000423
Figure GDA0003376312920000051
其中,
Figure GDA0003376312920000052
表示第t个时刻第m架无人机的飞行方位角;
步骤30A、将第t个时刻第n个用户的观测状态为
Figure GDA0003376312920000053
和第t个时刻第m架无人机的观测状态为
Figure GDA0003376312920000054
合并记作第t个时刻第i个智能体的观测状态
Figure GDA0003376312920000055
其中,智能体包括M架无人机和N个用户,i为正整数,且
Figure GDA0003376312920000056
将第t个时刻第n个用户选择无人机的动作
Figure GDA0003376312920000057
和第t个时刻第m架无人机的动作
Figure GDA0003376312920000058
合并记作第t个时刻第i个智能体的动作
Figure GDA0003376312920000059
将第t个时刻第n个用户选择无人机的动作
Figure GDA00033763129200000510
的概率
Figure GDA00033763129200000511
和第t个时刻第m架无人机的动作
Figure GDA00033763129200000512
的概率
Figure GDA00033763129200000513
合并记作第i个智能体的动作概率
Figure GDA00033763129200000514
步骤四、无人机和用户的全局状态的获取:
步骤401、采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);
步骤402、采用计算机根据
Figure GDA00033763129200000515
得到第t个时刻第n个用户的通信速率
Figure GDA00033763129200000516
步骤403、采用计算机设定第t个时刻第m架无人机的全局状态为
Figure GDA00033763129200000517
Figure GDA00033763129200000518
步骤404、采用计算机设定第t个时刻第n个用户的全局状态为
Figure GDA00033763129200000519
Figure GDA00033763129200000520
其中,
Figure GDA00033763129200000521
表示第t个时刻除去第n个用户后其它用户在OXY下的坐标位置,n′为正整数,且n′≠n,且
Figure GDA00033763129200000522
步骤405、将第t个时刻第m架无人机的全局状态
Figure GDA00033763129200000523
和第t个时刻第n个用户的全局状态
Figure GDA00033763129200000524
合并记作第t个时刻第i个智能体的全局状态
Figure GDA00033763129200000525
其中,i为正整数,且
Figure GDA00033763129200000526
步骤五、无人机和用户的奖励的获取:
步骤501、采用计算机根据
Figure GDA0003376312920000061
得到第t个时刻N个用户的平均通信速率cmean(t);
步骤502、采用计算机根据
Figure GDA0003376312920000062
得到第t个时刻第m架无人机的公平指数fm(t);
步骤503、采用计算机根据
Figure GDA0003376312920000063
得到第t个时刻第m架无人机的奖励
Figure GDA0003376312920000064
其中,rd表示无人机的奖励系数,κr为fm(t)的指数参数,
Figure GDA0003376312920000065
表示第t个时刻第m架无人机的边界惩罚项;
步骤504、采用计算机根据
Figure GDA0003376312920000066
得到第t个时刻第n个用户的奖励
Figure GDA0003376312920000067
其中,rc表示用户的奖励系数;
步骤505、采用计算机将第t个时刻第n个用户的奖励
Figure GDA0003376312920000068
和第t个时刻第m架无人机的奖励
Figure GDA0003376312920000069
合并记作第t个时刻第i个智能体的奖励
Figure GDA00033763129200000610
步骤六、储存经验元组:
步骤601、采用计算机将
Figure GDA00033763129200000611
作为第t个时刻第i个智能体的经验元组,并将其存入缓存区中;
步骤602、重复步骤三至步骤601,获取下一个时刻的经验元组,并将其存入缓存区中,直至t=Tmax时,完成一个回合的数据存储;其中,Tmax表示每个回合的总时刻数;
步骤603、重复步骤602,进行下一个回合的数据存储,直至缓存区中经验元组的数量为B,得到第一轮训练数据;其中,B大于Tmax
步骤七、MAPPO算法迭代优化网络模型的参数:
步骤701、输入第一轮训练数据,计算机利用MAPPO算法对无人机Actor网络φ的参数和用户Actor网络的参数θ进行梯度上升优化,得到无人机Actor网络的参数φ的第一轮优化值和用户Actor网络的参数θ的第一轮优化值;
同时,采用计算机利用MAPPO算法对中无人机Critic网络ω1的参数和用户Critic网络ω2的参数进行梯度下降优化,得到无人机Critic网络的参数ω1的第一轮优化值和用户Critic网络的参数ω2的第一轮优化值;
步骤702、按照步骤三至步骤603所述的方法,得到下一轮训练数据;
步骤703、输入下一轮训练数据,按照步骤701所述的方法,以上一轮优化值作为参数初始值,进行下一轮的优化更新,得到无人机Actor网络的参数φ的下一轮优化值、用户Actor网络的参数θ的下一轮优化值、无人机Critic网络的参数ω1的下一轮优化值和用户Critic网络的参数ω2的下一轮优化值;
步骤704、按照步骤三至步骤603所述的方法,完成设定的最大回合Th的数据存储,得到第P轮训练数据;其中,P为正整数;
步骤705、输入第P轮训练数据,并按照步骤701所述的方法,以上一轮优化值作为参数初始值,得到无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮最后轮优化值;
步骤八、多无人机和多用户协同通信优化预测:
步骤801、根据无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮优化值,得到优化后的网络模型;
步骤802、获取后续时刻第n个用户的观测状态和第m架无人机的观测状态,并输入优化后的网络模型,得到后续时刻第m架无人机和第n个用户的协同通信优化动作策略。
上述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤401中采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t),具体过程如下:
步骤4011、采用计算机根据公式
Figure GDA0003376312920000081
得到第t个时刻第m架无人机到第n个用户的LoS链路概率
Figure GDA0003376312920000082
其中,a表示与环境相关的第一常数,b表示与环境相关的第二常数,dm,n(t)表示第t个时刻第m架无人机到第n个用户的直线距离;
步骤4012、采用计算机根据公式
Figure GDA0003376312920000083
得到第t个时刻第m架无人机到第n个用户在LoS链路下的路径损耗
Figure GDA0003376312920000084
其中,ξLoS表示LoS链路下的附加损耗,c表示光速,fc表示信号载频;
步骤4013、采用计算机根据公式
Figure GDA0003376312920000085
得到第t个时刻第m架无人机到第n个用户在NLoS链路下的路径损耗
Figure GDA0003376312920000086
其中,ξNLoS表示NLoS链路下的附加损耗;
步骤4014、采用计算机根据公式
Figure GDA0003376312920000087
得到第t个第m架无人机到第n个用户信号的路径损耗PLm,n(t);其中,
Figure GDA0003376312920000088
表示第t个时刻第m架无人机到第n个用户的NLoS链路概率,且
Figure GDA0003376312920000089
步骤4015、采用计算机根据公式
Figure GDA00033763129200000810
得到第t个时刻第n个用户信号接收第m架无人机的信号功率
Figure GDA00033763129200000811
步骤4016、采用计算机根据公式
Figure GDA00033763129200000812
得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);其中,n0表示信道中高斯白噪声的功率谱密度。
上述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤4011中4.88<a<28,0<b<1;
步骤4012和步骤4013中NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB);
步骤504中用户奖励系数rc的取值范围为1~3;
步骤503中无人机的奖励系数rd的取值范围为1~5,且rd大于rc;指数参数κr的取值范围为1~5的正整数。
上述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤503中第t个时刻第m架无人机的边界惩罚项
Figure GDA00033763129200000921
的获取,具体过程如下:
步骤5031、设定地面区域D在X轴上的上界为umax,x,地面区域D在Y轴上的上界为umax,y,地面区域D在X轴上的下界为umin,x,地面区域D在Y轴上的下界为umin,y;且umin,x=umin,y=0;
步骤5032、采用计算机根据第t个时刻第m架无人机的位置
Figure GDA0003376312920000091
得到第t个时刻第m架无人机的X坐标
Figure GDA0003376312920000092
和第t个时刻第m架无人机的Y坐标
Figure GDA0003376312920000093
步骤5033、当
Figure GDA0003376312920000094
大于umax,x或者
Figure GDA0003376312920000095
小于umin,x时,采用计算机根据
Figure GDA0003376312920000096
得到第t个时刻第m架无人机的边界惩罚项
Figure GDA0003376312920000097
其中,rb表示惩罚项系数,κb表示梯度因子,用来决定边界函数的平缓程度,惩罚项系数rb的取值范围为10~50,梯度因子κb为0.07~0.1;
Figure GDA0003376312920000098
大于umax,y或者
Figure GDA0003376312920000099
小于umin,y时,采用计算机根据
Figure GDA00033763129200000910
得到第t个时刻第m架无人机的边界惩罚项
Figure GDA00033763129200000911
Figure GDA00033763129200000912
大于umax,x
Figure GDA00033763129200000913
大于umax,y或者
Figure GDA00033763129200000914
小于umin,x
Figure GDA00033763129200000915
小于umin,y时,采用计算机根据
Figure GDA00033763129200000916
得到第t个时刻第m架无人机的边界惩罚项
Figure GDA00033763129200000917
Figure GDA00033763129200000918
Figure GDA00033763129200000919
均位于地面区域D中时,
Figure GDA00033763129200000920
上述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤301中w的取值范围为3~20;
步骤306中αφ和βφ满足如下:αφ≥1,βφ≥1。
上述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤704中设定的最大回合Th的取值范围为5000~6000;
总轮数
Figure GDA0003376312920000101
本发明与现有技术相比具有以下优点:
1、本发明方法步骤简单、设计合理,以适应多个无人机和多用户的博弈,实现协同通信优化策略的预测,以使在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
2、本发明所采用的方法首先是无人机网络模型和用户网络模型的建立,然后通过无人机和用户场景设置、无人机和用户的观测状态的获取、无人机和用户的全局状态的获取、无人机和用户的奖励的获取和储存经验元组,得到训练数据,并通过MAPPO算法对训练数据进行训练以实现网络模型的参数的更新优化,得到优化后的网络模型;最后将后续时刻用户的观测状态和无人机的观测状态输入优化后的网络模型,以得到无人机和用户的协同通信优化策略。
3、本发明中利用MAPPO算法对无人机Actor网络的参数、用户Actor网络的参数、无人机Critic网络的参数和用户Critic网络的参数进行训练迭代,能使所有用户通过竞争策略贪婪最大化自身可获取通信速率,每架无人机为选择接入自己的用户智能分配功率及带宽资源,并且动态决策自己的飞行方位角,通过与其他无人机合作形成当前环境下最合适的空间拓扑结构。
4、本发明对用户的接入策略,无人机分配的功率、无人机分配的带宽资源调度以及无人机的飞行方位角进行了联合优化,且所有无人机共享总带宽资源,在满足每个用户最小通信速率约束条件下,通过动态资源调度最大化***吞吐量的同时保证用户之间通信速率的公平性。
5、本发明采用MAPPO(Multi-Agent Proximal Policy Optimization)算法来解决多种类型智能体离散与连续动作共存的问题。与以往集中决策无人机群多维动作的方法不同,MAPPO算法考虑到现实条件下的部分可观测性,使每个智能体仅依靠自身观测分布式决策。避免了单智能体强化学习算法处理多智能体问题时,集中决策方式带来的维度过高、不可扩展等弊端。
6、本发明针对不同无人机可能会被不同数量用户选择接入的现实问题,通过设置动作掩码,动态调整无人机资源分配策略维度,依靠动作掩码屏蔽没有选择接入的用户信息,即无人机只需要为选择接入自己的用户分配资源。
7、本发明针对无人机的飞行方位角优化时,考虑无人机飞行方位角有界的现实情况,采用参数化的贝塔策略取代传统高斯策略,可以解决无人机动作有界条件下高斯策略的有偏估计问题,并改善多峰奖励环境下收敛至局部最优现象。
8、本发明不仅对功率进行策略分配,而且对带宽进行策略分配,提高了分配的灵活性和纬度。
综上所述,本发明方法步骤简单,设计合理,通过无人机和用户网络模型参数优化,实现了无人机飞行方位角、功率、带宽分配优化,有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略,实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程框图。
具体实施方式
如图1所示的一种基于MAPPO算法多无人机与用户协同通信优化方法,包括以下步骤:
步骤一、无人机网络模型和用户网络模型的建立:
步骤101、设定无人机Actor网络的参数为φ,无人机Critic网络的参数为ω1,用户Actor网络的参数为θ,用户Critic网络的参数为ω2
步骤102、设定无人机Actor网络的参数φ的初始值为φ(0),无人机Critic网络的参数ω1的初始值为ω1(0),用户Actor网络的参数θ的初始值为θ(0),用户Critic网络的参数ω2的初始值为ω2(0);其中,φ(0)、ω1(0)、θ(0)和ω2(0)满足神经网络正交初始化;
步骤二、无人机和用户场景设置:
步骤201、建立二维直角坐标系OXY;其中,二维直角坐标系和地面区域D重合;
步骤202、设定地面区域D中存在N个用户,且用户集合为
Figure GDA0003376312920000121
Figure GDA0003376312920000122
其中,第t个时刻第n个用户的位置坐标为
Figure GDA0003376312920000123
n和N均为正整数,且1≤n≤N,地面区域D位于OXY的第一象限,且原点O和地面区域D的左下角重合,t为正整数;
步骤203、设定地面区域D的上空存在M架无人机,且无人机集合为
Figure GDA0003376312920000124
Figure GDA0003376312920000125
其中,M架无人机相对地面区域D的部署高度均为h;
步骤三、无人机和用户的观测状态的获取:
步骤301、采用计算机设定第t个时刻第n个用户的观测状态为
Figure GDA0003376312920000126
Figure GDA0003376312920000127
其中,
Figure GDA0003376312920000128
表示第t个时刻第n个用户的坐标位置,
Figure GDA0003376312920000129
表示第t个时刻第n个用户可接入的第m个无人机在OXY下的二维坐标位置,m和M均为正整数,且1≤m≤M;sm(t-j)表示第m个无人机在第t个时刻之前的第j个时刻中服务的用户数目,j为正整数,且j=1,…,w;w为正整数,且w<t;
步骤302、将第t个时刻第n个用户的观测状态
Figure GDA0003376312920000131
输入初始值为θ(0)的用户Actor网络中,用户Actor网络输出第m架无人机的预激活分量χm(θ(0));
步骤303、采用计算机根据
Figure GDA0003376312920000132
得到第t个时刻第n个用户选择第m架无人机动作的离散概率分布
Figure GDA0003376312920000133
其中,exp(·)表示以自然常数e为底的指数函数,
Figure GDA0003376312920000134
表示第t个时刻第n个用户选择无人机的动作;
步骤304、第t个时刻第n个用户根据离散概率分布
Figure GDA0003376312920000135
采样动作
Figure GDA0003376312920000136
并选择相应的无人机接入,并获取第t个时刻第n个用户选择无人机的动作
Figure GDA0003376312920000137
的概率
Figure GDA0003376312920000138
步骤305、根据用户选择及无人机自身状态,采用计算机设定第t个时刻第m架无人机的观测状态为
Figure GDA0003376312920000139
Figure GDA00033763129200001310
其中,
Figure GDA00033763129200001311
表示第t个时刻第m架无人机在OXY下的二维坐标位置,
Figure GDA00033763129200001312
表示第t个时刻除去第m架无人机后其它无人机在OXY下的坐标位置,m′为正整数,m′≠m,且
Figure GDA00033763129200001313
σm,n(t)表示接入第m架无人机的第n个用户的状态;
步骤306、采用计算机将第t个时刻第m架无人机的观测状态
Figure GDA00033763129200001314
输入初始值为φ(0)的无人机Actor网络中,无人机Actor网络输出第t个时刻第m架无人机的观测状态
Figure GDA00033763129200001315
下第t个时刻第m架无人机的动作
Figure GDA00033763129200001316
的概率分布
Figure GDA00033763129200001317
其中,
Figure GDA00033763129200001318
服从贝塔分布,即
Figure GDA00033763129200001319
αφ和βφ均为贝塔分布的形状参数;
Figure GDA00033763129200001320
表示第t个时刻第m架无人机的动作;
根据
Figure GDA00033763129200001321
采样动作
Figure GDA00033763129200001322
得到第t个时刻第m架无人机给第n个用户的发射功率输出值
Figure GDA00033763129200001323
第t个时刻第m架无人机给第n个用户的带宽输出值
Figure GDA0003376312920000141
和第t个时刻第m架无人机的飞行方位角
Figure GDA0003376312920000142
以及第t个时刻第m架无人机的动作
Figure GDA0003376312920000143
的概率
Figure GDA0003376312920000144
步骤307、采用计算机设定
Figure GDA0003376312920000145
作为第t个时刻第m架无人机的动作掩码,采用计算机令
Figure GDA0003376312920000146
Figure GDA0003376312920000147
其中,
Figure GDA0003376312920000148
表示第t个时刻第m架无人机给第n个用户掩码后功率值,
Figure GDA0003376312920000149
表示第t个时刻第m架无人机给第n个用户掩码后带宽值;
步骤308、采用计算机根据
Figure GDA00033763129200001410
得到第t个时刻第m架无人机给第n个用户分配的发射功率动作分量pm,n(t);
采用计算机根据
Figure GDA00033763129200001411
得到第t个时刻第m架无人机给第n个用户分配的带宽资源动作分量bm,n(t);其中,bm(t)表示第t个时刻第m架无人机可支配的带宽资源,且
Figure GDA00033763129200001412
Btotal表示所有UAV共享的总带宽资源,sm(t)表示接入第m架无人机的用户的总数,bmin表示最小可分带宽;
步骤309、采用计算机得到第t个时刻第m架无人机的动作
Figure GDA00033763129200001413
Figure GDA00033763129200001414
其中,
Figure GDA00033763129200001415
表示第t个时刻第m架无人机的飞行方位角;
步骤30A、将第t个时刻第n个用户的观测状态为
Figure GDA00033763129200001416
和第t个时刻第m架无人机的观测状态为
Figure GDA00033763129200001417
合并记作第t个时刻第i个智能体的观测状态
Figure GDA00033763129200001418
其中,智能体包括M架无人机和N个用户,i为正整数,且
Figure GDA00033763129200001419
将第t个时刻第n个用户选择无人机的动作
Figure GDA00033763129200001420
和第t个时刻第m架无人机的动作
Figure GDA00033763129200001421
合并记作第t个时刻第i个智能体的动作
Figure GDA00033763129200001422
将第t个时刻第n个用户选择无人机的动作
Figure GDA00033763129200001423
的概率
Figure GDA00033763129200001424
和第t个时刻第m架无人机的动作
Figure GDA0003376312920000151
的概率
Figure GDA0003376312920000152
合并记作第i个智能体的动作概率
Figure GDA0003376312920000153
步骤四、无人机和用户的全局状态的获取:
步骤401、采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);
步骤402、采用计算机根据
Figure GDA0003376312920000154
得到第t个时刻第n个用户的通信速率
Figure GDA0003376312920000155
步骤403、采用计算机设定第t个时刻第m架无人机的全局状态为
Figure GDA0003376312920000156
Figure GDA0003376312920000157
步骤404、采用计算机设定第t个时刻第n个用户的全局状态为
Figure GDA0003376312920000158
Figure GDA0003376312920000159
其中,
Figure GDA00033763129200001510
表示第t个时刻除去第n个用户后其它用户在OXY下的坐标位置,n′为正整数,且n′≠n,且
Figure GDA00033763129200001511
步骤405、将第t个时刻第m架无人机的全局状态
Figure GDA00033763129200001512
和第t个时刻第n个用户的全局状态
Figure GDA00033763129200001513
合并记作第t个时刻第i个智能体的全局状态
Figure GDA00033763129200001514
其中,i为正整数,且
Figure GDA00033763129200001515
步骤五、无人机和用户的奖励的获取:
步骤501、采用计算机根据
Figure GDA00033763129200001516
得到第t个时刻N个用户的平均通信速率cmean(t);
步骤502、采用计算机根据
Figure GDA00033763129200001517
得到第t个时刻第m架无人机的公平指数fm(t);
步骤503、采用计算机根据
Figure GDA00033763129200001518
得到第t个时刻第m架无人机的奖励
Figure GDA00033763129200001519
其中,rd表示无人机的奖励系数,κr为fm(t)的指数参数,
Figure GDA0003376312920000161
表示第t个时刻第m架无人机的边界惩罚项;
步骤504、采用计算机根据
Figure GDA0003376312920000162
得到第t个时刻第n个用户的奖励
Figure GDA0003376312920000163
其中,rc表示用户的奖励系数;
步骤505、采用计算机将第t个时刻第n个用户的奖励
Figure GDA0003376312920000164
和第t个时刻第m架无人机的奖励
Figure GDA0003376312920000165
合并记作第t个时刻第i个智能体的奖励
Figure GDA0003376312920000166
步骤六、储存经验元组:
步骤601、采用计算机将
Figure GDA0003376312920000167
作为第t个时刻第i个智能体的经验元组,并将其存入缓存区中;
步骤602、重复步骤三至步骤601,获取下一个时刻的经验元组,并将其存入缓存区中,直至t=Tmax时,完成一个回合的数据存储;其中,Tmax表示每个回合的总时刻数;
步骤603、重复步骤602,进行下一个回合的数据存储,直至缓存区中经验元组的数量为B,得到第一轮训练数据;其中,B大于Tmax
步骤七、MAPPO算法迭代优化网络模型的参数:
步骤701、输入第一轮训练数据,计算机利用MAPPO算法对无人机Actor网络φ的参数和用户Actor网络的参数θ进行梯度上升优化,得到无人机Actor网络的参数φ的第一轮优化值和用户Actor网络的参数θ的第一轮优化值;
同时,采用计算机利用MAPPO算法对中无人机Critic网络ω1的参数和用户Critic网络ω2的参数进行梯度下降优化,得到无人机Critic网络的参数ω1的第一轮优化值和用户Critic网络的参数ω2的第一轮优化值;
步骤702、按照步骤三至步骤603所述的方法,得到下一轮训练数据;
步骤703、输入下一轮训练数据,按照步骤701所述的方法,以上一轮优化值作为参数初始值,进行下一轮的优化更新,得到无人机Actor网络的参数φ的下一轮优化值、用户Actor网络的参数θ的下一轮优化值、无人机Critic网络的参数ω1的下一轮优化值和用户Critic网络的参数ω2的下一轮优化值;
步骤704、按照步骤三至步骤603所述的方法,完成设定的最大回合Th的数据存储,得到第P轮训练数据;其中,P为正整数;
步骤705、输入第P轮训练数据,并按照步骤701所述的方法,以上一轮优化值作为参数初始值,得到无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮最后轮优化值;
步骤八、多无人机和多用户协同通信优化预测:
步骤801、根据无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮优化值,得到优化后的网络模型;
步骤802、获取后续时刻第n个用户的观测状态和第m架无人机的观测状态,并输入优化后的网络模型,得到后续时刻第m架无人机和第n个用户的协同通信优化动作策略。
本实施例中,步骤401中采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t),具体过程如下:
步骤4011、采用计算机根据公式
Figure GDA0003376312920000171
得到第t个时刻第m架无人机到第n个用户的LoS链路概率
Figure GDA0003376312920000172
其中,a表示与环境相关的第一常数,b表示与环境相关的第二常数,dm,n(t)表示第t个时刻第m架无人机到第n个用户的直线距离;
步骤4012、采用计算机根据公式
Figure GDA0003376312920000173
得到第t个时刻第m架无人机到第n个用户在LoS链路下的路径损耗
Figure GDA0003376312920000174
其中,ξLoS表示LoS链路下的附加损耗,c表示光速,fc表示信号载频;
步骤4013、采用计算机根据公式
Figure GDA0003376312920000181
得到第t个时刻第m架无人机到第n个用户在NLoS链路下的路径损耗
Figure GDA0003376312920000182
其中,ξNLoS表示NLoS链路下的附加损耗;
步骤4014、采用计算机根据公式
Figure GDA0003376312920000183
得到第t个第m架无人机到第n个用户信号的路径损耗PLm,n(t);其中,
Figure GDA0003376312920000184
表示第t个时刻第m架无人机到第n个用户的NLoS链路概率,且
Figure GDA0003376312920000185
步骤4015、采用计算机根据公式
Figure GDA0003376312920000186
得到第t个时刻第n个用户信号接收第m架无人机的信号功率
Figure GDA0003376312920000187
步骤4016、采用计算机根据公式
Figure GDA0003376312920000188
得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);其中,n0表示信道中高斯白噪声的功率谱密度。
本实施例中,步骤4011中4.88<a<28,0<b<1;
步骤4012和步骤4013中NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB);
步骤504中用户奖励系数rc的取值范围为1~3;
步骤503中无人机的奖励系数rd的取值范围为1~5,且rd大于rc;指数参数κr的取值范围为1~5的正整数。
本实施例中,步骤503中第t个时刻第m架无人机的边界惩罚项
Figure GDA0003376312920000189
的获取,具体过程如下:
步骤5031、设定地面区域D在X轴上的上界为umax,x,地面区域D在Y轴上的上界为umax,y,地面区域D在X轴上的下界为umin,x,地面区域D在Y轴上的下界为umin,y;且umin,x=umin,y=0;
步骤5032、采用计算机根据第t个时刻第m架无人机的位置
Figure GDA00033763129200001810
得到第t个时刻第m架无人机的X坐标
Figure GDA0003376312920000191
和第t个时刻第m架无人机的Y坐标
Figure GDA0003376312920000192
步骤5033、当
Figure GDA0003376312920000193
大于umax,x或者
Figure GDA0003376312920000194
小于umin,x时,采用计算机根据
Figure GDA0003376312920000195
得到第t个时刻第m架无人机的边界惩罚项
Figure GDA0003376312920000196
其中,rb表示惩罚项系数,κb表示梯度因子,用来决定边界函数的平缓程度,惩罚项系数rb的取值范围为10~50,梯度因子κb为0.07~0.1;
Figure GDA0003376312920000197
大于umax,y或者
Figure GDA0003376312920000198
小于umin,y时,采用计算机根据
Figure GDA0003376312920000199
得到第t个时刻第m架无人机的边界惩罚项
Figure GDA00033763129200001910
Figure GDA00033763129200001911
大于umax,x
Figure GDA00033763129200001912
大于umax,y或者
Figure GDA00033763129200001913
小于umin,x
Figure GDA00033763129200001914
小于umin,y时,采用计算机根据
Figure GDA00033763129200001915
得到第t个时刻第m架无人机的边界惩罚项
Figure GDA00033763129200001916
Figure GDA00033763129200001917
Figure GDA00033763129200001918
均位于地面区域D中时,
Figure GDA00033763129200001919
本实施例中,步骤301中w的取值范围为3~20;
步骤306中αφ和βφ满足如下:αφ≥1,βφ≥1。
本实施例中,步骤704中设定的最大回合Th的取值范围为5000~6000;
总轮数
Figure GDA00033763129200001920
本实施例中,区域D为2km×2km的方形区域,M架无人机相对地面区域D的部署高度h=500m,每个回合开始时,所有无人机从原点起飞,而用户随机分布在区域D并以随机的方向和速度运动,Tmax=1000。
本实施例中,设定的最大回合Th的取值为5000,B的取值为2000~4000。
本实施例中,w的取值范围为3。
本实施例中,每架无人机的发射的总发射功率Ptotal为10mw,所有UAV共享的总带宽资源Btotal=30MHz,信号载频fc=2GHz,信道中高斯白噪声的功率谱密度n0=1×10-17mw/Hz,最小可分带宽bmin=0.1MHz。
本实施例中,Tmax=1000,每个决策时间间隔为1s,即第个t时刻和第个t+1时刻的间隔为1s。
本实施例中,实际使用时,当σm,n(t)=1时表示第n个用户选择第m架无人机作为接入基站时,反之则为0。
本实施例中,用户奖励系数rc的取值为1,无人机的奖励系数rd的取值为2,指数参数κr的取值为5,
本实施例中,惩罚项系数rb的取值范围为20,梯度因子κb为8×10-2
本实施例中,αφ=βφ=1。
综上所述,本发明方法步骤简单,设计合理,通过无人机和用户网络模型参数优化,实现了无人机飞行方位角、功率、带宽分配优化,有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略,实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。

Claims (6)

1.一种基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于,该方法包括以下步骤:
步骤一、无人机网络模型和用户网络模型的建立:
步骤101、设定无人机Actor网络的参数为φ,无人机Critic网络的参数为ω1,用户Actor网络的参数为θ,用户Critic网络的参数为ω2
步骤102、设定无人机Actor网络的参数φ的初始值为φ(0),无人机Critic网络的参数ω1的初始值为ω1(0),用户Actor网络的参数θ的初始值为θ(0),用户Critic网络的参数ω2的初始值为ω2(0);其中,φ(0)、ω1(0)、θ(0)和ω2(0)满足神经网络正交初始化;
步骤二、无人机和用户场景设置:
步骤201、建立二维直角坐标系OXY;其中,二维直角坐标系和地面区域D重合;
步骤202、设定地面区域D中存在N个用户,且用户集合为
Figure FDA0003376312910000011
Figure FDA0003376312910000012
其中,第t个时刻第n个用户的位置坐标为
Figure FDA0003376312910000013
n和N均为正整数,且1≤n≤N,地面区域D位于OXY的第一象限,且原点O和地面区域D的左下角重合,t为正整数;
步骤203、设定地面区域D的上空存在M架无人机,且无人机集合为
Figure FDA0003376312910000014
Figure FDA0003376312910000015
其中,M架无人机相对地面区域D的部署高度均为h;
步骤三、无人机和用户的观测状态的获取:
步骤301、采用计算机设定第t个时刻第n个用户的观测状态为
Figure FDA0003376312910000016
Figure FDA0003376312910000017
其中,
Figure FDA0003376312910000018
表示第t个时刻第n个用户的坐标位置,
Figure FDA0003376312910000019
表示第t个时刻第n个用户可接入的第m个无人机在OXY下的二维坐标位置,m和M均为正整数,且1≤m≤M;sm(t-j)表示第m个无人机在第t个时刻之前的第j个时刻中服务的用户数目,j为正整数,且j=1,…,w;w为正整数,且w<t;
步骤302、将第t个时刻第n个用户的观测状态
Figure FDA0003376312910000021
输入初始值为θ(0)的用户Actor网络中,用户Actor网络输出第m架无人机的预激活分量χm(θ(0));
步骤303、采用计算机根据
Figure FDA0003376312910000022
得到第t个时刻第n个用户选择第m架无人机动作的离散概率分布
Figure FDA0003376312910000023
其中,exp(·)表示以自然常数e为底的指数函数,
Figure FDA0003376312910000024
表示第t个时刻第n个用户选择无人机的动作;
步骤304、第t个时刻第n个用户根据离散概率分布
Figure FDA0003376312910000025
采样动作
Figure FDA0003376312910000026
并选择相应的无人机接入,并获取第t个时刻第n个用户选择无人机的动作
Figure FDA0003376312910000027
的概率
Figure FDA0003376312910000028
步骤305、根据用户选择及无人机自身状态,采用计算机设定第t个时刻第m架无人机的观测状态为
Figure FDA0003376312910000029
Figure FDA00033763129100000210
其中,
Figure FDA00033763129100000211
表示第t个时刻第m架无人机在OXY下的二维坐标位置,
Figure FDA00033763129100000212
表示第t个时刻除去第m架无人机后其它无人机在OXY下的坐标位置,m′为正整数,m′≠m,且
Figure FDA00033763129100000213
σm,n(t)表示接入第m架无人机的第n个用户的状态;
步骤306、采用计算机将第t个时刻第m架无人机的观测状态
Figure FDA00033763129100000214
输入初始值为φ(0)的无人机Actor网络中,无人机Actor网络输出第t个时刻第m架无人机的观测状态
Figure FDA00033763129100000215
下第t个时刻第m架无人机的动作
Figure FDA00033763129100000216
的概率分布
Figure FDA00033763129100000217
其中,
Figure FDA00033763129100000218
服从贝塔分布,即
Figure FDA00033763129100000219
αφ和βφ均为贝塔分布的形状参数;
Figure FDA00033763129100000220
表示第t个时刻第m架无人机的动作;
根据
Figure FDA00033763129100000221
采样动作
Figure FDA00033763129100000222
得到第t个时刻第m架无人机给第n个用户的发射功率输出值
Figure FDA0003376312910000031
第t个时刻第m架无人机给第n个用户的带宽输出值
Figure FDA0003376312910000032
和第t个时刻第m架无人机的飞行方位角
Figure FDA0003376312910000033
以及第t个时刻第m架无人机的动作
Figure FDA0003376312910000034
的概率
Figure FDA0003376312910000035
步骤307、采用计算机设定
Figure FDA0003376312910000036
作为第t个时刻第m架无人机的动作掩码,采用计算机令
Figure FDA0003376312910000037
Figure FDA0003376312910000038
其中,
Figure FDA0003376312910000039
表示第t个时刻第m架无人机给第n个用户掩码后功率值,
Figure FDA00033763129100000310
表示第t个时刻第m架无人机给第n个用户掩码后带宽值;
步骤308、采用计算机根据
Figure FDA00033763129100000311
得到第t个时刻第m架无人机给第n个用户分配的发射功率动作分量pm,n(t);
采用计算机根据
Figure FDA00033763129100000312
得到第t个时刻第m架无人机给第n个用户分配的带宽资源动作分量bm,n(t);其中,bm(t)表示第t个时刻第m架无人机可支配的带宽资源,且
Figure FDA00033763129100000313
Btotal表示所有UAV共享的总带宽资源,sm(t)表示接入第m架无人机的用户的总数,bmin表示最小可分带宽;Ptotal表示每架无人机的发射的总发射功率;
步骤309、采用计算机得到第t个时刻第m架无人机的动作
Figure FDA00033763129100000314
Figure FDA00033763129100000315
其中,
Figure FDA00033763129100000316
表示第t个时刻第m架无人机的飞行方位角;
步骤30A、将第t个时刻第n个用户的观测状态为
Figure FDA00033763129100000317
和第t个时刻第m架无人机的观测状态为
Figure FDA00033763129100000318
合并记作第t个时刻第i个智能体的观测状态
Figure FDA00033763129100000319
其中,智能体包括M架无人机和N个用户,i为正整数,且
Figure FDA00033763129100000320
将第t个时刻第n个用户选择无人机的动作
Figure FDA00033763129100000321
和第t个时刻第m架无人机的动作
Figure FDA00033763129100000322
合并记作第t个时刻第i个智能体的动作
Figure FDA00033763129100000323
将第t个时刻第n个用户选择无人机的动作
Figure FDA0003376312910000041
的概率
Figure FDA0003376312910000042
和第t个时刻第m架无人机的动作
Figure FDA0003376312910000043
的概率
Figure FDA0003376312910000044
合并记作第i个智能体的动作概率
Figure FDA0003376312910000045
步骤四、无人机和用户的全局状态的获取:
步骤401、采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);
步骤402、采用计算机根据
Figure FDA0003376312910000046
得到第t个时刻第n个用户的通信速率
Figure FDA0003376312910000047
步骤403、采用计算机设定第t个时刻第m架无人机的全局状态为
Figure FDA0003376312910000048
Figure FDA0003376312910000049
步骤404、采用计算机设定第t个时刻第n个用户的全局状态为
Figure FDA00033763129100000410
Figure FDA00033763129100000411
其中,
Figure FDA00033763129100000412
表示第t个时刻除去第n个用户后其它用户在OXY下的坐标位置,n′为正整数,且n′≠n,且
Figure FDA00033763129100000413
步骤405、将第t个时刻第m架无人机的全局状态
Figure FDA00033763129100000414
和第t个时刻第n个用户的全局状态
Figure FDA00033763129100000415
合并记作第t个时刻第i个智能体的全局状态
Figure FDA00033763129100000416
其中,i为正整数,且
Figure FDA00033763129100000417
步骤五、无人机和用户的奖励的获取:
步骤501、采用计算机根据
Figure FDA00033763129100000418
得到第t个时刻N个用户的平均通信速率cmean(t);
步骤502、采用计算机根据
Figure FDA00033763129100000419
得到第t个时刻第m架无人机的公平指数fm(t);
步骤503、采用计算机根据
Figure FDA00033763129100000420
得到第t个时刻第m架无人机的奖励
Figure FDA0003376312910000051
其中,rd表示无人机的奖励系数,κr为fm(t)的指数参数,
Figure FDA0003376312910000052
表示第t个时刻第m架无人机的边界惩罚项;
步骤504、采用计算机根据
Figure FDA0003376312910000053
得到第t个时刻第n个用户的奖励
Figure FDA0003376312910000054
其中,rc表示用户的奖励系数;
步骤505、采用计算机将第t个时刻第n个用户的奖励
Figure FDA0003376312910000055
和第t个时刻第m架无人机的奖励
Figure FDA0003376312910000056
合并记作第t个时刻第i个智能体的奖励
Figure FDA0003376312910000057
步骤六、储存经验元组:
步骤601、采用计算机将
Figure FDA0003376312910000058
作为第t个时刻第i个智能体的经验元组,并将其存入缓存区中;
步骤602、重复步骤三至步骤601,获取下一个时刻的经验元组,并将其存入缓存区中,直至t=Tmax时,完成一个回合的数据存储;其中,Tmax表示每个回合的总时刻数;
步骤603、重复步骤602,进行下一个回合的数据存储,直至缓存区中经验元组的数量为B,得到第一轮训练数据;其中,B大于Tmax
步骤七、MAPPO算法迭代优化网络模型的参数:
步骤701、输入第一轮训练数据,计算机利用MAPPO算法对无人机Actor网络φ的参数和用户Actor网络的参数θ进行梯度上升优化,得到无人机Actor网络的参数φ的第一轮优化值和用户Actor网络的参数θ的第一轮优化值;
同时,采用计算机利用MAPPO算法对中无人机Critic网络ω1的参数和用户Critic网络ω2的参数进行梯度下降优化,得到无人机Critic网络的参数ω1的第一轮优化值和用户Critic网络的参数ω2的第一轮优化值;
步骤702、按照步骤三至步骤603所述的方法,得到下一轮训练数据;
步骤703、输入下一轮训练数据,按照步骤701所述的方法,以上一轮优化值作为参数初始值,进行下一轮的优化更新,得到无人机Actor网络的参数φ的下一轮优化值、用户Actor网络的参数θ的下一轮优化值、无人机Critic网络的参数ω1的下一轮优化值和用户Critic网络的参数ω2的下一轮优化值;
步骤704、按照步骤三至步骤603所述的方法,完成设定的最大回合Th的数据存储,得到第P轮训练数据;其中,P为正整数;
步骤705、输入第P轮训练数据,并按照步骤701所述的方法,以上一轮优化值作为参数初始值,得到无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮最后轮优化值;
步骤八、多无人机和多用户协同通信优化预测:
步骤801、根据无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮优化值,得到优化后的网络模型;
步骤802、获取后续时刻第n个用户的观测状态和第m架无人机的观测状态,并输入优化后的网络模型,得到后续时刻第m架无人机和第n个用户的协同通信优化动作策略。
2.按照权利要求1所述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤401中采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t),具体过程如下:
步骤4011、采用计算机根据公式
Figure FDA0003376312910000061
得到第t个时刻第m架无人机到第n个用户的LoS链路概率
Figure FDA0003376312910000062
其中,a表示与环境相关的第一常数,b表示与环境相关的第二常数,dm,n(t)表示第t个时刻第m架无人机到第n个用户的直线距离;
步骤4012、采用计算机根据公式
Figure FDA0003376312910000071
得到第t个时刻第m架无人机到第n个用户在LoS链路下的路径损耗
Figure FDA0003376312910000072
其中,ξLoS表示LoS链路下的附加损耗,c表示光速,fc表示信号载频;
步骤4013、采用计算机根据公式
Figure FDA0003376312910000073
得到第t个时刻第m架无人机到第n个用户在NLoS链路下的路径损耗
Figure FDA0003376312910000074
其中,ξNLoS表示NLoS链路下的附加损耗;
步骤4014、采用计算机根据公式
Figure FDA0003376312910000075
得到第t个第m架无人机到第n个用户信号的路径损耗PLm,n(t);其中,
Figure FDA0003376312910000076
表示第t个时刻第m架无人机到第n个用户的NLoS链路概率,且
Figure FDA0003376312910000077
步骤4015、采用计算机根据公式
Figure FDA0003376312910000078
得到第t个时刻第n个用户信号接收第m架无人机的信号功率
Figure FDA0003376312910000079
步骤4016、采用计算机根据公式
Figure FDA00033763129100000710
得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);其中,n0表示信道中高斯白噪声的功率谱密度。
3.按照权利要求2所述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤4011中4.88<a<28,0<b<1;
步骤4012和步骤4013中NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB);
步骤504中用户奖励系数rc的取值范围为1~3;
步骤503中无人机的奖励系数rd的取值范围为1~5,且rd大于rc;指数参数κr的取值范围为1~5的正整数。
4.按照权利要求1所述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤503中第t个时刻第m架无人机的边界惩罚项
Figure FDA0003376312910000081
的获取,具体过程如下:
步骤5031、设定地面区域D在X轴上的上界为umax,x,地面区域D在Y轴上的上界为umax,y,地面区域D在X轴上的下界为umin,x,地面区域D在Y轴上的下界为umin,y;且umin,x=umin,y=0;
步骤5032、采用计算机根据第t个时刻第m架无人机的位置
Figure FDA0003376312910000082
得到第t个时刻第m架无人机的X坐标
Figure FDA0003376312910000083
和第t个时刻第m架无人机的Y坐标
Figure FDA0003376312910000084
步骤5033、当
Figure FDA0003376312910000085
大于umax,x或者
Figure FDA0003376312910000086
小于umin,x时,采用计算机根据
Figure FDA0003376312910000087
得到第t个时刻第m架无人机的边界惩罚项
Figure FDA0003376312910000088
其中,rb表示惩罚项系数,κb表示梯度因子,用来决定边界函数的平缓程度,惩罚项系数rb的取值范围为10~50,梯度因子κb为0.07~0.1;
Figure FDA0003376312910000089
大于umax,y或者
Figure FDA00033763129100000810
小于umin,y时,采用计算机根据
Figure FDA00033763129100000811
得到第t个时刻第m架无人机的边界惩罚项
Figure FDA00033763129100000812
Figure FDA00033763129100000813
大于umax,x
Figure FDA00033763129100000814
大于umax,y或者
Figure FDA00033763129100000815
小于umin,x
Figure FDA00033763129100000816
小于umin,y时,采用计算机根据
Figure FDA00033763129100000817
得到第t个时刻第m架无人机的边界惩罚项
Figure FDA00033763129100000818
Figure FDA00033763129100000819
Figure FDA00033763129100000820
均位于地面区域D中时,
Figure FDA00033763129100000821
5.按照权利要求1所述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤301中w的取值范围为3~20;
步骤306中αφ和βφ满足如下:αφ≥1,βφ≥1。
6.按照权利要求1所述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤704中设定的最大回合Th的取值范围为5000~6000;
总轮数
Figure FDA0003376312910000091
CN202110806485.3A 2021-07-16 2021-07-16 基于mappo算法多无人机与用户协同通信优化方法 Active CN113359480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110806485.3A CN113359480B (zh) 2021-07-16 2021-07-16 基于mappo算法多无人机与用户协同通信优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110806485.3A CN113359480B (zh) 2021-07-16 2021-07-16 基于mappo算法多无人机与用户协同通信优化方法

Publications (2)

Publication Number Publication Date
CN113359480A CN113359480A (zh) 2021-09-07
CN113359480B true CN113359480B (zh) 2022-02-01

Family

ID=77539837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110806485.3A Active CN113359480B (zh) 2021-07-16 2021-07-16 基于mappo算法多无人机与用户协同通信优化方法

Country Status (1)

Country Link
CN (1) CN113359480B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114337785A (zh) * 2021-12-30 2022-04-12 陕西锐远信息科技有限公司 太阳能无人机通信能量管理策略、***、终端及存储介质
CN114363340B (zh) * 2022-01-12 2023-12-26 东南大学 无人机集群失效的控制方法、***及存储介质
CN114915998B (zh) * 2022-05-31 2023-05-05 电子科技大学 一种无人机辅助自组网通信***信道容量计算方法
CN115484205B (zh) * 2022-07-12 2023-12-01 北京邮电大学 确定性网络路由与队列调度方法及装置
CN115494732B (zh) * 2022-09-29 2024-04-12 湖南大学 一种基于近端策略优化的无人机轨迹设计和功率分配方法
CN118113482A (zh) * 2024-04-26 2024-05-31 北京科技大学 一种针对智能窃听者的安全计算卸载方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
WO2021033486A1 (ja) * 2019-08-22 2021-02-25 オムロン株式会社 モデル生成装置、モデル生成方法、制御装置及び制御方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3725471A1 (en) * 2019-04-16 2020-10-21 Robert Bosch GmbH Configuring a system which interacts with an environment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
WO2021033486A1 (ja) * 2019-08-22 2021-02-25 オムロン株式会社 モデル生成装置、モデル生成方法、制御装置及び制御方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Efficient Deployment With Geometric Analysis for mmWave UAV Communications;Jianwei Zhao et. al.;《IEEE WIRELESS COMMUNICATIONS LETTERS》;20200731;第9卷(第7期);第1115-1119页 *
一种基于公平性的无人机基站通信智能资源调度方法;吴官翰 等;《中兴通讯技术》;20210430;第27卷(第2期);第31-36页 *
无人机骨干网分布式组网及接入选择算法;吴炜钰 等;《计算机学报》;20190228;第42卷(第2期);第121-137页 *

Also Published As

Publication number Publication date
CN113359480A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113359480B (zh) 基于mappo算法多无人机与用户协同通信优化方法
CN111786713B (zh) 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN108419286B (zh) 一种面对5g无人机通信联合波束与功率的分配方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN111970709B (zh) 一种基于粒子群优化算法的无人机中继部署方法及***
CN113660681B (zh) 一种应用于无人机集群辅助传输的多智能体资源优化方法
CN113115344B (zh) 基于噪声优化的无人机基站通信资源分配策略预测方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN112702713B (zh) 一种多约束条件下的低空无人机通信部署方法
CN112203289A (zh) 一种集群无人机区域覆盖的空中基站网络部署方法
Hajiakhondi-Meybodi et al. Joint transmission scheme and coded content placement in cluster-centric UAV-aided cellular networks
CN113919483A (zh) 一种无线通信网络中无线电地图的构造和定位方法及其***
CN115441939A (zh) 基于maddpg算法的多波束卫星通信***资源分配方法
CN116887355A (zh) 一种多无人机公平协作和任务卸载优化方法及***
CN117499867A (zh) 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法
CN114020024A (zh) 基于蒙特卡洛树搜索的无人机路径规划方法
CN116249202A (zh) 一种物联网设备的联合定位与计算支持方法
CN116321181A (zh) 一种多无人机辅助边缘计算的在线轨迹及资源优化方法
CN115765826A (zh) 一种面向按需服务的无人机网络拓扑重构方法
CN114980205A (zh) 多天线无人机视频传输***QoE最大化方法和装置
Lyu et al. Movement and communication co-design in multi-UAV enabled wireless systems via DRL
CN114520991A (zh) 基于无人机集群的边缘网络自适应部署方法
CN116684852B (zh) 一种山地茂林环境无人机通信资源与悬停位置规划方法
CN117750505A (zh) 一种空天地一体化切片网络资源分配方法
CN117858105B (zh) 复杂电磁环境下多无人机协作集划分与部署办法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant