CN113359480B - 基于mappo算法多无人机与用户协同通信优化方法 - Google Patents
基于mappo算法多无人机与用户协同通信优化方法 Download PDFInfo
- Publication number
- CN113359480B CN113359480B CN202110806485.3A CN202110806485A CN113359480B CN 113359480 B CN113359480 B CN 113359480B CN 202110806485 A CN202110806485 A CN 202110806485A CN 113359480 B CN113359480 B CN 113359480B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- user
- mth
- tth moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于MAPPO算法多无人机与用户协同通信优化方法,包括以下步骤:一、无人机网络模型和用户网络模型的建立;二、无人机和用户场景设置;三、无人机和用户的观测状态的获取;四、无人机和用户的全局状态的获取;五、无人机和用户的奖励的获取;六、储存经验元组;七、MAPPO算法迭代优化网络模型的参数;八、多无人机和多用户协同通信优化预测。本发明通过无人机和用户网络模型参数优化,实现了无人机飞行方位角、功率、带宽分配优化,有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略,实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
Description
技术领域
本发明属于无人机和用户通信技术领域,尤其是涉及一种基于MAPPO算法多无人机与用户协同通信优化方法。
背景技术
在当前5G移动通信中,随着各种新兴产业迅猛发展地面骨干网承受着巨大的数据传输压力。同时受限于地理条件的影响,许多偏远地区仍处于无线覆盖欠缺的状态。这些前所未有的对高质量无线通信服务的需求,对当前传统地面通信网络提出了严峻挑战。为此,在未来6G及以后的无线通信中,无人机(Unmanned Aerial Vehicle,UAV)作为空中接入节点辅助地面通信成为一种有前途的解决方案。
无人机作为飞行基站具有较强的灵活性及自由度,可跨越多种地形为用户提供无线覆盖,一方面可以卸载部分地面溢出的计算负荷,减轻地面基站计算传输压力,另一方面可以灵活调整地面覆盖范围及区域,以应对随机运动的地面用户(Ground User,GU)。与此同时,无人机空地链路的良好视距特性使得非视距遮挡和阴影效应的概率大为减少,在一定程度上减少了不必要的路径损耗,在无人机有限的能量和提供同等通信服务质量(Quality of Service,QoS)条件下,更有助于延长它的工作时间。
现有的主要针对无人机在固定的通信资源分配,或对单一通信资源分配下对无人机进行轨迹优化。优化目标仅局限于无人机或地面接入控制,并未从多个无人机和多个用户层面去进行研究。
因此,现如今缺少一种基于MAPPO算法多无人机与用户协同通信优化方法,通过无人机和用户网络模型参数优化,实现了无人机飞行方位角、功率、带宽分配优化,有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略,实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于MAPPO算法多无人机与用户协同通信优化方法,其方法步骤简单,设计合理,通过无人机和用户网络模型参数优化,实现了无人机飞行方位角、功率、带宽分配优化,有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略,实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
为解决上述技术问题,本发明采用的技术方案是:一种基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于,该方法包括以下步骤:
步骤一、无人机网络模型和用户网络模型的建立:
步骤101、设定无人机Actor网络的参数为φ,无人机Critic网络的参数为ω1,用户Actor网络的参数为θ,用户Critic网络的参数为ω2;
步骤102、设定无人机Actor网络的参数φ的初始值为φ(0),无人机Critic网络的参数ω1的初始值为ω1(0),用户Actor网络的参数θ的初始值为θ(0),用户Critic网络的参数ω2的初始值为ω2(0);其中,φ(0)、ω1(0)、θ(0)和ω2(0)满足神经网络正交初始化;
步骤二、无人机和用户场景设置:
步骤201、建立二维直角坐标系OXY;其中,二维直角坐标系和地面区域D重合;
步骤202、设定地面区域D中存在N个用户,且用户集合为 其中,第t个时刻第n个用户的位置坐标为n和N均为正整数,且1≤n≤N,地面区域D位于OXY的第一象限,且原点O和地面区域D的左下角重合,t为正整数;
步骤三、无人机和用户的观测状态的获取:
步骤301、采用计算机设定第t个时刻第n个用户的观测状态为且其中,表示第t个时刻第n个用户的坐标位置,表示第t个时刻第n个用户可接入的第m个无人机在OXY下的二维坐标位置,m和M均为正整数,且1≤m≤M;sm(t-j)表示第m个无人机在第t个时刻之前的第j个时刻中服务的用户数目,j为正整数,且j=1,…,w;w为正整数,且w<t;
步骤305、根据用户选择及无人机自身状态,采用计算机设定第t个时刻第m架无人机的观测状态为且其中,表示第t个时刻第m架无人机在OXY下的二维坐标位置,表示第t个时刻除去第m架无人机后其它无人机在OXY下的坐标位置,m′为正整数,m′≠m,且σm,n(t)表示接入第m架无人机的第n个用户的状态;
步骤306、采用计算机将第t个时刻第m架无人机的观测状态输入初始值为φ(0)的无人机Actor网络中,无人机Actor网络输出第t个时刻第m架无人机的观测状态下第t个时刻第m架无人机的动作的概率分布其中,服从贝塔分布,即αφ和βφ均为贝塔分布的形状参数;表示第t个时刻第m架无人机的动作;
采用计算机根据得到第t个时刻第m架无人机给第n个用户分配的带宽资源动作分量bm,n(t);其中,bm(t)表示第t个时刻第m架无人机可支配的带宽资源,且Btotal表示所有UAV共享的总带宽资源,sm(t)表示接入第m架无人机的用户的总数,bmin表示最小可分带宽;
步骤四、无人机和用户的全局状态的获取:
步骤401、采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);
步骤五、无人机和用户的奖励的获取:
步骤六、储存经验元组:
步骤602、重复步骤三至步骤601,获取下一个时刻的经验元组,并将其存入缓存区中,直至t=Tmax时,完成一个回合的数据存储;其中,Tmax表示每个回合的总时刻数;
步骤603、重复步骤602,进行下一个回合的数据存储,直至缓存区中经验元组的数量为B,得到第一轮训练数据;其中,B大于Tmax;
步骤七、MAPPO算法迭代优化网络模型的参数:
步骤701、输入第一轮训练数据,计算机利用MAPPO算法对无人机Actor网络φ的参数和用户Actor网络的参数θ进行梯度上升优化,得到无人机Actor网络的参数φ的第一轮优化值和用户Actor网络的参数θ的第一轮优化值;
同时,采用计算机利用MAPPO算法对中无人机Critic网络ω1的参数和用户Critic网络ω2的参数进行梯度下降优化,得到无人机Critic网络的参数ω1的第一轮优化值和用户Critic网络的参数ω2的第一轮优化值;
步骤702、按照步骤三至步骤603所述的方法,得到下一轮训练数据;
步骤703、输入下一轮训练数据,按照步骤701所述的方法,以上一轮优化值作为参数初始值,进行下一轮的优化更新,得到无人机Actor网络的参数φ的下一轮优化值、用户Actor网络的参数θ的下一轮优化值、无人机Critic网络的参数ω1的下一轮优化值和用户Critic网络的参数ω2的下一轮优化值;
步骤704、按照步骤三至步骤603所述的方法,完成设定的最大回合Th的数据存储,得到第P轮训练数据;其中,P为正整数;
步骤705、输入第P轮训练数据,并按照步骤701所述的方法,以上一轮优化值作为参数初始值,得到无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮最后轮优化值;
步骤八、多无人机和多用户协同通信优化预测:
步骤801、根据无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮优化值,得到优化后的网络模型;
步骤802、获取后续时刻第n个用户的观测状态和第m架无人机的观测状态,并输入优化后的网络模型,得到后续时刻第m架无人机和第n个用户的协同通信优化动作策略。
上述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤401中采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t),具体过程如下:
步骤4011、采用计算机根据公式得到第t个时刻第m架无人机到第n个用户的LoS链路概率其中,a表示与环境相关的第一常数,b表示与环境相关的第二常数,dm,n(t)表示第t个时刻第m架无人机到第n个用户的直线距离;
上述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤4011中4.88<a<28,0<b<1;
步骤4012和步骤4013中NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB);
步骤504中用户奖励系数rc的取值范围为1~3;
步骤503中无人机的奖励系数rd的取值范围为1~5,且rd大于rc;指数参数κr的取值范围为1~5的正整数。
步骤5031、设定地面区域D在X轴上的上界为umax,x,地面区域D在Y轴上的上界为umax,y,地面区域D在X轴上的下界为umin,x,地面区域D在Y轴上的下界为umin,y;且umin,x=umin,y=0;
步骤5033、当大于umax,x或者小于umin,x时,采用计算机根据得到第t个时刻第m架无人机的边界惩罚项其中,rb表示惩罚项系数,κb表示梯度因子,用来决定边界函数的平缓程度,惩罚项系数rb的取值范围为10~50,梯度因子κb为0.07~0.1;
上述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤301中w的取值范围为3~20;
步骤306中αφ和βφ满足如下:αφ≥1,βφ≥1。
上述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤704中设定的最大回合Th的取值范围为5000~6000;
本发明与现有技术相比具有以下优点:
1、本发明方法步骤简单、设计合理,以适应多个无人机和多用户的博弈,实现协同通信优化策略的预测,以使在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
2、本发明所采用的方法首先是无人机网络模型和用户网络模型的建立,然后通过无人机和用户场景设置、无人机和用户的观测状态的获取、无人机和用户的全局状态的获取、无人机和用户的奖励的获取和储存经验元组,得到训练数据,并通过MAPPO算法对训练数据进行训练以实现网络模型的参数的更新优化,得到优化后的网络模型;最后将后续时刻用户的观测状态和无人机的观测状态输入优化后的网络模型,以得到无人机和用户的协同通信优化策略。
3、本发明中利用MAPPO算法对无人机Actor网络的参数、用户Actor网络的参数、无人机Critic网络的参数和用户Critic网络的参数进行训练迭代,能使所有用户通过竞争策略贪婪最大化自身可获取通信速率,每架无人机为选择接入自己的用户智能分配功率及带宽资源,并且动态决策自己的飞行方位角,通过与其他无人机合作形成当前环境下最合适的空间拓扑结构。
4、本发明对用户的接入策略,无人机分配的功率、无人机分配的带宽资源调度以及无人机的飞行方位角进行了联合优化,且所有无人机共享总带宽资源,在满足每个用户最小通信速率约束条件下,通过动态资源调度最大化***吞吐量的同时保证用户之间通信速率的公平性。
5、本发明采用MAPPO(Multi-Agent Proximal Policy Optimization)算法来解决多种类型智能体离散与连续动作共存的问题。与以往集中决策无人机群多维动作的方法不同,MAPPO算法考虑到现实条件下的部分可观测性,使每个智能体仅依靠自身观测分布式决策。避免了单智能体强化学习算法处理多智能体问题时,集中决策方式带来的维度过高、不可扩展等弊端。
6、本发明针对不同无人机可能会被不同数量用户选择接入的现实问题,通过设置动作掩码,动态调整无人机资源分配策略维度,依靠动作掩码屏蔽没有选择接入的用户信息,即无人机只需要为选择接入自己的用户分配资源。
7、本发明针对无人机的飞行方位角优化时,考虑无人机飞行方位角有界的现实情况,采用参数化的贝塔策略取代传统高斯策略,可以解决无人机动作有界条件下高斯策略的有偏估计问题,并改善多峰奖励环境下收敛至局部最优现象。
8、本发明不仅对功率进行策略分配,而且对带宽进行策略分配,提高了分配的灵活性和纬度。
综上所述,本发明方法步骤简单,设计合理,通过无人机和用户网络模型参数优化,实现了无人机飞行方位角、功率、带宽分配优化,有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略,实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程框图。
具体实施方式
如图1所示的一种基于MAPPO算法多无人机与用户协同通信优化方法,包括以下步骤:
步骤一、无人机网络模型和用户网络模型的建立:
步骤101、设定无人机Actor网络的参数为φ,无人机Critic网络的参数为ω1,用户Actor网络的参数为θ,用户Critic网络的参数为ω2;
步骤102、设定无人机Actor网络的参数φ的初始值为φ(0),无人机Critic网络的参数ω1的初始值为ω1(0),用户Actor网络的参数θ的初始值为θ(0),用户Critic网络的参数ω2的初始值为ω2(0);其中,φ(0)、ω1(0)、θ(0)和ω2(0)满足神经网络正交初始化;
步骤二、无人机和用户场景设置:
步骤201、建立二维直角坐标系OXY;其中,二维直角坐标系和地面区域D重合;
步骤202、设定地面区域D中存在N个用户,且用户集合为 其中,第t个时刻第n个用户的位置坐标为n和N均为正整数,且1≤n≤N,地面区域D位于OXY的第一象限,且原点O和地面区域D的左下角重合,t为正整数;
步骤三、无人机和用户的观测状态的获取:
步骤301、采用计算机设定第t个时刻第n个用户的观测状态为且其中,表示第t个时刻第n个用户的坐标位置,表示第t个时刻第n个用户可接入的第m个无人机在OXY下的二维坐标位置,m和M均为正整数,且1≤m≤M;sm(t-j)表示第m个无人机在第t个时刻之前的第j个时刻中服务的用户数目,j为正整数,且j=1,…,w;w为正整数,且w<t;
步骤305、根据用户选择及无人机自身状态,采用计算机设定第t个时刻第m架无人机的观测状态为且其中,表示第t个时刻第m架无人机在OXY下的二维坐标位置,表示第t个时刻除去第m架无人机后其它无人机在OXY下的坐标位置,m′为正整数,m′≠m,且σm,n(t)表示接入第m架无人机的第n个用户的状态;
步骤306、采用计算机将第t个时刻第m架无人机的观测状态输入初始值为φ(0)的无人机Actor网络中,无人机Actor网络输出第t个时刻第m架无人机的观测状态下第t个时刻第m架无人机的动作的概率分布其中,服从贝塔分布,即αφ和βφ均为贝塔分布的形状参数;表示第t个时刻第m架无人机的动作;
采用计算机根据得到第t个时刻第m架无人机给第n个用户分配的带宽资源动作分量bm,n(t);其中,bm(t)表示第t个时刻第m架无人机可支配的带宽资源,且Btotal表示所有UAV共享的总带宽资源,sm(t)表示接入第m架无人机的用户的总数,bmin表示最小可分带宽;
步骤四、无人机和用户的全局状态的获取:
步骤401、采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);
步骤五、无人机和用户的奖励的获取:
步骤六、储存经验元组:
步骤602、重复步骤三至步骤601,获取下一个时刻的经验元组,并将其存入缓存区中,直至t=Tmax时,完成一个回合的数据存储;其中,Tmax表示每个回合的总时刻数;
步骤603、重复步骤602,进行下一个回合的数据存储,直至缓存区中经验元组的数量为B,得到第一轮训练数据;其中,B大于Tmax;
步骤七、MAPPO算法迭代优化网络模型的参数:
步骤701、输入第一轮训练数据,计算机利用MAPPO算法对无人机Actor网络φ的参数和用户Actor网络的参数θ进行梯度上升优化,得到无人机Actor网络的参数φ的第一轮优化值和用户Actor网络的参数θ的第一轮优化值;
同时,采用计算机利用MAPPO算法对中无人机Critic网络ω1的参数和用户Critic网络ω2的参数进行梯度下降优化,得到无人机Critic网络的参数ω1的第一轮优化值和用户Critic网络的参数ω2的第一轮优化值;
步骤702、按照步骤三至步骤603所述的方法,得到下一轮训练数据;
步骤703、输入下一轮训练数据,按照步骤701所述的方法,以上一轮优化值作为参数初始值,进行下一轮的优化更新,得到无人机Actor网络的参数φ的下一轮优化值、用户Actor网络的参数θ的下一轮优化值、无人机Critic网络的参数ω1的下一轮优化值和用户Critic网络的参数ω2的下一轮优化值;
步骤704、按照步骤三至步骤603所述的方法,完成设定的最大回合Th的数据存储,得到第P轮训练数据;其中,P为正整数;
步骤705、输入第P轮训练数据,并按照步骤701所述的方法,以上一轮优化值作为参数初始值,得到无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮最后轮优化值;
步骤八、多无人机和多用户协同通信优化预测:
步骤801、根据无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮优化值,得到优化后的网络模型;
步骤802、获取后续时刻第n个用户的观测状态和第m架无人机的观测状态,并输入优化后的网络模型,得到后续时刻第m架无人机和第n个用户的协同通信优化动作策略。
本实施例中,步骤401中采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t),具体过程如下:
步骤4011、采用计算机根据公式得到第t个时刻第m架无人机到第n个用户的LoS链路概率其中,a表示与环境相关的第一常数,b表示与环境相关的第二常数,dm,n(t)表示第t个时刻第m架无人机到第n个用户的直线距离;
本实施例中,步骤4011中4.88<a<28,0<b<1;
步骤4012和步骤4013中NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB);
步骤504中用户奖励系数rc的取值范围为1~3;
步骤503中无人机的奖励系数rd的取值范围为1~5,且rd大于rc;指数参数κr的取值范围为1~5的正整数。
步骤5031、设定地面区域D在X轴上的上界为umax,x,地面区域D在Y轴上的上界为umax,y,地面区域D在X轴上的下界为umin,x,地面区域D在Y轴上的下界为umin,y;且umin,x=umin,y=0;
步骤5033、当大于umax,x或者小于umin,x时,采用计算机根据得到第t个时刻第m架无人机的边界惩罚项其中,rb表示惩罚项系数,κb表示梯度因子,用来决定边界函数的平缓程度,惩罚项系数rb的取值范围为10~50,梯度因子κb为0.07~0.1;
本实施例中,步骤301中w的取值范围为3~20;
步骤306中αφ和βφ满足如下:αφ≥1,βφ≥1。
本实施例中,步骤704中设定的最大回合Th的取值范围为5000~6000;
本实施例中,区域D为2km×2km的方形区域,M架无人机相对地面区域D的部署高度h=500m,每个回合开始时,所有无人机从原点起飞,而用户随机分布在区域D并以随机的方向和速度运动,Tmax=1000。
本实施例中,设定的最大回合Th的取值为5000,B的取值为2000~4000。
本实施例中,w的取值范围为3。
本实施例中,每架无人机的发射的总发射功率Ptotal为10mw,所有UAV共享的总带宽资源Btotal=30MHz,信号载频fc=2GHz,信道中高斯白噪声的功率谱密度n0=1×10-17mw/Hz,最小可分带宽bmin=0.1MHz。
本实施例中,Tmax=1000,每个决策时间间隔为1s,即第个t时刻和第个t+1时刻的间隔为1s。
本实施例中,实际使用时,当σm,n(t)=1时表示第n个用户选择第m架无人机作为接入基站时,反之则为0。
本实施例中,用户奖励系数rc的取值为1,无人机的奖励系数rd的取值为2,指数参数κr的取值为5,
本实施例中,惩罚项系数rb的取值范围为20,梯度因子κb为8×10-2。
本实施例中,αφ=βφ=1。
综上所述,本发明方法步骤简单,设计合理,通过无人机和用户网络模型参数优化,实现了无人机飞行方位角、功率、带宽分配优化,有效地适应多个无人机和多用户的观测状态以预测输出合理的协同通信优化策略,实现在多维决策动作下最大化通信***吞吐量并满足资源分配的公平性。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
Claims (6)
1.一种基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于,该方法包括以下步骤:
步骤一、无人机网络模型和用户网络模型的建立:
步骤101、设定无人机Actor网络的参数为φ,无人机Critic网络的参数为ω1,用户Actor网络的参数为θ,用户Critic网络的参数为ω2;
步骤102、设定无人机Actor网络的参数φ的初始值为φ(0),无人机Critic网络的参数ω1的初始值为ω1(0),用户Actor网络的参数θ的初始值为θ(0),用户Critic网络的参数ω2的初始值为ω2(0);其中,φ(0)、ω1(0)、θ(0)和ω2(0)满足神经网络正交初始化;
步骤二、无人机和用户场景设置:
步骤201、建立二维直角坐标系OXY;其中,二维直角坐标系和地面区域D重合;
步骤202、设定地面区域D中存在N个用户,且用户集合为 其中,第t个时刻第n个用户的位置坐标为n和N均为正整数,且1≤n≤N,地面区域D位于OXY的第一象限,且原点O和地面区域D的左下角重合,t为正整数;
步骤三、无人机和用户的观测状态的获取:
步骤301、采用计算机设定第t个时刻第n个用户的观测状态为且其中,表示第t个时刻第n个用户的坐标位置,表示第t个时刻第n个用户可接入的第m个无人机在OXY下的二维坐标位置,m和M均为正整数,且1≤m≤M;sm(t-j)表示第m个无人机在第t个时刻之前的第j个时刻中服务的用户数目,j为正整数,且j=1,…,w;w为正整数,且w<t;
步骤305、根据用户选择及无人机自身状态,采用计算机设定第t个时刻第m架无人机的观测状态为且其中,表示第t个时刻第m架无人机在OXY下的二维坐标位置,表示第t个时刻除去第m架无人机后其它无人机在OXY下的坐标位置,m′为正整数,m′≠m,且σm,n(t)表示接入第m架无人机的第n个用户的状态;
步骤306、采用计算机将第t个时刻第m架无人机的观测状态输入初始值为φ(0)的无人机Actor网络中,无人机Actor网络输出第t个时刻第m架无人机的观测状态下第t个时刻第m架无人机的动作的概率分布其中,服从贝塔分布,即αφ和βφ均为贝塔分布的形状参数;表示第t个时刻第m架无人机的动作;
采用计算机根据得到第t个时刻第m架无人机给第n个用户分配的带宽资源动作分量bm,n(t);其中,bm(t)表示第t个时刻第m架无人机可支配的带宽资源,且Btotal表示所有UAV共享的总带宽资源,sm(t)表示接入第m架无人机的用户的总数,bmin表示最小可分带宽;Ptotal表示每架无人机的发射的总发射功率;
步骤四、无人机和用户的全局状态的获取:
步骤401、采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t);
步骤五、无人机和用户的奖励的获取:
步骤六、储存经验元组:
步骤602、重复步骤三至步骤601,获取下一个时刻的经验元组,并将其存入缓存区中,直至t=Tmax时,完成一个回合的数据存储;其中,Tmax表示每个回合的总时刻数;
步骤603、重复步骤602,进行下一个回合的数据存储,直至缓存区中经验元组的数量为B,得到第一轮训练数据;其中,B大于Tmax;
步骤七、MAPPO算法迭代优化网络模型的参数:
步骤701、输入第一轮训练数据,计算机利用MAPPO算法对无人机Actor网络φ的参数和用户Actor网络的参数θ进行梯度上升优化,得到无人机Actor网络的参数φ的第一轮优化值和用户Actor网络的参数θ的第一轮优化值;
同时,采用计算机利用MAPPO算法对中无人机Critic网络ω1的参数和用户Critic网络ω2的参数进行梯度下降优化,得到无人机Critic网络的参数ω1的第一轮优化值和用户Critic网络的参数ω2的第一轮优化值;
步骤702、按照步骤三至步骤603所述的方法,得到下一轮训练数据;
步骤703、输入下一轮训练数据,按照步骤701所述的方法,以上一轮优化值作为参数初始值,进行下一轮的优化更新,得到无人机Actor网络的参数φ的下一轮优化值、用户Actor网络的参数θ的下一轮优化值、无人机Critic网络的参数ω1的下一轮优化值和用户Critic网络的参数ω2的下一轮优化值;
步骤704、按照步骤三至步骤603所述的方法,完成设定的最大回合Th的数据存储,得到第P轮训练数据;其中,P为正整数;
步骤705、输入第P轮训练数据,并按照步骤701所述的方法,以上一轮优化值作为参数初始值,得到无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮最后轮优化值;
步骤八、多无人机和多用户协同通信优化预测:
步骤801、根据无人机Actor网络的参数φ的第P轮优化值、用户Actor网络的参数θ的第P轮优化值、无人机Critic网络的参数ω1的第P轮优化值和用户Critic网络的参数ω2的第P轮优化值,得到优化后的网络模型;
步骤802、获取后续时刻第n个用户的观测状态和第m架无人机的观测状态,并输入优化后的网络模型,得到后续时刻第m架无人机和第n个用户的协同通信优化动作策略。
2.按照权利要求1所述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤401中采用计算机根据香农信道容量,并输入步骤309中的pm,n(t)和bm,n(t),得到第t个时刻第m架无人机提供给第n个用户的理论通信速率cm,n(t),具体过程如下:
步骤4011、采用计算机根据公式得到第t个时刻第m架无人机到第n个用户的LoS链路概率其中,a表示与环境相关的第一常数,b表示与环境相关的第二常数,dm,n(t)表示第t个时刻第m架无人机到第n个用户的直线距离;
3.按照权利要求2所述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤4011中4.88<a<28,0<b<1;
步骤4012和步骤4013中NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB);
步骤504中用户奖励系数rc的取值范围为1~3;
步骤503中无人机的奖励系数rd的取值范围为1~5,且rd大于rc;指数参数κr的取值范围为1~5的正整数。
步骤5031、设定地面区域D在X轴上的上界为umax,x,地面区域D在Y轴上的上界为umax,y,地面区域D在X轴上的下界为umin,x,地面区域D在Y轴上的下界为umin,y;且umin,x=umin,y=0;
步骤5033、当大于umax,x或者小于umin,x时,采用计算机根据得到第t个时刻第m架无人机的边界惩罚项其中,rb表示惩罚项系数,κb表示梯度因子,用来决定边界函数的平缓程度,惩罚项系数rb的取值范围为10~50,梯度因子κb为0.07~0.1;
5.按照权利要求1所述的基于MAPPO算法多无人机与用户协同通信优化方法,其特征在于:步骤301中w的取值范围为3~20;
步骤306中αφ和βφ满足如下:αφ≥1,βφ≥1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110806485.3A CN113359480B (zh) | 2021-07-16 | 2021-07-16 | 基于mappo算法多无人机与用户协同通信优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110806485.3A CN113359480B (zh) | 2021-07-16 | 2021-07-16 | 基于mappo算法多无人机与用户协同通信优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113359480A CN113359480A (zh) | 2021-09-07 |
CN113359480B true CN113359480B (zh) | 2022-02-01 |
Family
ID=77539837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110806485.3A Active CN113359480B (zh) | 2021-07-16 | 2021-07-16 | 基于mappo算法多无人机与用户协同通信优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113359480B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114337785A (zh) * | 2021-12-30 | 2022-04-12 | 陕西锐远信息科技有限公司 | 太阳能无人机通信能量管理策略、***、终端及存储介质 |
CN114363340B (zh) * | 2022-01-12 | 2023-12-26 | 东南大学 | 无人机集群失效的控制方法、***及存储介质 |
CN114915998B (zh) * | 2022-05-31 | 2023-05-05 | 电子科技大学 | 一种无人机辅助自组网通信***信道容量计算方法 |
CN115484205B (zh) * | 2022-07-12 | 2023-12-01 | 北京邮电大学 | 确定性网络路由与队列调度方法及装置 |
CN115494732B (zh) * | 2022-09-29 | 2024-04-12 | 湖南大学 | 一种基于近端策略优化的无人机轨迹设计和功率分配方法 |
CN118113482A (zh) * | 2024-04-26 | 2024-05-31 | 北京科技大学 | 一种针对智能窃听者的安全计算卸载方法和*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110404264A (zh) * | 2019-07-25 | 2019-11-05 | 哈尔滨工业大学(深圳) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
WO2021033486A1 (ja) * | 2019-08-22 | 2021-02-25 | オムロン株式会社 | モデル生成装置、モデル生成方法、制御装置及び制御方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3725471A1 (en) * | 2019-04-16 | 2020-10-21 | Robert Bosch GmbH | Configuring a system which interacts with an environment |
-
2021
- 2021-07-16 CN CN202110806485.3A patent/CN113359480B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110404264A (zh) * | 2019-07-25 | 2019-11-05 | 哈尔滨工业大学(深圳) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
WO2021033486A1 (ja) * | 2019-08-22 | 2021-02-25 | オムロン株式会社 | モデル生成装置、モデル生成方法、制御装置及び制御方法 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
Non-Patent Citations (3)
Title |
---|
Efficient Deployment With Geometric Analysis for mmWave UAV Communications;Jianwei Zhao et. al.;《IEEE WIRELESS COMMUNICATIONS LETTERS》;20200731;第9卷(第7期);第1115-1119页 * |
一种基于公平性的无人机基站通信智能资源调度方法;吴官翰 等;《中兴通讯技术》;20210430;第27卷(第2期);第31-36页 * |
无人机骨干网分布式组网及接入选择算法;吴炜钰 等;《计算机学报》;20190228;第42卷(第2期);第121-137页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113359480A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113359480B (zh) | 基于mappo算法多无人机与用户协同通信优化方法 | |
CN111786713B (zh) | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 | |
CN108419286B (zh) | 一种面对5g无人机通信联合波束与功率的分配方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN111970709B (zh) | 一种基于粒子群优化算法的无人机中继部署方法及*** | |
CN113660681B (zh) | 一种应用于无人机集群辅助传输的多智能体资源优化方法 | |
CN113115344B (zh) | 基于噪声优化的无人机基站通信资源分配策略预测方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN112702713B (zh) | 一种多约束条件下的低空无人机通信部署方法 | |
CN112203289A (zh) | 一种集群无人机区域覆盖的空中基站网络部署方法 | |
Hajiakhondi-Meybodi et al. | Joint transmission scheme and coded content placement in cluster-centric UAV-aided cellular networks | |
CN113919483A (zh) | 一种无线通信网络中无线电地图的构造和定位方法及其*** | |
CN115441939A (zh) | 基于maddpg算法的多波束卫星通信***资源分配方法 | |
CN116887355A (zh) | 一种多无人机公平协作和任务卸载优化方法及*** | |
CN117499867A (zh) | 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法 | |
CN114020024A (zh) | 基于蒙特卡洛树搜索的无人机路径规划方法 | |
CN116249202A (zh) | 一种物联网设备的联合定位与计算支持方法 | |
CN116321181A (zh) | 一种多无人机辅助边缘计算的在线轨迹及资源优化方法 | |
CN115765826A (zh) | 一种面向按需服务的无人机网络拓扑重构方法 | |
CN114980205A (zh) | 多天线无人机视频传输***QoE最大化方法和装置 | |
Lyu et al. | Movement and communication co-design in multi-UAV enabled wireless systems via DRL | |
CN114520991A (zh) | 基于无人机集群的边缘网络自适应部署方法 | |
CN116684852B (zh) | 一种山地茂林环境无人机通信资源与悬停位置规划方法 | |
CN117750505A (zh) | 一种空天地一体化切片网络资源分配方法 | |
CN117858105B (zh) | 复杂电磁环境下多无人机协作集划分与部署办法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |