CN114422056A - 基于智能反射面的空地非正交多址接入上行传输方法 - Google Patents

基于智能反射面的空地非正交多址接入上行传输方法 Download PDF

Info

Publication number
CN114422056A
CN114422056A CN202210073748.9A CN202210073748A CN114422056A CN 114422056 A CN114422056 A CN 114422056A CN 202210073748 A CN202210073748 A CN 202210073748A CN 114422056 A CN114422056 A CN 114422056A
Authority
CN
China
Prior art keywords
ground
unmanned aerial
aerial vehicle
irs
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210073748.9A
Other languages
English (en)
Other versions
CN114422056B (zh
Inventor
赵晶晶
朱衍波
蔡开泉
陈润泽
喻兰辰晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Publication of CN114422056A publication Critical patent/CN114422056A/zh
Application granted granted Critical
Publication of CN114422056B publication Critical patent/CN114422056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/336Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1853Satellite systems for providing telephony service to a mobile station, i.e. mobile satellite service
    • H04B7/18532Arrangements for managing transmission, i.e. for transporting data or a signalling message
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1853Satellite systems for providing telephony service to a mobile station, i.e. mobile satellite service
    • H04B7/18539Arrangements for managing radio, resources, i.e. for establishing or releasing a connection
    • H04B7/18543Arrangements for managing radio, resources, i.e. for establishing or releasing a connection for adaptation of transmission parameters, e.g. power control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Electromagnetism (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于智能反射面的空地非正交多址接入上行传输方法,属于无线通信领域;首先搭建包括地面用户、无人机、IRS和基站的空地通信场景,在当前时隙分别建模地面用户和无人机到基站的有效链路,计算接收信号的信噪比;然后,计算基站接收到无人机与地面用户的传输速率;以上行传输总速率最大化为优化目标,建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题;并将该问题建模为马尔可夫决策过程。最后,采用基于Actor‑Critic框架的分布式鲁棒强化学习算法对模型进行训练,输出参数应用于空地通信场景的中心控制Actor网络,实现IRS辅助空地通信的实时联合优化。本发明保证了***在动态复杂环境下的鲁棒性。

Description

基于智能反射面的空地非正交多址接入上行传输方法
技术领域
本发明属于无线通信技术领域,针对空地通信频谱资源优化配置的应用需求,具体涉及一种基于智能反射面的空地非正交多址接入上行传输方法。
背景技术
在过去几年中,使用无人机(Unmanned Aerial Vehicle,UAV)作为通信网络的空中平台,以提高现有无线网络的容量和覆盖范围,引起了学术界和工业界的广泛关注。现阶段实现高质量空地通信的一种方法是利用地面蜂窝网络,其引入了蜂窝连接无人机通信的运行概念。蜂窝连接无人机通信能够在可靠性、吞吐量和覆盖范围等方面,显著提高频谱资源受限条件下现有空地通信***的性能。
与此同时,为了更有效地利用频谱资源,引入功率域非正交多址接入(Non-orthogonal Multiple Ac1cess,NOMA)技术,该技术能够允许多个用户在同一个资源块中同时传输数据,提高了频谱效率。
除了频谱资源受限外,空地通信***发展的另一项挑战则是空地通信信道环境的复杂性,由于无人机和用户与基站之间存在着高层建筑等障碍物,使得空地数据链路不稳定,大大降低了通信的性能。对于该问题,应用智能反射面(Intelligent ReflectingSurfaces,IRS)技术引起了人们的广泛关注,该项技术可以以极低的功耗和硬件成本以被动波束赋形的方式对无线信道进行重新配置,从而提高通信质量。
虽然现有工作已经研究了NOMA和IRS在无人机通信中应用的益处,但NOMA和IRS相结合的方案能否在蜂窝连接无人机上行通信链路中提供性能增益,仍有待进一步研究。相关技术研究的主要问题体现在以下三个方面:
(1)NOMA协议的引入带来了更加复杂的干扰环境和基于信道条件的译码顺序设计,这导致了无人机航迹、IRS相位偏移和上行功率控制等需求之间存在高度耦合的情况,难以高效快速地获得最优的决策方案,实现上行链路中地面基站(Ground Base Station,GBS)接收端性能的提升。
(2)由于IRS的反射系数对无人机和地面用户(Ground User,GU)均会产生作用,所以反射信号的最佳波束赋形不只是与直射信号对齐,同时由于同信道干扰的存在,IRS的反射单元的配置变得更加复杂。
(3)由于运行环境中障碍物的位置无法预先知悉,需要在不确定环境下做出无人机轨迹、IRS相位偏移和上行链路传输功率控制的实时决策。
此外,由于环境不确定性难以精确建模,如何提高决策过程在面对动态不确定性时的鲁棒性是又一重要挑战。
发明内容
本发明针对空地通信上行NOMA蜂窝网络的应用场景,提供了一种基于智能反射面的空地非正交多址接入上行传输方法,实现对空地通信数据传输的联合优化,最终保证在无人机安全飞行的前提下,满足无人机和地面用户最低传输速率要求,维持通信***在动态复杂环境下的鲁棒性,通过实现通信***上行链路总和速率的最大化来提高***频谱利用率,进一步提升通信***性能。
所述的基于智能反射面的空地非正交多址接入上行传输方法,具体步骤如下:
步骤一、搭建包括地面用户、无人机、高层建筑物、IRS和地面基站的空地通信场景;
用户有若干,与无人机之间分别配置单全向天线;存在大量高层建筑物,地面用户和无人机与地面基站间均不存在直射链路,IRS部署在高层建筑顶端,所部署的IRS拥有N个反射单元。
步骤二、在第m个时隙,分别建模地面用户到基站的有效链路,以及无人机到基站的有效链路;
Figure BDA0003483181530000021
Figure BDA0003483181530000022
为时隙总长度;
地面用户到基站的有效链路表示为:
Figure BDA0003483181530000023
其中,hgu,b[m]为地面用户与基站间的链路;
Figure BDA0003483181530000024
为IRS与基站的链路的转置矩阵;Θ[m]为反射单元在第m个时隙的对角线反射系数矩阵;hgu,s[m]为地面用户与IRS的链路。
无人机到基站的有效链路表示为:
Figure BDA0003483181530000025
其中,hu,b[m]为无人机与基站间的链路;hu,s[m]为无人机与IRS的链路;
步骤三、利用地面用户和无人机各自的有效链路,结合各自的传输功率,分别计算地面用户和无人机在第m时隙在基站接收信号的信噪比和信干噪比;
无人机第m时隙在基站接收信号的信干噪比,计算公式为:
Figure BDA0003483181530000026
pu[m]表示无人机的传输功率;pgu[m]表示地面用户的传输功率;σb 2为高斯白噪声。
地面用户第m时隙在基站接收信号的信噪比,计算公式为:
Figure BDA0003483181530000027
步骤四、利用地面用户和无人机在接收端信号的信噪比和信干噪比,计算基站第m时隙接收到无人机与地面用户的传输速率R[m];
计算公式为:
Figure BDA0003483181530000031
步骤五、以基站在所有时隙的上行传输总速率最大化为优化目标,建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题;
联合优化问题为:
Figure BDA0003483181530000032
Figure BDA0003483181530000033
Figure BDA0003483181530000034
Figure BDA0003483181530000035
Figure BDA0003483181530000036
Figure BDA0003483181530000037
其中约束条件C1表示无人机和地面用户的最低数据传输速率的要求;Ru[m]表示无人机的传输速率,不低于门限
Figure BDA0003483181530000038
Rgu[m]表示用户的传输速率,不低于门限
Figure BDA0003483181530000039
约束条件C2表示无人机和地面用户的最大可用发射功率;不高于无人机的功率门限值
Figure BDA00034831815300000310
和用户的功率门限值
Figure BDA00034831815300000311
约束条件C3表示IRS阵元离散相位偏移值的约束;φn[m]表示由可编程PIN二极管所嵌入的电子元构成的IRS的相位偏移;
Figure BDA00034831815300000319
为IRS的个数;Δφ=2π/L,L表示IRS离散相移的数目;
约束条件C4表示保证成功的SIC的NOMA技术的解码顺序约束;
约束条件C5表示无人机与障碍物的最小距离约束dmin。q[m]为无人机位置所确定的航迹点;
Figure BDA00034831815300000312
为障碍物oi的中心位置坐标;
Figure BDA00034831815300000320
表示所有潜在障碍的集合;
步骤六、根据空地通信***的联合优化问题,将问题建模为马尔可夫决策过程MDP。
定义元组
Figure BDA00034831815300000313
来描述MDP,其中
Figure BDA00034831815300000314
是决策智能体的状态集合,
Figure BDA00034831815300000315
是决策智能体可实施行为的集合,
Figure BDA00034831815300000316
是传输概率矩阵,
Figure BDA00034831815300000317
是决策智能体基于当前状态采取行为后获得的实值奖励函数,γ是衰减因子。
第m时隙的状态空间表示为:
Sm={Q[m],D[m],Rsum[m-1]}
Q[m]为无人机的位置;D[m]为无人机相较于障碍物中心位置的距离;Rsum[m-1]为从第1时隙到第m-1个时隙的时间段内,无人机与地面用户的总和速率;
动作空间为离散数值,由三部分构成:1)无人飞行的机动方向;2)每一个IRS单元的相位偏移值φn[m];3)无人机与地面用户的功率控制;
奖励函数定义为:
Figure BDA00034831815300000318
其中NS表示约束条件没有被满足的非正常状态;K为恒定的负值奖励;C[m]为当全部约束条件都满足时,***得到的正值奖励。
步骤七、采用基于Actor-Critic框架的分布式鲁棒强化学习(DistributionRobust Reinforcement Learning,DRRL),对MDP模型进行训练,得到参数
Figure BDA00034831815300000421
和ω应用于空地通信场景的中心控制Actor网络,实现IRS辅助空地通信的实时联合优化。
采用深度强化学习算法具有可变更性,具体基准算法不唯一。本发明以SAC算法为参考,实施DRRL以完成DRSAC算法的设计。
DRSAC算法的神经网络分为两类:Actor网络与Critic网络;
Actor网络的神经网络参数为
Figure BDA00034831815300000424
Critic网络的神经网络参数为ω,智能体的策略为π。
当智能体与环境进行交互,通过收集智能体的联合优化策略结果与对应的状态观测结果,并存储在经验回放池
Figure BDA0003483181530000041
中。
回放池
Figure BDA0003483181530000042
包含了四元组
Figure BDA0003483181530000043
Sm代表当前的状态观测值,Sm+1代表下一状态观测值,Am代表在当前状态下所执行的决策行为,
Figure BDA0003483181530000044
代表在当前状态Sm下执行动作Am之后转移为下一状态时所获得的奖励。
智能体的动作由其策略和对应的参数决定,即:
Figure BDA00034831815300000425
通过对Critic网络设置两个输出价值函数Q的网络,每次取两个网络输出中的最小Q值作为迭代计算所用的Q值。
利用DRSAC算法对价值函数Q进行修正,具体过程为:
首先,定义DRRL的目标为:
Figure BDA0003483181530000045
其中
Figure BDA0003483181530000046
表示策略的估计误差,
Figure BDA0003483181530000047
为累计回报。
通过对策略的估计误差量化,得到策略的不确定性集
Figure BDA0003483181530000048
为:
Figure BDA0003483181530000049
其中
Figure BDA00034831815300000410
为对于所有的
Figure BDA00034831815300000411
来说
Figure BDA00034831815300000412
的概率分布,
Figure BDA00034831815300000413
用来计算用于衡量两个分布的相似性的KL散度。
进一步,将鲁棒的目标函数改写为:
Figure BDA00034831815300000414
Figure BDA00034831815300000415
为在状态Sm下执行动作Am获取的奖励;
Figure BDA00034831815300000416
表示在策略
Figure BDA00034831815300000417
下智能体状态和动作对的集合。
Figure BDA00034831815300000418
是对
Figure BDA00034831815300000419
求期望。
对于目标函数式中的内部最小化问题,采用贝尔曼算子
Figure BDA00034831815300000420
对策略进行评估,获得在不确定性集中策略实现的最小状态值。定义如下:
Figure BDA0003483181530000051
应用拉格朗日对偶性,将贝尔曼算子
Figure BDA0003483181530000052
改写为:
Figure BDA0003483181530000053
其中λ(s)为拉格朗日乘子,且λ(s)>0。
对于目标函数式中最大化问题表示为:
Figure BDA0003483181530000054
其中
Figure BDA0003483181530000055
Figure BDA0003483181530000056
的拉格朗日对偶。
最优解λ*(s)为:
Figure BDA0003483181530000057
策略的估计误差
Figure BDA0003483181530000058
的构造形式为
Figure BDA0003483181530000059
n(s)表示状态的访问次数。得到λ*(s)后,得到当前最优策略:
Figure BDA00034831815300000510
根据所得到的最佳策略集,可计算
Figure BDA00034831815300000511
最后,更新Critic网络参数,并根据Critic网络的输出更新Actor网络参数;
训练直至神经网络参数不再更新,联合优化的结果收敛到近似最优的稳定值,即优化的决策结果可以使得通信***达到最大满足条件的总和速率。
本发明的优点与积极效果在于:
(1)一种基于智能反射面的空地非正交多址接入上行传输方法,采用NOMA与IRS相结合,能够在蜂窝连接无人机上行通信链路中提供***通信性能的增益。
(2)一种基于智能反射面的空地非正交多址接入上行传输方法,考虑到高度耦合的无人机航迹、IRS相位偏移和上行功率控制问题,通过将问题建立成MDP过程,选用强化学习的技术方式,以低复杂度的方式实现了优化问题的求解。
(3)一种基于智能反射面的空地非正交多址接入上行传输方法,考虑到在未知障碍物位置带来动态不确定性的情况下,利用非完整的分布信息,构造基于可接受偏差约束的模糊集来描述不确定性,从而保证***在动态复杂环境下的鲁棒性。
附图说明
图1为本发明一种基于智能反射面的空地非正交多址接入上行传输方法的流程图;
图2为本发明搭建的空地通信场景的示意图。
图3为本发明所述的无人机冲突风险示意图。
图4为本发明采用的分布式鲁棒SAC算法框架图。
图5为本发明采用的分布式鲁棒SAC算法训练流程图。
图6为本发明采用的分布式鲁棒SAC算法随训练周期变化的奖励曲线图。
图7为本发明采用的分布式鲁棒SAC算法随训练周期变化的累计冲突率曲线图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明提出了一种基于智能反射面的空地非正交多址接入上行传输方法,基于深度强化学习IRS辅助的空地通信上行NOMA蜂窝网络通信联合优化,其中无人机和地面用户,两者与地面基站之间的直射链路受到阴影衰落的影响。更具体地说,无人机和地面用户同时通过NOMA协议向地面基站上传数据,通过对IRS辅助的空地通信上行NOMA蜂窝网络进行建模,并数学公式化描述建模问题的优化目标与约束条件。IRS辅助提供虚拟的视距(Line-of-sight,LoS)链路。该方法利用无人机的高机动性、可重构无线传播环境以及功率域空地用户接入,实施了无人机与地面用户之间高效频谱共享的新模式。
在此基础上,利用基于Actor-Critic框架的分布式鲁棒强化学习算法(Distribution Robust Reinforcement Learning,DRRL),在未知障碍物位置带来的不确定性下,联合优化无人机航迹、IRS相位偏移和上行链路功率控制,利用非完整的分布信息,构造基于可接受偏差约束的模糊集来描述不确定性,从而提高通信***在动态复杂环境下的鲁棒性。
所述的基于智能反射面的空地非正交多址接入上行传输方法,如图1所示,具体步骤如下:
步骤一、搭建包括地面用户、无人机、高层建筑物、IRS和地面基站的空地通信场景;
如图2所示,用户有若干,与无人机之间配置单全向天线,由通信范围内的单地面基站服务;并且应用了NOMA技术以满足共用频谱资源的需求。***应用场景为城市区域,存在大量高层建筑物,地面用户和无人机与地面基站间不存在直射链路,IRS部署在高层建筑顶端,所部署的IRS拥有N个反射单元。
无人机和地面用户同时通过NOMA协议向地面基站上传数据,IRS辅助提供虚拟的视距(Line-of-sight,LoS)链路,空地通信***运行模型形成UAV-GBS链路、UAV-IRS-GBS链路、GU-GBS链路和GU-IRS-GBS链路。
由于UAV-GBS和GU-GBS链路,LoS链路受阻且存在反射,所以建模为瑞利衰落信道,将UAV-IRS、GU-IRS和IRS-GBS链路建模为莱斯衰落信道。
步骤二、在第m个时隙,分别建模地面用户到基站的有效链路,以及无人机到基站的有效链路;
不失一般性,将***运行时间T划分为若干等长时隙m,单个时隙持续时间为
Figure BDA0003483181530000071
Figure BDA0003483181530000072
为时隙总长度;
建立三维笛卡尔坐标系构,将地面基站、地面用户和IRS的位置坐标分别设为(xb,yb,zb),(xgu,ygu,0),(xs,ys,zs)。而无人机以恒定飞行速度V将飞行高度维持在zu,由无人机位置所确定的航迹点可表示为q[m]=(x[m],y[m],zu)。
对于所部署的反射单元,有第m个时隙的对角线反射系数矩阵为:
Θ[m]=diag(θ1[m],...,θn[m],...θN[m]),系数矩阵中的对角元素有
Figure BDA0003483181530000073
其中φn[m]∈[0,2π)表示相位偏移,βn[m]∈[0,1]表示反射系数的实际幅值。考虑到IRS实际由可编程PIN二极管所嵌入的电子元构成,因此相位偏移为离散数值φn[m]∈{0,Δφ,...,(L-1)Δφ}。
基于蜂窝网络中有限的频谱资源,对于无人机用户与地面用户的上行链路引入NOMA通信技术。因此在地面基站接收端处包含四类接收信号:UAV-GBS链路,UAV-IRS-GBS链路,GU-GBS链路,GU-IRS-GBS链路,分别表示为:
Figure BDA0003483181530000074
其中x∈{gu,u}。
地面用户到基站的有效链路表示为:
Figure BDA0003483181530000075
其中,hgu,b[m]为地面用户与基站间的链路;
Figure BDA0003483181530000076
为IRS与基站的链路的转置矩阵;hgu,s[m]为地面用户与IRS的链路信道状态,计算公式为:
Figure BDA0003483181530000077
其中,κ是莱斯系数,
Figure BDA0003483181530000078
是LoS指数,
Figure BDA0003483181530000079
是NLoS指数。
而对于
Figure BDA00034831815300000710
有:
Figure BDA00034831815300000711
其中,β0是参考距离d0=1m时的路径损耗参数,α是相应的路损指数,
Figure BDA00034831815300000712
表示从地面用户到第n个IRS单元的距离,λ表示载波波长。
由于IRS和无人机之间的距离远大于IRS单元之间的距离,所以本发明使用IRS第一个单元作为路径损耗计算的参考点。
对于
Figure BDA00034831815300000713
表示为:
Figure BDA00034831815300000714
其中
Figure BDA00034831815300000715
为小尺度衰落指数,通过单位方差的循环对称的复高斯(CSCG)分布中生成。
对于hu,s
Figure BDA00034831815300000716
也可以按相似构成建立计算等式关系得到。
无人机到基站的有效链路表示为:
Figure BDA0003483181530000081
其中,hu,b[m]为无人机与基站间的链路;hu,s[m]为无人机与IRS的链路;
而无人机与地面基站间的链接、地面用户与地面基站间的链接建模为瑞利衰落信道:
Figure BDA0003483181530000082
Figure BDA0003483181530000083
因此,有基站在m时隙接收到的信号可表示为:
Figure BDA0003483181530000084
其中pgu[m]表示地面用户的传输功率,pu[m]表示无人机用户的传输功率;xgu[m]表示地面用户的传输信号;xu[m]表示无人机用户的传输信号;
Figure BDA0003483181530000085
表示加性高斯白噪声(AWGN)。
对于NOMA网络的上行链路,具有较好信道条件的用户信号通常会先被检测到,并从接收信号中消去,那么对于其他接收信号,则降低了受到的干扰影响。在所提出的模型中,无人机用户与地面用户的有效信道随着无人机飞行航迹q[m]和IRS反射系数矩阵Θ[m]的变化而变化,因此本发明中上行链路的信号检测顺序无法根据有效信道状态来提前确定。
假设地面站优先检测无人机信号,将地面用户信号作为噪声来处理,之后由地面基站应用连续干扰消除(SIC)技术从消去无人机信号后再监测地面用户信号,需要满足以下约束条件:
Figure BDA0003483181530000086
步骤三、利用地面用户和无人机的有效链路,结合各自的传输功率,分别计算地面用户和无人机在第m时隙在基站接收信号的信噪比和信干噪比;
无人机第m时隙在基站接收信号的信干噪比SINR,计算公式为:
Figure BDA0003483181530000087
pu[m]表示无人机的传输功率;pgu[m]表示地面用户的传输功率;σb 2为高斯白噪声。
在地面基站通过SIC消去无人机信号后,地面用户第m时隙在基站接收信号的信噪比SNR,计算公式为:
Figure BDA0003483181530000088
步骤四、利用地面用户和无人机在接收端信号的信噪比和信干噪比,计算基站第m时隙接收到无人机与地面用户的传输速率R[m];
计算公式为:
Figure BDA0003483181530000089
步骤五、以基站在所有时隙地面用户与无人机用户的上行传输总速率最大化为优化目标,建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题;
本发明的主要目标是通过联合优化无人机航迹、IRS的反射系数矩阵、无人机与地面用户功率控制,在无人机与障碍物的距离大于安全距离、无人机与地面用户传输瞬时速率要求大于最小要求的传输速率的约束下,在总的飞行时间内实现无人机和用户的上传速率之和最大化。
虽然无人机和地面用户在每个时隙都能够以全功率发射,以达到总速率最大化,但是由于接收信号质量和SIC条件的约束,这种全功率的传输方案通常不是最优的。因此功率控制必须与无人机航迹和IRS的反射系数矩阵综合考虑。联合优化问题为:
Figure BDA0003483181530000091
Figure BDA0003483181530000092
Figure BDA0003483181530000093
Figure BDA0003483181530000094
Figure BDA0003483181530000095
Figure BDA0003483181530000096
其中约束条件C1表示无人机和地面用户的最低数据传输速率的要求;Ru[m]表示无人机的传输速率,不低于门限
Figure BDA0003483181530000097
Rgu[m]表示用户的传输速率,不低于门限
Figure BDA0003483181530000098
约束条件C2表示无人机和地面用户的最大可用发射功率;不高于无人机的功率门限值
Figure BDA0003483181530000099
和用户的功率门限值
Figure BDA00034831815300000910
约束条件C3表示IRS阵元离散相位偏移值的约束;φn[m]表示由可编程PIN二极管所嵌入的电子元构成的IRS的相位偏移;
Figure BDA00034831815300000911
为IRS的个数;Δφ=2π/L,L表示IRS离散相移的数目;如果IRS的相移为0和π,那么L=2,Δφ=π。
约束条件C4表示保证成功的SIC的NOMA技术的解码顺序约束;
约束条件C5表示无人机与障碍物的最小距离约束dmin。q[m]为无人机位置所确定的航迹点;
Figure BDA00034831815300000912
为障碍物oi的中心位置坐标;
Figure BDA00034831815300000913
表示所有潜在障碍的集合;
考虑到无人机在城市空域中运行,其飞行状态可能会受到高层建筑的影响,需要引入防撞机制以避免空中碰撞事故的发生,以此来保证安全飞行的运行状态。加装有感知探测设备的无人机具有感知周边环境的能力,在运行过程中机载传感器设备获取运行环境的态势信息(包括障碍物的相对位置等)。如图3所示,将无人机的感知范围定义为以无人机为圆心,半径为Rs的三维球体,那么在感知范围内,有安全运行要求满足约束条件C5。
步骤六、根据空地通信***的联合优化问题,将问题建模为马尔可夫决策过程(Markov decision process,MDP)。
本发明所关注的联合优化问题属于时间维度的序列决策问题,符合MDP的基本特性,即当前时刻的决策结果当且仅当考虑当前时刻的环境状态。定义元组
Figure BDA0003483181530000101
来描述MDP,其中
Figure BDA0003483181530000102
是决策智能体可实施行为的集合,
Figure BDA0003483181530000103
是传输概率矩阵,
Figure BDA0003483181530000104
是决策智能体基于当前状态采取行为后获得的实值奖励函数,γ是衰减因子。
在制定的MDP中,本发明考虑中央控制器作为智能体,来控制无人机的航迹和RIS相位调整。从基于MDP的状态空间、动作空间以及奖励函数三方面描述联合优化决策问题的设计过程。
状态空间:每一个时隙内的环境状态,包含三个部分:1)无人机用户的位置Q[m];2)无人机相较于障碍物中心位置的距离
Figure BDA0003483181530000105
3)从第1时隙到第m-1个时隙的时间段内,无人机与地面用户的总和速率
Figure BDA0003483181530000106
因此,状态空间可以表示为:
第m时隙的状态空间表示为:
Sm={Q[m],D[m],Rsum[m-1]}
动作空间:基于IRS阵元相位偏移在实际中只能设定为阶梯的离散数值,因此设定行为空间均为离散数值,由三部分构成:1)无人飞行的机动方向,由(-1,0)、(1,0)、(0,1)、(0,-1)分别表示无人机飞行方向的左、右、前、后;2)每一个IRS单元的相位偏移值φn[m];3)无人机与地面用户的功率控制
Figure BDA0003483181530000107
奖励函数:用于对联合优化的决策行为进行反馈,针对总和速率最大化的目标,设定学习过程获得的奖励与目标一致。对无人机航迹规划、IRS相位偏移和地面用户与无人机功率控制的联合优化必须在给定约束条件下,假若这些约束条件中的任何一项没有得到满足,会得到负值奖励,即惩罚函数。因此,定义为:
Figure BDA0003483181530000108
其中NS表示约束条件没有被满足的非正常状态;K为恒定的常系数,即当前状态为非正常状态时,***得到的是负值奖励,仅当全部约束条件都满足时,***可以得到正值奖励C[m]。
上式表明,如果决策行为的一次执行,能满足所有的运行约束条件,那么***获得与传输和速率数值相当的奖励,反之则会得到惩罚,惩罚的具体数值与的设定的参数K相关。
步骤七、采用基于Actor-Critic框架的分布式鲁棒强化学习(DistributionRobust Reinforcement Learning,DRRL),对MDP模型进行训练,得到参数
Figure BDA00034831815300001010
和ω应用于空地通信场景的中心控制Actor网络,实现IRS辅助空地通信的实时联合优化。
采用分布式鲁棒强化学习算法实现对联合优化问题
Figure BDA0003483181530000109
的求解,实现实时的空地通信总和速率最大化。所采用深度强化学习算法具有可变更性,具体基准算法不唯一。本发明以SAC算法为参考,实施DRRL以完成DRSAC算法的设计。
(1)DRSAC算法的训练阶段。
如图4所示,对于整个通信***,将中心控制的决策单元看作一个智能体,基于前述的MDP对智能体构建神经网络DRSAC算法的神经网络分为两类:Actor网络与Critic网络;
Actor网络的输入为***所能获取的状态信息,输出为行为空间中选择的决策结果;Critic网络的输入同样也是所能获取的状态信息,但输出结果为当前状态执行确定行为后相应的评估值。
智能体Actor网络的神经网络参数为
Figure BDA0003483181530000111
Critic网络的神经网络参数为ω,智能体的策略为π。智能体的动作完全由其策略和对应的参数决定:
Figure BDA0003483181530000112
其中,a为运行***通过联合优化所给出的决策行为,s表示***所能观测到的运行状态信息,包含了无人机运行态势、通信***运行状态等信息。
本发明所采用的SAC算法是基于最大熵的架构,在强化学习的基础上,对奖励的计算引入了熵的部分,即对于max F(π),有:
Figure BDA0003483181530000113
新目标函数考虑了策略分布的熵
Figure BDA0003483181530000114
其中,温度系数α表示熵的权重,因此决定了最优策略π*的随机性。
由分布式鲁棒强化学习的相关理论,其神经网络参数
Figure BDA0003483181530000115
与ω均需要通过对模型训练获取,完整的训练结束后可将参数用于实际场景的应用,如图5所示,具体模型训练步骤如下:
a)、利用通信***仿真测试平台生成多种通信应用的模拟场景;
基于所生成的仿真场景,初始化无人机用户、地面用户、IRS以及地面基站的地理位置;初始化智能体的Actor网络参数
Figure BDA0003483181530000116
Critic网络参数ω,时间步长T;
智能体与环境进行交互,收集智能体的联合优化策略结果与对应的状态观测结果,并存储在经验回放池
Figure BDA0003483181530000117
中。
Figure BDA0003483181530000118
中包含了由四个元素构成得元组
Figure BDA0003483181530000119
Sm代表当前的状态观测值,Sm+1代表下一状态观测值,Am代表在当前状态下所执行的决策行为,
Figure BDA00034831815300001110
代表在当前状态Sm下执行动作Am之后转移为下一状态时所获得的奖励。
智能体的动作由其策略和对应的参数决定,即:
Figure BDA00034831815300001111
决策智能体利用收集到的数据进行处理分析,并根据所设定的损失函数通过策略梯度来更新神经网络参数。
判断经验回放池
Figure BDA0003483181530000121
是否存满,如果未满,继续进行数据存储,直至存满;然后,从经验回放池
Figure BDA0003483181530000122
中选择数据集作为训练样本,输入神经网络,输出:Qωmin(Sm,Am),
Figure BDA0003483181530000123
π(Am|Sm,θ);
定义损失函数
Figure BDA0003483181530000124
分别对Critic网络参数ω,温度系数α,Actor网络参数
Figure BDA0003483181530000125
进行更新,每隔T步更新:
Figure BDA0003483181530000126
对于更新后的参数,判断更新次数是否大于经验回放池
Figure BDA0003483181530000127
的最大迭代次数K,若是,则训练结束,输出训练后的参数值:Actor网络参数
Figure BDA0003483181530000128
和Critic网络参数ω;若否,则返回继续进行训练。
最大迭代次数K人为根据实际需要设定。
对于Critic网络参数ω,设定损失函数:
Figure BDA0003483181530000129
其中
Figure BDA00034831815300001210
为:
Figure BDA00034831815300001211
Figure BDA00034831815300001212
其中,
Figure BDA00034831815300001213
是目标Critic网络的参数,其值的更新是周期性复制ω的值。
Figure BDA00034831815300001214
和Sm+1是从经验回放池
Figure BDA00034831815300001215
中所抽取出的样本数据。而对于温度系数α的最优设置数值需要考虑到不同任务以及训练期间的奖励数值。
因此,对α做自适应调节,设定损失函数:
Figure BDA00034831815300001216
对于更新Actor网络参数
Figure BDA00034831815300001217
设定损失函数:
Figure BDA00034831815300001218
对于离散的动作空间,依据动作概率计算动作的期望:
Figure BDA00034831815300001219
其中,Qω(Sm,Am)为Critic网络的输出,
Figure BDA00034831815300001220
为Actor网络的输出。
基于所设定的损失函数,采用随机梯度下降法对最小化损失函数的结果来更新
Figure BDA00034831815300001221
α,即:
Figure BDA00034831815300001222
Figure BDA00034831815300001223
为了提高训练速度,对于Critic网络共设置了两个输出价值函数Q的网络,两个网络独立更新,每次取两个网络输出中的最小Q值作为迭代计算所用的Q值。
Figure BDA00034831815300001224
本发明所提出的分布式鲁棒强化学习,需要对价值函数Q进行修正,以在有限样本的条件下得到更为鲁棒的决策结果,进而提升***鲁棒性,定义DRRL的目标为:
Figure BDA0003483181530000131
其中
Figure BDA0003483181530000132
表示为策略的估计误差,
Figure BDA0003483181530000133
为累计回报。本发明利用KL散度来量化策略的估计误差,策略的不确定性集
Figure BDA0003483181530000134
为:
Figure BDA0003483181530000135
其中
Figure BDA0003483181530000136
为对于所有的
Figure BDA0003483181530000137
来说
Figure BDA0003483181530000138
的概率分布。
Figure BDA0003483181530000139
用来计算KL散度,KL散度用于衡量两个分布的相似性。
鲁棒的目标函数可以写为:
Figure BDA00034831815300001310
Figure BDA00034831815300001311
为在状态Sm下执行动作Am获取的奖励;
Figure BDA00034831815300001312
表示在策略
Figure BDA00034831815300001313
下智能体状态和动作对的集合;
Figure BDA00034831815300001314
是对
Figure BDA00034831815300001315
求期望。
改写后的目标函数符合典型分布式鲁棒优化问题的形式,为了在RL框架下解决DRO问题对于上式中内部最小化问题,采用了一种新的贝尔曼算子
Figure BDA00034831815300001316
定义如下:
Figure BDA00034831815300001317
其中
Figure BDA00034831815300001318
为策略评估的贝尔曼算子。
通过应用
Figure BDA00034831815300001319
对策略进行评估,可以获得在不确定性集中策略实现的最小状态值。将拉格朗日对偶性应用在上式中,将问题改写为:
Figure BDA00034831815300001320
其中λ(s)为拉格朗日乘子,且λ(s)>0。上式中最大化问题可以表示为:
Figure BDA00034831815300001321
其中
Figure BDA00034831815300001322
Figure BDA00034831815300001323
的拉格朗日对偶。对于最小化问题,最优解λ*(s)为:
Figure BDA00034831815300001324
策略的估计误差
Figure BDA00034831815300001325
的构造形式为
Figure BDA00034831815300001326
n(s)表示状态的访问次数。这种结构意味着策略的估计误差随着收集的经验的数量增多而减少。得到λ*(s)后,得到当前最优策略:
Figure BDA00034831815300001327
根据所得到的最佳策略集,可计算
Figure BDA0003483181530000141
最后,更新Critic网络参数。根据Critic网络的输出更新Actor网络参数。
训练直至神经网络参数不再更新,联合优化的结果收敛到近似最优的稳定值,即优化的决策结果可以使得通信***达到最大满足条件的总和速率。
对于某一确定的场景,单次完整训练的最大迭代次数为K。在训练过程中,决策智能体不断更新自身的策略对应的神经网络参数
Figure BDA0003483181530000143
和ω,当迭代次数达到K时,训练停止,此时的网络参数
Figure BDA0003483181530000144
和ω即对应实现最优决策结果的数值。由于实际应用场景多变,单一场景的学习结果难以具备适应多场景的联合优化决策,需要决策智能体通过对多种模拟的通信环境不断的进行联合优化以得到最大化的总和速率,并且不断更新自身的策略对应的神经网络参数
Figure BDA0003483181530000142
ω,最终实现IRS辅助空地通信的联合优化。
(2)DRSAC算法的决策实际应用阶段。
在应用阶段,我们假定决策智能体模型的Actor网络参数
Figure BDA0003483181530000145
已经训练完成。此时,价值函数Q将不再应用,决策智能体可以通过已经训练完成的决策模型自主地进行决策。因此,可以将训练完成的算法模型及参数作为软件功能,开发嵌入空地通信***的中心控制单元,以实现IRS辅助空地通信的实时联合优化。
本实施例的中心控制单元用集中式控制方法,无人机的移动和IRS相位偏移由一个中央控制器控制。
其应用阶段步骤如下:
a)中心控制单元通过定位、导航等设备从地面或者运行空域获取地面用户、无人机、地面基站的位置信息及相对距离;
b)将通信***运行的环境状态信息输入到所嵌入中心控制单元软件***的Actor网络中,得到当前时刻无人机飞行方向、IRS相位偏移、无人机用户发射功率、地面用户发射功率最优的调控结果;
c)由中心控制单元控制无人机、IRS、地面用户执行相应的调控,在运行时间内持续完成联合优化目标,实现IRS辅助空地通信的实时联合优化。
实施例
本实施例采用的参数值设定主要是为了本发明基本构想以及对发明做仿真实验,在具体的学习环境和应用环境中,可视实际的场景和需求进行适当的调整。
假设通信***中存在1个地面用户,1架无人机、1面IRS以及1座地面基站。地面用户初始位置为(-100,-100,0),***运行过程中在初始位置附近小范围随机运动;IRS的位置坐标为(200,80,60);地面基站坐标为(300,-50,40);无人机在飞行过程中飞行高度为40m,飞行速度恒定为20m/s,飞行初始位置为(0,0,40),无终止位置,最小安全飞行间隔为20m。通信链路的LoS与NLoS路径损耗指数分别设定为2.1、3.5,莱斯系数k=4,参考距离d0=1处的信道功率增益为-20dB,噪声功率为-80dBm,无人机最大发射功率为30.8dBm,地面用户最大传输功率为29dBm。
在基于DRSAC的深度强化学习中,对于Actor网络与Critic网络均设定了包含两个隐藏层的全连接神经网络,采用Adam作为随即策略梯度计算的优化器。仿真环境的训练总回合数为200000,随机采样的小样本数据量为64,神经网络的学习率均为0.00001,采用ReLU作为神经网络的激活函数。
如图6所示,显示了在通过联合优化后,NOMA网络与OMA网络比较有显著的增益;IRS辅助的网络较无IRS的网络有显著的增益。
如图7所示,显示了在满足最大化空地通信和速率的同时,能维持无人机保证避免与障碍物发生碰撞,保持安全运行状态。
最后应说明的是:以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (7)

1.基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,具体步骤如下:
首先、搭建包括地面用户、无人机、高层建筑物、IRS和地面基站的空地通信场景;
在第m个时隙,分别建模地面用户到基站的有效链路,以及无人机到基站的有效链路;并利用有效链路,结合地面用户和无人机各自的传输功率,分别基站接收地面用户和无人机信号的信噪比和信干噪比;
Figure FDA0003483181520000011
Figure FDA0003483181520000012
为时隙总长度;
然后、利用信噪比和信干噪比,进一步计算基站第m时隙接收到无人机与地面用户的传输速率R[m];并以基站在所有时隙的上行传输总速率最大化为优化目标,建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题;
接着、根据空地通信***的联合优化问题,将问题建模为马尔可夫决策过程MDP;
最后、采用基于Actor-Critic框架的分布式鲁棒强化学习算法对MDP模型进行训练,输出参数θ和ω应用于空地通信场景的中心控制Actor网络,实现IRS辅助空地通信的实时联合优化。
2.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,所述的通信场景具体为:
用户有若干,与无人机之间分别配置单全向天线;存在大量高层建筑物,地面用户和无人机与地面基站间均不存在直射链路,IRS部署在高层建筑顶端,所部署的IRS拥有N个反射单元。
3.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,所述的地面用户到基站的有效链路表示为:
Figure FDA0003483181520000013
其中,hgu,b[m]为地面用户与基站间的链路;
Figure FDA0003483181520000014
为IRS与基站的链路的转置矩阵;Θ[m]为反射单元在第m个时隙的对角线反射系数矩阵;hgu,s[m]为地面用户与IRS的链路;
无人机到基站的有效链路表示为:
Figure FDA0003483181520000015
其中,hu,b[m]为无人机与基站间的链路;hu,s[m]为无人机与IRS的链路。
4.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,所述的无人机第m时隙在基站接收信号的信干噪比,计算公式为:
Figure FDA0003483181520000016
地面用户第m时隙在基站接收信号的信噪比,计算公式为:
Figure FDA0003483181520000021
基站第m时隙接收到无人机与地面用户的传输速率R[m],计算公式为:
Figure FDA0003483181520000022
pu[m]表示无人机的传输功率;pgu[m]表示地面用户的传输功率;σb 2为高斯白噪声。
5.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,所述的联合优化问题为:
Figure FDA0003483181520000023
Figure FDA0003483181520000024
Figure FDA0003483181520000025
Figure FDA0003483181520000026
Figure FDA0003483181520000027
Figure FDA0003483181520000028
其中约束条件C1表示无人机和地面用户的最低数据传输速率的要求;Ru[m]表示无人机的传输速率,不低于门限
Figure FDA0003483181520000029
Rgu[m]表示用户的传输速率,不低于门限
Figure FDA00034831815200000210
约束条件C2表示无人机和地面用户的最大可用发射功率;不高于无人机的功率门限值
Figure FDA00034831815200000211
和用户的功率门限值
Figure FDA00034831815200000212
约束条件C3表示IRS阵元离散相位偏移值的约束;φn[m]表示由可编程PIN二极管所嵌入的电子元构成的IRS的相位偏移;
Figure FDA00034831815200000213
为IRS的个数;Δφ=2π/L,L表示IRS离散相移的数目;
约束条件C4表示保证成功的SIC的NOMA技术的解码顺序约束;
约束条件C5表示无人机与障碍物的最小距离约束dmin;q[m]为无人机位置所确定的航迹点;
Figure FDA00034831815200000214
为障碍物oi的中心位置坐标;
Figure FDA00034831815200000215
表示所有潜在障碍的集合。
6.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,所述的马尔可夫决策过程MDP中,定义四元组
Figure FDA00034831815200000216
其中
Figure FDA00034831815200000217
是决策智能体的状态集合,
Figure FDA00034831815200000218
是决策智能体可实施行为的集合,
Figure FDA00034831815200000219
是传输概率矩阵,
Figure FDA00034831815200000220
是决策智能体基于当前状态采取行为后获得的实值奖励函数,γ是衰减因子;
第m时隙的状态空间表示为:
Sm={Q[m],D[m],Rsum[m-1]}
Q[m]为无人机的位置;D[m]为无人机相较于障碍物中心位置的距离;Rsum[m-1]为从第1时隙到第m-1个时隙的时间段内,无人机与地面用户的总和速率;
动作空间为离散数值,由三部分构成:1)无人飞行的机动方向;2)每一个IRS单元的相位偏移值φn[m];3)无人机与地面用户的功率控制;
奖励函数定义为:
Figure FDA0003483181520000031
其中NS表示约束条件没有被满足的非正常状态;K为恒定的负值奖励;C[m]为当全部约束条件都满足时,***得到的正值奖励。
7.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,所述的采用深度强化学习算法具有可变更性,具体基准算法不唯一,本发明以SAC算法为参考,实施DRRL以完成DRSAC算法的设计;利用DRSAC算法对MDP模型进行训练的过程如下:
DRSAC算法的神经网络分为两类:Actor网络与Critic网络;
Actor网络的神经网络参数为θ,Critic网络的神经网络参数为ω,智能体的策略为π;
当智能体与环境进行交互,通过收集智能体的联合优化策略结果与对应的状态观测结果,并存储在经验回放池
Figure FDA0003483181520000032
中;
回放池
Figure FDA0003483181520000033
包含了四元组
Figure FDA0003483181520000034
Sm代表当前的状态观测值,Sm+1代表下一状态观测值,Am代表在当前状态下所执行的决策行为,
Figure FDA0003483181520000035
代表在当前状态Sm下执行动作Am之后转移为下一状态时所获得的奖励;
智能体的动作由其策略和对应的参数决定,即:
Figure FDA0003483181520000036
通过对Critic网络设置两个输出价值函数Q的网络,每次取两个网络输出中的最小Q值作为迭代计算所用的Q值;
利用DRSAC算法对价值函数Q进行修正,具体过程为:
首先,定义DRRL的目标为:
Figure FDA0003483181520000037
其中
Figure FDA0003483181520000038
表示策略的估计误差,
Figure FDA0003483181520000039
为累计回报;
通过对策略的估计误差量化,得到策略的不确定性集
Figure FDA00034831815200000310
为:
Figure FDA00034831815200000311
其中
Figure FDA00034831815200000312
为对于所有的
Figure FDA00034831815200000313
来说
Figure FDA00034831815200000314
的概率分布,
Figure FDA00034831815200000315
用来计算用于衡量两个分布的相似性的KL散度;
进一步,将鲁棒的目标函数改写为:
Figure FDA0003483181520000041
Figure FDA0003483181520000042
为在状态Sm下执行动作Am获取的奖励;
Figure FDA0003483181520000043
表示在策略
Figure FDA0003483181520000044
下智能体状态和动作对的集合;
Figure FDA0003483181520000045
是对
Figure FDA0003483181520000046
求期望;
对于目标函数式中的内部最小化问题,采用贝尔曼算子
Figure FDA0003483181520000047
对策略进行评估,获得在不确定性集中策略实现的最小状态值;定义如下:
Figure FDA0003483181520000048
应用拉格朗日对偶性,将贝尔曼算子
Figure FDA0003483181520000049
改写为:
Figure FDA00034831815200000410
其中λ(s)为拉格朗日乘子,且λ(s)>0;
对于目标函数式中最大化问题表示为:
Figure FDA00034831815200000411
其中
Figure FDA00034831815200000412
Figure FDA00034831815200000413
的拉格朗日对偶;
最优解λ*(s)为:
Figure FDA00034831815200000414
策略的估计误差
Figure FDA00034831815200000415
的构造形式为
Figure FDA00034831815200000416
n(s)表示状态的访问次数;
得到λ*(s)后,得到当前最优策略:
Figure FDA00034831815200000417
根据所得到的最佳策略集,可计算
Figure FDA00034831815200000418
最后,更新Critic网络参数,并根据Critic网络的输出更新Actor网络参数;
训练直至神经网络参数不再更新,联合优化的结果收敛到近似最优的稳定值,即优化的决策结果可以使得通信***达到最大满足条件的总和速率。
CN202210073748.9A 2021-12-03 2022-01-21 基于智能反射面的空地非正交多址接入上行传输方法 Active CN114422056B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021114672930 2021-12-03
CN202111467293 2021-12-03

Publications (2)

Publication Number Publication Date
CN114422056A true CN114422056A (zh) 2022-04-29
CN114422056B CN114422056B (zh) 2023-05-23

Family

ID=81274792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210073748.9A Active CN114422056B (zh) 2021-12-03 2022-01-21 基于智能反射面的空地非正交多址接入上行传输方法

Country Status (1)

Country Link
CN (1) CN114422056B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114980140A (zh) * 2022-05-25 2022-08-30 扬州大学 一种基于多智能反射面和中继站辅助的下行通信***及信息传输方法
CN115002802A (zh) * 2022-05-10 2022-09-02 重庆邮电大学 一种irs辅助的noma无人机网络的安全速率最大化方法
CN115002900A (zh) * 2022-06-02 2022-09-02 中国电信股份有限公司 终端定位方法、装置、计算机存储介质及电子设备
CN115208443A (zh) * 2022-06-13 2022-10-18 北京科技大学 基于智能反射面的大规模mimo***的联合优化方法及装置
CN115499849A (zh) * 2022-11-16 2022-12-20 国网湖北省电力有限公司信息通信公司 一种无线接入点与可重构智能表面协作方法
CN115802313A (zh) * 2022-11-16 2023-03-14 河南大学 基于智能反射面的空地移动网络携能公平通信方法
CN116170053A (zh) * 2022-12-08 2023-05-26 重庆邮电大学 一种无人机辅助的NOMA反向散射通信***max-min速率最大化方法
CN116436512A (zh) * 2023-06-15 2023-07-14 中国人民解放军战略支援部队航天工程大学 一种ris辅助通信的多目标优化方法、***及设备
CN116614826A (zh) * 2023-05-24 2023-08-18 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法
CN117692052A (zh) * 2024-02-04 2024-03-12 北京邮电大学 低轨卫星网络中多地面用户的接入选择方法和装置
CN118034065A (zh) * 2024-04-11 2024-05-14 北京航空航天大学 一种无人机决策网络的训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
US20200359297A1 (en) * 2018-12-28 2020-11-12 Beijing University Of Posts And Telecommunications Method of Route Construction of UAV Network, UAV and Storage Medium thereof
CN112153653A (zh) * 2020-09-23 2020-12-29 南京邮电大学 可重构智能表面辅助的noma下行低功耗传输方法
CN113162679A (zh) * 2021-04-01 2021-07-23 南京邮电大学 基于ddpg算法的irs辅助无人机通信联合优化方法
CN113364495A (zh) * 2021-05-25 2021-09-07 西安交通大学 一种多无人机轨迹和智能反射面相移联合优化方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200359297A1 (en) * 2018-12-28 2020-11-12 Beijing University Of Posts And Telecommunications Method of Route Construction of UAV Network, UAV and Storage Medium thereof
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN112153653A (zh) * 2020-09-23 2020-12-29 南京邮电大学 可重构智能表面辅助的noma下行低功耗传输方法
CN113162679A (zh) * 2021-04-01 2021-07-23 南京邮电大学 基于ddpg算法的irs辅助无人机通信联合优化方法
CN113364495A (zh) * 2021-05-25 2021-09-07 西安交通大学 一种多无人机轨迹和智能反射面相移联合优化方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SIXIAN LI等: "Reconfigurable Intelligent Surface Assisted UAV Communication:Joint Trajectory Design and Passive Beamforming", 《IEEE WIRELESS COMMUNICATIONS LETTERS》 *
ZHONG YANG等: "Machine Learning for User Partitioning and Phase Shifters Design in RIS-Aided NOMA Networks", 《IEEE TRANSACTIONS ON COMMUNICATIONS》 *
马昊淳等: "智能反射面辅助的上行NOMA***低功耗传输方案研究", 《 南京邮电大学学报(自然科学版)》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115002802A (zh) * 2022-05-10 2022-09-02 重庆邮电大学 一种irs辅助的noma无人机网络的安全速率最大化方法
CN114980140B (zh) * 2022-05-25 2023-06-23 扬州大学 一种基于多智能反射面和中继站辅助的下行通信***及信息传输方法
CN114980140A (zh) * 2022-05-25 2022-08-30 扬州大学 一种基于多智能反射面和中继站辅助的下行通信***及信息传输方法
CN115002900B (zh) * 2022-06-02 2023-11-07 中国电信股份有限公司 终端定位方法、装置、计算机存储介质及电子设备
CN115002900A (zh) * 2022-06-02 2022-09-02 中国电信股份有限公司 终端定位方法、装置、计算机存储介质及电子设备
CN115208443A (zh) * 2022-06-13 2022-10-18 北京科技大学 基于智能反射面的大规模mimo***的联合优化方法及装置
CN115208443B (zh) * 2022-06-13 2023-10-31 北京科技大学 基于智能反射面的大规模mimo***的联合优化方法及装置
CN115499849A (zh) * 2022-11-16 2022-12-20 国网湖北省电力有限公司信息通信公司 一种无线接入点与可重构智能表面协作方法
CN115802313A (zh) * 2022-11-16 2023-03-14 河南大学 基于智能反射面的空地移动网络携能公平通信方法
CN115802313B (zh) * 2022-11-16 2024-06-28 河南大学 基于智能反射面的空地移动网络携能公平通信方法
CN116170053A (zh) * 2022-12-08 2023-05-26 重庆邮电大学 一种无人机辅助的NOMA反向散射通信***max-min速率最大化方法
CN116614826B (zh) * 2023-05-24 2024-01-16 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法
CN116614826A (zh) * 2023-05-24 2023-08-18 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法
CN116436512A (zh) * 2023-06-15 2023-07-14 中国人民解放军战略支援部队航天工程大学 一种ris辅助通信的多目标优化方法、***及设备
CN117692052A (zh) * 2024-02-04 2024-03-12 北京邮电大学 低轨卫星网络中多地面用户的接入选择方法和装置
CN117692052B (zh) * 2024-02-04 2024-04-19 北京邮电大学 低轨卫星网络中多地面用户的接入选择方法和装置
CN118034065A (zh) * 2024-04-11 2024-05-14 北京航空航天大学 一种无人机决策网络的训练方法及装置
CN118034065B (zh) * 2024-04-11 2024-06-21 北京航空航天大学 一种无人机决策网络的训练方法及装置

Also Published As

Publication number Publication date
CN114422056B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN114422056B (zh) 基于智能反射面的空地非正交多址接入上行传输方法
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
Bayerlein et al. Trajectory optimization for autonomous flying base station via reinforcement learning
CN112511250B (zh) 一种基于drl的多无人机空中基站动态部署方法及***
CN114422363B (zh) 一种无人机搭载ris辅助通信***容量优化方法及装置
CN115640131A (zh) 一种基于深度确定性策略梯度的无人机辅助计算迁移方法
Venturini et al. Distributed reinforcement learning for flexible and efficient UAV swarm control
CN114567888B (zh) 一种多无人机动态部署方法
CN113316169B (zh) 一种面向智慧港口的uav辅助通信能效优化方法及装置
Luo et al. A two-step environment-learning-based method for optimal UAV deployment
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN116227767A (zh) 基于深度强化学习的多无人机基站协同覆盖路径规划方法
CN114885340B (zh) 一种基于深度迁移学习的超密集无线网络功率分配方法
CN116436512A (zh) 一种ris辅助通信的多目标优化方法、***及设备
Park et al. Joint trajectory and resource optimization of MEC-assisted UAVs in sub-THz networks: A resources-based multi-agent proximal policy optimization DRL with attention mechanism
CN116963034A (zh) 一种面向应急场景的空地网络分布式资源调度方法
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及***
CN116600316A (zh) 一种基于深度双q网络和联邦学习的空地一体化物联网联合资源分配方法
Nasr-Azadani et al. Single-and multiagent actor–critic for initial UAV’s deployment and 3-D trajectory design
Sobouti et al. Managing sets of flying base stations using energy efficient 3D trajectory planning in cellular networks
CN117858015A (zh) 基于深度强化学习的空中边缘计算数据安全传输及资源分配方法
CN116208968B (zh) 基于联邦学习的轨迹规划方法及装置
CN116249202A (zh) 一种物联网设备的联合定位与计算支持方法
Lu et al. Trajectory design for unmanned aerial vehicles via meta-reinforcement learning
CN115119174A (zh) 灌区场景中基于能耗优化的无人机自主部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant