CN113162679A - 基于ddpg算法的irs辅助无人机通信联合优化方法 - Google Patents

基于ddpg算法的irs辅助无人机通信联合优化方法 Download PDF

Info

Publication number
CN113162679A
CN113162679A CN202110353953.6A CN202110353953A CN113162679A CN 113162679 A CN113162679 A CN 113162679A CN 202110353953 A CN202110353953 A CN 202110353953A CN 113162679 A CN113162679 A CN 113162679A
Authority
CN
China
Prior art keywords
irs
aerial vehicle
unmanned aerial
user
drone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110353953.6A
Other languages
English (en)
Other versions
CN113162679B (zh
Inventor
王保云
熊磊
代海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110353953.6A priority Critical patent/CN113162679B/zh
Publication of CN113162679A publication Critical patent/CN113162679A/zh
Application granted granted Critical
Publication of CN113162679B publication Critical patent/CN113162679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • H04W16/28Cell structures using beam steering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明所述的基于DDPG算法的IRS辅助无人机通信联合优化方法通过部署智能反射面和多个地面用户的坐标,无人机携带多根天线情况下根据无人机起始位置和最终位置二维坐标两点成线原则的设计移动轨迹,通过可自主学习且泛化能力强的智能决策方法,从而获得速率最大化的波束成形和轨迹。本发明所述的有益效果为:所述方法可显著提升无人机空中基站建立空‑地通信***的传输速率,通过智能反射面(Intelligent Reflecting Surface,IRS)将无人机到单个用户单链路信道近似为多链路信道,来达到增强通信信号提升对用户服务性能,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行联合优化,可同时获得联合优化解。

Description

基于DDPG算法的IRS辅助无人机通信联合优化方法
技术领域
本发明涉及通信领域,具体是涉及一种基于DDPG算法的IRS辅助无人机通信联合优化方法。
背景技术
面对6G中广覆盖和高可靠的通信需求,无人机辅助通信在提高通信网络的覆盖范围和应急通信方面具有无可比拟的优势,同时也面临着提高能效实现可靠通信的挑战。凭借灵活部署和视距无线传输等固有优势,高机动性能无人机作为空中通信平台已广泛部署于各种无线通信场景中,一般通过联合优化无人机轨迹和通信资源分配提高通信质量;此外,随着无线网络的容量成倍增加,为了满足多媒体访问对高数据和速率快速增长的需求,可以通过无人机部署天线阵列无线通信来提高网络容量。
无人机和地面用户之间存在障碍物的遮挡会大大降低通信的性能,为了改善传播环境并提高通信质量,智能反射面(Intelligent Reflecting Surface,IRS)技术引起了广泛的关注。IRS可以通过反射信号绕过障碍物以增强用户接受的信号, IRS是由多个可重构反射元素组成,IRS中的每个元素都可以通过可控的相移来反射入射信号,通过共同调整所有元素的相移,以实现所需接收器上来自不同传输路径的信号相位对准,这称为无源波束成形,从而增强信号和提高可达速率。与传统中继相比,IRS仅反射从发射机到接收机的信号,不会引起额外的接收噪声,反射面成本低廉,可普遍部署在建筑物外墙中以协助无人机通信。
在IRS辅助无人机通信场景中,通过部署IRS技术应用到无人机通信中可以提高传输速率,但是在求解多变量耦合的优化问题时,多数是基于数学方式的交替化技术联合优化求解,使用了复杂的数学公式和数值优化技术对优化问题进行化简,此外,在没有确切情况下找到最佳策略可能很棘手而造成计算时间长。最近,无规模人工智能(ArtificialIntelligence,AI)作为一项技术处理数学上难以解决的非线性非凸问题和高计算问题。AI技术对具有大量阵列元素的大规模多输入多输出(Multiple Input Multiple Output,MIMO)***最为有吸引力,由于设计超大尺寸优化,优化问题变得不容易。周等人提出深度学习(Deep Learning,DL) 用于通过建立信道之间的映射关系获得MIMO***的波束成形矩阵和预编码设计。实际上,基于DL方法能够利用离线预测降低复杂性和计算时间,但是通常需要详尽的样本库来进行在线培训。同时,在无线通信***的设计中也采用了深度强化学习(Deep Reinforcement Learning,DRL)技术,该技术在神经网络训练中具有DL的优势,并提高了学习速度和强化学习(Reinforcement Learning,RL) 算法的性能。但是,大多数RL可能并不总是适合处理联合优化问题中的连续和高维动作空间。DRL对于无线信道随时间变化的通信***特别有益,DRL能够允许无需了解信道模型和移动性模型,只需要了解有关无线电信道的知识即可,从而通过观察来自环境的收益并找出复杂的优化问题的解决方案来进行有效的算法设计。DRL方法已在一些IRS辅助通信和无人机通信网络中使用,然而对于IRS辅助无人机通信中,由于无人机是能量有限的设备,如何有效地联合优化波束成形和无人机轨迹使得速率最大化变成了一个很重要的问题。
发明内容
本发明的目的是针对IRS辅助无人机多输入单输出(Multiple InputSingleOutput,MISO)多用户通信应用场景,提供了一种基于DRL的深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法的联合优化方法。
为解决上述技术问题,本发明所述的基于DDPG算法的IRS辅助无人机通信联合优化方法,其采用的技术方案是:所述联合优化方法基于IRS辅助无人机通信***,所述通信***包括IRS、旋转翼无人机,所述旋转翼无人机上安装若干根用于波束成形的天线,所述旋转翼无人机在固定高度H飞行作为空中基站服务K个单天线用户的下行传输***,所述用户的集合为
Figure RE-GDA0003093633180000021
所述 IRS接收无人机信号并将其通过反射信号绕过障碍物传输给用户;
所述联合优化方法的步骤为:
步骤1、建立空对地通信模型:考虑在无人机通信中,周围很可能存在许多障碍物,致使无人机到K个用户的视距(Line of Sight,LoS)链路被堵塞,通过部署 IRS,可以创建多个LoS链路增强通信,在此情况下,对无人机基站和地面用户之间的信道、无人机和IRS之间的信道和IRS和用户之间的信道进行建模,求解三者的信道增益;
步骤2、根据三者的信道增益,获得无人机到地面用户在时隙t的数据传输可达和速率优化问题;
步骤3:根据通信***中无人机的发射功率波束成形约束、运动轨迹约束, IRS无源波束成形相移约束和用户的数据传输可达和速率,建立深度强化学习模型;
步骤4:利用DDPG算法优化强化学习模型;
步骤5:根据优化后的深度强化学习模型获得联合优化的解,得到优化的用户可达数据、速率和无人机的运动轨迹。
进一步的,所述的步骤1中IRS节点和K个地面用户分布以及无人机进行如下定义:
所有通信节点建立三维笛卡尔坐标系,部署K个地面用户的和固定Z高度的IRS配有M个反射单元并且每个反射单元的相位可以调整接收信号,则第k个用户和IRS的水平坐标为wk=[xk,yk]T,wR=[xR,yR]T,其中k∈K,K是地面用户节点总数;
无人机在任务周期T(T>0)内持续地向用户发射信号,无人机飞行周期T以步长δt分为N个等距时隙,T=Nδt;在t∈[0,T]时刻,无人机的平面坐标定义为q(t)=[x(t),y(t)]T,其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标; IRS在第t个时隙中的相移矩阵为
Figure RE-GDA0003093633180000031
diag{·}表示对角矩阵,对角矩阵
Figure RE-GDA0003093633180000032
其中θm(t)表示IRS在第t个时隙的第m个反射单元的相移,其中m∈M,M是IRS单元总数;
无人机到用户的LoS路径被堵塞的情况下,无人机到用户的信道被建模为Rician衰弱信道,无人机到用户k在第t时隙的信道增益表示为:
Figure RE-GDA0003093633180000033
其中ρ表示在参考距离d0=1m时的信道增益,κ是无人机与用户链路的路径损耗指数,guk是具有零均值和单位方差的复高斯随机向量;
Figure RE-GDA0003093633180000034
表示无人机在第t时隙与用户k之间的距离,Nt是无人机的发射天线的数目;
无人机到IRS的信道以LoS信道为主,因此第t个时隙时无人机到IRS信道增益H(t)表示为:
Figure RE-GDA0003093633180000041
其中
Figure RE-GDA0003093633180000042
表示在第t时隙节点无人机和IRS之间的距离,gur表示数组响应阵列;
IRS到用户链路同时存在LoS和NLoS成分,因此,IRS到用户k的信道增益hk表示为:
Figure RE-GDA0003093633180000043
其中
Figure RE-GDA0003093633180000044
表示节点IRS到用户k的距离,ε为IRS到用户端路径损耗指数,β为瑞利因子。
Figure RE-GDA0003093633180000045
Figure RE-GDA0003093633180000046
分别表示智能发射面到用户k链路的 LoS和NLoS成分。
进一步的,步骤2中,用户k在第t时隙中的信干噪比(Signal to InterferencePlus Noise Ratio,SINR)计算公式如下:
Figure RE-GDA0003093633180000047
其中
Figure RE-GDA0003093633180000048
为无人机波束成形矢量,σ2是加性高斯白噪声的功率,γk(t)表示用户k在第t时隙中的SINR。
***目标为联合设计无人机波束成形矢量
Figure RE-GDA0003093633180000049
IRS无源波束成形相移矩阵
Figure RE-GDA00030936331800000410
和无人机飞行轨迹
Figure RE-GDA00030936331800000411
来最大化和速率,该优化问题表述为:
Figure RE-GDA00030936331800000412
其中
Figure RE-GDA00030936331800000413
是无人机在单个时隙中行驶的最大水平距离,Vmax是无人机最大行驶速度,单位为m/s,qI和qF分别为无人机的水平坐标中的初始值和最终值,Pmax表示无人机的最大发射功率。
进一步的,步骤3中,建立深度强化学习模型的马尔可夫过程为:
步骤3-1、状态空间S:状态s(t)由第t时间步的无人机发射功率和用户接收功率、第(t-1)步的动作、信道矩阵{Gk(t),H(t),hk},k∈K决定;在构造状态s 中,如果涉及到复数,则将复数的实部和虚部提取出来被分离为独立的输入端口;
步骤3-2、动作空间A:动作a(t)是由优化变量波束成形矩阵B、无源波束成形相移矩阵Θ和轨迹q构成;同样,为了解决实际输入问题,在t时间步将 Bk(t)=|Re{Bk(t)}|+|Im{Bk(t)}|,k∈K和Θ(t)=|Re{Θ(t)}|+|Im{Θ(t)}|分为实部和虚部;
步骤3-3、即时奖励R:确保无人机为所有用户提供服务,并基于优化问题奖励函数为
Figure RE-GDA0003093633180000051
考虑到无模型的强化框架,在有限时间T对学习最佳策略进行建模以获得最大的长期奖励
Figure RE-GDA0003093633180000052
状态作用值函数Qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望;Q学习不依赖环境的先验知识,只需要不断的对Q(s(t),a(t))迭代到最优值Q*(s(t),a(t)),就能获得最优策略π*;通过Q学习算法可搜索最优策略π*,在最优策略π*下定义的Q值更新函数为:
Figure RE-GDA0003093633180000053
其中χ∈(0,1]为折扣因子,r(t+1)(s(t)=s,a(t),π=π*)为在t时刻状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t+1),s′为无人机在(t+1)时刻的状态,a′为无人机在(t+1)时刻的动作,
Figure RE-GDA0003093633180000054
是采取动作a从状态s 过渡到下一个状态s′的转移概率。
进一步的,步骤4中所述利用DDPG算法优化深度强化学习模型,具体包括以下步骤:
步骤4-1、训练回合数ep初始化为0;
步骤4-2、ep回合中的时间步t初始化为0;
步骤4-3、在线Actor策略网络根据输入状态s(t),输出动作a(t)并获取即时奖励r(t +1),同时转换到下一状态s(t+1),获取训练数据集(s(t),a(t),r(t+1),s(t+1));
步骤4-4、将训练数据集(s(t),a(t),r(t+1),s(t+1))存储到经验回放池记忆库D中;
步骤4-5、从目标Critic评论网络得到Q值方程
Figure RE-GDA0003093633180000061
步骤4-6、从经验回放池D中随机采样一小批W数量样本构成数据集,发送给在线Actor策略网络、在线Critic评论网络、目标Actor策略网络和目标Critic 评论网络;
步骤4-7、根据采样得到的W数量样本,目标Actor策略网络根据当前的状态s(t)输出动作a(t),目标Critic评论网络根据当前的状态s(t)和目标Actor策略网络输出动作a(t),输出Q值函数
Figure RE-GDA0003093633180000062
的损失函数梯度
Figure RE-GDA0003093633180000063
在线 Critic评论网络根据当前(s(t),a(t),r(t+1))输出Q值函数
Figure RE-GDA0003093633180000064
给的抽样策略梯度
Figure RE-GDA0003093633180000065
和损失函数梯度
Figure RE-GDA0003093633180000066
根据损失函数梯度
Figure RE-GDA0003093633180000067
更新在线Critic 评论网络参数
Figure RE-GDA0003093633180000068
在线Actor策略网络将动作a(t)输出给抽样策略梯度
Figure RE-GDA0003093633180000069
根据抽样策略梯度更新在线Actor策略网络参数
Figure RE-GDA00030936331800000610
步骤4-8、根据在线Critic评论网络参数
Figure RE-GDA00030936331800000611
和在线Actor策略网络参数
Figure RE-GDA00030936331800000612
更新目标Critic评论网络参数
Figure RE-GDA00030936331800000613
和目标Actor策略网络参数
Figure RE-GDA00030936331800000614
Figure RE-GDA00030936331800000615
Figure RE-GDA00030936331800000616
其中τc和τa分别是用于更新目标Critic评论网络和目标Actor策略网络权重的软更新速率;
步骤4-9、判断是否满足t<T,T为ep回合中总时间步,若是则t=t+1,返回步骤4-3,若不是,则进入步骤4-10;
步骤4-10、判断是否满足轮数ep<EP,EP为总回合数,若是则ep=ep+1,返回步骤4-2,若不是则优化结束,得到优化后的强化学习模型。
进一步的,更新梯度公式为:
Figure RE-GDA0003093633180000071
Figure RE-GDA0003093633180000072
其中a′是从目标Actor策略网络输出的动作,
Figure RE-GDA0003093633180000073
表示在给定输入状态s(t)下为在线Actor策略网络参数为
Figure RE-GDA0003093633180000074
所输出的动作。
Figure RE-GDA0003093633180000075
是在线Actor策略网络参数为
Figure RE-GDA0003093633180000076
的梯度。
进一步的,步骤5具体为:输入IRS辅助无人机通信***的状态s(t),深度强化学习模型根据状态学习训练得出最优动作a(t),可得到优化问题解和优化变量无人机的轨迹q。
本发明所述的有益效果为:本发明利用IRS和无人机辅助通信的相关信息,提出了深度强化学习策略,利用深度强化学习方法获得波束成形和轨迹联合优化策略,无人机通过选择合适的发射功率和运动轨迹,IRS通过选择合适无源波束成形相移来反射信号,来降低对用户之间的干扰,最大化用户可达信息速率,提高通信网络的吞吐量,符合绿色通信。
本发明使用DDPG算法可以有效解决联合优化问题,由于IRS辅助无人机通信***中多用户的干扰,优化问题是非凸的,并且最佳解决方案是未知的,使用基于DRL的DDPG算法,以找到可行的解决方案。该算法与数学交替优化方法不同,固定一个变量求解另一个变量并且使用了复杂的数学公式和数值优化技术,提出的DDPG算法共同优化变量无需了解无线环境的显示模型和特定数学公式,这样非常容易扩展到各种***设置,从神经网络中学习训练得到最优解决方案。具体而言,总速率被用作即时奖励来训练,通过观察奖励逐渐最大化和速率,并相应地迭代调整网络参数,另外由于无人机运动轨迹是连续的,DDPG算法设计解决离散动作空间,可在一系列高维动作空间中得到优化。
与现有无IRS部署通信方法相比,本发明以最大化用户到达和速率为目标,所提的DDPG联合优化方法通过共同优化波束成形、无人机轨迹实现信号对准达到增强通信质量的目的,显著提升无人机通信***场景中的速率。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
图1为本发明的IRS辅助无人机通信***模型图
图2位本发明的DDPG算法框架图
图3为本发明中无人机优化飞行轨迹图。
图4为本发明中DDPG算法在训练步数下的奖励图。
具体实施方式
本发明所述的基于DDPG算法的IRS辅助无人机通信联合优化方法,目的是通过联合优化波束成形和轨迹最大化速率,提高频谱利用率,利用深度学习方法将基于AC框架的DDPG算法运用到所述的通信***模型中,得到最优的约束变量,使其保证最大程度上提高通信网络容量。
所述联合优化方法基于IRS辅助无人机通信***,通信***包括一架旋转翼无人机在固定高度H飞行作为空中基站服务K个单天线用户的下行传输***,所有用户的集合为
Figure RE-GDA0003093633180000081
为了补偿信号的快速衰落,无人机配备了用于波束成形的多根天线,部署一个IRS,用来提高用户接收速率。
在无人机沿着轨迹飞行过程中,地面上的IRS不消耗能量,IRS节点是全双工发送信息,每个通信链路之间无干扰,地面所有用户同时接收IRS节点附加的信息。
所述联合优化方法的步骤为:
步骤1:在所述***中,建立空对地通信模型:考虑在无人机通信中,周围很可能存在许多障碍物,致使无人机到K个用户的LoS链路被堵塞,通过部署 IRS,可以创建多个LoS链路增强通信,在此情况下,对无人机基站和地面用户之间的信道、无人机和IRS之间的信道和IRS和用户之间的信道进行建模,求解三者的信道增益。
如图1所示通信***模型,所有通信节点建立三维笛卡尔坐标系,部署K个地面用户的和固定Z高度的IRS,IRS配有M个反射单元并且每个反射单元的相位可以调整接收信号,则第k个用户和IRS的水平坐标为wk=[xk,yk]T,wR=[xR,yR]T,其中k∈K,K是地面用户节点总数。
无人机在任务周期T(T>0)内持续地向用户发射信号,无人机飞行周期T以步长δt分为N个等距时隙,T=Nδt;在t∈[0,T]时刻,无人机的平面坐标定义为q(t)=[x(t),y(t)]T,其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标。 IRS在第t个时隙中的相移矩阵为
Figure RE-GDA0003093633180000091
diag{·}表示对角矩阵,对角矩阵
Figure RE-GDA0003093633180000092
其中θm(t)表示IRS在第t个时隙的第m个反射单元的相移,其中m∈M,M是IRS单元总数。
无人机到用户的LoS路径被堵塞的情况下,无人机到用户的信道被建模为 Rician衰弱信道,无人机到用户k在第t时隙的信道增益表示为:
Figure RE-GDA0003093633180000093
其中ρ表示在参考距离d0=1m时的信道增益,κ是无人机与用户链路的路径损耗指数,guk是具有零均值和单位方差的复高斯随机向量。
Figure RE-GDA0003093633180000094
表示无人机在第t时隙与用户k之间的距离,Nt是无人机的发射天线的数目。
无人机到IRS的信道以LoS信道为主,因此第t个时隙时无人机到IRS信道增益H(t)表示为:
Figure RE-GDA0003093633180000095
其中
Figure RE-GDA0003093633180000096
表示在第t时隙节点无人机和IRS之间的距离,gur表示数组响应阵列。
IRS到用户链路同时存在LoS和NLoS成分,因此,IRS到用户k的信道增益hk表示为:
Figure RE-GDA0003093633180000097
其中
Figure RE-GDA0003093633180000098
表示节点IRS到用户k的距离,ε为IRS到用户端路径损耗指数,β为瑞利因子。
Figure RE-GDA0003093633180000099
Figure RE-GDA00030936331800000910
分别表示IRS到用户k链路的LoS和 NLoS成分。
步骤2:根据三者的信道增益,获得无人机到地面用户在时隙t的数据传输可达和速率优化问题。
用户k在第t时隙中的SINR计算公式如下:
Figure RE-GDA0003093633180000101
其中
Figure RE-GDA0003093633180000102
为无人机波束成形矢量,σ2是加性高斯白噪声的功率。
***目标为联合设计无人机波束成形矢量
Figure RE-GDA0003093633180000103
IRS无源波束成形相移矩阵
Figure RE-GDA0003093633180000104
和无人机飞行轨迹
Figure RE-GDA0003093633180000105
来最大化和速率,该优化问题可以表述为:
Figure RE-GDA0003093633180000106
其中
Figure RE-GDA0003093633180000107
是无人机在单个时隙中行驶的最大水平距离,Vmax是无人机最大行驶速度,单位为m/s,qI和qF分别为无人机的水平坐标中的初始值和最终值,Pmax表示无人机的最大发射功率。
步骤3:根据通信***中无人机的发射功率波束成形约束、运动轨迹约束, IRS无源波束成形相移约束和用户的数据传输可达和速率,建立深度强化学习框架。
为了高效解决无人机在连续移动过程中状态空间联合优化问题,以无人机为智能体,建立深度强化学习模型,利用无人机和IRS约束变量提出深度强化学习优化策略,通过联合优化无人机波束成形、IRS无源波束成形相移和无人机轨迹,实现高效的资源分配,提高***容量。
强化学习是通过智能体在指定场景中不断探索未知环境并与环境进行交互获得环境状态,通过不断的探索学习到最佳策略以获得最大的长期奖励。强化学习利用马尔可夫来简化求解过程,典型的马尔可夫过程主要由状态空间、动作空间和奖励函数列表组成。根据目标问题建立马尔可夫过程:
步骤3-1、状态空间:表示在时间步t观察到的状态,一组表征观察环境的结果。状态s(t)由第t时间步的无人机发射功率和用户接收功率,第(t-1)步的动作,信道矩阵{Gk(t),H(t),hk},k∈K决定。由于神经网络的输入只能接收实数而不接收复数,因此在构造状态s中,如果涉及到复数,则将复数的实部和虚部提取出来被分离为独立的输入端口;
步骤3-2、动作空间:智能体在学习过程中选择的动作。动作a(t)是由优化变量波束成形矩阵B、无源波束成形相移矩阵Θ和轨迹q构成;同样,为了解决实际输入问题,在t时间步将Bk(t)=|Re{Bk(t)}|+|Im{Bk(t)}|,k∈K和Θ(t)=|Re{Θ(t)}|+|Im{Θ(t)}|分为实部和虚部;
步骤3-3、即时奖励:智能体在给定状态s采取动作a获得的奖励,这也是一个性能指标r(t),来评估在即时刻t处于状态s(t)执行动作a(t)的程度;确保无人机为所有用户提供服务,并基于优化问题奖励函数为
Figure RE-GDA0003093633180000111
考虑到无模型的强化框架,在有限时间T对学习最佳策略进行建模以获得最大的长期奖励
Figure RE-GDA0003093633180000112
本发明中,深度强化学习算法建立在Q学习的基础上,Q学习是一种无模型的学习算法;状态作用值函数Qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望;Q学习不依赖环境的先验知识,只需要不断的对Q(s(t),a(t))迭代到最优值Q*(s(t),a(t)),就能获得最优策略π*;通过Q学习算法可搜索最优策略π*,在最优策略π*下定义的Q值更新函数为:
Figure RE-GDA0003093633180000113
其中χ∈(0,1]为折扣因子,r(t+1)(s(t)=s,a(t),π=π*)为在t时刻状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t+1),s′为无人机在(t+1)时刻的状态,a′为无人机在(t+1)时刻的动作,
Figure RE-GDA0003093633180000114
是采取动作a从状态s 过渡到下一个状态s′的转移概率。
步骤4:利用DDPG算法优化深度强化学习模型。
深度强化学习中的动作空间包括无人机波束成形、IRS无源波束成形相移矩阵和无人机轨迹三个变量,考虑无人机在一定范围内连续飞行,为了解决高维动作空间,尤其是连续空间中的联合优化问题你,将Q学习与神经网络结合,引入了一种基于演员-评论家(Actor-Critic,AC)框架的DDPG算法,通过学习训练优化这两个网络参数。DDPG算法采用强化学习的AC架构,由4个神经网络构成,2个结构相同的Actor策略网络,分别是在线Actor策略网络和目标Actor 策略网络;2个结构相同的Critic策略网络,分别是在线Critic策略网络和目标 Critic策略网络。AC网络相互依赖,相互影响都需要在训练过程中迭代优化。
Actor策略网络的输入是状态s(t),输出动作a(t),策略网络用于策略函数为
Figure RE-GDA0003093633180000121
其中
Figure RE-GDA0003093633180000122
为在线Actor策略网络参数,
Figure RE-GDA0003093633180000123
参数朝着使Q值增大的方向更新。定义
Figure RE-GDA0003093633180000124
其中E(·)表示求期望,
Figure RE-GDA0003093633180000125
学习训练无人机的最优行为策略过程,即最大化
Figure RE-GDA0003093633180000126
的过程。
Critic评论网络输入时无人机在t时刻中的状态s(t)和采取的动作a(t),输出的是对应的
Figure RE-GDA0003093633180000127
和下一个状态s(t+1),其中
Figure RE-GDA0003093633180000128
为在线Critic评论网络参数,通过更新参数来降低目标网络和在线网络之间的损失函数:
Figure RE-GDA0003093633180000129
其中
Figure RE-GDA00030936331800001210
从目标Actor策略网络输出的动作。
DDPG算法中使用了经验回放池的方法,通过无人机与环境交互所得的样本数据存放至记忆单元,然后通过数据随机采样更新网络参;在进行联合优化训练学习时,将轮训练回合数中无人机与环境交互的信息以数据集 (s(t),a(t),r(t+1),s(t+1))的形式存放至回放记忆单元,使用使随机从回放单元抽取一组数据用于训练。经验池回放的方法有效提高了数据利用效率,随机采样的数据抽取方式保证了各数据之间的独立性,提高算法的收敛速度。
根据抽取样本(s(t),a(t),r(t+1),s(t+1))得到
Figure RE-GDA0003093633180000131
和损失函数
Figure RE-GDA0003093633180000132
使用梯度下降法来优化神经网络参数,参数更新梯度公式为:
Figure RE-GDA0003093633180000133
Figure RE-GDA0003093633180000134
DDPG算法中在线网络通过随机梯度下降算法更新参数,目标网络参数变化小,用于在训练过程中提供在线网络更新所需要的一些信息;在线网络参数实时更新,每过步数后,在线忘的参数会拷贝给目标网络,目标网络的引入使得学习过程更加稳定,训练易于收敛,经过迭代训练学习之后的神经网络输出的动作就是目标函数的最优解。
如图2所示,所述基于DDPG算法优化深度强化学习模型包括以下步骤:
步骤4-1、训练回合数ep初始化为0;
步骤4-2、ep回合中的时间步t初始化为0;
步骤4-3、在线Actor策略网络根据输入状态s(t),输出动作a(t)并获取即时奖励r(t +1),同时转换到下一状态s(t+1),获取训练数据集(s(t),a(t),r(t+1),s(t+1));
步骤4-4、将训练数据集(s(t),a(t),r(t+1),s(t+1))存储到经验回放池记忆库D中;
步骤4-5、从目标Critic评论网络得到Q值方程
Figure RE-GDA0003093633180000135
步骤4-6、从经验回放池D中随机采样一小批W数量样本构成数据集,发送给在线Actor策略网络、在线Critic评论网络、目标Actor策略网络和目标Critic 评论网络;
步骤4-7、根据采样得到的W数量样本,目标Actor策略网络根据当前的状态s(t)输出动作a(t),目标Critic评论网络根据当前的状态s(t)和目标Actor策略网络输出动作a(t),输出Q值函数
Figure RE-GDA0003093633180000136
的损失函数梯度
Figure RE-GDA0003093633180000137
在线 Critic评论网络根据当前(s(t),a(t),r(t+1))输出Q值函数
Figure RE-GDA0003093633180000138
给的抽样策略梯度
Figure RE-GDA0003093633180000139
和损失函数梯度
Figure RE-GDA00030936331800001310
根据损失函数梯度
Figure RE-GDA00030936331800001311
更新在线Critic 评论网络参数
Figure RE-GDA00030936331800001312
在线Actor策略网络将动作a(t)输出给抽样策略梯度
Figure RE-GDA00030936331800001313
根据抽样策略梯度更新在线Actor策略网络参数
Figure RE-GDA0003093633180000141
步骤4-8、根据在线Critic评论网络参数
Figure RE-GDA0003093633180000142
和在线Actor策略网络参数
Figure RE-GDA0003093633180000143
更新目标Critic评论网络参数
Figure RE-GDA0003093633180000144
和目标Actor策略网络参数
Figure RE-GDA0003093633180000145
Figure RE-GDA0003093633180000146
Figure RE-GDA0003093633180000147
其中τc和τa分别是用于更新目标Critic评论网络和目标Actor策略网络权重的软更新速率;
步骤4-9、判断是否满足t<T,T为ep回合中总时间步,若是则t=t+1,返回(3),若不是,则进入(9);
步骤4-10、判断是否满足轮数ep<EP,EP为总回合数,若是则ep=ep+1,返回(2),若不是则优化结束,得到优化后的强化学习框架。
步骤5:输入IRS辅助无人机通信***的状态s(t),深度强化学习模型根据状态学习训练得出最优动作a(t),可得到优化问题解和优化变量无人机的轨迹q。
利用DDPG算法训练好的深度强化学习模型,可以得到无人机的最佳功率分配和飞行轨迹策略,并在深度神经网络中动作中输出。
根据上述实例,进行数据仿真:
以下实例所提供的图以及模型中的具体参数值的设定主要是为了说明本发明的基本构想以及对发明做仿真验证,具体环境的应用环境中,可视实际场景和需求进行适当调整。
假设通信***有K=4用户,无人机携带的天线数为Nt=4,IRS的位置为 wr=[0,0]T,地面用户K=4随机且均匀分布在以(0,0)为中心,半径为70m的圆中,四个用户的坐标为:w1=[-30,10]T、w2=[-20,50]T、w3=[22,28]T和 w4=[30,16]T。无人机的初始位置和最终位置的水平坐标为qI=[-500,20]T和 qF=[500,20]T。无人机的高度H=70m,IRS的高度Z=40m;无人机在飞行周期中,最大速度为Vmax=25m/s,将链路的路径损耗指数和瑞利因子分别设置为κ=3,ε=2.2和β=3dB;参考距离d0=1m处的信道功率增益ρ=-20dB,噪声功率σ2=-80dBm,无人机的最大发射功率为Pmax=20dB。
在基于DDPG深度强化学习中,演员网络和评论家网络设计了两个隐藏层的全连接神经网络,AdamPropOptimizer用作AC框架的优化器。仿真网络环境参数为训练总回合数为EP=5000,每个回合数中训练总步数T=20000,随机抽样一批数据数量W=16,Actor网络和Critic网络的学习率都设置为0.001,未来折扣因子为χ=0.99。
图3显示了无人机在不同飞行时间周期T的轨迹图,当T=40时无人机从初始位置到最终位置所需的最短时间,以最大速度直线飞行。另一方面,随着T逐渐增大,当T=100时无人机的飞行轨迹与之前的完全不同。无IRS情况下,无人机沿着相对直接的路径到达用户的位置,然后在用户位置上尽可能保持悬停,最终返回其最终位置。同时,无人机越快到达悬停点,平均求和率提高的程度大。在基于所提及的DDPG算法中,可观察到在无人机绕过地面用户,几乎直接飞向IRS,试图尽可能接近IRS位置上飞行,以增强接收信号的强度,提高多个空地面链路的信道增益,从而获得较好的通信质量。
提出DDPG算法的联合设计方案包括三个部分,即无人机波束形成,IRS 无源波束形成相移设计,和轨迹设计。为了评估本发明所提DDPG算法的长期***性能,将其与IRS采取随机相位和无IRS通信场景两个基准方案进行了比较。
图4显示在训练时间步长下,其中的平均奖励为用即时奖励的平均值
Figure RE-GDA0003093633180000151
方法来计算平均奖励,其中R是最大步长。可以看出,奖励随着训练时间步长的增加而收敛,基于DDRG算法所获得的奖励优于两个基准方案,因为DDPG算法能够从环境学习中学习并调整优化变量以逼近最佳解,也同样表明部署IRS在改进通信***中也起着重要的作用。
以上所述仅为本发明的优选方案,并非作为对本发明的进一步限定,凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims (6)

1.基于DDPG算法的IRS辅助无人机通信联合优化方法,其特征在于,所述联合优化方法基于IRS辅助无人机通信***,所述通信***包括IRS、旋转翼无人机,所述旋转翼无人机上安装若干根用于波束成形的天线,所述旋转翼无人机在固定高度H飞行作为空中基站服务K个单天线用户的下行传输***,所述IRS接收无人机信号并将其通过反射信号绕过障碍物传输给用户;
所述联合优化方法的步骤为:
步骤1、对无人机基站和K个地面用户之间的信道、无人机和IRS之间的信道及IRS和K个地面用户之间的信道进行建模,构成空对地通信模型,求解三者的信道增益;
步骤2、根据三者的信道增益,获得无人机到地面用户在时隙t的数据传输可达和速率优化问题;
步骤3:根据通信***中无人机的发射功率波束成形约束、运动轨迹约束,IRS无源波束成形相移约束和用户的数据传输可达和速率,建立深度强化学习模型;
步骤4:利用DDPG算法优化强化学习模型;
步骤5:根据优化后的深度强化学习模型获得联合优化的解,得到优化的用户可达数据、速率和无人机的运动轨迹。
2.根据权利要求1所述的基于DDPG算法的IRS辅助无人机通信联合优化方法,其特征在于,所述步骤1中,IRS和K个地面用户分布以及无人机状态进行如下定义:
所有通信节点建立三维笛卡尔坐标系,部署K个地面用户的和固定Z高度的IRS配有M个反射单元并且每个反射单元的相位可以调整接收信号,则第k个用户和IRS的水平坐标为wk=[xk,yk]T,wR=[xR,yR]T,其中k∈K,K是地面用户节点总数;
无人机在任务周期T(T>0)内持续地向用户发射信号,无人机飞行周期T以步长δt分为N个等距时隙,T=Nδt;在t∈[0,T]时刻,无人机的平面坐标定义为q(t)=[x(t),y(t)]T,其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标;IRS在第t个时隙中的相移矩阵为
Figure RE-FDA0003093633170000011
diag{·}表示对角矩阵,对角矩阵
Figure RE-FDA0003093633170000021
其中θm(t)表示IRS在第t个时隙的第m个反射单元的相移,其中m∈M,M是IRS单元总数;
无人机到用户的LoS路径被堵塞的情况下,无人机到用户的信道被建模为Rician衰弱信道,无人机到用户k在第t时隙的信道增益表示为:
Figure RE-FDA0003093633170000022
其中ρ表示在参考距离d0=1m时的信道增益,κ是无人机与用户链路的路径损耗指数,guk是具有零均值和单位方差的复高斯随机向量;
Figure RE-FDA0003093633170000023
表示无人机在第t时隙与用户k之间的距离,Nt是无人机的发射天线的数目;
无人机到IRS的信道以LoS信道为主,因此第t个时隙时无人机到IRS信道增益H(t)表示为:
Figure RE-FDA0003093633170000024
其中
Figure RE-FDA0003093633170000025
表示在第t时隙节点无人机和IRS之间的距离,gur表示数组响应阵列;
IRS到用户链路同时存在LoS和NLoS成分,因此,IRS到用户k的信道增益hk表示为:
Figure RE-FDA0003093633170000026
其中
Figure RE-FDA0003093633170000027
表示节点IRS到用户k的距离,ε为IRS到用户端路径损耗指数,β为瑞利因子,
Figure RE-FDA0003093633170000028
Figure RE-FDA0003093633170000029
分别表示智能发射面到用户k链路的LoS和NLoS成分。
3.根据权利要求1所述的基于DDPG算法的IRS辅助无人机通信联合优化方法,其特征在于,步骤2中,用户k在第t时隙中的SINR计算公式为:
Figure RE-FDA00030936331700000210
其中
Figure RE-FDA0003093633170000031
为无人机波束成形矢量,σ2是加性高斯白噪声的功率,γk(t)表示用户k在第t时隙中的SINR;
***目标为联合设计无人机波束成形矢量
Figure RE-FDA0003093633170000032
IRS无源波束成形相移矩阵
Figure RE-FDA0003093633170000033
和无人机飞行轨迹
Figure RE-FDA0003093633170000034
来最大化和速率,该优化问题表述为:
Figure RE-FDA0003093633170000035
s.t.||q(t+1)-q(t)||≤Dmax
q(0)=qI,q(T+1)=qF
Figure RE-FDA0003093633170000036
Figure RE-FDA0003093633170000037
其中
Figure RE-FDA0003093633170000038
是无人机在单个时隙中行驶的最大水平距离,Vmax是无人机最大行驶速度,单位为m/s,qI和qF分别为无人机的水平坐标中的初始值和最终值,Pmax表示无人机的最大发射功率。
4.根据权利要求1所述的基于DDPG算法的IRS辅助无人机通信联合优化方法,其特征在于,步骤3中,建立深度强化学习模型的马尔可夫过程为:
步骤3-1、状态空间S:状态s(t)由第t时间步的无人机发射功率和用户接收功率、第(t-1)步的动作、信道矩阵{Gk(t),H(t),hk},k∈K决定;在构造状态s中,如果涉及到复数,则将复数的实部和虚部提取出来被分离为独立的输入端口;
步骤3-2、动作空间A:动作a(t)是由优化变量波束成形矩阵B、无源波束成形相移矩阵Θ和轨迹q构成;同样,为了解决实际输入问题,在t时间步将Bk(t)=|Re{Bk(t)}|+|Im{Bk(t)}|,k∈K和Θ(t)=|Re{Θ(t)}|+|Im{Θ(t)}|分为实部和虚部;
步骤3-3、即时奖励R:确保无人机为所有用户提供服务,并基于优化问题奖励函数为
Figure RE-FDA0003093633170000039
考虑到无模型的强化框架,在有限时间T对学习最佳策略进行建模以获得最大的长期奖励
Figure RE-FDA00030936331700000310
状态作用值函数Qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望;通过Q学习算法可搜索最优策略π*,在最优策略π*下定义的Q值更新函数为:
Figure RE-FDA0003093633170000041
其中χ∈(0,1]为折扣因子,r(t+1)(s(t)=s,a(t),π=π*)为在t时刻状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t+1),s′为无人机在(t+1)时刻的状态,a′为无人机在(t+1)时刻的动作,
Figure RE-FDA0003093633170000042
是采取动作a从状态s过渡到下一个状态s′的转移概率。
5.根据权利要求1所述的基于DDPG算法的IRS辅助无人机通信联合优化方法,其特征在于,步骤4中所述利用DDPG算法优化深度强化学习模型,具体包括以下步骤:
步骤4-1、训练回合数ep初始化为0;
步骤4-2、ep回合中的时间步t初始化为0;
步骤4-3、在线Actor策略网络根据输入状态s(t),输出动作a(t)并获取即时奖励r(t+1),同时转换到下一状态s(t+1),获取训练数据集(s(t),a(t),r(t+1),s(t+1));
步骤4-4、将训练数据集(s(t),a(t),r(t+1),s(t+1))存储到经验回放池记忆库D中;
步骤4-5、从目标Critic评论网络得到Q值方程
Figure RE-FDA0003093633170000043
步骤4-6、从经验回放池D中随机采样一小批W数量样本构成数据集,发送给在线Actor策略网络、在线Critic评论网络、目标Actor策略网络和目标Critic评论网络;
步骤4-7、根据采样得到的W数量样本,目标Actor策略网络根据当前的状态s(t)输出动作a(t),目标Critic评论网络根据当前的状态s(t)和目标Actor策略网络输出动作a(t),输出Q值函数
Figure RE-FDA0003093633170000044
的损失函数梯度
Figure RE-FDA0003093633170000045
在线Critic评论网络根据当前(s(t),a(t),r(t+1))输出Q值函数
Figure RE-FDA0003093633170000046
给的抽样策略梯度
Figure RE-FDA0003093633170000047
和损失函数梯度
Figure RE-FDA0003093633170000048
根据损失函数梯度
Figure RE-FDA0003093633170000049
更新在线Critic 评论网络参数
Figure RE-FDA0003093633170000051
在线Actor策略网络将动作a(t)输出给抽样策略梯度
Figure RE-FDA0003093633170000052
根据抽样策略梯度更新在线Actor策略网络参数
Figure RE-FDA0003093633170000053
步骤4-8、根据在线Critic评论网络参数
Figure RE-FDA0003093633170000054
和在线Actor策略网络参数
Figure RE-FDA0003093633170000055
更新目标Critic评论网络参数
Figure RE-FDA0003093633170000056
和目标Actor策略网络参数
Figure RE-FDA0003093633170000057
Figure RE-FDA0003093633170000058
Figure RE-FDA0003093633170000059
其中τc和τa分别是用于更新目标Critic评论网络和目标Actor策略网络权重的软更新速率;
步骤4-9、判断是否满足t<T,T为ep回合中总时间步,若是则t=t+1,返回步骤4-3,若不是,则进入步骤4-10;
步骤4-10、判断是否满足轮数ep<EP,EP为总回合数,若是则ep=ep+1,返回步骤4-2,若不是则优化结束,得到优化后的强化学习框架。
6.根据权利要求5所述的基于DDPG算法的IRS辅助无人机通信联合优化方法,其特征在于,更新梯度公式为:
Figure RE-FDA00030936331700000510
Figure RE-FDA00030936331700000511
其中a′是从目标Actor策略网络输出的动作,
Figure RE-FDA00030936331700000512
表示在给定输入状态s(t)下为在线Actor策略网络参数为
Figure RE-FDA00030936331700000513
所输出的动作,
Figure RE-FDA00030936331700000514
是在线Actor策略网络参数为
Figure RE-FDA00030936331700000515
的梯度。
CN202110353953.6A 2021-04-01 2021-04-01 基于ddpg算法的irs辅助无人机通信联合优化方法 Active CN113162679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110353953.6A CN113162679B (zh) 2021-04-01 2021-04-01 基于ddpg算法的irs辅助无人机通信联合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110353953.6A CN113162679B (zh) 2021-04-01 2021-04-01 基于ddpg算法的irs辅助无人机通信联合优化方法

Publications (2)

Publication Number Publication Date
CN113162679A true CN113162679A (zh) 2021-07-23
CN113162679B CN113162679B (zh) 2023-03-10

Family

ID=76885904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110353953.6A Active CN113162679B (zh) 2021-04-01 2021-04-01 基于ddpg算法的irs辅助无人机通信联合优化方法

Country Status (1)

Country Link
CN (1) CN113162679B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113507304A (zh) * 2021-07-24 2021-10-15 大连理工大学 一种智能反射面辅助的无人机安全通信方法
CN113613273A (zh) * 2021-08-09 2021-11-05 重庆邮电大学 一种智能超表面辅助无线供电网络的稳健能效优化方法
CN113645635A (zh) * 2021-08-12 2021-11-12 大连理工大学 智能反射面辅助的高能效无人机通信***的设计方法
CN113708886A (zh) * 2021-08-25 2021-11-26 中国人民解放军陆军工程大学 无人机抗干扰通信***及联合轨迹与波束成形优化方法
CN113784314A (zh) * 2021-11-12 2021-12-10 成都慧简联信息科技有限公司 一种智能反射表面辅助下的无人机数据与能量传输方法
CN113965245A (zh) * 2021-09-30 2022-01-21 广西电网有限责任公司柳州供电局 基于opgw接头盒的智能反射面通信***资源优化方法
CN113993107A (zh) * 2021-10-26 2022-01-28 南京航空航天大学 一种基于多约束构建穿越障碍区域的无人机中继网络方法
CN114025330A (zh) * 2022-01-07 2022-02-08 北京航空航天大学 一种空地协同的自组织网络数据传输方法
CN114051204A (zh) * 2021-11-08 2022-02-15 南京大学 一种基于智能反射面的无人机辅助通信方法
CN114124264A (zh) * 2021-11-26 2022-03-01 江苏科技大学 基于智能反射面时变反射相位的无人机信道模型建立方法
CN114257298A (zh) * 2022-01-17 2022-03-29 电子科技大学 智能反射表面相移和无人机路径规划方法
CN114337744A (zh) * 2021-12-31 2022-04-12 东南大学 非完美信道状态下的移动中继辅助鲁棒mimo高速通信传输方法
CN114422363A (zh) * 2022-01-11 2022-04-29 北京科技大学 一种无人机搭载ris辅助通信***容量优化方法及装置
CN114422056A (zh) * 2021-12-03 2022-04-29 北京航空航天大学 基于智能反射面的空地非正交多址接入上行传输方法
CN114630297A (zh) * 2022-03-21 2022-06-14 河海大学 一种携带智能反射面的无人机中继的位置优化方法
CN114819785A (zh) * 2022-01-25 2022-07-29 重庆邮电大学 一种基于强化学习的陆空联合轨迹优化与资源分配方法
CN114826380A (zh) * 2022-04-22 2022-07-29 昆明理工大学 一种基于深度强化学习算法的无人机辅助空地通信优化算法
CN114938498A (zh) * 2022-03-29 2022-08-23 成都理工大学 智能反射面辅助的无人机使能的无线传感网数据收集方法
CN114980169A (zh) * 2022-05-16 2022-08-30 北京理工大学 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
CN115047912A (zh) * 2022-07-14 2022-09-13 北京航空航天大学 一种基于强化学习的无人机集群自适应自重构方法及***
CN115334519A (zh) * 2022-06-30 2022-11-11 北京科技大学 一种无人机irs网络中用户关联与相移优化方法及***
CN116193476A (zh) * 2023-02-27 2023-05-30 重庆控环科技集团有限公司 考虑能耗中断的无人机通信资源分配方法及***
CN116208510A (zh) * 2022-12-12 2023-06-02 重庆邮电大学 一种基于深度强化学习的智能反射面元素智能激活方法
CN116390056A (zh) * 2023-04-10 2023-07-04 重庆邮电大学 Star-ris辅助的车联网sr***链路优化方法
CN116405111A (zh) * 2023-06-09 2023-07-07 山东科技大学 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN116963183A (zh) * 2023-07-31 2023-10-27 中国矿业大学 一种智能反射面辅助的矿山物联网安全卸载方法
CN117835463A (zh) * 2023-12-27 2024-04-05 武汉大学 基于深度强化学习的空地自组通信网络时空动态部署方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112118556A (zh) * 2020-03-02 2020-12-22 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112118556A (zh) * 2020-03-02 2020-12-22 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUE LI等: "Deep Reinforcement Learning With Application to Air Confrontation Intelligent Decision-Making of Manned/Unmanned Aerial Vehicle Cooperative System", 《IEEE》 *

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113507304A (zh) * 2021-07-24 2021-10-15 大连理工大学 一种智能反射面辅助的无人机安全通信方法
CN113507304B (zh) * 2021-07-24 2022-05-13 大连理工大学 一种智能反射面辅助的无人机安全通信方法
CN113613273A (zh) * 2021-08-09 2021-11-05 重庆邮电大学 一种智能超表面辅助无线供电网络的稳健能效优化方法
CN113613273B (zh) * 2021-08-09 2023-12-26 浙江中蓝创新科技股份有限公司 一种智能超表面辅助无线供电网络的稳健能效优化方法
CN113645635A (zh) * 2021-08-12 2021-11-12 大连理工大学 智能反射面辅助的高能效无人机通信***的设计方法
CN113645635B (zh) * 2021-08-12 2022-05-13 大连理工大学 智能反射面辅助的高能效无人机通信***的设计方法
WO2023015659A1 (zh) * 2021-08-12 2023-02-16 大连理工大学 智能反射面辅助的高能效无人机通信***的设计方法
CN113708886A (zh) * 2021-08-25 2021-11-26 中国人民解放军陆军工程大学 无人机抗干扰通信***及联合轨迹与波束成形优化方法
CN113965245A (zh) * 2021-09-30 2022-01-21 广西电网有限责任公司柳州供电局 基于opgw接头盒的智能反射面通信***资源优化方法
CN113993107A (zh) * 2021-10-26 2022-01-28 南京航空航天大学 一种基于多约束构建穿越障碍区域的无人机中继网络方法
CN114051204A (zh) * 2021-11-08 2022-02-15 南京大学 一种基于智能反射面的无人机辅助通信方法
CN114051204B (zh) * 2021-11-08 2022-08-09 南京大学 一种基于智能反射面的无人机辅助通信方法
CN113784314B (zh) * 2021-11-12 2022-02-15 成都慧简联信息科技有限公司 一种智能反射表面辅助下的无人机数据与能量传输方法
CN113784314A (zh) * 2021-11-12 2021-12-10 成都慧简联信息科技有限公司 一种智能反射表面辅助下的无人机数据与能量传输方法
CN114124264A (zh) * 2021-11-26 2022-03-01 江苏科技大学 基于智能反射面时变反射相位的无人机信道模型建立方法
CN114124264B (zh) * 2021-11-26 2023-09-22 江苏科技大学 基于智能反射面时变反射相位的无人机信道模型建立方法
CN114422056A (zh) * 2021-12-03 2022-04-29 北京航空航天大学 基于智能反射面的空地非正交多址接入上行传输方法
CN114337744A (zh) * 2021-12-31 2022-04-12 东南大学 非完美信道状态下的移动中继辅助鲁棒mimo高速通信传输方法
CN114337744B (zh) * 2021-12-31 2024-05-10 东南大学 非完美信道状态下的移动中继辅助鲁棒mimo高速通信传输方法
CN114025330B (zh) * 2022-01-07 2022-03-25 北京航空航天大学 一种空地协同的自组织网络数据传输方法
CN114025330A (zh) * 2022-01-07 2022-02-08 北京航空航天大学 一种空地协同的自组织网络数据传输方法
CN114422363A (zh) * 2022-01-11 2022-04-29 北京科技大学 一种无人机搭载ris辅助通信***容量优化方法及装置
CN114257298A (zh) * 2022-01-17 2022-03-29 电子科技大学 智能反射表面相移和无人机路径规划方法
CN114257298B (zh) * 2022-01-17 2022-09-27 电子科技大学 智能反射表面相移和无人机路径规划方法
CN114819785A (zh) * 2022-01-25 2022-07-29 重庆邮电大学 一种基于强化学习的陆空联合轨迹优化与资源分配方法
CN114630297B (zh) * 2022-03-21 2024-04-19 河海大学 一种携带智能反射面的无人机中继的位置优化方法
CN114630297A (zh) * 2022-03-21 2022-06-14 河海大学 一种携带智能反射面的无人机中继的位置优化方法
CN114938498A (zh) * 2022-03-29 2022-08-23 成都理工大学 智能反射面辅助的无人机使能的无线传感网数据收集方法
CN114938498B (zh) * 2022-03-29 2023-10-27 成都理工大学 智能反射面辅助的无人机使能的无线传感网数据收集方法
CN114826380B (zh) * 2022-04-22 2023-08-08 昆明理工大学 一种基于深度强化学习算法的无人机辅助空地通信优化算法
CN114826380A (zh) * 2022-04-22 2022-07-29 昆明理工大学 一种基于深度强化学习算法的无人机辅助空地通信优化算法
CN114980169A (zh) * 2022-05-16 2022-08-30 北京理工大学 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
CN115334519B (zh) * 2022-06-30 2024-01-26 北京科技大学 一种无人机irs网络中用户关联与相移优化方法及***
CN115334519A (zh) * 2022-06-30 2022-11-11 北京科技大学 一种无人机irs网络中用户关联与相移优化方法及***
CN115047912B (zh) * 2022-07-14 2024-06-14 北京航空航天大学 一种基于强化学习的无人机集群自适应自重构方法及***
CN115047912A (zh) * 2022-07-14 2022-09-13 北京航空航天大学 一种基于强化学习的无人机集群自适应自重构方法及***
CN116208510A (zh) * 2022-12-12 2023-06-02 重庆邮电大学 一种基于深度强化学习的智能反射面元素智能激活方法
CN116193476B (zh) * 2023-02-27 2023-09-12 重庆控环科技集团有限公司 考虑能耗中断的无人机通信资源分配方法及***
CN116193476A (zh) * 2023-02-27 2023-05-30 重庆控环科技集团有限公司 考虑能耗中断的无人机通信资源分配方法及***
CN116390056B (zh) * 2023-04-10 2024-05-24 重庆邮电大学 Star-ris辅助的车联网sr***链路优化方法
CN116390056A (zh) * 2023-04-10 2023-07-04 重庆邮电大学 Star-ris辅助的车联网sr***链路优化方法
CN116405111B (zh) * 2023-06-09 2023-08-15 山东科技大学 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN116405111A (zh) * 2023-06-09 2023-07-07 山东科技大学 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN116963183A (zh) * 2023-07-31 2023-10-27 中国矿业大学 一种智能反射面辅助的矿山物联网安全卸载方法
CN116963183B (zh) * 2023-07-31 2024-03-08 中国矿业大学 一种智能反射面辅助的矿山物联网安全卸载方法
CN117835463A (zh) * 2023-12-27 2024-04-05 武汉大学 基于深度强化学习的空地自组通信网络时空动态部署方法
CN117835463B (zh) * 2023-12-27 2024-07-19 武汉大学 基于深度强化学习的空地自组通信网络时空动态部署方法

Also Published As

Publication number Publication date
CN113162679B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
Bayerlein et al. Trajectory optimization for autonomous flying base station via reinforcement learning
Huang et al. Deep reinforcement learning for UAV navigation through massive MIMO technique
CN114422056B (zh) 基于智能反射面的空地非正交多址接入上行传输方法
CN113162682B (zh) 一种基于pd-noma的多波束leo卫星***资源分配方法
Faisal et al. Machine learning approaches for reconfigurable intelligent surfaces: A survey
Zhao et al. Simultaneously transmitting and reflecting reconfigurable intelligent surface (STAR-RIS) assisted UAV communications
CN114422363B (zh) 一种无人机搭载ris辅助通信***容量优化方法及装置
CN113395654A (zh) 一种边缘计算***的多无人机任务卸载和资源分配的方法
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN111526592B (zh) 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN113316169B (zh) 一种面向智慧港口的uav辅助通信能效优化方法及装置
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN116436512A (zh) 一种ris辅助通信的多目标优化方法、***及设备
CN114980169A (zh) 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
CN114885340B (zh) 一种基于深度迁移学习的超密集无线网络功率分配方法
Park et al. Joint trajectory and resource optimization of MEC-assisted UAVs in sub-THz networks: A resources-based multi-agent proximal policy optimization DRL with attention mechanism
Nasr-Azadani et al. Single-and multiagent actor–critic for initial UAV’s deployment and 3-D trajectory design
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及***
CN114980126A (zh) 基于深度确定性策略梯度算法的无人机中继通信***的实现方法
CN116704823B (zh) 基于强化学习的无人机智能轨迹规划和通感资源分配方法
CN116684852A (zh) 一种山地茂林环境无人机通信资源与定位的联合优化方法
CN116774723A (zh) 一种干扰环境下基于深度强化学习的无人机轨迹规划方法
Evmorfos et al. Deep actor-critic for continuous 3D motion control in mobile relay beamforming networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant