CN113162679A

CN113162679A - 基于ddpg算法的irs辅助无人机通信联合优化方法

Info

Publication number: CN113162679A
Application number: CN202110353953.6A
Authority: CN
Inventors: 王保云; 熊磊; 代海波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-07-23
Anticipated expiration: 2041-04-01
Also published as: CN113162679B

Abstract

本发明所述的基于DDPG算法的IRS辅助无人机通信联合优化方法通过部署智能反射面和多个地面用户的坐标，无人机携带多根天线情况下根据无人机起始位置和最终位置二维坐标两点成线原则的设计移动轨迹，通过可自主学习且泛化能力强的智能决策方法，从而获得速率最大化的波束成形和轨迹。本发明所述的有益效果为：所述方法可显著提升无人机空中基站建立空‑地通信***的传输速率，通过智能反射面(Intelligent Reflecting Surface，IRS)将无人机到单个用户单链路信道近似为多链路信道，来达到增强通信信号提升对用户服务性能，采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行联合优化，可同时获得联合优化解。

Description

基于DDPG算法的IRS辅助无人机通信联合优化方法

技术领域

本发明涉及通信领域，具体是涉及一种基于DDPG算法的IRS辅助无人机通信联合优化方法。

背景技术

面对6G中广覆盖和高可靠的通信需求，无人机辅助通信在提高通信网络的覆盖范围和应急通信方面具有无可比拟的优势，同时也面临着提高能效实现可靠通信的挑战。凭借灵活部署和视距无线传输等固有优势，高机动性能无人机作为空中通信平台已广泛部署于各种无线通信场景中，一般通过联合优化无人机轨迹和通信资源分配提高通信质量；此外，随着无线网络的容量成倍增加，为了满足多媒体访问对高数据和速率快速增长的需求，可以通过无人机部署天线阵列无线通信来提高网络容量。

无人机和地面用户之间存在障碍物的遮挡会大大降低通信的性能，为了改善传播环境并提高通信质量，智能反射面(Intelligent Reflecting Surface，IRS)技术引起了广泛的关注。IRS可以通过反射信号绕过障碍物以增强用户接受的信号， IRS是由多个可重构反射元素组成，IRS中的每个元素都可以通过可控的相移来反射入射信号，通过共同调整所有元素的相移，以实现所需接收器上来自不同传输路径的信号相位对准，这称为无源波束成形，从而增强信号和提高可达速率。与传统中继相比，IRS仅反射从发射机到接收机的信号，不会引起额外的接收噪声，反射面成本低廉，可普遍部署在建筑物外墙中以协助无人机通信。

在IRS辅助无人机通信场景中，通过部署IRS技术应用到无人机通信中可以提高传输速率，但是在求解多变量耦合的优化问题时，多数是基于数学方式的交替化技术联合优化求解，使用了复杂的数学公式和数值优化技术对优化问题进行化简，此外，在没有确切情况下找到最佳策略可能很棘手而造成计算时间长。最近，无规模人工智能(ArtificialIntelligence，AI)作为一项技术处理数学上难以解决的非线性非凸问题和高计算问题。AI技术对具有大量阵列元素的大规模多输入多输出(Multiple Input Multiple Output，MIMO)***最为有吸引力，由于设计超大尺寸优化，优化问题变得不容易。周等人提出深度学习(Deep Learning,DL) 用于通过建立信道之间的映射关系获得MIMO***的波束成形矩阵和预编码设计。实际上，基于DL方法能够利用离线预测降低复杂性和计算时间，但是通常需要详尽的样本库来进行在线培训。同时，在无线通信***的设计中也采用了深度强化学习(Deep Reinforcement Learning,DRL)技术，该技术在神经网络训练中具有DL的优势，并提高了学习速度和强化学习(Reinforcement Learning,RL) 算法的性能。但是，大多数RL可能并不总是适合处理联合优化问题中的连续和高维动作空间。DRL对于无线信道随时间变化的通信***特别有益，DRL能够允许无需了解信道模型和移动性模型，只需要了解有关无线电信道的知识即可，从而通过观察来自环境的收益并找出复杂的优化问题的解决方案来进行有效的算法设计。DRL方法已在一些IRS辅助通信和无人机通信网络中使用，然而对于IRS辅助无人机通信中，由于无人机是能量有限的设备，如何有效地联合优化波束成形和无人机轨迹使得速率最大化变成了一个很重要的问题。

发明内容

本发明的目的是针对IRS辅助无人机多输入单输出(Multiple InputSingleOutput，MISO)多用户通信应用场景，提供了一种基于DRL的深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法的联合优化方法。

为解决上述技术问题，本发明所述的基于DDPG算法的IRS辅助无人机通信联合优化方法，其采用的技术方案是：所述联合优化方法基于IRS辅助无人机通信***，所述通信***包括IRS、旋转翼无人机，所述旋转翼无人机上安装若干根用于波束成形的天线，所述旋转翼无人机在固定高度H飞行作为空中基站服务K个单天线用户的下行传输***，所述用户的集合为

所述 IRS接收无人机信号并将其通过反射信号绕过障碍物传输给用户；

所述联合优化方法的步骤为：

步骤1、建立空对地通信模型：考虑在无人机通信中，周围很可能存在许多障碍物，致使无人机到K个用户的视距(Line of Sight，LoS)链路被堵塞，通过部署 IRS，可以创建多个LoS链路增强通信，在此情况下，对无人机基站和地面用户之间的信道、无人机和IRS之间的信道和IRS和用户之间的信道进行建模，求解三者的信道增益；

步骤2、根据三者的信道增益，获得无人机到地面用户在时隙t的数据传输可达和速率优化问题；

步骤3：根据通信***中无人机的发射功率波束成形约束、运动轨迹约束， IRS无源波束成形相移约束和用户的数据传输可达和速率，建立深度强化学习模型；

步骤4：利用DDPG算法优化强化学习模型；

步骤5：根据优化后的深度强化学习模型获得联合优化的解，得到优化的用户可达数据、速率和无人机的运动轨迹。

进一步的，所述的步骤1中IRS节点和K个地面用户分布以及无人机进行如下定义：

所有通信节点建立三维笛卡尔坐标系，部署K个地面用户的和固定Z高度的IRS配有M个反射单元并且每个反射单元的相位可以调整接收信号，则第k个用户和IRS的水平坐标为w_k＝[x_k,y_k]^T，w_R＝[x_R,y_R]^T，其中k∈K，K是地面用户节点总数；

无人机在任务周期T(T>0)内持续地向用户发射信号,无人机飞行周期T以步长δ_t分为N个等距时隙，T＝Nδ_t；在t∈[0,T]时刻，无人机的平面坐标定义为q(t)＝[x(t),y(t)]^T，其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标； IRS在第t个时隙中的相移矩阵为

diag{·}表示对角矩阵，对角矩阵

其中θ_m(t)表示IRS在第t个时隙的第m个反射单元的相移，其中m∈M，M是IRS单元总数；

无人机到用户的LoS路径被堵塞的情况下，无人机到用户的信道被建模为Rician衰弱信道，无人机到用户k在第t时隙的信道增益表示为：

其中ρ表示在参考距离d₀＝1m时的信道增益，κ是无人机与用户链路的路径损耗指数，g_uk是具有零均值和单位方差的复高斯随机向量；

表示无人机在第t时隙与用户k之间的距离，N_t是无人机的发射天线的数目；

无人机到IRS的信道以LoS信道为主，因此第t个时隙时无人机到IRS信道增益H(t)表示为：

其中

表示在第t时隙节点无人机和IRS之间的距离，g_ur表示数组响应阵列；

IRS到用户链路同时存在LoS和NLoS成分，因此，IRS到用户k的信道增益h_k表示为：

其中

表示节点IRS到用户k的距离，ε为IRS到用户端路径损耗指数，β为瑞利因子。

和

分别表示智能发射面到用户k链路的 LoS和NLoS成分。

进一步的，步骤2中，用户k在第t时隙中的信干噪比(Signal to InterferencePlus Noise Ratio，SINR)计算公式如下：

其中

为无人机波束成形矢量，σ²是加性高斯白噪声的功率，γ_k(t)表示用户k在第t时隙中的SINR。

***目标为联合设计无人机波束成形矢量

IRS无源波束成形相移矩阵

和无人机飞行轨迹

来最大化和速率，该优化问题表述为：

其中

是无人机在单个时隙中行驶的最大水平距离，V_max是无人机最大行驶速度，单位为m/s，q_I和q_F分别为无人机的水平坐标中的初始值和最终值，P_max表示无人机的最大发射功率。

进一步的，步骤3中，建立深度强化学习模型的马尔可夫过程为：

步骤3-1、状态空间S：状态s^(t)由第t时间步的无人机发射功率和用户接收功率、第(t-1)步的动作、信道矩阵{G_k(t)，H(t)，h_k}，k∈K决定；在构造状态s 中，如果涉及到复数，则将复数的实部和虚部提取出来被分离为独立的输入端口；

步骤3-2、动作空间A：动作a^(t)是由优化变量波束成形矩阵B、无源波束成形相移矩阵Θ和轨迹q构成；同样，为了解决实际输入问题，在t时间步将 B_k(t)＝|Re{B_k(t)}|+|Im{B_k(t)}|，k∈K和Θ(t)＝|Re{Θ(t)}|+|Im{Θ(t)}|分为实部和虚部；

步骤3-3、即时奖励R：确保无人机为所有用户提供服务，并基于优化问题奖励函数为

考虑到无模型的强化框架，在有限时间T对学习最佳策略进行建模以获得最大的长期奖励

状态作用值函数Q_π(s^(t)，a^(t))表示在给定策略π，状态s^(t)下采取动作a^(t)而获得的累计奖励期望；Q学习不依赖环境的先验知识，只需要不断的对Q(s^(t)，a^(t))迭代到最优值Q^*(s^(t)，a^(t))，就能获得最优策略π^*；通过Q学习算法可搜索最优策略π^*，在最优策略π^*下定义的Q值更新函数为：

其中χ∈(0，1]为折扣因子，r^(t+1)(s^(t)＝s，a^(t)，π＝π^*)为在t时刻状态s^(t)，动作a^(t)和最优策略π^*下得到的即时奖励r^(t+1)，s′为无人机在(t+1)时刻的状态，a′为无人机在(t+1)时刻的动作，

是采取动作a从状态s 过渡到下一个状态s′的转移概率。

进一步的，步骤4中所述利用DDPG算法优化深度强化学习模型，具体包括以下步骤：

步骤4-1、训练回合数ep初始化为0；

步骤4-2、ep回合中的时间步t初始化为0；

步骤4-3、在线Actor策略网络根据输入状态s^(t)，输出动作a^(t)并获取即时奖励r^(t ⁺¹⁾，同时转换到下一状态s^(t+1)，获取训练数据集(s^(t),a^(t),r^(t+1),s^(t+1))；

步骤4-4、将训练数据集(s^(t),a^(t),r^(t+1),s^(t+1))存储到经验回放池记忆库D中；

步骤4-5、从目标Critic评论网络得到Q值方程

步骤4-6、从经验回放池D中随机采样一小批W数量样本构成数据集，发送给在线Actor策略网络、在线Critic评论网络、目标Actor策略网络和目标Critic 评论网络；

步骤4-7、根据采样得到的W数量样本，目标Actor策略网络根据当前的状态s^(t)输出动作a^(t)，目标Critic评论网络根据当前的状态s^(t)和目标Actor策略网络输出动作a^(t)，输出Q值函数

的损失函数梯度

在线 Critic评论网络根据当前(s^(t),a^(t),r^(t+1))输出Q值函数

给的抽样策略梯度

和损失函数梯度

根据损失函数梯度

更新在线Critic 评论网络参数

在线Actor策略网络将动作a^(t)输出给抽样策略梯度

根据抽样策略梯度更新在线Actor策略网络参数

步骤4-8、根据在线Critic评论网络参数

和在线Actor策略网络参数

更新目标Critic评论网络参数

和目标Actor策略网络参数

其中τ_c和τ_a分别是用于更新目标Critic评论网络和目标Actor策略网络权重的软更新速率；

步骤4-9、判断是否满足t<T，T为ep回合中总时间步，若是则t＝t+1，返回步骤4-3，若不是，则进入步骤4-10；

步骤4-10、判断是否满足轮数ep<EP，EP为总回合数，若是则ep＝ep+1，返回步骤4-2，若不是则优化结束，得到优化后的强化学习模型。

进一步的，更新梯度公式为：

其中a′是从目标Actor策略网络输出的动作，

表示在给定输入状态s^(t)下为在线Actor策略网络参数为

所输出的动作。

是在线Actor策略网络参数为

的梯度。

进一步的，步骤5具体为：输入IRS辅助无人机通信***的状态s^(t)，深度强化学习模型根据状态学习训练得出最优动作a^(t)，可得到优化问题解和优化变量无人机的轨迹q。

本发明所述的有益效果为：本发明利用IRS和无人机辅助通信的相关信息，提出了深度强化学习策略，利用深度强化学习方法获得波束成形和轨迹联合优化策略，无人机通过选择合适的发射功率和运动轨迹，IRS通过选择合适无源波束成形相移来反射信号，来降低对用户之间的干扰，最大化用户可达信息速率，提高通信网络的吞吐量，符合绿色通信。

本发明使用DDPG算法可以有效解决联合优化问题，由于IRS辅助无人机通信***中多用户的干扰，优化问题是非凸的，并且最佳解决方案是未知的，使用基于DRL的DDPG算法，以找到可行的解决方案。该算法与数学交替优化方法不同，固定一个变量求解另一个变量并且使用了复杂的数学公式和数值优化技术，提出的DDPG算法共同优化变量无需了解无线环境的显示模型和特定数学公式，这样非常容易扩展到各种***设置，从神经网络中学习训练得到最优解决方案。具体而言，总速率被用作即时奖励来训练，通过观察奖励逐渐最大化和速率，并相应地迭代调整网络参数，另外由于无人机运动轨迹是连续的，DDPG算法设计解决离散动作空间，可在一系列高维动作空间中得到优化。

与现有无IRS部署通信方法相比，本发明以最大化用户到达和速率为目标，所提的DDPG联合优化方法通过共同优化波束成形、无人机轨迹实现信号对准达到增强通信质量的目的，显著提升无人机通信***场景中的速率。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

图1为本发明的IRS辅助无人机通信***模型图

图2位本发明的DDPG算法框架图

图3为本发明中无人机优化飞行轨迹图。

图4为本发明中DDPG算法在训练步数下的奖励图。

具体实施方式

本发明所述的基于DDPG算法的IRS辅助无人机通信联合优化方法，目的是通过联合优化波束成形和轨迹最大化速率，提高频谱利用率，利用深度学习方法将基于AC框架的DDPG算法运用到所述的通信***模型中，得到最优的约束变量，使其保证最大程度上提高通信网络容量。

所述联合优化方法基于IRS辅助无人机通信***，通信***包括一架旋转翼无人机在固定高度H飞行作为空中基站服务K个单天线用户的下行传输***，所有用户的集合为

为了补偿信号的快速衰落，无人机配备了用于波束成形的多根天线，部署一个IRS，用来提高用户接收速率。

在无人机沿着轨迹飞行过程中，地面上的IRS不消耗能量，IRS节点是全双工发送信息，每个通信链路之间无干扰，地面所有用户同时接收IRS节点附加的信息。

所述联合优化方法的步骤为：

步骤1：在所述***中，建立空对地通信模型：考虑在无人机通信中，周围很可能存在许多障碍物，致使无人机到K个用户的LoS链路被堵塞，通过部署 IRS，可以创建多个LoS链路增强通信，在此情况下，对无人机基站和地面用户之间的信道、无人机和IRS之间的信道和IRS和用户之间的信道进行建模，求解三者的信道增益。

如图1所示通信***模型，所有通信节点建立三维笛卡尔坐标系，部署K个地面用户的和固定Z高度的IRS，IRS配有M个反射单元并且每个反射单元的相位可以调整接收信号，则第k个用户和IRS的水平坐标为w_k＝[x_k,y_k]^T，w_R＝[x_R,y_R]^T，其中k∈K，K是地面用户节点总数。

无人机在任务周期T(T>0)内持续地向用户发射信号,无人机飞行周期T以步长δ_t分为N个等距时隙，T＝Nδ_t；在t∈[0,T]时刻，无人机的平面坐标定义为q(t)＝[x(t),y(t)]^T，其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标。 IRS在第t个时隙中的相移矩阵为

diag{·}表示对角矩阵，对角矩阵

其中θ_m(t)表示IRS在第t个时隙的第m个反射单元的相移，其中m∈M，M是IRS单元总数。

无人机到用户的LoS路径被堵塞的情况下，无人机到用户的信道被建模为 Rician衰弱信道，无人机到用户k在第t时隙的信道增益表示为：

其中ρ表示在参考距离d₀＝1m时的信道增益，κ是无人机与用户链路的路径损耗指数，g_uk是具有零均值和单位方差的复高斯随机向量。

表示无人机在第t时隙与用户k之间的距离，N_t是无人机的发射天线的数目。

其中

表示在第t时隙节点无人机和IRS之间的距离，g_ur表示数组响应阵列。

其中

和

分别表示IRS到用户k链路的LoS和 NLoS成分。

步骤2：根据三者的信道增益，获得无人机到地面用户在时隙t的数据传输可达和速率优化问题。

用户k在第t时隙中的SINR计算公式如下：

其中

为无人机波束成形矢量，σ²是加性高斯白噪声的功率。

***目标为联合设计无人机波束成形矢量

IRS无源波束成形相移矩阵

和无人机飞行轨迹

来最大化和速率，该优化问题可以表述为：

其中

步骤3：根据通信***中无人机的发射功率波束成形约束、运动轨迹约束， IRS无源波束成形相移约束和用户的数据传输可达和速率，建立深度强化学习框架。

为了高效解决无人机在连续移动过程中状态空间联合优化问题，以无人机为智能体，建立深度强化学习模型，利用无人机和IRS约束变量提出深度强化学习优化策略，通过联合优化无人机波束成形、IRS无源波束成形相移和无人机轨迹，实现高效的资源分配，提高***容量。

强化学习是通过智能体在指定场景中不断探索未知环境并与环境进行交互获得环境状态，通过不断的探索学习到最佳策略以获得最大的长期奖励。强化学习利用马尔可夫来简化求解过程，典型的马尔可夫过程主要由状态空间、动作空间和奖励函数列表组成。根据目标问题建立马尔可夫过程：

步骤3-1、状态空间：表示在时间步t观察到的状态，一组表征观察环境的结果。状态s^(t)由第t时间步的无人机发射功率和用户接收功率，第(t-1)步的动作，信道矩阵{G_k(t)，H(t)，h_k}，k∈K决定。由于神经网络的输入只能接收实数而不接收复数，因此在构造状态s中，如果涉及到复数，则将复数的实部和虚部提取出来被分离为独立的输入端口；

步骤3-2、动作空间：智能体在学习过程中选择的动作。动作a^(t)是由优化变量波束成形矩阵B、无源波束成形相移矩阵Θ和轨迹q构成；同样，为了解决实际输入问题，在t时间步将B_k(t)＝|Re{B_k(t)}|+|Im{B_k(t)}|，k∈K和Θ(t)＝|Re{Θ(t)}|+|Im{Θ(t)}|分为实部和虚部；

步骤3-3、即时奖励：智能体在给定状态s采取动作a获得的奖励，这也是一个性能指标r^(t)，来评估在即时刻t处于状态s^(t)执行动作a^(t)的程度；确保无人机为所有用户提供服务，并基于优化问题奖励函数为

本发明中，深度强化学习算法建立在Q学习的基础上，Q学习是一种无模型的学习算法；状态作用值函数Q_π(s^(t)，a^(t))表示在给定策略π，状态s^(t)下采取动作a^(t)而获得的累计奖励期望；Q学习不依赖环境的先验知识，只需要不断的对Q(s^(t)，a^(t))迭代到最优值Q^*(s^(t)，a^(t))，就能获得最优策略π^*；通过Q学习算法可搜索最优策略π^*，在最优策略π^*下定义的Q值更新函数为：

是采取动作a从状态s 过渡到下一个状态s′的转移概率。

步骤4：利用DDPG算法优化深度强化学习模型。

深度强化学习中的动作空间包括无人机波束成形、IRS无源波束成形相移矩阵和无人机轨迹三个变量，考虑无人机在一定范围内连续飞行，为了解决高维动作空间，尤其是连续空间中的联合优化问题你，将Q学习与神经网络结合，引入了一种基于演员-评论家(Actor-Critic,AC)框架的DDPG算法，通过学习训练优化这两个网络参数。DDPG算法采用强化学习的AC架构，由4个神经网络构成，2个结构相同的Actor策略网络，分别是在线Actor策略网络和目标Actor 策略网络；2个结构相同的Critic策略网络，分别是在线Critic策略网络和目标 Critic策略网络。AC网络相互依赖，相互影响都需要在训练过程中迭代优化。

Actor策略网络的输入是状态s^(t)，输出动作a^(t)，策略网络用于策略函数为

其中

为在线Actor策略网络参数，

参数朝着使Q值增大的方向更新。定义

其中E(·)表示求期望，

学习训练无人机的最优行为策略过程，即最大化

的过程。

Critic评论网络输入时无人机在t时刻中的状态s^(t)和采取的动作a^(t)，输出的是对应的

和下一个状态s^(t+1)，其中

为在线Critic评论网络参数，通过更新参数来降低目标网络和在线网络之间的损失函数：

其中

从目标Actor策略网络输出的动作。

DDPG算法中使用了经验回放池的方法，通过无人机与环境交互所得的样本数据存放至记忆单元，然后通过数据随机采样更新网络参；在进行联合优化训练学习时，将轮训练回合数中无人机与环境交互的信息以数据集 (s^(t),a^(t),r^(t+1),s^(t+1))的形式存放至回放记忆单元，使用使随机从回放单元抽取一组数据用于训练。经验池回放的方法有效提高了数据利用效率，随机采样的数据抽取方式保证了各数据之间的独立性，提高算法的收敛速度。

根据抽取样本(s^(t),a^(t),r^(t+1),s^(t+1))得到

和损失函数

使用梯度下降法来优化神经网络参数，参数更新梯度公式为：

DDPG算法中在线网络通过随机梯度下降算法更新参数，目标网络参数变化小，用于在训练过程中提供在线网络更新所需要的一些信息；在线网络参数实时更新，每过步数后，在线忘的参数会拷贝给目标网络，目标网络的引入使得学习过程更加稳定，训练易于收敛，经过迭代训练学习之后的神经网络输出的动作就是目标函数的最优解。

如图2所示，所述基于DDPG算法优化深度强化学习模型包括以下步骤：

步骤4-1、训练回合数ep初始化为0；

步骤4-2、ep回合中的时间步t初始化为0；

步骤4-5、从目标Critic评论网络得到Q值方程

的损失函数梯度

在线 Critic评论网络根据当前(s^(t),a^(t),r^(t+1))输出Q值函数

给的抽样策略梯度

和损失函数梯度

根据损失函数梯度

更新在线Critic 评论网络参数

在线Actor策略网络将动作a^(t)输出给抽样策略梯度

根据抽样策略梯度更新在线Actor策略网络参数

步骤4-8、根据在线Critic评论网络参数

和在线Actor策略网络参数

更新目标Critic评论网络参数

和目标Actor策略网络参数

步骤4-9、判断是否满足t<T，T为ep回合中总时间步，若是则t＝t+1，返回(3)，若不是，则进入(9)；

步骤4-10、判断是否满足轮数ep<EP，EP为总回合数，若是则ep＝ep+1，返回(2)，若不是则优化结束，得到优化后的强化学习框架。

步骤5：输入IRS辅助无人机通信***的状态s^(t)，深度强化学习模型根据状态学习训练得出最优动作a^(t)，可得到优化问题解和优化变量无人机的轨迹q。

利用DDPG算法训练好的深度强化学习模型，可以得到无人机的最佳功率分配和飞行轨迹策略，并在深度神经网络中动作中输出。

根据上述实例，进行数据仿真：

以下实例所提供的图以及模型中的具体参数值的设定主要是为了说明本发明的基本构想以及对发明做仿真验证，具体环境的应用环境中，可视实际场景和需求进行适当调整。

假设通信***有K＝4用户，无人机携带的天线数为N_t＝4，IRS的位置为 w_r＝[0,0]^T，地面用户K＝4随机且均匀分布在以(0,0)为中心，半径为70m的圆中，四个用户的坐标为：w₁＝[-30,10]^T、w₂＝[-20,50]^T、w₃＝[22,28]^T和 w₄＝[30,16]^T。无人机的初始位置和最终位置的水平坐标为q_I＝[-500,20]^T和 q_F＝[500,20]^T。无人机的高度H＝70m，IRS的高度Z＝40m；无人机在飞行周期中，最大速度为V_max＝25m/s，将链路的路径损耗指数和瑞利因子分别设置为κ＝3，ε＝2.2和β＝3dB；参考距离d₀＝1m处的信道功率增益ρ＝-20dB，噪声功率σ²＝-80dBm，无人机的最大发射功率为P_max＝20dB。

在基于DDPG深度强化学习中，演员网络和评论家网络设计了两个隐藏层的全连接神经网络，AdamPropOptimizer用作AC框架的优化器。仿真网络环境参数为训练总回合数为EP＝5000，每个回合数中训练总步数T＝20000，随机抽样一批数据数量W＝16，Actor网络和Critic网络的学习率都设置为0.001，未来折扣因子为χ＝0.99。

图3显示了无人机在不同飞行时间周期T的轨迹图，当T＝40时无人机从初始位置到最终位置所需的最短时间，以最大速度直线飞行。另一方面，随着T逐渐增大，当T＝100时无人机的飞行轨迹与之前的完全不同。无IRS情况下，无人机沿着相对直接的路径到达用户的位置，然后在用户位置上尽可能保持悬停，最终返回其最终位置。同时，无人机越快到达悬停点，平均求和率提高的程度大。在基于所提及的DDPG算法中，可观察到在无人机绕过地面用户，几乎直接飞向IRS，试图尽可能接近IRS位置上飞行，以增强接收信号的强度，提高多个空地面链路的信道增益，从而获得较好的通信质量。

提出DDPG算法的联合设计方案包括三个部分，即无人机波束形成，IRS 无源波束形成相移设计，和轨迹设计。为了评估本发明所提DDPG算法的长期***性能，将其与IRS采取随机相位和无IRS通信场景两个基准方案进行了比较。

图4显示在训练时间步长下，其中的平均奖励为用即时奖励的平均值

方法来计算平均奖励，其中R是最大步长。可以看出，奖励随着训练时间步长的增加而收敛，基于DDRG算法所获得的奖励优于两个基准方案，因为DDPG算法能够从环境学习中学习并调整优化变量以逼近最佳解，也同样表明部署IRS在改进通信***中也起着重要的作用。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.基于DDPG算法的IRS辅助无人机通信联合优化方法，其特征在于，所述联合优化方法基于IRS辅助无人机通信***，所述通信***包括IRS、旋转翼无人机，所述旋转翼无人机上安装若干根用于波束成形的天线，所述旋转翼无人机在固定高度H飞行作为空中基站服务K个单天线用户的下行传输***，所述IRS接收无人机信号并将其通过反射信号绕过障碍物传输给用户；

所述联合优化方法的步骤为：

步骤1、对无人机基站和K个地面用户之间的信道、无人机和IRS之间的信道及IRS和K个地面用户之间的信道进行建模，构成空对地通信模型，求解三者的信道增益；

步骤3：根据通信***中无人机的发射功率波束成形约束、运动轨迹约束，IRS无源波束成形相移约束和用户的数据传输可达和速率，建立深度强化学习模型；

步骤4：利用DDPG算法优化强化学习模型；

2.根据权利要求1所述的基于DDPG算法的IRS辅助无人机通信联合优化方法，其特征在于，所述步骤1中，IRS和K个地面用户分布以及无人机状态进行如下定义：

无人机在任务周期T(T>0)内持续地向用户发射信号,无人机飞行周期T以步长δ_t分为N个等距时隙，T＝Nδ_t；在t∈[0,T]时刻，无人机的平面坐标定义为q(t)＝[x(t),y(t)]^T，其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标；IRS在第t个时隙中的相移矩阵为

diag{·}表示对角矩阵，对角矩阵

其中

其中

表示节点IRS到用户k的距离，ε为IRS到用户端路径损耗指数，β为瑞利因子，

和

分别表示智能发射面到用户k链路的LoS和NLoS成分。

3.根据权利要求1所述的基于DDPG算法的IRS辅助无人机通信联合优化方法，其特征在于，步骤2中，用户k在第t时隙中的SINR计算公式为：

其中

为无人机波束成形矢量，σ²是加性高斯白噪声的功率，γ_k(t)表示用户k在第t时隙中的SINR；

***目标为联合设计无人机波束成形矢量

IRS无源波束成形相移矩阵

和无人机飞行轨迹

来最大化和速率，该优化问题表述为：

s.t.||q(t+1)-q(t)||≤D_max，

q(0)＝q_I，q(T+1)＝q_F

其中

4.根据权利要求1所述的基于DDPG算法的IRS辅助无人机通信联合优化方法，其特征在于，步骤3中，建立深度强化学习模型的马尔可夫过程为：

步骤3-1、状态空间S：状态s^(t)由第t时间步的无人机发射功率和用户接收功率、第(t-1)步的动作、信道矩阵{G_k(t),H(t),h_k}，k∈K决定；在构造状态s中，如果涉及到复数，则将复数的实部和虚部提取出来被分离为独立的输入端口；

步骤3-2、动作空间A：动作a^(t)是由优化变量波束成形矩阵B、无源波束成形相移矩阵Θ和轨迹q构成；同样，为了解决实际输入问题，在t时间步将B_k(t)＝|Re{B_k(t)}|+|Im{B_k(t)}|，k∈K和Θ(t)＝|Re{Θ(t)}|+|Im{Θ(t)}|分为实部和虚部；

状态作用值函数Q_π(s^(t),a^(t))表示在给定策略π，状态s^(t)下采取动作a^(t)而获得的累计奖励期望；通过Q学习算法可搜索最优策略π^*，在最优策略π^*下定义的Q值更新函数为：

其中χ∈(0,1]为折扣因子，r^(t+1)(s^(t)＝s,a^(t),π＝π^*)为在t时刻状态s^(t)，动作a^(t)和最优策略π^*下得到的即时奖励r^(t+1)，s′为无人机在(t+1)时刻的状态，a′为无人机在(t+1)时刻的动作，

是采取动作a从状态s过渡到下一个状态s′的转移概率。

5.根据权利要求1所述的基于DDPG算法的IRS辅助无人机通信联合优化方法，其特征在于，步骤4中所述利用DDPG算法优化深度强化学习模型，具体包括以下步骤：

步骤4-1、训练回合数ep初始化为0；

步骤4-2、ep回合中的时间步t初始化为0；

步骤4-3、在线Actor策略网络根据输入状态s^(t)，输出动作a^(t)并获取即时奖励r^(t+1)，同时转换到下一状态s^(t+1)，获取训练数据集(s^(t),a^(t),r^(t+1),s^(t+1))；

步骤4-5、从目标Critic评论网络得到Q值方程

步骤4-6、从经验回放池D中随机采样一小批W数量样本构成数据集，发送给在线Actor策略网络、在线Critic评论网络、目标Actor策略网络和目标Critic评论网络；

的损失函数梯度

在线Critic评论网络根据当前(s^(t),a^(t),r^(t+1))输出Q值函数

给的抽样策略梯度

和损失函数梯度

根据损失函数梯度

更新在线Critic 评论网络参数

在线Actor策略网络将动作a^(t)输出给抽样策略梯度

根据抽样策略梯度更新在线Actor策略网络参数

步骤4-8、根据在线Critic评论网络参数

和在线Actor策略网络参数

更新目标Critic评论网络参数

和目标Actor策略网络参数

步骤4-10、判断是否满足轮数ep<EP，EP为总回合数，若是则ep＝ep+1，返回步骤4-2，若不是则优化结束，得到优化后的强化学习框架。

6.根据权利要求5所述的基于DDPG算法的IRS辅助无人机通信联合优化方法，其特征在于，更新梯度公式为：

其中a′是从目标Actor策略网络输出的动作，

表示在给定输入状态s^(t)下为在线Actor策略网络参数为

所输出的动作，

是在线Actor策略网络参数为

的梯度。